JP2009151256A - 日本語の五十音図の各音等(濁音、半濁音、拗音、撥音等を含む)を識別及び摸擬をする手段としての規則。 - Google Patents
日本語の五十音図の各音等(濁音、半濁音、拗音、撥音等を含む)を識別及び摸擬をする手段としての規則。 Download PDFInfo
- Publication number
- JP2009151256A JP2009151256A JP2007341865A JP2007341865A JP2009151256A JP 2009151256 A JP2009151256 A JP 2009151256A JP 2007341865 A JP2007341865 A JP 2007341865A JP 2007341865 A JP2007341865 A JP 2007341865A JP 2009151256 A JP2009151256 A JP 2009151256A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- frequency
- vowel
- rule
- line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】 日本語の五十音図の各音等(濁音、半濁音、拗音、撥音を含む102個の音)の空気振動の性質を調べ、音の調子の高低或は音色に拘らず各音を規定する特性を抽出して各音ごとの規則とし、この規則に従って音声の識別及び合成をする。
識別するときは入力音声を一音ずつ分析しその結果をこの規則と照合し、五十音図の各音等のどの音に相当するかを判断する。合成のときはこの規則に従って、周波数特性、過渡特性等を設定し、別に発生させた基本波、高調波等に、これらの特性による振幅制限、過渡的変化等を与えて加算する。
【選択図】図1
Description
「音声工学」 板橋秀一編著 2005年 (株)森北出版 また、日本語の母音(ア、イ、ウ、エ、オ)は夫々特有の周波数特性を持ち、それによって相互に区別されると指摘されている。本発明はこの考え方に基づいている。「THE VOWEL ITS NATURE AND STRACTURE」T.CHIBA、M.KAJIYAMA 共著 1958年(復刻)PHONETIC SOCIETY OF JAPAN
日本語の五十音図の各音等(濁音、半濁音、拗音、撥音を含む102個の音)の空気の振動の振幅の観察、周波数分析、振幅や周波数特性の過渡的な変化の測定等を行い、発話者の相違、音の高低に拘らず各音夫々が持っている固有の特徴に基づき、母音(ア行の5個の音)については、個々の音を構成する正弦波群(以下構成要素と言う)のうち最大振幅の構成要素が存在する周波数領域、あるレベル範囲の構成要素が存在する必要がある周波数領域、及びあるレベル以上の構成要素が存在しない領域の3つの領域を定め、子音(カ行以下の各行の音)については、音の立ち上りに存在する夫々の行特有の振動(以下先行波と言う)の形状及び振動特性、先行波と後続母音との時間的間隔又は重畳の状況及び後続母音の周波数特性の過渡的な変化を規定した規則を作成する。
音声を識別する時は入力音声の振動の振幅及び周波数特性とそれらの過渡的な変化等を測定しその結果と上記の規則と照合することにより入力音声が五十音図の各音等のどの音に相当するか識別する。また構成要素、先行波等を上記の規則に従って組合せることにより五十音図の各音等の中の任意の一音を任意の高さで模擬する音を合成する。
第一は一つの母音の波形はほぼ同じ形の繰返しであること、即ち母音は一つの正弦波である基本波と相互の周波数差が基本波の周波数に等しいかほぼ等しい正弦波群(以下単に高調波群と言う)で構成されていると言うことである。以下、母音及び子音を構成する基本波及び高調波群を総称して構成要素と称する。
第二は上記の同じ波形の繰返しの周期は波形の立ち上りの時に変動していることである。この周期即ち基本波の周期の長さは立ち上り時から一周期毎にほぼ一様に短くなり、数周期乃至10数周期後にほぼ一定値に収束する。立ち上り時からの変化の幅は収束した値の数%乃至10数%である。時にはほぼ一様に長くなるように変化することもある。この様な変動を与えずに正弦波の構成要素で母音に似た波形を作っても機械的な音になるだけで人の声のようには聞えない。この変動は正弦波による模擬音声の合成には必須の要件である。
一つの母音例えば「ア」に就いて、測定結果に基づいて仮に特性曲線を定め、ある基本波の周波数を持つ構成要素の振幅をこの特性曲線に従って決めた波形の音が「ア」となることを確かめ、更に特性曲線、基本波の周波数を変えて同様のことを繰返し、次のような各領域を定めた。
最大振幅(0db)の構成要素が存在する周波数範囲を領域A、ある振幅レベルの範囲の高調波が存在する必要がある周波数範囲を領域B、及び或る振幅レベル以上の高調波が存在しない周波数範囲を領域Cとする。その他の母音についても同じ操作を繰返してA,B,及びCの各領域を定め、其れ等を表3及び図2乃至図6に示す通りに纏めて規則としたが、若干の注記を加える。
1. 以下の表及び図面に記入した数値には周波数値で約50Hz、レベル値で数dbの幅がある。
2. 基本波の振幅レベルは0〜−10数db程度。
3. 規定された領域外にある構成要素のレベルは近くの領域Bにある構成要素のレベルより低いことが多い。
4. 構成要素のレベルの変化で音色が変わる。例えば「ア」の場合、2500Hz以上の領域Bで構成要素のレベルが−40db付近では柔らかい「ア」音で、レベルが−30db程度以上となるとやや硬い音で明瞭になる。
5. 「ア」に於いて、0dbの構成要素が1050Hz以下の時、300〜700Hz付近の構成要素が−10db以上で、領域Bの構成要素が−10db以下ならば「オ」に近い「ア」の音となる。
カ行以下の各音は立ち上がりの過渡特性に各行特有の特徴がある。之は立ち上がり時先行する各行特有の振動(以下先行波と言う)と後続の「ア」行の各段の音(以下後続母音という)との組合せで、更にその母音の周波数特性の過渡的な変化が加わったものである。これに対応して後続母音の型を二つ決め、更に濁音に共通に含まれている特定の構成要素のグループ(濁音要素と称する)を導入した。これらと「ナ」行の先行波及び雑音を次の様に定義をしておく。
後続母音の型: 基本波及び全ての高調波がほぼ同時に立ち上がるものを「ア行1型」、約800Hz以上の高調波が数10ms程度遅れて立ち上がるものを「ア行2型」とする。
濁音要素: 濁音要素を構成する要素の存在する領域を図7に示す。
第一の領域は100〜800Hzで0〜−15db程度、
第二の領域は1400〜2200Hzで−10〜−20db程度
第三の領域は2200〜3200Hz、−20〜−40db程度である。
「ナ」行の先行波: 基本波が顕著で、2次、3次の高調波は之より数db乃至10数db低い。高次の要素は顕著ではない。図8に構成要素の存在する領域を示す。
雑音: 子音の性質を左右する顕著な雑音は次の二つがある。
(1)広帯域雑音:2〜5kHz程度の周波数範囲のほぼ一様なレベルの雑音
(2)低周波雑音:300〜800Hz程度の周波数のクリック的な雑音
1.「カ」行:先行波は後続母音とほぼ同じ構成要素をもつ波形で、後続母音との間に約10ms以上の間隔がある。先行波の幅が狭く、レベルが比較的高いと明瞭でやや硬い「カ」行の音となる。先行波の幅が広く、レベルが低いときには柔らかく、次第に「ア」行に近くなる。
2.「サ」行:100ms〜数100ms幅の広帯域雑音が先行する。そのレベルは雑音単独では殆ど認識出来ない程度。後続母音の高次の構成要素の立ち上りが遅い。
3.「タ」行:この行だけ二つの先行波を持つ。
(1)「タ」、「テ」、「ト」: 後続母音の直前に低周波雑音の先行波がある。後続母音の高次の構成要素の立ち上りが遅い。
(2)「チ」、「ツ」: 数10ms幅の広帯域雑音が先行、そのレベルは「サ」行の場合よりやや高く、後続母音との間に数msの間隔がある。後続母音の高次の構成要素の立ち上りが遅い。
4.「ナ」行:さきに定義した「ナ」行の先行波が数10ms先行し、さらにこれが後続母音に数10msの間重畳する。後続母音の高次の構成要素の立ち上りが遅い。
5.「ハ」行:先行波は20〜30ms程度の基本波、基本波の周波数に近い周波数の雑音が重畳していることもある。レベルは後続母音の−20db位である。
6.「マ」行:数10ms幅で濁音要素とほぼ同じ構成要素を持つ波形(以下濁音要素という)が先行、後続母音との間にごく僅かの間隙がある。レベルは−10db程度である。
7.「ヤ」行:先行波は「イ」音、後続は「ア」、「ウ」、「オ」の何れかとなる複合音で、その繋ぎ目に濁音要素が双方に重畳する。
8.「ラ」行:先行波は濁音要素、裾の幅が20〜30msの山形をしている。後続母音の立ち上りにも濁音要素が数10msの間重畳する。先行波の山の数が複数になるとRの音のような巻舌になる。山の形がはっきりせず、なだらかなときは、Lのような柔らかい音となる。
9.「ワ」行:「ウ」と「ア」及び「オ」と組合せた複合音である。
10.濁音:「カ」、「サ」、「タ」、「ハ」の各行の後続母音の立ち上り時に濁音要素が数10ms重畳している。但し「ザ」行の先行雑音の幅は20〜30ms、レベルはやや高い。
11.半濁音:先行波は20〜30ms幅の濁音要素、後続母音との間に僅かな間隙がある。後続母音の高次の構成要素の立ち上りが遅い。
12.拗音:先行波は各行の「イ」の段の音、後続は{ヤ}、「ユ」、「ヨ」何れかとの複合音である。
13.撥音「ン」:ほぼ「ナ」行の先行波と同じ。時には之に「ウ」音を先行波とすることもある。
母音は立上がり時を除いてその特性の時間的変化は少ないが子音は周波数−振幅−時間の3次元の特性で表されるから、夫々の音の規則を満足するように母音も含め各行の3次元の特性パターンの型紙を作成しておく。
入力音には短区間(例えば20ms程度)の周波数分析を行い、更に区間を数ms程度ずらして周波数分析を繰返して行い、その結果をさきに作成した型紙と照合し、最も良く適合する型紙の音として識別する。
このようにすれば発話者の如何に拘らず一音ずつの認識が出来るので例えばキーボードから1文字ずつ入力する代わりに音声で1文字ずつ入力することができる。
又、高調波群の周波数から基本周波数を抽出出来るから発話者の異同を推定することも可能である。
母音を1文字ずつ合成する手順を示す。
(1)音声の周波数範囲は4kHz以下とし、母音の規則に適合するように5つの母音「ア」、「イ」、「ウ」、「エ」、「オ」の周波数特性曲線を表す関数をつくる。折れ線、部分的な正弦波の組合せ、或は適当な補間関数の組合せなどにより作成する。
図25は「ア」の場合の例で、図中の破線で囲まれた範囲は母音の規則に示す領域A,B,Cに相当し、二つの曲線は上述の周波数特性曲線である。
(2)基本波は100〜400Hzの間の周波数をもつ正弦波とし、その高調波群と基本波の振幅レベルを前項の周波数特性曲線に従って決めた後、加算する。
図25の中のやや太い縦の数本の線は基本波の周波数を200Hzとした場合の基本波、高調波の例である。
(3)加算して得られた波形を増幅し、立ち上り、立ち下り、振幅などを決めて出力する。立ち上りの時、基本波の周期は所望の周波数に相当する周期より2〜3%長い周期から始め、徐々に短くして、数周期後に所望の周波数の周期に落ち着かせる。
(4)「イ」、「ウ」、「エ」、「オ」についても同様の手順で、夫々の構成要素の振幅を制限して加算し、出力する。
(5)周波数特性曲線の形で音色が変化するが、基本波の振幅、最大振幅の高調波の位置及びその他の高調波の数やレベルなどが影響する。
(6)同じ周波数特性曲線で、基本波の周波数が変われば出力する母音の音の高さや音色がが変わる。特に音色に拘らなければ基本波の周波数が変わっても周波数特性曲線を変える必要はない。
(7)普通の会話の基本波の周波数は、成人男性の場合100〜190Hz程度、成人女性の場合170〜280Hz程度、これ以上は子供のような高い声となる。
(1)濁音要素及び「ナ」行の先行波についても夫々さきに述べた定義及び図7、図8に示す領域に従って夫々の周波数特性曲線をつくり、母音と同様の手順で構成要素の振幅を制限して加算する。
(2)雑音は指定された周波数の数値の範囲の乱数を作りこれを周波数とする一様な振幅の正弦波を加算してつくる。乱数の数が多い程細かい雑音となるが計算時間が問題になる時は、予め計算して、広帯域雑音は300ms程度、低周波雑音は10ms程度の数列として準備しておく。
(3)子音の規則に従って各行の先行音及び後続母音等の関係を設定するため、仮の基準とする基本周波数をきめる。例えばこれを200Hzとする。
(4)各行について表3、表4及び表5の要領に従って先行波や後続母音等のレベル、時間関係等の設定を行い、仮の基本周波数200Hz、後続母音は「ア」として其の行の「ア」の段の音をだしてみる。不自然な点があれば設定を修正して同じ手順を繰返す。
(5)一つの基本周波数と「ア」の段の音で各行の先行波等の設定をすれば基本周波数や後続母音が変わっても設定を変更する必要はない。
ある音階に従って基本周波数を変化させれば上述の合成音声で簡単に歌を歌わせることが出来る。例えば、純正律音階の周波数比は下表の通りである。
先ず基本周波数Fpを決め、楽譜に示された夫々の音の音階に従って、周波数比MをFp
並べれば容易に歌を歌わせるこが出来る。
通常の合成に使う構成要素(基本波とその高調波群)の代わりに100〜4000程度の乱数を周波数(単位はHz)とする正弦波の振幅を夫々の特性関数によって制限して加算することにより母音、子音を合成すればささやき声となる。
ささやき声の子音の後続母音に相当する部分を短く(20ms程度以下)制限すれば無声子音を模擬することが出来る。
B: 必要な構成要素が存在する領域。
C: 構成要素が存在しない領域。
101 : 母音規則作成手順。
102 : 子音規則作成手順。
103 : 母音及び子音の音の規則。
104 : 声の識別。
105 : 声の合成。
Claims (3)
- 日本語の五十音図の各音等(濁音、半濁音、拗音、撥音を含む102個の音)の夫々の音について、音の高低や発話者の如何に拘らず個々の音に特有な空気中の振動特性を規定する次に示す規則。
即ち母音(ア行の5個の音)については、個々の音を構成する正弦波群(以下構成要素と言う)のうち最大振幅の構成要素が存在する周波数領域、あるレベル範囲の構成要素が存在する必要がある周波数領域、及びあるレベル以上の構成要素が存在しない領域の3つの領域を定めた規則。
子音(カ行以下の各行の音)については、音の立ち上りに存在する夫々の行特有の振動(以下先行波と言う)の形状及び振動特性、先行波と後続母音との時間的間隔又は重畳の状況及び後続母音の周波数特性の過渡的な変化を規定した規則。 - 一つの正弦波とその高調波群又はその高調波にごく近い周波数をもつ正弦波群と雑音を要素とし、之等を[請求項1]の規則に従って合成し、[請求項1]に示す102個の音の擬似音を発生させる方法。
- 人の声の空気中の振動について、その波形の振幅特性と周波数特性及びその時間的変化とを調べ、その結果と[請求項1]の規則と照合し、[請求項1]に示す102個の音の中の特定の音として識別する方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007341865A JP4888851B2 (ja) | 2007-12-20 | 2007-12-20 | 日本語の五十音図の各音等(濁音、半濁音、拗音、撥音等を含む)を識別する音声識別方法と入力音識別方法及び音声合成方法。 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007341865A JP4888851B2 (ja) | 2007-12-20 | 2007-12-20 | 日本語の五十音図の各音等(濁音、半濁音、拗音、撥音等を含む)を識別する音声識別方法と入力音識別方法及び音声合成方法。 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009151256A true JP2009151256A (ja) | 2009-07-09 |
JP4888851B2 JP4888851B2 (ja) | 2012-02-29 |
Family
ID=40920423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007341865A Expired - Fee Related JP4888851B2 (ja) | 2007-12-20 | 2007-12-20 | 日本語の五十音図の各音等(濁音、半濁音、拗音、撥音等を含む)を識別する音声識別方法と入力音識別方法及び音声合成方法。 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4888851B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6455594A (en) * | 1987-08-26 | 1989-03-02 | Matsushita Electric Ind Co Ltd | Consonant segmentation/sorting |
JPH0283595A (ja) * | 1988-09-21 | 1990-03-23 | Matsushita Electric Ind Co Ltd | 音声認識方法 |
JP2002108384A (ja) * | 2000-09-27 | 2002-04-10 | Matsushita Electric Ind Co Ltd | 音声認識方法 |
-
2007
- 2007-12-20 JP JP2007341865A patent/JP4888851B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6455594A (en) * | 1987-08-26 | 1989-03-02 | Matsushita Electric Ind Co Ltd | Consonant segmentation/sorting |
JPH0283595A (ja) * | 1988-09-21 | 1990-03-23 | Matsushita Electric Ind Co Ltd | 音声認識方法 |
JP2002108384A (ja) * | 2000-09-27 | 2002-04-10 | Matsushita Electric Ind Co Ltd | 音声認識方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4888851B2 (ja) | 2012-02-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2838082B1 (en) | Voice analysis method and device, and medium storing voice analysis program | |
US7809572B2 (en) | Voice quality change portion locating apparatus | |
US6470316B1 (en) | Speech synthesis apparatus having prosody generator with user-set speech-rate- or adjusted phoneme-duration-dependent selective vowel devoicing | |
JP6127371B2 (ja) | 音声合成装置および音声合成方法 | |
JP2014066779A (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
JP4888851B2 (ja) | 日本語の五十音図の各音等(濁音、半濁音、拗音、撥音等を含む)を識別する音声識別方法と入力音識別方法及び音声合成方法。 | |
JP2009133890A (ja) | 音声合成装置及びその方法 | |
JP5360489B2 (ja) | 音素符号変換装置および音声合成装置 | |
JP6578544B1 (ja) | 音声処理装置、および音声処理方法 | |
EP1543503B1 (en) | Method for controlling duration in speech synthesis | |
JP3094622B2 (ja) | テキスト音声合成装置 | |
JP4751230B2 (ja) | 韻律素片辞書作成方法、並びに音声合成装置及びプログラム | |
JP6372066B2 (ja) | 合成情報管理装置および音声合成装置 | |
Nagaraju et al. | Emotional speech synthesis for Telugu | |
WO2019003350A1 (ja) | 歌唱音生成装置及び方法、プログラム | |
KR101348906B1 (ko) | 음성 합성기의 화속변경방법 | |
JP4387822B2 (ja) | 韻律正規化システム | |
JP4476654B2 (ja) | 音声合成装置、音声合成方法及び音声合成装置制御プログラム | |
KR100269215B1 (ko) | 음성 합성을 위한 발화구의 기본 주파수 궤적 생성 방법 | |
Howard | Virtual choirs | |
Dinler et al. | Extraction of the acoustic features of semi-vowels in the Kurdish language | |
Patil et al. | Expressive speech analysis for story telling application | |
JP2022190769A (ja) | 歌詞情報を利用した簡易歌唱音声認識処理方法および処理プログラム | |
Fedoseev et al. | Comparison of parameters of vowel sounds of russian and english languages | |
Saiyod et al. | Thai Speech Synthesis for Text-to-Speech based on Formant Synthesis Technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100927 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101019 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110705 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110901 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111129 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111205 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141222 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |