JP2009151256A

JP2009151256A - 日本語の五十音図の各音等（濁音、半濁音、拗音、撥音等を含む）を識別及び摸擬をする手段としての規則。

Info

Publication number: JP2009151256A
Application number: JP2007341865A
Authority: JP
Inventors: Toshio Ogushi; 俊夫大串
Original assignee: Individual
Current assignee: Individual
Priority date: 2007-12-20
Filing date: 2007-12-20
Publication date: 2009-07-09
Anticipated expiration: 2027-12-20
Also published as: JP4888851B2

Abstract

【課題】従来の音声認識の手法では音声の統計的データを大量に必要とし、又、発話者の変化に柔軟に対応できない。音声合成にあたっても実際の音声のデータを利用するため合成する音の自由度が少ない。
【解決手段】日本語の五十音図の各音等（濁音、半濁音、拗音、撥音を含む１０２個の音）の空気振動の性質を調べ、音の調子の高低或は音色に拘らず各音を規定する特性を抽出して各音ごとの規則とし、この規則に従って音声の識別及び合成をする。
識別するときは入力音声を一音ずつ分析しその結果をこの規則と照合し、五十音図の各音等のどの音に相当するかを判断する。合成のときはこの規則に従って、周波数特性、過渡特性等を設定し、別に発生させた基本波、高調波等に、これらの特性による振幅制限、過渡的変化等を与えて加算する。
【選択図】図１

Description

本発明は音声の認識及びその合成方法に関する。

従来技術の音声認識、音声合成では大量の語彙のデータや過去の音声の統計的性質のデータ等が必要である。また発話者の登録、実際の声のデータなども必要である。
「音声工学」板橋秀一編著２００５年（株）森北出版また、日本語の母音（ア、イ、ウ、エ、オ）は夫々特有の周波数特性を持ち、それによって相互に区別されると指摘されている。本発明はこの考え方に基づいている。「ＴＨＥＶＯＷＥＬＩＴＳＮＡＴＵＲＥＡＮＤＳＴＲＡＣＴＵＲＥ」Ｔ．ＣＨＩＢＡ、Ｍ．ＫＡＪＩＹＡＭＡ共著１９５８年（復刻）ＰＨＯＮＥＴＩＣＳＯＣＩＥＴＹＯＦＪＡＰＡＮ

従来の技術では声を認識しようとしている発話者の変化（男、女、子供等）に柔軟に対応することが難しい。又、男、女或は子供等夫々の声を自由に使い分けて合成する事も容易ではなく、歌声の合成はさらに困難である。

音の高低に拘らず夫々の音の空気中の振動特性が判っていればその音の識別も合成も容易に出来る。
日本語の五十音図の各音等（濁音、半濁音、拗音、撥音を含む１０２個の音）の空気の振動の振幅の観察、周波数分析、振幅や周波数特性の過渡的な変化の測定等を行い、発話者の相違、音の高低に拘らず各音夫々が持っている固有の特徴に基づき、母音（ア行の５個の音）については、個々の音を構成する正弦波群（以下構成要素と言う）のうち最大振幅の構成要素が存在する周波数領域、あるレベル範囲の構成要素が存在する必要がある周波数領域、及びあるレベル以上の構成要素が存在しない領域の３つの領域を定め、子音（カ行以下の各行の音）については、音の立ち上りに存在する夫々の行特有の振動（以下先行波と言う）の形状及び振動特性、先行波と後続母音との時間的間隔又は重畳の状況及び後続母音の周波数特性の過渡的な変化を規定した規則を作成する。
音声を識別する時は入力音声の振動の振幅及び周波数特性とそれらの過渡的な変化等を測定しその結果と上記の規則と照合することにより入力音声が五十音図の各音等のどの音に相当するか識別する。また構成要素、先行波等を上記の規則に従って組合せることにより五十音図の各音等の中の任意の一音を任意の高さで模擬する音を合成する。

本発明によれば、膨大な語彙のデータや発話者の声の事前登録等を必要とせず、発話者の相違に拘らず一音ずつ認識することが出来る。また模擬音の合成にあたっては、実際の音声データは不要で、正弦波を基本として一音ずつ合成し、夫々の音の高さを個別に制御することが出来るからアクセント、抑揚等の付与が容易で、歌声も簡単に作ることが出来る。

本発明が対象とする音は表１に示す五十音図及び濁音、半濁音、表２の拗音更に撥音「ン」を加えて、合計１０２個の音である。

本発明の実施手順を図１に依って説明する。母音ついては図１の１０１に示すように複数の男女の声の振幅波形の観察を行うと二つの事がわかる。
第一は一つの母音の波形はほぼ同じ形の繰返しであること、即ち母音は一つの正弦波である基本波と相互の周波数差が基本波の周波数に等しいかほぼ等しい正弦波群（以下単に高調波群と言う）で構成されていると言うことである。以下、母音及び子音を構成する基本波及び高調波群を総称して構成要素と称する。
第二は上記の同じ波形の繰返しの周期は波形の立ち上りの時に変動していることである。この周期即ち基本波の周期の長さは立ち上り時から一周期毎にほぼ一様に短くなり、数周期乃至１０数周期後にほぼ一定値に収束する。立ち上り時からの変化の幅は収束した値の数％乃至１０数％である。時にはほぼ一様に長くなるように変化することもある。この様な変動を与えずに正弦波の構成要素で母音に似た波形を作っても機械的な音になるだけで人の声のようには聞えない。この変動は正弦波による模擬音声の合成には必須の要件である。

次に周波数特性の測定によれば夫々の母音の特性曲線はある範囲にまとまっている。母音毎に、声の高低に拘らずその構成要素の周波数特性が収まる領域を決めることが可能である。又、基本周波数は普通の会話音声として１００〜４００Ｈｚを想定している。
一つの母音例えば「ア」に就いて、測定結果に基づいて仮に特性曲線を定め、ある基本波の周波数を持つ構成要素の振幅をこの特性曲線に従って決めた波形の音が「ア」となることを確かめ、更に特性曲線、基本波の周波数を変えて同様のことを繰返し、次のような各領域を定めた。
最大振幅（０ｄｂ）の構成要素が存在する周波数範囲を領域Ａ、ある振幅レベルの範囲の高調波が存在する必要がある周波数範囲を領域Ｂ、及び或る振幅レベル以上の高調波が存在しない周波数範囲を領域Ｃとする。その他の母音についても同じ操作を繰返してＡ，Ｂ，及びＣの各領域を定め、其れ等を表３及び図２乃至図６に示す通りに纏めて規則としたが、若干の注記を加える。
１．以下の表及び図面に記入した数値には周波数値で約５０Ｈｚ、レベル値で数ｄｂの幅がある。
２．基本波の振幅レベルは０〜−１０数ｄｂ程度。
３．規定された領域外にある構成要素のレベルは近くの領域Ｂにある構成要素のレベルより低いことが多い。
４．構成要素のレベルの変化で音色が変わる。例えば「ア」の場合、２５００Ｈｚ以上の領域Ｂで構成要素のレベルが−４０ｄｂ付近では柔らかい「ア」音で、レベルが−３０ｄｂ程度以上となるとやや硬い音で明瞭になる。
５．「ア」に於いて、０ｄｂの構成要素が１０５０Ｈｚ以下の時、３００〜７００Ｈｚ付近の構成要素が−１０ｄｂ以上で、領域Ｂの構成要素が−１０ｄｂ以下ならば「オ」に近い「ア」の音となる。

図１の１０２に従って子音の規則について説明する。
カ行以下の各音は立ち上がりの過渡特性に各行特有の特徴がある。之は立ち上がり時先行する各行特有の振動（以下先行波と言う）と後続の「ア」行の各段の音（以下後続母音という）との組合せで、更にその母音の周波数特性の過渡的な変化が加わったものである。これに対応して後続母音の型を二つ決め、更に濁音に共通に含まれている特定の構成要素のグループ（濁音要素と称する）を導入した。これらと「ナ」行の先行波及び雑音を次の様に定義をしておく。
後続母音の型：基本波及び全ての高調波がほぼ同時に立ち上がるものを「ア行１型」、約８００Ｈｚ以上の高調波が数１０ｍｓ程度遅れて立ち上がるものを「ア行２型」とする。
濁音要素：濁音要素を構成する要素の存在する領域を図７に示す。
第一の領域は１００〜８００Ｈｚで０〜−１５ｄｂ程度、
第二の領域は１４００〜２２００Ｈｚで−１０〜−２０ｄｂ程度
第三の領域は２２００〜３２００Ｈｚ、−２０〜−４０ｄｂ程度である。
「ナ」行の先行波：基本波が顕著で、２次、３次の高調波は之より数ｄｂ乃至１０数ｄｂ低い。高次の要素は顕著ではない。図８に構成要素の存在する領域を示す。
雑音：子音の性質を左右する顕著な雑音は次の二つがある。
（１）広帯域雑音：２〜５ｋＨｚ程度の周波数範囲のほぼ一様なレベルの雑音
（２）低周波雑音：３００〜８００Ｈｚ程度の周波数のクリック的な雑音

五十音図の「カ」行以下には行毎に共通する特徴があり、各段の音は後続母音の段に従う。各行の音の周波数特性、振幅特性等の測定結果に基づき、先行波、後続母音、濁音要素及び雑音等を組み合わせて得た行ごとの特徴は次の通りである。
１．「カ」行：先行波は後続母音とほぼ同じ構成要素をもつ波形で、後続母音との間に約１０ｍｓ以上の間隔がある。先行波の幅が狭く、レベルが比較的高いと明瞭でやや硬い「カ」行の音となる。先行波の幅が広く、レベルが低いときには柔らかく、次第に「ア」行に近くなる。
２．「サ」行：１００ｍｓ〜数１００ｍｓ幅の広帯域雑音が先行する。そのレベルは雑音単独では殆ど認識出来ない程度。後続母音の高次の構成要素の立ち上りが遅い。
３．「タ」行：この行だけ二つの先行波を持つ。
（１）「タ」、「テ」、「ト」：後続母音の直前に低周波雑音の先行波がある。後続母音の高次の構成要素の立ち上りが遅い。
（２）「チ」、「ツ」：数１０ｍｓ幅の広帯域雑音が先行、そのレベルは「サ」行の場合よりやや高く、後続母音との間に数ｍｓの間隔がある。後続母音の高次の構成要素の立ち上りが遅い。
４．「ナ」行：さきに定義した「ナ」行の先行波が数１０ｍｓ先行し、さらにこれが後続母音に数１０ｍｓの間重畳する。後続母音の高次の構成要素の立ち上りが遅い。
５．「ハ」行：先行波は２０〜３０ｍｓ程度の基本波、基本波の周波数に近い周波数の雑音が重畳していることもある。レベルは後続母音の−２０ｄｂ位である。
６．「マ」行：数１０ｍｓ幅で濁音要素とほぼ同じ構成要素を持つ波形（以下濁音要素という）が先行、後続母音との間にごく僅かの間隙がある。レベルは−１０ｄｂ程度である。
７．「ヤ」行：先行波は「イ」音、後続は「ア」、「ウ」、「オ」の何れかとなる複合音で、その繋ぎ目に濁音要素が双方に重畳する。
８．「ラ」行：先行波は濁音要素、裾の幅が２０〜３０ｍｓの山形をしている。後続母音の立ち上りにも濁音要素が数１０ｍｓの間重畳する。先行波の山の数が複数になるとＲの音のような巻舌になる。山の形がはっきりせず、なだらかなときは、Ｌのような柔らかい音となる。
９．「ワ」行：「ウ」と「ア」及び「オ」と組合せた複合音である。
１０．濁音：「カ」、「サ」、「タ」、「ハ」の各行の後続母音の立ち上り時に濁音要素が数１０ｍｓ重畳している。但し「ザ」行の先行雑音の幅は２０〜３０ｍｓ、レベルはやや高い。
１１．半濁音：先行波は２０〜３０ｍｓ幅の濁音要素、後続母音との間に僅かな間隙がある。後続母音の高次の構成要素の立ち上りが遅い。
１２．拗音：先行波は各行の「イ」の段の音、後続は｛ヤ｝、「ユ」、「ヨ」何れかとの複合音である。
１３．撥音「ン」：ほぼ「ナ」行の先行波と同じ。時には之に「ウ」音を先行波とすることもある。

上記の特徴を規則としてまとめ、夫々表４、表５、表６及び図９乃至図２４に示した。先行する波形の最大振幅レベルを示すｄｂ値は直後にともなう母音の振幅のほぼ最大値を０ｄｂとする目安である。

図１の１０４声の識別の手順について説明する。
母音は立上がり時を除いてその特性の時間的変化は少ないが子音は周波数−振幅−時間の３次元の特性で表されるから、夫々の音の規則を満足するように母音も含め各行の３次元の特性パターンの型紙を作成しておく。
入力音には短区間（例えば２０ｍｓ程度）の周波数分析を行い、更に区間を数ｍｓ程度ずらして周波数分析を繰返して行い、その結果をさきに作成した型紙と照合し、最も良く適合する型紙の音として識別する。
このようにすれば発話者の如何に拘らず一音ずつの認識が出来るので例えばキーボードから１文字ずつ入力する代わりに音声で１文字ずつ入力することができる。
又、高調波群の周波数から基本周波数を抽出出来るから発話者の異同を推定することも可能である。

図１の１０５声の合成の手順について説明する。
母音を１文字ずつ合成する手順を示す。
（１）音声の周波数範囲は４ｋＨｚ以下とし、母音の規則に適合するように５つの母音「ア」、「イ」、「ウ」、「エ」、「オ」の周波数特性曲線を表す関数をつくる。折れ線、部分的な正弦波の組合せ、或は適当な補間関数の組合せなどにより作成する。
図２５は「ア」の場合の例で、図中の破線で囲まれた範囲は母音の規則に示す領域Ａ，Ｂ，Ｃに相当し、二つの曲線は上述の周波数特性曲線である。
（２）基本波は１００〜４００Ｈｚの間の周波数をもつ正弦波とし、その高調波群と基本波の振幅レベルを前項の周波数特性曲線に従って決めた後、加算する。
図２５の中のやや太い縦の数本の線は基本波の周波数を２００Ｈｚとした場合の基本波、高調波の例である。
（３）加算して得られた波形を増幅し、立ち上り、立ち下り、振幅などを決めて出力する。立ち上りの時、基本波の周期は所望の周波数に相当する周期より２〜３％長い周期から始め、徐々に短くして、数周期後に所望の周波数の周期に落ち着かせる。
（４）「イ」、「ウ」、「エ」、「オ」についても同様の手順で、夫々の構成要素の振幅を制限して加算し、出力する。
（５）周波数特性曲線の形で音色が変化するが、基本波の振幅、最大振幅の高調波の位置及びその他の高調波の数やレベルなどが影響する。
（６）同じ周波数特性曲線で、基本波の周波数が変われば出力する母音の音の高さや音色がが変わる。特に音色に拘らなければ基本波の周波数が変わっても周波数特性曲線を変える必要はない。
（７）普通の会話の基本波の周波数は、成人男性の場合１００〜１９０Ｈｚ程度、成人女性の場合１７０〜２８０Ｈｚ程度、これ以上は子供のような高い声となる。

子音を１文字ずつ合成する手順をしめす。
（１）濁音要素及び「ナ」行の先行波についても夫々さきに述べた定義及び図７、図８に示す領域に従って夫々の周波数特性曲線をつくり、母音と同様の手順で構成要素の振幅を制限して加算する。
（２）雑音は指定された周波数の数値の範囲の乱数を作りこれを周波数とする一様な振幅の正弦波を加算してつくる。乱数の数が多い程細かい雑音となるが計算時間が問題になる時は、予め計算して、広帯域雑音は３００ｍｓ程度、低周波雑音は１０ｍｓ程度の数列として準備しておく。
（３）子音の規則に従って各行の先行音及び後続母音等の関係を設定するため、仮の基準とする基本周波数をきめる。例えばこれを２００Ｈｚとする。
（４）各行について表３、表４及び表５の要領に従って先行波や後続母音等のレベル、時間関係等の設定を行い、仮の基本周波数２００Ｈｚ、後続母音は「ア」として其の行の「ア」の段の音をだしてみる。不自然な点があれば設定を修正して同じ手順を繰返す。
（５）一つの基本周波数と「ア」の段の音で各行の先行波等の設定をすれば基本周波数や後続母音が変わっても設定を変更する必要はない。

五十音図の各音を上述のように合成すれば、基本周波数に若干の変動を与えることにより、一音毎に音の高さを変えることが出来るからアクセントやイントネーションの制御を行うことは容易である。

歌声：
ある音階に従って基本周波数を変化させれば上述の合成音声で簡単に歌を歌わせることが出来る。例えば、純正律音階の周波数比は下表の通りである。

先ず基本周波数Ｆｐを決め、楽譜に示された夫々の音の音階に従って、周波数比ＭをＦｐ

並べれば容易に歌を歌わせるこが出来る。

ささやき声：
通常の合成に使う構成要素（基本波とその高調波群）の代わりに１００〜４０００程度の乱数を周波数（単位はＨｚ）とする正弦波の振幅を夫々の特性関数によって制限して加算することにより母音、子音を合成すればささやき声となる。

無声子音：
ささやき声の子音の後続母音に相当する部分を短く（２０ｍｓ程度以下）制限すれば無声子音を模擬することが出来る。

本発明は日本語の基本となっている１０２個の音の夫々の空気中の振動特性を明らかにして、発話者の如何に拘らず人の声を一音ずつ１０２個のうちの何れかと識別できるからキーボードから一字ずつ入力する代わりに、予め発話者を登録することなく、声で一音ずつ入力する音声入力ワードプロセッサーを作ることが出来る。

本発明の考え方を示す系統図である。母音「ア」の構成要素の存在範囲を示す振幅−周波数図である。母音「イ」の構成要素の存在範囲を示す振幅−周波数図である。母音「ウ」の構成要素の存在範囲を示す振幅−周波数図である。母音「エ」の構成要素の存在範囲を示す振幅−周波数図である。母音「オ」の構成要素の存在範囲を示す振幅−周波数図である。「濁音要素」の構成要素の存在範囲を示す振幅−周波数図である。「ナ」行の先行波の構成要素の存在範囲を示す振幅−周波数図である。「カ」行の先行波と後続母音の振幅−時間関係を示す模式図である。「サ」行の先行波と後続母音の振幅−時間関係を示す模式図である。「タ」行の「タ」、「テ」、「ト」の先行波と後続母音の振幅−時間関係を示す模式図である。「タ」行の「チ」、「ツ」の先行波と後続母音の振幅−時間関係を示す模式図である。「ナ」行の先行波と後続母音の振幅−時間関係を示す模式図である。「ハ」行の先行波と後続母音の振幅−時間関係を示す模式図である。「マ」行の先行波と後続母音の振幅−時間関係を示す模式図である。「ヤ」行の先行波と後続母音の振幅−時間関係を示す模式図である。「ラ」行の先行波と後続母音の振幅−時間関係を示す模式図である。「ワ」行の先行波と後続母音の振幅−時間関係を示す模式図である。「ガ」行の先行波と後続母音の振幅−時間関係を示す模式図である。「ザ」行の先行波と後続母音の振幅−時間関係を示す模式図である。「ダ」行の先行波と後続母音の振幅−時間関係を示す模式図である。「バ」行の先行波と後続母音の振幅−時間関係を示す模式図である。「パ」行の先行波と後続母音の振幅−時間関係を示す模式図である。拗音の先行音と後続音の振幅−時間関係を示す模式図である。合成母音「ア」の周波数特性曲線と構成要素を示す周波数特性図の一例である。

符号の説明

Ａ：最大振幅の構成要素が存在する周波数範囲。
Ｂ：必要な構成要素が存在する領域。
Ｃ：構成要素が存在しない領域。
１０１：母音規則作成手順。
１０２：子音規則作成手順。
１０３：母音及び子音の音の規則。
１０４：声の識別。
１０５：声の合成。

Claims

日本語の五十音図の各音等（濁音、半濁音、拗音、撥音を含む１０２個の音）の夫々の音について、音の高低や発話者の如何に拘らず個々の音に特有な空気中の振動特性を規定する次に示す規則。
即ち母音（ア行の５個の音）については、個々の音を構成する正弦波群（以下構成要素と言う）のうち最大振幅の構成要素が存在する周波数領域、あるレベル範囲の構成要素が存在する必要がある周波数領域、及びあるレベル以上の構成要素が存在しない領域の３つの領域を定めた規則。
子音（カ行以下の各行の音）については、音の立ち上りに存在する夫々の行特有の振動（以下先行波と言う）の形状及び振動特性、先行波と後続母音との時間的間隔又は重畳の状況及び後続母音の周波数特性の過渡的な変化を規定した規則。
一つの正弦波とその高調波群又はその高調波にごく近い周波数をもつ正弦波群と雑音を要素とし、之等を［請求項１］の規則に従って合成し、［請求項１］に示す１０２個の音の擬似音を発生させる方法。
人の声の空気中の振動について、その波形の振幅特性と周波数特性及びその時間的変化とを調べ、その結果と［請求項１］の規則と照合し、［請求項１］に示す１０２個の音の中の特定の音として識別する方法。