JP6438200B2

JP6438200B2 - 音声合成装置および制御プログラム

Info

Publication number: JP6438200B2
Application number: JP2014031073A
Authority: JP
Inventors: 良彦濱口
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2014-02-20
Filing date: 2014-02-20
Publication date: 2018-12-12
Anticipated expiration: 2034-02-20
Also published as: JP2015155977A

Description

本発明は音声を合成する音声合成装置に関する。

近年、音声合成およびＴＴＳ（ＴｅｘｔｔｏＳｐｅａｃｈ）の技術、並びに、音声認識の技術が進化しており、音声合成機能および音声認識機能を搭載したスマートフォンなども開発されている。また、音声合成に関する技術として、下記特許文献１に記載されている、入力された音声信号が合成音声か否かを識別する技術などが知られている。

特開２００２−２９７１９９号公報（２００２年１０月１１日公開）特許第３８１２８４８号（２００６年８月２３日発行）

今後、音声合成技術が進化することで、音声を出力する音声出力機器（以下、機器と呼称する場合もある）が増えることが予想される。しかしながら、機器が出力する音声は機器ごとの差異が乏しいことが多い。そのため、ユーザまたは音声認識機能を有する機器は、複数の機器の中から音声を出力した機器を識別することが難しいという問題がある。また、同じ製品が複数あった場合、出力される音声の音声パターンは限られていることが多い。すなわち、複数の機器から出力される音声が同一のものとなり、ユーザが音声を出力した機器を識別することができない可能性がある。また、音声が同一となる場合、音声認識機能を有する機器は、複数の同製品が発した音声を区別して認識することができない。

本発明は、上記の問題に鑑みてなされたものであり、その目的は、音声を出力する機器ごとにユニークな音声を容易に生成することができる音声合成装置などを実現することにある。

上記の課題を解決するために、本発明の一態様に係る音声合成装置は、音声データに従って音声を出力する音声出力機器のために、文字データを音声データに変換する音声合成装置であって、上記文字データを取得する文字データ取得手段と、上記文字データ取得手段が取得した上記文字データを、該文字データを変換した音声データに従って音声を出力する音声出力機器に固有の識別情報に応じた声紋を有する固有音声データに変換する変換手段と、を備えている。

本発明の一態様によれば、音声を出力する機器ごとにユニークな音声を容易に生成することができるという効果を奏する。

実施形態１に係るスマートフォンの要部構成を示すブロック図である。図１に示すスマートフォンの基準データ記憶部に記憶されている基準データを示す図である。図１に示すスマートフォンの音声調整情報記憶部に記憶されている音声調整情報のデータ構造および具体例を示す図である。図１に示すスマートフォンの音声調整情報記憶部に記憶されている音声調整情報のデータ構造および具体例を示す図である。図１に示すスマートフォンの音声調整情報記憶部に記憶されている音声調整情報のデータ構造および具体例を示す図である。図１に示すスマートフォンの音声調整情報記憶部に記憶されている音声調整情報のデータ構造および具体例を示す図である。図１に示すスマートフォンにて「こんにちは」という文章データを固有音声データに変換した場合の基準音声データの調整内容の具体例を示す表である。図１に示すスマートフォンの処理の流れを示すフローチャートである。実施形態２に係るスマートフォンの要部構成を示すブロック図である。

〔実施形態の概要〕
まず、以下に説明する実施形態１〜３の概要について説明する。なお、以下で説明する実施形態では、本発明の音声合成装置を、スマートフォンに適用した例を説明する。従来、スマートフォンなどの音声を出力する音声出力機器（以下、機器と呼称する場合もある）が複数ある場合、ユーザおよび音声を認識する音声認識装置は、当該複数の機器の中から音声を出力した機器を識別することが困難であった。そこで、実施形態１および２の音声合成装置１０および音声合成装置２０は、文字データから生成された音声を出力する音声出力機器（スマートフォン１および２）の内部あるいは外部に設けられ、音声出力機器のために、当該文字データを音声出力機器に固有の識別情報に応じた声紋を有する固有音声データに変換するようになっている。なお、音声合成装置１０および音声合成装置２０は、文字データを、音声出力機器から取得してもよいし、他の装置から取得してもよい。これにより、出力される合成音声の音質は機器ごとに異なるものとなり、音声を出力する機器が複数ある場合でも、出力された音声がどの機器から出力された音声であるのかを容易に識別することができる。以下、実施形態１〜３を詳細に説明する。

〔実施形態１〕
本発明の一実施形態について、図１〜図８に基づいて説明すれば、以下のとおりである。まず、図１を参照して、スマートフォン１（音声出力機器）の要部構成について説明する。図１に示すように、スマートフォン１は、入力部１１、音声出力部１２、制御部１３、および記憶部１４を備える構成である。なお、スマートフォン１は、音声合成装置１０と一体となっている。図１において、破線で囲まれた部分が音声合成装置１０である。

入力部１１は、ユーザによる入力操作を受け付ける入力デバイスである。本実施形態における入力部１１は、例えばタッチパネルである。入力部１１としては、既存のスマートフォンに使用されているタッチパネルを利用することができる。なお、入力部１１はタッチパネルに限定されず、例えば物理キーであってもよい。

制御部１３は、スマートフォン１が備える各部を統括制御するものである。制御部１３は文章取得部３１（文字データ取得手段）、文章解析部３２、音声生成部３３（変換手段、決定手段）、を含んでいる。

文章取得部３１は、文字データを取得するものである。具体的には、文章取得部３１は、音声として出力するための文章データを取得するものである。文章取得部３１は、例えば、入力部１１が受け付けた入力操作によって文字列が入力された場合、当該文字列を文章データとして取得する。また、例えば、入力部１１が受け付けた入力操作によって、文字列を含むデータ（例えば、テキストデータ、ワードデータなど）が選択された場合、当該選択されたデータを記憶部１４から読み出し、文章データとして取得する。また、文章取得部３１は、音声として出力するための文章データをサーバ装置等の外部の装置から取得するものである。文章取得部３１は、取得した文章データを文章解析部３２に供給する。なお、文章取得部３１は、上記文章データを、画像データ、映像データなどから抽出してもよい。また、上記文章データは複数の文字からなる文字列であってもよいし、一文字であってもよい。

文章解析部３２は、供給された文章データを解析し、当該文章データを音声信号に変換するための処理を行うものである。具体的には、文章解析部３２は、文章取得部３１から文章データを供給されると、当該文章データに含まれる英数字、漢字、記号などをこれらの読み方を示す文字（表音文字）に変換する。さらに、文章解析部３２は、供給された文章データを複数の文字の集まりである文字セットに分割する。例えば、文章解析部３２は、供給された文章データを文節ごとに分割し、各文節を上記文字セットとする。なお、文章データの分割は、文節ごとの分割に限定されるものではなく、例えば、単語ごと、文ごとの分割であってもよい。文章解析部３２は、文章データに含まれる各文字（英数字、漢字、記号などを表音文字に変換した後の各文字）を特定するための文字情報と、文字セットを特定するための文字セット情報とを、音声生成部３３に供給する。

音声生成部３３は、文字データを、機器（スマートフォン１）を一義的に識別するための識別情報に応じた声紋を有する固有音声データに変換するものである。具体的には、音声生成部３３は、文章解析部３２から文字情報および文字セット情報を供給されると、所定単位の表音文字の音声データである基準データ（基準音声データ）を記憶している基準データ記憶部４１から、供給された上記文字情報に対応する基準データを読み出し、文章データに含まれる各文字を基準データに変換する。そして、音声生成部３３は、上記識別情報（本実施形態では、スマートフォン１を一義的に識別するための固有ＩＤ）を記憶している識別情報記憶部４２からスマートフォン１の固有ＩＤを読み出す。そして、読み出した固有ＩＤを参照して基準データを固有音声データに変換する。さらに具体的には、音声生成部３３は、基準データから固有音声データを生成するための処理内容を記憶している音声調整情報記憶部４３を参照して、固有ＩＤに含まれる各文字（本実施形態では１６進数に用いる数字）に応じた声紋付与情報を決定する。そして、決定した声紋付与情報を参照して、基準データを固有音声データに変換する。換言すれば、音声生成部３３は、読み出した固有ＩＤに含まれる英数字を関数のパラメータとし、当該関数を用いて基準データに対する演算を行うことで基準データを固有音声データに変換する。なお、声紋付与情報の詳細および基準データの固有データへの変換の詳細は後述する。また、識別情報はスマートフォン１において固有の情報であればよく、例えば、シリアル番号、または、無線通信用のＭＡＣアドレスであってもよい。

また、音声生成部３３は、生成した固有音声データを音声出力部１２に出力する。なお、本実施形態では、音声合成装置１０がスマートフォン１（音声出力機器）と一体となっているが、音声合成装置と音声出力機器とは別体であってもよい。音声合成装置と音声出力機器とが別体である場合、音声生成部３３は、生成した固有音声データを、通信部を介して当該音声出力機器に送信する（不図示）。音声合成装置と音声出力機器とが別体である場合の一例としては、音声再生機能を有する各種家電（機器）の識別情報をサーバ（音声合成装置）が取得し、各識別情報に応じた固有音声データを各種家電に送信する構成が考えられる。これにより、ユーザは自身の家にある各種家電から、合成音声を発した家電を容易に特定することができる。

音声出力部１２は、音声生成部３３が生成した固有音声データを合成音声として出力するものである。具体的には、音声出力部１２は、音声生成部３３から供給された固有音声データを合成音声としてスピーカ（不図示）などを介して出力（再生）する。なお、スピーカとしては既存のスマートフォンに使用されているスピーカを利用することができる。また、スマートフォン１とスピーカなどのデバイスとは別体であってもよい。

記憶部１４は、スマートフォン１にて使用される各種データを記憶する記憶デバイスである。図１に示すように、記憶部１４は、少なくとも、基準データ記憶部４１、識別情報記憶部４２、音声調整情報記憶部４３を含んでいる。

基準データ記憶部４１は、所定単位の表音文字である基準データを記憶している。ここで、基準データの詳細について図２を参照して説明する。図２は、表音文字である「あ」「さ」「だ」「よ」の４文字の基準データを示す図である。図２の（ａ）に示すように、基準データは横軸に時間経過、縦軸に振幅をとる。すなわち基準データとは、各表音文字を発音したときの音波の振幅の時間変化を示すデータである。なお、各文字の基準データの時間経過および振幅は適宜決定されればよい。また、本実施形態では、基準データ記憶部４１は、表音文字１文字に対応する音声データを基準データとして記憶しているが、２文字以上を１単位とする音声データを基準データとして記憶していてもよい。音声生成部３３は、文章解析部３２から供給された文字情報を用いて基準データ記憶部４１を検索することで、供給された文字情報に対応する基準データを読み出す。また、図２の（ａ）に示すように、基準データは表音文字を発音したときの波形の後に、一定時間（例えば０．１秒）振幅が０である領域（無音時間）を有している。なお、基準データに無音時間は含まれていなくてもよい。例えば、合成音声として出力するときに、音声出力部１２が、音声生成部３３によって特定された無音時間を音と音との間に挿入してもよい。

識別情報記憶部４２は、スマートフォン１と他のスマートフォンなどの機器とを識別するための情報である識別情報を記憶している。上述したように、本実施形態における識別情報はスマートフォン１の固有ＩＤである。また、本実施形態における固有ＩＤは、「ａｂ：ｃｄ：ｅｆ：ｇｈ：ｉｊ：ｋｍ」のように１２文字（「：」を除く）であり、各アルファベットの位置には、１６進数で用いられる数字（すなわち、１〜９およびＡ〜Ｆ）が１文字ずつ入る。例えば、スマートフォン１の固有ＩＤは、「２３：４５：６７：８９：ＢＣ：９０」である。つまり、スマートフォン１の識別情報記憶部４２は、固有ＩＤ「２３：４５：６７：８９：ＢＣ：９０」を記憶している。

音声調整情報記憶部４３は、固有データを生成するための処理内容を記憶している。音声生成部３３は、識別情報記憶部４２から読み出した固有ＩＤを用いて、音声調整情報記憶部４３に記憶されているテーブルである音声調整情報を検索することで、声紋付加情報を決定し、決定した声紋付与情報を参照して固有音声データを生成する。

ここで、音声調整情報、声紋付与情報、および、固有音声データの生成の詳細について図３〜図７を参照して説明する。図３〜図６は、音声調整情報記憶部４３に記憶されている音声調整情報のデータ構造および具体例を示す図である。図７は、スマートフォン１にて「こんにちは」という文章データを固有音声データに変換した場合の基準音声データの調整内容の具体例を示す表である。まず、音声調整情報のデータ構造について、図３の（ａ）および（ｂ）を参照して詳細に説明する。音声調整情報は、テーブル形式の情報であり、固有ＩＤの特定の位置における数字を区別するための数字区別情報と、声紋付与情報とが対応付けられた情報である。例えば、図３の（ａ）に示すように、固有ＩＤにおけるａの位置の数字が０〜Ｆのそれぞれに、スマートフォン１から出力される合成音声のオクターブ変更の有無およびオクターブの変更量が対応づけられている。また、図３の（ｂ）に示すように、固有ＩＤにおけるｂの位置の数字と文字のＪＩＳコードとを用いた演算結果のそれぞれに、当該文字における音階変更の有無が対応づけられている。このように、基準データに対する処理内容（声紋付与情報）は、図３の（ａ）に示す音声調整情報のように、固有ＩＤにおける特定の位置の数字が何であるかが特定されることにより、直ちに決定されるもの、または、図３の（ｂ）に示す音声調整情報のように、固有ＩＤにおける特定の位置の数字と変換対象の文字データとの組み合わせに応じて決定されるものがある。なお、図３〜図６に示す各音声調整情報は、上記２つのタイプのいずれかであるため、図３の（ａ）および図３の（ｂ）に示す音声調整情報以外の音声調整情報のデータ構造についての説明は省略する。また、固有ＩＤの数字１つから１つの処理内容（声紋付与情報）が決定されてもよいし、固有ＩＤの数字１つから複数の処理内容が決定されてもよい。さらに、固有ＩＤにおける複数の数字から１つの処理内容が決定されてもよい。なお、音声調整情報は、テーブル形式に限定されるものではない。

次に、固有音声データの生成の概要について説明する。固有ＩＤに含まれる数字（１６進数）は、所定の第１のグループから第６のグループまでの６つのグループに分けられている。音声生成部３３は、上記６つのグループに含まれる数字を参照して、それぞれの数字に対応する声紋付与情報を決定することで、上記６つのグループにそれぞれ対応する基準データの周波数と、振幅（周波数特性）と、時間長と、文字列のある文字を発音してから文字列の次の文字を発音するまでの時間（無音時間）と、文字列のある文字に対応する基準音声データにおける、文字列の他の文字に対応する基準音声データに対する相対的な振幅（相対振幅）と、相対振幅および文字列のある文字に対応する基準音声データにおける、文字列の他の文字に対応する基準音声データに対する相対的な周波数（相対周波数）のうちの少なくとも１つと、の変更の有無および変更の程度を決定する。これにより、識別情報に応じた声紋を有する固有音声データが生成される。なお、声紋付与情報は、変更の有無のみを示すものであってもよい。その場合、決定した声紋付与情報が基準データの変更を示しているとき、音声生成部３３は、記憶部１４に記憶されている変更の程度を示す変更情報に応じた変更を行う。

まず、図３を参照して、基準データの周波数の変更について説明する。基準データの周波数を変更することによって、合成音声の音程が変更される。ここで「音程の変更」とは、オクターブの変更および音階の変更を示す。まず、図３の（ａ）を参照して、各文字を発音するときのオクターブの変更について説明する。本実施形態の場合、音声生成部３３は、固有ＩＤにおける第１のグループである「ａ〜ｄ」の位置の数字を参照して、基準データの周波数を変更するための声紋付与情報を決定する。図３の（ａ）に示すように、音声生成部３３は、固有ＩＤにおける「ａ」の位置の数字が、「固有ＩＤにおけるａの位置の数字（１６進数）」に格納されている数値範囲のうちいずれに含まれるかを特定する。これにより、オクターブを変更するか否か、変更する場合にオクターブを基準データから上げるかまたは下げるか、および、どの程度オクターブをあげるか、が決まる。例えば、スマートフォン１の場合、「ａ」の位置に入る数字は「２」であるため、音声生成部３３は、「基準データからのオクターブ変更なし」という声紋付与情報を決定する。なお、本実施形態では、「ａ」の位置に入る数字によって、文章データにおける全ての文字のオクターブを決定しているが、文字ごとにオクターブを決定してもよい。

次に、図３の（ｂ）〜（ｄ）を参照して、各文字を発音するときの音階の変更について説明する。本実施形態の場合、図３の（ｂ）に示すように、音声生成部３３は、各文字のＪＩＳコードを固有ＩＤにおける「ｂ」の位置の数字で割ったとき、余りが０であるか否かを特定する。これにより、基準データから音階を変更するか否かが決まる。例えば、スマートフォン１の場合、「ｂ」に入る数字は「３」である。ここで、図７に示す「こんにちは」の「ち」のＪＩＳコードは「２４４１」であり、これを３で割ると余りは０ではない。よって、音声生成部３３は、「基準データからの音階変更を行う」という声紋付与情報を決定する。なお、「ｂ」の位置に入る数字が「０」である場合、音声生成部３３は、上記演算を実行することなく、音階の変更を行う（または行わない）としてもよい。これは、下記に説明する他の音声調整情報においても同様である。

次に、音階を変更する場合、図３の（ｃ）に示すように、音声生成部３３は、固有ＩＤにおける「ｃ」の位置の数字が、「固有ＩＤにおけるｃの位置の数字（１６進数）」に格納されている数値範囲のうちいずれに含まれるかを特定する。これにより、音階を基準データから上げるかまたは下げるかが決まる。さらに、図３の（ｄ）に示すように、音声生成部３３は、固有ＩＤにおける「ｄ」の数字が、「固有ＩＤにおけるｄの位置の数字（１６進数）」に格納されている数値範囲のうちいずれに含まれるかを特定する。これにより、音階を基準データからどれだけ変化させるかが決まる。例えば、スマートフォン１の場合、「ｃ」に入る数字は「４」であるため、音声生成部３３は、「基準データから上げる」という声紋付与情報を決定する。また、「ｄ」に入る数字は「５」であるため、音声生成部３３は、「基準データからの変更量は半音」という声紋付与情報を決定する。

続いて、図４を参照して、基準データの振幅の変更について説明する。基準データの振幅を変更することによって、合成音声の音量が変更される。本実施形態の場合、音声生成部３３は、固有ＩＤにおける第２のグループである「ｅ〜ｈ」の位置の数字を参照して、基準データの振幅を変更するための声紋付与情報を決定する。図４の（ａ）に示すように、音声生成部３３は、各文字のＪＩＳコードを固有ＩＤにおける「ｅ」の位置の数字で割ったとき、余りが０であるか否かを特定する。これにより、基準データから音量を変更するか否かが決まる。例えば、スマートフォン１の場合、「ｅ」に入る数字は「６」である。ここで、上述した「ち」のＪＩＳコードである「２４４１」を６で割ると余りは０ではない。よって、音声生成部３３は、「基準データからの音量変更を行う」という声紋付与情報を決定する。そして、音量を変更することを特定した場合、図４の（ｂ）に示すように、音声生成部３３は、各文字のＪＩＳコードに固有ＩＤにおける「ｆ」の位置の数字を足した値が奇数であるかまたは偶数であるかを特定する。これにより、基準データから音量を上げるかまたは下げるかが決まる。さらに、図４の（ｃ）に示すように、音声生成部３３は、各文字のＪＩＳコードに固有ＩＤにおける「ｇ」および「ｈ」の位置の数字を足した値が奇数であるかまたは偶数であるかを特定する。これにより、基準データから音量を０．１ｄＢ変更するかまたは０．２ｄＢ変更するかが決まる。例えば、スマートフォン１の場合、「ｆ」、「ｇ」、「ｈ」に入る数字はそれぞれ、「７」、「８」、「９」である。ここで、上述した「ち」のＪＩＳコードである「２４４１」に７を足すと「２４４８」となり、この数字は偶数である。これにより、音声生成部３３は、「基準データから下げる」という声紋付与情報を決定する。また、「２４４１」に８および９を足すと、「２４５８」となり、この数字は偶数である。これにより、音声生成部３３は、「基準データからの変更量は０．２ｄＢ」という声紋付与情報を決定する。

続いて、図５の（ａ）および図５の（ｂ）を参照して、基準データの時間長の変更について説明する。基準データの時間長を変更することによって、合成音声の時間的な長さ（発音時間）が変更される。本実施形態の場合、音声生成部３３は、固有ＩＤにおける第３のグループである「ｉ」の位置の数字を参照して、基準データの時間長を変更するための声紋付与情報を決定する。図５の（ａ）に示すように、音声生成部３３は、各文字のＪＩＳコードを固有ＩＤにおける「ｉ」の位置の数字で割ったとき、余りが０であるか否かを特定する。これにより、基準データから発音時間を変更するか否かが決まる。さらに、図５の（ｂ）に示すように、音声生成部３３は、各文字のＪＩＳコードに固有ＩＤにおける「ｉ」の位置の数字を足した値が奇数であるかまたは偶数であるかを特定する。これにより、発音時間を長くするかまたは短くするかが決まる。例えば、スマートフォン１の場合、「ｉ」に入る数字は、「Ｂ（１０進数における１１）」である。ここで、上述した「ち」のＪＩＳコードである「２４４１」を１１で割ると余りは０ではない。これにより、音声生成部３３は「基準データからの発音時間変更を行う」という声紋付与情報を決定する。また、「２４４１」に１１を足すと「２４５２」となり、この数字は偶数である。これにより、音声生成部３３は「基準データから短くする」という声紋付与情報を決定する。

続いて、図５の（ｃ）および図５の（ｄ）を参照して、基準データの無音時間の変更について説明する。基準データの無音時間を変更することによって、合成音声において音と音との時間間隔が変更される。具体的には、基準データの無音時間の領域を増減させることで、音と音との時間間隔が長くまたは短くなる。

本実施形態の場合、音声生成部３３は、固有ＩＤにおける第４のグループである「ｊ」の位置の数字を参照して、基準データの無音時間を変更するための声紋付与情報を決定する。図５の（ｃ）に示すように、音声生成部３３は、各文字のＪＩＳコードを固有ＩＤにおける「ｊ」の位置の数字で割ったとき、余りが０であるか否かを特定する。これにより、基準データから無音時間を変更するか否かが決まる。さらに、図５の（ｄ）に示すように、音声生成部３３は、各文字のＪＩＳコードに固有ＩＤにおける「ｊ」の位置の数字を足した値が奇数であるかまたは偶数であるかを特定する。これにより、無音時間を標準の無音時間から長くするかまたは短くするかが決まる。例えば、スマートフォン１の場合、「ｊ」に入る数字は、「Ｃ（１０進数における１２）」である。ここで、上述した「ち」のＪＩＳコードである「２４４１」を１２で割ると余りは０ではない。これにより、音声生成部３３は、「時間間隔変更を行う」という声紋付与情報を決定する。また、「２４４１」に１２を足すと「２４５３」となり、この数字は奇数である。これにより、音声生成部３３は、「基準データから長くする」という声紋付与情報を決定する。なお、本実施形態においては、時間長および無音時間の変化量、すなわち、発音時間および無音時間が基準データからどれだけ長くまたは短くなるかは予め決められており、例えば記憶部１４に当該変化量を示す情報が記憶されている。しかしながら、当該変化量は一定でなくてもよく、例えば、固有ＩＤのいずれかの位置の数字によって決定してもよい。

続いて、図６の（ａ）を参照して、相対振幅の変更について説明する。相対振幅を変更することによって、各文字セットを発音するときのアクセントの位置が変更される。すなわち、文字セットに含まれる文字のうちの一文字の振幅を他の文字の振幅と比べて大きくすることで、当該文字にアクセントが付加される。

本実施形態の場合、音声生成部３３は、固有ＩＤにおける第５のグループである「ｋ」の位置の数字を参照して、アクセントの位置を変更するための声紋付与情報を決定する。図６の（ａ）に示すように、音声生成部３３は、固有ＩＤにおける「ｋ」の位置の数字が、「固有ＩＤにおけるｋの位置の数字（１６進数）」に格納されている数値範囲のうちいずれに含まれるかを特定する。これにより、アクセントを付加するか否か、および、どの文字にアクセントを付加するか、が決まる。例えば、スマートフォン１の場合、「ｋ」の位置に入る数字は「９」であるため、音声生成部３３は、「最後の文字にアクセント付加」という声紋付与情報を決定する。図７に示す例の場合、「は」の文字の振幅が他の文字より大きくなることによって、当該文字にアクセントが付加される。

最後に、図６の（ｂ）を参照して、相対振幅および相対周波数のうちの少なくとも１つの変更について説明する。相対振幅および相対周波数のうちの少なくとも１つを変更することによって、各文字セットを発音するときの抑揚が変更される。本実施形態の場合、音声生成部３３は、固有ＩＤにおける第６のグループである「ｍ」の位置の数字を参照して、抑揚を変更するための声紋付与情報を決定する。図６の（ｂ）に示すように、音声生成部３３は、固有ＩＤにおける「ｍ」の位置の数字が、「固有ＩＤにおけるｍの位置の数字（１６進数）」に格納されている数値範囲のうちいずれに含まれるかを特定する。これにより、どのような抑揚とするかが決まる。例えば、スマートフォン１の場合、「ｍ」の位置に入る数字は「０」であるため、音声生成部３３は、「セット後半にかけて上がる」という声紋付与情報を決定する。例えば、図７に示す例において、「セット後半にかけて上がる」という声紋付与情報を決定した場合、例えば、「こんにちは」の順で周波数を高くしていくことによって「セット後半にかけて上がる（右上がり）」の抑揚が付加される。

以上のように、音声生成部３３は、各声紋付与情報を決定した後、決定した声紋付与情報に従って、読み出した基準データを変更する。これにより、基準データが固有データに変換される。なお、音声生成部３３は、文章データが１文字で構成される場合、無音時間の変更並びに、アクセントおよび抑揚の付加を行わなくてもよい。また、文字セットの最後の文字については無音時間を変更しなくてもよい。また、音声生成部３３は、文章データに含まれる文字セットのうち、選択した文字セットにおいてのみ、無音時間の変更並びに、アクセントおよび抑揚の付加を行ってもよい。

次に、図８を参照して、スマートフォン１が実行する処理の流れについて説明する。図８は、スマートフォン１が実行する処理の流れの一例を示すフローチャートである。まず、文章取得部３１が音声出力させる文章データを取得し（Ｓ１）、文章解析部３２に供給する。文章解析部３２は文章データを解析し（Ｓ２）、文字情報および文字セット情報を音声生成部３３に供給する。音声生成部３３は、供給された文字情報に対応する基準データを基準データ記憶部４１から読み出すとともに、識別情報記憶部４２からスマートフォン１の固有ＩＤを読み出す（Ｓ３）。続いて、音声生成部３３は、読み出した固有ＩＤに含まれる数字（１６進数）に応じて、基準データにおける声紋付与情報を決定する（Ｓ４）。具体的には、音声生成部３３は、固有ＩＤに含まれる数字の位置と対応する音声調整情報を参照し、当該位置の数字と対応付けられた声紋付与情報を決定する。続いて、音声生成部３３は、決定した声紋付与情報に応じて、基準データから固有音声データを生成する（Ｓ５）。そして、音声生成部３３は、固有音声データを音声出力部１２に出力する。最後に音声出力部１２は、固有音声データに応じた合成音声を、スピーカなどを介して再生する（Ｓ６）。以上で、スマートフォン１が実行する処理は終了する。

以上より、本実施形態に係るスマートフォン１の音声生成部３３は、スマートフォン１の固有ＩＤに含まれる数字に応じて、合成音声の音程、音量、発音時間、音と音との時間間隔、アクセントの位置、および抑揚を変更する。ここで、固有ＩＤはあるユーザが使用するスマートフォン１を一義的に識別するための情報であるため、全く同じ固有ＩＤというものは存在しない。そのため、あるユーザが使用するスマートフォン１が出力する合成音声の音質と、別のユーザが使用するスマートフォン１が出力する合成音声の音質とは異なる。換言すれば、スマートフォン１の出力する合成音声の音声データは、固有ＩＤに応じた声紋を有する。よって、ユーザ（または音声を認識する音声認識装置）は、出力された音声がどの機器から出力された音声であるのかを容易に識別することができる。

〔実施形態２〕
本発明の他の実施形態について、図９に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、実施形態１にて説明した部材と同一の機能を有する部材については、同一の符号を付し、適宜その説明を省略する。

図９に示すように、本実施形態に係るスマートフォン２は、音声合成装置２０と一体となっている。また、スマートフォン２は、実施形態１に係るスマートフォン１と異なり、識別情報変換部３４を備える。識別情報変換部３４は、識別情報記憶部４２に記憶されている固有ＩＤに含まれている文字を１６進数の数字に変換するものである。具体的には、識別情報記憶部４２は、記憶部１４に記憶されている、固有ＩＤに含まれている文字と１６進数の数字とを対応付けたテーブル（不図示）を参照して、固有ＩＤに含まれている文字を、１６進数の数字に変換する。例えば、固有ＩＤが１〜９の数字、並びに、アルファベットの小文字および大文字から選択される１２文字からなる場合、識別情報変換部３４は、以下のような変換を行う。１〜９の数字：１６進数における１〜９。アルファベットのａ〜ｐ：１６進数における０〜Ｆ。アルファベットのｑ〜ｚおよびＡ〜Ｆ：１６進数における０〜Ｆ。アルファベットのＧ〜Ｖ：１６進数における０〜Ｆ。アルファベットのＷ〜Ｚ：１６進数におけるＡ〜Ｄ。なお、この変換は一例であり、識別情報変換部３４による１６進数への変換は、上述した例に限定されるものではない。また、識別情報変換部３４は、変換した固有ＩＤを音声生成部３３に供給する。

以上より、本実施形態に係るスマートフォン２は、スマートフォン２の固有ＩＤに含まれる数字および文字を、識別情報変換部３４が１６進数の数字に変換する。そして、識別情報変換部３４は、変換された固有ＩＤを音声生成部３３に供給する。これにより、スマートフォン２の固有ＩＤが１６進数の数字でない場合であっても、固有ＩＤに応じた声紋を有する固有音声データを生成することができる。つまり、固有ＩＤを構成する文字の種類に関わらず、出力する合成音声の音質を機器固有の音質とすることができる。

〔実施形態３〕
スマートフォン１および２の制御ブロック（特に、文章取得部３１、文章解析部３２、音声再生部３３、および、スマートフォン２の識別情報変換部３４）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。後者の場合、スマートフォン１および２は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔まとめ〕
本発明の態様１に係る音声合成装置（音声合成装置１０、音声合成装置２０）は、音声データに従って音声を出力する音声出力機器（スマートフォン１および２）のために、文字データを音声データに変換する音声合成装置であって、上記文字データを取得する文字データ取得手段（文章取得部３１）と、上記文字データ取得手段が取得した上記文字データを、該文字データを変換した音声データに従って音声を出力する音声出力機器に固有の識別情報に応じた声紋を有する固有音声データに変換する変換手段（音声生成部３３）と、を備えている。

上記の構成によれば、文字データが音声データに変換されるとき、識別情報に応じた声紋を有する固有音声データに変換される。識別情報は、音声出力機器ごとに固有の情報であるため、固有音声データの声紋は音声出力機器ごとに異なる。よって、上記固有音声データが合成音声として出力されると、音声出力機器固有の音質を有する合成音声が再生されることとなる。つまり、複数の音声出力機器が同じ文字データを変換した音声データを出力する場合でも、各音声出力機器が再生する合成音声はそれぞれ異なる音質を有する。よって、音声を出力する機器ごとにユニークな音声を容易に生成することができる。

本発明の態様２に係る音声合成装置は、上記態様１において、所定単位の表音文字の音声データである基準音声データから上記固有音声データを生成するための処理内容を、上記識別情報に応じて決定する決定手段（音声生成部３３）をさらに備え、上記変換手段は、上記決定手段が決定した上記処理内容に従って、上記文字データに対応する上記基準音声データから上記固有音声データを生成してもよい。

上記の構成によれば、基準音声データから固有音声データを生成するための処理内容が、識別情報に応じて決定される。よって、決定された処理内容に従って、固有音声データを生成することにより、音声出力機器が出力する合成音声を音声出力機器固有の音質を有するものとすることができるので、音声を出力する機器ごとにユニークな音声を容易に生成することができる。

本発明の態様３に係る音声合成装置は、上記態様２において、上記処理内容は、上記基準音声データの周波数、振幅、および時間長のうち少なくとも１つを含んでもよい。

上記の構成によれば、上記処理内容に従って、基準音声データの周波数、振幅、および時間長のうち少なくとも１つを変更することが可能となる。これらを変更することで、合成音声の音程、音量、および発音時間のうち少なくとも１つを変更することができるので、音声出力機器が出力する合成音声を音声出力機器固有の音質を有するものとすることができる。よって、音声を出力する機器ごとにユニークな音声を容易に生成することができる。

本発明の態様４に係る音声合成装置は、上記態様２または３において、上記文字データの文字が複数の文字からなる文字列に含まれる場合、上記処理内容は、上記文字列のある文字を発音してから、上記文字列の次の文字を発音するまでの時間と、上記文字列のある文字に対応する上記基準音声データの、上記文字列の他の文字に対応する上記基準音声データに対する相対的な周波数と、上記文字列のある文字に対応する上記基準音声データの、上記文字列の他の文字に対応する上記基準音声データに対する相対的な振幅と、のうち少なくとも１つの変更を含んでもよい。

上記の構成によれば、上記処理内容に従って、文字列を合成音声に変換する場合に、ある文字を発音してから次の文字を発音するまでの時間、文字列中のある文字における文字列中の他の文字に対する相対的な音程、文字列中のある文字における文字列中の他の文字に対する相対的な音量のうち少なくとも１つを変更することができる。これにより、発音の時間間隔、合成音声の抑揚、アクセントの位置のうち少なくとも１つを変更することができるので、文字列を変換した合成音声を出力する場合に、音声を出力する機器ごとにユニークな音声を容易に生成することができる。

本発明の態様５に係る音声合成装置の制御方法は、音声データに従って音声を出力する音声出力機器のために、文字データを音声データに変換する音声合成装置の制御方法であって、上記文字データを取得する文字データ取得ステップと、上記文字データ取得ステップにて取得した上記文字データを、該文字データを変換した音声データに従って音声を出力する音声出力機器に固有の識別情報に応じた声紋を有する固有音声データに変換する変換ステップと、を含む。

上記の構成による作用効果は、上述した態様１と同じである。

本発明の各態様に係る音声合成装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記音声合成装置が備える各手段として動作させることにより上記音声合成装置をコンピュータにて実現させる音声合成装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

本発明は、音声を合成する音声合成装置に利用することができる。特に、携帯電話機、スマートフォン、タブレット、携帯ゲーム機、電子辞書、および対話型ロボットなどに好適である。

１スマートフォン（音声出力機器）、２スマートフォン（音声出力機器）、１０音声合成装置、２０音声合成装置、３１文章取得部（文字データ取得手段）、３３音声生成部（変換手段、決定手段）

Claims

文字データを音声データに変換する音声合成装置であって、
上記文字データを取得する文字データ取得手段と、
上記文字データ取得手段が取得した上記文字データを、該文字データを変換した音声データに従って音声を出力する音声出力機器に固有の識別情報に応じた声紋を有する固有音声データに変換する変換手段と、
所定単位の表音文字の音声データである基準音声データから上記固有音声データを生成するための処理内容を、上記識別情報に応じて決定する決定手段とを備え、
上記変換手段は、上記決定手段が決定した上記処理内容に従って、上記文字データに対応する上記基準音声データから上記固有音声データを生成し、
上記文字データの文字が複数の文字からなる文字列に含まれる場合、
上記処理内容は、
上記文字列のある文字を発音してから、上記文字列の次の文字を発音するまでの時間と、上記文字列のある文字に対応する上記基準音声データの、上記文字列の他の文字に対応する上記基準音声データに対する相対的な周波数と、
上記文字列のある文字に対応する上記基準音声データの、上記文字列の他の文字に対応する上記基準音声データに対する相対的な振幅と、
のうち少なくとも１つの変更を含むことを特徴とする音声合成装置。
請求項１に記載の音声合成装置としてコンピュータを機能させるための制御プログラムであって、コンピュータを上記各手段として機能させるための制御プログラム。