JP6438200B2 - 音声合成装置および制御プログラム - Google Patents

音声合成装置および制御プログラム Download PDF

Info

Publication number
JP6438200B2
JP6438200B2 JP2014031073A JP2014031073A JP6438200B2 JP 6438200 B2 JP6438200 B2 JP 6438200B2 JP 2014031073 A JP2014031073 A JP 2014031073A JP 2014031073 A JP2014031073 A JP 2014031073A JP 6438200 B2 JP6438200 B2 JP 6438200B2
Authority
JP
Japan
Prior art keywords
data
character
voice
speech
unique
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014031073A
Other languages
English (en)
Other versions
JP2015155977A (ja
Inventor
良彦 濱口
良彦 濱口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2014031073A priority Critical patent/JP6438200B2/ja
Publication of JP2015155977A publication Critical patent/JP2015155977A/ja
Application granted granted Critical
Publication of JP6438200B2 publication Critical patent/JP6438200B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)

Description

本発明は音声を合成する音声合成装置に関する。
近年、音声合成およびTTS(Text to Speach)の技術、並びに、音声認識の技術が進化しており、音声合成機能および音声認識機能を搭載したスマートフォンなども開発されている。また、音声合成に関する技術として、下記特許文献1に記載されている、入力された音声信号が合成音声か否かを識別する技術などが知られている。
特開2002−297199号公報(2002年10月11日公開) 特許第3812848号(2006年8月23日発行)
今後、音声合成技術が進化することで、音声を出力する音声出力機器(以下、機器と呼称する場合もある)が増えることが予想される。しかしながら、機器が出力する音声は機器ごとの差異が乏しいことが多い。そのため、ユーザまたは音声認識機能を有する機器は、複数の機器の中から音声を出力した機器を識別することが難しいという問題がある。また、同じ製品が複数あった場合、出力される音声の音声パターンは限られていることが多い。すなわち、複数の機器から出力される音声が同一のものとなり、ユーザが音声を出力した機器を識別することができない可能性がある。また、音声が同一となる場合、音声認識機能を有する機器は、複数の同製品が発した音声を区別して認識することができない。
本発明は、上記の問題に鑑みてなされたものであり、その目的は、音声を出力する機器ごとにユニークな音声を容易に生成することができる音声合成装置などを実現することにある。
上記の課題を解決するために、本発明の一態様に係る音声合成装置は、音声データに従って音声を出力する音声出力機器のために、文字データを音声データに変換する音声合成装置であって、上記文字データを取得する文字データ取得手段と、上記文字データ取得手段が取得した上記文字データを、該文字データを変換した音声データに従って音声を出力する音声出力機器に固有の識別情報に応じた声紋を有する固有音声データに変換する変換手段と、を備えている。
本発明の一態様によれば、音声を出力する機器ごとにユニークな音声を容易に生成することができるという効果を奏する。
実施形態1に係るスマートフォンの要部構成を示すブロック図である。 図1に示すスマートフォンの基準データ記憶部に記憶されている基準データを示す図である。 図1に示すスマートフォンの音声調整情報記憶部に記憶されている音声調整情報のデータ構造および具体例を示す図である。 図1に示すスマートフォンの音声調整情報記憶部に記憶されている音声調整情報のデータ構造および具体例を示す図である。 図1に示すスマートフォンの音声調整情報記憶部に記憶されている音声調整情報のデータ構造および具体例を示す図である。 図1に示すスマートフォンの音声調整情報記憶部に記憶されている音声調整情報のデータ構造および具体例を示す図である。 図1に示すスマートフォンにて「こんにちは」という文章データを固有音声データに変換した場合の基準音声データの調整内容の具体例を示す表である。 図1に示すスマートフォンの処理の流れを示すフローチャートである。 実施形態2に係るスマートフォンの要部構成を示すブロック図である。
〔実施形態の概要〕
まず、以下に説明する実施形態1〜3の概要について説明する。なお、以下で説明する実施形態では、本発明の音声合成装置を、スマートフォンに適用した例を説明する。従来、スマートフォンなどの音声を出力する音声出力機器(以下、機器と呼称する場合もある)が複数ある場合、ユーザおよび音声を認識する音声認識装置は、当該複数の機器の中から音声を出力した機器を識別することが困難であった。そこで、実施形態1および2の音声合成装置10および音声合成装置20は、文字データから生成された音声を出力する音声出力機器(スマートフォン1および2)の内部あるいは外部に設けられ、音声出力機器のために、当該文字データを音声出力機器に固有の識別情報に応じた声紋を有する固有音声データに変換するようになっている。なお、音声合成装置10および音声合成装置20は、文字データを、音声出力機器から取得してもよいし、他の装置から取得してもよい。これにより、出力される合成音声の音質は機器ごとに異なるものとなり、音声を出力する機器が複数ある場合でも、出力された音声がどの機器から出力された音声であるのかを容易に識別することができる。以下、実施形態1〜3を詳細に説明する。
〔実施形態1〕
本発明の一実施形態について、図1〜図8に基づいて説明すれば、以下のとおりである。まず、図1を参照して、スマートフォン1(音声出力機器)の要部構成について説明する。図1に示すように、スマートフォン1は、入力部11、音声出力部12、制御部13、および記憶部14を備える構成である。なお、スマートフォン1は、音声合成装置10と一体となっている。図1において、破線で囲まれた部分が音声合成装置10である。
入力部11は、ユーザによる入力操作を受け付ける入力デバイスである。本実施形態における入力部11は、例えばタッチパネルである。入力部11としては、既存のスマートフォンに使用されているタッチパネルを利用することができる。なお、入力部11はタッチパネルに限定されず、例えば物理キーであってもよい。
制御部13は、スマートフォン1が備える各部を統括制御するものである。制御部13は文章取得部31(文字データ取得手段)、文章解析部32、音声生成部33(変換手段、決定手段)、を含んでいる。
文章取得部31は、文字データを取得するものである。具体的には、文章取得部31は、音声として出力するための文章データを取得するものである。文章取得部31は、例えば、入力部11が受け付けた入力操作によって文字列が入力された場合、当該文字列を文章データとして取得する。また、例えば、入力部11が受け付けた入力操作によって、文字列を含むデータ(例えば、テキストデータ、ワードデータなど)が選択された場合、当該選択されたデータを記憶部14から読み出し、文章データとして取得する。また、文章取得部31は、音声として出力するための文章データをサーバ装置等の外部の装置から取得するものである。文章取得部31は、取得した文章データを文章解析部32に供給する。なお、文章取得部31は、上記文章データを、画像データ、映像データなどから抽出してもよい。また、上記文章データは複数の文字からなる文字列であってもよいし、一文字であってもよい。
文章解析部32は、供給された文章データを解析し、当該文章データを音声信号に変換するための処理を行うものである。具体的には、文章解析部32は、文章取得部31から文章データを供給されると、当該文章データに含まれる英数字、漢字、記号などをこれらの読み方を示す文字(表音文字)に変換する。さらに、文章解析部32は、供給された文章データを複数の文字の集まりである文字セットに分割する。例えば、文章解析部32は、供給された文章データを文節ごとに分割し、各文節を上記文字セットとする。なお、文章データの分割は、文節ごとの分割に限定されるものではなく、例えば、単語ごと、文ごとの分割であってもよい。文章解析部32は、文章データに含まれる各文字(英数字、漢字、記号などを表音文字に変換した後の各文字)を特定するための文字情報と、文字セットを特定するための文字セット情報とを、音声生成部33に供給する。
音声生成部33は、文字データを、機器(スマートフォン1)を一義的に識別するための識別情報に応じた声紋を有する固有音声データに変換するものである。具体的には、音声生成部33は、文章解析部32から文字情報および文字セット情報を供給されると、所定単位の表音文字の音声データである基準データ(基準音声データ)を記憶している基準データ記憶部41から、供給された上記文字情報に対応する基準データを読み出し、文章データに含まれる各文字を基準データに変換する。そして、音声生成部33は、上記識別情報(本実施形態では、スマートフォン1を一義的に識別するための固有ID)を記憶している識別情報記憶部42からスマートフォン1の固有IDを読み出す。そして、読み出した固有IDを参照して基準データを固有音声データに変換する。さらに具体的には、音声生成部33は、基準データから固有音声データを生成するための処理内容を記憶している音声調整情報記憶部43を参照して、固有IDに含まれる各文字(本実施形態では16進数に用いる数字)に応じた声紋付与情報を決定する。そして、決定した声紋付与情報を参照して、基準データを固有音声データに変換する。換言すれば、音声生成部33は、読み出した固有IDに含まれる英数字を関数のパラメータとし、当該関数を用いて基準データに対する演算を行うことで基準データを固有音声データに変換する。なお、声紋付与情報の詳細および基準データの固有データへの変換の詳細は後述する。また、識別情報はスマートフォン1において固有の情報であればよく、例えば、シリアル番号、または、無線通信用のMACアドレスであってもよい。
また、音声生成部33は、生成した固有音声データを音声出力部12に出力する。なお、本実施形態では、音声合成装置10がスマートフォン1(音声出力機器)と一体となっているが、音声合成装置と音声出力機器とは別体であってもよい。音声合成装置と音声出力機器とが別体である場合、音声生成部33は、生成した固有音声データを、通信部を介して当該音声出力機器に送信する(不図示)。音声合成装置と音声出力機器とが別体である場合の一例としては、音声再生機能を有する各種家電(機器)の識別情報をサーバ(音声合成装置)が取得し、各識別情報に応じた固有音声データを各種家電に送信する構成が考えられる。これにより、ユーザは自身の家にある各種家電から、合成音声を発した家電を容易に特定することができる。
音声出力部12は、音声生成部33が生成した固有音声データを合成音声として出力するものである。具体的には、音声出力部12は、音声生成部33から供給された固有音声データを合成音声としてスピーカ(不図示)などを介して出力(再生)する。なお、スピーカとしては既存のスマートフォンに使用されているスピーカを利用することができる。また、スマートフォン1とスピーカなどのデバイスとは別体であってもよい。
記憶部14は、スマートフォン1にて使用される各種データを記憶する記憶デバイスである。図1に示すように、記憶部14は、少なくとも、基準データ記憶部41、識別情報記憶部42、音声調整情報記憶部43を含んでいる。
基準データ記憶部41は、所定単位の表音文字である基準データを記憶している。ここで、基準データの詳細について図2を参照して説明する。図2は、表音文字である「あ」「さ」「だ」「よ」の4文字の基準データを示す図である。図2の(a)に示すように、基準データは横軸に時間経過、縦軸に振幅をとる。すなわち基準データとは、各表音文字を発音したときの音波の振幅の時間変化を示すデータである。なお、各文字の基準データの時間経過および振幅は適宜決定されればよい。また、本実施形態では、基準データ記憶部41は、表音文字1文字に対応する音声データを基準データとして記憶しているが、2文字以上を1単位とする音声データを基準データとして記憶していてもよい。音声生成部33は、文章解析部32から供給された文字情報を用いて基準データ記憶部41を検索することで、供給された文字情報に対応する基準データを読み出す。また、図2の(a)に示すように、基準データは表音文字を発音したときの波形の後に、一定時間(例えば0.1秒)振幅が0である領域(無音時間)を有している。なお、基準データに無音時間は含まれていなくてもよい。例えば、合成音声として出力するときに、音声出力部12が、音声生成部33によって特定された無音時間を音と音との間に挿入してもよい。
識別情報記憶部42は、スマートフォン1と他のスマートフォンなどの機器とを識別するための情報である識別情報を記憶している。上述したように、本実施形態における識別情報はスマートフォン1の固有IDである。また、本実施形態における固有IDは、「ab:cd:ef:gh:ij:km」のように12文字(「:」を除く)であり、各アルファベットの位置には、16進数で用いられる数字(すなわち、1〜9およびA〜F)が1文字ずつ入る。例えば、スマートフォン1の固有IDは、「23:45:67:89:BC:90」である。つまり、スマートフォン1の識別情報記憶部42は、固有ID「23:45:67:89:BC:90」を記憶している。
音声調整情報記憶部43は、固有データを生成するための処理内容を記憶している。音声生成部33は、識別情報記憶部42から読み出した固有IDを用いて、音声調整情報記憶部43に記憶されているテーブルである音声調整情報を検索することで、声紋付加情報を決定し、決定した声紋付与情報を参照して固有音声データを生成する。
ここで、音声調整情報、声紋付与情報、および、固有音声データの生成の詳細について図3〜図7を参照して説明する。図3〜図6は、音声調整情報記憶部43に記憶されている音声調整情報のデータ構造および具体例を示す図である。図7は、スマートフォン1にて「こんにちは」という文章データを固有音声データに変換した場合の基準音声データの調整内容の具体例を示す表である。まず、音声調整情報のデータ構造について、図3の(a)および(b)を参照して詳細に説明する。音声調整情報は、テーブル形式の情報であり、固有IDの特定の位置における数字を区別するための数字区別情報と、声紋付与情報とが対応付けられた情報である。例えば、図3の(a)に示すように、固有IDにおけるaの位置の数字が0〜Fのそれぞれに、スマートフォン1から出力される合成音声のオクターブ変更の有無およびオクターブの変更量が対応づけられている。また、図3の(b)に示すように、固有IDにおけるbの位置の数字と文字のJISコードとを用いた演算結果のそれぞれに、当該文字における音階変更の有無が対応づけられている。このように、基準データに対する処理内容(声紋付与情報)は、図3の(a)に示す音声調整情報のように、固有IDにおける特定の位置の数字が何であるかが特定されることにより、直ちに決定されるもの、または、図3の(b)に示す音声調整情報のように、固有IDにおける特定の位置の数字と変換対象の文字データとの組み合わせに応じて決定されるものがある。なお、図3〜図6に示す各音声調整情報は、上記2つのタイプのいずれかであるため、図3の(a)および図3の(b)に示す音声調整情報以外の音声調整情報のデータ構造についての説明は省略する。また、固有IDの数字1つから1つの処理内容(声紋付与情報)が決定されてもよいし、固有IDの数字1つから複数の処理内容が決定されてもよい。さらに、固有IDにおける複数の数字から1つの処理内容が決定されてもよい。なお、音声調整情報は、テーブル形式に限定されるものではない。
次に、固有音声データの生成の概要について説明する。固有IDに含まれる数字(16進数)は、所定の第1のグループから第6のグループまでの6つのグループに分けられている。音声生成部33は、上記6つのグループに含まれる数字を参照して、それぞれの数字に対応する声紋付与情報を決定することで、上記6つのグループにそれぞれ対応する基準データの周波数と、振幅(周波数特性)と、時間長と、文字列のある文字を発音してから文字列の次の文字を発音するまでの時間(無音時間)と、文字列のある文字に対応する基準音声データにおける、文字列の他の文字に対応する基準音声データに対する相対的な振幅(相対振幅)と、相対振幅および文字列のある文字に対応する基準音声データにおける、文字列の他の文字に対応する基準音声データに対する相対的な周波数(相対周波数)のうちの少なくとも1つと、の変更の有無および変更の程度を決定する。これにより、識別情報に応じた声紋を有する固有音声データが生成される。なお、声紋付与情報は、変更の有無のみを示すものであってもよい。その場合、決定した声紋付与情報が基準データの変更を示しているとき、音声生成部33は、記憶部14に記憶されている変更の程度を示す変更情報に応じた変更を行う。
まず、図3を参照して、基準データの周波数の変更について説明する。基準データの周波数を変更することによって、合成音声の音程が変更される。ここで「音程の変更」とは、オクターブの変更および音階の変更を示す。まず、図3の(a)を参照して、各文字を発音するときのオクターブの変更について説明する。本実施形態の場合、音声生成部33は、固有IDにおける第1のグループである「a〜d」の位置の数字を参照して、基準データの周波数を変更するための声紋付与情報を決定する。図3の(a)に示すように、音声生成部33は、固有IDにおける「a」の位置の数字が、「固有IDにおけるaの位置の数字(16進数)」に格納されている数値範囲のうちいずれに含まれるかを特定する。これにより、オクターブを変更するか否か、変更する場合にオクターブを基準データから上げるかまたは下げるか、および、どの程度オクターブをあげるか、が決まる。例えば、スマートフォン1の場合、「a」の位置に入る数字は「2」であるため、音声生成部33は、「基準データからのオクターブ変更なし」という声紋付与情報を決定する。なお、本実施形態では、「a」の位置に入る数字によって、文章データにおける全ての文字のオクターブを決定しているが、文字ごとにオクターブを決定してもよい。
次に、図3の(b)〜(d)を参照して、各文字を発音するときの音階の変更について説明する。本実施形態の場合、図3の(b)に示すように、音声生成部33は、各文字のJISコードを固有IDにおける「b」の位置の数字で割ったとき、余りが0であるか否かを特定する。これにより、基準データから音階を変更するか否かが決まる。例えば、スマートフォン1の場合、「b」に入る数字は「3」である。ここで、図7に示す「こんにちは」の「ち」のJISコードは「2441」であり、これを3で割ると余りは0ではない。よって、音声生成部33は、「基準データからの音階変更を行う」という声紋付与情報を決定する。なお、「b」の位置に入る数字が「0」である場合、音声生成部33は、上記演算を実行することなく、音階の変更を行う(または行わない)としてもよい。これは、下記に説明する他の音声調整情報においても同様である。
次に、音階を変更する場合、図3の(c)に示すように、音声生成部33は、固有IDにおける「c」の位置の数字が、「固有IDにおけるcの位置の数字(16進数)」に格納されている数値範囲のうちいずれに含まれるかを特定する。これにより、音階を基準データから上げるかまたは下げるかが決まる。さらに、図3の(d)に示すように、音声生成部33は、固有IDにおける「d」の数字が、「固有IDにおけるdの位置の数字(16進数)」に格納されている数値範囲のうちいずれに含まれるかを特定する。これにより、音階を基準データからどれだけ変化させるかが決まる。例えば、スマートフォン1の場合、「c」に入る数字は「4」であるため、音声生成部33は、「基準データから上げる」という声紋付与情報を決定する。また、「d」に入る数字は「5」であるため、音声生成部33は、「基準データからの変更量は半音」という声紋付与情報を決定する。
続いて、図4を参照して、基準データの振幅の変更について説明する。基準データの振幅を変更することによって、合成音声の音量が変更される。本実施形態の場合、音声生成部33は、固有IDにおける第2のグループである「e〜h」の位置の数字を参照して、基準データの振幅を変更するための声紋付与情報を決定する。図4の(a)に示すように、音声生成部33は、各文字のJISコードを固有IDにおける「e」の位置の数字で割ったとき、余りが0であるか否かを特定する。これにより、基準データから音量を変更するか否かが決まる。例えば、スマートフォン1の場合、「e」に入る数字は「6」である。ここで、上述した「ち」のJISコードである「2441」を6で割ると余りは0ではない。よって、音声生成部33は、「基準データからの音量変更を行う」という声紋付与情報を決定する。そして、音量を変更することを特定した場合、図4の(b)に示すように、音声生成部33は、各文字のJISコードに固有IDにおける「f」の位置の数字を足した値が奇数であるかまたは偶数であるかを特定する。これにより、基準データから音量を上げるかまたは下げるかが決まる。さらに、図4の(c)に示すように、音声生成部33は、各文字のJISコードに固有IDにおける「g」および「h」の位置の数字を足した値が奇数であるかまたは偶数であるかを特定する。これにより、基準データから音量を0.1dB変更するかまたは0.2dB変更するかが決まる。例えば、スマートフォン1の場合、「f」、「g」、「h」に入る数字はそれぞれ、「7」、「8」、「9」である。ここで、上述した「ち」のJISコードである「2441」に7を足すと「2448」となり、この数字は偶数である。これにより、音声生成部33は、「基準データから下げる」という声紋付与情報を決定する。また、「2441」に8および9を足すと、「2458」となり、この数字は偶数である。これにより、音声生成部33は、「基準データからの変更量は0.2dB」という声紋付与情報を決定する。
続いて、図5の(a)および図5の(b)を参照して、基準データの時間長の変更について説明する。基準データの時間長を変更することによって、合成音声の時間的な長さ(発音時間)が変更される。本実施形態の場合、音声生成部33は、固有IDにおける第3のグループである「i」の位置の数字を参照して、基準データの時間長を変更するための声紋付与情報を決定する。図5の(a)に示すように、音声生成部33は、各文字のJISコードを固有IDにおける「i」の位置の数字で割ったとき、余りが0であるか否かを特定する。これにより、基準データから発音時間を変更するか否かが決まる。さらに、図5の(b)に示すように、音声生成部33は、各文字のJISコードに固有IDにおける「i」の位置の数字を足した値が奇数であるかまたは偶数であるかを特定する。これにより、発音時間を長くするかまたは短くするかが決まる。例えば、スマートフォン1の場合、「i」に入る数字は、「B(10進数における11)」である。ここで、上述した「ち」のJISコードである「2441」を11で割ると余りは0ではない。これにより、音声生成部33は「基準データからの発音時間変更を行う」という声紋付与情報を決定する。また、「2441」に11を足すと「2452」となり、この数字は偶数である。これにより、音声生成部33は「基準データから短くする」という声紋付与情報を決定する。
続いて、図5の(c)および図5の(d)を参照して、基準データの無音時間の変更について説明する。基準データの無音時間を変更することによって、合成音声において音と音との時間間隔が変更される。具体的には、基準データの無音時間の領域を増減させることで、音と音との時間間隔が長くまたは短くなる。
本実施形態の場合、音声生成部33は、固有IDにおける第4のグループである「j」の位置の数字を参照して、基準データの無音時間を変更するための声紋付与情報を決定する。図5の(c)に示すように、音声生成部33は、各文字のJISコードを固有IDにおける「j」の位置の数字で割ったとき、余りが0であるか否かを特定する。これにより、基準データから無音時間を変更するか否かが決まる。さらに、図5の(d)に示すように、音声生成部33は、各文字のJISコードに固有IDにおける「j」の位置の数字を足した値が奇数であるかまたは偶数であるかを特定する。これにより、無音時間を標準の無音時間から長くするかまたは短くするかが決まる。例えば、スマートフォン1の場合、「j」に入る数字は、「C(10進数における12)」である。ここで、上述した「ち」のJISコードである「2441」を12で割ると余りは0ではない。これにより、音声生成部33は、「時間間隔変更を行う」という声紋付与情報を決定する。また、「2441」に12を足すと「2453」となり、この数字は奇数である。これにより、音声生成部33は、「基準データから長くする」という声紋付与情報を決定する。なお、本実施形態においては、時間長および無音時間の変化量、すなわち、発音時間および無音時間が基準データからどれだけ長くまたは短くなるかは予め決められており、例えば記憶部14に当該変化量を示す情報が記憶されている。しかしながら、当該変化量は一定でなくてもよく、例えば、固有IDのいずれかの位置の数字によって決定してもよい。
続いて、図6の(a)を参照して、相対振幅の変更について説明する。相対振幅を変更することによって、各文字セットを発音するときのアクセントの位置が変更される。すなわち、文字セットに含まれる文字のうちの一文字の振幅を他の文字の振幅と比べて大きくすることで、当該文字にアクセントが付加される。
本実施形態の場合、音声生成部33は、固有IDにおける第5のグループである「k」の位置の数字を参照して、アクセントの位置を変更するための声紋付与情報を決定する。図6の(a)に示すように、音声生成部33は、固有IDにおける「k」の位置の数字が、「固有IDにおけるkの位置の数字(16進数)」に格納されている数値範囲のうちいずれに含まれるかを特定する。これにより、アクセントを付加するか否か、および、どの文字にアクセントを付加するか、が決まる。例えば、スマートフォン1の場合、「k」の位置に入る数字は「9」であるため、音声生成部33は、「最後の文字にアクセント付加」という声紋付与情報を決定する。図7に示す例の場合、「は」の文字の振幅が他の文字より大きくなることによって、当該文字にアクセントが付加される。
最後に、図6の(b)を参照して、相対振幅および相対周波数のうちの少なくとも1つの変更について説明する。相対振幅および相対周波数のうちの少なくとも1つを変更することによって、各文字セットを発音するときの抑揚が変更される。本実施形態の場合、音声生成部33は、固有IDにおける第6のグループである「m」の位置の数字を参照して、抑揚を変更するための声紋付与情報を決定する。図6の(b)に示すように、音声生成部33は、固有IDにおける「m」の位置の数字が、「固有IDにおけるmの位置の数字(16進数)」に格納されている数値範囲のうちいずれに含まれるかを特定する。これにより、どのような抑揚とするかが決まる。例えば、スマートフォン1の場合、「m」の位置に入る数字は「0」であるため、音声生成部33は、「セット後半にかけて上がる」という声紋付与情報を決定する。例えば、図7に示す例において、「セット後半にかけて上がる」という声紋付与情報を決定した場合、例えば、「こんにちは」の順で周波数を高くしていくことによって「セット後半にかけて上がる(右上がり)」の抑揚が付加される。
以上のように、音声生成部33は、各声紋付与情報を決定した後、決定した声紋付与情報に従って、読み出した基準データを変更する。これにより、基準データが固有データに変換される。なお、音声生成部33は、文章データが1文字で構成される場合、無音時間の変更並びに、アクセントおよび抑揚の付加を行わなくてもよい。また、文字セットの最後の文字については無音時間を変更しなくてもよい。また、音声生成部33は、文章データに含まれる文字セットのうち、選択した文字セットにおいてのみ、無音時間の変更並びに、アクセントおよび抑揚の付加を行ってもよい。
次に、図8を参照して、スマートフォン1が実行する処理の流れについて説明する。図8は、スマートフォン1が実行する処理の流れの一例を示すフローチャートである。まず、文章取得部31が音声出力させる文章データを取得し(S1)、文章解析部32に供給する。文章解析部32は文章データを解析し(S2)、文字情報および文字セット情報を音声生成部33に供給する。音声生成部33は、供給された文字情報に対応する基準データを基準データ記憶部41から読み出すとともに、識別情報記憶部42からスマートフォン1の固有IDを読み出す(S3)。続いて、音声生成部33は、読み出した固有IDに含まれる数字(16進数)に応じて、基準データにおける声紋付与情報を決定する(S4)。具体的には、音声生成部33は、固有IDに含まれる数字の位置と対応する音声調整情報を参照し、当該位置の数字と対応付けられた声紋付与情報を決定する。続いて、音声生成部33は、決定した声紋付与情報に応じて、基準データから固有音声データを生成する(S5)。そして、音声生成部33は、固有音声データを音声出力部12に出力する。最後に音声出力部12は、固有音声データに応じた合成音声を、スピーカなどを介して再生する(S6)。以上で、スマートフォン1が実行する処理は終了する。
以上より、本実施形態に係るスマートフォン1の音声生成部33は、スマートフォン1の固有IDに含まれる数字に応じて、合成音声の音程、音量、発音時間、音と音との時間間隔、アクセントの位置、および抑揚を変更する。ここで、固有IDはあるユーザが使用するスマートフォン1を一義的に識別するための情報であるため、全く同じ固有IDというものは存在しない。そのため、あるユーザが使用するスマートフォン1が出力する合成音声の音質と、別のユーザが使用するスマートフォン1が出力する合成音声の音質とは異なる。換言すれば、スマートフォン1の出力する合成音声の音声データは、固有IDに応じた声紋を有する。よって、ユーザ(または音声を認識する音声認識装置)は、出力された音声がどの機器から出力された音声であるのかを容易に識別することができる。
〔実施形態2〕
本発明の他の実施形態について、図9に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、実施形態1にて説明した部材と同一の機能を有する部材については、同一の符号を付し、適宜その説明を省略する。
図9に示すように、本実施形態に係るスマートフォン2は、音声合成装置20と一体となっている。また、スマートフォン2は、実施形態1に係るスマートフォン1と異なり、識別情報変換部34を備える。識別情報変換部34は、識別情報記憶部42に記憶されている固有IDに含まれている文字を16進数の数字に変換するものである。具体的には、識別情報記憶部42は、記憶部14に記憶されている、固有IDに含まれている文字と16進数の数字とを対応付けたテーブル(不図示)を参照して、固有IDに含まれている文字を、16進数の数字に変換する。例えば、固有IDが1〜9の数字、並びに、アルファベットの小文字および大文字から選択される12文字からなる場合、識別情報変換部34は、以下のような変換を行う。1〜9の数字:16進数における1〜9。アルファベットのa〜p:16進数における0〜F。アルファベットのq〜zおよびA〜F:16進数における0〜F。アルファベットのG〜V:16進数における0〜F。アルファベットのW〜Z:16進数におけるA〜D。なお、この変換は一例であり、識別情報変換部34による16進数への変換は、上述した例に限定されるものではない。また、識別情報変換部34は、変換した固有IDを音声生成部33に供給する。
以上より、本実施形態に係るスマートフォン2は、スマートフォン2の固有IDに含まれる数字および文字を、識別情報変換部34が16進数の数字に変換する。そして、識別情報変換部34は、変換された固有IDを音声生成部33に供給する。これにより、スマートフォン2の固有IDが16進数の数字でない場合であっても、固有IDに応じた声紋を有する固有音声データを生成することができる。つまり、固有IDを構成する文字の種類に関わらず、出力する合成音声の音質を機器固有の音質とすることができる。
〔実施形態3〕
スマートフォン1および2の制御ブロック(特に、文章取得部31、文章解析部32、音声再生部33、および、スマートフォン2の識別情報変換部34)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、スマートフォン1および2は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔まとめ〕
本発明の態様1に係る音声合成装置(音声合成装置10、音声合成装置20)は、音声データに従って音声を出力する音声出力機器(スマートフォン1および2)のために、文字データを音声データに変換する音声合成装置であって、上記文字データを取得する文字データ取得手段(文章取得部31)と、上記文字データ取得手段が取得した上記文字データを、該文字データを変換した音声データに従って音声を出力する音声出力機器に固有の識別情報に応じた声紋を有する固有音声データに変換する変換手段(音声生成部33)と、を備えている。
上記の構成によれば、文字データが音声データに変換されるとき、識別情報に応じた声紋を有する固有音声データに変換される。識別情報は、音声出力機器ごとに固有の情報であるため、固有音声データの声紋は音声出力機器ごとに異なる。よって、上記固有音声データが合成音声として出力されると、音声出力機器固有の音質を有する合成音声が再生されることとなる。つまり、複数の音声出力機器が同じ文字データを変換した音声データを出力する場合でも、各音声出力機器が再生する合成音声はそれぞれ異なる音質を有する。よって、音声を出力する機器ごとにユニークな音声を容易に生成することができる。
本発明の態様2に係る音声合成装置は、上記態様1において、所定単位の表音文字の音声データである基準音声データから上記固有音声データを生成するための処理内容を、上記識別情報に応じて決定する決定手段(音声生成部33)をさらに備え、上記変換手段は、上記決定手段が決定した上記処理内容に従って、上記文字データに対応する上記基準音声データから上記固有音声データを生成してもよい。
上記の構成によれば、基準音声データから固有音声データを生成するための処理内容が、識別情報に応じて決定される。よって、決定された処理内容に従って、固有音声データを生成することにより、音声出力機器が出力する合成音声を音声出力機器固有の音質を有するものとすることができるので、音声を出力する機器ごとにユニークな音声を容易に生成することができる。
本発明の態様3に係る音声合成装置は、上記態様2において、上記処理内容は、上記基準音声データの周波数、振幅、および時間長のうち少なくとも1つを含んでもよい。
上記の構成によれば、上記処理内容に従って、基準音声データの周波数、振幅、および時間長のうち少なくとも1つを変更することが可能となる。これらを変更することで、合成音声の音程、音量、および発音時間のうち少なくとも1つを変更することができるので、音声出力機器が出力する合成音声を音声出力機器固有の音質を有するものとすることができる。よって、音声を出力する機器ごとにユニークな音声を容易に生成することができる。
本発明の態様4に係る音声合成装置は、上記態様2または3において、上記文字データの文字が複数の文字からなる文字列に含まれる場合、上記処理内容は、上記文字列のある文字を発音してから、上記文字列の次の文字を発音するまでの時間と、上記文字列のある文字に対応する上記基準音声データの、上記文字列の他の文字に対応する上記基準音声データに対する相対的な周波数と、上記文字列のある文字に対応する上記基準音声データの、上記文字列の他の文字に対応する上記基準音声データに対する相対的な振幅と、のうち少なくとも1つの変更を含んでもよい。
上記の構成によれば、上記処理内容に従って、文字列を合成音声に変換する場合に、ある文字を発音してから次の文字を発音するまでの時間、文字列中のある文字における文字列中の他の文字に対する相対的な音程、文字列中のある文字における文字列中の他の文字に対する相対的な音量のうち少なくとも1つを変更することができる。これにより、発音の時間間隔、合成音声の抑揚、アクセントの位置のうち少なくとも1つを変更することができるので、文字列を変換した合成音声を出力する場合に、音声を出力する機器ごとにユニークな音声を容易に生成することができる。
本発明の態様5に係る音声合成装置の制御方法は、音声データに従って音声を出力する音声出力機器のために、文字データを音声データに変換する音声合成装置の制御方法であって、上記文字データを取得する文字データ取得ステップと、上記文字データ取得ステップにて取得した上記文字データを、該文字データを変換した音声データに従って音声を出力する音声出力機器に固有の識別情報に応じた声紋を有する固有音声データに変換する変換ステップと、を含む。
上記の構成による作用効果は、上述した態様1と同じである。
本発明の各態様に係る音声合成装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記音声合成装置が備える各手段として動作させることにより上記音声合成装置をコンピュータにて実現させる音声合成装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
本発明は、音声を合成する音声合成装置に利用することができる。特に、携帯電話機、スマートフォン、タブレット、携帯ゲーム機、電子辞書、および対話型ロボットなどに好適である。
1 スマートフォン(音声出力機器)、2 スマートフォン(音声出力機器)、10 音声合成装置、20 音声合成装置、31 文章取得部(文字データ取得手段)、33 音声生成部(変換手段、決定手段)

Claims (2)

  1. 文字データを音声データに変換する音声合成装置であって、
    上記文字データを取得する文字データ取得手段と、
    上記文字データ取得手段が取得した上記文字データを、該文字データを変換した音声データに従って音声を出力する音声出力機器に固有の識別情報に応じた声紋を有する固有音声データに変換する変換手段と、
    所定単位の表音文字の音声データである基準音声データから上記固有音声データを生成するための処理内容を、上記識別情報に応じて決定する決定手段とを備え、
    上記変換手段は、上記決定手段が決定した上記処理内容に従って、上記文字データに対応する上記基準音声データから上記固有音声データを生成し、
    上記文字データの文字が複数の文字からなる文字列に含まれる場合、
    上記処理内容は、
    上記文字列のある文字を発音してから、上記文字列の次の文字を発音するまでの時間と、上記文字列のある文字に対応する上記基準音声データの、上記文字列の他の文字に対応する上記基準音声データに対する相対的な周波数と、
    上記文字列のある文字に対応する上記基準音声データの、上記文字列の他の文字に対応する上記基準音声データに対する相対的な振幅と、
    のうち少なくとも1つの変更を含むことを特徴とする音声合成装置。
  2. 請求項1に記載の音声合成装置としてコンピュータを機能させるための制御プログラムであって、コンピュータを上記各手段として機能させるための制御プログラム。
JP2014031073A 2014-02-20 2014-02-20 音声合成装置および制御プログラム Expired - Fee Related JP6438200B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014031073A JP6438200B2 (ja) 2014-02-20 2014-02-20 音声合成装置および制御プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014031073A JP6438200B2 (ja) 2014-02-20 2014-02-20 音声合成装置および制御プログラム

Publications (2)

Publication Number Publication Date
JP2015155977A JP2015155977A (ja) 2015-08-27
JP6438200B2 true JP6438200B2 (ja) 2018-12-12

Family

ID=54775311

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014031073A Expired - Fee Related JP6438200B2 (ja) 2014-02-20 2014-02-20 音声合成装置および制御プログラム

Country Status (1)

Country Link
JP (1) JP6438200B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108364655B (zh) * 2018-01-31 2021-03-09 网易乐得科技有限公司 语音处理方法、介质、装置和计算设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002156989A (ja) * 2000-11-22 2002-05-31 Minolta Co Ltd 音声合成方法および音声合成システム
JP2002268666A (ja) * 2001-03-14 2002-09-20 Ricoh Co Ltd 音声合成装置
JP2005107320A (ja) * 2003-09-30 2005-04-21 Sanyo Electric Co Ltd 音声再生用データ生成装置
JP2010128099A (ja) * 2008-11-26 2010-06-10 Toyota Infotechnology Center Co Ltd 車載用音声情報提供システム
JP5423970B2 (ja) * 2010-01-26 2014-02-19 日本電気株式会社 音声メール実現システム、音声メール実現サーバ、その方法及びそのプログラム
JPWO2015111256A1 (ja) * 2014-01-24 2017-03-23 クラリオン株式会社 音声調整システム、サーバ及び車載装置

Also Published As

Publication number Publication date
JP2015155977A (ja) 2015-08-27

Similar Documents

Publication Publication Date Title
CN106898340B (zh) 一种歌曲的合成方法及终端
WO2017190674A1 (zh) 一种音频数据的处理方法、装置及计算机存储介质
CN105609097A (zh) 语音合成装置及其控制方法
US7912716B2 (en) Generating words and names using N-grams of phonemes
US9886947B2 (en) Speech recognition device and method, and semiconductor integrated circuit device
JP2016057986A (ja) 音声翻訳装置、方法およびプログラム
JP6011565B2 (ja) 音声検索装置、音声検索方法及びプログラム
JP6483578B2 (ja) 音声合成装置、音声合成方法およびプログラム
US9190060B2 (en) Speech recognition device and method, and semiconductor integrated circuit device
JP6111802B2 (ja) 音声対話装置及び対話制御方法
JP6806662B2 (ja) 音声合成システム、統計モデル生成装置、音声合成装置、音声合成方法
JP2003202885A5 (ja)
CN104899192A (zh) 用于自动通译的设备和方法
CN114038484B (zh) 语音数据处理方法、装置、计算机设备和存储介质
JP6438200B2 (ja) 音声合成装置および制御プログラム
JP2015106203A (ja) 情報処理装置、情報処理方法、及びプログラム
KR101813704B1 (ko) 사용자 음색 분석 장치 및 음색 분석 방법
JP5693834B2 (ja) 音声認識装置及び音声認識方法
JP2014013340A (ja) 作曲支援装置、作曲支援方法、作曲支援プログラム、作曲支援プログラムを格納した記録媒体およびメロディ検索装置
JP5139499B2 (ja) 抽出装置、抽出方法、プログラム、及びプログラムを配信する情報処理装置
EP3678018A1 (en) Information-providing method and information providing apparatus
KR102376552B1 (ko) 음성 합성 장치 및 음성 합성 방법
JP2010145873A (ja) テキスト置換装置、テキスト音声合成装置、テキスト置換方法、及び、テキスト置換プログラム
JP6221253B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP6142632B2 (ja) 単語辞書登録用コンピュータプログラム、音声合成装置及び単語辞書登録登録方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160923

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170919

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181116

R150 Certificate of patent or registration of utility model

Ref document number: 6438200

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees