JP2018004977A

JP2018004977A - 音声合成方法、システム及びプログラム

Info

Publication number: JP2018004977A
Application number: JP2016132220A
Authority: JP
Inventors: 中村　孝; Takashi Nakamura; 孝中村; 勇祐井島; Yusuke Ijima
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-07-04
Filing date: 2016-07-04
Publication date: 2018-01-11

Abstract

【課題】テキストを音声合成すべきかどうかと、合成する音声の特徴とを自動的に判断する音声合成技術を提供する。【解決手段】音声合成方法は、テキスト送信部１１が、音声合成させたいテキストである合成テキストに関する情報である合成テキスト情報を音声合成装置に送信するテキスト送信ステップと、合成実施判断部２１が、受信した合成テキスト情報に基づいて、その合成テキストの音声合成を行うかどうかを判断する合成実施判断ステップと、特徴情報推定部２２が、受信した合成テキスト情報に基づいて合成する音声の特徴に関する情報である特徴情報を推定する特徴情報推定ステップと、音声合成部２３が、上記合成実施判断ステップにおいて音声合成を行うと判断された場合には、合成テキスト情報及び上記推定された特徴情報に基づいて合成音声を生成する音声合成ステップと、を備えている。【選択図】図１

Description

この発明は、音声合成技術に関する。

音声合成技術は、入力されたテキストから望ましい合成音声を生成する技術であり、従来から様々に研究開発されている。一般に音声合成技術では音声を、声色に相当する音声の音色的特徴（以下、「声質」とも言う。）と、音高に相当する音声の韻律的特徴とに分け、それぞれを表現・生成するモデル（又はデータベース）を用いて合成を実現することが行われる（例えば、非特許文献１参照。）。音声の韻律的特徴を表出させる要素の主たるものとして「話し方」があるが、以下ではこれを口調とする。

近年様々なシステムに音声合成が搭載されており、その１つとして、映像の視聴者が感想や映像出演者へのメッセージなどを投稿したテキスト（以下、「コメント」とも言う。）を音声合成技術によって音声に変換し、生成された音声を映像コンテンツ中に埋め込むというものがある（例えば、非特許文献２参照。）。ユーザの嗜好が多様化・細分化される昨今、比較的容易に映像コンテンツの高度化・多様化の実現が期待でき、特にスマートフォンなどの端末からの映像配信などで映像配信者と視聴者とのインタラクティブなやり取りの実現が期待される。

水野，中嶋，井島，神山，村上，多様性豊かな音声合成技術，NTT技術ジャーナル，2013年3月，pp.29-32. みちあき、［online］、［平成28年6月24日検索］、インターネット〈URL：http://chi.usamimi.info/Program/Application/BouyomiChan/〉棒読みちゃん

非特許文献２に限らず、個々の合成させたいテキストに対し、声質や口調をいくつかのバリエーションの中から選択させるシステムがあるが、映像における配信者と視聴者間のインタラクティブなやり取りにおいて、テキスト毎に都度選択させることは応答速度の観点から難しい。

また、映像中に合成音声が出力される際の懸念として、映像配信者にとって問題となる内容や公序良俗に反する内容が合成されて映像に流れてしまうという点がある。また、そのような内容でなくても、視聴者が必ずしも合成されることを目的としてコメントを投稿するわけではないため、合成対象のコメントを選別可能である必要がある。

この発明の目的は、テキストを音声合成すべきかどうかと、合成する音声の特徴とを自動的に判断する音声合成方法、装置及びプログラムを提供することである。

この発明の一態様による音声合成方法は、送信者装置のテキスト送信部が、音声合成させたいテキストである合成テキストに関する情報である合成テキスト情報を音声合成装置に送信するテキスト送信ステップと、音声合成装置の合成実施判断部が、受信した合成テキスト情報に基づいて、その合成テキストの音声合成を行うかどうかを判断する合成実施判断ステップと、音声合成装置の特徴情報推定部が、受信した合成テキスト情報に基づいて合成する音声の特徴に関する情報である特徴情報を推定する特徴情報推定ステップと、音声合成装置の音声合成部が、上記合成実施判断ステップにおいて音声合成を行うと判断された場合には、合成テキスト情報及び上記推定された特徴情報に基づいて合成音声を生成する音声合成ステップと、を備えている。

テキストを音声合成すべきかどうかと、合成する音声の特徴とを自動的に判断することができる。

音声合成装置の例を説明するためのブロック図。特徴情報推定部の例を説明するためのブロック図。音声合成方法の例を説明するための流れ図。合成テキスト及び特徴情報の例を示す図。

以下、図面を参照して、この発明の一実施形態について説明する。

音声合成システムは、図１に示すように、送信者装置１及び音声合成装置２を例えば備えている。送信者装置１は、テキスト送信部１１を備えている。音声合成装置２は、合成実施判断部２１、特徴情報推定部２２、音声合成部２３及び合成情報送信部２４を例えば備えている。

音声合成方法は、音声合成システムの各部が図２及び以下に説明するステップＳ１からステップＳ２２３処理を行うことにより実現される。

＜テキスト送信部１１＞
送信者装置１のテキスト送信部１１は、音声合成させたいテキストである合成テキストに関する情報である合成テキスト情報を音声合成装置に送信する（ステップＳ１）。

送信者装置１は、ＰＣ、タブレット端末、スマートフォン、携帯電話、ＰＤＡ等の情報端末である。

合成テキスト情報は、合成テキスト、合成設定情報及び送信者情報を例えば含んでいる。

合成テキストは、ユーザである送信者によりキーボード、タッチパネル等の入力手段を用いて例えば入力される。

合成設定情報は、合成パラメタ（話速、音量、抑揚の大きさ等）、声質情報（音声合成処理部で取り扱うことが可能な声質のID等）、口調情報（音声合成処理部で取り扱うことが可能な口調のID等）、及び、声質・口調を管理部にて推定可能な情報、合成すべきか否かを示す真偽値（以下、「合成可否フラグ」とも言う。）の少なくとも１つを含む情報である。

合成設定情報は、送信者装置１がテキスト設定情報を予め定められた設定変換規則に基づいて変換することにより例えば生成される。

テキスト設定情報は、合成テキストに付与されるメタ情報である。例えば、送信者がログインし、コンテンツを視聴中に入力したテキストを音声合成するようなシステムの場合は、ログイン情報（ユーザID等）を送信者情報として、入力テキストの表示文字色などの情報をテキスト設定情報としてみなすことが可能である。

設定変換規則は、テキスト設定情報から合成設定情報を生成するための変換規則を表す。上記の例では、例えば、入力テキストの表示文字色が桃色であれば声質を女性・口調を喜びに、青色であれば合成可否フラグを偽に設定する、というような規則が考えられる。

＜合成実施判断部２１＞
音声合成装置２の合成実施判断部２１は、受信した合成テキスト情報に基づいて、その合成テキストの音声合成を行うかどうかを判断する（ステップＳ２１）。判断結果は、音声合成部２３に送信される。判断結果は、送信者装置１に送信されてもよい。

音声合成を行わないと判断された場合は、後述する特徴情報推定部２２の処理は行われなくてもよい。

音声合成を行うかどうかの判定処理は、合成設定情報に合成可否フラグが含まれていればその結果をもって判定してもよいし、合成NG単語リスト等が利用できれば、合成テキストに合成NG単語が含まれているか否かをもって判定してもよいし、合成NG送信者リスト等が利用できれば、送信者が合成NG送信者であるか否かをもって判定してもよい。

＜特徴情報推定部２２＞
特徴情報推定部２２は、受信した合成テキスト情報に基づいて合成する音声の特徴に関する情報である特徴情報を推定する（ステップＳ２２）。推定された特徴情報は、音声合成部２３に出力される。

特徴情報推定部２２は、例えば予め学習された特徴情報推定モデルに基づいて、特徴情報を推定する。特徴情報推定モデルは、後述する口調推定モデル、声質情報推定モデル、合成パラメタ推定モデルのことである。

特徴情報は、口調情報、声質情報及び合成パラメタの少なくとも１つである。特徴情報推定部２２は、特徴情報は、口調情報、声質情報及び合成パラメタの少なくとも１つ推定する。

特徴情報推定部２２が、特徴情報の１つとして口調情報を推定する場合には、特徴情報推定部２２の口調推定部２２１が、予め学習された口調推定モデルを用いて、口調情報を推定する。

口調情報は、例えば予め定められた複数の口調情報の中の適切な口調情報を示すIDである。

口調モデルは、ニューラルネットワークやサポートベクターマシンなどの統計モデルを用いても良いし、もしくは事前に登録しておいたルールに基づき推定するのでもよい。例えばニューラルネットワークを用いる場合、事前にテキストを何れかの方法にてベクトル化し、ベクトルと口調情報の対を用いてニューラルネットワークの素子間重みを学習しておき、口調推定時は、学習時と同様のベクトル化を入力の合成テキストに施したうえで学習済みのネットワークに入力し、合成テキストの口調を推定する事が考えられる。また、ニューラルネットワークの中でも過去の履歴を利用可能なリカレントニューラルネットワークやLSTM等を用いて、合成テキスト履歴から過去のテキストを使用し、口調情報を推定する方法でも良い。

また、口調推定部２２１は、合成設定情報として口調情報が指定されている場合は、口調推定モデルを利用せず、指定された口調情報をそのまま出力してもよい。

特徴情報推定部２２が、特徴情報の１つとして声質情報を推定する場合には、特徴情報推定部２２の声質推定部２２２が、予め学習された声質推定モデルを用いて、声質情報を推定する。

声質推定部２２２は、口調推定部２２１と同様に、ニューラルネットワークやサポートベクターマシンなどの統計モデルを用いて声質情報の推定を行っても良いし、もしくは事前に登録しておいたルールに基づき声質情報を推定してもよい。

声質情報は、例えば予め定められた複数の声質情報の中の適切な声質情報を示すIDである。

また、声質推定部２２１は、合成設定情報として声質情報が指定されている場合は、声質推定モデルを利用せず、指定された声質情報をそのまま出力してもよい。

特徴情報推定部２２が、特徴情報の１つとして合成パラメタを推定する場合には、特徴情報推定部２２の合成パラメタ推定部２２３が、予め学習された合成パラメタ推定モデルを用いて、合成パラメタを推定する。

合成パラメタ部２２３は、口調推定部２２１と同様に、ニューラルネットワークやサポートベクターマシンなどの統計モデルを用いて合成パラメタの推定を行っても良いし、もしくは事前に登録しておいたルールに基づき合成パラメタを推定してもよい。

また、合成パラメタ推定部２２１は、合成設定情報として合成パラメタ情報が指定されている場合は、合成パラメタ推定モデルを利用せず、指定された合成パラメタをそのまま出力してもよい。

特徴情報推定部２２は、受信した合成テキスト情報及び特徴情報推定部２２で推定した特徴情報を、音声合成部２３で受け入れ可能な形式の情報に変換した上で、音声合成部２３に出力してもよい。この処理は、例えば合成情報送信部２４により行われる。例えば、音声合成部２３にWebAPIが用意されている場合、JSON形式のテキストデータを用いて音声合成に必要な情報を伝達することが可能である。

図４に、音声合成部２３で受け入れ可能な形式の情報に変換した、合成テキスト及び特徴情報の例を示す。図４では、合成テキスト（Text）、合成パラメタ（話速（Speed）、音量（Volume）を指定）、声質情報（SpeakerID）、口調情報（ToneID）をJSON形式で指定している。

＜音声合成部２３＞
音声合成部２３は、合成実施判断部２１において音声合成を行うと判断された場合には、受信した合成テキスト情報及び特徴情報推定部２２で推定された特徴情報に基づいて合成音声を生成する（ステップＳ２３）。

音声合成部２３は、既存の音声合成方法の何れの方法を用いても良い。

音声合成部２３で生成された音声波形は、予め設定された音声出力先に出力される。例えば、生成された合成音声を直接ライン出力先（スピーカーやヘッドフォンなど）に音声出力する、映像コンテンツに合成音声をミキシングする、音声ファイルとして保存する、等が考えられる。

音声合成部２３による出力は、音声波形だけではなく、任意のデータ変換方式（Base64など）によって音声波形をエンコーディングしたものでもよい。その場合は出力先において、デコーディングがをすることにより音声波形が生成される。

このようにして、例えば、合成させるテキストの内容やテキスト送信者の情報、過去の合成テキストの履歴などから自動で合成音声の声質、口調、合成パラメタを推定し、合成させるべきか否かの判定を行う。これにより、合成させる際の人手による設定指定の手間をかけずに、より目的に合った合成音声を出力することが可能になる。

また、テキスト送信者の指定や合成させるテキスト内容などから、合成すべきでないテキストを自動判別させることで、不適切な内容や合成させる意図のない内容の合成音声の出力を抑止することが可能になる。

［プログラム及び記録媒体］
音声合成装置及び方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

また、音声合成装置における各処理をコンピュータによって実現する場合、及び、音声合成方法における各ステップの処理をコンピュータによって実現する場合、音声合成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各処理がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

Claims

送信者装置のテキスト送信部が、音声合成させたいテキストである合成テキストに関する情報である合成テキスト情報を音声合成装置に送信するテキスト送信ステップと、
音声合成装置の合成実施判断部が、受信した合成テキスト情報に基づいて、その合成テキストの音声合成を行うかどうかを判断する合成実施判断ステップと、
音声合成装置の特徴情報推定部が、受信した合成テキスト情報に基づいて合成する音声の特徴に関する情報である特徴情報を推定する特徴情報推定ステップと、
音声合成装置の音声合成部が、上記合成実施判断ステップにおいて音声合成を行うと判断された場合には、合成テキスト情報及び上記推定された特徴情報に基づいて合成音声を生成する音声合成ステップと、
を含む音声合成方法。
請求項１の音声合成方法において、
上記特徴情報推定ステップは、予め学習された特徴情報推定モデルに基づいて、上記特徴情報を推定する、
音声合成方法。
請求項１の音声合成方法において、
上記特徴情報は、口調情報、声質情報及び合成パラメタの少なくとも１つである、
音声合成方法。
音声合成させたいテキストである合成テキストに関する情報である合成テキスト情報を音声合成装置に送信するテキスト送信部を含む送信者装置と、
受信した合成テキスト情報に基づいて、その合成テキストの音声合成を行うかどうかを判断する合成実施判断部と、受信した合成テキスト情報に基づいて合成する音声の特徴に関する情報である特徴情報を推定する特徴情報推定部と、上記合成実施判断部において音声合成を行うと判断された場合には、合成テキスト情報及び上記推定された特徴情報に基づいて合成音声を生成する音声合成部と、を含む音声合成装置と、
を含む音声合成システム。
請求項４の音声合成装置の各部としてコンピュータを機能させるためのプログラム。