JP6415929B2 - 音声合成装置、音声合成方法およびプログラム - Google Patents

音声合成装置、音声合成方法およびプログラム Download PDF

Info

Publication number
JP6415929B2
JP6415929B2 JP2014221770A JP2014221770A JP6415929B2 JP 6415929 B2 JP6415929 B2 JP 6415929B2 JP 2014221770 A JP2014221770 A JP 2014221770A JP 2014221770 A JP2014221770 A JP 2014221770A JP 6415929 B2 JP6415929 B2 JP 6415929B2
Authority
JP
Japan
Prior art keywords
content
unit
speech
marker
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014221770A
Other languages
English (en)
Other versions
JP2016090664A (ja
Inventor
薫 平野
薫 平野
鈴木 優
優 鈴木
博之 水谷
博之 水谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Priority to JP2014221770A priority Critical patent/JP6415929B2/ja
Priority to PCT/JP2015/075638 priority patent/WO2016067766A1/ja
Priority to CN201580046128.4A priority patent/CN106688035B/zh
Publication of JP2016090664A publication Critical patent/JP2016090664A/ja
Priority to US15/266,065 priority patent/US10217454B2/en
Application granted granted Critical
Publication of JP6415929B2 publication Critical patent/JP6415929B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明の実施形態は、音声合成装置、音声合成方法およびプログラムに関する。
音声合成の分野では、例えば様々な感情表現などを伴う所望の合成音声を得るために有効な方法として、タグ付きテキストに基づいて合成音声の音声波形を生成する方法が知られている。タグ付きテキストは、音声合成の対象となるテキストに対して、マークアップ言語で記述されたタグ情報を付加したものである。タグ情報は、タグで囲まれたテキストに対する音声合成を制御するための情報である。音声合成エンジンは、このタグ情報に基づいて、例えば、音声合成に使用する辞書を選択したり韻律パラメータを調整したりすることにより、所望の合成音声を得ることができる。
タグ付きテキストは、ユーザがエディタを使用してテキストにタグ情報を付加することで生成できるが、この方法ではユーザの作業が煩雑になる。このため、音声合成の対象となるテキストに対して事前に生成されたテンプレートを適用することで、タグ付きテキストを生成するのが一般的である。
しかし、従来の一般的な方法では、様々なタグ情報に対応できるようにするために多数のテンプレートを事前に生成する必要があり、事前の準備に多大な工数を要する。機械学習によりテンプレートを自動生成する技術もあるが、この方法では、機械学習のための訓練データと正解データとを別途用意する必要があり、煩雑である。このため、タグ付きテキストを効率よく生成するための新たな仕組みの構築が望まれている。
特開2003−295882号公報 特開2007−233912号公報
本発明が解決しようとする課題は、タグ付きテキストを効率よく生成することができる音声合成装置、音声合成方法およびプログラムを提供することである。
実施形態の音声合成装置は、コンテンツ選択部と、コンテンツ生成部と、コンテンツ登録部と、を備える。コンテンツ選択部は、音声合成の対象となるテキストに対して音声合成を制御するタグ情報が付加されたタグ付きテキストを含むコンテンツであって、コンテンツ記憶部に登録されている複数の前記コンテンツの中から、選択コンテンツを決定する。コンテンツ生成部は、前記選択コンテンツに含まれる前記タグ付きテキストの前記タグ情報を、指定されたテキストに適用して新たな前記コンテンツを生成する。コンテンツ登録部は、生成された新たな前記コンテンツを前記コンテンツ記憶部に登録する。前記コンテンツ登録部は、前記コンテンツ記憶部に予め登録された目印となる前記コンテンツであるマーカコンテンツとの類似度に応じて、生成された前記コンテンツを前記マーカコンテンツと関連付けて前記コンテンツ記憶部に登録する。前記コンテンツ選択部は、前記マーカコンテンツの一覧を提示するマーカコンテンツ提示部と、前記マーカコンテンツの一覧の中から選択された前記マーカコンテンツに関連付けられた前記コンテンツである関連コンテンツの一覧を提示する関連コンテンツ提示部と、前記関連コンテンツの一覧の中から選択された前記関連コンテンツを、前記選択コンテンツとして決定する第1の選択コンテンツ決定部と、を備える。
図1は、実施形態の音声合成装置の概略構成を示すブロック図である。 図2は、コンテンツ選択部の構成例を示すブロック図である。 図3は、コンテンツ生成部の構成例を示すブロック図である。 図4は、コンテンツ登録部の構成例を示すブロック図である。 図5は、コンテンツ記憶部に登録されているコンテンツの一例を概念的に示す図である。 図6は、コンテンツ記憶部におけるコンテンツの格納形式を説明する図である。 図7は、ユーザ端末に表示させるUI画面の画面遷移を説明する図である。 図8は、マーカコンテンツ一覧画面の一例を示す図である。 図9は、関連コンテンツ一覧画面の一例を示す図である。 図10は、コンテンツ詳細画面の一例を示す図である。 図11は、コンテンツ生成画面の一例を示す図である。 図12は、コンテンツ選択部による処理手順の一例を示すフローチャートである。 図13は、コンテンツ生成部による処理手順の一例を示すフローチャートである。 図14は、コンテンツ登録部による処理手順の一例を示すフローチャートである。 図15は、第2実施形態のコンテンツ選択部の構成例を示すブロック図である。 図16は、ユーザ端末に表示させるUI画面の画面遷移を説明する図である。 図17は、コンテンツ検索画面の一例を示す図である。 図18は、第2実施形態のコンテンツ選択部による処理手順の一例を示すフローチャートである。 図19は、音声合成装置のハードウェア構成の一例を概略的に示すブロック図である。
以下、実施形態の音声合成装置、音声合成方法およびプログラムを、図面を参照して詳細に説明する。実施形態の音声合成装置は、音声合成の対象となるテキストにタグ情報を付加したタグ付きテキストに基づいて音声合成を行うものであり、特に、タグ付きテキストを効率よく生成する仕組みを持つ。タグ付きテキストと、そのタグ付きテキストに基づいて生成される合成音声の音声波形との組み合わせを、以下では「コンテンツ」と呼ぶ。コンテンツには、タグ付きテキストと合成音声の音声波形のほか、例えば音声合成に使用する音声合成辞書の識別情報など、他の情報が含まれていてもよい。なお、音声合成の方法としては、例えば音声素片結合型の音声合成、HMM(隠れマルコフモデル)を用いた音声合成など、公知の方法をいずれも採用できるため、詳細な説明は省略する。
(第1実施形態)
図1は、本実施形態に係る音声合成装置1の概略構成を示すブロック図である。本実施形態の音声合成装置1は、例えば、クライアントとしてネットワークに接続されたユーザ端末2に対してWebベースのサービスを提供するネットワーク上のサーバとして実現することができる。ユーザ端末2は、ユーザが使用するパーソナルコンピュータ、タブレット端末、スマートフォンなどの情報機器であり、CPUやメモリなどのコンピュータシステムを構成する各種リソースのほか、表示装置やスピーカ、各種入力デバイスなどのハードウェア、OS(オペレーションシステム)やWebブラウザなどの各種ソフトウェアを搭載する。
なお、本実施形態の音声合成装置1は、単体の装置として構成されている必要はなく、複数の装置を連携させたシステムとして構成されていてもよい。また、音声合成装置1は、クラウドシステム上で動作する仮想マシンとして実現されていてもよい。
音声合成装置1は、図1に示すように、コンテンツ選択部10と、コンテンツ生成部20と、コンテンツ登録部30と、コンテンツ記憶部40と、音声合成辞書50とを備える。
コンテンツ選択部10は、ユーザ端末2にUI(ユーザインタフェース)画面を表示させながらこのUI画面を用いたユーザの操作入力を受け付けて、コンテンツ記憶部40に登録されている複数のコンテンツの中から、ユーザの操作に基づいて選択コンテンツを決定する。つまり、選択コンテンツとは、複数のコンテンツの中からユーザの操作に応じて選択されたコンテンツである。
コンテンツ生成部20は、ユーザ端末2にUI画面を表示させながらこのUI画面を用いたユーザの操作入力を受け付けて、コンテンツ選択部10によって決定された選択コンテンツに含まれるタグ付きテキストのタグ情報を、ユーザにより指定されたテキストに適用して新たなコンテンツを生成する。
コンテンツ登録部30は、コンテンツ生成部20により生成された新たなコンテンツ(新規コンテンツ)を、コンテンツ記憶部40に登録する。
コンテンツ記憶部40は、目印となるコンテンツであるマーカコンテンツと、コンテンツ生成部20により生成されたコンテンツとを記憶する。マーカコンテンツは、特定の特徴を強調したコンテンツであり、コンテンツ記憶部40に事前に登録されている。コンテンツ生成部20により生成されたコンテンツは、コンテンツ登録部30によって、マーカコンテンツとの類似度に応じて、マーカコンテンツに関連付けてコンテンツ記憶部40に登録される。
なお、コンテンツ記憶部40は、音声合成装置1の外部にあってもよい。この場合、コンテンツ登録部30は、例えばネットワーク経由で音声合成装置1の外部のコンテンツ記憶部40にアクセスし、コンテンツ生成部20により生成されたコンテンツをコンテンツ記憶部40に登録する。また、コンテンツ選択部10は、例えばネットワーク経由で音声合成装置1の外部のコンテンツ記憶部40にアクセスし、ユーザ操作に応じて必要なコンテンツをコンテンツ記憶部40から取得する。
音声合成辞書50は、コンテンツ生成部20がタグ付きテキストに基づいて合成音声の音声波形を生成する際に使用する辞書である。音声合成辞書50は、例えば、生成する合成音声の特徴別に分類されており、タグ付きテキストのタグ情報に基づいて最適な辞書が選択される。なお、音声合成辞書50は、音声合成装置1の外部にあってもよい。この場合、コンテンツ生成部20は、例えばネットワーク経由で音声合成装置1の外部の音声合成辞書50にアクセスし、必要な情報を音声合成辞書50から取得する。
次に、本実施形態の音声合成装置1を構成する各部の詳細を説明する。
図2は、コンテンツ選択部10の構成例を示すブロック図である。コンテンツ選択部10は、図2に示すように、マーカコンテンツ提示部11と、関連コンテンツ提示部12と、選択コンテンツ決定部13と、再生部14とを備える。
マーカコンテンツ提示部11は、コンテンツ記憶部40に登録されているマーカコンテンツの一覧をユーザに提示する。例えば、マーカコンテンツ提示部11は、ユーザ端末2に表示させるUI画面として、後述のマーカコンテンツ一覧画面SC1(図8参照)を生成してユーザ端末2に表示させる。
関連コンテンツ提示部12は、マーカコンテンツの一覧の中からユーザにより選択されたマーカコンテンツに関連付けられたコンテンツである関連コンテンツの一覧をユーザに提示する。例えば、関連コンテンツ提示部12は、ユーザ端末2に表示させるUI画面として、後述の関連コンテンツ一覧画面SC2(図9参照)を生成してユーザ端末2に表示させる。
選択コンテンツ決定部13は、関連コンテンツ一覧の中から選択された関連コンテンツを、選択コンテンツとして決定する。例えば、選択コンテンツ決定部13は、ユーザ端末2に表示されている関連コンテンツ一覧画面SC2の中からユーザにより選択された関連コンテンツを、選択コンテンツとして決定する。
再生部14は、ユーザの操作に応じて、マーカコンテンツに含まれる合成音声の音声波形、または関連コンテンツに含まれる合成音声の音声波形を再生し、例えばユーザ端末2のスピーカから音声として出力させる。例えば、再生部14は、ユーザ端末2に表示されているマーカコンテンツ一覧画面SC1の中からユーザにより指定されたマーカコンテンツに含まれる合成音声の音声波形、またはユーザ端末2に表示されている関連コンテンツ一覧画面SC2の中からユーザにより指定された関連コンテンツに含まれる合成音声の音声波形を再生して、ユーザ端末2のスピーカから音声として出力させる。
図3は、コンテンツ生成部20の構成例を示すブロック図である。コンテンツ生成部20は、図3に示すように、タグ情報抽出部21と、タグ付きテキスト生成部22と、タグ付きテキスト修正部23と、音声波形生成部24と、再生部25とを備える。
タグ情報抽出部21は、選択コンテンツ決定部13により決定された選択コンテンツに含まれるタグ付きテキストから、タグ情報を抽出する。タグ情報は、当該タグ情報が適用されるテキストの前方に配置される開始タグと、当該タグ情報が適用されるテキストの後方に配置される終了タグとを含む。開始タグおよび終了タグには要素名が記述され、開始タグには要素名で表される要素の属性値が記述される。要素が複数の属性を含む場合は、開始タグにそれらの属性および属性ごとの属性値が記述される。タグ情報の要素としては、例えば性別(属性値は男性/女性)、感情(属性として喜び、哀しみ、怒り、・・・、優しさなどを含む)、韻律(属性として声の高さ、話す速さなどを含む)などが挙げられる。
例えば、選択コンテンツ決定部13により決定された選択コンテンツに含まれるタグ付きテキストが
<性別=“女性”><prosody pitch=“+5%” rate=“−2%”>おはようございます</prosody></性別>
であったとする。この場合、タグ情報抽出部21は、このタグ付きテキストのタグ情報
<性別=“女性”><prosody pitch=“+5%” rate=“−2%”></prosody></性別>
を抽出する。なお、上記の例において、prosodyは韻律を表す要素名であり、pitchはprosody要素における声の高さを表す属性(属性値は+5%)であり、rateはprosody要素における発話の速さを表す属性(属性値は−2%)である。
タグ付きテキスト生成部22は、タグ情報抽出部21が抽出したタグ情報を、ユーザにより指定されたテキストに適用してタグ付きテキストを生成する。例えば、ユーザにより指定されたテキストが「こんにちは」であり、タグ情報抽出部21により上記のタグ情報が抽出されたとする。この場合、タグ付きテキスト生成部22は、
<性別=“女性”><prosody pitch=“+5%” rate=“−2%”>こんにちは</prosody></性別>
というタグ付きテキストを生成する。
タグ付きテキスト修正部23は、タグ付きテキスト生成部22が生成したタグ付きテキストを、ユーザの操作に基づいて修正する。例えば、タグ付きテキスト修正部23は、タグ付きテキスト生成部22が生成したタグ付きテキストに含まれるタグ情報の属性値(上記の例では+5%、−2%などの値)などを、ユーザの操作に基づいて修正する。
音声波形生成部24は、音声合成辞書50を用いて、タグ付きテキスト生成部22が生成したタグ付きテキストに対応する合成音声の音声波形を生成する。タグ付きテキスト生成部22が生成したタグ付きテキストをタグ付きテキスト修正部23が修正した場合、音声波形生成部24は、修正されたタグ付きテキストに対応する合成音声の音声波形を生成する。
再生部25は、ユーザの操作に応じて、音声波形生成部24が生成した合成音声の音声波形を再生し、例えばユーザ端末2のスピーカから音声として出力させる。
図4は、コンテンツ登録部30の構成例を示すブロック図である。コンテンツ登録部30は、図4に示すように、類似度算出部31と、分類部32と、利用頻度更新部33とを備える。
類似度算出部31は、コンテンツ生成部20により生成された新たなコンテンツ(新規コンテンツ)をマーカコンテンツと関連付けてコンテンツ記憶部40に登録するために、マーカコンテンツに対する新規コンテンツの類似度を算出する。
マーカコンテンツは、上述したように、コンテンツ記憶部40に事前に登録されている特定の特徴を強調したコンテンツである。例えば、感情を表す属性(喜び、哀しみ、怒り・・・優しさなど)の属性値が0〜100(%)で設定可能であり、声の高さ(pitch)の属性値および話す速さ(rate)の属性値が−10〜+10(%)の範囲で設定可能であるとする。この場合、例えば図5に示すように、特定の特徴を強調したマーカコンテンツM1,M2,・・・,Mkが、コンテンツ記憶部40に事前に登録される。なお、図5は、コンテンツ記憶部40に登録されているコンテンツの一例を概念的に示す図である。
類似度算出部31は、コンテンツ生成部20によって新規コンテンツが生成されると、コンテンツ記憶部40に事前に登録されている各マーカコンテンツに対する新規コンテンツの類似度を算出する。2つのコンテンツci,cjの類似度は、例えば、下記式(1)および式(2)に示されるコンテンツ間距離D(ci,cj)を算出することで求めることができる。
D(ci,cj)=√A ・・・(1)
A={喜び(ci)−喜び(cj)}+{哀しみ(ci)−哀しみ(cj)}+{怒り(ci)−怒り(cj)}+・・・+{優しさ(ci)−優しさ(cj)}+{声の高さ(ci)−声の高さ(cj)}+{話す速さ(ci)−話す速さ(cj)} ・・・(2)
式(1)および式(2)により算出されるコンテンツ間距離D(ci,cj)が小さいほど、2つのコンテンツci,cjが似ていることを表す。なお、ここでは性別の属性値が同じコンテンツ同士を距離算出の対象としているが、性別の属性値に関する項を下記式(2)に組み込んで、性別に跨るコンテンツ間距離D(ci,cj)を算出するようにしてもよい。
分類部32は、類似度算出部31により算出された類似度に基づいて、コンテンツ生成部20によって生成されたコンテンツを分類する。ここでの分類は、コンテンツ生成部20によって生成されたコンテンツを、当該コンテンツに類似するマーカコンテンツ(例えば、当該コンテンツとのコンテンツ間距離が所定の閾値以下のマーカコンテンツ)に関連付けてコンテンツ記憶部40に登録する処理である。コンテンツ生成部20によって生成されたコンテンツに類似するマーカコンテンツが複数存在する場合、当該コンテンツはこれら複数のマーカコンテンツのそれぞれに関連付けてコンテンツ記憶部40に登録される。分類部32は、コンテンツ生成部20によって新たなコンテンツが生成されるたびに、そのコンテンツの分類を行う。これにより、コンテンツ記憶部40には、マーカコンテンツごとに、そのマーカコンテンツに関連付けられたコンテンツが例えば類似度順に格納される。
図6は、コンテンツ記憶部40におけるコンテンツの格納形式を説明する図である。コンテンツ生成部20によって生成されたコンテンツC1,C2,・・・,Cmは、図6に示すように、それぞれのコンテンツC1,C2,・・・,Cmに類似するマーカコンテンツM1,M2,・・・,Mkにより代表されるクラスに分類された状態で、コンテンツ記憶部40に格納される。また、各コンテンツには、そのコンテンツの利用頻度の情報が対応付けられている。利用頻度は、そのコンテンツが選択コンテンツとして利用された回数を表す。つまり、コンテンツ生成部20が新たなコンテンツを生成する際に選択コンテンツとして利用されるたびに、選択コンテンツとして利用されたコンテンツの利用頻度の値がインクリメント(+1)される。コンテンツの利用頻度は、そのコンテンツが人気のあるコンテンツであるかどうかをユーザに示す指標となる。
利用頻度更新部33は、コンテンツ生成部20が生成した新たなコンテンツの登録時に、そのコンテンツを生成する際に選択コンテンツとして利用したコンテンツの利用頻度の値をインクリメントして更新する。
次に、本実施形態の音声合成装置1がユーザ端末2に表示させるUI画面の具体例について、図7乃至図11を参照して説明する。
図7は、ユーザ端末2に表示させるUI画面の画面遷移を説明する図である。本実施形態の音声合成装置1は、例えば図7に示す画面遷移に従って、マーカコンテンツ一覧画面SC1、関連コンテンツ一覧画面SC2、コンテンツ詳細画面SC3、およびコンテンツ生成画面SC4を、UI画面としてユーザ端末2に順次表示させる。
図8は、マーカコンテンツ一覧画面SC1の一例を示す図である。マーカコンテンツ一覧画面SC1は、コンテンツ記憶部40に事前に登録されているマーカコンテンツの一覧をユーザに提示するUI画面である。このマーカコンテンツ一覧画面SC1には、図8に示すように、「タイトル」欄101、「性別」欄102、「パラメータ」欄103、性別切り替えボタン104、上下ボタン105、「再生」ボタン106、「コンテンツ」ボタン107および「close」ボタン108が設けられている。
「タイトル」欄101には、各マーカコンテンツの名称が表示される。「性別」欄102には、各マーカコンテンツの性別の属性値(男性/女性)が表示される。「パラメータ」欄103には、各マーカコンテンツの感情や韻律などの属性および属性値(パラメータ)が表示される。なお、図8に示すマーカコンテンツ一覧画面SC1は、マーカコンテンツの一覧を男性/女性の性別ごとに提示する構成であり、性別切り替えボタン104を操作することで、提示するマーカコンテンツの性別を切り替えられるようになっている。図8では、男性のマーカコンテンツの一覧を提示している状態を示している。
上下ボタン105は、図示しないカーソルを上下に移動させてマーカコンテンツの一覧の中から任意のマーカコンテンツを指定するためのボタンである。
「再生」ボタン106は、指定されたマーカコンテンツに含まれる合成音声の音声波形を再生して音声出力するためのボタンである。提示しているマーカコンテンツの一覧の中から任意のマーカコンテンツが指定されている状態で「再生」ボタン106が押されると、指定されたマーカコンテンツの合成音声がユーザ端末2のスピーカから出力される。ユーザは、この「再生」ボタン106を利用して、所望のマーカコンテンツの合成音声を試聴することができる。
「コンテンツ」ボタン107は、マーカコンテンツの一覧の中から所望のマーカコンテンツを選択するためのボタンである。提示しているマーカコンテンツの一覧の中から任意のマーカコンテンツが指定されている状態で「コンテンツ」ボタン107が押されると、ユーザ端末2に表示されるUI画面がマーカコンテンツ一覧画面SC1から関連コンテンツ一覧画面SC2に遷移して、指定されたマーカコンテンツに関連付けられた関連コンテンツの一覧が提示される。
「close」ボタン108は、マーカコンテンツ一覧画面SC1を閉じるためのボタンである。この「close」ボタン108が押されると、ユーザ端末2におけるUI画面の表示が終了する。
図9は、関連コンテンツ一覧画面SC2の一例を示す図である。関連コンテンツ一覧画面SC2は、マーカコンテンツ一覧画面SC1を用いてユーザが選択したマーカコンテンツに関連付けてコンテンツ記憶部40に登録されている関連コンテンツの一覧をユーザに提示するUI画面である。この関連コンテンツ一覧画面SC2には、図9に示すように、「タイトル」欄201、「距離」欄202、「利用頻度」欄203、上下ボタン204、「再生」ボタン205、「戻る」ボタン206、「詳細」ボタン207および「close」ボタン208が設けられている。
「タイトル」欄201には、マーカコンテンツ一覧画面SC1で選択されたマーカコンテンツおよび各関連コンテンツの名称が表示される。「距離」欄202には、各関連コンテンツとマーカコンテンツとのコンテンツ間距離D(ci,cj)が表示される。「利用頻度」欄203には、マーカコンテンツおよび各関連コンテンツの利用頻度が表示される。関連コンテンツ一覧画面SC2では、図9に示すように、マーカコンテンツに関連付けられた複数の関連コンテンツが、コンテンツ間距離D(ci,cj)の値が小さい順、つまり、マーカコンテンツに似ている関連コンテンツほど上位になるように一覧表示される。また、コンテンツ間距離D(ci,cj)の値が同じ関連コンテンツ同士は、利用頻度の値が大きい関連コンテンツが上位になるように一覧表示される。なお、関連コンテンツの並び順は図9に示す例に限らない。例えば、利用頻度の値が大きい関連コンテンツほど上位になるように、複数の関連コンテンツを一覧表示してもよい。
上下ボタン204は、図示しないカーソルを上下に移動させて関連コンテンツの一覧の中から任意の関連コンテンツを指定するためのボタンである。
「再生」ボタン205は、指定された関連コンテンツに含まれる合成音声の音声波形を再生して音声出力するためのボタンである。提示している関連コンテンツの一覧の中から任意の関連コンテンツが指定されている状態で「再生」ボタン205が押されると、指定された関連コンテンツの合成音声がユーザ端末2のスピーカから出力される。ユーザは、この「再生」ボタン205を利用して、所望の関連コンテンツの合成音声を試聴することができる。
「戻る」ボタン206は、ユーザ端末2に表示するUI画面を、図9の関連コンテンツ一覧画面SC2から図8のマーカコンテンツ一覧画面SC1に戻すためのボタンである。
「詳細」ボタン207は、所望の関連コンテンツの詳細を確認するためのボタンである。提示している関連コンテンツの一覧の中から任意の関連コンテンツが指定されている状態で「詳細」ボタン207が押されると、ユーザ端末2に表示されるUI画面が関連コンテンツ一覧画面SC2からコンテンツ詳細画面SC3に遷移して、指定された関連コンテンツの詳細情報が表示される。
「close」ボタン208は、関連コンテンツ一覧画面SC2を閉じるためのボタンである。この「close」ボタン208が押されると、ユーザ端末2におけるUI画面の表示が終了する。
図10は、コンテンツ詳細画面SC3の一例を示す図である。コンテンツ詳細画面SC1は、関連コンテンツ一覧画面SC2を用いてユーザが選択した関連コンテンツの詳細情報をユーザに提示するUI画面である。このコンテンツ詳細画面SC2には、図10に示すように、コンテンツ名称欄301、「使用辞書」欄302、「テキスト」欄303、「タグ情報」欄304、「再生」ボタン305、「戻る」ボタン306、「コピー」ボタン307および「close」ボタン308が設けられている。
コンテンツ名称欄301には、当該コンテンツの名称が表示される。「使用辞書」欄302には、当該コンテンツに含まれる合成音声の音声波形を生成する際に使用した音声合成辞書50の名称が表示される。「テキスト」欄302には、当該コンテンツに含まれるタグ付きテキストのテキスト部分(テキストの全体)が表示される。「タグ情報」欄304には、「テキスト」欄302に表示されているテキストの中で指定された範囲のタグ付きテキストが表示される。ユーザは、「テキスト」欄302に表示されているテキストの中で任意の範囲を指定することにより、その部分のタグ情報を「タグ情報」欄304で確認することができる。
「再生」ボタン305は、「タグ情報」欄304に表示されているタグ付きテキストに対応する部分の合成音声の音声波形を再生して音声出力するためのボタンである。ユーザにより指定された範囲のタグ付きテキストが「タグ情報」欄304に表示されている状態で「再生」ボタン305が押されると、そのタグ付きテキストに対応する部分の合成音声がユーザ端末2のスピーカから出力される。ユーザは、この「再生」ボタン305を利用して、所望の箇所の合成音声を試聴することができる。
「戻る」ボタン306は、ユーザ端末2に表示するUI画面を、図10のコンテンツ詳細画面SC3から図9の関連コンテンツ一覧画面SC2に戻すためのボタンである。
「コピー」ボタン307は、当該コンテンツを選択コンテンツとして決定するためのボタンである。この「コピー」ボタン307が押されると、ユーザ端末2に表示されるUI画面が、コンテンツ詳細画面SC3からコンテンツ生成画面SC4に遷移する。
「close」ボタン308は、コンテンツ詳細画面SC3を閉じるためのボタンである。この「close」ボタン308が押されると、ユーザ端末2におけるUI画面の表示が終了する。
図11は、コンテンツ生成画面SC4の一例を示す図である。コンテンツ生成画面SC4は、選択コンテンツのタグ情報を適用して新たなコンテンツを生成するためのUI画面である。このコンテンツ生成画面SC4には、図11に示すように、「タイトル」欄401、「使用辞書」欄402、「テキスト」欄403、「タグ情報」欄404、「適用」ボタン405、「再生」ボタン406、「編集」ボタン407、「戻る」ボタン408、「登録」ボタン409および「close」ボタン410が設けられている。
「タイトル」欄401は、コンテンツ生成画面SC4を用いて生成される新たなコンテンツの名称が表示される。ユーザは、この「タイトル」欄401に任意の名称を書き込むことで、新たなコンテンツに対して所望の名称を設定できる。「使用辞書」欄402には、選択コンテンツに含まれる合成音声の音声波形を生成する際に使用した音声合成辞書50の名称が表示される。ユーザは、この「使用辞書」欄402に表示されている音声合成辞書50の名称を変更することにより、新たなコンテンツに含まれる合成音声の音声波形を生成する際に使用する音声合成辞書50を変更することができる。「テキスト」欄403には、音声合成の対象となるテキストが表示される。ユーザは、この「テキスト」欄403に任意のテキストを書き込むことで、音声合成の対象とするテキストを指定できる。「タグ情報」欄404には、選択コンテンツに含まれるタグ付きテキストのタグ情報を、「テキスト」欄403で表示されるテキストに適用することで生成されるタグ付きテキストが表示される。
「適用」ボタン405は、「タグ情報」欄404に表示されているタグ付きテキストに対応する合成音声の音声波形を生成するためのボタンである。「タグ情報」欄404にタグ付きテキストが表示されている状態で「適用」ボタン405が押されると、「タグ情報」欄404に表示されているタグ付きテキストに基づいて合成音声の音声波形が生成される。この際、「使用辞書」欄402に表示されている音声合成辞書50が使用される。
「再生」ボタン406は、「タグ情報」欄404に表示されているタグ付きテキストに基づいて生成された合成音声の音声波形を再生して音声出力するためのボタンである。「適用」ボタン405が押された後に「再生」ボタン406が押されると、「適用」ボタン405の操作により生成された合成音声がユーザ端末2のスピーカから出力される。ユーザは、この「再生」ボタン406を利用して、新たに生成するコンテンツの合成音声を試聴することができる。
「編集」ボタン407は、「タグ情報」欄404に表示されているタグ付きテキストを修正するためのボタンである。「編集」ボタン407が押されると、「タグ情報」欄404に表示されているタグ付きテキストの編集が可能になる。ユーザは、この「編集」ボタン407を押して「タグ情報」欄404に表示されているタグ付きテキストに対し、例えばタグ情報の属性値(図11の例では+5%)などを修正する操作を行うことで、新たに生成するコンテンツのタグ付きテキストを修正することができる。
「戻る」ボタン408は、ユーザ端末2に表示するUI画面を、図11のコンテンツ生成画面SC4から図10のコンテンツ詳細画面SC3に戻すためのボタンである。
「登録」ボタン409は、生成した新たなコンテンツをコンテンツ記憶部40に登録するためのボタンである。「登録」ボタン409が押されると、「タグ情報」欄404に表示されているタグ付きテキストと、このタグ付きテキストに基づいて生成された合成音声の音声波形との組み合わせが、新たなコンテンツとしてコンテンツ記憶部40に登録される。
「close」ボタン410は、コンテンツ生成画面SC4を閉じるためのボタンである。この「close」ボタン410が押されると、ユーザ端末2におけるUI画面の表示が終了する。
次に、図7乃至図11に例示したUI画面をユーザ端末2に表示させながらコンテンツを生成して登録する音声合成装置1の動作例について説明する。
まず、コンテンツ選択部10により実施される処理について、図12を参照して説明する。図12は、コンテンツ選択部10による処理手順の一例を示すフローチャートである。
図12のフローチャートで示す処理が開始されると、まず、マーカコンテンツ提示部11が、図8に例示したマーカコンテンツ一覧画面SC1をユーザ端末2に表示させる(ステップS101)。なお、図12のフローチャートでは記載を省略しているが、マーカコンテンツ一覧画面SC1をユーザ端末2に表示させた後、マーカコンテンツ一覧画面SC1の性別切り替えボタン104が操作されると、一覧表示するマーカコンテンツの性別が切り替えられる。また、いずれかのタイミングで「close」ボタン108が押されると、処理が終了する。
次に、マーカコンテンツ一覧画面SC1で一覧表示されているマーカコンテンツのいずれかが指定された状態で「再生」ボタン106が押されたか否かが判定される(ステップS102)。そして、「再生」ボタン106が押された場合は(ステップS102:Yes)、再生部14が、指定されたマーカコンテンツに含まれる合成音声の音声波形を再生して、ユーザ端末2のスピーカから音声出力させた後(ステップS103)、ステップS102に戻る。
一方、「再生」ボタン106が押されていない場合は(ステップS102:No)、次に、一覧表示されているマーカコンテンツのいずれかが指定された状態で「コンテンツ」ボタン107が押されたか否かが判定される(ステップS104)。そして、「コンテンツ」ボタン107が押されていない場合は(ステップS104:No)、ステップS102に戻る。一方、「コンテンツ」ボタン107が押された場合は(ステップS104:Yes)、関連コンテンツ提示部12が、図9に例示した関連コンテンツ一覧画面SC2をユーザ端末2に表示させる(ステップS105)。
なお、図12のフローチャートでは記載を省略しているが、関連コンテンツ一覧画面SC2をユーザ端末2に表示させた後、いずれかのタイミングで「戻る」ボタン206が押されると、ステップS101に戻ってユーザ端末2にマーカコンテンツ一覧画面SC1が再表示される。また、いずれかのタイミングで「close」ボタン208が押されると、処理が終了する。
次に、関連コンテンツ一覧画面SC2で一覧表示されている関連コンテンツのいずれかが指定された状態で「再生」ボタン205が押されたか否かが判定される(ステップS106)。そして、「再生」ボタン205が押された場合は(ステップS106:Yes)、再生部14が、指定された関連コンテンツに含まれる合成音声の音声波形を再生して、ユーザ端末2のスピーカから音声出力させた後(ステップS107)、ステップS106に戻る。
一方、「再生」ボタン205が押されていない場合は(ステップS106:No)、次に、一覧表示されている関連コンテンツのいずれかが指定された状態で「詳細」ボタン207が押されたか否かが判定される(ステップS108)。そして、「詳細」ボタン207が押されていない場合は(ステップS108:No)、ステップS106に戻る。一方、「詳細」ボタン207が押された場合は(ステップS108:Yes)、選択コンテンツ決定部13が、図10に例示したコンテンツ詳細画面SC3をユーザ端末2に表示させる(ステップS109)。
なお、図12のフローチャートでは記載を省略しているが、コンテンツ詳細画面SC3をユーザ端末2に表示させた後、いずれかのタイミングで「戻る」ボタン306が押されると、ステップS105に戻ってユーザ端末2に関連コンテンツ一覧画面SC2が再表示される。また、いずれかのタイミングで「close」ボタン308が押されると、処理が終了する。
次に、コンテンツ詳細画面SC3の「タグ情報」欄304にタグ付きテキストが表示されている状態で「再生」ボタン305が押されたか否かが判定される(ステップS110)。そして、「再生」ボタン305が押された場合は(ステップS110:Yes)、再生部14が、「タグ情報」欄304に表示されているタグ付きテキストに対応する合成音声の音声波形を再生して、ユーザ端末2のスピーカから音声出力させた後(ステップS111)、ステップS110に戻る。
一方、「再生」ボタン305が押されていない場合は(ステップS110:No)、次に、「タグ情報」欄304にタグ付きテキストが表示されている状態で「コピー」ボタン307が押されたか否かが判定される(ステップS112)。そして、「コピー」ボタン307が押されていない場合は(ステップS112:No)、ステップS110に戻る。一方、「コピー」ボタン307が押された場合は(ステップS112:Yes)、選択コンテンツ決定部13が、コンテンツ詳細画面SC3により詳細情報を表示しているコンテンツを選択コンテンツとして決定し(ステップS113)、コンテンツ生成部20に処理を受け渡して、コンテンツ選択部10による一連の処理が終了する。
次に、コンテンツ生成部20により実施される処理について、図13を参照して説明する。図13は、コンテンツ生成部20による処理手順の一例を示すフローチャートである。
図13のフローチャートで示す処理が開始されると、まず、タグ情報抽出部21が、図11に例示したコンテンツ生成画面SC4をユーザ端末2に表示させる(ステップS201)。ユーザは、このコンテンツ生成画面SC4の「テキスト」欄403に音声合成の対象となるテキストを書き込む。このとき、タグ情報抽出部21は、選択コンテンツのタグ付きテキストからタグ情報を抽出する。また、タグ付きテキスト生成部22は、「テキスト」欄403に書き込まれたテキストに対して、タグ情報抽出部21が抽出したタグ情報を適用することで、タグ付きテキストを生成する。タグ付きテキスト生成部22が生成したタグ付きテキストは、コンテンツ生成画面SC4の「タグ情報」欄404に表示される。
なお、図13のフローチャートでは記載を省略しているが、コンテンツ生成画面SC4をユーザ端末2に表示させた後、いずれかのタイミングで「戻る」ボタン408が押されると、図12のS109に戻ってユーザ端末2にコンテンツ詳細画面SC3が再表示される。また、いずれかのタイミングで「close」ボタン410が押されると、処理が終了する。
次に、「タグ情報」欄404にタグ付きテキストが表示されている状態で「編集」ボタン407が押されたか否かが判定される(ステップS202)。そして、「編集」ボタン407が押された場合は(ステップS202:Yes)、タグ付きテキスト修正部23が、ユーザによるタグ付きテキストの修正操作を受け付けて、「タグ情報」欄404に表示するタグ付きテキストを修正した後(ステップS203)、ステップS202に戻る。
一方、「編集」ボタン407が押されていない場合は(ステップS202:No)、次に、「タグ情報」欄404にタグ付きテキストが表示されている状態で「適用」ボタン405が押されたか否かが判定される(ステップS204)。そして、「適用」ボタン405が押されていない場合は(ステップS204:No)、ステップS202に戻る。一方、「適用」ボタン405が押された場合は(ステップS204:Yes)、音声波形生成部24が、「タグ情報」欄404に表示されているタグ付きテキストに基づき、「使用辞書」欄402に表示されている音声合成辞書50を使用して、合成音声の音声波形を生成する(ステップS205)。
次に、「再生」ボタン406が押されたか否かが判定される(ステップS206)。そして、「再生」ボタン406が押された場合は(ステップS206:Yes)、再生部25が、ステップS205で生成された合成音声の音声波形を再生して、ユーザ端末2のスピーカから音声出力させた後(ステップS207)、ステップS206に戻る。
一方、「再生」ボタン406が押されていない場合は(ステップS206:No)、次に、「登録」ボタン409が押されたか否かが判定される(ステップS208)。そして、「登録」ボタン409が押されていない場合は(ステップS208:No)、ステップS206に戻る。一方、「登録」ボタン409が押された場合は(ステップS208:Yes)、コンテンツ登録部30に処理を受け渡して、コンテンツ生成部20による一連の処理が終了する。
次に、コンテンツ登録部30により実施される処理について、図14を参照して説明する。図14は、コンテンツ登録部30による処理手順の一例を示すフローチャートである。
図14のフローチャートで示す処理が開始されると、まず、類似度算出部31が、コンテンツ生成部20により生成された新たなコンテンツとコンテンツ記憶部40に登録されている各マーカコンテンツとの間のコンテンツ間距離D(ci,cj)を算出する(ステップS301)。
次に、分類部32が、ステップS301で算出されたコンテンツ間距離D(ci,cj)に基づいて、コンテンツ生成部20により生成された新たなコンテンツを分類し、当該コンテンツに類似するマーカコンテンツに関連付けて、コンテンツ記憶部40に登録する(ステップS302)。コンテンツ記憶部40に登録された新たなコンテンツは、その後、他のコンテンツを生成する際に利用する選択コンテンツの候補となる。
次に、利用頻度更新部33が、コンテンツ生成部20が新たなコンテンツを生成する際に選択コンテンツとして利用したコンテンツの利用頻度を更新し(ステップS303)、コンテンツ登録部30による一連の処理が終了する。
以上、具体的な例を挙げながら詳細に説明したように、本実施形態の音声合成装置1は、UI画面を利用したユーザの操作に応じて、コンテンツ記憶部40に登録されているコンテンツの中から、新たなコンテンツを生成する際に利用する選択コンテンツを決定する。そして、決定した選択コンテンツに含まれるタグ付きテキストのタグ情報を、ユーザにより指定されたテキストに適用して新たなコンテンツを生成する。そして、生成した新たなコンテンツを、選択コンテンツの候補としてコンテンツ記憶部40に登録する。したがって、本実施形態の音声合成装置1によれば、タグ付きテキストを生成するために事前に多数のテンプレートを用意したり、テンプレートを自動作成するために訓練データや正解データを用意したりする必要がなく、過去に生成したコンテンツを利用して任意のテキストからタグ付きテキストを生成することができるので、タグ付きテキストを効率よく生成することができる。
また、本実施形態の音声合成装置1によれば、ユーザは、過去に生成されたコンテンツの合成音声や所望のタグ情報を適用した場合に生成される合成音声を試聴しながら、適用すべきタグ情報を選択してタグ付きテキストを生成し、また必要に応じてタグ付きテキストを修正できるので、ユーザが求める合成音声を効率よく得ることができる。
(第2実施形態)
次に、第2実施形態について説明する。第2実施形態の音声合成装置は、コンテンツ選択部の構成が第1実施形態とは異なる。以下、第2実施形態の音声合成装置を第1実施形態と区別して「音声合成装置1’」と表記し、この音声合成装置1’に特徴的なコンテンツ選択部を、第1実施形態と区別してコンテンツ選択部60と表記する。それ以外の構成は第1実施形態と同様であるため、以下では第1実施形態と重複する説明は適宜省略し、本実施形態に特徴的なコンテンツ選択部60についての説明を行う。
図15は、コンテンツ選択部60の構成例を示すブロック図である。コンテンツ選択部60は、図15に示すように、コンテンツ検索部61と、検索コンテンツ提示部62と、選択コンテンツ決定部63と、再生部64とを備える。
コンテンツ検索部61は、コンテンツ記憶部40に登録されているコンテンツの中から、入力されたキーワードに適合するタグ付きテキストを含むコンテンツを検索する。例えば、コンテンツ検索部61は、ユーザ端末2に表示させるUI画面として、後述のコンテンツ検索画面SC5(図17参照)をユーザ端末2に表示させ、このコンテンツ検索画面SC5を用いてユーザが入力したキーワードに適合するタグ付きテキストを含むコンテンツを、コンテンツ記憶部40に登録されているコンテンツの中から検索する。
検索コンテンツ提示部62は、コンテンツ検索部61により検索されたコンテンツである検索コンテンツの一覧をユーザに提示する。例えば、検索コンテンツ提示部62は、ユーザ端末2にUI画面として表示されているコンテンツ検索画面SC5上で、コンテンツ検索部61により検索された検索コンテンツの一覧を表示させる。
選択コンテンツ決定部63は、検索コンテンツの一覧の中から選択された検索コンテンツを、選択コンテンツとして決定する。例えば、選択コンテンツ決定部63は、コンテンツ検索画面SC5上で表示されている検索コンテンツの一覧の中からユーザにより選択された検索コンテンツを、選択コンテンツとして決定する。
再生部64は、ユーザの操作に応じて、検索コンテンツに含まれる合成音声の音声波形を再生し、例えばユーザ端末2のスピーカから音声として出力させる。例えば、再生部64は、コンテンツ検索画面SC5上で表示されている検索コンテンツの一覧の中からユーザにより指定された検索コンテンツに含まれる合成音声の音声波形を再生して、ユーザ端末2のスピーカから音声として出力させる。
図16は、第2実施形態の音声合成装置1’がユーザ端末2に表示させるUI画面の画面遷移を説明する図である。本実施形態の音声合成装置1’は、例えば図16に示す画面遷移に従って、コンテンツ検索画面SC5、コンテンツ詳細画面SC3、およびコンテンツ生成画面SC4を、UI画面としてユーザ端末2に順次表示させる。
図17は、コンテンツ検索画面SC5の一例を示す図である。コンテンツ検索画面SC5は、コンテンツを検索するためのキーワードの入力を受け付けるとともに、検索結果である検索コンテンツの一覧をユーザに提示するUI画面である。このコンテンツ検索画面SC5には、図17に示すように、「キーワード」入力欄501、「タイトル」欄502、「利用頻度」欄503、「検索」ボタン504、上下ボタン505、「再生」ボタン506、「詳細」ボタン507および「close」ボタン508が設けられている。
「キーワード」入力欄501は、検索に用いるキーワードを入力するためのエリアである。ユーザは、この「キーワード」入力欄501に、例えば音声合成の対象となるテキストと同じテキストなど、任意のテキストをキーワードとして入力することができる。「タイトル」欄502には、検索結果として得られた各検索コンテンツの名称が表示される。「利用頻度」欄503には、検索結果として得られた各検索コンテンツの利用頻度が表示される。
「検索」ボタン504は、「キーワード」入力欄501に入力されたキーワードを用いて検索を行うためのボタンである。「キーワード」入力欄501にキーワードが入力されている状態で「検索ボタン」504が押されると、そのキーワードに適合するタグ付きテキストを含む検索コンテンツがコンテンツ記憶部40から検索され、得られた検索コンテンツの名称および利用頻度が「タイトル」欄502および「利用頻度」欄503にそれぞれ表示される。
上下ボタン505は、図示しないカーソルを上下に移動させて検索コンテンツの一覧の中から任意の検索コンテンツを指定するためのボタンである。
「再生」ボタン506は、指定された検索コンテンツに含まれる合成音声の音声波形を再生して音声出力するためのボタンである。提示している検索コンテンツの一覧の中から任意の検索コンテンツが指定されている状態で「再生」ボタン506が押されると、指定された検索コンテンツの合成音声がユーザ端末2のスピーカから出力される。ユーザは、この「再生」ボタン506を利用して、所望の検索コンテンツの合成音声を試聴することができる。
「詳細」ボタン507は、所望の検索コンテンツの詳細を確認するためのボタンである。提示している検索コンテンツの一覧の中から任意の検索コンテンツが指定されている状態で「詳細」ボタン507が押されると、ユーザ端末2に表示されるUI画面がコンテンツ検索画面SC5からコンテンツ詳細画面SC3(図10参照)に遷移して、指定された検索コンテンツの詳細情報が表示される。
「close」ボタン508は、コンテンツ検索画面SC5を閉じるためのボタンである。この「close」ボタン508が押されると、ユーザ端末2におけるUI画面の表示が終了する。
次に、図17に例示したコンテンツ検索画面SC5および図10に例示したコンテンツ詳細画面SC3をユーザ端末2に表示させながら選択コンテンツを決定するコンテンツ選択部60の処理について、図18を参照して説明する。図18は、コンテンツ選択部60による処理手順の一例を示すフローチャートである。
図18のフローチャートで示す処理が開始されると、まず、コンテンツ検索部61が、図17に例示したコンテンツ検索画面SC5をユーザ端末2に表示させる(ステップS401)。なお、図18のフローチャートでは記載を省略しているが、コンテンツ検索画面SC5をユーザ端末2に表示させた後、いずれかのタイミングで「close」ボタン508が押されると、処理が終了する。
次に、コンテンツ検索画面SC5の「キーワード」入力欄501にキーワードが入力された状態で「検索」ボタン504が押されたか否かが判定される(ステップS402)。そして、「検索」ボタン504が押されていない場合は(ステップS402:No)、ステップS402に戻って判定が繰り返される。一方、「検索」ボタン504が押された場合は(ステップS402:Yes)、コンテンツ検索部61が、コンテンツ記憶部40に登録されているコンテンツの中から、「キーワード」入力欄501に入力されたキーワードに適合するタグ付きテキストを含む検索コンテンツを検索する(ステップS403)。そして、コンテンツ検索部61は、検索結果として得られた検索コンテンツの一覧を、コンテンツ検索画面SC5上で表示させる(ステップS404)。
次に、コンテンツ検索画面SC5上で一覧表示されている検索コンテンツのいずれかが指定された状態で「再生」ボタン506が押されたか否かが判定される(ステップS405)。そして、「再生」ボタン506が押された場合は(ステップS405:Yes)、再生部64が、指定された検索コンテンツに含まれる合成音声の音声波形を再生して、ユーザ端末2のスピーカから音声出力させた後(ステップS406)、ステップS405に戻る。
一方、「再生」ボタン506が押されていない場合は(ステップS405:No)、次に、一覧表示されている関連コンテンツのいずれかが指定された状態で「詳細」ボタン507が押されたか否かが判定される(ステップS407)。そして、「詳細」ボタン507が押されていない場合は(ステップS407:No)、ステップS405に戻る。一方、「詳細」ボタン507が押された場合は(ステップS407:Yes)、選択コンテンツ決定部63が、図10に例示したコンテンツ詳細画面SC3をユーザ端末2に表示させる(ステップS408)。
なお、図18のフローチャートでは記載を省略しているが、コンテンツ詳細画面SC3をユーザ端末2に表示させた後、いずれかのタイミングで「戻る」ボタン306が押されると、ステップS401に戻ってユーザ端末2にコンテンツ検索画面SC5が再表示される。また、いずれかのタイミングで「close」ボタン308が押されると、処理が終了する。
次に、コンテンツ詳細画面SC3の「タグ情報」欄304にタグ付きテキストが表示されている状態で「再生」ボタン305が押されたか否かが判定される(ステップS409)。そして、「再生」ボタン305が押された場合は(ステップS409:Yes)、再生部64が、「タグ情報」欄304に表示されているタグ付きテキストに対応する合成音声の音声波形を再生して、ユーザ端末2のスピーカから音声出力させた後(ステップS410)、ステップS409に戻る。
一方、「再生」ボタン305が押されていない場合は(ステップS409:No)、次に、「タグ情報」欄304にタグ付きテキストが表示されている状態で「コピー」ボタン307が押されたか否かが判定される(ステップS411)。そして、「コピー」ボタン307が押されていない場合は(ステップS411:No)、ステップS409に戻る。一方、「コピー」ボタン307が押された場合は(ステップS411:Yes)、選択コンテンツ決定部63が、コンテンツ詳細画面SC3により詳細情報を表示している検索コンテンツを選択コンテンツとして決定し(ステップS412)、コンテンツ生成部20に処理を受け渡して、コンテンツ選択部60による一連の処理が終了する。
以上説明したように、本実施形態の音声合成装置1’は、UI画面を利用したユーザの操作に応じて、コンテンツ記憶部40に登録されているコンテンツの中からキーワードに合致するタグ付きテキストを含むコンテンツを検索し、得られた検索コンテンツの中から、新たなコンテンツを生成する際に利用する選択コンテンツを決定する。そして、決定した選択コンテンツに含まれるタグ付きテキストのタグ情報を、ユーザにより指定されたテキストに適用して新たなコンテンツを生成する。そして、生成した新たなコンテンツを、選択コンテンツの候補としてコンテンツ記憶部40に登録する。したがって、本実施形態の音声合成装置1’によれば、第1実施形態の音声合成装置1と同様に、過去に生成したコンテンツを利用して任意のテキストからタグ付きテキストを生成することができるので、タグ付きテキストを効率よく生成することができる。さらに、本実施形態の音声合成装置1’では、キーワードを用いて選択コンテンツの候補を絞り込むことができるので、タグ付きテキストの作成をより効率よく行うことができる。
(補足説明)
以上説明した実施形態の音声合成装置1における各機能的な構成要素は、例えば、汎用のコンピュータシステムを基本ハードウェアとして用いて実行されるプログラム(ソフトウェア)により実現することができる。
図19は、音声合成装置1の主要部のハードウェア構成の一例を概略的に示すブロック図である。音声合成装置1の主要部は、図19に示すように、CPUなどのプロセッサ71と、RAMなどの主記憶部72と、各種の記憶装置を用いた補助記憶部73と、通信インタフェース74と、これらの各部を接続するバス75とを含んだ汎用のコンピュータシステムとして構成される。なお、補助記憶部73は、有線または無線によるLAN(Local Area Network)などで各部に接続されてもよい。
音声合成装置1の各機能的な構成要素は、例えば、プロセッサ71が、主記憶部72を利用して、補助記憶部73などに格納されたプログラムを実行することによって実現される。このプログラムは、例えば、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disc)などのコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。
また、このプログラムを、インターネットなどのネットワークに接続された他のコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、このプログラムをインターネットなどのネットワーク経由で提供または配布するように構成してもよい。また、このプログラムを、コンピュータ内部のROM(補助記憶部73)などに予め組み込んで提供するように構成してもよい。
このプログラムは、音声合成装置1の機能的な構成要素(コンテンツ選択部10、コンテンツ生成部20、およびコンテンツ登録部30)を含むモジュール構成となっており、実際のハードウェアとしては、例えば、プロセッサ71が上記記録媒体からプログラムを読み出して実行することにより、上記の各構成要素が主記憶部72上にロードされ、上記の各構成要素が主記憶部72上に生成されるようになっている。なお、音声合成装置1の機能的な構成要素は、その一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)などの専用のハードウェアを用いて実現することも可能である。
以上、本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1 音声合成装置
2 ユーザ端末
10 コンテンツ選択部
11 マーカコンテンツ提示部
12 関連コンテンツ提示部
13 選択コンテンツ決定部
14 再生部
20 コンテンツ生成部
21 タグ情報抽出部
22 タグ付きテキスト生成部
23 タグ付きテキスト修正部
24 音声波形生成部
25 再生部
30 コンテンツ登録部
31 類似度算出部
32 分類部
33 利用頻度更新部
40 コンテンツ記憶部
50 音声合成辞書
60 コンテンツ選択部
61 コンテンツ検索部
62 検索コンテンツ提示部
63 選択コンテンツ決定部
64 再生部

Claims (11)

  1. 音声合成の対象となるテキストに対して音声合成を制御するタグ情報が付加されたタグ付きテキストを含むコンテンツであって、コンテンツ記憶部に登録されている複数の前記コンテンツの中から、選択コンテンツを決定するコンテンツ選択部と、
    前記選択コンテンツに含まれる前記タグ付きテキストの前記タグ情報を、指定されたテキストに適用して新たな前記コンテンツを生成するコンテンツ生成部と、
    生成された新たな前記コンテンツを前記コンテンツ記憶部に登録するコンテンツ登録部と、を備え
    前記コンテンツ登録部は、前記コンテンツ記憶部に予め登録された目印となる前記コンテンツであるマーカコンテンツとの類似度に応じて、生成された前記コンテンツを前記マーカコンテンツと関連付けて前記コンテンツ記憶部に登録し、
    前記コンテンツ選択部は、
    前記マーカコンテンツの一覧を提示するマーカコンテンツ提示部と、
    前記マーカコンテンツの一覧の中から選択された前記マーカコンテンツに関連付けられた前記コンテンツである関連コンテンツの一覧を提示する関連コンテンツ提示部と、
    前記関連コンテンツの一覧の中から選択された前記関連コンテンツを、前記選択コンテンツとして決定する第1の選択コンテンツ決定部と、を備える、音声合成装置。
  2. 前記関連コンテンツ提示部は、複数の前記関連コンテンツを前記マーカコンテンツに対する類似度に応じた並び順で並べた前記関連コンテンツの一覧を提示する、請求項に記載の音声合成装置。
  3. 前記関連コンテンツ提示部は、複数の前記関連コンテンツを過去に前記選択コンテンツとして決定された回数に応じた並び順で並べた前記関連コンテンツの一覧を提示する、請求項に記載の音声合成装置。
  4. 前記コンテンツ選択部は、
    前記マーカコンテンツに含まれる合成音声の音声波形、または前記関連コンテンツに含まれる合成音声の音声波形を再生する第1の再生部をさらに備える、請求項のいずれか一項に記載の音声合成装置。
  5. 前記コンテンツは、前記タグ付きテキストと、当該タグ付きテキストに対応する合成音声の音声波形とを含み、
    前記コンテンツ生成部は、
    前記選択コンテンツに含まれる前記タグ付きテキストから前記タグ情報を抽出するタグ情報抽出部と、
    前記タグ情報抽出部が抽出した前記タグ情報を、指定されたテキストに適用して前記タグ付きテキストを生成するタグ付きテキスト生成部と、
    音声合成辞書を用いて、前記タグ付きテキスト生成部が生成した前記タグ付きテキストに対応する合成音声の音声波形を生成する音声波形生成部と、を備え、
    前記コンテンツ登録部は、前記タグ付きテキスト生成部により生成された前記タグ付きテキストと、前記音声波形生成部により生成された前記音声波形とを含む新たな前記コンテンツを前記コンテンツ記憶部に登録する、請求項1〜4のいずれか一項に記載の音声合成装置。
  6. 前記コンテンツ生成部は、
    前記音声波形生成部が生成した合成音声の音声波形を再生する第2の再生部をさらに備える、請求項に記載の音声合成装置。
  7. 前記コンテンツ生成部は、
    前記タグ付きテキスト生成部が生成した前記タグ付きテキストを、ユーザの操作に基づいて修正するタグ付きテキスト修正部をさらに備え、
    前記音声波形生成部は、前記タグ付きテキスト修正部が前記タグ付きテキストを修正した場合、修正された前記タグ付きテキストに対応する合成音声の音声波形を生成する、請求項またはに記載の音声合成装置。
  8. 前記コンテンツ選択部は、
    前記コンテンツ記憶部に登録されている複数の前記コンテンツの中から、入力されたキーワードに適合する前記タグ付きテキストを含むコンテンツを検索するコンテンツ検索部と、
    前記コンテンツ検索部により検索された前記コンテンツである検索コンテンツの一覧を提示する検索コンテンツ提示部と、
    前記検索コンテンツの一覧の中から選択された前記検索コンテンツを、前記選択コンテンツとして決定する第2の選択コンテンツ決定部と、をさらに備える、請求項1〜7のいずれか一項に記載の音声合成装置。
  9. 前記コンテンツ選択部は、
    前記検索コンテンツに含まれる合成音声の音声波形を再生する第3の再生部をさらに備える、請求項に記載の音声合成装置。
  10. コンピュータにより実行される音声合成方法であって、
    音声合成の対象となるテキストに対して音声合成を制御するタグ情報が付加されたタグ付きテキストを含むコンテンツであって、コンテンツ記憶部に登録されている複数の前記コンテンツの中から、選択コンテンツを決定するコンテンツ選択工程と、
    前記選択コンテンツに含まれる前記タグ付きテキストの前記タグ情報を、指定されたテキストに適用して新たな前記コンテンツを生成するコンテンツ生成工程と、
    生成された新たな前記コンテンツを前記コンテンツ記憶部に登録するコンテンツ登録工程と、を含み、
    前記コンテンツ登録工程では、前記コンテンツ記憶部に予め登録された目印となる前記コンテンツであるマーカコンテンツとの類似度に応じて、生成された前記コンテンツを前記マーカコンテンツと関連付けて前記コンテンツ記憶部に登録し、
    前記コンテンツ選択工程では、
    前記マーカコンテンツの一覧を提示し、
    前記マーカコンテンツの一覧の中から選択された前記マーカコンテンツに関連付けられた前記コンテンツである関連コンテンツの一覧を提示し、
    前記関連コンテンツの一覧の中から選択された前記関連コンテンツを、前記選択コンテンツとして決定する、音声合成方法。
  11. コンピュータに、
    音声合成の対象となるテキストに対して音声合成を制御するタグ情報が付加されたタグ付きテキストを含むコンテンツであって、コンテンツ記憶部に登録されている複数の前記コンテンツの中から、選択コンテンツを決定するコンテンツ選択機能と、
    前記選択コンテンツに含まれる前記タグ付きテキストの前記タグ情報を、指定されたテキストに適用して新たな前記コンテンツを生成するコンテンツ生成機能と、
    生成された新たな前記コンテンツを前記コンテンツ記憶部に登録するコンテンツ登録機能と、を実現させ
    前記コンテンツ登録機能は、前記コンテンツ記憶部に予め登録された目印となる前記コンテンツであるマーカコンテンツとの類似度に応じて、生成された前記コンテンツを前記マーカコンテンツと関連付けて前記コンテンツ記憶部に登録し、
    前記コンテンツ選択機能は、
    前記マーカコンテンツの一覧を提示し、
    前記マーカコンテンツの一覧の中から選択された前記マーカコンテンツに関連付けられた前記コンテンツである関連コンテンツの一覧を提示し、
    前記関連コンテンツの一覧の中から選択された前記関連コンテンツを、前記選択コンテンツとして決定する、プログラム。
JP2014221770A 2014-10-30 2014-10-30 音声合成装置、音声合成方法およびプログラム Active JP6415929B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2014221770A JP6415929B2 (ja) 2014-10-30 2014-10-30 音声合成装置、音声合成方法およびプログラム
PCT/JP2015/075638 WO2016067766A1 (ja) 2014-10-30 2015-09-09 音声合成装置、音声合成方法およびプログラム
CN201580046128.4A CN106688035B (zh) 2014-10-30 2015-09-09 声音合成装置及声音合成方法
US15/266,065 US10217454B2 (en) 2014-10-30 2016-09-15 Voice synthesizer, voice synthesis method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014221770A JP6415929B2 (ja) 2014-10-30 2014-10-30 音声合成装置、音声合成方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2016090664A JP2016090664A (ja) 2016-05-23
JP6415929B2 true JP6415929B2 (ja) 2018-10-31

Family

ID=55857112

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014221770A Active JP6415929B2 (ja) 2014-10-30 2014-10-30 音声合成装置、音声合成方法およびプログラム

Country Status (4)

Country Link
US (1) US10217454B2 (ja)
JP (1) JP6415929B2 (ja)
CN (1) CN106688035B (ja)
WO (1) WO2016067766A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6791669B2 (ja) * 2016-07-12 2020-11-25 Supership株式会社 情報処理装置及びプログラム
US10276149B1 (en) * 2016-12-21 2019-04-30 Amazon Technologies, Inc. Dynamic text-to-speech output
KR20180079762A (ko) * 2017-01-02 2018-07-11 삼성전자주식회사 컨텐트에 관한 정보를 제공하는 방법 및 디바이스
US10580457B2 (en) * 2017-06-13 2020-03-03 3Play Media, Inc. Efficient audio description systems and methods
CN108062955B (zh) * 2017-12-12 2020-12-11 深圳证券信息有限公司 一种智能报告生成方法、系统及设备
CN108053696A (zh) * 2018-01-04 2018-05-18 广州阿里巴巴文学信息技术有限公司 一种根据阅读内容进行声音播放的方法、装置和终端设备
KR102595790B1 (ko) * 2018-01-26 2023-10-30 삼성전자주식회사 전자 장치 및 그의 제어방법
US11537938B2 (en) * 2019-02-15 2022-12-27 Wipro Limited Method and a system for context based clustering of object
CN114863907B (zh) * 2022-07-07 2022-10-28 北京中电慧声科技有限公司 一种文本转语音处理的标记方法及装置
CN114863906B (zh) * 2022-07-07 2022-10-28 北京中电慧声科技有限公司 一种文本转语音处理的别名标记方法及装置
CN116092477A (zh) * 2023-03-30 2023-05-09 北京中电慧声科技有限公司 一种基于语音合成系统标记记忆库的音频生成方法及装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09160583A (ja) * 1995-12-11 1997-06-20 Canon Inc 音声情報処理方法及び装置
US7369994B1 (en) * 1999-04-30 2008-05-06 At&T Corp. Methods and apparatus for rapid acoustic unit selection from a large speech corpus
JP4367808B2 (ja) * 1999-12-03 2009-11-18 富士通株式会社 音声データ圧縮・解凍装置及び方法
US7039588B2 (en) * 2000-03-31 2006-05-02 Canon Kabushiki Kaisha Synthesis unit selection apparatus and method, and storage medium
JP2002091475A (ja) * 2000-09-18 2002-03-27 Matsushita Electric Ind Co Ltd 音声合成方法
CN1156751C (zh) * 2001-02-02 2004-07-07 国际商业机器公司 用于自动生成语音xml文件的方法和系统
JP2002268664A (ja) * 2001-03-09 2002-09-20 Ricoh Co Ltd 音声変換装置及びプログラム
JP2003295882A (ja) 2002-04-02 2003-10-15 Canon Inc 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム
US7305340B1 (en) * 2002-06-05 2007-12-04 At&T Corp. System and method for configuring voice synthesis
JP2004325692A (ja) * 2003-04-23 2004-11-18 Sharp Corp テキスト音声合成装置、テキスト処理装置、テキスト処理プログラムおよびこのプログラムの記録媒体
KR100571835B1 (ko) * 2004-03-04 2006-04-17 삼성전자주식회사 음성 코퍼스 구축을 위한 녹음 문장 생성 방법 및 장치
US8412528B2 (en) * 2005-06-21 2013-04-02 Nuance Communications, Inc. Back-end database reorganization for application-specific concatenative text-to-speech systems
US7630898B1 (en) * 2005-09-27 2009-12-08 At&T Intellectual Property Ii, L.P. System and method for preparing a pronunciation dictionary for a text-to-speech voice
JP4885569B2 (ja) 2006-03-03 2012-02-29 日本放送協会 スタイルシート生成装置及びスタイルシート生成プログラム
JP2009186498A (ja) * 2008-02-01 2009-08-20 Brother Ind Ltd 音声合成装置及び音声合成プログラム
WO2011096015A1 (ja) * 2010-02-05 2011-08-11 三菱電機株式会社 認識辞書作成装置及び音声認識装置
CN102385858B (zh) * 2010-08-31 2013-06-05 国际商业机器公司 情感语音合成方法和系统
JP5742482B2 (ja) * 2011-06-03 2015-07-01 ヤマハ株式会社 シーケンスデータの編集装置、およびプログラム
WO2013018294A1 (ja) * 2011-08-01 2013-02-07 パナソニック株式会社 音声合成装置および音声合成方法
JP5596649B2 (ja) * 2011-09-26 2014-09-24 株式会社東芝 文書マークアップ支援装置、方法、及びプログラム
US9997154B2 (en) * 2014-05-12 2018-06-12 At&T Intellectual Property I, L.P. System and method for prosodically modified unit selection databases

Also Published As

Publication number Publication date
WO2016067766A1 (ja) 2016-05-06
US10217454B2 (en) 2019-02-26
CN106688035A (zh) 2017-05-17
US20170004821A1 (en) 2017-01-05
JP2016090664A (ja) 2016-05-23
CN106688035B (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
JP6415929B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP6799574B2 (ja) 音声対話の満足度の確定方法及び装置
CN106716466B (zh) 会议信息储存装置以及方法
US8359202B2 (en) Character models for document narration
US8370151B2 (en) Systems and methods for multiple voice document narration
US20170076714A1 (en) Voice synthesizing device, voice synthesizing method, and computer program product
KR20200045852A (ko) 음성 합성 또는 영상 편집을 통한 멀티미디어 컨텐츠 내 광고 서비스 플랫폼 및 음성 합성 서비스와 영상 편집 서비스를 제공하는 방법
JP6790959B2 (ja) 音声合成装置、音声合成方法及び音声合成システムならびに音声合成用コンピュータプログラム
KR20120129015A (ko) 어학 컨텐츠 생성 방법 및 이를 위한 단말기
JP6641045B1 (ja) コンテンツ生成システム、及びコンテンツ生成方法
CN109977294B (zh) 信息/查询处理装置、查询处理/文本查询方法、存储介质
JP6644141B2 (ja) 応答装置および応答装置の制御方法、制御プログラム
JP5082971B2 (ja) 音声合成装置およびそれを用いた読み上げシステム。
JP5533377B2 (ja) 音声合成装置、音声合成プログラムおよび音声合成方法
KR102020341B1 (ko) 악보 구현 및 음원 재생 시스템 및 그 방법
KR20130076852A (ko) 어학 컨텐츠 생성 방법 및 이를 위한 단말기
JP2018160058A (ja) 話者検索装置、話者検索方法、および話者検索プログラム
JP7133367B2 (ja) 動画編集装置、動画編集方法、及び動画編集プログラム
JP2008116650A (ja) 読み情報生成装置、読み情報生成方法、読み情報生成プログラムおよび音声合成装置
JP7128222B2 (ja) 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム
KR102353797B1 (ko) 영상 컨텐츠에 대한 합성음 실시간 생성에 기반한 컨텐츠 편집 지원 방법 및 시스템
JP5802807B2 (ja) 韻律編集装置、方法およびプログラム
JP6626029B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP2022102817A (ja) 音声学習支援装置および音声学習支援方法
JP5521094B2 (ja) 楽曲分類装置および楽曲検索システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170328

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180417

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180614

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180809

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180904

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181003

R150 Certificate of patent or registration of utility model

Ref document number: 6415929

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150