JP4769124B2 - 話者選択機能付き音声合成方法、装置、話者選択機能付き音声合成プログラム - Google Patents

話者選択機能付き音声合成方法、装置、話者選択機能付き音声合成プログラム Download PDF

Info

Publication number
JP4769124B2
JP4769124B2 JP2006145423A JP2006145423A JP4769124B2 JP 4769124 B2 JP4769124 B2 JP 4769124B2 JP 2006145423 A JP2006145423 A JP 2006145423A JP 2006145423 A JP2006145423 A JP 2006145423A JP 4769124 B2 JP4769124 B2 JP 4769124B2
Authority
JP
Japan
Prior art keywords
speech
speaker
word
speech synthesis
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006145423A
Other languages
English (en)
Other versions
JP2007316303A (ja
Inventor
明弘 吉田
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006145423A priority Critical patent/JP4769124B2/ja
Publication of JP2007316303A publication Critical patent/JP2007316303A/ja
Application granted granted Critical
Publication of JP4769124B2 publication Critical patent/JP4769124B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、合成音声を作成するために必要な音声データベース(DB)の著作権保護と音声合成ユーザの利便性の相反する要求を同時に満たすものとした話者選択機能付き音声合成方法、装置、プログラムに関する。
ウェブニュースや個人ブログなど、インターネット上には多種多様な大量のテキストが存在している。これらのテキストはパソコンの画面を目の前にしている時にしか読むことができないが、それらのテキストを音声合成技術で音声化し、移動時などに再生用端末を用いて聞くことで情報を得ることが出来る。その際、テキストを読み上げる合成音声の話者は、合成音声を聞く人の要望によって選択できることが望ましい。
近年の音声合成技術は、実音声や録音音声との区別がつきづらいほど合成音声の高品質化が進んでおり、ある特定の人物の声を再現可能な音声合成技術の進化が著しい。
しかし、ある特定話者の合成音声を生成する際、その特定話者が望まない合成音声、例えば公序良俗に反する単語を含む合成音声は生成を避けるべきである。もし仮にこのような合成音声が生成された場合、合成音声に使用された話者の名誉・声望を害する恐れがあり、著作権隣接権中の同一性保持権の侵害になる。
これを避けるための従来技術として、合成されたくない単語をあらかじめ発声禁止ワードとして登録しておき、合成したいテキストと発声禁止ワードのマッチングを行うことで、発話内容を抑制する方法が提案されている(非特許文献1)。
http://www.prblog.biz/afchives/com/cat57/index.html
しかし、発声禁止ワードの利用における問題点として、発声禁止ワードを含んだセンテンスの部分は音声合成することが出来ないシステムが一般的であり、このようなシステムでは発声禁止ワードを含む部分にさしかかると、音声が全く出力されなくなるため、ユーザは文意を掴みそこなう等の弊害が発生し、利便性が低いという点が挙げられる。
また、発声禁止ワードは音声合成システムで一意の発声禁止ワード集を保持し利用しているが、登録された音声データベースの話者によっては、発声禁止ワードの範囲をより広く設定したいなど、話者によって要望が異なると考えられる。
本発明は、著作隣接権の保護対策をした上で、合成音声ユーザの利便性を確保することを目的としている。
本発明による話者選択機能付き音声合成方法は著作権で保護すべき話者毎の音声を合成するための音声合成情報を蓄積した複数の話者専用音声データベースと、これら複数の話者専用音声データベースのそれぞれに所属して設けられた話者専用音声データベースと、これら複数の話者専用音声データベースのそれぞれに所属して設けられた話者専用発声禁止ワード集と、複数の話者専用音声データベースに共通に設定された共通発声禁止ワード集とによって構成される話者専用音声データベース群を備え、入力されるテキストデータを、選択した話者専用音声データベースで特定される話者の音声に類似する音声に変換する話者選択機能付き音声合成方法において、入力されたテキストデータを形態素解析し、読みにアクセント型・音調結合型を付与したワードを解析結果として出力するテキスト解析処理ステップと、テキスト解析処理の解析結果に得られたワードが、選択されている話者専用音声データベースに属する話者専用発声禁止ワード集と共通発声禁止ワード集に含まれないことを検出する第1検出処理ステップと、テキスト解析処理の解析結果に得られたワードが、選択されている話者専用音声データベースに属する話者専用発声禁止ワード集に含まれず、共通発声禁止ワード集に含まれていることを検出する第2検出処理ステップと、テキスト解析処理の解析結果に得られたワードが、共通発声禁止ワード集に含まれず、選択されている話者専用音声データベースに属する話者専用発声禁止ワード集に含まれていることを検出し、その検出結果により前記ワードを発声禁止ワード集に含まない他の話者専用音声データベースが存在することを検出する第3検出処理ステップと、第3検出処理において、解析結果に得られたワードを、発声禁止ワード集に含まない話者専用音声データベースが無であることを検出する第4検出処理ステップと、第1検出処理の検出出力により起動され、ワードの音声合成情報を話者専用音声データベース群の中の選択されている話者専用音声データベースから収集する第1音声合成情報収集処理ステップと、第2検出処理の検出出力により起動され、ワードの音声合成情報として予め定めたビープ音を収集する第2音声合成情報収集処理ステップと、第3検出処理の検出出力により起動され、ワードを発声禁止ワード集に含まない他の話者専用音声データベースからワードの音声合成情報を収集する第3音声合成情報収集処理ステップと、第4検出処理の検出出力により起動され、ワードの音声合成情報を前記話者専用データベース群の中の選択されている話者専用音声データベースに備える利用条件に従って発話禁止ワードの部分を著作権で保護すべき話者以外の音声合成情報を収集する第4音声合成情報収集処理ステップと、第1乃至第4検出処理の検出結果に従って、第1音声合成情報収集処理、第3音声合成情報収集処理及び第4音声合成情報処理の何れかで収集した音声合成情報により音声合成処理を施して出力するか、第2音声合成情報収集処理で収集されたビープ音を出力する音声合成処理ステップとを含むことを特徴とする。
本発明による話者選択機能付き音声合成方法は上記話者選択機能付き音声合成方法において、第3検出処理で検出する話者専用音声データベースは話者専用データベース群の中から検索により求めた他の話者専用音声データベースであることを特徴とする。
本発明による話者選択機能付き音声合成方法は更に前記記載の話者選択機能付き音声合成方法において、第2音声合成情報収集処理で収集する合成音情報は音声以外の音を合成する音声合成情報であることを特徴とする。
本発明による話者選択機能付き音声合成方法は更に前記記載の話者選択機能付き音声合成方法において、第4音声合成情報収集処理で収集する音声合成情報は選択されている話者専用音声データベースで特定される話者の音声以外の音声を合成する音声合成情報であることを特徴とする。
本発明による話者選択機能付き音声合成装置は著作権で保護すべき話者毎の音声を合成するための音声合成情報を蓄積した複数の話者専用音声データベースと、これら複数の話者専用音声データベースのそれぞれに所属して設けられた話者専用音声データベースと、これら複数の話者専用音声データベースのそれぞれに所属して設けられた話者専用発声禁止ワード集と、複数の話者専用音声データベースに共通に設定された共通発声禁止ワード集とによって構成される話者専用音声データベース群を備え、入力されるテキストデータを、選択した話者専用音声データベースで特定される話者の音声に類似する音声に変換する話者選択機能付き音声合成装置において、入力されたテキストデータを形態素解析し、読みにアクセント型・音調結合型を付与したワードを解析結果として出力するテキスト解析部と、テキスト解析部の解析結果に得られたワードが、選択されている話者専用音声データベースに属する話者専用発声禁止ワード集と共通発声禁止ワード集に含まれないことを検出する第1検出部と、テキスト解析部の解析結果に得られたワードが、選択されている話者専用音声データベースに属する話者専用発声禁止ワード集に含まれず、共通発声禁止ワード集に含まれていることを検出する第2検出部と、テキスト解析処理の解析結果に得られたワードが、共通発声禁止ワード集に含まれず、選択されている話者専用音声データベースに属する話者専用発声禁止ワード集に含まれていることを検出し、その検出結果によりワードを発声禁止ワード集に含まない他の話者専用音声データベースが存在することを検出する第3検出部と、第3検出部において、解析結果に得られたワードを、発声禁止ワード集に含まない話者専用音声データベースが無であることを検出する第4検出部と、第1検出部の検出出力により起動され、ワードの音声合成情報を話者専用音声データベース群の中の選択されている話者専用音声データベースから収集する第1音声合成情報収集部と、第2検出部の検出出力により起動され、ワードの音声合成情報として予め定めた合成音情報を収集する第2音声合成情報収集部と、第3検出部の検出出力により起動され、ワードを発声禁止ワード集に含まない他の話者専用音声データベースからワードの音声合成情報を収集する第3音声合成情報収集部と、第4検出部の検出出力により起動され、ワードの音声合成情報を話者専用データベース群の中の選択されている話者専用音声データベースに備える利用条件に従って収集する第4音声合成情報収集部と、第1乃至第4検出部の検出結果に従って、第1乃至第4音声合成情報収集部の何れかで収集した音声情報により音声合成処理を施す音声合成部とを備えることを特徴とする。
本発明による話者選択機能付き音声合成装置は更に第3検出部で検出する話者専用音声データベースは話者専用データベース群の中から検索により求めた他の話者専用音声データベースであることを特徴とする話者選択機能付き音声合成装置。
本発明による話者選択機能付き音声合成装置は更に第2音声合成情報収集部で収集する合成音情報は音声以外の音を合成する音声合成情報であることを特徴とする。
本発明による話者選択機能付き音声合成装置は更に第4音声合成情報収集部で収集する音声合成情報は選択されている話者専用音声データベースで特定される話者の音声以外の音声で合成する音声合成情報であることを特徴とする。
本発明によれば、発声禁止ワードや利用条件など、合成音声の作成に関わる諸設定を音声データベースの話者ごとに設定し、その設定にしたがって合成音声の作成方法を変更することで、話者の著作隣接権を保護しつつ、合成音声をできる限り出力する。このことにより多くのユーザの要望に答えることが可能となる。つまり、音声合成ユーザの利便性を高めることができる。
本発明による話者選択機能付き音声合成装置は全てをハードウェアによって構成することもできるが、最も簡素に実現するには、コンピュータに本発明で提案している話者選択機能付き音声合成プログラムをインストールし、コンピュータに備えられているCPUでこのプログラムを解読させ、コンピュータに話者選択機能付き音声合成装置として機能させる実施形態が最も望ましい実施形態である。
コンピュータに話者選択機能付き音声合成装置として機能させるには、コンピュータにインストールした話者選択機能付き音声合成プログラムにより、コンピュータ内に著作権で保護すべき話者毎の音声を合成するための音声合成情報を蓄積した複数の話者専用音声データベースと、これら複数の話者専用音声データベースのそれぞれに所属して設けられた話者専用音声データベースと、これら複数の話者専用音声データベースのそれぞれに所属して設けられた話者専用発声禁止ワード集と、複数の話者専用音声データベースに共通に設定された共通発声禁止ワード集とによって構成される話者専用音声データベース群を備え、入力されたテキストデータを形態素解析し、読みにアクセント型・音調結合型を付与したワードを解析結果として出力するテキスト解析部と、テキスト解析部の解析結果に得られたワードが、選択されている話者専用音声データベースに属する話者専用発声禁止ワード集と共通発声禁止ワード集に含まれないことを検出する第1検出部と、テキスト解析部の解析結果に得られたワードが、選択されている話者専用音声データベースに属する話者専用発声禁止ワード集に含まれず、共通発声禁止ワード集に含まれていることを検出する第2検出部と、テキスト解析処理の解析結果に得られたワードが、共通発声禁止ワード集に含まれず、選択されている話者専用音声データベースに属する話者専用発声禁止ワード集に含まれていることを検出し、その検出結果により前記ワードを発声禁止ワード集に含まない他の話者専用音声データベースが存在することを検出する第3検出部と、第3検出部において、解析結果に得られたワードを発声禁止ワード集に含まない話者専用音声データベースが無であることを検出する第4検出部と、第1検出部の検出出力により起動され、ワードの音声合成情報を話者専用音声データベース群の中の選択されている話者専用音声データベースから収集する第1音声合成情報収集部と、第2検出部の検出出力により起動され、ワードの音声合成情報として予め定めた合成音情報を収集する第2音声合成情報収集部と、第3検出部の検出出力により起動され、ワードを発声禁止ワード集に含まない他の話者専用音声データベースからワードの音声合成情報を収集する第3音声合成情報収集部と、第4検出部の検出出力により起動され、ワードの音声合成情報を話者専用データベース群の中の選択されている話者専用音声データベースに備える利用条件に従って収集する第4音声合成情報収集部と、第1乃至第4検出部の検出結果に従って、第1乃至第4音声合成情報収集部の何れかで収集した音声情報により音声合成処理を施す音声合成部とを構築し、話者選択機能付き音声合成装置として機能させると共に、この話者選択機能付き音声合成装置により本発明による話者選択機能付き音声合成方法を実行させる。
図1に本発明による話者選択機能付き音声合成装置の一実施例を示す。本発明による話者選択機能付き音声合成装置はテキストデータ入力部1と、テキスト解析部2と、話者を選択し、設定するためのデータベース番号入力部3と、データベース選択部4と、利用可能データベース探索部5と、この利用可能データベース探索部5が探索した利用可能なデータベースの番号などを表示出力し、その表示の中から好みのデータベースを選択し、入力するためのデータベース番号入出力部6と、テキスト解析部2が解析して出力するワードが発声禁止ワードであるか否かを検出する発声禁止ワード検出部10と、話者専用音声データベースを複数格納して構成される話者専用音声データベース群20と、発声禁止ワード検出部10の検出結果に応じて話者専用音声データベース群20から音声情報を収集する音声情報収集部30と、音声情報収集部30が収集した音声情報に従って音声を合成することと、利用している音声データベースに付随している利用条件に基づいて、合成音声の配布を限定する例えばデジタル著作権管理(DRM)に必要な情報を埋め込んだり、合成音声の話者性を変更したりする利用条件埋め込み部を兼ねる音声合成部40とによって構成される。
話者専用音声データベース群20は著作権で保護すべき話者毎の音声を合成するための音声合成情報を蓄積した複数の話者専用音声データベースDB−1、DB−2……と、各話者専用音声データベースDB−1、DB−2……毎に設定された話者専用発声禁止ワード集WR−1、WR−2……と、各話者専用音声データベースDB−1、DB−2……のそれぞれに設定された利用条件を記憶した利用条件記憶部M−1、M−2……と、各話者専用音声データベースDB−1、DB−2……に共通した発声禁止ワード(主に公序良俗に反するワード)を保持した共通発声禁止ワード集21とを備えた構成とされる。
テキストデータ入力部1と、データベース番号入力部3と、データベース番号入出力部6は例えばユーザ所有のパーソナルコンピュータのような端末(クライアント)によって構成することができる。テキスト解析部2、データベース選択部4、利用可能データベース探索部5、発声禁止ワード検出部10、話者専用音声データベース群20、音声情報収集部30、利用条件埋め込み部兼・音声合成部40はサーバによって構成し、端末とサーバとは適当な通信回線を通じて接続し、サーバ・クライアント方式のシステムとすることができる。
ユーザは自己の端末に設けたデータベース番号入力部3から希望する話者を選択するためのデータベース番号を入力する。このデータベース番号の入力により話者専用音声データベース群20の中の指定された話者の音声を音声合成する話者専用音声データベース例えばDB−1が選択される。
テキストデータ入力部1からテキストデータを入力する。このテキストデータはテキスト解析部2で形態素解析することで読みを得、韻律生成に必要な情報であるアクセント型・音調結合型を付与したワードを出力する。
発声禁止ワード検出部10はテキスト解析部2が出力したワードが、どの発声禁止ワード集に含まれるかを検出し、その検出結果を音声情報収集部30に引き渡す。音声情報収集部30はテキスト解析部2が出力したワードに付されたアクセント情報を基に合成対象テキストの韻律を作成し、ここで得られた韻律情報に出来るだけ合致する音声情報(音声素片)を話者専用音声データベース群20から収集し、その音声情報を利用条件埋め込み部兼・音声合成部40へ入力する。利用条件埋め込み部兼・音声合成部40は収集した音声情報を滑らかに接続し、合成音声信号を出力する。
音声合成は一般にテキスト解析部2が出力するワードが蓄積され、1センテンス(例えば句点で区切られる1文章)に達する毎にセンテンス単位で音声合成が実行される。従来はこのセンテンスの中に発声禁止ワードが含まれている場合は、このセンテンスの全てが発声禁止処理されるが、本発明では発声禁止ワードを含むセンテンスにあっては、発声禁止ワードのみをこのワードを発声禁止ワードに指定していない他の話者の音声に振替えるか、或いは公序良俗に抵触するワードのような場合はそのワードの部分のみを例えばビープ音等で表現し、残りのワードは音声として出力し、発声禁止ワードを含むセンテンスであっても可及的に許容される範囲で出力しようとするものである。
このため、本発明では発声禁止ワード検出部10に第1検出部10−1〜第4検出部10−4を設け、これら複数の検出部10−1〜10−4により、テキスト解析部2が出力するワードの属性を検出し、ワードの属性に応じて音声合成処理の形態を選択できるように構成するものである。
(1)第1検出部10−1はテキスト解析部2が出力したワードが共通発声禁止ワード集21と、話者専用音声データベース群20の中で選択されている話者専用音声データベース(ここではDB−1とする)に含まれる話者専用発声禁止ワード集WR−1の何れにも含まれないことを検出する。
(2)第2検出部10−2はテキスト解析部2が出力したワードが共通発声禁止ワード集21に含まれていることを検出する。
(3)第3検出部10−3はテキスト解析部2が出力したワードが共通発声禁止ワード集21に含まれず、選択されている話者専用発生禁止ワード集WR−1に含まれていることを検出し、更に、このワードが他の話者で発声禁止に設定していない話者が存在することを検出する。
(4)第4検出部10−4はテキスト解析部2が出力したワードを発声禁止ワードに設定していない話者が無かったことを検出する。
音声情報収集部30は発声禁止ワード検出部10の検出結果に応じて話者専用音声データベース群20の中から予め定めた手順に従って音声合成のための音声情報を収集する。つまり、音声情報収集部30にも第1音声情報収集部30−1〜第4音声情報収集部30−4が設けられ、これら複数の音声情報収集部30−1〜30−4で発声禁止ワード検出部10の検出結果に対応した音声情報の収集を実行する。
第1音声情報収集部30−1は第1検出部10−1がテキスト解析部2が出力したワードが、共通発声禁止ワード集21及び話者専用発生禁止ワード集WR−1の何れにも含まれないとする検出結果を出力すると起動される。この場合はテキスト解析部2が出力したワードは何れの発声禁止ワードに属さないから、第1音声情報収集部30−1はデータベース番号から入力したデータベース番号で選択されている話者専用音声データベースDB−1から音声情報を収集し、このデータベースDB−1で特定される話者の音声情報を利用条件埋め込み部兼・音声合成部40に送り込み、ユーザが選択した話者の音声で音声合成が実行される。
第2検出部10−2はテキスト解析部2が出力したワードが共通発声禁止ワード集21に含まれていることを検出する。従って、この検出結果によって起動される第2音声情報収集部30−2はこのワード以外の部分は選択されている話者専用音声データベースDB−1から音声情報を収集し、選択されている話者専用音声データベースDB−1で特定されている話者の声で音声合成を実行するが、共通発声禁止ワード集21に属するワードの部分は公序良俗違反に触れるため、このワードの部分の音声情報は例えば音声合成部40の併設した利用条件埋込部から例えばビープ音情報を抽出し、ビープ音信号を出力する。従って、著作権で保護すべき話者の音声で公序良俗に触れる内容のワードが発声されることは避けられる。
第3検出部10−3が検出結果を出力した場合は、テキスト解析部2が出力したワードが公序良俗に触れないが、話者専用発生禁止ワード集WR−1に発声禁止ワードとして設定されている状況にある。本発明ではこの状況下では第3検出部10−3の検出結果により利用可能データベース検索部5を起動し、他の話者でこのワードを発声禁止ワードに設定していない話者の存在を探索させる。テキスト解析部2が出力したワードを発声禁止ワードとして設定していない話者が検出された場合、利用可能データベース検索部5はデータベース番号入出力部6に探索結果を表示する。ユーザはその検出結果の中から好みの話者を選択し、その話者に対応するデータベース番号をデータベース番号入出力部6から入力する。入力されたデータベース番号が初期に設定したデータベース番号に一致していなければそのまま、そのデータベース番号を第3音声情報収集部30−3に伝達する。一致している場合は第3検出部10−3は第4検出部10−4に話者専用発声データベース群20に他の話者が存在しなかったことを表わす信号を入力する。第3音声情報収集部30−3は、他の話者の話者専用音声データベース(例えばDB−2)からその話者の音声を音声合成する音声情報を収集する。従って、この場合は、発声禁止ワードを含む文章は少なくとも発声禁止ワードの部分は他の話者の音声で音声合成が行われる。但し、この発声禁止ワードを含む部分の文章では発声禁止ワード以外の部分もこの他の話者の音声で音声合成してもよい。
第4検出部10−4はテキスト分析部2が出力したワードが共通発声禁止ワード集21に含まれず、話者専用発生禁止ワード集WR−1に含まれるが、他の話者にそのワードを発声禁止ワードとしない話者が存在しなかった場合(第3検出部10−3において他の話者を選択する場合、ユーザが再度初期に設定した話者のデータベース番号を入力した場合も含む)に検出結果を出力する。この場合には第4音声情報収集部30−4が起動される。第4音声情報収集部30−4は選択されている話者専用音声データベースDB−1の利用条件記憶部M−1から利用条件埋め込み部に埋め込んだ利用条件を読み出し、例えば発声禁止ワードの部分を著作権で保護すべき話者以外の音声で音声合成する。著作権で保護すべき話者以外の音声とは、例えば利用条件埋め込み部に予め用意したロボットを連想させる音声等とすることができる。
第1音声情報収集部30−1〜第4音声情報収集部30−4で収集した音声情報は音声合成部40に入力され、各音声情報に応じて音声合成が実行される。
図2に本発明の話者選択機能付き音声合成プログラムの実行手順を説明するためのフローチャートを示す。
・テキストデータが入力される(ステップSP1)。
・利用データベースを選択し、指定する(ステップSP2)。
・テキスト解析処理を実行する(ステップSP3)。
・テキスト解析結果に得られたワードが共通発声禁止ワード集21と話者専用発声禁止ワ
ード集の何れにも含まれないことを検出(ステップSP4)。
・何れのワード集にも含まれない場合は第1音声情報収集処理(ステップSP5)を実行
し、収集した音声情報(著作権で保護すべき話者の音声情報)を音声合成処理(ステッ
プSP6)に引き渡す。
・入力されたワードが共通発声禁止ワード集のみに含まれることを検出(ステップSP
7)。
・ステップSP7で共通発声禁止ワード集に含まれると判定された場合、第2音声情報収
集処理(ステップSP8)を実行し、第2音声情報収集処理で収集した音声情報(例え
ばビープ音情報)を音声合成処理(ステップSP6)に引き渡す。
・ステップSP7で話者専用発声禁止ワード集のみに含まれると判定された場合、ステッ
プSP9に分岐する。
・ステップSP9では入力されたワードが発声禁止ワードとして設定していない話者の存
在を探索する。
・入力されたワードが発声禁止ワードとして設定していない話者が存在した場合は、その
話者に対応するデータベース番号をユーザに出力し、ユーザに好みのデータベース番号
を入力させる(ステップSP10)。
・代替する話者を決定すると、ステップSP11でユーザが入力したデータベース番号が 初期に設定したデータベース番号に一致しているか否かを判定する。ユーザが入力した データベース番号が初期に設定したデータベース番号に一致していなければステップS P12で第3音声情報収集処理が実行される。第3音声情報収集処理では発声禁止ワー ドの部分の音声情報を代替する話者のデータベースから収集し、その音声情報を含む1 センテンスに相当する音声情報を音声合成処理に引き渡す。ステップSP11でユーザ が入力したデータベース番号が初期に設定したデータベース番号と一致している場合
は、ステップSP11からステップSP13に分岐し、第4音声情報収集処理を実行さ
せる。
・ステップSP9で代替する話者の存在が検出できなかった場合又はステップSP11で 初期設定したデータベース番号を検出した場合、ステップSP13に進み、ステップS P13で当初選択した話者専用音声データベースに記憶している利用条件に従って例え ばロボットの音声を連想させる音声で発声禁止ワードを発声させる音声情報を選択中の 話者専用音声データベース或いは利用条件記憶部M−1から収集し、第4音声情報収集 処理を終了する。
・第1音声情報収集処理(ステップSP5)、第2音声情報収集処理(ステップSP8) 、
第3音声情報収集処理(ステップSP11)、第4音声情報収集処理(ステップSP1
3)で収集した各音声情報はそれぞれ音声合成処理ステップSP6に入力され、各収集
条件に対応した音声が合成され出力される。
以上説明した本発明による話者選択機能付き音声合成装置は図2に示した手順でコンピュータを動作させる話者選択機能付き音声合成プログラムをコンピュータにインストールし、コンピュータに備えたCPUに解読させて実行させることにより実現される。
本発明による話者選択機能付き音声合成プログラムはコンピュータが解読可能なプログラム言語によって記述され、コンピュータが読み取り可能な例えば磁気ディスク、CD−ROM、半導体メモリ等に記録され、これらの記録媒体から或いは通信回線を通じてコンピュータにインストールされる。
テキストデータで提供される各種の情報を、好みの話者の音声で耳から聞かせる音声情報に変換する情報変換装置に活用される。
本発明による話者選択機能付き音声合成装置の一実施例を説明するためのブロック図。 本発明による話者選択機能付き音声合成プログラムの概要を説明するためのフローチャート。
符号の説明
1 テキストデータ入力部 30 音声情報収集部
2 テキスト解析部 30−1 第1音声情報収集部
3 データベース番号入力部 30−2 第2音声情報収集部
4 データベース選択部 30−3 第3音声情報収集部
5 利用可能データベース探索部 30−4 第4音声情報収集部
6 データベース番号入出力部 40 利用条件埋め込み部兼・
10 発声禁止ワード検出部 音声合成部
10−1 第1検出部
10−2 第2検出部
10−3 第3検出部
10−4 第4検出部
20 話者専用音声データベース群
21 共通発声禁止ワード集
DB−1、DB−2 話者専用音声データベース
WR−1、WR−2 話者専用発声禁止ワード集
M−1、M−2 利用条件記憶部

Claims (5)

  1. 著作権で保護すべき話者毎の音声を合成するための音声合成情報を蓄積した複数の話者専用音声データベースと、これら複数の話者専用音声データベースのそれぞれに所属して設けられた話者専用発声禁止ワード集と、複数の話者専用音声データベースに共通に設定された共通発声禁止ワード集とによって構成される話者専用音声データベース群を備え、入力されるテキストデータを、選択した話者専用音声データベースで特定される話者の音声に類似する音声に変換する話者選択機能付き音声合成方法において、
    入力されたテキストデータを形態素解析し、読みにアクセント型・音調結合型を付与したワードを解析結果として出力するテキスト解析処理ステップと、
    前記テキスト解析処理の解析結果に得られたワードが、前記選択されている話者専用音声データベースに属する前記話者専用発声禁止ワード集と共通発声禁止ワード集に含まれないことを検出する第1検出処理ステップと、
    前記テキスト解析処理の解析結果に得られたワードが、前記選択されている話者専用音声データベースに属する前記話者専用発声禁止ワード集に含まれず、共通発声禁止ワード集に含まれていることを検出する第2検出処理ステップと、
    前記テキスト解析処理の解析結果に得られたワードが、前記共通発声禁止ワード集に含まれず、前記選択されている話者専用音声データベースに属する話者専用発声禁止ワード集に含まれていることを検出し、その検出結果により前記ワードを発声禁止ワード集に含まない他の話者専用音声データベースが存在することを検出する第3検出処理ステップと、
    前記第3検出処理において、前記解析結果に得られたワードを発声禁止ワード集に含まない話者専用音声データベースが無であることを検出する第4検出処理ステップと、
    前記第1検出処理の検出出力により起動され、前記ワードの音声合成情報を前記話者専用音声データベース群の中の選択されている話者専用音声データベースから収集する第1音声合成情報収集処理ステップと、
    前記第2検出処理の検出出力により起動され、前記ワードの音声合成情報としてビープ音を収集する第2音声合成情報収集処理ステップと、
    前記第3検出処理の検出出力により起動され、前記ワードを発声禁止ワード集に含まない他の話者専用音声データベースから前記ワードの音声合成情報を収集する第3音声合成情報収集処理ステップと、
    前記第4検出処理の検出出力により起動され、前記ワードの音声合成情報を前記話者専用データベース群の中の選択されている話者専用音声データベースに備える利用条件に従って発話禁止ワードの部分を著作権で保護すべき話者以外の音声合成情報を収集する第4音声合成情報収集処理ステップと、
    前記第1乃至第4検出処理の検出結果に従って、前記第1音声合成情報収集処理、第3音声合成情報収集処理及び第4音声合成情報処理の何れかで収集した音声合成情報により音声合成処理を施して出力するか、前記第2音声合成情報収集処理で収集されたビープ音を出力する音声合成処理ステップと、
    を含むことを特徴とする話者選択機能付き音声合成方法。
  2. 請求項1記載の話者選択機能付き音声合成方法において、前記第3検出処理で検出する話者専用音声データベースは前記話者専用データベース群の中から検索により求めた他の話者専用音声データベースであることを特徴とする話者選択機能付き音声合成方法。
  3. 著作権で保護すべき話者毎の音声を合成するための音声合成情報を蓄積した複数の話者専用音声データベースと、これら複数の話者専用音声データベースのそれぞれに所属して設けられた話者専用音声データベースと、これら複数の話者専用音声データベースのそれぞれに所属して設けられた話者専用発声禁止ワード集と、複数の話者専用音声データベースに共通に設定された共通発声禁止ワード集とによって構成される話者専用音声データベース群を備え、入力されるテキストデータを、選択した話者専用音声データベースで特定される話者の音声に類似する音声に変換する話者選択機能付き音声合成装置において、
    入力されたテキストデータを形態素解析し、読みにアクセント型・音調結合型を付与したワードを解析結果として出力するテキスト解析部と、
    前記テキスト解析部の解析結果に得られたワードが、前記選択されている話者専用音声データベースに属する前記話者専用発声禁止ワード集と共通発声禁止ワード集に含まれないことを検出する第1検出部と、
    前記テキスト解析部の解析結果に得られたワードが、前記選択されている話者専用音声データベースに属する前記話者専用発声禁止ワード集に含まれず、共通発声禁止ワード集に含まれていることを検出する第2検出部と、
    前記テキスト解析処理の解析結果に得られたワードが、前記共通発声禁止ワード集に含まれず、話者専用発声禁止ワード集に含まれていることを検出し、その検出結果により前記ワードを発声禁止ワード集に含まない他の話者専用音声データベースが存在することを検出する第3検出部と、
    前記第3検出部において、前記解析結果に得られたワードを、発声禁止ワード集に含まない話者専用音声データベースが無であることを検出する第4検出部と、
    前記第1検出部の検出出力により起動され、前記ワードの音声合成情報を前記話者専用音声データベース群の中の選択されている話者専用音声データベースから収集する第1音声合成情報収集部と、
    前記第2検出部の検出出力により起動され、前記ワードの音声合成情報としてビープ音を収集する第2音声合成情報収集部と、
    前記第3検出部の検出出力により起動され、前記ワードを発声禁止ワード集に含まない他の話者専用音声データベースから前記ワードの音声合成情報を収集する第3音声合成情報収集部と、
    前記第4検出部の検出出力により起動され、前記ワードの音声合成情報を前記話者専用データベース群の中の選択されている話者専用音声データベースに備える利用条件に従って発話禁止ワードの部分を著作権で保護すべき話者以外の音声合成情報を収集する第4音声合成情報収集部と、
    前記第1乃至第4検出部の検出結果に従って、前記第1音声合成情報収集処理、第3音声合成情報収集処理及び第4音声合成情報処理の何れかで収集した音声合成情報により音声合成処理を施して出力するか、前記第2音声合成情報収集処理で収集されたビープ音を出力する音声合成処理部と、
    を備えることを特徴とする話者選択機能付き音声合成装置。
  4. 請求項記載の話者選択機能付き音声合成装置において、前記第3検出部で検出する話者専用音声データベースは前記話者専用データベース群の中から検索により求めた他の話者専用音声データベースであることを特徴とする話者選択機能付き音声合成装置。
  5. コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項3又は4記載の話者選択機能付き音声合成装置として機能させる話者選択機能付き音声合成プログラム。
JP2006145423A 2006-05-25 2006-05-25 話者選択機能付き音声合成方法、装置、話者選択機能付き音声合成プログラム Expired - Fee Related JP4769124B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006145423A JP4769124B2 (ja) 2006-05-25 2006-05-25 話者選択機能付き音声合成方法、装置、話者選択機能付き音声合成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006145423A JP4769124B2 (ja) 2006-05-25 2006-05-25 話者選択機能付き音声合成方法、装置、話者選択機能付き音声合成プログラム

Publications (2)

Publication Number Publication Date
JP2007316303A JP2007316303A (ja) 2007-12-06
JP4769124B2 true JP4769124B2 (ja) 2011-09-07

Family

ID=38850228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006145423A Expired - Fee Related JP4769124B2 (ja) 2006-05-25 2006-05-25 話者選択機能付き音声合成方法、装置、話者選択機能付き音声合成プログラム

Country Status (1)

Country Link
JP (1) JP4769124B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5301376B2 (ja) * 2009-07-03 2013-09-25 日本放送協会 音声合成装置およびプログラム
JP6836033B2 (ja) * 2015-12-02 2021-02-24 株式会社電通 判定装置及びこれを備えた音声提供システム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05165486A (ja) * 1991-12-18 1993-07-02 Oki Electric Ind Co Ltd テキスト音声変換装置
JP2002221981A (ja) * 2001-01-25 2002-08-09 Canon Inc 音声合成装置および音声合成方法
JP4244661B2 (ja) * 2003-03-06 2009-03-25 セイコーエプソン株式会社 音声データ提供システムならびに音声データ作成装置および音声データ作成プログラム
JP2005300783A (ja) * 2004-04-08 2005-10-27 Zyyx:Kk 音声変換装置

Also Published As

Publication number Publication date
JP2007316303A (ja) 2007-12-06

Similar Documents

Publication Publication Date Title
US8719027B2 (en) Name synthesis
US20210366488A1 (en) Speaker Identification Method and Apparatus in Multi-person Speech
US20100082328A1 (en) Systems and methods for speech preprocessing in text to speech synthesis
CN102193903A (zh) 信息处理装置、信息处理方法以及程序
JP2011033874A (ja) 多言語音声認識装置及び多言語音声認識辞書作成方法
EP3462443B1 (en) Singing voice edit assistant method and singing voice edit assistant device
JP2007041443A (ja) 音声変換装置、音声変換プログラムおよび音声変換方法
JP4958120B2 (ja) 支援装置、支援プログラム、および支援方法
JP5465926B2 (ja) 音声認識辞書作成装置及び音声認識辞書作成方法
JP4769124B2 (ja) 話者選択機能付き音声合成方法、装置、話者選択機能付き音声合成プログラム
KR20150088564A (ko) 음성인식에 기반한 애니메이션 재생이 가능한 전자책 단말기 및 그 방법
Lin et al. Effects of language experience and expectations on attention to consonants and tones in English and Mandarin Chinese
Yu et al. Antifake: Using adversarial audio to prevent unauthorized speech synthesis
JP5693834B2 (ja) 音声認識装置及び音声認識方法
JP3706758B2 (ja) 自然言語処理方法,自然言語処理用記録媒体および音声合成装置
CN104869233B (zh) 一种录音方法
CN113626634A (zh) 智能朗读亭的作品生成和处理方法及装置
JP6843689B2 (ja) コンテキストに応じた対話シナリオを生成する装置、プログラム及び方法
CN105890612A (zh) 一种导航过程中的语音提示方法及装置
Caelen-Haumont et al. Mo Piu minority language: data base, first steps and first experiments.
JP5098932B2 (ja) 歌詞データ表示装置、歌詞データ表示方法、歌詞データ表示プログラム
JP4244661B2 (ja) 音声データ提供システムならびに音声データ作成装置および音声データ作成プログラム
KR100707727B1 (ko) 휴대용 파일 재생기
JP4173404B2 (ja) 文セット自動生成装置、文セット自動生成プログラム、記憶媒体
JP2004294577A (ja) 文字情報音声変換方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080804

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110607

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110617

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140624

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees