JP4769124B2 - 話者選択機能付き音声合成方法、装置、話者選択機能付き音声合成プログラム - Google Patents
話者選択機能付き音声合成方法、装置、話者選択機能付き音声合成プログラム Download PDFInfo
- Publication number
- JP4769124B2 JP4769124B2 JP2006145423A JP2006145423A JP4769124B2 JP 4769124 B2 JP4769124 B2 JP 4769124B2 JP 2006145423 A JP2006145423 A JP 2006145423A JP 2006145423 A JP2006145423 A JP 2006145423A JP 4769124 B2 JP4769124 B2 JP 4769124B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- speaker
- word
- speech synthesis
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
近年の音声合成技術は、実音声や録音音声との区別がつきづらいほど合成音声の高品質化が進んでおり、ある特定の人物の声を再現可能な音声合成技術の進化が著しい。
これを避けるための従来技術として、合成されたくない単語をあらかじめ発声禁止ワードとして登録しておき、合成したいテキストと発声禁止ワードのマッチングを行うことで、発話内容を抑制する方法が提案されている(非特許文献1)。
http://www.prblog.biz/afchives/com/cat57/index.html
また、発声禁止ワードは音声合成システムで一意の発声禁止ワード集を保持し利用しているが、登録された音声データベースの話者によっては、発声禁止ワードの範囲をより広く設定したいなど、話者によって要望が異なると考えられる。
本発明は、著作隣接権の保護対策をした上で、合成音声ユーザの利便性を確保することを目的としている。
本発明による話者選択機能付き音声合成方法は更に前記記載の話者選択機能付き音声合成方法において、第2音声合成情報収集処理で収集する合成音情報は音声以外の音を合成する音声合成情報であることを特徴とする。
本発明による話者選択機能付き音声合成方法は更に前記記載の話者選択機能付き音声合成方法において、第4音声合成情報収集処理で収集する音声合成情報は選択されている話者専用音声データベースで特定される話者の音声以外の音声を合成する音声合成情報であることを特徴とする。
本発明による話者選択機能付き音声合成装置は更に第2音声合成情報収集部で収集する合成音情報は音声以外の音を合成する音声合成情報であることを特徴とする。
本発明による話者選択機能付き音声合成装置は更に第4音声合成情報収集部で収集する音声合成情報は選択されている話者専用音声データベースで特定される話者の音声以外の音声で合成する音声合成情報であることを特徴とする。
テキストデータ入力部1と、データベース番号入力部3と、データベース番号入出力部6は例えばユーザ所有のパーソナルコンピュータのような端末(クライアント)によって構成することができる。テキスト解析部2、データベース選択部4、利用可能データベース探索部5、発声禁止ワード検出部10、話者専用音声データベース群20、音声情報収集部30、利用条件埋め込み部兼・音声合成部40はサーバによって構成し、端末とサーバとは適当な通信回線を通じて接続し、サーバ・クライアント方式のシステムとすることができる。
テキストデータ入力部1からテキストデータを入力する。このテキストデータはテキスト解析部2で形態素解析することで読みを得、韻律生成に必要な情報であるアクセント型・音調結合型を付与したワードを出力する。
発声禁止ワード検出部10はテキスト解析部2が出力したワードが、どの発声禁止ワード集に含まれるかを検出し、その検出結果を音声情報収集部30に引き渡す。音声情報収集部30はテキスト解析部2が出力したワードに付されたアクセント情報を基に合成対象テキストの韻律を作成し、ここで得られた韻律情報に出来るだけ合致する音声情報(音声素片)を話者専用音声データベース群20から収集し、その音声情報を利用条件埋め込み部兼・音声合成部40へ入力する。利用条件埋め込み部兼・音声合成部40は収集した音声情報を滑らかに接続し、合成音声信号を出力する。
このため、本発明では発声禁止ワード検出部10に第1検出部10−1〜第4検出部10−4を設け、これら複数の検出部10−1〜10−4により、テキスト解析部2が出力するワードの属性を検出し、ワードの属性に応じて音声合成処理の形態を選択できるように構成するものである。
(1)第1検出部10−1はテキスト解析部2が出力したワードが共通発声禁止ワード集21と、話者専用音声データベース群20の中で選択されている話者専用音声データベース(ここではDB−1とする)に含まれる話者専用発声禁止ワード集WR−1の何れにも含まれないことを検出する。
(2)第2検出部10−2はテキスト解析部2が出力したワードが共通発声禁止ワード集21に含まれていることを検出する。
(3)第3検出部10−3はテキスト解析部2が出力したワードが共通発声禁止ワード集21に含まれず、選択されている話者専用発生禁止ワード集WR−1に含まれていることを検出し、更に、このワードが他の話者で発声禁止に設定していない話者が存在することを検出する。
(4)第4検出部10−4はテキスト解析部2が出力したワードを発声禁止ワードに設定していない話者が無かったことを検出する。
図2に本発明の話者選択機能付き音声合成プログラムの実行手順を説明するためのフローチャートを示す。
・テキストデータが入力される(ステップSP1)。
・利用データベースを選択し、指定する(ステップSP2)。
・テキスト解析処理を実行する(ステップSP3)。
・テキスト解析結果に得られたワードが共通発声禁止ワード集21と話者専用発声禁止ワ
ード集の何れにも含まれないことを検出(ステップSP4)。
・何れのワード集にも含まれない場合は第1音声情報収集処理(ステップSP5)を実行
し、収集した音声情報(著作権で保護すべき話者の音声情報)を音声合成処理(ステッ
プSP6)に引き渡す。
・入力されたワードが共通発声禁止ワード集のみに含まれることを検出(ステップSP
7)。
・ステップSP7で共通発声禁止ワード集に含まれると判定された場合、第2音声情報収
集処理(ステップSP8)を実行し、第2音声情報収集処理で収集した音声情報(例え
ばビープ音情報)を音声合成処理(ステップSP6)に引き渡す。
・ステップSP7で話者専用発声禁止ワード集のみに含まれると判定された場合、ステッ
プSP9に分岐する。
・ステップSP9では入力されたワードが発声禁止ワードとして設定していない話者の存
在を探索する。
・入力されたワードが発声禁止ワードとして設定していない話者が存在した場合は、その
話者に対応するデータベース番号をユーザに出力し、ユーザに好みのデータベース番号
を入力させる(ステップSP10)。
・代替する話者を決定すると、ステップSP11でユーザが入力したデータベース番号が 初期に設定したデータベース番号に一致しているか否かを判定する。ユーザが入力した データベース番号が初期に設定したデータベース番号に一致していなければステップS P12で第3音声情報収集処理が実行される。第3音声情報収集処理では発声禁止ワー ドの部分の音声情報を代替する話者のデータベースから収集し、その音声情報を含む1 センテンスに相当する音声情報を音声合成処理に引き渡す。ステップSP11でユーザ が入力したデータベース番号が初期に設定したデータベース番号と一致している場合
は、ステップSP11からステップSP13に分岐し、第4音声情報収集処理を実行さ
せる。
・ステップSP9で代替する話者の存在が検出できなかった場合又はステップSP11で 初期設定したデータベース番号を検出した場合、ステップSP13に進み、ステップS P13で当初選択した話者専用音声データベースに記憶している利用条件に従って例え ばロボットの音声を連想させる音声で発声禁止ワードを発声させる音声情報を選択中の 話者専用音声データベース或いは利用条件記憶部M−1から収集し、第4音声情報収集 処理を終了する。
・第1音声情報収集処理(ステップSP5)、第2音声情報収集処理(ステップSP8) 、
第3音声情報収集処理(ステップSP11)、第4音声情報収集処理(ステップSP1
3)で収集した各音声情報はそれぞれ音声合成処理ステップSP6に入力され、各収集
条件に対応した音声が合成され出力される。
本発明による話者選択機能付き音声合成プログラムはコンピュータが解読可能なプログラム言語によって記述され、コンピュータが読み取り可能な例えば磁気ディスク、CD−ROM、半導体メモリ等に記録され、これらの記録媒体から或いは通信回線を通じてコンピュータにインストールされる。
2 テキスト解析部 30−1 第1音声情報収集部
3 データベース番号入力部 30−2 第2音声情報収集部
4 データベース選択部 30−3 第3音声情報収集部
5 利用可能データベース探索部 30−4 第4音声情報収集部
6 データベース番号入出力部 40 利用条件埋め込み部兼・
10 発声禁止ワード検出部 音声合成部
10−1 第1検出部
10−2 第2検出部
10−3 第3検出部
10−4 第4検出部
20 話者専用音声データベース群
21 共通発声禁止ワード集
DB−1、DB−2 話者専用音声データベース
WR−1、WR−2 話者専用発声禁止ワード集
M−1、M−2 利用条件記憶部
Claims (5)
- 著作権で保護すべき話者毎の音声を合成するための音声合成情報を蓄積した複数の話者専用音声データベースと、これら複数の話者専用音声データベースのそれぞれに所属して設けられた話者専用発声禁止ワード集と、複数の話者専用音声データベースに共通に設定された共通発声禁止ワード集とによって構成される話者専用音声データベース群を備え、入力されるテキストデータを、選択した話者専用音声データベースで特定される話者の音声に類似する音声に変換する話者選択機能付き音声合成方法において、
入力されたテキストデータを形態素解析し、読みにアクセント型・音調結合型を付与したワードを解析結果として出力するテキスト解析処理ステップと、
前記テキスト解析処理の解析結果に得られたワードが、前記選択されている話者専用音声データベースに属する前記話者専用発声禁止ワード集と共通発声禁止ワード集に含まれないことを検出する第1検出処理ステップと、
前記テキスト解析処理の解析結果に得られたワードが、前記選択されている話者専用音声データベースに属する前記話者専用発声禁止ワード集に含まれず、共通発声禁止ワード集に含まれていることを検出する第2検出処理ステップと、
前記テキスト解析処理の解析結果に得られたワードが、前記共通発声禁止ワード集に含まれず、前記選択されている話者専用音声データベースに属する話者専用発声禁止ワード集に含まれていることを検出し、その検出結果により前記ワードを発声禁止ワード集に含まない他の話者専用音声データベースが存在することを検出する第3検出処理ステップと、
前記第3検出処理において、前記解析結果に得られたワードを発声禁止ワード集に含まない話者専用音声データベースが無であることを検出する第4検出処理ステップと、
前記第1検出処理の検出出力により起動され、前記ワードの音声合成情報を前記話者専用音声データベース群の中の選択されている話者専用音声データベースから収集する第1音声合成情報収集処理ステップと、
前記第2検出処理の検出出力により起動され、前記ワードの音声合成情報としてビープ音を収集する第2音声合成情報収集処理ステップと、
前記第3検出処理の検出出力により起動され、前記ワードを発声禁止ワード集に含まない他の話者専用音声データベースから前記ワードの音声合成情報を収集する第3音声合成情報収集処理ステップと、
前記第4検出処理の検出出力により起動され、前記ワードの音声合成情報を前記話者専用データベース群の中の選択されている話者専用音声データベースに備える利用条件に従って発話禁止ワードの部分を著作権で保護すべき話者以外の音声合成情報を収集する第4音声合成情報収集処理ステップと、
前記第1乃至第4検出処理の検出結果に従って、前記第1音声合成情報収集処理、第3音声合成情報収集処理及び第4音声合成情報処理の何れかで収集した音声合成情報により音声合成処理を施して出力するか、前記第2音声合成情報収集処理で収集されたビープ音を出力する音声合成処理ステップと、
を含むことを特徴とする話者選択機能付き音声合成方法。 - 請求項1記載の話者選択機能付き音声合成方法において、前記第3検出処理で検出する話者専用音声データベースは前記話者専用データベース群の中から検索により求めた他の話者専用音声データベースであることを特徴とする話者選択機能付き音声合成方法。
- 著作権で保護すべき話者毎の音声を合成するための音声合成情報を蓄積した複数の話者専用音声データベースと、これら複数の話者専用音声データベースのそれぞれに所属して設けられた話者専用音声データベースと、これら複数の話者専用音声データベースのそれぞれに所属して設けられた話者専用発声禁止ワード集と、複数の話者専用音声データベースに共通に設定された共通発声禁止ワード集とによって構成される話者専用音声データベース群を備え、入力されるテキストデータを、選択した話者専用音声データベースで特定される話者の音声に類似する音声に変換する話者選択機能付き音声合成装置において、
入力されたテキストデータを形態素解析し、読みにアクセント型・音調結合型を付与したワードを解析結果として出力するテキスト解析部と、
前記テキスト解析部の解析結果に得られたワードが、前記選択されている話者専用音声データベースに属する前記話者専用発声禁止ワード集と共通発声禁止ワード集に含まれないことを検出する第1検出部と、
前記テキスト解析部の解析結果に得られたワードが、前記選択されている話者専用音声データベースに属する前記話者専用発声禁止ワード集に含まれず、共通発声禁止ワード集に含まれていることを検出する第2検出部と、
前記テキスト解析処理の解析結果に得られたワードが、前記共通発声禁止ワード集に含まれず、話者専用発声禁止ワード集に含まれていることを検出し、その検出結果により前記ワードを発声禁止ワード集に含まない他の話者専用音声データベースが存在することを検出する第3検出部と、
前記第3検出部において、前記解析結果に得られたワードを、発声禁止ワード集に含まない話者専用音声データベースが無であることを検出する第4検出部と、
前記第1検出部の検出出力により起動され、前記ワードの音声合成情報を前記話者専用音声データベース群の中の選択されている話者専用音声データベースから収集する第1音声合成情報収集部と、
前記第2検出部の検出出力により起動され、前記ワードの音声合成情報としてビープ音を収集する第2音声合成情報収集部と、
前記第3検出部の検出出力により起動され、前記ワードを発声禁止ワード集に含まない他の話者専用音声データベースから前記ワードの音声合成情報を収集する第3音声合成情報収集部と、
前記第4検出部の検出出力により起動され、前記ワードの音声合成情報を前記話者専用データベース群の中の選択されている話者専用音声データベースに備える利用条件に従って発話禁止ワードの部分を著作権で保護すべき話者以外の音声合成情報を収集する第4音声合成情報収集部と、
前記第1乃至第4検出部の検出結果に従って、前記第1音声合成情報収集処理、第3音声合成情報収集処理及び第4音声合成情報処理の何れかで収集した音声合成情報により音声合成処理を施して出力するか、前記第2音声合成情報収集処理で収集されたビープ音を出力する音声合成処理部と、
を備えることを特徴とする話者選択機能付き音声合成装置。 - 請求項3記載の話者選択機能付き音声合成装置において、前記第3検出部で検出する話者専用音声データベースは前記話者専用データベース群の中から検索により求めた他の話者専用音声データベースであることを特徴とする話者選択機能付き音声合成装置。
- コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項3又は4記載の話者選択機能付き音声合成装置として機能させる話者選択機能付き音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006145423A JP4769124B2 (ja) | 2006-05-25 | 2006-05-25 | 話者選択機能付き音声合成方法、装置、話者選択機能付き音声合成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006145423A JP4769124B2 (ja) | 2006-05-25 | 2006-05-25 | 話者選択機能付き音声合成方法、装置、話者選択機能付き音声合成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007316303A JP2007316303A (ja) | 2007-12-06 |
JP4769124B2 true JP4769124B2 (ja) | 2011-09-07 |
Family
ID=38850228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006145423A Expired - Fee Related JP4769124B2 (ja) | 2006-05-25 | 2006-05-25 | 話者選択機能付き音声合成方法、装置、話者選択機能付き音声合成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4769124B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5301376B2 (ja) * | 2009-07-03 | 2013-09-25 | 日本放送協会 | 音声合成装置およびプログラム |
JP6836033B2 (ja) * | 2015-12-02 | 2021-02-24 | 株式会社電通 | 判定装置及びこれを備えた音声提供システム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05165486A (ja) * | 1991-12-18 | 1993-07-02 | Oki Electric Ind Co Ltd | テキスト音声変換装置 |
JP2002221981A (ja) * | 2001-01-25 | 2002-08-09 | Canon Inc | 音声合成装置および音声合成方法 |
JP4244661B2 (ja) * | 2003-03-06 | 2009-03-25 | セイコーエプソン株式会社 | 音声データ提供システムならびに音声データ作成装置および音声データ作成プログラム |
JP2005300783A (ja) * | 2004-04-08 | 2005-10-27 | Zyyx:Kk | 音声変換装置 |
-
2006
- 2006-05-25 JP JP2006145423A patent/JP4769124B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007316303A (ja) | 2007-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8719027B2 (en) | Name synthesis | |
US20210366488A1 (en) | Speaker Identification Method and Apparatus in Multi-person Speech | |
US20100082328A1 (en) | Systems and methods for speech preprocessing in text to speech synthesis | |
CN102193903A (zh) | 信息处理装置、信息处理方法以及程序 | |
JP2011033874A (ja) | 多言語音声認識装置及び多言語音声認識辞書作成方法 | |
EP3462443B1 (en) | Singing voice edit assistant method and singing voice edit assistant device | |
JP2007041443A (ja) | 音声変換装置、音声変換プログラムおよび音声変換方法 | |
JP4958120B2 (ja) | 支援装置、支援プログラム、および支援方法 | |
JP5465926B2 (ja) | 音声認識辞書作成装置及び音声認識辞書作成方法 | |
JP4769124B2 (ja) | 話者選択機能付き音声合成方法、装置、話者選択機能付き音声合成プログラム | |
KR20150088564A (ko) | 음성인식에 기반한 애니메이션 재생이 가능한 전자책 단말기 및 그 방법 | |
Lin et al. | Effects of language experience and expectations on attention to consonants and tones in English and Mandarin Chinese | |
Yu et al. | Antifake: Using adversarial audio to prevent unauthorized speech synthesis | |
JP5693834B2 (ja) | 音声認識装置及び音声認識方法 | |
JP3706758B2 (ja) | 自然言語処理方法,自然言語処理用記録媒体および音声合成装置 | |
CN104869233B (zh) | 一种录音方法 | |
CN113626634A (zh) | 智能朗读亭的作品生成和处理方法及装置 | |
JP6843689B2 (ja) | コンテキストに応じた対話シナリオを生成する装置、プログラム及び方法 | |
CN105890612A (zh) | 一种导航过程中的语音提示方法及装置 | |
Caelen-Haumont et al. | Mo Piu minority language: data base, first steps and first experiments. | |
JP5098932B2 (ja) | 歌詞データ表示装置、歌詞データ表示方法、歌詞データ表示プログラム | |
JP4244661B2 (ja) | 音声データ提供システムならびに音声データ作成装置および音声データ作成プログラム | |
KR100707727B1 (ko) | 휴대용 파일 재생기 | |
JP4173404B2 (ja) | 文セット自動生成装置、文セット自動生成プログラム、記憶媒体 | |
JP2004294577A (ja) | 文字情報音声変換方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080804 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110607 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110617 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140624 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |