JP2009251199A - 音声合成装置、方法及びプログラム - Google Patents
音声合成装置、方法及びプログラム Download PDFInfo
- Publication number
- JP2009251199A JP2009251199A JP2008097726A JP2008097726A JP2009251199A JP 2009251199 A JP2009251199 A JP 2009251199A JP 2008097726 A JP2008097726 A JP 2008097726A JP 2008097726 A JP2008097726 A JP 2008097726A JP 2009251199 A JP2009251199 A JP 2009251199A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- extracted
- analysis means
- input
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】 本発明は、発話者の無声音声と撮像口唇画像とが同期して入力され、有音音声を合成する音声合成装置に関する。映像信号分析手段は、入力口唇画像から有声音の母音情報を抽出し、母音発声時の口唇の開閉大きさと、予め設定した基準大きさとの比率をピッチ比率として抽出する。音声信号分析手段は、入力無声音声と、映像信号分析手段が抽出した母音に対応する無声母音の音響モデルとから、子音情報を抽出し、音素列と単語を対応付けた内蔵する辞書と、どの単語の並びであるかを計算する言語モデルとから、テキスト情報を抽出し、入力無声音声のパワー変化から発声全体の継続時間長を抽出する。音声合成手段は、上述の両分析手段によって抽出された各種情報から、抑揚を付与した有音音声を合成する。
【選択図】 図1
Description
以下、本発明による音声合成装置、方法及びプログラムの一実施形態を、図面を参照しながら詳述する。
図1は、実施形態に係る音声合成装置の機能的構成を示すブロック図である。
次に、上述した構成を有する実施形態の音声合成装置の動作(実施形態の音声合成方法)を、図面を参照しながら詳述する。
β<D<α に対応する ピッチ比率は1
D<=β に対応する ピッチ比率は0.5
次に、第2のピッチ検出方法を、図3を参照しながら説明する。
代表的口唇画像が「い1」であれば ピッチ比率は1
代表的口唇画像が「い3」であれば ピッチ比率は0.5
音声信号合成器005は、テキスト解析部104、韻律データベース108を利用した韻律推定部105、合成処理部103の順で音声合成処理を行う。又は、音声信号合成器005は、テキスト解析部104、韻律データベース108を利用した韻律推定部105、音声データベース109を利用した素片選択部106、素片接続部107の順で音声合成処理を行う。
上記実施形態によれば、発話者が、通常の音声を発声することが困難でひそひそ声でしか発声できない状況でも、口唇形状の開閉の大きさなどを変化させることにより、合成音声に自己が意図したイントネーションを付与することができる。言い換えると、発話者は、ひそひそ声の発話であっても、イントネーション(音の長さと高さ)を制御することができる。その結果、発話者の感情などを聴取者に正確に伝達することが可能となる。
上記実施形態では合成音声の処理に言及しなかったが、直ちに、発音出力しても良く、また、外部装置へ送信しても良く、さらには、記録媒体に記録するようにしても良い。
Claims (5)
- 音声捕捉装置が捕捉した発話者からの無声音声と撮像装置が撮像した発話者の口唇画像とが同期して入力され、入力された無声音声及び口唇画像を処理して、発話者が意図した有音音声を合成する音声合成装置において、
入力された口唇画像から有声音の母音に関する情報を抽出すると共に、母音を発声している口唇の開閉の大きさを検出し、予め設定した正常発声の口唇の開閉の大きさとの比率をピッチ比率として抽出する映像信号分析手段と、
第1に、入力された無声音声と、上記映像信号分析手段によって抽出された母音に対応する、無声母音から構築された音響モデルとから、子音に関する情報を抽出し、第2に、音素列と単語を対応付けた内蔵する辞書と、どの単語の並びであるかを計算する言語モデルとから、認識されたテキスト情報を抽出し、第3に、上記無声音声のパワーを検出することで発声全体の継続時間長を抽出する音声信号分析手段と、
上記音声信号分析手段によって抽出された子音に関する情報、テキスト情報及び全体継続長と、上記映像信号分析手段によって抽出された有声音の母音に関する情報及びピッチ比率とから、イントネーションを付与した有音音声を合成する音声合成手段と
を有することを特徴とする音声合成装置。 - 上記音声合成手段は、テキスト情報を解析して音素列、アクセント記号列及び形態素の品詞を得て、これら情報に対し、統計的モデルで構築されたモデルを適用して継続時間長を推定し、上記音声信号分析手段が抽出した発声全体の継続時間長と、自己が推定した継続時間長とから求まる比率を用い、上記モデルから求まる継続時間長を修正し、合成された有音音声の発声速度を調整することを特徴とする請求項1に記載の音声合成装置。
- 上記音声合成手段は、上記映像信号分析手段によって抽出されたピッチ比率を用いて、比率差が存在する箇所の母音に、比率に応じたピッチ修正処理を施して、合成された有音音声のピッチを調整することを特徴とする請求項1又は2に記載の音声合成装置。
- 音声捕捉装置が捕捉した発話者からの無声音声と撮像装置が撮像した発話者の口唇画像とが同期して入力され、入力された無声音声及び口唇画像を処理して、発話者が意図した有音音声を合成する音声合成方法において、
映像信号分析手段、音声信号分析手段及び音声合成手段を備え、
上記映像信号分析手段は、入力された口唇画像から有声音の母音に関する情報を抽出すると共に、母音を発声している口唇の開閉の大きさを検出し、予め設定した正常発声の口唇の開閉の大きさとの比率をピッチ比率として抽出し、
上記音声信号分析手段は、第1に、入力された無声音声と、上記映像信号分析手段によって抽出された母音に対応する、無声母音から構築された音響モデルとから、子音に関する情報を抽出し、第2に、音素列と単語を対応付けた内蔵する辞書と、どの単語の並びであるかを計算する言語モデルとから、認識されたテキスト情報を抽出し、第3に、上記無声音声のパワーを検出することで発声全体の継続時間長を抽出し、
上記音声合成手段は、上記音声信号分析手段によって抽出された子音に関する情報、テキスト情報及び全体継続長と、上記映像信号分析手段によって抽出された有声音の母音に関する情報及びピッチ比率とから、イントネーションを付与した有音音声を合成する
ことを特徴とする音声合成方法。 - 音声捕捉装置が捕捉した発話者からの無声音声と撮像装置が撮像した発話者の口唇画像とが同期して入力され、入力された無声音声及び口唇画像を処理して、発話者が意図した有音音声を合成するための音声合成プログラムであって、
コンピュータを、
入力された口唇画像から有声音の母音に関する情報を抽出すると共に、母音を発声している口唇の開閉の大きさを検出し、予め設定した正常発声の口唇の開閉の大きさとの比率をピッチ比率として抽出する映像信号分析手段と、
第1に、入力された無声音声と、上記映像信号分析手段によって抽出された母音に対応する、無声母音から構築された音響モデルとから、子音に関する情報を抽出し、第2に、音素列と単語を対応付けた内蔵する辞書と、どの単語の並びであるかを計算する言語モデルとから、認識されたテキスト情報を抽出し、第3に、上記無声音声のパワーを検出することで発声全体の継続時間長を抽出する音声信号分析手段と、
上記音声信号分析手段によって抽出された子音に関する情報、テキスト情報及び全体継続長と、上記映像信号分析手段によって抽出された有声音の母音に関する情報及びピッチ比率とから、イントネーションを付与した有音音声を合成する音声合成手段と
して機能させることを特徴とする音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008097726A JP5040778B2 (ja) | 2008-04-04 | 2008-04-04 | 音声合成装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008097726A JP5040778B2 (ja) | 2008-04-04 | 2008-04-04 | 音声合成装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009251199A true JP2009251199A (ja) | 2009-10-29 |
JP5040778B2 JP5040778B2 (ja) | 2012-10-03 |
Family
ID=41312000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008097726A Expired - Fee Related JP5040778B2 (ja) | 2008-04-04 | 2008-04-04 | 音声合成装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5040778B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101074817B1 (ko) * | 2010-03-22 | 2011-10-19 | 한국과학기술연구원 | 스테레오 카메라를 이용한 3차원 비전 기반의 실시간 언어 인식 및 음성 생성 방법과 시스템 |
KR101187600B1 (ko) | 2011-02-09 | 2012-10-08 | 한국과학기술연구원 | 스테레오 카메라 기반의 3차원 실시간 입술 특징점 추출을 이용한 음성 인식 장치 및 음성 인식 방법 |
US9368104B2 (en) | 2012-04-30 | 2016-06-14 | Src, Inc. | System and method for synthesizing human speech using multiple speakers and context |
CN106570461A (zh) * | 2016-10-21 | 2017-04-19 | 哈尔滨工业大学深圳研究生院 | 基于唇动认证的视频帧图片提取方法及系统 |
JP2018013549A (ja) * | 2016-07-19 | 2018-01-25 | 株式会社デンソー | 発話内容認識装置 |
CN108510978A (zh) * | 2018-04-18 | 2018-09-07 | 中国人民解放军62315部队 | 一种应用于语种识别的英语声学模型的建模方法及系统 |
CN108538282A (zh) * | 2018-03-15 | 2018-09-14 | 上海电力学院 | 一种由唇部视频直接生成语音的方法 |
JP2020076846A (ja) * | 2018-11-07 | 2020-05-21 | 太朗 瀬水 | 音出力装置、音出力方法、及びコンピュータプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10240283A (ja) * | 1997-02-27 | 1998-09-11 | Sanyo Electric Co Ltd | 音声処理装置及び電話装置 |
JP2000068882A (ja) * | 1998-08-17 | 2000-03-03 | Matsushita Electric Ind Co Ltd | 無線通信装置 |
JP2002351489A (ja) * | 2001-05-29 | 2002-12-06 | Namco Ltd | ゲーム情報、情報記憶媒体、及びゲーム装置 |
JP2006276470A (ja) * | 2005-03-29 | 2006-10-12 | Nec Corp | 音声通話装置および音声通話システム |
-
2008
- 2008-04-04 JP JP2008097726A patent/JP5040778B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10240283A (ja) * | 1997-02-27 | 1998-09-11 | Sanyo Electric Co Ltd | 音声処理装置及び電話装置 |
JP2000068882A (ja) * | 1998-08-17 | 2000-03-03 | Matsushita Electric Ind Co Ltd | 無線通信装置 |
JP2002351489A (ja) * | 2001-05-29 | 2002-12-06 | Namco Ltd | ゲーム情報、情報記憶媒体、及びゲーム装置 |
JP2006276470A (ja) * | 2005-03-29 | 2006-10-12 | Nec Corp | 音声通話装置および音声通話システム |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101074817B1 (ko) * | 2010-03-22 | 2011-10-19 | 한국과학기술연구원 | 스테레오 카메라를 이용한 3차원 비전 기반의 실시간 언어 인식 및 음성 생성 방법과 시스템 |
KR101187600B1 (ko) | 2011-02-09 | 2012-10-08 | 한국과학기술연구원 | 스테레오 카메라 기반의 3차원 실시간 입술 특징점 추출을 이용한 음성 인식 장치 및 음성 인식 방법 |
US9368104B2 (en) | 2012-04-30 | 2016-06-14 | Src, Inc. | System and method for synthesizing human speech using multiple speakers and context |
JP2018013549A (ja) * | 2016-07-19 | 2018-01-25 | 株式会社デンソー | 発話内容認識装置 |
CN106570461A (zh) * | 2016-10-21 | 2017-04-19 | 哈尔滨工业大学深圳研究生院 | 基于唇动认证的视频帧图片提取方法及系统 |
CN108538282A (zh) * | 2018-03-15 | 2018-09-14 | 上海电力学院 | 一种由唇部视频直接生成语音的方法 |
CN108538282B (zh) * | 2018-03-15 | 2021-10-08 | 上海电力学院 | 一种由唇部视频直接生成语音的方法 |
CN108510978A (zh) * | 2018-04-18 | 2018-09-07 | 中国人民解放军62315部队 | 一种应用于语种识别的英语声学模型的建模方法及系统 |
CN108510978B (zh) * | 2018-04-18 | 2020-08-21 | 中国人民解放军62315部队 | 一种应用于语种识别的英语声学模型的建模方法及系统 |
JP2020076846A (ja) * | 2018-11-07 | 2020-05-21 | 太朗 瀬水 | 音出力装置、音出力方法、及びコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5040778B2 (ja) | 2012-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4085130B2 (ja) | 感情認識装置 | |
US7502739B2 (en) | Intonation generation method, speech synthesis apparatus using the method and voice server | |
JP5040778B2 (ja) | 音声合成装置、方法及びプログラム | |
Yegnanarayana et al. | Epoch-based analysis of speech signals | |
Qian et al. | A unified trajectory tiling approach to high quality speech rendering | |
JP4911034B2 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
US20020184027A1 (en) | Speech synthesis apparatus and selection method | |
Picart et al. | Analysis and synthesis of hypo and hyperarticulated speech | |
GB2380380A (en) | Speech synthesis method and apparatus | |
US20020184030A1 (en) | Speech synthesis apparatus and method | |
CN101114447A (zh) | 语音翻译装置和方法 | |
JP2008139568A (ja) | 音声処理装置および音声処理方法、並びに、プログラム | |
JPH0922297A (ja) | 音声‐テキスト変換のための方法および装置 | |
JP2015068897A (ja) | 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム | |
WO2023279976A1 (zh) | 语音合成方法、装置、设备及存储介质 | |
Campbell | Timing in Speech: a multi-level process | |
EP1298645A1 (en) | Method for detecting emotions in speech, involving linguistic correlation information | |
US7627468B2 (en) | Apparatus and method for extracting syllabic nuclei | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
Urbain et al. | Automatic phonetic transcription of laughter and its application to laughter synthesis | |
CN113112575A (zh) | 一种口型生成方法、装置、计算机设备及存储介质 | |
Heracleous et al. | Analysis and recognition of NAM speech using HMM distances and visual information | |
Knox et al. | Getting the last laugh: automatic laughter segmentation in meetings. | |
JP5754141B2 (ja) | 音声合成装置および音声合成プログラム | |
JP4839970B2 (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120525 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120612 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120625 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5040778 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150720 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |