JP4381404B2 - 音声合成システム、音声合成方法、音声合成プログラム - Google Patents
音声合成システム、音声合成方法、音声合成プログラム Download PDFInfo
- Publication number
- JP4381404B2 JP4381404B2 JP2006259082A JP2006259082A JP4381404B2 JP 4381404 B2 JP4381404 B2 JP 4381404B2 JP 2006259082 A JP2006259082 A JP 2006259082A JP 2006259082 A JP2006259082 A JP 2006259082A JP 4381404 B2 JP4381404 B2 JP 4381404B2
- Authority
- JP
- Japan
- Prior art keywords
- spectrum
- signal
- speech
- recognition
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Description
(基本構成)
以下に本発明の実施形態に係る音声認識システムについて詳細に説明する。図1は、本実施形態に係る音声認識システムの基本構成を示すブロック図である。
上記基本構成を有する本実施形態に係る音声認識システムは、以下のように動作する。図2は、本実施形態にかかる音声認識システムの動作を示すフロー図である。
上記基本構成における各手段のそれぞれの動作を以下に詳細に説明する。
図4は、音声認識手段20を説明するブロック図である。ここでは、音響情報パラメータ、筋電信号パラメータ及び画像情報パラメータの各々について認識処理を行った後、各認識結果を比較し、この比較結果に基づいて最終的な認識処理を行う。
上述した音響信号処理手段12及び筋電信号処理手段15の動作について詳述する。図6は、音響情報パラメータ及び筋電信号パラメータ抽出の一例を説明するための図である。
上述した画像情報処理手段18の動作について詳述する。図7は、画像情報パラメータを抽出する方法を説明するための図である。
次いで、上述した学習処理について説明する。図8は、本実施形態における学習処理を説明するフロー図である。本実施形態において音声認識精度を向上させるためには、話者個人の発話の特徴を学習することが重要である。なお、個々で説明する学習方式は、上述したニューラルネットワークを用いて音声認識を行う場合を前提としており、他の方式により音声認識を行う場合には、それに適合した学習方式を適宜採用する。
以上説明した本実施形態にかかる音声認識システムによれば、音響情報及び筋電信号及び画像情報から得られた、複数のパラメータを用いて音声認識を行っているために、対雑音性などが大幅に向上する。すなわち、3種類の入力インタフェースを持つことにより雑音などの影響を受けにくく、3種類の中で使用できないインタフェースがあっても、残ったインタフェースを用いることによって音声認識を行うことが可能となり、音声の認識率を向上させることができる。その結果、話者が、小さな音量で発話しても、また周囲の雑音が大きな場所で発話しても、十分に音声を認識することができる音声認識システムを提供することが可能となった。
上述した音声認識システムを応用することにより音声合成システムを構成することができる。図9は、上述した音声認識システムを用いて音声合成行う際の動作を示すフロー図である。
上述した音声認識システム及び音声合成システムは以下の形態により実施することができる。図11は、本実施形態にかかる音声認識合成システムの第3実施形態を説明するための図である。
さらに、上述した音声認識システム及び音声合成システムは以下の形態により実施することもできる。図12は、本発明の第4の実施形態を説明するための図である。
なお、上述した第1〜4の実施形態にかかる音声認識システム・音声合成システム及び方法は、パーソナルコンピュータ等の汎用コンピュータや、携帯電話機等に備えられたICチップ上において、所定のコンピュータ言語で記述されたプログラムを実行することにより実現することができる。
11…音響信号取得手段
12…音響信号処理手段
13…筋電信号処理部
14…筋電信号取得手段
15…筋電信号処理手段
16…画像情報処理部
17…画像情報取得手段
18…画像情報処理手段
19…情報総合認識部
20…音声認識手段
21…認識結果提示手段
30…携帯電話機本体
31…腕時計型端末
32…話者
41…保持器具
42…固定部
Claims (6)
- 雑音の信号と、話者によって発声された音素の信号とを含む音響信号を取得する音響信号取得手段と、
取得した前記音響信号のスペクトラムを第1のスペクトラムとして生成する第1スペクトラム生成手段と、
前記話者によって発声された前記音素を認識する音声認識手段と、
前記音声認識手段による認識結果に基づいて、認識された音素の信号のスペクトラムを含み、かつ、前記雑音の信号のスペクトラムを含まないスペクトラムを再構成することによって、第2のスペクトラムを生成する第2スペクトラム生成手段と、
前記第1のスペクトラムと前記第2のスペクトラムとを掛け合わせることによって、前記話者によって発声された前記音素の信号スペクトラムを含み、かつ、前記雑音の信号のスペクトラムを含まない修正スペクトラムを生成する修正スペクトラム生成手段と、
前記修正スペクトラムから合成された音声を出力する出力手段と
を有することを特徴とする音声合成システム。 - 前記出力手段は、合成された音声をデータとして送信する通信手段を有することを特徴とする請求項1に記載の音声合成システム。
- 雑音の信号と、話者によって発声された音素の信号とを含む音響信号を取得するステップ(1)と、
取得した前記音響信号のスペクトラムを第1のスペクトラムとして取得するステップ(2)と、
前記話者によって発声された前記音素を認識するステップ(3)と、
前記ステップ(3)における認識結果に基づいて、認識された音素の信号のスペクトラムを含み、かつ、前記雑音の信号のスペクトラムを含まないスペクトラムを再構成することによって、第2のスペクトラムを生成するステップ(4)と、
前記第1のスペクトラムと前記第2のスペクトラムとを掛け合わせることによって、前記話者によって発声された前記音素の信号スペクトラムを含み、かつ、前記雑音の信号のスペクトラムを含まない修正スペクトラムを生成するステップ(5)と、
前記修正スペクトラムから合成された音声を出力するステップ(6)と
を有することを特徴とする音声合成方法。 - 前記ステップ(6)では、合成された音声をデータとして送信するステップを有することを特徴とする請求項3に記載の音声合成方法。
- コンピュータに、
雑音の信号と、話者によって発声された音素の信号とを含む音響信号を取得するステップ(1)と、
取得した前記音響信号のスペクトラムを第1のスペクトラムとして取得するステップ(2)と、
前記話者によって発声された前記音素を認識するステップ(3)と、
前記ステップ(3)における認識結果に基づいて、認識された音素の信号のスペクトラムを含み、かつ、前記雑音の信号のスペクトラムを含まないスペクトラムを再構成することによって、第2のスペクトラムを生成するステップ(4)と、
前記第1のスペクトラムと前記第2のスペクトラムとを掛け合わせることによって、前記話者によって発声された前記音素の信号スペクトラムを含み、かつ、前記雑音の信号のスペクトラムを含まない修正スペクトラムを生成するステップ(5)と、
前記修正スペクトラムから合成された音声を出力するステップ(6)と
を有する処理を実行させるための音声合成プログラム。 - 前記ステップ(6)では、合成された音声をデータとして送信するステップを有することを特徴とする請求項5に記載の音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006259082A JP4381404B2 (ja) | 2006-09-25 | 2006-09-25 | 音声合成システム、音声合成方法、音声合成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006259082A JP4381404B2 (ja) | 2006-09-25 | 2006-09-25 | 音声合成システム、音声合成方法、音声合成プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002057818A Division JP2003255993A (ja) | 2002-03-04 | 2002-03-04 | 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007018006A JP2007018006A (ja) | 2007-01-25 |
JP4381404B2 true JP4381404B2 (ja) | 2009-12-09 |
Family
ID=37755159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006259082A Expired - Lifetime JP4381404B2 (ja) | 2006-09-25 | 2006-09-25 | 音声合成システム、音声合成方法、音声合成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4381404B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9564128B2 (en) | 2013-12-09 | 2017-02-07 | Qualcomm Incorporated | Controlling a speech recognition process of a computing device |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6633556B2 (ja) * | 2016-11-10 | 2020-01-22 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム |
JP6691501B2 (ja) * | 2017-04-04 | 2020-04-28 | 日本電信電話株式会社 | 音響モデル学習装置、モデル学習装置、モデル学習方法、およびプログラム |
WO2021076349A1 (en) * | 2019-10-18 | 2021-04-22 | Google Llc | End-to-end multi-speaker audio-visual automatic speech recognition |
CN110865705B (zh) * | 2019-10-24 | 2023-09-19 | 中国人民解放军军事科学院国防科技创新研究院 | 多模态融合的通讯方法、装置、头戴设备及存储介质 |
CN115588434A (zh) * | 2022-10-24 | 2023-01-10 | 深圳先进技术研究院 | 一种由舌部超声图像直接合成语音的方法 |
-
2006
- 2006-09-25 JP JP2006259082A patent/JP4381404B2/ja not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9564128B2 (en) | 2013-12-09 | 2017-02-07 | Qualcomm Incorporated | Controlling a speech recognition process of a computing device |
Also Published As
Publication number | Publication date |
---|---|
JP2007018006A (ja) | 2007-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Akbari et al. | Lip2audspec: Speech reconstruction from silent lip movements video | |
EP1667108B1 (en) | Speech synthesis system, speech synthesis method, and program product | |
Gabbay et al. | Visual speech enhancement | |
US7676372B1 (en) | Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech | |
Denby et al. | Silent speech interfaces | |
Jiang et al. | On the relationship between face movements, tongue movements, and speech acoustics | |
Hansen et al. | Speech under stress: Analysis, modeling and recognition | |
Tran et al. | Improvement to a NAM-captured whisper-to-speech system | |
WO2019214047A1 (zh) | 建立声纹模型的方法、装置、计算机设备和存储介质 | |
US20100131268A1 (en) | Voice-estimation interface and communication system | |
US20160314781A1 (en) | Computer-implemented method, computer system and computer program product for automatic transformation of myoelectric signals into audible speech | |
Hansen et al. | On the issues of intra-speaker variability and realism in speech, speaker, and language recognition tasks | |
JP4381404B2 (ja) | 音声合成システム、音声合成方法、音声合成プログラム | |
Erzin | Improving throat microphone speech recognition by joint analysis of throat and acoustic microphone recordings | |
Freitas et al. | An introduction to silent speech interfaces | |
EP1341159B1 (en) | Speech information recognition device and speech information recognition method based on myoelectrical signal analysis | |
JP2000308198A (ja) | 補聴器 | |
Salvi et al. | SynFace—speech-driven facial animation for virtual speech-reading support | |
Sahoo et al. | MFCC feature with optimized frequency range: An essential step for emotion recognition | |
Freitas et al. | Multimodal silent speech interface based on video, depth, surface electromyography and ultrasonic doppler: Data collection and first recognition results | |
Heracleous et al. | A pilot study on augmented speech communication based on Electro-Magnetic Articulography | |
Seong et al. | A study on the voice security system using sensor technology | |
JP2005209000A (ja) | 音声可視化方法及び該方法を記憶させた記録媒体 | |
Beskow et al. | Visualization of speech and audio for hearing impaired persons | |
Beautemps et al. | Telma: Telephony for the hearing-impaired people. from models to user tests |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090519 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090526 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090724 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090818 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090915 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121002 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4381404 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131002 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |