JP5469984B2 - 発音評価システムおよび発音評価プログラム - Google Patents
発音評価システムおよび発音評価プログラム Download PDFInfo
- Publication number
- JP5469984B2 JP5469984B2 JP2009230502A JP2009230502A JP5469984B2 JP 5469984 B2 JP5469984 B2 JP 5469984B2 JP 2009230502 A JP2009230502 A JP 2009230502A JP 2009230502 A JP2009230502 A JP 2009230502A JP 5469984 B2 JP5469984 B2 JP 5469984B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- formant
- frequency
- dimensional
- pronunciation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims description 61
- 210000000088 lip Anatomy 0.000 claims description 56
- 210000000056 organ Anatomy 0.000 claims description 43
- 210000002105 tongue Anatomy 0.000 claims description 33
- 210000000515 tooth Anatomy 0.000 claims description 24
- 210000003928 nasal cavity Anatomy 0.000 claims description 23
- 210000003254 palate Anatomy 0.000 claims description 23
- 210000003800 pharynx Anatomy 0.000 claims description 23
- 210000000214 mouth Anatomy 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 20
- 210000003467 cheek Anatomy 0.000 claims description 6
- 210000001331 nose Anatomy 0.000 claims description 6
- 238000013500 data storage Methods 0.000 claims description 3
- 239000000470 constituent Substances 0.000 claims description 2
- 210000001847 jaw Anatomy 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 claims description 2
- 210000003739 neck Anatomy 0.000 claims description 2
- 238000000034 method Methods 0.000 description 129
- 230000008569 process Effects 0.000 description 124
- 238000010586 diagram Methods 0.000 description 57
- 238000012545 processing Methods 0.000 description 41
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 17
- 238000012854 evaluation process Methods 0.000 description 12
- 238000001514 detection method Methods 0.000 description 10
- 230000000007 visual effect Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000010365 information processing Effects 0.000 description 7
- 230000007704 transition Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 210000003128 head Anatomy 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Landscapes
- Electrically Operated Instructional Devices (AREA)
Description
フォルマント抽出手段により抽出される、第1フォルマント、第2フォルマントおよび第3フォルマントは、音声データに含まれる音声周波数のスペクトルで時間的に変化する周波数のピークであり、このピークの周波数(以下、「フォルマントの周波数」または「フォルマント周波数」という)は、唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官の動きにより大きく影響される。特に、第3フォルマントの周波数は、本願発明者の研究により唇の形状と深い関わりをもっていることがわかっている。このため、第1フォルマントの周波数および第2フォルマントの周波数による二次元座標平面の円形イメージに対してさらに垂直方向の遠近感を第3フォルマントの周波数に基づいて与えることで、これまであまり着目されることがなかった第3フォルマントの周波数による情報(第3フォルマント周波数の高低)に基づいて唇の形状を視覚的に明示することができる。
フォルマント抽出手段により抽出される、第1フォルマント、第2フォルマントおよび第3フォルマントは、音声データに含まれる音声周波数のスペクトルで時間的に変化する周波数のピークであり、各フォルマント周波数は、唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官の動きにより大きく影響をする。特に、第3フォルマントの周波数は、本願発明者の研究により唇の形状と深い関わりをもっていることがわかっている。このため、第1フォルマントの周波数および第2フォルマントの周波数による二次元座標平面の円形イメージに対してさらに垂直方向の遠近感を第3フォルマントの周波数に基づいて与えることで、これまであまり着目されることがなかった第3フォルマントの周波数による情報(第3フォルマント周波数の高低)に基づいて唇の形状を視覚的に明示することができる。
請求項2の発明では、学習者の性別、年齢、身長等に適合した口腔三次元イメージを生成することが可能になる。
請求項13の発明では、第1フォルマントおよび第2フォルマントによる二次元座標平面の円形イメージに対してさらに垂直方向の遠近感を第3フォルマントの周波数に基づいて与え、さらに選択された円形イメージに対応してお手本となる口腔三次元イメージを明示する。つまり、第3フォルマントに基づく情報を円形イメージの遠近感として表現することで、これまであまり着目されることがなかった第3フォルマントによる情報(第3フォルマント周波数の高低)に基づいて唇の形状や唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官を視覚的に明示することができる。したがって、学習者は、自分の発音が目標の音に近づいているのか否かを視覚的に判断することができるので、個人学習に適した発音評価プログラムを提供することができる。
まず、本実施形態に係る発音評価システム10の構成を図1を参照して説明する。図1は、発音評価システム10の構成例を示す説明図である。
20…制御ユニット
21…CPU(音声データ取得手段、フォルマント抽出手段、イメージデータ生成手段、イメージデータ出力手段)
22…メモリ
22b…音声データ取得プログラム(音声データ取得手段)
22c…フォルマント抽出プログラム(フォルマント抽出手段)
22d…イメージデータ生成プログラム(イメージデータ生成手段)
22e…イメージデータ出力プログラム(イメージデータ出力手段)
22f…モデル音声出力プログラム(音声出力手段)
22g…モデル画像出力プログラム(音声出力手段)
23…データベース
23a…モデルフォルマントデータ(発音の基準となるモデルデータ)
23b…モデル音声データ
23c…モデル画像データ
24…システムバス
25…入出力インタフェイス
32…マイク(音声入力装置、音声データ取得手段)
33…ディスプレイ(画像出力装置)
33a…表示画面
34…入力デバイス
35…スピーカアンプ(音声出力手段)
100…三次元フォルマント母音図
101…三次元座標(三次元座標イメージ)
200…二次元フォルマント母音図
201…二次元座標(二次元座標イメージ)
Da…座標イメージ表示領域
Db…操作パネル表示領域
F1…フォルマント周波数(第1フォルマントの周波数)
F2…フォルマント周波数(第2フォルマントの周波数)
F3…フォルマント周波数(第3フォルマントの周波数)
Gc…遠近サークルグリッド
Gp…遠点
Gr…遠近ラジアルグリッド
J1…緑軸(第1の周波数軸)
J2…赤軸(第2の周波数軸)
J3、J4…青軸(第3の周波数軸)
S1、S2、S3、S4…スライドレバー
S5…押ボタンスイッチ
r1…直径
U1、U2、U3、U4、U5…球体イメージ(球形イメージ)
Claims (13)
- 評価対象となる音声データを取得する音声データ取得手段と、
前記音声データに含まれる母音のフォルマントで、周波数の最も低い第1フォルマント、この次に周波数の高い第2フォルマントおよびさらに高い周波数の第3フォルマントを抽出するフォルマント抽出手段と、
第1の周波数軸と第2の周波数軸とからなる二次元座標イメージを生成しこれらの周波数軸に前記第1フォルマントおよび前記第2フォルマントを割り付けて定まる座標を中心に円形イメージを生成するとともに、前記二次元座標イメージによる座標平面に対し垂直方向の遠近感を前記第3フォルマントの周波数に基づいて前記円形イメージに与えるイメージ生成手段と、
前記二次元座標イメージおよび前記円形イメージを画面表示可能に出力するイメージ出力手段と、
画面表示された前記円形イメージを任意に選択可能なイメージ選択手段と、
前記イメージ選択手段により選択された前記円形イメージに対応する発音の基準となるモデル音声データに基づいて、発音時の口唇および口腔内の三次元形状を口腔三次元イメージとして生成する口腔三次元イメージ生成手段と、
を備え、前記イメージ出力手段は、前記二次元座標イメージおよび前記円形イメージに加えて、前記口腔三次元イメージを画面表示可能に出力することを特徴とする発音評価システム。 - 性別、年齢および身長を含めた身体的特徴に起因する調音器官のデータを蓄積するデータ蓄積手段と、
当該発音評価システムを使用する学習者の前記身体的特徴を表す学習者情報を取得する学習者情報取得手段と、
前記データ蓄積手段に蓄積された調音器官のデータおよび前記学習者情報取得手段により取得された学習者情報に基づいて前記学習者が有する調音器官の長さや大きさを推定する調音器官推定手段と、を備え、
前記口腔三次元イメージ生成手段は、前記調音器官推定手段により推定された前記学習者が有する調音器官の長さや大きさに基づいて選択される前記モデル音声データに基づく口腔三次元イメージを生成することを特徴とする請求項1記載の発音評価システム。 - 前記円形イメージは、その直径が前記第3フォルマントの周波数に基づいて設定されることを特徴とする請求項1または2記載の発音評価システム。
- 前記イメージ生成手段は、前記二次元座標イメージによる座標平面に対し垂直方向に延びる第3の周波数軸を加えて三次元座標イメージを生成しこの第3の周波数軸に前記第3フォルマントの周波数を割り付け、
前記円形イメージは、その直径が前記第3フォルマントの周波数に基づいて設定される球体で、三次元形状に生成されることを特徴とする請求項1または2記載の発音評価システム。 - 前記イメージ生成手段は、前記三次元座標イメージによる座標空間を、正面・背面・平面・底面・右側面・左側面の少なくとも一面を含む三次元空間として、前記イメージ出力手段による画面表示可能に生成することを特徴とする請求項4記載の発音評価システム。
- 前記音声データ取得手段により取得される前記音声データが複数である場合、
前記イメージ生成手段は、複数の前記音声データごとに対応する複数の前記円形イメージを、視覚的に透過または半透過に生成することを特徴とする請求項1〜5のいずれか一項に記載の発音評価システム。 - 前記音声データ取得手段により取得される前記複数の音声データには、複数人による音声データが含まれることを特徴とする請求項6記載の発音評価システム。
- 前記音声データ取得手段により取得される前記複数の音声データには、発音の基準となるモデルデータが含まれることを特徴とする請求項6記載の発音評価システム。
- 前記イメージ選択手段により選択された前記円形イメージに対応する音声データに基づいて音響出力をする音声出力手段を備えることを特徴とする請求項1〜8のいずれか一項に記載の発音評価システム。
- 前記口腔三次元イメージ生成手段は、
前記発音時の口腔内の三次元形状を構成する「唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官を構成する調音器官構成部位」の少なくとも一つの三次元イメージを視覚的に不透過に生成し、
前記発音時の口唇を含んで前記調音器官構成部位を収容する「鼻、頬、顎、首等の調音器官収容部位」の少なくとも一つを視覚的に透過または半透過に生成することを特徴とする請求項1〜9のいずれか一項に記載の発音評価システム。 - 前記口腔三次元イメージ生成手段は、
前記発音時の口唇を含んで、前記発音時の口腔内の三次元形状を構成する「唇、歯、口蓋、鼻腔、咽頭、舌等の調音器官を構成する調音器官構成部位」を収容する「鼻、頬、顎、首等の調音器官収容部位」を含む顔の、正面・背面・平面・底面・右側面・左側面の少なくとも一面を含む前記口腔三次元イメージを前記イメージ出力手段による画面表示可能に生成することを特徴とする請求項1〜10のいずれか一項に記載の発音評価システム。 - 前記フォルマント抽出手段が連続して母音が変化する多重母音について、前記第1フォルマント、前記第2フォルマントおよび前記第3フォルマントを抽出する場合において、
前記円形イメージは、その直径が前記第3フォルマントの周波数に基づいて設定され、球体を上下に押しつぶした形状の楕円球体で、三次元形状に生成されることを特徴とする請求項1記載の発音評価システム。 - コンピュータを、
評価対象となる音声データを音声入力装置から取得する音声データ取得手段、
前記音声データに含まれる母音のフォルマントで、周波数の最も低い第1フォルマント、この次に周波数の高い第2フォルマントおよびさらに高い周波数の第3フォルマントを抽出するフォルマント抽出手段、
第1の周波数軸と第2の周波数軸とからなる二次元座標イメージを生成しこれらの周波数軸に前記第1フォルマントおよび前記第2フォルマントを割り付けて定まる座標を中心に円形イメージを生成するとともに、前記二次元座標イメージによる座標平面に対し垂直方向の遠近感を前記第3フォルマントの周波数に基づいて前記円形イメージに与えるイメージ生成手段、
前記二次元座標イメージおよび前記円形イメージを画像出力装置に出力するイメージ出力手段、
画面表示された前記円形イメージを任意に選択可能なイメージ選択手段、
前記イメージ選択手段により選択された前記円形イメージに対応する発音の基準となるモデル音声データに基づいて、発音時の口唇および口腔内の三次元形状を口腔三次元イメージとして生成する口腔三次元イメージ生成手段、
として機能させて、
前記イメージ出力手段を、前記二次元座標イメージおよび前記円形イメージに加えて前記口腔三次元イメージを画面表示可能に出力するように機能させることを特徴とする発音評価プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009230502A JP5469984B2 (ja) | 2009-10-02 | 2009-10-02 | 発音評価システムおよび発音評価プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009230502A JP5469984B2 (ja) | 2009-10-02 | 2009-10-02 | 発音評価システムおよび発音評価プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011076044A JP2011076044A (ja) | 2011-04-14 |
JP5469984B2 true JP5469984B2 (ja) | 2014-04-16 |
Family
ID=44020059
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009230502A Active JP5469984B2 (ja) | 2009-10-02 | 2009-10-02 | 発音評価システムおよび発音評価プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5469984B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150024180A (ko) * | 2013-08-26 | 2015-03-06 | 주식회사 셀리이노베이션스 | 발음 교정 장치 및 방법 |
CN108670199B (zh) * | 2018-05-28 | 2023-05-23 | 暨南大学 | 一种构音障碍元音评估模板及评估方法 |
CN115066716A (zh) * | 2020-02-19 | 2022-09-16 | 松下知识产权经营株式会社 | 口腔功能可视化系统、口腔功能可视化方法及程序 |
JP7425243B1 (ja) | 2023-05-08 | 2024-01-30 | ムーン クリエイティブ ラボ インク. | 情報処理装置及び情報処理方法 |
-
2009
- 2009-10-02 JP JP2009230502A patent/JP5469984B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011076044A (ja) | 2011-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022048403A1 (zh) | 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端 | |
CN106653052B (zh) | 虚拟人脸动画的生成方法及装置 | |
US20200126283A1 (en) | Method and System for Implementing Three-Dimensional Facial Modeling and Visual Speech Synthesis | |
US20120026174A1 (en) | Method and Apparatus for Character Animation | |
Benoı̂t et al. | Audio-visual speech synthesis from French text: Eight years of models, designs and evaluation at the ICP | |
JP6656447B1 (ja) | 動画出力システム | |
KR20150076128A (ko) | 3차원 멀티미디어 활용 발음 학습 지원 시스템 및 그 시스템의 발음 학습 지원 방법 | |
CN105390133A (zh) | 藏语ttvs系统的实现方法 | |
JP5469984B2 (ja) | 発音評価システムおよび発音評価プログラム | |
Waters et al. | An automatic lip-synchronization algorithm for synthetic faces | |
Gibbon et al. | Audio-visual and multimodal speech-based systems | |
US20210050004A1 (en) | Method and system using phoneme embedding | |
Cvejic et al. | Prosody for the eyes: quantifying visual prosody using guided principal component analysis. | |
Karpov et al. | Multimodal synthesizer for Russian and Czech sign languages and audio-visual speech | |
Nordstrand et al. | Measurements of articulatory variation in expressive speech for a set of Swedish vowels | |
KR20140078810A (ko) | 언어 데이터 및 원어민의 발음 데이터를 이용한 리듬 패턴 학습장치 및 방법 | |
JP3222283B2 (ja) | 案内装置 | |
Koverienė | Dubbing as an audiovisual translation mode: English and Lithuanian phonemic inventories in the context of visual phonetics | |
Huffman | Articulatory phonetics | |
WO2007007228A2 (en) | Method for communication and communication device | |
KR20140087950A (ko) | 언어 데이터 및 원어민의 발음 데이터를 이용한 리듬 패턴 학습장치 및 방법 | |
KR20140079245A (ko) | 언어 데이터 및 원어민의 발음 데이터를 이용한 리듬 패턴 학습장치 및 방법 | |
Gibert et al. | Evaluating a virtual speech cuer | |
Kachare et al. | Speech-Training Aid with Time-Scaled Audiovisual Feedback of Articulatory Efforts | |
WO2023007509A1 (en) | Method and system for time-scaled audiovisual feedback of speech production efforts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120926 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130516 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130528 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130724 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130813 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130917 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140203 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5469984 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S633 | Written request for registration of reclamation of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313633 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |