JP6979300B2

JP6979300B2 - 発声・発話学習装置及びマイクロホン

Info

Publication number: JP6979300B2
Application number: JP2017155998A
Authority: JP
Inventors: 博小野
Original assignee: Techno Link Co Ltd
Current assignee: Techno Link Co Ltd
Priority date: 2017-08-10
Filing date: 2017-08-10
Publication date: 2021-12-08
Anticipated expiration: 2037-08-10
Also published as: JP2019035818A

Description

本発明は、発声・発話学習装置及びマイクロホンに関する。

従来から、入力されたテキストに基づいてモデル音声を作成する発声・発話学習装置が知られている。

これに関し、特許文献１には、ユーザが発声した音声に基づき、ユーザ音声を作成する技術が開示されている。

特許第３７０１８５０号公報

しかしながら、特許文献１に記載の技術で作成されたユーザ音声を、音声を発声したユーザ自身が聞いた場合、ユーザは、自分がいつも聞いている自分の音声とは違うと感じて違和感を覚えてしまう。ユーザが違和感を覚えると、日本語や英語等の言語の学習に支障をきたし、言語学習効率が低下する恐れがある。

本発明はこのような課題に鑑みてなされたものであり、その目的は、ユーザの言語学習効率を向上することができる発声・発話学習装置及びマイクロホンを提供することにある。

まず、本発明者は、ユーザ音声を聞いた場合に、ユーザ自身が違和感を覚える理由について検討した。ユーザの口から出た音は、空中を伝搬し、両耳に到達する。この空気が伝わった音は「気道音声」という。一方で声を出した時の声帯の振動が頭蓋骨を通じて直接的に伝えられる「骨導音声」という音も同時に自分の耳に伝えられる。ユーザ以外の人はこの骨導音声が届かず気道音声だけを聞いている。録音された音も同じく気道音声である。これに対してユーザ自身は、気道音声と骨導音声の両方を聞いているため、結果として、他人が聞く音や録音された音とは異なる認識となり、気道音声をユーザが聞いた場合、違和感を覚えることが分かった。そこで、本発明者は、気道音声だけでなく骨導音声も言語学習に利用することを考えた。

本発明の第一態様に係る発声・発話学習装置は、ユーザに言語音声の発声を学習させる発声・発話学習装置であって、第１音声を構成する気道音声及び骨導音声をそれぞれ入力する入力部と、前記第１音声の音質を維持しつつ、入力された前記気道音声及び前記骨導音声を、前記ユーザが聞いている音声を構成する比率で混合して、第２音声を作成する作成部と、を備える発声・発話学習装置。

この構成によれば、第１音声を発声したユーザが、作成された第２音声を聞いた場合、第２音声の音質が、自分がいつも聞いている自分の音声の音質と同等と感じるようになり、違和感を覚えることを抑制することができる。違和感を減少することができれば、言語学習効率を向上することができる。

本発明の第二態様に係る発声・発話学習装置は、前記作成部は、伝送特性を修正し、前記第２音声として話者が聞いている音声により近い音声を作成する。

本発明の第三態様に係る発声・発話学習装置は、前記入力部は更に、合成音声を作成するための決められた原稿がユーザにより朗読された際に入力された前記気道音声及び前記骨導音声に基づき、話者の聞いている音声に対応する音素及び音素列を作成し、前記第２音声として、学習のために入力されているテキストデータに沿った合成音声を作成する。

本発明の第四態様に係る発声・発話学習装置は、前記入力部は更に、前記気道音声及び前記骨導音声の混合比率のうち一の混合比率の決定操作を入力し、前記作成部は、前記一の混合比率に基づいて、入力された前記気道音声及び前記骨導音声を混合する。

本発明の第五態様に係る発声・発話学習装置は、前記入力部は、前記骨導音声を入力し、且つ、ユーザの外耳道内に配置可能に構成された骨導マイクと、前記気道音声を入力し、前記骨導マイクの外部に設置した気道マイクと、を含む。

本発明の第六態様に係るマイクロホンは、ユーザの骨導音声を入力し、ユーザの外耳道内に配置可能に構成された骨導マイクと、ユーザの気道音声を入力し、前記骨導マイクの外側壁に設けられた気道マイクと、を含む、ユーザ自身が聞いている音声を収集する。

本発明によれば、ユーザの言語学習効率を向上することができる。

図１は、第１実施形態に係る発声・発話学習装置の一例としての日本語学習装置１０のハードウェア構成の一例を示す図である。図２は、図１に示す気道マイク１１６及び骨導マイク１１８の配置を示す図である。図３は、第１実施形態に係る日本語学習装置１０の機能構成（機能部）の一例を示すブロック図である。図４は、第１実施形態に係る日本語学習装置１０が実行する準備処理の流れの一例を示すフローチャートである。図５は、第１実施形態に係る日本語学習装置１０が実行する日本語学習処理の流れの一例を示すフローチャートである。図６は、図４に示す準備処理に加えて、第２実施形態に係る発声・発話学習装置が実行する他の準備処理の流れの一例を示すフローチャートである。図７は、第２実施形態に係る発声・発話学習装置が実行する言語学習処理の流れの一例を示すフローチャートである。

以下、添付図面を参照して、本発明の好適な実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。

―――第１実施形態―――
まず、第１実施形態に係る発声・発話学習装置について説明する。第１実施形態では、発声・発話学習装置の一例として、言語学習装置、特に日本語学習装置について説明する。

＜ハードウェア構成＞
図１は、第１実施形態に係る発声・発話学習装置の一例としての日本語学習装置１０のハードウェア構成の一例を示す図である。図示のように、日本語学習装置１０は、ＣＰＵ（Central Processing Unit）１０２と、ＲＡＭ（Random Access Memory）１０４と、ＲＯＭ（Read only Memory）１０６と、ドライブ装置１０８と、ネットワークＩ／Ｆ（Interface）１１０と、入力装置１１２と、表示装置１１４と、気道マイク１１６と、骨導マイク１１８と、スピーカー１２０と、を有する。これら各構成は、バスを介して相互にデータ送受信可能に接続されている。

ＣＰＵ１０２は、当該ＣＰＵ１０２に接続される各構成の制御やデータの演算、加工を行う制御部である。また、ＣＰＵ１０２は、ＲＡＭ１０４又はＲＯＭ１０６に記憶された、日本語学習処理（音声作成処理を含む）や当該日本語学習処理のための準備処理を行うアプリケーションプログラムを実行する演算装置である。ＣＰＵ１０２は、入力装置１１２やネットワークＩ／Ｆ１１０等からデータを受け取り、演算、加工した上で、演算結果を表示装置１１４や記憶装置などに出力する。

ＲＡＭ１０４は、例えば主記憶部などである。ＲＡＭ１０４は、ＣＰＵ１０２が実行する基本ソフトウェアであるＯＳ（Operating System）やアプリケーションソフトウェアなどのプログラムやデータを記憶又は一時保存する記憶装置である。

ＲＯＭ１０６は、例えばアプリケーションソフトウェアなどに関連するデータを記憶する記憶装置である。

ドライブ装置１０８は、記録媒体１０８Ａ、例えばＣＤ−ＲＯＭやＳＤカードなどからプログラムやデータを読み出し、記憶装置にインストールしたりダウンロードしたりする。

また、記録媒体１０８Ａに、所定のプログラムを格納し、この記録媒体１０８Ａに格納されたプログラムはドライブ装置１０８を介して日本語学習装置１０にインストールされる。インストールされた所定のプログラムは、日本語学習装置１０により実行可能となる。

ネットワークＩ／Ｆ１１０は、通信機能を有する周辺機器と日本語学習装置１０とのインターフェースである。また、ネットワークＩ／Ｆ１１０は、例えば、有線及び／又は無線回線などのデータ伝送路により構築されたＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）などのネットワークを介して接続される。

入力装置１１２は、カーソルキー、数字入力及び各種機能キー等を備えたキーボード、表示装置１１４の表示画面上でキーの選択等を行うためのマウスやスライドパッド等を有する。また、入力装置１１２は、日本語の学習者（ユーザ）がＣＰＵ１０２に操作指示を与えたり、データを入力したりするためのユーザインターフェースである。

表示装置１１４は、ＬＣＤ（Liquid Crystal Display）等により構成され、ＣＰＵ１０２から入力される表示データに応じた表示が行われる。

気道マイク１１６は、ユーザが発声する音声の気道音声を収音して電気信号に変換し、日本語学習装置１０の内部に入力する音入力装置である。

骨導マイク１１８は、ユーザが発声する音声の骨導音声を収音して電気信号に変換し、日本語学習装置１０の内部に入力する音入力装置である。骨導音声を収音する際に、骨導マイク１１８を配置する場所としては、ユーザの外耳道内、頭頂、おでこ、側頭骨周辺等が挙げられる。これらの中でも、骨導マイク１１８を配置する場所としては、ユーザの聴器に近く、安定的に配置でき、且つ、聴器で聞いている骨導音声に最も近い音声を収音できる外耳道内であることが好ましい。言い換えれば、図２に示すように、骨導マイク１１８は、ユーザの外耳道内に挿入され配置可能なように、形状やサイズ等が構成されていることが好ましい。図２では、気道マイク１１６と骨導マイク１１８とがセットになって構成されたマイク１１９を示している。このマイク１１９には、外耳道に嵌る円盤状の固定部１１７が設けられている。この固定部１１７の内部には、気道マイク１１６が設けられている。一方で、固定部１１７からその厚さ方向に延びる骨導マイク１１８が設けられている。骨導マイク１１８は、外耳道内に配置され、気道マイク１１６は外耳道内よりも外側に配置される。
すなわち、気道マイク１１６は、骨導マイク１１８の外側壁に設けられている。なお、骨導マイク１１８は、骨導音声を収音可能なピエゾ素子を内部に含んでいる。このような外耳道内に配置する骨導マイク１１８は、頭部全体でも聴覚への伝達を考えると本人（ユーザ）が聞いている骨導音に近い音が収集できる。また、この骨導マイク１１８の外側壁に気道マイク１１６を設置すると、口腔から放出した音声が実際に自分の耳に到達する音に一番近い気道音をとらえることができる。

スピーカー１２０は、電気信号に基づく音声を、日本語学習装置１０の外部に出力する音出力装置である。

＜機能構成＞
図３は、第１実施形態に係る日本語学習装置１０の機能構成（機能部）の一例を示すブロック図である。図示のように、日本語学習装置１０は、記憶部１３０と、入力部１３２と、作成部１３４と、出力部１３６と、評価部１３８と、を備える。

記憶部１３０は、例えばＲＡＭ１０４やＲＯＭ１０６、記録媒体１０８Ａ等で実現される。記憶部１３０には、例えば日本語を母国語とするモデルが発声した音声に基づいて作成されたモデル音素１３０Ａが複数記憶されている。また、記憶部１３０には、気道音声と骨導音声を混合するための混合比率１３０Ｂが記憶されている。なお、混合比率１３０Ｂは、ユーザ毎に対応付けられ、互いに異なる値が設定されている。

入力部１３２は、例えば気道マイク１１６や骨導マイク１１８で実現される。入力部１３２は、ユーザが発声した音声（第１音声）の気道音声及び骨導音声をそれぞれ入力する。

作成部１３４は、例えばＲＡＭ１０４又はＲＯＭ１０６に記憶されたアプリケーションプログラムをＣＰＵ１０２が実行することにより実現される。作成部１３４は、第１音声の音質を維持しつつ、入力部１３２により入力された気道音声及び骨導音声を、ユーザが聞いている音声を構成する比率で混合して、第２音声を作成する。左記「ユーザが聞いている音声を構成する比率」とは、例えば、ユーザが予め指定又は選択した比率である。さらに本実施形態では、作成部１３４は、第２音声を作成する際、第１音声の韻律を予め定められた韻律に変換する。左記「予め定められた韻律」としては、例えば、日本語を母国語とするモデルが発声した音声の韻律や、そのモデルの音声に基づいた韻律等が挙げられる。韻律は、ピッチ、話速、抑揚等を含む。
なお、作成部１３４は、第１音声の伝送特性を修正し、第２音声としてユーザが聞いている音声により近い音声を作成してもよい。

出力部１３６は、例えばスピーカー１２０で実現される。出力部１３６は、モデル音素１３０Ａに基づいたモデル音声や、第２音声等を出力する。

評価部１３８は、例えばＲＡＭ１０４又はＲＯＭ１０６に記憶されたアプリケーションプログラムをＣＰＵ１０２が実行することにより実現される。評価部１３８は、入力部１３２により入力された音声を、予め定められた評価基準に基づき評価する。

＜準備処理＞
図４は、第１実施形態に係る日本語学習装置１０が実行する準備処理の流れの一例を示すフローチャートである。この準備処理は、例えば、日本語学習装置１０の起動時や、予め定められた時期、ユーザの指示時等に開始される。

（ステップＳＰ１０）
入力部１３２は、ユーザが発声した音声の気道音声と骨導音声をそれぞれ入力する。そして、処理は、ステップＳＰ１２の処理に移行する。

（ステップＳＰ１２）
作成部１３４は、気道音声と骨導音声を混合する際の混合比率を仮決定する。この際、作成部１３４は、仮決定する混合比率を選択するための選択画面や混合比率を入力するための入力画面を表示装置１１４に表示してもよい。また、混合比率を最適な値等に自動的に仮決定してもよい。第１実施形態では、作成部１３４は、ステップＳＰ１２が繰り返される度に、異なる混合比率を自動的に決定する。そして、処理は、ステップＳＰ１４の処理に移行する。

（ステップＳＰ１４）
作成部１３４は、仮決定した混合比率で（に基づき）、入力された気道音声と骨導音声を混合して、混合音声を作成する。そして、処理は、ステップＳＰ１６の処理に移行する。

（ステップＳＰ１６）
出力部１３６は、作成された混合音声を出力する。そして、処理は、ステップＳＰ１８の処理に移行する。

（ステップＳＰ１８）
作成部１３４は、ユーザによる一の混合比率（仮決定した混合比率）の決定操作があるか否かを判定する。そして、肯定判定された場合には処理はステップＳＰ２０の処理に移行し、否定判定された場合には処理はステップＳＰ１２の処理に戻る。

（ステップＳＰ２０）
作成部１３４は、決定操作された一の混合比率を、混合比率１３０Ｂとして本決定し、記憶部１３０に記憶する。

＜日本語学習処理＞
図５は、第１実施形態に係る日本語学習装置１０が実行する日本語学習処理の流れの一例を示すフローチャートである。この日本語学習処理は、例えば、ユーザの指示に応答して開始される。

（ステップＳＰ３０）
入力部１３２は、ユーザが作成したテキスト又は予め日本語学習用に用意されたテキストを入力する。ユーザが作成したテキストを入力する場合、入力部１３２は、ユーザの操作に応じて入力する。また、日本語学習用に用意されたテキストを入力する場合、入力部１３２は、記憶部１３０やインターネット等から取得して入力する。そして、処理は、ステップＳＰ３２の処理に移行する。

（ステップＳＰ３２）
作成部１３４は、入力されたテキストとモデル音素１３０Ａに基づき、当該テキストに沿ったモデル音声を作成する。そして、出力部１３６は、作成されたモデル音声を出力する。そして、処理は、ステップＳＰ３４の処理に移行する。

（ステップＳＰ３４）
入力部１３２は、ユーザがモデル音声に沿って発声した第１音声の気道音声と骨導音声をそれぞれ入力する。そして、処理は、ステップＳＰ３６の処理に移行する。なお、ステップＳＰ３４において、評価部１３８が、入力された気道音声と骨導音声に基づき、第１音声を評価し、評価が所定値以上であれば、図５に示す日本語学習処理が終了してもよい。

（ステップＳＰ３６）
作成部１３４は、入力された第１音声の気道音声及び骨導音声に基づき、第１音声の音質を維持しつつ、第１音声の韻律を予め定められた韻律に変換し、第２音声を作成する。第１実施形態では、作成部１３４は、入力された気道音声及び骨導音声を混合比率１３０Ｂに基づいて混合し、第２音声を作成する。また、第１実施形態では、作成部１３４は、第１音声の韻律をモデル音声の韻律に変換する。そして、処理は、ステップＳＰ３８の処理に移行する。

（ステップＳＰ３８）
出力部１３６は、作成された第２音声を出力する。そして、処理は、ステップＳＰ４０の処理に移行する。なお、出力部１３６は、第２音声を出力する前に、例えば「あなたが話すならこのように話すとわかりやすいですよ」という音声も出力してもよい。

（ステップＳＰ４０）
入力部１３２は、ユーザが第２音声に沿って発声した第３音声を入力する。この際、入力部１３２は、第３音声の気道音声のみ入力してもよい。そして、処理は、ステップＳＰ４２の処理に移行する。

（ステップＳＰ４２）
評価部１３８は、入力された第３音声を認識して、入力されているテキストと照合し、正しく音声認識できているか、言い換えれば、正しく発声できているか評価する。また、評価部１３８は、第３音声の韻律（音響）を分析して、伝わりやすさ（はっきり度）」の度合いを評価する。そして、評価部１３８は、評価結果を記憶部１３０に記憶する。また、評価部１３８は、評価結果を表示装置１１４等に表示してもよい。表示装置１１４に表示する場合は、評価部１３８は、評価結果に基づき、「抑揚を強調しよう！」や、「言葉を切り、音声の区切りを明確化して話そう！」などのアドバイスを表示してもよい。そして、処理は、ステップＳＰ４４の処理に移行する。

（ステップＳＰ４４）
評価部１３８は、評価が所定値以上か否かを判定する。そして、肯定判定された場合は、処理は終了し、否定判定された場合は、ステップＳＰ３８の処理に戻る。なお、否定判定された場合は、ステップＳＰ３８に戻って第２音声を出力する代わりに、ステップＳＰ４０で入力された第３音声に、抑揚強調や発声の区切りを明確する加工を行ったモデル音声を出力してもよい。

以上、第１実施形態によれば、第１音声を発声したユーザが、作成された第２音声を聞いた場合、第２音声の音質が、自分がいつも聞いている自分の音質と同等と感じるようになり、違和感を覚えることを抑制することができる。この違和感を減少することができれば、ユーザは、スムーズに言語学習ができる他、自分の音声の韻律を第２音声の韻律に従って変えるだけで、自分の音声が第２音声に近づくという安心感や第２音声に近づいたという達成感を感じ、日本語の発声練習に励むようになり、言語学習効率を向上することができる。

また、第１実施形態によれば、入力された気道音声及び骨導音声を混合して、第２音声を作成するので、ユーザが、作成された第２音声を聞いた場合、第２音声の音質が、自分がいつも聞いている自分の音質とより同等と感じるようになり、違和感を覚えることをより抑制することができる。

また、第１実施形態によれば、ユーザは、気道音声及び骨導音声の混合比率のうち実際に混合するための一の混合比率を決定操作できるので、混合比率を変えながら混合音声を聞き、混合音声が自分の音声と同じと思う時点で、適切な一の混合比率を決定操作することができる。これにより、ユーザが、作成された第２音声を聞いた場合、第２音声の音質が、自分がいつも聞いている自分の音質とより一層同等と感じるようになり、違和感を覚えることをより一層抑制することができる。

＜第２実施形態＞
次に、第２実施形態に係る発声・発話学習装置について説明する。第２実施形態は、第２音声として合成音声を作成する点が、第１実施形態と異なる。第２実施形態は、第１実施形態と同様、記憶部１３０と、入力部１３２と、作成部１３４と、出力部１３６と、評価部１３８と、を備える。

図６は、図４に示す準備処理に加えて、第２実施形態に係る発声・発話学習装置が実行する他の準備処理の流れの一例を示すフローチャートである。他の準備処理は、例えば、日本語学習装置１０の起動時や、予め定められた時期、ユーザの指示時等に開始される。

（ステップＳＰ５０）
入力部１３２は、ユーザが、例えば約６０分〜９０分の間、合成音声を作成するための決められた原稿を発声（朗読）した音声の気道音声声と骨導音声声をそれぞれ入力する。そして、処理は、ステップＳＰ５２の処理に移行する。

（ステップＳＰ５２）
作成部１３４は、入力された気道音声及び骨導音声をそれぞれ分析する。そして、処理は、ステップＳＰ５４の処理に移行する。

（ステップＳＰ５４）
作成部１３４は、分析結果に基づき、入力された気道音声及び骨導音声を混合比率１３０Ｂに基づき混合し、ユーザの聞いている音声に対応する複数のユーザ音素（及び音素列）を作成する。

図７は、第２実施形態に係る発声・発話学習装置が実行する言語学習処理の流れの一例を示すフローチャートである。この言語学習処理は、例えば、ユーザの指示に応答して開始される。

（ステップＳＰ６０）
入力部１３２は、ユーザが作成した学習のためのテキスト又は予め日本語学習用に用意されたテキストを入力する。ユーザが作成したテキストを入力する場合、入力部１３２は、ユーザの操作に応じて入力する。また、日本語学習用に用意されたテキストを入力する場合、入力部１３２は、記憶部１３０やインターネット等から取得して入力する。そして、処理は、ステップＳＰ６２の処理に移行する。

（ステップＳＰ６２）
作成部１３４は、入力されたテキストとユーザ音素に基づき、当該テキストに沿った、第２音声としての合成音声を作成する。そして、処理は、ステップＳＰ６４の処理に移行する。なお、作成部１３４は、作成した合成音声を、入力された気道音声とともに積算フーリエ分析を行い、逆差特性を算出し、当該逆差特性を作成した合成音声に与えることで、ユーザがいつも聞いている合成音声に調整してもよい。

（ステップＳＰ６４）
出力部１３６は、作成された合成音声を出力する。そして、処理は、ステップＳＰ６６の処理に移行する。

（ステップＳＰ６６）
入力部１３２は、学習者が合成音声に沿って発声した第３音声を入力する。この際、入力部１３２は、第３音声の気道音声のみ入力してもよい。そして、処理は、ステップＳＰ６８の処理に移行する。

（ステップＳＰ６８）
評価部１３８は、入力された第３音声を認識して評価し、評価結果を記憶部１３０に記憶する。また、評価部１３８は、認識結果や評価結果を表示装置１１４に表示してもよい。そして、処理は、ステップＳＰ７０の処理に移行する。

（ステップＳＰ７０）
評価部１３８は、評価が所定値以上か否かを判定する。そして、肯定判定された場合は、処理は終了し、否定判定された場合は、ステップＳＰ６４の処理に戻る。

以上、第２実施形態によれば、第１実施形態と同様の効果を奏する他、図５のステップＳＰ３２に示すような、モデル音声を出力する処理を省略することができる。

＜変形例＞
なお、本発明は上記実施形態に限定されるものではない。すなわち、上記実施形態に、当業者が適宜設計調整を加えたものも、本発明の特徴を備えている限り、本発明の範囲に包含される。また、前述した実施形態が備える各要素は、技術的に可能な限りにおいて組み合わせることができ、これらを組み合わせたものも本発明の特徴を含む限り本発明の範囲に包含される。

例えば、第１実施形態では、日本語学習装置１０が気道マイク１１６と骨導マイク１１８とを備える場合を説明したが、これらの代わりに、骨導・気道一体型マイクロフォンを備えてもよい。

また、第１実施形態では、出力部１３６や評価部１３８は、日本語学習装置１０に設ける場合を説明したが、日本語学習装置１０の外部の装置に設けられてもよい。この場合、日本語学習装置１０は、第２音声を外部の装置に送信する。

１０…日本語学習装置（発声・発話学習装置）、１３２…入力部、１３４…作成部

Claims

ユーザに言語音声の発声を学習させる発声・発話学習装置であって、
第１音声を構成する気道音声及び骨導音声をそれぞれ入力する入力部と、
前記第１音声の音質を維持しつつ、入力された前記気道音声及び前記骨導音声を、前記ユーザが聞いている音声を構成する比率で混合して、第２音声を作成する作成部と、
を備え、
前記入力部は更に、前記気道音声及び前記骨導音声の混合比率のうち一の混合比率の決定操作を入力し、
前記作成部は、前記一の混合比率に基づいて、入力された前記気道音声及び前記骨導音声を混合する、発声・発話学習装置。
ユーザに言語音声の発声を学習させる発声・発話学習装置であって、
第１音声を構成する気道音声及び骨導音声をそれぞれ入力する入力部と、
前記第１音声を構成する前記気道音声及び前記骨導音声の伝送特性を修正して、第２音声として前記ユーザが聞いている音声により近い音声を作成する作成部と、
を備える発声・発話学習装置。
ユーザに言語音声の発声を学習させる発声・発話学習装置であって、
合成音声を作成するための決められた原稿がユーザにより朗読された第１音声を構成する気道音声及び骨導音声をそれぞれ入力する入力部と、
入力された前記気道音声及び前記骨導音声に基づき、前記ユーザの聞いている音声に対応する音素及び音素列を作成し、第２音声として、学習のために入力されているテキストに沿った合成音声を作成する作成部と、
を備える発声・発話学習装置。
前記入力部は、前記骨導音声を入力し、且つ、ユーザの外耳道内に配置可能に構成された骨導マイクと、前記気道音声を入力し、前記骨導マイクの外側壁に設けられた気道マイクと、を含む、
請求項１乃至３の何れか１項に記載の発声・発話学習装置。