JP2020076846A

JP2020076846A - 音出力装置、音出力方法、及びコンピュータプログラム

Info

Publication number: JP2020076846A
Application number: JP2018209375A
Authority: JP
Inventors: 太朗瀬水; Taro Semizu
Original assignee: Semizu Taro
Current assignee: Semizu Taro
Priority date: 2018-11-07
Filing date: 2018-11-07
Publication date: 2020-05-21

Abstract

【課題】ユーザの所望する音を一音単位で出力するにあたり、母音に加えて、子音を出力可能にする。【解決手段】ユーザの発声したい音が母音の場合、音出力装置１は、ユーザの口の形を撮影した内容に基づき母音を特定して、特定した母音をスピーカーから出力する。ユーザの発声したい音が子音の場合、音出力装置１は、撮影内容に基づき母音を特定することに加えて、子音の種類を指定するユーザ操作を受け付けるようにして、ユーザ操作に応じた子音の種類及び撮影内容に基づき特定した母音に基づき子音を特定し、その特定した子音をスピーカーから出力する。それにより、発声するのが不自由な人に対する発声支援及びトレーニングを行える。【選択図】図１

Description

本発明は、ユーザが実際に音声を出さなくても、ユーザの意図した母音及び子音等に係る音を一音単位で出力できるようにした音出力装置、音出力方法、及びコンピュータプログラムに関する。

従来、発声及び発語が不自由な人が、他の人とコミュニケーションを取る手段としては、一般的に手話が用いられている。手話の替わりの手段として、以下の特許文献１では、ユーザの一連の口唇の動きをテレビカメラで撮影し、その撮影した内容に対して、様々な単語又は言葉について予め登録してある口唇の動きのパターンとマッチング処理を行い、マッチングした言葉を出力する装置が開示される。

また、ユーザの口唇を撮影して、その撮影内容に応じた音声等を出力する技術は、マナー的に通常以上の大きさの声を出しにくい環境や、周囲の音が非常に大きいことから声が伝わりにくい環境等でも利用が想定されており、このような環境での利用は、以下の特許文献２−６で言及されている。例えば、特許文献２では、電車内や映画館のような声を出しにくい公共の場所で電話によるコミュニケーションを行うときに、ユーザの口唇の形状を撮影して、その撮影内容に応じた音声等を電話の相手先へ通信で出力（送信）することが開示される。

なお、特許文献３では、口を動かす時に発する息の量と息の方向を感知するセンサーを設けて、このセンサーの感知結果を口唇の解析の際にも利用することで、解析精度の向上を図る技術が開示される。また、特許文献４、５では、パターンマッチングの技術やベクトルの変換による技術等を用いることで、動画で撮影した口唇の撮影内容による口の形状等の検出精度を向上する試みが開示される。また、特許文献６では、口唇周囲の筋電位波形も測定して、ユーザの意図する音声の検出精度を高める技術が開示される。

特開昭６０−３７９３号公報特開２０００−６８８８２号公報特開２００２−１３５３７６号公報特開平９−１３４１９４号公報特開平６−４３８９７号公報特開平６−１２４８３号公報

特許文献１では、単語又は短い言葉のレベルで口唇の動きを検出することから、一音ごとに音は認識できず、また、単語又は短い言葉のレベルで出力を行うので、単語又は短い言葉に応じた信号を予め多数記憶しておく必要があると共に、記憶していない単語又は短い言葉については、そもそも音を出力できないという問題がある（新たな単語、言葉には特許文献１で対応できない）。

さらに、引用文献１の２頁目左欄１−２行目の「・・・子音の同定が比較的困難であり、これに対して母音の５音は容易に識別できることから、・・・」という記載のように、一音単位で子音を識別するのは困難であるという問題もある。そして、この一音単位での子音検出が困難な問題は、単語等の単位で検出を行う引用文献２−４、６にも当てはまる。なお、引用文献５では、段落００７８の「説明したシステムを用いて、１０個の発音された文字Ｂ、Ｄ、Ｆ、Ｍ、Ｎ、Ｐ、Ｓ、Ｔ、Ｖ、Ｚの間の弁別について実験を行っている。」という記載のように、一音単位での検出を行うが、記憶した口唇の形状等との比較を行わずに、視覚的特徴ベクトル等を用いるので、非常に複雑な処理が必要になるという問題がある。

また、発声及び発語が不自由な人の中には、話そうとする最初の言葉の音が出にくい人がいる。このような人は最初の言葉の音さえ出すことができると、その後は発声できることがあるので、最初に出す音を補助できれば、このような人の発声を支援できるようになると共に、発声するように口周辺を動かすことを繰り返せば、スムーズに発声するトレーニングにもなるが、上述した特許文献１−６で開示される内容では、最初の言葉の音が出にくい人を適切に補助できないという問題もある。

本発明は、斯かる事情に鑑みてなされたものであり、ユーザの口を含む箇所を撮影して、記憶された口の形状等との比較により一音単位で音の識別を行うにあたり、ユーザが子音の種類を指定できるようにして、複雑な処理を用いることなく、様々な音を出力できるようにした音出力装置、音出力方法、及びコンピュータプログラムを提供することを目的とする。
また、本発明は、一音単位で音を識別して出力するにあたり、音の出力タイミング、出力する時間の長さ、出力する音の音量、音の種類等をユーザが適宜、調整できるようにした音出力装置、音出力方法、及びコンピュータプログラムを提供することを目的とする。

上記課題を解決するために本発明は、撮影手段及び音出力手段を有する音出力装置において、母音に応じた口の形を示す母音口形データを記憶する記憶部と、前記撮影手段で撮影したユーザの口の撮影内容を前記記憶部に記憶する母音口形データと比較して、撮影内容に応じた母音を特定する母音特定手段と、子音の種類の指定を受け付ける子音種類指定手段と、前記子音種類指定手段が指定を受け付けた子音の種類、及び前記母音特定手段が特定した母音に基づき、出力する子音を特定する子音特定手段とを備え、前記子音特定手段が特定した子音を前記音出力手段から出力することを特徴とする。

また、本発明は、ユーザの口から発せられる気体に係る値の測定を行う測定手段と、前記測定手段が測定した測定値を、予め記憶した閾値と比較する比較手段とを備え、前記比較手段の比較により、測定値が前記閾値を上回る場合、前記音出力手段から音を出力することを特徴とする。
さらに、本発明は、前記比較手段の比較により、測定値が前記閾値を上回る間、前記音出力手段からの音の出力を継続することを特徴とする。
さらにまた、本発明は、前記測定手段が測定した測定値に応じて、前記音出力手段の出力に係る音量を特定する音量特定手段を備え、前記音出力手段は、前記音量特定手段が特定した音量で音を出力することを特徴とする。

また、本発明は、出力する音の種類の選択を受け付ける音種選択手段を備え、前記音出力手段は、前記音種選択手段が受け付けた音の種類で音を出力することを特徴とする。
さらに、本発明は、撮影内容の登録指示を受け付ける登録手段と、前記音出力手段から音の出力を行った場合に、前記登録手段が登録指示を受け付けたとき、前記音出力手段からの出力音に応じた前記撮影手段による撮影内容を、前記出力音に係る母音の母音口形データとして前記記憶部に記憶する処理を行う手段とを備えることを特徴とする。

さらにまた、本発明は、撮影手段と、音出力手段と、母音に応じた口の形を示す母音口形データを記憶する記憶部とを有する音出力装置が、前記音出力手段から音を出力する音出力方法において、前記音出力装置は、前記撮影手段で撮影したユーザの口の撮影内容を前記記憶部に記憶する母音口形データと比較して、撮影内容に応じた母音を特定するステップと、子音の種類の指定を受け付けるステップと、前記子音種類指定手段が指定を受け付けた子音の種類、及び前記母音特定手段が特定した母音に基づき、出力する子音を特定するステップと、特定した子音を前記音出力手段から出力するステップとを実行することを特徴とする。

そしてまた、撮影手段と、音出力手段と、母音に応じた口の形を示す母音口形データを記憶する記憶部とを有するコンピュータに、前記音出力手段から音を出力する処理を実行させるためのコンピュータプログラムにおいて、前記コンピュータに、前記撮影手段で撮影したユーザの口の撮影内容を前記記憶部に記憶する母音口形データと比較して、撮影内容に応じた母音を特定するステップと、子音の種類の指定を受け付けるステップと、前記子音種類指定手段が指定を受け付けた子音の種類、及び前記母音特定手段が特定した母音に基づき、出力する子音を特定するステップと、特定した子音を前記音出力手段から出力するステップとを実行させることを特徴とする。

本発明にあっては、ユーザによる子音の種類の指定を受け付けるようにしているので、撮影手段の撮影により特定した母音と、指定を受け付けた子音の種類により、ユーザが発声したい子音を一音単位で特定して出力できるようになる。また、本発明では、一音単位で音を特定して出力するので、最初の言葉の音が出にくい人に対して適切な補助を行えるようになると共に、発声するためのトレーニングとしても利用できる。そして、上記のような子音の特定及び出力に係る処理を連続的に行えば、単語又は言葉等を記憶させなくても、ユーザが所望する単語又は言葉等の音も出力可能となる。

本発明にあっては、ユーザの口から発せられる気体に係る値の測定値が閾値を上回る場合に、音出力手段から音が出力されることから、ユーザの口から発せられる気体の状況に応じて、音の出力時期（出力タイミング）をユーザがコントロールできるようになる。なお、ユーザの口から発せられる気体に係る値とは、例えば、ユーザが口から吐く息（空気）の圧の値又は流量の値などが該当する（以下、同様）。

本発明にあっては、ユーザの口から発せられる気体に係る値の測定値が閾値を上回る間、音出力手段からの音の出力を継続するので、ユーザの口から発せられる気体の状況に応じて、音の出力長さをユーザがコントロールできるようになる。それにより、長音も容易に出力可能にして、多彩な表現を実現し得る。

本発明にあっては、ユーザの口から発せられる気体に係る値の測定値に応じて、音出力手段から出力される音の大きさが特定されるので、音の大きさもユーザがコントロールできるようになり、出力する音量を変化させる等して、ユーザの所望の表現を行いやすくなる。

本発明にあっては、出力する音の種類を受け付けて、その種類の音を音出力手段から出力するので、ユーザの好みに応じた音色で音の出力を行えるようになる。なお、音の種類としては、男性的な音声、女性的な音声、無機的な音声、電子音的な音声などがあり、音声合成処理などにより音の周波数等を適宜、変更することで様々な種類の音の出力が可能となる。

本発明にあっては、登録指示を受け付けた場合、出力音に係る撮像内容を、その出力音に係る母音の母音口形データとして記憶部に記憶するようにしたので、記憶部の各母音に応じた母音口形データを適宜、更新できるようになる。すなわち、記憶部に記憶される各母音の母音口形データは一般的なものになっているが、各母音を発するときのユーザの口の形は、ユーザごとに微妙に異なるため、ユーザの撮像内容を母音口形データとして記憶することで、ユーザの口の形にマッチした母音の特定が可能となり、母音特定の精度が向上して良好な使い勝手を実現できるようになる。

本発明では、ユーザの口の形に基づく母音と、ユーザが指定した子音の種類とを組み合わせることで、従来、ユーザの口などを撮影して音を出力する場合に困難であった子音の出力を、精度良く行うことができると共に、音を出力するのに口を実際に動かすので、発声及び発語の不自由なユーザのとっては疑似的に話をしているように感じられ、発声及び発語のトレーニングに役立てられる。
また、本発明では、ユーザの口から発せられる気体（息）の状況に応じて、音の出力時期（出力タイミング）をユーザがコントロールできる。

さらに、本発明では、ユーザの口から発せられる気体に係る値の測定値が閾値を上回る間、音出力手段からの音の出力を継続するので、ユーザの口から発せられる気体の状況に応じて、音の出力長さをユーザがコントロールできるようになる。それにより、長音も容易に出力可能にして、多彩な表現を実現し得る。
さらにまた、本発明では、ユーザの口から発せられる気体（息）の程度によって、ユーザは、音出力手段から出力される音の大きさをコントロールできる。

本発明では、ユーザから出力する音の種類を受け付けるので、ユーザの好みに応じた音色で音の出力を行える。
また、本発明では、出力音に係る撮像内容を、その出力音に係る母音の母音口形データとして記憶部に記憶するようにしたので、記憶部の各母音に応じた母音口形データを適宜、更新でき、ユーザごとにマッチした母音の特定処理を実現できる。

本発明の実施形態に係る音出力装置のユーザによる使用状況の一例を示す概略斜視図である。ホーム画面を表示した状態の音出力装置の正面図である。音出力装置のディスプレイパネルに表示された音出力アプリ画面を示す概略図である。音出力装置のディスプレイパネルに表示された音種類設定画面を示す概略図である。音出力装置の主要な内部構成を示すブロック図である。口形テーブルの中身の概要を示す図表である。音出力装置による音出力方法の一連の処理手順を示すフローチャートの一部である。音出力装置による音出力方法の一連の処理手順を示すフローチャートの他部である。

図１は、本発明に係る実施形態の一例である音出力装置１をユーザが使用している状況を示す。本実施形態の音出力装置１はスマートフォンを利用したものになっており、そのスマートフォンに、本発明に応じたアプリケーションソフトをインストールすると共に、音出力の処理に用いる圧力センサー３０を装着した構成になっている。音出力装置１を利用するユーザは、出力したい音を発する口の形にして、音出力装置１に向けて息を発すると共に、音出力装置１に対して所要の操作を行うことで、ユーザの所望した音（母音又は子音）を一音単位で適宜、音出力装置１から出力できる。それにより、発声及び発語が不自由な人を支援できるようにしている。以下、本発明について詳しく説明していく。

図２は、音出力装置１の正面図を示す。音出力装置１は、薄板状の筐体２の前面２ａにディスプレイパネル５を配置しており、筐体２の前面２ａの上部２ｂに、ユーザの口の形の撮影に利用するカメラモジュール３（撮影手段に相当）を配置すると共に、下部２ｃに音の入力を行うマイク４ａ及び音の出力を行うスピーカー４ｂ（音出力手段に相当）を配置している。また、音出力装置１は、筐体２の上部２ｂに、圧力センサー３０を装着しており、筐体２の前面２ａに対する流体による圧力を測定できるようにしている。

図２では、ディスプレイパネル５にホーム画面６が表示された状態を示しており、このホーム画面６では、スマートフォンに相当する音出力装置１にインストールされた各種アプリ（アプリケーションソフトウェア）を起動するためのアイコン７が複数、選択可能に配置されており、これら複数のアイコン７の中に、本発明に係る音出力アプリ用アイコン７ａも含まれる。なお、図２では示していないが、筐体２の背面にはメインカメラ用のカメラモジュールを配置している。

図３は、図２に示す音出力アプリ用アイコン７ａが選択（タップ）された場合に、ディスプレイパネル５に表示される音出力アプリ画面１０を示す。図２に示す音出力アプリ用アイコン７ａが選択されると、音出力装置１に予めインストールされた音出力アプリが起動し、それにより、音出力アプリ画面１０がディスプレイパネル５に表示されることになる。

音出力アプリ画面１０は、出力する音として、子音、促音（ッ）及び拗音（ャ、ュ、ョ、ヮ）等の詰まった音、濁音（ガ、ザ、ダ、バ）、並びに半濁音（パ、ピ、プ、ペ、ポ等の破裂音）等の各種類を指定するための各種音指定キー１１、１２、１３、１４を選択操作の受付可能に配置すると共に、登録キー１５ａ及び音声設定キー１５ｂも選択可能に配置する。

各種音指定キー１１〜１４の中で、子音の種類を指定するための子音種類特定キー１１は、カ行に応じた子音指定用のＫキー１１ａ、サ行に応じた子音指定用のＳキー１１ｂ、タ行に応じた子音指定用のＴキー１１ｃ、ナ行に応じた子音指定用のＮキー１１ｄ、ハ行に応じた子音指定用のＨキー１１ｅ、マ行に応じた子音指定用のＭキー１１ｆ、ヤ行に応じた子音指定用のＹキー１１ｇ、ラ行に応じた子音指定用のＲキー１１ｈ、及びワ行に応じた子音指定用のＷキー１１ｉを含む。

ユーザは、カ行に応じた子音を出力したい場合、カ行のいずれかの音（カ〜コ）を発するときの口の形（母音のいずれかの音（ア〜オ）を発するときと同様の形。以下同様）で息を発して、Ｋキー１１ａを選択（タップ）することなる。以下、サ行に応じた子音を出力したい場合は、サ行のいずれかの音（サ〜ソ）を発するときの口の形で息を発してＳキー１１ｂを選択し、タ行に応じた子音を出力したい場合は、タ行のいずれかの音（タ〜ト）を発するときの口の形で息を発してＴキー１１ｃを選択し、ナ行に応じた子音を出力したい場合は、ナ行のいずれかの音（ナ〜ノ）を発するときの口の形で息を発してＮキー１１ｄを選択し、ハ行に応じた子音を出力したい場合は、ハ行のいずれかの音（ハ〜ホ）を発するときの口の形で息を発してＨキー１１ｅを選択する。

そして、マ行に応じた子音を出力したい場合は、マ行のいずれかの音（マ〜モ）を発するときの口の形で息を発してＭキー１１ｆを選択し、ヤ行に応じた子音を出力したい場合は、ヤ行のいずれかの音（ヤ〜ヨ）を発するときの口の形で息を発してＹキー１１ｇを選択し、ラ行に応じた子音を出力したい場合は、ラ行のいずれかの音（ラ〜ロ）を発するときの口の形で息を発してＲキー１１ｈを選択し、ワ行に応じた子音を出力したい場合は、ワ行のいずれかの音（ワ〜ヲ）を発するときの口の形で息を発してＷキー１１ｉを選択することになる（Ｋ〜Ｗキー１１ａ〜１１ｉは子音種類指定手段に相当）。

なお、上記の説明において、Ｎキー１１ｄは、ナ行に応じた子音を出力したい場合に選択するとしたが、例外的な使い方として「ン」の音を出力する場合にも選択される。「ン」の音を出力する場合、ユーザは、口を噤んだような形で（息を出すために少しだけ口を開けた形）、息を吐いて、Ｎキー１１ｄを選択することを行う。

各種音指定キー１１〜１４の中で、Ｘキー１２は、促音（ッ）及び拗音（ャ、ュ、ョ、ヮ）等の詰まった音を特定するためのものであり、上述したＫ〜Ｗキー１１ａ〜１１ｉと併用して、ユーザが所望するキーを指定することになる。例えば、「ッ（小さいツ）」の発声をユーザが希望する場合、ユーザは「ツ」を発するときの口の形（母音の「ウ」を発するときと同様の形）で口から息を発すると共に、Ｘキー１２及びＴキー１１ｃのタップ操作を行うことになる。また、「ャ（小さいヤ）」の発声をユーザが希望する場合、ユーザは「ヤ」を発するときの口の形（母音の「ア」を発するときと同様の形）で口から息を発すると共に、Ｘキー１２及びＹキー１１ｇのタップ操作を行うことになる。

各種音指定キー１１〜１４の中で、濁音の種類を特定するための濁音種類指定キー１３は、ガ行に応じた濁音指定用のＧキー１３ａ、ザ行に応じた濁音指定用のＺキー１３ｂ、ダ行に応じた濁音指定用のＤキー１３ｃ、及びバ行に応じた濁音指定用のＢキー１３ｄを含む。

ユーザは、ガ行に応じた濁音を出力したい場合、ガ行のいずれかの音（ガ〜ゴ）を発するときの口の形で息を発してＧキー１３ａを選択（タップ）することなる。以下、ザ行に応じた濁音を出力したい場合は、ザ行のいずれかの音（ザ〜ゾ）を発するときの口の形（母音の「ア」〜「オ」を発するときと同様の形）で息を発してＺキー１３ｂを選択し、ダ行に応じた濁音を出力したい場合は、ダ行のいずれかの音（ダ〜ド）を発するときの口の形（母音の「ア」〜「オ」を発するときと同様の形）で息を発してＤキー１３ｃを選択し、バ行に応じた濁音を出力したい場合は、バ行のいずれかの音（バ〜ボ）を発するときの口の形（母音の「ア」〜「オ」を発するときと同様の形）で息を発してＢキー１３ｄを選択することになる（Ｇ〜Ｂキー１３ａ〜１３ｄは濁音種類指定手段に相当）。

各種音指定キー１１〜１４の中で、Ｐキー１４は、半濁音（パ、ピ、プ、ペ、ポ等の破裂音）を特定するためのものである（Ｐキー１４は半濁音種類指定手段に相当）。例えば、「パ」の発声をユーザが希望する場合、ユーザは「パ」の口の形（母音の「ア」を発するときと同様の形）で口から息を発してＰキー１４のタップ操作を行うことになる。同様に、「ピ」、「プ」、「ペ」、又は「ポ」のいずれかの発声をユーザが希望する場合は、「ピ」、「プ」、「ペ」、又は「ポ」のいずれかの口の形（母音の「イ」〜「オ」のいずれかを発するときと同様の形）で口から息を発してＰキー１４を選択することになる。

また、登録キー１５ａは、カメラモジュール３で撮影した内容の登録（保存）の指示を受け付けるキーである（登録手段に相当）。具体的には、上述したように、ユーザが所望の音に応じた口の形状で息を発して、各種音指定キー１１〜１４のいずれかを選択することで出力された音が、ユーザの所望する音に合致していた場合で、そのときの口の形の登録をユーザが希望するときに、登録キー１５ａの選択操作が行われると、カメラモジュール３で撮影された撮影データが登録されることになる。このように登録される撮影データは、今後の処理に利用されることで、後述するように、母音特定の精度向上を図れる。

さらに、音声設定キー１５ｂは、出力する音の音色（音の種類）を設定するときに選択されるキーである。この音声設定キー１５ｂの選択が行われると、ディスプレイパネル５の表示が切り替わり、図４に示す音種設定画面１６が表示される。

図４の音種設定画面１６は、デフォルト音声ボタン１６ａ、第１男性音声ボタン１６ｂ、第２男性音声ボタン１６ｃ、第１女性音声ボタン１６ｄ、第２女性音声ボタン１６ｅ、及びオプション音声ボタン１６ｆを選択操作の受付可能に含むと共に（各音声ボタン１６ａ〜１６ｆは、音種選択手段に相当）、録音ボタン１７ａ及び戻るボタン１７ｂを選択可能に含む画面になっている。デフォルト音声ボタン１６ａは、デフォルトで選択されているボタンであり、このボタンの選択中は、スピーカー４ｂから出力する音は電子合成音の音色になる。

第１男性音声ボタン１６ｂは、スピーカー４ｂから出力する音の種類として、若年層（青年層）に応じた男性の音色（元気のあるイメージの音色）を希望するときに選択されるボタンになる。第２男性音声ボタン１６ｂは、スピーカー４ｂから出力する音の種類として、壮年層（落ち着いたイメージの音色）に応じた男性の音色を希望するときに選択されるボタンになる。第１女性音声ボタン１６ｄは、スピーカー４ｂから出力する音の種類として、若年層に応じた女性の音色（元気のあるイメージの音色）を希望するときに選択されるボタンになる。第２女性音声ボタン１６ｅは、スピーカー４ｂから出力する音の種類として、壮年層（落ち着いたイメージの音色）に応じた女性の音色を希望するときに選択されるボタンになる。

また、オプション音声ボタン１６ｆは、出力する音の種類として、録音で取得した人の音色に応じた音声を出力する場合に選択されるボタンである。例えば、音出力装置１のユーザが発声できる場合、ユーザは自分の音声を予め録音しておけば、その録音した音を音出力装置１から出力でき、また、ユーザが希望する人の音声を予め録音できれば、その人の音色の音で音出力装置１からの出力を行える。

録音ボタン１７ａは、音声を録音するときに選択されるボタンであり、上述したユーザ音色ボタン１６ｆの選択で、出力する音の種類としてユーザの希望する音色に応じた音声を用いるために、録音を行うことになる。また、戻るボタン１７ｂは、ディスプレイパネル５の表示を、上述した図３の音出力アプリ画面１０に切り替えるためのボタンである。なお、図３に示す音出力アプリ画面１０は、各キー１１〜１５を配置する背景部分１０ａもタップ操作（選択操作）の受付が可能になっており、例えば、ユーザが「ア」、「イ」、「ウ」、「エ」、「オ」の母音の出力を希望する場合、音出力アプリ画面１０の背景部分１０ａもタッチ（又はタップ）操作を行うことで、音特定処理が開始され、カメラモジュール３での撮影等が行われる。

図５は、音出力装置１の主要な内部構成を示している。本実施形態の音出力装置１には上述したように、スマートフォン（一種のコンピュータに相当）を用いており、ＣＰＵ２０（制御部）に、通信・通話モジュール２１、各種インタフェース２２等、及び記憶部２８を内部接続線１ａで接続した構成になっている。

ＣＰＵ２０は、装置における各種制御を行うものであり、記憶部２８に記憶されるプログラムの規定内容に従い、各種手段として様々な処理を行う。通信・通話モジュール２１は、無線により広域ネットワークと接続され、外部のサーバ及びコンピュータ等に対してデータ通信を行うと共に、通話音の送受等の処理を行う。

ディスプレイインタフェース２２は、上述した各種画面の表示を行うと共にタッチパネル機能を具備したディスプレイパネル５に対する接続インタフェースである。このディスプレイインタフェース２２は、ＣＰＵ２０の制御に基づき、画面データをディスプレイパネル５へ出力する処理を行い、それにより出力した画面データに応じた画面内容をディスプレイパネル５に表示させる（図２、３参照）。また、ディスプレイインタフェース２２は、ディスプレイパネル５にユーザ操作の可能な画面内容が表示されている場合で、ユーザ操作（タップ、スワイプ、フリック、ドラッグ、ピンチイン等）をディスプレイパネル５で受け付けると、その受け付けた操作内容（ボタンのタップがあったこと等）をＣＰＵ２０へ伝える処理等を行う。

カメラインタフェース２３は、筐体２の前面２ａに設けられたカメラモジュール３と接続されるものである。ＣＣＤ又はＣＭＯＳ等の撮像素子及びカメラレンズ等を有するカメラモジュール３で撮影されたデータを、カメラインタフェース２３は受け取って撮影データを生成し、その生成したデータを保存する場合、記憶部２８へ送る処理等を行う。なお、カメラモジュール３は、筐体２の前面２ａ側に設置されたサブカメラに該当し、筐体２の背面側にはメインカメラに応じたカメラモジュールも存在するが、図５では、このメインカメラのカメラモジュールの図示は省略している。

音入力インタフェース２４は、筐体２の下部２ｃに設けられたマイク４ａと接続されるものである。マイク４ａで取得された音に対してＡ（アナログ）／Ｄ（デジタル）変換処理等を行って、音ファイル（音データ）を生成する処理等を行う。

音出力インタフェース２５は、筐体２の下部２ｃに設けられたスピーカー４ｂと接続されるものであり、Ｄ／Ａ変換処理及び増幅処理等を行うことで、特定した種類の音をスピーカー４ｂから出力するための処理等を行う。

無線接続モジュール２６は、所定の無線通信規格に応じた無線通信により外部機器との接続を行うインタフェースであり、本実施形態では、ブルートゥース（登録商標）の規格に基づいたものになっており、それにより、筐体２の上部２ｂに装着された圧力センサー３０（圧力センサー３０もブルートゥース（登録商標）対応の機種になっている）とペアリングを行って無線接続を行う。なお、圧力センサー３０は、前面に圧検知部３０ａを有しており（図２参照）、圧検知部３０ａに対して流れてくる気体の圧力を測定する。本実施形態において、圧力センサー３０は、ユーザの口から発せられる気体に係る値の測定を行う測定手段として、息の圧の測定を随時行い、測定結果（測定値）を無線通信で無線通信モジュール２６へ送信する。

そのため、無線接続モジュール２６は、圧力センサー３０から継続的に送られてくる測定値を受信して、ＣＰＵ２０ａへ伝える処理を行う。なお、無線通信モジュール２６の無線通信規格は、ブルートゥース（登録商標）に限定されるものはなく、他の各種無線通信を適用してもよい（ＩＥＥＥ系の無線通信規格、無線ＵＳＢ等）。

外部接続インタフェース２７は、外部機器との有線接続用のインタフェースであり、本実施形態ではＵＳＢ（Universal Serial Bus）系の規格に応じたものを用いている。また、本発明で用いる圧力センサーがＵＳＢ接続タイプのものであれば、この外部接続インタフェース２７に圧力センサーを接続することになる（この場合、上述した無線接続モジュール２６での圧力センサー３０の無線接続は不要になる）。なお、外部接続インタフェース２７の接続規格はＵＳＢに限定されるものではなく、他の接続規格も適用可能である。

記憶部２８は、各種プログラム、テーブル、各種データ（例えば、閾値等の数値データ）等を記憶するものである。本実施形態の記憶部２８は、ＯＳプログラム４０、音出力プログラム４１、口形テーブル４２、音声テーブル４３、及び出力閾値４４等を記憶する。記憶部２８が記憶するＯＳプログラム４０は、音出力装置１を構成する一種のコンピュータであるスマートフォンとしての機能させるためのＣＰＵ２０の処理を規定したオペレーティングシステムプログラムであり、このＯＳプログラム４０の規定する処理により、例えば、図２に示すホーム画面６がディスプレイパネル５に表示されるようになる。また、ＯＳプログラム４０は、アプリケーションソフトの起動及び終了等に係る処理も規定しており、ホーム画面６の各アイコンが選択されると、その選択されたアイコンのアプリケーションソフトを起動させると共に、ディスプレイパネル５に対して所要の操作を行うことで、起動しているアプリケーションソフトを終了させる処理も規定する。

記憶部２８が記憶する音出力プログラム４１は、本発明に係る処理内容（ＣＰＵ２０が行う各種処理内容）を規定したアプリケーションソフト（一種のコンピュータプログラムに相当）であり、通信を介したダウンロード又は外部接続インタフェース２７に記憶媒体（このアプリケーションソフトを記憶した記憶媒体）を接続するなどして、記憶部２８にインストールされる。音出力プログラム４１は、インストールされると、図２に示すホーム画面６の中に、音出力プログラム４１に応じた音出力アプリ用アイコン７ａが選択可能に配置される。

音出力アプリ用アイコン７ａが選択されると、音出力プログラム４１が起動して、ＣＰ２０の制御により、ディスプレイパネル５の表示を音出力アプリ画面１０の表示に切り替える。そして、音出力プログラム４１は、表示した音出力アプリ画面１０に対するユーザ操作に応じてＣＰＵ２０が行うべき処理を規定しており、ＣＰＵ２０ａの処理内容によって、ユーザの所望した音がスピーカー４ｂから出力される。また、音出力プログラム４１は、設定内容及び音の登録内容等に関してＣＰＵ２０が行う処理も規定している。音出力プログラム４１が規定する一連の処理内容等は、図７、８に示すフローチャートに基づいて後述するので、先に口形テーブル４２等について説明する。

図６は、口形テーブル４２の中身の概要を示す。口形テーブル４２は、母音の「ア」、「イ」、「ウ」、「エ」、「オ」ごとに、それらの各母音に応じた口の形を示す母音口形データＤ１〜Ｄ５（標準形の母音口形データ）を格納したものになっている。これら標準形の母音口形データＤ１〜Ｄ５は、各母音（ア〜オ）の音声を発する際に最も標準となるような口の形を示す画像データであり（例えば、ＪＰＥＧ形式の画像データ）、口（唇）の開け具合、口（唇）の開けた形状、口の中の状況（歯の見え具合、舌の見え具合など）、及び唇の周囲の状況などを示すものになっている。

なお、口形テーブル４２は、上述した標準形の母音口形データＤ１〜Ｄ５をデフォルトで記憶するが、上述した図３の音出力アプリ画面１０における登録キー１５ａを操作することで、ユーザの各母音に応じた口の形を撮影して、その撮影した画像データを、その母音に対応づけて口形テーブル４２に母音口形データとして記憶できる。このように新たに記憶された画像データ（ユーザの口の形を撮影した母音口形データ）も、後述する母音特定の処理の際に利用可能となる。

記憶部２８に記憶される音声テーブル４３は、出力する音のデータを格納したものであり、図４の音種設定画面１６に示すデフォルト音声ボタン１６ａ、第１男性音声ボタン１６ｂ、第２男性音声ボタン１６ｃ、第１女性音声ボタン１６ｄ、第２女性音声ボタン１６ｅに応じた各種音声データを記憶する。すなわち、デフォルト音声ボタン１６に応じた電子音声の音声データ、第１男性音声ボタン１６に応じた若年層の男性音色の音声データ、第２男性音声ボタン１６ｂに応じた壮年層の男性音色の音声データ、第１女性音声ボタン１６ｄに応じた若年層の女性音色の音声データ、及び第２女性音声ボタン１６ｅに応じた壮年層の女性音色の音声データを音声テーブル４３は記憶する。これらの各音声データは、それぞれの音色に応じた周波数に基づく合成音声になっており、五十音に応じた母音、子音、促音、拗音、濁音、及び半濁音等の各種類の音用のデータを含む。

また、音声テーブル４３は、上述した各音声データに加えて、ユーザ自身又はユーザの希望する人等の音声に応じた音声データもオプション音声として格納できるようになっている。このようなオプションの音声データの格納は、上述した図４の音種設定画面１６に含まれる録音ボタン１７ａの操作により、マイク４ａを介して音声データが取得されると、オプションの音声データとして、ＣＰＵ２０の制御により音声テーブル４３に記憶されることで行われる。

また、記憶部２８に記憶される出力閾値４４は、音出力装置１から音を出力するタイミング及び音を出力する長さを決定するのに用いられる数値になっており、本実施形態では、圧力センサー３０で検知するユーザの口から発せられる息の圧に対する数値が設定される。なお、出力閾値４４の数値は、図示しない設定メニューにより複数段階で調整可能となっており（例えば、１０段階）、この場合、例えば、息の圧が弱めのユーザは、１〜３段階のいずれかの数値に設定すると使い勝手が良くなり、息の圧が一般的なユーザは、４〜６段階のいずれかに数値の設定することが好ましく、息の圧が強めのユーザは、７〜１０段階のいずれかの数値に設定することが好適である。

次に、記憶部２８に記憶される音出力プログラム４１について説明する。音出力プログラム４１は、撮影処理、撮影結果に応じた母音種類特定処理、キー操作に基づく出力音の特定処理、特定した音の出力処理、撮影結果の登録処理、及びオプション音声の登録処理等を規定する。

図７、８に示すフローチャートは、音出力装置１による音の出力に関する一連の処理内容を示したものであり（音出力方法の処理内容に相当）、このフローチャートに示す各種処理が、記憶部２８に記憶される音出力プログラム４１の規定に基づいたＣＰＵ２０の処理により行われる（音出力プログラム４１の規定によりＣＰＵ２０は、母音特定手段、子音特定手段等の各種手段として機能する）。

なお、図７のフローチャートは、図２のホーム画面６でアイコン７が選択されることで、図３のディスプレイパネル５に図３に示す音出力アプリ画面１０が表示された状態からの処理を示している。また、音出力アプリ画面１０に基づく音出力を行うにあたり、出力する音の種類は、デフォルト音（図４のデフォルト音声ボタン１６ａに応じた音声）になっていると共に、ユーザは図１に示すように、ディスプレイパネル５をユーザに向けた状態で音出力装置１を把持した状態で、各種操作等を行いながら、所望する音に応じた口の形にして適宜、息をはく動作を行うことになる。

まず、図７のフローチャートにおいて、音出力装置１（ＣＰＵ２０）は、音出力アプリ画面１０の各キー１１〜１４又は背景部分１０ａで、ユーザによるタップ操作（選択操作）を受け付けたか否かを判断する（Ｓ１）。タップ操作を受け付けていない場合（Ｓ１：ＮＯ）、タップ操作待ちの状態となり、また、タップ操作を受け付けた場合（Ｓ１：ＹＥＳ）、音出力装置１（ＣＰＵ２０）は、カメラモジュール３により撮影を行う（Ｓ２）。なお、ユーザは、上記のタップ操作の際、出力した音に応じた口の形にしている。

そして、音出力装置１（ＣＰＵ２０）は、カメラモジュール３で撮影した撮影データの内容（ユーザの口の形等を示す撮影内容）と、口形テーブル４２に格納される各母音口形データＤ１〜Ｄ５とを比較して、撮影内容に一致する母音口形データが有るか否かを判断する（Ｓ３）。なお、このＳ３の段階（ステップ）の比較判断は、撮影データが示すユーザの口の形、及び、口中の状況の形状（歯の見え方の形状、舌の見え方の形状など）と、各母音口形データＤ１〜Ｄ５が示す口の形、及び、口中の状況の形状（歯の見え方の形状、舌の見え方の形状など）とをパターンマッチング処理等を行って、両者の形を比較することで、一致度を判断する。また、Ｓ３の段階（ステップ）における一致度の判断の程度は、１００％の一致度が要求されるものではなく、約７０〜８０％以上の一致度が確保されれば、両者は一致すると判断される。

一致する母音口形データが無い場合（Ｓ３：ＮＯ）、音出力装置１（ＣＰＵ２０）は、Ｓ１の段階（ステップ）でタップ操作を受け付けたのが、Ｎキー１１ｄであるか否かを判断する（Ｓ１３）。タップ操作を受け付けたのが、Ｎキー１１ｄで無い場合（Ｓ１３：ＮＯ）、出力する音が特定できないので、Ｓ１の最初の段階（ステップ）に処理を戻す。なお、このように出力する音を特定できなかった場合、「音が特定できませんでした。もう一度、操作等を行って下さい。」というようなユーザへの注意表示を、ディスプレイパネル５に表示するようにしてもよい。

また、Ｓ１の段階（ステップ）でタップ操作を受け付けたのが、Ｎキー１１ｄである場合（Ｓ１３：ＹＥＳ）、音出力装置１（ＣＰＵ２０）は、出力する音として、「ン」を特定し（Ｓ１４）、Ｓ７の段階（ステップ）へ処理を進める。

一方、上述したＳ３の段階（ステップ）において、撮影内容に一致する母音口形データが有る場合（Ｓ３：ＹＥＳ）、音出力装置１（ＣＰＵ２０）は、口形テーブル４２の中で、撮影内容に一致した母音口形データに対応付けられる「ア」〜「オ」のいずれかの母音（撮影内容に応じた母音に相当）を特定する（Ｓ４）。それから、Ｓ１の段階でタップ操作として、音出力アプリ画面１０に含まれる各種音指定キー１１〜１４の中のいずれかのキー操作を受け付けたか否かを、音出力装置１（ＣＰＵ２０）は判断する（Ｓ５）。各種音指定キー１１〜１４の中のいずれかのキー操作を受け付けた場合（Ｓ５：ＹＥＳ）、音出力装置１（ＣＰＵ２０）は、キー操作を受け付けた音指定キーと、Ｓ４の段階で特定した母音に基づき、出力する音（母音を除く子音等）を特定する（Ｓ６）。

例えば、キー操作を受け付けたのがＫキー１１ａであり、特定した母音が「ア」であれば、出力する音として、「カ」という子音を、Ｓ６の段階で音出力装置１（ＣＰＵ２０）は子音特定手段として特定する。また、キー操作を受け付けたのがＳキー１１ｂであり、特定した母音が「イ」であれば、出力する音として、「シ」という子音を、Ｓ６の段階で音出力装置１（ＣＰＵ２０）は特定する。さらに、キー操作を受け付けたのがＴキー１１ｃであり、特定した母音が「ウ」であれば、出力する音として、「ツ」という子音を、Ｓ６の段階で音出力装置１（ＣＰＵ２０）は特定する。さらにまた、キー操作を受け付けたのがＮキー１１ｄであり、特定した母音が「エ」であれば、出力する音として、「ネ」という子音を、Ｓ６の段階で音出力装置１（ＣＰＵ２０）は特定する。そしてまた、キー操作を受け付けたのがＨキー１１ａであり、特定した母音が「オ」であれば、出力する音として、「ホ」という子音を、Ｓ６の段階で音出力装置１（ＣＰＵ２０）は特定する。

また、キー操作を受け付けたのがＭキー１１ｆであり、特定した母音が「オ」であれば、出力する音として、「モ」という子音を、Ｓ６の段階で音出力装置１（ＣＰＵ２０）は特定する。さらに、キー操作を受け付けたのがＹキー１１ｇであり、特定した母音が「ウ」であれば、出力する音として、「ユ」という子音を、Ｓ６の段階で音出力装置１（ＣＰＵ２０）は特定する。さらにまた、キー操作を受け付けたのがＲキー１１ｈであり、特定した母音が「エ」であれば、出力する音として、「レ」という子音を、Ｓ６の段階で音出力装置１（ＣＰＵ２０）は特定する。そしてまた、キー操作を受け付けたのがＷキー１１ｉであり、特定した母音が「ア」であれば、出力する音として、「ワ」という子音を、Ｓ６の段階で音出力装置１（ＣＰＵ２０）は特定する。

なお、ユーザのキー操作は、図１に示すように、ディスプレイパネル５に表示される各キー１１、１２、１３、１４を見ながら操作する以外に、キー操作に対するユーザの習熟度が高まれば、ディスプレイパネル５の各キー１１、１２、１３、１４を見ずに、ブラインドタッチでキー操作を行うことも可能となる。このようにブラインドタッチでキー操作を行える場合は、ユーザは、相手の人の顔を見ながら、口を所望の形に変形してブラインとタッチでキー操作を行うことになるので、より実際の会話の状態に近い状況を実現できる（ブラインドタッチのキー操作を行うときは、音出力装置１を、図１に示す状態に比べて、ユーザの口の方へ近づけると、口の撮影が行いやすくなるので好適である）。

また、Ｓ５の段階で、各種音指定キー１１〜１４の中のいずれかのキー操作が無かった場合（Ｓ５：ＮＯ）、この場合は、各キー１１〜１５を配置する背景部分１０ａのタップ操作があったときに該当し、音出力装置１（ＣＰＵ２０）は、Ｓ４の段階で特定した母音を、出力する音として特定する（Ｓ１５）。

上述したＳ６、１４、又は１５の段階で、出力する音を特定した後、図８のフローチャートに示すように、音出力装置１（ＣＰＵ２０）は、圧力センサー３０で測定したユーザの息の圧の測定値を、記憶部２８に記憶される出力閾値４４と比較し、息の圧が出力閾値４４を上回ったか否かを判断する（Ｓ７）。息の圧が出力閾値４４を超過しない場合（Ｓ７：ＮＯ）、超過するのを待つ状態となり、息の圧が出力閾値４４を超過した（上回る）場合（Ｓ７：ＹＥＳ）、音出力装置１（ＣＰＵ２０）は、Ｓ６、１４、又は１５の段階で、特定した音をスピーカー４ｂから出力することを開始する（Ｓ８）。

特定した音を出力してからも、音出力装置１（ＣＰＵ２０）は、圧力センサー３０で測定したユーザの息の圧を、記憶部２８に記憶される出力閾値４４と比較し、息の圧が出力閾値４４を超過するか否かを判断する（Ｓ９）。息の圧が出力閾値４４を超過している場合（Ｓ９：ＹＥＳ）、Ｓ８の段階に戻り、スピーカー４ｂからの音の出力を継続する。また、息の圧が出力閾値４４の数値以下となった場合（Ｓ９：ＮＯ）、音出力装置１（ＣＰＵ２０）は、音の出力を停止する（Ｓ１０）。よって、ユーザは、口からはく息の出す勢いで、音を出力するタイミングを調整でき、また、所定の勢い以上の息を出す時間により、出力する音の伸ばし具合を調整できることになる（特定した音を、長音にするか否かをユーザが調整できる）。

それから、音出力装置１（ＣＰＵ２０）は、図３の音出力アプリ画面１０の登録キー１５ａの選択操作を受け付けたか否かを判断しており（Ｓ１１）、登録キー１５ａの選択操作を受け付けた場合（Ｓ１１：ＹＥＳ）、Ｓ２の段階で撮影した撮影内容を示す撮影データを、Ｓ４の段階で特定した母音に対応付けて（母音口形データとして）、口形テーブル４２に登録（格納）する処理を行う（Ｓ１６）。

登録キー１５ａの選択操作を受け付けなかった場合（Ｓ１１：ＮＯ）、又は、Ｓ１６の段階で、撮影データの登録（記憶）を行った場合、音出力装置１（ＣＰＵ２０）は、音出力プログラム４１の起動を終了する操作（終了操作）を受け付けたか否かを判断する（Ｓ１２）。終了操作を受け付けていない場合、最初のＳ１の段階へ処理を戻すので、終了操作を受け付けない限り、上述したＳ１の段階からの処理を繰り返す。それにより、ユーザは、一音単位で音を特定する処理を再び行うことが可能となり、このような処理を続けることで、所望の単語、及び文章等を構成する一連の各音を連続的に音出力装置１から出力し、結果として、所望の単語及び文章等も音で出力可能にしている。なお、終了操作を受け付けた場合（Ｓ１２：ＹＥＳ）、音出力装置１は、音出力プログラム４１の起動を終了し、図７、８に示すフローチャートの処理を一旦終了する。

記憶部２８に記憶される音出力プログラム４１は、上述した図７、８のフローチャートに示す処理内容を規定すると共に、音の種類の切替処理、及びオプション音声の録音登録処理も規定する。具体的に音の種類の切替処理として、図３の音出力アプリ画面１０で音声設定キー１５ｂの選択操作を、音出力装置１（ＣＰＵ２０）が受け付けると、ディスプレイパネル５の表示を図４の音種設定画面１６に切り替える。そして、音種設定画面１６に含まれる各音声ボタン１６ｂ等のいずれかの選択操作を受け付けると、音出力装置１（ＣＰＵ２０）は、選択操作を受け付けた音声ボタン１６ｂ等に応じた音の種類を、上述したフローチャートのＳ８の段階での出力音に用いることになる。

また、図４の音種設定画面１６をディスプレイパネル５に表示している場合で、録音ボタン１７ａの選択操作を、音出力装置１（ＣＰＵ２０）が受け付けると、その選択操作の際に、マイク４ａで取得した音をオプション音声データとして音声テーブル４３の中に記憶し、その周波数特性を分析して、各母音、子音等に応じた音データを音声合成により生成し、それらの生成した各音データも音声テーブル４３に、オプション音声データとして記憶する。このように取得した音声は、音種設定画面１６で、オプション音声ボタン１６ｆを選択することで、出力音に使用できるようになる。

なお、本発明に係る音出力装置は、上述した形態のものに限定されることはなく、種々の変形例が考えられる。例えば、上述した内容では、「ン」の音は、口形テーブル４２の中に一致する口形データが無くて、Ｎキー１１ｄの選択操作を受け付けた場合に、出力するようにしていたが、口形テーブル４２の中に、「ン」の口の形に応じた口形データを、「ン」に対応づけて記憶し、音出力アプリ画面１０の背景部分１０ａの選択操作を受け付けた場合で、撮影内容が「ン」に対応付けられた口形データに一致したときに、「ン」の音を出力する仕様にしてもよい。

また、上記の内容において、母音特定のための口の形の撮影は、静止画を一度、撮影するようにしていたが（例えば、図７のフローチャートのＳ２の段階を参照）、連写的に撮影を行って、複数枚の静止画に応じた複数の撮影データを取得し、これら複数の撮影データの各撮影内容を、口形テーブル４２に格納される各母音口形データと比較して、ユーザの出力したい音に応じた母音を特定するようにしてもよい。すなわち、一枚のみの撮影の場合は、撮影のタイミングによっては、ユーザの口の形が不完全なときに撮影される可能性も生じるが、上記のように、複数の撮影内容を取得すれば、複数のタイミングで撮影するので、いずれかのタイミングで撮影したユーザの口の形は、ユーザの意図した音に応じた形状になっている可能性が高くなり、それにより、母音特定の精度を向上できるメリットがある。

さらに、母音特定のための口の形の撮影は、所定時間に応じた動画撮影（例えば、２〜４秒程度の動画。動画を構成する単位時間あたりのフレーム数としては６０フレーム／秒、３０フレーム／秒、又は１５フレーム／秒などを適用可能）を用いるようにしてもよく、このように動画撮影を行う場合は、口形テーブル４２に格納される各母音口形データも動画データにして、ユーザの意図する音に応じた口の形へ変化する過程も、比較対象にすることで、より広範な比較を行って母音特定精度の向上を図れる。この場合、口の形の変化以外に、口の中の状況の変化（歯の見え方の変化、舌の見え方の変化など）、口の周囲の状況の変化（下あごの動き方など）も比較対象として用いることが好ましい。なお、動画同士の比較には、各種パターンマッチングの技術に加えて、モーションキャプチャ的な技術も利用して比較処理を行うことになる。

さらにまた、上述した内容において、口形テーブル４２に格納する母音口形データＤ１〜Ｄ５はデフォルトで一種類にしていたが、各母音に対して、様々な人の口形を示す口形データを複数種類、口形テーブル４２に予め記憶しておき、上述した図７、８に示すフローチャートの処理を繰り返すことで、撮影内容に一致する口形データの頻度等を機械学習により特定し、一致度の高い口形データを優先的に用いるようにすれば、母音特定の処理の効率化及び精度向上等に役立てられる。

また、母音特定の処理について所要の精度を確保するには、母音口形データによる口の形等は同じであるが、明度や彩度等の異なる複数種類のパターンを母音ごとに口形テーブル４２へ格納しておくことも好適となる。すなわち、カメラモジュール３で撮影を行う撮影状況としては、明るい場所、暗い場所など様々な状況が想定される。そのため、どのような撮影状況において、一定の母音特定精度を確保できるように、上述したように明度等を相違させたパターンの口形データを口形テーブル４２に記憶しておき、これらの各パターンと撮影内容を比較することが実践的に有用となる。なお、明度等が異なる複数パターンの口形データを口形テーブル４２に記憶するのが困難なときなどは、撮影データに応じた撮影内容を、口形テーブル４２に記憶される口形データの明度等に合うように変化させる画像処理等を行ってから、両者の比較処理を行うようにしてもよい。

さらにまた、母音特定処理の精度確保のためには、正面から口の形等を示す母音口形データに加えて、正面に対して斜めとなる方向から口の形等を示す母音口形データを母音ごとに口形テーブル４２に格納しておくことも有効である。すなわち、図１のようにして、ユーザの口を撮影する場合、口に対して斜め方向から撮影してしまうことも生じ得るので、このような場合の撮影結果に対しても所要の処理精度を確保するためには、斜め方向から口の形等を示す母音口形データも記憶しておき、立体的に両者の比較を行うことが、母音特定の処理精度を維持する上で重要となる。さらに、上述した明度等の異なる口形データ、及び斜め方向からの口形データなどのように多様な複数種類のパターンの口形データを口形テーブル４２に格納した場合は、上述した機械学習を行って、一致度の高い口形データを絞り込んで優先的に処理に用いることが好ましい。

一方、母音特定処理の処理負担を低減する場合は、上述した処理（静止画を用いた処理と、動画を用いた処理の両方を含む）では、口の形に加えて、口中の状況の形状（歯の見え方の形状、舌の見え方の形状など）も比較対象にしていたが、口中の状況の形状は比較対象から外して、口の形のみを比較対象にしてもよい。

また、スピーカー４ｂから出力する音の音量は、基本的に、音出力装置１を構成するスマートフォンが具備する音量調整機能（音量調整ボタンによる音量調整機能）を利用したものになるが、ユーザの発声支援、発声トレーニングを促すという観点より、ユーザが口から出す息の圧に応じて、スピーカー４ｂから出力する音の音量を特定して調整するようにしてもよい。この場合、記憶部３８には、音量判定用となる複数段階（例えば、１０段階）に応じた閾値を予め記憶しておき、圧力センサー３０で測定した息の圧の数値と、音量判定用の閾値とを対比して、息の圧が１０段階の中のいずれの程度になるかを判断し、その判断した程度と同程度に音量を特定し、その特定した音量でスピーカー４ｂからの音出力を行うことになる（例えば、息の圧が１０段階中の４段階であれば、最小音量から最大音量を１０段階とした中の４段階の音量にする）。

さらに、上述した説明では、圧力センサー３０の測定により、音を出力するタイミング、音を出力する時間を決定していたが、圧力センサー３０を省略する構成を適用することも考えられる。この場合、図７のフローチャートのＳ１の段階で、音出力アプリ画面１０の各キー１１〜１４又は背景部分１０ａで、ユーザによる選択操作の受付をトリガーにして、音の出力を開始すると共に、各キー１１〜１４又は背景部分１０ａの選択操作を受け付けている間、音を出力するようにして、圧力センサー３０が無くても、音の出力タイミング及び音の出力時間をユーザがコントロールできるようにする。

また、図３に示すディスプレイパネル５に表示される各キー１１、１２、１３、１４の配置パターンは単なる一例であり、他の配置パターンを適用することも勿論可能である。さらにまた、ディスプレイパネル５に表示される各キー１１、１２、１３、１４は、ユーザの使い勝手に応じて、位置を適宜、移動可能にした仕様にしてもよい。例えば、位置を移動させたいキーをロングタップ（移動させたキーを指で一秒以上タッチする操作）し、そのままの状態から所望の位置までドラッグ（ロングタップしたまま、指を離さずに移動する操作）を行うことで、各キーの位置を移動可能にすることが考えられる。このように各キーの位置を移動可能にすると、ブラインドタッチを行いやすい位置にキーを移動させることや、右親指をメインにしてキー操作を行うユーザは、ディスプレイパネル５の右辺側を中心にキー配置を行って、右親指の届きやすい範囲に各キーを位置させること等が考えられる。

また、子音等の特定には、図３に示す各キー１１〜１４を用いるのでは無く、例えば、ユーザの口から吐かれる息の量（呼気流量）を、圧力センサー３０等の各種センサーで測定することで、測定した息の量に応じて子音等を特定することも可能である。さらには、子音の種類特定に対して、ウェアラブルデバイス等のセンサーを利用することも想定できる。例えば、口腔内圧を測定するセンサー（電子皮膚等により口腔内圧の筋電図を測定するセンサー）を新たに設けることで、口腔内圧に応じて子音等を特定する仕様にしてもよい。さらにまた、出力する音を特定した場合（図７のフローチャートのＳ６、Ｓ１４、Ｓ１５の段階）、その特定した音を示す文字をディスプレイパネル５に表示して、出力する音をユーザがディスプレイパネル５で確認できるようにしてもよい。

そして、本発明に係る音の出力は、スピーカー４ｂから音を出すこと以外に、通信機能を有する音出力装置１が通信を行う相手先に、特定した音を送信し、その送信先の通信装置から音を出力するという意味合いも含むものとする。そしてまた、本発明に係る音出力装置１は、スマートフォンを用いた構成以外にも、図５に示すような構成を専用のハード装置として作り上げる仕様にしてもよい。また、上述した複数の各種変形例は適宜、組み合わせて用いることも勿論可能である。

本発明は、一音単位でユーザの所望する音の出力を可能にしたので、特に、話そうとする最初の言葉の音が出にくい人に対する発声の補助支援、及びトレーニング等に対し好適に利用可能である。

１音出力装置
３カメラモジュール
４ａマイク
４ｂスピーカー
５ディスプレイパネル
１０音出力アプリ画面
１０ａ背景部分
１１〜１４音指定キー
１５ａ登録キー
１５ｂ音声設定キー
１６音種設定画面
１６ｆ〜１６ｄ音声ボタン
１７ａ録音ボタン
２０ＣＰＵ
２８記憶部
３０圧力センサー
４１音出力プログラム
４２口形テーブル
Ｄ１〜Ｄ５母音口形データ

Claims

撮影手段及び音出力手段を有する音出力装置において、
母音に応じた口の形を示す母音口形データを記憶する記憶部と、
前記撮影手段で撮影したユーザの口の撮影内容を前記記憶部に記憶する母音口形データと比較して、撮影内容に応じた母音を特定する母音特定手段と、
子音の種類の指定を受け付ける子音種類指定手段と、
前記子音種類指定手段が指定を受け付けた子音の種類、及び前記母音特定手段が特定した母音に基づき、出力する子音を特定する子音特定手段と
を備え、
前記子音特定手段が特定した子音を前記音出力手段から出力することを特徴とする音出力装置。
ユーザの口から発せられる気体に係る値の測定を行う測定手段と、
前記測定手段が測定した測定値を、予め記憶した閾値と比較する比較手段と
を備え、
前記比較手段の比較により、測定値が前記閾値を上回る場合、前記音出力手段から音を出力する請求項１に記載の音出力装置。
前記比較手段の比較により、測定値が前記閾値を上回る間、前記音出力手段からの音の出力を継続する請求項２に記載の音出力装置。
前記測定手段が測定した測定値に応じて、前記音出力手段の出力に係る音量を特定する音量特定手段を備え、
前記音出力手段は、前記音量特定手段が特定した音量で音を出力する請求項２又は請求項３に記載の音出力装置。
出力する音の種類の選択を受け付ける音種選択手段を備え、
前記音出力手段は、前記音種選択手段が受け付けた音の種類で音を出力する請求項１乃至請求項４のいずれか１項に記載の音出力装置。
撮影内容の登録指示を受け付ける登録手段と、
前記音出力手段から音の出力を行った場合に、前記登録手段が登録指示を受け付けたとき、前記音出力手段からの出力音に応じた前記撮影手段による撮影内容を、前記出力音に係る母音の母音口形データとして前記記憶部に記憶する処理を行う手段と
を備える請求項１乃至請求項５のいずれか１項に記載の音出力装置。
撮影手段と、音出力手段と、母音に応じた口の形を示す母音口形データを記憶する記憶部とを有する音出力装置が、前記音出力手段から音を出力する音出力方法において、
前記音出力装置は、
前記撮影手段で撮影したユーザの口の撮影内容を前記記憶部に記憶する母音口形データと比較して、撮影内容に応じた母音を特定するステップと、
子音の種類の指定を受け付けるステップと、
前記子音種類指定手段が指定を受け付けた子音の種類、及び前記母音特定手段が特定した母音に基づき、出力する子音を特定するステップと、
特定した子音を前記音出力手段から出力するステップと
を実行することを特徴とする音出力方法。
撮影手段と、音出力手段と、母音に応じた口の形を示す母音口形データを記憶する記憶部とを有するコンピュータに、前記音出力手段から音を出力する処理を実行させるためのコンピュータプログラムにおいて、
前記コンピュータに、
前記撮影手段で撮影したユーザの口の撮影内容を前記記憶部に記憶する母音口形データと比較して、撮影内容に応じた母音を特定するステップと、
子音の種類の指定を受け付けるステップと、
前記子音種類指定手段が指定を受け付けた子音の種類、及び前記母音特定手段が特定した母音に基づき、出力する子音を特定するステップと、
特定した子音を前記音出力手段から出力するステップと
を実行させることを特徴とするコンピュータプログラム。