JP2020076846A - 音出力装置、音出力方法、及びコンピュータプログラム - Google Patents

音出力装置、音出力方法、及びコンピュータプログラム Download PDF

Info

Publication number
JP2020076846A
JP2020076846A JP2018209375A JP2018209375A JP2020076846A JP 2020076846 A JP2020076846 A JP 2020076846A JP 2018209375 A JP2018209375 A JP 2018209375A JP 2018209375 A JP2018209375 A JP 2018209375A JP 2020076846 A JP2020076846 A JP 2020076846A
Authority
JP
Japan
Prior art keywords
sound
vowel
sound output
consonant
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018209375A
Other languages
English (en)
Inventor
太朗 瀬水
Taro Semizu
太朗 瀬水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Semizu Taro
Original Assignee
Semizu Taro
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Semizu Taro filed Critical Semizu Taro
Priority to JP2018209375A priority Critical patent/JP2020076846A/ja
Publication of JP2020076846A publication Critical patent/JP2020076846A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Image Analysis (AREA)

Abstract

【課題】ユーザの所望する音を一音単位で出力するにあたり、母音に加えて、子音を出力可能にする。【解決手段】ユーザの発声したい音が母音の場合、音出力装置1は、ユーザの口の形を撮影した内容に基づき母音を特定して、特定した母音をスピーカーから出力する。ユーザの発声したい音が子音の場合、音出力装置1は、撮影内容に基づき母音を特定することに加えて、子音の種類を指定するユーザ操作を受け付けるようにして、ユーザ操作に応じた子音の種類及び撮影内容に基づき特定した母音に基づき子音を特定し、その特定した子音をスピーカーから出力する。それにより、発声するのが不自由な人に対する発声支援及びトレーニングを行える。【選択図】図1

Description

本発明は、ユーザが実際に音声を出さなくても、ユーザの意図した母音及び子音等に係る音を一音単位で出力できるようにした音出力装置、音出力方法、及びコンピュータプログラムに関する。
従来、発声及び発語が不自由な人が、他の人とコミュニケーションを取る手段としては、一般的に手話が用いられている。手話の替わりの手段として、以下の特許文献1では、ユーザの一連の口唇の動きをテレビカメラで撮影し、その撮影した内容に対して、様々な単語又は言葉について予め登録してある口唇の動きのパターンとマッチング処理を行い、マッチングした言葉を出力する装置が開示される。
また、ユーザの口唇を撮影して、その撮影内容に応じた音声等を出力する技術は、マナー的に通常以上の大きさの声を出しにくい環境や、周囲の音が非常に大きいことから声が伝わりにくい環境等でも利用が想定されており、このような環境での利用は、以下の特許文献2−6で言及されている。例えば、特許文献2では、電車内や映画館のような声を出しにくい公共の場所で電話によるコミュニケーションを行うときに、ユーザの口唇の形状を撮影して、その撮影内容に応じた音声等を電話の相手先へ通信で出力(送信)することが開示される。
なお、特許文献3では、口を動かす時に発する息の量と息の方向を感知するセンサーを設けて、このセンサーの感知結果を口唇の解析の際にも利用することで、解析精度の向上を図る技術が開示される。また、特許文献4、5では、パターンマッチングの技術やベクトルの変換による技術等を用いることで、動画で撮影した口唇の撮影内容による口の形状等の検出精度を向上する試みが開示される。また、特許文献6では、口唇周囲の筋電位波形も測定して、ユーザの意図する音声の検出精度を高める技術が開示される。
特開昭60−3793号公報 特開2000−68882号公報 特開2002−135376号公報 特開平9−134194号公報 特開平6−43897号公報 特開平6−12483号公報
特許文献1では、単語又は短い言葉のレベルで口唇の動きを検出することから、一音ごとに音は認識できず、また、単語又は短い言葉のレベルで出力を行うので、単語又は短い言葉に応じた信号を予め多数記憶しておく必要があると共に、記憶していない単語又は短い言葉については、そもそも音を出力できないという問題がある(新たな単語、言葉には特許文献1で対応できない)。
さらに、引用文献1の2頁目左欄1−2行目の「・・・子音の同定が比較的困難であり、これに対して母音の5音は容易に識別できることから、・・・」という記載のように、一音単位で子音を識別するのは困難であるという問題もある。そして、この一音単位での子音検出が困難な問題は、単語等の単位で検出を行う引用文献2−4、6にも当てはまる。なお、引用文献5では、段落0078の「説明したシステムを用いて、10個の発音された文字B、D、F、M、N、P、S、T、V、Zの間の弁別について実験を行っている。」という記載のように、一音単位での検出を行うが、記憶した口唇の形状等との比較を行わずに、視覚的特徴ベクトル等を用いるので、非常に複雑な処理が必要になるという問題がある。
また、発声及び発語が不自由な人の中には、話そうとする最初の言葉の音が出にくい人がいる。このような人は最初の言葉の音さえ出すことができると、その後は発声できることがあるので、最初に出す音を補助できれば、このような人の発声を支援できるようになると共に、発声するように口周辺を動かすことを繰り返せば、スムーズに発声するトレーニングにもなるが、上述した特許文献1−6で開示される内容では、最初の言葉の音が出にくい人を適切に補助できないという問題もある。
本発明は、斯かる事情に鑑みてなされたものであり、ユーザの口を含む箇所を撮影して、記憶された口の形状等との比較により一音単位で音の識別を行うにあたり、ユーザが子音の種類を指定できるようにして、複雑な処理を用いることなく、様々な音を出力できるようにした音出力装置、音出力方法、及びコンピュータプログラムを提供することを目的とする。
また、本発明は、一音単位で音を識別して出力するにあたり、音の出力タイミング、出力する時間の長さ、出力する音の音量、音の種類等をユーザが適宜、調整できるようにした音出力装置、音出力方法、及びコンピュータプログラムを提供することを目的とする。
上記課題を解決するために本発明は、撮影手段及び音出力手段を有する音出力装置において、母音に応じた口の形を示す母音口形データを記憶する記憶部と、前記撮影手段で撮影したユーザの口の撮影内容を前記記憶部に記憶する母音口形データと比較して、撮影内容に応じた母音を特定する母音特定手段と、子音の種類の指定を受け付ける子音種類指定手段と、前記子音種類指定手段が指定を受け付けた子音の種類、及び前記母音特定手段が特定した母音に基づき、出力する子音を特定する子音特定手段とを備え、前記子音特定手段が特定した子音を前記音出力手段から出力することを特徴とする。
また、本発明は、ユーザの口から発せられる気体に係る値の測定を行う測定手段と、前記測定手段が測定した測定値を、予め記憶した閾値と比較する比較手段とを備え、前記比較手段の比較により、測定値が前記閾値を上回る場合、前記音出力手段から音を出力することを特徴とする。
さらに、本発明は、前記比較手段の比較により、測定値が前記閾値を上回る間、前記音出力手段からの音の出力を継続することを特徴とする。
さらにまた、本発明は、前記測定手段が測定した測定値に応じて、前記音出力手段の出力に係る音量を特定する音量特定手段を備え、前記音出力手段は、前記音量特定手段が特定した音量で音を出力することを特徴とする。
また、本発明は、出力する音の種類の選択を受け付ける音種選択手段を備え、前記音出力手段は、前記音種選択手段が受け付けた音の種類で音を出力することを特徴とする。
さらに、本発明は、撮影内容の登録指示を受け付ける登録手段と、前記音出力手段から音の出力を行った場合に、前記登録手段が登録指示を受け付けたとき、前記音出力手段からの出力音に応じた前記撮影手段による撮影内容を、前記出力音に係る母音の母音口形データとして前記記憶部に記憶する処理を行う手段とを備えることを特徴とする。
さらにまた、本発明は、撮影手段と、音出力手段と、母音に応じた口の形を示す母音口形データを記憶する記憶部とを有する音出力装置が、前記音出力手段から音を出力する音出力方法において、前記音出力装置は、前記撮影手段で撮影したユーザの口の撮影内容を前記記憶部に記憶する母音口形データと比較して、撮影内容に応じた母音を特定するステップと、子音の種類の指定を受け付けるステップと、前記子音種類指定手段が指定を受け付けた子音の種類、及び前記母音特定手段が特定した母音に基づき、出力する子音を特定するステップと、特定した子音を前記音出力手段から出力するステップとを実行することを特徴とする。
そしてまた、撮影手段と、音出力手段と、母音に応じた口の形を示す母音口形データを記憶する記憶部とを有するコンピュータに、前記音出力手段から音を出力する処理を実行させるためのコンピュータプログラムにおいて、前記コンピュータに、前記撮影手段で撮影したユーザの口の撮影内容を前記記憶部に記憶する母音口形データと比較して、撮影内容に応じた母音を特定するステップと、子音の種類の指定を受け付けるステップと、前記子音種類指定手段が指定を受け付けた子音の種類、及び前記母音特定手段が特定した母音に基づき、出力する子音を特定するステップと、特定した子音を前記音出力手段から出力するステップとを実行させることを特徴とする。
本発明にあっては、ユーザによる子音の種類の指定を受け付けるようにしているので、撮影手段の撮影により特定した母音と、指定を受け付けた子音の種類により、ユーザが発声したい子音を一音単位で特定して出力できるようになる。また、本発明では、一音単位で音を特定して出力するので、最初の言葉の音が出にくい人に対して適切な補助を行えるようになると共に、発声するためのトレーニングとしても利用できる。そして、上記のような子音の特定及び出力に係る処理を連続的に行えば、単語又は言葉等を記憶させなくても、ユーザが所望する単語又は言葉等の音も出力可能となる。
本発明にあっては、ユーザの口から発せられる気体に係る値の測定値が閾値を上回る場合に、音出力手段から音が出力されることから、ユーザの口から発せられる気体の状況に応じて、音の出力時期(出力タイミング)をユーザがコントロールできるようになる。なお、ユーザの口から発せられる気体に係る値とは、例えば、ユーザが口から吐く息(空気)の圧の値又は流量の値などが該当する(以下、同様)。
本発明にあっては、ユーザの口から発せられる気体に係る値の測定値が閾値を上回る間、音出力手段からの音の出力を継続するので、ユーザの口から発せられる気体の状況に応じて、音の出力長さをユーザがコントロールできるようになる。それにより、長音も容易に出力可能にして、多彩な表現を実現し得る。
本発明にあっては、ユーザの口から発せられる気体に係る値の測定値に応じて、音出力手段から出力される音の大きさが特定されるので、音の大きさもユーザがコントロールできるようになり、出力する音量を変化させる等して、ユーザの所望の表現を行いやすくなる。
本発明にあっては、出力する音の種類を受け付けて、その種類の音を音出力手段から出力するので、ユーザの好みに応じた音色で音の出力を行えるようになる。なお、音の種類としては、男性的な音声、女性的な音声、無機的な音声、電子音的な音声などがあり、音声合成処理などにより音の周波数等を適宜、変更することで様々な種類の音の出力が可能となる。
本発明にあっては、登録指示を受け付けた場合、出力音に係る撮像内容を、その出力音に係る母音の母音口形データとして記憶部に記憶するようにしたので、記憶部の各母音に応じた母音口形データを適宜、更新できるようになる。すなわち、記憶部に記憶される各母音の母音口形データは一般的なものになっているが、各母音を発するときのユーザの口の形は、ユーザごとに微妙に異なるため、ユーザの撮像内容を母音口形データとして記憶することで、ユーザの口の形にマッチした母音の特定が可能となり、母音特定の精度が向上して良好な使い勝手を実現できるようになる。
本発明では、ユーザの口の形に基づく母音と、ユーザが指定した子音の種類とを組み合わせることで、従来、ユーザの口などを撮影して音を出力する場合に困難であった子音の出力を、精度良く行うことができると共に、音を出力するのに口を実際に動かすので、発声及び発語の不自由なユーザのとっては疑似的に話をしているように感じられ、発声及び発語のトレーニングに役立てられる。
また、本発明では、ユーザの口から発せられる気体(息)の状況に応じて、音の出力時期(出力タイミング)をユーザがコントロールできる。
さらに、本発明では、ユーザの口から発せられる気体に係る値の測定値が閾値を上回る間、音出力手段からの音の出力を継続するので、ユーザの口から発せられる気体の状況に応じて、音の出力長さをユーザがコントロールできるようになる。それにより、長音も容易に出力可能にして、多彩な表現を実現し得る。
さらにまた、本発明では、ユーザの口から発せられる気体(息)の程度によって、ユーザは、音出力手段から出力される音の大きさをコントロールできる。
本発明では、ユーザから出力する音の種類を受け付けるので、ユーザの好みに応じた音色で音の出力を行える。
また、本発明では、出力音に係る撮像内容を、その出力音に係る母音の母音口形データとして記憶部に記憶するようにしたので、記憶部の各母音に応じた母音口形データを適宜、更新でき、ユーザごとにマッチした母音の特定処理を実現できる。
本発明の実施形態に係る音出力装置のユーザによる使用状況の一例を示す概略斜視図である。 ホーム画面を表示した状態の音出力装置の正面図である。 音出力装置のディスプレイパネルに表示された音出力アプリ画面を示す概略図である。 音出力装置のディスプレイパネルに表示された音種類設定画面を示す概略図である。 音出力装置の主要な内部構成を示すブロック図である。 口形テーブルの中身の概要を示す図表である。 音出力装置による音出力方法の一連の処理手順を示すフローチャートの一部である。 音出力装置による音出力方法の一連の処理手順を示すフローチャートの他部である。
図1は、本発明に係る実施形態の一例である音出力装置1をユーザが使用している状況を示す。本実施形態の音出力装置1はスマートフォンを利用したものになっており、そのスマートフォンに、本発明に応じたアプリケーションソフトをインストールすると共に、音出力の処理に用いる圧力センサー30を装着した構成になっている。音出力装置1を利用するユーザは、出力したい音を発する口の形にして、音出力装置1に向けて息を発すると共に、音出力装置1に対して所要の操作を行うことで、ユーザの所望した音(母音又は子音)を一音単位で適宜、音出力装置1から出力できる。それにより、発声及び発語が不自由な人を支援できるようにしている。以下、本発明について詳しく説明していく。
図2は、音出力装置1の正面図を示す。音出力装置1は、薄板状の筐体2の前面2aにディスプレイパネル5を配置しており、筐体2の前面2aの上部2bに、ユーザの口の形の撮影に利用するカメラモジュール3(撮影手段に相当)を配置すると共に、下部2cに音の入力を行うマイク4a及び音の出力を行うスピーカー4b(音出力手段に相当)を配置している。また、音出力装置1は、筐体2の上部2bに、圧力センサー30を装着しており、筐体2の前面2aに対する流体による圧力を測定できるようにしている。
図2では、ディスプレイパネル5にホーム画面6が表示された状態を示しており、このホーム画面6では、スマートフォンに相当する音出力装置1にインストールされた各種アプリ(アプリケーションソフトウェア)を起動するためのアイコン7が複数、選択可能に配置されており、これら複数のアイコン7の中に、本発明に係る音出力アプリ用アイコン7aも含まれる。なお、図2では示していないが、筐体2の背面にはメインカメラ用のカメラモジュールを配置している。
図3は、図2に示す音出力アプリ用アイコン7aが選択(タップ)された場合に、ディスプレイパネル5に表示される音出力アプリ画面10を示す。図2に示す音出力アプリ用アイコン7aが選択されると、音出力装置1に予めインストールされた音出力アプリが起動し、それにより、音出力アプリ画面10がディスプレイパネル5に表示されることになる。
音出力アプリ画面10は、出力する音として、子音、促音(ッ)及び拗音(ャ、ュ、ョ、ヮ)等の詰まった音、濁音(ガ、ザ、ダ、バ)、並びに半濁音(パ、ピ、プ、ペ、ポ等の破裂音)等の各種類を指定するための各種音指定キー11、12、13、14を選択操作の受付可能に配置すると共に、登録キー15a及び音声設定キー15bも選択可能に配置する。
各種音指定キー11〜14の中で、子音の種類を指定するための子音種類特定キー11は、カ行に応じた子音指定用のKキー11a、サ行に応じた子音指定用のSキー11b、タ行に応じた子音指定用のTキー11c、ナ行に応じた子音指定用のNキー11d、ハ行に応じた子音指定用のHキー11e、マ行に応じた子音指定用のMキー11f、ヤ行に応じた子音指定用のYキー11g、ラ行に応じた子音指定用のRキー11h、及びワ行に応じた子音指定用のWキー11iを含む。
ユーザは、カ行に応じた子音を出力したい場合、カ行のいずれかの音(カ〜コ)を発するときの口の形(母音のいずれかの音(ア〜オ)を発するときと同様の形。以下同様)で息を発して、Kキー11aを選択(タップ)することなる。以下、サ行に応じた子音を出力したい場合は、サ行のいずれかの音(サ〜ソ)を発するときの口の形で息を発してSキー11bを選択し、タ行に応じた子音を出力したい場合は、タ行のいずれかの音(タ〜ト)を発するときの口の形で息を発してTキー11cを選択し、ナ行に応じた子音を出力したい場合は、ナ行のいずれかの音(ナ〜ノ)を発するときの口の形で息を発してNキー11dを選択し、ハ行に応じた子音を出力したい場合は、ハ行のいずれかの音(ハ〜ホ)を発するときの口の形で息を発してHキー11eを選択する。
そして、マ行に応じた子音を出力したい場合は、マ行のいずれかの音(マ〜モ)を発するときの口の形で息を発してMキー11fを選択し、ヤ行に応じた子音を出力したい場合は、ヤ行のいずれかの音(ヤ〜ヨ)を発するときの口の形で息を発してYキー11gを選択し、ラ行に応じた子音を出力したい場合は、ラ行のいずれかの音(ラ〜ロ)を発するときの口の形で息を発してRキー11hを選択し、ワ行に応じた子音を出力したい場合は、ワ行のいずれかの音(ワ〜ヲ)を発するときの口の形で息を発してWキー11iを選択することになる(K〜Wキー11a〜11iは子音種類指定手段に相当)。
なお、上記の説明において、Nキー11dは、ナ行に応じた子音を出力したい場合に選択するとしたが、例外的な使い方として「ン」の音を出力する場合にも選択される。「ン」の音を出力する場合、ユーザは、口を噤んだような形で(息を出すために少しだけ口を開けた形)、息を吐いて、Nキー11dを選択することを行う。
各種音指定キー11〜14の中で、Xキー12は、促音(ッ)及び拗音(ャ、ュ、ョ、ヮ)等の詰まった音を特定するためのものであり、上述したK〜Wキー11a〜11iと併用して、ユーザが所望するキーを指定することになる。例えば、「ッ(小さいツ)」の発声をユーザが希望する場合、ユーザは「ツ」を発するときの口の形(母音の「ウ」を発するときと同様の形)で口から息を発すると共に、Xキー12及びTキー11cのタップ操作を行うことになる。また、「ャ(小さいヤ)」の発声をユーザが希望する場合、ユーザは「ヤ」を発するときの口の形(母音の「ア」を発するときと同様の形)で口から息を発すると共に、Xキー12及びYキー11gのタップ操作を行うことになる。
各種音指定キー11〜14の中で、濁音の種類を特定するための濁音種類指定キー13は、ガ行に応じた濁音指定用のGキー13a、ザ行に応じた濁音指定用のZキー13b、ダ行に応じた濁音指定用のDキー13c、及びバ行に応じた濁音指定用のBキー13dを含む。
ユーザは、ガ行に応じた濁音を出力したい場合、ガ行のいずれかの音(ガ〜ゴ)を発するときの口の形で息を発してGキー13aを選択(タップ)することなる。以下、ザ行に応じた濁音を出力したい場合は、ザ行のいずれかの音(ザ〜ゾ)を発するときの口の形(母音の「ア」〜「オ」を発するときと同様の形)で息を発してZキー13bを選択し、ダ行に応じた濁音を出力したい場合は、ダ行のいずれかの音(ダ〜ド)を発するときの口の形(母音の「ア」〜「オ」を発するときと同様の形)で息を発してDキー13cを選択し、バ行に応じた濁音を出力したい場合は、バ行のいずれかの音(バ〜ボ)を発するときの口の形(母音の「ア」〜「オ」を発するときと同様の形)で息を発してBキー13dを選択することになる(G〜Bキー13a〜13dは濁音種類指定手段に相当)。
各種音指定キー11〜14の中で、Pキー14は、半濁音(パ、ピ、プ、ペ、ポ等の破裂音)を特定するためのものである(Pキー14は半濁音種類指定手段に相当)。例えば、「パ」の発声をユーザが希望する場合、ユーザは「パ」の口の形(母音の「ア」を発するときと同様の形)で口から息を発してPキー14のタップ操作を行うことになる。同様に、「ピ」、「プ」、「ペ」、又は「ポ」のいずれかの発声をユーザが希望する場合は、「ピ」、「プ」、「ペ」、又は「ポ」のいずれかの口の形(母音の「イ」〜「オ」のいずれかを発するときと同様の形)で口から息を発してPキー14を選択することになる。
また、登録キー15aは、カメラモジュール3で撮影した内容の登録(保存)の指示を受け付けるキーである(登録手段に相当)。具体的には、上述したように、ユーザが所望の音に応じた口の形状で息を発して、各種音指定キー11〜14のいずれかを選択することで出力された音が、ユーザの所望する音に合致していた場合で、そのときの口の形の登録をユーザが希望するときに、登録キー15aの選択操作が行われると、カメラモジュール3で撮影された撮影データが登録されることになる。このように登録される撮影データは、今後の処理に利用されることで、後述するように、母音特定の精度向上を図れる。
さらに、音声設定キー15bは、出力する音の音色(音の種類)を設定するときに選択されるキーである。この音声設定キー15bの選択が行われると、ディスプレイパネル5の表示が切り替わり、図4に示す音種設定画面16が表示される。
図4の音種設定画面16は、デフォルト音声ボタン16a、第1男性音声ボタン16b、第2男性音声ボタン16c、第1女性音声ボタン16d、第2女性音声ボタン16e、及びオプション音声ボタン16fを選択操作の受付可能に含むと共に(各音声ボタン16a〜16fは、音種選択手段に相当)、録音ボタン17a及び戻るボタン17bを選択可能に含む画面になっている。デフォルト音声ボタン16aは、デフォルトで選択されているボタンであり、このボタンの選択中は、スピーカー4bから出力する音は電子合成音の音色になる。
第1男性音声ボタン16bは、スピーカー4bから出力する音の種類として、若年層(青年層)に応じた男性の音色(元気のあるイメージの音色)を希望するときに選択されるボタンになる。第2男性音声ボタン16bは、スピーカー4bから出力する音の種類として、壮年層(落ち着いたイメージの音色)に応じた男性の音色を希望するときに選択されるボタンになる。第1女性音声ボタン16dは、スピーカー4bから出力する音の種類として、若年層に応じた女性の音色(元気のあるイメージの音色)を希望するときに選択されるボタンになる。第2女性音声ボタン16eは、スピーカー4bから出力する音の種類として、壮年層(落ち着いたイメージの音色)に応じた女性の音色を希望するときに選択されるボタンになる。
また、オプション音声ボタン16fは、出力する音の種類として、録音で取得した人の音色に応じた音声を出力する場合に選択されるボタンである。例えば、音出力装置1のユーザが発声できる場合、ユーザは自分の音声を予め録音しておけば、その録音した音を音出力装置1から出力でき、また、ユーザが希望する人の音声を予め録音できれば、その人の音色の音で音出力装置1からの出力を行える。
録音ボタン17aは、音声を録音するときに選択されるボタンであり、上述したユーザ音色ボタン16fの選択で、出力する音の種類としてユーザの希望する音色に応じた音声を用いるために、録音を行うことになる。また、戻るボタン17bは、ディスプレイパネル5の表示を、上述した図3の音出力アプリ画面10に切り替えるためのボタンである。なお、図3に示す音出力アプリ画面10は、各キー11〜15を配置する背景部分10aもタップ操作(選択操作)の受付が可能になっており、例えば、ユーザが「ア」、「イ」、「ウ」、「エ」、「オ」の母音の出力を希望する場合、音出力アプリ画面10の背景部分10aもタッチ(又はタップ)操作を行うことで、音特定処理が開始され、カメラモジュール3での撮影等が行われる。
図5は、音出力装置1の主要な内部構成を示している。本実施形態の音出力装置1には上述したように、スマートフォン(一種のコンピュータに相当)を用いており、CPU20(制御部)に、通信・通話モジュール21、各種インタフェース22等、及び記憶部28を内部接続線1aで接続した構成になっている。
CPU20は、装置における各種制御を行うものであり、記憶部28に記憶されるプログラムの規定内容に従い、各種手段として様々な処理を行う。通信・通話モジュール21は、無線により広域ネットワークと接続され、外部のサーバ及びコンピュータ等に対してデータ通信を行うと共に、通話音の送受等の処理を行う。
ディスプレイインタフェース22は、上述した各種画面の表示を行うと共にタッチパネル機能を具備したディスプレイパネル5に対する接続インタフェースである。このディスプレイインタフェース22は、CPU20の制御に基づき、画面データをディスプレイパネル5へ出力する処理を行い、それにより出力した画面データに応じた画面内容をディスプレイパネル5に表示させる(図2、3参照)。また、ディスプレイインタフェース22は、ディスプレイパネル5にユーザ操作の可能な画面内容が表示されている場合で、ユーザ操作(タップ、スワイプ、フリック、ドラッグ、ピンチイン等)をディスプレイパネル5で受け付けると、その受け付けた操作内容(ボタンのタップがあったこと等)をCPU20へ伝える処理等を行う。
カメラインタフェース23は、筐体2の前面2aに設けられたカメラモジュール3と接続されるものである。CCD又はCMOS等の撮像素子及びカメラレンズ等を有するカメラモジュール3で撮影されたデータを、カメラインタフェース23は受け取って撮影データを生成し、その生成したデータを保存する場合、記憶部28へ送る処理等を行う。なお、カメラモジュール3は、筐体2の前面2a側に設置されたサブカメラに該当し、筐体2の背面側にはメインカメラに応じたカメラモジュールも存在するが、図5では、このメインカメラのカメラモジュールの図示は省略している。
音入力インタフェース24は、筐体2の下部2cに設けられたマイク4aと接続されるものである。マイク4aで取得された音に対してA(アナログ)/D(デジタル)変換処理等を行って、音ファイル(音データ)を生成する処理等を行う。
音出力インタフェース25は、筐体2の下部2cに設けられたスピーカー4bと接続されるものであり、D/A変換処理及び増幅処理等を行うことで、特定した種類の音をスピーカー4bから出力するための処理等を行う。
無線接続モジュール26は、所定の無線通信規格に応じた無線通信により外部機器との接続を行うインタフェースであり、本実施形態では、ブルートゥース(登録商標)の規格に基づいたものになっており、それにより、筐体2の上部2bに装着された圧力センサー30(圧力センサー30もブルートゥース(登録商標)対応の機種になっている)とペアリングを行って無線接続を行う。なお、圧力センサー30は、前面に圧検知部30aを有しており(図2参照)、圧検知部30aに対して流れてくる気体の圧力を測定する。本実施形態において、圧力センサー30は、ユーザの口から発せられる気体に係る値の測定を行う測定手段として、息の圧の測定を随時行い、測定結果(測定値)を無線通信で無線通信モジュール26へ送信する。
そのため、無線接続モジュール26は、圧力センサー30から継続的に送られてくる測定値を受信して、CPU20aへ伝える処理を行う。なお、無線通信モジュール26の無線通信規格は、ブルートゥース(登録商標)に限定されるものはなく、他の各種無線通信を適用してもよい(IEEE系の無線通信規格、無線USB等)。
外部接続インタフェース27は、外部機器との有線接続用のインタフェースであり、本実施形態ではUSB(Universal Serial Bus)系の規格に応じたものを用いている。また、本発明で用いる圧力センサーがUSB接続タイプのものであれば、この外部接続インタフェース27に圧力センサーを接続することになる(この場合、上述した無線接続モジュール26での圧力センサー30の無線接続は不要になる)。なお、外部接続インタフェース27の接続規格はUSBに限定されるものではなく、他の接続規格も適用可能である。
記憶部28は、各種プログラム、テーブル、各種データ(例えば、閾値等の数値データ)等を記憶するものである。本実施形態の記憶部28は、OSプログラム40、音出力プログラム41、口形テーブル42、音声テーブル43、及び出力閾値44等を記憶する。記憶部28が記憶するOSプログラム40は、音出力装置1を構成する一種のコンピュータであるスマートフォンとしての機能させるためのCPU20の処理を規定したオペレーティングシステムプログラムであり、このOSプログラム40の規定する処理により、例えば、図2に示すホーム画面6がディスプレイパネル5に表示されるようになる。また、OSプログラム40は、アプリケーションソフトの起動及び終了等に係る処理も規定しており、ホーム画面6の各アイコンが選択されると、その選択されたアイコンのアプリケーションソフトを起動させると共に、ディスプレイパネル5に対して所要の操作を行うことで、起動しているアプリケーションソフトを終了させる処理も規定する。
記憶部28が記憶する音出力プログラム41は、本発明に係る処理内容(CPU20が行う各種処理内容)を規定したアプリケーションソフト(一種のコンピュータプログラムに相当)であり、通信を介したダウンロード又は外部接続インタフェース27に記憶媒体(このアプリケーションソフトを記憶した記憶媒体)を接続するなどして、記憶部28にインストールされる。音出力プログラム41は、インストールされると、図2に示すホーム画面6の中に、音出力プログラム41に応じた音出力アプリ用アイコン7aが選択可能に配置される。
音出力アプリ用アイコン7aが選択されると、音出力プログラム41が起動して、CP20の制御により、ディスプレイパネル5の表示を音出力アプリ画面10の表示に切り替える。そして、音出力プログラム41は、表示した音出力アプリ画面10に対するユーザ操作に応じてCPU20が行うべき処理を規定しており、CPU20aの処理内容によって、ユーザの所望した音がスピーカー4bから出力される。また、音出力プログラム41は、設定内容及び音の登録内容等に関してCPU20が行う処理も規定している。音出力プログラム41が規定する一連の処理内容等は、図7、8に示すフローチャートに基づいて後述するので、先に口形テーブル42等について説明する。
図6は、口形テーブル42の中身の概要を示す。口形テーブル42は、母音の「ア」、「イ」、「ウ」、「エ」、「オ」ごとに、それらの各母音に応じた口の形を示す母音口形データD1〜D5(標準形の母音口形データ)を格納したものになっている。これら標準形の母音口形データD1〜D5は、各母音(ア〜オ)の音声を発する際に最も標準となるような口の形を示す画像データであり(例えば、JPEG形式の画像データ)、口(唇)の開け具合、口(唇)の開けた形状、口の中の状況(歯の見え具合、舌の見え具合など)、及び唇の周囲の状況などを示すものになっている。
なお、口形テーブル42は、上述した標準形の母音口形データD1〜D5をデフォルトで記憶するが、上述した図3の音出力アプリ画面10における登録キー15aを操作することで、ユーザの各母音に応じた口の形を撮影して、その撮影した画像データを、その母音に対応づけて口形テーブル42に母音口形データとして記憶できる。このように新たに記憶された画像データ(ユーザの口の形を撮影した母音口形データ)も、後述する母音特定の処理の際に利用可能となる。
記憶部28に記憶される音声テーブル43は、出力する音のデータを格納したものであり、図4の音種設定画面16に示すデフォルト音声ボタン16a、第1男性音声ボタン16b、第2男性音声ボタン16c、第1女性音声ボタン16d、第2女性音声ボタン16eに応じた各種音声データを記憶する。すなわち、デフォルト音声ボタン16に応じた電子音声の音声データ、第1男性音声ボタン16に応じた若年層の男性音色の音声データ、第2男性音声ボタン16bに応じた壮年層の男性音色の音声データ、第1女性音声ボタン16dに応じた若年層の女性音色の音声データ、及び第2女性音声ボタン16eに応じた壮年層の女性音色の音声データを音声テーブル43は記憶する。これらの各音声データは、それぞれの音色に応じた周波数に基づく合成音声になっており、五十音に応じた母音、子音、促音、拗音、濁音、及び半濁音等の各種類の音用のデータを含む。
また、音声テーブル43は、上述した各音声データに加えて、ユーザ自身又はユーザの希望する人等の音声に応じた音声データもオプション音声として格納できるようになっている。このようなオプションの音声データの格納は、上述した図4の音種設定画面16に含まれる録音ボタン17aの操作により、マイク4aを介して音声データが取得されると、オプションの音声データとして、CPU20の制御により音声テーブル43に記憶されることで行われる。
また、記憶部28に記憶される出力閾値44は、音出力装置1から音を出力するタイミング及び音を出力する長さを決定するのに用いられる数値になっており、本実施形態では、圧力センサー30で検知するユーザの口から発せられる息の圧に対する数値が設定される。なお、出力閾値44の数値は、図示しない設定メニューにより複数段階で調整可能となっており(例えば、10段階)、この場合、例えば、息の圧が弱めのユーザは、1〜3段階のいずれかの数値に設定すると使い勝手が良くなり、息の圧が一般的なユーザは、4〜6段階のいずれかに数値の設定することが好ましく、息の圧が強めのユーザは、7〜10段階のいずれかの数値に設定することが好適である。
次に、記憶部28に記憶される音出力プログラム41について説明する。音出力プログラム41は、撮影処理、撮影結果に応じた母音種類特定処理、キー操作に基づく出力音の特定処理、特定した音の出力処理、撮影結果の登録処理、及びオプション音声の登録処理等を規定する。
図7、8に示すフローチャートは、音出力装置1による音の出力に関する一連の処理内容を示したものであり(音出力方法の処理内容に相当)、このフローチャートに示す各種処理が、記憶部28に記憶される音出力プログラム41の規定に基づいたCPU20の処理により行われる(音出力プログラム41の規定によりCPU20は、母音特定手段、子音特定手段等の各種手段として機能する)。
なお、図7のフローチャートは、図2のホーム画面6でアイコン7が選択されることで、図3のディスプレイパネル5に図3に示す音出力アプリ画面10が表示された状態からの処理を示している。また、音出力アプリ画面10に基づく音出力を行うにあたり、出力する音の種類は、デフォルト音(図4のデフォルト音声ボタン16aに応じた音声)になっていると共に、ユーザは図1に示すように、ディスプレイパネル5をユーザに向けた状態で音出力装置1を把持した状態で、各種操作等を行いながら、所望する音に応じた口の形にして適宜、息をはく動作を行うことになる。
まず、図7のフローチャートにおいて、音出力装置1(CPU20)は、音出力アプリ画面10の各キー11〜14又は背景部分10aで、ユーザによるタップ操作(選択操作)を受け付けたか否かを判断する(S1)。タップ操作を受け付けていない場合(S1:NO)、タップ操作待ちの状態となり、また、タップ操作を受け付けた場合(S1:YES)、音出力装置1(CPU20)は、カメラモジュール3により撮影を行う(S2)。なお、ユーザは、上記のタップ操作の際、出力した音に応じた口の形にしている。
そして、音出力装置1(CPU20)は、カメラモジュール3で撮影した撮影データの内容(ユーザの口の形等を示す撮影内容)と、口形テーブル42に格納される各母音口形データD1〜D5とを比較して、撮影内容に一致する母音口形データが有るか否かを判断する(S3)。なお、このS3の段階(ステップ)の比較判断は、撮影データが示すユーザの口の形、及び、口中の状況の形状(歯の見え方の形状、舌の見え方の形状など)と、各母音口形データD1〜D5が示す口の形、及び、口中の状況の形状(歯の見え方の形状、舌の見え方の形状など)とをパターンマッチング処理等を行って、両者の形を比較することで、一致度を判断する。また、S3の段階(ステップ)における一致度の判断の程度は、100%の一致度が要求されるものではなく、約70〜80%以上の一致度が確保されれば、両者は一致すると判断される。
一致する母音口形データが無い場合(S3:NO)、音出力装置1(CPU20)は、S1の段階(ステップ)でタップ操作を受け付けたのが、Nキー11dであるか否かを判断する(S13)。タップ操作を受け付けたのが、Nキー11dで無い場合(S13:NO)、出力する音が特定できないので、S1の最初の段階(ステップ)に処理を戻す。なお、このように出力する音を特定できなかった場合、「音が特定できませんでした。もう一度、操作等を行って下さい。」というようなユーザへの注意表示を、ディスプレイパネル5に表示するようにしてもよい。
また、S1の段階(ステップ)でタップ操作を受け付けたのが、Nキー11dである場合(S13:YES)、音出力装置1(CPU20)は、出力する音として、「ン」を特定し(S14)、S7の段階(ステップ)へ処理を進める。
一方、上述したS3の段階(ステップ)において、撮影内容に一致する母音口形データが有る場合(S3:YES)、音出力装置1(CPU20)は、口形テーブル42の中で、撮影内容に一致した母音口形データに対応付けられる「ア」〜「オ」のいずれかの母音(撮影内容に応じた母音に相当)を特定する(S4)。それから、S1の段階でタップ操作として、音出力アプリ画面10に含まれる各種音指定キー11〜14の中のいずれかのキー操作を受け付けたか否かを、音出力装置1(CPU20)は判断する(S5)。各種音指定キー11〜14の中のいずれかのキー操作を受け付けた場合(S5:YES)、音出力装置1(CPU20)は、キー操作を受け付けた音指定キーと、S4の段階で特定した母音に基づき、出力する音(母音を除く子音等)を特定する(S6)。
例えば、キー操作を受け付けたのがKキー11aであり、特定した母音が「ア」であれば、出力する音として、「カ」という子音を、S6の段階で音出力装置1(CPU20)は子音特定手段として特定する。また、キー操作を受け付けたのがSキー11bであり、特定した母音が「イ」であれば、出力する音として、「シ」という子音を、S6の段階で音出力装置1(CPU20)は特定する。さらに、キー操作を受け付けたのがTキー11cであり、特定した母音が「ウ」であれば、出力する音として、「ツ」という子音を、S6の段階で音出力装置1(CPU20)は特定する。さらにまた、キー操作を受け付けたのがNキー11dであり、特定した母音が「エ」であれば、出力する音として、「ネ」という子音を、S6の段階で音出力装置1(CPU20)は特定する。そしてまた、キー操作を受け付けたのがHキー11aであり、特定した母音が「オ」であれば、出力する音として、「ホ」という子音を、S6の段階で音出力装置1(CPU20)は特定する。
また、キー操作を受け付けたのがMキー11fであり、特定した母音が「オ」であれば、出力する音として、「モ」という子音を、S6の段階で音出力装置1(CPU20)は特定する。さらに、キー操作を受け付けたのがYキー11gであり、特定した母音が「ウ」であれば、出力する音として、「ユ」という子音を、S6の段階で音出力装置1(CPU20)は特定する。さらにまた、キー操作を受け付けたのがRキー11hであり、特定した母音が「エ」であれば、出力する音として、「レ」という子音を、S6の段階で音出力装置1(CPU20)は特定する。そしてまた、キー操作を受け付けたのがWキー11iであり、特定した母音が「ア」であれば、出力する音として、「ワ」という子音を、S6の段階で音出力装置1(CPU20)は特定する。
なお、ユーザのキー操作は、図1に示すように、ディスプレイパネル5に表示される各キー11、12、13、14を見ながら操作する以外に、キー操作に対するユーザの習熟度が高まれば、ディスプレイパネル5の各キー11、12、13、14を見ずに、ブラインドタッチでキー操作を行うことも可能となる。このようにブラインドタッチでキー操作を行える場合は、ユーザは、相手の人の顔を見ながら、口を所望の形に変形してブラインとタッチでキー操作を行うことになるので、より実際の会話の状態に近い状況を実現できる(ブラインドタッチのキー操作を行うときは、音出力装置1を、図1に示す状態に比べて、ユーザの口の方へ近づけると、口の撮影が行いやすくなるので好適である)。
また、S5の段階で、各種音指定キー11〜14の中のいずれかのキー操作が無かった場合(S5:NO)、この場合は、各キー11〜15を配置する背景部分10aのタップ操作があったときに該当し、音出力装置1(CPU20)は、S4の段階で特定した母音を、出力する音として特定する(S15)。
上述したS6、14、又は15の段階で、出力する音を特定した後、図8のフローチャートに示すように、音出力装置1(CPU20)は、圧力センサー30で測定したユーザの息の圧の測定値を、記憶部28に記憶される出力閾値44と比較し、息の圧が出力閾値44を上回ったか否かを判断する(S7)。息の圧が出力閾値44を超過しない場合(S7:NO)、超過するのを待つ状態となり、息の圧が出力閾値44を超過した(上回る)場合(S7:YES)、音出力装置1(CPU20)は、S6、14、又は15の段階で、特定した音をスピーカー4bから出力することを開始する(S8)。
特定した音を出力してからも、音出力装置1(CPU20)は、圧力センサー30で測定したユーザの息の圧を、記憶部28に記憶される出力閾値44と比較し、息の圧が出力閾値44を超過するか否かを判断する(S9)。息の圧が出力閾値44を超過している場合(S9:YES)、S8の段階に戻り、スピーカー4bからの音の出力を継続する。また、息の圧が出力閾値44の数値以下となった場合(S9:NO)、音出力装置1(CPU20)は、音の出力を停止する(S10)。よって、ユーザは、口からはく息の出す勢いで、音を出力するタイミングを調整でき、また、所定の勢い以上の息を出す時間により、出力する音の伸ばし具合を調整できることになる(特定した音を、長音にするか否かをユーザが調整できる)。
それから、音出力装置1(CPU20)は、図3の音出力アプリ画面10の登録キー15aの選択操作を受け付けたか否かを判断しており(S11)、登録キー15aの選択操作を受け付けた場合(S11:YES)、S2の段階で撮影した撮影内容を示す撮影データを、S4の段階で特定した母音に対応付けて(母音口形データとして)、口形テーブル42に登録(格納)する処理を行う(S16)。
登録キー15aの選択操作を受け付けなかった場合(S11:NO)、又は、S16の段階で、撮影データの登録(記憶)を行った場合、音出力装置1(CPU20)は、音出力プログラム41の起動を終了する操作(終了操作)を受け付けたか否かを判断する(S12)。終了操作を受け付けていない場合、最初のS1の段階へ処理を戻すので、終了操作を受け付けない限り、上述したS1の段階からの処理を繰り返す。それにより、ユーザは、一音単位で音を特定する処理を再び行うことが可能となり、このような処理を続けることで、所望の単語、及び文章等を構成する一連の各音を連続的に音出力装置1から出力し、結果として、所望の単語及び文章等も音で出力可能にしている。なお、終了操作を受け付けた場合(S12:YES)、音出力装置1は、音出力プログラム41の起動を終了し、図7、8に示すフローチャートの処理を一旦終了する。
記憶部28に記憶される音出力プログラム41は、上述した図7、8のフローチャートに示す処理内容を規定すると共に、音の種類の切替処理、及びオプション音声の録音登録処理も規定する。具体的に音の種類の切替処理として、図3の音出力アプリ画面10で音声設定キー15bの選択操作を、音出力装置1(CPU20)が受け付けると、ディスプレイパネル5の表示を図4の音種設定画面16に切り替える。そして、音種設定画面16に含まれる各音声ボタン16b等のいずれかの選択操作を受け付けると、音出力装置1(CPU20)は、選択操作を受け付けた音声ボタン16b等に応じた音の種類を、上述したフローチャートのS8の段階での出力音に用いることになる。
また、図4の音種設定画面16をディスプレイパネル5に表示している場合で、録音ボタン17aの選択操作を、音出力装置1(CPU20)が受け付けると、その選択操作の際に、マイク4aで取得した音をオプション音声データとして音声テーブル43の中に記憶し、その周波数特性を分析して、各母音、子音等に応じた音データを音声合成により生成し、それらの生成した各音データも音声テーブル43に、オプション音声データとして記憶する。このように取得した音声は、音種設定画面16で、オプション音声ボタン16fを選択することで、出力音に使用できるようになる。
なお、本発明に係る音出力装置は、上述した形態のものに限定されることはなく、種々の変形例が考えられる。例えば、上述した内容では、「ン」の音は、口形テーブル42の中に一致する口形データが無くて、Nキー11dの選択操作を受け付けた場合に、出力するようにしていたが、口形テーブル42の中に、「ン」の口の形に応じた口形データを、「ン」に対応づけて記憶し、音出力アプリ画面10の背景部分10aの選択操作を受け付けた場合で、撮影内容が「ン」に対応付けられた口形データに一致したときに、「ン」の音を出力する仕様にしてもよい。
また、上記の内容において、母音特定のための口の形の撮影は、静止画を一度、撮影するようにしていたが(例えば、図7のフローチャートのS2の段階を参照)、連写的に撮影を行って、複数枚の静止画に応じた複数の撮影データを取得し、これら複数の撮影データの各撮影内容を、口形テーブル42に格納される各母音口形データと比較して、ユーザの出力したい音に応じた母音を特定するようにしてもよい。すなわち、一枚のみの撮影の場合は、撮影のタイミングによっては、ユーザの口の形が不完全なときに撮影される可能性も生じるが、上記のように、複数の撮影内容を取得すれば、複数のタイミングで撮影するので、いずれかのタイミングで撮影したユーザの口の形は、ユーザの意図した音に応じた形状になっている可能性が高くなり、それにより、母音特定の精度を向上できるメリットがある。
さらに、母音特定のための口の形の撮影は、所定時間に応じた動画撮影(例えば、2〜4秒程度の動画。動画を構成する単位時間あたりのフレーム数としては60フレーム/秒、30フレーム/秒、又は15フレーム/秒などを適用可能)を用いるようにしてもよく、このように動画撮影を行う場合は、口形テーブル42に格納される各母音口形データも動画データにして、ユーザの意図する音に応じた口の形へ変化する過程も、比較対象にすることで、より広範な比較を行って母音特定精度の向上を図れる。この場合、口の形の変化以外に、口の中の状況の変化(歯の見え方の変化、舌の見え方の変化など)、口の周囲の状況の変化(下あごの動き方など)も比較対象として用いることが好ましい。なお、動画同士の比較には、各種パターンマッチングの技術に加えて、モーションキャプチャ的な技術も利用して比較処理を行うことになる。
さらにまた、上述した内容において、口形テーブル42に格納する母音口形データD1〜D5はデフォルトで一種類にしていたが、各母音に対して、様々な人の口形を示す口形データを複数種類、口形テーブル42に予め記憶しておき、上述した図7、8に示すフローチャートの処理を繰り返すことで、撮影内容に一致する口形データの頻度等を機械学習により特定し、一致度の高い口形データを優先的に用いるようにすれば、母音特定の処理の効率化及び精度向上等に役立てられる。
また、母音特定の処理について所要の精度を確保するには、母音口形データによる口の形等は同じであるが、明度や彩度等の異なる複数種類のパターンを母音ごとに口形テーブル42へ格納しておくことも好適となる。すなわち、カメラモジュール3で撮影を行う撮影状況としては、明るい場所、暗い場所など様々な状況が想定される。そのため、どのような撮影状況において、一定の母音特定精度を確保できるように、上述したように明度等を相違させたパターンの口形データを口形テーブル42に記憶しておき、これらの各パターンと撮影内容を比較することが実践的に有用となる。なお、明度等が異なる複数パターンの口形データを口形テーブル42に記憶するのが困難なときなどは、撮影データに応じた撮影内容を、口形テーブル42に記憶される口形データの明度等に合うように変化させる画像処理等を行ってから、両者の比較処理を行うようにしてもよい。
さらにまた、母音特定処理の精度確保のためには、正面から口の形等を示す母音口形データに加えて、正面に対して斜めとなる方向から口の形等を示す母音口形データを母音ごとに口形テーブル42に格納しておくことも有効である。すなわち、図1のようにして、ユーザの口を撮影する場合、口に対して斜め方向から撮影してしまうことも生じ得るので、このような場合の撮影結果に対しても所要の処理精度を確保するためには、斜め方向から口の形等を示す母音口形データも記憶しておき、立体的に両者の比較を行うことが、母音特定の処理精度を維持する上で重要となる。さらに、上述した明度等の異なる口形データ、及び斜め方向からの口形データなどのように多様な複数種類のパターンの口形データを口形テーブル42に格納した場合は、上述した機械学習を行って、一致度の高い口形データを絞り込んで優先的に処理に用いることが好ましい。
一方、母音特定処理の処理負担を低減する場合は、上述した処理(静止画を用いた処理と、動画を用いた処理の両方を含む)では、口の形に加えて、口中の状況の形状(歯の見え方の形状、舌の見え方の形状など)も比較対象にしていたが、口中の状況の形状は比較対象から外して、口の形のみを比較対象にしてもよい。
また、スピーカー4bから出力する音の音量は、基本的に、音出力装置1を構成するスマートフォンが具備する音量調整機能(音量調整ボタンによる音量調整機能)を利用したものになるが、ユーザの発声支援、発声トレーニングを促すという観点より、ユーザが口から出す息の圧に応じて、スピーカー4bから出力する音の音量を特定して調整するようにしてもよい。この場合、記憶部38には、音量判定用となる複数段階(例えば、10段階)に応じた閾値を予め記憶しておき、圧力センサー30で測定した息の圧の数値と、音量判定用の閾値とを対比して、息の圧が10段階の中のいずれの程度になるかを判断し、その判断した程度と同程度に音量を特定し、その特定した音量でスピーカー4bからの音出力を行うことになる(例えば、息の圧が10段階中の4段階であれば、最小音量から最大音量を10段階とした中の4段階の音量にする)。
さらに、上述した説明では、圧力センサー30の測定により、音を出力するタイミング、音を出力する時間を決定していたが、圧力センサー30を省略する構成を適用することも考えられる。この場合、図7のフローチャートのS1の段階で、音出力アプリ画面10の各キー11〜14又は背景部分10aで、ユーザによる選択操作の受付をトリガーにして、音の出力を開始すると共に、各キー11〜14又は背景部分10aの選択操作を受け付けている間、音を出力するようにして、圧力センサー30が無くても、音の出力タイミング及び音の出力時間をユーザがコントロールできるようにする。
また、図3に示すディスプレイパネル5に表示される各キー11、12、13、14の配置パターンは単なる一例であり、他の配置パターンを適用することも勿論可能である。さらにまた、ディスプレイパネル5に表示される各キー11、12、13、14は、ユーザの使い勝手に応じて、位置を適宜、移動可能にした仕様にしてもよい。例えば、位置を移動させたいキーをロングタップ(移動させたキーを指で一秒以上タッチする操作)し、そのままの状態から所望の位置までドラッグ(ロングタップしたまま、指を離さずに移動する操作)を行うことで、各キーの位置を移動可能にすることが考えられる。このように各キーの位置を移動可能にすると、ブラインドタッチを行いやすい位置にキーを移動させることや、右親指をメインにしてキー操作を行うユーザは、ディスプレイパネル5の右辺側を中心にキー配置を行って、右親指の届きやすい範囲に各キーを位置させること等が考えられる。
また、子音等の特定には、図3に示す各キー11〜14を用いるのでは無く、例えば、ユーザの口から吐かれる息の量(呼気流量)を、圧力センサー30等の各種センサーで測定することで、測定した息の量に応じて子音等を特定することも可能である。さらには、子音の種類特定に対して、ウェアラブルデバイス等のセンサーを利用することも想定できる。例えば、口腔内圧を測定するセンサー(電子皮膚等により口腔内圧の筋電図を測定するセンサー)を新たに設けることで、口腔内圧に応じて子音等を特定する仕様にしてもよい。さらにまた、出力する音を特定した場合(図7のフローチャートのS6、S14、S15の段階)、その特定した音を示す文字をディスプレイパネル5に表示して、出力する音をユーザがディスプレイパネル5で確認できるようにしてもよい。
そして、本発明に係る音の出力は、スピーカー4bから音を出すこと以外に、通信機能を有する音出力装置1が通信を行う相手先に、特定した音を送信し、その送信先の通信装置から音を出力するという意味合いも含むものとする。そしてまた、本発明に係る音出力装置1は、スマートフォンを用いた構成以外にも、図5に示すような構成を専用のハード装置として作り上げる仕様にしてもよい。また、上述した複数の各種変形例は適宜、組み合わせて用いることも勿論可能である。
本発明は、一音単位でユーザの所望する音の出力を可能にしたので、特に、話そうとする最初の言葉の音が出にくい人に対する発声の補助支援、及びトレーニング等に対し好適に利用可能である。
1 音出力装置
3 カメラモジュール
4a マイク
4b スピーカー
5 ディスプレイパネル
10 音出力アプリ画面
10a 背景部分
11〜14 音指定キー
15a 登録キー
15b 音声設定キー
16 音種設定画面
16f〜16d 音声ボタン
17a 録音ボタン
20 CPU
28 記憶部
30 圧力センサー
41 音出力プログラム
42 口形テーブル
D1〜D5 母音口形データ



Claims (8)

  1. 撮影手段及び音出力手段を有する音出力装置において、
    母音に応じた口の形を示す母音口形データを記憶する記憶部と、
    前記撮影手段で撮影したユーザの口の撮影内容を前記記憶部に記憶する母音口形データと比較して、撮影内容に応じた母音を特定する母音特定手段と、
    子音の種類の指定を受け付ける子音種類指定手段と、
    前記子音種類指定手段が指定を受け付けた子音の種類、及び前記母音特定手段が特定した母音に基づき、出力する子音を特定する子音特定手段と
    を備え、
    前記子音特定手段が特定した子音を前記音出力手段から出力することを特徴とする音出力装置。
  2. ユーザの口から発せられる気体に係る値の測定を行う測定手段と、
    前記測定手段が測定した測定値を、予め記憶した閾値と比較する比較手段と
    を備え、
    前記比較手段の比較により、測定値が前記閾値を上回る場合、前記音出力手段から音を出力する請求項1に記載の音出力装置。
  3. 前記比較手段の比較により、測定値が前記閾値を上回る間、前記音出力手段からの音の出力を継続する請求項2に記載の音出力装置。
  4. 前記測定手段が測定した測定値に応じて、前記音出力手段の出力に係る音量を特定する音量特定手段を備え、
    前記音出力手段は、前記音量特定手段が特定した音量で音を出力する請求項2又は請求項3に記載の音出力装置。
  5. 出力する音の種類の選択を受け付ける音種選択手段を備え、
    前記音出力手段は、前記音種選択手段が受け付けた音の種類で音を出力する請求項1乃至請求項4のいずれか1項に記載の音出力装置。
  6. 撮影内容の登録指示を受け付ける登録手段と、
    前記音出力手段から音の出力を行った場合に、前記登録手段が登録指示を受け付けたとき、前記音出力手段からの出力音に応じた前記撮影手段による撮影内容を、前記出力音に係る母音の母音口形データとして前記記憶部に記憶する処理を行う手段と
    を備える請求項1乃至請求項5のいずれか1項に記載の音出力装置。
  7. 撮影手段と、音出力手段と、母音に応じた口の形を示す母音口形データを記憶する記憶部とを有する音出力装置が、前記音出力手段から音を出力する音出力方法において、
    前記音出力装置は、
    前記撮影手段で撮影したユーザの口の撮影内容を前記記憶部に記憶する母音口形データと比較して、撮影内容に応じた母音を特定するステップと、
    子音の種類の指定を受け付けるステップと、
    前記子音種類指定手段が指定を受け付けた子音の種類、及び前記母音特定手段が特定した母音に基づき、出力する子音を特定するステップと、
    特定した子音を前記音出力手段から出力するステップと
    を実行することを特徴とする音出力方法。
  8. 撮影手段と、音出力手段と、母音に応じた口の形を示す母音口形データを記憶する記憶部とを有するコンピュータに、前記音出力手段から音を出力する処理を実行させるためのコンピュータプログラムにおいて、
    前記コンピュータに、
    前記撮影手段で撮影したユーザの口の撮影内容を前記記憶部に記憶する母音口形データと比較して、撮影内容に応じた母音を特定するステップと、
    子音の種類の指定を受け付けるステップと、
    前記子音種類指定手段が指定を受け付けた子音の種類、及び前記母音特定手段が特定した母音に基づき、出力する子音を特定するステップと、
    特定した子音を前記音出力手段から出力するステップと
    を実行させることを特徴とするコンピュータプログラム。



JP2018209375A 2018-11-07 2018-11-07 音出力装置、音出力方法、及びコンピュータプログラム Pending JP2020076846A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018209375A JP2020076846A (ja) 2018-11-07 2018-11-07 音出力装置、音出力方法、及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018209375A JP2020076846A (ja) 2018-11-07 2018-11-07 音出力装置、音出力方法、及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2020076846A true JP2020076846A (ja) 2020-05-21

Family

ID=70723987

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018209375A Pending JP2020076846A (ja) 2018-11-07 2018-11-07 音出力装置、音出力方法、及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2020076846A (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004271620A (ja) * 2003-03-05 2004-09-30 Yamaha Corp 携帯端末
JP2005108079A (ja) * 2003-10-01 2005-04-21 Sharp Corp かな文字入力装置、かな文字入力方法、プログラムおよび記録媒体
JP2006276470A (ja) * 2005-03-29 2006-10-12 Nec Corp 音声通話装置および音声通話システム
JP2009251199A (ja) * 2008-04-04 2009-10-29 Oki Electric Ind Co Ltd 音声合成装置、方法及びプログラム
JP2015172848A (ja) * 2014-03-12 2015-10-01 株式会社ゼンリンデータコム 読唇入力装置、読唇入力方法及び読唇入力プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004271620A (ja) * 2003-03-05 2004-09-30 Yamaha Corp 携帯端末
JP2005108079A (ja) * 2003-10-01 2005-04-21 Sharp Corp かな文字入力装置、かな文字入力方法、プログラムおよび記録媒体
JP2006276470A (ja) * 2005-03-29 2006-10-12 Nec Corp 音声通話装置および音声通話システム
JP2009251199A (ja) * 2008-04-04 2009-10-29 Oki Electric Ind Co Ltd 音声合成装置、方法及びプログラム
JP2015172848A (ja) * 2014-03-12 2015-10-01 株式会社ゼンリンデータコム 読唇入力装置、読唇入力方法及び読唇入力プログラム

Similar Documents

Publication Publication Date Title
JP2021044001A (ja) 情報処理システム、制御方法、およびプログラム
US10741172B2 (en) Conference system, conference system control method, and program
JPH09138767A (ja) 感情表現の通信装置
US20170337919A1 (en) Information processing apparatus, information processing method, and program
JP6176041B2 (ja) 情報処理装置及びプログラム
JP2012146209A (ja) 電子機器および電子機器の制御プログラム
WO2018158852A1 (ja) 通話システム及びコミュニケーションシステム
JP6730651B1 (ja) 音声変換装置、音声変換システム及びプログラム
JP2010176544A (ja) 会議支援装置
JP6874437B2 (ja) コミュニケーションロボット、プログラム及びシステム
JP2016021259A (ja) 電子機器および電子機器の制御プログラム
JP2020076846A (ja) 音出力装置、音出力方法、及びコンピュータプログラム
KR20210100831A (ko) 인공지능 기반 수어통역 서비스 제공 시스템 및 방법
JP2014149571A (ja) コンテンツ検索装置
JP2021051693A (ja) 発話システム、発話推薦装置、発話推薦プログラムおよび発話推薦方法
JP2023046590A (ja) 表示方法、表示装置、及び、表示システム
KR20160028868A (ko) 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템 및 음성 합성 방법
JP5811537B2 (ja) 電子機器
JP2005196645A (ja) 情報提示システム、情報提示装置、及び情報提示プログラム
JP4254400B2 (ja) 画像生成装置およびその画像生成方法、ならびにコンピュータ読み取り可能な記録媒体
JP6582157B1 (ja) 音声処理装置、およびプログラム
KR20210100832A (ko) 사용자의 감정상태를 판단하는 인공지능 기반 수어통역 서비스 제공 시스템 및 방법
JP6977463B2 (ja) 通信装置、通信システムおよびプログラム
JP2000194252A (ja) 理想行動支援装置及びその方法及びそのシステム並びに記憶媒体
JP2020056935A (ja) ロボットの制御装置、ロボット、ロボットの制御方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190522

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200707

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200826

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210413