JP2016031534A - 発話認識システム、発話認識装置、および発話認識方法 - Google Patents

発話認識システム、発話認識装置、および発話認識方法 Download PDF

Info

Publication number
JP2016031534A
JP2016031534A JP2015146577A JP2015146577A JP2016031534A JP 2016031534 A JP2016031534 A JP 2016031534A JP 2015146577 A JP2015146577 A JP 2015146577A JP 2015146577 A JP2015146577 A JP 2015146577A JP 2016031534 A JP2016031534 A JP 2016031534A
Authority
JP
Japan
Prior art keywords
utterance
subject
signal
distance
tongue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015146577A
Other languages
English (en)
Inventor
チン フォン リウ
Liu Ching-Feng
チン フォン リウ
シアオ ハン チェン
Chen Hsiao-Han
シアオ ハン チェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ching Feng LIU
Hsiao Han Chen
Original Assignee
Ching Feng LIU
Hsiao Han Chen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from TW103125713 external-priority
Application filed by Ching Feng LIU, Hsiao Han Chen filed Critical Ching Feng LIU
Publication of JP2016031534A publication Critical patent/JP2016031534A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Abstract

【課題】構音障害を有する人に発話認識システムを提供する。【解決手段】発話認識システムは、対象者に用いられ、装身具3と、画像取得装置4と、口腔内検知装置5と発話認識装置とを含む。画像取得装置4は、対象者の唇の画像を対象者の発話中に取得する。口腔内検知装置5は、対象者の舌との接触と対象者の舌との距離を検知して接触信号と距離信号とを生成する。発話認識装置は、唇の画像と接触信号と距離信号とを処理して対象者の発話内容を取得する。【選択図】図1

Description

(関連する出願の相互参照)
本出願は、2014年7月28日に出願された台湾特許出願第103125713号と、2015年3月24日に出願された台湾特許出願第104109414号との優先権を主張する。
本発明は、発話認識システムおよび発話認識装置に関する。
人の発話は、身体の多くの器官の間における協調の結果であり、これら器官には呼吸器官、構音器官、種々の関連筋肉および神経が含まれる。これらの器官に関連する神経へのダメージは、器官の機能障害そして正常な発音への困難をもたらし、当人の発話が他者にとって理解不能となる状況につながる。このような状況は、一般に構音障害(dysarthria)と呼ばれている。
ただ、構音障害を有する人は、通常、言語に対する認知に問題はなく、しかもある単語を発しようとする際の発音は大抵一貫している。
発話が理解不能となる状況に対処するための方法がいくつか応用されている。例えば、欧州特許第2737480号は、患者の発話音声を変換するためのシステムと方法を開示している。中国特許出願番号104123934は、音声に関するサンプル信号を取得し、そのサンプル信号中の特定の音節と単音節の音調との組み合わせを認識するためにサンプル信号を処理するためのシステムおよび方法を開示している。
そこで、本発明の目的は、構音障害を有する人に発話認識システムを提供することにある。
本発明によると、発話認識システムは、対象者に用いられるものであって、画像取得装置と、口腔内検知装置と、発話認識装置とを具える。
前記画像取得装置は、前記対象者の発話中に前記対象者の唇の画像を継続的に取得するものである。前記口腔内検知装置は、装着座と、接触検知ユニットと、距離検知ユニットとを含む。
前記装着座は、前記対象者の口腔内で前記対象者の口蓋に装着されるように構成されている。前記接触検知ユニットは、前記装着座に配置され、前記対象者の発話中に前記対象者の舌との接触を検知してその前記舌との接触に基づいて接触信号を生成するように構成されている。前記距離検知ユニットは、前記装着座に配置され、前記対象者の舌との距離を検知してその前記舌との距離に基づいて距離信号を生成するように構成されている。
前記発話認識装置は、前記対象者の唇の画像と、前記接触信号と、前記距離信号とをそれぞれ受信するように、前記画像取得装置と前記口腔内検知装置とに接続されている。前記発話認識装置は、前記唇の画像と前記接触信号と前記距離信号とを処理して前記対象者の発話内容を取得するようにプログラムされている。
また、本発明の目的は、発話認識処理を行なうことができる発話認識装置を提供することにもある。
本発明によると、発話認識装置は、画像取得装置に接続されて、前記対象者の発話中に前記画像取得装置から対象者の唇の画像を受信する。前記発話認識装置はまた、口腔内検知装置に接続されて、接触信号と距離信号とを受信する。前記接触信号は、前記対象者の発話中における前記口腔内検知装置の前記対象者の舌との接触に関連し、前記距離信号は、前記対象者の発話中における前記口腔内検知装置の前記舌との距離に関連する。前記発話認識装置は、唇動作分析モジュールと、接触分析モジュールと、距離分析モジュールと、パラメータ収集モジュールとを含む。
前記唇動作分析モジュールは、前記唇の異なる動作にそれぞれ関連付けられている複数の唇パラメータを保存している。前記唇動作分析モジュールは、前記唇の画像を解析して前記対象者の発話中に前記唇のいずれの動作が生じたかを判断し、その前記唇の動作に関連付けられている、対応の一つの前記唇パラメータを取得するようにプログラムされている。
前記接触分析モジュールは、前記舌との異なる接触パターンにそれぞれ関連付けられている複数の口蓋パラメータを保存している。前記接触分析モジュールは、前記接触信号を解析して発話中に舌とのいずれの接触パターンが発生したかを判断し、その接触パターンに関連付けられている、対応の一つの前記口蓋パラメータを取得できるようにプログラムされている
前記距離分析モジュールは、前記距離検知ユニットと前記対象者の舌との距離の異なる変化パターンにそれぞれ関連付けられている複数の舌パラメータを保存している。前記距離分析モジュールは、前記距離信号を解析して発話中にいずれの距離変化パターンが発生したかを判断し、その距離変化パターンに関連付けられている、対応の一つの前記舌パラメータを取得できるようにプログラムされている。
前記パラメータ収集モジュールは、前記対応の一つの前記唇パラメータと、前記対応の一つの前記口蓋パラメータと、前記対応の一つの前記舌パラメータとを収集して前記対象者の発話内容に対応する発話パラメータセットを生成するようにプログラムされている。
更に、本発明の目的は、上記の発話認識装置を用いて実行される発話認識方法を提供することにもある。
本発明によると、発話認識方法は、
前記画像取得装置によって前記対象者の発話中に前記対象者の唇の画像を継続的に取得するステップと、
前記口腔内検知装置によって前記対象者の舌との接触を検知して、その前記舌との接触に基づいて接触信号を生成するステップと、
前記口腔内検知装置によって前記対象者の発話中に前記対象者の舌との距離を検知して、その前記舌との距離に基づいて距離信号を生成するステップと、
前記発話認識装置によって前記対象者の唇の画像を前記画像取得装置から受信すると共に前記口腔内検知装置から前記接触信号と前記距離信号とを受信するステップと、
前記発話認識装置によって前記唇の画像と前記接触信号と前記距離信号とを処理して前記対象者の発話内容を取得するステップと、を具える。
本発明の他の特徴および利点は、添付の図面を参照する以下の実施形態の詳細な説明において明白になるであろう。
本発明の第1の実施形態の発話認識システムを示す。 対象者が図1の発話認識システムを着用したところを示す。 第1の実施形態の発話認識システムのブロック図である。 発話認識システムの口腔内検知装置を示す。 対象者の口腔に配置された口腔内検知装置を示す。 本発明の第2の実施形態の発話認識システムを示す。 第2の実施形態の発話認識システムのブロック図である。 本発明の第3の実施形態の発話認識システムを示す。 第3の実施形態の発話認識システムのブロック図である。 第1の実施形態の発話認識システムによって実行される発話認識方法の手順を示すフローチャートを示す。
以下、本発明をより詳しく説明する。なお、類似の構成要素については本発明全体を通して同一番号が付されている。
図1は、本発明の第1の実施形態に係る発話認識システムを示している。発話認識システムは、構音障害を有する対象者900(図2参照)に用いられる。
発話認識システムは、装身具3と、画像取得装置4と、口腔内検知装置5と、発話認識装置6(図3参照)と、出力装置7とを含む。
更に図2に示されているように、本実施形態での発話認識システムにおいて、装身具3は、主要部31と、一対の連結部32と、延伸部33とを含む。主要部31は、C字型になっていて対象者900の頭部901に装着される。連結部32は主要部31の両端にそれぞれ設けられている。延伸部33は、いずれかの連結部32に連結されていると共に連結部32から前方に延伸しており、可撓性のある材料からなっている。更に、延伸部33には、データを伝送するためのケーブルワイヤ (図示せず)が入っている。
なお、本実施形態において、装身具3は一対の耳あてとして構成されているが、他の実施形態においては、眼鏡として構成することもできる。更に他の実施形態において、装身具3は連結部32を一つだけ有してもよい。
画像取得装置4は、延伸部33の自由端(即ち連結部32に連結されていない側)に設けられ、対象者900の発話中の唇902の画像を継続的に取得できるように構成されている。延伸部33は、画像取得装置4を適当な位置、例えば対象者900の唇902の真正面に配置するべく調整することができる。 画像取得装置4により取得された画像は延伸部33内のケーブルワイヤを介して伝送することができる。
口腔内検知装置5は、図3および図5に示されているように、装着座51と、接触検知ユニット52と、距離検知ユニット53と、気流検知ユニット54と、第1の通信ユニット55とを含む。
装着座51は、対象者900の口蓋904および上歯906の形状に合うように形成されている。具体的には、装着座51は、対象者900の口腔903に装着された際に、対象者900の上歯906に係合し且つ口蓋904に当接するように形成されている。装着座51を固定するために追加の構成部材として例えば粘着物や位置決め部材を用いることも可能である。つまり、装着座51は、発話する際の対象者900の口蓋904および上歯906の“代役”を果たすものとなる。
接触検知ユニット52は、装着座51に設けられ、対象者900の発話中に対象者900の舌905に接触されたことを検知すると共に、その接触に基づいて接触信号を生成するように構成されている。接触検知ユニット52は、互いに間隔を置いた複数の圧力センサ521(図3では図面の単純化のため一つだけ図示)と、信号プロセッサ522とを含む。
本実施形態では、圧力センサ521は装着座51の底面に設けられている。該底面は、装着座51が対象者900の口蓋904に装着された際に舌905に向かう面である。なお、他の実施形態では、圧力センサ521は装着座51に組み込まれてもよい。
使用に当たって、圧力センサ521はそれぞれ舌905に接触されると圧力検知信号を出力するように構成される。各々の圧力センサ521からの圧力検知信号には、舌905と接触した回数や舌905との接触による圧力の度合いといったデータが含まれる。
信号プロセッサ522は、対象者900の発話中に対象者900の舌905に接触されたことに基づいて圧力検知信号を処理して接触信号を生成するように構成されている。接触信号には各圧力センサ521によって検知された舌905との接触による圧力の度合いと接触の回数、および、それぞれの圧力センサ521から圧力検知信号を受け取った順番(即ち、複数の圧力センサ521における舌905に接触された順番)を含む。従って、接触検知ユニット52が設けられた装着座51が口蓋904および上歯906の代役を果たすので、対象者900の発話中の口蓋904および上歯906に対する舌905の動き、例えば舌905と口蓋904/上歯906との接触パターンや、接触位置、接触強度などを、接触信号により示すことができる。
距離検知ユニット53は、装着座51に設けられ、対象者900の舌905からの距離を検知すると共に検知した距離に基づいて距離信号を生成するように構成されている。距離検知ユニット53は、互いに間隔を置いた複数の距離センサ531(図3では図面の単純化のため一つだけ図示)と、信号プロセッサ532とを含む。
距離センサ531は、装着座51の底面に設けられ、装着座51の中心線に沿って並べられている。即ち、距離センサ531は、装着座51が対象者900の口蓋904に装着された時に舌905の前後方向に並ぶ。距離センサ531は、舌905からの距離を検知すると共に距離検知信号を出力するようにそれぞれ構成されている。
使用に当たって、各々の距離センサ531は、探査信号(例えば光信号)を舌905に向けて発し、探査信号の舌905からの反射に基づいて距離検知信号を出力できる。距離センサ531により出力された距離検知信号を用いることにより、信号プロセッサ532は、対象者の発話中の舌905とそれぞれの距離センサ531との距離を測定し、距離信号を生成することができる。同様に、距離検知ユニット53が設けられた装着座51が口蓋904の代役を果たすので、発話中の口蓋904と舌905との距離の変化パターンを距離信号により示すことができる。
気流検知ユニット54は、装着座51の前部に設けられ、装着座51が対象者900の口蓋904に装着された時に口腔903内に露出する。気流検知ユニット54は、対象者900の発話中の口腔903内における気流を検知するためのものであり、検知した気流に基づいて気流信号を生成するように構成されている。
第1の通信ユニット55は、接触検知ユニット52、距離検知ユニット53、気流検知ユニット54によりそれぞれ生成された信号を発話認識装置6に伝送するために、発話認識装置6にワイヤレスで接続される。第1の通信ユニット55と発話認識装置6との間でのデータ伝送は、ANT+プロトコル、ブルートゥース(登録商標)、ZigBee(登録商標)、近距離無線通信(NFC)などを通して行なうことができる。
本実施形態においては、第1の通信ユニット55と、信号プロセッサ522、532とは、装着座51に嵌め込まれた回路基板50に統合されている。
図1〜図3に示されているように、発話認識装置6は、装身具3に取り付けられており、第2の通信ユニット61、スイッチユニット62、発話認識ユニット63、送信ポート64、記憶媒体65を含む。
第2の通信ユニット61は、第1の通信ユニット55と通信可能となっている。即ち、第2の通信ユニット61は、接触検知ユニット52からの接触信号、距離検知ユニット53からの距離信号、気流検知ユニット54からの気流信号をそれぞれ受信できる。第2の通信ユニット61は更に例えば伝送ケーブルを用いて画像取得装置4と接続され、唇902の画像を受信する。受信されたデータは記憶媒体65に記憶される。
スイッチユニット62は、手動スイッチ621を含む。手動スイッチ621がオンに切り替えられると、起動コマンドが画像取得装置4と口腔内検知装置5とに送信され、これら装置が起動し、対象者900の唇902の画像と、接触信号と、距離信号と、気流信号とが取得される。
発話認識ユニット63は、データベース631と、唇動作分析モジュール632と、接触分析モジュール633と、距離分析モジュール634と、気流解析モジュール635と、パラメータ収集モジュール636と、発話合成モジュール637と、単語検索モジュール638とを含む。
データベース631には、複数の発話パラメータセットと、それぞれ各発話パラメータセットと関連付けられた複数の発音データセットと、発音データセットの少なくとも一つの特定の組み合わせとそれぞれ関連付けられた複数の単語データセットとが保存されている。
本実施形態においては、各々の発音データセットは、発話音の単位である音節に個別に関連付けられており、各々の単語データセットは、一つまたはそれ以上の音節の特定の組み合わせである一つの単語に関連付けられている。
唇動作分析モジュール632には、唇902の異なる動作にそれぞれ関連付けられている複数の唇パラメータが保存されている。唇動作分析モジュール632は、唇902の画像を解析して対象者900の発話中に唇902においていずれの動作が生じたかを判断する上に、その唇902の動作に関連付けられている対応の一つの唇パラメータを取得できるようにプログラムされている。
接触分析モジュール633には、舌905との異なる接触パターンにそれぞれ関連付けられている複数の口蓋パラメータが保存されている。接触分析モジュール633は、接触信号を解析して発話中に舌905とのいずれの接触パターンが発生したかを判断する上に、その接触パターンに関連付けられている対応の一つの口蓋パラメータを取得できるようにプログラムされている。
距離分析モジュール634には、複数の舌パラメータが保存されている。舌パラメータは、距離検知ユニット53と対象者900の舌905との距離(即ち、口蓋904と舌905との距離)の異なる変化パターンにそれぞれ関連付けられている。距離分析モジュール634は、距離信号を解析して発話中にいずれの距離変化パターンが発生したかを判断する上に、その距離変化パターンに関連付けられている対応の一つの舌パラメータを取得できるようにプログラムされている。
気流解析モジュール635には、対象者900の口腔903内における気流の異なる変化パターンにそれぞれ関連付けられている複数の気流パラメータが保存されている。気流解析モジュール635は、気流信号を解析して発話中の口腔903内においていずれの気流変化パターンが発生したかを判断する上に、その気流変化パターンに関連付けられている対応の一つの気流パラメータを取得できるようにプログラムされている。
パラメータ収集モジュール636は、唇動作分析モジュール632により取得された唇パラメータ、接触分析モジュール633により取得された口蓋パラメータ、距離分析モジュール634により取得された舌パラメータ、気流解析モジュール635により取得された気流パラメータを収集して、それらパラメータを基に発話の内容に対応する発話パラメータセットを生成するようにプログラムされている。
発話合成モジュール637は、パラメータ収集モジュール636により生成された発話パラメータセットを、データベース631に保存されている発話パラメータセットとそれぞれ比較して、パラメータ収集モジュール636により生成された発話パラメータセットと一致する発話パラメータセットに関連付けられた一つの発音データセットを取得して、少なくともその一つの取得された発音データセットから合成発音信号を生成すると共に、この合成発音信号を出力装置7に送信するようにプログラムされている。そして、合成発音信号は記憶媒体65に保存される。
合成発音信号を生成するに当たって、発話合成モジュール637は、各発音データセットを一つの音節として扱い、その(それらの)音節を用いて少なくとも一つの単語の発音を合成するが、他の実施形態においては、様々な方法が用いられ、例えば波形接続合成(concatenative synthesis)、フォルマント合成(formant synthesis)、ダイフォン合成(diphone synthesis)、分野限定合成(domain-specific synthesis)、正弦波合成(sine wave synthesis)などを用いることができる。
なお、データベース631に保存されているいずれの発話パラメータセットも、パラメータ収集モジュール636により生成された発話パラメータセットと一致しなかった場合、発話合成モジュール637は、通知信号を生成して対象者900に知らせる。
単語検索モジュール638は、複数の単語データセットの中から、合成発音信号を生成するのに用いられた発音データセットと関連付けられた一つの単語データセットを検索し、その一つの単語データセットを出力するべく第2の通信ユニット61を介して出力装置7に送信するようにプログラムされている。
単語検索モジュール638は、単語データセットを検索する精度を向上するために更に意味解析機能を有するようにすることもできる。
送信ポート64は、タブレットコンピュータ、スマートフォン、ラップトップコンピュータ、パーソナルコンピュータなどの電子装置(図示せず)とケーブル接続できるようにするためのマイクロUSBポートを含めることもできる。接続された際に、送信ポート64は、発話認識装置6の設定を変更したり記憶媒体65に保存されているデータにアクセスしたりするためのインターフェースを電子装置に提供する。
出力装置7は、合成発音信号を出力するための音声出力モジュール71と、発話認識装置6から受信した単語データセットに基づいて単語を表示するためのディスプレイモジュール72とを含む。
図2に示されているように、本実施形態では、音声出力モジュール71として、延伸部33の自由端に設けたマイクロフォンが用いられ、該マイクロフォンは発話認識装置6から合成発音信号を受信するために延伸部33内のケーブルワイヤを介して発話認識装置6に接続されている。
ディスプレイモジュール72としては、ディスプレイ画面を有し対象者900によって扱われるタブレットコンピュータが用いられる。ディスプレイモジュール72は更に、単語検索モジュール638によって検索された単語データセットを受信するために、第2の通信ユニット61とワイヤレス通信できる第3の通信ユニット721を含んでもよい。
対象者900が当該発話認識システムを使用するにあたっては、セットアップ作業がまず行なわれる。
セットアップ作業では、まず装身具3が対象者900の頭部901に装着される。次いで画像取得装置4が対象者900の唇902の画像を取得できるようにするべく延伸部33が位置調整される。そして口腔内検知装置5の装着座51が対象者900の口腔903内に置かれる。
その後、対象者900により発話認識システムを着用しながらいくつかの特定の単語を発話することが要される。これにより発話認識システムは、対象者900がそれらの単語を発話する間、唇の動き、圧力センサ521と舌905との接触パターン、各距離センサ531と舌905との距離の変化パターン、口腔903内の気流を含む発話情報を解析し記録することができる。セットアップ作業における上述の解析は、上記説明でそれぞれ示したものと同様であり、関連の各パラメータが発話認識ユニット63の対応のモジュール632〜635に保存される。
記録された情報は、対象者900によって発話された単語を構成する特定の音節に関連付けられる発話パラメータセットを設定するために用いられ、設定された発話パラメータセットがデータベース631に保存されると、セットアップ作業が完了する。
発話認識システムを実際に使用する際(つまり、対象者900が口述でメッセージを伝えようとするとき)には、対象者900は、装身具3と口腔内検知装置5を装着しており、手動スイッチ621をオンに切り替える。すると、第2の通信ユニット61により起動コマンドが画像取得装置4と口腔内検知装置5とに送信され、これら装置が起動する。
対象者900が発話する間、画像取得装置4と口腔内検知装置5とは、上記セットアップ作業と同様の方法で上記発話情報を取得する。その結果、発話認識ユニット63のパラメータ収集モジュール638は、発話の内容に対応する発話パラメータセットを生成することができるようになり、出力装置7は、発話パラメータセットに関連する合成発音信号や単語データセットを出力できるようになる。
データベース631に保存されている発話パラメータセットに発話の内容が対応しなかった場合、出力装置7は発話認識ユニット63により制御されて対象者900に通知を出し、認識のために対象者900に再び発話するよう促す。
メッセージを口述した後、対象者900は、画像取得装置4と口腔内検知装置5とを終了させるために手動スイッチ621をオフにすることができる。
本実施形態において、音声出力モジュール71は対象者900の口の付近に設けられるが、変化形態として、音声出力モジュール71をディスプレイモジュール72と一体に設けることもできる。
また、音声出力モジュール71かディスプレイモジュール72かのいずれかがあれば通常はメッセージを他者に伝えるのに不足はないため、変化形態として、音声出力モジュール71とディスプレイモジュール72とのいずれかを省くこともできる。
本実施形態が気流検知ユニット54を含んでいるのは、発音データセットの取得と、音声出力モジュール71が合成発音信号を出力する際の音量調整とにおける精度の向上のためであり、他の実施形態においては、気流検知ユニット54を省くこともできる。
図6と図7には、本発明に係る発話認識システムの第2の実施形態が示されている。本実施形態においては、装身具3(図2参照)が省かれている上に、画像取得装置4と、発話認識装置6と、出力装置7とが電子装置800(例えば本実施形態ではラップトップ式のコンピュータ)と一体に構成されている。具体的に言うと、コンピュータの内蔵カメラ、アプリケーションプログラムを実行する中央処理器(CPU)、内蔵スピーカー、スクリーンが、それぞれ画像取得装置4、発話認識装置6、音声出力モジュール71、ディスプレイモジュール72の役目を果たす。
使用に当たっては、対象者900が電子装置800の方を向くと、対象者900の唇の動き(図2参照)が電子装置800の内蔵カメラによって撮影され、合成発音信号が内蔵スピーカーによって出力される。本実施形態によれば、対象者900は装身具3の着用を必要とせずに、第1の実施形態の効果を達成する事ができる。
また、本実施形態は、電子装置800を利用した遠隔会話に関連する応用に役立ち得る。
図8と図9には、本発明に係る発話認識システムの第3の実施形態が示されている。本実施形態においては、第1の通信ユニット55として、装着座51を第2の通信ユニット61に物理的に連結するワイヤーが用いられている。
この形態の場合、信号を処理するための構成要素、例えば信号プロセッサ522、532は、装着座51に設ける替わりに装身具3に設けてもよい。圧力センサ521(図9では一つだけ図示)と各距離センサ531(図9では一つだけ図示)とによりそれぞれ生成された信号は、第1の通信ユニット55を介して信号プロセッサ522、532に送信され処理される。よって、装着座51は、組み込む構成要素が減ることにより、そのサイズをより小さく作製することができる。
図10には、一実施形態に基づく、本発明に係る発話認識システムにより実施される発話認識方法の手順が示されている。本実施形態では、上述の第1の実施形態の発話認識システムが用いられる。
併せて図2を参照されたい。ステップ102において、発話認識システムの構成要素、具体的には装身具3と口腔内検知装置5とが対象者900に装着され、手動スイッチ621が対象者900によりオンに切り替えられる。
次に、ステップ104において画像取得装置4が対象者900の唇902の画像を継続的に取得し始め、ステップ106において口腔内検知装置5が対象者900の舌905との接触および距離を検知し始め、その間に対象者900が発話を始める。
ステップ108において、口腔内検知装置5は対象者900の発話中における舌905との接触に基づいて接触信号を生成すると共に、舌905との距離に基づいて距離信号を生成する。
ステップ110において、発話認識装置6は、対象者900の唇902の画像を画像取得装置4から受信すると共に、接触信号と距離信号とを口腔内検知装置5から受信する。
ステップ112において、発話認識装置6は、唇902の画像および接触信号と距離信号を処理して、対象者900の発話内容を取得する。
ステップ114において、対象者900の発話の内容が出力のために出力装置7に送信される。
上記をまとめると、本開示で示された発話認識システムおよび発話認識方法は、発話パラメータセット、発音データセット、単語データセットを含むデータベースを構築するためにまず対象者900の発話に関する必要な情報を記録するように構成される。使用の際には、対象者900の発話に伴って、発話認識システムは、合成発音信号を生成するために必要な情報を検知することができる。そして合成発音信号は出力装置7により出力することができ、これにより他者は対象者900が構音障害を有していてもその発話の内容を理解することができるようになる。
以上、本発明を実用的な実施形態と考えられるものに関して記述してきたが、本発明は、開示した実施形態に制限されることなく、同様の修正および等価な配置のすべてを包含するような、最も広い解釈の精神および範囲内に含まれる様々なアレンジをカバーするように意図されることが理解される。

Claims (19)

  1. 対象者(900)に用いられる発話認識システム(3)であって、
    前記対象者(900)の発話中に前記対象者(900)の唇(902)の画像を継続的に取得する画像取得装置(4)と、
    前記対象者(900)の口腔(903)内で前記対象者(900)の口蓋に装着されるように構成された装着座(51)と、前記装着座(51)に配置され、前記対象者(900)の発話中に前記対象者(900)の舌(905)との接触を検知して、その舌(905)との接触に基づいて接触信号を生成するように構成された接触検知ユニット(52)と、前記装着座(51)に配置され、前記対象者(900)の舌(905)との距離を検知して、その舌(905)との距離に基づいて距離信号を生成するように構成された距離検知ユニット(53)と、を含む、口腔内検知装置(5)と、
    前記対象者(900)の唇(902)の画像と、前記接触信号と、前記距離信号とをそれぞれ受信するように前記画像取得装置(4)と前記口腔内検知装置(5)に接続されると共に、前記唇(902)の画像と前記接触信号と前記距離信号とを処理して前記対象者(900)の発話内容を取得するようにプログラムされている発話認識装置(6)と、を具える、発話認識システム(3)。
  2. 前記発話認識装置(6)に接続されて前記発話認識装置(6)から前記発話内容を受信すると共に前記発話内容を出力する出力装置(7)を更に具える、請求項1に記載の発話認識システム(3)。
  3. 前記発話認識装置(6)は、
    前記唇(902)の異なる動作にそれぞれ関連付けられている複数の唇パラメータを保存している上に、前記唇(902)の画像を解析して前記対象者(900)の発話中に前記唇(902)のいずれの動作が生じたかを判断し、その前記唇(902)の動作に関連付けられている、対応の一つの前記唇パラメータを取得するようにプログラムされている唇動作分析モジュール(632)と、
    前記舌(905)との異なる接触パターンにそれぞれ関連付けられている複数の口蓋パラメータを保存している上に、前記接触信号を解析して発話中に舌(905)とのいずれの接触パターンが発生したかを判断し、その接触パターンに関連付けられている、対応の一つの前記口蓋パラメータを取得できるようにプログラムされている接触分析モジュール(633)と、
    前記距離検知ユニット(53)と前記対象者(900)の舌(905)との距離の異なる変化パターンにそれぞれ関連付けられている複数の舌パラメータを保存している上に、前記距離信号を解析して発話中にいずれの距離変化パターンが発生したかを判断し、その距離変化パターンに関連付けられている、対応の一つの前記舌(905)パラメータを取得できるようにプログラムされている距離分析モジュール(634)と、
    前記対応の一つの前記唇パラメータと、前記対応の一つの前記口蓋パラメータと、前記対応の一つの前記舌(905)パラメータとを収集して前記発話内容に対応する発話パラメータセットを生成するようにプログラムされているパラメータ収集モジュール(636)と、を含む、請求項1に記載の発話認識システム(3)。
  4. 前記接触検知ユニット(52)は、
    それぞれ前記舌(905)に接触されると圧力検知信号を出力するように構成された互いに間隔を置いた複数の圧力センサ(521)と、
    前記圧力検知信号を処理して前記接触信号を生成するように構成された信号プロセッサ(522)と、を含む、請求項1に記載の発話認識システム(3)。
  5. 前記距離検知ユニット(53)は、
    前記装着座(51)が前記対象者(900)の口蓋に装着された時に前記舌(905)に向かう面である前記装着座(51)の底面に複数が互いに間隔を置いて設けられ、それぞれ前記舌(905)からの距離を検知して距離検知信号を出力するように構成された距離センサ(531)と、
    前記距離検知信号を処理して前記距離信号を生成するように構成された信号プロセッサ(532)と、を含む、請求項1に記載の発話認識システム(3)。
  6. 前記口腔内検知装置(5)は、前記装着座(51)に配置され、前記対象者(900)の口腔(903)内での気流を検知して気流信号を生成する気流検知ユニット(54)を更に含む、請求項3に記載の発話認識システム(3)。
  7. 前記発話認識装置(6)は、前記対象者(900)の口腔(903)内における気流の異なる変化パターンにそれぞれ関連付けられている複数の気流パラメータを保存している気流解析モジュール(635)を更に含み、前記気流解析モジュール(635)は、
    発話中の前記口腔(903)内においていずれの気流変化パターンが発生したかを判断するために気流信号を解析し、
    その気流変化パターンに関連付けられている、対応の一つの前記気流パラメータを取得するようにプログラムされていて、
    前記パラメータ収集モジュール(636)は、前記対応の一つの前記気流パラメータを更に収集して前記発話パラメータセットを生成する、請求項6に記載の発話認識システム(3)。
  8. 前記口腔内検知装置(5)と前記発話認識装置(6)とはそれぞれ、前記口腔内検知装置(5)と前記発話認識装置(6)との間で信号を送信し合うための通信ユニット(55、61)を含む、請求項1に記載の発話認識システム(3)。
  9. 前記口腔内検知装置(5)は、オンに切り替えられたときに、前記画像取得装置(4)と前記口腔内検知装置(5)とを起動させて前記対象者(900)の唇(902)の画像と前記接触信号と前記距離信号とを取得するために前記画像取得装置(4)と前記口腔内検知装置(5)とに起動コマンドを送信するスイッチユニット(62)を含む、請求項1に記載の発話認識システム(3)。
  10. 前記発話認識装置(6)は、
    複数の発話パラメータセットと各前記発話パラメータセットにそれぞれ関連付けられた複数の発音データセットとを保存しているデータベース(631)と、発話合成モジュール(637)とを更に含み、
    前記発話合成モジュール(637)は、
    前記パラメータ収集モジュール(636)により生成された前記発話パラメータセットと、前記データベース(631)に保存されている各前記発話パラメータセットとを比較し、
    前記パラメータ収集モジュール(636)により生成された前記発話パラメータセットと一致する一つの前記発話パラメータセットに関連する一つの前記発音データセットを取得し、
    前記一つの前記発音データセットから合成発音信号を生成するようにプログラムされていて、且つ、
    前記発話認識システム(3)は、前記発話認識装置(6)に接続されていて前記合成発音信号を受信する上に前記発話内容として前記合成発音信号を出力する出力装置(7)を更に具える、請求項3に記載の発話認識システム(3)。
  11. 前記データベース(631)は、前記発音データセットの少なくとも一つの特定の組み合わせとそれぞれ関連付けられた複数の単語データセットを更に保存していて、
    前記発話認識装置(6)は、単語検索モジュールを更に含み、前記単語検索モジュールは、前記合成発音信号を生成するのに用いられた前記一つの前記発音データセットと関連付けられた一つの前記単語データセットを検索し、前記一つの前記単語データセットを出力するべく前記出力装置(7)に送信するようにプログラムされている、請求項10に記載の発話認識システム(3)。
  12. 前記出力装置(7)は、前記合成発音信号を出力する音声出力モジュール(71)と、前記一つの前記単語データセットを表示するディスプレイモジュール(72)とを更に含む、請求項11に記載の発話認識システム(3)。
  13. 前記対象者(900)に装着される主要部と、前記主要部に連結され且つ前記主要部から前方に延伸する延伸部とを含む装身具を更に具え、前記画像取得装置(4)と前記音声出力モジュール(71)とが前記延伸部に配置されている、請求項12に記載の発話認識システム(3)。
  14. 画像取得装置(4)に接続され、前記画像取得装置(4)から対象者(900)の唇(902)の画像を受信すると共に、口腔内検知装置(5)に接続され、前記対象者(900)の発話中における前記口腔内検知装置(5)の前記対象者(900)の舌(905)との接触に関連する接触信号と、前記口腔内検知装置(5)の前記舌(905)との距離に関連する距離信号とを受信する発話認識装置(6)であって、
    前記唇(902)の異なる動作にそれぞれ関連付けられている複数の唇パラメータを保存している上に、前記対象者(900)の発話中に前記唇(902)のいずれの動作が生じたかを判断するために前記唇(902)の画像を解析し、その前記唇(902)の動作に関連付けられている、対応の一つの前記唇パラメータを取得するようにプログラムされている唇動作分析モジュール(632)と、
    前記舌(905)との異なる接触パターンにそれぞれ関連付けられている複数の口蓋パラメータを保存している上に、発話中に前記舌(905)とのいずれの接触パターンが発生したかを判断するために前記接触信号を解析し、その接触パターンに関連付けられている、対応の一つの前記口蓋パラメータを取得できるようにプログラムされている接触分析モジュール(633)と、
    距離検知ユニット(53)と前記対象者(900)の舌(905)との距離の変化パターンにそれぞれ関連付けられている複数の舌パラメータを保存している上に、発話中にいずれの距離変化パターンが発生したかを判断するために前記距離信号を解析し、その距離変化パターンに関連付けられている、対応の一つの前記舌(905)パラメータを取得できるようにプログラムされている距離分析モジュール(634)と、
    前記対応の一つの前記唇パラメータと、前記対応の一つの前記口蓋パラメータと、前記対応の一つの前記舌(905)パラメータとを収集して発話内容に対応する発話パラメータセットを生成するようにプログラムされているパラメータ収集モジュール(636)と、を具える、発話認識装置(6)。
  15. 前記対象者(900)の口腔(903)内における気流に関連する気流信号を更に受信すると共に、気流解析モジュール(635)を更に具え、
    前記気流解析モジュール(635)は、
    前記対象者(900)の口腔(903)内における気流の変化パターンにそれぞれ関連付けられている複数の気流パラメータを保存し、
    前記気流信号を解析して発話中の前記口腔(903)内においていずれの気流変化パターンが発生したかを判断し、
    その気流変化パターンに関連付けられている、対応の一つの気流パラメータを取得するようにプログラムされていて、
    前記パラメータ収集モジュール(636)は、前記対応の一つの前記気流パラメータを更に収集して前記発話パラメータセットを生成する、請求項14に記載の発話認識装置(6)。
  16. 複数の発話パラメータセットと各前記発話パラメータセットにそれぞれ関連付けられた複数の発音データセットとを保存しているデータベース(631)と、発話合成モジュール(637)とを更に具え、
    前記発話合成モジュール(637)は、
    前記パラメータ収集モジュール(636)により生成された前記発話パラメータセットと、前記データベース(631)に保存されている各前記発話パラメータセットとを比較し、
    前記パラメータ収集モジュール(636)により生成された前記発話パラメータセットと一致する一つの前記発話パラメータセットに関連する一つの前記発音データセットを取得し、
    前記一つの前記発音データセットから合成発音信号を生成するようにプログラムされていて、且つ、
    前記発話認識装置(6)は、前記合成発音信号を受信する上に前記発話内容として前記合成発音信号を出力する出力装置(7)に更に接続されている、請求項14に記載の発話認識装置(6)。
  17. 前記データベース(631)は、前記発音データセットの少なくとも一つの特定の組み合わせとそれぞれ関連付けられた複数の単語データセットを更に保存しており、
    前記合成発音信号を生成するのに用いられた前記一つの前記発音データセットと関連付けられた一つの前記単語データセットを検索し、前記一つの前記単語データセットを出力するべく前記出力装置(7)に送信するようにプログラムされている単語検索モジュールを更に含む、請求項16に記載の発話認識装置(6)。
  18. 対象者(900)に用いられ、発話認識システム(3)によって実行される発話認識方法であって、前記発話認識システム(3)は、画像取得装置(4)と、前記対象者(900)の口腔(903)内で前記対象者(900)の口蓋に装着される口腔内検知装置(5)と、前記画像取得装置(4)と前記口腔内検知装置(5)とに接続された発話認識装置(6)を含むものであり、
    前記画像取得装置(4)によって前記対象者(900)の発話中に前記対象者(900)の唇(902)の画像を継続的に取得するステップと、
    前記口腔内検知装置(5)によって前記対象者(900)の舌(905)との接触を検知して、その前記舌(905)との接触に基づいて接触信号を生成するステップと、
    前記口腔内検知装置(5)によって前記対象者(900)の発話中に前記対象者(900)の舌(905)との距離を検知して、その前記舌(905)との距離に基づいて距離信号を生成するステップと、
    前記発話認識装置(6)によって前記対象者(900)の唇(902)の画像を前記画像取得装置(4)から受信すると共に前記口腔内検知装置(5)から前記接触信号と前記距離信号とを受信するステップと、
    前記発話認識装置(6)によって前記唇(902)の画像と前記接触信号と前記距離信号とを処理して前記対象者(900)の発話内容を取得するステップと、を具える、発話認識方法。
  19. 前記発話認識システム(3)は、前記発話認識装置(6)に接続されている出力装置(7)を更に含むものであって、
    前記出力装置(7)によって前記発話認識装置(6)から前記発話内容を受信して前記発話内容を出力するステップを更に具える、請求項18に記載の発話認識方法。
JP2015146577A 2014-07-28 2015-07-24 発話認識システム、発話認識装置、および発話認識方法 Pending JP2016031534A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
TW103125713 2014-07-28
TW103125713 2014-07-28
TW104109414 2015-03-24
TW104109414A TWI576826B (zh) 2014-07-28 2015-03-24 Discourse Recognition System and Unit

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2017197027A Division JP6484317B2 (ja) 2014-07-28 2017-10-10 発話認識システム、発話認識装置、および発話認識方法

Publications (1)

Publication Number Publication Date
JP2016031534A true JP2016031534A (ja) 2016-03-07

Family

ID=53724088

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2015146577A Pending JP2016031534A (ja) 2014-07-28 2015-07-24 発話認識システム、発話認識装置、および発話認識方法
JP2017197027A Active JP6484317B2 (ja) 2014-07-28 2017-10-10 発話認識システム、発話認識装置、および発話認識方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2017197027A Active JP6484317B2 (ja) 2014-07-28 2017-10-10 発話認識システム、発話認識装置、および発話認識方法

Country Status (5)

Country Link
US (1) US9424842B2 (ja)
EP (1) EP2980788A1 (ja)
JP (2) JP2016031534A (ja)
CN (1) CN105321519B (ja)
TW (1) TWI576826B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018066780A (ja) * 2016-10-17 2018-04-26 イノベーション・ラボラトリ株式会社 音声抑制システム及び音声抑制装置
KR20180115639A (ko) * 2017-04-13 2018-10-23 인하대학교 산학협력단 발화의도표현을 위한 두경부 조음기관 물리특성 기반시스템

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201416311D0 (en) * 2014-09-16 2014-10-29 Univ Hull Method and Apparatus for Producing Output Indicative of the Content of Speech or Mouthed Speech from Movement of Speech Articulators
GB201416303D0 (en) * 2014-09-16 2014-10-29 Univ Hull Speech synthesis
US10542929B2 (en) * 2016-02-23 2020-01-28 Dustin Ryan Kimmel Determining conditions based on intraoral sensing
CN105551327A (zh) * 2016-03-07 2016-05-04 浙江理工大学 一种基于柔性电子皮肤的互动式发音矫正系统及方法
WO2018190668A1 (ko) * 2017-04-13 2018-10-18 인하대학교 산학협력단 두경부 조음기관의 물리 특성을 이용한 발화 의도 표현 시스템
CN107274736B (zh) * 2017-08-14 2019-03-12 牡丹江师范学院 一种校园互动式英语口语语音教学装置
KR102364032B1 (ko) * 2017-09-28 2022-02-17 인하대학교 산학협력단 조음기관의 물리 특성과 음성 및 문자 간 매칭을 통한 발화 의도 측정 및 발화 구현 시스템
US10529355B2 (en) 2017-12-19 2020-01-07 International Business Machines Corporation Production of speech based on whispered speech and silent speech
NL2021041B1 (nl) * 2018-01-31 2019-08-07 Iebm B V Spraakherkenning met beeld signaal
CN108648745B (zh) * 2018-03-15 2020-09-01 上海电力学院 一种由唇部图像序列到语音编码参数的转换方法
CN108538283B (zh) * 2018-03-15 2020-06-26 上海电力学院 一种由唇部图像特征到语音编码参数的转换方法
KR102071421B1 (ko) * 2018-05-31 2020-01-30 인하대학교 산학협력단 청음 향상을 위한 두경부 물리 특성 기반 복합시스템
US11373653B2 (en) * 2019-01-19 2022-06-28 Joseph Alan Epstein Portable speech recognition and assistance using non-audio or distorted-audio techniques
CN111986674B (zh) * 2020-08-13 2021-04-09 广州仿真机器人有限公司 基于三级特征采集的智能语音识别方法
WO2023012527A1 (en) * 2021-08-04 2023-02-09 Q (Cue) Ltd. Detection of silent speech

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55125845A (en) * 1979-03-22 1980-09-29 Rion Co Method of measuring breathing current
JPS55149970A (en) * 1979-05-12 1980-11-21 Rion Co Artificial mouth for electroparatography
JPS58150997A (en) * 1982-03-03 1983-09-07 Kogyo Gijutsuin Speech feature extractor
JPH01259414A (en) * 1988-04-06 1989-10-17 Res Triangle Inst Device for recotnizing visual and auditory sense talk
JPH04257900A (en) * 1991-02-12 1992-09-14 Nippon Telegr & Teleph Corp <Ntt> Tongue operation detection type syllable recognition device
DE4212907A1 (de) * 1992-04-05 1993-10-07 Drescher Ruediger Spracherkennungsverfahren für Datenverarbeitungssysteme u.s.w.
US20020194005A1 (en) * 2001-03-27 2002-12-19 Lahr Roy J. Head-worn, trimodal device to increase transcription accuracy in a voice recognition system and to process unvocalized speech
US20050071166A1 (en) * 2003-09-29 2005-03-31 International Business Machines Corporation Apparatus for the collection of data for performing automatic speech recognition
JP2007111335A (ja) * 2005-10-21 2007-05-10 Yamaha Corp 口腔センサ及び音素判定装置
US20140342324A1 (en) * 2013-05-20 2014-11-20 Georgia Tech Research Corporation Wireless Real-Time Tongue Tracking for Speech Impairment Diagnosis, Speech Therapy with Audiovisual Biofeedback, and Silent Speech Interfaces

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2814551C2 (de) * 1978-04-04 1986-03-13 Siemens AG, 1000 Berlin und 8000 München Vorrichtung zur Messung des Ortes, der Lage und/oder der Orts- bzw. Lageänderung eines starren Körpers im Raum
US4223411A (en) * 1978-08-07 1980-09-23 Massachusetts Institute Of Technology Internal laryngeal prosthesis
DK155420C (da) * 1979-05-10 1989-10-09 Rion Co Kunstig gane
US5523745A (en) * 1988-12-16 1996-06-04 Zofcom Systems, Inc. Tongue activated communications controller
DE69616623T2 (de) * 1995-03-31 2002-08-01 Ibm Intraorales Kommunkationssystem
JP3894691B2 (ja) * 1999-10-18 2007-03-22 株式会社国際電気通信基礎技術研究所 口蓋プレートを用いたデータ入力装置
JP3908965B2 (ja) * 2002-02-28 2007-04-25 株式会社エヌ・ティ・ティ・ドコモ 音声認識装置及び音声認識方法
JP2003255993A (ja) * 2002-03-04 2003-09-10 Ntt Docomo Inc 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
US7071844B1 (en) * 2002-09-12 2006-07-04 Aurelian Phillip Moise Mouth mounted input device
US20040243416A1 (en) * 2003-06-02 2004-12-02 Gardos Thomas R. Speech recognition
CN1556496A (zh) * 2003-12-31 2004-12-22 天津大学 唇形识别发声器
GB2422238A (en) * 2005-01-17 2006-07-19 Univ Hull Generation of data from speech or voiceless mouthed speech
WO2007053562A2 (en) * 2005-10-31 2007-05-10 North Carolina State University Tongue operated magnetic sensor based wireless assistive technology
US20070239225A1 (en) * 2006-02-28 2007-10-11 Saringer John H Training device and method to suppress sounds caused by sleep and breathing disorders
EP2027572B1 (en) * 2006-05-22 2009-10-21 Philips Intellectual Property & Standards GmbH System and method of training a dysarthric speaker
US7890193B2 (en) * 2007-08-15 2011-02-15 Tingey Terrell F Oral device
DE202009018698U1 (de) * 2008-07-11 2012-11-27 University Of The Witwatersrand Johannesburg Künstlicher Kehlkopf
CN102257561A (zh) * 2008-12-16 2011-11-23 皇家飞利浦电子股份有限公司 语音信号处理
EP2575699A1 (en) * 2010-05-25 2013-04-10 Tks A/S A tongue sensor
US20110311144A1 (en) * 2010-06-17 2011-12-22 Microsoft Corporation Rgb/depth camera for improving speech recognition
WO2012087345A1 (en) * 2010-12-03 2012-06-28 Forbes Rehab Services, Inc. Audio output module for use in artificial voice systems
US20130090931A1 (en) * 2011-07-05 2013-04-11 Georgia Tech Research Corporation Multimodal communication system
WO2013013319A1 (en) * 2011-07-25 2013-01-31 Rudzicz Frank System and method for acoustic transformation
CN103705218B (zh) * 2013-12-20 2015-11-18 中国科学院深圳先进技术研究院 构音障碍识别的方法、系统和装置
CN103699227A (zh) * 2013-12-25 2014-04-02 邵剑锋 一种新的人机交互系统
CN103943107B (zh) * 2014-04-03 2017-04-05 北京大学深圳研究生院 一种基于决策层融合的音视频关键词识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55125845A (en) * 1979-03-22 1980-09-29 Rion Co Method of measuring breathing current
JPS55149970A (en) * 1979-05-12 1980-11-21 Rion Co Artificial mouth for electroparatography
JPS58150997A (en) * 1982-03-03 1983-09-07 Kogyo Gijutsuin Speech feature extractor
JPH01259414A (en) * 1988-04-06 1989-10-17 Res Triangle Inst Device for recotnizing visual and auditory sense talk
JPH04257900A (en) * 1991-02-12 1992-09-14 Nippon Telegr & Teleph Corp <Ntt> Tongue operation detection type syllable recognition device
DE4212907A1 (de) * 1992-04-05 1993-10-07 Drescher Ruediger Spracherkennungsverfahren für Datenverarbeitungssysteme u.s.w.
US20020194005A1 (en) * 2001-03-27 2002-12-19 Lahr Roy J. Head-worn, trimodal device to increase transcription accuracy in a voice recognition system and to process unvocalized speech
US20050071166A1 (en) * 2003-09-29 2005-03-31 International Business Machines Corporation Apparatus for the collection of data for performing automatic speech recognition
JP2007111335A (ja) * 2005-10-21 2007-05-10 Yamaha Corp 口腔センサ及び音素判定装置
US20140342324A1 (en) * 2013-05-20 2014-11-20 Georgia Tech Research Corporation Wireless Real-Time Tongue Tracking for Speech Impairment Diagnosis, Speech Therapy with Audiovisual Biofeedback, and Silent Speech Interfaces

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018066780A (ja) * 2016-10-17 2018-04-26 イノベーション・ラボラトリ株式会社 音声抑制システム及び音声抑制装置
KR20180115639A (ko) * 2017-04-13 2018-10-23 인하대학교 산학협력단 발화의도표현을 위한 두경부 조음기관 물리특성 기반시스템
KR102180551B1 (ko) * 2017-04-13 2020-11-18 인하대학교 산학협력단 발화의도표현을 위한 두경부 조음기관 물리특성 기반시스템

Also Published As

Publication number Publication date
JP6484317B2 (ja) 2019-03-13
US20160027441A1 (en) 2016-01-28
EP2980788A1 (en) 2016-02-03
CN105321519B (zh) 2019-05-14
JP2018028681A (ja) 2018-02-22
CN105321519A (zh) 2016-02-10
TWI576826B (zh) 2017-04-01
US9424842B2 (en) 2016-08-23
TW201604864A (zh) 2016-02-01

Similar Documents

Publication Publication Date Title
JP6484317B2 (ja) 発話認識システム、発話認識装置、および発話認識方法
US10433052B2 (en) System and method for identifying speech prosody
US10157626B2 (en) Voice affect modification
US10275021B2 (en) Display apparatus of front-of-the-eye mounted type
JP6580497B2 (ja) 筋電信号を用いて顔表情を高い精度で識別する装置、デバイス、プログラム及び方法
US11517252B2 (en) Using a hearable to generate a user health indicator
WO2018201688A1 (en) Microphone, vocal training apparatus comprising microphone and vocal analyzer, vocal training method, and non-transitory tangible computer-readable storage medium
Freitas et al. An Introduction to Silent Speech Interfaces
Bedri et al. Toward silent-speech control of consumer wearables
Smith et al. Infant-directed visual prosody: Mothers’ head movements and speech acoustics
WO2020079918A1 (ja) 情報処理装置及び情報処理方法
KR20190067662A (ko) 로봇을 이용한 수화통역시스템
Freitas et al. Multimodal corpora for silent speech interaction
JP6798258B2 (ja) 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム
KR20160028868A (ko) 안면부 영상 인식 및 외부 입력 장비를 이용한 음성 합성 시스템 및 음성 합성 방법
KR20090070325A (ko) 멀티모달 정보기반 응급상황 인식 시스템 및 방법
KR20210100831A (ko) 인공지능 기반 수어통역 서비스 제공 시스템 및 방법
JP2012230534A (ja) 電子機器および電子機器の制御プログラム
JP4381404B2 (ja) 音声合成システム、音声合成方法、音声合成プログラム
EP4131256A1 (en) Voice recognition system and method using accelerometers for sensing bone conduction
KR20170029390A (ko) 음성 명령 모드 진입 방법
WO2022198234A1 (en) Method and apparatus for improved speaker identification and speech enhancement
KR20210100832A (ko) 사용자의 감정상태를 판단하는 인공지능 기반 수어통역 서비스 제공 시스템 및 방법
Freitas et al. SSI Modalities II: Articulation and Its Consequences
JP2018007723A (ja) 嚥下情報提示装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160914

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160927

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20161226

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170110

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170613