JP2007122004A - 発音診断装置、発音診断方法、記録媒体、及び、発音診断プログラム - Google Patents

発音診断装置、発音診断方法、記録媒体、及び、発音診断プログラム Download PDF

Info

Publication number
JP2007122004A
JP2007122004A JP2006147171A JP2006147171A JP2007122004A JP 2007122004 A JP2007122004 A JP 2007122004A JP 2006147171 A JP2006147171 A JP 2006147171A JP 2006147171 A JP2006147171 A JP 2006147171A JP 2007122004 A JP2007122004 A JP 2007122004A
Authority
JP
Japan
Prior art keywords
articulatory
state
attribute
tongue
pronunciation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006147171A
Other languages
English (en)
Other versions
JP5120826B2 (ja
Inventor
Masatomo Okumura
真知 奥村
Hiroaki Kojima
宏明 児島
Hiroshi Omura
浩 大村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2006147171A priority Critical patent/JP5120826B2/ja
Priority to KR1020087008240A priority patent/KR20080059180A/ko
Priority to TW095136432A priority patent/TW200721109A/zh
Priority to EP06810834A priority patent/EP1947643A4/en
Priority to US12/088,614 priority patent/US20090305203A1/en
Priority to PCT/JP2006/319428 priority patent/WO2007037356A1/ja
Publication of JP2007122004A publication Critical patent/JP2007122004A/ja
Application granted granted Critical
Publication of JP5120826B2 publication Critical patent/JP5120826B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

【課題】正しい調音器官の状態や調音の様式で発音が行われているか否かを診断可能とする。
【解決手段】音声言語体系毎に、それを構成する音素毎に、その音素を発声する際の調音的属性としての口腔内の舌、唇、声門、口蓋垂、鼻腔、歯、顎の状態のいずれか一つ又はこれらの調音器官状態の少なくとも一つを含むそれらの組合せ、調音器官状態の力の入れ方、および呼気の状態の組み合わせに関する望ましい発音に対応する調音的属性値を有する調音的属性データと、話者が発した音声信号からの音響的特徴としての周波数的特徴量、音量、持続時間、それらの変化量、またはそれらの変化パターンおよびそれらの少なくとも一つ以上の組合せを抽出し、抽出された音響的特徴に基づいて、調音的属性に関する属性値を推定する属性値推定し、推定された属性値を望ましい調音的属性データと比較することにより、発声者の発音に関する判定を行うことを特徴とする。
【選択図】図2

Description

本発明は、発音診断装置、発音診断方法、記録媒体及び、発音診断プログラムに関するものである。
話者の発音を診断するための発音診断装置として、話者の発した単語に関する音声信号を取得して、当該音声信号に最も近いスペルの単語をデータベースから抽出し、抽出した単語を話者に提示する装置が知られている(例えば、特許文献1を参照)。
特開平11−202889号公報
しかしながら、上記の発音診断装置では、話者の発した単語の音声を登録されているスペルの単語に対応付けることによって、発音を診断するものであるので、単語を構成する音素ごとに、正しい調音器官の状態や調音の様式で発音が行われているか否かを診断することができない。
そこで、本発明は、正しい調音器官の状態や調音の様式で発音が行われているか否かを診断可能な発音診断装置、発音診断方法、及び、発音診断プログラム及びこれらに使用する調音的属性データを記憶している記憶媒体を提供することを目的としている。
本発明の一側面に係る発音診断装置は、音声言語体系毎に、それを構成する音素毎に、その音素を発声する際の調音的属性としての舌の高さ、舌の位置、舌の形状、舌の動き、唇の形状、唇の開き方、唇の動き、声門の状態、声帯の状態、口蓋垂の状態、鼻腔の状態、上下の歯の位置、顎の状態、顎の動き、のいずれか一つ又はこれらの調音器官状態の少なくとも一つを含むそれらの組合せ、前記調音器官状態の力の入れ方、および呼気の状態の組み合わせに関する望ましい発音に対応する調音的属性値を有する調音的属性データと、
話者が発した音声信号からの音響的特徴としての周波数的特徴量、音量、持続時間、それらの変化量、またはそれらの変化パターンおよびそれらの少なくとも一つ以上の組合せを抽出する手段と、抽出された音響的特徴に基づいて、前記調音的属性に関する属性値を推定する属性値推定手段と、推定された属性値を前記望ましい調音的属性データと比較することにより、発声者の発音に関する判定を行う手段とを備える。
上記発音診断装置において、更に発声者の発音診断結果を出力する手段を備えていることが好ましい。
本発明の別の一側面に係る発音診断装置は、発音の音素を音響的特徴としての周波数的特徴量、音量、持続時間、それらの変化量、またはそれらの変化パターンおよびそれらの少なくとも一つ以上の組合せで抽出する音響的特徴抽出手段と、抽出された音素の音響的特徴に従って、音声言語体系毎に、それを構成する音素毎に、その音素を発声する際の調音的属性としての舌の高さ、舌の位置、舌の形状、舌の動き、唇の形状、唇の開き方、唇の動き、声門の状態、声帯の状態、口蓋垂の状態、鼻腔の状態、上下の歯の位置、顎の状態、顎の動き、のいずれか一つ又はこれらの調音器官状態の少なくとも一つを含むそれらの組合せ、調音器官状態の力の入れ方、および呼気の状態の組み合わせにより分布を形成するための調音的属性分布形成手段と、調音的属性分布形成手段で区分された調音的属性を閾値でもって判定する調音的属性判定手段とを備える。
本発明の更に別の一側面に係る発音診断装置は、発音の類似する音素を音響的特徴としての周波数的特徴量、音量、持続時間、それらの変化量、またはそれらの変化パターンおよびそれらの少なくとも一つ以上の組合せで抽出する音響的特徴抽出手段と、抽出された類似の一方の音素の音響的特徴に従って、音声言語体系毎に、それを構成する音素毎に、その音素を発声する際の調音的属性としての舌の高さ、舌の位置、舌の形状、舌の動き、唇の形状、唇の開き方、唇の動き、声門の状態、声帯の状態、口蓋垂の状態、鼻腔の状態、上下の歯の位置、顎の状態、顎の動きのいずれか一つ又はこれらの調音器官状態の少なくとも一つを含むそれらの組合せ、前記調音器官状態の力の入れ方、および呼気の状態の組み合わせにより分布を形成するための第1調音的属性分布形成手段と、抽出された類似の他方の音素の音響的特徴に従って発音者の調音的属性を舌の高さ、舌の位置、舌の形状、舌の動き、唇の形状、唇の開き方、唇の動き、声門の状態、声帯の状態、口蓋垂の状態、鼻腔の状態、上下の歯の位置、顎の状態、顎の動きのいずれか一つ又はこれらの調音器官状態の少なくとも一つを含むそれらの組合せ、調音器官状態の力の入れ方、および呼気の状態の組み合わせで分布を形成するための第2調音的属性分布形成手段と、第1調音的属性分布形成手段で区分された調音的属性を第1閾値でもって判定する第1調音的属性判定手段と、第2調音的属性分布形成手段で区分された調音的属性を第2閾値でもって判定する第2調音的属性判定手段とを備えている。
上記発音診断装置において、調音的属性判定手段の使用する閾値を可変する閾値可変手段を設けておくことが好ましい。
上記発音診断装置で診断する音素を子音とすることが好ましい。
本発明の更に別の一側面に係る発音診断方法は、話者が発した音声信号からの音響的特徴としての周波数的特徴量、音量、持続時間、それらの変化量、またはそれらの変化パターンおよびそれらの少なくとも一つ以上の組合せを抽出する工程と、抽出された音響的特徴に基づいて、調音的属性に関する属性値を推定する属性値推定工程と、推定された属性値を音声言語体系毎に、それを構成する音素毎に、その音素を発声する際の調音的属性としての舌の高さ、舌の位置、舌の形状、舌の動き、唇の形状、唇の開き方、唇の動き、声門の状態、声帯の状態、口蓋垂の状態、鼻腔の状態、上下の歯の位置、顎の状態、顎の動きのいずれか一つ又はこれらの調音器官状態の少なくとも一つを含むそれらの組合せ、前記調音器官状態の力の入れ方、および呼気の状態の組み合わせに関する望ましい発音に対応する調音的属性値を有する調音的属性データと比較して発声者の発音に関する判定を行う工程と、発声者の発音診断結果を出力する工程とを備えている。
本発明の更に別の一側面に係る発音診断方法は、発音の音素を音響的特徴としての周波数的特徴量、音量、持続時間、それらの変化量、またはそれらの変化パターンおよびそれらの少なくとも一つ以上の組合せで抽出する音響的特徴抽出工程と、抽出された音素の音響的特徴に従って、音声言語体系毎に、それを構成する音素毎に、その音素を発声する際の調音的属性としての舌の高さ、舌の位置、舌の形状、舌の動き、唇の形状、唇の開き方、唇の動き、声門の状態、声帯の状態、口蓋垂の状態、鼻腔の状態、上下の歯の位置、顎の状態、顎の動きのいずれか一つ又はこれらの調音器官状態の少なくとも一つを含む組合せ、前記調音器官状態の力の入れ方、および呼気の状態の組み合わせで分布を形成するための調音的属性分布形成工程と、調音的属性分布形成手段で区分された調音的属性を閾値でもって判定する調音的属性判定工程とを備えている。
本発明の更に別の一側面に係る発音診断方法は、発音の類似する音素を音響的特徴としての周波数的特徴量、音量、持続時間、それらの変化量、またはそれらの変化パターンおよびそれらの少なくとも一つ以上の組合せで抽出する音響的特徴抽出工程と、抽出された類似の一方の音素の音響的特徴に従って、音声言語体系毎に、それを構成する音素毎に、その音素を発声する際の調音的属性としての舌の高さ、舌の位置、舌の形状、舌の動き、唇の形状、唇の開き方、唇の動き、声門の状態、声帯の状態、口蓋垂の状態、鼻腔の状態、上下の歯の位置、顎の状態、顎の動き、のいずれか一つ又はこれらの調音器官状態の少なくとも一つを含むそれらの組合せ、前記調音器官状態の力の入れ方、および呼気の状態の組み合わせで分布を形成するための第1調音的属性分布形成工程と、抽出された類似の他方の音素の音響的特徴に従って発音者の調音的属性を舌の高さ、舌の位置、舌の形状、舌の動き、唇の形状、唇の開き方、唇の動き、声門の状態、声帯の状態、口蓋垂の状態、鼻腔の状態、上下の歯の位置、顎の状態、顎の動きのいずれか一つ又はこれらの調音器官状態の少なくとも一つを含むそれらの組合せ、前記調音器官状態の力の入れ方、および呼気の状態の組み合わせで分布を形成するための第2調音的属性分布形成工程と、第1調音的属性分布形成手段で区分された調音的属性を第1閾値でもって判定する第1調音的属性判定工程と、前記第2調音的属性分布形成手段で区分された調音的属性を第2閾値でもって判定する第2調音的属性判定工程とを備えている。
上記発音診断方法において、調音的属性判定工程中で使用する閾値を可変にする閾値可変工程を更に備えておくことが好ましい。
本発明の更に別の一側面に係る記録媒体は、音声言語体系毎に、それを構成する音素毎に調音的属性を有する調音的属性データベースと、調音的属性値を推定するための閾値を有する閾値データベースと、単語区分組成データベースと、特徴軸データベースと、矯正コンテンツデータベースのうち少なくとも1つを記憶している。
本発明によれば、調音器官の状態や調音の様式の状態、即ち調音的属性の状態が推定される。したがって、本発明によれば、正しい調音器官の状態や調音の様式で発音が行われているか否かを、診断することが可能である。
かかる構成によれば、正しい調音器官の状態や調音の様式で発音するための手法を話者に提示することが可能になる。
以上説明したように、本発明によれば、正しい調音器官の状態や調音の様式で発音が行われているか否かを診断可能な発音診断装置、発音診断方法、及び発音診断プログラム、更にこれらの発音診断において使用される種々の情報を記憶している記憶媒体が提供される。
従って本発明は、話者の発した単語の音声を登録されているスペルの単語に対応付けることによって、発音を診断するものであるので、単語を構成する音素ごとに、正しい調音器官の状態や調音の様式で発音が行われているか否かを診断することができる。よって、本発明により話者に正しい調音器官の状態や様式で発音するように指導することができる。
以下、図面を参照して本発明の好適な実施形態について詳細に説明する。図1は、本発明の実施の形態に係る発音診断装置として動作するコンピュータの構成を示す図である。発音診断装置10は、後述する発音診断プログラムによって動作する汎用のコンピュータである。
発音診断装置10として動作するコンピュータは、図1に示すように、中央処理装置(CPU)12a、メモリ12b、ハードディスクドライブ(HDD)12c、モニタ12d、キーボード12e、マウス12f、プリンタ12g、音声入出力インターフェイス12h、マイク12i、及びスピーカ12jを備えている。
CPU12a、メモリ12b、ハードディスクドライブ12c、モニタ12d、キーボード12e、マウス12f、プリンタ12g、及び音声入出力インターフェイス12hは、システムバス12kを介して互いに接続されており、マイク12i、及びスピーカ12jは、音声入出力インターフェイス12hを介してシステムバス12kに接続されている。
以下、コンピュータを発音診断装置10として動作させるための発音診断システムについて説明する。図2は、発音診断システムの構成を示す図である。図2に示す発音診断システム20は、インターフェイス制御部22、音声信号分析部24、調音的属性推定部26、調音的属性データベース(DB)28、単語区分組成データベース(DB)30、閾値データベース(DB)32、特徴軸データベース(DB)34、矯正コンテンツ生成部36、発音判定部38、矯正コンテンツデータベース(DB)40を備えている。
以下、発音診断装置10による発音診断の処理の流れを、図3を参照しつつ、概略的に説明する。この発音診断では、発音診断を行うべき単語が確定される。この単語の確定では、まずモニタ12d上に単語のリストが表示される(ステップS11)。表示された単語のリストからユーザが発音診断を行う単語を選択する(ステップS12)。またこのステップでは、ユーザが単語を直接入力することによって発音診断を行う単語を選択してもよく、自動的に、ランダムに或いは定まった順番に提示された単語を、発音診断を行う単語として選択してもよい。
次に、確定された単語がモニタ12dに表示され(ステップS13)、当該単語をユーザがマイク12iに向かって発声する(ステップS14)。このときの音声は、マイク12iで集音されアナログ音声信号として音声入出力インターフェイス12hでデジタルデータに変換される。以下、このデジタルデータを、「音声信号」、或いはアナログ信号の波形をデジタルデータ化したものであるという意味で、「音声波形データ」という。
次に、この音声信号は、音声信号分析部24に入力される。音声信号分析部24は、調音的属性DB28及び単語区分組成DB30及び特徴軸DB34を用いて、音声信号から、発音された単語に含まれる音素毎に音響的特徴を抽出し、評価カテゴリ情報とともに調音的属性推定部26に出力する(ステップS15)。この「音響的特徴」とは、人の声も含む音響データから測定できる、強さ、大きさ、周波数やピッチ、ホルマント、またはこれらの変化率等であり、更に詳細には、音響データの周波数的特徴量、音量、持続時間、それらの変化量、またはそれらの変化パターンおよびそれらの少なくとも一つ以上の組合せをさす。
また、モニタ12dに提示された上述の単語は、調音的属性DB28と単語区分組成DB30及び特徴軸DB34の検索に用いられる。なお、後述するように本明細書においては、「単語情報」という表記があるが、単語の品詞や地域(米語/英語の違いなど)を含むものが「単語情報」と表記し、単語(のスペル)のみの場合を単に「単語」と表記する。
次に、音声信号分析部24により抽出された音響的特徴及び評価カテゴリ情報から調音的属性推定部26によって、音素毎に調音的属性の推定が行われ、この結果、調音的属性値が出力される(ステップS16)。なお、「調音的属性」とは、音声学的に認識されている発音時の調音器官の状態や調音の様式である。具体的には、舌の高さ、舌の位置、舌の形状、舌の動き、唇の形状、唇の開き方、唇の動き、声門の状態、声帯の状態、口蓋垂の状態、鼻腔の状態、上下の歯の位置、顎の状態、顎の動き、のいずれか一つ又はこれらの調音器官状態の少なくとも一つの組合せ、前記調音器官状態の力の入れ方、および呼気の状態の組み合わせのことを言う。また「調音的属性値」は、調音的属性の状態を数値化した値である。例えば、舌が口蓋に付いている状態を1、付いていない状態を0とする。あるいは、舌と硬口蓋から上顎歯の先端までの部分での狭窄部分の位置を、0〜1の値で表す(硬口蓋の部分の場合を0、上顎歯の先端部分の場合を1とし、中間部分を、0.25、0.5、0.75、のように5段階の値とする)。
次に、調音的属性値に従って、発音判定が行われ、判定結果が出力され(ステップS17)、インターフェイス制御部22を通じてモニタ12dに表示される(ステップS18)。さらに、矯正コンテンツ生成部36により矯正コンテンツDB40が参照され、判定結果に応じた矯正コンテンツ(文字、静止画、動画など)が出力され(ステップS19)、インターフェイス制御部22を通じてモニタ12dに表示される(ステップS20)。
以下、発音診断システム20の各構成要素について詳細に説明する。まず、発音診断システム20におけるデータベースを作成するための手順を説明する。図4は、発音診断システム20のデータベースの作成手順を示す図である。
図4に示すように、この作成手順では、まず、診断したい音素を選択し、音声サンプルを収集するためにその音素を含む語句を選択する(ステップS01)。なお、辞書に一般的に用いられている所謂発音記号では同一の音素であっても、単語の中の位置により厳密には異なる音となることが知られている。例えば英語の子音の1つである音素「l」は、語頭、語中、語尾、さらに二つ以上の子音が連続している場合(クラスタと呼ばれる)に、音としての性質が変わるものがある。即ち、音素によっては、その音素の位置や直前の音素の種類により音が変化する。したがって、同じ発音記号の音素であっても、音素の位置や直前の音素の種類により固有の音素として取り扱う必要がある。このような観点から、特定音素とそれを含む語句の集合体を作成し、これを単語データベース(DB)とする。また、これを元に後述する単語区分組成DB30が作成される。
次いで、特定した語句の発音を記録した音声サンプル(文中、単にサンプルとも呼ぶ)を収集する(ステップS02)、音声サンプルは、同一の語句を複数の話者に発音させ、例えば音声ファイルとしてのデータ形式に準拠するよう、強さの上限・下限を超過しないこと、発音の開始前と終了後に一定の無発音区間を設けることなど、同一の規格で録音を行う。このようにして収集し、話者や語句によって体系立てて整備したサンプル群を音声サンプルデータベース(DB)とする。
次いで、調音的属性の様々な種類をエントリーとしたカテゴリを策定する(ステップS03)。このステップS03では。サンプルDBに収録された個々のサンプルを音声学者が聴き、音声学的観点での正しい発音以外に、どのような発音がなされているかを調査する。この際に調音器官の状態や調音の様式の属性を検知し、記録する。即ち、任意の音素に対し、その音素を条件付ける調音器官の状態や調音の様式、つまり調音的属性の様々な種類をエントリーとしたカテゴリを定義する。例えば、「唇の形状」というカテゴリに対して「丸めている」「丸めていない」などの状態が記述される。
図6に、カテゴリの例を示す。
例えば、日本人にとって「lay」と「ray」はともに「レイ」という音で発音される場合が多い。音声学的な捉え方では、例えば音素「l」の音は、側音と言われているように、歯の付け根よりも内側の部分に舌の先端を押し当て、いったん舌の両側から有声音である空気を流した後に、舌先を口蓋から離すことによって発声する音である。
日本人がこの音素「l」の音を発声すると、音声学的に定義されている舌の位置よりも2〜3ミリ後方に接し、しかも側音ではなく、はじき音といわれる音となる。それは、日本語の「ラ行」の音を発音するときの場所と発音する方法が、英語を発音する際にも誤って用いられるからである。
このように、ひとつの音素に対して、一個以上の調音器官の状態や調音の様式、即ち、調音的属性(カテゴリ)が特定されている。音素「l」の場合には、それが、側音であること、場所が歯の付け根の直後であること、有声音であることなどが音素「l」の正しい調音的属性となる。
また、多数の話者による発音を調査することで、各音素に関して、正しい調音器官の状態や調音の様式に属さない調音的属性、または、まったく別の音素の調音的属性に分類される調音的属性といったように、不正解の調音的属性も特定することができる。例えば、音素「l」の場合に、「側音」で無い、「側音でなくかつはじき音」、「舌の位置が後ろ過ぎる」、「子音として短すぎる・長すぎる」などの各調音的属性を特定することができる。
かかるステップS03では、定義したカテゴリの集合体をカテゴリデータベース(DB)とする。この結果から、調音的属性DB28が作成される。また、このとき、図7に示すように、単語とその単語を構成するセグメントに音素を特定する情報(図中、「M52」等)が対応付けられて単語区分組成DB30のレコードの一部とされる。また、図8に示すように、音素を特定する情報と、その音素に対応の評価カテゴリごとの属性が対応付けられて、調音的属性DB28のレコードの一部とされる。また、図10に示すように、音素を特定する情報と、評価カテゴリに対応して、望ましい属性値から逸脱すると判定された場合の発音の矯正方法に関するコンテンツとが対応付けられて矯正コンテンツDB36のレコードとされる。
次いで、収集した音声サンプルを、ステップS03で定義したカテゴリを元に評価し、音声学的に該当するカテゴリに分類し、記録する(ステップS04)。ステップS04では、音声サンプルDBの個々の音声サンプルに対してカテゴリへの分類、記録をした集合体を発音評価データベース(DB)とする。
次いで、ステップS04の音声評価を経たサンプル群を対象に、同じ調音的属性に属する音声サンプルが、音響データの特徴としてどのような共通性を持つかを調査する(ステップS05)。
具体的に、このステップS05では、個々の音声サンプルに含まれる音声波形データを、音響的特徴の時系列に変換し、当該音響的特徴の時系列を音素ごとの区間に分割する。例えば、単語が「berry」の場合には、音素「r」が音声波形データの時間軸上のどの区間で発音されているかを特定する。
さらに、ステップS05では、特定した区間の音響的特徴(ホルマントやパワー)と各特徴の値、値の変化率や区間内での平均など、値から算出可能なデータ(音響的特徴量)の1つ以上を組み合わせ、対象の区間の音素として正しい調音的属性の組み合わせもつ音声サンプル群と、その音素としての条件を満たさない、一項目以上の調音的属性をもつ音声サンプル群との間で、どの音響的特徴と音響的特徴量が各々のサンプル群の中で共通性を持ち、かつ、双方のサンプル群を区分できる傾向をもつかを調査する。そして、音響的特徴から調音的属性と関連する特徴軸を選択する。この結果をもとに、特徴軸DB34が生成される。
次いで、ステップS05により得られた音響的特徴を精査し、調音的属性との関連性を検証する(ステップS06)。即ち、この検証においては、音響的特徴における音響的特徴量に基づく調音的属性の判定と、音声学者の判定とを比較する。比較の結果、両者が一致しない場合には、ステップS05のプロセスを実施し別の音響的特徴を作成する。以上の結果をもとに音素に対応する評価カテゴリ毎に音響的特徴を特定する特徴軸DB34が生成される。図9に、特徴軸DBのレコードの一例を示す。なお上記では、ステップS06においては音声学者の判定により比較を行ったが、簡単な音声評価モデルを作成しておき、自動的に判定を行うこともできる。
次いで、ステップS06のプロセスで特定音素の判定に有効であることが確認された音響的特徴に対して閾値を確定する(ステップS07)。尚、この閾値は、常に一定ではなく、可変とすることも可能である。その場合には、閾値DB32の登録を変更したり、外部からの入力により閾値を変えることにより、判定器の判定基準を変更できる。即ち、ステップS07では、音素それぞれについて調音的属性への属否の境界となる特徴量の閾値を確定する。このように確定された閾値の集合体を、閾値DB32とする。即ち、閾値DB32には、複数の音素それぞれに関する調音的属性への属否を判定するための特徴量の閾値が登録されている。
上記図4における特徴軸選択(ステップS05)の処理について、より詳細に説明する。図11には、音声サンプルの調音的属性への属否を判定するため、音素の音響的特徴にもとづいて調音的属性の分布を形成する例が示されている。すなわち、持続時間に関する特徴量F1及び音声パワーに関する特徴量F2の分布において、単語「belly」における音素「l」が舌先のはじきを伴う発音(日本語的発音)のため不正解となる場合の調音的属性判定ができる。
また、図4における閾値確定(ステップS07)の例として、図11では特徴量の分布において一次式で2分割することにより閾値を確定する例が示されているが、さらには、閾値として統計モデルを用いた一般的な判定器における一般的な判定パラメータをもちいることもできる。なお、調音的属性の種類により、その調音的属性への属否が、閾値によって明確に2分割できる場合と、属否を明確に分けずに中間的な判定を行う場合がある。
また図12は、持続時間に関する特徴量F3及び音声パワーに関する特徴量F4の分布によって、舌と硬口蓋から上顎歯の先端までの部分での狭窄部分の位置の違いの調音的属性判定を行う例を示している。この結果、音素「th」と、音素「s」または音素「sh」との違いを判別できる。図13は、音素「s」と音素「th」との発声時の調音器官の状態を示し、図13(a)は、音素「s」の場合を示し、図13(b)は、音素「th」の場合を示している。さらに、図14は、周波数に関する特徴量F5及び周波数に関する特徴量F6の分布によって、舌の先端と口蓋によって作られる狭窄位置の場所の違いの調音的属性判定を行う例を示している。この結果、音素「s」と音素「sh」との違いを判別できる。図15は、音素「s」と音素「sh」との発声時の調音器官の状態を示し、図15(a)は、音素「s」の場合を示し、図15(b)は、音素「sh」の場合を示している。
このように、互いに類似する音素「s」「sh」「th」間の調音的属性を判別するために、入力された音素の一方の音響的特徴にしたがって、第1の調音的属性分布形成を行い、また、これとは別の類似する音素の音響的特徴にしたがって、第2の調音的属性分布を形成し、それぞれ作成した調音的属性分布において、それぞれに対応する閾値を用いて、所望の調音的属性への属否を判定することができる。このように、以上の方法によれば子音の発音を判定することができる。
図5は、発音診断システム20における閾値DB32と特徴軸DB34を作成するシステム(データベース作成システム50)のブロック構成図を示すものである。音声サンプルDB54および音声評価DB56は、前記図4に示すデータベース作成手順に従って作成される。また特徴軸選択部521を有する調音的属性分布形成部52の処理手順についても、前記図4に述べた手順で処理が行われ、この結果閾値DB32と特徴軸DB34が作成される。このデータベース作成システム50は、発音診断システム20とは独立に動作させてデータベースを作成することもできるし(オフライン処理)、また発音診断システム20に組み込んで、閾値DB32や特徴軸DB34を常時更新する構成とすることもできる(オンライン処理)。
以上のように、音声言語体系毎に、それを構成する音素毎に調音的属性を有する調音的属性DB28と、調音的属性値を推定するための閾値を有する閾値DB32と、単語区分組成DB30と、特徴軸DB34と、矯正コンテンツDB40のうち少なくとも1つを、ハードディスク、CD−ROM等の記録媒体に記録しておくことにより、他の機器でも利用価値がある。
以下、このように生成されたデータベースを用いる発音診断システム20の各要素を説明する。
インターフェイス制御部22は、ユーザからの操作を受付、後続プログラム部分を起動・制御する。
音声信号分析部24は、音声波形データを読込み、これを音素の区間に分割し、分割した区分(セグメント)ごとの特徴(音響的特徴)を出力する。すなわち、音声信号分析部24は、コンピュータを区分手段及び特徴量抽出手段として機能させる。
図16は、音声信号分析部の構成を示す図である。音声信号分析部24では、信号処理部241において、音声信号(音声波形データ)が、一定の時間間隔で分析され、ホルマント軌跡関連時系列データ(ホルマント周波数、ホルマントパワーレベル、基本周波数、音声パワーなどの時系列データ)に変換される。なお、ホルマント軌跡の代わりにケプストラム等の周波数的特徴を用いても良い。
以下、信号処理部241をより詳細に説明する。図17は、信号処理部241の構成を示す図である。図17に示すように、信号処理部241では、線形予測分析部241aが、音声波形データに対して、一定の時間間隔で、全極型声道フィルターモデルによるパラメトリック分析を行い、偏相関係数の時系列ベクトルを出力する。
また、波形初期分析部241bが、高速フーリエ変換などを用いたノンパラメトリック分析によって初期音声パラメータ(基本周波数(ピッチ)、音声パワー、ゼロクロスパラメータなど)の時系列を出力する。優勢な音声区間抽出部241cは、波形初期分析部241bの出力から、単語の母体となる優勢な音声区間を抽出し、これをピッチ情報と共に出力する。
また、声道フィルターモデルの次数決定部241dが、線形予測分析部241aと優勢な音声区間抽出部241cの出力から、一定の基準に基づいて声道フィルターの次数を決定する。
そして、ホルマント軌跡抽出部241eが、次数決定した声道フィルターを用いてホルマント周波数、ホルマントパワーレベルなどを計算し、基本周波数、音声パワーなどと共に、これらをホルマント軌跡関連データの時系列として出力する。
図16に戻り、単語区分組成検索部242は、単語(スペル)から、あらかじめ用意されている単語区分組成DB30を検索し、その単語に対する区分組成情報(区分要素列、たとえば、単語「berry」の場合、
Vb/Vo/Vc/Vo)を出力する。
ここで、単語区分組成DB30について説明する。単語の発音には、音響的にみれば有声音と無声音がある。また、単語の発音は、音響的に単一の特性を持つ区間に分割できる(分割された区間をセグメントと呼ぶ)。セグメントの音響的特性は、以下のように分類することができる。
(1)有声音の分類例
強い狭窄を伴う子音(Vc)
強い狭窄を伴わない子音や母音(Vo)
有声破裂音(Vb)
(2)無声音の分類例
無声破裂音(Bu)
その他の無声音(Vl)
(3)無音の音間(Sl)
単語の発音をセグメントに区分し、上記分類例に従って分類したものを、単語区分組成と呼ぶ。例えば、単語「berry」は、上記の分類に従えばVb/Vo/Vc/Vo という区分組成となる。
単語区分組成DB30は、このような区分組成を単語毎にリスト化したデータベースである。なお、以下では、このデータベースから得られた単語区分組成データを「単語区分組成情報」と呼ぶ。
単語区分組成検索部242は、かかる単語区分組成DB30から、選択された単語に対する単語区分組成情報を検索して、音声区分化処理部243に出力する。
音声区分化処理部243は、信号処理部241の出力(ホルマント軌跡関連データ)を、単語区分組成検索部242の出力(単語区分組成情報)に基づいてセグメント分割処理する。図18は、音声区分化処理部243の構成を示す図である。
音声区分化処理部243では、音声区間抽出部243aが、単語区分組成検索部242からの単語区分組成情報に基づいて、ホルマント軌跡関連時系列データ中の音声区間を抽出する。この音声区間は、信号処理部241の出力区間の両側に存在し得る無声音声あるいは破裂音声などのピッチ周期を持たない音声区間が含まれる。
音声区間内セグメント細分化処理部243bは、音声区間抽出部243aの出力(音声区間)と単語区分組成情報とに基づいて、セグメントの細分化処理を必要な回数だけ繰り返し、これを時間区分化ホルマント軌跡関連データとして出力する。
図16において、調音的属性・特徴軸検索部244は、入力された単語(スペル)から、その単語の判定項目に対応した評価カテゴリ情報と特徴軸情報(複数の音響的特徴軸情報を含む場合がある)を、音響的特徴量抽出部245に出力する。また、この評価カテゴリ情報は、次の調音的属性推定部26にも出力される。
音響的特徴量抽出部245は、音声区分化処理部243からの出力(時間区分化ホルマント奇跡関連データ)と、調音的属性・特徴軸検索部244からの出力(評価カテゴリ情報と特徴軸情報)とから、入力された音声信号の判定に必要な、音響的特徴を出力し、これを次の調音的属性推定部26へ出力する。
図19は、音響的特徴量抽出部245の構成を示す図である。図19に示すように、音響的特徴量抽出部245では、一般的音響的特徴量抽出部245aによって、それぞれのセグメントに対するホルマント周波数、ホルマントパワーレベルなどの、どのセグメントにも共通する音響的特徴に対する数値データ(一般的音響的特徴量)が抽出される。
また、評価カテゴリ別音響的特徴量抽出部245bによって、調音的属性・特徴軸検索部244の出力である評価カテゴリ情報に基づいて、単語に依存する評価カテゴリ別音響的特徴量が、必要なカテゴリ数だけ抽出される。
音響的特徴量抽出部245の出力は、調音的属性に対するこれら二種類の音響的特徴量のデータセットであり、これが次の調音的属性推定部26へ送られる。
図20は、調音的属性推定部26による処理の流れを示す図である。図16に示すように、調音的属性推定部26は、単語毎に、単語組成区分DB30から、セグメント情報(図7に示す音素を特定する情報の系列)を取得し(ステップS11)、さらに音声信号分析部24から各セグメントの音素に割り当てられた評価カテゴリ情報(図8を参照)を取得する(ステップS12)。例えば、単語「belly」の例では、セグメント情報として、I33、M03、M52、F02が音素を特定する情報の系列として得られ、さらに例えばセグメント情報がM52の場合には、評価カテゴリ情報として、「舌先と口蓋の接触」、「口の開き方」、「舌先が口蓋に付いている位置」が得られる。
次いで、調音的属性推定部26は、音声信号分析部24から、単語毎の音響的特徴を取得する(ステップS12)。単語が「belly」であれば、I33、M03、M52、F02のそれぞれに対応して、一般的特徴量と評価カテゴリ別特徴量が得られる。
次いで、調音的属性推定部26は、評価カテゴリ毎に調音的属性推定処理を行う(ステップS13)。図21は、各評価カテゴリ毎の処理の流れを示す図である。
ステップS13の処理は、評価カテゴリに対応する閾値データを閾値DB32から読み出し(ステップS131)、評価カテゴリに対応する音響的特徴を取得する(ステップS132)。そして、取得した音響的特徴を上記の閾値データと比較して(ステップS133)、調音的属性値(推定値)を決定する(ステップS134)。
調音的属性推定部26は、すべての評価カテゴリの処理を終了したら(ステップS14)、次のセグメントの処理を行い、すべてのセグメント処理が終了したら(ステップS15)、すべての評価カテゴリに対応する調音的属性値(推定値)を出力して(ステップS16)、終了する。このように、調音的属性推定部26は、コンピュータを属性値推定手段として機能させる。
なお、ステップS133における比較処理の方法としては、例えば以下の方法がある。図11に示す音響的特徴に基づく音素の調音的属性分布と同様に、ある評価カテゴリに対応する特徴軸情報(例えば、F1、F2)にもとづく2次元座標上に、取得した音響的特徴量をプロットする。閾値データから得られた閾値軸(例えば、図11に示す一次式)で分割した領域の片方を「正解領域」、他方を「不正解領域」とし、どちらに前記プロットした点が存在するかにより、調音的属性値(推定値)を決定する(例えば、正解領域の場合1、不正解領域の場合0とする)。その他にも、統計モデルを用いた一般的な判定器を用いて属性値を決定することもできる。また、調音的属性の種類により、その調音的属性への属否を、閾値によって明確に分割せずに中間的な値とする場合がある(例えば、0、0.25、0.5、0.75、1、の5段階の値)。
図2において、調音的属性推定部26から出力される調音的属性値(推定値)は、評価カテゴリ毎に出力されるので、例えば、単語「belly」における音素「l」の評価カテゴリである「舌先と口蓋の接触」の調音的属性値(推定値)が1である場合には、図8に示すように「舌が口蓋についている」という判定結果が得られる。このように、発音判定部38は、調音的属性値(推定値)から調音的属性の状態を判定できる。さらには、調音的属性DB28から望ましい発音に対する調音的属性値を取得し、調音的属性推定部26から出力される調音的属性値(推定値)と比較することにより、望ましい発音であるか否かの判定結果を出力する。例えば、音素「r」の発音判定で、評価カテゴリ「舌先と口蓋の接触」の調音的属性値(推定値)が1で、望ましい発音に対する調音的属性値が0であった場合、「舌が口蓋についている」ため「不合格」という判定結果を出力する。このように、発音判定部38は、コンピュータを発音判定手段として機能させる。
また図8に示すようなメッセージは、インターフェイス制御部22を通じて、モニタ12dに表示される。また、図10に示す矯正コンテンツ生成部36は、矯正コンテンツDB36を参照し、不正解であった音素について、例えば音素「r」の評価カテゴリである「舌先と口蓋の接触」の判定結果が「舌が口蓋についている」ため「不合格」である場合には、「舌が口の天井に触れないように」というメッセージが得られ、このメッセージはインターフェイス制御部22を通じてモニタ12dに表示される。これによって、発音の矯正が促される。このように、インターフェイス制御部22は、コンピュータを状態提示手段及び矯正方法提示手段として機能させる。
判定結果の詳細な表示例としては、図22に示すように、不正解の音素について、正しく発音されていない調音的属性をすべて表示する方法や、さらに発音した単語全体について、図23のように音素毎に合格・不合格を示した上で、不合格であった音素については正しく発音されていない調音的属性を表示するなどの方法がある。
また、他の方法として、調音器官の状態などを、スケッチや写真などの静止画や、アニメやビデオなどの動画像で表示したり、また音声(合成音や録音した音など)を使って指示するなどの種々の手段が考えられる。
同様に、図24の表示例のように、正しく発音されなかった調音的属性を表示した上で、その矯正方法を表示するようにして、判定結果と矯正コンテンツの表示を組み合わせる方法もある。さらには、判定結果の表示と同様に、矯正すべき調音器官の状態をスケッチや写真などの静止画や、アニメやビデオなどの動画像で表示したり、また音声(合成音や録音した音など)を使って指示するなどの手段がある。
以上において、図2に示した調音的属性DB28、単語区分組成DB30、閾値DB32、特徴軸DB34、矯正コンテンツDB36は、例えば英語、米語、などの言語体系毎にCD-ROMなどの媒体に記録することができ、発音診断装置10において利用できる。すなわち、一つの言語体系毎に一つのCD-ROMに記録し、言語体系別の学習に供することなどが可能である。
また、図3の発音診断プログラム全体も、CD-ROMなどの媒体に記録でき、発音診断装置10において利用できるので、新たな言語体系の追加や、調音的属性データの追加などが可能である。
以上説明した、発音診断装置10によれば、以下の効果が奏される。即ち、発音診断装置10を使用することによって、場所を問わずに均一の発音矯正を行うことが出来るため、学習者は自分の都合に合わせて密かに学習することが出来る。また、自習をするためのソフトであるために、学校教育などでは、現場の効果を高めるための自宅学習にも採用することができる。
また、発音診断装置10によれば、調音器官の状態や調音の様式を特定し、具体的にその要因を改善する。たとえば、音素「r」の発音時に、唇が丸まっているかどうか、日本語の「ら」のように、硬口蓋をはじいているかどうか、などのように、調音の場所および、方法を特定することも可能である。このように特に子音の発音学習に効果を発揮する。
また、発音診断装置10によれば、たとえば、「ray」か「lay」のように、英語の辞書に存在する言葉の中で一番近いものを選び出す方法ではなく、たとえば日本語の発音方法で「レイ」と発音された場合に、調音器官の状態や調音の様式(声帯、舌の位置と形、唇の形や口の開き具合、音を作る方法など)の単位で違いを判定し、正しい発音に近づけるためにどのような行動を学習者がとるべきかを具体的に提示することができる。
また、発音診断装置10によれば、各言語の発音に対し、発話者の母国語と、学習すべき言語の従来の弁別素性の比較をもとに、発音されるときに起こりうる不正解の音と、その音の調音の状態を予測し、あらかじめその調音特徴素性の音声分析と音響分析により、その調音特徴をもつ口腔内の状況をも予測して、差異を指摘するポイントを策定することができるため、全言語の発音訓練に対応することが出来る。
また、発音診断装置10によれば、音が作られるときの口腔内の状態を具体的に再現できるので、多言語の習得、または言語療法のための訓練や自習が、専門の訓練士を伴わずに行うことが可能となる。
また、発音診断装置10によれば、口腔内の状況を発話者に具体的に指摘し、矯正することが出来るので、学習者は、自己の状況を改善できないという欲求不満とストレスを感じることなく学習を進めることが可能となる。
また、発音診断装置10によれば、例えば英語などの外国語の学習者が自分の発音の特徴を知ることができ、正しくない場合には矯正法を提示されるので、正しい反復練習が実現できる。そのため、従来の音声認識技術を用いた発音学習と比較し短期間でかつ効率的に発音の学習ができるばかりではなく、矯正法が即座に示されることでストレスも少ない学習が可能になる
また、発音診断装置10によれば、音素を構成する調音器官の状態や調音の様式などの具体的な口腔内の要因と、その音との因果関係を解明できるので、その音のデータベースから口腔内の状態を再現することが出来る。そのことにより、発話者の口腔内を三次元的に画面上に映し出すことができる。
また、発音診断装置10によれば、単語単位のみならず、文ないし文章までも一つの連続した音声の時系列データとみなすことができるので、文章全体の発音診断が可能となる。
図1は、本発明の実施の形態に係る発音診断装置として動作するコンピュータの構成を示す図である。 図2は、発音診断システムの構成を示す図である。 図3は、発音診断プログラムの処理の流れを示す図である。 図4は、発音診断システムのデータベース作成手順を示す図である。 図5は、発音診断システムのデータベース作成システムの構成を示す図である。 図6は、カテゴリの例を示す図である。 図7は、単語区分組成データベースのレコードの一例を示す図である。 図8は、調音的属性データベースのレコードの一例を示す図である。 図9は、特徴軸データベースのレコードの一例を示す図である。 図10は、矯正コンテンツデータベースのレコードの一例を示す図である。 図11は、調音的属性の分布の一例を示す図である。 図12は、音素「s」または音素「sh」と音素「th」との違いを判別する調音的属性分布の一例を示す図である。 図13は、音素「s」と音素「th」との発声時の調音器官の状態を示す図である。 図14は、音素「s」と音素「sh」との違いを判別する調音的属性分布の一例を示す図である。 図15は、音素「s」と音素「sh」との発声時の調音器官の状態を示す図である。 図16は、音声信号分析部の構成を示す図である。 図17は、信号処理部の構成を示す図である。 図18は、音声区分化処理部の構成を示す図である。 図19は、音響的特徴量抽出部の構成を示す図である。 図20は、調音的属性推定部の処理の流れを示す図である。 図21は、評価カテゴリ毎の処理の流れを示す図である。 図22は、判定結果の表示例を示す図である。 図23は、判定結果の表示例を示す図である。 図24は、矯正方法の表示例を示す図である。
符号の説明
10…発音診断装置、20…発音診断システム、22…インターフェイス制御部、24…音声信号分析部、26…調音的属性推定部、28…調音的属性データベース、30…単語区分組成データベース、32…閾値データベース、34…特徴軸データベース、36…矯正コンテンツ生成部、38…発音判定部、40…矯正コンテンツデータベース。

Claims (13)

  1. 音声言語体系毎に、それを構成する音素毎に、その音素を発声する際の調音的属性としての舌の高さ、舌の位置、舌の形状、舌の動き、唇の形状、唇の開き方、唇の動き、声門の状態、声帯の状態、口蓋垂の状態、鼻腔の状態、上下の歯の位置、顎の状態、顎の動き、のいずれか一つ又はこれらの調音器官状態の少なくとも一つを含むそれらの組合せ、前記調音器官状態の力の入れ方、および呼気の状態の組み合わせに関する望ましい発音に対応する調音的属性値を有する調音的属性データと、
    話者が発した音声信号からの音響的特徴としての周波数的特徴量、音量、持続時間、それらの変化量、またはそれらの変化パターンおよびそれらの少なくとも一つ以上の組合せを抽出する手段と、
    前記抽出された音響的特徴に基づいて、前記調音的属性に関する属性値を推定する属性値推定手段と、
    前記推定された属性値を前記望ましい調音的属性データと比較することにより、発声者の発音に関する判定を行う手段と、
    を備える発音診断装置。
  2. 発声者の発音診断結果を出力する手段を備えることを特徴とする請求項1記載の発音診断装置。
  3. 発音の音素を音響的特徴としての周波数的特徴量、音量、持続時間、それらの変化量、またはそれらの変化パターンおよびそれらの少なくとも一つ以上の組合せで抽出する音響的特徴抽出手段と、
    前記抽出された音素の音響的特徴に従って、音声言語体系毎に、それを構成する音素毎に、その音素を発声する際の調音的属性としての舌の高さ、舌の位置、舌の形状、舌の動き、唇の形状、唇の開き方、唇の動き、声門の状態、声帯の状態、口蓋垂の状態、鼻腔の状態、上下の歯の位置、顎の状態、顎の動き、のいずれか一つ又はこれらの調音器官状態の少なくとも一つを含むそれらの組合せ、前記調音器官状態の力の入れ方、および呼気の状態の組み合わせにより分布を形成するための調音的属性分布形成手段と、
    前記調音的属性分布形成手段で区分された調音的属性を閾値でもって判定する調音的属性判定手段と、
    を備える発音診断装置。
  4. 発音の類似する音素を音響的特徴としての周波数的特徴量、音量、持続時間、それらの変化量、またはそれらの変化パターンおよびそれらの少なくとも一つ以上の組合せで抽出する音響的特徴抽出手段と、
    前記抽出された類似の一方の音素の音響的特徴に従って、音声言語体系毎に、それを構成する音素毎に、その音素を発声する際の調音的属性としての舌の高さ、舌の位置、舌の形状、舌の動き、唇の形状、唇の開き方、唇の動き、声門の状態、声帯の状態、口蓋垂の状態、鼻腔の状態、上下の歯の位置、顎の状態、顎の動きのいずれか一つ又はこれらの調音器官状態の少なくとも一つを含むそれらの組合せ、前記調音器官状態の力の入れ方、および呼気の状態の組み合わせにより分布を形成するための第1調音的属性分布形成手段と、
    前記抽出された類似の他方の音素の音響的特徴に従って発音者の調音的属性を舌の高さ、舌の位置、舌の形状、舌の動き、唇の形状、唇の開き方、唇の動き、声門の状態、声帯の状態、口蓋垂の状態、鼻腔の状態、上下の歯の位置、顎の状態、顎の動きのいずれか一つ又はこれらの調音器官状態の少なくとも一つを含むそれらの組合せ、前記調音器官状態の力の入れ方、および呼気の状態の組み合わせで分布を形成するための第2調音的属性分布形成手段と、
    前記第1調音的属性分布形成手段で区分された調音的属性を第1閾値でもって判定する第1調音的属性判定手段と、
    前記第2調音的属性分布形成手段で区分された調音的属性を第2閾値でもって判定する第2調音的属性判定手段と、
    を備える発音診断装置。
  5. 前記閾値を可変する閾値可変手段を備えることを特徴とする請求項3又は4記載の発音診断装置。
  6. 前記音素は子音であることを特徴とする請求項1、3又は4のいずれか1項記載の発音診断装置。
  7. 話者が発した音声信号からの音響的特徴としての周波数的特徴量、音量、持続時間、それらの変化量、またはそれらの変化パターンおよびそれらの少なくとも一つ以上の組合せを抽出する工程と、
    前記抽出された音響的特徴に基づいて、前記調音的属性に関する属性値を推定する属性値推定工程と、
    前記推定された属性値を音声言語体系毎に、それを構成する音素毎に、その音素を発声する際の調音的属性としての舌の高さ、舌の位置、舌の形状、舌の動き、唇の形状、唇の開き方、唇の動き、声門の状態、声帯の状態、口蓋垂の状態、鼻腔の状態、上下の歯の位置、顎の状態、顎の動きのいずれか一つ又はこれらの調音器官状態の少なくとも一つを含むそれらの組合せ、前記調音器官状態の力の入れ方、および呼気の状態の組み合わせに関する望ましい発音に対応する調音的属性値を有する調音的属性データと比較して発声者の発音に関する判定を行う工程と、
    発声者の発音診断結果を出力する工程と、
    を備える発音診断方法。
  8. 発音の音素を音響的特徴としての周波数的特徴量、音量、持続時間、それらの変化量、またはそれらの変化パターンおよびそれらの少なくとも一つ以上の組合せで抽出する音響的特徴抽出工程と、
    前記抽出された音素の音響的特徴に従って、音声言語体系毎に、それを構成する音素毎に、その音素を発声する際の調音的属性としての舌の高さ、舌の位置、舌の形状、舌の動き、唇の形状、唇の開き方、唇の動き、声門の状態、声帯の状態、口蓋垂の状態、鼻腔の状態、上下の歯の位置、顎の状態、顎の動きのいずれか一つ又はこれらの調音器官状態の少なくとも一つを含む組合せ、前記調音器官状態の力の入れ方、および呼気の状態の組み合わせで分布を形成するための調音的属性分布形成工程と、
    前記調音的属性分布形成手段で区分された調音的属性を閾値でもって判定する調音的属性判定工程と、
    を備える発音診断方法。
  9. 発音の類似する音素を音響的特徴としての周波数的特徴量、音量、持続時間、それらの変化量、またはそれらの変化パターンおよびそれらの少なくとも一つ以上の組合せで抽出する音響的特徴抽出工程と、
    前記抽出された類似の一方の音素の音響的特徴に従って、音声言語体系毎に、それを構成する音素毎に、その音素を発声する際の調音的属性としての舌の高さ、舌の位置、舌の形状、舌の動き、唇の形状、唇の開き方、唇の動き、声門の状態、声帯の状態、口蓋垂の状態、鼻腔の状態、上下の歯の位置、顎の状態、顎の動き、のいずれか一つ又はこれらの調音器官状態の少なくとも一つを含むそれらの組合せ、前記調音器官状態の力の入れ方、および呼気の状態の組み合わせで分布を形成するための第1調音的属性分布形成工程と、
    前記抽出された類似の他方の音素の音響的特徴に従って発音者の調音的属性を舌の高さ、舌の位置、舌の形状、舌の動き、唇の形状、唇の開き方、唇の動き、声門の状態、声帯の状態、口蓋垂の状態、鼻腔の状態、上下の歯の位置、顎の状態、顎の動きのいずれか一つ又はこれらの調音器官状態の少なくとも一つを含むそれらの組合せ、前記調音器官状態の力の入れ方、および呼気の状態の組み合わせで分布を形成するための第2調音的属性分布形成工程と、
    前記第1調音的属性分布形成工程で区分された調音的属性を第1閾値でもって判定する第1調音的属性判定工程と、
    前記第2調音的属性分布形成工程で区分された調音的属性を第2閾値でもって判定する第2調音的属性判定工程と、
    を備える発音診断方法。
  10. 前記閾値を可変する閾値可変工程をさらに備えることを特徴とする請求項8又は9記載の発音診断方法。
  11. 音声言語体系毎に、それを構成する音素毎に調音的属性を有する調音的属性データベースと、調音的属性値を推定するための閾値を有する閾値データベースと、単語区分組成データベースと、特徴軸データベースと、矯正コンテンツデータベースのうち少なくとも1つを記憶している記録媒体。
  12. コンピュータに請求項7,8,9又は10のいずれか記載の方法を実行させるプログラムを記録した記録媒体。
  13. コンピュータに請求項7,8,9又は10のいずれか記載の方法を実行させるコンピュータプログラム。
JP2006147171A 2005-09-29 2006-05-26 発音診断装置、発音診断方法、記録媒体、及び、発音診断プログラム Active JP5120826B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2006147171A JP5120826B2 (ja) 2005-09-29 2006-05-26 発音診断装置、発音診断方法、記録媒体、及び、発音診断プログラム
KR1020087008240A KR20080059180A (ko) 2005-09-29 2006-09-29 발음진단 장치, 발음진단 방법, 기록 매체, 및, 발음진단프로그램
TW095136432A TW200721109A (en) 2005-09-29 2006-09-29 Pronunciation diagnosis device, pronunciation diagnosis method, recording medium, and pronunciation diagnosis program
EP06810834A EP1947643A4 (en) 2005-09-29 2006-09-29 DEVICE AND METHOD FOR DIAGNOSING PRONUNCIATION, RECORDING MEDIUM AND DIAGNOSTIC PROGRAM FOR PRONUNCIATION
US12/088,614 US20090305203A1 (en) 2005-09-29 2006-09-29 Pronunciation diagnosis device, pronunciation diagnosis method, recording medium, and pronunciation diagnosis program
PCT/JP2006/319428 WO2007037356A1 (ja) 2005-09-29 2006-09-29 発音診断装置、発音診断方法、記録媒体、及び、発音診断プログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2005285217 2005-09-29
JP2005285217 2005-09-29
JP2006147171A JP5120826B2 (ja) 2005-09-29 2006-05-26 発音診断装置、発音診断方法、記録媒体、及び、発音診断プログラム

Publications (2)

Publication Number Publication Date
JP2007122004A true JP2007122004A (ja) 2007-05-17
JP5120826B2 JP5120826B2 (ja) 2013-01-16

Family

ID=37899777

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006147171A Active JP5120826B2 (ja) 2005-09-29 2006-05-26 発音診断装置、発音診断方法、記録媒体、及び、発音診断プログラム

Country Status (6)

Country Link
US (1) US20090305203A1 (ja)
EP (1) EP1947643A4 (ja)
JP (1) JP5120826B2 (ja)
KR (1) KR20080059180A (ja)
TW (1) TW200721109A (ja)
WO (1) WO2007037356A1 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009180958A (ja) * 2008-01-31 2009-08-13 Yamaha Corp パラメータ設定装置、音響生成装置およびプログラム
KR20120040174A (ko) * 2012-03-26 2012-04-26 조문경 음성분석기술을 이용한 시각적 영어 발음 교정시스템 및 교정법
JP2015145939A (ja) * 2014-02-03 2015-08-13 山本 一郎 構音訓練用録画・録音装置
JP2015145938A (ja) * 2014-02-03 2015-08-13 山本 一郎 構音訓練用録画・録音装置
JP2016045420A (ja) * 2014-08-25 2016-04-04 カシオ計算機株式会社 発音学習支援装置およびプログラム
KR20160074952A (ko) * 2014-12-19 2016-06-29 박현선 사용자 단말기를 이용한 보이스 컨설팅 제공 방법
JP2019128531A (ja) * 2018-01-26 2019-08-01 株式会社日立製作所 音声分析装置および音声分析方法
KR20200100411A (ko) * 2019-02-18 2020-08-26 충북대학교 산학협력단 발화 장애인들 및 외국인의 보편적 의사소통을 위한 음성 개선 방법
CN112541651A (zh) * 2019-09-20 2021-03-23 卡西欧计算机株式会社 电子设备、发音学习方法以及服务器装置
JPWO2021166695A1 (ja) * 2020-02-19 2021-08-26

Families Citing this family (142)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US8271281B2 (en) * 2007-12-28 2012-09-18 Nuance Communications, Inc. Method for assessing pronunciation abilities
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8457965B2 (en) * 2009-10-06 2013-06-04 Rothenberg Enterprises Method for the correction of measured values of vowel nasalance
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9706247B2 (en) 2011-03-23 2017-07-11 Audible, Inc. Synchronized digital content samples
US9760920B2 (en) 2011-03-23 2017-09-12 Audible, Inc. Synchronizing digital content
US9703781B2 (en) 2011-03-23 2017-07-11 Audible, Inc. Managing related digital content
US9734153B2 (en) 2011-03-23 2017-08-15 Audible, Inc. Managing related digital content
US8948892B2 (en) 2011-03-23 2015-02-03 Audible, Inc. Managing playback of synchronized content
US8855797B2 (en) 2011-03-23 2014-10-07 Audible, Inc. Managing playback of synchronized content
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8805673B1 (en) 2011-07-14 2014-08-12 Globalenglish Corporation System and method for sharing region specific pronunciations of phrases
US10469623B2 (en) * 2012-01-26 2019-11-05 ZOOM International a.s. Phrase labeling within spoken audio recordings
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9317500B2 (en) 2012-05-30 2016-04-19 Audible, Inc. Synchronizing translated digital content
US9721563B2 (en) * 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9141257B1 (en) 2012-06-18 2015-09-22 Audible, Inc. Selecting and conveying supplemental content
US9536439B1 (en) 2012-06-27 2017-01-03 Audible, Inc. Conveying questions with content
US9679608B2 (en) 2012-06-28 2017-06-13 Audible, Inc. Pacing content
US10109278B2 (en) 2012-08-02 2018-10-23 Audible, Inc. Aligning body matter across content formats
US9367196B1 (en) 2012-09-26 2016-06-14 Audible, Inc. Conveying branched content
US9632647B1 (en) 2012-10-09 2017-04-25 Audible, Inc. Selecting presentation positions in dynamic content
US9223830B1 (en) 2012-10-26 2015-12-29 Audible, Inc. Content presentation analysis
FR3000593B1 (fr) * 2012-12-27 2016-05-06 Lipeo Procede de communication entre un locuteur et un appareil electronique et appareil electronique associe
FR3000592B1 (fr) * 2012-12-27 2016-04-01 Lipeo Module de reconnaissance vocale
US9280906B2 (en) * 2013-02-04 2016-03-08 Audible. Inc. Prompting a user for input during a synchronous presentation of audio content and textual content
US9472113B1 (en) 2013-02-05 2016-10-18 Audible, Inc. Synchronizing playback of digital content with physical content
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US9076347B2 (en) 2013-03-14 2015-07-07 Better Accent, LLC System and methods for improving language pronunciation
TWI508033B (zh) * 2013-04-26 2015-11-11 Wistron Corp 語言學習方法與裝置以及電腦可讀記錄媒體
US9317486B1 (en) 2013-06-07 2016-04-19 Audible, Inc. Synchronizing playback of digital content with captured physical content
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
KR20150024180A (ko) * 2013-08-26 2015-03-06 주식회사 셀리이노베이션스 발음 교정 장치 및 방법
US9489360B2 (en) 2013-09-05 2016-11-08 Audible, Inc. Identifying extra material in companion content
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US20150339950A1 (en) * 2014-05-22 2015-11-26 Keenan A. Wyrobek System and Method for Obtaining Feedback on Spoken Audio
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
GB201706078D0 (en) * 2017-04-18 2017-05-31 Univ Oxford Innovation Ltd System and method for automatic speech analysis
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US11068659B2 (en) * 2017-05-23 2021-07-20 Vanderbilt University System, method and computer program product for determining a decodability index for one or more words
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
GB2575423B (en) 2018-05-11 2022-05-04 Speech Engineering Ltd Computer implemented method and apparatus for recognition of speech patterns and feedback
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN110491382B (zh) * 2019-03-11 2020-12-04 腾讯科技(深圳)有限公司 基于人工智能的语音识别方法、装置及语音交互设备
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
KR102121227B1 (ko) * 2019-07-02 2020-06-10 경북대학교 산학협력단 정상압 수두증의 경과를 확인하기 위한 조음 상태 분류 방법 및 그 시스템
US11410642B2 (en) * 2019-08-16 2022-08-09 Soundhound, Inc. Method and system using phoneme embedding
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
CN111047922A (zh) * 2019-12-27 2020-04-21 浙江工业大学之江学院 一种发音教学方法、装置、系统、计算机设备和存储介质
KR102395760B1 (ko) * 2020-04-22 2022-05-10 한국외국어대학교 연구산학협력단 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템 및 그 제어 방법
CN111833859B (zh) * 2020-07-22 2024-02-13 科大讯飞股份有限公司 发音检错方法、装置、电子设备及存储介质
CN112687291B (zh) * 2020-12-21 2023-12-01 科大讯飞股份有限公司 一种发音缺陷识别模型训练方法以及发音缺陷识别方法
CN113077819A (zh) * 2021-03-19 2021-07-06 北京有竹居网络技术有限公司 发音评价方法和装置、存储介质和电子设备
CN113506563A (zh) * 2021-07-06 2021-10-15 北京一起教育科技有限责任公司 一种发音识别的方法、装置及电子设备
CN115376547A (zh) * 2022-08-12 2022-11-22 腾讯科技(深圳)有限公司 发音评测方法、装置、计算机设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06348297A (ja) * 1993-06-10 1994-12-22 Osaka Gas Co Ltd 発音練習装置
JPH075807A (ja) * 1993-05-28 1995-01-10 Matsushita Electric Ind Co Ltd 合成を基本とした会話訓練装置
JPH07319380A (ja) * 1994-05-20 1995-12-08 Nec Corp 発声訓練装置
JPH0830190A (ja) * 1994-04-12 1996-02-02 Matsushita Electric Ind Co Ltd 合成を基本とした会話訓練装置及び方法
JPH08305277A (ja) * 1995-04-28 1996-11-22 Matsushita Electric Ind Co Ltd 発声訓練装置
JP2000242292A (ja) * 1999-02-19 2000-09-08 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、この方法を実施する装置およびこの方法を実行するプログラムを記憶した記憶媒体
WO2004049283A1 (en) * 2002-11-27 2004-06-10 Visual Pronunciation Software Limited A method, system and software for teaching pronunciation

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5175793A (en) * 1989-02-01 1992-12-29 Sharp Kabushiki Kaisha Recognition apparatus using articulation positions for recognizing a voice
US5440661A (en) * 1990-01-31 1995-08-08 The United States Of America As Represented By The United States Department Of Energy Time series association learning
US5536171A (en) * 1993-05-28 1996-07-16 Panasonic Technologies, Inc. Synthesis-based speech training system and method
WO1998014934A1 (en) * 1996-10-02 1998-04-09 Sri International Method and system for automatic text-independent grading of pronunciation for language instruction
JP4236815B2 (ja) * 1998-03-11 2009-03-11 マイクロソフト コーポレーション 顔合成装置および顔合成方法
JP3520022B2 (ja) * 2000-01-14 2004-04-19 株式会社国際電気通信基礎技術研究所 外国語学習装置、外国語学習方法および媒体
US6728680B1 (en) * 2000-11-16 2004-04-27 International Business Machines Corporation Method and apparatus for providing visual feedback of speed production
US20070055523A1 (en) * 2005-08-25 2007-03-08 Yang George L Pronunciation training system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH075807A (ja) * 1993-05-28 1995-01-10 Matsushita Electric Ind Co Ltd 合成を基本とした会話訓練装置
JPH06348297A (ja) * 1993-06-10 1994-12-22 Osaka Gas Co Ltd 発音練習装置
JPH0830190A (ja) * 1994-04-12 1996-02-02 Matsushita Electric Ind Co Ltd 合成を基本とした会話訓練装置及び方法
JPH07319380A (ja) * 1994-05-20 1995-12-08 Nec Corp 発声訓練装置
JPH08305277A (ja) * 1995-04-28 1996-11-22 Matsushita Electric Ind Co Ltd 発声訓練装置
JP2000242292A (ja) * 1999-02-19 2000-09-08 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、この方法を実施する装置およびこの方法を実行するプログラムを記憶した記憶媒体
WO2004049283A1 (en) * 2002-11-27 2004-06-10 Visual Pronunciation Software Limited A method, system and software for teaching pronunciation

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
CSNG200100861011; 三原誠 他: '"英語母音発音練習支援システムとその発音評価方法"' 電子情報通信学会論文誌J83-D-I Vol.J83-D-I,No.7, 20000725, p.808-812 *
CSNG200400609002; 鈴木紳 他: '"音響調音対コードブックを用いた音声からの調音運動の逆推定"' 電子情報通信学会論文誌J85-A Vol.J85-A,No.8, 20020801, p.840-846 *
CSNG200501063003; 錦戸信和 他: '"生理学的発話機構モデルを用いてQuantal theoryを考慮した音声から発話状態の推定"' 電子情報通信学会技術研究報告 ol.104,No.387, 20041022, p.13-18 *
CSNJ200200003001; 橋谷広樹 他: '"英語発音支援システムのための子音各々のグループ内発音評価"' 電子情報通信学会2001年情報・システムソサイエティ大会講演論文集 , 20010829, p.305 *
JPN6011050479; K. Shirai et al.: '"Recognition of semivowels and consonants in continuous speech using articulatory parameters"' Proc. of ICASSP '82 , 198205, p.2004-2007 *
JPN6012015950; 錦戸信和 他: '"生理学的発話機構モデルを用いてQuantal theoryを考慮した音声から発話状態の推定"' 電子情報通信学会技術研究報告 ol.104,No.387, 20041022, p.13-18 *
JPN6012015951; 鈴木紳 他: '"音響調音対コードブックを用いた音声からの調音運動の逆推定"' 電子情報通信学会論文誌J85-A Vol.J85-A,No.8, 20020801, p.840-846 *
JPN6012015952; 三原誠 他: '"英語母音発音練習支援システムとその発音評価方法"' 電子情報通信学会論文誌J83-D-I Vol.J83-D-I,No.7, 20000725, p.808-812 *
JPN6012015953; 橋谷広樹 他: '"英語発音支援システムのための子音各々のグループ内発音評価"' 電子情報通信学会2001年情報・システムソサイエティ大会講演論文集 , 20010829, p.305 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009180958A (ja) * 2008-01-31 2009-08-13 Yamaha Corp パラメータ設定装置、音響生成装置およびプログラム
KR20120040174A (ko) * 2012-03-26 2012-04-26 조문경 음성분석기술을 이용한 시각적 영어 발음 교정시스템 및 교정법
KR101599030B1 (ko) * 2012-03-26 2016-03-14 강진호 음성분석기술을 이용한 시각적 영어 발음 교정시스템 및 교정법
JP2015145939A (ja) * 2014-02-03 2015-08-13 山本 一郎 構音訓練用録画・録音装置
JP2015145938A (ja) * 2014-02-03 2015-08-13 山本 一郎 構音訓練用録画・録音装置
JP2016045420A (ja) * 2014-08-25 2016-04-04 カシオ計算機株式会社 発音学習支援装置およびプログラム
KR102278008B1 (ko) * 2014-12-19 2021-07-14 박현선 사용자 단말기를 이용한 보이스 컨설팅 제공 방법
KR20160074952A (ko) * 2014-12-19 2016-06-29 박현선 사용자 단말기를 이용한 보이스 컨설팅 제공 방법
JP2019128531A (ja) * 2018-01-26 2019-08-01 株式会社日立製作所 音声分析装置および音声分析方法
KR20200100411A (ko) * 2019-02-18 2020-08-26 충북대학교 산학협력단 발화 장애인들 및 외국인의 보편적 의사소통을 위한 음성 개선 방법
KR102207812B1 (ko) * 2019-02-18 2021-01-26 충북대학교 산학협력단 발화 장애인들 및 외국인의 보편적 의사소통을 위한 음성 개선 방법
CN112541651A (zh) * 2019-09-20 2021-03-23 卡西欧计算机株式会社 电子设备、发音学习方法以及服务器装置
JPWO2021166695A1 (ja) * 2020-02-19 2021-08-26
WO2021166695A1 (ja) * 2020-02-19 2021-08-26 パナソニックIpマネジメント株式会社 口腔機能可視化システム、口腔機能可視化方法およびプログラム
CN115066716A (zh) * 2020-02-19 2022-09-16 松下知识产权经营株式会社 口腔功能可视化系统、口腔功能可视化方法及程序
JP7316596B2 (ja) 2020-02-19 2023-07-28 パナソニックIpマネジメント株式会社 口腔機能可視化システム、口腔機能可視化方法およびプログラム

Also Published As

Publication number Publication date
US20090305203A1 (en) 2009-12-10
KR20080059180A (ko) 2008-06-26
WO2007037356A1 (ja) 2007-04-05
TW200721109A (en) 2007-06-01
EP1947643A1 (en) 2008-07-23
JP5120826B2 (ja) 2013-01-16
EP1947643A4 (en) 2009-03-11

Similar Documents

Publication Publication Date Title
JP5120826B2 (ja) 発音診断装置、発音診断方法、記録媒体、及び、発音診断プログラム
JP4114888B2 (ja) 声質変化箇所特定装置
JP3520022B2 (ja) 外国語学習装置、外国語学習方法および媒体
Feraru et al. Cross-language acoustic emotion recognition: An overview and some tendencies
AU2003300130A1 (en) Speech recognition method
Arora et al. Phonological feature-based speech recognition system for pronunciation training in non-native language learning
JP5148026B1 (ja) 音声合成装置および音声合成方法
JP5105943B2 (ja) 発話評価装置及び発話評価プログラム
JP5007401B2 (ja) 発音評定装置、およびプログラム
JP2006337667A (ja) 発音評価方法、音素列モデル学習方法、これらの方法を用いた装置、プログラム、および記録媒体。
JP4811993B2 (ja) 音声処理装置、およびプログラム
CN107610691B (zh) 英语元音发声纠错方法及装置
Nance et al. Phonetic typology and articulatory constraints: The realization of secondary articulations in Scottish Gaelic rhotics
JP4753412B2 (ja) 発音評定装置、およびプログラム
Alfaifi Syllabification of coda consonant clusters in Najdi and Hijazi Arabic
JP5028599B2 (ja) 音声処理装置、およびプログラム
KR102333029B1 (ko) 발음 평가 방법 및 이를 이용한 디바이스
Fadhilah Fuzzy petri nets as a classification method for automatic speech intelligibility detection of children with speech impairments/Fadhilah Rosdi
Kyriakopoulos Deep learning for automatic assessment and feedback of spoken english
Miyazaki et al. Connectionist temporal classification-based sound event encoder for converting sound events into onomatopoeic representations
Buribayeva et al. Kazakh vowel recognition at the beginning of words
Rosdi Fuzzy Petri Nets as a Classification Method for Automatic Speech Intelligibility Detection of Children with Speech Impairments
Saxena SPEECH AND PATTERN RECOGNITION FOR EMOTION CLASSIFICATION USING MACHINE LEARNING
Prinsloo A comparative acoustic analysis of the long vowels and diphthongs of Afrikaans and South African English
Lennon Experience and learning in cross-dialect perception: Derhoticised/r/in Glasgow

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090518

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090813

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111128

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120327

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120807

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120828

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121002

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121016

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151102

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5120826

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250