JP4495907B2 - 音声の分析の方法及び装置 - Google Patents
音声の分析の方法及び装置 Download PDFInfo
- Publication number
- JP4495907B2 JP4495907B2 JP2002543426A JP2002543426A JP4495907B2 JP 4495907 B2 JP4495907 B2 JP 4495907B2 JP 2002543426 A JP2002543426 A JP 2002543426A JP 2002543426 A JP2002543426 A JP 2002543426A JP 4495907 B2 JP4495907 B2 JP 4495907B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- fundamental
- speech
- sequence
- predetermined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
Description
発明の技術分野
本発明は、人間の音声(speech)を分析するための方法及び装置に関する。本発明はまた、音声トレーニングの方法及び装置、音声の合成(syntheses)を提供するための方法及び装置、ならびに病理学的状態を診断するための装置にも関する。
【0002】
発明の背景
人間が話をするとき、聞き手は実際に発声されているもの、つまり発声された語の客観的内容を超えた印象及び信号を受け取る。これらの付加的な印象及び信号は、発声された語の事実内容を聞き手が解釈するのを助け、話し手の信憑性、気分などの意識的又は無意識的な判断をも導く。
【0003】
このような付加的信号は、話し手が用いるテンポ、すなわち話し手が言葉を発する速度及び話し手が用いるリズムなどであり得る。また、音声のピッチは、いくらかの情報を伝達し、例えば深みのある暗い低音の声は、信頼や自信、なぐさめと受け取られる。
【0004】
人間の音声は、1つの基本トーン(fundamental tone;基音)といくつかのより高いピッチの上音(over tone)を含む。このようにして、基音(fundamental note)は、あらゆる、一定の時において知覚可能な最低の周波数であり、音声及び歌の基音を測定するための機器はすでに知られている。例えばEP 0 821 345号公報及びUS 6 014 617号公報から、人間の音声における音(notes)の識別がすでに知られている。
【0005】
さらに、音声の基音が次第に変化し、通常このような変化は、状況すなわち音声の内容及び音声が行なわれる環境によって支配されるということはすでに知られている。音声の合成におけるこのような状況依存性変動を再度作り出すための試みもなされてきた。この現象については、例えば、EP 0 674 307号公報に記述されている。
【0006】
さらに、話し手のボディランゲージは、聞き手に対して信号を送る。
【0007】
しかしながら、人間の音声を介して伝達される多くの情報は意識的に知覚されず、従って分析できない。その結果、改良された音声の分析及び/又は音声のさらなる側面の分析のための方法及び装置といったような手段に対する必要性が存在する。
【0008】
発明の目的
したがって、先行技術において固有の上述の問題を完全に又は少なくとも部分的に解決する音声分析のための方法及び装置を提供することが本発明の目的である。
【0009】
この問題は、本発明に従った方法及び装置を用いて解決される。
【0010】
発明の概要
本発明の発明者は、驚くべきことに通常の音声において通常起こる基音の連続的な変化及びそのために使用される間隔(interval;音程)が音声の知覚にとって重要であるということを示してきた。この連続的なピッチの変化は、本発明の教示に従うとこれらの変化の中で用いられる音程に基づいて分析され、異なる音程の発生は、その音声の知覚のされ方に影響を及ぼす。異なる音程の使用範囲に応じて、例えば、音声は異なる気分、異なる感情の状態、異なる信頼度などを表現することができる。音声を用いて、このように感情の伝達が行なわれ、これは潜在意識のレベルで、用いられる音程に応じて聞き手により知覚され、これは実際に発声された言葉、声のピッチ、言語のテンポ及びその音声のその他の明らかに伝達的な部分を超えて行われる。しかしながら、話し手も聞き手も、通常は音声のこの付加的な伝達的側面に全く気づいていない。
【0011】
通常の音声で用いられる音程の選択は、無意識レベルで起こるが、それは、ある程度影響を受ける可能性があることがわかってきた。したがって、音程の選択を意識的に修正し、このようにして音声及び音声にある種の求められている表現を付与するために、本発明を使用することが可能である。これは、本発明のもう1つの側面の一部である。
【0012】
その上、予期せぬことに、人間が話すときに行なう潜在意識による音程の選択は、その個人の心理的及び生理的健康状態により影響されるということが見出された。このようにして、本発明に従った分析を用いると、話し手の心理的又は生理的状態の劣化を知覚し、実際の病理学的状態を知覚することも可能である。数多くの種類の疾病において、この診断は、その他の数多くの代替的診断方法によって可能となるよりも、或る疾病の進行のより早期において可能であろう。この特徴は、本発明のもう1つの態様の一部を成すものである。
【0013】
以下、いくつかの実施形態及び、添付図面を参照して、例示を目的として本発明をさらに詳細に説明する。
【0014】
好ましい実施形態の詳細な説明
図1は、本発明に従った音声分析方法の1つの実施形態の流れ図を概略的に表わしている。第1のステップS1においては、音声シーケンスが録音される。これは、処理ユニット内での分析のために音声を直接録音することによって行うことができ、その後の分析は有利には、リアルタイムで行われる。しかしながら、カセットテープといったような記録媒体上、CDディスク上、コンピュータメモリ内などに事前に音声シーケンスを録音することも同様に可能である。
【0015】
好ましくは、ステップS2でフィルタリング(filtering)が行なわれる。このようなフィルタリングでは、過度に短かい音の分離を行うことができ、充分な持続時間、好ましくは予め定められた時間閾値を超える音のみが分析のために転送される。代替的には、又は補足的に、フィルタリング作業には、充分に高い強さ、好ましくは予め定められた振幅閾値を超える音の認識を行うことができる。このような方法で、非常に弱い音はふるい落とされる。
【0016】
代替的に、又は補足的に、フィルタリング作業では、予め定められた時間隔の間のピッチの平均値の形成を行うようにすることができ、このように形成された平均値は、その後の分析の中で使用される。このようにして、グリッサンド(glissando)、すなわち、複数の音全体にわたり滑るようなピッチ移動、示唆などを適切な形で取扱うことが可能となる。
【0017】
ステップS3では、フィルタリング工程で残った音が診断され、これにより基音が識別される。識別工程は、音声の音の分析及び最低の可聴又は発声周波数の識別を含む。これは、例えば、EP 0 821 345号公報及びUS 6 014 617号公報で記述されている方法によりもたらされうるが、その他の方法によっても同様に可能である。好ましくは、メリスマ的(melismatically)ならびに音節的(syllabically)に発生する音が識別される。
【0018】
しかしながら、代替的には、識別工程をこれに代えてフィルタリング工程の前に実施することもできる。
【0019】
このようにして識別された基音は、次にステップS4でさらに分析され、これにより、近い基音間の少なくともいくつかの間隔(interval;音程)が識別される。好ましくは、隣接する音の間のすべての音程が識別されるが、分析の現行の目的にとって特に重要であるとみなされている音程のすべて又は少なくとも多数部分だけを識別することも同様に可能である。同様にして、少なくともいくつかの応用のために、音程を識別する工程では、近い音の間の周波数の相違の確立が行われるだけではなく、変化が発生する方向、すなわち上昇又は下降するピッチ/間隔の確立も行われることが正当化されうる。
【0020】
ステップS5では、適当な統計的方法が、分析の中心である音程が分析すべき音声シーケンス内でどれほどの頻度で起こるかの測定を確立するために使用される。このような測定は、例えば次のもののうちの1つ又は数種のものを含む可能性がある:
− すべての音程の中の、ある音程の割合;
− 予め定められた数の音程の中の、ある一定の音程の割合、
− 1つ、2つ又は数種の選択された音程の発生の割合。
【0021】
しかしながら、同様にして、ある一定の音程シーケンス、すなわち連続した3つ又は数種の基音の間の音程の発生及び音程の場所、すなわちそれらのピッチ位置を決定することも可能であり、そしていくつかの場合では有用である。
【0022】
このようにして決定された音程の分析のためには、以下の特質を、異なる音程と一般に結びつけることができる:
− 同度(unison)、完全一度(perfect prime)(R1): 思慮深い(内省的)、進歩的
− 短2度(minor second)(L3): 綿密な、適応性ある
− 長2度(major second)(S2): 優美な、自己表出的
− 短3度(minor third)(L3): メランコリックな、受動的
− 長3度(major third)(S3): 楽天的、強引な
− 完全4度(perfect fourth)(R4): 友好的
− 増4度(augmented fourth)/減5度(diminished fifth)/三全音( tritone)(Trit): 創造的、強情な
− 減6度(minor sixth)(L6): ソフトな
− 増6度(major sixth)(S6): 刺激的
− 短7度(minor seventh)(L7): 悲痛な
− 増7度(major seventh)(S7): 乱暴な、怒っている
− オクターブ(R8): 楽しい、勇気づける。
【0023】
1オクターブ以上の音程は通常、別途分類されグループ分けされ得るか、代替的には1オクターブ未満の対応する音程と組合わされ得る。
【0024】
数多くの検査について、サブグループ〔A〕:同度(R1)、短2度(L2)、長2度(S2)、短3度(L3)、長3度(S3)、短6度(L6)、及び長6度(S6)、又は〔B〕:完全4度(R4)、増4度/減5度(三全音)、完全5度(R5)、短7度(L7)、長7度(S7)及びオクターブ(R8)の中の音程を識別することが有用である。
【0025】
さらに、ほとんどが上昇方向に発生する音程を、「確かな信念」と特徴づけることができ、ほとんど下降するものとして発生する音程を「独立性」として特徴づけることができ、同じような頻度で上昇及び下降するものとして本質的に発生する音程を「外交性」として特徴づけすることができる。
【0026】
識別にとって特に重要なシーケンスは、長和音(major chord)又は、短和音(minor chord)の一部を成す音、すなわち基音、3度及び5度を含むシーケンスである。なかでも重要なものは、反転した又は反転していない3つの音を含む基本位置アルペッジョ(fundamental-positioned arpeggio)である。しかしながら、基音は、2つの位置でも発生しうる(すなわち1オクターブの音程)。しかしながら、分析の意図された用途に応じてその他の和音シーケンスも重要である。
【0027】
とりわけ、短3度(L3)及び長3度(S3)の発生を比較することもしばしば重要である。三全音和音展開(tritone chord movements)の発生を区別することならびに、同度(R1)の発生、特にリタルタンド(ritardandoes)の場合、特にその反復を分離することも重要である。これは、例えば、ためらい、思慮深さなどの現れでありうる。異なる音程の位置、すなわち、その始め又は終りのピッチレベルは、異なる状態を表示する有意な特徴でありうる。
【0028】
上記の分析は、さまざまな異なる方法で使用可能である。1つの利用分野は、話し手の心理分析であり、これは、人間性、話し手の気分及び感情の状態などを査定(assess)するのに使用できる利用分野である。したがって、この方法は、このような心理的調査及び分析が関心事である数多くの場合、例えば就職面接の場合、臨床的に精神科医療のため、嘘発見目的のためなどに応用可能である。
【0029】
この音声分析を、話し手の生理的健康を解釈するため、そしてその帰結として異なる病理学的状態の診断のためにも、使用することができる。例えば、数多くの病理学的状態において、非基本展開(すなわち三全音和音展開)の発生は低減するか又は完全に消滅することを表し、短間隔(minor interval)(L3)の発生は、多くの病理学的状態においてより頻度が高いことを表す。
【0030】
いくつかの明確な目的のために該分析を使用する場合、その後の判断工程S6も通常行われる。この判断は、正常値との比較に基づくものとできる。これらの正常値は、一般的なものであってもよく、又は好ましくはさまざまカテゴリーに適合させることもできる。これらのカテゴリーは、例えば言語の所属、国籍及び/又はその他の環境面及び前後関係面を反映し得る。代替的に又は補足的に、カテゴリー別のグループ分けは、性別、年令、以前の経験などといった個人的特性に基づくものであってもよい。さまざまな標準値及び比較も、意図された目標に応じて適切に使用することができる。
【0031】
しかし、標準値の代りに、又は、この種の比較の補足として、同様に、同じ話し手に関して行なわれた先の分析を使用することも可能である。このようにして、経時的な差異、つまり精神的又は生理的な性質の病理学的状態を識別するためなどに用いることのできる変化を知覚することが可能となる。
【0032】
上記の分析は、音声トレーニングの目的でも使用可能であり、その場合、査定された音程周波数(interval frequencies)は、好ましい値と比較される。これらの好ましい値は、異なる状況及び感情の状態に合わせるように抽出可能である。さらに、比較は、好ましくはリアルタイムでユーザーに提示され得る。分析された音声と好ましい値の間の差異を低減するために、好ましい評価(measures)を自動的に選別することも好ましい。これは、例えば差異が最大である音程又は最も重要であるとみなされている音程を識別し、それに基づき、適切な評価を示唆する予め記憶された命令を検索することによって達成され得る。音声トレーニング方法は、言語学習、俳優のトレーニング、公衆の面前での話術のトレーニングなどのために使用することができる。
【0033】
上述のような方法を実施するための装置は、一実施形態においては、音声のシーケンスを録音するための手段1及び記録されたシーケンスを記憶するための記録媒体2を含む。録音手段は、例えばマイクロホンと、カセット、データメモリ、CDディスクなどの記録媒体であり得る。分析のために予め記憶された音声シーケンスを使用することもできる。さらに、リアルタイムで分析を実施することも可能であり、その場合、記録媒体は除くことができる。
【0034】
装置はさらに、録音された信号をフィルタリングするためのフィルタリング手段3を含む。フィルタは、予め指示されたフィルタリング作業の一部又はすべてを実施するように設計可能である。フィルタは、いくつかのフィルタリングユニットを含むこともできる。
【0035】
さらに、装置は、音声信号の基音を決定するための測定手段4を含む。この装置は、例えばDSP(デジタル信号処理)ユニットであってよく、あるいは、本明細書に参考として組み込まれているEP 0 821 345号公報又はUS 6 014 617号公報に記載されている方法で作動し得る。基音を決定することのできるその他の測定用手段も組み込み可能である。代替的には、測定手段をフィルタリング手段の前に配置することもできる。
【0036】
分析された基音は、前述したように、近い基音の間の音程を識別するように設計された手段5へと転送され、識別された音程は、求められている音程のうちの少なくとも一部が発生する周波数の査定のための手段まで転送される。有利には、この手段は、市販の統計プログラムを含むことができる。
【0037】
装置は、音程の査定のうちの少なくともいくつかの結果を比較するように構成されている比較手段6も含むことができる。この比較手段は、このとき、好ましくは、前述のように一部の又はすべての音程についての査定された周波数を事前に決定された好ましい周波数と比較する。予め定められた値は、好ましくはメモリーユニット又はデータベース6に記憶されている。
【0038】
有利には、装置はまた、発見された差異を分析するように構成された判断手段7も含む。判断手段はまた、判断、診断などのための命令の自動的供給のため、データベース8に接続され得る。これらの命令、比較作業の結果等は、有利にも、ディスプレイ、ラウドスピーカーなどでありうる、提示手段9を介してユーザーに提示することができる。
【0039】
前述の装置は、信号処理用のサウンドカード及びマイクロホンが備わった従来のPCユニットの形で好ましくは実現することができる。データベースは、コンピュータ内の1つ又はいくつかのメモリに記憶することもできるし、又はインターネットのような通信網を介してアクセス可能であってもよい。
【0040】
上述のような分析のための方法及び装置は、同様にして音声分析の制御のために使用することができる。この場合、従来の及び先行技術の音声合成方法及び装置を使用することができ、これらの方法及び装置は、本発明によって開示された分析に従って制御される。合成は、異なる感情の状態、気分及びその他の表現を伝えるように制御されうる。さらに、この点において、異なる個人又は個人のグループをシミュレーションするように音声の合成を適合させることが可能である。
【0041】
本発明は、本明細書においてさまざまな実施形態を用いて記述されてきた。しかしながら、本明細書で規定されているもの以外の本発明のその他の変形形態も可能であるということを認識すべきである。例えば、少数の音程のみを識別することもできるし、その他の音程又は音程のグループを分析のために使用することもでき、基音を他の方法で測定することもできる、などがある。同様に、音声トレーニング及び診断のため以外の目的で本発明の分析方法及び装置を使用することが可能である。例えば、この種の分析は、嘘発見のため、例えば就職面接と合わせた個人の予備診断のためなどに使用可能である。識別を目的として音声シーケンスのより詳細な分析を使用することができる可能性が高い。さらに、本発明によって教示されている或る種の分析は、異なる集団などに個人を選択しグループ分けするために使用することができ、、グループ内の調和及び協力的状況を得る確率を増大させることを目的として調整を行なうことを可能にする。
【0042】
これらの及びその他の密に関係する変形形態も、添付の請求の範囲により限定されるとおり、本発明により包含されるものとみなすべきである。
【図面の簡単な説明】
図1は、本発明に従った方法の第1の実施形態の概略流れ図であり、
図2は、本発明に従った装置の第1の実施形態の概略ブロック図である。
Claims (36)
- 音声シーケンスの基音を測定するステップと、
前記基音をフィルタリングして、予め定められた時間閾値以下の持続時間の基音を除去し、かつ、予め定められた振幅閾値以下の振幅を有する基音を除去するステップと、
前記フィルタリングされた連続する基音のうちの少なくとも2つの間の周波数間隔を識別するステップと、
このようにして識別された周波数間隔のうちの少なくとも1つを前記音声シーケンス中で発生する周波数を査定するステップと、
を含む、人間の音声を分析する方法。 - 前記音声シーケンスの基音を測定するステップは、予め定められた時間隔の間におけるピッチ平均値を確立するステップと、このようにして得られる前記平均値を前記基音の識別ために使用するステップと、を含む、請求項1に記載の方法。
- 前記周波数間隔の識別が、前記周波数間隔が上昇であるか下降であるかの識別をも含む、請求項1又は2に記載の方法。
- 少なくとも短3度(L3)及び長3度(S3)が識別される、請求項1〜3のいずれかに記載の方法。
- 同度(R1)、短2度(L2)、長2度(S2)、短3度(L3)、長3度(S3)、短6度(L6)及び長6度(S6)という群の少なくとも1つの周波数間隔及び、完全4度(R4)、増4度/減5度(3全音)、完全5度(R5)、短7度(L7)及び長7度(S7)から成る群の少なくとも1つの周波数間隔の識別を含む、請求項1〜4のいずれかに記載の方法。
- 識別された周波数間隔が、少なくとも以下の下位群、すなわち同音(R1)、短2度(L2)、長2度(S2)、短3度(L3)、長3度(S3)、短6度(L6)及び長6度(S6);又は、完全4度(R4)、増4度/減5度(3全音)、完全5度(R5)、短7度(L7)、長7度(S7)及び完全オクターブ(R8)へと分類される、請求項1〜5のいずれかに記載の方法。
- 連続した前記基音のうちの少なくとも3個を含む少なくとも1つの群の音の間の周波数間隔シーケンスの識別を含む、請求項1〜6のいずれかに記載の方法。
- 識別された前記周波数間隔シーケンスが、長和音又は短和音の音を含む、請求項7に記載の方法。
- 識別された前記周波数間隔シーケンスが、長和音又は短和音の上昇又は下降アルペッジョを含む、請求項8に記載の方法。
- 音声シーケンスの基音を測定するための測定手段と、
前記基音をフィルタリングして、予め定められた時間閾値以下の持続時間の基音を除去し、かつ、予め定められた振幅閾値以下の振幅を有する基音を除去するための手段と、
連続する前記基音のうちの少なくとも2つの間の周波数間隔を識別するための手段と、
このようにして識別された周波数間隔のうちの少なくとも1つを前記音声シーケンスの中で発生する周波数を査定するための手段と、
を備える、人間の音声を分析するための装置。 - 基音を測定するための前記測定手段が、予め定められた時間隔の間、ピッチ平均値を確立するための手段をさらに備える、請求項10に記載の装置。
- 前記周波数間隔の識別のための手段が、少なくとも短3度(L3)及び長3度(S3)を識別するように設計されている、請求項10又は11に記載の装置。
- 前記周波数間隔の識別のための手段がさらに、連続する前記基音のうちの少なくとも3つを含む少なくとも1つの群の音の間の周波数間隔シーケンスを識別するように設計されている、請求項10〜12のいずれかに記載の装置。
- 音声シーケンスの基音を測定するステップと、
前記基音をフィルタリングして、予め定められた時間閾値以下の持続時間の基音を除去し、かつ、予め定められた振幅閾値以下の振幅を有する基音を除去するステップと、
前記フィルタリングされた連続する基音のうちの少なくとも2つの間の周波数間隔を識別するステップと、
このようにして識別された周波数間隔のうちの少なくとも1つを前記音声シーケンス中で発生する周波数を査定するステップと、
関係するユーザーのために事前に決定された好ましい周波数と、前記査定された周波数間隔の周波数とを比較するステップと、
を含む、自動音声トレーニングのための方法。 - 前記査定された周波数間隔の周波数と、関係するユーザーのために事前に決定された前記好ましい周波数との間の比較結果の提示をさらに含む、請求項14に記載の方法。
- 前記査定された周波数間隔の周波数と、事前に決定された前記好ましい周波数との間の差を減少させるための適切な判断の識別をさらに含む、請求項14又は15に記載の方法。
- 前記方法が、リアルタイムで行なわれる、請求項14〜16のいずれかに記載の方法。
- 関係するユーザーのために事前に決定された前記好ましい周波数が標準値を含む、請求項14〜17のいずれかに記載の方法。
- 前記標準値が、ユーザータイプ及び音声トレーニングの目的というカテゴリーのうちの少なくとも1つにグループ分けされる、請求項18に記載の方法。
- 話された音声シーケンスを記録するための手段と、
前記音声シーケンスの基音を測定するための手段と、
前記基音をフィルタリングして、予め定められた時間閾値以下の持続時間の基音を除去し、かつ、予め定められた振幅閾値以下の振幅を有する基音を除去するための手段と、
連続する前記基音のうちの少なくとも2つの間の周波数間隔を識別するための手段と、
このようにして識別された周波数間隔のうちの少なくとも1つを前記音声シーケンスの中で発生する周波数を査定するための手段と、
関係するユーザーのために事前に決定された好ましい周波数と、前記査定された周波数間隔の周波数とを比較するための手段と、
を備える、音声トレーニング装置。 - 前記査定された周波数間隔の周波数と、関係するユーザーのために事前に決定された前記好ましい周波数との間の比較の結果を提示するための手段をさらに備える、請求項20に記載の装置。
- 前記査定された周波数間隔の周波数と、事前に決定された前記好ましい周波数との間の差を減少させるための適切な評価を確認するための手段をさらに備える、請求項20又は21に記載の装置。
- 関係するユーザーのために事前に決定された前記好ましい周波数として使用されるべき少なくとも1組の標準値、及びユーザータイプ及び音声トレーニング目的というカテゴリーのうちの少なくとも1つに関してグループ分けされた、好ましくは複数の標準値の組を有するデータベースをさらに備える、請求項20〜22のいずれかに記載の装置。
- 患者が発生した音声シーケンスの基音を測定するステップと、
前記基音をフィルタリングして、予め定められた時間閾値以下の持続時間の基音を除去し、かつ、予め定められた振幅閾値以下の振幅を有する基音を除去するステップと、
前記フィルタリングされた連続する基音のうちの少なくとも2つの間の周波数間隔を識別するステップと、
このようにして、識別された周波数間隔のうちの少なくとも1つを前記音声シーケンスの中で発生する周波数を査定するステップと、
診断を目的として事前に決定された周波数と比較することにより、少なくとも1つの前記査定された周波数間隔の周波数を評価するステップと、
を含む、音声分析に基づいて病理学的状態を診断するための方法。 - 前記事前に決定された周波数が、同じ患者からの音声シーケンスの少なくとも1つの対応する事前の分析に基づいている、請求項24に記載の方法。
- 前記事前に決定された周波数が、同じ患者からの少なくとも2つ、好ましくは数個の音声シーケンスの対応する分析の鑑定に基づいている、請求項25に記載の方法。
- 前記事前に決定された周波数が、正常値に基づいている、請求項24に記載の方法。
- 患者がさらに複数のカテゴリーにグループ分けされ、前記事前に決定された周波数が、関係するユーザーのカテゴリーに該当する正常値に基づいている請求項27に記載の方法。
- 前記周波数間隔の周波数と、前記事前に決定された周波数との間の比較の評価結果を提示するための手段をさらに含む、請求項24〜28のいずれか1項に記載の方法。
- 発声された音声シーケンスを記録するための手段と、
前記音声シーケンスの発音を測定するための測定手段と、
前記基音をフィルタリングして、予め定められた時間閾値以下の持続時間の基音を除去し、かつ、予め定められた振幅閾値以下の振幅を有する基音を除去するための手段と、
連続する前記基音のうちの少なくとも2つの間の周波数間隔を識別するための識別手段と、
このようにして識別された周波数間隔のうちの少なくとも1つを前記音声シーケンスの中で発生する周波数を査定するための査定手段と、
診断を目的として事前に決定された周波数と比較することにより、少なくとも1つのこのように査定された周波数間隔の周波数を評価するための手段と、
を備える、音声分析に基づいて病理学的状態を診断するための装置。 - 前記査定された周波数間隔の周波数を提示するための提示手段をさらに備える、請求項30に記載の装置。
- 関係するユーザーのために事前に決定された好ましい周波数として使用されるべき少なくとも1組の標準値、及びユーザータイプ及び診断目的というカテゴリーのうちの少なくとも1つに関してグループ分けされた好ましくは複数の標準値の組を有するデータベースをさらに備える、請求項30又は31に記載の装置。
- 請求項1〜9のいずれかに記載の分析方法を用いて少なくとも1人の人物からの少なくとも1つの音声シーケンスを分析するステップ、及び前記分析に基づいて、前記分析の少なくとも1つの側面に基づく合成音声の生成を制御するステップを含む、音声合成方法。
- 前記分析には、同じ個人からの複数の音声シーケンスの鑑定が含まれる、請求項33に記載の方法。
- 前記分析には数名の異なる個人からの音声シーケンスの鑑定が含まれる、請求項33又は34に記載の方法。
- 少なくとも1人の個人からの少なくとも1つの音声シーケンスを分析するための請求項10〜13のいずれかに記載の分析装置、及び合成音声を生成するための手段を含み、前記合成音声を生成するための手段が、前記分析装置によって生成された分析の少なくとも一部の側面に基づいて制御されている、合成音声のための装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE0004221A SE517026C2 (sv) | 2000-11-17 | 2000-11-17 | Metod och anordning för talanalys |
PCT/SE2001/002482 WO2002041300A1 (en) | 2000-11-17 | 2001-11-09 | Method and device for speech analysis |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004514178A JP2004514178A (ja) | 2004-05-13 |
JP4495907B2 true JP4495907B2 (ja) | 2010-07-07 |
Family
ID=20281867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002543426A Expired - Lifetime JP4495907B2 (ja) | 2000-11-17 | 2001-11-09 | 音声の分析の方法及び装置 |
Country Status (7)
Country | Link |
---|---|
US (2) | US7092874B2 (ja) |
JP (1) | JP4495907B2 (ja) |
AU (1) | AU2002214476A1 (ja) |
DE (1) | DE10196858T1 (ja) |
GB (1) | GB2384903B (ja) |
SE (1) | SE517026C2 (ja) |
WO (1) | WO2002041300A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014192959A1 (ja) | 2013-05-31 | 2014-12-04 | ヤマハ株式会社 | 音声合成を用いて発言に応答する技術 |
US10217452B2 (en) | 2014-10-20 | 2019-02-26 | Yamaha Corporation | Speech synthesis device and method |
US10224021B2 (en) | 2014-07-02 | 2019-03-05 | Yamaha Corporation | Method, apparatus and program capable of outputting response perceivable to a user as natural-sounding |
US10229702B2 (en) | 2014-12-01 | 2019-03-12 | Yamaha Corporation | Conversation evaluation device and method |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7917366B1 (en) * | 2000-03-24 | 2011-03-29 | Exaudios Technologies | System and method for determining a personal SHG profile by voice analysis |
SE517026C2 (sv) | 2000-11-17 | 2002-04-02 | Forskarpatent I Syd Ab | Metod och anordning för talanalys |
JP4502246B2 (ja) * | 2003-04-24 | 2010-07-14 | 株式会社河合楽器製作所 | 音程判定装置 |
KR20060066416A (ko) * | 2004-12-13 | 2006-06-16 | 한국전자통신연구원 | 음성 코덱을 이용한 후두 원격 진단 서비스 장치 및 그 방법 |
US7398213B1 (en) * | 2005-05-17 | 2008-07-08 | Exaudios Technologies | Method and system for diagnosing pathological phenomenon using a voice signal |
WO2009086033A1 (en) | 2007-12-20 | 2009-07-09 | Dean Enterprises, Llc | Detection of conditions from sound |
WO2010123483A2 (en) * | 2008-02-28 | 2010-10-28 | Mcclean Hospital Corporation | Analyzing the prosody of speech |
US10002608B2 (en) * | 2010-09-17 | 2018-06-19 | Nuance Communications, Inc. | System and method for using prosody for voice-enabled search |
EP2693429A1 (en) * | 2012-08-02 | 2014-02-05 | JaJah Ltd | System and method for analyzing voice communications |
AU2016333816B2 (en) | 2015-10-08 | 2018-09-27 | Cordio Medical Ltd. | Assessment of a pulmonary condition by speech analysis |
JP6746963B2 (ja) * | 2016-03-04 | 2020-08-26 | ヤマハ株式会社 | 会話評価装置、プログラムおよび会話評価方法 |
CN110494916A (zh) * | 2017-02-12 | 2019-11-22 | 卡帝欧寇有限公司 | 用于心脏疾病的口头定期筛查 |
JP6909733B2 (ja) * | 2018-01-26 | 2021-07-28 | 株式会社日立製作所 | 音声分析装置および音声分析方法 |
US10847177B2 (en) | 2018-10-11 | 2020-11-24 | Cordio Medical Ltd. | Estimating lung volume by speech analysis |
US11024327B2 (en) | 2019-03-12 | 2021-06-01 | Cordio Medical Ltd. | Diagnostic techniques based on speech models |
US11011188B2 (en) | 2019-03-12 | 2021-05-18 | Cordio Medical Ltd. | Diagnostic techniques based on speech-sample alignment |
US11484211B2 (en) | 2020-03-03 | 2022-11-01 | Cordio Medical Ltd. | Diagnosis of medical conditions using voice recordings and auscultation |
US11417342B2 (en) | 2020-06-29 | 2022-08-16 | Cordio Medical Ltd. | Synthesizing patient-specific speech models |
JP7179209B1 (ja) | 2022-02-04 | 2022-11-28 | 由美子 中島 | 音声診断装置、音声診断方法、及び音声診断プログラム |
JP7191269B1 (ja) | 2022-02-04 | 2022-12-16 | 由美子 中島 | 発声健康法促進装置、発声健康法促進方法、及び発声健康法促進プログラム |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2183248A (en) * | 1939-12-12 | Wave translation | ||
CA943230A (en) | 1971-02-09 | 1974-03-05 | Charles R. Mcquiston | Physiological response analysis method and apparatus |
US3971034A (en) | 1971-02-09 | 1976-07-20 | Dektor Counterintelligence And Security, Inc. | Physiological response analysis method and apparatus |
JPS5054195A (ja) * | 1973-09-08 | 1975-05-13 | ||
US4093821A (en) * | 1977-06-14 | 1978-06-06 | John Decatur Williamson | Speech analyzer for analyzing pitch or frequency perturbations in individual speech pattern to determine the emotional state of the person |
US5148483A (en) * | 1983-08-11 | 1992-09-15 | Silverman Stephen E | Method for detecting suicidal predisposition |
US5976081A (en) | 1983-08-11 | 1999-11-02 | Silverman; Stephen E. | Method for detecting suicidal predisposition |
AU597573B2 (en) * | 1985-03-18 | 1990-06-07 | Massachusetts Institute Of Technology | Acoustic waveform processing |
JPH0627971B2 (ja) * | 1987-02-06 | 1994-04-13 | ティアツク株式会社 | イントネーション測定装置および語学学習装置 |
JPH0512023A (ja) * | 1991-07-04 | 1993-01-22 | Omron Corp | 感情認識装置 |
JPH08286693A (ja) * | 1995-04-13 | 1996-11-01 | Toshiba Corp | 情報処理装置 |
JP3280825B2 (ja) | 1995-04-26 | 2002-05-13 | 富士通株式会社 | 音声特徴分析装置 |
JP3266819B2 (ja) * | 1996-07-30 | 2002-03-18 | 株式会社エイ・ティ・アール人間情報通信研究所 | 周期信号変換方法、音変換方法および信号分析方法 |
JP3174777B2 (ja) * | 1999-01-28 | 2001-06-11 | 株式会社エイ・ティ・アール人間情報通信研究所 | 信号処理方法および装置 |
US6275806B1 (en) * | 1999-08-31 | 2001-08-14 | Andersen Consulting, Llp | System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters |
US6151571A (en) * | 1999-08-31 | 2000-11-21 | Andersen Consulting | System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters |
US6353810B1 (en) * | 1999-08-31 | 2002-03-05 | Accenture Llp | System, method and article of manufacture for an emotion detection system improving emotion recognition |
US7139699B2 (en) * | 2000-10-06 | 2006-11-21 | Silverman Stephen E | Method for analysis of vocal jitter for near-term suicidal risk assessment |
SE517026C2 (sv) | 2000-11-17 | 2002-04-02 | Forskarpatent I Syd Ab | Metod och anordning för talanalys |
-
2000
- 2000-11-17 SE SE0004221A patent/SE517026C2/sv not_active IP Right Cessation
-
2001
- 2001-11-09 AU AU2002214476A patent/AU2002214476A1/en not_active Abandoned
- 2001-11-09 WO PCT/SE2001/002482 patent/WO2002041300A1/en active Application Filing
- 2001-11-09 GB GB0311031A patent/GB2384903B/en not_active Expired - Lifetime
- 2001-11-09 JP JP2002543426A patent/JP4495907B2/ja not_active Expired - Lifetime
- 2001-11-09 DE DE10196858T patent/DE10196858T1/de not_active Withdrawn
-
2003
- 2003-05-16 US US10/438,805 patent/US7092874B2/en not_active Ceased
-
2008
- 2008-08-14 US US12/191,963 patent/USRE43406E1/en not_active Expired - Lifetime
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014192959A1 (ja) | 2013-05-31 | 2014-12-04 | ヤマハ株式会社 | 音声合成を用いて発言に応答する技術 |
US9685152B2 (en) | 2013-05-31 | 2017-06-20 | Yamaha Corporation | Technology for responding to remarks using speech synthesis |
EP3399521A1 (en) | 2013-05-31 | 2018-11-07 | Yamaha Corporation | Technology for responding to remarks using speech synthesis |
US10490181B2 (en) | 2013-05-31 | 2019-11-26 | Yamaha Corporation | Technology for responding to remarks using speech synthesis |
US10224021B2 (en) | 2014-07-02 | 2019-03-05 | Yamaha Corporation | Method, apparatus and program capable of outputting response perceivable to a user as natural-sounding |
US10217452B2 (en) | 2014-10-20 | 2019-02-26 | Yamaha Corporation | Speech synthesis device and method |
US10789937B2 (en) | 2014-10-20 | 2020-09-29 | Yamaha Corporation | Speech synthesis device and method |
US10229702B2 (en) | 2014-12-01 | 2019-03-12 | Yamaha Corporation | Conversation evaluation device and method |
US10553240B2 (en) | 2014-12-01 | 2020-02-04 | Yamaha Corporation | Conversation evaluation device and method |
Also Published As
Publication number | Publication date |
---|---|
DE10196858T1 (de) | 2003-11-20 |
US20040002853A1 (en) | 2004-01-01 |
AU2002214476A1 (en) | 2002-05-27 |
SE0004221D0 (sv) | 2000-11-17 |
GB2384903A (en) | 2003-08-06 |
US7092874B2 (en) | 2006-08-15 |
USRE43406E1 (en) | 2012-05-22 |
WO2002041300A1 (en) | 2002-05-23 |
SE0004221L (sv) | 2002-04-02 |
GB2384903B (en) | 2004-08-04 |
SE517026C2 (sv) | 2002-04-02 |
GB0311031D0 (en) | 2003-06-18 |
JP2004514178A (ja) | 2004-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4495907B2 (ja) | 音声の分析の方法及び装置 | |
Lavan et al. | Laugh like you mean it: Authenticity modulates acoustic, physiological and perceptual properties of laughter | |
McPherson et al. | Diversity in pitch perception revealed by task dependence | |
JP6263308B1 (ja) | 認知症診断装置、認知症診断方法、及び認知症診断プログラム | |
Latinus et al. | Human voice perception | |
Honorof et al. | Perception of pitch location within a speaker’s F0 range | |
Low et al. | Detection of clinical depression in adolescents’ speech during family interactions | |
Titze | Toward standards in acoustic analysis of voice | |
TWI307493B (ja) | ||
US20140249824A1 (en) | Detecting a Physiological State Based on Speech | |
Allison et al. | Data-driven classification of dysarthria profiles in children with cerebral palsy | |
Roy et al. | Exploring the clinical utility of relative fundamental frequency as an objective measure of vocal hyperfunction | |
Gaskill et al. | Acoustic and perceptual classification of within-sample normal, intermittently dysphonic, and consistently dysphonic voice types | |
Ozdas et al. | Analysis of vocal tract characteristics for near-term suicidal risk assessment | |
WO2006059325A1 (en) | Method and system of indicating a condition of an individual | |
Laaridh et al. | Automatic detection of phone-based anomalies in dysarthric speech | |
De Boer et al. | Application of linear discriminant analysis to the long-term averaged spectra of simulated disorders of oral-nasal balance | |
Rowe et al. | Characterizing dysarthria diversity for automatic speech recognition: A tutorial from the clinical perspective | |
Kopf et al. | Pitch strength as an outcome measure for treatment of dysphonia | |
Dubey et al. | Detection and assessment of hypernasality in repaired cleft palate speech using vocal tract and residual features | |
SE517836C2 (sv) | Metod och anordning för fastställande av talkvalitet | |
Pah et al. | Voice analysis for diagnosis and monitoring Parkinson’s disease | |
JP7307507B2 (ja) | 病態解析システム、病態解析装置、病態解析方法、及び病態解析プログラム | |
Johnson et al. | The perception of personal identity in speech: Evidence from the perception of twins’ speech | |
Włodarczak et al. | Classification of voice quality using neck-surface acceleration: Comparison with glottal flow and radiated sound |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041104 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070706 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070918 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070926 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20080129 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20080129 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20081216 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090316 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20090602 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100319 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100412 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4495907 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130416 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140416 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |