JP4495907B2 - 音声の分析の方法及び装置 - Google Patents

音声の分析の方法及び装置 Download PDF

Info

Publication number
JP4495907B2
JP4495907B2 JP2002543426A JP2002543426A JP4495907B2 JP 4495907 B2 JP4495907 B2 JP 4495907B2 JP 2002543426 A JP2002543426 A JP 2002543426A JP 2002543426 A JP2002543426 A JP 2002543426A JP 4495907 B2 JP4495907 B2 JP 4495907B2
Authority
JP
Japan
Prior art keywords
frequency
fundamental
speech
sequence
predetermined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002543426A
Other languages
English (en)
Other versions
JP2004514178A (ja
Inventor
クラボ,ビョーイェ
Original Assignee
トランスパシフィック・インテリジェンス,リミテッド・ライアビリティ・カンパニー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by トランスパシフィック・インテリジェンス,リミテッド・ライアビリティ・カンパニー filed Critical トランスパシフィック・インテリジェンス,リミテッド・ライアビリティ・カンパニー
Publication of JP2004514178A publication Critical patent/JP2004514178A/ja
Application granted granted Critical
Publication of JP4495907B2 publication Critical patent/JP4495907B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices

Description

【0001】
発明の技術分野
本発明は、人間の音声(speech)を分析するための方法及び装置に関する。本発明はまた、音声トレーニングの方法及び装置、音声の合成(syntheses)を提供するための方法及び装置、ならびに病理学的状態を診断するための装置にも関する。
【0002】
発明の背景
人間が話をするとき、聞き手は実際に発声されているもの、つまり発声された語の客観的内容を超えた印象及び信号を受け取る。これらの付加的な印象及び信号は、発声された語の事実内容を聞き手が解釈するのを助け、話し手の信憑性、気分などの意識的又は無意識的な判断をも導く。
【0003】
このような付加的信号は、話し手が用いるテンポ、すなわち話し手が言葉を発する速度及び話し手が用いるリズムなどであり得る。また、音声のピッチは、いくらかの情報を伝達し、例えば深みのある暗い低音の声は、信頼や自信、なぐさめと受け取られる。
【0004】
人間の音声は、1つの基本トーン(fundamental tone;基音)といくつかのより高いピッチの上音(over tone)を含む。このようにして、基音(fundamental note)は、あらゆる、一定の時において知覚可能な最低の周波数であり、音声及び歌の基音を測定するための機器はすでに知られている。例えばEP 0 821 345号公報及びUS 6 014 617号公報から、人間の音声における音(notes)の識別がすでに知られている。
【0005】
さらに、音声の基音が次第に変化し、通常このような変化は、状況すなわち音声の内容及び音声が行なわれる環境によって支配されるということはすでに知られている。音声の合成におけるこのような状況依存性変動を再度作り出すための試みもなされてきた。この現象については、例えば、EP 0 674 307号公報に記述されている。
【0006】
さらに、話し手のボディランゲージは、聞き手に対して信号を送る。
【0007】
しかしながら、人間の音声を介して伝達される多くの情報は意識的に知覚されず、従って分析できない。その結果、改良された音声の分析及び/又は音声のさらなる側面の分析のための方法及び装置といったような手段に対する必要性が存在する。
【0008】
発明の目的
したがって、先行技術において固有の上述の問題を完全に又は少なくとも部分的に解決する音声分析のための方法及び装置を提供することが本発明の目的である。
【0009】
この問題は、本発明に従った方法及び装置を用いて解決される。
【0010】
発明の概要
本発明の発明者は、驚くべきことに通常の音声において通常起こる基音の連続的な変化及びそのために使用される間隔(interval;音程)が音声の知覚にとって重要であるということを示してきた。この連続的なピッチの変化は、本発明の教示に従うとこれらの変化の中で用いられる音程に基づいて分析され、異なる音程の発生は、その音声の知覚のされ方に影響を及ぼす。異なる音程の使用範囲に応じて、例えば、音声は異なる気分、異なる感情の状態、異なる信頼度などを表現することができる。音声を用いて、このように感情の伝達が行なわれ、これは潜在意識のレベルで、用いられる音程に応じて聞き手により知覚され、これは実際に発声された言葉、声のピッチ、言語のテンポ及びその音声のその他の明らかに伝達的な部分を超えて行われる。しかしながら、話し手も聞き手も、通常は音声のこの付加的な伝達的側面に全く気づいていない。
【0011】
通常の音声で用いられる音程の選択は、無意識レベルで起こるが、それは、ある程度影響を受ける可能性があることがわかってきた。したがって、音程の選択を意識的に修正し、このようにして音声及び音声にある種の求められている表現を付与するために、本発明を使用することが可能である。これは、本発明のもう1つの側面の一部である。
【0012】
その上、予期せぬことに、人間が話すときに行なう潜在意識による音程の選択は、その個人の心理的及び生理的健康状態により影響されるということが見出された。このようにして、本発明に従った分析を用いると、話し手の心理的又は生理的状態の劣化を知覚し、実際の病理学的状態を知覚することも可能である。数多くの種類の疾病において、この診断は、その他の数多くの代替的診断方法によって可能となるよりも、或る疾病の進行のより早期において可能であろう。この特徴は、本発明のもう1つの態様の一部を成すものである。
【0013】
以下、いくつかの実施形態及び、添付図面を参照して、例示を目的として本発明をさらに詳細に説明する。
【0014】
好ましい実施形態の詳細な説明
図1は、本発明に従った音声分析方法の1つの実施形態の流れ図を概略的に表わしている。第1のステップS1においては、音声シーケンスが録音される。これは、処理ユニット内での分析のために音声を直接録音することによって行うことができ、その後の分析は有利には、リアルタイムで行われる。しかしながら、カセットテープといったような記録媒体上、CDディスク上、コンピュータメモリ内などに事前に音声シーケンスを録音することも同様に可能である。
【0015】
好ましくは、ステップS2でフィルタリング(filtering)が行なわれる。このようなフィルタリングでは、過度に短かい音の分離を行うことができ、充分な持続時間、好ましくは予め定められた時間閾値を超える音のみが分析のために転送される。代替的には、又は補足的に、フィルタリング作業には、充分に高い強さ、好ましくは予め定められた振幅閾値を超える音の認識を行うことができる。このような方法で、非常に弱い音はふるい落とされる。
【0016】
代替的に、又は補足的に、フィルタリング作業では、予め定められた時間隔の間のピッチの平均値の形成を行うようにすることができ、このように形成された平均値は、その後の分析の中で使用される。このようにして、グリッサンド(glissando)、すなわち、複数の音全体にわたり滑るようなピッチ移動、示唆などを適切な形で取扱うことが可能となる。
【0017】
ステップS3では、フィルタリング工程で残った音が診断され、これにより基音が識別される。識別工程は、音声の音の分析及び最低の可聴又は発声周波数の識別を含む。これは、例えば、EP 0 821 345号公報及びUS 6 014 617号公報で記述されている方法によりもたらされうるが、その他の方法によっても同様に可能である。好ましくは、メリスマ的(melismatically)ならびに音節的(syllabically)に発生する音が識別される。
【0018】
しかしながら、代替的には、識別工程をこれに代えてフィルタリング工程の前に実施することもできる。
【0019】
このようにして識別された基音は、次にステップS4でさらに分析され、これにより、近い基音間の少なくともいくつかの間隔(interval;音程)が識別される。好ましくは、隣接する音の間のすべての音程が識別されるが、分析の現行の目的にとって特に重要であるとみなされている音程のすべて又は少なくとも多数部分だけを識別することも同様に可能である。同様にして、少なくともいくつかの応用のために、音程を識別する工程では、近い音の間の周波数の相違の確立が行われるだけではなく、変化が発生する方向、すなわち上昇又は下降するピッチ/間隔の確立も行われることが正当化されうる。
【0020】
ステップS5では、適当な統計的方法が、分析の中心である音程が分析すべき音声シーケンス内でどれほどの頻度で起こるかの測定を確立するために使用される。このような測定は、例えば次のもののうちの1つ又は数種のものを含む可能性がある:
− すべての音程の中の、ある音程の割合;
− 予め定められた数の音程の中の、ある一定の音程の割合、
− 1つ、2つ又は数種の選択された音程の発生の割合。
【0021】
しかしながら、同様にして、ある一定の音程シーケンス、すなわち連続した3つ又は数種の基音の間の音程の発生及び音程の場所、すなわちそれらのピッチ位置を決定することも可能であり、そしていくつかの場合では有用である。
【0022】
このようにして決定された音程の分析のためには、以下の特質を、異なる音程と一般に結びつけることができる:
− 同度(unison)、完全一度(perfect prime)(R1): 思慮深い(内省的)、進歩的
− 短2度(minor second)(L3): 綿密な、適応性ある
− 長2度(major second)(S2): 優美な、自己表出的
− 短3度(minor third)(L3): メランコリックな、受動的
− 長3度(major third)(S3): 楽天的、強引な
− 完全4度(perfect fourth)(R4): 友好的
− 増4度(augmented fourth)/減5度(diminished fifth)/三全音( tritone)(Trit): 創造的、強情な
− 減6度(minor sixth)(L6): ソフトな
− 増6度(major sixth)(S6): 刺激的
− 短7度(minor seventh)(L7): 悲痛な
− 増7度(major seventh)(S7): 乱暴な、怒っている
− オクターブ(R8): 楽しい、勇気づける。
【0023】
1オクターブ以上の音程は通常、別途分類されグループ分けされ得るか、代替的には1オクターブ未満の対応する音程と組合わされ得る。
【0024】
数多くの検査について、サブグループ〔A〕:同度(R1)、短2度(L2)、長2度(S2)、短3度(L3)、長3度(S3)、短6度(L6)、及び長6度(S6)、又は〔B〕:完全4度(R4)、増4度/減5度(三全音)、完全5度(R5)、短7度(L7)、長7度(S7)及びオクターブ(R8)の中の音程を識別することが有用である。
【0025】
さらに、ほとんどが上昇方向に発生する音程を、「確かな信念」と特徴づけることができ、ほとんど下降するものとして発生する音程を「独立性」として特徴づけることができ、同じような頻度で上昇及び下降するものとして本質的に発生する音程を「外交性」として特徴づけすることができる。
【0026】
識別にとって特に重要なシーケンスは、長和音(major chord)又は、短和音(minor chord)の一部を成す音、すなわち基音、3度及び5度を含むシーケンスである。なかでも重要なものは、反転した又は反転していない3つの音を含む基本位置アルペッジョ(fundamental-positioned arpeggio)である。しかしながら、基音は、2つの位置でも発生しうる(すなわち1オクターブの音程)。しかしながら、分析の意図された用途に応じてその他の和音シーケンスも重要である。
【0027】
とりわけ、短3度(L3)及び長3度(S3)の発生を比較することもしばしば重要である。三全音和音展開(tritone chord movements)の発生を区別することならびに、同度(R1)の発生、特にリタルタンド(ritardandoes)の場合、特にその反復を分離することも重要である。これは、例えば、ためらい、思慮深さなどの現れでありうる。異なる音程の位置、すなわち、その始め又は終りのピッチレベルは、異なる状態を表示する有意な特徴でありうる。
【0028】
上記の分析は、さまざまな異なる方法で使用可能である。1つの利用分野は、話し手の心理分析であり、これは、人間性、話し手の気分及び感情の状態などを査定(assess)するのに使用できる利用分野である。したがって、この方法は、このような心理的調査及び分析が関心事である数多くの場合、例えば就職面接の場合、臨床的に精神科医療のため、嘘発見目的のためなどに応用可能である。
【0029】
この音声分析を、話し手の生理的健康を解釈するため、そしてその帰結として異なる病理学的状態の診断のためにも、使用することができる。例えば、数多くの病理学的状態において、非基本展開(すなわち三全音和音展開)の発生は低減するか又は完全に消滅することを表し、短間隔(minor interval)(L3)の発生は、多くの病理学的状態においてより頻度が高いことを表す。
【0030】
いくつかの明確な目的のために該分析を使用する場合、その後の判断工程S6も通常行われる。この判断は、正常値との比較に基づくものとできる。これらの正常値は、一般的なものであってもよく、又は好ましくはさまざまカテゴリーに適合させることもできる。これらのカテゴリーは、例えば言語の所属、国籍及び/又はその他の環境面及び前後関係面を反映し得る。代替的に又は補足的に、カテゴリー別のグループ分けは、性別、年令、以前の経験などといった個人的特性に基づくものであってもよい。さまざまな標準値及び比較も、意図された目標に応じて適切に使用することができる。
【0031】
しかし、標準値の代りに、又は、この種の比較の補足として、同様に、同じ話し手に関して行なわれた先の分析を使用することも可能である。このようにして、経時的な差異、つまり精神的又は生理的な性質の病理学的状態を識別するためなどに用いることのできる変化を知覚することが可能となる。
【0032】
上記の分析は、音声トレーニングの目的でも使用可能であり、その場合、査定された音程周波数(interval frequencies)は、好ましい値と比較される。これらの好ましい値は、異なる状況及び感情の状態に合わせるように抽出可能である。さらに、比較は、好ましくはリアルタイムでユーザーに提示され得る。分析された音声と好ましい値の間の差異を低減するために、好ましい評価(measures)を自動的に選別することも好ましい。これは、例えば差異が最大である音程又は最も重要であるとみなされている音程を識別し、それに基づき、適切な評価を示唆する予め記憶された命令を検索することによって達成され得る。音声トレーニング方法は、言語学習、俳優のトレーニング、公衆の面前での話術のトレーニングなどのために使用することができる。
【0033】
上述のような方法を実施するための装置は、一実施形態においては、音声のシーケンスを録音するための手段1及び記録されたシーケンスを記憶するための記録媒体2を含む。録音手段は、例えばマイクロホンと、カセット、データメモリ、CDディスクなどの記録媒体であり得る。分析のために予め記憶された音声シーケンスを使用することもできる。さらに、リアルタイムで分析を実施することも可能であり、その場合、記録媒体は除くことができる。
【0034】
装置はさらに、録音された信号をフィルタリングするためのフィルタリング手段3を含む。フィルタは、予め指示されたフィルタリング作業の一部又はすべてを実施するように設計可能である。フィルタは、いくつかのフィルタリングユニットを含むこともできる。
【0035】
さらに、装置は、音声信号の基音を決定するための測定手段4を含む。この装置は、例えばDSP(デジタル信号処理)ユニットであってよく、あるいは、本明細書に参考として組み込まれているEP 0 821 345号公報又はUS 6 014 617号公報に記載されている方法で作動し得る。基音を決定することのできるその他の測定用手段も組み込み可能である。代替的には、測定手段をフィルタリング手段の前に配置することもできる。
【0036】
分析された基音は、前述したように、近い基音の間の音程を識別するように設計された手段5へと転送され、識別された音程は、求められている音程のうちの少なくとも一部が発生する周波数の査定のための手段まで転送される。有利には、この手段は、市販の統計プログラムを含むことができる。
【0037】
装置は、音程の査定のうちの少なくともいくつかの結果を比較するように構成されている比較手段6も含むことができる。この比較手段は、このとき、好ましくは、前述のように一部の又はすべての音程についての査定された周波数を事前に決定された好ましい周波数と比較する。予め定められた値は、好ましくはメモリーユニット又はデータベース6に記憶されている。
【0038】
有利には、装置はまた、発見された差異を分析するように構成された判断手段7も含む。判断手段はまた、判断、診断などのための命令の自動的供給のため、データベース8に接続され得る。これらの命令、比較作業の結果等は、有利にも、ディスプレイ、ラウドスピーカーなどでありうる、提示手段9を介してユーザーに提示することができる。
【0039】
前述の装置は、信号処理用のサウンドカード及びマイクロホンが備わった従来のPCユニットの形で好ましくは実現することができる。データベースは、コンピュータ内の1つ又はいくつかのメモリに記憶することもできるし、又はインターネットのような通信網を介してアクセス可能であってもよい。
【0040】
上述のような分析のための方法及び装置は、同様にして音声分析の制御のために使用することができる。この場合、従来の及び先行技術の音声合成方法及び装置を使用することができ、これらの方法及び装置は、本発明によって開示された分析に従って制御される。合成は、異なる感情の状態、気分及びその他の表現を伝えるように制御されうる。さらに、この点において、異なる個人又は個人のグループをシミュレーションするように音声の合成を適合させることが可能である。
【0041】
本発明は、本明細書においてさまざまな実施形態を用いて記述されてきた。しかしながら、本明細書で規定されているもの以外の本発明のその他の変形形態も可能であるということを認識すべきである。例えば、少数の音程のみを識別することもできるし、その他の音程又は音程のグループを分析のために使用することもでき、基音を他の方法で測定することもできる、などがある。同様に、音声トレーニング及び診断のため以外の目的で本発明の分析方法及び装置を使用することが可能である。例えば、この種の分析は、嘘発見のため、例えば就職面接と合わせた個人の予備診断のためなどに使用可能である。識別を目的として音声シーケンスのより詳細な分析を使用することができる可能性が高い。さらに、本発明によって教示されている或る種の分析は、異なる集団などに個人を選択しグループ分けするために使用することができ、、グループ内の調和及び協力的状況を得る確率を増大させることを目的として調整を行なうことを可能にする。
【0042】
これらの及びその他の密に関係する変形形態も、添付の請求の範囲により限定されるとおり、本発明により包含されるものとみなすべきである。
【図面の簡単な説明】
図1は、本発明に従った方法の第1の実施形態の概略流れ図であり、
図2は、本発明に従った装置の第1の実施形態の概略ブロック図である。

Claims (36)

  1. 声シーケンスの基音を測定するステップと、
    前記基音をフィルタリングして、予め定められた時間閾値以下の持続時間の基音を除去し、かつ、予め定められた振幅閾値以下の振幅を有する基音を除去するステップと、
    前記フィルタリングされた連続する基音のうちの少なくとも2つの間の周波数間隔を識別するステップと、
    このようにして識別された周波数間隔のうちの少なくとも1つを前記音声シーケンス中で発生する周波数査定するステップと、
    を含む、人間の音声を分析する方法。
  2. 前記音声シーケンスの基音を測定するステップは、予め定められた時間隔の間におけるピッチ平均値を確立するステップと、このようにして得られる前記平均値を前記基音の識別ために使用するステップと、を含む、請求項1に記載の方法。
  3. 前記周波数間隔の識別が、前記周波数間隔が上昇であるか下降であるかの識別をも含む、請求項1又は2に記載の方法。
  4. 少なくとも短3度(L3)及び長3度(S3)が識別される、請求項1〜3のいずれかに記載の方法。
  5. 同度(R1)、短2度(L2)、長2度(S2)、短3度(L3)、長3度(S3)、短6度(L6)及び長6度(S6)という群の少なくとも1つの周波数間隔及び、完全4度(R4)、増4度/減5度(3全音)、完全5度(R5)、短7度(L7)及び長7度(S7)から成る群の少なくとも1つの周波数間隔の識別を含む、請求項1〜4のいずれかに記載の方法。
  6. 識別された周波数間隔が、少なくとも以下の下位群、すなわち同音(R1)、短2度(L2)、長2度(S2)、短3度(L3)、長3度(S3)、短6度(L6)及び長6度(S6);又は、完全4度(R4)、増4度/減5度(3全音)、完全5度(R5)、短7度(L7)、長7度(S7)及び完全オクターブ(R8)へと分類される、請求項1〜5のいずれかに記載の方法。
  7. 連続した前記基音のうちの少なくとも3個を含む少なくとも1つの群の音の間の周波数間隔シーケンスの識別を含む、請求項1〜6のいずれかに記載の方法。
  8. 識別された前記周波数間隔シーケンスが、長和音又は短和音の音を含む、請求項7に記載の方法。
  9. 識別された前記周波数間隔シーケンスが、長和音又は短和音の上昇又は下降アルペッジョを含む、請求項8に記載の方法。
  10. 音声シーケンスの基音を測定するための測定手段と、
    前記基音をフィルタリングして、予め定められた時間閾値以下の持続時間の基音を除去し、かつ、予め定められた振幅閾値以下の振幅を有する基音を除去するための手段と、
    連続する前記基音のうちの少なくとも2つの間の周波数間隔を識別するための手段と、
    このようにして識別された周波数間隔のうちの少なくとも1つを前記音声シーケンスの中で発生する周波数を査定するための手段と、
    を備える、人間の音声を分析するための装置。
  11. 基音を測定するための前記測定手段が、予め定められた時間隔の間、ピッチ平均値を確立するための手段をさらに備える、請求項10に記載の装置。
  12. 前記周波数間隔の識別のための手段が、少なくとも短3度(L3)及び長3度(S3)を識別するように設計されている、請求項10又は11に記載の装置。
  13. 前記周波数間隔の識別のための手段がさらに、連続する前記基音のうちの少なくとも3つを含む少なくとも1つの群の音の間の周波数間隔シーケンスを識別するように設計されている、請求項10〜12のいずれかに記載の装置。
  14. 音声シーケンスの基音を測定するステップと、
    前記基音をフィルタリングして、予め定められた時間閾値以下の持続時間の基音を除去し、かつ、予め定められた振幅閾値以下の振幅を有する基音を除去するステップと、
    前記フィルタリングされた連続する基音のうちの少なくとも2つの間の周波数間隔を識別するステップと、
    このようにして識別された周波数間隔のうちの少なくとも1つを前記音声シーケンス中で発生する周波数を査定するステップと、
    関係するユーザーのために事前に決定された好ましい周波数と、前記査定された周波数間隔の周波数とを比較するステップと、
    を含む、自動音声トレーニングのための方法。
  15. 前記査定された周波数間隔の周波数と、関係するユーザーのために事前に決定された前記好ましい周波数との間の比較結果の提示をさらに含む、請求項14に記載の方法。
  16. 前記査定された周波数間隔の周波数と、事前に決定された前記好ましい周波数との間の差を減少させるための適切な判断の識別をさらに含む、請求項14又は15に記載の方法。
  17. 前記方法が、リアルタイムで行なわれる、請求項14〜16のいずれかに記載の方法。
  18. 関係するユーザーのために事前に決定された前記好ましい周波数が標準値を含む、請求項14〜17のいずれかに記載の方法。
  19. 前記標準値が、ユーザータイプ及び音声トレーニングの目的というカテゴリーのうちの少なくとも1つにグループ分けされる、請求項18に記載の方法。
  20. 話された音声シーケンスを記録するための手段と、
    前記音声シーケンスの基音を測定するための手段と、
    前記基音をフィルタリングして、予め定められた時間閾値以下の持続時間の基音を除去し、かつ、予め定められた振幅閾値以下の振幅を有する基音を除去するための手段と、
    連続する前記基音のうちの少なくとも2つの間の周波数間隔を識別するための手段と、
    このようにして識別された周波数間隔のうちの少なくとも1つを前記音声シーケンスの中で発生する周波数を査定するための手段と、
    関係するユーザーのために事前に決定された好ましい周波数と、前記査定された周波数間隔の周波数とを比較するための手段と、
    を備える、音声トレーニング装置
  21. 前記査定された周波数間隔の周波数と、関係するユーザーのために事前に決定された前記好ましい周波数との間の比較の結果を提示するための手段をさらに備える、請求項20に記載の装置。
  22. 前記査定された周波数間隔の周波数と、事前に決定された前記好ましい周波数との間の差を減少させるための適切な評価を確認するための手段をさらに備える、請求項20又は21に記載の装置。
  23. 関係するユーザーのために事前に決定された前記好ましい周波数として使用されるべき少なくとも1組の標準値、及びユーザータイプ及び音声トレーニング目的というカテゴリーのうちの少なくとも1つに関してグループ分けされた、好ましくは複数の標準値の組を有するデータベースをさらに備える、請求項20〜22のいずれかに記載の装置。
  24. 患者が発生した音声シーケンスの基音を測定するステップと、
    前記基音をフィルタリングして、予め定められた時間閾値以下の持続時間の基音を除去し、かつ、予め定められた振幅閾値以下の振幅を有する基音を除去するステップと、
    前記フィルタリングされた連続する基音のうちの少なくとも2つの間の周波数間隔を識別するステップと、
    このようにして、識別された周波数間隔のうちの少なくとも1つを前記音声シーケンスの中で発生する周波数を査定するステップと、
    診断を目的として事前に決定された周波数と比較することにより、少なくとも1つの前記査定された周波数間隔の周波数を評価するステップと、
    を含む、音声分析に基づいて病理学的状態を診断するための方法。
  25. 前記事前に決定された周波数が、同じ患者からの音声シーケンスの少なくとも1つの対応する事前の分析に基づいている、請求項24に記載の方法。
  26. 前記事前に決定された周波数が、同じ患者からの少なくとも2つ、好ましくは数個の音声シーケンスの対応する分析の鑑定に基づいている、請求項25に記載の方法。
  27. 前記事前に決定された周波数が、正常値に基づいている、請求項24に記載の方法。
  28. 患者がさらに複数のカテゴリーにグループ分けされ、前記事前に決定された周波数が、関係するユーザーのカテゴリーに該当する正常値に基づいている請求項27に記載の方法。
  29. 前記周波数間隔の周波数と、前記事前に決定された周波数との間の比較の評価結果を提示するための手段をさらに含む、請求項24〜28のいずれか1項に記載の方法。
  30. 発声された音声シーケンスを記録するための手段と、
    前記音声シーケンスの発音を測定するための測定手段と、
    前記基音をフィルタリングして、予め定められた時間閾値以下の持続時間の基音を除去し、かつ、予め定められた振幅閾値以下の振幅を有する基音を除去するための手段と、
    連続する前記基音のうちの少なくとも2つの間の周波数間隔を識別するための識別手段と、
    このようにして識別された周波数間隔のうちの少なくとも1つを前記音声シーケンスの中で発生する周波数を査定するための査定手段と、
    診断を目的として事前に決定された周波数と比較することにより、少なくとも1つのこのように査定された周波数間隔の周波数を評価するための手段と、
    を備える、音声分析に基づいて病理学的状態を診断するための装置。
  31. 前記査定された周波数間隔の周波数を提示するための提示手段をさらに備える、請求項30に記載の装置。
  32. 関係するユーザーのために事前に決定された好ましい周波数として使用されるべき少なくとも1組の標準値、及びユーザータイプ及び診断目的というカテゴリーのうちの少なくとも1つに関してグループ分けされた好ましくは複数の標準値の組を有するデータベースをさらに備える、請求項30又は31に記載の装置。
  33. 請求項1〜9のいずれかに記載の分析方法を用いて少なくとも1人の人物からの少なくとも1つの音声シーケンスを分析するステップ、及び前記分析に基づいて、前記分析の少なくとも1つの側面に基づく合成音声の生成を制御するステップを含む、音声合成方法。
  34. 前記分析には、同じ個人からの複数の音声シーケンスの鑑定が含まれる、請求項33に記載の方法。
  35. 前記分析には数名の異なる個人からの音声シーケンスの鑑定が含まれる、請求項33又は34に記載の方法。
  36. 少なくとも1人の個人からの少なくとも1つの音声シーケンスを分析するための請求項10〜13のいずれかに記載の分析装置、及び合成音声を生成するための手段を含み、前記合成音声を生成するための手段が、前記分析装置によって生成された分析の少なくとも一部の側面に基づいて制御されている、合成音声のための装置。
JP2002543426A 2000-11-17 2001-11-09 音声の分析の方法及び装置 Expired - Lifetime JP4495907B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
SE0004221A SE517026C2 (sv) 2000-11-17 2000-11-17 Metod och anordning för talanalys
PCT/SE2001/002482 WO2002041300A1 (en) 2000-11-17 2001-11-09 Method and device for speech analysis

Publications (2)

Publication Number Publication Date
JP2004514178A JP2004514178A (ja) 2004-05-13
JP4495907B2 true JP4495907B2 (ja) 2010-07-07

Family

ID=20281867

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002543426A Expired - Lifetime JP4495907B2 (ja) 2000-11-17 2001-11-09 音声の分析の方法及び装置

Country Status (7)

Country Link
US (2) US7092874B2 (ja)
JP (1) JP4495907B2 (ja)
AU (1) AU2002214476A1 (ja)
DE (1) DE10196858T1 (ja)
GB (1) GB2384903B (ja)
SE (1) SE517026C2 (ja)
WO (1) WO2002041300A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014192959A1 (ja) 2013-05-31 2014-12-04 ヤマハ株式会社 音声合成を用いて発言に応答する技術
US10217452B2 (en) 2014-10-20 2019-02-26 Yamaha Corporation Speech synthesis device and method
US10224021B2 (en) 2014-07-02 2019-03-05 Yamaha Corporation Method, apparatus and program capable of outputting response perceivable to a user as natural-sounding
US10229702B2 (en) 2014-12-01 2019-03-12 Yamaha Corporation Conversation evaluation device and method

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7917366B1 (en) * 2000-03-24 2011-03-29 Exaudios Technologies System and method for determining a personal SHG profile by voice analysis
SE517026C2 (sv) 2000-11-17 2002-04-02 Forskarpatent I Syd Ab Metod och anordning för talanalys
JP4502246B2 (ja) * 2003-04-24 2010-07-14 株式会社河合楽器製作所 音程判定装置
KR20060066416A (ko) * 2004-12-13 2006-06-16 한국전자통신연구원 음성 코덱을 이용한 후두 원격 진단 서비스 장치 및 그 방법
US7398213B1 (en) * 2005-05-17 2008-07-08 Exaudios Technologies Method and system for diagnosing pathological phenomenon using a voice signal
WO2009086033A1 (en) 2007-12-20 2009-07-09 Dean Enterprises, Llc Detection of conditions from sound
WO2010123483A2 (en) * 2008-02-28 2010-10-28 Mcclean Hospital Corporation Analyzing the prosody of speech
US10002608B2 (en) * 2010-09-17 2018-06-19 Nuance Communications, Inc. System and method for using prosody for voice-enabled search
EP2693429A1 (en) * 2012-08-02 2014-02-05 JaJah Ltd System and method for analyzing voice communications
AU2016333816B2 (en) 2015-10-08 2018-09-27 Cordio Medical Ltd. Assessment of a pulmonary condition by speech analysis
JP6746963B2 (ja) * 2016-03-04 2020-08-26 ヤマハ株式会社 会話評価装置、プログラムおよび会話評価方法
CN110494916A (zh) * 2017-02-12 2019-11-22 卡帝欧寇有限公司 用于心脏疾病的口头定期筛查
JP6909733B2 (ja) * 2018-01-26 2021-07-28 株式会社日立製作所 音声分析装置および音声分析方法
US10847177B2 (en) 2018-10-11 2020-11-24 Cordio Medical Ltd. Estimating lung volume by speech analysis
US11024327B2 (en) 2019-03-12 2021-06-01 Cordio Medical Ltd. Diagnostic techniques based on speech models
US11011188B2 (en) 2019-03-12 2021-05-18 Cordio Medical Ltd. Diagnostic techniques based on speech-sample alignment
US11484211B2 (en) 2020-03-03 2022-11-01 Cordio Medical Ltd. Diagnosis of medical conditions using voice recordings and auscultation
US11417342B2 (en) 2020-06-29 2022-08-16 Cordio Medical Ltd. Synthesizing patient-specific speech models
JP7179209B1 (ja) 2022-02-04 2022-11-28 由美子 中島 音声診断装置、音声診断方法、及び音声診断プログラム
JP7191269B1 (ja) 2022-02-04 2022-12-16 由美子 中島 発声健康法促進装置、発声健康法促進方法、及び発声健康法促進プログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2183248A (en) * 1939-12-12 Wave translation
CA943230A (en) 1971-02-09 1974-03-05 Charles R. Mcquiston Physiological response analysis method and apparatus
US3971034A (en) 1971-02-09 1976-07-20 Dektor Counterintelligence And Security, Inc. Physiological response analysis method and apparatus
JPS5054195A (ja) * 1973-09-08 1975-05-13
US4093821A (en) * 1977-06-14 1978-06-06 John Decatur Williamson Speech analyzer for analyzing pitch or frequency perturbations in individual speech pattern to determine the emotional state of the person
US5148483A (en) * 1983-08-11 1992-09-15 Silverman Stephen E Method for detecting suicidal predisposition
US5976081A (en) 1983-08-11 1999-11-02 Silverman; Stephen E. Method for detecting suicidal predisposition
AU597573B2 (en) * 1985-03-18 1990-06-07 Massachusetts Institute Of Technology Acoustic waveform processing
JPH0627971B2 (ja) * 1987-02-06 1994-04-13 ティアツク株式会社 イントネーション測定装置および語学学習装置
JPH0512023A (ja) * 1991-07-04 1993-01-22 Omron Corp 感情認識装置
JPH08286693A (ja) * 1995-04-13 1996-11-01 Toshiba Corp 情報処理装置
JP3280825B2 (ja) 1995-04-26 2002-05-13 富士通株式会社 音声特徴分析装置
JP3266819B2 (ja) * 1996-07-30 2002-03-18 株式会社エイ・ティ・アール人間情報通信研究所 周期信号変換方法、音変換方法および信号分析方法
JP3174777B2 (ja) * 1999-01-28 2001-06-11 株式会社エイ・ティ・アール人間情報通信研究所 信号処理方法および装置
US6275806B1 (en) * 1999-08-31 2001-08-14 Andersen Consulting, Llp System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters
US6151571A (en) * 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
US6353810B1 (en) * 1999-08-31 2002-03-05 Accenture Llp System, method and article of manufacture for an emotion detection system improving emotion recognition
US7139699B2 (en) * 2000-10-06 2006-11-21 Silverman Stephen E Method for analysis of vocal jitter for near-term suicidal risk assessment
SE517026C2 (sv) 2000-11-17 2002-04-02 Forskarpatent I Syd Ab Metod och anordning för talanalys

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014192959A1 (ja) 2013-05-31 2014-12-04 ヤマハ株式会社 音声合成を用いて発言に応答する技術
US9685152B2 (en) 2013-05-31 2017-06-20 Yamaha Corporation Technology for responding to remarks using speech synthesis
EP3399521A1 (en) 2013-05-31 2018-11-07 Yamaha Corporation Technology for responding to remarks using speech synthesis
US10490181B2 (en) 2013-05-31 2019-11-26 Yamaha Corporation Technology for responding to remarks using speech synthesis
US10224021B2 (en) 2014-07-02 2019-03-05 Yamaha Corporation Method, apparatus and program capable of outputting response perceivable to a user as natural-sounding
US10217452B2 (en) 2014-10-20 2019-02-26 Yamaha Corporation Speech synthesis device and method
US10789937B2 (en) 2014-10-20 2020-09-29 Yamaha Corporation Speech synthesis device and method
US10229702B2 (en) 2014-12-01 2019-03-12 Yamaha Corporation Conversation evaluation device and method
US10553240B2 (en) 2014-12-01 2020-02-04 Yamaha Corporation Conversation evaluation device and method

Also Published As

Publication number Publication date
DE10196858T1 (de) 2003-11-20
US20040002853A1 (en) 2004-01-01
AU2002214476A1 (en) 2002-05-27
SE0004221D0 (sv) 2000-11-17
GB2384903A (en) 2003-08-06
US7092874B2 (en) 2006-08-15
USRE43406E1 (en) 2012-05-22
WO2002041300A1 (en) 2002-05-23
SE0004221L (sv) 2002-04-02
GB2384903B (en) 2004-08-04
SE517026C2 (sv) 2002-04-02
GB0311031D0 (en) 2003-06-18
JP2004514178A (ja) 2004-05-13

Similar Documents

Publication Publication Date Title
JP4495907B2 (ja) 音声の分析の方法及び装置
Lavan et al. Laugh like you mean it: Authenticity modulates acoustic, physiological and perceptual properties of laughter
McPherson et al. Diversity in pitch perception revealed by task dependence
JP6263308B1 (ja) 認知症診断装置、認知症診断方法、及び認知症診断プログラム
Latinus et al. Human voice perception
Honorof et al. Perception of pitch location within a speaker’s F0 range
Low et al. Detection of clinical depression in adolescents’ speech during family interactions
Titze Toward standards in acoustic analysis of voice
TWI307493B (ja)
US20140249824A1 (en) Detecting a Physiological State Based on Speech
Allison et al. Data-driven classification of dysarthria profiles in children with cerebral palsy
Roy et al. Exploring the clinical utility of relative fundamental frequency as an objective measure of vocal hyperfunction
Gaskill et al. Acoustic and perceptual classification of within-sample normal, intermittently dysphonic, and consistently dysphonic voice types
Ozdas et al. Analysis of vocal tract characteristics for near-term suicidal risk assessment
WO2006059325A1 (en) Method and system of indicating a condition of an individual
Laaridh et al. Automatic detection of phone-based anomalies in dysarthric speech
De Boer et al. Application of linear discriminant analysis to the long-term averaged spectra of simulated disorders of oral-nasal balance
Rowe et al. Characterizing dysarthria diversity for automatic speech recognition: A tutorial from the clinical perspective
Kopf et al. Pitch strength as an outcome measure for treatment of dysphonia
Dubey et al. Detection and assessment of hypernasality in repaired cleft palate speech using vocal tract and residual features
SE517836C2 (sv) Metod och anordning för fastställande av talkvalitet
Pah et al. Voice analysis for diagnosis and monitoring Parkinson’s disease
JP7307507B2 (ja) 病態解析システム、病態解析装置、病態解析方法、及び病態解析プログラム
Johnson et al. The perception of personal identity in speech: Evidence from the perception of twins’ speech
Włodarczak et al. Classification of voice quality using neck-surface acceleration: Comparison with glottal flow and radiated sound

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070706

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070918

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070926

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20080129

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080129

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081216

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090316

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090602

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100319

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100412

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4495907

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130416

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140416

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term