JP2011524551A - スピーチ分析による話者の特徴化 - Google Patents

スピーチ分析による話者の特徴化 Download PDF

Info

Publication number
JP2011524551A
JP2011524551A JP2011514199A JP2011514199A JP2011524551A JP 2011524551 A JP2011524551 A JP 2011524551A JP 2011514199 A JP2011514199 A JP 2011514199A JP 2011514199 A JP2011514199 A JP 2011514199A JP 2011524551 A JP2011524551 A JP 2011524551A
Authority
JP
Japan
Prior art keywords
speech
pitch
speaker
psychological
behavioral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011514199A
Other languages
English (en)
Inventor
ヨアブ デガニ,
イシャイ ザミール,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
VoiceSense Ltd
Original Assignee
VoiceSense Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by VoiceSense Ltd filed Critical VoiceSense Ltd
Publication of JP2011524551A publication Critical patent/JP2011524551A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

話者の現在の発話を分析することによって所与の状況および場面における話者の現在の行動的、心理的、およびスピーチスタイル上の特徴を判断するためのコンピュータ実装方法、データ処理システム、装置、およびコンピュータプログラム製品。この分析により、第1のピッチから導出された一意の第2の導出結果から成る発話の異なる韻律パラメータと振幅スピーチパラメータとを算出し、これらのパラメータを、様々な行動的、心理的、およびスピーチスタイル上の特徴を表す事前取得済み参照スピーチデータと比較する。この方法は、所与の状況におけるその話者の現在の行動的、心理的、およびスピーチスタイル上の特徴を判断するために、話者の発話の分析に加え、分類スピーチパラメータ参照データベースの形成も含む。

Description

本発明は、スピーチ分析の分野に関し、詳細には、具体的な状況における人の現在の行動的、心理的、およびスピーチスタイル上の特徴を判断するためのスピーチの韻律的特性の使用に関する。
スピーチ分析とは、人間の発話が伝える情報を明らかにするために、コンピュータ化された発話処理方法に付与された一般用語のことである。スピーチ分析は、言語科学内の音声秩序の一部として分類されている。
スピーチ分析は、2つの主な手法に分割され得る。第1の手法は、語、音節、および音素が発音される方法と、文が配置される方法を学習することによってそのスピーチの内容を明らかにすることに焦点を置いている。「スピーチからテキスト」や「ワードスポッティング」などのスピーチ認識アプリケーションの多くが、スピーチの内容を抽出するためにこの手法を使用している。
第2の手法であるスピーチの韻律分析は、抑揚、テンポ、強度、強調、リズムなど、スピーチの非分節的(非語、非内容)特性を分析することにより、発話のされ方に焦点を置いている。
発話のされ方によってスピーチの「メロディ」が提供され、このメロディが、スピーチの全体的な意味および場面に重要な洞察を付加する。例えば、人々は文末の上昇調により、文を疑問文と認識する。アクセントは、韻律的な音声パラメータによって単語の発音が変わる様子を表す古典的な例である。俳優は、自身のスピーチの韻律を、特定人物のように聞こえるように改変する。韻律には、例えば男性よりも女性の方が概して周波数が高いといった性差もある。多くの場合、韻律的特性は、スピーチの意味を変える。私たちは、発音のされ方(韻律)の変化によって、同じ文でも冷笑的、皮肉的、あるいは単純な意味を有するものと解釈する。
発話の韻律的特性は、話者の感情的状態に関する情報も伝える。この点については、文壇において数々の作品によって長年にわたり示されてきた。また、緊急サービスを呼んでいる興奮した人は、概して話すペースが速く、声が激しく、息が荒く、抑揚するなど、直観的にも把握される。その一方で、悲しんでおり憂鬱な状態にある人は、ゆっくりと話し、活力に乏しく、休止が長く取るなどの傾向がある。これらの特徴は、韻律的なスピーチ特性に反映される。
話者の感情的状態を自動的に分析するために韻律的なスピーチ特性を使用することに関する特許は、これまでにいくつか出されている。具体的には、ペトルーシンに対する米国特許第6151571号、異なる感情的状態を分類することを対象としたスラニーに対する米国特許第6173260号、および感情的な覚醒全般を判断することを対象としたデガニとザミールとに対する欧州特許第1423846号などがある。すべての特許は、参照により、全体が本明細書に援用されるものとする。
話者の性格とスピーチの韻律的特徴とを相関させるための試みは、ほとんど行われなかった。ボグダシェフスキーに付与された米国特許第6006188号は、性格タイプが似た人々のスピーチ特性を(公知の心理学的分類に従って)判断し、検出された特性を使用して性格タイプを自動的に分類するための方法について記載している。スピーチには性格が反映されるという考えは意味を成しており、直観的にも把握することができる。例えば、外向的の人について、声が大きく衝動的なスピーチパターンを想像できるのに対し、内向的な人については、柔らく遠慮がちなスピーチパターンを想像することができる。
性格とスピーチパターンとの結び付けは、スピーチは人格的特徴の様々な面を表すという理解をよく反映している。ただし、実用という点にこの概念の弱点がある。性格は、人の安定した特徴を表すものであるため、相当に一貫して測定されるはずでもある。つまり、話者本人の性格を反映しているスピーチパターンは、変化する状況や様々な内面の状態、異なる場面でも相当程度まで一貫性を保つはずである。しかし実際には、この点が該当しない。例えば、感情的状態とスピーチの韻律との間にある確固たる関係から明らかとなっており、スピーチパターンは状況的要因に大きく影響される傾向がある。上記例で取り上げた内向的な人でさえ、時には腹を立て、その時には、その人のスピーチパターン(および韻律的な音声パラメータ)が大きく変化し、社交的で外向的な人のスピーチパターンに酷似する。もしかしたら統計学的には、その内向的な人のスピーチパターンを数々の異なる状況で測定すれば、その人の性格とスピーチパターンとの間で有意な相関が存在するかもしれない。また、特定の性格を示すスピーチパターンを表す参照データが用いられた状況と酷似する条件下で人のスピーチをサンプリングした場合には信頼できるかもしれない。しかし、介在する状況的要因が支配的な場合には該当しないであろう。実生活においては、状況的要因がスピーチに影響することが多い。そのため、スピーチの韻律による性格測定は、状況に依存しない方法としては認められない。
本発明は、所与の状況と場面における話者の現在の行動的および心理的特徴、ならびに話者の現在のスピーチスタイルを判断するために話者の発話を分析するコンピュータ実装方法と、データ処理システムと、コンピュータプログラム製品と、装置とを提案する。
分析は、発話の第1のピッチおよび振幅パラメータから得た一意の第2の導出結果を算出することに基づいており、それらは、併用されると、具体的な状況および場面における話者の現在の行動的、心理的、およびスピーチスタイル上の特徴を表す。
現在の行動的、心理的、およびスピーチスタイル上の特徴の分類は、算出された話者の第2のスピーチパラメータと、様々な行動的および心理的な特徴ならびに様々な状況および場面における異なるスピーチスタイルの、これらの第2のスピーチパラメータの値および値の組み合わせを表す事前取得済みデータとを比較することによって実行される。
本発明の一態様は、具体的な状況における人のスピーチの韻律的特性を分析することによってその人の現在の行動的、心理的、およびスピーチスタイル上の特徴を判断するための、話者に依存しない一般的な方法を提供する。話者の人格的特徴は、一時的な状況依存パラメータ、または性格などの安定した状況独立パラメータのどちらとも関連し得る。本発明の実施形態は、例えば、ある人の現在の様子が直接的か、開放的か、客観的か、表情豊かか、あるいは控え目かを、これらの資質がその人の生来的な性質を反映しているか、あるいは具体的な状況および場面を反映しているかを決定することなく判断することを可能にする。このタイプの情報は、様々なフィードバックおよび研修を目的とした分析対象人物本人と、分析対象人物に対する理解および当該人物とのコミュニケーションを改善するためにその分析対象人物と話をする人々とにとって極めて貴重であり得る。
様々な実施形態において、本発明は、開示されている一意の第2のスピーチインジケータから話者の状況的、行動的、心理的、およびスピーチスタイル上の特徴の特徴化するためのコンピュータ実装方法、データ処理システム、コンピュータプログラム製品、および装置として実現される。
本発明とみなされる主題は、添付の図面(「図」)を参照して本発明の一例として、および実例を伴う説明のみを目的として提供された本明細書の後述の実施形態を照らし合わせることによって一層明確に理解されるであろう。
異なる行動的、心理的、およびスピーチスタイル上の特徴を分類するためのスピーチパラメータ参照データを本発明の方法に準拠して取得および形成する段階を示す高次のフローチャートである。
本発明の実施形態に準拠して、参照データベースを使用しながら、話者の現在の発話を分析し、所与の状況におけるその話者の行動的、心理的、およびスピーチスタイル上の特徴を判断する段階を表す高次のフローチャートである。
本発明の方法に追加および準拠して、本発明のいくつかの実施形態で実施され得る任意の段階のいくつかを示す高次のフローチャートである。
本発明のいくつかの実施形態にかかるデータ処理システムの概略ブロック図である。
本発明のいくつかの実施形態にかかる装置の概略ブロック図である。
図面と説明とにより、本発明が実際に実施され得る方法が当業者にとって明らかになる。
本発明について詳述する前に、以降で使用される特定の用語の定義を記載しておくのが有用かもしれない。
本明細書で使用される「状況的」という用語は、話者の現在の状態に関連または該当する特徴を意味する。逆に言えば、状況的特徴化は、話者に総体的に妥当であるとは限らない。例えば、話者の状況的特徴化は、「話者の話しぶりは(今)断定的である」または「話者の話しぶりは控え目である」あるいは「話者の話しぶりは打算的である」などであり得る。これは、話者が、生来的に断定的、控え目、あるいは打算的であるという意味ではなく、現在の発話分析から、話者の話しぶりがそのように聞こえるということを意味する。当然のことながら、異なる状況であれば、その話者の話しぶりも異なる可能性がある。
本明細書で使用される「場面依存的」という語は、文化、言語、アクセント、年齢などの要因を備える話者の経歴的な背景によって、または、対話あるいはモノローグ、記述文の読みあげ、あるいは自由スピーチ、通常のスピーチ状況あるいは身体活動中、演劇での演技中、講義中、演説中、戦闘、非常事態、球技などストレスの多い状況下でのスピーチなど、状況設定の特殊な属性によって導出されたり、それらに起因したり、影響されたりする(スピーチに作用し得る)状況の一般的特徴を表すものと定義される。
本明細書で使用される「スピーチスタイル」という用語は、特定の状況で使われる傾向のある典型的なスピーチパターンを意味し、行動的および心理的な特徴のまとまりを表す。例えば、表情豊かなスピーチスタイル、打算的なスピーチスタイル、率直なスピーチスタイルなどがある。人々は、その具体的な状況および場面に従って自らのスピーチスタイルを変える傾向がある。
本明細書で使用される「通信システム」という用語は、発語の転移を可能にするあらゆる音声通信システムにも関係する。これらのシステムは、例えば、有線または無線電話通信システム、セルラー方式通信ネットワーク、ウェブベースの通信システム、他のボイスオーバーIPベースの通信システム、コールセンタシステムなどでありえる。
以下の詳細な説明の中では、本発明についての理解を徹底するために、数々の具体的な詳細が記載されている。ただし、これら具体的な詳細がなくとも本発明の教示を実践し得るものと理解される。他の事例においては、本発明の教示が曖昧になるのを避けるために、周知の方法、手順、構成要素、および回路が詳細に説明されていない。
本発明は、そのいくつかの実施形態において、スピーチ分析技術を利用して話者の状況的、行動的、心理的、およびスピーチスタイル上の特徴を判断するためのコンピュータ実装方法、データ処理システム、装置、およびコンピュータプログラム製品を開示する。
本発明は、スピーチパターンが、単なる感情的状態を越えて、話者の広範な行動的および心理的特徴を反映するという事実に基づいている。具体的には、率直、断定的、敏感、開放的、表情豊か、人見知り、控え目、威圧的、冷静、打算的、辛抱強い、短気、共感的など、感情ではなくスピーチパターンによって表現される数々の行動的または心理的特徴について考えることができる。本発明は、発話からこれらの行動的および心理的特徴などを分析できるようにすることを目的としている。
本発明の実施形態によれば、本発明の実施は、スピーチパターンに反映されるこれらの特徴が、安定した一定の性質ではなく、主に状況的性質を持つ特徴であるという点を考慮している。かかる行動的特徴は、状況の場面や話者の感情的状態、話者の性格に関連する場合もあるが、多くは全要因の組み合わせであろう。例えば、率直で断定的なスピーチパターンは、試合中(場面)に交わされるコーチと選手との標準的な会話の特徴である場合もあれば、顧客サービスの会話における不満を抱いた顧客の怒り(感情)に関連する場合もある。さらに他のケースでも、このスピーチパターンは、全般的に断定的な話者の性格を反映し得る。スピーチの韻律パラメータ(ペース、抑揚、強度などを反映)は、そのスピーチが現在断定調であるということを明示し得るが、その具体的な場面を示したり、そのスピーチが状況に関連するか、性格に関連するかを区別したりすることはできない。
そのため、これらが本発明の2大基底要素である。スピーチの韻律的特性は、話者の幅広い行動的および心理的特徴を反映し、スピーチパターンにおけるこれらの特徴の発現は、強い状況的性質を有する。すなわち、主として話者の現在の状態を表す。
そのため、具体的な状況における人のスピーチの韻律的特性を分析することによってその人の現在の行動的および心理的特徴を判断するための、話者に依存しない一般的な方法を提供することが本発明の目的である。
本発明は、職業上、教育上、診療上、および娯楽上の目的で行う様々なトレーニング用途の一環として、異なる状況における人々の行動的および心理的特徴について本人にフィードバックを提供する目的で使用され得るという優れた点がある。また、職業上、教育上、診療上、および娯楽上の目的に加え、様々なビジネス用途でも、分析対象人物の現在の行動的および心理的特徴の理解に基づいた、その人物との最良のコミュニケーション方法に関する洞察を他の人に提供する目的でも使用され得る。
本発明が対処する課題1つは、話者に依存しない行動的および心理的特徴を表すパラメータを抽出および検出することである。典型的なピッチ、ペース、抑揚など、スピーチに見られる個々の韻律的特徴は人によって大きく異なる。また、人々が特定の行動的および心理的特徴を表す個々の方法も異なる場合がある。例えば、主にスピーチの強度を変えることによって断定を表現する人もいれば、スピーチのペースなどを変更することによって表現する人もいる。話者に依存しない処理に到達するには、行動的および心理的特徴の韻律表現における個人差を克服する必要がある。
本発明は、韻律的特性を分析するために、第1のピッチから抽出した一意の第2のスピーチと、振幅スピーチパラメータとを用いて、話者に依存しない処理を実現する。これら第2のパラメータは、発話内の上昇ピッチ、下降ピッチ、および均一ピッチが示す様々な統計インジケータの特徴である。スピーチにおける個人差から受ける影響が小さいことから、重複することのないこれら第2のパラメータは、行動的および心理的特徴そのものをより正確に表す。
本発明のさらなる一態様は、スピーチスタイルである。数々の行動的および心理的特徴が持つスピーチパターンを実験的に調べると、かかる特徴を持ついくつかのまとまりをグループ化して、区別されたスピーチスタイルを形成できることがどうやら明らかである。これは、発話を聴いてそれらを分類したときにすでに明らかになる。その発話(同じ状況)内では特定の行動的および心理的特徴が一緒に現れることが多いという傾向があり、そのことは、それらが関連している可能性があることを示唆している。さらに、それらの韻律的特性を分析すると、特定の行動的および心理的特徴は、他と比較して相互の類似性が高く、やはり関連性を示唆している。
かかる潜在的スピーチスタイルの具体例を以下にいくつか示す。1つのスタイルは「受動的」または「堅実」なスピーチスタイルと称し得るもので、緩慢、物静か、堅実、穏やか、優柔不断などの行動的および心理的特徴を備える。もう1つのスタイルは「話し好き」と称し得るもので、敏感、開放的、多弁、表情豊かなどの特徴を備える。さらに別のスタイルは、「断定的」と称し得るもので、率直、威圧的、早口、大声、活発などの特徴を備える。さらに別のスタイルは、「打算的」と称し得るもので、分析的、非感情的、冷静、控え目、系統的などの特徴を備える。これらのスピーチスタイルは、本明細書においては例示目的で取り上げるに過ぎない。当然のことながら、韻律的特性を用いて、他にもいくつかのスピーチスタイルを描き出すことができる。
これらのスピーチスタイルも強い状況的性質を有することを強調しておくことが重要である。時として、それらは話者の安定した特徴を表すことがあるが、多くの場合、現在の対応パターン、すなわち、その具体的な状況または場面に該当する話者の現在の内的状態を表す。その人物は、異なる場面ではかかるスピーチスタイル間で切り替わることが多いであろう。
スピーチ分析を通じてかかるスピーチスタイルを判断することは、分析された状況に関する洞察の包括性を高めることができるため、本発明の上記潜在用途に対して極めて有利となり得る。
そのため、具体的な状況における人のスピーチの韻律的特徴を分析することによってその人の現在のスピーチスタイルを判断するための、話者に依存しない一般的な方法を提供することも本発明の目的である。
本発明の実施形態は、従来の韻律的なスピーチ分析方法と区別する3つの主態様を利用する。第1の態様は、韻律的なスピーチ分析を通じて判断される話者の人格的特徴の範囲を大きく広げている。この分析により、過去に実証されてきた主な用途であった話者の感情的状態以外にも様々な行動的、心理的、およびスピーチスタイル上の特徴が判断されると主張される。第2の異なる態様は、話者の現在の状況的、行動的属性と、対応するその話者のスピーチの特徴との連結である。第3の異なる態様は、スピーチの基本周波数と振幅パラメータから抽出した一意の第2のパラメータを使用して、話者に依存しない処理を実現することである。これら一意の第2のパラメータとそれらの組み合わせとを使用することにより、スピーチ表現の個人差を克服し、類似の行動的および心理的態様が、異なる人々のスピーチの特徴に同じように表れるようにすることができる。
図1は、様々な行動的、心理的、およびスピーチスタイル上の特徴を分類するためのスピーチパラメータ参照データベースを作成する方法のステップを示す、本発明のいくつかの実施形態にかかる高次のフローチャートを表す。この方法は、特定の言語、文化または一意の状況設定など、特定の発語場面を手動で選択すること1010と、選択された場面で分析する行動的、心理的、およびスピーチスタイル上の特徴を手動で選択すること1020と、選択された場面における人々の複数の発話を取得すること1030と、その発話を、類似の行動的、心理的、およびスピーチスタイル上の特徴を表す群に手動でグループ化すること1040と、を含む。この方法は、専門家による評価、ピア評価、自己評価、客観的な試験など、あるいは社会科学および行動科学において使用されており公知であるその他任意の評価方法など、有効かつ公知の評価方法を使用して実行される。かかる状況的特徴は、単なる例に過ぎないものの、率直、断定的、敏感、開放的、表情豊か、人見知り、控え目、威圧的、冷静、打算的、辛抱強い、短気、共感的、またはスピーチパターンで表現または反映され得るその他任意の状況的、行動的、および心理的特徴であり得る。かかるスピーチスタイルは、単なる例に過ぎないものの、緩慢、物静か、堅実、大人しい、優柔不断などいくつかの行動的および心理的特徴を備える「受動的」または「堅実」なスピーチスタイル、敏感、開放的、多弁、表情豊かなどの特徴を備える「話し好き」なスピーチスタイル、率直、威圧的、早口、大声、活発などを備える「断定的」なスピーチスタイル、あるいは分析的、非感情的、冷静、控え目、系統的などの特徴を備える「打算的」なスピーチスタイルであり得る。本発明のいくつかの実施形態によれば、データベースは、任意の数(1つ以上)の行動的、心理的、およびスピーチスタイル上の特徴を表すスピーチパラメータを格納し得る。この方法は、類似する行動的、心理的、およびスピーチスタイル上の特徴を表している発話群における発話の各々を前処理して無音のセグメントとアクティブなスピーチセグメントとに分けること1050と、アクティブなスピーチセグメントを一連の等しい長さのブロックに分割することであって、そのブロックがピッチおよび振幅パラメータを含む第1のスピーチパラメータを有すること1060と、第1のスピーチパラメータから複数の第2のスピーチパラメータを導出することであって、その第2のスピーチパラメータが、上記一連のブロックにおける均一ピッチ、上昇ピッチ、および下降ピッチトレンドの時間単位当たりのセグメントの合計と、上記一連のブロックにおける均一ピッチ、上昇ピッチ、および下降ピッチトレンドのセグメントの平均長さとを備えること1070と、一意の第2のスピーチパラメータ、パラメータの組み合わせ、および
各発話群に共通であり、各群の典型的な行動的、心理的、またはスピーチスタイル上の特徴を表すパラメータの値を、上記導出された第2のパラメータから判断すること1080と、も含む。データベースの使用は本発明の単なる一実施形態であり、スピーチパラメータの辞書であるその集合、および具体的な場面における対応する行動的特徴は、参照用のスピーチパラメータを表す任意の方法で一緒に記憶され得ると理解されるべきである。パラメータのデータベースまたは集合は、異なる手段で記憶したり、実際のソフトウェアデータベースを使用せずにコンピュータプログラムによって参照目的で使用したりしても良い。
本発明のいくつかの実施形態によれば、複数の第2のスピーチパラメータを導出する段階は、平均一時停止長、時間単位当たりの一時停止の合計、短時間無音の平均長、時間単位当たりの短時間無音の合計、均一ピッチセグメントの平均長、時間単位当たりの均一ピッチセグメントの合計、上昇ピッチセグメントの平均長、時間単位当たりの上昇ピッチセグメントの合計、下降ピッチセグメントの平均長、時間単位当たりの下降ピッチセグメントの合計、均一ピッチセグメント内の平均振幅偏差、上昇ピッチセグメント内の平均振幅偏差、下降ピッチセグメント内の平均振幅偏差、時間単位当たりのピッチ変量および範囲、時間単位当たりの平均ピッチ傾斜、スピーチ信号のスペクトル形状およびスペクトル包絡線の経時パターン、上昇、下降、および均一ピッチトレンドの順序の経時パターンを含む一覧から選択されるパラメータをさらに対象とする。
図2は、本発明のいくつかの実施形態にかかる所与の状況および場面における話者の発話を分析し、所与の状況における話者の行動的、心理的、およびスピーチスタイル上の特徴を判断するコンピュータ実装方法のステップを示す高次のフローチャートを表す。その方法は、様々な行動的、心理的、および話者のスピーチスタイル上の特徴に従って発話を分類するためのスピーチパラメータ参照データベースを作成すること2010と、具体的な状況および場面における話者の発話を取得すること2020と、取得した発語を前処理して無音のセグメントとアクティブなスピーチセグメントとに分け、アクティブなスピーチセグメントを一連の等しい長さのブロックに分割することであって、上記ブロックが、ピッチおよび振幅パラメータを含む第1のスピーチパラメータを有すること2030と、その第1のパラメータから複数の第2のスピーチパラメータを導出することであって、上記第2のパラメータが、一連のブロックにおける均一ピッチ、上昇ピッチ、および下降ピッチトレンドの時間単位当たりのセグメントの合計と上記一連のブロックにおける均一ピッチ、上昇ピッチ、および下降ピッチトレンドのセグメントの平均長さとを備えること2040と、発話における上記第2のパラメータから一意のスピーチパラメータ、パラメータの組み合わせ、および、状況的、行動的、心理的、およびスピーチスタイル上の特徴を表すパラメータの値を算出すること2050と、算出されたパラメータをスピーチパラメータの事前定義済み参照データベースと比較することによって、その発話における状況的、行動的、心理的、およびスピーチスタイル上の特徴を判断および評点すること2060と、分析結果を出力すること2070と、を含む。
データベースの作成と同様、いくつかの実施形態によれば、複数の第2のスピーチパラメータを導出する段階は、平均一時停止長、時間単位当たりの一時停止の合計、短時間無音の平均長、時間単位当たりの短時間無音の合計、均一ピッチセグメントの平均長、時間単位当たりの均一ピッチセグメントの合計、上昇ピッチセグメントの平均長、時間単位当たりの上昇ピッチセグメントの合計、下降ピッチセグメントの平均長、時間単位当たりの下降ピッチセグメントの合計、均一ピッチセグメント内の平均振幅偏差、上昇ピッチセグメント内の平均振幅偏差、下降ピッチセグメント内の平均振幅偏差、時間単位当たりのピッチ変量および範囲、時間単位当たりの平均ピッチ傾斜、スピーチ信号のスペクトル形状およびスペクトル包絡線の経時パターン、上昇、下降、および均一ピッチトレンドの順序の経時パターンを含む一覧から選択されたパラメータをさらに対象とする。
図3は、本発明のいくつかの実施形態にかかる所与の状況および場面における話者の発話を分析し、所与の状況における話者の行動的、心理的、およびスピーチスタイル上の特徴を判断するコンピュータ実装方法の任意のステップを示す高次のフローチャートを表す。
本発明のいくつかの実施形態によれば、分析方法は、話者の状況的、行動的、心理的、およびスピーチスタイル上の特徴を判断および評点するに当たっての精度を高めるために、この話者に関する現在の分析が話者から独立したものではなく、話者に依存したものになるよう、現在の分析対象話者の一意のスピーチパターンを認識するための、この話者の事前取得済みスピーチサンプルをスピーチパラメータ参照データベース内に含める段階3010をさらに備える。
本発明のいくつかの実施形態によれば、分析方法は、話者の人格的特徴を判断し、それらを状況的特徴と区別するために、いくつかの異なる状況でその話者を繰り返し分析し、その異なる状況で反復的かつ共通するスピーチパターンをさらに抽出する段階3020をさらに備える。
本発明のいくつかの実施形態によれば、分析方法は、話者の状況的、行動的、心理的、およびスピーチスタイル上の特徴を判断および評点するに当たっての精度を高めるために、現在の感情的状態を状況的特徴と区別するためのスピーチ分析による感情検知を使用すること3030をさらに備える。
本発明のいくつかの実施形態によれば、分析方法は、状況的、行動的、心理的、およびスピーチスタイル上の特徴を判断および評点するに当たっての精度を高めるために、韻律的なスピーチ分析によって補完される音声認識技術による語および内容スピーチ分析を使用する段階3040をさらに備える。
本発明のいくつかの実施形態によれば、分析方法は、状況的、行動的、心理的、およびスピーチスタイル上の特徴を判断および評点するに当たっての精度を高めるために、スピーチ分析によって補完される話者の視覚分析によるボディランゲージ分析を使用すること3050をさらに備える。
本発明のいくつかの実施形態によれば、分析方法は、スピーチパラメータ参照データベースとその分類プロセスとを改善するために話者の行動的、心理的、およびスピーチスタイル上の特徴に関する継続的分析を使用して学習システム特性を提供することをさらに備える。
本発明のいくつかの実施形態によれば、分析方法は、複数の話者を備える発話をさらに対象としており、この方法は、複数の話者の声を分別することをさらに備え、上記方法の各段階が話者ごとに別々に実行される。
図4は、本発明のいくつかの実施形態に従って話者の発話を分析し、所与の状況および場面における話者の行動的、心理的、およびスピーチスタイル上の特徴を判断するためのデータ処理システムを示している高次の概略ブロック図を表す。システム4000は、話者の発声をサンプリングするか、サンプリングされた発声を取得するように調整された音声入力ユニット4010と、音声入力ユニット4010に連結され、音声入力ユニットからの音声サンプルを前処理するように調整された前処理ユニット4020と、前処理ユニット4020に連結された主要処理ユニット4030と、主要インジケータ出力ユニット4040と、主要処理ユニット4030に連結された話者参照データベース4050とを備える。
動作時、音声入力ユニット4010は、具体的な状況および場面における話者のサンプリングされた発話をサンプリングまたは取得するように調整されており、前処理ユニット4020は、サンプリングされた発語を前処理して無音のセグメントとアクティブなスピーチセグメントに分け、アクティブなスピーチセグメントを一連の等しい長さのブロックに分割するように調整されている。これらのブロックは、ピッチおよび振幅パラメータを含む第1のスピーチパラメータを有する。さらに、データベース4050は、行動的、心理的、およびスピーチスタイルの分類と、それらを表す第2のスピーチパラメータおよびパラメータの組み合わせとを格納するように調整されており、かかるパラメータは、平均一時停止長、時間単位当たりの一時停止の合計、短時間無音の平均長、時間単位当たりの短時間無音の合計、均一ピッチセグメントの平均長、時間単位当たりの均一ピッチセグメントの合計、上昇ピッチセグメントの平均長、時間単位当たりの上昇ピッチセグメントの合計、下降ピッチセグメントの平均長、時間単位当たりの下降ピッチセグメントの合計、均一ピッチセグメント内の平均振幅偏差、上昇ピッチセグメント内の平均振幅偏差、下降ピッチセグメント内の平均振幅偏差、時間単位当たりのピッチ変量および範囲、時間単位当たりの平均ピッチ傾斜、スピーチ信号のスペクトル形状およびスペクトル包絡線の経時パターン、上昇、下降、および均一ピッチトレンドの順序の経時パターンを含む一覧から選択される。さらに、主要処理ユニット4030は、その第2のスピーチパラメータを含む一覧から選択された複数の第2のスピーチパラメータを、現在分析されている発話から導出するように調整される。主要処理ユニット4030は、発話の上記第2のスピーチパラメータから、状況的、行動的、心理的、およびスピーチスタイル上の特徴を表す一意のスピーチパラメータと、パラメータの組み合わせと、パラメータの値とを算出するようさらに調整される。さらに、その算出されたパラメータをスピーチパラメータの事前定義済み参照データベースと比較することにより、その発話における状況的、行動的、心理的、およびスピーチスタイル上の特徴を判断および評点するようにも調整される。最後に、主要インジケータユニット4040は、分析結果を出力するように調整される。
本発明のいくつかの実施形態によれば、出力ユニット4040は、可視要素、可聴要素、記憶装置、テキスト、監視デバイスとのインタフェース、インターネットとのインタフェース、ローカルおよびリモートデバイスまたはコンピュータとのインタフェース、別のネットワークとのインタフェース、有線、無線、または携帯電話とのインタフェース、コンピュータゲームとのインタフェース、玩具とのインタフェース、電子手帳とのインタフェース、および電子出力機器とのインタフェースのうちの少なくとも1つを備える。
本発明のいくつかの実施形態によれば、システム4000は、音声通信システム、有線または無線通信システム、セルラー方式通信ネットワーク、ウェブベースの通信システム、その他のボイスオーバーIPベースの通信システム、コールセンタ通信システムを含む群から選択される通信システム内で実装される。
本発明のいくつかの実施形態によれば、システム4000は、自己フィードバック、自己認識、エンターテインメント、行動トレーニング、営業強化、カスタマーサービス強化、顧客およびビジネスインテリジェンス、防衛およびセキュリティ用途、ビジネス交渉、広告、縁結び、デート、娯楽、ゲーム、玩具、カウンセリング、人材用途、重役研修、従業員および職業訓練、心理的および教育的用途、医療用途といった用途のうちの少なくとも1つで使用されるように構成されている。
本発明のいくつかの実施形態によれば、データベース4050は、現在の分析対象話者の状況的、行動的、心理的、およびスピーチスタイル上の特徴を判断および評点するに当たっての精度を高めるために、この話者に関する現在の分析が話者から独立したものではなく、話者に依存したものになるよう、この話者の一意のスピーチパターンを認識するための、事前に取得したスピーチサンプルをさらに備える。
本発明のいくつかの実施形態によれば、システム4000は、話者の人格的特徴を判断し、それらを状況的特徴と区別するために、いくつかの異なる状況でその話者を繰り返し分析し、その異なる状況で反復的かつ共通するスピーチパターンを抽出するようにさらに調整される。
本発明のいくつかの実施形態によれば、システム4000は、話者の状況的、行動的、心理的、およびスピーチスタイル上の特徴を判断および評点するに当たっての精度を高めるために、現在の感情的状態を状況的特徴と区別するためのスピーチ分析による感情検知を使用するようにさらに調整される。
本発明のいくつかの実施形態によれば、システム4000は、状況的、行動的、心理的、およびスピーチスタイル上の特徴を判断および評点するに当たっての精度を高めるために、韻律的なスピーチ分析によって補完される音声認識技術による語および内容スピーチ分析を使用するように調整される。
本発明のいくつかの実施形態によれば、システム4000は、状況的、行動的、心理的、およびスピーチスタイル上の特徴を判断および評点するに当たっての精度を高めるために、スピーチ分析によって補完される話者の視覚分析によるボディランゲージ分析を使用するようにさらに調整される。
本発明のいくつかの実施形態によれば、そのシステム4000は、そのスピーチパラメータ参照データベースおよびその分類プロセスを改善するために話者の行動的、心理的、およびスピーチスタイル上の特徴の継続的分析を用いて学習システム特性を提供するように調整される。
本発明のいくつかの実施形態によれば、システム4000は、複数の話者を備える発話を対象としており、このシステムは、複数の話者の声を分別するように調整されており、このシステムは各話者を別々に分析するようにさらに調整される。
図5は、本発明のいくつかの実施形態に従って話者の発話を分析し、所与の状況および場面における話者の行動的、心理的、およびスピーチスタイル上の特徴を判断するための装置を示している高次の概略ブロック図を表す。装置5000は、話者の発声をサンプリングまたはサンプリングされた発声を取得するように調整された音声入力ユニット5010と、音声入力ユニット5010に連結され、音声入力ユニット5010からの音声サンプルを前処理するように調整された前処理ユニット5020と、前処理ユニット5020に連結された主要処理ユニット5030と、主要処理ユニット5030に連結された主要インジケータ出力ユニット5040とを備える。
動作時、音声入力ユニット5010は、具体的な状況および場面における話者のサンプリングされた発話をサンプリングまたは取得するように調整され、前処理ユニット5020は、サンプリングされた発語を前処理して無音のセグメントとアクティブなスピーチセグメントに分け、アクティブなスピーチセグメントを一連の等しい長さのブロックに分割するように調整される。これらのブロックは、ピッチおよび振幅パラメータを含む第1のスピーチパラメータを有する。さらに、装置5000は、行動的、心理的、およびスピーチスタイルの分類と、それらを表わす第2のスピーチパラメータおよびパラメータの組み合わせとを格納するように調整された参照データベース5050と動作可能に関連付けられており、かかるパラメータは、平均一時停止長、時間単位当たりの一時停止の合計、短時間無音の平均長、時間単位当たりの短時間無音の合計、均一ピッチセグメントの平均長、時間単位当たりの均一ピッチセグメントの合計、上昇ピッチセグメントの平均長、時間単位当たりの上昇ピッチセグメントの合計、下降ピッチセグメントの平均長、時間単位当たりの下降ピッチセグメントの合計、均一ピッチセグメント内の平均振幅偏差、上昇ピッチセグメント内の平均振幅偏差、下降ピッチセグメント内の平均振幅偏差、時間単位当たりのピッチ変量および範囲、時間単位当たりの平均ピッチ傾斜、スピーチ信号のスペクトル形状およびスペクトル包絡線の経時パターン、上昇、下降、および均一ピッチトレンドの順序の経時パターンを含む一覧から選択される。
さらに、主要処理ユニット5030は、上記第2のスピーチパラメータを含む一覧から選択された複数の第2のスピーチパラメータを、現在分析されている発話から導出するように調整されている。主要処理ユニット5030は、発話の上記第2のパラメータから、一意のスピーチパラメータと、パラメータの組み合わせと、状況的、行動的、心理的、およびスピーチスタイル上の特徴を表すパラメータの値とを算出するようさらに調整される。さらに、算出されたパラメータをスピーチパラメータの事前定義済み参照データベースと比較することにより、その発話における状況的、行動的、心理的、およびスピーチスタイル上の特徴を判断および評点するようにも調整されている。最後に、主要インジケータユニット5040は、その分析結果を出力するように調整される。
本発明のいくつかの実施形態によれば、装置5000は、自己フィードバック、自己認識、エンターテインメント、行動トレーニング、営業強化、カスタマーサービス強化、顧客およびビジネスインテリジェンス、防衛およびセキュリティ用途、ビジネス交渉、広告、縁結び、デート、娯楽、ゲーム、玩具、カウンセリング、人材用途、重役研修、従業員および職業訓練、心理的および教育的用途、医療用途といった用途のうちの少なくとも1つを対象に構成されている。
本発明のいくつかの実施形態によれば、装置5000は、音声通信デバイス、有線または無線音声デバイス、セルラー方式通信デバイス、ネットワーク化された(またはネットワーク化されていない)パーソナルデバイスアクセサリ(PDA)、音声録音デバイス、パーソナルコンピュータ、およびサーバを含む一覧から選択される。
本発明のいくつかの実施形態によれば、出力ユニット5040は、可視要素、可聴要素、記憶装置、テキスト、監視デバイスとのインタフェース、インターネットとのインタフェース、ローカルまたはリモートデバイスまたはコンピュータとのインタフェース、別のネットワークとのインタフェース、有線、無線、または携帯電話とのインタフェース、コンピュータゲームとのインタフェース、玩具とのインタフェース、および電子手帳とのインタフェースまたはその他任意の電子出力機器とのインタフェースのうちの少なくとも1つを備える。
いくつかの実施形態によれば、本発明のコンピュータ実装方法、データ処理システム、およびコンピュータプログラム製品は、無線または有線通信システム内で実装され得る。具体的には、本発明は、セルラー通信システムで実装され得る。本発明は、いくつかの実施形態において、リアルタイム環境で動作するように構成され得るが、オフラインスピーチ分析システムとしても構成され得る。
いくつかの実施形態によれば、本発明は、複数のアーキテクチャで実装され得る。例えば、任意の中央物理箇所で携帯電話事業者の集中サーバを通過する通話の音声データに対して上記段階を実行する集中分析モジュールが提供され得る。
他の実施形態によれば、本発明は、スピーチ電気通信デバイスなどの通信装置にソフトウェアまたはハードウェアとして組み込まれるスタンドアロンモジュールとして実装され得る。例えば、具体的なエンドユーザ向け携帯電話デバイスを通過する通話の音声データに対して上記段階を実行する分析モジュールが提供され得る。
任意で、実施形態は、会話している話者の一方または双方の分析に限らず、自己フィードバック、自己認識、エンターテインメント、行動トレーニング、営業強化、カスタマーサービス強化、顧客およびビジネスインテリジェンス、防衛およびセキュリティ用途、ビジネス交渉、広告、縁結び、デート、娯楽、ゲーム、玩具、カウンセリング、人材用途、重役研修、従業員および職業訓練、心理的および教育的用途、医療用途などの目的でも利用され得る。
いくつかの実施形態によれば、本発明のコンピュータ実装方法、データ処理システム、装置、およびコンピュータプログラム製品は、サービス、売上、顧客対応、研修、および他の組織的な目的を改善するために、コールセンタおよびコンタクトセンタにおける会話のリアルタイムまたはオフラインスピーチ分析の範囲内で実装され得る。
いくつかの実施形態によれば、本発明は、有線電話での会話をリアルタイムおよびオフラインでスピーチ分析し、会話している話者の一方または双方を上記と同じ目的で分析する。
いくつかの実施形態によれば、本発明は、ウェブベースの会話をリアルタイムおよびオフラインでスピーチ分析し、当事者の一方または双方を上記と同じ目的で分析する。
いくつかの実施形態によれば、本発明は、対面による会話をリアルタイムおよびオフラインでスピーチ分析し、当事者の一方または双方を上記と同じ目的で分析する。
いくつかの実施形態によれば、本発明は、会話、自己スピーチ、または観衆の前でのスピーチかを問わず、任意の記録されたスピーチをリアルタイムおよびオフラインでスピーチ分析し、当事者の一方または双方を上記と同じ目的で分析する。
有利に、人々のコミュニケーション上、心理的、人格的、および行動的特徴を評価することは、様々な理由でとてつもなく重要である。まず、話者本人に評価データを提供することにより、認識、進展、および様々な学習目的を促す。加えて、個人的、商業的、教育的、職業的、医療上、心理的など、様々な目的でその話者を知りたい、支援したい、上手に交流したい他者にとって大きな重要性を有する。
本発明のいくつかの実施形態によれば、このシステムは、デジタル電子回路で、またはコンピュータハードウェア、ファームウェア、ソフトウェア、あるいはそれらの組み合わせで実装することができる。
本発明は、データ記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置との間でデータと命令とを送受信するために連結された少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行可能である1つ以上のコンピュータプログラムで好都合に実装することができる。コンピュータプログラムとは、コンピュータで直接または間接的に使用することができ、特定のアクティビティを実行したり、特定の結果をもたらしたりする命令の集合のことである。コンピュータプログラムは、コンパイルまたは解釈された言語を含む、任意の形状のプログラミング言語で記述することができ、スタンドアロンプログラム、またはコンピュータ環境での使用に適したモジュール、コンポーネント、サブルーチン、あるいは他のユニットを含む任意の形状で展開することができる。
命令プログラムを実行するための適切なプロセッサは、例えばデジタル信号プロセッサ(DSP)を含むが、汎用マイクロプロセッサ、および任意の種類のコンピュータの単一プロセッサまたは複数のプロセッサのいずれかも含む。一般にプロセッサは、読み取り専用メモリあるいはランダムアクセスメモリ、またはその両方から命令とデータとを受信する。コンピュータの必須要素は、命令を実行するためのプロセッサ、および命令とデータとを格納するための1つ以上のメモリである。一般にコンピュータは、データファイルを格納するための1つ以上の大容量記憶装置も含むか、それらと通信するように動作可能に連結され、かかる装置は、内蔵ハードディスクおよびリムーバブルディスクなどの磁気ディスク、光磁気ディスク、および光ディスクを含む。コンピュータプログラム命令とデータとを有形的に一体化するのに適した記憶装置は、例えば、EPROM、EEPROM、およびフラッシュメモリ装置などの半導体メモリデバイス、内蔵ハードディスクおよびリムーバブルディスクなどの磁気ディスク、光磁気ディスク、CD−ROMおよびDVD−ROMディスクなどを含む、すべての形状の不揮発性メモリを含む。プロセッサおよびメモリは、ASIC(特定用途向け集積回路)によって補完されたり、その中に組み込まれたりする場合がある。
上記説明において、実施形態は、本発明の実施例または実装形態である。「一実施形態」、「実施形態」、または「いくつかの実施形態」が多様に出現しても、それらが必ずしもすべて同じ実施形態を言及するとは限らない。
本発明の様々な特徴が単一の実施形態の場面で説明されている場合があるが、それらの特徴は、別個に、あるいは任意の適切な組み合わせで提供されることもある。逆に、明瞭化のために、本明細書において別個の実施形態の場面で本発明が説明されている場合があるが、本発明は単一の実施形態でも実装され得る。
明細書における「いくつかの実施形態」、「実施形態」、「一実施形態」または「他の実施形態」という言及は、その実施形態に関連して記載されている特定の特性、構造、または特徴が少なくともいくつかの実施形態に含まれているが、本発明のすべての実施形態に含まれるとは限らないことを意味する。
本明細書で用いられている語法および用語は、制限的なものと解釈されるべきではなく、説明のみを目的としていると理解されるべきである。
本発明の教示の原理および用途は、添付の説明、図、および実施例を参照することによってさらに良好に理解され得る。
本明細書に記載されている詳細は、本発明の用途に対する制限を意味するものではないと理解されるべきである。
さらに、本発明は様々な方法で実行または実施することができ、かつ本発明は上記説明に概説された実施形態以外の実施形態で実装可能であると理解されるべきである。
「含む」、「備える」、「成る」、およびそれらの文法的変形は、1つ以上の構成要素、機能、ステップ、あるいは整数、またはそれらの群が追加されることを排除するものではなく、この用語は、構成要素、機能、ステップ、または整数を指定するものとして解釈されるべきでないと理解されるべきである。
明細書または請求項が「付加」要素を言及している場合、それは付加要素が1つよりも多く存在することを除外しない。
請求項または明細書が「1つ」の要素を言及している場合でも、かかる言及はその要素が1つしか存在しないと解釈されるものではないと理解されるべきである。
明細書に、構成要素、機能、構造、または特徴が「含み得る」、「含んでも良い」、「含む場合がある」、「含む可能性がある」と述べられている場合には、その特定の構成要素、機能、構造、または特徴を含むことが必須ではないと理解されるべきである。
該当する場合には、状態図、流れ図、あるいはその両方が実施形態を説明する目的で使用され得るが、本発明は、それらの図または対応する説明に限定されない。例えば、流れは、図示された各々のボックスまたは状態を通過したり、図示または記載されたとおりの順序で移動したりする必要はない。
本発明の方法は、選択されたステップまたは作業を、手動、自動、またはその組み合わせによって実行または完了することによって実装され得る。
「方法」という用語は、所与の作業を達成するための方法、手段、技術、および手順であって、本発明が属する当業者の間では公知であるか、公知の方法、手段、技術、および手順から当業者によって容易に開発される方法、手段、技術、および手順を含むがこれらに限定されない方法、手段、技術、および手順を言及し得る。
請求項および明細書に明示される説明、実施例、方法、および用具は制限的なものとしてではなく、例証的なものに過ぎないと解釈されるべきである。
本明細書で使用される専門的および科学的な用語の意味は、別段の規定がなされていない限り、本発明が属する技術の当業者によって広く理解されるべきである。
本発明は、本明細書に記載されているものと同等または同様の方法および用具を用いたテストまたは実践において実装され得る。
特許、特許出願、記事など、本明細書で参照または言及されているいかなる出版物も、個々の出版物が本明細書に援用されるよう具体的かつ個別に明示されている場合と同程度に、その全体が本明細書に援用される。加えて、本発明のいくつかの実施形態の説明におけるいかなる参照先の引用または特定も、かかる参照が本発明に対する従来技術として提供されているという承認とは解釈されないものとする。
本発明について、限られた数の実施形態を取り上げて説明してきたが、これらは本発明の範囲を制限するものとしてではなく、好適な実施形態のいくつかの実例として解釈されるべきである。その他可能な変形、改変、および応用も、本発明の範囲内である。そのため、本発明の範囲は、ここまでの記載内容によってではなく、添付の特許請求の範囲とそれらの法的均等物とによって制限されるべきである。

Claims (27)

  1. 様々な行動的、心理的、およびスピーチスタイル上の特徴に従って発話を分類するためのスピーチパラメータ参照データベースを作成するコンピュータ実装方法であって、
    特定の発語場面を手動で選択することと、
    前記選択された場面で分析する前記行動的、心理的、およびスピーチスタイル上の特徴を手動で選択することと、
    前記選択された場面における人々の複数の発話を取得することと、
    前記発話を類似の行動的、心理的、およびスピーチスタイル上の特徴を表す群に手動でグループ化することと、
    類似の行動的、心理的、およびスピーチスタイル上の特徴を表す前記発話群内にある前記発話の各々を前処理して、無音のセグメントとアクティブなスピーチセグメントとに分けることと、
    前記アクティブなスピーチセグメントを一連の等しい長さのブロックに分割することであって、前記ブロックがピッチパラメータと振幅パラメータとを含む第1のスピーチパラメータを有することと、
    前記第1のスピーチパラメータから複数の第2のスピーチパラメータを導出することであって、前記複数の選択されたスピーチパラメータは、前記一連のブロックにおける一連の均一ピッチ、上昇ピッチ、および下降ピッチトレンドの時間単位当たりのセグメントの合計と、前記一連のブロックにおける均一ピッチ、上昇ピッチ、および下降ピッチトレンドのセグメントの平均長と、のうちの少なくとも1つを含むことと、
    一意の第2のスピーチパラメータと、パラメータの組み合わせと、前記第2のパラメータからの各発話群に共通するパラメータの値とを判断することであって、前記一意の第2のスピーチパラメータは、各群の前記典型的な行動的、心理的、またはスピーチスタイル上の特徴を表すことと、
    を含む、コンピュータ実装方法。
  2. 導出された複数の第2のスピーチパラメータが、平均一時停止長、時間単位当たりの一時停止の合計、短時間無音の平均長、時間単位当たりの短時間無音の合計、均一ピッチセグメントの平均長、時間単位当たりの均一ピッチセグメントの合計、上昇ピッチセグメントの平均長、時間単位当たりの上昇ピッチセグメントの合計、下降ピッチセグメントの平均長、時間単位当たりの下降ピッチセグメントの合計、均一ピッチセグメント内の平均振幅偏差、上昇ピッチセグメント内の平均振幅偏差、下降ピッチセグメント内の平均振幅偏差、時間単位当たりのピッチ変量および範囲、時間単位当たりの平均ピッチ傾斜、スピーチ信号のスペクトル形状およびスペクトル包絡線の経時パターン、上昇、下降、および均一ピッチトレンドの順序の経時パターンのうちの少なくとも1つを備える、請求項1に記載の方法。
  3. 所与の状況および場面における話者の発話を分析し、前記所与の状況における前記話者の行動的、心理的、およびスピーチスタイル上の特徴を判断するためのコンピュータ実装方法であって、
    様々な行動的、心理的、およびスピーチスタイル上の特徴に従って発話を分類するためのスピーチパラメータ参照データベースを作成することと、
    具体的な状況および場面における話者の発話を取得することと、
    前記取得した発語を前処理して無音のセグメントとアクティブなスピーチセグメントとに分け、前記アクティブなスピーチセグメントを一連の等しい長さのブロックに分割することであって、前記ブロックがピッチパラメータと振幅パラメータとを含む第1のスピーチパラメータを有することと、
    前記第1のパラメータから複数の第2のスピーチパラメータを導出することであって、前記複数の選択されたスピーチパラメータは、前記一連のブロックにおける均一ピッチ、上昇ピッチ、および下降ピッチトレンドの時間単位当たりのセグメントの合計と、前記一連のブロックにおける均一ピッチ、上昇ピッチ、および下降ピッチトレンドのセグメントの平均長と、のうちの少なくとも1つを含むことと、
    前記発話における前記第2のパラメータから、一意のスピーチパラメータと、パラメータの組み合わせと、状況的、行動的、心理的、およびスピーチスタイル上の特徴を表すパラメータの値とを算出することと、
    前記算出されたパラメータをスピーチパラメータの前記事前定義済み参照データベースと比較することにより、前記発話における前記状況的、行動的、心理的、およびスピーチスタイル上の特徴を判断および評点することと、
    前記判断および評点された結果を出力することと、
    を含む、コンピュータ実装方法。
  4. 導出された複数の第2のスピーチパラメータが、平均一時停止長、時間単位当たりの一時停止の合計、短時間無音の平均長、時間単位当たりの短時間無音の合計、均一ピッチセグメントの平均長、時間単位当たりの均一ピッチセグメントの合計、上昇ピッチセグメントの平均長、時間単位当たりの上昇ピッチセグメントの合計、下降ピッチセグメントの平均長、時間単位当たりの下降ピッチセグメントの合計、均一ピッチセグメント内の平均振幅偏差、上昇ピッチセグメント内の平均振幅偏差、下降ピッチセグメント内の平均振幅偏差、時間単位当たりのピッチ変量および範囲、時間単位当たりの平均ピッチ傾斜、スピーチ信号のスペクトル形状およびスペクトル包絡線の経時パターン、上昇、下降、および均一ピッチトレンドの順序の経時パターンのうちの少なくとも1つを備える、請求項3に記載の方法。
  5. 発話を分類するためのスピーチパラメータ参照データベースを前記作成することが、
    特定の発語場面を手動で選択することと、
    前記選択された場面で分析する前記行動的、心理的、およびスピーチスタイル上の特徴を手動で選択することと、
    前記選択された場面における人々の複数の発話を取得することと、
    前記発話を類似の行動的、心理的、およびスピーチスタイル上の特徴を表す群に手動でグループ化することと、
    類似の行動的、心理的、およびスピーチスタイル上の特徴を表す前記発話群内にある前記発話の各々を前処理して、無音のセグメントとアクティブなスピーチセグメントとに分けることと、
    前記アクティブなスピーチセグメントを一連の等しい長さのブロックに分割することであって、前記ブロックが、ピッチパラメータと振幅パラメータとを含む第1のスピーチパラメータを有することと、
    複数の第2のスピーチパラメータを導出することであって、前記複数の選択されたスピーチパラメータは、平均一時停止長、時間単位当たりの一時停止の合計、短時間無音の平均長、時間単位当たりの短時間無音の合計、均一ピッチセグメントの平均長、時間単位当たりの均一ピッチセグメントの合計、上昇ピッチセグメントの平均長、時間単位当たりの上昇ピッチセグメントの合計、下降ピッチセグメントの平均長、時間単位当たりの下降ピッチセグメントの合計、均一ピッチセグメント内の平均振幅偏差、上昇ピッチセグメント内の平均振幅偏差、下降ピッチセグメント内の平均振幅偏差、時間単位当たりのピッチ変量および範囲、時間単位当たりの平均ピッチ傾斜、スピーチ信号のスペクトル形状およびスペクトル包絡線の経時パターン、上昇、下降、および均一ピッチトレンドの順序の経時パターンのうちの少なくとも1つを含むことと、
    一意の第2のスピーチパラメータと、パラメータの組み合わせと、各発話群に共通し、かつ各群の典型的な行動的、心理的、またはスピーチスタイル上の特徴を表すパラメータの値とを判断することと、
    を含む、請求項4に記載の方法。
  6. 現在の分析対象話者の前記状況的、行動的、心理的、およびスピーチスタイル上の特徴を判断および評点するに当たっての精度を高めるために、前記話者に関する現在の分析が話者から独立したものではなく、話者に依存したものとなるように、前記話者の一意のスピーチパターンを認識するための前記話者の事前取得済みスピーチサンプルを前記スピーチパラメータ参照データベース内に備えることをさらに含む、請求項5に記載方法。
  7. 前記話者の人格的特徴を判断し、その人格的特徴を状況的特徴と区別するために、いくつかの異なる状況で前記話者を繰り返し分析し、前記異なる状況で反復的かつ共通する前記スピーチパターンをさらに抽出することをさらに含む、請求項5に記載の方法。
  8. 前記話者の前記状況的、行動的、心理的、およびスピーチスタイル上の特徴を判断および評点するに当たっての精度を高めるために、前記話者の現在の感情的状態を前記状況的特徴と区別するためのスピーチ分析による感情検知を使用することをさらに含む、請求項5に記載の方法。
  9. 前記状況的、行動的、心理的、およびスピーチスタイル上の特徴を判断および評点するに当たっての精度を高めるために、韻律的なスピーチ分析によって補完される音声認識技術による語および内容スピーチ分析を使用することをさらに含む、請求項5に記載の方法。
  10. 前記状況的、行動的、心理的、およびスピーチスタイル上の特徴を判断および評点するに当たっての精度を高めるために、前記スピーチ分析によって補完される前記話者の視覚分析によるボディランゲージ分析を使用することをさらに含む、請求項5に記載の方法。
  11. 前記スピーチパラメータ参照データベースと前記分類プロセスとを改善するために、話者の行動的、心理的、およびスピーチスタイル上の特徴に関する継続的分析を使用して学習システム特性を提供することをさらに含む、請求項5に記載の方法。
  12. 複数の話者を備える発話を対象とした方法であって、前記方法が複数の話者の声を分別することをさらに含み、かつ前記方法の各動作が話者ごとに別々に実行される、請求項5に記載の方法。
  13. 所与の状況および場面における話者の発話を分析し、前記所与の状況における前記話者の行動的、心理的、およびスピーチスタイル上の特徴を判断するためのデータ処理システムであって、
    前記話者の前記発語をサンプリングすることと、前記話者のサンプリングされた発声を受信することとのうちの1つを実行するように調整された音声入力ユニットと、
    前記音声入力ユニットに連結され、音声入力ユニットから音声サンプルを前処理するように調整された前処理ユニットと、
    前記前処理ユニットに連結された主要処理ユニットと、
    前記主要処理ユニットに連結された出力ユニットおよび話者参照データベースと、
    を備えるデータ処理システムであって、
    前記前処理ユニットは、前記サンプリングされた発語を前処理して無音のセグメントとアクティブなスピーチセグメントと分け、前記アクティブなスピーチセグメントを一連の等しい長さのブロックに分割するように調整されており、前記ブロックは、ピッチパラメータと振幅パラメータとを含む第1のスピーチパラメータを有し、
    前記データベースが、一意の第2のスピーチパラメータとパラメータの組み合わせとに従い、様々な行動的、心理的、およびスピーチスタイル上の特徴に従って発話を分類するように調整されており、前記複数の選択されたスピーチパラメータは、平均一時停止長、時間単位当たりの一時停止の合計、短時間無音の平均長、時間単位当たりの短時間無音の合計、均一ピッチセグメントの平均長、時間単位当たりの均一ピッチセグメントの合計、上昇ピッチセグメントの平均長、時間単位当たりの上昇ピッチセグメントの合計、下降ピッチセグメントの平均長、時間単位当たりの下降ピッチセグメントの合計、均一ピッチセグメント内の平均振幅偏差、上昇ピッチセグメント内の平均振幅偏差、下降ピッチセグメント内の平均振幅偏差、時間単位当たりのピッチ変量および範囲、時間単位当たりの平均ピッチ傾斜、スピーチ信号のスペクトル形状およびスペクトル包絡線の経時パターン、上昇、下降、および均一ピッチトレンドの順序の経時パターンのうちの少なくとも1つを含み、
    前記主要処理ユニットは、前記第2のスピーチパラメータを含む一覧から選択された複数の第2のスピーチパラメータを、前記現在分析されている発話から導出し、
    前記発話における前記第2のパラメータから、一意のスピーチパラメータと、パラメータの組み合わせと、状況的、行動的、心理的、およびスピーチスタイル上の特徴を表すパラメータの値とを算出し、
    前記算出された一意のスピーチパラメータを第2のスピーチパラメータの前記事前定義済み参照データベースと比較することによって、前記発話における前記状況的、行動的、心理的、およびスピーチスタイル上の特徴を判断および評点するように調整されており、前記出力ユニットは、前記分析結果を出力するように調整されている、
    システム。
  14. 前記出力ユニットは、可視要素、可聴要素、記憶装置、テキスト、監視デバイスとのインタフェース、インターネットとのインタフェース、ローカルおよびリモートデバイスまたはコンピュータとのインタフェース、別のネットワークとのインタフェース、有線、無線、または携帯電話とのインタフェース、コンピュータゲームとのインタフェース、玩具とのインタフェース、電子手帳とのインタフェース、または電子出力機器とのインタフェースのうちの少なくとも1つを備える、請求項13に記載のシステム。
  15. 前記システムは、音声通信システム、有線および無線電話通信システム、セルラー方式通信ネットワーク、ウェブベースの通信システム、ボイスオーバーIPベースの通信システム、およびコールセンタ通信システムから成る群から選択された通信システム内で実装される、請求項13に記載のシステム。
  16. 前記システムは複数の用途向けに構成されており、前記複数の用途が、自己フィードバック、自己認識、エンターテインメント、行動トレーニング、営業強化、カスタマーサービス強化、顧客およびビジネスインテリジェンス、防衛およびセキュリティ用途、ビジネス交渉、広告、縁結び、デート、娯楽、ゲーム、玩具、カウンセリング、人材用途、重役研修、従業員および職業訓練、心理的および教育的用途、医療用途といった用途のうちの少なくとも1つを含む、請求項13に記載のシステム。
  17. 現在の分析対象話者の前記状況的、行動的、心理的、およびスピーチスタイル上の特徴を判断および評点するに当たっての精度を高めるために、前記話者に関する前記現在の分析が話者から独立したものではなく、話者に依存したものとなるように、前記データベースは前記話者の一意のスピーチパターンを認識するための前記話者の事前取得済みスピーチサンプルをさらに備える、請求項13に記載のシステム。
  18. 前記話者の前記人格的特徴を判断し、それらを前記状況的特徴と区別するために、いくつかの異なる状況で前記話者を繰り返し分析し、前記異なる状況で反復的かつ共通する前記スピーチパターンを抽出するように調整されている、請求項13に記載のシステム。
  19. 前記話者の前記状況的、行動的、心理的、およびスピーチスタイル上の特徴を判断および評点するに当たっての精度を高めるために、前記現在の感情的状態を前記状況的特徴と区別するためのスピーチ分析による感情検知を使用するように調整されている、請求項13に記載のシステム。
  20. 前記状況的、行動的、心理的、およびスピーチスタイル上の特徴を判断および評点するに当たっての精度を高めるために、韻律的なスピーチ分析によって補完される音声認識技術による語および内容スピーチ分析を使用するように調整されている、請求項13に記載のシステム。
  21. 前記状況的、行動的、心理的、およびスピーチスタイル上の特徴を判断および評点するに当たっての精度を高めるために、前記スピーチ分析によって補完される前記話者の視覚分析によるボディランゲージ分析を使用するように調整されている、請求項13に記載のシステム。
  22. 前記スピーチパラメータ参照データベースと前記分類プロセスとを改善するために、話者の行動的、心理的、およびスピーチスタイル上の特徴に関する継続的分析を使用して学習システム特性を提供するように調整されている、請求項13に記載のシステム。
  23. 前記複数の話者の声を分別するようにさらに調整されており、かつ各話者を別々に分析するように調整されている、複数の話者を備える発話を対象とした、請求項13に記載のシステム。
  24. 話者の発話を分析し、所与の状況および場面における前記話者の行動的、心理的、およびスピーチスタイル上の特徴を判断するための装置であって、
    前記話者の前記発声をサンプリングするか、またはサンプリングされた前記話者の発語を取得するように調整された音声入力ユニットと、
    前記音声入力ユニットに連結され、音声入力ユニットから音声サンプルを前処理するように調整された前処理ユニットと、
    前記前処理ユニットに連結された主要処理ユニットと、
    前記主要処理ユニットに連結された主要インジケータ出力ユニットと、
    を備え、前記前処理ユニットは、
    前記サンプリングされた発語を前処理して無音のセグメントとアクティブなスピーチセグメントとに分け、前記アクティブなスピーチセグメントを一連の等しい長さのブロックに分割するように調整されており、前記ブロックは、ピッチパラメータと振幅パラメータとを含む第1のスピーチパラメータを有し、
    前記装置は、参照データベースと動作可能に関連付けられており、前記データベースは、一意の第2のスピーチパラメータとパラメータの組み合わせとに応じた様々な行動的、心理的、およびスピーチスタイル上の特徴に従って発話を分類するように配置されており、前記複数の選択されたスピーチパラメータは、平均一時停止長、時間単位当たりの一時停止の合計、短時間無音の平均長、時間単位当たりの短時間無音の合計、均一ピッチセグメントの平均長、時間単位当たりの均一ピッチセグメントの合計、上昇ピッチセグメントの平均長、時間単位当たりの上昇ピッチセグメントの合計、下降ピッチセグメントの平均長、時間単位当たりの下降ピッチセグメントの合計、均一ピッチセグメント内の平均振幅偏差、上昇ピッチセグメント内の平均振幅偏差、下降ピッチセグメント内の平均振幅偏差、時間単位当たりのピッチ変量および範囲、時間単位当たりの平均ピッチ傾斜、スピーチ信号のスペクトル形状およびスペクトル包絡線の経時パターン、上昇、下降、および均一ピッチトレンドの順序の経時パターンのうちの少なくとも1つを含み、
    前記主要処理ユニット、
    前記第2のスピーチパラメータを含む一覧から選択された複数の第2のスピーチパラメータを、前記現在分析されている発話から導出し、
    前記発話における前記第2のパラメータから、一意のスピーチパラメータと、パラメータの組み合わせと、状況的、行動的、心理的、およびスピーチスタイル上の特徴を表すパラメータの値とを算出し、
    前記算出されたパラメータをスピーチパラメータの前記事前定義済み参照データベースと比較することにより、前記発話における前記状況的、行動的、心理的、およびスピーチスタイル上の特徴を判断および評点し、
    前記主要出力インジケータユニットが、前記分析結果を出力するように調整されているシステム。
  25. 自己フィードバック、自己認識、エンターテインメント、行動トレーニング、営業強化、カスタマーサービス強化、顧客およびビジネスインテリジェンス、防衛およびセキュリティ用途、ビジネス交渉、広告、縁結び、デート、娯楽、ゲーム、玩具、カウンセリング、人材用途、重役研修、従業員および職業訓練、心理的および教育的用途、医療用途といった用途のうちの少なくとも1つを対象に構成されている、請求項24に記載の装置。
  26. 音声通信デバイス、有線または無線音声デバイス、セルラー方式通信デバイス、ネットワーク化されたパーソナルデバイスアクセサリ(PDA)、ネットワーク化されていないPDA、音声録音デバイス、パーソナルコンピュータ、およびサーバを含む一覧から選択される、請求項24に記載の装置。
  27. 前記出力ユニットが、可視要素、可聴要素、記憶装置、テキスト、監視デバイスとのインタフェース、インターネットとのインタフェース、ローカルおよびリモートデバイスまたはコンピュータとのインタフェース、別のネットワークとのインタフェース、有線、無線、または携帯電話とのインタフェース、コンピュータゲームとのインタフェース、玩具とのインタフェース、電子手帳とのインタフェースまたは電子出力機器とのインタフェースのうちの少なくとも1つを備える、請求項24に記載の装置。
JP2011514199A 2008-06-17 2009-06-17 スピーチ分析による話者の特徴化 Pending JP2011524551A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/140,413 US8195460B2 (en) 2008-06-17 2008-06-17 Speaker characterization through speech analysis
US12/140,413 2008-06-17
PCT/IL2009/000604 WO2009153788A2 (en) 2008-06-17 2009-06-17 Speaker characterization through speech analysis

Publications (1)

Publication Number Publication Date
JP2011524551A true JP2011524551A (ja) 2011-09-01

Family

ID=41210901

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011514199A Pending JP2011524551A (ja) 2008-06-17 2009-06-17 スピーチ分析による話者の特徴化

Country Status (7)

Country Link
US (2) US8195460B2 (ja)
EP (2) EP3396668B1 (ja)
JP (1) JP2011524551A (ja)
KR (1) KR101683310B1 (ja)
CN (1) CN102124515B (ja)
ES (2) ES2896267T3 (ja)
WO (1) WO2009153788A2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013152277A (ja) * 2012-01-24 2013-08-08 Toshiba Tec Corp 情報提供装置とそのプログラムおよび情報提供システム
JP2015064828A (ja) * 2013-09-26 2015-04-09 日本電信電話株式会社 対話傾向得点化装置、方法及びプログラム
JP2019203998A (ja) * 2018-05-24 2019-11-28 カシオ計算機株式会社 会話装置、ロボット、会話装置制御方法及びプログラム
JP2021162627A (ja) * 2020-03-30 2021-10-11 パイオニア株式会社 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体

Families Citing this family (116)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8195460B2 (en) * 2008-06-17 2012-06-05 Voicesense Ltd. Speaker characterization through speech analysis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010041507A1 (ja) * 2008-10-10 2010-04-15 インターナショナル・ビジネス・マシーンズ・コーポレーション 会話における特定状況を抽出するシステムおよび方法
JP5456370B2 (ja) * 2009-05-25 2014-03-26 任天堂株式会社 発音評価プログラム、発音評価装置、発音評価システムおよび発音評価方法
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
JP5834449B2 (ja) * 2010-04-22 2015-12-24 富士通株式会社 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
US8417530B1 (en) * 2010-08-20 2013-04-09 Google Inc. Accent-influenced search results
US8990094B2 (en) * 2010-09-13 2015-03-24 Qualcomm Incorporated Coding and decoding a transient frame
US8862465B2 (en) * 2010-09-17 2014-10-14 Qualcomm Incorporated Determining pitch cycle energy and scaling an excitation signal
US8918197B2 (en) * 2012-06-13 2014-12-23 Avraham Suhami Audio communication networks
US9082408B2 (en) 2011-06-13 2015-07-14 Mmodal Ip Llc Speech recognition using loosely coupled components
CN102509550A (zh) * 2011-11-18 2012-06-20 中国联合网络通信集团有限公司 声音信息的处理方法和用户设备
CN102419973B (zh) * 2011-11-18 2013-06-19 中国科学院自动化研究所 一种声调评测方法
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US20130325483A1 (en) * 2012-05-29 2013-12-05 GM Global Technology Operations LLC Dialogue models for vehicle occupants
US9257122B1 (en) 2012-08-06 2016-02-09 Debra Bond Cancro Automatic prediction and notification of audience-perceived speaking behavior
US20150302866A1 (en) * 2012-10-16 2015-10-22 Tal SOBOL SHIKLER Speech affect analyzing and training
CN103902629B (zh) * 2012-12-28 2017-09-29 联想(北京)有限公司 利用语音提供操作帮助的电子设备和方法
KR101410163B1 (ko) 2013-01-02 2014-06-20 포항공과대학교 산학협력단 통계적 음성 언어 이해 방법
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US20140229181A1 (en) * 2013-02-12 2014-08-14 Daniel Begel Method and System to Identify Human Characteristics Using Speech Acoustics
US9734819B2 (en) 2013-02-21 2017-08-15 Google Technology Holdings LLC Recognizing accented speech
DE102013101871A1 (de) * 2013-02-26 2014-08-28 PSYWARE GmbH Wortwahlbasierte Sprachanalyse und Sprachanalyseeinrichtung
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
CN104123938A (zh) * 2013-04-29 2014-10-29 富泰华工业(深圳)有限公司 语音控制系统、电子装置及语音控制方法
US20140337034A1 (en) * 2013-05-10 2014-11-13 Avaya Inc. System and method for analysis of power relationships and interactional dominance in a conversation based on speech patterns
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278592B2 (en) 2013-06-09 2017-09-07 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US20150064669A1 (en) * 2013-09-03 2015-03-05 Ora GOLAN System and method for treatment of emotional and behavioral disorders
KR101478459B1 (ko) * 2013-09-05 2014-12-31 한국과학기술원 언어 지연 치료 시스템 및 그 시스템 제어 방법
US20150161843A1 (en) * 2013-12-10 2015-06-11 Spielo International Canada Ulc Gaming Machine Adapts Game Based on Attributes of Player's Voice
JP6596924B2 (ja) * 2014-05-29 2019-10-30 日本電気株式会社 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9418663B2 (en) * 2014-07-31 2016-08-16 Google Inc. Conversational agent with a particular spoken style of speech
US10127911B2 (en) * 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
CN104505103B (zh) * 2014-12-04 2018-07-03 上海流利说信息技术有限公司 语音质量评价设备、方法和系统
CN104505102A (zh) * 2014-12-31 2015-04-08 宇龙计算机通信科技(深圳)有限公司 身体状况检测的方法及装置
CN105989836B (zh) * 2015-03-06 2020-12-01 腾讯科技(深圳)有限公司 一种语音采集方法、装置及终端设备
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9467718B1 (en) 2015-05-06 2016-10-11 Echostar Broadcasting Corporation Apparatus, systems and methods for a content commentary community
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10529328B2 (en) 2015-06-22 2020-01-07 Carnegie Mellon University Processing speech signals in voice-based profiling
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
CN105096934B (zh) * 2015-06-30 2019-02-12 百度在线网络技术(北京)有限公司 构建语音特征库的方法、语音合成方法、装置及设备
US9865281B2 (en) 2015-09-02 2018-01-09 International Business Machines Corporation Conversational analytics
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
CN105334743B (zh) * 2015-11-18 2018-10-26 深圳创维-Rgb电子有限公司 一种基于情感识别的智能家居控制方法及其系统
CN105609106A (zh) * 2015-12-16 2016-05-25 魅族科技(中国)有限公司 记事文档生成方法和装置
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN105575404A (zh) * 2016-01-25 2016-05-11 薛明博 一种基于语音识别的心理检测方法及系统
US10268689B2 (en) 2016-01-28 2019-04-23 DISH Technologies L.L.C. Providing media content based on user state detection
US10244113B2 (en) 2016-04-26 2019-03-26 Fmr Llc Determining customer service quality through digitized voice characteristic measurement and filtering
US10984036B2 (en) 2016-05-03 2021-04-20 DISH Technologies L.L.C. Providing media content based on media element preferences
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10339925B1 (en) * 2016-09-26 2019-07-02 Amazon Technologies, Inc. Generation of automated message responses
KR101864824B1 (ko) * 2016-11-03 2018-06-05 세종대학교산학협력단 발화자에 대한 신뢰도 측정 장치 및 방법
US10764381B2 (en) 2016-12-23 2020-09-01 Echostar Technologies L.L.C. Communications channels in media systems
US11196826B2 (en) 2016-12-23 2021-12-07 DISH Technologies L.L.C. Communications channels in media systems
US10390084B2 (en) 2016-12-23 2019-08-20 DISH Technologies L.L.C. Communications channels in media systems
US10347245B2 (en) * 2016-12-23 2019-07-09 Soundhound, Inc. Natural language grammar enablement by speech characterization
CN106952645B (zh) * 2017-03-24 2020-11-17 广东美的制冷设备有限公司 语音指令的识别方法、语音指令的识别装置和空调器
EP3392884A1 (en) 2017-04-21 2018-10-24 audEERING GmbH A method for automatic affective state inference and an automated affective state inference system
US10939834B2 (en) 2017-05-01 2021-03-09 Samsung Electronics Company, Ltd. Determining cardiovascular features using camera-based sensing
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
EP3662470B1 (en) * 2017-08-01 2021-03-24 Dolby Laboratories Licensing Corporation Audio object classification based on location metadata
KR102413282B1 (ko) * 2017-08-14 2022-06-27 삼성전자주식회사 개인화된 음성 인식 방법 및 이를 수행하는 사용자 단말 및 서버
KR101997161B1 (ko) * 2017-12-04 2019-10-01 한국과학기술원 물리적 공간의 센서 데이터와 온라인 메신저 사용 데이터를 이용한 사용자 퍼소나 분류 방법 및 장치
CN108154588B (zh) * 2017-12-29 2020-11-27 深圳市艾特智能科技有限公司 解锁方法、系统、可读存储介质及智能设备
KR102585231B1 (ko) * 2018-02-02 2023-10-05 삼성전자주식회사 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US20190385711A1 (en) 2018-06-19 2019-12-19 Ellipsis Health, Inc. Systems and methods for mental health assessment
EP3811245A4 (en) 2018-06-19 2022-03-09 Ellipsis Health, Inc. MENTAL HEALTH ASSESSMENT SYSTEMS AND METHODS
CN109344229A (zh) * 2018-09-18 2019-02-15 深圳壹账通智能科技有限公司 对话分析评价的方法、装置、计算机设备和存储介质
US11037550B2 (en) 2018-11-30 2021-06-15 Dish Network L.L.C. Audio-based link generation
CN109961804B (zh) * 2019-02-12 2021-11-02 百度在线网络技术(北京)有限公司 智能设备满意度评估方法、装置及存储介质
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
CN111326136B (zh) * 2020-02-13 2022-10-14 腾讯科技(深圳)有限公司 语音处理方法、装置、电子设备及存储介质
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
CN112086085B (zh) * 2020-08-18 2024-02-20 珠海市杰理科技股份有限公司 音频信号的和声处理方法、装置、电子设备和存储介质
DK202070869A1 (en) * 2020-12-22 2022-06-24 Gn Audio As Voice coaching system and related methods
KR102385176B1 (ko) 2021-11-16 2022-04-14 주식회사 하이 심리 상담 장치 및 그 방법
CN114299921B (zh) * 2021-12-07 2022-11-18 浙江大学 一种语音指令的声纹安全性评分方法和系统
WO2023158050A1 (en) * 2022-02-18 2023-08-24 Samsung Electronics Co., Ltd. Methods and electronic device for providing interaction with virtual assistant
KR102495725B1 (ko) 2022-03-25 2023-02-07 주식회사 하이 자기 대화 장치 및 그 방법
KR102481216B1 (ko) 2022-03-25 2022-12-28 주식회사 하이 자기 대화 장치 및 방법
US20240005911A1 (en) * 2022-05-27 2024-01-04 Accenture Global Solutions Limited Systems and methods to improve trust in conversations with deep learning models
CN116631446B (zh) * 2023-07-26 2023-11-03 上海迎智正能文化发展有限公司 一种基于言语分析的行为方式分析方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1423846B1 (en) * 2001-08-09 2006-03-29 Voicesense Ltd. Method and apparatus for speech analysis

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6006188A (en) 1997-03-19 1999-12-21 Dendrite, Inc. Speech signal processing for determining psychological or physiological characteristics using a knowledge base
US6173260B1 (en) * 1997-10-29 2001-01-09 Interval Research Corporation System and method for automatic classification of speech based upon affective content
US6151571A (en) * 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
TWI221574B (en) * 2000-09-13 2004-10-01 Agi Inc Sentiment sensing method, perception generation method and device thereof and software
EP1256937B1 (en) * 2001-05-11 2006-11-02 Sony France S.A. Emotion recognition method and device
EP1256931A1 (en) * 2001-05-11 2002-11-13 Sony France S.A. Method and apparatus for voice synthesis and robot apparatus
US20040054534A1 (en) * 2002-09-13 2004-03-18 Junqua Jean-Claude Client-server voice customization
US8321427B2 (en) * 2002-10-31 2012-11-27 Promptu Systems Corporation Method and apparatus for generation and augmentation of search terms from external and internal sources
US7548651B2 (en) * 2003-10-03 2009-06-16 Asahi Kasei Kabushiki Kaisha Data process unit and data process unit control program
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US7995717B2 (en) * 2005-05-18 2011-08-09 Mattersight Corporation Method and system for analyzing separated voice data of a telephonic communication between a customer and a contact center by applying a psychological behavioral model thereto
WO2008092473A1 (en) * 2007-01-31 2008-08-07 Telecom Italia S.P.A. Customizable method and system for emotional recognition
US8195460B2 (en) * 2008-06-17 2012-06-05 Voicesense Ltd. Speaker characterization through speech analysis

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1423846B1 (en) * 2001-08-09 2006-03-29 Voicesense Ltd. Method and apparatus for speech analysis

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013152277A (ja) * 2012-01-24 2013-08-08 Toshiba Tec Corp 情報提供装置とそのプログラムおよび情報提供システム
JP2015064828A (ja) * 2013-09-26 2015-04-09 日本電信電話株式会社 対話傾向得点化装置、方法及びプログラム
JP2019203998A (ja) * 2018-05-24 2019-11-28 カシオ計算機株式会社 会話装置、ロボット、会話装置制御方法及びプログラム
JP7131077B2 (ja) 2018-05-24 2022-09-06 カシオ計算機株式会社 会話装置、ロボット、会話装置制御方法及びプログラム
JP2021162627A (ja) * 2020-03-30 2021-10-11 パイオニア株式会社 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体

Also Published As

Publication number Publication date
CN102124515B (zh) 2012-09-12
EP2304718A2 (en) 2011-04-06
ES2896267T3 (es) 2022-02-24
EP3396668A1 (en) 2018-10-31
EP3396668B1 (en) 2021-07-28
CN102124515A (zh) 2011-07-13
WO2009153788A2 (en) 2009-12-23
ES2668969T3 (es) 2018-05-23
EP2304718B1 (en) 2018-01-24
KR20110043600A (ko) 2011-04-27
US8195460B2 (en) 2012-06-05
WO2009153788A3 (en) 2010-03-18
US20090313018A1 (en) 2009-12-17
US8682666B2 (en) 2014-03-25
US20120221336A1 (en) 2012-08-30
KR101683310B1 (ko) 2016-12-06

Similar Documents

Publication Publication Date Title
JP2011524551A (ja) スピーチ分析による話者の特徴化
US8825479B2 (en) System and method for recognizing emotional state from a speech signal
US7606701B2 (en) Method and apparatus for determining emotional arousal by speech analysis
Aloufi et al. Emotionless: Privacy-preserving speech analysis for voice assistants
JP2006267465A (ja) 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体
Hasrul et al. Human affective (emotion) behaviour analysis using speech signals: a review
Mary et al. Analysis and detection of mimicked speech based on prosodic features
Huang et al. Toward a speaker-independent real-time affect detection system
Babu et al. Forensic speaker recognition system using machine learning
KR101560833B1 (ko) 음성 신호를 이용한 감정 인식 장치 및 방법
Jung et al. Selecting feature frames for automatic speaker recognition using mutual information
Mary et al. Evaluation of mimicked speech using prosodic features
Nandwana et al. A new front-end for classification of non-speech sounds: a study on human whistle
Yadav et al. Emotion recognition using LP residual at sub-segmental, segmental and supra-segmental levels
Julia et al. Detection of emotional expressions in speech
Bapineedu Analysis of Lombard effect speech and its application in speaker verification for imposter detection
Farrús et al. Robustness of prosodic features to voice imitation
Krishna et al. Automatic Text-Independent Emotion Recognition Using Spectral Features
Skarnitzl et al. Tuning the performance of automatic speaker recognition in different conditions: effects of language and simulated voice disguise.
Witkowski et al. Caller identification by voice
Feng et al. I-vector Based within speaker voice quality identification on connected speech
Jagtap et al. REAL-TIME SPEECH BASED SENTIMENT RECOGNITION
IL209996A (en) Speech characterization through speech analysis
Rakesh et al. A comparative study of silence and non silence regions of speech signal using prosody features
Espinosa et al. Detection of negative emotional state in speech with ANFIS and genetic algorithms.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121127

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130221

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130228

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130326

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130402

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130426

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130508

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130527

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130702