JP6863733B2 - 音声影響修正 - Google Patents

音声影響修正 Download PDF

Info

Publication number
JP6863733B2
JP6863733B2 JP2016252683A JP2016252683A JP6863733B2 JP 6863733 B2 JP6863733 B2 JP 6863733B2 JP 2016252683 A JP2016252683 A JP 2016252683A JP 2016252683 A JP2016252683 A JP 2016252683A JP 6863733 B2 JP6863733 B2 JP 6863733B2
Authority
JP
Japan
Prior art keywords
emotional state
voice
person
sample
sensor data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016252683A
Other languages
English (en)
Other versions
JP2017129853A (ja
Inventor
エリオット ナフマン ハイメ
エリオット ナフマン ハイメ
マルティ ステファン
マルティ ステファン
ディ チェンソ ダビデ
ディ チェンソ ダビデ
Original Assignee
ハーマン インターナショナル インダストリーズ インコーポレイテッド
ハーマン インターナショナル インダストリーズ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ハーマン インターナショナル インダストリーズ インコーポレイテッド, ハーマン インターナショナル インダストリーズ インコーポレイテッド filed Critical ハーマン インターナショナル インダストリーズ インコーポレイテッド
Publication of JP2017129853A publication Critical patent/JP2017129853A/ja
Application granted granted Critical
Publication of JP6863733B2 publication Critical patent/JP6863733B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/0059Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence
    • A61B5/0075Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence by spectroscopy, i.e. measuring spectra, e.g. Raman spectroscopy, infrared absorption spectroscopy
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/195Modulation effects, i.e. smooth non-discontinuous variations over a time interval, e.g. within a note, melody or musical transition, of any sound parameter, e.g. amplitude, pitch, spectral response or playback speed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Psychiatry (AREA)
  • Theoretical Computer Science (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Animal Behavior & Ethology (AREA)
  • Surgery (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Molecular Biology (AREA)
  • Developmental Disabilities (AREA)
  • Social Psychology (AREA)
  • Educational Technology (AREA)
  • Psychology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • User Interface Of Digital Computer (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Image Analysis (AREA)

Description

さまざまな実施形態は、一般的にオーディオ信号処理に関し、より具体的に音声影響修正のための技術に関する。
効果的なコミュニケーションは、健全な社会的関係やビジネス関係を構築し維持する上で重要な役割を果たす。それにもかかわらず、会話に参加するときに、多くの人々は、彼らの感情状態を正確に伝えること、及び/または彼らを取り巻く人々の、または会話に直接参加する人々の感情状態を正確に判定することが難しい。たとえば、一般的に異なる文化は、異なるタイプの表情、手ぶり、身ぶりなどにより感情を表現する。その結果、これらの文化的な違いにより、異なる文化背景から人々は、会話中に互いに彼らの感情を効果的に伝えることが困難な場合がある。別の実施例として、一般的に自閉症スペクトラムの人々は、他の人々とコミュニケートする、または交流するときに、彼らの感情を正確に伝えること、及び他の人々の感情を解釈することが困難である。
人々がコミュニケートするときに彼らの感情状態をより効果的に伝えることを可能にするために、いくつかの電子通信形態は、ユーザがグラフィカル・シンボルを介して彼らの感情を明確に示すことを可能にする。たとえば、多くのテキスト・メッセージング・プラットフォームは、ユーザが彼または彼女の感情状態を別のユーザへグラフィカルに伝えるために選択することが可能である、グラフィカルな表情(すなわち、顔文字)を含む。しかしながら、これらのタイプのプラットフォーム以外に、実際の、及び/または人との交流の中で感情状態を伝えて解釈する際にユーザを自動的に支援するために現在利用可能なシステムがない。その結果、感情状態を効果的に伝えて解釈する彼らの能力がないため、多くの人々は、健全な関係を築いて維持する彼らの能力を抑制する、コミュニケーション及び社会的交流で苦労し続ける。
前述の説明のように、互いにコミュニケートする、または交流するときに、人々の感情状態を伝えて解釈するためのより効果的な技術は、役立つであろう。
本開示の実施形態は、音声の影響を修正するための方法を説明する。この方法は、人と関連した感情状態を判定すること、及びこの感情状態に基づき人から取得された音声サンプルの1つ以上の音響特性を修正して音声サンプルと関連した影響を変更することを備える。さらにこの方法は、修正されている1つ以上の音響特性に基づき第二音声サンプルを生成すること、及びこの第二音声サンプルを送信することを備える。
さらに実施形態は、とりわけ、上記で説明された技術を実装するように設定されたシステム及び非一時的なコンピュータ可読記憶媒体を提供する。
開示された技術の少なくとも1つの利点は、話し手の音声の影響を強調して、話し手が彼らの感情状態をより効果的に伝えること、及び/または話し手の感情状態をより効果的に判定する際に聞き手を支援することを可能にすることができる。加えて、話し手の音声での影響を低減及び/または変更し、たとえば、限定されないが、話し手の感情状態を隠すことが可能である。さらに、話し手の感情状態は、話し手または聞き手との交流を必要とせずに、1つ以上のタイプのセンサ・データを介して自動的に判定されることができる。
1つ以上の実施形態の列挙された特徴が上記で説明する方式を詳細に理解することが可能であるために、1つ以上の実施形態のより詳細な説明は、上記で簡潔に要約され、特定の具体的な実施形態を参照することで得られることができ、それらのいくつかは、添付の図面で説明される。しかしながら、添付の図面が典型的な実施形態のみを説明することでいかなる方式でもその範囲を限定するとみなされるべきではなく、さまざまな実施形態のその範囲については他の実施形態もまた包含することに留意するべきである。
例えば、本願発明は以下の項目を提供する。
(項目1)
インストラクションがプロセッサにより実行されるときに、
人と関連した感情状態を判定し、
前記感情状態に基づき前記人から取得された音声サンプルの1つ以上の音響特性を修正し、前記音声サンプルと関連した影響を変更し、
修正されている前記1つ以上の音響特性に基づき第二音声サンプルを生成し、
前記第二音声サンプルを送信する、
前記ステップを実行することで、音声の影響を修正するように前記プロセッサを構成する、前記インストラクションを含む非一時的なコンピュータ可読記憶媒体。
(項目2)
前記人と関連した前記感情状態を判定することは、視覚センサ・データを分析して前記人の1つ以上の顔特性を判定することを備える、上記項目に記載の前記非一時的なコンピュータ可読記憶媒体。
(項目3)
前記人と関連した前記感情状態を判定することは、前記音声サンプルを分析して前記感情状態を反映する少なくとも1つの音響特性を検出することを備える上記項目のうちのいずれか一項に記載の前記非一時的なコンピュータ可読記憶媒体。
(項目4)
前記少なくとも1つの音響特性は、ピッチ、発声摂動、ラウドネス、及び発話速度のうちの少なくとも1つを含む、上記項目のうちのいずれか一項に記載の前記非一時的なコンピュータ可読記憶媒体。
(項目5)
前記人と関連した前記感情状態を判定することは、前記人の脳活動を分析することを備える、上記項目のうちのいずれか一項に記載の前記非一時的なコンピュータ可読記憶媒体。
(項目6)
前記音声サンプルの前記1つ以上の音響特性を修正することは、前記音声サンプルと関連したピッチを増加させることまたは前記音声サンプルと関連した前記ピッチを低減することのうちの少なくとも1つを備える、上記項目のうちのいずれか一項に記載の前記非一時的なコンピュータ可読記憶媒体。
(項目7)
前記音声サンプルの前記1つ以上の音響特性を修正することは、前記音声サンプルと関連した速度を上げること、前記音声サンプルと関連した前記速度を下げること、前記音声サンプルと関連したラウドネスを増加させること、または前記音声サンプルと関連した前記ラウドネスを減少させることのうちの少なくとも1つを備える、上記項目のうちのいずれか一項に記載の前記非一時的なコンピュータ可読記憶媒体。
(項目8)
前記感情状態を判定することは、
前記人と関連した第一タイプのセンサ・データを分析して第一感情状態を判定し、
第一重み付けを前記第一感情状態に割り当て、
前記人と関連した第二タイプのセンサ・データを分析して第二感情状態を判定し、
第二重み付けを前記第二感情状態に割り当て、
前記人と関連した第三タイプのセンサ・データを分析して第三感情状態を判定し、
第三重み付けを前記第三感情状態に割り当て、前記感情状態が前記第一感情状態、前記第二感情状態、前記第三感情状態、前記第一重み付け、前記第二重み付け、及び前記第三重み付けに基づく、
ことを備える、上記項目のうちのいずれか一項に記載の前記非一時的なコンピュータ可読記憶媒体。
(項目9)
前記人と関連した前記感情状態を判定することは、グラフィカル・ユーザ・インタフェースを介して前記感情状態の選択を受信することを備える上記項目のうちのいずれか一項に記載の前記非一時的なコンピュータ可読記憶媒体。
(項目10)
音声の影響を修正するためのシステムにおいて、
前記ユーザから音声サンプルを取得するように構成されたマイクロフォン、
前記ユーザと関連したセンサ・データを取得するように構成された1つ以上のセンサ、
音声修正アプリケーションを格納するメモリ、ならびに
前記マイクロフォン、前記1つ以上のセンサ及び前記メモリに結合されたプロセッサ、
を備え、
前記プロセッサにより実行されるときに、前記音声修正アプリケーションは、
前記センサ・データに基づき人と関連した優勢な感情状態を判定し、
前記優勢な感情状態に基づき前記音声サンプルの1つ以上の音響特性を修正し、前記音声サンプルと関連した影響を変更し、
修正されている前記1つ以上の音響特性に基づき第二音声サンプルを生成し、
前記第二音声サンプルを送信する、
ように前記プロセッサを設定する、
前記システム。
(項目11)
前記プロセッサは、前記音声サンプルを分析して前記優勢な感情状態と関連した少なくとも1つの音響特性を検出することで前記人と関連した前記優勢な感情状態を判定するように設定される、上記項目に記載の前記システム。
(項目12)
前記1つ以上のセンサは、カメラを備え、前記プロセッサは、前記カメラを介して取得された1つ以上の画像を分析して前記人の1つ以上の顔特性を判定することで前記人と関連した前記優勢な感情状態を判定するように設定される、上記項目のうちのいずれか一項に記載の前記システム。
(項目13)
前記1つ以上のセンサは、カメラを備え、前記プロセッサは、前記カメラを介して取得された1つ以上の画像を分析して前記人により実行されたジェスチャ及び前記人の姿勢のうちの少なくとも1つを判定することで前記人と関連した前記優勢な感情状態を判定するように設定される、上記項目のうちのいずれか一項に記載の前記システム。
(項目14)
前記センサ・データは、前記人の脳活動を示す信号を含み、前記プロセッサは、前記脳活動に基づき前記人と関連した前記優勢な感情状態を判定するように設定される、上記項目のうちのいずれか一項に記載の前記システム。
(項目15)
前記ユーザの脳活動を示す前記信号は、脳波検査(EEG)信号、機能的磁気共鳴画像法(fMRI)信号、及び機能的近赤外線分光法(fNIRS)信号のうちの少なくとも1つを含む、上記項目のうちのいずれか一項に記載の前記システム。
(項目16)
前記プロセッサにより実行されるときに、前記音声修正アプリケーションは、
前記センサ・データ内に含まれた第一タイプのセンサ・データを分析して第一感情状態を判定し、
前記センサ・データ内に含まれた第二タイプのセンサ・データを分析して第二感情状態を判定し、
前記第一感情状態及び前記第二感情状態が相反する感情状態であるかどうかを判定し、
前記第一感情状態及び前記第二感情状態が相反する感情状態であると判定することに基づき、前記第一タイプのセンサ・データに割り当てられた重み付けに基づき前記優勢な感情状態として前記第一感情状態を選択する、
ことにより前記人と関連した前記優勢な感情状態を判定するように前記プロセッサを設定する、上記項目のうちのいずれか一項に記載の前記システム。
(項目17)
前記第二音声サンプルは、ノイズ・キャンセレーション信号を含み、前記プロセッサにより実行されるときに、前記音声修正アプリケーションは、スピーカを介して前記ノイズ・キャンセレーション信号を出力して前記人の音声を修正することで前記第二音声サンプルを送信するように前記プロセッサを設定する、上記項目のうちのいずれか一項に記載の前記システム。
(項目18)
音声の影響の修正方法において、
人及び前記人からの音声サンプルと関連したセンサ・データを取得し、
前記センサ・データに基づき前記人と関連した感情状態を判定し、
前記感情状態及び前記音声サンプルを示すデータをリモート・デバイスへ送信する、
ことを備える、前記方法。
(項目19)
前記センサ・データは、前記人の前記音声の音響特性、前記人の表情、及び前記人の脳活動のうちの少なくとも1つを含む、上記項目のうちのいずれか一項に記載の前記方法。
(項目20)
前記リモート・デバイスは、前記人と関連した前記感情状態に基づき前記音声サンプルを修正して第二音声サンプルを生成し、前記第二音声サンプルを出力するように設定される、上記項目のうちのいずれか一項に記載の前記方法。
(摘要)
音声の影響を修正するための技術。この技術は、人と関連した感情状態を判定すること、及び感情状態に基づき人から取得された音声サンプルの1つ以上の音響特性を修正して音声サンプルと関連した影響を変更することを備える。さらにこの技術は、修正されている1つ以上の音響特性に基づき第二音声サンプルを生成すること、及び第二音声サンプルを送信することを備える。
さまざまな実施形態により、音声影響修正システムが会話中にユーザの音声の影響を修正することが可能である方法の概念図である。 さまざまな実施形態により、図1の音声影響修正システムの1つ以上の態様を実装するように構成されたコンピューティング・システムの図解である。 図3A及び図3Bは、さまざまな実施形態により、図1の音声影響修正システムを介して修正された音声サンプルを生成するための異なる技術を説明する。 図3A及び図3Bは、さまざまな実施形態により、図1の音声影響修正システムを介して修正された音声サンプルを生成するための異なる技術を説明する。 さまざまな実施形態により、音声の影響を修正するための方法ステップの流れ図である。
以下の説明において、複数の具体的な詳細は、本開示の実施形態のより完全な理解を提供するように説明される。しかしながら、本開示の実施形態が1つ以上のこれらの具体的な詳細なしで実施されることができることは、当業者に明らかであろう。
上記で説明されるように、多くの人々は、彼らの感情状態を正確に伝えること、及び/または彼らがコミュニケートしている人の感情状態を正確に解釈することが困難である。たとえば、限定されないが、文化的な違い、不安、神経系疾患、コミュニケーション能力の欠乏などは、話し手が彼または彼女の感情を伝える言語及び/または非言語キューを効果的に利用することを妨げる可能性がある。同様に、このような問題は、聞き手が他の人々により伝えられた感情を正確に解釈することを妨げる可能性がある。
その結果、話者間の感情のより効果的なコミュニケーションを容易にするために、音声影響修正システム(以降、「音声システム」)は、ユーザと関連した感情状態を判定して、つぎにこの感情状態に基づきユーザから取得された音声サンプルの1つ以上の音響特性を修正することができる。より具体的には、音声サンプルの音響特性、たとえば、音声サンプルのピッチ、声質、音色、発声摂動、音声イントネーション、ラウドネス、韻律、発話の規則性及び/または発話速度は、音声サンプルの影響を強調、低減及び/または変更するように修正されることができる。つぎに修正された音声サンプルは、ユーザがコミュニケートしている人に出力され、ユーザの意図された感情状態(複数を含む)がより効果的に伝えられ解釈されることを可能にする。さまざまな実施形態において、音声システムは、影響を修正するときに音声サンプルの音響特性にわずかな変更のみを加えるため、会話の当事者らは、音声システムの操作により注意を逸らされない。
図1は、さまざまな実施形態により、音声システム100が会話中にユーザの音声の影響を修正することが可能である方法の概念図である。音声システム100は、限定されないが、マイクロフォン110及びスピーカ120を含むことができる。
示されるように、音声サンプル112を1つ以上のマイクロフォン110を介してユーザから取得する。つぎに音声サンプル112は、意図された感情(複数を含む)をより正確に伝える修正された音声サンプル114を生成するために、音声サンプル112の1つ以上の音響特性を修正することで処理される。たとえば、限定されないが、ユーザが彼または彼女の音声で伝えられた興奮の度合いを高めたい場合に、音声システム100は、音声サンプル112を処理して音声サンプル112のピッチ及びラウドネスを増すこと、及び/またはたとえば、音声サンプル112内に含まれたピッチ、ラウドネス及び/または発話速度または特定の単語若しくは句を修正することで、音声サンプル112の韻律特性を修正することが可能である。対照的に、ユーザが彼または彼女の音声で伝えられる悲しみまたは同情の度合いを高めたい場合に、つぎに音声システム100は、音声サンプル112を処理して音声サンプル112のピッチ及び発話速度を低減すること、及び/または音声サンプル112の韻律特性を修正することで、これらの特定の感情を強調することが可能である。つぎに音声システム100は、スピーカ(複数を含む)120を介して修正された音声サンプル114を聞き手へ出力する。
さまざまな実施形態において、音声システム100と関連した1つ以上のセンサは、ユーザの感情状態を自動的に検出する。つぎに音声システム100は、音声サンプル112の影響を強調、低減及び/または変更するために、感情状態に基づきユーザから取得された音声サンプル112を修正する。たとえば、限定されないが、ユーザが幸福感または感謝を伝えることが困難である場合に、つぎに音声システム100と関連した1つ以上のセンサは、ユーザが幸福である、または感謝していることを示す言語及び/または非言語キューを検出することが可能である。つぎに音声システム100は、ユーザから取得された音声サンプル112を修正し、たとえば、音声サンプル112のピッチ及び/または発話速度を上げることで、音声サンプル112に反映された幸福感または感謝の度合いを高める。このようにして、ユーザがコミュニケートしている人は、ユーザが幸せである、または感謝していることをユーザにより表現された特定の言語及び/または非言語キューが示すことを理解することができないが、音声システム100は、これらのキューを検出し、音声サンプル112の影響を修正して、ユーザの幸福感または感謝をより効果的に伝えることが可能である。
別の非限定的な実施例において、音声システム100と関連した1つ以上のセンサは、ユーザが怒っている、または欲求不満であることを示す言語及び/または非言語キューを検出することが可能である。つぎに音声システム100は、ユーザから取得された音声サンプル112を修正し、たとえば、音声サンプル112の発話速度を低減する、ピッチを下げる、及び/またはトーンを中和することで、音声サンプル112に反映された怒り及び/または欲求不満の度合いを減らすことが可能である。その結果、このような実施形態において、音声システム100は、怒りまたは欲求不満を感じているユーザが音声の失礼なトーンを使用しないで他の人々とより丁寧にコミュニケートすることを可能にすることができる。あるいは、ユーザが怒っている、または欲求不満であることを音声システム100が検出するときに、音声システム100は、たとえば、音声サンプル112へ分調波周波数を加えることで、音声サンプル112での影響を強調し、音声サンプル112に反映された怒り及び/または欲求不満の度合いを高めることが可能である。このような実施形態において、音声システム100は、怒りまたは欲求不満を感じているが、その怒りまたは欲求不満を効果的にコミュニケート不可能なユーザが他の人々によりさらに正確に理解されることを可能にする。
したがって、いくつかの実施形態において、音声システム100は、1つ以上のセンサを介して、ユーザが第一セットの感情状態(たとえば、幸福、興奮、愛情)にあると判定するときに、音声サンプル112の影響を強調することができ、ユーザが第二セットの感情状態(たとえば、怒り、欲求不満、悲しみ)にあるときに、音声サンプル112の影響を低減または変更することができる。1つ以上のセンサを介してユーザの感情状態を検出するための追加の技術は、図2と併せてさらに詳細に以下で記述される。
さまざまな実施形態において、ユーザは、彼または彼女が音声サンプル100で強調、低減及び/または変更したい1つ以上の感情を選択することができる。さらにユーザは、音声システム100により各感情が強調、低減及び/または変更されるべきである度合いを選択することができる。一般に、ユーザは、彼または彼女自身の音声サンプル112での影響を強調、低減及び/または変更するために選択することができる、またはユーザは、ユーザがコミュニケートしている人から取得された音声サンプル112での影響を強調、低減及び/または変更するために選択することができる。たとえば、限定されないが、ユーザは、音声システム100と関連したグラフィカル・ユーザ・インタフェース(GUI)を介して第一感情(たとえば、「興奮」)を選択し、この感情を強調するべきであることを示すことが可能である。それに応答して、ユーザ及び/またはユーザがコミュニケートしている人が興奮していることを音声システム100が検出するときに、マイクロフォン(複数を含む)110を介して取得された音声サンプル112の影響は、たとえば、音声サンプル112のラウドネス、ピッチ及び/または発話速度を増すことで、興奮を強調するように修正される。
さらに、ユーザは、音声システム100と関連したGUIを介して第二感情(たとえば、「怒り」)を選択し、この感情を減らすべきであることを示すことが可能である。つぎに、ユーザ及び/またはユーザがコミュニケートしている人が怒っていると音声システム100が検出するときに、マイクロフォン(複数を含む)110を介して取得された音声サンプル112の影響を修正し、たとえば、音声サンプル112の発話速度及びラウドネスを低減することで、音声サンプル112内の怒りを低減する。さらに別の非限定的な実施例において、ユーザは、音声システム100と関連したGUIを介して第三感情(たとえば、「神経質な」)を選択し、この感情を変更するべきであることを示すことが可能である。その後、音声システム100は、ユーザ及び/またはユーザがコミュニケートしている人が神経質になっていることを検出するときに、マイクロフォン(複数を含む)110を介して取得された音声サンプル112の影響は、自信のような、異なる感情と変更及び置換される。
いくつかの実施形態において、GUIは、音声システム100と関連したスマートフォンまたはモバイル・コンピュータ・ディスプレイに実装されることができる。加えて、いくつかの実施形態において、本明細書で記述された機能性(たとえば、強調、低減、変更など)のいずれかは、GUIを介した明示的なインタラクションなしで、音声システム100により自動的に実装されることができる。
図2は、さまざまな実施形態により、図1の音声システム100の1つ以上の態様を実装するように構成されたコンピューティング・システムの図解である。示されるように、音声システム100は、限定されないが、1つ以上のマイクロフォン110、1つ以上のスピーカ120、コンピューティング・デバイス200、カメラ220及び電極222を含むことができる。コンピューティング・デバイス200は、プロセッサ202、入力/出力(I/O)デバイス204及びメモリ210を含む。メモリ210は、データベース214とインタラクトするように構成された音声修正アプリケーション212を含む。
マイクロフォン(複数を含む)110は、無線または有線音響変換器を含むことができる。たとえば、限定されないが、マイクロフォン(複数を含む)110は、ダイナミック・ビーム・フォーミングを可能にする、単一の変換器、全方向性変換器、指向性変換器、及び/またはマイクロフォン・アレイを含むことができる。
さまざまな実施形態において、音声修正アプリケーション212は、マイクロフォン(複数を含む)110を介して取得された1つ以上の音声サンプル112からユーザの感情状態を判定することができる。たとえば、限定されないが、音声修正アプリケーション212は、感情状態を示す音声サンプル112内の1つ以上の音響特性を検出することが可能である。つぎに音声修正アプリケーション212は、実時間で他の感情状態に関する単一の音響特性(複数を含む)及び/または複数の音響特性を修正し、音声サンプル112内の影響を強調、低減または変更する。
さまざまな実施形態において、カメラ(複数を含む)220は、ユーザの表情、ユーザが行ったジェスチャ、瞳孔拡大、ユーザの姿勢及び/またはユーザのボディ・ランゲージを検出するように構成される。たとえば、限定されないが、カメラ(複数を含む)220が取得した画像を分析して、ユーザの目、眉、口、鼻、額、頬、指先、関節、手、手首、腕、肩、背中、脚などの位置及び/または外見を判定することができる。つぎにこれらの体の部位のうちの1つ以上の位置及び/または外見を使用して、ユーザの感情状態を判定することができる。たとえば、限定されないが、ユーザの顔及び/または体の画像は、カメラ(複数を含む)220により取得され、音声修正アプリケーション212により処理され、ユーザの眉及び口の形状及び/またはユーザの姿勢を測定することができる。つぎにユーザの眉及び口の形状及び/またはユーザの姿勢を分析し、ユーザの感情状態を判定することができる。1つのカメラ220のみを図2で示すが、ユーザに関して任意の位置に設置された任意の数のカメラ220を使用し、ユーザの感情状態及び/またはユーザがコミュニケートしている人の感情状態を検出することができる。
電極(複数を含む)222は、1つ以上の脳波検査(EEG)電極、皮膚コンダクタンス電極、心拍センサ電極及び/または筋電図(EMG)電極を含むことができる。一般に、電極222は、ユーザの感情状態と関連したセンサ・データを取得する。たとえば、限定されないが、EEG電極を介して取得されたセンサ・データは、音声修正アプリケーション212により分析され、ユーザの脳活動を検出することが可能である。つぎに音声修正アプリケーション212は、脳活動に基づきユーザの感情状態を判定し、その感情状態に基づき1つ以上の音声サンプル112を修正することが可能である。加えて、ユーザの感情状態を示す脳活動は、機能的磁気共鳴画像法(fMRI)及び機能的近赤外線分光法(fNIRS)を介して取得されたセンサ・データのような、他のタイプのセンサ・データを介して判定されることができる。
いくつかの実施形態において、皮膚コンダクタンス電極及び/または心拍センサ電極を介して取得されたセンサ・データを使用して、ユーザの感情状態を判定することができる。たとえば、限定されないが、音声修正アプリケーション212は、1つ以上の皮膚コンダクタンス電極を介して取得されたセンサ・データを処理し、ユーザが発汗していることを判定することが可能である。このセンサ・データに基づき任意選択で他のセンサ・データ(たとえば、カメラ220を介して取得されたユーザの顔の画像)と併せて、つぎに音声修正アプリケーション212は、ユーザが神経質になっていると判定することが可能である。別の非限定的な実施例において、音声修正アプリケーション212は、心拍センサ電極を介して取得されたセンサ・データを処理し、ユーザが上昇した心拍数を有することを判定することが可能である。つぎに、このセンサ・データに基づき任意選択で他のセンサ・データ(たとえば、ユーザの音声サンプル112のスペクトル分析)と併せて、音声修正アプリケーション212は、ユーザが幸福である、及び/または興奮していることを判定することが可能である。
音声システム100は、ユーザの頭皮、外耳道及び/またはユーザの頭部または体の他の部分と接触して配置されるように構成された任意の数の電極222を含むことができる。いくつかの実施形態において、本明細書で記述された1つ以上のタイプの電極222は、スマートフォン、ヘッドセット、ブレスレット、アームバンド、チェスト・ストラップ、イヤホンまたは1台のヘッドホン230内のような、ユーザが保持または着用するデバイス内に含まれる。さらに他の実施形態において、音声修正アプリケーション212は、血中酸素濃度センサを介してユーザ内での生理学的変化を検出することで、または加速度計、ジャイロスコープ若しくは磁力計を介してユーザの動きを検出することでユーザの感情状態を判定することが可能である。
I/Oデバイス204は、入力デバイス、出力デバイスならびに入力を受信すること及び出力を提供することの両方が可能なデバイスを含むことができる。たとえば、限定されないが、I/Oデバイス204は、音声システム100に含まれたマイクロフォン(複数を含む)110、スピーカ(複数を含む)120、カメラ220及び/または電極222にデータを送信する、及び/またはこれらからデータを受信する有線及び/または無線通信デバイスを含むことができる。加えて、I/Oデバイス204は、ユーザの感情状態を示す他のタイプのセンサ・データを受信する1つ以上の有線または無線通信デバイスを含むことができる。
さまざまな実施形態において、音声システム100は、本明細書で記述された1つ以上の実施形態を実施するために適切なパーソナル・オーディオ・デバイス、モバイル・コンピュータ、パーソナル・デジタル・アシスタント、携帯電話、デスクトップ・コンピュータまたは任意の他のデバイスを含むことができる。いくつかの実施形態において、音声システム100は、1つ以上のマイクロフォン110を任意選択で配置する、図2で示されるオーバイヤー型ヘッドホンのような、1台のヘッドホン230を含む。しかしながら、一般に、任意のタイプの有線または無線ヘッドホンは、サーカムオーラル型ヘッドホン、スープラオーラル型ヘッドホン及びインイヤー型ヘッドホンを含み、本明細書で記述された技術を実行するために使用されることができる。他の実施形態において、音声システム100は、補聴器のような支援医療機器またはBluetooth(登録商標)ヘッドセットのようなモバイル通信デバイスを含む、ユーザについての音を捕捉及び再生することが可能な任意の音響デバイスであってもよい。
一般的に、コンピューティング・デバイス200は、音声システム100の全体的な操作を調整するように構成される。他の実施形態において、コンピューティング・デバイス200は、音声システム100の他の構成要素に結合されるが、これらから分離することができる。このような実施形態において、音声システム100は、ユーザの感情状態を示す音声サンプル112及び/またはセンサ・データを受信し、コンピューティング・デバイス200へデータ(たとえば、センサ・データ及び/または修正された音声サンプル114)を送信し、パーソナル・コンピュータ、ウェアラブル・デバイス、スマートフォン、ポータブル・メディア・プレーヤなどのような、別のデバイスに含まれることができる別のプロセッサを含むことができる。しかしながら、本明細書で開示された実施形態は、音声システム100の機能性を実装するように構成された任意の技術的に実現可能なシステムを意図する。
プロセッサ202は、データを処理しプログラム・コードを実行するように構成された処理デバイスの任意の技術的に実現可能な形態であってもよい。プロセッサ202は、たとえば、限定されないが、中央処理装置(CPU)、グラフィックス・プロセッシング・ユニット(GPU)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)及びその他のものであることが可能である。メモリ210は、メモリ・モジュールまたはメモリ・モジュールの集合を含むことができる。メモリ210内の音声修正アプリケーション212は、プロセッサ202により実行され、コンピューティング・デバイス200の機能性全体を実装するため、全体として音声システム100の操作を調整する。たとえば、限定されないが、マイクロフォン(複数を含む)110、カメラ220及び電極222を介して取得された音声サンプル112及び/またはセンサ・データは、音声修正アプリケーション212により処理され、修正された音声サンプル114及び/またはユーザの感情状態を示すデータを生成することができる。いくつかの実施形態において、データベース214は、音声サンプル112、修正された音声サンプル114、オーディオ・パラメータ、センサ・データ、アルゴリズム、統計量及びユーザ選好を格納する。
ヘッドホン230またはイヤホンと併せて音声システム100を実装する実施形態において、ヘッドホン230またはイヤホンは、ユーザが周囲環境内の環境音を聞くことが可能である音響透過モードで動作することができる。音響透過モードにおいて、音声修正アプリケーション212は、ユーザがコミュニケートしている(たとえば、選択的な音声強調を介して)1人以上と関連した音声サンプル112を検出し、音声サンプル112を修正して音声サンプル112の影響を強調、低減または変更することが可能である。その後、修正された音声サンプル114は、ヘッドホン230またはイヤホンに含まれたスピーカ120を介してユーザへ出力される。
加えて、音声システム100は、たとえば、スピーカ120を介して反転された信号を出力して音声サンプル112内の特定の音の周波数をキャンセルすることで、アクティブ・ノイズ・キャンセレーション技術を介して音声サンプル112での影響を修正することができる。たとえば、限定されないが、ユーザの音声での特定周波数は、ユーザの音声の影響を強調、低減または変更するために1つ以上の反転された信号を介してキャンセルされることが可能である。さらに、音声システム100は、人とのコミュニケーション中に修正された音声サンプル114及び/またはノイズ・キャンセレーション信号を出力する外部スピーカ120(たとえば、ラウドスピーカ)と併せてこのような技術を実装することができる。このような実施形態において、音声修正アプリケーション212は、音声サンプル112を修正して音声サンプル112の影響を強調、低減または変更し、ユーザ自身の音声と同様の、またはこれより大きいボリュームで修正された音声サンプル114を出力することが可能であり、ユーザがコミュニケートしている人がユーザの感情状態をより正確に理解することを可能にする。
一般に、音声修正アプリケーション212は、任意の技術的に実現可能なアルゴリズムまたは技術を使用して、音声サンプル112を修正し、音声サンプル112と関連した影響を強調、低減または変更することができる。いくつかの実施形態において、音声修正アプリケーション212は、フーリエ変換、調波スケーリング、ピッチ・スケーリング、ピッチ・シフト、タイム・ストレッチ、タイム・コンプレッション及びリサンプリングのようなオーディオ処理技術を介して音声サンプル112の音響特性を修正する。加えて、Auto−Tuneまたは同様のオーディオ処理技術のような商業技術は、さまざまな実施形態で実装されることができる。
異なるユーザが感情を別々に表現することができるため(たとえば、文化的な、または個人的な理由により)、音声システム100は、トレーニング・モードを含むことができる。トレーニング・モードにおいて、音声システム100は、ユーザの感情状態を学習するために特定の感情状態と関連したセンサ・データを処理し、音声システム100の操作中に感情状態をより正確に判定することが可能である。いくつかの実施形態において、音声システム100は、音声システム100が感情状態を判定するために実装することが可能であるユーザ・ヒューリスティックスを生成するために機械学習アルゴリズムを実装する。その後、このようなヒューリスティックスは、データベース214に格納され、音声修正アプリケーション212によりアクセスされることができる。
複数のタイプのセンサ・データを音声修正アプリケーション212により取得してユーザの感情状態を判定する実施形態において、重み付けは、各タイプのセンサ・データに割り当てられることができる。つぎにユーザの感情状態(複数を含む)は、各センサ・タイプについて判定された感情状態及び各センサ・タイプに割り当てられた重み付けに基づき判定されることができる。たとえば、限定されないが、ユーザは、GUIとインタラクトし、脳活動と関連したセンサ・データへ第一重み付け、表情と関連したセンサ活動へ第二重み付け、及び取得された音声サンプル112の音響特性と関連したセンサ・データへ第三重み付けを割り当てることが可能である。つぎに音声修正アプリケーション212は、各タイプのセンサ・データにより示された感情状態を判定し、重み付けを各感情状態に適用し、重み付けに基づき優勢な感情状態を判定する。いくつかの実施形態において、重み付けを特定のタイプのセンサ・データへ割り当てることは、あいまいな言語及び非言語キューを検出するときに、音声修正アプリケーション212が正しい感情状態(複数を含む)をより正確に判定することを可能にすることができる。加えて、重み付けを特定のタイプのセンサ・データに割り当てることは、音声修正アプリケーション212がこれらのタイプのセンサ・データを完全に無視せずにユーザの感情状態をあまり正確に反映しない可能性があるセンサ・データのタイプをあまり重視しないことを可能にすることができる。
図3A及び3Bは、さまざまな実施形態により、図1の音声システム100を介して修正された音声サンプル114を生成するための異なる技術を図示する。図3Aで示されるように、いくつかの実施形態において、話し手と関連したデバイス310(たとえば、スマートフォン)で実行する音声修正アプリケーション212は、音声サンプル112を取得し、話し手の感情状態(複数を含む)を判定し、音声サンプル112及び感情状態(複数を含む)の両方を聞き手に送信する。つぎに、聞き手と関連したデバイス320は、音声サンプル112及び感情状態(複数を含む)を受信し、聞き手のデバイス320で実行する音声修正アプリケーション212は、聞き手に出力される修正された音声サンプル114を生成する。したがって、このような実施形態において、音声サンプル112を処理して、影響を強調、低減及び/または変更する方式は、たとえば、聞き手のデバイス320で実行する音声修正アプリケーション212により実装されたGUIを介して、聞き手により制御されることができる。
図3Bで示されるように、いくつかの実施形態において、話し手と関連したデバイス310で実行する音声修正アプリケーション212は、音声サンプル112を取得し、話し手の感情状態(複数を含む)を判定し、ローカルに音声サンプル112を修正し、修正された音声サンプル114を生成する。つぎに修正された音声サンプル114は、聞き手と関連したデバイス320に送信され、聞き手に出力される。したがって、このような実施形態において、音声サンプル112を処理し、影響を強調、低減及び/または変更する方式は、たとえば、上記で説明されたGUI実装のいずれかを介して、話し手により制御されることができる。
加えて、図3A及び3Bで図示された実施形態において、話し手及び聞き手は、音声サンプル112を修正して影響を強調、低減及び/または変更する度合いを交渉することができる。このような実施形態において、各聞き手及び話し手は、1つ以上の感情状態についての強調、低減及び/または変更の優先度を選択することが可能である。つぎに音声修正アプリケーション212は、たとえば、当事者らにより選択された強調、低減及び/または変更のより低い度合いを選択することで、話し手及び聞き手により行われた選択に基づき音声サンプル112を修正することができる。
図4は、さまざまな実施形態により、音声の影響を修正するための方法ステップの流れ図である。方法ステップは、図1〜3Bのシステムと併せて記述されるが、当業者は、任意の順序で方法ステップを実行するように構成された任意のシステムがさまざまな実施形態の範囲内に入ることを理解するであろう。
示されるように、方法400は、音声修正アプリケーション212がマイクロフォン(複数を含む)110、I/Oデバイス204、カメラ(複数を含む)220、電極(複数を含む)222などを介して受信したセンサ・データを分析し、ユーザの感情状態を判定する、ステップ410で開始する。たとえば、限定されないが、上記で説明されるように、音声修正アプリケーション212は、センサ・データを分析し、ユーザの感情状態を示す言語及び/または非言語キューを検出することが可能である。そのとき、ステップ420で、音声修正アプリケーション212は、追加のタイプのセンサ・データを分析するべきであるかどうかを判定する。追加のタイプのセンサ・データを分析するべきである場合に、つぎに方法400は、ステップ410へ戻る。
追加のタイプのセンサ・データを分析するべきではない場合に、つぎに方法400は、音声修正アプリケーション212が重み付けを各タイプのセンサ・データへ任意選択で適用する、ステップ430へ進行する。上記で説明されるように、いくつかの実施形態において、音声システム100のユーザは、重み付けを選択し、各タイプのセンサ・データへ適用することができる。加えて、いくつかの実施形態において、音声修正アプリケーション212は、重み付けを1つ以上のタイプのセンサ・データへ自動的に適用することができる。
ステップ440で、音声修正アプリケーション212は、各タイプのセンサ・データについて判定された感情状態を分析し、センサ・データにより示された優勢な感情状態を判定する。重み付けを1つ以上のタイプのセンサ・データに適用する実施形態において、音声修正アプリケーション212は、対応する重み付けを各タイプのセンサ・データについて判定された感情状態へ適用すること、及び感情状態が最高値を有すると判定することで、優勢な感情状態を判定することが可能である。たとえば、限定されないが、音声修正アプリケーション212は、40%の第一重み付けを第一タイプのセンサ・データ(たとえば、マイクロフォン110を介して取得された音声サンプル112)へ、30%の第二重み付けを第二タイプのセンサ・データ(たとえば、カメラ220を介して取得された顔画像)へ、及び30%の第三重み付けを第三タイプのセンサ・データ(たとえば、電極222を介して取得された脳活動)へ割り当てることが可能である。その後、音声修正アプリケーション212が第一タイプのセンサ・データ及び第二タイプのセンサ・データの両方について「幸せな」感情状態を判定するが、第三タイプのセンサ・データについて「怒っている」感情状態を判定するなら、つぎにステップ440で、音声修正アプリケーション212は、たとえば、70%の合計した重み付けに基づき「幸せな」感情状態が優勢な感情状態であると判定する。
いくつかの実施形態において、ステップ440で、音声修正アプリケーション212は、ユーザが提示した複数の優勢な感情状態を判定することが可能である。たとえば、限定されないが、音声修正アプリケーション212は、言語キュー(たとえば、音声サンプル112に基づき)を分析して第一感情状態を判定することが可能であり、非言語キュー(たとえば、表情に基づき)を分析して第二感情状態を判定することが可能である。その後、第一感情状態が第二感情状態と相反しないことを音声修正アプリケーション212が判定する場合に、第一感情状態及び第二感情状態の両方は、優勢な感情状態として指定されることが可能である。相反する感情状態の非限定的な実施例は、幸せな感情状態及び悲しい感情状態を含む。相反しない感情状態の非限定的な実施例は、幸せな感情状態及び神経質な感情状態、または怒っている感情状態及び悲しい感情状態を含む。
つぎに、ステップ450で、音声修正アプリケーション212は、ユーザから取得された音声サンプル112がローカル(たとえば、話し手デバイス310を介して)に、またはリモート(たとえば、聞き手デバイス320を介して)に修正されるべきであるかどうかを判定する。音声サンプル112がローカルに修正されるべきであると音声修正アプリケーション212が判定する場合に、つぎに方法400は、音声修正アプリケーション212が優勢な感情状態(複数を含む)に基づき音声サンプル112の1つ以上の音響特性を修正する、ステップ460へ進む。加えて、ステップ460で、音声修正アプリケーション212は、音声サンプル112のアスペクト(たとえば、特定の周波数)をキャンセルするために、優勢な感情状態(複数を含む)に基づき1つ以上のノイズ・キャンセレーション信号を生成することができる。そのとき、ステップ465で、音声修正アプリケーション212は、たとえば、修正された音声サンプル114を聞き手デバイス320へ送信することで、及び/またはスピーカ120を介して修正された音声サンプル114を出力することで、修正された音声サンプル114を出力する。つぎに方法400は、ステップ410へ戻る。
ステップ450に戻り、音声サンプル112がリモートに修正されるべきであると音声修正アプリケーション212が判定する場合に、つぎに方法400は、音声修正アプリケーション212が1つ以上の音声サンプル112及び優勢な感情状態(複数を含む)を示すデータを聞き手デバイス320のようなリモート・デバイスへ送信する、ステップ470へ進む。上記で説明されるように、音声サンプル(複数を含む)112及び優勢な感情状態(複数を含む)を示すデータをリモート・デバイスへ送信することは、音声サンプル112を処理して音声サンプル(複数を含む)112での影響を強調、低減及び/または変更する方法をリモート・ユーザが決定することを可能にする。つぎに方法400は、ステップ410へ戻る。
つまり、音声修正アプリケーションは、1つ以上のタイプのセンサ・データに基づきユーザの感情状態を判定する。つぎに、音声修正アプリケーションは、感情状態に基づき音声サンプルの影響を強調、低減及び/または変更するために、ユーザから取得された音声サンプルを修正する。その後音声修正アプリケーションは、修正された音声サンプルを聞き手へ出力する。
本明細書で記述された技術の少なくとも1つの利点は、話し手の音声での影響を強調し、話し手が彼らの感情状態をより効果的に伝えること、及び/または話し手の感情状態をより効果的に判定する際に聞き手を支援することを可能にすることができることである。加えて、話し手の音声での影響は、低減及び/または変更され、たとえば、限定されないが、話し手の感情状態を隠すことが可能である。さらに、話し手の感情状態は、話し手または聞き手からのインタラクションを必要としない、1つ以上のタイプのセンサ・データを介して自動的に判定されることができる。
さまざまな実施形態の説明は、例示のために提示されているが、網羅的であることを意図されず、または開示された実施形態に限定されない。多くの修正形態及び変形形態は、記述された実施形態の範囲及び趣旨から逸脱することなく当業者に明らかであろう。
本実施形態の態様は、システム、方法またはコンピュータ・プログラム製品として具現化されることができる。したがって、本開示の態様は、すべて一般的に「回路」、「モジュール」または「システム」と本明細書で言われることができる、全ハードウェア実施形態、全ソフトウェア実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)またはソフトウェア及びハードウェア態様を組み合わせる実施形態の形態を取ることができる。さらに、本開示の態様は、その上に具現化されたコンピュータ可読プログラム・コードを含む1つ以上のコンピュータ可読媒体(複数を含む)内で具現化されたコンピュータ・プログラム製品の形態を取ることができる。
1つ以上のコンピュータ可読媒体(複数を含む)の任意の組み合わせを利用することができる。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であってもよい。コンピュータ可読記憶媒体は、たとえば、限定されないが、電子、磁気、光学、電磁気、赤外線若しくは半導体システム、装置若しくはデバイスまたは任意の適切な前述の組み合わせであってもよい。さらにコンピュータ可読記憶媒体の特定の実施例(非網羅的なリスト)は、以下の、1本以上のワイヤを含む電気的接続、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能でプログラム可能な読み出し専用メモリ(EPROMまたはフラッシュ・メモリ)、光ファイバ、ポータブル・コンパクト・ディスク読み出し専用メモリ(CD−ROM)、光ストレージ・デバイス、磁気ストレージ・デバイスまたは任意の適切な前述の組み合わせを含む。この文書の文脈において、コンピュータ可読記憶媒体は、インストラクション実行システム、装置またはデバイスによる使用のための、またはこれと接続するプログラムを含む、または格納することが可能である任意の有形媒体であってもよい。
本開示の態様は、本開示の実施形態により、方法、装置(システム)及びコンピュータ・プログラム製品のフローチャート図及び/またはブロック図を参照して上記で説明される。各ブロックのフローチャート図及び/またはブロック図、及びフローチャート図及び/またはブロック図内のブロックの組み合わせがコンピュータ・プログラム・インストラクションにより実装されることが可能であることを理解するであろう。これらのコンピュータ・プログラム・インストラクションは、汎用コンピュータ、専用コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサへ提供され、機械を生産することができるため、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行するインストラクションは、フローチャート及び/またはブロック図の単一のブロックまたは複数のブロックで指定された機能/動作の実施を可能にする。このようなプロセッサは、限定されないが、汎用プロセッサ、専用プロセッサ、特定用途向けプロセッサまたはフィールド・プログラマブル・プロセッサ若しくはゲート・アレイであってもよい。
図面内のフローチャート及びブロック図は、本開示のさまざまな実施形態により、システム、方法及びコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能性及び動作を説明する。この点について、フローチャートまたはブロック図の各ブロックは、指定された論理関数(複数を含む)を実装するために1つ以上の実行可能なインストラクションを含む、モジュール、セグメントまたはコードの部分を表すことができる。また、いくつかの代替の実装において、ブロックで言及される機能が図面で示された順序から外れることがあることに留意するべきである。たとえば、連続して示される2つのブロックは、実際には実質的に同時に実行されてもよい、またはこれらのブロックは、時として関連した機能性により、逆の順序で実行されてもよい。また、ブロック図及び/またはフローチャート図の各ブロック、及びブロック図及び/またはフローチャート図内のブロックの組み合わせは、指定された機能または動作を実行する専用ハードウェア・ベースのシステム、または専用ハードウェア及びコンピュータ・インストラクションの組み合わせにより実装されることが可能であることに留意するであろう。
前述は本開示の実施形態を対象とするが、本開示の他の及びさらなる実施形態は、その基本的な範囲から逸脱することなく考案されることができ、その範囲は、以下の特許請求の範囲により決定される。

Claims (20)

  1. インストラクションを含む非一時的なコンピュータ可読記憶媒体であって、前記インストラクションはプロセッサにより実行されるときに、
    人と関連した第一感情状態及び第二感情状態が相反しないことを判定するステップと、
    前記第一感情状態及び前記第二感情状態の各々を優勢な感情状態として分類するステップと、
    前記第一感情状態及び前記第二感情状態の各々を優勢な感情状態として分類したことに応答して、前記第一感情状態及び前記第二感情状態に基づき前記人から取得された音声サンプルの1つ以上の音響特性を修正し、前記音声サンプルと関連した影響を変更するステップと
    修正されている前記1つ以上の音響特性に基づき第二音声サンプルを生成するステップと
    前記第二音声サンプルを送信するステップと
    を実行することで、音声の影響を修正するように前記プロセッサを構成する非一時的なコンピュータ可読記憶媒体。
  2. 前記人と関連した前記第一感情状態及び前記第二感情状態が相反しないことを判定することは、視覚センサ・データを分析して前記人の1つ以上の顔特性を判定することを備える、請求項1に記載の非一時的なコンピュータ可読記憶媒体。
  3. 前記人と関連した前記第一感情状態及び前記第二感情状態が相反しないことを判定することは、前記音声サンプルを分析して感情状態を反映する少なくとも1つの音響特性を検出することを備える、請求項1に記載の非一時的なコンピュータ可読記憶媒体。
  4. 前記少なくとも1つの音響特性は、ピッチ、発声摂動、ラウドネス、及び発話速度のうちの少なくとも1つを含む、請求項3に記載の非一時的なコンピュータ可読記憶媒体。
  5. 前記人と関連した前記第一感情状態及び前記第二感情状態が相反しないことを判定することは、前記人の脳活動を分析することを備える、請求項1に記載の非一時的なコンピュータ可読記憶媒体。
  6. 前記音声サンプルの前記1つ以上の音響特性を修正することは、前記音声サンプルと関連したピッチを増加させることまたは前記音声サンプルと関連した前記ピッチを低減することのうちの少なくとも1つを備える、請求項1に記載の非一時的なコンピュータ可読記憶媒体。
  7. 前記音声サンプルの前記1つ以上の音響特性を修正することは、前記音声サンプルと関連した速度を上げること、前記音声サンプルと関連した前記速度を下げること、前記音声サンプルと関連したラウドネスを増加させること、または前記音声サンプルと関連した前記ラウドネスを減少させることのうちの少なくとも1つを備える、請求項1に記載の非一時的なコンピュータ可読記憶媒体。
  8. インストラクションを含む非一時的なコンピュータ可読記憶媒体であって、前記インストラクションは、プロセッサにより実行されるときに、
    人と関連した感情状態を判定するステップと、
    前記感情状態に基づき前記人から取得された音声サンプルの1つ以上の音響特性を修正し、前記音声サンプルと関連した影響を変更するステップと、
    修正されている前記1つ以上の音響特性に基づき第二音声サンプルを生成するステップと、
    前記第二音声サンプルを送信するステップと
    を実行することで、音声の影響を修正するように前記プロセッサを構成し、
    前記感情状態を判定することは、
    前記人と関連した第一タイプのセンサ・データを分析して第一感情状態を判定することと
    第一重み付けを前記第一感情状態に割り当てることと
    前記人と関連した第二タイプのセンサ・データを分析して第二感情状態を判定することと
    第二重み付けを前記第二感情状態に割り当てることと
    前記人と関連した第三タイプのセンサ・データを分析して第三感情状態を判定することと
    第三重み付けを前記第三感情状態に割り当てることであって、前記感情状態が前記第一感情状態、前記第二感情状態、前記第三感情状態、前記第一重み付け、前記第二重み付け、及び前記第三重み付けに基づく、ことと
    を備える非一時的なコンピュータ可読記憶媒体。
  9. 前記人と関連した前記第一感情状態及び前記第二感情状態が相反しないことを判定することは、グラフィカル・ユーザ・インタフェースを介して感情状態の選択を受信することを備える、請求項1に記載の非一時的なコンピュータ可読記憶媒体。
  10. 音声の影響を修正するためのシステムであって前記システムは、
    ーザから音声サンプルを取得するように構成されたマイクロフォン、
    前記ユーザと関連したセンサ・データを取得するように構成された1つ以上のセンサ、
    音声修正アプリケーションを格納するメモリ、ならびに
    前記マイクロフォン、前記1つ以上のセンサ及び前記メモリに結合されたプロセッサ、
    を備え、
    前記プロセッサにより実行されるときに、前記音声修正アプリケーションは、
    前記センサ・データに基づき人と関連した第一感情状態及び第二感情状態が相反しないことを判定することと、
    前記第一感情状態、前記第二感情状態をそれぞれ第一の優勢な感情状態、第二の優勢な感情状態として分類することと、
    前記第一感情状態、前記第二感情状態をそれぞれ前記第一の優勢な感情状態、前記第二の優勢な感情状態として分類したことに応答して、前記第一の優勢な感情状態及び前記第二の優勢な感情状態のうちの少なくとも1つに基づき前記音声サンプルの1つ以上の音響特性を修正し、前記音声サンプルと関連した影響を変更することと
    修正されている前記1つ以上の音響特性に基づき第二音声サンプルを生成することと
    前記第二音声サンプルを送信することと
    を実行するように前記プロセッサを設定するシステム。
  11. 前記プロセッサは、前記音声サンプルを分析して前記第一感情状態及び前記第二感情状態のうちの少なくとも1つと関連した少なくとも1つの音響特性を検出することで前記人と関連した前記第一感情状態及び前記第二感情状態が相反しないことを判定するように設定される、請求項10に記載のシステム。
  12. 前記1つ以上のセンサは、カメラを備え、前記プロセッサは、前記カメラを介して取得された1つ以上の画像を分析して前記人の1つ以上の顔特性を判定することで前記人と関連した前記第一感情状態及び前記第二感情状態が相反しないことを判定するように設定される、請求項10に記載のシステム。
  13. 前記1つ以上のセンサは、カメラを備え、前記プロセッサは、前記カメラを介して取得された1つ以上の画像を分析して前記人により実行されたジェスチャ及び前記人の姿勢のうちの少なくとも1つを判定することで前記人と関連した前記第一感情状態及び前記第二感情状態が相反しないことを判定するように設定される、請求項10に記載のシステム。
  14. 前記センサ・データは、前記人の脳活動を示す信号を含み、前記プロセッサは、前記脳活動に基づき前記人と関連した前記第一感情状態及び前記第二感情状態が相反しないことを判定するように設定される、請求項10に記載のシステム。
  15. 前記ユーザの脳活動を示す前記信号は、脳波検査(EEG)信号、機能的磁気共鳴画像法(fMRI)信号、及び機能的近赤外線分光法(fNIRS)信号のうちの少なくとも1つを含む、請求項14に記載のシステム。
  16. 音声の影響を修正するためのシステムであって、前記システムは、
    ユーザから音声サンプルを取得するように構成されたマイクロフォン、
    前記ユーザと関連したセンサ・データを取得するように構成された1つ以上のセンサ、
    音声修正アプリケーションを格納するメモリ、ならびに
    前記マイクロフォン、前記1つ以上のセンサ及び前記メモリに結合されたプロセッサ、
    を備え、
    前記プロセッサにより実行されるときに、前記音声修正アプリケーションは、
    前記センサ・データに基づき人と関連した優勢な感情状態を判定することと、
    前記優勢な感情状態に基づき前記音声サンプルの1つ以上の音響特性を修正し、前記音声サンプルと関連した影響を変更することと、
    修正されている前記1つ以上の音響特性に基づき第二音声サンプルを生成することと、
    前記第二音声サンプルを送信することと、
    を実行するように前記プロセッサを設定し、
    前記プロセッサにより実行されるときに、前記音声修正アプリケーションは、
    前記センサ・データ内に含まれた第一タイプのセンサ・データを分析して第一感情状態を判定することと
    前記センサ・データ内に含まれた第二タイプのセンサ・データを分析して第二感情状態を判定することと
    前記第一感情状態及び前記第二感情状態が相反する感情状態であるかどうかを判定することと
    前記第一感情状態及び前記第二感情状態が相反する感情状態であると判定することに基づき、前記第一タイプのセンサ・データに割り当てられた重み付けに基づき前記優勢な感情状態として前記第一感情状態を選択することと
    により前記人と関連した前記優勢な感情状態を判定するように前記プロセッサを設定するシステム。
  17. 前記第二音声サンプルは、ノイズ・キャンセレーション信号を含み、前記プロセッサにより実行されるときに、前記音声修正アプリケーションは、スピーカを介して前記ノイズ・キャンセレーション信号を出力して前記人の音声を修正することで前記第二音声サンプルを送信するように前記プロセッサを設定する、請求項10に記載のシステム。
  18. 音声の影響修正する方法であって前記方法は、
    人及び前記人からの音声サンプルと関連したセンサ・データを取得することと
    前記センサ・データに基づき前記人と関連した第一感情状態及び第二感情状態が相反しないことを判定することと
    前記第一感情状態及び前記第二感情状態の各々を優勢な感情状態として分類することと、
    前記第一感情状態及び前記第二感情状態の各々を優勢な感情状態として分類したことに応答して、前記第一感情状態及び前記第二感情状態のうちの少なくとも1つを示すデータ及び前記音声サンプルをリモート・デバイスへ送信することと
    を備える方法。
  19. 記センサ・データは、前記人の前記音声の音響特性、前記人の表情、及び前記人の脳活動のうちの少なくとも1つを含む、請求項18に記載の方法。
  20. 前記リモート・デバイスは、前記人と関連した前記第一感情状態及び前記第二感情状態のうちの前記少なくとも1つに基づき前記音声サンプルを修正して第二音声サンプルを生成し、前記第二音声サンプルを出力するように設定される、請求項18に記載の方法。
JP2016252683A 2016-01-20 2016-12-27 音声影響修正 Active JP6863733B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/002,320 US10157626B2 (en) 2016-01-20 2016-01-20 Voice affect modification
US15/002,320 2016-01-20

Publications (2)

Publication Number Publication Date
JP2017129853A JP2017129853A (ja) 2017-07-27
JP6863733B2 true JP6863733B2 (ja) 2021-04-21

Family

ID=57758524

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016252683A Active JP6863733B2 (ja) 2016-01-20 2016-12-27 音声影響修正

Country Status (6)

Country Link
US (1) US10157626B2 (ja)
EP (1) EP3196879A1 (ja)
JP (1) JP6863733B2 (ja)
KR (1) KR102658445B1 (ja)
CN (1) CN106992013B (ja)
CA (1) CA2953539C (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10304447B2 (en) 2017-01-25 2019-05-28 International Business Machines Corporation Conflict resolution enhancement system
EP3392884A1 (en) * 2017-04-21 2018-10-24 audEERING GmbH A method for automatic affective state inference and an automated affective state inference system
US10845956B2 (en) 2017-05-31 2020-11-24 Snap Inc. Methods and systems for voice driven dynamic menus
EP3684463A4 (en) 2017-09-19 2021-06-23 Neuroenhancement Lab, LLC NEURO-ACTIVATION PROCESS AND APPARATUS
CN107818787B (zh) * 2017-10-31 2021-02-05 努比亚技术有限公司 一种语音信息的处理方法、终端及计算机可读存储介质
CN107863095A (zh) * 2017-11-21 2018-03-30 广州酷狗计算机科技有限公司 音频信号处理方法、装置和存储介质
CN107919138B (zh) * 2017-11-30 2021-01-08 维沃移动通信有限公司 一种语音中的情绪处理方法及移动终端
US11717686B2 (en) 2017-12-04 2023-08-08 Neuroenhancement Lab, LLC Method and apparatus for neuroenhancement to facilitate learning and performance
US11478603B2 (en) 2017-12-31 2022-10-25 Neuroenhancement Lab, LLC Method and apparatus for neuroenhancement to enhance emotional response
US11919531B2 (en) * 2018-01-31 2024-03-05 Direct Current Capital LLC Method for customizing motion characteristics of an autonomous vehicle for a user
CN108404274A (zh) * 2018-02-09 2018-08-17 上海康斐信息技术有限公司 一种声音自动调整方法和设备
CN108682434B (zh) * 2018-03-26 2020-08-21 Oppo广东移动通信有限公司 电子装置、数据处理方法及相关产品
US10622007B2 (en) * 2018-04-20 2020-04-14 Spotify Ab Systems and methods for enhancing responsiveness to utterances having detectable emotion
US11364361B2 (en) 2018-04-20 2022-06-21 Neuroenhancement Lab, LLC System and method for inducing sleep by transplanting mental states
US10621983B2 (en) * 2018-04-20 2020-04-14 Spotify Ab Systems and methods for enhancing responsiveness to utterances having detectable emotion
US11172293B2 (en) * 2018-07-11 2021-11-09 Ambiq Micro, Inc. Power efficient context-based audio processing
JP2020021025A (ja) * 2018-08-03 2020-02-06 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
US10869128B2 (en) 2018-08-07 2020-12-15 Pangissimo Llc Modular speaker system
US20200053223A1 (en) * 2018-08-07 2020-02-13 International Business Machines Corporation Adjusting of communication mode
WO2020056418A1 (en) 2018-09-14 2020-03-19 Neuroenhancement Lab, LLC System and method of improving sleep
US10861483B2 (en) 2018-11-29 2020-12-08 i2x GmbH Processing video and audio data to produce a probability distribution of mismatch-based emotional states of a person
US10839788B2 (en) 2018-12-13 2020-11-17 i2x GmbH Systems and methods for selecting accent and dialect based on context
US11450311B2 (en) 2018-12-13 2022-09-20 i2x GmbH System and methods for accent and dialect modification
US11786694B2 (en) 2019-05-24 2023-10-17 NeuroLight, Inc. Device, method, and app for facilitating sleep
US10878800B2 (en) * 2019-05-29 2020-12-29 Capital One Services, Llc Methods and systems for providing changes to a voice interacting with a user
US10896686B2 (en) 2019-05-29 2021-01-19 Capital One Services, Llc Methods and systems for providing images for facilitating communication
US11514924B2 (en) * 2020-02-21 2022-11-29 International Business Machines Corporation Dynamic creation and insertion of content
CN113327620B (zh) * 2020-02-29 2024-10-11 华为技术有限公司 声纹识别的方法和装置
US11735206B2 (en) 2020-03-27 2023-08-22 Harman International Industries, Incorporated Emotionally responsive virtual personal assistant
CN111899765B (zh) * 2020-07-27 2023-05-30 中国平安人寿保险股份有限公司 基于情绪预测模型的语音发送方法、装置和计算机设备
USD940191S1 (en) * 2020-08-31 2022-01-04 Snap Inc. Display screen or portion thereof with a transitional graphical user interface
USD940188S1 (en) * 2020-09-28 2022-01-04 Snap Inc. Display screen or portion thereof with a transitional graphical user interface
USD964377S1 (en) * 2020-09-28 2022-09-20 Snap Inc. Display screen or portion thereof with a transitional graphical user interface
KR20220061505A (ko) * 2020-11-06 2022-05-13 현대자동차주식회사 감정 조절 시스템 및 감정 조절 방법
CN112398952A (zh) * 2020-12-09 2021-02-23 英华达(上海)科技有限公司 电子资源推送方法、系统、设备及存储介质
US20220293122A1 (en) * 2021-03-15 2022-09-15 Avaya Management L.P. System and method for content focused conversation
CN113077783B (zh) * 2021-03-26 2023-07-21 联想(北京)有限公司 小语种语音语料扩增方法、装置及电子设备和存储介质
DE102021208344A1 (de) 2021-08-02 2023-02-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung eingetragener Verein Sprachsignalbearbeitungsvorrichtung, Sprachsignalwiedergabesystem und Verfahren zum Ausgeben eines entemotionalisierten Sprachsignals
US20230343349A1 (en) * 2022-04-20 2023-10-26 Sony Interactive Entertainment Inc. Digital audio emotional response filter
CN118427777B (zh) * 2024-07-02 2024-09-13 广州美术学院 基于人工智能的心理语言学数据挖掘集成平台

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3824848B2 (ja) * 2000-07-24 2006-09-20 シャープ株式会社 通信装置および通信方法
DE60215296T2 (de) * 2002-03-15 2007-04-05 Sony France S.A. Verfahren und Vorrichtung zum Sprachsyntheseprogramm, Aufzeichnungsmedium, Verfahren und Vorrichtung zur Erzeugung einer Zwangsinformation und Robotereinrichtung
US8036899B2 (en) 2006-10-20 2011-10-11 Tal Sobol-Shikler Speech affect editing systems
US9070282B2 (en) * 2009-01-30 2015-06-30 Altorr Corp. Smartphone control of electrical devices
US9767470B2 (en) * 2010-02-26 2017-09-19 Forbes Consulting Group, Llc Emotional survey
US20120016674A1 (en) 2010-07-16 2012-01-19 International Business Machines Corporation Modification of Speech Quality in Conversations Over Voice Channels
US9762719B2 (en) * 2011-09-09 2017-09-12 Qualcomm Incorporated Systems and methods to enhance electronic communications with emotional context
US8903176B2 (en) * 2011-11-14 2014-12-02 Sensory Logic, Inc. Systems and methods using observed emotional data
US9418390B2 (en) 2012-09-24 2016-08-16 Intel Corporation Determining and communicating user's emotional state related to user's physiological and non-physiological data
US9031293B2 (en) 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
WO2014085910A1 (en) * 2012-12-04 2014-06-12 Interaxon Inc. System and method for enhancing content using brain-state data
CN103903627B (zh) * 2012-12-27 2018-06-19 中兴通讯股份有限公司 一种语音数据的传输方法及装置
JP2015106387A (ja) * 2013-12-02 2015-06-08 株式会社東芝 表示制御方法、情報処理装置およびプログラム
US20160191958A1 (en) * 2014-12-26 2016-06-30 Krush Technologies, Llc Systems and methods of providing contextual features for digital communication
US9431003B1 (en) * 2015-03-27 2016-08-30 International Business Machines Corporation Imbuing artificial intelligence systems with idiomatic traits

Also Published As

Publication number Publication date
US10157626B2 (en) 2018-12-18
US20170206913A1 (en) 2017-07-20
CA2953539A1 (en) 2017-07-20
KR20170087416A (ko) 2017-07-28
CN106992013B (zh) 2023-09-19
KR102658445B1 (ko) 2024-04-17
CN106992013A (zh) 2017-07-28
JP2017129853A (ja) 2017-07-27
EP3196879A1 (en) 2017-07-26
CA2953539C (en) 2024-03-19

Similar Documents

Publication Publication Date Title
JP6863733B2 (ja) 音声影響修正
US10345901B2 (en) Sound outputting apparatus, electronic apparatus, and control method thereof
CN107683399B (zh) 声音输出装置、电子装置、以及其控制方法
JP2021044001A (ja) 情報処理システム、制御方法、およびプログラム
JP2016126500A (ja) ウェアラブル端末装置およびプログラム
US11184723B2 (en) Methods and apparatus for auditory attention tracking through source modification
JP2012059107A (ja) 感情推定装置、感情推定方法およびプログラム
KR101802995B1 (ko) 이명 치료 시스템
JP2017140198A (ja) 筋電信号を用いて顔表情を高い精度で識別する装置、デバイス、プログラム及び方法
CN113208812A (zh) 信息处理装置、信息处理方法以及计算机可读介质
US11853472B2 (en) Modify audio based on physiological observations
US20240251121A1 (en) Focus group apparatus and system
Tremblay et al. How neuroscience relates to hearing aid amplification
CN114432565A (zh) 空想意识信息恢复系统
US11276420B2 (en) Interaction system, apparatus, and non-transitory computer readable storage medium
JP2018149625A (ja) コミュニケーションロボット、プログラム及びシステム
KR20210100831A (ko) 인공지능 기반 수어통역 서비스 제공 시스템 및 방법
WO2019198299A1 (ja) 情報処理装置及び情報処理方法
US10635665B2 (en) Systems and methods to facilitate bi-directional artificial intelligence communications
KR20210100832A (ko) 사용자의 감정상태를 판단하는 인공지능 기반 수어통역 서비스 제공 시스템 및 방법
US20220101873A1 (en) Techniques for providing feedback on the veracity of spoken statements
US11657814B2 (en) Techniques for dynamic auditory phrase completion
US20230277130A1 (en) In-ear microphones for ar/vr applications and devices
US12032807B1 (en) Assistive communication method and apparatus
US20230396941A1 (en) Context-based situational awareness for hearing instruments

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210317

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210401

R150 Certificate of patent or registration of utility model

Ref document number: 6863733

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250