JP6863733B2

JP6863733B2 - 音声影響修正

Info

Publication number: JP6863733B2
Application number: JP2016252683A
Authority: JP
Inventors: エリオットナフマンハイメ; マルティステファン; ディチェンソダビデ
Original assignee: ハーマンインターナショナルインダストリーズインコーポレイテッド
Priority date: 2016-01-20
Filing date: 2016-12-27
Publication date: 2021-04-21
Anticipated expiration: 2036-12-27
Also published as: US10157626B2; US20170206913A1; CA2953539A1; KR20170087416A; CN106992013B; KR102658445B1; CN106992013A; JP2017129853A; EP3196879A1; CA2953539C

Description

さまざまな実施形態は、一般的にオーディオ信号処理に関し、より具体的に音声影響修正のための技術に関する。

効果的なコミュニケーションは、健全な社会的関係やビジネス関係を構築し維持する上で重要な役割を果たす。それにもかかわらず、会話に参加するときに、多くの人々は、彼らの感情状態を正確に伝えること、及び／または彼らを取り巻く人々の、または会話に直接参加する人々の感情状態を正確に判定することが難しい。たとえば、一般的に異なる文化は、異なるタイプの表情、手ぶり、身ぶりなどにより感情を表現する。その結果、これらの文化的な違いにより、異なる文化背景から人々は、会話中に互いに彼らの感情を効果的に伝えることが困難な場合がある。別の実施例として、一般的に自閉症スペクトラムの人々は、他の人々とコミュニケートする、または交流するときに、彼らの感情を正確に伝えること、及び他の人々の感情を解釈することが困難である。

人々がコミュニケートするときに彼らの感情状態をより効果的に伝えることを可能にするために、いくつかの電子通信形態は、ユーザがグラフィカル・シンボルを介して彼らの感情を明確に示すことを可能にする。たとえば、多くのテキスト・メッセージング・プラットフォームは、ユーザが彼または彼女の感情状態を別のユーザへグラフィカルに伝えるために選択することが可能である、グラフィカルな表情（すなわち、顔文字）を含む。しかしながら、これらのタイプのプラットフォーム以外に、実際の、及び／または人との交流の中で感情状態を伝えて解釈する際にユーザを自動的に支援するために現在利用可能なシステムがない。その結果、感情状態を効果的に伝えて解釈する彼らの能力がないため、多くの人々は、健全な関係を築いて維持する彼らの能力を抑制する、コミュニケーション及び社会的交流で苦労し続ける。

前述の説明のように、互いにコミュニケートする、または交流するときに、人々の感情状態を伝えて解釈するためのより効果的な技術は、役立つであろう。

本開示の実施形態は、音声の影響を修正するための方法を説明する。この方法は、人と関連した感情状態を判定すること、及びこの感情状態に基づき人から取得された音声サンプルの１つ以上の音響特性を修正して音声サンプルと関連した影響を変更することを備える。さらにこの方法は、修正されている１つ以上の音響特性に基づき第二音声サンプルを生成すること、及びこの第二音声サンプルを送信することを備える。

さらに実施形態は、とりわけ、上記で説明された技術を実装するように設定されたシステム及び非一時的なコンピュータ可読記憶媒体を提供する。

開示された技術の少なくとも１つの利点は、話し手の音声の影響を強調して、話し手が彼らの感情状態をより効果的に伝えること、及び／または話し手の感情状態をより効果的に判定する際に聞き手を支援することを可能にすることができる。加えて、話し手の音声での影響を低減及び／または変更し、たとえば、限定されないが、話し手の感情状態を隠すことが可能である。さらに、話し手の感情状態は、話し手または聞き手との交流を必要とせずに、１つ以上のタイプのセンサ・データを介して自動的に判定されることができる。

１つ以上の実施形態の列挙された特徴が上記で説明する方式を詳細に理解することが可能であるために、１つ以上の実施形態のより詳細な説明は、上記で簡潔に要約され、特定の具体的な実施形態を参照することで得られることができ、それらのいくつかは、添付の図面で説明される。しかしながら、添付の図面が典型的な実施形態のみを説明することでいかなる方式でもその範囲を限定するとみなされるべきではなく、さまざまな実施形態のその範囲については他の実施形態もまた包含することに留意するべきである。
例えば、本願発明は以下の項目を提供する。
（項目１）
インストラクションがプロセッサにより実行されるときに、
人と関連した感情状態を判定し、
前記感情状態に基づき前記人から取得された音声サンプルの１つ以上の音響特性を修正し、前記音声サンプルと関連した影響を変更し、
修正されている前記１つ以上の音響特性に基づき第二音声サンプルを生成し、
前記第二音声サンプルを送信する、
前記ステップを実行することで、音声の影響を修正するように前記プロセッサを構成する、前記インストラクションを含む非一時的なコンピュータ可読記憶媒体。
（項目２）
前記人と関連した前記感情状態を判定することは、視覚センサ・データを分析して前記人の１つ以上の顔特性を判定することを備える、上記項目に記載の前記非一時的なコンピュータ可読記憶媒体。
（項目３）
前記人と関連した前記感情状態を判定することは、前記音声サンプルを分析して前記感情状態を反映する少なくとも１つの音響特性を検出することを備える上記項目のうちのいずれか一項に記載の前記非一時的なコンピュータ可読記憶媒体。
（項目４）
前記少なくとも１つの音響特性は、ピッチ、発声摂動、ラウドネス、及び発話速度のうちの少なくとも１つを含む、上記項目のうちのいずれか一項に記載の前記非一時的なコンピュータ可読記憶媒体。
（項目５）
前記人と関連した前記感情状態を判定することは、前記人の脳活動を分析することを備える、上記項目のうちのいずれか一項に記載の前記非一時的なコンピュータ可読記憶媒体。
（項目６）
前記音声サンプルの前記１つ以上の音響特性を修正することは、前記音声サンプルと関連したピッチを増加させることまたは前記音声サンプルと関連した前記ピッチを低減することのうちの少なくとも１つを備える、上記項目のうちのいずれか一項に記載の前記非一時的なコンピュータ可読記憶媒体。
（項目７）
前記音声サンプルの前記１つ以上の音響特性を修正することは、前記音声サンプルと関連した速度を上げること、前記音声サンプルと関連した前記速度を下げること、前記音声サンプルと関連したラウドネスを増加させること、または前記音声サンプルと関連した前記ラウドネスを減少させることのうちの少なくとも１つを備える、上記項目のうちのいずれか一項に記載の前記非一時的なコンピュータ可読記憶媒体。
（項目８）
前記感情状態を判定することは、
前記人と関連した第一タイプのセンサ・データを分析して第一感情状態を判定し、
第一重み付けを前記第一感情状態に割り当て、
前記人と関連した第二タイプのセンサ・データを分析して第二感情状態を判定し、
第二重み付けを前記第二感情状態に割り当て、
前記人と関連した第三タイプのセンサ・データを分析して第三感情状態を判定し、
第三重み付けを前記第三感情状態に割り当て、前記感情状態が前記第一感情状態、前記第二感情状態、前記第三感情状態、前記第一重み付け、前記第二重み付け、及び前記第三重み付けに基づく、
ことを備える、上記項目のうちのいずれか一項に記載の前記非一時的なコンピュータ可読記憶媒体。
（項目９）
前記人と関連した前記感情状態を判定することは、グラフィカル・ユーザ・インタフェースを介して前記感情状態の選択を受信することを備える上記項目のうちのいずれか一項に記載の前記非一時的なコンピュータ可読記憶媒体。
（項目１０）
音声の影響を修正するためのシステムにおいて、
前記ユーザから音声サンプルを取得するように構成されたマイクロフォン、
前記ユーザと関連したセンサ・データを取得するように構成された１つ以上のセンサ、
音声修正アプリケーションを格納するメモリ、ならびに
前記マイクロフォン、前記１つ以上のセンサ及び前記メモリに結合されたプロセッサ、
を備え、
前記プロセッサにより実行されるときに、前記音声修正アプリケーションは、
前記センサ・データに基づき人と関連した優勢な感情状態を判定し、
前記優勢な感情状態に基づき前記音声サンプルの１つ以上の音響特性を修正し、前記音声サンプルと関連した影響を変更し、
修正されている前記１つ以上の音響特性に基づき第二音声サンプルを生成し、
前記第二音声サンプルを送信する、
ように前記プロセッサを設定する、
前記システム。
（項目１１）
前記プロセッサは、前記音声サンプルを分析して前記優勢な感情状態と関連した少なくとも１つの音響特性を検出することで前記人と関連した前記優勢な感情状態を判定するように設定される、上記項目に記載の前記システム。
（項目１２）
前記１つ以上のセンサは、カメラを備え、前記プロセッサは、前記カメラを介して取得された１つ以上の画像を分析して前記人の１つ以上の顔特性を判定することで前記人と関連した前記優勢な感情状態を判定するように設定される、上記項目のうちのいずれか一項に記載の前記システム。
（項目１３）
前記１つ以上のセンサは、カメラを備え、前記プロセッサは、前記カメラを介して取得された１つ以上の画像を分析して前記人により実行されたジェスチャ及び前記人の姿勢のうちの少なくとも１つを判定することで前記人と関連した前記優勢な感情状態を判定するように設定される、上記項目のうちのいずれか一項に記載の前記システム。
（項目１４）
前記センサ・データは、前記人の脳活動を示す信号を含み、前記プロセッサは、前記脳活動に基づき前記人と関連した前記優勢な感情状態を判定するように設定される、上記項目のうちのいずれか一項に記載の前記システム。
（項目１５）
前記ユーザの脳活動を示す前記信号は、脳波検査（ＥＥＧ）信号、機能的磁気共鳴画像法（ｆＭＲＩ）信号、及び機能的近赤外線分光法（ｆＮＩＲＳ）信号のうちの少なくとも１つを含む、上記項目のうちのいずれか一項に記載の前記システム。
（項目１６）
前記プロセッサにより実行されるときに、前記音声修正アプリケーションは、
前記センサ・データ内に含まれた第一タイプのセンサ・データを分析して第一感情状態を判定し、
前記センサ・データ内に含まれた第二タイプのセンサ・データを分析して第二感情状態を判定し、
前記第一感情状態及び前記第二感情状態が相反する感情状態であるかどうかを判定し、
前記第一感情状態及び前記第二感情状態が相反する感情状態であると判定することに基づき、前記第一タイプのセンサ・データに割り当てられた重み付けに基づき前記優勢な感情状態として前記第一感情状態を選択する、
ことにより前記人と関連した前記優勢な感情状態を判定するように前記プロセッサを設定する、上記項目のうちのいずれか一項に記載の前記システム。
（項目１７）
前記第二音声サンプルは、ノイズ・キャンセレーション信号を含み、前記プロセッサにより実行されるときに、前記音声修正アプリケーションは、スピーカを介して前記ノイズ・キャンセレーション信号を出力して前記人の音声を修正することで前記第二音声サンプルを送信するように前記プロセッサを設定する、上記項目のうちのいずれか一項に記載の前記システム。
（項目１８）
音声の影響の修正方法において、
人及び前記人からの音声サンプルと関連したセンサ・データを取得し、
前記センサ・データに基づき前記人と関連した感情状態を判定し、
前記感情状態及び前記音声サンプルを示すデータをリモート・デバイスへ送信する、
ことを備える、前記方法。
（項目１９）
前記センサ・データは、前記人の前記音声の音響特性、前記人の表情、及び前記人の脳活動のうちの少なくとも１つを含む、上記項目のうちのいずれか一項に記載の前記方法。
（項目２０）
前記リモート・デバイスは、前記人と関連した前記感情状態に基づき前記音声サンプルを修正して第二音声サンプルを生成し、前記第二音声サンプルを出力するように設定される、上記項目のうちのいずれか一項に記載の前記方法。
（摘要）
音声の影響を修正するための技術。この技術は、人と関連した感情状態を判定すること、及び感情状態に基づき人から取得された音声サンプルの１つ以上の音響特性を修正して音声サンプルと関連した影響を変更することを備える。さらにこの技術は、修正されている１つ以上の音響特性に基づき第二音声サンプルを生成すること、及び第二音声サンプルを送信することを備える。

さまざまな実施形態により、音声影響修正システムが会話中にユーザの音声の影響を修正することが可能である方法の概念図である。さまざまな実施形態により、図１の音声影響修正システムの１つ以上の態様を実装するように構成されたコンピューティング・システムの図解である。図３Ａ及び図３Ｂは、さまざまな実施形態により、図１の音声影響修正システムを介して修正された音声サンプルを生成するための異なる技術を説明する。図３Ａ及び図３Ｂは、さまざまな実施形態により、図１の音声影響修正システムを介して修正された音声サンプルを生成するための異なる技術を説明する。さまざまな実施形態により、音声の影響を修正するための方法ステップの流れ図である。

以下の説明において、複数の具体的な詳細は、本開示の実施形態のより完全な理解を提供するように説明される。しかしながら、本開示の実施形態が１つ以上のこれらの具体的な詳細なしで実施されることができることは、当業者に明らかであろう。

上記で説明されるように、多くの人々は、彼らの感情状態を正確に伝えること、及び／または彼らがコミュニケートしている人の感情状態を正確に解釈することが困難である。たとえば、限定されないが、文化的な違い、不安、神経系疾患、コミュニケーション能力の欠乏などは、話し手が彼または彼女の感情を伝える言語及び／または非言語キューを効果的に利用することを妨げる可能性がある。同様に、このような問題は、聞き手が他の人々により伝えられた感情を正確に解釈することを妨げる可能性がある。

その結果、話者間の感情のより効果的なコミュニケーションを容易にするために、音声影響修正システム（以降、「音声システム」）は、ユーザと関連した感情状態を判定して、つぎにこの感情状態に基づきユーザから取得された音声サンプルの１つ以上の音響特性を修正することができる。より具体的には、音声サンプルの音響特性、たとえば、音声サンプルのピッチ、声質、音色、発声摂動、音声イントネーション、ラウドネス、韻律、発話の規則性及び／または発話速度は、音声サンプルの影響を強調、低減及び／または変更するように修正されることができる。つぎに修正された音声サンプルは、ユーザがコミュニケートしている人に出力され、ユーザの意図された感情状態（複数を含む）がより効果的に伝えられ解釈されることを可能にする。さまざまな実施形態において、音声システムは、影響を修正するときに音声サンプルの音響特性にわずかな変更のみを加えるため、会話の当事者らは、音声システムの操作により注意を逸らされない。

図１は、さまざまな実施形態により、音声システム１００が会話中にユーザの音声の影響を修正することが可能である方法の概念図である。音声システム１００は、限定されないが、マイクロフォン１１０及びスピーカ１２０を含むことができる。

示されるように、音声サンプル１１２を１つ以上のマイクロフォン１１０を介してユーザから取得する。つぎに音声サンプル１１２は、意図された感情（複数を含む）をより正確に伝える修正された音声サンプル１１４を生成するために、音声サンプル１１２の１つ以上の音響特性を修正することで処理される。たとえば、限定されないが、ユーザが彼または彼女の音声で伝えられた興奮の度合いを高めたい場合に、音声システム１００は、音声サンプル１１２を処理して音声サンプル１１２のピッチ及びラウドネスを増すこと、及び／またはたとえば、音声サンプル１１２内に含まれたピッチ、ラウドネス及び／または発話速度または特定の単語若しくは句を修正することで、音声サンプル１１２の韻律特性を修正することが可能である。対照的に、ユーザが彼または彼女の音声で伝えられる悲しみまたは同情の度合いを高めたい場合に、つぎに音声システム１００は、音声サンプル１１２を処理して音声サンプル１１２のピッチ及び発話速度を低減すること、及び／または音声サンプル１１２の韻律特性を修正することで、これらの特定の感情を強調することが可能である。つぎに音声システム１００は、スピーカ（複数を含む）１２０を介して修正された音声サンプル１１４を聞き手へ出力する。

さまざまな実施形態において、音声システム１００と関連した１つ以上のセンサは、ユーザの感情状態を自動的に検出する。つぎに音声システム１００は、音声サンプル１１２の影響を強調、低減及び／または変更するために、感情状態に基づきユーザから取得された音声サンプル１１２を修正する。たとえば、限定されないが、ユーザが幸福感または感謝を伝えることが困難である場合に、つぎに音声システム１００と関連した１つ以上のセンサは、ユーザが幸福である、または感謝していることを示す言語及び／または非言語キューを検出することが可能である。つぎに音声システム１００は、ユーザから取得された音声サンプル１１２を修正し、たとえば、音声サンプル１１２のピッチ及び／または発話速度を上げることで、音声サンプル１１２に反映された幸福感または感謝の度合いを高める。このようにして、ユーザがコミュニケートしている人は、ユーザが幸せである、または感謝していることをユーザにより表現された特定の言語及び／または非言語キューが示すことを理解することができないが、音声システム１００は、これらのキューを検出し、音声サンプル１１２の影響を修正して、ユーザの幸福感または感謝をより効果的に伝えることが可能である。

別の非限定的な実施例において、音声システム１００と関連した１つ以上のセンサは、ユーザが怒っている、または欲求不満であることを示す言語及び／または非言語キューを検出することが可能である。つぎに音声システム１００は、ユーザから取得された音声サンプル１１２を修正し、たとえば、音声サンプル１１２の発話速度を低減する、ピッチを下げる、及び／またはトーンを中和することで、音声サンプル１１２に反映された怒り及び／または欲求不満の度合いを減らすことが可能である。その結果、このような実施形態において、音声システム１００は、怒りまたは欲求不満を感じているユーザが音声の失礼なトーンを使用しないで他の人々とより丁寧にコミュニケートすることを可能にすることができる。あるいは、ユーザが怒っている、または欲求不満であることを音声システム１００が検出するときに、音声システム１００は、たとえば、音声サンプル１１２へ分調波周波数を加えることで、音声サンプル１１２での影響を強調し、音声サンプル１１２に反映された怒り及び／または欲求不満の度合いを高めることが可能である。このような実施形態において、音声システム１００は、怒りまたは欲求不満を感じているが、その怒りまたは欲求不満を効果的にコミュニケート不可能なユーザが他の人々によりさらに正確に理解されることを可能にする。

したがって、いくつかの実施形態において、音声システム１００は、１つ以上のセンサを介して、ユーザが第一セットの感情状態（たとえば、幸福、興奮、愛情）にあると判定するときに、音声サンプル１１２の影響を強調することができ、ユーザが第二セットの感情状態（たとえば、怒り、欲求不満、悲しみ）にあるときに、音声サンプル１１２の影響を低減または変更することができる。１つ以上のセンサを介してユーザの感情状態を検出するための追加の技術は、図２と併せてさらに詳細に以下で記述される。

さまざまな実施形態において、ユーザは、彼または彼女が音声サンプル１００で強調、低減及び／または変更したい１つ以上の感情を選択することができる。さらにユーザは、音声システム１００により各感情が強調、低減及び／または変更されるべきである度合いを選択することができる。一般に、ユーザは、彼または彼女自身の音声サンプル１１２での影響を強調、低減及び／または変更するために選択することができる、またはユーザは、ユーザがコミュニケートしている人から取得された音声サンプル１１２での影響を強調、低減及び／または変更するために選択することができる。たとえば、限定されないが、ユーザは、音声システム１００と関連したグラフィカル・ユーザ・インタフェース（ＧＵＩ）を介して第一感情（たとえば、「興奮」）を選択し、この感情を強調するべきであることを示すことが可能である。それに応答して、ユーザ及び／またはユーザがコミュニケートしている人が興奮していることを音声システム１００が検出するときに、マイクロフォン（複数を含む）１１０を介して取得された音声サンプル１１２の影響は、たとえば、音声サンプル１１２のラウドネス、ピッチ及び／または発話速度を増すことで、興奮を強調するように修正される。

さらに、ユーザは、音声システム１００と関連したＧＵＩを介して第二感情（たとえば、「怒り」）を選択し、この感情を減らすべきであることを示すことが可能である。つぎに、ユーザ及び／またはユーザがコミュニケートしている人が怒っていると音声システム１００が検出するときに、マイクロフォン（複数を含む）１１０を介して取得された音声サンプル１１２の影響を修正し、たとえば、音声サンプル１１２の発話速度及びラウドネスを低減することで、音声サンプル１１２内の怒りを低減する。さらに別の非限定的な実施例において、ユーザは、音声システム１００と関連したＧＵＩを介して第三感情（たとえば、「神経質な」）を選択し、この感情を変更するべきであることを示すことが可能である。その後、音声システム１００は、ユーザ及び／またはユーザがコミュニケートしている人が神経質になっていることを検出するときに、マイクロフォン（複数を含む）１１０を介して取得された音声サンプル１１２の影響は、自信のような、異なる感情と変更及び置換される。

いくつかの実施形態において、ＧＵＩは、音声システム１００と関連したスマートフォンまたはモバイル・コンピュータ・ディスプレイに実装されることができる。加えて、いくつかの実施形態において、本明細書で記述された機能性（たとえば、強調、低減、変更など）のいずれかは、ＧＵＩを介した明示的なインタラクションなしで、音声システム１００により自動的に実装されることができる。

図２は、さまざまな実施形態により、図１の音声システム１００の１つ以上の態様を実装するように構成されたコンピューティング・システムの図解である。示されるように、音声システム１００は、限定されないが、１つ以上のマイクロフォン１１０、１つ以上のスピーカ１２０、コンピューティング・デバイス２００、カメラ２２０及び電極２２２を含むことができる。コンピューティング・デバイス２００は、プロセッサ２０２、入力／出力（Ｉ／Ｏ）デバイス２０４及びメモリ２１０を含む。メモリ２１０は、データベース２１４とインタラクトするように構成された音声修正アプリケーション２１２を含む。

マイクロフォン（複数を含む）１１０は、無線または有線音響変換器を含むことができる。たとえば、限定されないが、マイクロフォン（複数を含む）１１０は、ダイナミック・ビーム・フォーミングを可能にする、単一の変換器、全方向性変換器、指向性変換器、及び／またはマイクロフォン・アレイを含むことができる。

さまざまな実施形態において、音声修正アプリケーション２１２は、マイクロフォン（複数を含む）１１０を介して取得された１つ以上の音声サンプル１１２からユーザの感情状態を判定することができる。たとえば、限定されないが、音声修正アプリケーション２１２は、感情状態を示す音声サンプル１１２内の１つ以上の音響特性を検出することが可能である。つぎに音声修正アプリケーション２１２は、実時間で他の感情状態に関する単一の音響特性（複数を含む）及び／または複数の音響特性を修正し、音声サンプル１１２内の影響を強調、低減または変更する。

さまざまな実施形態において、カメラ（複数を含む）２２０は、ユーザの表情、ユーザが行ったジェスチャ、瞳孔拡大、ユーザの姿勢及び／またはユーザのボディ・ランゲージを検出するように構成される。たとえば、限定されないが、カメラ（複数を含む）２２０が取得した画像を分析して、ユーザの目、眉、口、鼻、額、頬、指先、関節、手、手首、腕、肩、背中、脚などの位置及び／または外見を判定することができる。つぎにこれらの体の部位のうちの１つ以上の位置及び／または外見を使用して、ユーザの感情状態を判定することができる。たとえば、限定されないが、ユーザの顔及び／または体の画像は、カメラ（複数を含む）２２０により取得され、音声修正アプリケーション２１２により処理され、ユーザの眉及び口の形状及び／またはユーザの姿勢を測定することができる。つぎにユーザの眉及び口の形状及び／またはユーザの姿勢を分析し、ユーザの感情状態を判定することができる。１つのカメラ２２０のみを図２で示すが、ユーザに関して任意の位置に設置された任意の数のカメラ２２０を使用し、ユーザの感情状態及び／またはユーザがコミュニケートしている人の感情状態を検出することができる。

電極（複数を含む）２２２は、１つ以上の脳波検査（ＥＥＧ）電極、皮膚コンダクタンス電極、心拍センサ電極及び／または筋電図（ＥＭＧ）電極を含むことができる。一般に、電極２２２は、ユーザの感情状態と関連したセンサ・データを取得する。たとえば、限定されないが、ＥＥＧ電極を介して取得されたセンサ・データは、音声修正アプリケーション２１２により分析され、ユーザの脳活動を検出することが可能である。つぎに音声修正アプリケーション２１２は、脳活動に基づきユーザの感情状態を判定し、その感情状態に基づき１つ以上の音声サンプル１１２を修正することが可能である。加えて、ユーザの感情状態を示す脳活動は、機能的磁気共鳴画像法（ｆＭＲＩ）及び機能的近赤外線分光法（ｆＮＩＲＳ）を介して取得されたセンサ・データのような、他のタイプのセンサ・データを介して判定されることができる。

いくつかの実施形態において、皮膚コンダクタンス電極及び／または心拍センサ電極を介して取得されたセンサ・データを使用して、ユーザの感情状態を判定することができる。たとえば、限定されないが、音声修正アプリケーション２１２は、１つ以上の皮膚コンダクタンス電極を介して取得されたセンサ・データを処理し、ユーザが発汗していることを判定することが可能である。このセンサ・データに基づき任意選択で他のセンサ・データ（たとえば、カメラ２２０を介して取得されたユーザの顔の画像）と併せて、つぎに音声修正アプリケーション２１２は、ユーザが神経質になっていると判定することが可能である。別の非限定的な実施例において、音声修正アプリケーション２１２は、心拍センサ電極を介して取得されたセンサ・データを処理し、ユーザが上昇した心拍数を有することを判定することが可能である。つぎに、このセンサ・データに基づき任意選択で他のセンサ・データ（たとえば、ユーザの音声サンプル１１２のスペクトル分析）と併せて、音声修正アプリケーション２１２は、ユーザが幸福である、及び／または興奮していることを判定することが可能である。

音声システム１００は、ユーザの頭皮、外耳道及び／またはユーザの頭部または体の他の部分と接触して配置されるように構成された任意の数の電極２２２を含むことができる。いくつかの実施形態において、本明細書で記述された１つ以上のタイプの電極２２２は、スマートフォン、ヘッドセット、ブレスレット、アームバンド、チェスト・ストラップ、イヤホンまたは１台のヘッドホン２３０内のような、ユーザが保持または着用するデバイス内に含まれる。さらに他の実施形態において、音声修正アプリケーション２１２は、血中酸素濃度センサを介してユーザ内での生理学的変化を検出することで、または加速度計、ジャイロスコープ若しくは磁力計を介してユーザの動きを検出することでユーザの感情状態を判定することが可能である。

Ｉ／Ｏデバイス２０４は、入力デバイス、出力デバイスならびに入力を受信すること及び出力を提供することの両方が可能なデバイスを含むことができる。たとえば、限定されないが、Ｉ／Ｏデバイス２０４は、音声システム１００に含まれたマイクロフォン（複数を含む）１１０、スピーカ（複数を含む）１２０、カメラ２２０及び／または電極２２２にデータを送信する、及び／またはこれらからデータを受信する有線及び／または無線通信デバイスを含むことができる。加えて、Ｉ／Ｏデバイス２０４は、ユーザの感情状態を示す他のタイプのセンサ・データを受信する１つ以上の有線または無線通信デバイスを含むことができる。

さまざまな実施形態において、音声システム１００は、本明細書で記述された１つ以上の実施形態を実施するために適切なパーソナル・オーディオ・デバイス、モバイル・コンピュータ、パーソナル・デジタル・アシスタント、携帯電話、デスクトップ・コンピュータまたは任意の他のデバイスを含むことができる。いくつかの実施形態において、音声システム１００は、１つ以上のマイクロフォン１１０を任意選択で配置する、図２で示されるオーバイヤー型ヘッドホンのような、１台のヘッドホン２３０を含む。しかしながら、一般に、任意のタイプの有線または無線ヘッドホンは、サーカムオーラル型ヘッドホン、スープラオーラル型ヘッドホン及びインイヤー型ヘッドホンを含み、本明細書で記述された技術を実行するために使用されることができる。他の実施形態において、音声システム１００は、補聴器のような支援医療機器またはＢｌｕｅｔｏｏｔｈ（登録商標）ヘッドセットのようなモバイル通信デバイスを含む、ユーザについての音を捕捉及び再生することが可能な任意の音響デバイスであってもよい。

一般的に、コンピューティング・デバイス２００は、音声システム１００の全体的な操作を調整するように構成される。他の実施形態において、コンピューティング・デバイス２００は、音声システム１００の他の構成要素に結合されるが、これらから分離することができる。このような実施形態において、音声システム１００は、ユーザの感情状態を示す音声サンプル１１２及び／またはセンサ・データを受信し、コンピューティング・デバイス２００へデータ（たとえば、センサ・データ及び／または修正された音声サンプル１１４）を送信し、パーソナル・コンピュータ、ウェアラブル・デバイス、スマートフォン、ポータブル・メディア・プレーヤなどのような、別のデバイスに含まれることができる別のプロセッサを含むことができる。しかしながら、本明細書で開示された実施形態は、音声システム１００の機能性を実装するように構成された任意の技術的に実現可能なシステムを意図する。

プロセッサ２０２は、データを処理しプログラム・コードを実行するように構成された処理デバイスの任意の技術的に実現可能な形態であってもよい。プロセッサ２０２は、たとえば、限定されないが、中央処理装置（ＣＰＵ）、グラフィックス・プロセッシング・ユニット（ＧＰＵ）、特定用途向け集積回路（ＡＳＩＣ）、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）及びその他のものであることが可能である。メモリ２１０は、メモリ・モジュールまたはメモリ・モジュールの集合を含むことができる。メモリ２１０内の音声修正アプリケーション２１２は、プロセッサ２０２により実行され、コンピューティング・デバイス２００の機能性全体を実装するため、全体として音声システム１００の操作を調整する。たとえば、限定されないが、マイクロフォン（複数を含む）１１０、カメラ２２０及び電極２２２を介して取得された音声サンプル１１２及び／またはセンサ・データは、音声修正アプリケーション２１２により処理され、修正された音声サンプル１１４及び／またはユーザの感情状態を示すデータを生成することができる。いくつかの実施形態において、データベース２１４は、音声サンプル１１２、修正された音声サンプル１１４、オーディオ・パラメータ、センサ・データ、アルゴリズム、統計量及びユーザ選好を格納する。

ヘッドホン２３０またはイヤホンと併せて音声システム１００を実装する実施形態において、ヘッドホン２３０またはイヤホンは、ユーザが周囲環境内の環境音を聞くことが可能である音響透過モードで動作することができる。音響透過モードにおいて、音声修正アプリケーション２１２は、ユーザがコミュニケートしている（たとえば、選択的な音声強調を介して）１人以上と関連した音声サンプル１１２を検出し、音声サンプル１１２を修正して音声サンプル１１２の影響を強調、低減または変更することが可能である。その後、修正された音声サンプル１１４は、ヘッドホン２３０またはイヤホンに含まれたスピーカ１２０を介してユーザへ出力される。

加えて、音声システム１００は、たとえば、スピーカ１２０を介して反転された信号を出力して音声サンプル１１２内の特定の音の周波数をキャンセルすることで、アクティブ・ノイズ・キャンセレーション技術を介して音声サンプル１１２での影響を修正することができる。たとえば、限定されないが、ユーザの音声での特定周波数は、ユーザの音声の影響を強調、低減または変更するために１つ以上の反転された信号を介してキャンセルされることが可能である。さらに、音声システム１００は、人とのコミュニケーション中に修正された音声サンプル１１４及び／またはノイズ・キャンセレーション信号を出力する外部スピーカ１２０（たとえば、ラウドスピーカ）と併せてこのような技術を実装することができる。このような実施形態において、音声修正アプリケーション２１２は、音声サンプル１１２を修正して音声サンプル１１２の影響を強調、低減または変更し、ユーザ自身の音声と同様の、またはこれより大きいボリュームで修正された音声サンプル１１４を出力することが可能であり、ユーザがコミュニケートしている人がユーザの感情状態をより正確に理解することを可能にする。

一般に、音声修正アプリケーション２１２は、任意の技術的に実現可能なアルゴリズムまたは技術を使用して、音声サンプル１１２を修正し、音声サンプル１１２と関連した影響を強調、低減または変更することができる。いくつかの実施形態において、音声修正アプリケーション２１２は、フーリエ変換、調波スケーリング、ピッチ・スケーリング、ピッチ・シフト、タイム・ストレッチ、タイム・コンプレッション及びリサンプリングのようなオーディオ処理技術を介して音声サンプル１１２の音響特性を修正する。加えて、Ａｕｔｏ−Ｔｕｎｅまたは同様のオーディオ処理技術のような商業技術は、さまざまな実施形態で実装されることができる。

異なるユーザが感情を別々に表現することができるため（たとえば、文化的な、または個人的な理由により）、音声システム１００は、トレーニング・モードを含むことができる。トレーニング・モードにおいて、音声システム１００は、ユーザの感情状態を学習するために特定の感情状態と関連したセンサ・データを処理し、音声システム１００の操作中に感情状態をより正確に判定することが可能である。いくつかの実施形態において、音声システム１００は、音声システム１００が感情状態を判定するために実装することが可能であるユーザ・ヒューリスティックスを生成するために機械学習アルゴリズムを実装する。その後、このようなヒューリスティックスは、データベース２１４に格納され、音声修正アプリケーション２１２によりアクセスされることができる。

複数のタイプのセンサ・データを音声修正アプリケーション２１２により取得してユーザの感情状態を判定する実施形態において、重み付けは、各タイプのセンサ・データに割り当てられることができる。つぎにユーザの感情状態（複数を含む）は、各センサ・タイプについて判定された感情状態及び各センサ・タイプに割り当てられた重み付けに基づき判定されることができる。たとえば、限定されないが、ユーザは、ＧＵＩとインタラクトし、脳活動と関連したセンサ・データへ第一重み付け、表情と関連したセンサ活動へ第二重み付け、及び取得された音声サンプル１１２の音響特性と関連したセンサ・データへ第三重み付けを割り当てることが可能である。つぎに音声修正アプリケーション２１２は、各タイプのセンサ・データにより示された感情状態を判定し、重み付けを各感情状態に適用し、重み付けに基づき優勢な感情状態を判定する。いくつかの実施形態において、重み付けを特定のタイプのセンサ・データへ割り当てることは、あいまいな言語及び非言語キューを検出するときに、音声修正アプリケーション２１２が正しい感情状態（複数を含む）をより正確に判定することを可能にすることができる。加えて、重み付けを特定のタイプのセンサ・データに割り当てることは、音声修正アプリケーション２１２がこれらのタイプのセンサ・データを完全に無視せずにユーザの感情状態をあまり正確に反映しない可能性があるセンサ・データのタイプをあまり重視しないことを可能にすることができる。

図３Ａ及び３Ｂは、さまざまな実施形態により、図１の音声システム１００を介して修正された音声サンプル１１４を生成するための異なる技術を図示する。図３Ａで示されるように、いくつかの実施形態において、話し手と関連したデバイス３１０（たとえば、スマートフォン）で実行する音声修正アプリケーション２１２は、音声サンプル１１２を取得し、話し手の感情状態（複数を含む）を判定し、音声サンプル１１２及び感情状態（複数を含む）の両方を聞き手に送信する。つぎに、聞き手と関連したデバイス３２０は、音声サンプル１１２及び感情状態（複数を含む）を受信し、聞き手のデバイス３２０で実行する音声修正アプリケーション２１２は、聞き手に出力される修正された音声サンプル１１４を生成する。したがって、このような実施形態において、音声サンプル１１２を処理して、影響を強調、低減及び／または変更する方式は、たとえば、聞き手のデバイス３２０で実行する音声修正アプリケーション２１２により実装されたＧＵＩを介して、聞き手により制御されることができる。

図３Ｂで示されるように、いくつかの実施形態において、話し手と関連したデバイス３１０で実行する音声修正アプリケーション２１２は、音声サンプル１１２を取得し、話し手の感情状態（複数を含む）を判定し、ローカルに音声サンプル１１２を修正し、修正された音声サンプル１１４を生成する。つぎに修正された音声サンプル１１４は、聞き手と関連したデバイス３２０に送信され、聞き手に出力される。したがって、このような実施形態において、音声サンプル１１２を処理し、影響を強調、低減及び／または変更する方式は、たとえば、上記で説明されたＧＵＩ実装のいずれかを介して、話し手により制御されることができる。

加えて、図３Ａ及び３Ｂで図示された実施形態において、話し手及び聞き手は、音声サンプル１１２を修正して影響を強調、低減及び／または変更する度合いを交渉することができる。このような実施形態において、各聞き手及び話し手は、１つ以上の感情状態についての強調、低減及び／または変更の優先度を選択することが可能である。つぎに音声修正アプリケーション２１２は、たとえば、当事者らにより選択された強調、低減及び／または変更のより低い度合いを選択することで、話し手及び聞き手により行われた選択に基づき音声サンプル１１２を修正することができる。

図４は、さまざまな実施形態により、音声の影響を修正するための方法ステップの流れ図である。方法ステップは、図１〜３Ｂのシステムと併せて記述されるが、当業者は、任意の順序で方法ステップを実行するように構成された任意のシステムがさまざまな実施形態の範囲内に入ることを理解するであろう。

示されるように、方法４００は、音声修正アプリケーション２１２がマイクロフォン（複数を含む）１１０、Ｉ／Ｏデバイス２０４、カメラ（複数を含む）２２０、電極（複数を含む）２２２などを介して受信したセンサ・データを分析し、ユーザの感情状態を判定する、ステップ４１０で開始する。たとえば、限定されないが、上記で説明されるように、音声修正アプリケーション２１２は、センサ・データを分析し、ユーザの感情状態を示す言語及び／または非言語キューを検出することが可能である。そのとき、ステップ４２０で、音声修正アプリケーション２１２は、追加のタイプのセンサ・データを分析するべきであるかどうかを判定する。追加のタイプのセンサ・データを分析するべきである場合に、つぎに方法４００は、ステップ４１０へ戻る。

追加のタイプのセンサ・データを分析するべきではない場合に、つぎに方法４００は、音声修正アプリケーション２１２が重み付けを各タイプのセンサ・データへ任意選択で適用する、ステップ４３０へ進行する。上記で説明されるように、いくつかの実施形態において、音声システム１００のユーザは、重み付けを選択し、各タイプのセンサ・データへ適用することができる。加えて、いくつかの実施形態において、音声修正アプリケーション２１２は、重み付けを１つ以上のタイプのセンサ・データへ自動的に適用することができる。

ステップ４４０で、音声修正アプリケーション２１２は、各タイプのセンサ・データについて判定された感情状態を分析し、センサ・データにより示された優勢な感情状態を判定する。重み付けを１つ以上のタイプのセンサ・データに適用する実施形態において、音声修正アプリケーション２１２は、対応する重み付けを各タイプのセンサ・データについて判定された感情状態へ適用すること、及び感情状態が最高値を有すると判定することで、優勢な感情状態を判定することが可能である。たとえば、限定されないが、音声修正アプリケーション２１２は、４０％の第一重み付けを第一タイプのセンサ・データ（たとえば、マイクロフォン１１０を介して取得された音声サンプル１１２）へ、３０％の第二重み付けを第二タイプのセンサ・データ（たとえば、カメラ２２０を介して取得された顔画像）へ、及び３０％の第三重み付けを第三タイプのセンサ・データ（たとえば、電極２２２を介して取得された脳活動）へ割り当てることが可能である。その後、音声修正アプリケーション２１２が第一タイプのセンサ・データ及び第二タイプのセンサ・データの両方について「幸せな」感情状態を判定するが、第三タイプのセンサ・データについて「怒っている」感情状態を判定するなら、つぎにステップ４４０で、音声修正アプリケーション２１２は、たとえば、７０％の合計した重み付けに基づき「幸せな」感情状態が優勢な感情状態であると判定する。

いくつかの実施形態において、ステップ４４０で、音声修正アプリケーション２１２は、ユーザが提示した複数の優勢な感情状態を判定することが可能である。たとえば、限定されないが、音声修正アプリケーション２１２は、言語キュー（たとえば、音声サンプル１１２に基づき）を分析して第一感情状態を判定することが可能であり、非言語キュー（たとえば、表情に基づき）を分析して第二感情状態を判定することが可能である。その後、第一感情状態が第二感情状態と相反しないことを音声修正アプリケーション２１２が判定する場合に、第一感情状態及び第二感情状態の両方は、優勢な感情状態として指定されることが可能である。相反する感情状態の非限定的な実施例は、幸せな感情状態及び悲しい感情状態を含む。相反しない感情状態の非限定的な実施例は、幸せな感情状態及び神経質な感情状態、または怒っている感情状態及び悲しい感情状態を含む。

つぎに、ステップ４５０で、音声修正アプリケーション２１２は、ユーザから取得された音声サンプル１１２がローカル（たとえば、話し手デバイス３１０を介して）に、またはリモート（たとえば、聞き手デバイス３２０を介して）に修正されるべきであるかどうかを判定する。音声サンプル１１２がローカルに修正されるべきであると音声修正アプリケーション２１２が判定する場合に、つぎに方法４００は、音声修正アプリケーション２１２が優勢な感情状態（複数を含む）に基づき音声サンプル１１２の１つ以上の音響特性を修正する、ステップ４６０へ進む。加えて、ステップ４６０で、音声修正アプリケーション２１２は、音声サンプル１１２のアスペクト（たとえば、特定の周波数）をキャンセルするために、優勢な感情状態（複数を含む）に基づき１つ以上のノイズ・キャンセレーション信号を生成することができる。そのとき、ステップ４６５で、音声修正アプリケーション２１２は、たとえば、修正された音声サンプル１１４を聞き手デバイス３２０へ送信することで、及び／またはスピーカ１２０を介して修正された音声サンプル１１４を出力することで、修正された音声サンプル１１４を出力する。つぎに方法４００は、ステップ４１０へ戻る。

ステップ４５０に戻り、音声サンプル１１２がリモートに修正されるべきであると音声修正アプリケーション２１２が判定する場合に、つぎに方法４００は、音声修正アプリケーション２１２が１つ以上の音声サンプル１１２及び優勢な感情状態（複数を含む）を示すデータを聞き手デバイス３２０のようなリモート・デバイスへ送信する、ステップ４７０へ進む。上記で説明されるように、音声サンプル（複数を含む）１１２及び優勢な感情状態（複数を含む）を示すデータをリモート・デバイスへ送信することは、音声サンプル１１２を処理して音声サンプル（複数を含む）１１２での影響を強調、低減及び／または変更する方法をリモート・ユーザが決定することを可能にする。つぎに方法４００は、ステップ４１０へ戻る。

つまり、音声修正アプリケーションは、１つ以上のタイプのセンサ・データに基づきユーザの感情状態を判定する。つぎに、音声修正アプリケーションは、感情状態に基づき音声サンプルの影響を強調、低減及び／または変更するために、ユーザから取得された音声サンプルを修正する。その後音声修正アプリケーションは、修正された音声サンプルを聞き手へ出力する。

本明細書で記述された技術の少なくとも１つの利点は、話し手の音声での影響を強調し、話し手が彼らの感情状態をより効果的に伝えること、及び／または話し手の感情状態をより効果的に判定する際に聞き手を支援することを可能にすることができることである。加えて、話し手の音声での影響は、低減及び／または変更され、たとえば、限定されないが、話し手の感情状態を隠すことが可能である。さらに、話し手の感情状態は、話し手または聞き手からのインタラクションを必要としない、１つ以上のタイプのセンサ・データを介して自動的に判定されることができる。

さまざまな実施形態の説明は、例示のために提示されているが、網羅的であることを意図されず、または開示された実施形態に限定されない。多くの修正形態及び変形形態は、記述された実施形態の範囲及び趣旨から逸脱することなく当業者に明らかであろう。

本実施形態の態様は、システム、方法またはコンピュータ・プログラム製品として具現化されることができる。したがって、本開示の態様は、すべて一般的に「回路」、「モジュール」または「システム」と本明細書で言われることができる、全ハードウェア実施形態、全ソフトウェア実施形態（ファームウェア、常駐ソフトウェア、マイクロコードなどを含む）またはソフトウェア及びハードウェア態様を組み合わせる実施形態の形態を取ることができる。さらに、本開示の態様は、その上に具現化されたコンピュータ可読プログラム・コードを含む１つ以上のコンピュータ可読媒体（複数を含む）内で具現化されたコンピュータ・プログラム製品の形態を取ることができる。

１つ以上のコンピュータ可読媒体（複数を含む）の任意の組み合わせを利用することができる。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であってもよい。コンピュータ可読記憶媒体は、たとえば、限定されないが、電子、磁気、光学、電磁気、赤外線若しくは半導体システム、装置若しくはデバイスまたは任意の適切な前述の組み合わせであってもよい。さらにコンピュータ可読記憶媒体の特定の実施例（非網羅的なリスト）は、以下の、１本以上のワイヤを含む電気的接続、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能でプログラム可能な読み出し専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、光ファイバ、ポータブル・コンパクト・ディスク読み出し専用メモリ（ＣＤ−ＲＯＭ）、光ストレージ・デバイス、磁気ストレージ・デバイスまたは任意の適切な前述の組み合わせを含む。この文書の文脈において、コンピュータ可読記憶媒体は、インストラクション実行システム、装置またはデバイスによる使用のための、またはこれと接続するプログラムを含む、または格納することが可能である任意の有形媒体であってもよい。

本開示の態様は、本開示の実施形態により、方法、装置（システム）及びコンピュータ・プログラム製品のフローチャート図及び／またはブロック図を参照して上記で説明される。各ブロックのフローチャート図及び／またはブロック図、及びフローチャート図及び／またはブロック図内のブロックの組み合わせがコンピュータ・プログラム・インストラクションにより実装されることが可能であることを理解するであろう。これらのコンピュータ・プログラム・インストラクションは、汎用コンピュータ、専用コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサへ提供され、機械を生産することができるため、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行するインストラクションは、フローチャート及び／またはブロック図の単一のブロックまたは複数のブロックで指定された機能／動作の実施を可能にする。このようなプロセッサは、限定されないが、汎用プロセッサ、専用プロセッサ、特定用途向けプロセッサまたはフィールド・プログラマブル・プロセッサ若しくはゲート・アレイであってもよい。

図面内のフローチャート及びブロック図は、本開示のさまざまな実施形態により、システム、方法及びコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能性及び動作を説明する。この点について、フローチャートまたはブロック図の各ブロックは、指定された論理関数（複数を含む）を実装するために１つ以上の実行可能なインストラクションを含む、モジュール、セグメントまたはコードの部分を表すことができる。また、いくつかの代替の実装において、ブロックで言及される機能が図面で示された順序から外れることがあることに留意するべきである。たとえば、連続して示される２つのブロックは、実際には実質的に同時に実行されてもよい、またはこれらのブロックは、時として関連した機能性により、逆の順序で実行されてもよい。また、ブロック図及び／またはフローチャート図の各ブロック、及びブロック図及び／またはフローチャート図内のブロックの組み合わせは、指定された機能または動作を実行する専用ハードウェア・ベースのシステム、または専用ハードウェア及びコンピュータ・インストラクションの組み合わせにより実装されることが可能であることに留意するであろう。

前述は本開示の実施形態を対象とするが、本開示の他の及びさらなる実施形態は、その基本的な範囲から逸脱することなく考案されることができ、その範囲は、以下の特許請求の範囲により決定される。

Claims

インストラクションを含む非一時的なコンピュータ可読記憶媒体であって、前記インストラクションは、プロセッサにより実行されるときに、
人と関連した第一感情状態及び第二感情状態が相反しないことを判定するステップと、
前記第一感情状態及び前記第二感情状態の各々を優勢な感情状態として分類するステップと、
前記第一感情状態及び前記第二感情状態の各々を優勢な感情状態として分類したことに応答して、前記第一感情状態及び前記第二感情状態に基づき前記人から取得された音声サンプルの１つ以上の音響特性を修正し、前記音声サンプルと関連した影響を変更するステップと、
修正されている前記１つ以上の音響特性に基づき第二音声サンプルを生成するステップと、
前記第二音声サンプルを送信するステップと
を実行することで、音声の影響を修正するように前記プロセッサを構成する、非一時的なコンピュータ可読記憶媒体。
前記人と関連した前記第一感情状態及び前記第二感情状態が相反しないことを判定することは、視覚センサ・データを分析して前記人の１つ以上の顔特性を判定することを備える、請求項１に記載の非一時的なコンピュータ可読記憶媒体。
前記人と関連した前記第一感情状態及び前記第二感情状態が相反しないことを判定することは、前記音声サンプルを分析して感情状態を反映する少なくとも１つの音響特性を検出することを備える、請求項１に記載の非一時的なコンピュータ可読記憶媒体。
前記少なくとも１つの音響特性は、ピッチ、発声摂動、ラウドネス、及び発話速度のうちの少なくとも１つを含む、請求項３に記載の非一時的なコンピュータ可読記憶媒体。
前記人と関連した前記第一感情状態及び前記第二感情状態が相反しないことを判定することは、前記人の脳活動を分析することを備える、請求項１に記載の非一時的なコンピュータ可読記憶媒体。
前記音声サンプルの前記１つ以上の音響特性を修正することは、前記音声サンプルと関連したピッチを増加させることまたは前記音声サンプルと関連した前記ピッチを低減することのうちの少なくとも１つを備える、請求項１に記載の非一時的なコンピュータ可読記憶媒体。
前記音声サンプルの前記１つ以上の音響特性を修正することは、前記音声サンプルと関連した速度を上げること、前記音声サンプルと関連した前記速度を下げること、前記音声サンプルと関連したラウドネスを増加させること、または前記音声サンプルと関連した前記ラウドネスを減少させることのうちの少なくとも１つを備える、請求項１に記載の非一時的なコンピュータ可読記憶媒体。
インストラクションを含む非一時的なコンピュータ可読記憶媒体であって、前記インストラクションは、プロセッサにより実行されるときに、
人と関連した感情状態を判定するステップと、
前記感情状態に基づき前記人から取得された音声サンプルの１つ以上の音響特性を修正し、前記音声サンプルと関連した影響を変更するステップと、
修正されている前記１つ以上の音響特性に基づき第二音声サンプルを生成するステップと、
前記第二音声サンプルを送信するステップと
を実行することで、音声の影響を修正するように前記プロセッサを構成し、
前記感情状態を判定することは、
前記人と関連した第一タイプのセンサ・データを分析して第一感情状態を判定することと、
第一重み付けを前記第一感情状態に割り当てることと、
前記人と関連した第二タイプのセンサ・データを分析して第二感情状態を判定することと、
第二重み付けを前記第二感情状態に割り当てることと、
前記人と関連した第三タイプのセンサ・データを分析して第三感情状態を判定することと、
第三重み付けを前記第三感情状態に割り当てることであって、前記感情状態が前記第一感情状態、前記第二感情状態、前記第三感情状態、前記第一重み付け、前記第二重み付け、及び前記第三重み付けに基づく、ことと
を備える、非一時的なコンピュータ可読記憶媒体。
前記人と関連した前記第一感情状態及び前記第二感情状態が相反しないことを判定することは、グラフィカル・ユーザ・インタフェースを介して感情状態の選択を受信することを備える、請求項１に記載の非一時的なコンピュータ可読記憶媒体。
音声の影響を修正するためのシステムであって、前記システムは、
ユーザから音声サンプルを取得するように構成されたマイクロフォン、
前記ユーザと関連したセンサ・データを取得するように構成された１つ以上のセンサ、
音声修正アプリケーションを格納するメモリ、ならびに
前記マイクロフォン、前記１つ以上のセンサ及び前記メモリに結合されたプロセッサ、
を備え、
前記プロセッサにより実行されるときに、前記音声修正アプリケーションは、
前記センサ・データに基づき人と関連した第一感情状態及び第二感情状態が相反しないことを判定することと、
前記第一感情状態、前記第二感情状態をそれぞれ第一の優勢な感情状態、第二の優勢な感情状態として分類することと、
前記第一感情状態、前記第二感情状態をそれぞれ前記第一の優勢な感情状態、前記第二の優勢な感情状態として分類したことに応答して、前記第一の優勢な感情状態及び前記第二の優勢な感情状態のうちの少なくとも１つに基づき前記音声サンプルの１つ以上の音響特性を修正し、前記音声サンプルと関連した影響を変更することと、
修正されている前記１つ以上の音響特性に基づき第二音声サンプルを生成することと、
前記第二音声サンプルを送信することと
を実行するように前記プロセッサを設定する、システム。
前記プロセッサは、前記音声サンプルを分析して前記第一感情状態及び前記第二感情状態のうちの少なくとも１つと関連した少なくとも１つの音響特性を検出することで前記人と関連した前記第一感情状態及び前記第二感情状態が相反しないことを判定するように設定される、請求項１０に記載のシステム。
前記１つ以上のセンサは、カメラを備え、前記プロセッサは、前記カメラを介して取得された１つ以上の画像を分析して前記人の１つ以上の顔特性を判定することで前記人と関連した前記第一感情状態及び前記第二感情状態が相反しないことを判定するように設定される、請求項１０に記載のシステム。
前記１つ以上のセンサは、カメラを備え、前記プロセッサは、前記カメラを介して取得された１つ以上の画像を分析して前記人により実行されたジェスチャ及び前記人の姿勢のうちの少なくとも１つを判定することで前記人と関連した前記第一感情状態及び前記第二感情状態が相反しないことを判定するように設定される、請求項１０に記載のシステム。
前記センサ・データは、前記人の脳活動を示す信号を含み、前記プロセッサは、前記脳活動に基づき前記人と関連した前記第一感情状態及び前記第二感情状態が相反しないことを判定するように設定される、請求項１０に記載のシステム。
前記ユーザの脳活動を示す前記信号は、脳波検査（ＥＥＧ）信号、機能的磁気共鳴画像法（ｆＭＲＩ）信号、及び機能的近赤外線分光法（ｆＮＩＲＳ）信号のうちの少なくとも１つを含む、請求項１４に記載のシステム。
音声の影響を修正するためのシステムであって、前記システムは、
ユーザから音声サンプルを取得するように構成されたマイクロフォン、
前記ユーザと関連したセンサ・データを取得するように構成された１つ以上のセンサ、
音声修正アプリケーションを格納するメモリ、ならびに
前記マイクロフォン、前記１つ以上のセンサ及び前記メモリに結合されたプロセッサ、
を備え、
前記プロセッサにより実行されるときに、前記音声修正アプリケーションは、
前記センサ・データに基づき人と関連した優勢な感情状態を判定することと、
前記優勢な感情状態に基づき前記音声サンプルの１つ以上の音響特性を修正し、前記音声サンプルと関連した影響を変更することと、
修正されている前記１つ以上の音響特性に基づき第二音声サンプルを生成することと、
前記第二音声サンプルを送信することと、
を実行するように前記プロセッサを設定し、
前記プロセッサにより実行されるときに、前記音声修正アプリケーションは、
前記センサ・データ内に含まれた第一タイプのセンサ・データを分析して第一感情状態を判定することと、
前記センサ・データ内に含まれた第二タイプのセンサ・データを分析して第二感情状態を判定することと、
前記第一感情状態及び前記第二感情状態が相反する感情状態であるかどうかを判定することと、
前記第一感情状態及び前記第二感情状態が相反する感情状態であると判定することに基づき、前記第一タイプのセンサ・データに割り当てられた重み付けに基づき前記優勢な感情状態として前記第一感情状態を選択することと
により前記人と関連した前記優勢な感情状態を判定するように前記プロセッサを設定する、システム。
前記第二音声サンプルは、ノイズ・キャンセレーション信号を含み、前記プロセッサにより実行されるときに、前記音声修正アプリケーションは、スピーカを介して前記ノイズ・キャンセレーション信号を出力して前記人の音声を修正することで前記第二音声サンプルを送信するように前記プロセッサを設定する、請求項１０に記載のシステム。
音声の影響を修正する方法であって、前記方法は、
人及び前記人からの音声サンプルと関連したセンサ・データを取得することと、
前記センサ・データに基づき前記人と関連した第一感情状態及び第二感情状態が相反しないことを判定することと、
前記第一感情状態及び前記第二感情状態の各々を優勢な感情状態として分類することと、
前記第一感情状態及び前記第二感情状態の各々を優勢な感情状態として分類したことに応答して、前記第一感情状態及び前記第二感情状態のうちの少なくとも１つを示すデータ及び前記音声サンプルをリモート・デバイスへ送信することと
を備える、方法。
前記センサ・データは、前記人の前記音声の音響特性、前記人の表情、及び前記人の脳活動のうちの少なくとも１つを含む、請求項１８に記載の方法。
前記リモート・デバイスは、前記人と関連した前記第一感情状態及び前記第二感情状態のうちの前記少なくとも１つに基づき前記音声サンプルを修正して第二音声サンプルを生成し、前記第二音声サンプルを出力するように設定される、請求項１８に記載の方法。