JP2021518072A - ユーザ関与に基づくオーディオ選択 - Google Patents
ユーザ関与に基づくオーディオ選択 Download PDFInfo
- Publication number
- JP2021518072A JP2021518072A JP2020547375A JP2020547375A JP2021518072A JP 2021518072 A JP2021518072 A JP 2021518072A JP 2020547375 A JP2020547375 A JP 2020547375A JP 2020547375 A JP2020547375 A JP 2020547375A JP 2021518072 A JP2021518072 A JP 2021518072A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- involvement
- metric
- user
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 238000000034 method Methods 0.000 claims abstract description 80
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000004891 communication Methods 0.000 claims description 155
- 241000282414 Homo sapiens Species 0.000 claims description 43
- 238000003860 storage Methods 0.000 claims description 40
- 230000008569 process Effects 0.000 claims description 32
- 230000002238 attenuated effect Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 abstract description 3
- 230000006855 networking Effects 0.000 description 173
- 230000009471 action Effects 0.000 description 79
- 230000015654 memory Effects 0.000 description 31
- 230000000875 corresponding effect Effects 0.000 description 25
- 230000000694 effects Effects 0.000 description 17
- 230000008859 change Effects 0.000 description 16
- 230000036651 mood Effects 0.000 description 15
- 230000004044 response Effects 0.000 description 15
- 230000008451 emotion Effects 0.000 description 13
- 230000005236 sound signal Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 230000004048 modification Effects 0.000 description 8
- 238000012986 modification Methods 0.000 description 8
- 238000013475 authorization Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 239000008186 active pharmaceutical agent Substances 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 230000001413 cellular effect Effects 0.000 description 5
- 230000003313 weakening effect Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 206010011469 Crying Diseases 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 239000007789 gas Substances 0.000 description 2
- 239000001307 helium Substances 0.000 description 2
- 229910052734 helium Inorganic materials 0.000 description 2
- SWQJXJOGLNCZEY-UHFFFAOYSA-N helium atom Chemical compound [He] SWQJXJOGLNCZEY-UHFFFAOYSA-N 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 208000003251 Pruritus Diseases 0.000 description 1
- 241000555745 Sciuridae Species 0.000 description 1
- 206010039740 Screaming Diseases 0.000 description 1
- 241000269400 Sirenidae Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000007803 itching Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 230000002207 retinal effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06311—Scheduling, planning or task assignment for a person or group
- G06Q10/063114—Status monitoring or status determination for a person or group
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
Description
オーディオビジュアル通信セッション中に、少なくとも2つのマイクロフォンを備えるマイクロフォンアレイからオーディオ入力データを受信することであって、オーディオ入力データが、環境内の第1のロケーションにおける第1の音源と、環境内の第2のロケーションにおける第2の音源とによって生成される、オーディオ入力データを受信することと、
第1の音源についての第1の関与メトリックと、第2の音源についての第2の関与メトリックとを計算することであって、
第1の関与メトリックが、第1の音源についての受信ユーザの興味レベル(interest level)に近似し、
第2の関与メトリックが、第2の音源についての受信ユーザからの興味レベルに近似する、第1の関与メトリックと第2の関与メトリックとを計算することと、
第1の関与メトリックが第2の関与メトリックよりも大きいと決定することと、
オーディオ出力信号を生成するためにオーディオ入力データを処理することであって、オーディオ出力信号が、第1の音源によって生成された音を増幅し、第2の音源によって生成された音を減衰させる、オーディオ入力データを処理することと、
オーディオ出力信号を、受信ユーザに関連付けられたコンピューティングデバイスに送信することと
を含み得る。
複数のノードと、ノードを接続する複数のエッジとを備えるソーシャルグラフにアクセスすることであって、
第1のノードが受信ユーザに対応し、
第2のノードが、第1の音源に関連付けられたエンティティに対応し、
第1のノードと第2のノードとの間のエッジが、受信ユーザとエンティティとの間の関係を表す、ソーシャルグラフにアクセスすることと、
第1のノードと第2のノードとの間のエッジに基づいて第1の関与メトリックを増加させることと
を含み得る。
第2の関与は、第2の音源によって話されるワードのカウント、第2の音源とマイクロフォンアレイとの間の距離、または第2の音源が現在のオーディオビジュアル通信セッション中に環境中に存在していた時間の量に少なくとも部分的に基づいて計算され得る。
オーディオビジュアル通信セッション中に、少なくとも2つのマイクロフォンを備えるマイクロフォンアレイからオーディオ入力データを受信することであって、オーディオ入力データが、環境内の第1のロケーションにおける第1の音源と、環境内の第2のロケーションにおける第2の音源とによって生成される、オーディオ入力データを受信することと、
第1の音源についての第1の関与メトリックと、第2の音源についての第2の関与メトリックとを計算することであって、
第1の関与メトリックが、第1の音源についての受信ユーザの興味レベルに近似し、
第2の関与メトリックが、第2の音源についての受信ユーザからの興味レベルに近似する、第1の関与メトリックと第2の関与メトリックとを計算することと、
第1の関与メトリックが第2の関与メトリックよりも大きいと決定することと、
オーディオ出力信号を生成するためにオーディオ入力データを処理することであって、オーディオ出力信号が、第1の音源によって生成された音を増幅し、第2の音源によって生成された音を減衰させる、オーディオ入力データを処理することと、
オーディオ出力信号を、受信ユーザに関連付けられたコンピューティングデバイスに送信することと
を行うように動作可能である。
複数のノードと、ノードを接続する複数のエッジとを備えるソーシャルグラフにアクセスすることであって、
第1のノードが受信ユーザに対応し、
第2のノードが、第1の音源に関連付けられたエンティティに対応し、
第1のノードと第2のノードとの間のエッジが、受信ユーザとエンティティとの間の関係を表す、ソーシャルグラフにアクセスすることと、
第1のノードと第2のノードとの間のエッジに基づいて第1の関与メトリックを増加させることと
を行うように動作可能であり得る。
第2の関与は、第2の音源によって話されるワードのカウント、第2の音源とマイクロフォンアレイとの間の距離、または第2の音源が現在のオーディオビジュアル通信セッション中に環境中に存在していた時間の量に少なくとも部分的に基づいて計算され得る。
1つまたは複数のプロセッサと、
プロセッサのうちの1つまたは複数に結合され、命令を備える、1つまたは複数のコンピュータ可読非一時的記憶媒体とを備え得、命令は、プロセッサのうちの1つまたは複数によって実行されたとき、システムに、
オーディオビジュアル通信セッション中に、少なくとも2つのマイクロフォンを備えるマイクロフォンアレイからオーディオ入力データを受信することであって、オーディオ入力データが、環境内の第1のロケーションにおける第1の音源と、環境内の第2のロケーションにおける第2の音源とによって生成される、オーディオ入力データを受信することと、
第1の音源についての第1の関与メトリックと、第2の音源についての第2の関与メトリックとを計算することであって、
第1の関与メトリックが、第1の音源についての受信ユーザの興味レベルに近似し、
第2の関与メトリックが、第2の音源についての受信ユーザからの興味レベルに近似する、第1の関与メトリックと第2の関与メトリックとを計算することと、
第1の関与メトリックが第2の関与メトリックよりも大きいと決定することと、
オーディオ出力信号を生成するためにオーディオ入力データを処理することであって、オーディオ出力信号が、第1の音源によって生成された音を増幅し、第2の音源によって生成された音を減衰させる、オーディオ入力データを処理することと、
オーディオ出力信号を、受信ユーザに関連付けられたコンピューティングデバイスに送信することと
を行わせるように動作可能である。
特定の実施形態では、コンピューティングシステムの1つまたは複数のオブジェクト(たとえば、コンテンツまたは他のタイプのオブジェクト)は、1つまたは複数のプライバシー設定に関連付けられ得る。1つまたは複数のオブジェクトは、たとえば、ソーシャルネットワーキングシステム660、クライアントシステム630、サードパーティシステム670、ソーシャルネットワーキングアプリケーション、メッセージングアプリケーション、写真共有アプリケーション、あるいは任意の他の好適なコンピューティングシステムまたはアプリケーションなど、任意の好適なコンピューティングシステムまたはアプリケーションに記憶されるか、または場合によっては関連付けられ得る。本明細書で説明される例はオンラインソーシャルネットワークのコンテキストにおけるものであるが、これらのプライバシー設定は、任意の他の好適なコンピューティングシステムに適用され得る。オブジェクトについてのプライバシー設定(または「アクセス設定」)は、たとえば、オブジェクトに関連して、認可サーバ上のインデックス中で、別の好適な様式で、またはそれらの任意の好適な組合せなど、任意の好適な様式で記憶され得る。オブジェクトについてのプライバシー設定は、オブジェクト(またはオブジェクトに関連付けられた特定の情報)がオンラインソーシャルネットワーク内でどのようにアクセスされ、記憶され、または場合によっては使用され(たとえば、閲覧、共有、修正、コピー、実行、表面化、または識別され)得るかを指定し得る。オブジェクトについてのプライバシー設定が、特定のユーザまたは他のエンティティがそのオブジェクトにアクセスすることを可能にするとき、オブジェクトは、そのユーザまたは他のエンティティに関して「可視」であるものとして説明され得る。限定としてではなく一例として、オンラインソーシャルネットワークのユーザは、ユーザプロファイルページに関する職歴情報にアクセスし得るユーザのセットを識別するユーザプロファイルページについてのプライバシー設定を指定し、したがって、他のユーザがその情報にアクセスすることを除外し得る。
特定の実施形態では、プライバシー設定は、ユーザがユーザに関連付けられた気分または感情情報が決定され得るかどうか、および特定のアプリケーションまたはプロセスがそのような情報にアクセスするか、そのような情報を記憶するか、または使用し得るかどうかを指定することを可能にし得る。プライバシー設定は、ユーザが、固有のアプリケーションまたはプロセスによって、気分または感情情報がアクセス、記憶、または使用されることをオプトインまたはオプトアウトすることを可能にし得る。ソーシャルネットワーキングシステム660は、たとえば、ユーザによって閲覧されるページまたはコンテンツ、ユーザによってアップロードされる投稿または他のコンテンツ、およびオンラインソーシャルネットワークの他のコンテンツとの対話など、ユーザによって提供される入力、および特定のオブジェクトとの対話に基づいて、ユーザに関連付けられた気分または感情を予測または決定し得る。特定の実施形態では、ソーシャルネットワーキングシステム660は、当面の気分または感情を決定するために、ユーザの前のアクティビティと計算された気分または感情とを使用し得る。この機能性を可能にすることを望むユーザは、ユーザが、ソーシャルネットワーキングシステム660が気分または感情を決定するのに必要な入力を受信することをオプトインすることをユーザのプライバシー設定において指示し得る。限定としてではなく一例として、ソーシャルネットワーキングシステム660は、デフォルトプライバシー設定が、ソーシャルネットワーキングシステム660が気分または感情を決定するために必要な情報を受信し得るという、ユーザからの明示的な指示があるまで、その情報を受信しないことであると決定し得る。対照的に、ユーザが、ソーシャルネットワーキングシステム660がこれらの入力を受信することにオプトインしない(またはソーシャルネットワーキングシステム660がこれらの入力を受信することから断定的にオプトアウトする)場合、ソーシャルネットワーキングシステム660は、これらの入力またはこれらの入力に関連付けられた任意の情報を受信、収集、ロギング、または記憶するのを妨げられ得る。特定の実施形態では、ソーシャルネットワーキングシステム660は、ユーザに推奨または広告を提供するために、予測された気分または感情を使用し得る。特定の実施形態では、ユーザが固有の目的または適用例のためにこの機能を利用することを望む場合、固有の目的または適用例のために気分または感情情報を使用することをオプトインするために、ユーザによって追加のプライバシー設定が指定され得る。限定としてではなく一例として、ソーシャルネットワーキングシステム660は、ユーザにニュースフィードアイテム、ページ、友達または広告を提供するためにユーザの気分または感情を使用し得る。ユーザは、ユーザのプライバシー設定において、ソーシャルネットワーキングシステム660がユーザの気分または感情を決定し得ることを指定し得る。ユーザは、次いで、ユーザの気分または感情が使用され得る目的を指示するために追加のプライバシー設定を提供するように依頼され得る。ユーザは、ソーシャルネットワーキングシステム660が、友達または広告を推奨するためにではなく、ニュースフィードコンテンツを提供し、ページを推奨するために自分の気分または感情を使用し得ることを指示し得る。ソーシャルネットワーキングシステム660は、その場合、ユーザの気分または感情に基づいてニュースフィードコンテンツまたはページを提供し得るにすぎず、プライバシー設定によって明確に禁止されない場合でも、任意の他の目的のためにその情報を使用することができない。
特定の実施形態では、ソーシャルネットワーキングシステム660は、ユーザ認証またはエクスペリエンス個人化目的のために、ユーザのパーソナル情報または生体情報を入力として使用し得る機能性を有し得る。ユーザは、オンラインソーシャルネットワーク上のユーザのエクスペリエンスを向上させるためにこれらの機能性を利用することを選び得る。限定としてではなく一例として、ユーザは、ソーシャルネットワーキングシステム660にパーソナル情報または生体情報を提供し得る。ユーザのプライバシー設定は、そのような情報が認証などの特定のプロセスのためにのみ使用され得ることを指定し、そのような情報が、任意のサードパーティシステム670と共有されないか、またはソーシャルネットワーキングシステム660に関連付けられた他のプロセスまたはアプリケーションのために使用され得ないことをさらに指定し得る。限定としてではなく別の例として、ソーシャルネットワーキングシステム660は、ユーザがオンラインソーシャルネットワークに声紋記録を提供するための機能性を提供し得る。限定としてではなく一例として、ユーザが、オンラインソーシャルネットワークのこの機能を利用することを望む場合、ユーザは、オンラインソーシャルネットワーク上でステータス更新を行うために自分自身の音声の音声記録を提供し得る。音声入力の記録は、どんなワードがユーザによって話されたかを決定するために、ユーザの声紋と比較され得る。ユーザのプライバシー設定は、そのような音声記録が音声入力目的のために(たとえば、ユーザを認証するために、音声メッセージを送信するために、オンラインソーシャルネットワークの音声操作式特徴を使用するために音声認識を改善するために)のみ使用され得ることを指定し、そのような音声記録が、任意のサードパーティシステム670と共有されないか、またはソーシャルネットワーキングシステム660に関連付けられた他のプロセスまたはアプリケーションによって使用され得ないことをさらに指定し得る。限定としてではなく別の例として、ソーシャルネットワーキングシステム660は、ユーザがオンラインソーシャルネットワークに参照画像(たとえば、顔プロファイル、網膜スキャン)を提供するための機能性を提供し得る。オンラインソーシャルネットワークは、(たとえば、ユーザを認証するために、写真においてユーザをタグ付けするために)参照画像を、後で受信された画像入力と比較し得る。ユーザのプライバシー設定は、そのような音声記録が限られた目的(たとえば、認証、写真においてユーザをタグ付けすること)のためにのみ使用され得ることを指定し、そのような音声記録が、任意のサードパーティシステム670と共有されないか、またはソーシャルネットワーキングシステム660に関連付けられた他のプロセスまたはアプリケーションによって使用され得ないことをさらに指定し得る。
特定の実施形態では、プライバシー設定に対する変更は、遡及的に効果を生じ、変更より前に共有されたオブジェクトおよびコンテンツの可視性に影響を及ぼし得る。限定としてではなく一例として、第1のユーザは、第1の画像を共有し、第1の画像がすべての他のユーザに公開になるべきであることを指定し得る。後で、第1のユーザは、第1のユーザによって共有された画像が第1のユーザグループにのみ可視にされるべきであることを指定し得る。ソーシャルネットワーキングシステム660は、このプライバシー設定が第1の画像にも適用されると決定し、第1の画像を第1のユーザグループにのみ可視にし得る。特定の実施形態では、プライバシー設定の変更は、将来にのみ効果を生じ得る。上記の例を続けると、第1のユーザがプライバシー設定を変更し、次いで、第2の画像を共有する場合、第2の画像は、第1のユーザグループにのみ可視であり得るが、第1の画像は、すべてのユーザに可視のままであり得る。特定の実施形態では、プライバシー設定を変更するためのユーザアクションに応答して、ソーシャルネットワーキングシステム660は、さらに、ユーザが変更をプライバシー設定に遡及的に適用することを希望するかどうかを指示するようにユーザにプロンプトし得る。特定の実施形態では、プライバシー設定に対するユーザ変更は、1つのオブジェクトに固有の1回限りの変更であり得る。特定の実施形態では、プライバシーに対するユーザ変更は、ユーザに関連付けられたすべてのオブジェクトについてのグローバル変更であり得る。
Claims (34)
- オーディオビジュアル通信セッション中に、少なくとも2つのマイクロフォンを備えるマイクロフォンアレイからオーディオ入力データを受信することであって、前記オーディオ入力データが、環境内の第1のロケーションにおける第1の音源と、前記環境内の第2のロケーションにおける第2の音源とによって生成される、オーディオ入力データを受信することと、
前記第1の音源についての第1の関与メトリックと、前記第2の音源についての第2の関与メトリックとを計算することであって、
前記第1の関与メトリックが、前記第1の音源についての受信ユーザの興味レベルに近似し、
前記第2の関与メトリックが、前記第2の音源についての前記受信ユーザからの興味レベルに近似する、第1の関与メトリックと第2の関与メトリックとを計算することと、
前記第1の関与メトリックが前記第2の関与メトリックよりも大きいと決定することと、
オーディオ出力信号を生成するために前記オーディオ入力データを処理することであって、前記オーディオ出力信号が、前記第1の音源によって生成された音を増幅し、前記第2の音源によって生成された音を減衰させる、前記オーディオ入力データを処理することと、
前記オーディオ出力信号を、前記受信ユーザに関連付けられたコンピューティングデバイスに送信することと
を含む、方法。 - 前記第1の音源についての第1の分類と前記第2の音源についての第2の分類とを決定することであって、前記第1の関与メトリックが前記第1の分類に基づき、前記第2の関与メトリックが前記第2の分類に基づく、第1の分類と第2の分類とを決定することをさらに含む、請求項1に記載の方法。
- 前記第1の音源についての前記第1の分類が人間の音声であり、前記第2の音源についての前記第2の分類が人間以外の音である、請求項2に記載の方法。
- 前記第1の分類と前記第2の分類とを前記決定することが、オーディオビデオ通信セッションについての記述的モデルから受信された情報に基づき、前記記述的モデルは、(1)現在のオーディオビデオ通信セッションに関連付けられた環境、(2)前記環境内の1人または複数の人々、または(3)前記現在のオーディオビデオ通信セッションに関連付けられた1つまたは複数のコンテキスト要素に関する、1つまたは複数の記述的特性を含む、請求項2に記載の方法。
- 前記オーディオ入力データを前記処理することが、前記第1の源によって生成された第1のオーディオ入力信号と、前記第2の源によって生成された第2のオーディオ入力信号とを音響的にビームフォーミングすることを含み、前記音響的にビームフォーミングすることは、前記第1の音源が増幅され、前記第2の音源が減衰されるように、前記第2のオーディオ入力信号を時間遅延させることを含む、請求項1に記載の方法。
- 前記第1の関与メトリックと前記第2の関与メトリックとが、(1)現在のオーディオビデオ通信セッションに関連付けられた環境、(2)前記環境内の1人または複数の人々、または(3)前記現在のオーディオビデオ通信セッションに関連付けられた1つまたは複数のコンテキスト要素に関する、1つまたは複数の記述的特性を含む、前記オーディオビデオ通信セッションについての記述的モデルに基づいて計算される、請求項1に記載の方法。
- 複数のノードと、前記ノードを接続する複数のエッジとを備えるソーシャルグラフにアクセスすることであって、
第1のノードが前記受信ユーザに対応し、
第2のノードが、前記第1の音源に関連付けられたエンティティに対応し、
前記第1のノードと前記第2のノードとの間のエッジが、前記受信ユーザと前記エンティティとの間の関係を表す、ソーシャルグラフにアクセスすることと、
前記第1のノードと前記第2のノードとの間の前記エッジに基づいて前記第1の関与メトリックを増加させることと
をさらに含む、請求項1に記載の方法。 - 前記第1の関与が、前記第1の音源によって話されるワードのカウント、前記第1の音源と前記マイクロフォンアレイとの間の距離、または前記第1の音源が現在のオーディオビジュアル通信セッション中に前記環境中に存在していた時間の量に少なくとも部分的に基づいて計算され、
前記第2の関与が、前記第2の音源によって話されるワードのカウント、前記第2の音源と前記マイクロフォンアレイとの間の距離、または前記第2の音源が前記現在のオーディオビジュアル通信セッション中に前記環境中に存在していた時間の量に少なくとも部分的に基づいて計算される、請求項1に記載の方法。 - ソフトウェアを具現する1つまたは複数のコンピュータ可読非一時的記憶媒体であって、前記ソフトウェアは、実行されたとき、
オーディオビジュアル通信セッション中に、少なくとも2つのマイクロフォンを備えるマイクロフォンアレイからオーディオ入力データを受信することであって、前記オーディオ入力データが、環境内の第1のロケーションにおける第1の音源と、前記環境内の第2のロケーションにおける第2の音源とによって生成される、オーディオ入力データを受信することと、
前記第1の音源についての第1の関与メトリックと、前記第2の音源についての第2の関与メトリックとを計算することであって、
前記第1の関与メトリックが、前記第1の音源についての受信ユーザの興味レベルに近似し、
前記第2の関与メトリックが、前記第2の音源についての前記受信ユーザからの興味レベルに近似する、第1の関与メトリックと第2の関与メトリックとを計算することと、
前記第1の関与メトリックが前記第2の関与メトリックよりも大きいと決定することと、
オーディオ出力信号を生成するために前記オーディオ入力データを処理することであって、前記オーディオ出力信号が、前記第1の音源によって生成された音を増幅し、前記第2の音源によって生成された音を減衰させる、前記オーディオ入力データを処理することと、
前記オーディオ出力信号を、前記受信ユーザに関連付けられたコンピューティングデバイスに送信することと
を行うように動作可能である、1つまたは複数のコンピュータ可読非一時的記憶媒体。 - 前記ソフトウェアは、実行されたとき、前記第1の音源についての第1の分類と前記第2の音源についての第2の分類とを決定することであって、前記第1の関与メトリックが前記第1の分類に基づき、前記第2の関与メトリックが前記第2の分類に基づく、第1の分類と第2の分類とを決定することを行うようにさらに動作可能である、請求項9に記載の媒体。
- 前記第1の音源についての前記第1の分類が人間の音声であり、前記第2の音源についての前記第2の分類が人間以外の音である、請求項10に記載の媒体。
- 前記第1の分類と前記第2の分類とを前記決定することが、オーディオビデオ通信セッションについての記述的モデルから受信された情報に基づき、前記記述的モデルは、(1)現在のオーディオビデオ通信セッションに関連付けられた環境、(2)前記環境内の1人または複数の人々、または(3)前記現在のオーディオビデオ通信セッションに関連付けられた1つまたは複数のコンテキスト要素に関する、1つまたは複数の記述的特性を含む、請求項10に記載の媒体。
- 前記オーディオ入力データを前記処理することが、前記第1の源によって生成された第1のオーディオ入力信号と、前記第2の源によって生成された第2のオーディオ入力信号とを音響的にビームフォーミングすることを含み、前記音響的にビームフォーミングすることは、前記第1の音源が増幅され、前記第2の音源が減衰されるように、前記第2のオーディオ入力信号を時間遅延させることを含む、請求項9に記載の媒体。
- 前記第1の関与メトリックと前記第2の関与メトリックとが、(1)現在のオーディオビデオ通信セッションに関連付けられた環境、(2)前記環境内の1人または複数の人々、または(3)前記現在のオーディオビデオ通信セッションに関連付けられた1つまたは複数のコンテキスト要素に関する、1つまたは複数の記述的特性を含む
、前記オーディオビデオ通信セッションについての記述的モデルに基づいて計算される、請求項9に記載の媒体。 - 前記ソフトウェアは、実行されたとき、
複数のノードと、前記ノードを接続する複数のエッジとを備えるソーシャルグラフにアクセスすることであって、
第1のノードが前記受信ユーザに対応し、
第2のノードが、前記第1の音源に関連付けられたエンティティに対応し、
前記第1のノードと前記第2のノードとの間のエッジが、前記受信ユーザと前記エンティティとの間の関係を表す、ソーシャルグラフにアクセスすることと、
前記第1のノードと前記第2のノードとの間の前記エッジに基づいて前記第1の関与メトリックを増加させることと
を行うようにさらに動作可能である、請求項9に記載の媒体。 - 前記第1の関与が、前記第1の音源によって話されるワードのカウント、前記第1の音源と前記マイクロフォンアレイとの間の距離、または前記第1の音源が現在のオーディオビジュアル通信セッション中に前記環境中に存在していた時間の量に少なくとも部分的に基づいて計算され、
前記第2の関与が、前記第2の音源によって話されるワードのカウント、前記第2の音源と前記マイクロフォンアレイとの間の距離、または前記第2の音源が前記現在のオーディオビジュアル通信セッション中に前記環境中に存在していた時間の量に少なくとも部分的に基づいて計算される、請求項9に記載の媒体。 - 1つまたは複数のプロセッサと、
前記プロセッサのうちの1つまたは複数に結合され、命令を備える、1つまたは複数のコンピュータ可読非一時的記憶媒体と
を備えるシステムであって、前記命令は、前記プロセッサのうちの1つまたは複数によって実行されたとき、前記システムに、
オーディオビジュアル通信セッション中に、少なくとも2つのマイクロフォンを備えるマイクロフォンアレイからオーディオ入力データを受信することであって、前記オーディオ入力データが、環境内の第1のロケーションにおける第1の音源と、前記環境内の第2のロケーションにおける第2の音源とによって生成される、オーディオ入力データを受信することと、
前記第1の音源についての第1の関与メトリックと、前記第2の音源についての第2の関与メトリックとを計算することであって、
前記第1の関与メトリックが、前記第1の音源についての受信ユーザの興味レベルに近似し、
前記第2の関与メトリックが、前記第2の音源についての前記受信ユーザからの興味レベルに近似する、第1の関与メトリックと第2の関与メトリックとを計算することと、
前記第1の関与メトリックが前記第2の関与メトリックよりも大きいと決定することと、
オーディオ出力信号を生成するために前記オーディオ入力データを処理することであって、前記オーディオ出力信号が、前記第1の音源によって生成された音を増幅し、前記第2の音源によって生成された音を減衰させる、前記オーディオ入力データを処理することと、
前記オーディオ出力信号を、前記受信ユーザに関連付けられたコンピューティングデバイスに送信することと
を行わせるように動作可能である、システム。 - 前記プロセッサは、前記命令を実行したとき、前記第1の音源についての第1の分類と前記第2の音源についての第2の分類とを決定することであって、前記第1の関与メトリックが前記第1の分類に基づき、前記第2の関与メトリックが前記第2の分類に基づく、第1の分類と第2の分類とを決定することを行うようにさらに動作可能である、請求項17に記載のシステム。
- 前記第1の音源についての前記第1の分類が人間の音声であり、前記第2の音源についての前記第2の分類が人間以外の音である、請求項18に記載のシステム。
- 前記第1の分類と前記第2の分類とを前記決定することが、オーディオビデオ通信セッションについての記述的モデルから受信された情報に基づき、前記記述的モデルは、(1)現在のオーディオビデオ通信セッションに関連付けられた環境、(2)前記環境内の1人または複数の人々、または(3)前記現在のオーディオビデオ通信セッションに関連付けられた1つまたは複数のコンテキスト要素に関する、1つまたは複数の記述的特性を含む、請求項18に記載のシステム。
- オーディオビジュアル通信セッション中に、少なくとも2つのマイクロフォンを備えるマイクロフォンアレイからオーディオ入力データを受信することであって、前記オーディオ入力データが、環境内の第1のロケーションにおける第1の音源と、前記環境内の第2のロケーションにおける第2の音源とによって生成される、オーディオ入力データを受信することと、
前記第1の音源についての第1の関与メトリックと、前記第2の音源についての第2の関与メトリックとを計算することであって、
前記第1の関与メトリックが、前記第1の音源についての受信ユーザの興味レベルに近似し、
前記第2の関与メトリックが、前記第2の音源についての前記受信ユーザからの興味レベルに近似する、第1の関与メトリックと第2の関与メトリックとを計算することと、
前記第1の関与メトリックが前記第2の関与メトリックよりも大きいと決定することと、
オーディオ出力信号を生成するために前記オーディオ入力データを処理することであって、前記オーディオ出力信号が、前記第1の音源によって生成された音を増幅し、前記第2の音源によって生成された音を減衰させる、前記オーディオ入力データを処理することと、
前記オーディオ出力信号を、前記受信ユーザに関連付けられたコンピューティングデバイスに送信することと
を含む、方法。 - 前記第1の音源についての第1の分類と前記第2の音源についての第2の分類とを決定することであって、前記第1の関与メトリックが前記第1の分類に基づき、前記第2の関与メトリックが前記第2の分類に基づく、第1の分類と第2の分類とを決定することをさらに含み、
随意に、前記第1の音源についての前記第1の分類が人間の音声であり、前記第2の音源についての前記第2の分類が人間以外の音であり、および/あるいは
随意に、前記第1の分類と前記第2の分類とを前記決定することが、オーディオビデオ通信セッションについての記述的モデルから受信された情報に基づき、前記記述的モデルは、(1)現在のオーディオビデオ通信セッションに関連付けられた環境、(2)前記環境内の1人または複数の人々、または(3)前記現在のオーディオビデオ通信セッションに関連付けられた1つまたは複数のコンテキスト要素に関する、1つまたは複数の記述的特性を含む、請求項21に記載の方法。 - 前記オーディオ入力データを前記処理することが、前記第1の源によって生成された第1のオーディオ入力信号と、前記第2の源によって生成された第2のオーディオ入力信号とを音響的にビームフォーミングすることを含み、前記音響的にビームフォーミングすることは、前記第1の音源が増幅され、前記第2の音源が減衰されるように、前記第2のオーディオ入力信号を時間遅延させることを含む、請求項21または22に記載の方法。
- 前記第1の関与メトリックと前記第2の関与メトリックとが、(1)現在のオーディオビデオ通信セッションに関連付けられた環境、(2)前記環境内の1人または複数の人々、または(3)前記現在のオーディオビデオ通信セッションに関連付けられた1つまたは複数のコンテキスト要素に関する、1つまたは複数の記述的特性を含む、前記オーディオビデオ通信セッションについての記述的モデルに基づいて計算される、請求項21から23のいずれか一項に記載の方法。
- 複数のノードと、前記ノードを接続する複数のエッジとを備えるソーシャルグラフにアクセスすることであって、
第1のノードが前記受信ユーザに対応し、
第2のノードが、前記第1の音源に関連付けられたエンティティに対応し、
前記第1のノードと前記第2のノードとの間のエッジが、前記受信ユーザと前記エンティティとの間の関係を表す、ソーシャルグラフにアクセスすることと、
前記第1のノードと前記第2のノードとの間の前記エッジに基づいて前記第1の関与メトリックを増加させることと
をさらに含む、請求項21から24のいずれか一項に記載の方法。 - 前記第1の関与が、前記第1の音源によって話されるワードのカウント、前記第1の音源と前記マイクロフォンアレイとの間の距離、または前記第1の音源が現在のオーディオビジュアル通信セッション中に前記環境中に存在していた時間の量に少なくとも部分的に基づいて計算され、
前記第2の関与が、前記第2の音源によって話されるワードのカウント、前記第2の音源と前記マイクロフォンアレイとの間の距離、または前記第2の音源が前記現在のオーディオビジュアル通信セッション中に前記環境中に存在していた時間の量に少なくとも部分的に基づいて計算される、請求項21から25のいずれか一項に記載の方法。 - ソフトウェアを具現する1つまたは複数のコンピュータ可読非一時的記憶媒体であって、前記ソフトウェアは、実行されたとき、
オーディオビジュアル通信セッション中に、少なくとも2つのマイクロフォンを備えるマイクロフォンアレイからオーディオ入力データを受信することであって、前記オーディオ入力データが、環境内の第1のロケーションにおける第1の音源と、前記環境内の第2のロケーションにおける第2の音源とによって生成される、オーディオ入力データを受信することと、
前記第1の音源についての第1の関与メトリックと、前記第2の音源についての第2の関与メトリックとを計算することであって、
前記第1の関与メトリックが、前記第1の音源についての受信ユーザの興味レベルに近似し、
前記第2の関与メトリックが、前記第2の音源についての前記受信ユーザからの興味レベルに近似する、第1の関与メトリックと第2の関与メトリックとを計算することと、
前記第1の関与メトリックが前記第2の関与メトリックよりも大きいと決定することと、
オーディオ出力信号を生成するために前記オーディオ入力データを処理することであって、前記オーディオ出力信号が、前記第1の音源によって生成された音を増幅し、前記第2の音源によって生成された音を減衰させる、前記オーディオ入力データを処理することと、
前記オーディオ出力信号を、前記受信ユーザに関連付けられたコンピューティングデバイスに送信することと
を行うように動作可能である、1つまたは複数のコンピュータ可読非一時的記憶媒体。 - 前記ソフトウェアは、実行されたとき、前記第1の音源についての第1の分類と前記第2の音源についての第2の分類とを決定することであって、前記第1の関与メトリックが前記第1の分類に基づき、前記第2の関与メトリックが前記第2の分類に基づく、第1の分類と第2の分類とを決定することを行うようにさらに動作可能であり、
随意に、前記第1の音源についての前記第1の分類が人間の音声であり、前記第2の音源についての前記第2の分類が人間以外の音であり、および/あるいは
随意に、前記第1の分類と前記第2の分類とを前記決定することが、オーディオビデオ通信セッションについての記述的モデルから受信された情報に基づき、前記記述的モデルは、(1)現在のオーディオビデオ通信セッションに関連付けられた環境、(2)前記環境内の1人または複数の人々、または(3)前記現在のオーディオビデオ通信セッションに関連付けられた1つまたは複数のコンテキスト要素に関する、1つまたは複数の記述的特性を含む、請求項27に記載の媒体。 - 前記オーディオ入力データを前記処理することが、前記第1の源によって生成された第1のオーディオ入力信号と、前記第2の源によって生成された第2のオーディオ入力信号とを音響的にビームフォーミングすることを含み、前記音響的にビームフォーミングすることは、前記第1の音源が増幅され、前記第2の音源が減衰されるように、前記第2のオーディオ入力信号を時間遅延させることを含む、請求項27または28に記載の媒体。
- 前記第1の関与メトリックと前記第2の関与メトリックとが、(1)現在のオーディオビデオ通信セッションに関連付けられた環境、(2)前記環境内の1人または複数の人々、または(3)前記現在のオーディオビデオ通信セッションに関連付けられた1つまたは複数のコンテキスト要素に関する、1つまたは複数の記述的特性を含む、前記オーディオビデオ通信セッションについての記述的モデルに基づいて計算される、請求項27から29のいずれか一項に記載の媒体。
- 前記ソフトウェアは、実行されたとき、
複数のノードと、前記ノードを接続する複数のエッジとを備えるソーシャルグラフにアクセスすることであって、
第1のノードが前記受信ユーザに対応し、
第2のノードが、前記第1の音源に関連付けられたエンティティに対応し、
前記第1のノードと前記第2のノードとの間のエッジが、前記受信ユーザと前記エンティティとの間の関係を表す、ソーシャルグラフにアクセスすることと、
前記第1のノードと前記第2のノードとの間の前記エッジに基づいて前記第1の関与メトリックを増加させることと
を行うようにさらに動作可能である、請求項27から30のいずれか一項に記載の媒体。 - 前記第1の関与が、前記第1の音源によって話されるワードのカウント、前記第1の音源と前記マイクロフォンアレイとの間の距離、または前記第1の音源が現在のオーディオビジュアル通信セッション中に前記環境中に存在していた時間の量に少なくとも部分的に基づいて計算され、
前記第2の関与が、前記第2の音源によって話されるワードのカウント、前記第2の音源と前記マイクロフォンアレイとの間の距離、または前記第2の音源が前記現在のオーディオビジュアル通信セッション中に前記環境中に存在していた時間の量に少なくとも部分的に基づいて計算される、請求項27から31のいずれか一項に記載の媒体。 - 1つまたは複数のプロセッサと、
前記プロセッサのうちの1つまたは複数に結合され、命令を備える、1つまたは複数のコンピュータ可読非一時的記憶媒体と
を備えるシステムであって、前記命令は、前記プロセッサのうちの1つまたは複数によって実行されたとき、前記システムに、
オーディオビジュアル通信セッション中に、少なくとも2つのマイクロフォンを備えるマイクロフォンアレイからオーディオ入力データを受信することであって、前記オーディオ入力データが、環境内の第1のロケーションにおける第1の音源と、前記環境内の第2のロケーションにおける第2の音源とによって生成される、オーディオ入力データを受信することと、
前記第1の音源についての第1の関与メトリックと、前記第2の音源についての第2の関与メトリックとを計算することであって、
前記第1の関与メトリックが、前記第1の音源についての受信ユーザの興味レベルに近似し、
前記第2の関与メトリックが、前記第2の音源についての前記受信ユーザからの興味レベルに近似する、第1の関与メトリックと第2の関与メトリックとを計算することと、
前記第1の関与メトリックが前記第2の関与メトリックよりも大きいと決定することと、
オーディオ出力信号を生成するために前記オーディオ入力データを処理することであって、前記オーディオ出力信号が、前記第1の音源によって生成された音を増幅し、前記第2の音源によって生成された音を減衰させる、前記オーディオ入力データを処理することと、
前記オーディオ出力信号を、前記受信ユーザに関連付けられたコンピューティングデバイスに送信することと
を行わせるように動作可能である、システム。 - 前記プロセッサは、前記命令を実行したとき、前記第1の音源についての第1の分類と前記第2の音源についての第2の分類とを決定することであって、前記第1の関与メトリックが前記第1の分類に基づき、前記第2の関与メトリックが前記第2の分類に基づく、第1の分類と第2の分類とを決定することを行うようにさらに動作可能であり、
随意に、前記第1の音源についての前記第1の分類が人間の音声であり、前記第2の音源についての前記第2の分類が人間以外の音であり、および/あるいは
随意に、前記第1の分類と前記第2の分類とを前記決定することが、オーディオビデオ通信セッションについての記述的モデルから受信された情報に基づき、前記記述的モデルは、(1)現在のオーディオビデオ通信セッションに関連付けられた環境、(2)前記環境内の1人または複数の人々、または(3)前記現在のオーディオビデオ通信セッションに関連付けられた1つまたは複数のコンテキスト要素に関する、1つまたは複数の記述的特性を備える、請求項33に記載のシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/949,011 US10462422B1 (en) | 2018-04-09 | 2018-04-09 | Audio selection based on user engagement |
US15/949,011 | 2018-04-09 | ||
PCT/US2019/025768 WO2019199565A1 (en) | 2018-04-09 | 2019-04-04 | Audio selection based on user engagement |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021518072A true JP2021518072A (ja) | 2021-07-29 |
Family
ID=66440126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020547375A Ceased JP2021518072A (ja) | 2018-04-09 | 2019-04-04 | ユーザ関与に基づくオーディオ選択 |
Country Status (6)
Country | Link |
---|---|
US (2) | US10462422B1 (ja) |
EP (1) | EP3776170A1 (ja) |
JP (1) | JP2021518072A (ja) |
KR (1) | KR20200140375A (ja) |
CN (1) | CN112262367A (ja) |
WO (1) | WO2019199565A1 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11458724B2 (en) | 2016-09-13 | 2022-10-04 | Advanced Vision Technology (A.V.T.) Ltd. | System and method for controlling color characteristics of a printed image |
US10958609B2 (en) * | 2017-12-08 | 2021-03-23 | Verizon Media Inc. | Controlling a graphical user interface based upon a prediction of a messaging action of a messaging account |
US10462422B1 (en) * | 2018-04-09 | 2019-10-29 | Facebook, Inc. | Audio selection based on user engagement |
US11676220B2 (en) | 2018-04-20 | 2023-06-13 | Meta Platforms, Inc. | Processing multimodal user input for assistant systems |
US10782986B2 (en) | 2018-04-20 | 2020-09-22 | Facebook, Inc. | Assisting users with personalized and contextual communication content |
US11715042B1 (en) | 2018-04-20 | 2023-08-01 | Meta Platforms Technologies, Llc | Interpretability of deep reinforcement learning models in assistant systems |
US11307880B2 (en) | 2018-04-20 | 2022-04-19 | Meta Platforms, Inc. | Assisting users with personalized and contextual communication content |
US11886473B2 (en) | 2018-04-20 | 2024-01-30 | Meta Platforms, Inc. | Intent identification for agent matching by assistant systems |
US11010566B2 (en) * | 2018-05-22 | 2021-05-18 | International Business Machines Corporation | Inferring confidence and need for natural language processing of input data |
US11361168B2 (en) * | 2018-10-16 | 2022-06-14 | Rovi Guides, Inc. | Systems and methods for replaying content dialogue in an alternate language |
US11227588B2 (en) * | 2018-12-07 | 2022-01-18 | Nuance Communications, Inc. | System and method for feature based beam steering |
CN114270870A (zh) * | 2019-08-14 | 2022-04-01 | 三星电子株式会社 | 沉浸式显示系统及其方法 |
US11861674B1 (en) | 2019-10-18 | 2024-01-02 | Meta Platforms Technologies, Llc | Method, one or more computer-readable non-transitory storage media, and a system for generating comprehensive information for products of interest by assistant systems |
US11567788B1 (en) | 2019-10-18 | 2023-01-31 | Meta Platforms, Inc. | Generating proactive reminders for assistant systems |
EP4009322A3 (en) * | 2020-09-17 | 2022-06-15 | Orcam Technologies Ltd. | Systems and methods for selectively attenuating a voice |
US11563706B2 (en) | 2020-12-29 | 2023-01-24 | Meta Platforms, Inc. | Generating context-aware rendering of media contents for assistant systems |
US11809480B1 (en) | 2020-12-31 | 2023-11-07 | Meta Platforms, Inc. | Generating dynamic knowledge graph of media contents for assistant systems |
US11477570B2 (en) * | 2021-02-04 | 2022-10-18 | Dell Products L.P. | Controlling audio of an information handling system |
EP4220628A4 (en) | 2021-02-19 | 2024-05-22 | Samsung Electronics Co Ltd | ELECTRONIC SERVICE SUPPORT DEVICE FOR ARTIFICIAL INTELLIGENCE (AI) AGENT TALKING WITH USER |
US11861315B2 (en) | 2021-04-21 | 2024-01-02 | Meta Platforms, Inc. | Continuous learning for natural-language understanding models for assistant systems |
US11983329B1 (en) | 2022-12-05 | 2024-05-14 | Meta Platforms, Inc. | Detecting head gestures using inertial measurement unit signals |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09275533A (ja) * | 1996-04-08 | 1997-10-21 | Sony Corp | 信号処理装置 |
JP2010193017A (ja) * | 2009-02-16 | 2010-09-02 | Panasonic Corp | 映像通信装置 |
Family Cites Families (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6934461B1 (en) * | 1999-01-05 | 2005-08-23 | Interval Research Corporation | Low attention recording, with particular application to social recording |
US6563532B1 (en) * | 1999-01-05 | 2003-05-13 | Internal Research Corporation | Low attention recording unit for use by vigorously active recorder |
US8073157B2 (en) * | 2003-08-27 | 2011-12-06 | Sony Computer Entertainment Inc. | Methods and apparatus for targeted sound detection and characterization |
US7559026B2 (en) * | 2003-06-20 | 2009-07-07 | Apple Inc. | Video conferencing system having focus control |
US7446601B2 (en) * | 2003-06-23 | 2008-11-04 | Astronix Research, Llc | Electron beam RF amplifier and emitter |
WO2007056373A2 (en) * | 2005-11-04 | 2007-05-18 | Eyetracking, Inc. | Characterizing dynamic regions of digital media data |
WO2007128003A2 (en) * | 2006-03-28 | 2007-11-08 | Motionbox, Inc. | System and method for enabling social browsing of networked time-based media |
US9002839B1 (en) * | 2007-09-28 | 2015-04-07 | Amazon Technologies, Inc. | Personalizing content for users |
US20090164408A1 (en) * | 2007-12-21 | 2009-06-25 | Ilya Grigorik | Method, System and Computer Program for Managing Delivery of Online Content |
US9319357B2 (en) * | 2009-01-15 | 2016-04-19 | Social Communications Company | Context based virtual area creation |
US8539359B2 (en) * | 2009-02-11 | 2013-09-17 | Jeffrey A. Rapaport | Social network driven indexing system for instantly clustering people with concurrent focus on same topic into on-topic chat rooms and/or for generating on-topic search results tailored to user preferences regarding topic |
US20100257234A1 (en) * | 2009-04-03 | 2010-10-07 | Caughey David | Method and apparatus for providing content to mobile recipients |
WO2012083989A1 (en) | 2010-12-22 | 2012-06-28 | Sony Ericsson Mobile Communications Ab | Method of controlling audio recording and electronic device |
US9258665B2 (en) * | 2011-01-14 | 2016-02-09 | Echostar Technologies L.L.C. | Apparatus, systems and methods for controllable sound regions in a media room |
US8660581B2 (en) * | 2011-02-23 | 2014-02-25 | Digimarc Corporation | Mobile device indoor navigation |
US9098576B1 (en) * | 2011-10-17 | 2015-08-04 | Google Inc. | Ensemble interest point detection for audio matching |
WO2013115748A1 (en) * | 2012-01-30 | 2013-08-08 | Echostar Ukraine, L.L.C. | Apparatus, systems and methods for adjusting output audio volume based on user location |
US8893164B1 (en) * | 2012-05-16 | 2014-11-18 | Google Inc. | Audio system |
US20140028917A1 (en) * | 2012-07-30 | 2014-01-30 | General Instrument Corporation | Displaying multimedia |
WO2014085910A1 (en) * | 2012-12-04 | 2014-06-12 | Interaxon Inc. | System and method for enhancing content using brain-state data |
US10055491B2 (en) * | 2012-12-04 | 2018-08-21 | Sonos, Inc. | Media content search based on metadata |
US8854447B2 (en) * | 2012-12-21 | 2014-10-07 | United Video Properties, Inc. | Systems and methods for automatically adjusting audio based on gaze point |
US9521486B1 (en) * | 2013-02-04 | 2016-12-13 | Amazon Technologies, Inc. | Frequency based beamforming |
US10447826B2 (en) * | 2013-03-14 | 2019-10-15 | Google Llc | Detecting user interest in presented media items by observing volume change events |
US10229206B2 (en) * | 2013-08-02 | 2019-03-12 | Microsoft Technology Licensing, Llc | Social snippet augmenting |
US9755605B1 (en) * | 2013-09-19 | 2017-09-05 | Amazon Technologies, Inc. | Volume control |
CN103731768B (zh) * | 2013-12-25 | 2018-11-16 | 深圳Tcl新技术有限公司 | 一种声音拾取方法及装置 |
JP6135880B2 (ja) * | 2014-04-25 | 2017-05-31 | パナソニックIpマネジメント株式会社 | 音声処理方法、音声処理システム、及び記憶媒体 |
US20150356836A1 (en) * | 2014-06-05 | 2015-12-10 | Microsoft Corporation | Conversation cues within audio conversations |
US9615170B2 (en) * | 2014-06-09 | 2017-04-04 | Harman International Industries, Inc. | Approach for partially preserving music in the presence of intelligible speech |
US20150365725A1 (en) * | 2014-06-11 | 2015-12-17 | Rawllin International Inc. | Extract partition segments of personalized video channel |
US9838759B2 (en) * | 2014-06-20 | 2017-12-05 | Google Inc. | Displaying information related to content playing on a device |
US9805125B2 (en) * | 2014-06-20 | 2017-10-31 | Google Inc. | Displaying a summary of media content items |
US9693009B2 (en) * | 2014-09-12 | 2017-06-27 | International Business Machines Corporation | Sound source selection for aural interest |
US20160080874A1 (en) | 2014-09-16 | 2016-03-17 | Scott Fullam | Gaze-based audio direction |
US20160379261A1 (en) * | 2015-06-26 | 2016-12-29 | Intel Corporation | Targeted content using a digital sign |
US9691413B2 (en) * | 2015-10-06 | 2017-06-27 | Microsoft Technology Licensing, Llc | Identifying sound from a source of interest based on multiple audio feeds |
US10542315B2 (en) * | 2015-11-11 | 2020-01-21 | At&T Intellectual Property I, L.P. | Method and apparatus for content adaptation based on audience monitoring |
US20170214954A1 (en) * | 2016-01-25 | 2017-07-27 | Google Inc. | Media Program Moments Guide |
US9905244B2 (en) | 2016-02-02 | 2018-02-27 | Ebay Inc. | Personalized, real-time audio processing |
US9858927B2 (en) * | 2016-02-12 | 2018-01-02 | Amazon Technologies, Inc | Processing spoken commands to control distributed audio outputs |
US9898250B1 (en) * | 2016-02-12 | 2018-02-20 | Amazon Technologies, Inc. | Controlling distributed audio outputs to enable voice output |
US10579493B2 (en) * | 2016-08-22 | 2020-03-03 | Oath Inc. | Systems and methods for determining user engagement with electronic devices |
US9843768B1 (en) * | 2016-09-23 | 2017-12-12 | Intel Corporation | Audience engagement feedback systems and techniques |
US10996741B2 (en) * | 2017-09-12 | 2021-05-04 | International Business Machines Corporation | Augmented reality conversation feedback |
US11562243B2 (en) * | 2017-11-17 | 2023-01-24 | Meta Platforms, Inc. | Machine-learning models based on non-local neural networks |
US10462422B1 (en) * | 2018-04-09 | 2019-10-29 | Facebook, Inc. | Audio selection based on user engagement |
-
2018
- 2018-04-09 US US15/949,011 patent/US10462422B1/en active Active
-
2019
- 2019-04-04 KR KR1020207032357A patent/KR20200140375A/ko active Search and Examination
- 2019-04-04 CN CN201980039274.2A patent/CN112262367A/zh active Pending
- 2019-04-04 EP EP19722739.0A patent/EP3776170A1/en active Pending
- 2019-04-04 JP JP2020547375A patent/JP2021518072A/ja not_active Ceased
- 2019-04-04 WO PCT/US2019/025768 patent/WO2019199565A1/en unknown
- 2019-09-19 US US16/576,602 patent/US10838689B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09275533A (ja) * | 1996-04-08 | 1997-10-21 | Sony Corp | 信号処理装置 |
JP2010193017A (ja) * | 2009-02-16 | 2010-09-02 | Panasonic Corp | 映像通信装置 |
Also Published As
Publication number | Publication date |
---|---|
US20200050420A1 (en) | 2020-02-13 |
CN112262367A (zh) | 2021-01-22 |
KR20200140375A (ko) | 2020-12-15 |
US10838689B2 (en) | 2020-11-17 |
EP3776170A1 (en) | 2021-02-17 |
WO2019199565A1 (en) | 2019-10-17 |
US10462422B1 (en) | 2019-10-29 |
US20190313054A1 (en) | 2019-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10838689B2 (en) | Audio selection based on user engagement | |
KR102630902B1 (ko) | 서술적 모델들에 기초한 자동화된 결정들 | |
US11257170B2 (en) | Using three-dimensional virtual object models to guide users in virtual environments | |
JP6069594B2 (ja) | 対話履歴に基づくユーザ体験インターフェースまたはユーザ・インターフェース | |
US10419381B2 (en) | Prompt ranking | |
US10432468B2 (en) | Notification policies | |
US10645460B2 (en) | Real-time script for live broadcast | |
US10924808B2 (en) | Automatic speech recognition for live video comments | |
US10681169B2 (en) | Social plugin reordering on applications | |
US10425579B2 (en) | Social camera for auto group selfies | |
US10157307B2 (en) | Accessibility system | |
US10348856B2 (en) | Wi-Fi location determination | |
US10924565B2 (en) | Tracking event attendance | |
US11647147B2 (en) | User-specific customization of video conferences using multimodal biometric characterization | |
US11406896B1 (en) | Augmented reality storytelling: audience-side | |
US20220345537A1 (en) | Systems and Methods for Providing User Experiences on AR/VR Systems | |
AU2014391255A1 (en) | Eliciting user sharing of content | |
US20180287980A1 (en) | Systems and Methods for Blocking Content Redistribution | |
CN112513911A (zh) | 位置预测 | |
CN112486929A (zh) | 与教育群组管理相关的系统、方法和计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220112 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230113 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230508 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230822 |
|
A045 | Written measure of dismissal of application [lapsed due to lack of payment] |
Free format text: JAPANESE INTERMEDIATE CODE: A045 Effective date: 20231219 |