JP2018106140A - メディアキャプチャ・処理システム - Google Patents

メディアキャプチャ・処理システム Download PDF

Info

Publication number
JP2018106140A
JP2018106140A JP2017155931A JP2017155931A JP2018106140A JP 2018106140 A JP2018106140 A JP 2018106140A JP 2017155931 A JP2017155931 A JP 2017155931A JP 2017155931 A JP2017155931 A JP 2017155931A JP 2018106140 A JP2018106140 A JP 2018106140A
Authority
JP
Japan
Prior art keywords
media device
audio
user media
computer
captured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017155931A
Other languages
English (en)
Other versions
JP6930280B2 (ja
Inventor
モンタントス・ジェームス
Montantes James
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2018106140A publication Critical patent/JP2018106140A/ja
Application granted granted Critical
Publication of JP6930280B2 publication Critical patent/JP6930280B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/165Equalizers; Volume or gain control in limited frequency bands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Otolaryngology (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Library & Information Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】メディアキャプチャ・処理システムを提供する。【解決手段】通信インターフェースは、ユーザメディア装置をコンピュータと通信可能に結合し、マイクロフォンアレイによりキャプチャされたオーディオを、リモートサービスに転送するコンピュータに送信する。リモートサービスは、自然言語処理により、処理されたオーディオのテキストを生成する。リモートサービスはさらに、セマンティックリーズニングエンジンにより、処理されたオーディオのセマンティックリーズニングを実行する。リモートサービスはまた、処理されたオーディオに対して実行されたセマンティックリーズニングに少なくとも部分的に基づいてコンテンツを生成する。精選されたコンテンツは、処理されたオーディオに関する結果を意味のある方法で表示するように構成されたセマンティックリーズニングの結果を有するレポートを含む。【選択図】図1

Description

本明細書に開示する実施形態は、メディアキャプチャ・処理システムに関する。
補聴器は、一般的に、ある程度の聴力が低下したユーザにより利用され、ユーザの聴力低下を補償するように、検出されたオーディオの増幅および修正を試みる。一般的にはヘッドフォン、イヤフォン、およびヘッドセットを利用して、携帯電話などの装置からユーザまで直接的にオーディオを届ける。場合によっては、ブルートゥース(登録商標)ヘッドセットなどでは、ヘッドセットが装置と双方向のオーディオ交換をするように構成され、ユーザは通話に参加することもできる。
特許請求の範囲に記載した主題は、何らかの欠点を解消する実施形態や、上記のような環境のみで動作する実施形態に限定されない。むしろ、この背景技術は、この明細書に説明する幾つかの実施形態を実施できる技術分野例を示すだけである。
一実施形態の一態様では、ユーザメディア装置は、マイクロフォンアレイと通信インターフェースを含み得る。マイクロフォンアレイは、無指向性マイクロフォンと指向性マイクロフォンを含み得る。マイクロフォンアレイは選択的に切り替え可能であり得る。通信インターフェースは、ユーザメディア装置をコンピュータと通信可能に結合し、マイクロフォンアレイによりキャプチャされたオーディオを、リモートサービスに転送する前記コンピュータに送信し得る。リモートサービスは、自然言語処理により、処理されたオーディオのテキストを生成し得る。リモートサービスはさらに、セマンティックリーズニングエンジンにより、処理されたオーディオのセマンティックリーズニングを実行し得る。リモートサービスはまた、処理されたオーディオに対して実行されたセマンティックリーズニングに少なくとも部分的に基づいてコンテンツを生成し得る。精選されたコンテンツは、処理されたオーディオに関する結果を意味のある方法で表示するように構成されたセマンティックリーズニングの結果を有するレポートを含み得る。
実施形態の目的と利点は、少なくとも、特許請求の範囲に具体的に記載した要素、特徴、及び組み合わせにより実現及び達成される。
言うまでもなく、上記の概要と、下記の詳細な説明とは、説明をするためのものであり、特許請求の範囲を制限するものではない。
添付した図面を用いて、実施形態の例をさらに具体的かつ詳細に説明する。
メディアキャプチャ・処理システムを示す図である。
例示的環境における他の例示的なメディアキャプチャ・処理システムを示す図である。
例示的な方法を示すフローチャートである。
例示的な計算装置を示すブロック図である。
従来の幾つかのパーソナルリスニング装置は、ユーザの聴力を向上し、メディアプレーヤからのオーディオエンターテイメントを安全に消費するようにさせるように作用する。しかし、これらの従来装置は一般的には装置においてオーディオ処理を行い、そのオーディオ処理はその装置において利用できる処理リソースに限定されている。代替的に又は追加的に、これらの従来装置は、個々のリスニング状況に適応するように選択的に調整可能なマイクロフォンアレイを含まないことがある。さらに、従来のリスニング装置は、検出されたオーディオ及び/又はその実体を保存、処理、分析、精選(curate)、及び/又は報告しないことがある。
幾つかの実施形態は、ユーザのメディア装置を含むメディアキャプチャ・処理システムを含み得る。ユーザメディア装置は、ユーザが装着するように構成されたパーソナルユーザメディア装置を含み得る。ユーザメディア装置は、オーディオメディア及び/又はビジュアルメディアをキャプチャするセンサを含み得る。例えば、メディアキャプチャ・処理システムのユーザメディア装置は、オーディオ検出処理を個々の状況に適応させるように選択的に調整可能であり得るマイクロフォンアレイを含み得る。代替的に又は追加的に、メディアキャプチャ・処理システムは、ユーザメディア装置とは別のコンピュータにおいて、及び/又はそのコンピュータ及びユーザメディア装置とは別のリモートサービスにおいて、リアルタイムで、ユーザメディア装置によりキャプチャされたメディアを処理してもよい。幾つかの構成では、メディアキャプチャ・処理システムは、メディアの実体(substance)を分析するため、ユーザメディア装置によりキャプチャされたメディアを保存及び処理してもよい。代替的に又は追加的に、メディアキャプチャ・処理システムは、メディアの実体について精選(curate)し、及び/又はレポートし得る。
添付した図面を参照して実施形態を説明する。
図1は、メディアキャプチャ・処理システム100を示す図である。メディアキャプチャ・処理システム100は、ユーザメディア装置102を含み得る。ユーザメディア装置102は、ユーザが装着するように構成されたパーソナルユーザメディア装置を含み得る。ユーザメディア装置102は、オーディオメディア、ビジュアルメディアなどのメディアをキャプチャ(capture)し得る。ユーザメディア装置102は、ユーザに対してオーディオ出力を生成する一以上のスピーカ108を含み得る。例えば、ユーザメディア装置102は、ユーザの片耳または両耳の近くに、又は部分的にその中に位置するように配置されるスピーカ108を含み得る。例として、ユーザメディア装置102は、in−earすなわち耳の穴に差し込むタイプのヘッドフォン、on−earすなわちクリップで留めるタイプのヘッドフォン、over−earすなわち耳の周りに装着するタイプのヘッドフォンなど、単一のヘッドフォン又はペアのヘッドフォンと同様に装着されるように構成されていてもよい。代替的に又は追加的に、ユーザメディア装置102は、補聴器又はそのペア、蝸牛インプラント(cochlear implant)又はそのペア、ヘルメット、防止、いわゆるスマート眼鏡などと同様に装着するように構成されてもよい。
ユーザメディア装置102は、無指向性マイクロフォン105と指向性マイクロフォン106を有するマイクロフォンアレイ104を含み得る。幾つかの実施形態では、無指向性マイクロフォン105は、無指向性デジタルマイクロフォンを含み得る。代替的に又は追加的に、指向性マイクロフォン106は、指向性カージオイドデジタルマイクロフォン又はハイパーカージオイドデジタルマイクロフォンを含み得る。
幾つかの実施形態では、ユーザメディア装置102は、ペアの無指向性マイクロフォン及びペアの指向性マイクロフォンを含み得る。幾つかの構成では、ペアの無指向性マイクロフォンの各無指向性マイクロフォン105と、ペアの指向性マイクロフォンの各指向性マイクロフォン106は、ユーザの別々の耳に関連付けられてもよい。例えば、無指向性マイクロフォン105と指向性マイクロフォン106とは、ユーザの耳の近くに位置していてもよい。幾つかの実施形態では、指向性マイクロフォン106又は複数の指向性マイクロフォンは、ユーザのメディア装置102上に配置され、ユーザが向いている方向から発するオーディオ(audio)を検出し得る。例えば、指向性マイクロフォン106又は複数の指向性マイクロフォンは、ユーザが見ている音源からのオーディオを受信するように構成され得る。
幾つかの実施形態では、マイクロフォンアレイ104のマイクロフォンは、選択的にスイッチ可能である。例えば、ユーザが、ある関心音源(a particular audio source of interest)に向いているとき、指向性マイクロフォン106又は複数の指向性マイクロフォンがアクティブであってよく、無指向性マイクロフォン105又は複数の無指向性マイクロフォンが非アクティブ(inactive)であってもよい。代替的に又は追加的に、指向性マイクロフォン106又は複数の指向性マイクロフォンアレイがアクティブであってもよく、無指向性マイクロフォン105又は複数の無指向性マイクロフォンがアクティブであってもよく、無指向性マイクロフォン105又は複数の無指向性マイクロフォンからの入力を利用して、指向性マイクロフォン106又は複数の指向性マイクロフォンからの入力に関して、ノイズキャンセリングを実行してもよい。よって、例えば、マイクロフォンアレイ104は、ある音源からマイクロフォンアレイ104により受信されたオーディオの明りょうさ(clarity)を向上するように構成されてもよい。これは、講堂や会議場など背景雑音が大きい状況では有益であり得る。代替的に又は追加的に、無指向性マイクロフォン105又は複数の無指向性マイクロフォンがアクティブであってもよく、指向性マイクロフォン106又は複数の指向性マイクロフォンが非アクティブであってもよい。例えば、ユーザがある音源にフォーカスしていない場合である。
幾つかの実施形態では、ユーザメディア装置は、カメラ110などの画像キャプチャ装置を含み得る。カメラ110は、写真メディア及び/又はビデオメディアなどの画像メディアをキャプチャし得る。
ユーザメディア装置102は、ユーザメディア装置102の少なくとも幾つかの動作を制御する入力119を含み得る。例えば、入力119は、オン・オフスイッチ、スピーカ108のボリュームを制御するボリュームコントロール、ユーザメディア装置102をコンピュータ120などの他の装置と結合する通信を開始するペアリングスイッチ(pairing switch)など、又はこれらの任意の組み合わせを含み得る。
また、メディアキャプチャ・処理システム100は、ユーザメディア装置102に通信可能に結合されたコンピュータ120を含み得る。例として、コンピュータ120は、ユーザメディア装置102と結合した、携帯電話、タブレットコンピュータ、デスクトップコンピュータ、ラップトップコンピュータなどを含み得る。コンピュータ120は、通信インターフェース126を含み得る。コンピュータ120は、オーディオメディア及び/又はビジュアルメディアを含むメディア、制御コマンド、及び/又はその他のデータ又はコマンドを、通信インターフェース126を介して送受信し得る。例えば、コンピュータ120は、ユーザメディア装置102によりキャプチャされたオーディオメディア及び/又は画像メディアを受信し得る。通信インターフェース126は、ブルートゥース低エネルギー(LE)インターフェースなどのブルートゥースインターフェース、及び/又はその他のパーソナルエリアネットワーク(PAN)インターフェース、WiFiインターフェースその他のローカルエリアネットワーク(LAN)インターフェース、ユニバーサルシリアルバス(USB)インターフェース、及び/又はその他の有線インターフェースなど、又はこれらの任意の組み合わせを含み得る。
ユーザメディア装置102は、コンピュータ120に通信可能に結合する通信インターフェース116を含み得る。幾つかの実施形態では、通信インターフェース116は、一般的に、コンピュータ120の通信インターフェース126に対応し得る。ユーザメディア装置102は、オーディオメディア及び/又はビジュアルメディアを含むメディア、制御コマンド、及び/又はその他のデータ又はコマンドを、通信インターフェース116を介して送受信し得る。通信インターフェース116は、ブルートゥースLEインターフェースなどのブルートゥースインターフェース、及び/又はその他のPANインターフェース、WiFiインターフェースその他のLANインターフェース、USBインターフェース、及び/又はその他の有線インターフェースなど、又はこれらの任意の組み合わせを含み得る。
ユーザメディア装置は、携帯性、装着性などを高めるように、バッテリー駆動であってもよい。幾つかの実施形態では、ユーザメディア装置102はバッテリー118を含み得る。バッテリー118は、リチウムイオン再充電可能バッテリーなどを含み得る。代替的に又は追加的に、ユーザメディア装置102は、ユーザメディア装置102のバッテリー118に充電するために利用され得るマイクロUSB接続、及び/又はユーザメディア装置102との間でデータを転送する通信インターフェース116などの有線接続を介して電力供給されてもよい。
ユーザメディア装置102は、プロセッサ112及び/又はメモリ114を含み得る。プロセッサ112は、マイクロフォンアレイ104、スピーカ108、カメラ110、通信インターフェース116、又はバッテリー118を含むユーザメディア装置102の動作を制御し得る。幾つかの実施形態では、プロセッサ112は、ノイズキャンセリングなどのオンデバイス(on−device)オーディオ処理を実行し得る。
幾つかの実施形態では、コンピュータ120は、ユーザメディア装置102の動作を制御し得る。例えば、ユーザはコンピュータ120を用いて、ユーザメディア装置102に、マイクロフォンアレイ104又は再生設定を制御する制御コマンドを送信し得る。マイクロフォンアレイ104又は再生設定の制御は、スピーカ108のボリューム、マイクロフォンアレイ104の感度、無指向性マイクロフォン105と指向性マイクロフォン106のアクティブ化及び/又は非アクティブ化、ノイズキャンセリング設定、マルチバンド等化、周波数フィルタリング、ハイパス及びローパスフィルタリング、ピッチ変調など、及びこれらの任意の組み合わせを含み得る。幾つかの構成では、ユーザメディア装置102に関連するアプリケーションは、コンピュータ120のメモリ124にあってもよく、コンピュータ120のプロセッサ122により実行されたとき、ユーザがユーザメディア装置102を制御できるようにし得る。
幾つかの実施形態では、コンピュータ120は、ユーザメディア装置102のマイクロフォンアレイ104によりキャプチャ(capture)されたオーディオを処理するように構成され得る。例として、ユーザメディア装置102からのオーディオのオーディオ処理は、ユーザメディア装置102からのオーディオに対するパラメトリック等化(parametric equalization)、周波数フィルタリング、ノイズリダクションなど、又はこれらの任意の組み合わせを含み得る。オーディオ処理はリアルタイムで実行し得る。コンピュータ120におけるオーディオ処理は、ユーザメディア装置102におけるオーディオ処理よりも比較的堅牢(robust)であり得る。例えば、装置サイズ、パワー、コスト、重量などを求めるユーザメディア装置102の設計の検討も促進され得る。幾つかの実施形態では、処理されたオーディオは、ユーザメディア装置102に返送され、ユーザメディア装置のスピーカ108で再生され得る。このように、例えば、処理されたオーディオは、ユーザメディア装置102のユーザに配信され得る。代替的に又は追加的に、ユーザメディア装置102からのオーディオは、後で利用するために記録され得る。
代替的に又は追加的に、コンピュータ120は、ユーザメディア装置102のカメラ110によりキャプチャされた画像メディアを処理するように構成され得る。例として、ユーザメディア装置からの画像メディアの画像処理は、ユーザメディア装置からの画像メディアに対する画像強調、画像拡大(image augmentations)、ビデオ安定化、パノラマ画像生成など、又はこれらの任意の組み合わせを含み得る。ビデオ処理はリアルタイムで実行され得る。処理されたビデオは、ユーザメディア装置102に返送され得る。任意的に、処理されたビデオは、ユーザメディア装置のディスプレイに表示され得る。例えば、処理されたビデオは、ユーザメディア装置102の光学的ヘッドマウントディスプレイ(optical head−mounted display (OHMD))に表示され得る。代替的に又は追加的に、ユーザメディア装置102からの画像メディアは、後で利用するために記録され得る。
幾つかの実施形態では、メディアキャプチャ・処理システム100は、リモートサービス128を含み得る。例として、リモートサービス128は、いわゆるクラウドサービス又はクラウドベースサービス(cloud−based service)などのインターネットベースサービス(internet−based service)又はインターネットアクセスサービス(internet−accessed service)を含み得る。幾つかの実施形態では、ユーザメディア装置102によりキャプチャされるメディアは、処理のため、リモートサービス128に提供され得る。代替的に又は追加的に、ユーザメディア装置102によりキャプチャされるメディアは、ユーザタグ、サブジェクトタグ、タイムスタンプ、地理的データなど、又はこれらの任意の組み合わせなどの付加情報と共にリモートサービス128に提供され得る。幾つかの構成では、付加情報は、例えば、ユーザによって所定されてもよく、ユーザメディア装置102又はコンピュータ120によって自動的に設定されてもよく、ユーザによって生成されてもよく、ユーザによって修正されてもよい。
リモートサービス128は、自然言語エンジン130、セマンティックリーズニングエンジン(semantic reasoning engine)132、ディープラーニングエンジン134、データキュレーションエンジン(data curation engine)136、及び/又は分析エンジン138を含み得る。ユーザメディア装置102からのオーディオを処理することは、自然言語エンジン130による自然言語処理の実行、セマンティックリーズニングエンジン132によるセマンティックリーズニング(semantic reasoning)の実行、ディープラーニングエンジン134によるディープラーニングの実行を含み得る。
例えば、自然言語エンジン130は、自然言語処理によるオーディオのテキストトランスクリプト(text transcript)を生成し得る。代替的に又は追加的に、セマンティックリーズニングエンジン132は、セマンティックリーズニングにより、オーディオに含まれる言葉に関係性スコアを割り当て得る。例えば、関係性スコアは、使用頻度、文脈、サブジェクトタグなど、又はこれらの任意の組み合わせに基づいて、各言葉に割り当てられ得る。幾つかの実施形態では、セマンティックリーズニングエンジン132は、自然言語エンジン130により生成されるオーディオのテキストトランスクリプトに対してセマンティックリーズニングを実行し得る。
幾つかの実施形態では、ディープラーニングエンジン134は、ディープラーニングにより、ユーザメディア装置102からの画像メディアに対して、オブジェクト検出、コンテキスト分析、画像処理などを実行し得る。検出されたオブジェクト、コンテキスト、画像メディアの意味に関する情報が画像メディアに付加され得る。例えば、オブジェクト、人、場所などを特定するタグが画像メディアに付加され得る。写真メディアの場合、情報は写真に付加され得る。ビデオメディアの場合、一部のフレーム、例えばn個ごとのフレームが分析され、情報は、そのフレームに、そのビデオに、及び/又はそのビデオ部分(lengths of the video)に付加され得る。
幾つかの実施形態では、自然言語処理、セマンティックリーズニング、及び/又はディープラーニングの結果は、保存、表示、及び/又は分析され得る。自然言語処理、セマンティックリーズニング、及び/又はディープラーニングの結果及び/又はそれらに関する情報は、精選(curate)され、検査のためウェブページなどにより提供され得る。例えば、データに基づき、コンテキスト、テキスト、関連画像、外部リンク、分析データ、統計データなどが提供され得る。カスタマイズされたレポート及び/又は精選されたウェブサイト(curated websites)が、ユーザの予め決めたキーワード、履歴、嗜好などに基づき生成され得る。
幾つかの実施形態では、データキュレーションエンジン136は、自然言語処理、セマンティックリーズニング、及び/又はディープラーニングの結果を精選(curate)し得る。結果を精選することは、結果を整理又はグループ分けして、その結果を意味のある方法で表示すること、その結果に対するインサイト(insight)を提供することなどを含み得る。
代替的に又は追加的に、分析エンジン138は、統計的分析などにより、自然言語処理、セマンティックリーズニング、及び/又はディープラーニングの結果を分析し得る。分析エンジン138及び/又はデータキュレーションエンジン136は、結果に基づいてインサイト(insights)を特定し得る。代替的に又は追加的に、分析エンジン138及び/又はデータキュレーションエンジン136は、特定されたインサイト、結果などに基づいて、レポートを生成し得る。幾つかの実施形態では、精選された結果、結果の分析、特定されたインサイト、レポートなどは、例えば、アプリケーションプログラミングインターフェース(API)を介してアクセス可能であってもよく、内部又は外部のソーシャルネットワークに共有されてもよく、又はこれらの任意の組み合わせであってもよい。
図2は、例示的環境における他の例示的なメディアキャプチャ・処理システム200を示す図である。メディアキャプチャ・処理システム200は、概して図1のユーザメディア装置102に対応するユーザメディア装置202を含み得る。ユーザメディア装置202はユーザ204により装着され得る。例として、ユーザメディア装置202は、話し手208からのオーディオ206をキャプチャ(capture)するために使用し得る。代替的に又は追加的に、ユーザメディア装置202は、話し手208、プレゼンテーションマテリアルなどのビデオ及び/又は写真をキャプチャするために使用し得る。話し手208は、教室で学生に講義している教授、参加者に話している講師、芝居の常連に対して演技している俳優など、一群の人々に対して話していても良い。
幾つかの実施形態では、ユーザメディア装置202は、ノイズキャンセリングを行い、ユーザメディア装置202によりキャプチャされるオーディオ中の、一群の人々のうちの他の人212により発生される背景雑音210を低減又は除去し得る。例えば、ユーザメディア装置202は、図1のマイクロフォンアレイ104を参照して説明したノイズキャンセリングを実行し得る。
ユーザメディア装置202は、概して図1のコンピュータ120に対応するコンピュータ214に通信可能に結合していてもよい。例えば、ユーザメディア装置202は、ユーザ204に関連する携帯電話に通信可能に結合され得る。 幾つかの実施形態では、ユーザ204は、コンピュータ214により、ユーザメディア装置202の動作を制御し得る。代替的に又は追加的に、ユーザメディア装置202は、キャプチャされたメディアをコンピュータ214に送信し得る。
例えば、ユーザメディア装置202によりキャプチャされるオーディオ206及び/又は背景雑音210は、コンピュータ214に送られ、処理され得る。処理されたオーディオは、ユーザメディア装置202に返送され、ユーザに対して再生(play)され得る。このように、例えば、ユーザ204が聴くオーディオは、比較的パワフルなコンピュータ214により処理され得る。こうすることにより、ユーザメディア装置202を、ユーザ204に利用可能になるオーディオ処理の程度にしては、比較的小さく、低パワーで、及び/又は安価にし得る。
代替的に又は追加的に、コンピュータ214は、ユーザメディア装置202から受信したメディア及び/又は処理されたオーディオなどを、概して図1のリモートサービス128に対応するリモートサービスに送信し得る。幾つかの実施形態では、メディアは、インターネットなどのネットワークを介してリモートサービス216に送信され得る。リモートサービス216は、受信したメディアに対して、代替的な処理又は追加的な処理を行い得る。例えば、リモートサービス216は、図1のリモートサービス128と同様に、メディアを処理し得る。
リモートサービス216は、リポート、インサイトなどを生成し得る。例えば、リモートサービス216は、図1のリモートサービス128と同様に、コンテンツを生成し得る。幾つかの実施形態では、リモートサービス216により生成されたコンテンツは、概して図1のコンピュータ120に対応するコンピュータ218、及びコンピュータ214によりアクセスされ得る。例えば、コンテンツは、コンピュータ214によりアクセス可能であり得る。幾つかの実施形態では、コンテンツは、インターネット、ウェブサイト、API、ソーシャルネットワークなど、又はこれらの任意の組み合わせなどのネットワークを介してアクセスし得る。
このプロセス及び本明細書で開示するその他のプロセスや方法では、プロセスや方法で実行される機能は、異なる順序で実施され得る。さらに、概要を述べた動作は単なる例であり、実施形態の本質を損なうことなく、その動作のうち幾つかは、任意的であり、より少ない動作に結合されてもよく、より多くの動作に拡張されてもよい。
図3は、方法例300を示すフローチャートである。方法300は、ユーザメディア装置によりキャプチャされたオーディオを処理する方法である。ユーザメディア装置は、概して、図1のユーザメディア装置102、及び図2のユーザメディア装置202に対応し得る。方法300は、ブロック302で始まり、ユーザメディア装置のマイクロフォンアレイにおいてオーディオをキャプチャし得る。マイクロフォンアレイは、概して、図1のマイクロフォンアレイ104に対応し得る。
方法300は、ブロック304に進み、キャプチャされたオーディオをユーザメディア装置からコンピュータに送信し得る。コンピュータは、概して、図1のコンピュータ120と、図2のコンピュータ214に対応し得る。コンピュータは、ユーザメディア装置に通信可能に結合し得る。
方法300は、ブロック306に進み、キャプチャされたオーディオをコンピュータにおいて処理する。幾つかの実施形態では、キャプチャされたオーディオを処理することは、キャプチャされたオーディオをフィルタすることを含み得る。代替的に又は追加的に、キャプチャされたオーディオを処理することは、キャプチャされたオーディオを等化(equalizing)することを含み得る。
方法300は、ブロック308に進み、処理されたオーディオをコンピュータからユーザメディア装置に送信し得る。
方法300は、ブロック310に進み、処理されたオーディオをユーザメディア装置において生成(generating)する。例えば、処理されたオーディオは、ユーザメディア装置のスピーカにより生成され得る。スピーカは、概して、図1のスピーカ1に対応し得る。
このプロセス及び本明細書で開示するその他のプロセスや方法では、プロセスや方法で実行される機能は、異なる順序で実施され得る。さらに、概要を述べた動作は単なる例であり、実施形態の本質を損なうことなく、その動作のうち幾つかは、任意的であり、より少ない動作に結合されてもよく、より多くの動作に拡張されてもよい。
例えば、幾つかの実施形態では、方法300は、さらに、ユーザメディア装置のカメラにおいてビジュアルメディアをキャプチャすることを含み得る。カメラは、概して、図1のカメラ110に対応し得る。方法300は、続いて、キャプチャされたビジュアルメディアをユーザメディア装置からコンピュータに送信し得る。代替的に又は追加的に、キャプチャされたビジュアルメディアと、そのキャプチャされたビジュアルメディアに関連する一以上のタグとが、コンピュータからリモートサービスに送信され得る。リモートサービスは、概して、図1のリモートサービス128と、図2のリモートサービス216とに対応し得る。
幾つかの実施形態では、方法300はさらに、処理されたオーディオをコンピュータからリモートサービスに送信することを含み得る。リモートサービスは、自然言語処理により、処理されたオーディオのテキストを生成し得る。幾つかの実施形態では、自然言語処理は、図1の自然言語エンジン130に対応する自然言語エンジンにより実行され得る。代替的に又は追加的に、リモートサービスは、セマンティックリーズニングエンジンにより、処理されたオーディオのセマンティック分析又はセマンティックリーズニングを実行し得る。セマンティックリーズニングエンジンは、概して、図1のセマンティックリーズニングエンジン132に対応し得る。幾つかの実施形態では、リモートサービスは、処理されたオーディオに対して実行されたセマンティックリーズニングに少なくとも部分的に基づいて、精選されたコンテンツを生成し得る。精選されたコンテンツは、概して、図1のデータキュレーションエンジン136に対応するデータキュレーションエンジンにより生成され得る。
図4は、計算装置400の例を示すブロック図である。計算装置は、本開示により、振る舞いを予測し、及び/又は振る舞い修正を促進(encourage)するように構成され得る。計算装置400は、次の実施形態の一例であり得る:図1のユーザメディア装置の実施形態、図1のコンピュータ120の実施形態、図1のリモートサービス128の実施形態、図2のユーザメディア装置202の実施形態、図2のコンピュータ214の実施形態、図2のコンピュータ218の実施形態、及び/又は図2のリモートサービス216の実施形態。構成402において、計算装置400は、一以上のプロセッサ404と、システムメモリ406とを含む。プロセッサ404及び/又はメモリ406は、概して、図1のプロセッサ112、プロセッサ122、メモリ114、及び/又はメモリ124に対応し得る。メモリバス408は、プロセッサ404とシステムメモリ406との間の通信に用いられ得る。
所望の構成に応じて、プロセッサ404は、マイクロプロセッサ(μP)、マイクロコントローラ(μC)、デジタル信号プロセッサ(DSP)、またはそれらの任意の組み合わせを含むがこれらに限定されない任意のタイプのものであってもよい。プロセッサ404は、一以上のレベルのキャッシュ、例えばレベル1キャッシュ410およびレベル2キャッシュ412と、プロセッサコア414と、レジスタ416などとを含むことができる。例示的なプロセッサコア414は、算術論理ユニット(ALU)、浮動小数点ユニット(FPU)、デジタル信号処理コア(DSPコア)、またはそれらの任意の組み合わせを含み得る。例示的なメモリコントローラ418は、プロセッサ404と共に使用されてもよく、またはいくつかの実装においては、プロセッサ404の内部にあってもよい。
所望の構成に応じて、システムメモリ406は、ランダムアクセスメモリ(RAM)などの揮発性メモリ、ROM(Read Only Memory)やフラッシュメモリなどの不揮発性メモリ、又はそれらの任意の組み合わせを含むがこれらに限定されない任意のタイプであり得る。システムメモリ406は、オペレーティングシステム420、一以上のアプリケーション422、及びプログラムデータ424を含み得る。アプリケーション422は、制御アルゴリズム及び/又はメディア処理アルゴリズム426(「制御/メディアアルゴリズム426」とも呼ぶ)を含んでもよく、これらは、次のものを参照して説明した機能を含み本明細書で説明する機能を実行するように構成され得る:図1のユーザメディア装置102、図1のコンピュータ120、図1のリモートサービス128、図2のユーザメディア装置202、図2の強力なコンピュータ214、図2のリモートサービス216、図2のコンピュータ218、及び/又は図3の方法300。プログラムデータ424は、本明細書で説明するように、制御アルゴリズム及び/又はメディア処理アルゴリズム426の動作に有用であり得る制御データ及び/又はメディアデータ428を含み得る。幾つかの実施形態では、アプリケーション422は、オペレーティングシステム420上でプログラムデータ424とともに動作するように構成され、本明細書で説明した方法とプロセスが提供され得る。
計算装置400は、追加の特徴または機能、及び基本構成402と他の装置およびインターフェースとの間の通信を実現(facilitate)する追加のインターフェースを有し得る。例えば、バス/インターフェースコントローラ430を使用して、記憶インターフェースバス434を介して、基本構成402と1つ以上のデータ記憶装置432との間の通信を実現することができる。データ記憶装置432は、リムーバブル記憶装置436、非リムーバブル記憶装置438、またはそれらの組み合わせであってもよい。リムーバブル記憶装置および非リムーバブル記憶装置の例には、フレキシブルディスクドライブおよびハードディスクドライブ(HDD)などの磁気ディスク装置、コンパクトディスク(CD)ドライブまたはデジタルバーサタイルディスク(DVD)ドライブなどの光ディスクドライブ、ソリッドステートドライブ(SSD)、およびテープドライブなどが含まれる。例示的コンピュータ記憶媒体には、コンピュータ読み取り可能命令、データ構造、プログラムモジュールその他のデータなどの情報を記憶するための任意の方法や技術で実装された、揮発性および不揮発性、リムーバブルまたは非リムーバブルの媒体を含む。
システムメモリ406、リムーバブル記憶装置436、および非リムーバブル記憶装置438は、コンピュータ記憶媒体の例である。コンピュータ記憶媒体は、RAM、ROM、EEPROM(Electronically Erasable and Programmable Read Only Memory)、フラッシュメモリその他のメモリ技術、CD−ROM(Compact Disc−Read Only Memory)、デジタルバーサタイルディスク(DVD)その他の光ディスク記憶媒体、磁気カセット、磁気テープ、磁気ディスク記憶その他の磁気記憶装置、またはその他の、所望の情報の記憶に使え、計算装置400によりアクセスできる任意の媒体を含み得るが、これらに限定されない。かかるコンピュータ記憶媒体は計算装置400の一部であり得る。
また、計算装置400は、バス/インターフェースコントローラ430を介して、様々なインターフェース装置(例えば、出力装置442、周辺インターフェース444、および通信装置446)から基本構成402への通信を実行するインターフェースバス440を含み得る。例示的な出力装置442は、グラフィックス処理ユニット448およびオーディオ処理ユニット450を含み、これらは、一以上のA/Vポート452を介してディスプレイまたはスピーカなどの様々な外部装置と通信するように構成し得る。例示的な周辺インターフェース444は、シリアルインターフェースコントローラ454またはパラレルインターフェースコントローラ456を含み、これらは一以上の入出力(I/O)ポート458を介して、入力装置(例えば、キーボード、マウス、ペン、音声入力装置、タッチ入力装置など)又はその他の周辺装置(例えば、プリンタ、スキャナなど)の外部装置と通信するように構成され得る。例示的な通信装置446は、ネットワークコントローラ460を含み、これは、一以上の通信ポート464を介してネットワーク通信リンクにより一以上の他の計算装置462との通信を実現するように構成され得る。通信ポート464は、概して、図1の通信インターフェース116及び/又は図1の通信インターフェース126に対応し得る。
ネットワーク通信リンクは、通信媒体の一例であってもよい。通信媒体は、一般的に、キャリア波などの変調データ信号やその他の伝送メカニズム中のコンピュータ読み取り可能命令、データ構造、プログラムモジュールその他のデータにより実施されてもよく、任意の情報配信媒体を含んでもよい。「変調データ信号」は、情報を信号にエンコードするように設定または変更された特徴を有する信号であり得る。限定でなく例示として、通信媒体は、有線ネットワークや直接有線接続などの有線媒体と、音響、高周波(RF)、マイクロ波、赤外線(IR)、その他の無線媒体などの無線媒体とを含み得る。ここで用いているコンピュータ読み取り可能媒体との用語は、記憶媒体と通信媒体とを両方とも含み得る。
計算装置400は、携帯電話、タブレットコンピュータ、スマートフォン、スマートウォッチ、スマートメガネ、パーソナルデータアシスタント(PDA)、パーソナルメディアプレーヤー装置、ワイヤレスウェブウォッチ装置、パーソナルヘッドセット装置、特定用途向け装置、または上記の機能のいずれかを含むハイブリッド装置などのような小型フォームファクタポータブル(またはモバイル)電子装置の一部として実装されてもよい。また、計算装置400は、ラップトップコンピュータおよび非ラップトップコンピュータの両方を含むパーソナルコンピュータとして実装されてもよい。
本明細書では、用語「エンジン」は、モジュールの動作を実行するように構成された特定のハードウェア実装、及び/又は計算装置400に格納され、及び/又はそれにより実行され得るソフトウェアオブジェクト又はソフトウェアルーチンを指し得る。幾つかの実施形態では、本明細書で説明する様々なコンポーネント、エンジン、及びサービスは、アプリケーション422、及び/又は制御アルゴリズム及び/又はメディア処理アルゴリズム426の一部として実装され得る。例えば、図1の自然言語エンジン130、セマンティックリーズニングエンジン132、ディープラーニングエンジン134、データキュレーションエンジン136、分析エンジン138、及び/又は図3の方法300は、システムメモリ406に記憶され、プロセッサ404により実行されるコンピュータ実行可能命令により実装され得る。ここに説明のシステムと方法の幾つかは、概してソフトウェアで実装されると説明したが、ハードウェアの実施形態、又はソフトウェアとハードウェアの実施形態の組み合わせも可能であり、想定されている。
ここに記載したすべての例と条件付きの言葉は、技術発展に対してなした実施形態とコンセプトとを、読者が理解しやすいようにするためのものであり、その解釈は具体的に記載した実施例や制約に限定されるべきではない。実施形態を詳細に説明したが、言うまでもなく、実施形態の範囲から逸脱することなく、これらの実施形態に様々な変更、置換、及び代替を施すことができる。
実施形態に関し次の通り付記する。
(付記1) ユーザメディア装置であって、
無指向性マイクロフォンと指向性マイクロフォンとを含み、選択的に切り替え可能であるマイクロフォンアレイと、
前記ユーザメディア装置をコンピュータと通信可能に結合し、前記マイクロフォンアレイによりキャプチャされたオーディオを、リモートサービスに転送する前記コンピュータに送信する通信インターフェースとを有し、前記リモートサービスは、
処理されたオーディオのテキストを自然言語処理により生成し、
処理されたオーディオのセマンティックリーズニングをセマンティックリーズニングエンジンにより実行し、
処理されたオーディオに対して実行されたセマンティックリーズニングに少なくとも部分的に基づいて精選コンテンツを生成し、精選コンテンツは、処理されたオーディオに関して、意味のある方法で結果を表示するように構成された、セマンティックリーズニングの結果を含むレポートを含む、
ユーザメディア装置。
(付記2) 前記マイクロフォンアレイは第2の無指向性マイクロフォンと第2の指向性マイクロフォンとを含む、付記1に記載のユーザメディア装置。
(付記3) 前記無指向性マイクロフォンによりキャプチャされたオーディオは、前記指向性マイクロフォンによりキャプチャされたオーディオに対するノイズキャンセリングを実行するように利用される、付記1に記載のユーザメディア装置。
(付記4) さらにカメラを有する、付記1に記載のユーザメディア装置。
(付記5) 処理されたオーディオは、前記ユーザメディア装置により、前記通信インターフェースを介して前記コンピュータから受信され、前記ユーザメディア装置のスピーカにより再生される、付記1に記載のユーザメディア装置。
(付記6) 前記ユーザメディア装置はユーザの頭に装着するように構成される、
付記1に記載のユーザメディア装置。
(付記7) 前記マイクロフォンアレイは、前記コンピュータから前記ユーザメディア装置により受信される制御コマンドに少なくとも部分的に基づいて選択的に切り替え可能である、付記1に記載のユーザメディア装置。
(付記8) ユーザメディア装置によりキャプチャされるオーディオを処理する方法であって、
前記ユーザメディア装置のマイクロフォンアレイがオーディオをキャプチャするステップと、
前記ユーザメディア装置が、キャプチャされたオーディオを、前記ユーザメディア装置に通信可能に結合したコンピュータに送信するステップと、
前記コンピュータが、キャプチャされたオーディオを処理するステップと、
前記コンピュータが、処理されたオーディオを前記ユーザメディア装置に送信するステップと、
前記ユーザメディア装置のスピーカが、処理されたオーディオを再生するステップとを含む、方法。
(付記9) キャプチャされたオーディオを処理するステップは、キャプチャされたオーディオをフィルタリングするステップを含む、付記8に記載の方法。
(付記10) キャプチャされたオーディオを処理するステップは、キャプチャされたオーディオを等化するステップを含む、付記8に記載の方法。
(付記11) 前記ユーザメディア装置のカメラがビジュアルメディアをキャプチャするステップと、
前記ユーザメディア装置が、キャプチャされたビジュアルメディアを前記コンピュータに送信するステップとをさらに含む、付記8に記載の方法。
(付記12) 前記コンピュータが、キャプチャされたビジュアルメディアと、キャプチャされたビジュアルメディアに関連する一以上のタグとを、リモートサービスに送信するステップをさらに含む、付記11に記載の方法。
(付記13) 前記コンピュータが、処理されたオーディオをリモートサービスに送信するステップと、
前記リモートサービスが、処理されたオーディオのテキストを自然言語処理により生成するステップと、
前記リモートサービスが、処理されたオーディオのセマンティックリーズニングをセマンティックリーズニングエンジンにより実行するステップと、
前記リモートサービスが、処理されたオーディオに対して実行されたセマンティックリーズニングに少なくとも部分的に基づいて、精選コンテンツを生成するステップとをさらに含む、付記8に記載の方法。
(付記14) メディアキャプチャ・処理システムであって、
ユーザメディア装置であって、
マイクロフォンアレイと、
前記ユーザメディア装置をコンピュータと通信可能に結合し、前記マイクロフォンアレイによりキャプチャされたオーディオを前記コンピュータに送信する通信インターフェースとを含むユーザメディア装置と、
キャプチャされたオーディオを前記コンピュータから受信し、キャプチャされたオーディオを処理するリモートサービスであって、
キャプチャされたオーディオに対してセマンティックリーズニングを実行するセマンティックリーズニングエンジンと、
キャプチャされたオーディオに関連するデータを精選するデータキュレーションエンジンと、
キャプチャされたオーディオに基づいてレポートを生成する分析エンジンとを含むリモートサービスと
を有する、メディアキャプチャ・処理システム。
(付記15) 前記マイクロフォンアレイは、無指向性マイクロフォンと指向性マイクロフォンとを含み、選択的に切り替え可能である、
付記14に記載のメディアキャプチャ・処理システム。
(付記16) 前記リモートサービスは、キャプチャされたオーディオをテキストに変換する自然言語エンジンを含む、付記14に記載のメディアキャプチャ・処理システム。
(付記17) 結果を精選することは、セマンティック分析の結果を整理して、キャプチャされたオーディオに関する結果を意味のある方法で表示することを含む、
付記14に記載のメディアキャプチャ・処理システム。
(付記18) レポートは、アプリケーションプログラミングインターフェース(API)を介してアクセス可能である、付記14に記載のメディアキャプチャ・処理システム。
(付記19) 前記分析エンジンは、少なくとも部分的にセマンティック分析の結果の統計的分析により、キャプチャされたオーディオに基づくレポートを生成する、
付記14に記載のメディアキャプチャ・処理システム。
(付記20) 前記ユーザメディア装置は、ビジュアルメディアをキャプチャするカメラをさらに含み、前記リモートサービスは、キャプチャされたビジュアルメディアに対して、オブジェクト検出、コンテキスト分析、及び画像処理のうち少なくとも1つを実行するディープラーニングエンジンを含む、付記14に記載のメディアキャプチャ・処理システム。
102 ユーザメディア装置
104 マイクロフォンアレイ
105 無指向性マイクロフォン
106 指向性マイクロフォン
108 スピーカ
110 カメラ
112 プロセッサ
114 メモリ
116 通信インターフェース
118 バッテリー
119 入力
120 コンピュータ
122 プロセッサ
124 メモリ
126 通信インターフェース
128 リモートサービス
130 自然言語エンジン
132 セマンティックリーズニングエンジン
134 ディープラーニングエンジン
136 データキュレーションエンジン
138 分析エンジン

Claims (6)

  1. ユーザメディア装置であって、
    無指向性マイクロフォンと指向性マイクロフォンとを含み、選択的に切り替え可能であるマイクロフォンアレイと、
    前記ユーザメディア装置をコンピュータと通信可能に結合し、前記マイクロフォンアレイによりキャプチャされたオーディオを、リモートサービスに転送する前記コンピュータに送信する通信インターフェースとを有し、前記リモートサービスは、
    処理されたオーディオのテキストを自然言語処理により生成し、
    処理されたオーディオのセマンティックリーズニングをセマンティックリーズニングエンジンにより実行し、
    処理されたオーディオに対して実行されたセマンティックリーズニングに少なくとも部分的に基づいて精選コンテンツを生成し、精選コンテンツは、処理されたオーディオに関して、意味のある方法で結果を表示するように構成された、セマンティックリーズニングの結果を含むレポートを含む、
    ユーザメディア装置。
  2. 前記無指向性マイクロフォンによりキャプチャされたオーディオは、前記指向性マイクロフォンによりキャプチャされたオーディオに対するノイズキャンセリングを実行するように利用される、
    請求項1に記載のユーザメディア装置。
  3. 処理されたオーディオは、前記ユーザメディア装置により、前記通信インターフェースを介して前記コンピュータから受信され、前記ユーザメディア装置のスピーカにより再生される、
    請求項1に記載のユーザメディア装置。
  4. 前記マイクロフォンアレイは、前記コンピュータから前記ユーザメディア装置により受信される制御コマンドに少なくとも部分的に基づいて選択的に切り替え可能である、
    請求項1に記載のユーザメディア装置。
  5. ユーザメディア装置によりキャプチャされるオーディオを処理する方法であって、
    前記ユーザメディア装置のマイクロフォンアレイがオーディオをキャプチャするステップと、
    前記ユーザメディア装置が、キャプチャされたオーディオを、前記ユーザメディア装置に通信可能に結合したコンピュータに送信するステップと、
    前記コンピュータが、キャプチャされたオーディオを処理するステップと、
    前記コンピュータが、処理されたオーディオを前記ユーザメディア装置に送信するステップと、
    前記ユーザメディア装置のスピーカが、処理されたオーディオを再生するステップとを含む、
    方法。
  6. メディアキャプチャ・処理システムであって、
    ユーザメディア装置であって、
    マイクロフォンアレイと、
    前記ユーザメディア装置をコンピュータと通信可能に結合し、前記マイクロフォンアレイによりキャプチャされたオーディオを前記コンピュータに送信する通信インターフェースとを含むユーザメディア装置と、
    キャプチャされたオーディオを前記コンピュータから受信し、キャプチャされたオーディオを処理するリモートサービスであって、
    キャプチャされたオーディオに対してセマンティックリーズニングを実行するセマンティックリーズニングエンジンと、
    キャプチャされたオーディオに関連するデータを精選するデータキュレーションエンジンと、
    キャプチャされたオーディオに基づいてレポートを生成する分析エンジンとを含むリモートサービスと
    を有する、メディアキャプチャ・処理システム。


JP2017155931A 2016-12-22 2017-08-10 メディアキャプチャ・処理システム Active JP6930280B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/388,683 2016-12-22
US15/388,683 US10276155B2 (en) 2016-12-22 2016-12-22 Media capture and process system

Publications (2)

Publication Number Publication Date
JP2018106140A true JP2018106140A (ja) 2018-07-05
JP6930280B2 JP6930280B2 (ja) 2021-09-01

Family

ID=59030838

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017155931A Active JP6930280B2 (ja) 2016-12-22 2017-08-10 メディアキャプチャ・処理システム

Country Status (3)

Country Link
US (1) US10276155B2 (ja)
EP (1) EP3340647B1 (ja)
JP (1) JP6930280B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554857A (zh) * 2021-07-20 2021-10-26 思必驰科技股份有限公司 用于语音通话的接处警辅助方法及系统

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AT392561B (de) 1989-07-26 1991-04-25 Akg Akustische Kino Geraete Mikrophonanordnung fuer video- und/oder filmkameras
US5524056A (en) 1993-04-13 1996-06-04 Etymotic Research, Inc. Hearing aid having plural microphones and a microphone switching system
US5764778A (en) 1995-06-07 1998-06-09 Sensimetrics Corporation Hearing aid headset having an array of microphones
US6694143B1 (en) 2000-09-11 2004-02-17 Skyworks Solutions, Inc. System for using a local wireless network to control a device within range of the network
WO2006007441A1 (en) 2004-06-16 2006-01-19 Cardo Systems Inc. Wireless communication headset with microphone switching system
DK1708543T3 (en) 2005-03-29 2015-11-09 Oticon As Hearing aid for recording data and learning from it
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
WO2007103951A2 (en) 2006-03-06 2007-09-13 Hearing Enhancement Group, Llc Headworn listening device and method
US7680292B2 (en) 2006-05-30 2010-03-16 Knowles Electronics, Llc Personal listening device
US8140335B2 (en) * 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8776218B2 (en) * 2009-07-21 2014-07-08 Sophos Limited Behavioral-based host intrusion prevention system
US20140074843A1 (en) * 2012-09-12 2014-03-13 Zuess, Inc. Systems and methods for dynamic analysis, sorting and active display of semantic-driven reports of communication repositories
US9575960B1 (en) * 2012-09-17 2017-02-21 Amazon Technologies, Inc. Auditory enhancement using word analysis
US9344792B2 (en) * 2012-11-29 2016-05-17 Apple Inc. Ear presence detection in noise cancelling earphones
CN103077165A (zh) 2012-12-31 2013-05-01 威盛电子股份有限公司 自然语言对话方法及其系统
US9454612B2 (en) 2013-08-29 2016-09-27 Fujitsu Limited Item selection in curation learning
US9323810B2 (en) 2013-08-29 2016-04-26 Fujitsu Limited Curation selection for learning
US9374649B2 (en) 2013-12-19 2016-06-21 International Business Machines Corporation Smart hearing aid
US9324022B2 (en) 2014-03-04 2016-04-26 Signal/Sense, Inc. Classifying data with deep learning neural records incrementally refined through expert input
US9892194B2 (en) 2014-04-04 2018-02-13 Fujitsu Limited Topic identification in lecture videos
US9484030B1 (en) 2015-12-02 2016-11-01 Amazon Technologies, Inc. Audio triggered commands

Also Published As

Publication number Publication date
US10276155B2 (en) 2019-04-30
EP3340647A1 (en) 2018-06-27
JP6930280B2 (ja) 2021-09-01
EP3340647B1 (en) 2021-03-31
US20180182379A1 (en) 2018-06-28

Similar Documents

Publication Publication Date Title
US10970030B2 (en) Changing companion communication device behavior based on status of wearable device
US8441515B2 (en) Method and apparatus for minimizing acoustic echo in video conferencing
US8495051B2 (en) Search engine inference based virtual assistance
US20120183164A1 (en) Social network for sharing a hearing aid setting
WO2020258328A1 (zh) 一种马达振动方法、装置、系统及可读介质
US11776555B2 (en) Audio modification using interconnected electronic devices
WO2018166081A1 (zh) 一种耳机
US20170195817A1 (en) Simultaneous Binaural Presentation of Multiple Audio Streams
WO2022267468A1 (zh) 一种声音处理方法及其装置
CN114466283A (zh) 音频采集方法、装置、电子设备及外设组件方法
JP6930280B2 (ja) メディアキャプチャ・処理システム
US20220101855A1 (en) Speech and audio devices
JP2020030571A (ja) 情報処理装置、コンピュータプログラムおよび情報処理方法
CN117835121A (zh) 立体声重放方法、电脑、话筒设备、音箱设备和电视
KR101398466B1 (ko) 음향조절 어플리케이션이 저장된 휴대단말
US10264364B2 (en) Signal compensation method and apparatus
CN115086888B (zh) 消息通知方法与装置、电子设备
JP2016521471A (ja) マルチモーダルセンサからの混合メディア
CN115206278A (zh) 一种声音降噪的方法和装置
US20170094412A1 (en) Wearable recording and playback system
US11810588B2 (en) Audio source separation for audio devices
US20240249711A1 (en) Audio cancellation
US11163522B2 (en) Fine grain haptic wearable device
WO2023005348A1 (zh) 分屏推荐方法和装置
KR20230101603A (ko) 전자 장치 및 그 제어 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200514

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210326

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210406

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210603

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210713

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210726

R150 Certificate of patent or registration of utility model

Ref document number: 6930280

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150