JP6930280B2

JP6930280B2 - メディアキャプチャ・処理システム

Info

Publication number: JP6930280B2
Application number: JP2017155931A
Authority: JP
Inventors: モンタントス・ジェームス
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-12-22
Filing date: 2017-08-10
Publication date: 2021-09-01
Anticipated expiration: 2037-08-10
Also published as: JP2018106140A; EP3340647B1; EP3340647A1; US10276155B2; US20180182379A1

Description

本明細書に開示する実施形態は、メディアキャプチャ・処理システムに関する。

補聴器は、一般的に、ある程度の聴力が低下したユーザにより利用され、ユーザの聴力低下を補償するように、検出されたオーディオの増幅および修正を試みる。一般的にはヘッドフォン、イヤフォン、およびヘッドセットを利用して、携帯電話などの装置からユーザまで直接的にオーディオを届ける。場合によっては、ブルートゥース(登録商標)ヘッドセットなどでは、ヘッドセットが装置と双方向のオーディオ交換をするように構成され、ユーザは通話に参加することもできる。

特許請求の範囲に記載した主題は、何らかの欠点を解消する実施形態や、上記のような環境のみで動作する実施形態に限定されない。むしろ、この背景技術は、この明細書に説明する幾つかの実施形態を実施できる技術分野例を示すだけである。

一実施形態の一態様では、ユーザメディア装置は、マイクロフォンアレイと通信インターフェースを含み得る。マイクロフォンアレイは、無指向性マイクロフォンと指向性マイクロフォンを含み得る。マイクロフォンアレイは選択的に切り替え可能であり得る。通信インターフェースは、ユーザメディア装置をコンピュータと通信可能に結合し、マイクロフォンアレイによりキャプチャされたオーディオを、リモートサービスに転送する前記コンピュータに送信し得る。リモートサービスは、自然言語処理により、処理されたオーディオのテキストを生成し得る。リモートサービスはさらに、セマンティックリーズニングエンジンにより、処理されたオーディオのセマンティックリーズニングを実行し得る。リモートサービスはまた、処理されたオーディオに対して実行されたセマンティックリーズニングに少なくとも部分的に基づいてコンテンツを生成し得る。精選されたコンテンツは、処理されたオーディオに関する結果を意味のある方法で表示するように構成されたセマンティックリーズニングの結果を有するレポートを含み得る。

実施形態の目的と利点は、少なくとも、特許請求の範囲に具体的に記載した要素、特徴、及び組み合わせにより実現及び達成される。

言うまでもなく、上記の概要と、下記の詳細な説明とは、説明をするためのものであり、特許請求の範囲を制限するものではない。

添付した図面を用いて、実施形態の例をさらに具体的かつ詳細に説明する。

メディアキャプチャ・処理システムを示す図である。

例示的環境における他の例示的なメディアキャプチャ・処理システムを示す図である。

例示的な方法を示すフローチャートである。

例示的な計算装置を示すブロック図である。

従来の幾つかのパーソナルリスニング装置は、ユーザの聴力を向上し、メディアプレーヤからのオーディオエンターテイメントを安全に消費するようにさせるように作用する。しかし、これらの従来装置は一般的には装置においてオーディオ処理を行い、そのオーディオ処理はその装置において利用できる処理リソースに限定されている。代替的に又は追加的に、これらの従来装置は、個々のリスニング状況に適応するように選択的に調整可能なマイクロフォンアレイを含まないことがある。さらに、従来のリスニング装置は、検出されたオーディオ及び／又はその実体を保存、処理、分析、精選（ｃｕｒａｔｅ）、及び／又は報告しないことがある。

幾つかの実施形態は、ユーザのメディア装置を含むメディアキャプチャ・処理システムを含み得る。ユーザメディア装置は、ユーザが装着するように構成されたパーソナルユーザメディア装置を含み得る。ユーザメディア装置は、オーディオメディア及び／又はビジュアルメディアをキャプチャするセンサを含み得る。例えば、メディアキャプチャ・処理システムのユーザメディア装置は、オーディオ検出処理を個々の状況に適応させるように選択的に調整可能であり得るマイクロフォンアレイを含み得る。代替的に又は追加的に、メディアキャプチャ・処理システムは、ユーザメディア装置とは別のコンピュータにおいて、及び／又はそのコンピュータ及びユーザメディア装置とは別のリモートサービスにおいて、リアルタイムで、ユーザメディア装置によりキャプチャされたメディアを処理してもよい。幾つかの構成では、メディアキャプチャ・処理システムは、メディアの実体（ｓｕｂｓｔａｎｃｅ）を分析するため、ユーザメディア装置によりキャプチャされたメディアを保存及び処理してもよい。代替的に又は追加的に、メディアキャプチャ・処理システムは、メディアの実体について精選（ｃｕｒａｔｅ）し、及び／又はレポートし得る。

添付した図面を参照して実施形態を説明する。

図１は、メディアキャプチャ・処理システム１００を示す図である。メディアキャプチャ・処理システム１００は、ユーザメディア装置１０２を含み得る。ユーザメディア装置１０２は、ユーザが装着するように構成されたパーソナルユーザメディア装置を含み得る。ユーザメディア装置１０２は、オーディオメディア、ビジュアルメディアなどのメディアをキャプチャ（ｃａｐｔｕｒｅ）し得る。ユーザメディア装置１０２は、ユーザに対してオーディオ出力を生成する一以上のスピーカ１０８を含み得る。例えば、ユーザメディア装置１０２は、ユーザの片耳または両耳の近くに、又は部分的にその中に位置するように配置されるスピーカ１０８を含み得る。例として、ユーザメディア装置１０２は、ｉｎ−ｅａｒすなわち耳の穴に差し込むタイプのヘッドフォン、ｏｎ−ｅａｒすなわちクリップで留めるタイプのヘッドフォン、ｏｖｅｒ−ｅａｒすなわち耳の周りに装着するタイプのヘッドフォンなど、単一のヘッドフォン又はペアのヘッドフォンと同様に装着されるように構成されていてもよい。代替的に又は追加的に、ユーザメディア装置１０２は、補聴器又はそのペア、蝸牛インプラント（ｃｏｃｈｌｅａｒｉｍｐｌａｎｔ）又はそのペア、ヘルメット、防止、いわゆるスマート眼鏡などと同様に装着するように構成されてもよい。

ユーザメディア装置１０２は、無指向性マイクロフォン１０５と指向性マイクロフォン１０６を有するマイクロフォンアレイ１０４を含み得る。幾つかの実施形態では、無指向性マイクロフォン１０５は、無指向性デジタルマイクロフォンを含み得る。代替的に又は追加的に、指向性マイクロフォン１０６は、指向性カージオイドデジタルマイクロフォン又はハイパーカージオイドデジタルマイクロフォンを含み得る。

幾つかの実施形態では、ユーザメディア装置１０２は、ペアの無指向性マイクロフォン及びペアの指向性マイクロフォンを含み得る。幾つかの構成では、ペアの無指向性マイクロフォンの各無指向性マイクロフォン１０５と、ペアの指向性マイクロフォンの各指向性マイクロフォン１０６は、ユーザの別々の耳に関連付けられてもよい。例えば、無指向性マイクロフォン１０５と指向性マイクロフォン１０６とは、ユーザの耳の近くに位置していてもよい。幾つかの実施形態では、指向性マイクロフォン１０６又は複数の指向性マイクロフォンは、ユーザのメディア装置１０２上に配置され、ユーザが向いている方向から発するオーディオ（ａｕｄｉｏ）を検出し得る。例えば、指向性マイクロフォン１０６又は複数の指向性マイクロフォンは、ユーザが見ている音源からのオーディオを受信するように構成され得る。

幾つかの実施形態では、マイクロフォンアレイ１０４のマイクロフォンは、選択的にスイッチ可能である。例えば、ユーザが、ある関心音源（ａｐａｒｔｉｃｕｌａｒａｕｄｉｏｓｏｕｒｃｅｏｆｉｎｔｅｒｅｓｔ）に向いているとき、指向性マイクロフォン１０６又は複数の指向性マイクロフォンがアクティブであってよく、無指向性マイクロフォン１０５又は複数の無指向性マイクロフォンが非アクティブ（ｉｎａｃｔｉｖｅ）であってもよい。代替的に又は追加的に、指向性マイクロフォン１０６又は複数の指向性マイクロフォンアレイがアクティブであってもよく、無指向性マイクロフォン１０５又は複数の無指向性マイクロフォンがアクティブであってもよく、無指向性マイクロフォン１０５又は複数の無指向性マイクロフォンからの入力を利用して、指向性マイクロフォン１０６又は複数の指向性マイクロフォンからの入力に関して、ノイズキャンセリングを実行してもよい。よって、例えば、マイクロフォンアレイ１０４は、ある音源からマイクロフォンアレイ１０４により受信されたオーディオの明りょうさ（ｃｌａｒｉｔｙ）を向上するように構成されてもよい。これは、講堂や会議場など背景雑音が大きい状況では有益であり得る。代替的に又は追加的に、無指向性マイクロフォン１０５又は複数の無指向性マイクロフォンがアクティブであってもよく、指向性マイクロフォン１０６又は複数の指向性マイクロフォンが非アクティブであってもよい。例えば、ユーザがある音源にフォーカスしていない場合である。

幾つかの実施形態では、ユーザメディア装置は、カメラ１１０などの画像キャプチャ装置を含み得る。カメラ１１０は、写真メディア及び／又はビデオメディアなどの画像メディアをキャプチャし得る。

ユーザメディア装置１０２は、ユーザメディア装置１０２の少なくとも幾つかの動作を制御する入力１１９を含み得る。例えば、入力１１９は、オン・オフスイッチ、スピーカ１０８のボリュームを制御するボリュームコントロール、ユーザメディア装置１０２をコンピュータ１２０などの他の装置と結合する通信を開始するペアリングスイッチ（ｐａｉｒｉｎｇｓｗｉｔｃｈ）など、又はこれらの任意の組み合わせを含み得る。

また、メディアキャプチャ・処理システム１００は、ユーザメディア装置１０２に通信可能に結合されたコンピュータ１２０を含み得る。例として、コンピュータ１２０は、ユーザメディア装置１０２と結合した、携帯電話、タブレットコンピュータ、デスクトップコンピュータ、ラップトップコンピュータなどを含み得る。コンピュータ１２０は、通信インターフェース１２６を含み得る。コンピュータ１２０は、オーディオメディア及び／又はビジュアルメディアを含むメディア、制御コマンド、及び／又はその他のデータ又はコマンドを、通信インターフェース１２６を介して送受信し得る。例えば、コンピュータ１２０は、ユーザメディア装置１０２によりキャプチャされたオーディオメディア及び／又は画像メディアを受信し得る。通信インターフェース１２６は、ブルートゥース低エネルギー（ＬＥ）インターフェースなどのブルートゥースインターフェース、及び／又はその他のパーソナルエリアネットワーク（ＰＡＮ）インターフェース、ＷｉＦｉインターフェースその他のローカルエリアネットワーク（ＬＡＮ）インターフェース、ユニバーサルシリアルバス（ＵＳＢ）インターフェース、及び／又はその他の有線インターフェースなど、又はこれらの任意の組み合わせを含み得る。

ユーザメディア装置１０２は、コンピュータ１２０に通信可能に結合する通信インターフェース１１６を含み得る。幾つかの実施形態では、通信インターフェース１１６は、一般的に、コンピュータ１２０の通信インターフェース１２６に対応し得る。ユーザメディア装置１０２は、オーディオメディア及び／又はビジュアルメディアを含むメディア、制御コマンド、及び／又はその他のデータ又はコマンドを、通信インターフェース１１６を介して送受信し得る。通信インターフェース１１６は、ブルートゥースＬＥインターフェースなどのブルートゥースインターフェース、及び／又はその他のＰＡＮインターフェース、ＷｉＦｉインターフェースその他のＬＡＮインターフェース、ＵＳＢインターフェース、及び／又はその他の有線インターフェースなど、又はこれらの任意の組み合わせを含み得る。

ユーザメディア装置は、携帯性、装着性などを高めるように、バッテリー駆動であってもよい。幾つかの実施形態では、ユーザメディア装置１０２はバッテリー１１８を含み得る。バッテリー１１８は、リチウムイオン再充電可能バッテリーなどを含み得る。代替的に又は追加的に、ユーザメディア装置１０２は、ユーザメディア装置１０２のバッテリー１１８に充電するために利用され得るマイクロＵＳＢ接続、及び／又はユーザメディア装置１０２との間でデータを転送する通信インターフェース１１６などの有線接続を介して電力供給されてもよい。

ユーザメディア装置１０２は、プロセッサ１１２及び／又はメモリ１１４を含み得る。プロセッサ１１２は、マイクロフォンアレイ１０４、スピーカ１０８、カメラ１１０、通信インターフェース１１６、又はバッテリー１１８を含むユーザメディア装置１０２の動作を制御し得る。幾つかの実施形態では、プロセッサ１１２は、ノイズキャンセリングなどのオンデバイス（ｏｎ−ｄｅｖｉｃｅ）オーディオ処理を実行し得る。

幾つかの実施形態では、コンピュータ１２０は、ユーザメディア装置１０２の動作を制御し得る。例えば、ユーザはコンピュータ１２０を用いて、ユーザメディア装置１０２に、マイクロフォンアレイ１０４又は再生設定を制御する制御コマンドを送信し得る。マイクロフォンアレイ１０４又は再生設定の制御は、スピーカ１０８のボリューム、マイクロフォンアレイ１０４の感度、無指向性マイクロフォン１０５と指向性マイクロフォン１０６のアクティブ化及び／又は非アクティブ化、ノイズキャンセリング設定、マルチバンド等化、周波数フィルタリング、ハイパス及びローパスフィルタリング、ピッチ変調など、及びこれらの任意の組み合わせを含み得る。幾つかの構成では、ユーザメディア装置１０２に関連するアプリケーションは、コンピュータ１２０のメモリ１２４にあってもよく、コンピュータ１２０のプロセッサ１２２により実行されたとき、ユーザがユーザメディア装置１０２を制御できるようにし得る。

幾つかの実施形態では、コンピュータ１２０は、ユーザメディア装置１０２のマイクロフォンアレイ１０４によりキャプチャ（ｃａｐｔｕｒｅ）されたオーディオを処理するように構成され得る。例として、ユーザメディア装置１０２からのオーディオのオーディオ処理は、ユーザメディア装置１０２からのオーディオに対するパラメトリック等化（ｐａｒａｍｅｔｒｉｃｅｑｕａｌｉｚａｔｉｏｎ）、周波数フィルタリング、ノイズリダクションなど、又はこれらの任意の組み合わせを含み得る。オーディオ処理はリアルタイムで実行し得る。コンピュータ１２０におけるオーディオ処理は、ユーザメディア装置１０２におけるオーディオ処理よりも比較的堅牢（ｒｏｂｕｓｔ）であり得る。例えば、装置サイズ、パワー、コスト、重量などを求めるユーザメディア装置１０２の設計の検討も促進され得る。幾つかの実施形態では、処理されたオーディオは、ユーザメディア装置１０２に返送され、ユーザメディア装置のスピーカ１０８で再生され得る。このように、例えば、処理されたオーディオは、ユーザメディア装置１０２のユーザに配信され得る。代替的に又は追加的に、ユーザメディア装置１０２からのオーディオは、後で利用するために記録され得る。

代替的に又は追加的に、コンピュータ１２０は、ユーザメディア装置１０２のカメラ１１０によりキャプチャされた画像メディアを処理するように構成され得る。例として、ユーザメディア装置からの画像メディアの画像処理は、ユーザメディア装置からの画像メディアに対する画像強調、画像拡大（ｉｍａｇｅａｕｇｍｅｎｔａｔｉｏｎｓ）、ビデオ安定化、パノラマ画像生成など、又はこれらの任意の組み合わせを含み得る。ビデオ処理はリアルタイムで実行され得る。処理されたビデオは、ユーザメディア装置１０２に返送され得る。任意的に、処理されたビデオは、ユーザメディア装置のディスプレイに表示され得る。例えば、処理されたビデオは、ユーザメディア装置１０２の光学的ヘッドマウントディスプレイ（ｏｐｔｉｃａｌｈｅａｄ−ｍｏｕｎｔｅｄｄｉｓｐｌａｙ（ＯＨＭＤ））に表示され得る。代替的に又は追加的に、ユーザメディア装置１０２からの画像メディアは、後で利用するために記録され得る。

幾つかの実施形態では、メディアキャプチャ・処理システム１００は、リモートサービス１２８を含み得る。例として、リモートサービス１２８は、いわゆるクラウドサービス又はクラウドベースサービス（ｃｌｏｕｄ−ｂａｓｅｄｓｅｒｖｉｃｅ）などのインターネットベースサービス（ｉｎｔｅｒｎｅｔ−ｂａｓｅｄｓｅｒｖｉｃｅ）又はインターネットアクセスサービス（ｉｎｔｅｒｎｅｔ−ａｃｃｅｓｓｅｄｓｅｒｖｉｃｅ）を含み得る。幾つかの実施形態では、ユーザメディア装置１０２によりキャプチャされるメディアは、処理のため、リモートサービス１２８に提供され得る。代替的に又は追加的に、ユーザメディア装置１０２によりキャプチャされるメディアは、ユーザタグ、サブジェクトタグ、タイムスタンプ、地理的データなど、又はこれらの任意の組み合わせなどの付加情報と共にリモートサービス１２８に提供され得る。幾つかの構成では、付加情報は、例えば、ユーザによって所定されてもよく、ユーザメディア装置１０２又はコンピュータ１２０によって自動的に設定されてもよく、ユーザによって生成されてもよく、ユーザによって修正されてもよい。

リモートサービス１２８は、自然言語エンジン１３０、セマンティックリーズニングエンジン（ｓｅｍａｎｔｉｃｒｅａｓｏｎｉｎｇｅｎｇｉｎｅ）１３２、ディープラーニングエンジン１３４、データキュレーションエンジン（ｄａｔａｃｕｒａｔｉｏｎｅｎｇｉｎｅ）１３６、及び／又は分析エンジン１３８を含み得る。ユーザメディア装置１０２からのオーディオを処理することは、自然言語エンジン１３０による自然言語処理の実行、セマンティックリーズニングエンジン１３２によるセマンティックリーズニング（ｓｅｍａｎｔｉｃｒｅａｓｏｎｉｎｇ）の実行、ディープラーニングエンジン１３４によるディープラーニングの実行を含み得る。

例えば、自然言語エンジン１３０は、自然言語処理によるオーディオのテキストトランスクリプト（ｔｅｘｔｔｒａｎｓｃｒｉｐｔ）を生成し得る。代替的に又は追加的に、セマンティックリーズニングエンジン１３２は、セマンティックリーズニングにより、オーディオに含まれる言葉に関係性スコアを割り当て得る。例えば、関係性スコアは、使用頻度、文脈、サブジェクトタグなど、又はこれらの任意の組み合わせに基づいて、各言葉に割り当てられ得る。幾つかの実施形態では、セマンティックリーズニングエンジン１３２は、自然言語エンジン１３０により生成されるオーディオのテキストトランスクリプトに対してセマンティックリーズニングを実行し得る。

幾つかの実施形態では、ディープラーニングエンジン１３４は、ディープラーニングにより、ユーザメディア装置１０２からの画像メディアに対して、オブジェクト検出、コンテキスト分析、画像処理などを実行し得る。検出されたオブジェクト、コンテキスト、画像メディアの意味に関する情報が画像メディアに付加され得る。例えば、オブジェクト、人、場所などを特定するタグが画像メディアに付加され得る。写真メディアの場合、情報は写真に付加され得る。ビデオメディアの場合、一部のフレーム、例えばｎ個ごとのフレームが分析され、情報は、そのフレームに、そのビデオに、及び／又はそのビデオ部分（ｌｅｎｇｔｈｓｏｆｔｈｅｖｉｄｅｏ）に付加され得る。

幾つかの実施形態では、自然言語処理、セマンティックリーズニング、及び／又はディープラーニングの結果は、保存、表示、及び／又は分析され得る。自然言語処理、セマンティックリーズニング、及び／又はディープラーニングの結果及び／又はそれらに関する情報は、精選（ｃｕｒａｔｅ）され、検査のためウェブページなどにより提供され得る。例えば、データに基づき、コンテキスト、テキスト、関連画像、外部リンク、分析データ、統計データなどが提供され得る。カスタマイズされたレポート及び／又は精選されたウェブサイト（ｃｕｒａｔｅｄｗｅｂｓｉｔｅｓ）が、ユーザの予め決めたキーワード、履歴、嗜好などに基づき生成され得る。

幾つかの実施形態では、データキュレーションエンジン１３６は、自然言語処理、セマンティックリーズニング、及び／又はディープラーニングの結果を精選（ｃｕｒａｔｅ）し得る。結果を精選することは、結果を整理又はグループ分けして、その結果を意味のある方法で表示すること、その結果に対するインサイト（ｉｎｓｉｇｈｔ）を提供することなどを含み得る。

代替的に又は追加的に、分析エンジン１３８は、統計的分析などにより、自然言語処理、セマンティックリーズニング、及び／又はディープラーニングの結果を分析し得る。分析エンジン１３８及び／又はデータキュレーションエンジン１３６は、結果に基づいてインサイト（ｉｎｓｉｇｈｔｓ）を特定し得る。代替的に又は追加的に、分析エンジン１３８及び／又はデータキュレーションエンジン１３６は、特定されたインサイト、結果などに基づいて、レポートを生成し得る。幾つかの実施形態では、精選された結果、結果の分析、特定されたインサイト、レポートなどは、例えば、アプリケーションプログラミングインターフェース（ＡＰＩ）を介してアクセス可能であってもよく、内部又は外部のソーシャルネットワークに共有されてもよく、又はこれらの任意の組み合わせであってもよい。

図２は、例示的環境における他の例示的なメディアキャプチャ・処理システム２００を示す図である。メディアキャプチャ・処理システム２００は、概して図１のユーザメディア装置１０２に対応するユーザメディア装置２０２を含み得る。ユーザメディア装置２０２はユーザ２０４により装着され得る。例として、ユーザメディア装置２０２は、話し手２０８からのオーディオ２０６をキャプチャ（ｃａｐｔｕｒｅ）するために使用し得る。代替的に又は追加的に、ユーザメディア装置２０２は、話し手２０８、プレゼンテーションマテリアルなどのビデオ及び／又は写真をキャプチャするために使用し得る。話し手２０８は、教室で学生に講義している教授、参加者に話している講師、芝居の常連に対して演技している俳優など、一群の人々に対して話していても良い。

幾つかの実施形態では、ユーザメディア装置２０２は、ノイズキャンセリングを行い、ユーザメディア装置２０２によりキャプチャされるオーディオ中の、一群の人々のうちの他の人２１２により発生される背景雑音２１０を低減又は除去し得る。例えば、ユーザメディア装置２０２は、図１のマイクロフォンアレイ１０４を参照して説明したノイズキャンセリングを実行し得る。

ユーザメディア装置２０２は、概して図１のコンピュータ１２０に対応するコンピュータ２１４に通信可能に結合していてもよい。例えば、ユーザメディア装置２０２は、ユーザ２０４に関連する携帯電話に通信可能に結合され得る。幾つかの実施形態では、ユーザ２０４は、コンピュータ２１４により、ユーザメディア装置２０２の動作を制御し得る。代替的に又は追加的に、ユーザメディア装置２０２は、キャプチャされたメディアをコンピュータ２１４に送信し得る。

例えば、ユーザメディア装置２０２によりキャプチャされるオーディオ２０６及び／又は背景雑音２１０は、コンピュータ２１４に送られ、処理され得る。処理されたオーディオは、ユーザメディア装置２０２に返送され、ユーザに対して再生（ｐｌａｙ）され得る。このように、例えば、ユーザ２０４が聴くオーディオは、比較的パワフルなコンピュータ２１４により処理され得る。こうすることにより、ユーザメディア装置２０２を、ユーザ２０４に利用可能になるオーディオ処理の程度にしては、比較的小さく、低パワーで、及び／又は安価にし得る。

代替的に又は追加的に、コンピュータ２１４は、ユーザメディア装置２０２から受信したメディア及び／又は処理されたオーディオなどを、概して図１のリモートサービス１２８に対応するリモートサービスに送信し得る。幾つかの実施形態では、メディアは、インターネットなどのネットワークを介してリモートサービス２１６に送信され得る。リモートサービス２１６は、受信したメディアに対して、代替的な処理又は追加的な処理を行い得る。例えば、リモートサービス２１６は、図１のリモートサービス１２８と同様に、メディアを処理し得る。

リモートサービス２１６は、リポート、インサイトなどを生成し得る。例えば、リモートサービス２１６は、図１のリモートサービス１２８と同様に、コンテンツを生成し得る。幾つかの実施形態では、リモートサービス２１６により生成されたコンテンツは、概して図１のコンピュータ１２０に対応するコンピュータ２１８、及びコンピュータ２１４によりアクセスされ得る。例えば、コンテンツは、コンピュータ２１４によりアクセス可能であり得る。幾つかの実施形態では、コンテンツは、インターネット、ウェブサイト、ＡＰＩ、ソーシャルネットワークなど、又はこれらの任意の組み合わせなどのネットワークを介してアクセスし得る。

このプロセス及び本明細書で開示するその他のプロセスや方法では、プロセスや方法で実行される機能は、異なる順序で実施され得る。さらに、概要を述べた動作は単なる例であり、実施形態の本質を損なうことなく、その動作のうち幾つかは、任意的であり、より少ない動作に結合されてもよく、より多くの動作に拡張されてもよい。

図３は、方法例３００を示すフローチャートである。方法３００は、ユーザメディア装置によりキャプチャされたオーディオを処理する方法である。ユーザメディア装置は、概して、図１のユーザメディア装置１０２、及び図２のユーザメディア装置２０２に対応し得る。方法３００は、ブロック３０２で始まり、ユーザメディア装置のマイクロフォンアレイにおいてオーディオをキャプチャし得る。マイクロフォンアレイは、概して、図１のマイクロフォンアレイ１０４に対応し得る。

方法３００は、ブロック３０４に進み、キャプチャされたオーディオをユーザメディア装置からコンピュータに送信し得る。コンピュータは、概して、図１のコンピュータ１２０と、図２のコンピュータ２１４に対応し得る。コンピュータは、ユーザメディア装置に通信可能に結合し得る。

方法３００は、ブロック３０６に進み、キャプチャされたオーディオをコンピュータにおいて処理する。幾つかの実施形態では、キャプチャされたオーディオを処理することは、キャプチャされたオーディオをフィルタすることを含み得る。代替的に又は追加的に、キャプチャされたオーディオを処理することは、キャプチャされたオーディオを等化（ｅｑｕａｌｉｚｉｎｇ）することを含み得る。

方法３００は、ブロック３０８に進み、処理されたオーディオをコンピュータからユーザメディア装置に送信し得る。

方法３００は、ブロック３１０に進み、処理されたオーディオをユーザメディア装置において生成（ｇｅｎｅｒａｔｉｎｇ）する。例えば、処理されたオーディオは、ユーザメディア装置のスピーカにより生成され得る。スピーカは、概して、図１のスピーカ１に対応し得る。

例えば、幾つかの実施形態では、方法３００は、さらに、ユーザメディア装置のカメラにおいてビジュアルメディアをキャプチャすることを含み得る。カメラは、概して、図１のカメラ１１０に対応し得る。方法３００は、続いて、キャプチャされたビジュアルメディアをユーザメディア装置からコンピュータに送信し得る。代替的に又は追加的に、キャプチャされたビジュアルメディアと、そのキャプチャされたビジュアルメディアに関連する一以上のタグとが、コンピュータからリモートサービスに送信され得る。リモートサービスは、概して、図１のリモートサービス１２８と、図２のリモートサービス２１６とに対応し得る。

幾つかの実施形態では、方法３００はさらに、処理されたオーディオをコンピュータからリモートサービスに送信することを含み得る。リモートサービスは、自然言語処理により、処理されたオーディオのテキストを生成し得る。幾つかの実施形態では、自然言語処理は、図１の自然言語エンジン１３０に対応する自然言語エンジンにより実行され得る。代替的に又は追加的に、リモートサービスは、セマンティックリーズニングエンジンにより、処理されたオーディオのセマンティック分析又はセマンティックリーズニングを実行し得る。セマンティックリーズニングエンジンは、概して、図１のセマンティックリーズニングエンジン１３２に対応し得る。幾つかの実施形態では、リモートサービスは、処理されたオーディオに対して実行されたセマンティックリーズニングに少なくとも部分的に基づいて、精選されたコンテンツを生成し得る。精選されたコンテンツは、概して、図１のデータキュレーションエンジン１３６に対応するデータキュレーションエンジンにより生成され得る。

図４は、計算装置４００の例を示すブロック図である。計算装置は、本開示により、振る舞いを予測し、及び／又は振る舞い修正を促進（ｅｎｃｏｕｒａｇｅ）するように構成され得る。計算装置４００は、次の実施形態の一例であり得る：図１のユーザメディア装置の実施形態、図１のコンピュータ１２０の実施形態、図１のリモートサービス１２８の実施形態、図２のユーザメディア装置２０２の実施形態、図２のコンピュータ２１４の実施形態、図２のコンピュータ２１８の実施形態、及び／又は図２のリモートサービス２１６の実施形態。構成４０２において、計算装置４００は、一以上のプロセッサ４０４と、システムメモリ４０６とを含む。プロセッサ４０４及び／又はメモリ４０６は、概して、図１のプロセッサ１１２、プロセッサ１２２、メモリ１１４、及び／又はメモリ１２４に対応し得る。メモリバス４０８は、プロセッサ４０４とシステムメモリ４０６との間の通信に用いられ得る。

所望の構成に応じて、プロセッサ４０４は、マイクロプロセッサ（μＰ）、マイクロコントローラ（μＣ）、デジタル信号プロセッサ（ＤＳＰ）、またはそれらの任意の組み合わせを含むがこれらに限定されない任意のタイプのものであってもよい。プロセッサ４０４は、一以上のレベルのキャッシュ、例えばレベル１キャッシュ４１０およびレベル２キャッシュ４１２と、プロセッサコア４１４と、レジスタ４１６などとを含むことができる。例示的なプロセッサコア４１４は、算術論理ユニット（ＡＬＵ）、浮動小数点ユニット（ＦＰＵ）、デジタル信号処理コア（ＤＳＰコア）、またはそれらの任意の組み合わせを含み得る。例示的なメモリコントローラ４１８は、プロセッサ４０４と共に使用されてもよく、またはいくつかの実装においては、プロセッサ４０４の内部にあってもよい。

所望の構成に応じて、システムメモリ４０６は、ランダムアクセスメモリ（ＲＡＭ）などの揮発性メモリ、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）やフラッシュメモリなどの不揮発性メモリ、又はそれらの任意の組み合わせを含むがこれらに限定されない任意のタイプであり得る。システムメモリ４０６は、オペレーティングシステム４２０、一以上のアプリケーション４２２、及びプログラムデータ４２４を含み得る。アプリケーション４２２は、制御アルゴリズム及び／又はメディア処理アルゴリズム４２６（「制御／メディアアルゴリズム４２６」とも呼ぶ）を含んでもよく、これらは、次のものを参照して説明した機能を含み本明細書で説明する機能を実行するように構成され得る：図１のユーザメディア装置１０２、図１のコンピュータ１２０、図１のリモートサービス１２８、図２のユーザメディア装置２０２、図２の強力なコンピュータ２１４、図２のリモートサービス２１６、図２のコンピュータ２１８、及び／又は図３の方法３００。プログラムデータ４２４は、本明細書で説明するように、制御アルゴリズム及び／又はメディア処理アルゴリズム４２６の動作に有用であり得る制御データ及び／又はメディアデータ４２８を含み得る。幾つかの実施形態では、アプリケーション４２２は、オペレーティングシステム４２０上でプログラムデータ４２４とともに動作するように構成され、本明細書で説明した方法とプロセスが提供され得る。

計算装置４００は、追加の特徴または機能、及び基本構成４０２と他の装置およびインターフェースとの間の通信を実現（ｆａｃｉｌｉｔａｔｅ）する追加のインターフェースを有し得る。例えば、バス／インターフェースコントローラ４３０を使用して、記憶インターフェースバス４３４を介して、基本構成４０２と１つ以上のデータ記憶装置４３２との間の通信を実現することができる。データ記憶装置４３２は、リムーバブル記憶装置４３６、非リムーバブル記憶装置４３８、またはそれらの組み合わせであってもよい。リムーバブル記憶装置および非リムーバブル記憶装置の例には、フレキシブルディスクドライブおよびハードディスクドライブ（ＨＤＤ）などの磁気ディスク装置、コンパクトディスク（ＣＤ）ドライブまたはデジタルバーサタイルディスク（ＤＶＤ）ドライブなどの光ディスクドライブ、ソリッドステートドライブ（ＳＳＤ）、およびテープドライブなどが含まれる。例示的コンピュータ記憶媒体には、コンピュータ読み取り可能命令、データ構造、プログラムモジュールその他のデータなどの情報を記憶するための任意の方法や技術で実装された、揮発性および不揮発性、リムーバブルまたは非リムーバブルの媒体を含む。

システムメモリ４０６、リムーバブル記憶装置４３６、および非リムーバブル記憶装置４３８は、コンピュータ記憶媒体の例である。コンピュータ記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｏｎｉｃａｌｌｙＥｒａｓａｂｌｅａｎｄＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリその他のメモリ技術、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、デジタルバーサタイルディスク（ＤＶＤ）その他の光ディスク記憶媒体、磁気カセット、磁気テープ、磁気ディスク記憶その他の磁気記憶装置、またはその他の、所望の情報の記憶に使え、計算装置４００によりアクセスできる任意の媒体を含み得るが、これらに限定されない。かかるコンピュータ記憶媒体は計算装置４００の一部であり得る。

また、計算装置４００は、バス／インターフェースコントローラ４３０を介して、様々なインターフェース装置（例えば、出力装置４４２、周辺インターフェース４４４、および通信装置４４６）から基本構成４０２への通信を実行するインターフェースバス４４０を含み得る。例示的な出力装置４４２は、グラフィックス処理ユニット４４８およびオーディオ処理ユニット４５０を含み、これらは、一以上のＡ／Ｖポート４５２を介してディスプレイまたはスピーカなどの様々な外部装置と通信するように構成し得る。例示的な周辺インターフェース４４４は、シリアルインターフェースコントローラ４５４またはパラレルインターフェースコントローラ４５６を含み、これらは一以上の入出力（Ｉ／Ｏ）ポート４５８を介して、入力装置（例えば、キーボード、マウス、ペン、音声入力装置、タッチ入力装置など）又はその他の周辺装置（例えば、プリンタ、スキャナなど）の外部装置と通信するように構成され得る。例示的な通信装置４４６は、ネットワークコントローラ４６０を含み、これは、一以上の通信ポート４６４を介してネットワーク通信リンクにより一以上の他の計算装置４６２との通信を実現するように構成され得る。通信ポート４６４は、概して、図１の通信インターフェース１１６及び／又は図１の通信インターフェース１２６に対応し得る。

ネットワーク通信リンクは、通信媒体の一例であってもよい。通信媒体は、一般的に、キャリア波などの変調データ信号やその他の伝送メカニズム中のコンピュータ読み取り可能命令、データ構造、プログラムモジュールその他のデータにより実施されてもよく、任意の情報配信媒体を含んでもよい。「変調データ信号」は、情報を信号にエンコードするように設定または変更された特徴を有する信号であり得る。限定でなく例示として、通信媒体は、有線ネットワークや直接有線接続などの有線媒体と、音響、高周波（ＲＦ）、マイクロ波、赤外線（ＩＲ）、その他の無線媒体などの無線媒体とを含み得る。ここで用いているコンピュータ読み取り可能媒体との用語は、記憶媒体と通信媒体とを両方とも含み得る。

計算装置４００は、携帯電話、タブレットコンピュータ、スマートフォン、スマートウォッチ、スマートメガネ、パーソナルデータアシスタント（ＰＤＡ）、パーソナルメディアプレーヤー装置、ワイヤレスウェブウォッチ装置、パーソナルヘッドセット装置、特定用途向け装置、または上記の機能のいずれかを含むハイブリッド装置などのような小型フォームファクタポータブル（またはモバイル）電子装置の一部として実装されてもよい。また、計算装置４００は、ラップトップコンピュータおよび非ラップトップコンピュータの両方を含むパーソナルコンピュータとして実装されてもよい。

本明細書では、用語「エンジン」は、モジュールの動作を実行するように構成された特定のハードウェア実装、及び／又は計算装置４００に格納され、及び／又はそれにより実行され得るソフトウェアオブジェクト又はソフトウェアルーチンを指し得る。幾つかの実施形態では、本明細書で説明する様々なコンポーネント、エンジン、及びサービスは、アプリケーション４２２、及び／又は制御アルゴリズム及び／又はメディア処理アルゴリズム４２６の一部として実装され得る。例えば、図１の自然言語エンジン１３０、セマンティックリーズニングエンジン１３２、ディープラーニングエンジン１３４、データキュレーションエンジン１３６、分析エンジン１３８、及び／又は図３の方法３００は、システムメモリ４０６に記憶され、プロセッサ４０４により実行されるコンピュータ実行可能命令により実装され得る。ここに説明のシステムと方法の幾つかは、概してソフトウェアで実装されると説明したが、ハードウェアの実施形態、又はソフトウェアとハードウェアの実施形態の組み合わせも可能であり、想定されている。

ここに記載したすべての例と条件付きの言葉は、技術発展に対してなした実施形態とコンセプトとを、読者が理解しやすいようにするためのものであり、その解釈は具体的に記載した実施例や制約に限定されるべきではない。実施形態を詳細に説明したが、言うまでもなく、実施形態の範囲から逸脱することなく、これらの実施形態に様々な変更、置換、及び代替を施すことができる。

実施形態に関し次の通り付記する。
（付記１）ユーザメディア装置であって、
無指向性マイクロフォンと指向性マイクロフォンとを含み、選択的に切り替え可能であるマイクロフォンアレイと、
前記ユーザメディア装置をコンピュータと通信可能に結合し、前記マイクロフォンアレイによりキャプチャされたオーディオを、リモートサービスに転送する前記コンピュータに送信する通信インターフェースとを有し、前記リモートサービスは、
処理されたオーディオのテキストを自然言語処理により生成し、
処理されたオーディオのセマンティックリーズニングをセマンティックリーズニングエンジンにより実行し、
処理されたオーディオに対して実行されたセマンティックリーズニングに少なくとも部分的に基づいて精選コンテンツを生成し、精選コンテンツは、処理されたオーディオに関して、意味のある方法で結果を表示するように構成された、セマンティックリーズニングの結果を含むレポートを含む、
ユーザメディア装置。
（付記２）前記マイクロフォンアレイは第２の無指向性マイクロフォンと第２の指向性マイクロフォンとを含む、付記１に記載のユーザメディア装置。
（付記３）前記無指向性マイクロフォンによりキャプチャされたオーディオは、前記指向性マイクロフォンによりキャプチャされたオーディオに対するノイズキャンセリングを実行するように利用される、付記１に記載のユーザメディア装置。
（付記４）さらにカメラを有する、付記１に記載のユーザメディア装置。
（付記５）処理されたオーディオは、前記ユーザメディア装置により、前記通信インターフェースを介して前記コンピュータから受信され、前記ユーザメディア装置のスピーカにより再生される、付記１に記載のユーザメディア装置。
（付記６）前記ユーザメディア装置はユーザの頭に装着するように構成される、
付記１に記載のユーザメディア装置。
（付記７）前記マイクロフォンアレイは、前記コンピュータから前記ユーザメディア装置により受信される制御コマンドに少なくとも部分的に基づいて選択的に切り替え可能である、付記１に記載のユーザメディア装置。
（付記８）ユーザメディア装置によりキャプチャされるオーディオを処理する方法であって、
前記ユーザメディア装置のマイクロフォンアレイがオーディオをキャプチャするステップと、
前記ユーザメディア装置が、キャプチャされたオーディオを、前記ユーザメディア装置に通信可能に結合したコンピュータに送信するステップと、
前記コンピュータが、キャプチャされたオーディオを処理するステップと、
前記コンピュータが、処理されたオーディオを前記ユーザメディア装置に送信するステップと、
前記ユーザメディア装置のスピーカが、処理されたオーディオを再生するステップとを含む、方法。
（付記９）キャプチャされたオーディオを処理するステップは、キャプチャされたオーディオをフィルタリングするステップを含む、付記８に記載の方法。
（付記１０）キャプチャされたオーディオを処理するステップは、キャプチャされたオーディオを等化するステップを含む、付記８に記載の方法。
（付記１１）前記ユーザメディア装置のカメラがビジュアルメディアをキャプチャするステップと、
前記ユーザメディア装置が、キャプチャされたビジュアルメディアを前記コンピュータに送信するステップとをさらに含む、付記８に記載の方法。
（付記１２）前記コンピュータが、キャプチャされたビジュアルメディアと、キャプチャされたビジュアルメディアに関連する一以上のタグとを、リモートサービスに送信するステップをさらに含む、付記１１に記載の方法。
（付記１３）前記コンピュータが、処理されたオーディオをリモートサービスに送信するステップと、
前記リモートサービスが、処理されたオーディオのテキストを自然言語処理により生成するステップと、
前記リモートサービスが、処理されたオーディオのセマンティックリーズニングをセマンティックリーズニングエンジンにより実行するステップと、
前記リモートサービスが、処理されたオーディオに対して実行されたセマンティックリーズニングに少なくとも部分的に基づいて、精選コンテンツを生成するステップとをさらに含む、付記８に記載の方法。
（付記１４）メディアキャプチャ・処理システムであって、
ユーザメディア装置であって、
マイクロフォンアレイと、
前記ユーザメディア装置をコンピュータと通信可能に結合し、前記マイクロフォンアレイによりキャプチャされたオーディオを前記コンピュータに送信する通信インターフェースとを含むユーザメディア装置と、
キャプチャされたオーディオを前記コンピュータから受信し、キャプチャされたオーディオを処理するリモートサービスであって、
キャプチャされたオーディオに対してセマンティックリーズニングを実行するセマンティックリーズニングエンジンと、
キャプチャされたオーディオに関連するデータを精選するデータキュレーションエンジンと、
キャプチャされたオーディオに基づいてレポートを生成する分析エンジンとを含むリモートサービスと
を有する、メディアキャプチャ・処理システム。
（付記１５）前記マイクロフォンアレイは、無指向性マイクロフォンと指向性マイクロフォンとを含み、選択的に切り替え可能である、
付記１４に記載のメディアキャプチャ・処理システム。
（付記１６）前記リモートサービスは、キャプチャされたオーディオをテキストに変換する自然言語エンジンを含む、付記１４に記載のメディアキャプチャ・処理システム。
（付記１７）結果を精選することは、セマンティック分析の結果を整理して、キャプチャされたオーディオに関する結果を意味のある方法で表示することを含む、
付記１４に記載のメディアキャプチャ・処理システム。
（付記１８）レポートは、アプリケーションプログラミングインターフェース（ＡＰＩ）を介してアクセス可能である、付記１４に記載のメディアキャプチャ・処理システム。
（付記１９）前記分析エンジンは、少なくとも部分的にセマンティック分析の結果の統計的分析により、キャプチャされたオーディオに基づくレポートを生成する、
付記１４に記載のメディアキャプチャ・処理システム。
（付記２０）前記ユーザメディア装置は、ビジュアルメディアをキャプチャするカメラをさらに含み、前記リモートサービスは、キャプチャされたビジュアルメディアに対して、オブジェクト検出、コンテキスト分析、及び画像処理のうち少なくとも１つを実行するディープラーニングエンジンを含む、付記１４に記載のメディアキャプチャ・処理システム。

１０２ユーザメディア装置
１０４マイクロフォンアレイ
１０５無指向性マイクロフォン
１０６指向性マイクロフォン
１０８スピーカ
１１０カメラ
１１２プロセッサ
１１４メモリ
１１６通信インターフェース
１１８バッテリー
１１９入力
１２０コンピュータ
１２２プロセッサ
１２４メモリ
１２６通信インターフェース
１２８リモートサービス
１３０自然言語エンジン
１３２セマンティックリーズニングエンジン
１３４ディープラーニングエンジン
１３６データキュレーションエンジン
１３８分析エンジン

Claims

ユーザメディア装置であって、
無指向性マイクロフォンと指向性マイクロフォンとを含み、選択的に切り替え可能であるマイクロフォンアレイと、
前記ユーザメディア装置をコンピュータと通信可能に結合し、前記マイクロフォンアレイによりキャプチャされたオーディオを、リモートサービスに転送する前記コンピュータに送信する通信インターフェースとを有し、前記リモートサービスは、
前記オーディオのテキストを自然言語処理により生成し、
前記オーディオのセマンティックリーズニングをセマンティックリーズニングエンジンにより実行し、
前記オーディオに対して実行されたセマンティックリーズニングに少なくとも部分的に基づいて精選コンテンツを生成し、前記精選コンテンツは、前記オーディオに関して、前記セマンティックリーズニングの結果を、整理又はグループ分けして意味のある方法で表示するように構成されたレポートを含む、
ユーザメディア装置。
前記無指向性マイクロフォンによりキャプチャされたオーディオは、前記指向性マイクロフォンによりキャプチャされたオーディオに対するノイズキャンセリングを実行するように利用される、
請求項１に記載のユーザメディア装置。
処理されたオーディオは、前記ユーザメディア装置により、前記通信インターフェースを介して前記コンピュータから受信され、前記ユーザメディア装置のスピーカにより再生される、
請求項１に記載のユーザメディア装置。
前記マイクロフォンアレイは、前記コンピュータから前記ユーザメディア装置により受信される制御コマンドに少なくとも部分的に基づいて選択的に切り替え可能である、
請求項１に記載のユーザメディア装置。
ユーザメディア装置によりキャプチャされるオーディオを処理する方法であって、
前記ユーザメディア装置のマイクロフォンアレイがオーディオをキャプチャするステップと、
前記ユーザメディア装置が、キャプチャされたオーディオを、前記ユーザメディア装置に通信可能に結合したコンピュータに送信するステップと、
前記コンピュータが、キャプチャされたオーディオを処理するステップと、
前記コンピュータが、処理されたオーディオを前記ユーザメディア装置に送信するステップと、
前記ユーザメディア装置のスピーカが、処理されたオーディオを再生するステップとを含み、
前記コンピュータが、キャプチャされたオーディオを処理するステップは、
前記オーディオのテキストを自然言語処理により生成することと、
前記オーディオのセマンティックリーズニングをセマンティックリーズニングエンジンにより実行することと、
前記オーディオに対して実行されたセマンティックリーズニングに少なくとも部分的に基づいて精選コンテンツを生成することであって、前記精選コンテンツは、前記オーディオに関して、前記セマンティックリーズニングの結果を、整理又はグループ分けして意味のある方法で表示するように構成されたレポートを含むことと、
を含む方法。
メディアキャプチャ・処理システムであって、
ユーザメディア装置であって、
マイクロフォンアレイと、
前記ユーザメディア装置をコンピュータと通信可能に結合し、前記マイクロフォンアレイによりキャプチャされたオーディオを前記コンピュータに送信する通信インターフェースとを含むユーザメディア装置と、
キャプチャされたオーディオを前記コンピュータから受信し、キャプチャされたオーディオを処理するリモートサービスであって、
前記オーディオのテキストを生成する自然言語エンジンと、
前記オーディオに対してセマンティックリーズニングを実行するセマンティックリーズニングエンジンと、
前記オーディオに対して実行されたセマンティックリーズニングに少なくとも部分的に基づいて精選コンテンツを生成するデータキュレーションエンジンであって、前記精選コンテンツは、前記オーディオに関して、前記セマンティックリーズニングの結果を、整理又はグループ分けして意味のある方法で表示するように構成されたレポートを含むデータキュレーションエンジンと
を有する、メディアキャプチャ・処理システム。