JP2026041237A

JP2026041237A - システム

Info

Publication number: JP2026041237A
Application number: JP2024144632A
Authority: JP
Inventors: 高橋幹彦
Original assignee: SoftBank Group Corp
Current assignee: SoftBank Group Corp
Priority date: 2024-08-26
Filing date: 2024-08-26
Publication date: 2026-03-10

Abstract

【課題】システムを提供する。
【解決手段】動画ファイルを収集し、サーバにアップロードする手段と、
音声認識技術を用いて動画の音声データをテキストデータに変換する手段と、
自然言語処理技術を用いてテキストデータから重要ポイントを抽出する手段と、
抽出された重要ポイントに基づいて動画から要約バージョンを編集・生成する手段と、
フルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードし、視聴URLをユーザに通知する手段とを含むシステム。
【選択図】図１

Description

本開示の技術は、システムに関する。

特許文献１には、少なくとも一つのプロセッサにより遂行される、ペルソナチャットボット制御方法であって、ユーザ発話を受信するステップと、前記ユーザ発話を、チャットボットのキャラクターに関する説明と関連した指示文を含むプロンプトに追加するステップと前記プロンプトをエンコードするステップと、前記エンコードしたプロンプトを言語モデルに入力して、前記ユーザ発話に応答するチャットボット発話を生成するステップ、を含む、方法が開示されている。

特開２０２２－１８０２８２号公報

近年、製品説明会やセミナーなどのイベントがビデオ録画され、その内容が後から視聴されることが多くなっている。しかし、これらの録画は一般的に長時間にわたるため、視聴者が必要な情報を効果的に得ることが難しいという課題がある。また、これらの動画を要約し、短時間で視聴できるように編集するには多大な労力と時間がかかる。このため、多くのユーザが動画を効率的に利用できず、情報取得において困難を抱えている。

上記課題を解決するために、本発明は以下の手段を提供する。ユーザが動画ファイルを収集し、サーバにアップロードする手段を設ける。サーバは音声認識技術を用いて、動画の音声データをテキストデータに変換する。次に、自然言語処理技術を用いてテキストデータから重要ポイントを抽出する手段を設ける。これにより、抽出された重要ポイントに基づき、動画から要約バージョンを自動的に編集・生成する手段を提供する。最後に、フルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードし、視聴URLをユーザに通知する手段を設ける。このようなシステムにより、ユーザは効率的に重要な情報を取得することができ、情報の利用価値を高めることができる。

「動画ファイル」とは、映像と音声が記録され、デジタル形式で保存されたデータファイルである。

「アップロード」とは、端末に保存されたデータファイルをサーバに転送し、保存または処理のために提供する操作である。

「サーバ」とは、ネットワークを介してデータの保存、処理、提供を行うコンピュータシステムである。

「音声認識技術」とは、音声データを解析し、対応するテキストデータに変換する技術である。

「テキストデータ」とは、コンピュータが理解し、処理できる形式の文章データである。

「自然言語処理技術」とは、テキストデータに含まれる自然言語の情報を解析し、特定の目的に応じて情報を抽出する技術である。

「重要ポイント」とは、動画内の音声およびテキストデータから抽出された、視聴者にとって特に有用な情報である。

「要約バージョン」とは、動画の重要ポイントのみを編集・抜粋して作成された短縮版の動画である。

「フルバージョン」とは、元の動画ファイルの全てを含む完全な形式の動画である。

「配信プラットフォーム」とは、インターネットを通じて動画ファイルを配信し、ユーザが視聴できるサービスを提供するオンラインシステムである。

「視聴URL」とは、インターネット上で特定の動画ファイルにアクセスするためのウェブアドレスである。

第１実施形態に係るデータ処理システムの構成の一例を示す概念図である。第１実施形態に係るデータ処理装置及びスマートデバイスの要部機能の一例を示す概念図である。第２実施形態に係るデータ処理システムの構成の一例を示す概念図である。第２実施形態に係るデータ処理装置及びスマート眼鏡の要部機能の一例を示す概念図である。第３実施形態に係るデータ処理システムの構成の一例を示す概念図である。第３実施形態に係るデータ処理装置及びヘッドセット型端末の要部機能の一例を示す概念図である。第４実施形態に係るデータ処理システムの構成の一例を示す概念図である。第４実施形態に係るデータ処理装置及びロボットの要部機能の一例を示す概念図である。複数の感情がマッピングされる感情マップを示す。複数の感情がマッピングされる感情マップを示す。実施例１におけるデータ処理システムの処理の流れを示すシーケンス図である。応用例１におけるデータ処理システムの処理の流れを示すシーケンス図である。感情エンジンを組み合わせた場合の実施例２におけるデータ処理システムの処理の流れを示すシーケンス図である。感情エンジンを組み合わせた場合の応用例２におけるデータ処理システムの処理の流れを示すシーケンス図である。

以下、添付図面に従って本開示の技術に係るシステムの実施形態の一例について説明する。

先ず、以下の説明で使用される文言について説明する。

以下の実施形態において、符号付きのプロセッサ（以下、単に「プロセッサ」と称する）は、１つの演算装置であってもよいし、複数の演算装置の組み合わせであってもよい。また、プロセッサは、１種類の演算装置であってもよいし、複数種類の演算装置の組み合わせであってもよい。演算装置の一例としては、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＧＰＧＰＵ（General-Purpose computing on Graphics Processing Units）、ＡＰＵ（Accelerated Processing Unit）等が挙げられる。

以下の実施形態において、符号付きのＲＡＭ（Random Access Memory）は、一時的に情報が格納されるメモリであり、プロセッサによってワークメモリとして用いられる。

以下の実施形態において、符号付きのストレージは、各種プログラム及び各種パラメータ等を記憶する１つ又は複数の不揮発性の記憶装置である。不揮発性の記憶装置の一例としては、フラッシュメモリ（ＳＳＤ（Solid State Drive））、磁気ディスク（例えば、ハードディスク）、又は磁気テープ等が挙げられる。

以下の実施形態において、符号付きの通信Ｉ／Ｆ（Interface）は、通信プロセッサ及びアンテナ等を含むインタフェースである。通信Ｉ／Ｆは、複数のコンピュータ間での通信を司る。通信Ｉ／Ｆに対して適用される通信規格の一例としては、５Ｇ（5th Generation Mobile Communication System）、Ｗｉ－Ｆｉ（登録商標）、又はＢｌｕｅｔｏｏｔｈ（登録商標）等を含む無線通信規格が挙げられる。

以下の実施形態において、「Ａ及び／又はＢ」は、「Ａ及びＢのうちの少なくとも１つ」と同義である。つまり、「Ａ及び／又はＢ」は、Ａだけであってもよいし、Ｂだけであってもよいし、Ａ及びＢの組み合わせであってもよい、という意味である。また、本明細書において、３つ以上の事柄を「及び／又は」で結び付けて表現する場合も、「Ａ及び／又はＢ」と同様の考え方が適用される。

［第１実施形態］

図１には、第１実施形態に係るデータ処理システム１０の構成の一例が示されている。

図１に示すように、データ処理システム１０は、データ処理装置１２及びスマートデバイス１４を備えている。データ処理装置１２の一例としては、サーバが挙げられる。

データ処理装置１２は、コンピュータ２２、データベース２４、及び通信Ｉ／Ｆ２６を備えている。コンピュータ２２は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ２２は、プロセッサ２８、ＲＡＭ３０、及びストレージ３２を備えている。プロセッサ２８、ＲＡＭ３０、及びストレージ３２は、バス３４に接続されている。また、データベース２４及び通信Ｉ／Ｆ２６も、バス３４に接続されている。通信Ｉ／Ｆ２６は、ネットワーク５４に接続されている。ネットワーク５４の一例としては、ＷＡＮ（Wide Area Network）及び／又はＬＡＮ（Local Area Network）等が挙げられる。

スマートデバイス１４は、コンピュータ３６、受付装置３８、出力装置４０、カメラ４２、及び通信Ｉ／Ｆ４４を備えている。コンピュータ３６は、プロセッサ４６、ＲＡＭ４８、及びストレージ５０を備えている。プロセッサ４６、ＲＡＭ４８、及びストレージ５０は、バス５２に接続されている。また、受付装置３８、出力装置４０、及びカメラ４２も、バス５２に接続されている。

受付装置３８は、タッチパネル３８Ａ及びマイクロフォン３８Ｂ等を備えており、ユーザ入力を受け付ける。タッチパネル３８Ａは、指示体（例えば、ペン又は指等）の接触を検出することにより、指示体の接触によるユーザ入力を受け付ける。マイクロフォン３８Ｂは、ユーザの音声を検出することにより、音声によるユーザ入力を受け付ける。制御部４６Ａは、タッチパネル３８Ａ及びマイクロフォン３８Ｂによって受け付けたユーザ入力を示すデータをデータ処理装置１２に送信する。データ処理装置１２では、特定処理部２９０が、ユーザ入力を示すデータを取得する。

出力装置４０は、ディスプレイ４０Ａ及びスピーカ４０Ｂ等を備えており、データをユーザ２０が知覚可能な表現形（例えば、音声及び／又はテキスト）で出力することでデータをユーザ２０に対して提示する。ディスプレイ４０Ａは、プロセッサ４６からの指示に従ってテキスト及び画像等の可視情報を表示する。スピーカ４０Ｂは、プロセッサ４６からの指示に従って音声を出力する。カメラ４２は、レンズ、絞り、及びシャッタ等の光学系と、ＣＭＯＳ（Complementary Metal-Oxide-Semiconductor）イメージセンサ又はＣＣＤ（Charge Coupled Device）イメージセンサ等の撮像素子とが搭載された小型デジタルカメラである。

通信Ｉ／Ｆ４４は、ネットワーク５４に接続されている。通信Ｉ／Ｆ４４及び２６は、ネットワーク５４を介してプロセッサ４６とプロセッサ２８との間の各種情報の授受を司る。

図２には、データ処理装置１２及びスマートデバイス１４の要部機能の一例が示されている。

図２に示すように、データ処理装置１２では、プロセッサ２８によって特定処理が行われる。ストレージ３２には、特定処理プログラム５６が格納されている。特定処理プログラム５６は、本開示の技術に係る「プログラム」の一例である。プロセッサ２８は、ストレージ３２から特定処理プログラム５６を読み出し、読み出した特定処理プログラム５６をＲＡＭ３０上で実行する。特定処理は、プロセッサ２８がＲＡＭ３０上で実行する特定処理プログラム５６に従って特定処理部２９０として動作することによって実現される。

ストレージ３２には、データ生成モデル５８及び感情特定モデル５９が格納されている。データ生成モデル５８及び感情特定モデル５９は、特定処理部２９０によって用いられる。

スマートデバイス１４では、プロセッサ４６によって受付出力処理が行われる。ストレージ５０には、受付出力プログラム６０が格納されている。受付出力プログラム６０は、データ処理システム１０によって特定処理プログラム５６と併用される。プロセッサ４６は、ストレージ５０から受付出力プログラム６０を読み出し、読み出した受付出力プログラム６０をＲＡＭ４８上で実行する。受付出力処理は、プロセッサ４６がＲＡＭ４８上で実行する受付出力プログラム６０に従って、制御部４６Ａとして動作することによって実現される。

次に、データ処理装置１２の特定処理部２９０による特定処理について説明する。以下の説明では、データ処理装置１２を「サーバ」と称し、スマートデバイス１４を「端末」と称する。

本発明は、製品説明会やセミナーなどの録画動画を効率的に要約し、フルバージョンと要約バージョンの両方を提供するシステムである。本発明のシステムは、コンピュータプログラムに基づいて動作する一連のプロセスを含む。以下に、プログラムの処理を自然言語で詳述する。

ユーザは製品説明会やセミナーの様子をビデオカメラやスマートフォンで収録する。その後、ユーザは録画した動画ファイルをサーバにアップロードする。サーバはまず、この動画ファイルを受信し、指定のフォルダに保存する。

次に、サーバは動画の音声データを解析するために、音声認識技術を使用する。具体的には、音声認識エンジンを動作させ、音声データをテキストデータに変換する。例として、Google（登録商標） Cloud Speech-to-Text APIを使用することが考えられる。音声認識の結果として、動画内の全ての音声が対応するテキスト形式でサーバに保存される。

その後、サーバは生成されたテキストデータを自然言語処理技術を用いて解析する。サーバは自然言語処理ライブラリ（例：SpaCy）を利用し、テキストデータからキーワードや重要文を抽出する。このプロセスにより、動画の中で特に重要とされる情報がリスト化される。

リストアップされた重要ポイントに基づいて、サーバは動画の要約バージョンを編集・生成する。サーバは動画編集ライブラリ（例：FFmpeg）を利用し、重要ポイントが映っている部分だけを抜き出して結合することで、要約バージョンの動画を作成する。一方で、フルバージョンの動画は元の動画ファイルをそのまま使用する。

編集が完了した後、サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードする。例として、ＹｏｕＴｕｂｅ（登録商標）やVimeoなどの動画配信サービスにアップロードすることが可能である。アップロードが完了すると、配信プラットフォームは視聴用のURLを生成し、サーバはこのURLをユーザにメールなどで通知する。

以上のプロセスにより、ユーザはフルバージョンの動画を視聴して詳細な情報を得ることもできるし、要約バージョンの動画を視聴して短時間で重要な情報を把握することもできる。このシステムにより、ユーザは情報取得の効率を大幅に向上させることができ、製品説明会やセミナーの内容をより効果的に活用することが可能である。

以下に、処理の流れについて説明する。

ステップ１：

ユーザが動画を収集する。ユーザは製品説明会やセミナーをビデオカメラやスマートフォンで撮影し、動画ファイルを生成する。

ステップ２：

ユーザが動画をサーバにアップロードする。ユーザは自身の端末からサーバにアクセスし、収集した動画ファイルを選択してアップロードポータルに送信する。

ステップ３：

サーバが動画ファイルを受信する。サーバはアップロードされた動画ファイルを指定のディレクトリ（例：「uploads」フォルダ）に保存する。

ステップ４：

サーバが音声認識を行う。サーバは音声認識エンジン（例：Google Cloud Speech-to-Text API）を起動し、動画の音声データをテキストデータに変換する。

ステップ５：

サーバが変換されたテキストデータを保存する。サーバは生成されたテキストデータを指定のフォルダに保存する。

ステップ６：

サーバがテキストデータを解析する。サーバは自然言語処理技術（例：SpaCyライブラリ）を用いて、テキストデータからキーワードや重要文を抽出する。

ステップ７：

サーバが重要ポイントをリストアップする。サーバは抽出されたキーワードや重要文を基に、動画の重要ポイントをリスト化する。

ステップ８：

サーバが要約バージョンの動画を編集する。サーバは動画編集ライブラリ（例：FFmpeg）を用いて、リストアップされた重要ポイントに基づいて必要な部分だけを抽出、結合して要約バージョンの動画を生成する。

ステップ９：

サーバがフルバージョンの動画を保存する。サーバは元の動画ファイルをそのまま指定のフォルダ（例：「full_videos」フォルダ）に保存する。

ステップ１０：

サーバが要約バージョンの動画を保存する。サーバは編集された要約バージョンの動画ファイルを指定のフォルダ（例：「summary_videos」フォルダ）に保存する。

ステップ１１：

サーバが動画ファイルを配信準備する。サーバはフルバージョンおよび要約バージョンの動画ファイルを動画配信プラットフォーム（例：YouTubeやVimeo）にアップロードする。

ステップ１２：

サーバが視聴URLを生成し、ユーザに通知する。サーバは配信プラットフォームから取得した視聴URLをユーザのメールアドレスへ送信し、視聴リンクを提供する。

（実施例１）

次に、実施例１について説明する。以下の説明では、データ処理装置１２を「サーバ」と称し、スマートデバイス１４を「端末」と称する。

従来の製品説明会やセミナーの録画動画は、視聴者が必要な情報を効率的に抽出することが困難であった。特に、長時間の動画から重要なポイントを手動で抽出して要約する作業は、多大な労力と時間を要する。また、視聴者が多忙な場合、全ての内容を把握することが難しく、要約された動画の提供が求められている。これにより、情報取得の効率を向上させることが必要である。

実施例１におけるデータ処理装置１２の特定処理部２９０による特定処理を、以下の各手段により実現する。

この発明では、サーバは、動画データを収集し、情報処理装置にアップロードする手段と、音響データ認識技術を使用して動画の音響データを文字データに変換する手段と、自然言語解析技術を用いて文字データから重要ポイントを抽出する手段と、を含む。これにより、動画の要約バージョンを効率的に生成し、視聴者が短時間で重要な情報を把握することが可能となる。

「動画データ」とは、音響情報や視覚情報を含むデジタル形式の映像情報である。

「情報処理装置」とは、データの入力・処理・出力を行う機能を有する電子機器である。

「音響データ認識技術」とは、音声や音響のデータを解析し、対応する文字データに変換する技術である。

「文字データ」とは、テキスト形式で表現されたデジタルの情報である。

「自然言語解析技術」とは、自然言語を処理する技術であり、テキストデータから意味や構造を解析することである。

「重要ポイント」とは、特定の情報や内容の中で、特に注目すべきまたは重要な部分である。

「要約バージョン」とは、元の動画データの中から重要ポイントを抜粋し、短縮した形式の動画である。

「配信媒体」とは、デジタルコンテンツをユーザに届けるためのインターネットを利用したサービスやプラットフォームである。

「視聴URL」とは、インターネット上で特定のコンテンツを視聴するためのウェブアドレスである。

「利用者」とは、システムやサービスを使用する人や団体である。

本発明は、製品説明会やセミナーなどの録画動画を効率的に要約し、フルバージョンと要約バージョンの両方を提供するシステムである。本発明のシステムは、情報処理装置に基づいて動作する一連のプロセスを含む。以下に、プログラムの処理を具体的に説明する。

ユーザは、製品説明会やセミナーの様子をビデオカメラやスマートフォンなどの装置を使用して収録する。その後、ユーザは録画した動画データを情報処理装置にアップロードする。このアップロードされた動画データは、情報処理装置によって特定のフォルダに保存される。

情報処理装置は、まずアップロードされた動画ファイルの音響データを解析する。このために、音響データ認識技術を使用する。この技術には、音響データ認識ユニット（例えば、一般的な音響データ認識API）が含まれる。この認識ユニットは、動画の音響データを文字データに変換し、その結果を情報処理装置に保存する。

次に、情報処理装置は保存された文字データを自然言語解析技術を用いて解析する。このために、自然言語解析ライブラリ（例えば、一般的な自然言語解析ライブラリ）が使用される。このライブラリを使用して、文字データからキーワードや重要文が抽出される。この解析の結果、重要ポイントが特定される。

情報処理装置は、抽出された重要ポイントに基づいて動画の要約バージョンを編集・生成する。このプロセスには、動画編集ライブラリ（例えば、一般的な動画編集ソフトウェア）が使用される。重要ポイントが含まれている部分だけを抜き出して結合することで、要約バージョンの動画が作成される。一方、フルバージョンの動画は元の動画データをそのまま使用する。

編集が完了した後、情報処理装置は生成されたフルバージョンおよび要約バージョンの動画データを配信媒体にアップロードする。具体例として、配信媒体には一般的な動画配信プラットフォーム（例えば、動画共有サイト）が使用される。アップロードが完了すると、配信プラットフォームは視聴用のURLを生成し、情報処理装置はこのURLをユーザに電子メールなどで通知する。

以上のプロセスにより、ユーザはフルバージョンの動画を視聴して詳細な情報を得ることができるし、要約バージョンの動画を視聴して短時間で重要な情報を把握することもできる。このシステムにより、ユーザは情報取得の効率を大幅に向上させることができ、製品説明会やセミナーの内容をより効果的に活用することが可能である。

プロンプト文の例：

「新製品の機能紹介セミナー」の動画をアップロードしました。音響データ認識と自然言語解析を使用して、内容を文字データ化し、キーワード抽出を行い、そのキーワードに基づいて動画の要約版を作成してください。フルバージョンと要約バージョンの両方を動画配信プラットフォームにアップロードし、視聴URLを教えてください。

実施例１における特定処理の流れについて図１１を用いて説明する。

ステップ１：

ユーザが動画を撮影し、情報処理装置にアップロードする。

入力：ユーザが撮影した動画ファイル

出力：動画ファイルが情報処理装置の指定フォルダに保存される

具体的な動作：ユーザはビデオカメラやスマートフォンを使用してセミナーや説明会を撮影する。撮影後、その動画ファイルを情報処理装置のWebインターフェースを利用してサーバにアップロードする。サーバはこの動画ファイルを受信し、事前に指定されたフォルダに保存する。

ステップ２：

サーバが動画ファイルの音響データを抽出し、文字データに変換する。

入力：ステップ１で保存された動画ファイル

出力：動画の音響データを変換した文字データ

具体的な動作：サーバは動画ファイルから音響データを抽出するために、音響データ認識技術を使用する。具体的には、一般的な音響データ認識APIを利用して音響データを文字データに変換する。この文字データはテキストファイルとして保存される。

ステップ３：

サーバが自然言語解析技術を使用して文字データを解析し、重要ポイントを抽出する。

入力：ステップ２で得られた文字データ

出力：重要ポイントが特定されたリスト

具体的な動作：サーバは文字データを読み込み、自然言語解析技術を使用して解析する。自然言語解析ライブラリ（例：一般的な解析ライブラリ）を利用して、文字データからキーワードや重要文を抽出する。抽出された重要ポイントはリストとして保存される。

ステップ４：

サーバが抽出された重要ポイントに基づいて要約バージョンの動画を生成する。

入力：ステップ３で得られた重要ポイントのリスト

出力：要約バージョンの動画ファイル

具体的な動作：サーバは重要ポイントが含まれる動画部分を抜き出し、動画編集ライブラリ（例：一般的な動画編集ソフトウェア）を使用して要約バージョンを編集・生成する。具体的な動作としては、重要ポイントが話されている部分の動画クリップを抽出し、それらを結合することで要約バージョンの動画を作成する。

ステップ５：

サーバがフルバージョンおよび要約バージョンの動画を配信媒体にアップロードし、ユーザに通知する。

入力：ステップ４で生成された要約バージョンの動画、および元のフルバージョンの動画

出力：視聴URLが含まれた通知メール

具体的な動作：サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを一般的な動画配信プラットフォームにアップロードする。配信プラットフォームは視聴用のURLを生成するので、サーバはこのURLを含む通知メールをユーザに送信する。

以上のステップを実行することで、ユーザは効率的に動画の内容を確認することができるようになる。

（応用例１）

次に、応用例１について説明する。以下の説明では、データ処理装置１２を「サーバ」と称し、スマートデバイス１４を「端末」と称する。

近年、ビデオ会議やセミナーの録画が一般的になったが、長時間の動画から重要な情報だけを効率的に取得する手段が求められている。特に、スマートフォンやその他の携帯端末から手軽にアクセスできる形で要約情報を提供することが重要である。従来の手法では、フルバージョンの動画を視聴しながら重要な部分を自ら探す必要があり、時間と労力がかかるという課題があった。

応用例１におけるデータ処理装置１２の特定処理部２９０による特定処理を、以下の各手段により実現する。

この発明では、サーバは、動画ファイルを収集し、サーバにアップロードする手段と、音声認識技術を用いて動画の音声データをテキストデータに変換する手段と、自然言語処理技術を用いてテキストデータから重要ポイントを抽出する手段と、を含む。これにより、動画から重要な部分を効率的に抽出し、スマートフォンに適した要約バージョンを生成・提供することが可能となる。

「動画ファイル」とは、情報を視覚および聴覚的に記録し、再生可能なデジタルデータ形式のファイルである。

「サーバ」とは、ネットワーク上でデータを処理および管理し、他のデバイスにサービスを提供するコンピュータシステムである。

「音声認識技術」とは、音声をテキストに変換するための技術である。

「テキストデータ」とは、文字や記号によって表現された情報の集合である。

「自然言語処理技術」とは、自然言語を理解し、解析、および生成するための技術である。

「重要ポイント」とは、情報の中で特に注目すべき内容や主要な内容のことである。

「要約バージョン」とは、元のコンテンツの中から重要な部分だけを抜粋し、短縮した形式のコンテンツである。

「配信プラットフォーム」とは、デジタルコンテンツをユーザに配信するためのオンラインサービスである。

「視聴URL」とは、インターネット上で特定のコンテンツにアクセスして視聴するためのウェブアドレスである。

「スマートフォン」とは、携帯電話機能に加えて、コンピュータのような多機能を持つ携帯デバイスである。

「アプリケーション」とは、特定の機能や役割を持つソフトウェアプログラムである。

「効率的」とは、最小限の資源や時間で最大の成果を上げることができる状態を示す。

「コンテンツ」とは、情報やメディアの中身や内容のことである。

発明を実施するための形態を具体的に示すために、本発明に基づいたシステムの全体的な処理を以下に説明する。このシステムは、動画ファイルの収集、音声データのテキストデータへの変換、重要ポイントの抽出、動画の要約生成および配信を行うものである。

まず、ユーザはスマートフォンを使用して製品説明会やセミナーの録画を行う。録画が完了したら、ユーザはこの動画ファイルをサーバにアップロードする。サーバは、アップロードされた動画ファイルを指定のフォルダに保存する。次に、サーバは音声認識技術を使用して動画の音声データをテキストデータに変換する。この際、Google Cloud Speech-to-Text APIを利用することが考えられる。音声認識の結果、動画内の全ての音声がテキスト形式で保存される。

続いて、サーバは自然言語処理技術を用いて生成されたテキストデータを解析する。具体的には、自然言語処理ライブラリ（例：SpaCy）を使用してテキストデータからキーワードや重要な文章を抽出する。解析の結果、動画の中で特に重要とされる情報がリストアップされる。リストアップされた重要ポイントに基づき、サーバは動画の要約バージョンを編集・生成する。この処理は、動画編集ライブラリ（例：FFmpeg）を利用して実施される。重要ポイントが映っている部分のみを抜き出し、これらを結合することで要約バージョンの動画を作成する。

編集が完了した後、サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードする。例えば、YouTubeやVimeoなどの動画配信サービスにアップロードすることが可能である。配信プラットフォームは視聴用のURLを生成し、サーバはこのURLをユーザにメールなどで通知する。これにより、ユーザはフルバージョンの動画を視聴して詳細な情報を取得することや、短時間で重要な情報を把握するために要約バージョンの動画を視聴することができる。

さらに、このシステムはスマートフォンにインストールされるアプリケーションとしても動作する。このアプリケーションを利用することで、ユーザは録画や動画のアップロード、重要ポイントの抽出、要約動画の生成、URLの取得までの一連の流れをスマートフォン上で簡単に操作することができる。

具体例として、30分間のセミナー動画がある場合、それを効率的に10秒ずつの要約ポイントに分割し、ユーザが短時間で重要な情報を取得できるようにするアプリケーションが挙げられる。

プロンプト文の例：

「セミナー動画を30分間録画しました。重要な部分を選別し、10秒ごとに要約を作成してください。」

このシステムにより、ユーザは効率的かつ効果的に重要な情報を取得でき、時間と労力を大幅に節約することが可能となる。

応用例１における特定処理の流れについて図１２を用いて説明する。

ステップ１：

ユーザはスマートフォンを使用して製品説明会やセミナーの録画を行う。録画が完了したら、この動画ファイルをサーバにアップロードする。入力は録画された動画ファイルであり、出力はサーバに保存された動画ファイルである。具体的には、ユーザはアプリケーションを起動し、録画ボタンを押して動画を撮影する。その後、録画終了後に表示されるアップロードボタンを押して動画をサーバに送信する。

ステップ２：

サーバはアップロードされた動画ファイルを指定のフォルダに保存する。入力はユーザからアップロードされた動画ファイルであり、出力は指定フォルダに保存された動画ファイルである。サーバは受信した動画ファイルを一時フォルダに保存し、ファイル名を一意に設定して指定の保存先に移動する。

ステップ３：

サーバは音声認識技術を使用して動画の音声データをテキストデータに変換する。この際、Google Cloud Speech-to-Text APIを使用する。入力は保存された動画ファイルであり、出力は音声データから生成されたテキストデータである。具体的には、サーバは動画ファイルから音声トラックを抽出し、Google Cloud Speech-to-Text APIに音声データを送信してテキストに変換する。

ステップ４：

サーバは自然言語処理技術を用いて生成されたテキストデータを解析する。具体的には、自然言語処理ライブラリ（例：SpaCy）を使用してテキストデータからキーワードや重要な文章を抽出する。入力は前ステップで生成されたテキストデータであり、出力は抽出されたキーワードと重要な文章である。サーバはテキストデータを自然言語処理エンジンに送り、解析の結果として重要な文やキーワードのリストを生成する。

ステップ５：

サーバはリストアップされた重要ポイントに基づいて動画の要約バージョンを編集・生成する。この処理は、動画編集ライブラリ（例：FFmpeg）を利用して実施される。入力は重要ポイントのリストと元の動画ファイルであり、出力は要約バージョンの動画ファイルである。サーバは重要ポイントが出現する時間範囲を特定し、その部分を抽出して連結し、要約バージョンを生成する。

ステップ６：

サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードする。例えば、YouTubeやVimeoなどの動画配信サービスにアップロードすることが可能である。入力は生成されたフルバージョンと要約バージョンの動画ファイルであり、出力はそれぞれの視聴URLである。サーバは配信プラットフォームのAPIを使用して動画ファイルをアップロードし、視聴URLを取得する。

ステップ７：

サーバは配信プラットフォームが生成した視聴用のURLをユーザにメールなどで通知する。入力は視聴URLであり、出力はユーザへの通知である。具体的には、サーバはURLを含むメールを自動生成し、ユーザの登録メールアドレスに送信する。

このシステムにより、ユーザはフルバージョンの動画を視聴して詳細な情報を取得することや、短時間で重要な情報を把握するために要約バージョンの動画を視聴することができる。

更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部２９０は、感情特定モデル５９を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。

本発明は、製品説明会やセミナーの録画動画を効率的に要約し、フルバージョンと要約バージョンの両方を提供するシステムである。また、ユーザの感情を認識する感情エンジンを組み合わせることで、動画の重要ポイントの抽出および要約をさらに高度に行う。本発明のシステムは、コンピュータプログラムに基づいて動作する一連のプロセスを含む。以下に、プログラムの処理を自然言語で詳述する。

ユーザは製品説明会やセミナーの様子をビデオカメラやスマートフォンで収録する。その後、ユーザは録画した動画ファイルをサーバにアップロードする。サーバはこの動画ファイルを受信し、指定のフォルダに保存する。

次に、サーバは動画の音声データを解析するために、音声認識技術を使用する。具体的には、音声認識エンジン（例：Google Cloud Speech-to-Text API）を動作させ、音声データをテキストデータに変換する。この変換されたテキストデータは、サーバに保存される。

次に、サーバは感情エンジンを使用して、動画の音声データからユーザの感情を分析する。感情エンジンは、ユーザの音声トーンやテンポ、イントネーションなどを解析し、感情情報をテキストデータに付加する。例えば、テキストデータの各部分に「興奮」「安心」「疑問」などの感情タグを付ける。

その後、サーバは自然言語処理技術（例：SpaCyライブラリ）を使用してテキストデータを解析する。感情エンジンによって付加された感情タグを基に、テキストデータからキーワードや重要文を抽出する。このプロセスにより、動画の中で特に重要であり、視聴者にとって感情的にインパクトのある情報がリスト化される。抽出された重要ポイントは、感情情報を考慮して優先順位付けされる。

リストアップされた重要ポイントに基づいて、サーバは要約バージョンの動画を編集・生成する。サーバは動画編集ライブラリ（例：FFmpeg）を利用し、重要ポイントが映っている部分だけを抜き出して結合することで要約バージョンの動画を作成する。一方で、フルバージョンの動画は元の動画ファイルをそのまま使用する。

編集が完了した後、サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードする。例として、YouTubeやVimeoなどの動画配信サービスにアップロードすることが可能である。アップロードが完了すると、配信プラットフォームは視聴用のURLを生成し、サーバはこのURLをユーザにメールなどで通知する。

このプロセスにより、ユーザはフルバージョンの動画を視聴して詳細な情報を得ることもでき、要約バージョンの動画を視聴して短時間で重要な情報を把握することが可能である。また、感情エンジンの使用により、視聴者の感情的な反応に基づいた重要な情報を効率的に取得できるようになる。このシステムにより、ユーザは情報取得の効率を大幅に向上させ、製品説明会やセミナーの内容をより効果的に活用することができる。

以下に、処理の流れについて説明する。

ステップ１：

ステップ２：

ステップ３：

ステップ４：

ステップ５：

ステップ６：

サーバが感情エンジンを使用して音声データを解析し、感情情報を抽出する。感情エンジンはユーザの音声トーンやテンポ、イントネーションを解析し、テキストデータに感情タグを付加する。

ステップ７：

サーバが感情情報を付加したテキストデータを自然言語処理技術を用いて解析する。サーバは自然言語処理ライブラリ（例：SpaCy）を利用し、テキストデータからキーワードや重要文を抽出する。

ステップ８：

サーバが抽出されたキーワードや重要文を基に重要ポイントをリストアップし、感情情報に基づいて優先順位付けする。

ステップ９：

サーバが要約バージョンの動画を編集・生成する。サーバは動画編集ライブラリ（例：FFmpeg）を用いて、重要ポイントが表示されるシーンのみを抽出・結合して要約バージョンの動画を作成する。

ステップ１０：

ステップ１１：

ステップ１２：

ステップ１３：

（実施例２）

次に、実施例２について説明する。以下の説明では、データ処理装置１２を「サーバ」と称し、スマートデバイス１４を「端末」と称する。

近年、製品説明会やセミナーの録画内容を効率的に要約し、フルバージョンと要約バージョンの両方を提供するニーズが高まっている。しかし、これまでの技術では、録画動画の音声データを単にテキストに変換するだけで、感情情報を考慮した効率的な要約が困難であった。その結果、動画の重要ポイントを正確に抽出できず、視聴者にとって有用な情報提供が難しいという課題があった。

実施例２におけるデータ処理装置１２の特定処理部２９０による特定処理を、以下の各手段により実現する。

この発明では、サーバは、動画ファイルを収集し、サーバにアップロードする手段と、音声認識技術を用いて動画の音声データをテキストデータに変換する手段と、感情解析技術を使用して音声データから感情情報を抽出し、テキストデータに付加する手段と、自然言語処理技術を用いてテキストデータから重要ポイントを抽出する手段と、抽出された重要ポイントに基づいて動画から要約バージョンを編集・生成する手段と、フルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードし、視聴URLをユーザに通知する手段とを含む。これにより、動画内の重要で感情的にインパクトのある部分を効率的に抽出し、要約することが可能となる。

「動画ファイル」とは、ビデオカメラやスマートフォンなどの撮影装置によって収録された映像および音声を含むデジタルデータである。

「サーバ」とは、ネットワークを通じてデータの保存、処理、および配信を行うためのコンピュータシステムである。

「音声認識技術」とは、音声データを解析し、その内容をテキストデータに変換する技術である。

「感情解析技術」とは、音声やテキストデータを解析し、一定のアルゴリズムに基づいて感情情報を抽出する技術である。

「自然言語処理技術」とは、人間の言語をコンピュータで処理・理解するための一連の技術であり、テキストデータからキーワードや重要文を抽出することができる。

「テキストデータ」とは、文字列として表現されたデジタル情報であり、音声認識技術によって音声データから変換されたものである。

「重要ポイント」とは、動画やテキストデータの中で視聴者やユーザにとって特に有益または重要と判断された部分である。

「要約バージョン」とは、動画ファイルの内容を簡略化し、重要ポイントのみを含む短縮された動画である。

「フルバージョン」とは、元の動画ファイルをそのまま使用した、全体の内容を含む完全な動画である。

「配信プラットフォーム」とは、インターネットを通じて動画ファイルを視聴者に配信するためのオンラインサービスである。

「視聴URL」とは、視聴者がウェブブラウザなどを通じて動画を再生する際に使用するリンクである。

本発明は、製品説明会やセミナーの録画動画を効率的に要約し、フルバージョンと要約バージョンの両方を提供するシステムである。さらに、ユーザの感情を認識する感情エンジンを組み合わせることで、動画の重要ポイントの抽出および要約を高度に行うことを特徴とする。

本システムは、以下のような手順で動作する。まず、ユーザは製品説明会やセミナーの様子をビデオカメラやスマートフォンで録画する。その後、ユーザは録画した動画ファイルをサーバにアップロードするためのウェブインターフェースを使用する。サーバは動画ファイルを受信し、指定のフォルダに保存する。

次に、サーバは音声認識技術を使用して動画の音声データをテキストデータに変換する。具体的には、音声認識エンジンとしてGoogle Cloud Speech-to-Text APIを使用する。このAPIにより、音声データを高精度でテキストデータに変換することができる。変換されたテキストデータは、サーバに保存される。

その後、サーバは自然言語処理技術を使用してテキストデータを解析する。具体的には、自然言語処理ライブラリとしてSpaCyを使用する。このライブラリを用いて、感情エンジンによって付加された感情タグを基にテキストデータからキーワードや重要文を抽出する。この処理により、動画の中で特に重要であり、視聴者にとって感情的にインパクトのある情報がリスト化される。さらに、抽出された重要ポイントは感情情報を考慮して優先順位付けされる。

リストアップされた重要ポイントに基づいて、サーバは要約バージョンの動画を編集・生成する。具体的には、動画編集ライブラリとしてFFmpegを利用する。重要ポイントが映っている部分だけを抜き出し、結合することで要約バージョンの動画を作成する。一方で、フルバージョンの動画は元の動画ファイルをそのまま使用する。

編集が完了した後、サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを動画配信プラットフォームにアップロードする。例として、YouTubeやVimeoなどの動画配信サービスにアップロードすることが可能である。アップロードが完了すると、配信プラットフォームは視聴用のURLを生成し、サーバはこのURLをユーザにメールなどで通知する。

具体例

例えば、ユーザが製品説明会の録画動画をサーバにアップロードしたとする。サーバは動画を受信し、Google Cloud Speech-to-Text APIを使用して音声データをテキストデータに変換する。その後、感情エンジンで音声データから感情情報を抽出し、「新商品紹介」の部分に「興奮」タグを付ける。次に、サーバはSpaCyライブラリを使用して重要ポイントを抽出し、FFmpegで要約バージョンの動画を編集・生成する。最終的に、生成された動画をYouTubeにアップロードし、視聴用URLをユーザのメールアドレスに通知する。

プロンプト文の例

ユーザは製品説明会の録画動画をサーバにアップロードします。サーバはGoogle Cloud Speech-to-Text APIを使用して音声データをテキスト化し、感情エンジンで感情タグを付加します。これを基に自然言語処理技術（SpaCy）を用いてキーワードや重要文を抽出し、FFmpegで要約バージョンの動画を生成します。最終的に、生成された動画をYouTubeにアップロードし、ユーザに視聴URLを通知します。

実施例２における特定処理の流れについて図１３を用いて説明する。

ステップ１：

ユーザはビデオカメラやスマートフォンで製品説明会やセミナーの様子を録画する。録画終了後、ユーザは録画した動画ファイルをブラウザのファイルアップロード機能を使用してサーバにアップロードする。

入力：録画された動画ファイル

出力：サーバにファイルがアップロードされる

具体的な動作：ユーザがブラウザでウェブページを開き、アップロードボタンをクリックして、録画した動画ファイルを選択し、「アップロード」ボタンを押す。

ステップ２：

サーバはアップロードされた動画ファイルを受信し、指定のフォルダに保存する。

入力：アップロードされた動画ファイル

出力：サーバの指定フォルダに保存された動画ファイル

具体的な動作：サーバ側のスクリプトがHTTP POSTリクエストを受け取り、動画ファイルをストレージに保存する。

ステップ３：

サーバは、Google Cloud Speech-to-Text APIを使用し、保存された動画ファイルの音声データをテキストデータに変換する。

入力：動画ファイルの音声データ

出力：テキストデータ

具体的な動作：サーバが音声データを抽出し、Google Cloud Speech-to-Text APIに送信してテキストに変換し、その結果を保存する。

ステップ４：

サーバは感情解析技術を使用し、音声データからユーザの感情を分析してテキストデータに感情情報を付加する。

入力：テキストデータおよび音声データ

出力：感情タグが付加されたテキストデータ

具体的な動作：感情解析アルゴリズムを適用し、音声のトーン、テンポ、イントネーションから感情情報を抽出、それをテキストに付加して保存する。

ステップ５：

サーバは、SpaCyを利用して、感情情報が追加されたテキストデータを解析し、重要ポイントを抽出する。

入力：感情タグが付加されたテキストデータ

出力：重要ポイントのリスト

具体的な動作：SpaCyライブラリを使用してテキストデータをトークン化し、感情タグを基にキーワードや重要文を抽出してリスト化する。

ステップ６：

サーバは、FFmpegを使用して、重要ポイントに基づいて要約バージョンの動画を編集・生成する。

入力：重要ポイントのリストおよび動画ファイル

出力：要約バージョンの動画ファイル

具体的な動作：FFmpegライブラリを使用して元の動画ファイルから重要ポイントが含まれる部分を抜き出し、これを結合して要約動画を生成する。

ステップ７：

サーバは、フルバージョンおよび要約バージョンの動画ファイルをYouTubeやVimeoにアップロードし、視聴URLを生成する。

入力：フルバージョンおよび要約バージョンの動画ファイル

出力：視聴URL

具体的な動作：YouTube APIやVimeo APIを使用して動画ファイルをアップロードし、視聴用URLを取得する。

ステップ８：

サーバは、生成された視聴URLをユーザに通知する。

入力：視聴URLおよびユーザのメールアドレス

出力：通知メール

具体的な動作：メールサーバを通じてユーザのメールアドレスにURLを含む通知メールを送信する。

（応用例２）

次に、応用例２について説明する。以下の説明では、データ処理装置１２を「サーバ」と称し、スマートデバイス１４を「端末」と称する。

現在、多くの製品説明会やセミナーは長時間にわたり、多量の情報が含まれている。そのため、視聴者は全ての内容を短時間で効果的に把握することが難しい。また、動画の重要なポイントを抽出する際に、視聴者の感情的な反応を反映させることができず、情報の優先順位付けが効果的に行われないという課題がある。従来の動画要約システムは、視覚的情報を最適に活用できていないため、視聴者にとって最も重要な部分を簡潔に伝えることが困難である。

応用例２におけるデータ処理装置１２の特定処理部２９０による特定処理を、以下の各手段により実現する。

この発明では、サーバは、動画ファイルを収集し、サーバにアップロードする手段と、音声認識技術を用いて動画の音声データをテキストデータに変換する手段と、自然言語処理技術を用いてテキストデータから重要ポイントを抽出する手段と、抽出された重要ポイントに基づいて動画から要約バージョンを編集・生成する手段と、フルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードし、視聴URLをユーザに通知する手段と、感情分析技術を用いて音声データから感情情報を抽出し、それを用いて重要ポイントの優先順位を付ける手段と、ユーザーインターフェースを通じて視聴者に感情情報を可視化し、要約動画を提示する手段とを含む。これにより、視聴者は短時間で重要な情報を把握することが可能となり、感情的な反応に基づいた最も重要なポイントを効率的に視覚化し、情報の優先順位付けが可能となる。

1. 「動画ファイル」とは、ビデオカメラやスマートフォンなどのデバイスを用いて撮影された映像と音声が一体となったデータである。

2. 「サーバ」とは、ネットワークを通じてデータの保存や処理を行うためのコンピュータシステムである。

3. 「音声認識技術」とは、音声を解析してテキストデータに変換する技術である。

4. 「テキストデータ」とは、音声認識技術により変換された文章形式のデータである。

5. 「自然言語処理技術」とは、テキストデータを解析し、キーワードや重要文を抽出する技術である。

6. 「重要ポイント」とは、動画やテキストデータの中で特に重要とされる情報の部分である。

7. 「要約バージョン」とは、フルバージョンの動画から重要な部分のみを抽出して編集・生成された短縮版の動画である。

8. 「フルバージョン」とは、元の動画ファイル全体を指す。

9. 「配信プラットフォーム」とは、インターネットを通じて動画を視聴できるサービスである。

10. 「視聴URL」とは、インターネット上で動画を視聴するためのウェブアドレスである。

11. 「感情分析技術」とは、音声データから感情情報を抽出する技術である。

12. 「感情情報」とは、音声のトーンやテンポなどを解析して得られる感情のデータである。

13. 「ユーザーインターフェース」とは、視聴者が感情情報や動画を操作・閲覧するためのソフトウェアのインタラクション部分である。

14. 「可視化」とは、抽出された感情情報を視聴者にわかりやすく表示するプロセスである。

この発明では、ユーザが製品説明会やセミナーの動画ファイルを端末で収集し、サーバにアップロードする。サーバはネットワークを通じて動画ファイルを受信し、指定されたフォルダに保存する。使用する端末には、ビデオカメラやスマートフォンなどが含まれるが、スマートフォンが一般的である。

次に、サーバは音声認識技術を用いて動画の音声データをテキストデータに変換する。この目的のために、Google Cloud Speech-to-Text APIなどの音声認識エンジンを使用する。音声データは音声認識エンジンによってテキストに変換され、そのテキストデータはサーバに保存される。

その後、サーバは自然言語処理技術を用いてテキストデータを解析し、重要ポイントを抽出する。具体的には、SpaCyライブラリのような自然言語処理ライブラリを使用して、テキストデータからキーワードや重要文を抽出する。この段階で、感情分析技術も使用する。感情分析技術により、音声のトーンやテンポ、イントネーションなどから感情情報を取得し、それをテキストデータに付加する。これにより、感情情報を基に重要ポイントの優先順位を付けることができる。

サーバは、抽出された重要ポイントのリストに基づいて、動画の要約バージョンを編集・生成する。このプロセスでは、FFmpegなどの動画編集ライブラリを使用して、重要ポイントが含まれる部分を抜き出し、結合することで要約バージョンの動画を作成する。一方、フルバージョンの動画は、元の動画ファイル全体である。

編集が完了すると、サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードする。例えば、YouTubeやVimeoといった動画配信サービスにアップロードし、配信プラットフォームは視聴用のURLを生成する。サーバはこのURLをユーザに通知し、ユーザはそのURLをクリックすることで、フルバージョンまたは要約バージョンの動画を視聴することができる。

ここで、具体例として、ユーザが製品説明会の動画をスマートフォンで録画し、このアプリを通じてアップロードすると、アプリは数分で動画を処理し、要約版の動画および感情分析結果を返す。例えば、「重要な情報は12:34に開始し、15:00に終了します」といった通知が来る。

生成AIモデルへ入力するプロンプト文の例として、次のようなものがある。「下記の音声データを日本語のテキストに変換し、感情分析を行い、重要なキーワードを抽出して動画の要約を生成してください。」

応用例２における特定処理の流れについて図１４を用いて説明する。

ステップ１：

ユーザは端末（スマートフォンやビデオカメラ）で製品説明会やセミナーの動画を収録する。収録された動画ファイルは端末に保存される。入力としては録画デバイスから動画ファイルを取得し、出力として端末に保存された動画ファイルが得られる。

ステップ２：

ユーザは動画ファイルを端末からサーバへアップロードする。ユーザインターフェースを通じて動画ファイルを選択し、アップロードボタンを押すことで動画がサーバに送信される。入力は端末に保存された動画ファイルで、出力はサーバに保存された動画ファイルである。

ステップ３：

サーバは音声認識技術を用いて、動画ファイルの音声データをテキストデータに変換する。具体的には、Google Cloud Speech-to-Text APIを使用して、音声データをクラウドに送信し、テキストデータを受信してサーバに保存する。入力は動画ファイルの音声データ、出力は音声から変換されたテキストデータである。

ステップ４：

サーバは感情分析技術を用いて音声データから感情情報を抽出する。この処理には感情エンジンが使用され、音声のトーン、テンポ、イントネーションなどを解析して感情タグをテキストデータに付加する。入力は音声データ、出力は感情タグが付加されたテキストデータである。

ステップ５：

サーバは自然言語処理技術を用いて、テキストデータから重要ポイントを抽出する。これにはSpaCyライブラリなどが使用され、感情タグを基に重要なキーワードや重要文をリストアップする。入力は感情タグ付きのテキストデータ、出力はリスト化された重要ポイントである。

ステップ６：

サーバは抽出された重要ポイントに基づいて、動画の要約バージョンを編集・生成する。FFmpegなどの動画編集ライブラリを使用し、重要ポイントが映っている部分を抜き出して結合することで要約動画を生成する。入力は動画ファイルと重要ポイントのリスト、出力は要約バージョンの動画ファイルである。

ステップ７：

サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォーム（例えばYouTubeやVimeo）にアップロードする。それぞれのプラットフォームは視聴用のURLを生成し、サーバはこのURLをユーザにメールで通知する。入力は動画ファイル、出力は配信プラットフォーム上の視聴URLである。

ステップ８：

ユーザは通知されたURLをクリックし、ブラウザやアプリケーションを通じてフルバージョンまたは要約バージョンの動画を視聴することにより、短時間で重要な情報を把握する。入力は視聴URL、出力は再生される動画である。

特定処理部２９０は、特定処理の結果をスマートデバイス１４に送信する。スマートデバイス１４では、制御部４６Ａが、出力装置４０に対して特定処理の結果を出力させる。マイクロフォン３８Ｂは、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部４６Ａは、マイクロフォン３８Ｂによって取得されたユーザ入力を示す音声データをデータ処理装置１２に送信する。データ処理装置１２では、特定処理部２９０が音声データを取得する。

データ生成モデル５８は、いわゆる生成系ＡＩ（Artificial Intelligence）である。データ生成モデル５８の一例としては、ChatGPT（登録商標）（インターネット検索＜URL: https://openai.com/blog/chatgpt＞）、Ｇｅｍｉｎｉ（登録商標）（インターネット検索＜URL: https://gemini.google.com/?hl=ja＞）等の生成ＡＩが挙げられる。データ生成モデル５８は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル５８には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル５８は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び／又は要約等を指す。

上記実施形態では、データ処理装置１２によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、スマートデバイス１４によって特定処理が行われるようにしてもよい。

［第２実施形態］

図３には、第２実施形態に係るデータ処理システム２１０の構成の一例が示されている。

図３に示すように、データ処理システム２１０は、データ処理装置１２及びスマート眼鏡２１４を備えている。データ処理装置１２の一例としては、サーバが挙げられる。

スマート眼鏡２１４は、コンピュータ３６、マイクロフォン２３８、スピーカ２４０、カメラ４２、及び通信Ｉ／Ｆ４４を備えている。コンピュータ３６は、プロセッサ４６、ＲＡＭ４８、及びストレージ５０を備えている。プロセッサ４６、ＲＡＭ４８、及びストレージ５０は、バス５２に接続されている。また、マイクロフォン２３８、スピーカ２４０、及びカメラ４２も、バス５２に接続されている。

マイクロフォン２３８は、ユーザ２０が発する音声を受け付けることで、ユーザ２０から指示等を受け付ける。マイクロフォン２３８は、ユーザ２０が発する音声を捕捉し、捕捉した音声を音声データに変換してプロセッサ４６に出力する。スピーカ２４０は、プロセッサ４６からの指示に従って音声を出力する。

カメラ４２は、レンズ、絞り、及びシャッタ等の光学系と、ＣＭＯＳ（Complementary Metal-Oxide-Semiconductor）イメージセンサ又はＣＣＤ（Charge Coupled Device）イメージセンサ等の撮像素子とが搭載された小型デジタルカメラであり、ユーザ２０の周囲（例えば、一般的な健常者の視界の広さに相当する画角で規定された撮像範囲）を撮像する。

通信Ｉ／Ｆ４４は、ネットワーク５４に接続されている。通信Ｉ／Ｆ４４及び２６は、ネットワーク５４を介してプロセッサ４６とプロセッサ２８との間の各種情報の授受を司る。通信Ｉ／Ｆ４４及び２６を用いたプロセッサ４６とプロセッサ２８との間の各種情報の授受はセキュアな状態で行われる。

図４には、データ処理装置１２及びスマート眼鏡２１４の要部機能の一例が示されている。図４に示すように、データ処理装置１２では、プロセッサ２８によって特定処理が行われる。ストレージ３２には、特定処理プログラム５６が格納されている。

特定処理プログラム５６は、本開示の技術に係る「プログラム」の一例である。プロセッサ２８は、ストレージ３２から特定処理プログラム５６を読み出し、読み出した特定処理プログラム５６をＲＡＭ３０上で実行する。特定処理は、プロセッサ２８がＲＡＭ３０上で実行する特定処理プログラム５６に従って、特定処理部２９０として動作することによって実現される。

スマート眼鏡２１４では、プロセッサ４６によって受付出力処理が行われる。ストレージ５０には、受付出力プログラム６０が格納されている。プロセッサ４６は、ストレージ５０から受付出力プログラム６０を読み出し、読み出した受付出力プログラム６０をＲＡＭ４８上で実行する。受付出力処理は、プロセッサ４６がＲＡＭ４８上で実行する受付出力プログラム６０に従って、制御部４６Ａとして動作することによって実現される。

次に、データ処理装置１２の特定処理部２９０による特定処理について説明する。以下の説明では、データ処理装置１２を「サーバ」と称し、スマート眼鏡２１４を「端末」と称する。

次に、サーバは動画の音声データを解析するために、音声認識技術を使用する。具体的には、音声認識エンジンを動作させ、音声データをテキストデータに変換する。例として、Google Cloud Speech-to-Text APIを使用することが考えられる。音声認識の結果として、動画内の全ての音声が対応するテキスト形式でサーバに保存される。

以下に、処理の流れについて説明する。

ステップ１：

ステップ２：

ステップ３：

ステップ４：

ステップ５：

ステップ６：

ステップ７：

ステップ８：

ステップ９：

ステップ１０：

ステップ１１：

ステップ１２：

（実施例１）

次に、実施例１について説明する。以下の説明では、データ処理装置１２を「サーバ」と称し、スマート眼鏡２１４を「端末」と称する。

プロンプト文の例：

ステップ１：

入力：ユーザが撮影した動画ファイル

ステップ２：

入力：ステップ１で保存された動画ファイル

出力：動画の音響データを変換した文字データ

ステップ３：

入力：ステップ２で得られた文字データ

出力：重要ポイントが特定されたリスト

ステップ４：

入力：ステップ３で得られた重要ポイントのリスト

出力：要約バージョンの動画ファイル

ステップ５：

出力：視聴URLが含まれた通知メール

（応用例１）

次に、応用例１について説明する。以下の説明では、データ処理装置１２を「サーバ」と称し、スマート眼鏡２１４を「端末」と称する。

プロンプト文の例：

ステップ１：

ステップ２：

ステップ３：

ステップ４：

ステップ５：

ステップ６：

ステップ７：

なお、更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部２９０は、感情特定モデル５９を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。

以下に、処理の流れについて説明する。

ステップ１：

ステップ２：

ステップ３：

ステップ４：

ステップ５：

ステップ６：

ステップ７：

ステップ８：

ステップ９：

ステップ１０：

ステップ１１：

ステップ１２：

ステップ１３：

（実施例２）

次に、実施例２について説明する。以下の説明では、データ処理装置１２を「サーバ」と称し、スマート眼鏡２１４を「端末」と称する。

具体例

プロンプト文の例

ステップ１：

入力：録画された動画ファイル

出力：サーバにファイルがアップロードされる

ステップ２：

入力：アップロードされた動画ファイル

出力：サーバの指定フォルダに保存された動画ファイル

ステップ３：

入力：動画ファイルの音声データ

出力：テキストデータ

ステップ４：

入力：テキストデータおよび音声データ

出力：感情タグが付加されたテキストデータ

ステップ５：

入力：感情タグが付加されたテキストデータ

出力：重要ポイントのリスト

ステップ６：

入力：重要ポイントのリストおよび動画ファイル

出力：要約バージョンの動画ファイル

ステップ７：

出力：視聴URL

ステップ８：

サーバは、生成された視聴URLをユーザに通知する。

入力：視聴URLおよびユーザのメールアドレス

出力：通知メール

（応用例２）

次に、応用例２について説明する。以下の説明では、データ処理装置１２を「サーバ」と称し、スマート眼鏡２１４を「端末」と称する。

ステップ１：

ステップ２：

ステップ３：

ステップ４：

ステップ５：

ステップ６：

ステップ７：

ステップ８：

特定処理部２９０は、特定処理の結果をスマート眼鏡２１４に送信する。スマート眼鏡２１４では、制御部４６Ａが、スピーカ２４０に対して特定処理の結果を出力させる。マイクロフォン２３８は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部４６Ａは、マイクロフォン２３８によって取得されたユーザ入力を示す音声データをデータ処理装置１２に送信する。データ処理装置１２では、特定処理部２９０が音声データを取得する。

データ生成モデル５８は、いわゆる生成系ＡＩ（Artificial Intelligence）である。データ生成モデル５８の一例としては、ＣｈａｔＧＰＴ（インターネット検索＜URL: https://openai.com/blog/chatgpt＞）、Ｇｅｍｉｎｉ（インターネット検索＜URL: https://gemini.google.com/?hl=ja＞）等の生成ＡＩが挙げられる。データ生成モデル５８は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル５８には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル５８は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び／又は要約等を指す。

上記実施形態では、データ処理装置１２によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、スマート眼鏡２１４によって特定処理が行われるようにしてもよい。

［第３実施形態］

図５には、第３実施形態に係るデータ処理システム３１０の構成の一例が示されている。

図５に示すように、データ処理システム３１０は、データ処理装置１２及びヘッドセット型端末３１４を備えている。データ処理装置１２の一例としては、サーバが挙げられる。

ヘッドセット型端末３１４は、コンピュータ３６、マイクロフォン２３８、スピーカ２４０、カメラ４２、通信Ｉ／Ｆ４４、及びディスプレイ３４３を備えている。コンピュータ３６は、プロセッサ４６、ＲＡＭ４８、及びストレージ５０を備えている。プロセッサ４６、ＲＡＭ４８、及びストレージ５０は、バス５２に接続されている。また、マイクロフォン２３８、スピーカ２４０、カメラ４２、及びディスプレイ３４３も、バス５２に接続されている。

図６には、データ処理装置１２及びヘッドセット型端末３１４の要部機能の一例が示されている。図６に示すように、データ処理装置１２では、プロセッサ２８によって特定処理が行われる。ストレージ３２には、特定処理プログラム５６が格納されている。

ヘッドセット型端末３１４では、プロセッサ４６によって受付出力処理が行われる。ストレージ５０には、受付出力プログラム６０が格納されている。プロセッサ４６は、ストレージ５０から受付出力プログラム６０を読み出し、読み出した受付出力プログラム６０をＲＡＭ４８上で実行する。受付出力処理は、プロセッサ４６がＲＡＭ４８上で実行する受付出力プログラム６０に従って、制御部４６Ａとして動作することによって実現される。

次に、データ処理装置１２の特定処理部２９０による特定処理について説明する。以下の説明では、データ処理装置１２を「サーバ」と称し、ヘッドセット型端末３１４を「端末」と称する。

以下に、処理の流れについて説明する。

ステップ１：

ステップ２：

ステップ３：

ステップ４：

ステップ５：

ステップ６：

ステップ７：

ステップ８：

ステップ９：

ステップ１０：

ステップ１１：

ステップ１２：

（実施例１）

次に、実施例１について説明する。以下の説明では、データ処理装置１２を「サーバ」と称し、ヘッドセット型端末３１４を「端末」と称する。

プロンプト文の例：

ステップ１：

入力：ユーザが撮影した動画ファイル

ステップ２：

入力：ステップ１で保存された動画ファイル

出力：動画の音響データを変換した文字データ

ステップ３：

入力：ステップ２で得られた文字データ

出力：重要ポイントが特定されたリスト

ステップ４：

入力：ステップ３で得られた重要ポイントのリスト

出力：要約バージョンの動画ファイル

ステップ５：

出力：視聴URLが含まれた通知メール

（応用例１）

次に、応用例１について説明する。以下の説明では、データ処理装置１２を「サーバ」と称し、ヘッドセット型端末３１４を「端末」と称する。

プロンプト文の例：

ステップ１：

ステップ２：

ステップ３：

ステップ４：

ステップ５：

ステップ６：

ステップ７：

以下に、処理の流れについて説明する。

ステップ１：

ステップ２：

ステップ３：

ステップ４：

ステップ５：

ステップ６：

ステップ７：

ステップ８：

ステップ９：

ステップ１０：

ステップ１１：

ステップ１２：

ステップ１３：

（実施例２）

次に、実施例２について説明する。以下の説明では、データ処理装置１２を「サーバ」と称し、ヘッドセット型端末３１４を「端末」と称する。

具体例

プロンプト文の例

ステップ１：

入力：録画された動画ファイル

出力：サーバにファイルがアップロードされる

ステップ２：

入力：アップロードされた動画ファイル

出力：サーバの指定フォルダに保存された動画ファイル

ステップ３：

入力：動画ファイルの音声データ

出力：テキストデータ

ステップ４：

入力：テキストデータおよび音声データ

出力：感情タグが付加されたテキストデータ

ステップ５：

入力：感情タグが付加されたテキストデータ

出力：重要ポイントのリスト

ステップ６：

入力：重要ポイントのリストおよび動画ファイル

出力：要約バージョンの動画ファイル

ステップ７：

出力：視聴URL

ステップ８：

サーバは、生成された視聴URLをユーザに通知する。

入力：視聴URLおよびユーザのメールアドレス

出力：通知メール

（応用例２）

次に、応用例２について説明する。以下の説明では、データ処理装置１２を「サーバ」と称し、ヘッドセット型端末３１４を「端末」と称する。

ステップ１：

ステップ２：

ステップ３：

ステップ４：

ステップ５：

ステップ６：

ステップ７：

ステップ８：

特定処理部２９０は、特定処理の結果をヘッドセット型端末３１４に送信する。ヘッドセット型端末３１４では、制御部４６Ａが、スピーカ２４０及びディスプレイ３４３に対して特定処理の結果を出力させる。マイクロフォン２３８は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部４６Ａは、マイクロフォン２３８によって取得されたユーザ入力を示す音声データをデータ処理装置１２に送信する。データ処理装置１２では、特定処理部２９０が音声データを取得する。

上記実施形態では、データ処理装置１２によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、ヘッドセット型端末３１４によって特定処理が行われるようにしてもよい。

［第４実施形態］

図７には、第４実施形態に係るデータ処理システム４１０の構成の一例が示されている。

図７に示すように、データ処理システム４１０は、データ処理装置１２及びロボット４１４を備えている。データ処理装置１２の一例としては、サーバが挙げられる。

ロボット４１４は、コンピュータ３６、マイクロフォン２３８、スピーカ２４０、カメラ４２、通信Ｉ／Ｆ４４、及び制御対象４４３を備えている。コンピュータ３６は、プロセッサ４６、ＲＡＭ４８、及びストレージ５０を備えている。プロセッサ４６、ＲＡＭ４８、及びストレージ５０は、バス５２に接続されている。また、マイクロフォン２３８、スピーカ２４０、カメラ４２、及び制御対象４４３も、バス５２に接続されている。

制御対象４４３は、表示装置、目部のＬＥＤ、並びに、腕、手及び足等を駆動するモータ等を含む。ロボット４１４の姿勢や仕草は、腕、手及び足等のモータを制御することにより制御される。ロボット４１４の感情の一部は、これらのモータを制御することにより表現できる。また、ロボット４１４の目部のＬＥＤの発光状態を制御することによっても、ロボット４１４の表情を表現できる。

図８には、データ処理装置１２及びロボット４１４の要部機能の一例が示されている。図８に示すように、データ処理装置１２では、プロセッサ２８によって特定処理が行われる。ストレージ３２には、特定処理プログラム５６が格納されている。

ロボット４１４では、プロセッサ４６によって受付出力処理が行われる。ストレージ５０には、受付出力プログラム６０が格納されている。プロセッサ４６は、ストレージ５０から受付出力プログラム６０を読み出し、読み出した受付出力プログラム６０をＲＡＭ４８上で実行する。受付出力処理は、プロセッサ４６がＲＡＭ４８上で実行する受付出力プログラム６０に従って、制御部４６Ａとして動作することによって実現される。

次に、データ処理装置１２の特定処理部２９０による特定処理について説明する。以下の説明では、データ処理装置１２を「サーバ」と称し、ロボット４１４を「端末」と称する。

以下に、処理の流れについて説明する。

ステップ１：

ステップ２：

ステップ３：

ステップ４：

ステップ５：

ステップ６：

ステップ７：

ステップ８：

ステップ９：

ステップ１０：

ステップ１１：

ステップ１２：

（実施例１）

次に、実施例１について説明する。以下の説明では、データ処理装置１２を「サーバ」と称し、ロボット４１４を「端末」と称する。

プロンプト文の例：

ステップ１：

入力：ユーザが撮影した動画ファイル

ステップ２：

入力：ステップ１で保存された動画ファイル

出力：動画の音響データを変換した文字データ

ステップ３：

入力：ステップ２で得られた文字データ

出力：重要ポイントが特定されたリスト

ステップ４：

入力：ステップ３で得られた重要ポイントのリスト

出力：要約バージョンの動画ファイル

ステップ５：

出力：視聴URLが含まれた通知メール

（応用例１）

次に、応用例１について説明する。以下の説明では、データ処理装置１２を「サーバ」と称し、ロボット４１４を「端末」と称する。

プロンプト文の例：

ステップ１：

ステップ２：

ステップ３：

ステップ４：

ステップ５：

ステップ６：

ステップ７：

以下に、処理の流れについて説明する。

ステップ１：

ステップ２：

ステップ３：

ステップ４：

ステップ５：

ステップ６：

ステップ７：

ステップ８：

ステップ９：

ステップ１０：

ステップ１１：

ステップ１２：

ステップ１３：

（実施例２）

次に、実施例２について説明する。以下の説明では、データ処理装置１２を「サーバ」と称し、ロボット４１４を「端末」と称する。

具体例

プロンプト文の例

ステップ１：

入力：録画された動画ファイル

出力：サーバにファイルがアップロードされる

ステップ２：

入力：アップロードされた動画ファイル

出力：サーバの指定フォルダに保存された動画ファイル

ステップ３：

入力：動画ファイルの音声データ

出力：テキストデータ

ステップ４：

入力：テキストデータおよび音声データ

出力：感情タグが付加されたテキストデータ

ステップ５：

入力：感情タグが付加されたテキストデータ

出力：重要ポイントのリスト

ステップ６：

入力：重要ポイントのリストおよび動画ファイル

出力：要約バージョンの動画ファイル

ステップ７：

出力：視聴URL

ステップ８：

サーバは、生成された視聴URLをユーザに通知する。

入力：視聴URLおよびユーザのメールアドレス

出力：通知メール

（応用例２）

次に、応用例２について説明する。以下の説明では、データ処理装置１２を「サーバ」と称し、ロボット４１４を「端末」と称する。

ステップ１：

ステップ２：

ステップ３：

ステップ４：

ステップ５：

ステップ６：

ステップ７：

ステップ８：

特定処理部２９０は、特定処理の結果をロボット４１４に送信する。ロボット４１４では、制御部４６Ａが、スピーカ２４０及び制御対象４４３に対して特定処理の結果を出力させる。マイクロフォン２３８は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部４６Ａは、マイクロフォン２３８によって取得されたユーザ入力を示す音声データをデータ処理装置１２に送信する。データ処理装置１２では、特定処理部２９０が音声データを取得する。

上記実施形態では、データ処理装置１２によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、ロボット４１４によって特定処理が行われるようにしてもよい。

なお、感情エンジンとしての感情特定モデル５９は、特定のマッピングに従い、ユーザの感情を決定してよい。具体的には、感情特定モデル５９は、特定のマッピングである感情マップ（図９参照）に従い、ユーザの感情を決定してよい。また、感情特定モデル５９は、同様に、ロボットの感情を決定し、特定処理部２９０は、ロボットの感情を用いた特定処理を行うようにしてもよい。

図９は、複数の感情がマッピングされる感情マップ４００を示す図である。感情マップ４００において、感情は、中心から放射状に同心円に配置されている。同心円の中心に近いほど、原始的状態の感情が配置されている。同心円のより外側には、心境から生まれる状態や行動を表す感情が配置されている。感情とは、情動や心的状態も含む概念である。同心円の左側には、概して脳内で起きる反応から生成される感情が配置されている。同心円の右側には概して、状況判断で誘導される感情が配置されている。同心円の上方向及び下方向には、概して脳内で起きる反応から生成され、かつ、状況判断で誘導される感情が配置されている。また、同心円の上側には、「快」の感情が配置され、下側には、「不快」の感情が配置されている。このように、感情マップ４００では、感情が生まれる構造に基づいて複数の感情がマッピングされており、同時に生じやすい感情が、近くにマッピングされている。

これらの感情は、感情マップ４００の３時の方向に分布しており、普段は安心と不安のあたりを行き来する。感情マップ４００の右半分では、内部的な感覚よりも状況認識の方が優位に立つため、落ち着いた印象になる。

感情マップ４００の内側は心の中、感情マップ４００の外側は行動を表すため、感情マップ４００の外側に行くほど、感情が目に見える（行動に表れる）ようになる。

ここで、人の感情は、姿勢や血糖値のような様々なバランスを基礎としており、それらのバランスが理想から遠ざかると不快、理想に近づくと快という状態を示す。ロボットや自動車やバイク等においても、姿勢やバッテリー残量のような様々なバランスを基礎として、それらのバランスが理想から遠ざかると不快、理想に近づくと快という状態を示すように感情を作ることができる。感情マップは、例えば、光吉博士の感情地図（音声感情認識及び情動の脳生理信号分析システムに関する研究、徳島大学、博士論文：https://ci.nii.ac.jp/naid/500000375379）に基づいて生成されてよい。感情地図の左半分には、感覚が優位にたつ「反応」と呼ばれる領域に属する感情が並ぶ。また、感情地図の右半分には、状況認識が優位にたつ「状況」と呼ばれる領域に属する感情が並ぶ。

感情マップでは学習を促す感情が２つ定義される。１つは、状況側にあるネガティブな「懺悔」や「反省」の真ん中周辺の感情である。つまり、「もう２度とこんな想いはしたくない」「もう叱られたくない」というネガティブな感情がロボットに生じたときである。もう１つは、反応側にあるポジティブな「欲」のあたりの感情である。つまり、「もっと欲しい」「もっと知りたい」というポジティブな気持ちのときである。

感情特定モデル５９は、ユーザ入力を、予め学習されたニューラルネットワークに入力し、感情マップ４００に示す各感情を示す感情値を取得し、ユーザの感情を決定する。このニューラルネットワークは、ユーザ入力と、感情マップ４００に示す各感情を示す感情値との組み合わせである複数の学習データに基づいて予め学習されたものである。また、このニューラルネットワークは、図１０に示す感情マップ９００のように、近くに配置されている感情同士は、近い値を持つように学習される。図１０では、「安心」、「安穏」、「心強い」という複数の感情が、近い感情値となる例を示している。

以上、本開示に係るシステムをデータ処理装置１２の機能を主として説明したが、本開示に係るシステムはサーバに実装されているとは限らない。本開示に係るシステムは、一般的な情報処理システムとして実装されていてもよい。本開示は、例えば、パーソナルコンピュータで動作するソフトウェアプログラム、スマートフォン等で動作するアプリケーションとして実装されてもよい。本開示に係る方法はSaaS(Software as a Service)形式でユーザに対して提供されてもよい。

上記実施形態では、１台のコンピュータ２２によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、コンピュータ２２を含めた複数のコンピュータによる特定処理に対する分散処理が行われるようにしてもよい。例えば、データ生成モデル５８が、データ処理装置１２の外部装置に設けられ、当該外部装置において、入力データに応じたデータの生成を行うようにしてもよい。

上記実施形態では、ストレージ３２に特定処理プログラム５６が格納されている形態例を挙げて説明したが、本開示の技術はこれに限定されない。例えば、特定処理プログラム５６がＵＳＢ（Universal Serial Bus）メモリなどの可搬型のコンピュータ読み取り可能な非一時的格納媒体に格納されていてもよい。非一時的格納媒体に格納されている特定処理プログラム５６は、データ処理装置１２のコンピュータ２２にインストールされる。プロセッサ２８は、特定処理プログラム５６に従って特定処理を実行する。

また、ネットワーク５４を介してデータ処理装置１２に接続されるサーバ等の格納装置に特定処理プログラム５６を格納させておき、データ処理装置１２の要求に応じて特定処理プログラム５６がダウンロードされ、コンピュータ２２にインストールされるようにしてもよい。

なお、ネットワーク５４を介してデータ処理装置１２に接続されるサーバ等の格納装置に特定処理プログラム５６の全てを格納させておいたり、ストレージ３２に特定処理プログラム５６の全てを記憶させたりしておく必要はなく、特定処理プログラム５６の一部を格納させておいてもよい。

特定処理を実行するハードウェア資源としては、次に示す各種のプロセッサを用いることができる。プロセッサとしては、例えば、ソフトウェア、すなわち、プログラムを実行することで、特定処理を実行するハードウェア資源として機能する汎用的なプロセッサであるＣＰＵが挙げられる。また、プロセッサとしては、例えば、ＦＰＧＡ（Field-Programmable Gate Array）、ＰＬＤ（Programmable Logic Device）、又はＡＳＩＣ（Application Specific Integrated Circuit）などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路が挙げられる。何れのプロセッサにもメモリが内蔵又は接続されており、何れのプロセッサもメモリを使用することで特定処理を実行する。

特定処理を実行するハードウェア資源は、これらの各種のプロセッサのうちの１つで構成されてもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡの組み合わせ、又はＣＰＵとＦＰＧＡとの組み合わせ）で構成されてもよい。また、特定処理を実行するハードウェア資源は１つのプロセッサであってもよい。

１つのプロセッサで構成する例としては、第１に、１つ以上のＣＰＵとソフトウェアの組み合わせで１つのプロセッサを構成し、このプロセッサが、特定処理を実行するハードウェア資源として機能する形態がある。第２に、ＳｏＣ（System-on-a-chip）などに代表されるように、特定処理を実行する複数のハードウェア資源を含むシステム全体の機能を１つのＩＣチップで実現するプロセッサを使用する形態がある。このように、特定処理は、ハードウェア資源として、上記各種のプロセッサの１つ以上を用いて実現される。

更に、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路を用いることができる。また、上記の特定処理はあくまでも一例である。従って、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよいことは言うまでもない。

以上に示した記載内容及び図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、及び効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、及び効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容及び図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことは言うまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容及び図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。

本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

以上の実施形態に関し、更に以下を開示する。

（請求項１）

動画ファイルを収集し、サーバにアップロードする手段と、

音声認識技術を用いて動画の音声データをテキストデータに変換する手段と、

自然言語処理技術を用いてテキストデータから重要ポイントを抽出する手段と、

抽出された重要ポイントに基づいて動画から要約バージョンを編集・生成する手段と、

フルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードし、視聴URLをユーザに通知する手段とを含むシステム。

（請求項２）

音声データからテキストデータに変換する音声認識技術が音声認識エンジンを使用するものである請求項１記載のシステム。

（請求項３）

自然言語処理技術がテキストデータからキーワードや重要文を抽出する自然言語処理ライブラリを使用するものである請求項１記載のシステム。

「実施例１」

（請求項１）

動画データを収集し、情報処理装置にアップロードする手段と、

音響データ認識技術を使用して動画の音響データを文字データに変換する手段と、

自然言語解析技術を用いて文字データから重要ポイントを抽出する手段と、

フルバージョンおよび要約バージョンの動画データを配信媒体にアップロードし、視聴URLを利用者に通知する手段とを含むシステム。

（請求項２）

音響データから文字データに変換する音響データ認識技術が音響データ認識ユニットを使用するものである請求項１記載のシステム。

（請求項３）

自然言語解析技術が文字データからキーワードや重要文を抽出する自然言語解析ライブラリを使用するものである請求項１記載のシステム。

「応用例１」

（請求項１）

フルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードし、視聴URLをユーザに通知する手段と、

スマートフォンにインストールされるアプリケーションとして動作させ、効率的に要約されたコンテンツを提供する手段とを含むシステム。

（請求項２）

（請求項３）

「感情エンジンを組み合わせた場合の実施例２」

（請求項１）

感情解析技術を使用して音声データから感情情報を抽出し、テキストデータに付加する手段と、

（請求項２）

（請求項３）

「感情エンジンを組み合わせた場合の応用例２」

（請求項１）

感情分析技術を用いて音声データから感情情報を抽出し、それを用いて重要ポイントの優先順位を付ける手段と、

ユーザーインターフェースを通じて視聴者に感情情報を可視化し、要約動画を提示する手段とを含むシステム。

（請求項２）

（請求項３）

１０、２１０、３１０、４１０データ処理システム
１２データ処理装置
１４スマートデバイス
２１４スマート眼鏡
３１４ヘッドセット型端末
４１４ロボット

Claims

動画ファイルを収集し、サーバにアップロードする手段と、
音声認識技術を用いて動画の音声データをテキストデータに変換する手段と、
自然言語処理技術を用いてテキストデータから重要ポイントを抽出する手段と、
抽出された重要ポイントに基づいて動画から要約バージョンを編集・生成する手段と、
フルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードし、視聴URLをユーザに通知する手段とを含むシステム。
音声データからテキストデータに変換する音声認識技術が音声認識エンジンを使用するものである請求項１記載のシステム。
自然言語処理技術がテキストデータからキーワードや重要文を抽出する自然言語処理ライブラリを使用するものである請求項１記載のシステム。