JP2026041237A - システム - Google Patents
システムInfo
- Publication number
- JP2026041237A JP2026041237A JP2024144632A JP2024144632A JP2026041237A JP 2026041237 A JP2026041237 A JP 2026041237A JP 2024144632 A JP2024144632 A JP 2024144632A JP 2024144632 A JP2024144632 A JP 2024144632A JP 2026041237 A JP2026041237 A JP 2026041237A
- Authority
- JP
- Japan
- Prior art keywords
- video
- server
- data
- text data
- version
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
【課題】システムを提供する。
【解決手段】動画ファイルを収集し、サーバにアップロードする手段と、
音声認識技術を用いて動画の音声データをテキストデータに変換する手段と、
自然言語処理技術を用いてテキストデータから重要ポイントを抽出する手段と、
抽出された重要ポイントに基づいて動画から要約バージョンを編集・生成する手段と、
フルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードし、視聴URLをユーザに通知する手段とを含むシステム。
【選択図】図1
【解決手段】動画ファイルを収集し、サーバにアップロードする手段と、
音声認識技術を用いて動画の音声データをテキストデータに変換する手段と、
自然言語処理技術を用いてテキストデータから重要ポイントを抽出する手段と、
抽出された重要ポイントに基づいて動画から要約バージョンを編集・生成する手段と、
フルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードし、視聴URLをユーザに通知する手段とを含むシステム。
【選択図】図1
Description
本開示の技術は、システムに関する。
特許文献1には、少なくとも一つのプロセッサにより遂行される、ペルソナチャットボット制御方法であって、ユーザ発話を受信するステップと、前記ユーザ発話を、チャットボットのキャラクターに関する説明と関連した指示文を含むプロンプトに追加するステップと前記プロンプトをエンコードするステップと、前記エンコードしたプロンプトを言語モデルに入力して、前記ユーザ発話に応答するチャットボット発話を生成するステップ、を含む、方法が開示されている。
近年、製品説明会やセミナーなどのイベントがビデオ録画され、その内容が後から視聴されることが多くなっている。しかし、これらの録画は一般的に長時間にわたるため、視聴者が必要な情報を効果的に得ることが難しいという課題がある。また、これらの動画を要約し、短時間で視聴できるように編集するには多大な労力と時間がかかる。このため、多くのユーザが動画を効率的に利用できず、情報取得において困難を抱えている。
上記課題を解決するために、本発明は以下の手段を提供する。ユーザが動画ファイルを収集し、サーバにアップロードする手段を設ける。サーバは音声認識技術を用いて、動画の音声データをテキストデータに変換する。次に、自然言語処理技術を用いてテキストデータから重要ポイントを抽出する手段を設ける。これにより、抽出された重要ポイントに基づき、動画から要約バージョンを自動的に編集・生成する手段を提供する。最後に、フルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードし、視聴URLをユーザに通知する手段を設ける。このようなシステムにより、ユーザは効率的に重要な情報を取得することができ、情報の利用価値を高めることができる。
「動画ファイル」とは、映像と音声が記録され、デジタル形式で保存されたデータファイルである。
「アップロード」とは、端末に保存されたデータファイルをサーバに転送し、保存または処理のために提供する操作である。
「サーバ」とは、ネットワークを介してデータの保存、処理、提供を行うコンピュータシステムである。
「音声認識技術」とは、音声データを解析し、対応するテキストデータに変換する技術である。
「テキストデータ」とは、コンピュータが理解し、処理できる形式の文章データである。
「自然言語処理技術」とは、テキストデータに含まれる自然言語の情報を解析し、特定の目的に応じて情報を抽出する技術である。
「重要ポイント」とは、動画内の音声およびテキストデータから抽出された、視聴者にとって特に有用な情報である。
「要約バージョン」とは、動画の重要ポイントのみを編集・抜粋して作成された短縮版の動画である。
「フルバージョン」とは、元の動画ファイルの全てを含む完全な形式の動画である。
「配信プラットフォーム」とは、インターネットを通じて動画ファイルを配信し、ユーザが視聴できるサービスを提供するオンラインシステムである。
「視聴URL」とは、インターネット上で特定の動画ファイルにアクセスするためのウェブアドレスである。
以下、添付図面に従って本開示の技術に係るシステムの実施形態の一例について説明する。
先ず、以下の説明で使用される文言について説明する。
以下の実施形態において、符号付きのプロセッサ(以下、単に「プロセッサ」と称する)は、1つの演算装置であってもよいし、複数の演算装置の組み合わせであってもよい。また、プロセッサは、1種類の演算装置であってもよいし、複数種類の演算装置の組み合わせであってもよい。演算装置の一例としては、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、GPGPU(General-Purpose computing on Graphics Processing Units)、APU(Accelerated Processing Unit)等が挙げられる。
以下の実施形態において、符号付きのRAM(Random Access Memory)は、一時的に情報が格納されるメモリであり、プロセッサによってワークメモリとして用いられる。
以下の実施形態において、符号付きのストレージは、各種プログラム及び各種パラメータ等を記憶する1つ又は複数の不揮発性の記憶装置である。不揮発性の記憶装置の一例としては、フラッシュメモリ(SSD(Solid State Drive))、磁気ディスク(例えば、ハードディスク)、又は磁気テープ等が挙げられる。
以下の実施形態において、符号付きの通信I/F(Interface)は、通信プロセッサ及びアンテナ等を含むインタフェースである。通信I/Fは、複数のコンピュータ間での通信を司る。通信I/Fに対して適用される通信規格の一例としては、5G(5th Generation Mobile Communication System)、Wi-Fi(登録商標)、又はBluetooth(登録商標)等を含む無線通信規格が挙げられる。
以下の実施形態において、「A及び/又はB」は、「A及びBのうちの少なくとも1つ」と同義である。つまり、「A及び/又はB」は、Aだけであってもよいし、Bだけであってもよいし、A及びBの組み合わせであってもよい、という意味である。また、本明細書において、3つ以上の事柄を「及び/又は」で結び付けて表現する場合も、「A及び/又はB」と同様の考え方が適用される。
[第1実施形態]
図1には、第1実施形態に係るデータ処理システム10の構成の一例が示されている。
図1に示すように、データ処理システム10は、データ処理装置12及びスマートデバイス14を備えている。データ処理装置12の一例としては、サーバが挙げられる。
データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。
スマートデバイス14は、コンピュータ36、受付装置38、出力装置40、カメラ42、及び通信I/F44を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、受付装置38、出力装置40、及びカメラ42も、バス52に接続されている。
受付装置38は、タッチパネル38A及びマイクロフォン38B等を備えており、ユーザ入力を受け付ける。タッチパネル38Aは、指示体(例えば、ペン又は指等)の接触を検出することにより、指示体の接触によるユーザ入力を受け付ける。マイクロフォン38Bは、ユーザの音声を検出することにより、音声によるユーザ入力を受け付ける。制御部46Aは、タッチパネル38A及びマイクロフォン38Bによって受け付けたユーザ入力を示すデータをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が、ユーザ入力を示すデータを取得する。
出力装置40は、ディスプレイ40A及びスピーカ40B等を備えており、データをユーザ20が知覚可能な表現形(例えば、音声及び/又はテキスト)で出力することでデータをユーザ20に対して提示する。ディスプレイ40Aは、プロセッサ46からの指示に従ってテキスト及び画像等の可視情報を表示する。スピーカ40Bは、プロセッサ46からの指示に従って音声を出力する。カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラである。
通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。
図2には、データ処理装置12及びスマートデバイス14の要部機能の一例が示されている。
図2に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。特定処理プログラム56は、本開示の技術に係る「プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って特定処理部290として動作することによって実現される。
ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。
スマートデバイス14では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。受付出力プログラム60は、データ処理システム10によって特定処理プログラム56と併用される。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。
次に、データ処理装置12の特定処理部290による特定処理について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。
本発明は、製品説明会やセミナーなどの録画動画を効率的に要約し、フルバージョンと要約バージョンの両方を提供するシステムである。本発明のシステムは、コンピュータプログラムに基づいて動作する一連のプロセスを含む。以下に、プログラムの処理を自然言語で詳述する。
ユーザは製品説明会やセミナーの様子をビデオカメラやスマートフォンで収録する。その後、ユーザは録画した動画ファイルをサーバにアップロードする。サーバはまず、この動画ファイルを受信し、指定のフォルダに保存する。
次に、サーバは動画の音声データを解析するために、音声認識技術を使用する。具体的には、音声認識エンジンを動作させ、音声データをテキストデータに変換する。例として、Google(登録商標) Cloud Speech-to-Text APIを使用することが考えられる。音声認識の結果として、動画内の全ての音声が対応するテキスト形式でサーバに保存される。
その後、サーバは生成されたテキストデータを自然言語処理技術を用いて解析する。サーバは自然言語処理ライブラリ(例:SpaCy)を利用し、テキストデータからキーワードや重要文を抽出する。このプロセスにより、動画の中で特に重要とされる情報がリスト化される。
リストアップされた重要ポイントに基づいて、サーバは動画の要約バージョンを編集・生成する。サーバは動画編集ライブラリ(例:FFmpeg)を利用し、重要ポイントが映っている部分だけを抜き出して結合することで、要約バージョンの動画を作成する。一方で、フルバージョンの動画は元の動画ファイルをそのまま使用する。
編集が完了した後、サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードする。例として、YouTube(登録商標)やVimeoなどの動画配信サービスにアップロードすることが可能である。アップロードが完了すると、配信プラットフォームは視聴用のURLを生成し、サーバはこのURLをユーザにメールなどで通知する。
以上のプロセスにより、ユーザはフルバージョンの動画を視聴して詳細な情報を得ることもできるし、要約バージョンの動画を視聴して短時間で重要な情報を把握することもできる。このシステムにより、ユーザは情報取得の効率を大幅に向上させることができ、製品説明会やセミナーの内容をより効果的に活用することが可能である。
以下に、処理の流れについて説明する。
ステップ1:
ユーザが動画を収集する。ユーザは製品説明会やセミナーをビデオカメラやスマートフォンで撮影し、動画ファイルを生成する。
ステップ2:
ユーザが動画をサーバにアップロードする。ユーザは自身の端末からサーバにアクセスし、収集した動画ファイルを選択してアップロードポータルに送信する。
ステップ3:
サーバが動画ファイルを受信する。サーバはアップロードされた動画ファイルを指定のディレクトリ(例:「uploads」フォルダ)に保存する。
ステップ4:
サーバが音声認識を行う。サーバは音声認識エンジン(例:Google Cloud Speech-to-Text API)を起動し、動画の音声データをテキストデータに変換する。
ステップ5:
サーバが変換されたテキストデータを保存する。サーバは生成されたテキストデータを指定のフォルダに保存する。
ステップ6:
サーバがテキストデータを解析する。サーバは自然言語処理技術(例:SpaCyライブラリ)を用いて、テキストデータからキーワードや重要文を抽出する。
ステップ7:
サーバが重要ポイントをリストアップする。サーバは抽出されたキーワードや重要文を基に、動画の重要ポイントをリスト化する。
ステップ8:
サーバが要約バージョンの動画を編集する。サーバは動画編集ライブラリ(例:FFmpeg)を用いて、リストアップされた重要ポイントに基づいて必要な部分だけを抽出、結合して要約バージョンの動画を生成する。
ステップ9:
サーバがフルバージョンの動画を保存する。サーバは元の動画ファイルをそのまま指定のフォルダ(例:「full_videos」フォルダ)に保存する。
ステップ10:
サーバが要約バージョンの動画を保存する。サーバは編集された要約バージョンの動画ファイルを指定のフォルダ(例:「summary_videos」フォルダ)に保存する。
ステップ11:
サーバが動画ファイルを配信準備する。サーバはフルバージョンおよび要約バージョンの動画ファイルを動画配信プラットフォーム(例:YouTubeやVimeo)にアップロードする。
ステップ12:
サーバが視聴URLを生成し、ユーザに通知する。サーバは配信プラットフォームから取得した視聴URLをユーザのメールアドレスへ送信し、視聴リンクを提供する。
(実施例1)
次に、実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。
従来の製品説明会やセミナーの録画動画は、視聴者が必要な情報を効率的に抽出することが困難であった。特に、長時間の動画から重要なポイントを手動で抽出して要約する作業は、多大な労力と時間を要する。また、視聴者が多忙な場合、全ての内容を把握することが難しく、要約された動画の提供が求められている。これにより、情報取得の効率を向上させることが必要である。
実施例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
この発明では、サーバは、動画データを収集し、情報処理装置にアップロードする手段と、音響データ認識技術を使用して動画の音響データを文字データに変換する手段と、自然言語解析技術を用いて文字データから重要ポイントを抽出する手段と、を含む。これにより、動画の要約バージョンを効率的に生成し、視聴者が短時間で重要な情報を把握することが可能となる。
「動画データ」とは、音響情報や視覚情報を含むデジタル形式の映像情報である。
「情報処理装置」とは、データの入力・処理・出力を行う機能を有する電子機器である。
「音響データ認識技術」とは、音声や音響のデータを解析し、対応する文字データに変換する技術である。
「文字データ」とは、テキスト形式で表現されたデジタルの情報である。
「自然言語解析技術」とは、自然言語を処理する技術であり、テキストデータから意味や構造を解析することである。
「重要ポイント」とは、特定の情報や内容の中で、特に注目すべきまたは重要な部分である。
「要約バージョン」とは、元の動画データの中から重要ポイントを抜粋し、短縮した形式の動画である。
「配信媒体」とは、デジタルコンテンツをユーザに届けるためのインターネットを利用したサービスやプラットフォームである。
「視聴URL」とは、インターネット上で特定のコンテンツを視聴するためのウェブアドレスである。
「利用者」とは、システムやサービスを使用する人や団体である。
本発明は、製品説明会やセミナーなどの録画動画を効率的に要約し、フルバージョンと要約バージョンの両方を提供するシステムである。本発明のシステムは、情報処理装置に基づいて動作する一連のプロセスを含む。以下に、プログラムの処理を具体的に説明する。
ユーザは、製品説明会やセミナーの様子をビデオカメラやスマートフォンなどの装置を使用して収録する。その後、ユーザは録画した動画データを情報処理装置にアップロードする。このアップロードされた動画データは、情報処理装置によって特定のフォルダに保存される。
情報処理装置は、まずアップロードされた動画ファイルの音響データを解析する。このために、音響データ認識技術を使用する。この技術には、音響データ認識ユニット(例えば、一般的な音響データ認識API)が含まれる。この認識ユニットは、動画の音響データを文字データに変換し、その結果を情報処理装置に保存する。
次に、情報処理装置は保存された文字データを自然言語解析技術を用いて解析する。このために、自然言語解析ライブラリ(例えば、一般的な自然言語解析ライブラリ)が使用される。このライブラリを使用して、文字データからキーワードや重要文が抽出される。この解析の結果、重要ポイントが特定される。
情報処理装置は、抽出された重要ポイントに基づいて動画の要約バージョンを編集・生成する。このプロセスには、動画編集ライブラリ(例えば、一般的な動画編集ソフトウェア)が使用される。重要ポイントが含まれている部分だけを抜き出して結合することで、要約バージョンの動画が作成される。一方、フルバージョンの動画は元の動画データをそのまま使用する。
編集が完了した後、情報処理装置は生成されたフルバージョンおよび要約バージョンの動画データを配信媒体にアップロードする。具体例として、配信媒体には一般的な動画配信プラットフォーム(例えば、動画共有サイト)が使用される。アップロードが完了すると、配信プラットフォームは視聴用のURLを生成し、情報処理装置はこのURLをユーザに電子メールなどで通知する。
以上のプロセスにより、ユーザはフルバージョンの動画を視聴して詳細な情報を得ることができるし、要約バージョンの動画を視聴して短時間で重要な情報を把握することもできる。このシステムにより、ユーザは情報取得の効率を大幅に向上させることができ、製品説明会やセミナーの内容をより効果的に活用することが可能である。
プロンプト文の例:
「新製品の機能紹介セミナー」の動画をアップロードしました。音響データ認識と自然言語解析を使用して、内容を文字データ化し、キーワード抽出を行い、そのキーワードに基づいて動画の要約版を作成してください。フルバージョンと要約バージョンの両方を動画配信プラットフォームにアップロードし、視聴URLを教えてください。
実施例1における特定処理の流れについて図11を用いて説明する。
ステップ1:
ユーザが動画を撮影し、情報処理装置にアップロードする。
入力:ユーザが撮影した動画ファイル
出力:動画ファイルが情報処理装置の指定フォルダに保存される
具体的な動作:ユーザはビデオカメラやスマートフォンを使用してセミナーや説明会を撮影する。撮影後、その動画ファイルを情報処理装置のWebインターフェースを利用してサーバにアップロードする。サーバはこの動画ファイルを受信し、事前に指定されたフォルダに保存する。
ステップ2:
サーバが動画ファイルの音響データを抽出し、文字データに変換する。
入力:ステップ1で保存された動画ファイル
出力:動画の音響データを変換した文字データ
具体的な動作:サーバは動画ファイルから音響データを抽出するために、音響データ認識技術を使用する。具体的には、一般的な音響データ認識APIを利用して音響データを文字データに変換する。この文字データはテキストファイルとして保存される。
ステップ3:
サーバが自然言語解析技術を使用して文字データを解析し、重要ポイントを抽出する。
入力:ステップ2で得られた文字データ
出力:重要ポイントが特定されたリスト
具体的な動作:サーバは文字データを読み込み、自然言語解析技術を使用して解析する。自然言語解析ライブラリ(例:一般的な解析ライブラリ)を利用して、文字データからキーワードや重要文を抽出する。抽出された重要ポイントはリストとして保存される。
ステップ4:
サーバが抽出された重要ポイントに基づいて要約バージョンの動画を生成する。
入力:ステップ3で得られた重要ポイントのリスト
出力:要約バージョンの動画ファイル
具体的な動作:サーバは重要ポイントが含まれる動画部分を抜き出し、動画編集ライブラリ(例:一般的な動画編集ソフトウェア)を使用して要約バージョンを編集・生成する。具体的な動作としては、重要ポイントが話されている部分の動画クリップを抽出し、それらを結合することで要約バージョンの動画を作成する。
ステップ5:
サーバがフルバージョンおよび要約バージョンの動画を配信媒体にアップロードし、ユーザに通知する。
入力:ステップ4で生成された要約バージョンの動画、および元のフルバージョンの動画
出力:視聴URLが含まれた通知メール
具体的な動作:サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを一般的な動画配信プラットフォームにアップロードする。配信プラットフォームは視聴用のURLを生成するので、サーバはこのURLを含む通知メールをユーザに送信する。
以上のステップを実行することで、ユーザは効率的に動画の内容を確認することができるようになる。
(応用例1)
次に、応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。
近年、ビデオ会議やセミナーの録画が一般的になったが、長時間の動画から重要な情報だけを効率的に取得する手段が求められている。特に、スマートフォンやその他の携帯端末から手軽にアクセスできる形で要約情報を提供することが重要である。従来の手法では、フルバージョンの動画を視聴しながら重要な部分を自ら探す必要があり、時間と労力がかかるという課題があった。
応用例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
この発明では、サーバは、動画ファイルを収集し、サーバにアップロードする手段と、音声認識技術を用いて動画の音声データをテキストデータに変換する手段と、自然言語処理技術を用いてテキストデータから重要ポイントを抽出する手段と、を含む。これにより、動画から重要な部分を効率的に抽出し、スマートフォンに適した要約バージョンを生成・提供することが可能となる。
「動画ファイル」とは、情報を視覚および聴覚的に記録し、再生可能なデジタルデータ形式のファイルである。
「サーバ」とは、ネットワーク上でデータを処理および管理し、他のデバイスにサービスを提供するコンピュータシステムである。
「音声認識技術」とは、音声をテキストに変換するための技術である。
「テキストデータ」とは、文字や記号によって表現された情報の集合である。
「自然言語処理技術」とは、自然言語を理解し、解析、および生成するための技術である。
「重要ポイント」とは、情報の中で特に注目すべき内容や主要な内容のことである。
「要約バージョン」とは、元のコンテンツの中から重要な部分だけを抜粋し、短縮した形式のコンテンツである。
「配信プラットフォーム」とは、デジタルコンテンツをユーザに配信するためのオンラインサービスである。
「視聴URL」とは、インターネット上で特定のコンテンツにアクセスして視聴するためのウェブアドレスである。
「スマートフォン」とは、携帯電話機能に加えて、コンピュータのような多機能を持つ携帯デバイスである。
「アプリケーション」とは、特定の機能や役割を持つソフトウェアプログラムである。
「効率的」とは、最小限の資源や時間で最大の成果を上げることができる状態を示す。
「コンテンツ」とは、情報やメディアの中身や内容のことである。
発明を実施するための形態を具体的に示すために、本発明に基づいたシステムの全体的な処理を以下に説明する。このシステムは、動画ファイルの収集、音声データのテキストデータへの変換、重要ポイントの抽出、動画の要約生成および配信を行うものである。
まず、ユーザはスマートフォンを使用して製品説明会やセミナーの録画を行う。録画が完了したら、ユーザはこの動画ファイルをサーバにアップロードする。サーバは、アップロードされた動画ファイルを指定のフォルダに保存する。次に、サーバは音声認識技術を使用して動画の音声データをテキストデータに変換する。この際、Google Cloud Speech-to-Text APIを利用することが考えられる。音声認識の結果、動画内の全ての音声がテキスト形式で保存される。
続いて、サーバは自然言語処理技術を用いて生成されたテキストデータを解析する。具体的には、自然言語処理ライブラリ(例:SpaCy)を使用してテキストデータからキーワードや重要な文章を抽出する。解析の結果、動画の中で特に重要とされる情報がリストアップされる。リストアップされた重要ポイントに基づき、サーバは動画の要約バージョンを編集・生成する。この処理は、動画編集ライブラリ(例:FFmpeg)を利用して実施される。重要ポイントが映っている部分のみを抜き出し、これらを結合することで要約バージョンの動画を作成する。
編集が完了した後、サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードする。例えば、YouTubeやVimeoなどの動画配信サービスにアップロードすることが可能である。配信プラットフォームは視聴用のURLを生成し、サーバはこのURLをユーザにメールなどで通知する。これにより、ユーザはフルバージョンの動画を視聴して詳細な情報を取得することや、短時間で重要な情報を把握するために要約バージョンの動画を視聴することができる。
さらに、このシステムはスマートフォンにインストールされるアプリケーションとしても動作する。このアプリケーションを利用することで、ユーザは録画や動画のアップロード、重要ポイントの抽出、要約動画の生成、URLの取得までの一連の流れをスマートフォン上で簡単に操作することができる。
具体例として、30分間のセミナー動画がある場合、それを効率的に10秒ずつの要約ポイントに分割し、ユーザが短時間で重要な情報を取得できるようにするアプリケーションが挙げられる。
プロンプト文の例:
「セミナー動画を30分間録画しました。重要な部分を選別し、10秒ごとに要約を作成してください。」
このシステムにより、ユーザは効率的かつ効果的に重要な情報を取得でき、時間と労力を大幅に節約することが可能となる。
応用例1における特定処理の流れについて図12を用いて説明する。
ステップ1:
ユーザはスマートフォンを使用して製品説明会やセミナーの録画を行う。録画が完了したら、この動画ファイルをサーバにアップロードする。入力は録画された動画ファイルであり、出力はサーバに保存された動画ファイルである。具体的には、ユーザはアプリケーションを起動し、録画ボタンを押して動画を撮影する。その後、録画終了後に表示されるアップロードボタンを押して動画をサーバに送信する。
ステップ2:
サーバはアップロードされた動画ファイルを指定のフォルダに保存する。入力はユーザからアップロードされた動画ファイルであり、出力は指定フォルダに保存された動画ファイルである。サーバは受信した動画ファイルを一時フォルダに保存し、ファイル名を一意に設定して指定の保存先に移動する。
ステップ3:
サーバは音声認識技術を使用して動画の音声データをテキストデータに変換する。この際、Google Cloud Speech-to-Text APIを使用する。入力は保存された動画ファイルであり、出力は音声データから生成されたテキストデータである。具体的には、サーバは動画ファイルから音声トラックを抽出し、Google Cloud Speech-to-Text APIに音声データを送信してテキストに変換する。
ステップ4:
サーバは自然言語処理技術を用いて生成されたテキストデータを解析する。具体的には、自然言語処理ライブラリ(例:SpaCy)を使用してテキストデータからキーワードや重要な文章を抽出する。入力は前ステップで生成されたテキストデータであり、出力は抽出されたキーワードと重要な文章である。サーバはテキストデータを自然言語処理エンジンに送り、解析の結果として重要な文やキーワードのリストを生成する。
ステップ5:
サーバはリストアップされた重要ポイントに基づいて動画の要約バージョンを編集・生成する。この処理は、動画編集ライブラリ(例:FFmpeg)を利用して実施される。入力は重要ポイントのリストと元の動画ファイルであり、出力は要約バージョンの動画ファイルである。サーバは重要ポイントが出現する時間範囲を特定し、その部分を抽出して連結し、要約バージョンを生成する。
ステップ6:
サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードする。例えば、YouTubeやVimeoなどの動画配信サービスにアップロードすることが可能である。入力は生成されたフルバージョンと要約バージョンの動画ファイルであり、出力はそれぞれの視聴URLである。サーバは配信プラットフォームのAPIを使用して動画ファイルをアップロードし、視聴URLを取得する。
ステップ7:
サーバは配信プラットフォームが生成した視聴用のURLをユーザにメールなどで通知する。入力は視聴URLであり、出力はユーザへの通知である。具体的には、サーバはURLを含むメールを自動生成し、ユーザの登録メールアドレスに送信する。
このシステムにより、ユーザはフルバージョンの動画を視聴して詳細な情報を取得することや、短時間で重要な情報を把握するために要約バージョンの動画を視聴することができる。
更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部290は、感情特定モデル59を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。
本発明は、製品説明会やセミナーの録画動画を効率的に要約し、フルバージョンと要約バージョンの両方を提供するシステムである。また、ユーザの感情を認識する感情エンジンを組み合わせることで、動画の重要ポイントの抽出および要約をさらに高度に行う。本発明のシステムは、コンピュータプログラムに基づいて動作する一連のプロセスを含む。以下に、プログラムの処理を自然言語で詳述する。
ユーザは製品説明会やセミナーの様子をビデオカメラやスマートフォンで収録する。その後、ユーザは録画した動画ファイルをサーバにアップロードする。サーバはこの動画ファイルを受信し、指定のフォルダに保存する。
次に、サーバは動画の音声データを解析するために、音声認識技術を使用する。具体的には、音声認識エンジン(例:Google Cloud Speech-to-Text API)を動作させ、音声データをテキストデータに変換する。この変換されたテキストデータは、サーバに保存される。
次に、サーバは感情エンジンを使用して、動画の音声データからユーザの感情を分析する。感情エンジンは、ユーザの音声トーンやテンポ、イントネーションなどを解析し、感情情報をテキストデータに付加する。例えば、テキストデータの各部分に「興奮」「安心」「疑問」などの感情タグを付ける。
その後、サーバは自然言語処理技術(例:SpaCyライブラリ)を使用してテキストデータを解析する。感情エンジンによって付加された感情タグを基に、テキストデータからキーワードや重要文を抽出する。このプロセスにより、動画の中で特に重要であり、視聴者にとって感情的にインパクトのある情報がリスト化される。抽出された重要ポイントは、感情情報を考慮して優先順位付けされる。
リストアップされた重要ポイントに基づいて、サーバは要約バージョンの動画を編集・生成する。サーバは動画編集ライブラリ(例:FFmpeg)を利用し、重要ポイントが映っている部分だけを抜き出して結合することで要約バージョンの動画を作成する。一方で、フルバージョンの動画は元の動画ファイルをそのまま使用する。
編集が完了した後、サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードする。例として、YouTubeやVimeoなどの動画配信サービスにアップロードすることが可能である。アップロードが完了すると、配信プラットフォームは視聴用のURLを生成し、サーバはこのURLをユーザにメールなどで通知する。
このプロセスにより、ユーザはフルバージョンの動画を視聴して詳細な情報を得ることもでき、要約バージョンの動画を視聴して短時間で重要な情報を把握することが可能である。また、感情エンジンの使用により、視聴者の感情的な反応に基づいた重要な情報を効率的に取得できるようになる。このシステムにより、ユーザは情報取得の効率を大幅に向上させ、製品説明会やセミナーの内容をより効果的に活用することができる。
以下に、処理の流れについて説明する。
ステップ1:
ユーザが動画を収集する。ユーザは製品説明会やセミナーをビデオカメラやスマートフォンで撮影し、動画ファイルを生成する。
ステップ2:
ユーザが動画をサーバにアップロードする。ユーザは自身の端末からサーバにアクセスし、収集した動画ファイルを選択してアップロードポータルに送信する。
ステップ3:
サーバが動画ファイルを受信する。サーバはアップロードされた動画ファイルを指定のディレクトリ(例:「uploads」フォルダ)に保存する。
ステップ4:
サーバが音声認識を行う。サーバは音声認識エンジン(例:Google Cloud Speech-to-Text API)を起動し、動画の音声データをテキストデータに変換する。
ステップ5:
サーバが変換されたテキストデータを保存する。サーバは生成されたテキストデータを指定のフォルダに保存する。
ステップ6:
サーバが感情エンジンを使用して音声データを解析し、感情情報を抽出する。感情エンジンはユーザの音声トーンやテンポ、イントネーションを解析し、テキストデータに感情タグを付加する。
ステップ7:
サーバが感情情報を付加したテキストデータを自然言語処理技術を用いて解析する。サーバは自然言語処理ライブラリ(例:SpaCy)を利用し、テキストデータからキーワードや重要文を抽出する。
ステップ8:
サーバが抽出されたキーワードや重要文を基に重要ポイントをリストアップし、感情情報に基づいて優先順位付けする。
ステップ9:
サーバが要約バージョンの動画を編集・生成する。サーバは動画編集ライブラリ(例:FFmpeg)を用いて、重要ポイントが表示されるシーンのみを抽出・結合して要約バージョンの動画を作成する。
ステップ10:
サーバがフルバージョンの動画を保存する。サーバは元の動画ファイルをそのまま指定のフォルダ(例:「full_videos」フォルダ)に保存する。
ステップ11:
サーバが要約バージョンの動画を保存する。サーバは編集された要約バージョンの動画ファイルを指定のフォルダ(例:「summary_videos」フォルダ)に保存する。
ステップ12:
サーバが動画ファイルを配信準備する。サーバはフルバージョンおよび要約バージョンの動画ファイルを動画配信プラットフォーム(例:YouTubeやVimeo)にアップロードする。
ステップ13:
サーバが視聴URLを生成し、ユーザに通知する。サーバは配信プラットフォームから取得した視聴URLをユーザのメールアドレスへ送信し、視聴リンクを提供する。
(実施例2)
次に、実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。
近年、製品説明会やセミナーの録画内容を効率的に要約し、フルバージョンと要約バージョンの両方を提供するニーズが高まっている。しかし、これまでの技術では、録画動画の音声データを単にテキストに変換するだけで、感情情報を考慮した効率的な要約が困難であった。その結果、動画の重要ポイントを正確に抽出できず、視聴者にとって有用な情報提供が難しいという課題があった。
実施例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
この発明では、サーバは、動画ファイルを収集し、サーバにアップロードする手段と、音声認識技術を用いて動画の音声データをテキストデータに変換する手段と、感情解析技術を使用して音声データから感情情報を抽出し、テキストデータに付加する手段と、自然言語処理技術を用いてテキストデータから重要ポイントを抽出する手段と、抽出された重要ポイントに基づいて動画から要約バージョンを編集・生成する手段と、フルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードし、視聴URLをユーザに通知する手段とを含む。これにより、動画内の重要で感情的にインパクトのある部分を効率的に抽出し、要約することが可能となる。
「動画ファイル」とは、ビデオカメラやスマートフォンなどの撮影装置によって収録された映像および音声を含むデジタルデータである。
「サーバ」とは、ネットワークを通じてデータの保存、処理、および配信を行うためのコンピュータシステムである。
「音声認識技術」とは、音声データを解析し、その内容をテキストデータに変換する技術である。
「感情解析技術」とは、音声やテキストデータを解析し、一定のアルゴリズムに基づいて感情情報を抽出する技術である。
「自然言語処理技術」とは、人間の言語をコンピュータで処理・理解するための一連の技術であり、テキストデータからキーワードや重要文を抽出することができる。
「テキストデータ」とは、文字列として表現されたデジタル情報であり、音声認識技術によって音声データから変換されたものである。
「重要ポイント」とは、動画やテキストデータの中で視聴者やユーザにとって特に有益または重要と判断された部分である。
「要約バージョン」とは、動画ファイルの内容を簡略化し、重要ポイントのみを含む短縮された動画である。
「フルバージョン」とは、元の動画ファイルをそのまま使用した、全体の内容を含む完全な動画である。
「配信プラットフォーム」とは、インターネットを通じて動画ファイルを視聴者に配信するためのオンラインサービスである。
「視聴URL」とは、視聴者がウェブブラウザなどを通じて動画を再生する際に使用するリンクである。
本発明は、製品説明会やセミナーの録画動画を効率的に要約し、フルバージョンと要約バージョンの両方を提供するシステムである。さらに、ユーザの感情を認識する感情エンジンを組み合わせることで、動画の重要ポイントの抽出および要約を高度に行うことを特徴とする。
本システムは、以下のような手順で動作する。まず、ユーザは製品説明会やセミナーの様子をビデオカメラやスマートフォンで録画する。その後、ユーザは録画した動画ファイルをサーバにアップロードするためのウェブインターフェースを使用する。サーバは動画ファイルを受信し、指定のフォルダに保存する。
次に、サーバは音声認識技術を使用して動画の音声データをテキストデータに変換する。具体的には、音声認識エンジンとしてGoogle Cloud Speech-to-Text APIを使用する。このAPIにより、音声データを高精度でテキストデータに変換することができる。変換されたテキストデータは、サーバに保存される。
次に、サーバは感情エンジンを使用して、動画の音声データからユーザの感情を分析する。感情エンジンは、ユーザの音声トーンやテンポ、イントネーションなどを解析し、感情情報をテキストデータに付加する。例えば、テキストデータの各部分に「興奮」「安心」「疑問」などの感情タグを付ける。
その後、サーバは自然言語処理技術を使用してテキストデータを解析する。具体的には、自然言語処理ライブラリとしてSpaCyを使用する。このライブラリを用いて、感情エンジンによって付加された感情タグを基にテキストデータからキーワードや重要文を抽出する。この処理により、動画の中で特に重要であり、視聴者にとって感情的にインパクトのある情報がリスト化される。さらに、抽出された重要ポイントは感情情報を考慮して優先順位付けされる。
リストアップされた重要ポイントに基づいて、サーバは要約バージョンの動画を編集・生成する。具体的には、動画編集ライブラリとしてFFmpegを利用する。重要ポイントが映っている部分だけを抜き出し、結合することで要約バージョンの動画を作成する。一方で、フルバージョンの動画は元の動画ファイルをそのまま使用する。
編集が完了した後、サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを動画配信プラットフォームにアップロードする。例として、YouTubeやVimeoなどの動画配信サービスにアップロードすることが可能である。アップロードが完了すると、配信プラットフォームは視聴用のURLを生成し、サーバはこのURLをユーザにメールなどで通知する。
具体例
例えば、ユーザが製品説明会の録画動画をサーバにアップロードしたとする。サーバは動画を受信し、Google Cloud Speech-to-Text APIを使用して音声データをテキストデータに変換する。その後、感情エンジンで音声データから感情情報を抽出し、「新商品紹介」の部分に「興奮」タグを付ける。次に、サーバはSpaCyライブラリを使用して重要ポイントを抽出し、FFmpegで要約バージョンの動画を編集・生成する。最終的に、生成された動画をYouTubeにアップロードし、視聴用URLをユーザのメールアドレスに通知する。
プロンプト文の例
ユーザは製品説明会の録画動画をサーバにアップロードします。サーバはGoogle Cloud Speech-to-Text APIを使用して音声データをテキスト化し、感情エンジンで感情タグを付加します。これを基に自然言語処理技術(SpaCy)を用いてキーワードや重要文を抽出し、FFmpegで要約バージョンの動画を生成します。最終的に、生成された動画をYouTubeにアップロードし、ユーザに視聴URLを通知します。
実施例2における特定処理の流れについて図13を用いて説明する。
ステップ1:
ユーザはビデオカメラやスマートフォンで製品説明会やセミナーの様子を録画する。録画終了後、ユーザは録画した動画ファイルをブラウザのファイルアップロード機能を使用してサーバにアップロードする。
入力:録画された動画ファイル
出力:サーバにファイルがアップロードされる
具体的な動作:ユーザがブラウザでウェブページを開き、アップロードボタンをクリックして、録画した動画ファイルを選択し、「アップロード」ボタンを押す。
ステップ2:
サーバはアップロードされた動画ファイルを受信し、指定のフォルダに保存する。
入力:アップロードされた動画ファイル
出力:サーバの指定フォルダに保存された動画ファイル
具体的な動作:サーバ側のスクリプトがHTTP POSTリクエストを受け取り、動画ファイルをストレージに保存する。
ステップ3:
サーバは、Google Cloud Speech-to-Text APIを使用し、保存された動画ファイルの音声データをテキストデータに変換する。
入力:動画ファイルの音声データ
出力:テキストデータ
具体的な動作:サーバが音声データを抽出し、Google Cloud Speech-to-Text APIに送信してテキストに変換し、その結果を保存する。
ステップ4:
サーバは感情解析技術を使用し、音声データからユーザの感情を分析してテキストデータに感情情報を付加する。
入力:テキストデータおよび音声データ
出力:感情タグが付加されたテキストデータ
具体的な動作:感情解析アルゴリズムを適用し、音声のトーン、テンポ、イントネーションから感情情報を抽出、それをテキストに付加して保存する。
ステップ5:
サーバは、SpaCyを利用して、感情情報が追加されたテキストデータを解析し、重要ポイントを抽出する。
入力:感情タグが付加されたテキストデータ
出力:重要ポイントのリスト
具体的な動作:SpaCyライブラリを使用してテキストデータをトークン化し、感情タグを基にキーワードや重要文を抽出してリスト化する。
ステップ6:
サーバは、FFmpegを使用して、重要ポイントに基づいて要約バージョンの動画を編集・生成する。
入力:重要ポイントのリストおよび動画ファイル
出力:要約バージョンの動画ファイル
具体的な動作:FFmpegライブラリを使用して元の動画ファイルから重要ポイントが含まれる部分を抜き出し、これを結合して要約動画を生成する。
ステップ7:
サーバは、フルバージョンおよび要約バージョンの動画ファイルをYouTubeやVimeoにアップロードし、視聴URLを生成する。
入力:フルバージョンおよび要約バージョンの動画ファイル
出力:視聴URL
具体的な動作:YouTube APIやVimeo APIを使用して動画ファイルをアップロードし、視聴用URLを取得する。
ステップ8:
サーバは、生成された視聴URLをユーザに通知する。
入力:視聴URLおよびユーザのメールアドレス
出力:通知メール
具体的な動作:メールサーバを通じてユーザのメールアドレスにURLを含む通知メールを送信する。
(応用例2)
次に、応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマートデバイス14を「端末」と称する。
現在、多くの製品説明会やセミナーは長時間にわたり、多量の情報が含まれている。そのため、視聴者は全ての内容を短時間で効果的に把握することが難しい。また、動画の重要なポイントを抽出する際に、視聴者の感情的な反応を反映させることができず、情報の優先順位付けが効果的に行われないという課題がある。従来の動画要約システムは、視覚的情報を最適に活用できていないため、視聴者にとって最も重要な部分を簡潔に伝えることが困難である。
応用例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
この発明では、サーバは、動画ファイルを収集し、サーバにアップロードする手段と、音声認識技術を用いて動画の音声データをテキストデータに変換する手段と、自然言語処理技術を用いてテキストデータから重要ポイントを抽出する手段と、抽出された重要ポイントに基づいて動画から要約バージョンを編集・生成する手段と、フルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードし、視聴URLをユーザに通知する手段と、感情分析技術を用いて音声データから感情情報を抽出し、それを用いて重要ポイントの優先順位を付ける手段と、ユーザーインターフェースを通じて視聴者に感情情報を可視化し、要約動画を提示する手段とを含む。これにより、視聴者は短時間で重要な情報を把握することが可能となり、感情的な反応に基づいた最も重要なポイントを効率的に視覚化し、情報の優先順位付けが可能となる。
1. 「動画ファイル」とは、ビデオカメラやスマートフォンなどのデバイスを用いて撮影された映像と音声が一体となったデータである。
2. 「サーバ」とは、ネットワークを通じてデータの保存や処理を行うためのコンピュータシステムである。
3. 「音声認識技術」とは、音声を解析してテキストデータに変換する技術である。
4. 「テキストデータ」とは、音声認識技術により変換された文章形式のデータである。
5. 「自然言語処理技術」とは、テキストデータを解析し、キーワードや重要文を抽出する技術である。
6. 「重要ポイント」とは、動画やテキストデータの中で特に重要とされる情報の部分である。
7. 「要約バージョン」とは、フルバージョンの動画から重要な部分のみを抽出して編集・生成された短縮版の動画である。
8. 「フルバージョン」とは、元の動画ファイル全体を指す。
9. 「配信プラットフォーム」とは、インターネットを通じて動画を視聴できるサービスである。
10. 「視聴URL」とは、インターネット上で動画を視聴するためのウェブアドレスである。
11. 「感情分析技術」とは、音声データから感情情報を抽出する技術である。
12. 「感情情報」とは、音声のトーンやテンポなどを解析して得られる感情のデータである。
13. 「ユーザーインターフェース」とは、視聴者が感情情報や動画を操作・閲覧するためのソフトウェアのインタラクション部分である。
14. 「可視化」とは、抽出された感情情報を視聴者にわかりやすく表示するプロセスである。
この発明では、ユーザが製品説明会やセミナーの動画ファイルを端末で収集し、サーバにアップロードする。サーバはネットワークを通じて動画ファイルを受信し、指定されたフォルダに保存する。使用する端末には、ビデオカメラやスマートフォンなどが含まれるが、スマートフォンが一般的である。
次に、サーバは音声認識技術を用いて動画の音声データをテキストデータに変換する。この目的のために、Google Cloud Speech-to-Text APIなどの音声認識エンジンを使用する。音声データは音声認識エンジンによってテキストに変換され、そのテキストデータはサーバに保存される。
その後、サーバは自然言語処理技術を用いてテキストデータを解析し、重要ポイントを抽出する。具体的には、SpaCyライブラリのような自然言語処理ライブラリを使用して、テキストデータからキーワードや重要文を抽出する。この段階で、感情分析技術も使用する。感情分析技術により、音声のトーンやテンポ、イントネーションなどから感情情報を取得し、それをテキストデータに付加する。これにより、感情情報を基に重要ポイントの優先順位を付けることができる。
サーバは、抽出された重要ポイントのリストに基づいて、動画の要約バージョンを編集・生成する。このプロセスでは、FFmpegなどの動画編集ライブラリを使用して、重要ポイントが含まれる部分を抜き出し、結合することで要約バージョンの動画を作成する。一方、フルバージョンの動画は、元の動画ファイル全体である。
編集が完了すると、サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードする。例えば、YouTubeやVimeoといった動画配信サービスにアップロードし、配信プラットフォームは視聴用のURLを生成する。サーバはこのURLをユーザに通知し、ユーザはそのURLをクリックすることで、フルバージョンまたは要約バージョンの動画を視聴することができる。
ここで、具体例として、ユーザが製品説明会の動画をスマートフォンで録画し、このアプリを通じてアップロードすると、アプリは数分で動画を処理し、要約版の動画および感情分析結果を返す。例えば、「重要な情報は12:34に開始し、15:00に終了します」といった通知が来る。
生成AIモデルへ入力するプロンプト文の例として、次のようなものがある。「下記の音声データを日本語のテキストに変換し、感情分析を行い、重要なキーワードを抽出して動画の要約を生成してください。」
応用例2における特定処理の流れについて図14を用いて説明する。
ステップ1:
ユーザは端末(スマートフォンやビデオカメラ)で製品説明会やセミナーの動画を収録する。収録された動画ファイルは端末に保存される。入力としては録画デバイスから動画ファイルを取得し、出力として端末に保存された動画ファイルが得られる。
ステップ2:
ユーザは動画ファイルを端末からサーバへアップロードする。ユーザインターフェースを通じて動画ファイルを選択し、アップロードボタンを押すことで動画がサーバに送信される。入力は端末に保存された動画ファイルで、出力はサーバに保存された動画ファイルである。
ステップ3:
サーバは音声認識技術を用いて、動画ファイルの音声データをテキストデータに変換する。具体的には、Google Cloud Speech-to-Text APIを使用して、音声データをクラウドに送信し、テキストデータを受信してサーバに保存する。入力は動画ファイルの音声データ、出力は音声から変換されたテキストデータである。
ステップ4:
サーバは感情分析技術を用いて音声データから感情情報を抽出する。この処理には感情エンジンが使用され、音声のトーン、テンポ、イントネーションなどを解析して感情タグをテキストデータに付加する。入力は音声データ、出力は感情タグが付加されたテキストデータである。
ステップ5:
サーバは自然言語処理技術を用いて、テキストデータから重要ポイントを抽出する。これにはSpaCyライブラリなどが使用され、感情タグを基に重要なキーワードや重要文をリストアップする。入力は感情タグ付きのテキストデータ、出力はリスト化された重要ポイントである。
ステップ6:
サーバは抽出された重要ポイントに基づいて、動画の要約バージョンを編集・生成する。FFmpegなどの動画編集ライブラリを使用し、重要ポイントが映っている部分を抜き出して結合することで要約動画を生成する。入力は動画ファイルと重要ポイントのリスト、出力は要約バージョンの動画ファイルである。
ステップ7:
サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォーム(例えばYouTubeやVimeo)にアップロードする。それぞれのプラットフォームは視聴用のURLを生成し、サーバはこのURLをユーザにメールで通知する。入力は動画ファイル、出力は配信プラットフォーム上の視聴URLである。
ステップ8:
ユーザは通知されたURLをクリックし、ブラウザやアプリケーションを通じてフルバージョンまたは要約バージョンの動画を視聴することにより、短時間で重要な情報を把握する。入力は視聴URL、出力は再生される動画である。
特定処理部290は、特定処理の結果をスマートデバイス14に送信する。スマートデバイス14では、制御部46Aが、出力装置40に対して特定処理の結果を出力させる。マイクロフォン38Bは、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン38Bによって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。
データ生成モデル58は、いわゆる生成系AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(登録商標)(インターネット検索<URL: https://openai.com/blog/chatgpt>)、Gemini(登録商標)(インターネット検索<URL: https://gemini.google.com/?hl=ja>)等の生成AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。
上記実施形態では、データ処理装置12によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、スマートデバイス14によって特定処理が行われるようにしてもよい。
[第2実施形態]
図3には、第2実施形態に係るデータ処理システム210の構成の一例が示されている。
図3に示すように、データ処理システム210は、データ処理装置12及びスマート眼鏡214を備えている。データ処理装置12の一例としては、サーバが挙げられる。
データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。
スマート眼鏡214は、コンピュータ36、マイクロフォン238、スピーカ240、カメラ42、及び通信I/F44を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、マイクロフォン238、スピーカ240、及びカメラ42も、バス52に接続されている。
マイクロフォン238は、ユーザ20が発する音声を受け付けることで、ユーザ20から指示等を受け付ける。マイクロフォン238は、ユーザ20が発する音声を捕捉し、捕捉した音声を音声データに変換してプロセッサ46に出力する。スピーカ240は、プロセッサ46からの指示に従って音声を出力する。
カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラであり、ユーザ20の周囲(例えば、一般的な健常者の視界の広さに相当する画角で規定された撮像範囲)を撮像する。
通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。通信I/F44及び26を用いたプロセッサ46とプロセッサ28との間の各種情報の授受はセキュアな状態で行われる。
図4には、データ処理装置12及びスマート眼鏡214の要部機能の一例が示されている。図4に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。
特定処理プログラム56は、本開示の技術に係る「プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って、特定処理部290として動作することによって実現される。
ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。
スマート眼鏡214では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。
次に、データ処理装置12の特定処理部290による特定処理について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。
本発明は、製品説明会やセミナーなどの録画動画を効率的に要約し、フルバージョンと要約バージョンの両方を提供するシステムである。本発明のシステムは、コンピュータプログラムに基づいて動作する一連のプロセスを含む。以下に、プログラムの処理を自然言語で詳述する。
ユーザは製品説明会やセミナーの様子をビデオカメラやスマートフォンで収録する。その後、ユーザは録画した動画ファイルをサーバにアップロードする。サーバはまず、この動画ファイルを受信し、指定のフォルダに保存する。
次に、サーバは動画の音声データを解析するために、音声認識技術を使用する。具体的には、音声認識エンジンを動作させ、音声データをテキストデータに変換する。例として、Google Cloud Speech-to-Text APIを使用することが考えられる。音声認識の結果として、動画内の全ての音声が対応するテキスト形式でサーバに保存される。
その後、サーバは生成されたテキストデータを自然言語処理技術を用いて解析する。サーバは自然言語処理ライブラリ(例:SpaCy)を利用し、テキストデータからキーワードや重要文を抽出する。このプロセスにより、動画の中で特に重要とされる情報がリスト化される。
リストアップされた重要ポイントに基づいて、サーバは動画の要約バージョンを編集・生成する。サーバは動画編集ライブラリ(例:FFmpeg)を利用し、重要ポイントが映っている部分だけを抜き出して結合することで、要約バージョンの動画を作成する。一方で、フルバージョンの動画は元の動画ファイルをそのまま使用する。
編集が完了した後、サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードする。例として、YouTubeやVimeoなどの動画配信サービスにアップロードすることが可能である。アップロードが完了すると、配信プラットフォームは視聴用のURLを生成し、サーバはこのURLをユーザにメールなどで通知する。
以上のプロセスにより、ユーザはフルバージョンの動画を視聴して詳細な情報を得ることもできるし、要約バージョンの動画を視聴して短時間で重要な情報を把握することもできる。このシステムにより、ユーザは情報取得の効率を大幅に向上させることができ、製品説明会やセミナーの内容をより効果的に活用することが可能である。
以下に、処理の流れについて説明する。
ステップ1:
ユーザが動画を収集する。ユーザは製品説明会やセミナーをビデオカメラやスマートフォンで撮影し、動画ファイルを生成する。
ステップ2:
ユーザが動画をサーバにアップロードする。ユーザは自身の端末からサーバにアクセスし、収集した動画ファイルを選択してアップロードポータルに送信する。
ステップ3:
サーバが動画ファイルを受信する。サーバはアップロードされた動画ファイルを指定のディレクトリ(例:「uploads」フォルダ)に保存する。
ステップ4:
サーバが音声認識を行う。サーバは音声認識エンジン(例:Google Cloud Speech-to-Text API)を起動し、動画の音声データをテキストデータに変換する。
ステップ5:
サーバが変換されたテキストデータを保存する。サーバは生成されたテキストデータを指定のフォルダに保存する。
ステップ6:
サーバがテキストデータを解析する。サーバは自然言語処理技術(例:SpaCyライブラリ)を用いて、テキストデータからキーワードや重要文を抽出する。
ステップ7:
サーバが重要ポイントをリストアップする。サーバは抽出されたキーワードや重要文を基に、動画の重要ポイントをリスト化する。
ステップ8:
サーバが要約バージョンの動画を編集する。サーバは動画編集ライブラリ(例:FFmpeg)を用いて、リストアップされた重要ポイントに基づいて必要な部分だけを抽出、結合して要約バージョンの動画を生成する。
ステップ9:
サーバがフルバージョンの動画を保存する。サーバは元の動画ファイルをそのまま指定のフォルダ(例:「full_videos」フォルダ)に保存する。
ステップ10:
サーバが要約バージョンの動画を保存する。サーバは編集された要約バージョンの動画ファイルを指定のフォルダ(例:「summary_videos」フォルダ)に保存する。
ステップ11:
サーバが動画ファイルを配信準備する。サーバはフルバージョンおよび要約バージョンの動画ファイルを動画配信プラットフォーム(例:YouTubeやVimeo)にアップロードする。
ステップ12:
サーバが視聴URLを生成し、ユーザに通知する。サーバは配信プラットフォームから取得した視聴URLをユーザのメールアドレスへ送信し、視聴リンクを提供する。
(実施例1)
次に、実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。
従来の製品説明会やセミナーの録画動画は、視聴者が必要な情報を効率的に抽出することが困難であった。特に、長時間の動画から重要なポイントを手動で抽出して要約する作業は、多大な労力と時間を要する。また、視聴者が多忙な場合、全ての内容を把握することが難しく、要約された動画の提供が求められている。これにより、情報取得の効率を向上させることが必要である。
実施例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
この発明では、サーバは、動画データを収集し、情報処理装置にアップロードする手段と、音響データ認識技術を使用して動画の音響データを文字データに変換する手段と、自然言語解析技術を用いて文字データから重要ポイントを抽出する手段と、を含む。これにより、動画の要約バージョンを効率的に生成し、視聴者が短時間で重要な情報を把握することが可能となる。
「動画データ」とは、音響情報や視覚情報を含むデジタル形式の映像情報である。
「情報処理装置」とは、データの入力・処理・出力を行う機能を有する電子機器である。
「音響データ認識技術」とは、音声や音響のデータを解析し、対応する文字データに変換する技術である。
「文字データ」とは、テキスト形式で表現されたデジタルの情報である。
「自然言語解析技術」とは、自然言語を処理する技術であり、テキストデータから意味や構造を解析することである。
「重要ポイント」とは、特定の情報や内容の中で、特に注目すべきまたは重要な部分である。
「要約バージョン」とは、元の動画データの中から重要ポイントを抜粋し、短縮した形式の動画である。
「配信媒体」とは、デジタルコンテンツをユーザに届けるためのインターネットを利用したサービスやプラットフォームである。
「視聴URL」とは、インターネット上で特定のコンテンツを視聴するためのウェブアドレスである。
「利用者」とは、システムやサービスを使用する人や団体である。
本発明は、製品説明会やセミナーなどの録画動画を効率的に要約し、フルバージョンと要約バージョンの両方を提供するシステムである。本発明のシステムは、情報処理装置に基づいて動作する一連のプロセスを含む。以下に、プログラムの処理を具体的に説明する。
ユーザは、製品説明会やセミナーの様子をビデオカメラやスマートフォンなどの装置を使用して収録する。その後、ユーザは録画した動画データを情報処理装置にアップロードする。このアップロードされた動画データは、情報処理装置によって特定のフォルダに保存される。
情報処理装置は、まずアップロードされた動画ファイルの音響データを解析する。このために、音響データ認識技術を使用する。この技術には、音響データ認識ユニット(例えば、一般的な音響データ認識API)が含まれる。この認識ユニットは、動画の音響データを文字データに変換し、その結果を情報処理装置に保存する。
次に、情報処理装置は保存された文字データを自然言語解析技術を用いて解析する。このために、自然言語解析ライブラリ(例えば、一般的な自然言語解析ライブラリ)が使用される。このライブラリを使用して、文字データからキーワードや重要文が抽出される。この解析の結果、重要ポイントが特定される。
情報処理装置は、抽出された重要ポイントに基づいて動画の要約バージョンを編集・生成する。このプロセスには、動画編集ライブラリ(例えば、一般的な動画編集ソフトウェア)が使用される。重要ポイントが含まれている部分だけを抜き出して結合することで、要約バージョンの動画が作成される。一方、フルバージョンの動画は元の動画データをそのまま使用する。
編集が完了した後、情報処理装置は生成されたフルバージョンおよび要約バージョンの動画データを配信媒体にアップロードする。具体例として、配信媒体には一般的な動画配信プラットフォーム(例えば、動画共有サイト)が使用される。アップロードが完了すると、配信プラットフォームは視聴用のURLを生成し、情報処理装置はこのURLをユーザに電子メールなどで通知する。
以上のプロセスにより、ユーザはフルバージョンの動画を視聴して詳細な情報を得ることができるし、要約バージョンの動画を視聴して短時間で重要な情報を把握することもできる。このシステムにより、ユーザは情報取得の効率を大幅に向上させることができ、製品説明会やセミナーの内容をより効果的に活用することが可能である。
プロンプト文の例:
「新製品の機能紹介セミナー」の動画をアップロードしました。音響データ認識と自然言語解析を使用して、内容を文字データ化し、キーワード抽出を行い、そのキーワードに基づいて動画の要約版を作成してください。フルバージョンと要約バージョンの両方を動画配信プラットフォームにアップロードし、視聴URLを教えてください。
実施例1における特定処理の流れについて図11を用いて説明する。
ステップ1:
ユーザが動画を撮影し、情報処理装置にアップロードする。
入力:ユーザが撮影した動画ファイル
出力:動画ファイルが情報処理装置の指定フォルダに保存される
具体的な動作:ユーザはビデオカメラやスマートフォンを使用してセミナーや説明会を撮影する。撮影後、その動画ファイルを情報処理装置のWebインターフェースを利用してサーバにアップロードする。サーバはこの動画ファイルを受信し、事前に指定されたフォルダに保存する。
ステップ2:
サーバが動画ファイルの音響データを抽出し、文字データに変換する。
入力:ステップ1で保存された動画ファイル
出力:動画の音響データを変換した文字データ
具体的な動作:サーバは動画ファイルから音響データを抽出するために、音響データ認識技術を使用する。具体的には、一般的な音響データ認識APIを利用して音響データを文字データに変換する。この文字データはテキストファイルとして保存される。
ステップ3:
サーバが自然言語解析技術を使用して文字データを解析し、重要ポイントを抽出する。
入力:ステップ2で得られた文字データ
出力:重要ポイントが特定されたリスト
具体的な動作:サーバは文字データを読み込み、自然言語解析技術を使用して解析する。自然言語解析ライブラリ(例:一般的な解析ライブラリ)を利用して、文字データからキーワードや重要文を抽出する。抽出された重要ポイントはリストとして保存される。
ステップ4:
サーバが抽出された重要ポイントに基づいて要約バージョンの動画を生成する。
入力:ステップ3で得られた重要ポイントのリスト
出力:要約バージョンの動画ファイル
具体的な動作:サーバは重要ポイントが含まれる動画部分を抜き出し、動画編集ライブラリ(例:一般的な動画編集ソフトウェア)を使用して要約バージョンを編集・生成する。具体的な動作としては、重要ポイントが話されている部分の動画クリップを抽出し、それらを結合することで要約バージョンの動画を作成する。
ステップ5:
サーバがフルバージョンおよび要約バージョンの動画を配信媒体にアップロードし、ユーザに通知する。
入力:ステップ4で生成された要約バージョンの動画、および元のフルバージョンの動画
出力:視聴URLが含まれた通知メール
具体的な動作:サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを一般的な動画配信プラットフォームにアップロードする。配信プラットフォームは視聴用のURLを生成するので、サーバはこのURLを含む通知メールをユーザに送信する。
以上のステップを実行することで、ユーザは効率的に動画の内容を確認することができるようになる。
(応用例1)
次に、応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。
近年、ビデオ会議やセミナーの録画が一般的になったが、長時間の動画から重要な情報だけを効率的に取得する手段が求められている。特に、スマートフォンやその他の携帯端末から手軽にアクセスできる形で要約情報を提供することが重要である。従来の手法では、フルバージョンの動画を視聴しながら重要な部分を自ら探す必要があり、時間と労力がかかるという課題があった。
応用例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
この発明では、サーバは、動画ファイルを収集し、サーバにアップロードする手段と、音声認識技術を用いて動画の音声データをテキストデータに変換する手段と、自然言語処理技術を用いてテキストデータから重要ポイントを抽出する手段と、を含む。これにより、動画から重要な部分を効率的に抽出し、スマートフォンに適した要約バージョンを生成・提供することが可能となる。
「動画ファイル」とは、情報を視覚および聴覚的に記録し、再生可能なデジタルデータ形式のファイルである。
「サーバ」とは、ネットワーク上でデータを処理および管理し、他のデバイスにサービスを提供するコンピュータシステムである。
「音声認識技術」とは、音声をテキストに変換するための技術である。
「テキストデータ」とは、文字や記号によって表現された情報の集合である。
「自然言語処理技術」とは、自然言語を理解し、解析、および生成するための技術である。
「重要ポイント」とは、情報の中で特に注目すべき内容や主要な内容のことである。
「要約バージョン」とは、元のコンテンツの中から重要な部分だけを抜粋し、短縮した形式のコンテンツである。
「配信プラットフォーム」とは、デジタルコンテンツをユーザに配信するためのオンラインサービスである。
「視聴URL」とは、インターネット上で特定のコンテンツにアクセスして視聴するためのウェブアドレスである。
「スマートフォン」とは、携帯電話機能に加えて、コンピュータのような多機能を持つ携帯デバイスである。
「アプリケーション」とは、特定の機能や役割を持つソフトウェアプログラムである。
「効率的」とは、最小限の資源や時間で最大の成果を上げることができる状態を示す。
「コンテンツ」とは、情報やメディアの中身や内容のことである。
発明を実施するための形態を具体的に示すために、本発明に基づいたシステムの全体的な処理を以下に説明する。このシステムは、動画ファイルの収集、音声データのテキストデータへの変換、重要ポイントの抽出、動画の要約生成および配信を行うものである。
まず、ユーザはスマートフォンを使用して製品説明会やセミナーの録画を行う。録画が完了したら、ユーザはこの動画ファイルをサーバにアップロードする。サーバは、アップロードされた動画ファイルを指定のフォルダに保存する。次に、サーバは音声認識技術を使用して動画の音声データをテキストデータに変換する。この際、Google Cloud Speech-to-Text APIを利用することが考えられる。音声認識の結果、動画内の全ての音声がテキスト形式で保存される。
続いて、サーバは自然言語処理技術を用いて生成されたテキストデータを解析する。具体的には、自然言語処理ライブラリ(例:SpaCy)を使用してテキストデータからキーワードや重要な文章を抽出する。解析の結果、動画の中で特に重要とされる情報がリストアップされる。リストアップされた重要ポイントに基づき、サーバは動画の要約バージョンを編集・生成する。この処理は、動画編集ライブラリ(例:FFmpeg)を利用して実施される。重要ポイントが映っている部分のみを抜き出し、これらを結合することで要約バージョンの動画を作成する。
編集が完了した後、サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードする。例えば、YouTubeやVimeoなどの動画配信サービスにアップロードすることが可能である。配信プラットフォームは視聴用のURLを生成し、サーバはこのURLをユーザにメールなどで通知する。これにより、ユーザはフルバージョンの動画を視聴して詳細な情報を取得することや、短時間で重要な情報を把握するために要約バージョンの動画を視聴することができる。
さらに、このシステムはスマートフォンにインストールされるアプリケーションとしても動作する。このアプリケーションを利用することで、ユーザは録画や動画のアップロード、重要ポイントの抽出、要約動画の生成、URLの取得までの一連の流れをスマートフォン上で簡単に操作することができる。
具体例として、30分間のセミナー動画がある場合、それを効率的に10秒ずつの要約ポイントに分割し、ユーザが短時間で重要な情報を取得できるようにするアプリケーションが挙げられる。
プロンプト文の例:
「セミナー動画を30分間録画しました。重要な部分を選別し、10秒ごとに要約を作成してください。」
このシステムにより、ユーザは効率的かつ効果的に重要な情報を取得でき、時間と労力を大幅に節約することが可能となる。
応用例1における特定処理の流れについて図12を用いて説明する。
ステップ1:
ユーザはスマートフォンを使用して製品説明会やセミナーの録画を行う。録画が完了したら、この動画ファイルをサーバにアップロードする。入力は録画された動画ファイルであり、出力はサーバに保存された動画ファイルである。具体的には、ユーザはアプリケーションを起動し、録画ボタンを押して動画を撮影する。その後、録画終了後に表示されるアップロードボタンを押して動画をサーバに送信する。
ステップ2:
サーバはアップロードされた動画ファイルを指定のフォルダに保存する。入力はユーザからアップロードされた動画ファイルであり、出力は指定フォルダに保存された動画ファイルである。サーバは受信した動画ファイルを一時フォルダに保存し、ファイル名を一意に設定して指定の保存先に移動する。
ステップ3:
サーバは音声認識技術を使用して動画の音声データをテキストデータに変換する。この際、Google Cloud Speech-to-Text APIを使用する。入力は保存された動画ファイルであり、出力は音声データから生成されたテキストデータである。具体的には、サーバは動画ファイルから音声トラックを抽出し、Google Cloud Speech-to-Text APIに音声データを送信してテキストに変換する。
ステップ4:
サーバは自然言語処理技術を用いて生成されたテキストデータを解析する。具体的には、自然言語処理ライブラリ(例:SpaCy)を使用してテキストデータからキーワードや重要な文章を抽出する。入力は前ステップで生成されたテキストデータであり、出力は抽出されたキーワードと重要な文章である。サーバはテキストデータを自然言語処理エンジンに送り、解析の結果として重要な文やキーワードのリストを生成する。
ステップ5:
サーバはリストアップされた重要ポイントに基づいて動画の要約バージョンを編集・生成する。この処理は、動画編集ライブラリ(例:FFmpeg)を利用して実施される。入力は重要ポイントのリストと元の動画ファイルであり、出力は要約バージョンの動画ファイルである。サーバは重要ポイントが出現する時間範囲を特定し、その部分を抽出して連結し、要約バージョンを生成する。
ステップ6:
サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードする。例えば、YouTubeやVimeoなどの動画配信サービスにアップロードすることが可能である。入力は生成されたフルバージョンと要約バージョンの動画ファイルであり、出力はそれぞれの視聴URLである。サーバは配信プラットフォームのAPIを使用して動画ファイルをアップロードし、視聴URLを取得する。
ステップ7:
サーバは配信プラットフォームが生成した視聴用のURLをユーザにメールなどで通知する。入力は視聴URLであり、出力はユーザへの通知である。具体的には、サーバはURLを含むメールを自動生成し、ユーザの登録メールアドレスに送信する。
このシステムにより、ユーザはフルバージョンの動画を視聴して詳細な情報を取得することや、短時間で重要な情報を把握するために要約バージョンの動画を視聴することができる。
なお、更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部290は、感情特定モデル59を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。
本発明は、製品説明会やセミナーの録画動画を効率的に要約し、フルバージョンと要約バージョンの両方を提供するシステムである。また、ユーザの感情を認識する感情エンジンを組み合わせることで、動画の重要ポイントの抽出および要約をさらに高度に行う。本発明のシステムは、コンピュータプログラムに基づいて動作する一連のプロセスを含む。以下に、プログラムの処理を自然言語で詳述する。
ユーザは製品説明会やセミナーの様子をビデオカメラやスマートフォンで収録する。その後、ユーザは録画した動画ファイルをサーバにアップロードする。サーバはこの動画ファイルを受信し、指定のフォルダに保存する。
次に、サーバは動画の音声データを解析するために、音声認識技術を使用する。具体的には、音声認識エンジン(例:Google Cloud Speech-to-Text API)を動作させ、音声データをテキストデータに変換する。この変換されたテキストデータは、サーバに保存される。
次に、サーバは感情エンジンを使用して、動画の音声データからユーザの感情を分析する。感情エンジンは、ユーザの音声トーンやテンポ、イントネーションなどを解析し、感情情報をテキストデータに付加する。例えば、テキストデータの各部分に「興奮」「安心」「疑問」などの感情タグを付ける。
その後、サーバは自然言語処理技術(例:SpaCyライブラリ)を使用してテキストデータを解析する。感情エンジンによって付加された感情タグを基に、テキストデータからキーワードや重要文を抽出する。このプロセスにより、動画の中で特に重要であり、視聴者にとって感情的にインパクトのある情報がリスト化される。抽出された重要ポイントは、感情情報を考慮して優先順位付けされる。
リストアップされた重要ポイントに基づいて、サーバは要約バージョンの動画を編集・生成する。サーバは動画編集ライブラリ(例:FFmpeg)を利用し、重要ポイントが映っている部分だけを抜き出して結合することで要約バージョンの動画を作成する。一方で、フルバージョンの動画は元の動画ファイルをそのまま使用する。
編集が完了した後、サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードする。例として、YouTubeやVimeoなどの動画配信サービスにアップロードすることが可能である。アップロードが完了すると、配信プラットフォームは視聴用のURLを生成し、サーバはこのURLをユーザにメールなどで通知する。
このプロセスにより、ユーザはフルバージョンの動画を視聴して詳細な情報を得ることもでき、要約バージョンの動画を視聴して短時間で重要な情報を把握することが可能である。また、感情エンジンの使用により、視聴者の感情的な反応に基づいた重要な情報を効率的に取得できるようになる。このシステムにより、ユーザは情報取得の効率を大幅に向上させ、製品説明会やセミナーの内容をより効果的に活用することができる。
以下に、処理の流れについて説明する。
ステップ1:
ユーザが動画を収集する。ユーザは製品説明会やセミナーをビデオカメラやスマートフォンで撮影し、動画ファイルを生成する。
ステップ2:
ユーザが動画をサーバにアップロードする。ユーザは自身の端末からサーバにアクセスし、収集した動画ファイルを選択してアップロードポータルに送信する。
ステップ3:
サーバが動画ファイルを受信する。サーバはアップロードされた動画ファイルを指定のディレクトリ(例:「uploads」フォルダ)に保存する。
ステップ4:
サーバが音声認識を行う。サーバは音声認識エンジン(例:Google Cloud Speech-to-Text API)を起動し、動画の音声データをテキストデータに変換する。
ステップ5:
サーバが変換されたテキストデータを保存する。サーバは生成されたテキストデータを指定のフォルダに保存する。
ステップ6:
サーバが感情エンジンを使用して音声データを解析し、感情情報を抽出する。感情エンジンはユーザの音声トーンやテンポ、イントネーションを解析し、テキストデータに感情タグを付加する。
ステップ7:
サーバが感情情報を付加したテキストデータを自然言語処理技術を用いて解析する。サーバは自然言語処理ライブラリ(例:SpaCy)を利用し、テキストデータからキーワードや重要文を抽出する。
ステップ8:
サーバが抽出されたキーワードや重要文を基に重要ポイントをリストアップし、感情情報に基づいて優先順位付けする。
ステップ9:
サーバが要約バージョンの動画を編集・生成する。サーバは動画編集ライブラリ(例:FFmpeg)を用いて、重要ポイントが表示されるシーンのみを抽出・結合して要約バージョンの動画を作成する。
ステップ10:
サーバがフルバージョンの動画を保存する。サーバは元の動画ファイルをそのまま指定のフォルダ(例:「full_videos」フォルダ)に保存する。
ステップ11:
サーバが要約バージョンの動画を保存する。サーバは編集された要約バージョンの動画ファイルを指定のフォルダ(例:「summary_videos」フォルダ)に保存する。
ステップ12:
サーバが動画ファイルを配信準備する。サーバはフルバージョンおよび要約バージョンの動画ファイルを動画配信プラットフォーム(例:YouTubeやVimeo)にアップロードする。
ステップ13:
サーバが視聴URLを生成し、ユーザに通知する。サーバは配信プラットフォームから取得した視聴URLをユーザのメールアドレスへ送信し、視聴リンクを提供する。
(実施例2)
次に、実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。
近年、製品説明会やセミナーの録画内容を効率的に要約し、フルバージョンと要約バージョンの両方を提供するニーズが高まっている。しかし、これまでの技術では、録画動画の音声データを単にテキストに変換するだけで、感情情報を考慮した効率的な要約が困難であった。その結果、動画の重要ポイントを正確に抽出できず、視聴者にとって有用な情報提供が難しいという課題があった。
実施例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
この発明では、サーバは、動画ファイルを収集し、サーバにアップロードする手段と、音声認識技術を用いて動画の音声データをテキストデータに変換する手段と、感情解析技術を使用して音声データから感情情報を抽出し、テキストデータに付加する手段と、自然言語処理技術を用いてテキストデータから重要ポイントを抽出する手段と、抽出された重要ポイントに基づいて動画から要約バージョンを編集・生成する手段と、フルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードし、視聴URLをユーザに通知する手段とを含む。これにより、動画内の重要で感情的にインパクトのある部分を効率的に抽出し、要約することが可能となる。
「動画ファイル」とは、ビデオカメラやスマートフォンなどの撮影装置によって収録された映像および音声を含むデジタルデータである。
「サーバ」とは、ネットワークを通じてデータの保存、処理、および配信を行うためのコンピュータシステムである。
「音声認識技術」とは、音声データを解析し、その内容をテキストデータに変換する技術である。
「感情解析技術」とは、音声やテキストデータを解析し、一定のアルゴリズムに基づいて感情情報を抽出する技術である。
「自然言語処理技術」とは、人間の言語をコンピュータで処理・理解するための一連の技術であり、テキストデータからキーワードや重要文を抽出することができる。
「テキストデータ」とは、文字列として表現されたデジタル情報であり、音声認識技術によって音声データから変換されたものである。
「重要ポイント」とは、動画やテキストデータの中で視聴者やユーザにとって特に有益または重要と判断された部分である。
「要約バージョン」とは、動画ファイルの内容を簡略化し、重要ポイントのみを含む短縮された動画である。
「フルバージョン」とは、元の動画ファイルをそのまま使用した、全体の内容を含む完全な動画である。
「配信プラットフォーム」とは、インターネットを通じて動画ファイルを視聴者に配信するためのオンラインサービスである。
「視聴URL」とは、視聴者がウェブブラウザなどを通じて動画を再生する際に使用するリンクである。
本発明は、製品説明会やセミナーの録画動画を効率的に要約し、フルバージョンと要約バージョンの両方を提供するシステムである。さらに、ユーザの感情を認識する感情エンジンを組み合わせることで、動画の重要ポイントの抽出および要約を高度に行うことを特徴とする。
本システムは、以下のような手順で動作する。まず、ユーザは製品説明会やセミナーの様子をビデオカメラやスマートフォンで録画する。その後、ユーザは録画した動画ファイルをサーバにアップロードするためのウェブインターフェースを使用する。サーバは動画ファイルを受信し、指定のフォルダに保存する。
次に、サーバは音声認識技術を使用して動画の音声データをテキストデータに変換する。具体的には、音声認識エンジンとしてGoogle Cloud Speech-to-Text APIを使用する。このAPIにより、音声データを高精度でテキストデータに変換することができる。変換されたテキストデータは、サーバに保存される。
次に、サーバは感情エンジンを使用して、動画の音声データからユーザの感情を分析する。感情エンジンは、ユーザの音声トーンやテンポ、イントネーションなどを解析し、感情情報をテキストデータに付加する。例えば、テキストデータの各部分に「興奮」「安心」「疑問」などの感情タグを付ける。
その後、サーバは自然言語処理技術を使用してテキストデータを解析する。具体的には、自然言語処理ライブラリとしてSpaCyを使用する。このライブラリを用いて、感情エンジンによって付加された感情タグを基にテキストデータからキーワードや重要文を抽出する。この処理により、動画の中で特に重要であり、視聴者にとって感情的にインパクトのある情報がリスト化される。さらに、抽出された重要ポイントは感情情報を考慮して優先順位付けされる。
リストアップされた重要ポイントに基づいて、サーバは要約バージョンの動画を編集・生成する。具体的には、動画編集ライブラリとしてFFmpegを利用する。重要ポイントが映っている部分だけを抜き出し、結合することで要約バージョンの動画を作成する。一方で、フルバージョンの動画は元の動画ファイルをそのまま使用する。
編集が完了した後、サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを動画配信プラットフォームにアップロードする。例として、YouTubeやVimeoなどの動画配信サービスにアップロードすることが可能である。アップロードが完了すると、配信プラットフォームは視聴用のURLを生成し、サーバはこのURLをユーザにメールなどで通知する。
具体例
例えば、ユーザが製品説明会の録画動画をサーバにアップロードしたとする。サーバは動画を受信し、Google Cloud Speech-to-Text APIを使用して音声データをテキストデータに変換する。その後、感情エンジンで音声データから感情情報を抽出し、「新商品紹介」の部分に「興奮」タグを付ける。次に、サーバはSpaCyライブラリを使用して重要ポイントを抽出し、FFmpegで要約バージョンの動画を編集・生成する。最終的に、生成された動画をYouTubeにアップロードし、視聴用URLをユーザのメールアドレスに通知する。
プロンプト文の例
ユーザは製品説明会の録画動画をサーバにアップロードします。サーバはGoogle Cloud Speech-to-Text APIを使用して音声データをテキスト化し、感情エンジンで感情タグを付加します。これを基に自然言語処理技術(SpaCy)を用いてキーワードや重要文を抽出し、FFmpegで要約バージョンの動画を生成します。最終的に、生成された動画をYouTubeにアップロードし、ユーザに視聴URLを通知します。
実施例2における特定処理の流れについて図13を用いて説明する。
ステップ1:
ユーザはビデオカメラやスマートフォンで製品説明会やセミナーの様子を録画する。録画終了後、ユーザは録画した動画ファイルをブラウザのファイルアップロード機能を使用してサーバにアップロードする。
入力:録画された動画ファイル
出力:サーバにファイルがアップロードされる
具体的な動作:ユーザがブラウザでウェブページを開き、アップロードボタンをクリックして、録画した動画ファイルを選択し、「アップロード」ボタンを押す。
ステップ2:
サーバはアップロードされた動画ファイルを受信し、指定のフォルダに保存する。
入力:アップロードされた動画ファイル
出力:サーバの指定フォルダに保存された動画ファイル
具体的な動作:サーバ側のスクリプトがHTTP POSTリクエストを受け取り、動画ファイルをストレージに保存する。
ステップ3:
サーバは、Google Cloud Speech-to-Text APIを使用し、保存された動画ファイルの音声データをテキストデータに変換する。
入力:動画ファイルの音声データ
出力:テキストデータ
具体的な動作:サーバが音声データを抽出し、Google Cloud Speech-to-Text APIに送信してテキストに変換し、その結果を保存する。
ステップ4:
サーバは感情解析技術を使用し、音声データからユーザの感情を分析してテキストデータに感情情報を付加する。
入力:テキストデータおよび音声データ
出力:感情タグが付加されたテキストデータ
具体的な動作:感情解析アルゴリズムを適用し、音声のトーン、テンポ、イントネーションから感情情報を抽出、それをテキストに付加して保存する。
ステップ5:
サーバは、SpaCyを利用して、感情情報が追加されたテキストデータを解析し、重要ポイントを抽出する。
入力:感情タグが付加されたテキストデータ
出力:重要ポイントのリスト
具体的な動作:SpaCyライブラリを使用してテキストデータをトークン化し、感情タグを基にキーワードや重要文を抽出してリスト化する。
ステップ6:
サーバは、FFmpegを使用して、重要ポイントに基づいて要約バージョンの動画を編集・生成する。
入力:重要ポイントのリストおよび動画ファイル
出力:要約バージョンの動画ファイル
具体的な動作:FFmpegライブラリを使用して元の動画ファイルから重要ポイントが含まれる部分を抜き出し、これを結合して要約動画を生成する。
ステップ7:
サーバは、フルバージョンおよび要約バージョンの動画ファイルをYouTubeやVimeoにアップロードし、視聴URLを生成する。
入力:フルバージョンおよび要約バージョンの動画ファイル
出力:視聴URL
具体的な動作:YouTube APIやVimeo APIを使用して動画ファイルをアップロードし、視聴用URLを取得する。
ステップ8:
サーバは、生成された視聴URLをユーザに通知する。
入力:視聴URLおよびユーザのメールアドレス
出力:通知メール
具体的な動作:メールサーバを通じてユーザのメールアドレスにURLを含む通知メールを送信する。
(応用例2)
次に、応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、スマート眼鏡214を「端末」と称する。
現在、多くの製品説明会やセミナーは長時間にわたり、多量の情報が含まれている。そのため、視聴者は全ての内容を短時間で効果的に把握することが難しい。また、動画の重要なポイントを抽出する際に、視聴者の感情的な反応を反映させることができず、情報の優先順位付けが効果的に行われないという課題がある。従来の動画要約システムは、視覚的情報を最適に活用できていないため、視聴者にとって最も重要な部分を簡潔に伝えることが困難である。
応用例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
この発明では、サーバは、動画ファイルを収集し、サーバにアップロードする手段と、音声認識技術を用いて動画の音声データをテキストデータに変換する手段と、自然言語処理技術を用いてテキストデータから重要ポイントを抽出する手段と、抽出された重要ポイントに基づいて動画から要約バージョンを編集・生成する手段と、フルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードし、視聴URLをユーザに通知する手段と、感情分析技術を用いて音声データから感情情報を抽出し、それを用いて重要ポイントの優先順位を付ける手段と、ユーザーインターフェースを通じて視聴者に感情情報を可視化し、要約動画を提示する手段とを含む。これにより、視聴者は短時間で重要な情報を把握することが可能となり、感情的な反応に基づいた最も重要なポイントを効率的に視覚化し、情報の優先順位付けが可能となる。
1. 「動画ファイル」とは、ビデオカメラやスマートフォンなどのデバイスを用いて撮影された映像と音声が一体となったデータである。
2. 「サーバ」とは、ネットワークを通じてデータの保存や処理を行うためのコンピュータシステムである。
3. 「音声認識技術」とは、音声を解析してテキストデータに変換する技術である。
4. 「テキストデータ」とは、音声認識技術により変換された文章形式のデータである。
5. 「自然言語処理技術」とは、テキストデータを解析し、キーワードや重要文を抽出する技術である。
6. 「重要ポイント」とは、動画やテキストデータの中で特に重要とされる情報の部分である。
7. 「要約バージョン」とは、フルバージョンの動画から重要な部分のみを抽出して編集・生成された短縮版の動画である。
8. 「フルバージョン」とは、元の動画ファイル全体を指す。
9. 「配信プラットフォーム」とは、インターネットを通じて動画を視聴できるサービスである。
10. 「視聴URL」とは、インターネット上で動画を視聴するためのウェブアドレスである。
11. 「感情分析技術」とは、音声データから感情情報を抽出する技術である。
12. 「感情情報」とは、音声のトーンやテンポなどを解析して得られる感情のデータである。
13. 「ユーザーインターフェース」とは、視聴者が感情情報や動画を操作・閲覧するためのソフトウェアのインタラクション部分である。
14. 「可視化」とは、抽出された感情情報を視聴者にわかりやすく表示するプロセスである。
この発明では、ユーザが製品説明会やセミナーの動画ファイルを端末で収集し、サーバにアップロードする。サーバはネットワークを通じて動画ファイルを受信し、指定されたフォルダに保存する。使用する端末には、ビデオカメラやスマートフォンなどが含まれるが、スマートフォンが一般的である。
次に、サーバは音声認識技術を用いて動画の音声データをテキストデータに変換する。この目的のために、Google Cloud Speech-to-Text APIなどの音声認識エンジンを使用する。音声データは音声認識エンジンによってテキストに変換され、そのテキストデータはサーバに保存される。
その後、サーバは自然言語処理技術を用いてテキストデータを解析し、重要ポイントを抽出する。具体的には、SpaCyライブラリのような自然言語処理ライブラリを使用して、テキストデータからキーワードや重要文を抽出する。この段階で、感情分析技術も使用する。感情分析技術により、音声のトーンやテンポ、イントネーションなどから感情情報を取得し、それをテキストデータに付加する。これにより、感情情報を基に重要ポイントの優先順位を付けることができる。
サーバは、抽出された重要ポイントのリストに基づいて、動画の要約バージョンを編集・生成する。このプロセスでは、FFmpegなどの動画編集ライブラリを使用して、重要ポイントが含まれる部分を抜き出し、結合することで要約バージョンの動画を作成する。一方、フルバージョンの動画は、元の動画ファイル全体である。
編集が完了すると、サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードする。例えば、YouTubeやVimeoといった動画配信サービスにアップロードし、配信プラットフォームは視聴用のURLを生成する。サーバはこのURLをユーザに通知し、ユーザはそのURLをクリックすることで、フルバージョンまたは要約バージョンの動画を視聴することができる。
ここで、具体例として、ユーザが製品説明会の動画をスマートフォンで録画し、このアプリを通じてアップロードすると、アプリは数分で動画を処理し、要約版の動画および感情分析結果を返す。例えば、「重要な情報は12:34に開始し、15:00に終了します」といった通知が来る。
生成AIモデルへ入力するプロンプト文の例として、次のようなものがある。「下記の音声データを日本語のテキストに変換し、感情分析を行い、重要なキーワードを抽出して動画の要約を生成してください。」
応用例2における特定処理の流れについて図14を用いて説明する。
ステップ1:
ユーザは端末(スマートフォンやビデオカメラ)で製品説明会やセミナーの動画を収録する。収録された動画ファイルは端末に保存される。入力としては録画デバイスから動画ファイルを取得し、出力として端末に保存された動画ファイルが得られる。
ステップ2:
ユーザは動画ファイルを端末からサーバへアップロードする。ユーザインターフェースを通じて動画ファイルを選択し、アップロードボタンを押すことで動画がサーバに送信される。入力は端末に保存された動画ファイルで、出力はサーバに保存された動画ファイルである。
ステップ3:
サーバは音声認識技術を用いて、動画ファイルの音声データをテキストデータに変換する。具体的には、Google Cloud Speech-to-Text APIを使用して、音声データをクラウドに送信し、テキストデータを受信してサーバに保存する。入力は動画ファイルの音声データ、出力は音声から変換されたテキストデータである。
ステップ4:
サーバは感情分析技術を用いて音声データから感情情報を抽出する。この処理には感情エンジンが使用され、音声のトーン、テンポ、イントネーションなどを解析して感情タグをテキストデータに付加する。入力は音声データ、出力は感情タグが付加されたテキストデータである。
ステップ5:
サーバは自然言語処理技術を用いて、テキストデータから重要ポイントを抽出する。これにはSpaCyライブラリなどが使用され、感情タグを基に重要なキーワードや重要文をリストアップする。入力は感情タグ付きのテキストデータ、出力はリスト化された重要ポイントである。
ステップ6:
サーバは抽出された重要ポイントに基づいて、動画の要約バージョンを編集・生成する。FFmpegなどの動画編集ライブラリを使用し、重要ポイントが映っている部分を抜き出して結合することで要約動画を生成する。入力は動画ファイルと重要ポイントのリスト、出力は要約バージョンの動画ファイルである。
ステップ7:
サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォーム(例えばYouTubeやVimeo)にアップロードする。それぞれのプラットフォームは視聴用のURLを生成し、サーバはこのURLをユーザにメールで通知する。入力は動画ファイル、出力は配信プラットフォーム上の視聴URLである。
ステップ8:
ユーザは通知されたURLをクリックし、ブラウザやアプリケーションを通じてフルバージョンまたは要約バージョンの動画を視聴することにより、短時間で重要な情報を把握する。入力は視聴URL、出力は再生される動画である。
特定処理部290は、特定処理の結果をスマート眼鏡214に送信する。スマート眼鏡214では、制御部46Aが、スピーカ240に対して特定処理の結果を出力させる。マイクロフォン238は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン238によって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。
データ生成モデル58は、いわゆる生成系AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(インターネット検索<URL: https://openai.com/blog/chatgpt>)、Gemini(インターネット検索<URL: https://gemini.google.com/?hl=ja>)等の生成AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。
上記実施形態では、データ処理装置12によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、スマート眼鏡214によって特定処理が行われるようにしてもよい。
[第3実施形態]
図5には、第3実施形態に係るデータ処理システム310の構成の一例が示されている。
図5に示すように、データ処理システム310は、データ処理装置12及びヘッドセット型端末314を備えている。データ処理装置12の一例としては、サーバが挙げられる。
データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。
ヘッドセット型端末314は、コンピュータ36、マイクロフォン238、スピーカ240、カメラ42、通信I/F44、及びディスプレイ343を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、マイクロフォン238、スピーカ240、カメラ42、及びディスプレイ343も、バス52に接続されている。
マイクロフォン238は、ユーザ20が発する音声を受け付けることで、ユーザ20から指示等を受け付ける。マイクロフォン238は、ユーザ20が発する音声を捕捉し、捕捉した音声を音声データに変換してプロセッサ46に出力する。スピーカ240は、プロセッサ46からの指示に従って音声を出力する。
カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラであり、ユーザ20の周囲(例えば、一般的な健常者の視界の広さに相当する画角で規定された撮像範囲)を撮像する。
通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。通信I/F44及び26を用いたプロセッサ46とプロセッサ28との間の各種情報の授受はセキュアな状態で行われる。
図6には、データ処理装置12及びヘッドセット型端末314の要部機能の一例が示されている。図6に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。
特定処理プログラム56は、本開示の技術に係る「プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って、特定処理部290として動作することによって実現される。
ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。
ヘッドセット型端末314では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。
次に、データ処理装置12の特定処理部290による特定処理について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。
本発明は、製品説明会やセミナーなどの録画動画を効率的に要約し、フルバージョンと要約バージョンの両方を提供するシステムである。本発明のシステムは、コンピュータプログラムに基づいて動作する一連のプロセスを含む。以下に、プログラムの処理を自然言語で詳述する。
ユーザは製品説明会やセミナーの様子をビデオカメラやスマートフォンで収録する。その後、ユーザは録画した動画ファイルをサーバにアップロードする。サーバはまず、この動画ファイルを受信し、指定のフォルダに保存する。
次に、サーバは動画の音声データを解析するために、音声認識技術を使用する。具体的には、音声認識エンジンを動作させ、音声データをテキストデータに変換する。例として、Google Cloud Speech-to-Text APIを使用することが考えられる。音声認識の結果として、動画内の全ての音声が対応するテキスト形式でサーバに保存される。
その後、サーバは生成されたテキストデータを自然言語処理技術を用いて解析する。サーバは自然言語処理ライブラリ(例:SpaCy)を利用し、テキストデータからキーワードや重要文を抽出する。このプロセスにより、動画の中で特に重要とされる情報がリスト化される。
リストアップされた重要ポイントに基づいて、サーバは動画の要約バージョンを編集・生成する。サーバは動画編集ライブラリ(例:FFmpeg)を利用し、重要ポイントが映っている部分だけを抜き出して結合することで、要約バージョンの動画を作成する。一方で、フルバージョンの動画は元の動画ファイルをそのまま使用する。
編集が完了した後、サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードする。例として、YouTubeやVimeoなどの動画配信サービスにアップロードすることが可能である。アップロードが完了すると、配信プラットフォームは視聴用のURLを生成し、サーバはこのURLをユーザにメールなどで通知する。
以上のプロセスにより、ユーザはフルバージョンの動画を視聴して詳細な情報を得ることもできるし、要約バージョンの動画を視聴して短時間で重要な情報を把握することもできる。このシステムにより、ユーザは情報取得の効率を大幅に向上させることができ、製品説明会やセミナーの内容をより効果的に活用することが可能である。
以下に、処理の流れについて説明する。
ステップ1:
ユーザが動画を収集する。ユーザは製品説明会やセミナーをビデオカメラやスマートフォンで撮影し、動画ファイルを生成する。
ステップ2:
ユーザが動画をサーバにアップロードする。ユーザは自身の端末からサーバにアクセスし、収集した動画ファイルを選択してアップロードポータルに送信する。
ステップ3:
サーバが動画ファイルを受信する。サーバはアップロードされた動画ファイルを指定のディレクトリ(例:「uploads」フォルダ)に保存する。
ステップ4:
サーバが音声認識を行う。サーバは音声認識エンジン(例:Google Cloud Speech-to-Text API)を起動し、動画の音声データをテキストデータに変換する。
ステップ5:
サーバが変換されたテキストデータを保存する。サーバは生成されたテキストデータを指定のフォルダに保存する。
ステップ6:
サーバがテキストデータを解析する。サーバは自然言語処理技術(例:SpaCyライブラリ)を用いて、テキストデータからキーワードや重要文を抽出する。
ステップ7:
サーバが重要ポイントをリストアップする。サーバは抽出されたキーワードや重要文を基に、動画の重要ポイントをリスト化する。
ステップ8:
サーバが要約バージョンの動画を編集する。サーバは動画編集ライブラリ(例:FFmpeg)を用いて、リストアップされた重要ポイントに基づいて必要な部分だけを抽出、結合して要約バージョンの動画を生成する。
ステップ9:
サーバがフルバージョンの動画を保存する。サーバは元の動画ファイルをそのまま指定のフォルダ(例:「full_videos」フォルダ)に保存する。
ステップ10:
サーバが要約バージョンの動画を保存する。サーバは編集された要約バージョンの動画ファイルを指定のフォルダ(例:「summary_videos」フォルダ)に保存する。
ステップ11:
サーバが動画ファイルを配信準備する。サーバはフルバージョンおよび要約バージョンの動画ファイルを動画配信プラットフォーム(例:YouTubeやVimeo)にアップロードする。
ステップ12:
サーバが視聴URLを生成し、ユーザに通知する。サーバは配信プラットフォームから取得した視聴URLをユーザのメールアドレスへ送信し、視聴リンクを提供する。
(実施例1)
次に、実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。
従来の製品説明会やセミナーの録画動画は、視聴者が必要な情報を効率的に抽出することが困難であった。特に、長時間の動画から重要なポイントを手動で抽出して要約する作業は、多大な労力と時間を要する。また、視聴者が多忙な場合、全ての内容を把握することが難しく、要約された動画の提供が求められている。これにより、情報取得の効率を向上させることが必要である。
実施例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
この発明では、サーバは、動画データを収集し、情報処理装置にアップロードする手段と、音響データ認識技術を使用して動画の音響データを文字データに変換する手段と、自然言語解析技術を用いて文字データから重要ポイントを抽出する手段と、を含む。これにより、動画の要約バージョンを効率的に生成し、視聴者が短時間で重要な情報を把握することが可能となる。
「動画データ」とは、音響情報や視覚情報を含むデジタル形式の映像情報である。
「情報処理装置」とは、データの入力・処理・出力を行う機能を有する電子機器である。
「音響データ認識技術」とは、音声や音響のデータを解析し、対応する文字データに変換する技術である。
「文字データ」とは、テキスト形式で表現されたデジタルの情報である。
「自然言語解析技術」とは、自然言語を処理する技術であり、テキストデータから意味や構造を解析することである。
「重要ポイント」とは、特定の情報や内容の中で、特に注目すべきまたは重要な部分である。
「要約バージョン」とは、元の動画データの中から重要ポイントを抜粋し、短縮した形式の動画である。
「配信媒体」とは、デジタルコンテンツをユーザに届けるためのインターネットを利用したサービスやプラットフォームである。
「視聴URL」とは、インターネット上で特定のコンテンツを視聴するためのウェブアドレスである。
「利用者」とは、システムやサービスを使用する人や団体である。
本発明は、製品説明会やセミナーなどの録画動画を効率的に要約し、フルバージョンと要約バージョンの両方を提供するシステムである。本発明のシステムは、情報処理装置に基づいて動作する一連のプロセスを含む。以下に、プログラムの処理を具体的に説明する。
ユーザは、製品説明会やセミナーの様子をビデオカメラやスマートフォンなどの装置を使用して収録する。その後、ユーザは録画した動画データを情報処理装置にアップロードする。このアップロードされた動画データは、情報処理装置によって特定のフォルダに保存される。
情報処理装置は、まずアップロードされた動画ファイルの音響データを解析する。このために、音響データ認識技術を使用する。この技術には、音響データ認識ユニット(例えば、一般的な音響データ認識API)が含まれる。この認識ユニットは、動画の音響データを文字データに変換し、その結果を情報処理装置に保存する。
次に、情報処理装置は保存された文字データを自然言語解析技術を用いて解析する。このために、自然言語解析ライブラリ(例えば、一般的な自然言語解析ライブラリ)が使用される。このライブラリを使用して、文字データからキーワードや重要文が抽出される。この解析の結果、重要ポイントが特定される。
情報処理装置は、抽出された重要ポイントに基づいて動画の要約バージョンを編集・生成する。このプロセスには、動画編集ライブラリ(例えば、一般的な動画編集ソフトウェア)が使用される。重要ポイントが含まれている部分だけを抜き出して結合することで、要約バージョンの動画が作成される。一方、フルバージョンの動画は元の動画データをそのまま使用する。
編集が完了した後、情報処理装置は生成されたフルバージョンおよび要約バージョンの動画データを配信媒体にアップロードする。具体例として、配信媒体には一般的な動画配信プラットフォーム(例えば、動画共有サイト)が使用される。アップロードが完了すると、配信プラットフォームは視聴用のURLを生成し、情報処理装置はこのURLをユーザに電子メールなどで通知する。
以上のプロセスにより、ユーザはフルバージョンの動画を視聴して詳細な情報を得ることができるし、要約バージョンの動画を視聴して短時間で重要な情報を把握することもできる。このシステムにより、ユーザは情報取得の効率を大幅に向上させることができ、製品説明会やセミナーの内容をより効果的に活用することが可能である。
プロンプト文の例:
「新製品の機能紹介セミナー」の動画をアップロードしました。音響データ認識と自然言語解析を使用して、内容を文字データ化し、キーワード抽出を行い、そのキーワードに基づいて動画の要約版を作成してください。フルバージョンと要約バージョンの両方を動画配信プラットフォームにアップロードし、視聴URLを教えてください。
実施例1における特定処理の流れについて図11を用いて説明する。
ステップ1:
ユーザが動画を撮影し、情報処理装置にアップロードする。
入力:ユーザが撮影した動画ファイル
出力:動画ファイルが情報処理装置の指定フォルダに保存される
具体的な動作:ユーザはビデオカメラやスマートフォンを使用してセミナーや説明会を撮影する。撮影後、その動画ファイルを情報処理装置のWebインターフェースを利用してサーバにアップロードする。サーバはこの動画ファイルを受信し、事前に指定されたフォルダに保存する。
ステップ2:
サーバが動画ファイルの音響データを抽出し、文字データに変換する。
入力:ステップ1で保存された動画ファイル
出力:動画の音響データを変換した文字データ
具体的な動作:サーバは動画ファイルから音響データを抽出するために、音響データ認識技術を使用する。具体的には、一般的な音響データ認識APIを利用して音響データを文字データに変換する。この文字データはテキストファイルとして保存される。
ステップ3:
サーバが自然言語解析技術を使用して文字データを解析し、重要ポイントを抽出する。
入力:ステップ2で得られた文字データ
出力:重要ポイントが特定されたリスト
具体的な動作:サーバは文字データを読み込み、自然言語解析技術を使用して解析する。自然言語解析ライブラリ(例:一般的な解析ライブラリ)を利用して、文字データからキーワードや重要文を抽出する。抽出された重要ポイントはリストとして保存される。
ステップ4:
サーバが抽出された重要ポイントに基づいて要約バージョンの動画を生成する。
入力:ステップ3で得られた重要ポイントのリスト
出力:要約バージョンの動画ファイル
具体的な動作:サーバは重要ポイントが含まれる動画部分を抜き出し、動画編集ライブラリ(例:一般的な動画編集ソフトウェア)を使用して要約バージョンを編集・生成する。具体的な動作としては、重要ポイントが話されている部分の動画クリップを抽出し、それらを結合することで要約バージョンの動画を作成する。
ステップ5:
サーバがフルバージョンおよび要約バージョンの動画を配信媒体にアップロードし、ユーザに通知する。
入力:ステップ4で生成された要約バージョンの動画、および元のフルバージョンの動画
出力:視聴URLが含まれた通知メール
具体的な動作:サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを一般的な動画配信プラットフォームにアップロードする。配信プラットフォームは視聴用のURLを生成するので、サーバはこのURLを含む通知メールをユーザに送信する。
以上のステップを実行することで、ユーザは効率的に動画の内容を確認することができるようになる。
(応用例1)
次に、応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。
近年、ビデオ会議やセミナーの録画が一般的になったが、長時間の動画から重要な情報だけを効率的に取得する手段が求められている。特に、スマートフォンやその他の携帯端末から手軽にアクセスできる形で要約情報を提供することが重要である。従来の手法では、フルバージョンの動画を視聴しながら重要な部分を自ら探す必要があり、時間と労力がかかるという課題があった。
応用例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
この発明では、サーバは、動画ファイルを収集し、サーバにアップロードする手段と、音声認識技術を用いて動画の音声データをテキストデータに変換する手段と、自然言語処理技術を用いてテキストデータから重要ポイントを抽出する手段と、を含む。これにより、動画から重要な部分を効率的に抽出し、スマートフォンに適した要約バージョンを生成・提供することが可能となる。
「動画ファイル」とは、情報を視覚および聴覚的に記録し、再生可能なデジタルデータ形式のファイルである。
「サーバ」とは、ネットワーク上でデータを処理および管理し、他のデバイスにサービスを提供するコンピュータシステムである。
「音声認識技術」とは、音声をテキストに変換するための技術である。
「テキストデータ」とは、文字や記号によって表現された情報の集合である。
「自然言語処理技術」とは、自然言語を理解し、解析、および生成するための技術である。
「重要ポイント」とは、情報の中で特に注目すべき内容や主要な内容のことである。
「要約バージョン」とは、元のコンテンツの中から重要な部分だけを抜粋し、短縮した形式のコンテンツである。
「配信プラットフォーム」とは、デジタルコンテンツをユーザに配信するためのオンラインサービスである。
「視聴URL」とは、インターネット上で特定のコンテンツにアクセスして視聴するためのウェブアドレスである。
「スマートフォン」とは、携帯電話機能に加えて、コンピュータのような多機能を持つ携帯デバイスである。
「アプリケーション」とは、特定の機能や役割を持つソフトウェアプログラムである。
「効率的」とは、最小限の資源や時間で最大の成果を上げることができる状態を示す。
「コンテンツ」とは、情報やメディアの中身や内容のことである。
発明を実施するための形態を具体的に示すために、本発明に基づいたシステムの全体的な処理を以下に説明する。このシステムは、動画ファイルの収集、音声データのテキストデータへの変換、重要ポイントの抽出、動画の要約生成および配信を行うものである。
まず、ユーザはスマートフォンを使用して製品説明会やセミナーの録画を行う。録画が完了したら、ユーザはこの動画ファイルをサーバにアップロードする。サーバは、アップロードされた動画ファイルを指定のフォルダに保存する。次に、サーバは音声認識技術を使用して動画の音声データをテキストデータに変換する。この際、Google Cloud Speech-to-Text APIを利用することが考えられる。音声認識の結果、動画内の全ての音声がテキスト形式で保存される。
続いて、サーバは自然言語処理技術を用いて生成されたテキストデータを解析する。具体的には、自然言語処理ライブラリ(例:SpaCy)を使用してテキストデータからキーワードや重要な文章を抽出する。解析の結果、動画の中で特に重要とされる情報がリストアップされる。リストアップされた重要ポイントに基づき、サーバは動画の要約バージョンを編集・生成する。この処理は、動画編集ライブラリ(例:FFmpeg)を利用して実施される。重要ポイントが映っている部分のみを抜き出し、これらを結合することで要約バージョンの動画を作成する。
編集が完了した後、サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードする。例えば、YouTubeやVimeoなどの動画配信サービスにアップロードすることが可能である。配信プラットフォームは視聴用のURLを生成し、サーバはこのURLをユーザにメールなどで通知する。これにより、ユーザはフルバージョンの動画を視聴して詳細な情報を取得することや、短時間で重要な情報を把握するために要約バージョンの動画を視聴することができる。
さらに、このシステムはスマートフォンにインストールされるアプリケーションとしても動作する。このアプリケーションを利用することで、ユーザは録画や動画のアップロード、重要ポイントの抽出、要約動画の生成、URLの取得までの一連の流れをスマートフォン上で簡単に操作することができる。
具体例として、30分間のセミナー動画がある場合、それを効率的に10秒ずつの要約ポイントに分割し、ユーザが短時間で重要な情報を取得できるようにするアプリケーションが挙げられる。
プロンプト文の例:
「セミナー動画を30分間録画しました。重要な部分を選別し、10秒ごとに要約を作成してください。」
このシステムにより、ユーザは効率的かつ効果的に重要な情報を取得でき、時間と労力を大幅に節約することが可能となる。
応用例1における特定処理の流れについて図12を用いて説明する。
ステップ1:
ユーザはスマートフォンを使用して製品説明会やセミナーの録画を行う。録画が完了したら、この動画ファイルをサーバにアップロードする。入力は録画された動画ファイルであり、出力はサーバに保存された動画ファイルである。具体的には、ユーザはアプリケーションを起動し、録画ボタンを押して動画を撮影する。その後、録画終了後に表示されるアップロードボタンを押して動画をサーバに送信する。
ステップ2:
サーバはアップロードされた動画ファイルを指定のフォルダに保存する。入力はユーザからアップロードされた動画ファイルであり、出力は指定フォルダに保存された動画ファイルである。サーバは受信した動画ファイルを一時フォルダに保存し、ファイル名を一意に設定して指定の保存先に移動する。
ステップ3:
サーバは音声認識技術を使用して動画の音声データをテキストデータに変換する。この際、Google Cloud Speech-to-Text APIを使用する。入力は保存された動画ファイルであり、出力は音声データから生成されたテキストデータである。具体的には、サーバは動画ファイルから音声トラックを抽出し、Google Cloud Speech-to-Text APIに音声データを送信してテキストに変換する。
ステップ4:
サーバは自然言語処理技術を用いて生成されたテキストデータを解析する。具体的には、自然言語処理ライブラリ(例:SpaCy)を使用してテキストデータからキーワードや重要な文章を抽出する。入力は前ステップで生成されたテキストデータであり、出力は抽出されたキーワードと重要な文章である。サーバはテキストデータを自然言語処理エンジンに送り、解析の結果として重要な文やキーワードのリストを生成する。
ステップ5:
サーバはリストアップされた重要ポイントに基づいて動画の要約バージョンを編集・生成する。この処理は、動画編集ライブラリ(例:FFmpeg)を利用して実施される。入力は重要ポイントのリストと元の動画ファイルであり、出力は要約バージョンの動画ファイルである。サーバは重要ポイントが出現する時間範囲を特定し、その部分を抽出して連結し、要約バージョンを生成する。
ステップ6:
サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードする。例えば、YouTubeやVimeoなどの動画配信サービスにアップロードすることが可能である。入力は生成されたフルバージョンと要約バージョンの動画ファイルであり、出力はそれぞれの視聴URLである。サーバは配信プラットフォームのAPIを使用して動画ファイルをアップロードし、視聴URLを取得する。
ステップ7:
サーバは配信プラットフォームが生成した視聴用のURLをユーザにメールなどで通知する。入力は視聴URLであり、出力はユーザへの通知である。具体的には、サーバはURLを含むメールを自動生成し、ユーザの登録メールアドレスに送信する。
このシステムにより、ユーザはフルバージョンの動画を視聴して詳細な情報を取得することや、短時間で重要な情報を把握するために要約バージョンの動画を視聴することができる。
なお、更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部290は、感情特定モデル59を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。
本発明は、製品説明会やセミナーの録画動画を効率的に要約し、フルバージョンと要約バージョンの両方を提供するシステムである。また、ユーザの感情を認識する感情エンジンを組み合わせることで、動画の重要ポイントの抽出および要約をさらに高度に行う。本発明のシステムは、コンピュータプログラムに基づいて動作する一連のプロセスを含む。以下に、プログラムの処理を自然言語で詳述する。
ユーザは製品説明会やセミナーの様子をビデオカメラやスマートフォンで収録する。その後、ユーザは録画した動画ファイルをサーバにアップロードする。サーバはこの動画ファイルを受信し、指定のフォルダに保存する。
次に、サーバは動画の音声データを解析するために、音声認識技術を使用する。具体的には、音声認識エンジン(例:Google Cloud Speech-to-Text API)を動作させ、音声データをテキストデータに変換する。この変換されたテキストデータは、サーバに保存される。
次に、サーバは感情エンジンを使用して、動画の音声データからユーザの感情を分析する。感情エンジンは、ユーザの音声トーンやテンポ、イントネーションなどを解析し、感情情報をテキストデータに付加する。例えば、テキストデータの各部分に「興奮」「安心」「疑問」などの感情タグを付ける。
その後、サーバは自然言語処理技術(例:SpaCyライブラリ)を使用してテキストデータを解析する。感情エンジンによって付加された感情タグを基に、テキストデータからキーワードや重要文を抽出する。このプロセスにより、動画の中で特に重要であり、視聴者にとって感情的にインパクトのある情報がリスト化される。抽出された重要ポイントは、感情情報を考慮して優先順位付けされる。
リストアップされた重要ポイントに基づいて、サーバは要約バージョンの動画を編集・生成する。サーバは動画編集ライブラリ(例:FFmpeg)を利用し、重要ポイントが映っている部分だけを抜き出して結合することで要約バージョンの動画を作成する。一方で、フルバージョンの動画は元の動画ファイルをそのまま使用する。
編集が完了した後、サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードする。例として、YouTubeやVimeoなどの動画配信サービスにアップロードすることが可能である。アップロードが完了すると、配信プラットフォームは視聴用のURLを生成し、サーバはこのURLをユーザにメールなどで通知する。
このプロセスにより、ユーザはフルバージョンの動画を視聴して詳細な情報を得ることもでき、要約バージョンの動画を視聴して短時間で重要な情報を把握することが可能である。また、感情エンジンの使用により、視聴者の感情的な反応に基づいた重要な情報を効率的に取得できるようになる。このシステムにより、ユーザは情報取得の効率を大幅に向上させ、製品説明会やセミナーの内容をより効果的に活用することができる。
以下に、処理の流れについて説明する。
ステップ1:
ユーザが動画を収集する。ユーザは製品説明会やセミナーをビデオカメラやスマートフォンで撮影し、動画ファイルを生成する。
ステップ2:
ユーザが動画をサーバにアップロードする。ユーザは自身の端末からサーバにアクセスし、収集した動画ファイルを選択してアップロードポータルに送信する。
ステップ3:
サーバが動画ファイルを受信する。サーバはアップロードされた動画ファイルを指定のディレクトリ(例:「uploads」フォルダ)に保存する。
ステップ4:
サーバが音声認識を行う。サーバは音声認識エンジン(例:Google Cloud Speech-to-Text API)を起動し、動画の音声データをテキストデータに変換する。
ステップ5:
サーバが変換されたテキストデータを保存する。サーバは生成されたテキストデータを指定のフォルダに保存する。
ステップ6:
サーバが感情エンジンを使用して音声データを解析し、感情情報を抽出する。感情エンジンはユーザの音声トーンやテンポ、イントネーションを解析し、テキストデータに感情タグを付加する。
ステップ7:
サーバが感情情報を付加したテキストデータを自然言語処理技術を用いて解析する。サーバは自然言語処理ライブラリ(例:SpaCy)を利用し、テキストデータからキーワードや重要文を抽出する。
ステップ8:
サーバが抽出されたキーワードや重要文を基に重要ポイントをリストアップし、感情情報に基づいて優先順位付けする。
ステップ9:
サーバが要約バージョンの動画を編集・生成する。サーバは動画編集ライブラリ(例:FFmpeg)を用いて、重要ポイントが表示されるシーンのみを抽出・結合して要約バージョンの動画を作成する。
ステップ10:
サーバがフルバージョンの動画を保存する。サーバは元の動画ファイルをそのまま指定のフォルダ(例:「full_videos」フォルダ)に保存する。
ステップ11:
サーバが要約バージョンの動画を保存する。サーバは編集された要約バージョンの動画ファイルを指定のフォルダ(例:「summary_videos」フォルダ)に保存する。
ステップ12:
サーバが動画ファイルを配信準備する。サーバはフルバージョンおよび要約バージョンの動画ファイルを動画配信プラットフォーム(例:YouTubeやVimeo)にアップロードする。
ステップ13:
サーバが視聴URLを生成し、ユーザに通知する。サーバは配信プラットフォームから取得した視聴URLをユーザのメールアドレスへ送信し、視聴リンクを提供する。
(実施例2)
次に、実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。
近年、製品説明会やセミナーの録画内容を効率的に要約し、フルバージョンと要約バージョンの両方を提供するニーズが高まっている。しかし、これまでの技術では、録画動画の音声データを単にテキストに変換するだけで、感情情報を考慮した効率的な要約が困難であった。その結果、動画の重要ポイントを正確に抽出できず、視聴者にとって有用な情報提供が難しいという課題があった。
実施例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
この発明では、サーバは、動画ファイルを収集し、サーバにアップロードする手段と、音声認識技術を用いて動画の音声データをテキストデータに変換する手段と、感情解析技術を使用して音声データから感情情報を抽出し、テキストデータに付加する手段と、自然言語処理技術を用いてテキストデータから重要ポイントを抽出する手段と、抽出された重要ポイントに基づいて動画から要約バージョンを編集・生成する手段と、フルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードし、視聴URLをユーザに通知する手段とを含む。これにより、動画内の重要で感情的にインパクトのある部分を効率的に抽出し、要約することが可能となる。
「動画ファイル」とは、ビデオカメラやスマートフォンなどの撮影装置によって収録された映像および音声を含むデジタルデータである。
「サーバ」とは、ネットワークを通じてデータの保存、処理、および配信を行うためのコンピュータシステムである。
「音声認識技術」とは、音声データを解析し、その内容をテキストデータに変換する技術である。
「感情解析技術」とは、音声やテキストデータを解析し、一定のアルゴリズムに基づいて感情情報を抽出する技術である。
「自然言語処理技術」とは、人間の言語をコンピュータで処理・理解するための一連の技術であり、テキストデータからキーワードや重要文を抽出することができる。
「テキストデータ」とは、文字列として表現されたデジタル情報であり、音声認識技術によって音声データから変換されたものである。
「重要ポイント」とは、動画やテキストデータの中で視聴者やユーザにとって特に有益または重要と判断された部分である。
「要約バージョン」とは、動画ファイルの内容を簡略化し、重要ポイントのみを含む短縮された動画である。
「フルバージョン」とは、元の動画ファイルをそのまま使用した、全体の内容を含む完全な動画である。
「配信プラットフォーム」とは、インターネットを通じて動画ファイルを視聴者に配信するためのオンラインサービスである。
「視聴URL」とは、視聴者がウェブブラウザなどを通じて動画を再生する際に使用するリンクである。
本発明は、製品説明会やセミナーの録画動画を効率的に要約し、フルバージョンと要約バージョンの両方を提供するシステムである。さらに、ユーザの感情を認識する感情エンジンを組み合わせることで、動画の重要ポイントの抽出および要約を高度に行うことを特徴とする。
本システムは、以下のような手順で動作する。まず、ユーザは製品説明会やセミナーの様子をビデオカメラやスマートフォンで録画する。その後、ユーザは録画した動画ファイルをサーバにアップロードするためのウェブインターフェースを使用する。サーバは動画ファイルを受信し、指定のフォルダに保存する。
次に、サーバは音声認識技術を使用して動画の音声データをテキストデータに変換する。具体的には、音声認識エンジンとしてGoogle Cloud Speech-to-Text APIを使用する。このAPIにより、音声データを高精度でテキストデータに変換することができる。変換されたテキストデータは、サーバに保存される。
次に、サーバは感情エンジンを使用して、動画の音声データからユーザの感情を分析する。感情エンジンは、ユーザの音声トーンやテンポ、イントネーションなどを解析し、感情情報をテキストデータに付加する。例えば、テキストデータの各部分に「興奮」「安心」「疑問」などの感情タグを付ける。
その後、サーバは自然言語処理技術を使用してテキストデータを解析する。具体的には、自然言語処理ライブラリとしてSpaCyを使用する。このライブラリを用いて、感情エンジンによって付加された感情タグを基にテキストデータからキーワードや重要文を抽出する。この処理により、動画の中で特に重要であり、視聴者にとって感情的にインパクトのある情報がリスト化される。さらに、抽出された重要ポイントは感情情報を考慮して優先順位付けされる。
リストアップされた重要ポイントに基づいて、サーバは要約バージョンの動画を編集・生成する。具体的には、動画編集ライブラリとしてFFmpegを利用する。重要ポイントが映っている部分だけを抜き出し、結合することで要約バージョンの動画を作成する。一方で、フルバージョンの動画は元の動画ファイルをそのまま使用する。
編集が完了した後、サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを動画配信プラットフォームにアップロードする。例として、YouTubeやVimeoなどの動画配信サービスにアップロードすることが可能である。アップロードが完了すると、配信プラットフォームは視聴用のURLを生成し、サーバはこのURLをユーザにメールなどで通知する。
具体例
例えば、ユーザが製品説明会の録画動画をサーバにアップロードしたとする。サーバは動画を受信し、Google Cloud Speech-to-Text APIを使用して音声データをテキストデータに変換する。その後、感情エンジンで音声データから感情情報を抽出し、「新商品紹介」の部分に「興奮」タグを付ける。次に、サーバはSpaCyライブラリを使用して重要ポイントを抽出し、FFmpegで要約バージョンの動画を編集・生成する。最終的に、生成された動画をYouTubeにアップロードし、視聴用URLをユーザのメールアドレスに通知する。
プロンプト文の例
ユーザは製品説明会の録画動画をサーバにアップロードします。サーバはGoogle Cloud Speech-to-Text APIを使用して音声データをテキスト化し、感情エンジンで感情タグを付加します。これを基に自然言語処理技術(SpaCy)を用いてキーワードや重要文を抽出し、FFmpegで要約バージョンの動画を生成します。最終的に、生成された動画をYouTubeにアップロードし、ユーザに視聴URLを通知します。
実施例2における特定処理の流れについて図13を用いて説明する。
ステップ1:
ユーザはビデオカメラやスマートフォンで製品説明会やセミナーの様子を録画する。録画終了後、ユーザは録画した動画ファイルをブラウザのファイルアップロード機能を使用してサーバにアップロードする。
入力:録画された動画ファイル
出力:サーバにファイルがアップロードされる
具体的な動作:ユーザがブラウザでウェブページを開き、アップロードボタンをクリックして、録画した動画ファイルを選択し、「アップロード」ボタンを押す。
ステップ2:
サーバはアップロードされた動画ファイルを受信し、指定のフォルダに保存する。
入力:アップロードされた動画ファイル
出力:サーバの指定フォルダに保存された動画ファイル
具体的な動作:サーバ側のスクリプトがHTTP POSTリクエストを受け取り、動画ファイルをストレージに保存する。
ステップ3:
サーバは、Google Cloud Speech-to-Text APIを使用し、保存された動画ファイルの音声データをテキストデータに変換する。
入力:動画ファイルの音声データ
出力:テキストデータ
具体的な動作:サーバが音声データを抽出し、Google Cloud Speech-to-Text APIに送信してテキストに変換し、その結果を保存する。
ステップ4:
サーバは感情解析技術を使用し、音声データからユーザの感情を分析してテキストデータに感情情報を付加する。
入力:テキストデータおよび音声データ
出力:感情タグが付加されたテキストデータ
具体的な動作:感情解析アルゴリズムを適用し、音声のトーン、テンポ、イントネーションから感情情報を抽出、それをテキストに付加して保存する。
ステップ5:
サーバは、SpaCyを利用して、感情情報が追加されたテキストデータを解析し、重要ポイントを抽出する。
入力:感情タグが付加されたテキストデータ
出力:重要ポイントのリスト
具体的な動作:SpaCyライブラリを使用してテキストデータをトークン化し、感情タグを基にキーワードや重要文を抽出してリスト化する。
ステップ6:
サーバは、FFmpegを使用して、重要ポイントに基づいて要約バージョンの動画を編集・生成する。
入力:重要ポイントのリストおよび動画ファイル
出力:要約バージョンの動画ファイル
具体的な動作:FFmpegライブラリを使用して元の動画ファイルから重要ポイントが含まれる部分を抜き出し、これを結合して要約動画を生成する。
ステップ7:
サーバは、フルバージョンおよび要約バージョンの動画ファイルをYouTubeやVimeoにアップロードし、視聴URLを生成する。
入力:フルバージョンおよび要約バージョンの動画ファイル
出力:視聴URL
具体的な動作:YouTube APIやVimeo APIを使用して動画ファイルをアップロードし、視聴用URLを取得する。
ステップ8:
サーバは、生成された視聴URLをユーザに通知する。
入力:視聴URLおよびユーザのメールアドレス
出力:通知メール
具体的な動作:メールサーバを通じてユーザのメールアドレスにURLを含む通知メールを送信する。
(応用例2)
次に、応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ヘッドセット型端末314を「端末」と称する。
現在、多くの製品説明会やセミナーは長時間にわたり、多量の情報が含まれている。そのため、視聴者は全ての内容を短時間で効果的に把握することが難しい。また、動画の重要なポイントを抽出する際に、視聴者の感情的な反応を反映させることができず、情報の優先順位付けが効果的に行われないという課題がある。従来の動画要約システムは、視覚的情報を最適に活用できていないため、視聴者にとって最も重要な部分を簡潔に伝えることが困難である。
応用例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
この発明では、サーバは、動画ファイルを収集し、サーバにアップロードする手段と、音声認識技術を用いて動画の音声データをテキストデータに変換する手段と、自然言語処理技術を用いてテキストデータから重要ポイントを抽出する手段と、抽出された重要ポイントに基づいて動画から要約バージョンを編集・生成する手段と、フルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードし、視聴URLをユーザに通知する手段と、感情分析技術を用いて音声データから感情情報を抽出し、それを用いて重要ポイントの優先順位を付ける手段と、ユーザーインターフェースを通じて視聴者に感情情報を可視化し、要約動画を提示する手段とを含む。これにより、視聴者は短時間で重要な情報を把握することが可能となり、感情的な反応に基づいた最も重要なポイントを効率的に視覚化し、情報の優先順位付けが可能となる。
1. 「動画ファイル」とは、ビデオカメラやスマートフォンなどのデバイスを用いて撮影された映像と音声が一体となったデータである。
2. 「サーバ」とは、ネットワークを通じてデータの保存や処理を行うためのコンピュータシステムである。
3. 「音声認識技術」とは、音声を解析してテキストデータに変換する技術である。
4. 「テキストデータ」とは、音声認識技術により変換された文章形式のデータである。
5. 「自然言語処理技術」とは、テキストデータを解析し、キーワードや重要文を抽出する技術である。
6. 「重要ポイント」とは、動画やテキストデータの中で特に重要とされる情報の部分である。
7. 「要約バージョン」とは、フルバージョンの動画から重要な部分のみを抽出して編集・生成された短縮版の動画である。
8. 「フルバージョン」とは、元の動画ファイル全体を指す。
9. 「配信プラットフォーム」とは、インターネットを通じて動画を視聴できるサービスである。
10. 「視聴URL」とは、インターネット上で動画を視聴するためのウェブアドレスである。
11. 「感情分析技術」とは、音声データから感情情報を抽出する技術である。
12. 「感情情報」とは、音声のトーンやテンポなどを解析して得られる感情のデータである。
13. 「ユーザーインターフェース」とは、視聴者が感情情報や動画を操作・閲覧するためのソフトウェアのインタラクション部分である。
14. 「可視化」とは、抽出された感情情報を視聴者にわかりやすく表示するプロセスである。
この発明では、ユーザが製品説明会やセミナーの動画ファイルを端末で収集し、サーバにアップロードする。サーバはネットワークを通じて動画ファイルを受信し、指定されたフォルダに保存する。使用する端末には、ビデオカメラやスマートフォンなどが含まれるが、スマートフォンが一般的である。
次に、サーバは音声認識技術を用いて動画の音声データをテキストデータに変換する。この目的のために、Google Cloud Speech-to-Text APIなどの音声認識エンジンを使用する。音声データは音声認識エンジンによってテキストに変換され、そのテキストデータはサーバに保存される。
その後、サーバは自然言語処理技術を用いてテキストデータを解析し、重要ポイントを抽出する。具体的には、SpaCyライブラリのような自然言語処理ライブラリを使用して、テキストデータからキーワードや重要文を抽出する。この段階で、感情分析技術も使用する。感情分析技術により、音声のトーンやテンポ、イントネーションなどから感情情報を取得し、それをテキストデータに付加する。これにより、感情情報を基に重要ポイントの優先順位を付けることができる。
サーバは、抽出された重要ポイントのリストに基づいて、動画の要約バージョンを編集・生成する。このプロセスでは、FFmpegなどの動画編集ライブラリを使用して、重要ポイントが含まれる部分を抜き出し、結合することで要約バージョンの動画を作成する。一方、フルバージョンの動画は、元の動画ファイル全体である。
編集が完了すると、サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードする。例えば、YouTubeやVimeoといった動画配信サービスにアップロードし、配信プラットフォームは視聴用のURLを生成する。サーバはこのURLをユーザに通知し、ユーザはそのURLをクリックすることで、フルバージョンまたは要約バージョンの動画を視聴することができる。
ここで、具体例として、ユーザが製品説明会の動画をスマートフォンで録画し、このアプリを通じてアップロードすると、アプリは数分で動画を処理し、要約版の動画および感情分析結果を返す。例えば、「重要な情報は12:34に開始し、15:00に終了します」といった通知が来る。
生成AIモデルへ入力するプロンプト文の例として、次のようなものがある。「下記の音声データを日本語のテキストに変換し、感情分析を行い、重要なキーワードを抽出して動画の要約を生成してください。」
応用例2における特定処理の流れについて図14を用いて説明する。
ステップ1:
ユーザは端末(スマートフォンやビデオカメラ)で製品説明会やセミナーの動画を収録する。収録された動画ファイルは端末に保存される。入力としては録画デバイスから動画ファイルを取得し、出力として端末に保存された動画ファイルが得られる。
ステップ2:
ユーザは動画ファイルを端末からサーバへアップロードする。ユーザインターフェースを通じて動画ファイルを選択し、アップロードボタンを押すことで動画がサーバに送信される。入力は端末に保存された動画ファイルで、出力はサーバに保存された動画ファイルである。
ステップ3:
サーバは音声認識技術を用いて、動画ファイルの音声データをテキストデータに変換する。具体的には、Google Cloud Speech-to-Text APIを使用して、音声データをクラウドに送信し、テキストデータを受信してサーバに保存する。入力は動画ファイルの音声データ、出力は音声から変換されたテキストデータである。
ステップ4:
サーバは感情分析技術を用いて音声データから感情情報を抽出する。この処理には感情エンジンが使用され、音声のトーン、テンポ、イントネーションなどを解析して感情タグをテキストデータに付加する。入力は音声データ、出力は感情タグが付加されたテキストデータである。
ステップ5:
サーバは自然言語処理技術を用いて、テキストデータから重要ポイントを抽出する。これにはSpaCyライブラリなどが使用され、感情タグを基に重要なキーワードや重要文をリストアップする。入力は感情タグ付きのテキストデータ、出力はリスト化された重要ポイントである。
ステップ6:
サーバは抽出された重要ポイントに基づいて、動画の要約バージョンを編集・生成する。FFmpegなどの動画編集ライブラリを使用し、重要ポイントが映っている部分を抜き出して結合することで要約動画を生成する。入力は動画ファイルと重要ポイントのリスト、出力は要約バージョンの動画ファイルである。
ステップ7:
サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォーム(例えばYouTubeやVimeo)にアップロードする。それぞれのプラットフォームは視聴用のURLを生成し、サーバはこのURLをユーザにメールで通知する。入力は動画ファイル、出力は配信プラットフォーム上の視聴URLである。
ステップ8:
ユーザは通知されたURLをクリックし、ブラウザやアプリケーションを通じてフルバージョンまたは要約バージョンの動画を視聴することにより、短時間で重要な情報を把握する。入力は視聴URL、出力は再生される動画である。
特定処理部290は、特定処理の結果をヘッドセット型端末314に送信する。ヘッドセット型端末314では、制御部46Aが、スピーカ240及びディスプレイ343に対して特定処理の結果を出力させる。マイクロフォン238は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン238によって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。
データ生成モデル58は、いわゆる生成系AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(インターネット検索<URL: https://openai.com/blog/chatgpt>)、Gemini(インターネット検索<URL: https://gemini.google.com/?hl=ja>)等の生成AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。
上記実施形態では、データ処理装置12によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、ヘッドセット型端末314によって特定処理が行われるようにしてもよい。
[第4実施形態]
図7には、第4実施形態に係るデータ処理システム410の構成の一例が示されている。
図7に示すように、データ処理システム410は、データ処理装置12及びロボット414を備えている。データ処理装置12の一例としては、サーバが挙げられる。
データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。
ロボット414は、コンピュータ36、マイクロフォン238、スピーカ240、カメラ42、通信I/F44、及び制御対象443を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、マイクロフォン238、スピーカ240、カメラ42、及び制御対象443も、バス52に接続されている。
マイクロフォン238は、ユーザ20が発する音声を受け付けることで、ユーザ20から指示等を受け付ける。マイクロフォン238は、ユーザ20が発する音声を捕捉し、捕捉した音声を音声データに変換してプロセッサ46に出力する。スピーカ240は、プロセッサ46からの指示に従って音声を出力する。
カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラであり、ユーザ20の周囲(例えば、一般的な健常者の視界の広さに相当する画角で規定された撮像範囲)を撮像する。
通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。通信I/F44及び26を用いたプロセッサ46とプロセッサ28との間の各種情報の授受はセキュアな状態で行われる。
制御対象443は、表示装置、目部のLED、並びに、腕、手及び足等を駆動するモータ等を含む。ロボット414の姿勢や仕草は、腕、手及び足等のモータを制御することにより制御される。ロボット414の感情の一部は、これらのモータを制御することにより表現できる。また、ロボット414の目部のLEDの発光状態を制御することによっても、ロボット414の表情を表現できる。
図8には、データ処理装置12及びロボット414の要部機能の一例が示されている。図8に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。
特定処理プログラム56は、本開示の技術に係る「プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って、特定処理部290として動作することによって実現される。
ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。
ロボット414では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。
次に、データ処理装置12の特定処理部290による特定処理について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。
本発明は、製品説明会やセミナーなどの録画動画を効率的に要約し、フルバージョンと要約バージョンの両方を提供するシステムである。本発明のシステムは、コンピュータプログラムに基づいて動作する一連のプロセスを含む。以下に、プログラムの処理を自然言語で詳述する。
ユーザは製品説明会やセミナーの様子をビデオカメラやスマートフォンで収録する。その後、ユーザは録画した動画ファイルをサーバにアップロードする。サーバはまず、この動画ファイルを受信し、指定のフォルダに保存する。
次に、サーバは動画の音声データを解析するために、音声認識技術を使用する。具体的には、音声認識エンジンを動作させ、音声データをテキストデータに変換する。例として、Google Cloud Speech-to-Text APIを使用することが考えられる。音声認識の結果として、動画内の全ての音声が対応するテキスト形式でサーバに保存される。
その後、サーバは生成されたテキストデータを自然言語処理技術を用いて解析する。サーバは自然言語処理ライブラリ(例:SpaCy)を利用し、テキストデータからキーワードや重要文を抽出する。このプロセスにより、動画の中で特に重要とされる情報がリスト化される。
リストアップされた重要ポイントに基づいて、サーバは動画の要約バージョンを編集・生成する。サーバは動画編集ライブラリ(例:FFmpeg)を利用し、重要ポイントが映っている部分だけを抜き出して結合することで、要約バージョンの動画を作成する。一方で、フルバージョンの動画は元の動画ファイルをそのまま使用する。
編集が完了した後、サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードする。例として、YouTubeやVimeoなどの動画配信サービスにアップロードすることが可能である。アップロードが完了すると、配信プラットフォームは視聴用のURLを生成し、サーバはこのURLをユーザにメールなどで通知する。
以上のプロセスにより、ユーザはフルバージョンの動画を視聴して詳細な情報を得ることもできるし、要約バージョンの動画を視聴して短時間で重要な情報を把握することもできる。このシステムにより、ユーザは情報取得の効率を大幅に向上させることができ、製品説明会やセミナーの内容をより効果的に活用することが可能である。
以下に、処理の流れについて説明する。
ステップ1:
ユーザが動画を収集する。ユーザは製品説明会やセミナーをビデオカメラやスマートフォンで撮影し、動画ファイルを生成する。
ステップ2:
ユーザが動画をサーバにアップロードする。ユーザは自身の端末からサーバにアクセスし、収集した動画ファイルを選択してアップロードポータルに送信する。
ステップ3:
サーバが動画ファイルを受信する。サーバはアップロードされた動画ファイルを指定のディレクトリ(例:「uploads」フォルダ)に保存する。
ステップ4:
サーバが音声認識を行う。サーバは音声認識エンジン(例:Google Cloud Speech-to-Text API)を起動し、動画の音声データをテキストデータに変換する。
ステップ5:
サーバが変換されたテキストデータを保存する。サーバは生成されたテキストデータを指定のフォルダに保存する。
ステップ6:
サーバがテキストデータを解析する。サーバは自然言語処理技術(例:SpaCyライブラリ)を用いて、テキストデータからキーワードや重要文を抽出する。
ステップ7:
サーバが重要ポイントをリストアップする。サーバは抽出されたキーワードや重要文を基に、動画の重要ポイントをリスト化する。
ステップ8:
サーバが要約バージョンの動画を編集する。サーバは動画編集ライブラリ(例:FFmpeg)を用いて、リストアップされた重要ポイントに基づいて必要な部分だけを抽出、結合して要約バージョンの動画を生成する。
ステップ9:
サーバがフルバージョンの動画を保存する。サーバは元の動画ファイルをそのまま指定のフォルダ(例:「full_videos」フォルダ)に保存する。
ステップ10:
サーバが要約バージョンの動画を保存する。サーバは編集された要約バージョンの動画ファイルを指定のフォルダ(例:「summary_videos」フォルダ)に保存する。
ステップ11:
サーバが動画ファイルを配信準備する。サーバはフルバージョンおよび要約バージョンの動画ファイルを動画配信プラットフォーム(例:YouTubeやVimeo)にアップロードする。
ステップ12:
サーバが視聴URLを生成し、ユーザに通知する。サーバは配信プラットフォームから取得した視聴URLをユーザのメールアドレスへ送信し、視聴リンクを提供する。
(実施例1)
次に、実施例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。
従来の製品説明会やセミナーの録画動画は、視聴者が必要な情報を効率的に抽出することが困難であった。特に、長時間の動画から重要なポイントを手動で抽出して要約する作業は、多大な労力と時間を要する。また、視聴者が多忙な場合、全ての内容を把握することが難しく、要約された動画の提供が求められている。これにより、情報取得の効率を向上させることが必要である。
実施例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
この発明では、サーバは、動画データを収集し、情報処理装置にアップロードする手段と、音響データ認識技術を使用して動画の音響データを文字データに変換する手段と、自然言語解析技術を用いて文字データから重要ポイントを抽出する手段と、を含む。これにより、動画の要約バージョンを効率的に生成し、視聴者が短時間で重要な情報を把握することが可能となる。
「動画データ」とは、音響情報や視覚情報を含むデジタル形式の映像情報である。
「情報処理装置」とは、データの入力・処理・出力を行う機能を有する電子機器である。
「音響データ認識技術」とは、音声や音響のデータを解析し、対応する文字データに変換する技術である。
「文字データ」とは、テキスト形式で表現されたデジタルの情報である。
「自然言語解析技術」とは、自然言語を処理する技術であり、テキストデータから意味や構造を解析することである。
「重要ポイント」とは、特定の情報や内容の中で、特に注目すべきまたは重要な部分である。
「要約バージョン」とは、元の動画データの中から重要ポイントを抜粋し、短縮した形式の動画である。
「配信媒体」とは、デジタルコンテンツをユーザに届けるためのインターネットを利用したサービスやプラットフォームである。
「視聴URL」とは、インターネット上で特定のコンテンツを視聴するためのウェブアドレスである。
「利用者」とは、システムやサービスを使用する人や団体である。
本発明は、製品説明会やセミナーなどの録画動画を効率的に要約し、フルバージョンと要約バージョンの両方を提供するシステムである。本発明のシステムは、情報処理装置に基づいて動作する一連のプロセスを含む。以下に、プログラムの処理を具体的に説明する。
ユーザは、製品説明会やセミナーの様子をビデオカメラやスマートフォンなどの装置を使用して収録する。その後、ユーザは録画した動画データを情報処理装置にアップロードする。このアップロードされた動画データは、情報処理装置によって特定のフォルダに保存される。
情報処理装置は、まずアップロードされた動画ファイルの音響データを解析する。このために、音響データ認識技術を使用する。この技術には、音響データ認識ユニット(例えば、一般的な音響データ認識API)が含まれる。この認識ユニットは、動画の音響データを文字データに変換し、その結果を情報処理装置に保存する。
次に、情報処理装置は保存された文字データを自然言語解析技術を用いて解析する。このために、自然言語解析ライブラリ(例えば、一般的な自然言語解析ライブラリ)が使用される。このライブラリを使用して、文字データからキーワードや重要文が抽出される。この解析の結果、重要ポイントが特定される。
情報処理装置は、抽出された重要ポイントに基づいて動画の要約バージョンを編集・生成する。このプロセスには、動画編集ライブラリ(例えば、一般的な動画編集ソフトウェア)が使用される。重要ポイントが含まれている部分だけを抜き出して結合することで、要約バージョンの動画が作成される。一方、フルバージョンの動画は元の動画データをそのまま使用する。
編集が完了した後、情報処理装置は生成されたフルバージョンおよび要約バージョンの動画データを配信媒体にアップロードする。具体例として、配信媒体には一般的な動画配信プラットフォーム(例えば、動画共有サイト)が使用される。アップロードが完了すると、配信プラットフォームは視聴用のURLを生成し、情報処理装置はこのURLをユーザに電子メールなどで通知する。
以上のプロセスにより、ユーザはフルバージョンの動画を視聴して詳細な情報を得ることができるし、要約バージョンの動画を視聴して短時間で重要な情報を把握することもできる。このシステムにより、ユーザは情報取得の効率を大幅に向上させることができ、製品説明会やセミナーの内容をより効果的に活用することが可能である。
プロンプト文の例:
「新製品の機能紹介セミナー」の動画をアップロードしました。音響データ認識と自然言語解析を使用して、内容を文字データ化し、キーワード抽出を行い、そのキーワードに基づいて動画の要約版を作成してください。フルバージョンと要約バージョンの両方を動画配信プラットフォームにアップロードし、視聴URLを教えてください。
実施例1における特定処理の流れについて図11を用いて説明する。
ステップ1:
ユーザが動画を撮影し、情報処理装置にアップロードする。
入力:ユーザが撮影した動画ファイル
出力:動画ファイルが情報処理装置の指定フォルダに保存される
具体的な動作:ユーザはビデオカメラやスマートフォンを使用してセミナーや説明会を撮影する。撮影後、その動画ファイルを情報処理装置のWebインターフェースを利用してサーバにアップロードする。サーバはこの動画ファイルを受信し、事前に指定されたフォルダに保存する。
ステップ2:
サーバが動画ファイルの音響データを抽出し、文字データに変換する。
入力:ステップ1で保存された動画ファイル
出力:動画の音響データを変換した文字データ
具体的な動作:サーバは動画ファイルから音響データを抽出するために、音響データ認識技術を使用する。具体的には、一般的な音響データ認識APIを利用して音響データを文字データに変換する。この文字データはテキストファイルとして保存される。
ステップ3:
サーバが自然言語解析技術を使用して文字データを解析し、重要ポイントを抽出する。
入力:ステップ2で得られた文字データ
出力:重要ポイントが特定されたリスト
具体的な動作:サーバは文字データを読み込み、自然言語解析技術を使用して解析する。自然言語解析ライブラリ(例:一般的な解析ライブラリ)を利用して、文字データからキーワードや重要文を抽出する。抽出された重要ポイントはリストとして保存される。
ステップ4:
サーバが抽出された重要ポイントに基づいて要約バージョンの動画を生成する。
入力:ステップ3で得られた重要ポイントのリスト
出力:要約バージョンの動画ファイル
具体的な動作:サーバは重要ポイントが含まれる動画部分を抜き出し、動画編集ライブラリ(例:一般的な動画編集ソフトウェア)を使用して要約バージョンを編集・生成する。具体的な動作としては、重要ポイントが話されている部分の動画クリップを抽出し、それらを結合することで要約バージョンの動画を作成する。
ステップ5:
サーバがフルバージョンおよび要約バージョンの動画を配信媒体にアップロードし、ユーザに通知する。
入力:ステップ4で生成された要約バージョンの動画、および元のフルバージョンの動画
出力:視聴URLが含まれた通知メール
具体的な動作:サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを一般的な動画配信プラットフォームにアップロードする。配信プラットフォームは視聴用のURLを生成するので、サーバはこのURLを含む通知メールをユーザに送信する。
以上のステップを実行することで、ユーザは効率的に動画の内容を確認することができるようになる。
(応用例1)
次に、応用例1について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。
近年、ビデオ会議やセミナーの録画が一般的になったが、長時間の動画から重要な情報だけを効率的に取得する手段が求められている。特に、スマートフォンやその他の携帯端末から手軽にアクセスできる形で要約情報を提供することが重要である。従来の手法では、フルバージョンの動画を視聴しながら重要な部分を自ら探す必要があり、時間と労力がかかるという課題があった。
応用例1におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
この発明では、サーバは、動画ファイルを収集し、サーバにアップロードする手段と、音声認識技術を用いて動画の音声データをテキストデータに変換する手段と、自然言語処理技術を用いてテキストデータから重要ポイントを抽出する手段と、を含む。これにより、動画から重要な部分を効率的に抽出し、スマートフォンに適した要約バージョンを生成・提供することが可能となる。
「動画ファイル」とは、情報を視覚および聴覚的に記録し、再生可能なデジタルデータ形式のファイルである。
「サーバ」とは、ネットワーク上でデータを処理および管理し、他のデバイスにサービスを提供するコンピュータシステムである。
「音声認識技術」とは、音声をテキストに変換するための技術である。
「テキストデータ」とは、文字や記号によって表現された情報の集合である。
「自然言語処理技術」とは、自然言語を理解し、解析、および生成するための技術である。
「重要ポイント」とは、情報の中で特に注目すべき内容や主要な内容のことである。
「要約バージョン」とは、元のコンテンツの中から重要な部分だけを抜粋し、短縮した形式のコンテンツである。
「配信プラットフォーム」とは、デジタルコンテンツをユーザに配信するためのオンラインサービスである。
「視聴URL」とは、インターネット上で特定のコンテンツにアクセスして視聴するためのウェブアドレスである。
「スマートフォン」とは、携帯電話機能に加えて、コンピュータのような多機能を持つ携帯デバイスである。
「アプリケーション」とは、特定の機能や役割を持つソフトウェアプログラムである。
「効率的」とは、最小限の資源や時間で最大の成果を上げることができる状態を示す。
「コンテンツ」とは、情報やメディアの中身や内容のことである。
発明を実施するための形態を具体的に示すために、本発明に基づいたシステムの全体的な処理を以下に説明する。このシステムは、動画ファイルの収集、音声データのテキストデータへの変換、重要ポイントの抽出、動画の要約生成および配信を行うものである。
まず、ユーザはスマートフォンを使用して製品説明会やセミナーの録画を行う。録画が完了したら、ユーザはこの動画ファイルをサーバにアップロードする。サーバは、アップロードされた動画ファイルを指定のフォルダに保存する。次に、サーバは音声認識技術を使用して動画の音声データをテキストデータに変換する。この際、Google Cloud Speech-to-Text APIを利用することが考えられる。音声認識の結果、動画内の全ての音声がテキスト形式で保存される。
続いて、サーバは自然言語処理技術を用いて生成されたテキストデータを解析する。具体的には、自然言語処理ライブラリ(例:SpaCy)を使用してテキストデータからキーワードや重要な文章を抽出する。解析の結果、動画の中で特に重要とされる情報がリストアップされる。リストアップされた重要ポイントに基づき、サーバは動画の要約バージョンを編集・生成する。この処理は、動画編集ライブラリ(例:FFmpeg)を利用して実施される。重要ポイントが映っている部分のみを抜き出し、これらを結合することで要約バージョンの動画を作成する。
編集が完了した後、サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードする。例えば、YouTubeやVimeoなどの動画配信サービスにアップロードすることが可能である。配信プラットフォームは視聴用のURLを生成し、サーバはこのURLをユーザにメールなどで通知する。これにより、ユーザはフルバージョンの動画を視聴して詳細な情報を取得することや、短時間で重要な情報を把握するために要約バージョンの動画を視聴することができる。
さらに、このシステムはスマートフォンにインストールされるアプリケーションとしても動作する。このアプリケーションを利用することで、ユーザは録画や動画のアップロード、重要ポイントの抽出、要約動画の生成、URLの取得までの一連の流れをスマートフォン上で簡単に操作することができる。
具体例として、30分間のセミナー動画がある場合、それを効率的に10秒ずつの要約ポイントに分割し、ユーザが短時間で重要な情報を取得できるようにするアプリケーションが挙げられる。
プロンプト文の例:
「セミナー動画を30分間録画しました。重要な部分を選別し、10秒ごとに要約を作成してください。」
このシステムにより、ユーザは効率的かつ効果的に重要な情報を取得でき、時間と労力を大幅に節約することが可能となる。
応用例1における特定処理の流れについて図12を用いて説明する。
ステップ1:
ユーザはスマートフォンを使用して製品説明会やセミナーの録画を行う。録画が完了したら、この動画ファイルをサーバにアップロードする。入力は録画された動画ファイルであり、出力はサーバに保存された動画ファイルである。具体的には、ユーザはアプリケーションを起動し、録画ボタンを押して動画を撮影する。その後、録画終了後に表示されるアップロードボタンを押して動画をサーバに送信する。
ステップ2:
サーバはアップロードされた動画ファイルを指定のフォルダに保存する。入力はユーザからアップロードされた動画ファイルであり、出力は指定フォルダに保存された動画ファイルである。サーバは受信した動画ファイルを一時フォルダに保存し、ファイル名を一意に設定して指定の保存先に移動する。
ステップ3:
サーバは音声認識技術を使用して動画の音声データをテキストデータに変換する。この際、Google Cloud Speech-to-Text APIを使用する。入力は保存された動画ファイルであり、出力は音声データから生成されたテキストデータである。具体的には、サーバは動画ファイルから音声トラックを抽出し、Google Cloud Speech-to-Text APIに音声データを送信してテキストに変換する。
ステップ4:
サーバは自然言語処理技術を用いて生成されたテキストデータを解析する。具体的には、自然言語処理ライブラリ(例:SpaCy)を使用してテキストデータからキーワードや重要な文章を抽出する。入力は前ステップで生成されたテキストデータであり、出力は抽出されたキーワードと重要な文章である。サーバはテキストデータを自然言語処理エンジンに送り、解析の結果として重要な文やキーワードのリストを生成する。
ステップ5:
サーバはリストアップされた重要ポイントに基づいて動画の要約バージョンを編集・生成する。この処理は、動画編集ライブラリ(例:FFmpeg)を利用して実施される。入力は重要ポイントのリストと元の動画ファイルであり、出力は要約バージョンの動画ファイルである。サーバは重要ポイントが出現する時間範囲を特定し、その部分を抽出して連結し、要約バージョンを生成する。
ステップ6:
サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードする。例えば、YouTubeやVimeoなどの動画配信サービスにアップロードすることが可能である。入力は生成されたフルバージョンと要約バージョンの動画ファイルであり、出力はそれぞれの視聴URLである。サーバは配信プラットフォームのAPIを使用して動画ファイルをアップロードし、視聴URLを取得する。
ステップ7:
サーバは配信プラットフォームが生成した視聴用のURLをユーザにメールなどで通知する。入力は視聴URLであり、出力はユーザへの通知である。具体的には、サーバはURLを含むメールを自動生成し、ユーザの登録メールアドレスに送信する。
このシステムにより、ユーザはフルバージョンの動画を視聴して詳細な情報を取得することや、短時間で重要な情報を把握するために要約バージョンの動画を視聴することができる。
なお、更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部290は、感情特定モデル59を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。
本発明は、製品説明会やセミナーの録画動画を効率的に要約し、フルバージョンと要約バージョンの両方を提供するシステムである。また、ユーザの感情を認識する感情エンジンを組み合わせることで、動画の重要ポイントの抽出および要約をさらに高度に行う。本発明のシステムは、コンピュータプログラムに基づいて動作する一連のプロセスを含む。以下に、プログラムの処理を自然言語で詳述する。
ユーザは製品説明会やセミナーの様子をビデオカメラやスマートフォンで収録する。その後、ユーザは録画した動画ファイルをサーバにアップロードする。サーバはこの動画ファイルを受信し、指定のフォルダに保存する。
次に、サーバは動画の音声データを解析するために、音声認識技術を使用する。具体的には、音声認識エンジン(例:Google Cloud Speech-to-Text API)を動作させ、音声データをテキストデータに変換する。この変換されたテキストデータは、サーバに保存される。
次に、サーバは感情エンジンを使用して、動画の音声データからユーザの感情を分析する。感情エンジンは、ユーザの音声トーンやテンポ、イントネーションなどを解析し、感情情報をテキストデータに付加する。例えば、テキストデータの各部分に「興奮」「安心」「疑問」などの感情タグを付ける。
その後、サーバは自然言語処理技術(例:SpaCyライブラリ)を使用してテキストデータを解析する。感情エンジンによって付加された感情タグを基に、テキストデータからキーワードや重要文を抽出する。このプロセスにより、動画の中で特に重要であり、視聴者にとって感情的にインパクトのある情報がリスト化される。抽出された重要ポイントは、感情情報を考慮して優先順位付けされる。
リストアップされた重要ポイントに基づいて、サーバは要約バージョンの動画を編集・生成する。サーバは動画編集ライブラリ(例:FFmpeg)を利用し、重要ポイントが映っている部分だけを抜き出して結合することで要約バージョンの動画を作成する。一方で、フルバージョンの動画は元の動画ファイルをそのまま使用する。
編集が完了した後、サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードする。例として、YouTubeやVimeoなどの動画配信サービスにアップロードすることが可能である。アップロードが完了すると、配信プラットフォームは視聴用のURLを生成し、サーバはこのURLをユーザにメールなどで通知する。
このプロセスにより、ユーザはフルバージョンの動画を視聴して詳細な情報を得ることもでき、要約バージョンの動画を視聴して短時間で重要な情報を把握することが可能である。また、感情エンジンの使用により、視聴者の感情的な反応に基づいた重要な情報を効率的に取得できるようになる。このシステムにより、ユーザは情報取得の効率を大幅に向上させ、製品説明会やセミナーの内容をより効果的に活用することができる。
以下に、処理の流れについて説明する。
ステップ1:
ユーザが動画を収集する。ユーザは製品説明会やセミナーをビデオカメラやスマートフォンで撮影し、動画ファイルを生成する。
ステップ2:
ユーザが動画をサーバにアップロードする。ユーザは自身の端末からサーバにアクセスし、収集した動画ファイルを選択してアップロードポータルに送信する。
ステップ3:
サーバが動画ファイルを受信する。サーバはアップロードされた動画ファイルを指定のディレクトリ(例:「uploads」フォルダ)に保存する。
ステップ4:
サーバが音声認識を行う。サーバは音声認識エンジン(例:Google Cloud Speech-to-Text API)を起動し、動画の音声データをテキストデータに変換する。
ステップ5:
サーバが変換されたテキストデータを保存する。サーバは生成されたテキストデータを指定のフォルダに保存する。
ステップ6:
サーバが感情エンジンを使用して音声データを解析し、感情情報を抽出する。感情エンジンはユーザの音声トーンやテンポ、イントネーションを解析し、テキストデータに感情タグを付加する。
ステップ7:
サーバが感情情報を付加したテキストデータを自然言語処理技術を用いて解析する。サーバは自然言語処理ライブラリ(例:SpaCy)を利用し、テキストデータからキーワードや重要文を抽出する。
ステップ8:
サーバが抽出されたキーワードや重要文を基に重要ポイントをリストアップし、感情情報に基づいて優先順位付けする。
ステップ9:
サーバが要約バージョンの動画を編集・生成する。サーバは動画編集ライブラリ(例:FFmpeg)を用いて、重要ポイントが表示されるシーンのみを抽出・結合して要約バージョンの動画を作成する。
ステップ10:
サーバがフルバージョンの動画を保存する。サーバは元の動画ファイルをそのまま指定のフォルダ(例:「full_videos」フォルダ)に保存する。
ステップ11:
サーバが要約バージョンの動画を保存する。サーバは編集された要約バージョンの動画ファイルを指定のフォルダ(例:「summary_videos」フォルダ)に保存する。
ステップ12:
サーバが動画ファイルを配信準備する。サーバはフルバージョンおよび要約バージョンの動画ファイルを動画配信プラットフォーム(例:YouTubeやVimeo)にアップロードする。
ステップ13:
サーバが視聴URLを生成し、ユーザに通知する。サーバは配信プラットフォームから取得した視聴URLをユーザのメールアドレスへ送信し、視聴リンクを提供する。
(実施例2)
次に、実施例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。
近年、製品説明会やセミナーの録画内容を効率的に要約し、フルバージョンと要約バージョンの両方を提供するニーズが高まっている。しかし、これまでの技術では、録画動画の音声データを単にテキストに変換するだけで、感情情報を考慮した効率的な要約が困難であった。その結果、動画の重要ポイントを正確に抽出できず、視聴者にとって有用な情報提供が難しいという課題があった。
実施例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
この発明では、サーバは、動画ファイルを収集し、サーバにアップロードする手段と、音声認識技術を用いて動画の音声データをテキストデータに変換する手段と、感情解析技術を使用して音声データから感情情報を抽出し、テキストデータに付加する手段と、自然言語処理技術を用いてテキストデータから重要ポイントを抽出する手段と、抽出された重要ポイントに基づいて動画から要約バージョンを編集・生成する手段と、フルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードし、視聴URLをユーザに通知する手段とを含む。これにより、動画内の重要で感情的にインパクトのある部分を効率的に抽出し、要約することが可能となる。
「動画ファイル」とは、ビデオカメラやスマートフォンなどの撮影装置によって収録された映像および音声を含むデジタルデータである。
「サーバ」とは、ネットワークを通じてデータの保存、処理、および配信を行うためのコンピュータシステムである。
「音声認識技術」とは、音声データを解析し、その内容をテキストデータに変換する技術である。
「感情解析技術」とは、音声やテキストデータを解析し、一定のアルゴリズムに基づいて感情情報を抽出する技術である。
「自然言語処理技術」とは、人間の言語をコンピュータで処理・理解するための一連の技術であり、テキストデータからキーワードや重要文を抽出することができる。
「テキストデータ」とは、文字列として表現されたデジタル情報であり、音声認識技術によって音声データから変換されたものである。
「重要ポイント」とは、動画やテキストデータの中で視聴者やユーザにとって特に有益または重要と判断された部分である。
「要約バージョン」とは、動画ファイルの内容を簡略化し、重要ポイントのみを含む短縮された動画である。
「フルバージョン」とは、元の動画ファイルをそのまま使用した、全体の内容を含む完全な動画である。
「配信プラットフォーム」とは、インターネットを通じて動画ファイルを視聴者に配信するためのオンラインサービスである。
「視聴URL」とは、視聴者がウェブブラウザなどを通じて動画を再生する際に使用するリンクである。
本発明は、製品説明会やセミナーの録画動画を効率的に要約し、フルバージョンと要約バージョンの両方を提供するシステムである。さらに、ユーザの感情を認識する感情エンジンを組み合わせることで、動画の重要ポイントの抽出および要約を高度に行うことを特徴とする。
本システムは、以下のような手順で動作する。まず、ユーザは製品説明会やセミナーの様子をビデオカメラやスマートフォンで録画する。その後、ユーザは録画した動画ファイルをサーバにアップロードするためのウェブインターフェースを使用する。サーバは動画ファイルを受信し、指定のフォルダに保存する。
次に、サーバは音声認識技術を使用して動画の音声データをテキストデータに変換する。具体的には、音声認識エンジンとしてGoogle Cloud Speech-to-Text APIを使用する。このAPIにより、音声データを高精度でテキストデータに変換することができる。変換されたテキストデータは、サーバに保存される。
次に、サーバは感情エンジンを使用して、動画の音声データからユーザの感情を分析する。感情エンジンは、ユーザの音声トーンやテンポ、イントネーションなどを解析し、感情情報をテキストデータに付加する。例えば、テキストデータの各部分に「興奮」「安心」「疑問」などの感情タグを付ける。
その後、サーバは自然言語処理技術を使用してテキストデータを解析する。具体的には、自然言語処理ライブラリとしてSpaCyを使用する。このライブラリを用いて、感情エンジンによって付加された感情タグを基にテキストデータからキーワードや重要文を抽出する。この処理により、動画の中で特に重要であり、視聴者にとって感情的にインパクトのある情報がリスト化される。さらに、抽出された重要ポイントは感情情報を考慮して優先順位付けされる。
リストアップされた重要ポイントに基づいて、サーバは要約バージョンの動画を編集・生成する。具体的には、動画編集ライブラリとしてFFmpegを利用する。重要ポイントが映っている部分だけを抜き出し、結合することで要約バージョンの動画を作成する。一方で、フルバージョンの動画は元の動画ファイルをそのまま使用する。
編集が完了した後、サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを動画配信プラットフォームにアップロードする。例として、YouTubeやVimeoなどの動画配信サービスにアップロードすることが可能である。アップロードが完了すると、配信プラットフォームは視聴用のURLを生成し、サーバはこのURLをユーザにメールなどで通知する。
具体例
例えば、ユーザが製品説明会の録画動画をサーバにアップロードしたとする。サーバは動画を受信し、Google Cloud Speech-to-Text APIを使用して音声データをテキストデータに変換する。その後、感情エンジンで音声データから感情情報を抽出し、「新商品紹介」の部分に「興奮」タグを付ける。次に、サーバはSpaCyライブラリを使用して重要ポイントを抽出し、FFmpegで要約バージョンの動画を編集・生成する。最終的に、生成された動画をYouTubeにアップロードし、視聴用URLをユーザのメールアドレスに通知する。
プロンプト文の例
ユーザは製品説明会の録画動画をサーバにアップロードします。サーバはGoogle Cloud Speech-to-Text APIを使用して音声データをテキスト化し、感情エンジンで感情タグを付加します。これを基に自然言語処理技術(SpaCy)を用いてキーワードや重要文を抽出し、FFmpegで要約バージョンの動画を生成します。最終的に、生成された動画をYouTubeにアップロードし、ユーザに視聴URLを通知します。
実施例2における特定処理の流れについて図13を用いて説明する。
ステップ1:
ユーザはビデオカメラやスマートフォンで製品説明会やセミナーの様子を録画する。録画終了後、ユーザは録画した動画ファイルをブラウザのファイルアップロード機能を使用してサーバにアップロードする。
入力:録画された動画ファイル
出力:サーバにファイルがアップロードされる
具体的な動作:ユーザがブラウザでウェブページを開き、アップロードボタンをクリックして、録画した動画ファイルを選択し、「アップロード」ボタンを押す。
ステップ2:
サーバはアップロードされた動画ファイルを受信し、指定のフォルダに保存する。
入力:アップロードされた動画ファイル
出力:サーバの指定フォルダに保存された動画ファイル
具体的な動作:サーバ側のスクリプトがHTTP POSTリクエストを受け取り、動画ファイルをストレージに保存する。
ステップ3:
サーバは、Google Cloud Speech-to-Text APIを使用し、保存された動画ファイルの音声データをテキストデータに変換する。
入力:動画ファイルの音声データ
出力:テキストデータ
具体的な動作:サーバが音声データを抽出し、Google Cloud Speech-to-Text APIに送信してテキストに変換し、その結果を保存する。
ステップ4:
サーバは感情解析技術を使用し、音声データからユーザの感情を分析してテキストデータに感情情報を付加する。
入力:テキストデータおよび音声データ
出力:感情タグが付加されたテキストデータ
具体的な動作:感情解析アルゴリズムを適用し、音声のトーン、テンポ、イントネーションから感情情報を抽出、それをテキストに付加して保存する。
ステップ5:
サーバは、SpaCyを利用して、感情情報が追加されたテキストデータを解析し、重要ポイントを抽出する。
入力:感情タグが付加されたテキストデータ
出力:重要ポイントのリスト
具体的な動作:SpaCyライブラリを使用してテキストデータをトークン化し、感情タグを基にキーワードや重要文を抽出してリスト化する。
ステップ6:
サーバは、FFmpegを使用して、重要ポイントに基づいて要約バージョンの動画を編集・生成する。
入力:重要ポイントのリストおよび動画ファイル
出力:要約バージョンの動画ファイル
具体的な動作:FFmpegライブラリを使用して元の動画ファイルから重要ポイントが含まれる部分を抜き出し、これを結合して要約動画を生成する。
ステップ7:
サーバは、フルバージョンおよび要約バージョンの動画ファイルをYouTubeやVimeoにアップロードし、視聴URLを生成する。
入力:フルバージョンおよび要約バージョンの動画ファイル
出力:視聴URL
具体的な動作:YouTube APIやVimeo APIを使用して動画ファイルをアップロードし、視聴用URLを取得する。
ステップ8:
サーバは、生成された視聴URLをユーザに通知する。
入力:視聴URLおよびユーザのメールアドレス
出力:通知メール
具体的な動作:メールサーバを通じてユーザのメールアドレスにURLを含む通知メールを送信する。
(応用例2)
次に、応用例2について説明する。以下の説明では、データ処理装置12を「サーバ」と称し、ロボット414を「端末」と称する。
現在、多くの製品説明会やセミナーは長時間にわたり、多量の情報が含まれている。そのため、視聴者は全ての内容を短時間で効果的に把握することが難しい。また、動画の重要なポイントを抽出する際に、視聴者の感情的な反応を反映させることができず、情報の優先順位付けが効果的に行われないという課題がある。従来の動画要約システムは、視覚的情報を最適に活用できていないため、視聴者にとって最も重要な部分を簡潔に伝えることが困難である。
応用例2におけるデータ処理装置12の特定処理部290による特定処理を、以下の各手段により実現する。
この発明では、サーバは、動画ファイルを収集し、サーバにアップロードする手段と、音声認識技術を用いて動画の音声データをテキストデータに変換する手段と、自然言語処理技術を用いてテキストデータから重要ポイントを抽出する手段と、抽出された重要ポイントに基づいて動画から要約バージョンを編集・生成する手段と、フルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードし、視聴URLをユーザに通知する手段と、感情分析技術を用いて音声データから感情情報を抽出し、それを用いて重要ポイントの優先順位を付ける手段と、ユーザーインターフェースを通じて視聴者に感情情報を可視化し、要約動画を提示する手段とを含む。これにより、視聴者は短時間で重要な情報を把握することが可能となり、感情的な反応に基づいた最も重要なポイントを効率的に視覚化し、情報の優先順位付けが可能となる。
1. 「動画ファイル」とは、ビデオカメラやスマートフォンなどのデバイスを用いて撮影された映像と音声が一体となったデータである。
2. 「サーバ」とは、ネットワークを通じてデータの保存や処理を行うためのコンピュータシステムである。
3. 「音声認識技術」とは、音声を解析してテキストデータに変換する技術である。
4. 「テキストデータ」とは、音声認識技術により変換された文章形式のデータである。
5. 「自然言語処理技術」とは、テキストデータを解析し、キーワードや重要文を抽出する技術である。
6. 「重要ポイント」とは、動画やテキストデータの中で特に重要とされる情報の部分である。
7. 「要約バージョン」とは、フルバージョンの動画から重要な部分のみを抽出して編集・生成された短縮版の動画である。
8. 「フルバージョン」とは、元の動画ファイル全体を指す。
9. 「配信プラットフォーム」とは、インターネットを通じて動画を視聴できるサービスである。
10. 「視聴URL」とは、インターネット上で動画を視聴するためのウェブアドレスである。
11. 「感情分析技術」とは、音声データから感情情報を抽出する技術である。
12. 「感情情報」とは、音声のトーンやテンポなどを解析して得られる感情のデータである。
13. 「ユーザーインターフェース」とは、視聴者が感情情報や動画を操作・閲覧するためのソフトウェアのインタラクション部分である。
14. 「可視化」とは、抽出された感情情報を視聴者にわかりやすく表示するプロセスである。
この発明では、ユーザが製品説明会やセミナーの動画ファイルを端末で収集し、サーバにアップロードする。サーバはネットワークを通じて動画ファイルを受信し、指定されたフォルダに保存する。使用する端末には、ビデオカメラやスマートフォンなどが含まれるが、スマートフォンが一般的である。
次に、サーバは音声認識技術を用いて動画の音声データをテキストデータに変換する。この目的のために、Google Cloud Speech-to-Text APIなどの音声認識エンジンを使用する。音声データは音声認識エンジンによってテキストに変換され、そのテキストデータはサーバに保存される。
その後、サーバは自然言語処理技術を用いてテキストデータを解析し、重要ポイントを抽出する。具体的には、SpaCyライブラリのような自然言語処理ライブラリを使用して、テキストデータからキーワードや重要文を抽出する。この段階で、感情分析技術も使用する。感情分析技術により、音声のトーンやテンポ、イントネーションなどから感情情報を取得し、それをテキストデータに付加する。これにより、感情情報を基に重要ポイントの優先順位を付けることができる。
サーバは、抽出された重要ポイントのリストに基づいて、動画の要約バージョンを編集・生成する。このプロセスでは、FFmpegなどの動画編集ライブラリを使用して、重要ポイントが含まれる部分を抜き出し、結合することで要約バージョンの動画を作成する。一方、フルバージョンの動画は、元の動画ファイル全体である。
編集が完了すると、サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードする。例えば、YouTubeやVimeoといった動画配信サービスにアップロードし、配信プラットフォームは視聴用のURLを生成する。サーバはこのURLをユーザに通知し、ユーザはそのURLをクリックすることで、フルバージョンまたは要約バージョンの動画を視聴することができる。
ここで、具体例として、ユーザが製品説明会の動画をスマートフォンで録画し、このアプリを通じてアップロードすると、アプリは数分で動画を処理し、要約版の動画および感情分析結果を返す。例えば、「重要な情報は12:34に開始し、15:00に終了します」といった通知が来る。
生成AIモデルへ入力するプロンプト文の例として、次のようなものがある。「下記の音声データを日本語のテキストに変換し、感情分析を行い、重要なキーワードを抽出して動画の要約を生成してください。」
応用例2における特定処理の流れについて図14を用いて説明する。
ステップ1:
ユーザは端末(スマートフォンやビデオカメラ)で製品説明会やセミナーの動画を収録する。収録された動画ファイルは端末に保存される。入力としては録画デバイスから動画ファイルを取得し、出力として端末に保存された動画ファイルが得られる。
ステップ2:
ユーザは動画ファイルを端末からサーバへアップロードする。ユーザインターフェースを通じて動画ファイルを選択し、アップロードボタンを押すことで動画がサーバに送信される。入力は端末に保存された動画ファイルで、出力はサーバに保存された動画ファイルである。
ステップ3:
サーバは音声認識技術を用いて、動画ファイルの音声データをテキストデータに変換する。具体的には、Google Cloud Speech-to-Text APIを使用して、音声データをクラウドに送信し、テキストデータを受信してサーバに保存する。入力は動画ファイルの音声データ、出力は音声から変換されたテキストデータである。
ステップ4:
サーバは感情分析技術を用いて音声データから感情情報を抽出する。この処理には感情エンジンが使用され、音声のトーン、テンポ、イントネーションなどを解析して感情タグをテキストデータに付加する。入力は音声データ、出力は感情タグが付加されたテキストデータである。
ステップ5:
サーバは自然言語処理技術を用いて、テキストデータから重要ポイントを抽出する。これにはSpaCyライブラリなどが使用され、感情タグを基に重要なキーワードや重要文をリストアップする。入力は感情タグ付きのテキストデータ、出力はリスト化された重要ポイントである。
ステップ6:
サーバは抽出された重要ポイントに基づいて、動画の要約バージョンを編集・生成する。FFmpegなどの動画編集ライブラリを使用し、重要ポイントが映っている部分を抜き出して結合することで要約動画を生成する。入力は動画ファイルと重要ポイントのリスト、出力は要約バージョンの動画ファイルである。
ステップ7:
サーバは生成されたフルバージョンおよび要約バージョンの動画ファイルを配信プラットフォーム(例えばYouTubeやVimeo)にアップロードする。それぞれのプラットフォームは視聴用のURLを生成し、サーバはこのURLをユーザにメールで通知する。入力は動画ファイル、出力は配信プラットフォーム上の視聴URLである。
ステップ8:
ユーザは通知されたURLをクリックし、ブラウザやアプリケーションを通じてフルバージョンまたは要約バージョンの動画を視聴することにより、短時間で重要な情報を把握する。入力は視聴URL、出力は再生される動画である。
特定処理部290は、特定処理の結果をロボット414に送信する。ロボット414では、制御部46Aが、スピーカ240及び制御対象443に対して特定処理の結果を出力させる。マイクロフォン238は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン238によって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。
データ生成モデル58は、いわゆる生成系AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(インターネット検索<URL: https://openai.com/blog/chatgpt>)、Gemini(インターネット検索<URL: https://gemini.google.com/?hl=ja>)等の生成AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。
上記実施形態では、データ処理装置12によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、ロボット414によって特定処理が行われるようにしてもよい。
なお、感情エンジンとしての感情特定モデル59は、特定のマッピングに従い、ユーザの感情を決定してよい。具体的には、感情特定モデル59は、特定のマッピングである感情マップ(図9参照)に従い、ユーザの感情を決定してよい。また、感情特定モデル59は、同様に、ロボットの感情を決定し、特定処理部290は、ロボットの感情を用いた特定処理を行うようにしてもよい。
図9は、複数の感情がマッピングされる感情マップ400を示す図である。感情マップ400において、感情は、中心から放射状に同心円に配置されている。同心円の中心に近いほど、原始的状態の感情が配置されている。同心円のより外側には、心境から生まれる状態や行動を表す感情が配置されている。感情とは、情動や心的状態も含む概念である。同心円の左側には、概して脳内で起きる反応から生成される感情が配置されている。同心円の右側には概して、状況判断で誘導される感情が配置されている。同心円の上方向及び下方向には、概して脳内で起きる反応から生成され、かつ、状況判断で誘導される感情が配置されている。また、同心円の上側には、「快」の感情が配置され、下側には、「不快」の感情が配置されている。このように、感情マップ400では、感情が生まれる構造に基づいて複数の感情がマッピングされており、同時に生じやすい感情が、近くにマッピングされている。
これらの感情は、感情マップ400の3時の方向に分布しており、普段は安心と不安のあたりを行き来する。感情マップ400の右半分では、内部的な感覚よりも状況認識の方が優位に立つため、落ち着いた印象になる。
感情マップ400の内側は心の中、感情マップ400の外側は行動を表すため、感情マップ400の外側に行くほど、感情が目に見える(行動に表れる)ようになる。
ここで、人の感情は、姿勢や血糖値のような様々なバランスを基礎としており、それらのバランスが理想から遠ざかると不快、理想に近づくと快という状態を示す。ロボットや自動車やバイク等においても、姿勢やバッテリー残量のような様々なバランスを基礎として、それらのバランスが理想から遠ざかると不快、理想に近づくと快という状態を示すように感情を作ることができる。感情マップは、例えば、光吉博士の感情地図(音声感情認識及び情動の脳生理信号分析システムに関する研究、徳島大学、博士論文:https://ci.nii.ac.jp/naid/500000375379)に基づいて生成されてよい。感情地図の左半分には、感覚が優位にたつ「反応」と呼ばれる領域に属する感情が並ぶ。また、感情地図の右半分には、状況認識が優位にたつ「状況」と呼ばれる領域に属する感情が並ぶ。
感情マップでは学習を促す感情が2つ定義される。1つは、状況側にあるネガティブな「懺悔」や「反省」の真ん中周辺の感情である。つまり、「もう2度とこんな想いはしたくない」「もう叱られたくない」というネガティブな感情がロボットに生じたときである。もう1つは、反応側にあるポジティブな「欲」のあたりの感情である。つまり、「もっと欲しい」「もっと知りたい」というポジティブな気持ちのときである。
感情特定モデル59は、ユーザ入力を、予め学習されたニューラルネットワークに入力し、感情マップ400に示す各感情を示す感情値を取得し、ユーザの感情を決定する。このニューラルネットワークは、ユーザ入力と、感情マップ400に示す各感情を示す感情値との組み合わせである複数の学習データに基づいて予め学習されたものである。また、このニューラルネットワークは、図10に示す感情マップ900のように、近くに配置されている感情同士は、近い値を持つように学習される。図10では、「安心」、「安穏」、「心強い」という複数の感情が、近い感情値となる例を示している。
以上、本開示に係るシステムをデータ処理装置12の機能を主として説明したが、本開示に係るシステムはサーバに実装されているとは限らない。本開示に係るシステムは、一般的な情報処理システムとして実装されていてもよい。本開示は、例えば、パーソナルコンピュータで動作するソフトウェアプログラム、スマートフォン等で動作するアプリケーションとして実装されてもよい。本開示に係る方法はSaaS(Software as a Service)形式でユーザに対して提供されてもよい。
上記実施形態では、1台のコンピュータ22によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、コンピュータ22を含めた複数のコンピュータによる特定処理に対する分散処理が行われるようにしてもよい。例えば、データ生成モデル58が、データ処理装置12の外部装置に設けられ、当該外部装置において、入力データに応じたデータの生成を行うようにしてもよい。
上記実施形態では、ストレージ32に特定処理プログラム56が格納されている形態例を挙げて説明したが、本開示の技術はこれに限定されない。例えば、特定処理プログラム56がUSB(Universal Serial Bus)メモリなどの可搬型のコンピュータ読み取り可能な非一時的格納媒体に格納されていてもよい。非一時的格納媒体に格納されている特定処理プログラム56は、データ処理装置12のコンピュータ22にインストールされる。プロセッサ28は、特定処理プログラム56に従って特定処理を実行する。
また、ネットワーク54を介してデータ処理装置12に接続されるサーバ等の格納装置に特定処理プログラム56を格納させておき、データ処理装置12の要求に応じて特定処理プログラム56がダウンロードされ、コンピュータ22にインストールされるようにしてもよい。
なお、ネットワーク54を介してデータ処理装置12に接続されるサーバ等の格納装置に特定処理プログラム56の全てを格納させておいたり、ストレージ32に特定処理プログラム56の全てを記憶させたりしておく必要はなく、特定処理プログラム56の一部を格納させておいてもよい。
特定処理を実行するハードウェア資源としては、次に示す各種のプロセッサを用いることができる。プロセッサとしては、例えば、ソフトウェア、すなわち、プログラムを実行することで、特定処理を実行するハードウェア資源として機能する汎用的なプロセッサであるCPUが挙げられる。また、プロセッサとしては、例えば、FPGA(Field-Programmable Gate Array)、PLD(Programmable Logic Device)、又はASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路が挙げられる。何れのプロセッサにもメモリが内蔵又は接続されており、何れのプロセッサもメモリを使用することで特定処理を実行する。
特定処理を実行するハードウェア資源は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせ、又はCPUとFPGAとの組み合わせ)で構成されてもよい。また、特定処理を実行するハードウェア資源は1つのプロセッサであってもよい。
1つのプロセッサで構成する例としては、第1に、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが、特定処理を実行するハードウェア資源として機能する形態がある。第2に、SoC(System-on-a-chip)などに代表されるように、特定処理を実行する複数のハードウェア資源を含むシステム全体の機能を1つのICチップで実現するプロセッサを使用する形態がある。このように、特定処理は、ハードウェア資源として、上記各種のプロセッサの1つ以上を用いて実現される。
更に、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路を用いることができる。また、上記の特定処理はあくまでも一例である。従って、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよいことは言うまでもない。
以上に示した記載内容及び図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、及び効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、及び効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容及び図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことは言うまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容及び図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。
本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。
以上の実施形態に関し、更に以下を開示する。
(請求項1)
動画ファイルを収集し、サーバにアップロードする手段と、
音声認識技術を用いて動画の音声データをテキストデータに変換する手段と、
自然言語処理技術を用いてテキストデータから重要ポイントを抽出する手段と、
抽出された重要ポイントに基づいて動画から要約バージョンを編集・生成する手段と、
フルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードし、視聴URLをユーザに通知する手段とを含むシステム。
(請求項2)
音声データからテキストデータに変換する音声認識技術が音声認識エンジンを使用するものである請求項1記載のシステム。
(請求項3)
自然言語処理技術がテキストデータからキーワードや重要文を抽出する自然言語処理ライブラリを使用するものである請求項1記載のシステム。
「実施例1」
(請求項1)
動画データを収集し、情報処理装置にアップロードする手段と、
音響データ認識技術を使用して動画の音響データを文字データに変換する手段と、
自然言語解析技術を用いて文字データから重要ポイントを抽出する手段と、
抽出された重要ポイントに基づいて動画から要約バージョンを編集・生成する手段と、
フルバージョンおよび要約バージョンの動画データを配信媒体にアップロードし、視聴URLを利用者に通知する手段とを含むシステム。
(請求項2)
音響データから文字データに変換する音響データ認識技術が音響データ認識ユニットを使用するものである請求項1記載のシステム。
(請求項3)
自然言語解析技術が文字データからキーワードや重要文を抽出する自然言語解析ライブラリを使用するものである請求項1記載のシステム。
「応用例1」
(請求項1)
動画ファイルを収集し、サーバにアップロードする手段と、
音声認識技術を用いて動画の音声データをテキストデータに変換する手段と、
自然言語処理技術を用いてテキストデータから重要ポイントを抽出する手段と、
抽出された重要ポイントに基づいて動画から要約バージョンを編集・生成する手段と、
フルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードし、視聴URLをユーザに通知する手段と、
スマートフォンにインストールされるアプリケーションとして動作させ、効率的に要約されたコンテンツを提供する手段とを含むシステム。
(請求項2)
音声データからテキストデータに変換する音声認識技術が音声認識エンジンを使用するものである請求項1記載のシステム。
(請求項3)
自然言語処理技術がテキストデータからキーワードや重要文を抽出する自然言語処理ライブラリを使用するものである請求項1記載のシステム。
「感情エンジンを組み合わせた場合の実施例2」
(請求項1)
動画ファイルを収集し、サーバにアップロードする手段と、
音声認識技術を用いて動画の音声データをテキストデータに変換する手段と、
感情解析技術を使用して音声データから感情情報を抽出し、テキストデータに付加する手段と、
自然言語処理技術を用いてテキストデータから重要ポイントを抽出する手段と、
抽出された重要ポイントに基づいて動画から要約バージョンを編集・生成する手段と、
フルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードし、視聴URLをユーザに通知する手段とを含むシステム。
(請求項2)
音声データからテキストデータに変換する音声認識技術が音声認識エンジンを使用するものである請求項1記載のシステム。
(請求項3)
自然言語処理技術がテキストデータからキーワードや重要文を抽出する自然言語処理ライブラリを使用するものである請求項1記載のシステム。
「感情エンジンを組み合わせた場合の応用例2」
(請求項1)
動画ファイルを収集し、サーバにアップロードする手段と、
音声認識技術を用いて動画の音声データをテキストデータに変換する手段と、
自然言語処理技術を用いてテキストデータから重要ポイントを抽出する手段と、
抽出された重要ポイントに基づいて動画から要約バージョンを編集・生成する手段と、
フルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードし、視聴URLをユーザに通知する手段と、
感情分析技術を用いて音声データから感情情報を抽出し、それを用いて重要ポイントの優先順位を付ける手段と、
ユーザーインターフェースを通じて視聴者に感情情報を可視化し、要約動画を提示する手段とを含むシステム。
(請求項2)
音声データからテキストデータに変換する音声認識技術が音声認識エンジンを使用するものである請求項1記載のシステム。
(請求項3)
自然言語処理技術がテキストデータからキーワードや重要文を抽出する自然言語処理ライブラリを使用するものである請求項1記載のシステム。
10、210、310、410 データ処理システム
12 データ処理装置
14 スマートデバイス
214 スマート眼鏡
314 ヘッドセット型端末
414 ロボット
12 データ処理装置
14 スマートデバイス
214 スマート眼鏡
314 ヘッドセット型端末
414 ロボット
Claims (3)
- 動画ファイルを収集し、サーバにアップロードする手段と、
音声認識技術を用いて動画の音声データをテキストデータに変換する手段と、
自然言語処理技術を用いてテキストデータから重要ポイントを抽出する手段と、
抽出された重要ポイントに基づいて動画から要約バージョンを編集・生成する手段と、
フルバージョンおよび要約バージョンの動画ファイルを配信プラットフォームにアップロードし、視聴URLをユーザに通知する手段とを含むシステム。 - 音声データからテキストデータに変換する音声認識技術が音声認識エンジンを使用するものである請求項1記載のシステム。
- 自然言語処理技術がテキストデータからキーワードや重要文を抽出する自然言語処理ライブラリを使用するものである請求項1記載のシステム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2024144632A JP2026041237A (ja) | 2024-08-26 | 2024-08-26 | システム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2024144632A JP2026041237A (ja) | 2024-08-26 | 2024-08-26 | システム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2026041237A true JP2026041237A (ja) | 2026-03-10 |
Family
ID=99008910
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024144632A Pending JP2026041237A (ja) | 2024-08-26 | 2024-08-26 | システム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2026041237A (ja) |
-
2024
- 2024-08-26 JP JP2024144632A patent/JP2026041237A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2026041237A (ja) | システム | |
| JP2026027073A (ja) | システム | |
| JP2026018094A (ja) | システム | |
| JP2026038078A (ja) | システム | |
| JP2026017290A (ja) | システム | |
| JP2026034106A (ja) | システム | |
| JP2026028731A (ja) | システム | |
| JP2026024411A (ja) | システム | |
| JP2026028870A (ja) | システム | |
| JP2026030519A (ja) | システム | |
| JP2026029346A (ja) | システム | |
| JP2026073336A (ja) | システム | |
| JP2026022510A (ja) | システム | |
| JP2026041203A (ja) | システム | |
| JP2026019075A (ja) | システム | |
| JP2026039950A (ja) | システム | |
| JP2026036196A (ja) | システム | |
| JP2026039837A (ja) | システム | |
| JP2026014926A (ja) | システム | |
| JP2026038187A (ja) | システム | |
| JP2026021004A (ja) | システム | |
| JP2026036255A (ja) | システム | |
| JP2026023481A (ja) | システム | |
| JP2026028102A (ja) | システム | |
| JP2026027110A (ja) | システム |