JP2014146066A5

JP2014146066A5 - データ処理装置、データ処理方法及びプログラム

Info

Publication number: JP2014146066A5
Application number: JP2013012464A
Authority: JP
Filing date: 2013-01-25
Publication date: 2016-03-10
Anticipated expiration: 2033-01-25

Description

本発明は、音声データ及び動画データを処理する技術に関する。

しかしながら、従来の議事録文書への写真等の挿入は、編集者による手作業により行われており、作業効率が悪いという問題があった。また、上述の自動議事録生成システムにおいては、テキストデータは生成できるものの、話題に即した静止画等をテキストデータに対して付加することができない。

本発明はこのような問題点に鑑みなされたもので、閲覧者にとって利便性の高いデータを提示することを目的とする。

そこで、本発明は、互いに関連付けられている音声データと動画データとを処理するデータ処理装置であって、キーワードを決定する決定手段と、前記決定されたキーワードに合致する音声データを特定する特定手段と、前記特定された音声データに関連付けられている動画データの画像を提示する提示手段と、を有することを特徴とする。

本発明によれば、閲覧者にとって利便性の高いデータを提示することができる。

Claims

互いに関連付けられている音声データと動画データとを処理するデータ処理装置であって、
キーワードを決定する決定手段と、
前記決定されたキーワードに合致する音声データを特定する特定手段と、
前記特定された音声データに関連付けられている動画データの画像を提示する提示手段と、
を有することを特徴とするデータ処理装置。
前記特定された音声データの発話時刻を特定し、当該特定された発話時刻に対応する動画データの画像を抽出する抽出手段を有し、
前記提示手段は、前記抽出された画像を提示することを特徴とする請求項１に記載のデータ処理装置。
前記特定手段によって、前記決定されたキーワードに合致する音声データが複数特定された場合、前記提示手段は、前記特定された複数の音声データそれぞれに関連付けられている動画データの画像を複数提示することを特徴とする請求項１又は２に記載のデータ処理装置。
前記提示手段は、前記決定されたキーワードと前記画像とを共に提示することを特徴とする請求項１乃至３何れか１項に記載のデータ処理装置。
音声認識処理により、音声データからテキストデータを生成する音声認識手段と、
前記テキストデータにおいて、キーワードを検索するキーワード検索手段と、
前記テキストデータから検出された前記キーワードに対応する音声データの時間位置を特定する時間位置特定手段と、
前記時間位置に基づいて、動画データから静止画データを抽出する静止画データ抽出手段と、
前記テキストデータの前記キーワードに対応する位置に前記静止画データを配置した文書データを生成する文書データ生成手段と
を有することを特徴とするデータ処理装置。
前記静止画データ抽出手段は、前記動画データのうち前記時間位置に対応付けられている静止画データを抽出することを特徴とする請求項５に記載のデータ処理装置。
前記テキストデータを段落単位に分割する分割手段をさらに有し、
前記文書データ生成手段は、前記テキストデータを前記段落単位で配置し、前記静止画データを、前記キーワードが含まれる前記段落に対応する位置に配置した前記文書データを生成することを特徴とする請求項５又は６に記載のデータ処理装置。
前記段落に対応する前記動画データの時間範囲を特定する時間範囲特定手段をさらに有し、
前記静止画データ抽出手段は、前記時間範囲内において複数の前記キーワードが検出された場合に、時間経過に伴う前記動画データの画像の変化に基づいて、前記時間範囲に対応する前記動画データから前記静止画データを抽出することを特徴とする請求項７に記載のデータ処理装置。
前記分割手段は、前記テキストデータの生成元の前記音声データに基づいて、前記テキストデータを前記段落単位に分割することを特徴とする請求項７又は８に記載のデータ処理装置。
前記テキストデータの前記生成元の前記音声データの無音区間を特定する無音区間特定手段をさらに有し、
前記分割手段は、前記無音区間に対応する前記テキストデータの位置を境界位置として、前記テキストデータを前記段落単位に分割することを特徴とする請求項９に記載のデータ処理装置。
前記音声認識手段は、第１の音声データ及び第２の音声データそれぞれから第１のテキストデータ及び第２のテキストデータを生成し、
前記無音区間特定手段は、前記第１の音声データ及び前記第２の音声データそれぞれから前記無音区間を特定し、
前記分割手段は、前記第１の音声データの無音区間に対応し、且つ前記第２の音声データの無音区間に対応しない、前記第１のテキストデータの範囲を１つの段落として前記第１のテキストデータを分割することを特徴とする請求項１０に記載のデータ処理装置。
前記無音区間特定手段は、無音状態が規定時間以上継続する場合に、前記無音状態が継続する区間を前記無音区間として特定することを特徴とする請求項１０又は１１に記載のデータ処理装置。
前記音声データと前記動画データとに関連する文書データを記憶する記憶手段と、
前記文書データに基づいて前記キーワードを決定するキーワード決定手段と
をさらに有し、
前記キーワード検索手段は、前記キーワード決定手段により決定された前記キーワードを検索することを特徴とする請求項５乃至１２何れか１項に記載のデータ処理装置。
互いに関連付けられている音声データと動画データとを処理するデータ処理方法であって、
キーワードを決定する決定ステップと、
前記決定されたキーワードに合致する音声データを特定する特定ステップと、
前記特定された音声データに関連付けられている動画データの画像を提示する提示ステップと、
を含むことを特徴とするデータ処理方法。
前記特定された音声データの発話時刻を特定し、当該特定された発話時刻に対応する動画データの画像を抽出する抽出ステップを含み、
前記提示ステップは、前記抽出された画像を提示することを特徴とする請求項１４に記載のデータ処理方法。
前記特定ステップによって、前記決定されたキーワードに合致する音声データが複数特定された場合、前記提示ステップは、前記特定された複数の音声データそれぞれに関連付けられている動画データの画像を複数提示することを特徴とする請求項１４又は１５に記載のデータ処理方法。
前記提示ステップは、前記決定されたキーワードと前記画像とを共に提示することを特徴とする請求項１４乃至１６の何れか１項に記載のデータ処理方法。
データ処理方法であって、
音声認識処理により、音声データからテキストデータを生成する音声認識ステップと、前記テキストデータにおいて、キーワードを検索するキーワード検索ステップと、
前記テキストデータから検出された前記キーワードに対応する音声データの時間位置を特定する時間位置特定ステップと、
前記時間位置に基づいて、動画データから静止画データを抽出する静止画データ抽出ステップと、
前記テキストデータの前記キーワードに対応する位置に前記静止画データを配置した文書データを生成する文書データ生成ステップと、
を含むことを特徴とするデータ処理方法。
コンピュータを、請求項１乃至１３何れか１項に記載の各手段として機能させるためのプログラム。