JP2014002336A

JP2014002336A - コンテンツ処理装置、コンテンツ処理方法、およびコンピュータプログラム

Info

Publication number: JP2014002336A
Application number: JP2012139421A
Authority: JP
Inventors: Takeshi Hanazawa; 健花沢; Koji Okabe; 浩司岡部
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-06-21
Filing date: 2012-06-21
Publication date: 2014-01-09

Abstract

【課題】動画コンテンツを分類し、分類したコンテンツにタグ付けする際に、高い精度で自動分類することができるコンテンツ処理装置などを提供することを１つの目的とする。
【解決手段】コンテンツ処理装置１は、コンテンツに含まれる音声データが表す音量に基づいて有音区間率を計算する有音区間率計算部３６と、前記音声データに含まれる音声を表す情報に基づいて音声区間率を計算する音声区間率計算部３８と、前記有音区間率と前記音声区間率とに基づいて、前記コンテンツを分類する分類タグを付与する分類タグ付与部４０と、を備える。
【選択図】図２

Description

本発明は、音声認識あるいは音声検出によりコンテンツを分類する技術に関する。

近年、動画コンテンツの個人的な視聴が盛んになってきている。動画コンテンツは、インターネット上でパブリックに提供されているものの他に、個人が携帯端末などで気軽に撮影した動画コンテンツも増えてきている。後者については、撮影後にインターネット上で公開する動画コンテンツもあれば、ローカルに保存して家族など限られた人間でのみ視聴することも多い。

このとき、大量に生成される動画コンテンツを効率よく検索する技術が望まれる。例えば、特許文献１では、音声信号の平均パワー、スペクトルおよびピッチ周波数に基づいて、明示的に音源名が与えられた分類ベクトルを生成し、分類ベクトルに基づいて番組カテゴリを分類する技術が開示されている。特許文献２では、コンテンツのオーディオ信号に含まれる音声区間の比率を示す音声含有率に基づいてコンテンツの処理を行う技術が開示されている。特許文献３では、有音区間と無音区間に分けられた音声信号からせりふ区間を取得し、取得したせりふ区間に基づいてコンテンツの処理を行う技術が開示されている。

特開２００１−０２４９８０特開２００８−０５８９５６再特２００５−０７４２７５

しかしながら、特許文献１に記載された手法は、明示的に音源名を与えられた分類ベクトルに基づいて音楽性、単独話者性あるいは会話性等の有無により番組カテゴリを判別する。そのため、特許文献１に記載された手法は、音声信号中に音声を含む区間および背景音等を含む区間の割合が考慮されていない。

特許文献２に記載された手法は、音声含有率のみに基づいてコンテンツの処理を行うため、音声は含まれていないが背景音等を含む区間（有音区間）が考慮されていない。

特許文献３に記載された手法は、せりふ区間のみに基づいてコンテンツの処理を行うため、特許文献２に記載された技術と同様に、背景音等を含む区間（有音区間）が考慮されていない。

本発明は、上記課題を鑑み、動画コンテンツを分類し、分類したコンテンツにタグ付けする際に、高い精度で自動分類することができるコンテンツ処理装置などを提供することを１つの目的とする。

上記目的を達成するために、本発明にかかるコンテンツ処理装置は、コンテンツに含まれる音声データが表す音量に基づいて有音区間率を計算する有音区間率計算部と、前記音声データに含まれる音声を表す情報に基づいて音声区間率を計算する音声区間率計算部と、前記有音区間率と前記音声区間率とに基づいて、前記コンテンツを分類する分類タグを付与する分類タグ付与部と、を備える。

また、上記目的を達成する本発明にかかるコンテンツ処理方法は、コンテンツに含まれる音声データが表す音量に基づいて有音区間率を計算し、前記音声データに含まれる音声を表す情報に基づいて音声区間率を計算し、前記有音区間率と前記音声区間率とに基づいて、前記コンテンツを分類する分類タグを付与する。

さらに、上記目的を達成する本発明にかかるコンピュータプログラムは、コンテンツに含まれる音声データが表す音量に基づいて有音区間率を計算する処理と、前記音声データに含まれる音声を表す情報に基づいて音声区間率を計算する処理と、前記有音区間率と前記音声区間率とに基づいて、前記コンテンツを分類する分類タグを付与する処理と、をコンピュータに実行させるコンピュータプログラム。

尚、係る同目的は、当該コンピュータプログラムを格納したコンピュータ読み取り可能な記憶媒体によっても達成されうる。

本発明のコンテンツ処理装置などによれば、動画コンテンツを分類し、分類したコンテンツにタグ付けする際に、高い精度で自動分類することができる。

本発明の第１の実施の形態にかかるコンテンツ処理装置１のハードウェア構成例を示す図である。第１の実施の形態にかかるコンテンツ処理装置１の構成例を示すブロック図である。第１の実施の形態にかかるコンテンツ処理装置１の動作を示すフローチャートである。本発明の第２の実施の形態にかかるコンテンツ処理装置２の構成例を示すブロック図である。第２の実施の形態にかかるコンテンツ処理装置２の動作を示すフローチャートである。第２の実施の形態にかかる有音区間率と音声区間率とが予め定められた範囲に含まれるかどうかにより分類タグを選択する場合に使用する分類表の一例である第２の実施の形態にかかる動画コンテンツを有音区間率と音声区間率との２軸上にプロットしたグラフである。本発明の第３の実施の形態にかかる情報処理装置３の構成例を示すブロック図である。第３の実施の形態にかかる情報処理装置３の動作を示すフローチャートである。

＜第１の実施の形態＞
はじめに、本発明の第１の実施の形態にかかるコンテンツ処理装置１について説明する。

図１は、本発明の第１の実施の形態にかかるコンテンツ処理装置１のハードウェア構成例を示す図である。図１に示すように、コンテンツ処理装置１は、ＣＰＵ１０、メモリ１２、ＨＤＤ（ハードディスクドライブ）１４、図示しないネットワークを介して通信を行う通信ＩＦ（インターフェース）１６、カメラおよびマイク等の入力装置１８、ディスプレイ等の出力装置２０、およびＣＤ（コンパクトディスク）等の記憶媒体２６を読み取り可能なリーダーライター２２を有する。これらの構成要素は、バス２４を通して互いに接続されており、互いにデータの入出力を行う。

本実施の形態にかかるコンテンツ処理装置１は、ＣＰＵ１０が、メモリ１２またはＨＤＤ１４に記憶されているコンピュータプログラム（以下、「プログラム」と称する）を実行することにより実現される。または、コンテンツ処理装置１は、ＣＰＵ１０が記憶媒体２６に記憶されているプログラムを実行することにより実現されてもよい。ＣＰＵ１０において実行するプログラムは、通信ＩＦあるいはリーダーライター２２を介して外部から取得してもよい。図１に示すコンテンツ処理装置１のハードウェア構成例は、後述する各実施の形態にも適用可能である。

ここで、本実施の形態において、コンテンツとは、少なくとも音声データを有する情報である（以下の実施の形態においても同様である）。例えば、コンテンツとは、テレビ番組のように音声データのみではなく、映像データを有する情報でもよい。

図２は、本発明の第１の実施の形態にかかるコンテンツ処理装置１の構成例を示すブロック図である。図２は、図１において例示したハードウェアを用いて実現される機能を、機能単位に表現したブロック図である。図２に示すように、第１の実施の形態にかかるコンテンツ処理装置１は、有音区間率計算部３６、音声区間率計算部３８、およびタグ付与部４０を備える。コンテンツ処理装置１の構成は、ＣＰＵ１０がメモリ１２またはＨＤＤ１４に記憶されているプログラムを実行することにより実現される。この場合、本願各実施形態を例に説明する本発明は、かかるプログラムあるいは当該プログラムが格納されたコンピュータ読み取り可能なＨＤＤ等の記憶装置あるいはＣＤ等の記憶媒体によって構成されると解釈することができる。なお、コンテンツ処理装置１の全部または一部の機能は、コンテンツ処理装置１に設けられたハードウェアにより実現されてもよい。

有音区間率計算部３６は、入力された音声データに含まれる音量を表す情報（以下、「音量情報」と称する）に基づいて有音区間率を計算する。具体的には、有音区間率計算部３６は、入力された音声データに含まれる音量情報に基づいて有音区間率を計算し、その計算の結果をタグ付与部４０に対して出力する。例えば、有音区間率計算部３６は、入力された音声データの全区間の中で、かかる音量情報が表す音量が一定以上の区間を有音区間として計算してもよい。また、有音区間率計算部３６は、入力された音声データの全区間の中で、かかる音量情報が表す音量が一定以上の区間の割合を有音区間率として計算してもよい。

音声区間率検出部３８は、音声データに含まれる音声を表す情報（以下、「音声情報」と称する）に基づいて音声区間率を計算する。具体的には、音声区間率計算部３８は、入力された音声データに含まれる音声情報に基づいて音声区間率を計算し、タグ付与部４０に対して出力する。例えば、音声区間率計算部３８は、入力された音声データの全区間の中で、音声検出された区間を音声区間として計算してもよい。また、音声区間率計算部３８は、入力された音声データの全区間の中で、音声検出された区間の割合を音声区間率として計算してもよい。あるいは、音声区間率計算部３８は、入力された音声データの全区間の中で、音量が一定以上の区間、すなわち有音区間の中で、音声検出された区間の割合を音声区間率としてもよい。

タグ付与部４０は、有音区間率と音声区間率とに基づいて、コンテンツに分類タグを付与する。具体的には、タグ付与部４０は、有音区間率計算部３６により計算された有音区間率と、音声区間率計算部３８により計算された音声区間率とに基づいてコンテンツを分類する分類タグを付与する。例えば、タグ付与部４０は、有音区間率と音声区間率とが予め定められた範囲に含まれるかどうかにより分類タグを選択し、これによりコンテンツに分類タグを付与してもよい。

次に、コンテンツ処理装置１の動作を説明する。

図３は、本発明の第１の実施の形態にかかるコンテンツ処理装置１の動作を示すフローチャートである。かかるフローチャートは、図２に示す各ブロックがプログラムによって表される場合、そのプログラムを実行するＣＰＵ１０の処理手順を表す。図３に示すように、ステップＳ１００において、音声データが、有音区間率計算部３６および音声区間率計算部３８に入力される。

ステップＳ１０２において、有音区間率検出部３６は、入力された音声データに含まれる音量情報に基づいて有音区間率を計算し、計算した有音区間率をタグ付与部４０に出力する。

ステップＳ１０４において、音声区間率計算部３８は、入力された音声データに含まれる音声情報に基づいて音声区間率を計算し、計算した音声区間率をタグ付与部４０に出力する。ここで、ステップＳ１０２の動作とステップＳ１０４の動作は、どちらが先に行われてもよいし、同時に動作してもよい。

ステップＳ１０６において、タグ付与部４０は、有音区間率計算部３６から入力された有音区間率と、音声区間率計算部３８から入力された音声区間率とに基づいて、コンテンツを分類する分類タグを選択する。

ステップＳ１０８において、タグ付与部４０は、選択された分類タグを音声データに付与する。

したがって、本発明の第１の実施の形態にかかるコンテンツ処理装置１は、動画コンテンツを分類し、分類したコンテンツにタグ付けする際に、高い精度で自動分類することができる。その理由は、コンテンツを、音声データの有音区間率および音声区間率に基づいて、すなわち音量情報と音声情報（音声らしさの情報）を用いて分類するからである。

＜第２の実施の形態＞
次に、上述した第１の実施の形態にかかるコンテンツ処理装置１を基本とする本発明の第２の実施の形態にかかるコンテンツ処理装置２について説明する。

図４は、本発明の第２の実施の形態にかかるコンテンツ処理装置２の構成例を示すブロック図である。図4に示すように、本発明の第２の実施の形態にかかるコンテンツ処理装置２は、音量測定部３２および音声検出部３４をさらに備える点が、第１の実施の形態にかかるコンテンツ処理装置１とは異なる。それ以外の構成については、第１の実施の形態にかかるコンテンツ処理装置１と同様なため、同一の図面参照番号を付与すると共に重複する説明は省略する。

音量測定部３２は、入力された音声データが表す音量を測定する。具体的には、音量測定部３２は、入力された音声データを用いて音量を測定し、測定した音量情報を単位時間（フレーム）あたりの時系列情報として有音区間率計算部３６に対して出力する。

音声検出部３４は、入力された音声データが表す音声を検出する。具体的には、音声検出部３４は、入力された音声データが表す音声を検出し、検出した音声情報をフレームあたりの時系列情報として音声区間率計算部３８に対して出力する。音声検出には、一般に音声らしさの情報としてパワー特徴量、零交差情報、あるいは音声モデルとの距離などが用いられる。音声検出技術に関しては、一般的な手法を採用することができるので、本願における詳細な説明は省略する。

有音区間率計算部３６は、音量測定部３２から入力された音量情報に基づいて有音区間率を計算し、計算した結果をタグ付与部４０に対して出力する。

音声区間率検出部３８は、音声検出部３４から入力された音声情報に基づいて音声区間率を計算し、計算した結果をタグ付与部４０に対して出力する。

タグ付与部４０は、有音区間率計算部３６により計算された有音区間率と、音声区間率計算部３８により計算された音声区間率とに基づいてコンテンツに分類タグを付与する。

次に、コンテンツ処理装置２の動作を説明する。

図５は、本発明の第２の実施の形態にかかるコンテンツ処理装置２の動作を示すフローチャートである。かかるフローチャートは、図４に示す各ブロックがプログラムによって表される場合、そのプログラムを実行するＣＰＵ１０の処理手順を表す。図５に示すように、ステップＳ１００において、音声データが、音量測定部３２および音声検出部３４に入力される。

ステップＳ１１０において、音量測定部３２は、入力された音声データが表す音量を測定し、測定した音量情報を有音区間率計算部３６に出力する。

ステップＳ１０２において、有音区間率検出部３６は、音量測定部３２から入力された音量情報に基づいて有音区間率を計算し、計算した有音区間率をタグ付与部４０に出力する。

ステップＳ１１２において、音声検出部３４は、入力された音声データが表す音声を検出し、検出した音声情報を音声区間率計算部３８に出力する。ここで、ステップＳ１１０の動作とステップＳ１１２の動作は、どちらが先に行われてもよいし、同時に動作してもよい。

ステップＳ１０４において、音声区間率計算部３８は、音声検出部３４から入力された音声情報に基づいて音声区間率を計算し、計算した音声区間率をタグ付与部４０に出力する。ここで、ステップＳ１０２の動作とステップＳ１０４の動作は、どちらが先に行われてもよいし、同時に動作してもよい。

ここで、有音区間率と音声区間率とに基づいた分類タグの選択方法について説明する。図６は、有音区間率と音声区間率とが予め定められた範囲に含まれるかどうかにより分類タグを選択する場合に使用する分類表の一例である。ここでの音声区間率は、有音区間の中で、音声検出された区間の割合を音声区間率として計算したと仮定する。

図６に示すように、タグ付与部４０は、有音区間率および音声区間率の閾値を設定することにより、「音楽」「ニュース」および「ホームビデオ」という３つの分類タグを付与する。本例では、上記した３つの分類タグを付与できない場合には「その他」という分類タグを付与することとする。ここで、有音区間率および音声区間率の閾値は、人や場所に依存せずに使用可能と考えられるため、例えば予め少数のデータを用いて閾値を設定してもよい。すなわち、学習フェーズを設けることにより、事前に閾値を設定してもよい。

図７は、「音楽」「ニュース」「ホームビデオ」および「その他」の４つの動画コンテンツを有音区間率と音声区間率との２軸上にプロットしたグラフである。図６と同様に、ここでの音声区間率は、有音区間の中で、音声検出された区間の割合を音声区間率として計算したものとする。

図７に示すように、図６に示す分類表の閾値となる値を、それぞれグラフ上に表すことにより、各種の動画コンテンツを、「Ａ．ホームビデオ」、「Ｂ．音楽」、「Ｃ．ニュース」および「Ｄ．その他」という４種類の属性に分類し、個々の分類属性を表す分類タグを動画コンテンツに付与する。

ここで、分類タグとは、コンテンツの分類属性を表すタグである。例えば、分類タグは、本実施の形態に示すように、「ホームビデオ」、「音楽」および「ニュース」などコンテンツの分類属性を示すタグでもよい。

なお、本実施の形態では、図６に示した３種類の分類タグを動画コンテンツに付与する構成としたが、この構成に限らない。例えば、タグ付与部４０は、講演や講義の動画コンテンツを分類してもよいし、ホームビデオを更に詳細に分類して音声中心の動画コンテンツと背景音中心の動画コンテンツとを分類してもよい。

また、本実施の形態では、分類タグの付与も１つのコンテンツにつき１つの分類タグを付与するとしたが、これに限らない。例えば、タグ付与部４０は、１つのコンテンツにつき複数の分類タグを付与してもよい。

さらに、本実施の形態では、動画コンテンツを対象としたが、これに限らない。本実施の形態では、音声データを有するコンテンツを対象としてもよい。例えば、音声データのみからなるコンテンツであってもよいし、静止画と音声との組み合わせからなるコンテンツを対象としてもよい。

したがって、本発明の第２の実施の形態にかかるコンテンツ処理装置２は、動画コンテンツを分類し、分類したコンテンツにタグ付けする際に、高い精度で自動分類することができる。その理由は、コンテンツを、有音区間率および音声区間率に基づいて、すなわち音量情報と音声情報（音声らしさの情報）を用いて分類するからである。

また、本発明の第２の実施の形態にかかるコンテンツ処理装置２は、音声認識システムのように一般に音声検出処理を有するシステムであれば、容易に実現できる。その理由は、コンテンツを、音量情報および音声検出情報から分類することができるからである。

＜第３の実施の形態＞
次に、上述した第２の実施の形態にかかるコンテンツ処理装置２を基本とする本発明の第３の実施の形態にかかる情報処理装置３について説明する。

図８は、本発明の第３の実施の形態にかかる情報処理装置３の構成例を示すブロック図である。図７に示すように、本発明の第３の実施の形態にかかる情報処理装置３は、入力部１１０、動画記録部１２０、音声データ抽出部１３０、および出力部１４０をさらに備える点が、第２の実施の形態にかかるコンテンツ処理装置２とは異なる。それ以外の構成については、第２の実施の形態にかかるコンテンツ処理装置２と同様なため、同一の図面参照番号を付与すると共に重複する説明は省略する。

入力部１１０は、映像データと音声データを入力する。例えば、入力部１１０は、カメラとマイクから構成される。

動画記録部１２０は、入力部１１０から入力された映像データと音声データを統合して動画コンテンツとして記録する。映像と音声データを統合して動画を構成する技術に関しては、一般的な手法を採用することができるので、本願における詳細な説明は省略する。

音声データ抽出部１３０は、動画記録部１２０において記録された動画コンテンツから音声データを抽出する。なお、音声データ抽出部１３０は、動画記録部１２０において統合された動画コンテンツから音声データを抽出してもよいし、入力部１１０から入力された統合される前の音声データを抽出してもよい。

出力部１４０は、タグ付与部４０によって分類タグが付与された動画コンテンツを出力する。なお、タグ付与部４０は、動画コンテンツを保存する場合にタグ情報として分類タグを記載してもよい。また、タグ付与部４０は、動画コンテンツの保存場所として分類タグに対応する領域を選択してもよい。

次に、情報処理装置３の動作を説明する。

図９は、本発明の第３の実施の形態にかかる情報処理装置３の動作を示すフローチャートである。かかるフローチャートは、図８に示す各ブロックがプログラムによって表される場合、そのプログラムを実行するＣＰＵ１０処理手順を表す。なお、図９に示された各処理のうち、第２の実施の形態にかかるコンテンツ処理装置２の処理と実質的に同一の処理は、同一の符号を付与すると共に重複する説明は省略する。

図９に示すように、ステップＳ１１４において、動画記録部１２０は、入力部１１０から入力された映像と音声データとを統合する。

ステップＳ１１６において、動画記録部１２０は、統合した映像と音声データを動画コンテンツとして記録する。

ステップＳ１１８において、音声データ抽出部１３０は、動画記録部１２０において記録された動画コンテンツから音声データを抽出し、音量測定部３２および音声検出部３４に出力する。なお、音声データ抽出部１３０は、入力装置１１０から入力された音声データを抽出してもよい。

ステップＳ１００、ステップＳ１１０、ステップＳ１０２、ステップＳ１１２、ステップＳ１０４、ステップＳ１０６、およびステップＳ１０８において、音声データの有音区間率と音声区間率とに基づいて、分類タグを付与する。

ステップＳ１２０において、出力部１４０は、タグ付与部４０から得られる分類タグが付与された動画コンテンツを出力する。

したがって、本発明の第３の実施の形態にかかる情報処理装置３は、動画を撮影された場合に、撮影された動画コンテンツを分類することができる。例えば、個人の携帯端末で動画が撮影された場合、動画撮影終了後に、撮影されたコンテンツに自動で分類タグを付与することができる。その理由は、情報処理装置３は、撮影された動画コンテンツの音声データに基づいて分類タグを付与することができるからである。

１、２コンテンツ処理装置
３情報処理装置
１０ＣＰＵ
１２メモリ
１４ＨＤＤ
１６通信ＩＦ
１８入力装置
２０出力装置
２２リーダーライター
２４バス
２６記憶媒体
３２音量測定部
３４音声検出部
３６有音区間率計算部
３８音声区間率計算部
４０タグ付与部
１１０入力部
１２０動画記録部
１３０音声データ抽出部
１４０出力部

Claims

コンテンツに含まれる音声データが表す音量に基づいて有音区間率を計算する有音区間率計算部と、
前記音声データに含まれる音声を表す情報に基づいて音声区間率を計算する音声区間率計算部と、
前記有音区間率と前記音声区間率とに基づいて、前記コンテンツを分類する分類タグを付与する分類タグ付与部と、
を備えるコンテンツ処理装置。
前記音声データが表す音量を測定する音量測定部と、
前記音声データに含まれる音声を表す情報を検出する音声検出部と、
をさらに備え、
前記有音区間率計算部は、前記音量測定部により測定された音量に基づいて有音区間率を計算し、
前記音声区間率計算部は、前記音声検出部により検出された音声に基づいて音声区間率を計算する請求項１に記載のコンテンツ処理装置。
前記分類タグ付与部は、前記有音区間率と前記音声区間率とが予め定められた範囲に含まれるか否かに応じて分類タグを選択する請求項１または請求項２に記載のコンテンツ処理装置。
前記有音区間率計算部は、前記音声データの全区間において、音量が予め定められた閾値を超える区間の割合を有音区間率として計算する請求項１乃至３のいずれかに記載のコンテンツ処理装置。
前記音声区間率計算部は、前記音声データの全区間において、音声検出された区間の割合を音声区間率として計算する請求項１乃至４のいずれかに記載のコンテンツ処理装置。
前記音声区間率計算部は、音量が予め定められた閾値を超える区間において、音声検出された区間の割合を音声区間率として計算する請求項１乃至４のいずれかに記載のコンテンツ処理装置。
前記音量測定部は、前記音声データの単位時間毎の音量を測定し、
前記音声検出部は、前記音声データの当該単位時間毎の音声を検出し、
前記有音区間率計算部と前記音声区間率計算部は、当該単位時間を最小単位とした計算を行う請求項２乃至６のいずれかに記載のコンテンツ処理装置。
コンテンツに含まれる音声データが表す音量に基づいて有音区間率を計算し、
前記音声データに含まれる音声を表す情報に基づいて音声区間率を計算し、
前記有音区間率と前記音声区間率とに基づいて、前記コンテンツを分類する分類タグを付与するコンテンツ処理方法。
コンテンツに含まれる音声データが表す音量に基づいて有音区間率を計算する処理と、
前記音声データに含まれる音声を表す情報に基づいて音声区間率を計算する処理と、
前記有音区間率と前記音声区間率とに基づいて、前記コンテンツを分類する分類タグを付与する処理と、
をコンピュータに実行させるコンピュータプログラム。