JP2014002336A - コンテンツ処理装置、コンテンツ処理方法、およびコンピュータプログラム - Google Patents

コンテンツ処理装置、コンテンツ処理方法、およびコンピュータプログラム Download PDF

Info

Publication number
JP2014002336A
JP2014002336A JP2012139421A JP2012139421A JP2014002336A JP 2014002336 A JP2014002336 A JP 2014002336A JP 2012139421 A JP2012139421 A JP 2012139421A JP 2012139421 A JP2012139421 A JP 2012139421A JP 2014002336 A JP2014002336 A JP 2014002336A
Authority
JP
Japan
Prior art keywords
voice
content
voiced
rate
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012139421A
Other languages
English (en)
Inventor
Takeshi Hanazawa
健 花沢
Koji Okabe
浩司 岡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2012139421A priority Critical patent/JP2014002336A/ja
Publication of JP2014002336A publication Critical patent/JP2014002336A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】動画コンテンツを分類し、分類したコンテンツにタグ付けする際に、高い精度で自動分類することができるコンテンツ処理装置などを提供することを1つの目的とする。
【解決手段】コンテンツ処理装置1は、コンテンツに含まれる音声データが表す音量に基づいて有音区間率を計算する有音区間率計算部36と、前記音声データに含まれる音声を表す情報に基づいて音声区間率を計算する音声区間率計算部38と、前記有音区間率と前記音声区間率とに基づいて、前記コンテンツを分類する分類タグを付与する分類タグ付与部40と、を備える。
【選択図】 図2

Description

本発明は、音声認識あるいは音声検出によりコンテンツを分類する技術に関する。
近年、動画コンテンツの個人的な視聴が盛んになってきている。動画コンテンツは、インターネット上でパブリックに提供されているものの他に、個人が携帯端末などで気軽に撮影した動画コンテンツも増えてきている。後者については、撮影後にインターネット上で公開する動画コンテンツもあれば、ローカルに保存して家族など限られた人間でのみ視聴することも多い。
このとき、大量に生成される動画コンテンツを効率よく検索する技術が望まれる。例えば、特許文献1では、音声信号の平均パワー、スペクトルおよびピッチ周波数に基づいて、明示的に音源名が与えられた分類ベクトルを生成し、分類ベクトルに基づいて番組カテゴリを分類する技術が開示されている。特許文献2では、コンテンツのオーディオ信号に含まれる音声区間の比率を示す音声含有率に基づいてコンテンツの処理を行う技術が開示されている。特許文献3では、有音区間と無音区間に分けられた音声信号からせりふ区間を取得し、取得したせりふ区間に基づいてコンテンツの処理を行う技術が開示されている。
特開2001−024980 特開2008−058956 再特2005−074275
しかしながら、特許文献1に記載された手法は、明示的に音源名を与えられた分類ベクトルに基づいて音楽性、単独話者性あるいは会話性等の有無により番組カテゴリを判別する。そのため、特許文献1に記載された手法は、音声信号中に音声を含む区間および背景音等を含む区間の割合が考慮されていない。
特許文献2に記載された手法は、音声含有率のみに基づいてコンテンツの処理を行うため、音声は含まれていないが背景音等を含む区間(有音区間)が考慮されていない。
特許文献3に記載された手法は、せりふ区間のみに基づいてコンテンツの処理を行うため、特許文献2に記載された技術と同様に、背景音等を含む区間(有音区間)が考慮されていない。
本発明は、上記課題を鑑み、動画コンテンツを分類し、分類したコンテンツにタグ付けする際に、高い精度で自動分類することができるコンテンツ処理装置などを提供することを1つの目的とする。
上記目的を達成するために、本発明にかかるコンテンツ処理装置は、コンテンツに含まれる音声データが表す音量に基づいて有音区間率を計算する有音区間率計算部と、前記音声データに含まれる音声を表す情報に基づいて音声区間率を計算する音声区間率計算部と、前記有音区間率と前記音声区間率とに基づいて、前記コンテンツを分類する分類タグを付与する分類タグ付与部と、を備える。
また、上記目的を達成する本発明にかかるコンテンツ処理方法は、コンテンツに含まれる音声データが表す音量に基づいて有音区間率を計算し、前記音声データに含まれる音声を表す情報に基づいて音声区間率を計算し、前記有音区間率と前記音声区間率とに基づいて、前記コンテンツを分類する分類タグを付与する。
さらに、上記目的を達成する本発明にかかるコンピュータプログラムは、コンテンツに含まれる音声データが表す音量に基づいて有音区間率を計算する処理と、前記音声データに含まれる音声を表す情報に基づいて音声区間率を計算する処理と、前記有音区間率と前記音声区間率とに基づいて、前記コンテンツを分類する分類タグを付与する処理と、をコンピュータに実行させるコンピュータプログラム。
尚、係る同目的は、当該コンピュータプログラムを格納したコンピュータ読み取り可能な記憶媒体によっても達成されうる。
本発明のコンテンツ処理装置などによれば、動画コンテンツを分類し、分類したコンテンツにタグ付けする際に、高い精度で自動分類することができる。
本発明の第1の実施の形態にかかるコンテンツ処理装置1のハードウェア構成例を示す図である。 第1の実施の形態にかかるコンテンツ処理装置1の構成例を示すブロック図である。 第1の実施の形態にかかるコンテンツ処理装置1の動作を示すフローチャートである。 本発明の第2の実施の形態にかかるコンテンツ処理装置2の構成例を示すブロック図である。 第2の実施の形態にかかるコンテンツ処理装置2の動作を示すフローチャートである。 第2の実施の形態にかかる有音区間率と音声区間率とが予め定められた範囲に含まれるかどうかにより分類タグを選択する場合に使用する分類表の一例である 第2の実施の形態にかかる動画コンテンツを有音区間率と音声区間率との2軸上にプロットしたグラフである。 本発明の第3の実施の形態にかかる情報処理装置3の構成例を示すブロック図である。 第3の実施の形態にかかる情報処理装置3の動作を示すフローチャートである。
<第1の実施の形態>
はじめに、本発明の第1の実施の形態にかかるコンテンツ処理装置1について説明する。
図1は、本発明の第1の実施の形態にかかるコンテンツ処理装置1のハードウェア構成例を示す図である。図1に示すように、コンテンツ処理装置1は、CPU10、メモリ12、HDD(ハードディスクドライブ)14、図示しないネットワークを介して通信を行う通信IF(インターフェース)16、カメラおよびマイク等の入力装置18、ディスプレイ等の出力装置20、およびCD(コンパクトディスク)等の記憶媒体26を読み取り可能なリーダーライター22を有する。これらの構成要素は、バス24を通して互いに接続されており、互いにデータの入出力を行う。
本実施の形態にかかるコンテンツ処理装置1は、CPU10が、メモリ12またはHDD14に記憶されているコンピュータプログラム(以下、「プログラム」と称する)を実行することにより実現される。または、コンテンツ処理装置1は、CPU10が記憶媒体26に記憶されているプログラムを実行することにより実現されてもよい。CPU10において実行するプログラムは、通信IFあるいはリーダーライター22を介して外部から取得してもよい。図1に示すコンテンツ処理装置1のハードウェア構成例は、後述する各実施の形態にも適用可能である。
ここで、本実施の形態において、コンテンツとは、少なくとも音声データを有する情報である(以下の実施の形態においても同様である)。例えば、コンテンツとは、テレビ番組のように音声データのみではなく、映像データを有する情報でもよい。
図2は、本発明の第1の実施の形態にかかるコンテンツ処理装置1の構成例を示すブロック図である。図2は、図1において例示したハードウェアを用いて実現される機能を、機能単位に表現したブロック図である。図2に示すように、第1の実施の形態にかかるコンテンツ処理装置1は、有音区間率計算部36、音声区間率計算部38、およびタグ付与部40を備える。コンテンツ処理装置1の構成は、CPU10がメモリ12またはHDD14に記憶されているプログラムを実行することにより実現される。この場合、本願各実施形態を例に説明する本発明は、かかるプログラムあるいは当該プログラムが格納されたコンピュータ読み取り可能なHDD等の記憶装置あるいはCD等の記憶媒体によって構成されると解釈することができる。なお、コンテンツ処理装置1の全部または一部の機能は、コンテンツ処理装置1に設けられたハードウェアにより実現されてもよい。
有音区間率計算部36は、入力された音声データに含まれる音量を表す情報(以下、「音量情報」と称する)に基づいて有音区間率を計算する。具体的には、有音区間率計算部36は、入力された音声データに含まれる音量情報に基づいて有音区間率を計算し、その計算の結果をタグ付与部40に対して出力する。例えば、有音区間率計算部36は、入力された音声データの全区間の中で、かかる音量情報が表す音量が一定以上の区間を有音区間として計算してもよい。また、有音区間率計算部36は、入力された音声データの全区間の中で、かかる音量情報が表す音量が一定以上の区間の割合を有音区間率として計算してもよい。
音声区間率検出部38は、音声データに含まれる音声を表す情報(以下、「音声情報」と称する)に基づいて音声区間率を計算する。具体的には、音声区間率計算部38は、入力された音声データに含まれる音声情報に基づいて音声区間率を計算し、タグ付与部40に対して出力する。例えば、音声区間率計算部38は、入力された音声データの全区間の中で、音声検出された区間を音声区間として計算してもよい。また、音声区間率計算部38は、入力された音声データの全区間の中で、音声検出された区間の割合を音声区間率として計算してもよい。あるいは、音声区間率計算部38は、入力された音声データの全区間の中で、音量が一定以上の区間、すなわち有音区間の中で、音声検出された区間の割合を音声区間率としてもよい。
タグ付与部40は、有音区間率と音声区間率とに基づいて、コンテンツに分類タグを付与する。具体的には、タグ付与部40は、有音区間率計算部36により計算された有音区間率と、音声区間率計算部38により計算された音声区間率とに基づいてコンテンツを分類する分類タグを付与する。例えば、タグ付与部40は、有音区間率と音声区間率とが予め定められた範囲に含まれるかどうかにより分類タグを選択し、これによりコンテンツに分類タグを付与してもよい。
次に、コンテンツ処理装置1の動作を説明する。
図3は、本発明の第1の実施の形態にかかるコンテンツ処理装置1の動作を示すフローチャートである。かかるフローチャートは、図2に示す各ブロックがプログラムによって表される場合、そのプログラムを実行するCPU10の処理手順を表す。図3に示すように、ステップS100において、音声データが、有音区間率計算部36および音声区間率計算部38に入力される。
ステップS102において、有音区間率検出部36は、入力された音声データに含まれる音量情報に基づいて有音区間率を計算し、計算した有音区間率をタグ付与部40に出力する。
ステップS104において、音声区間率計算部38は、入力された音声データに含まれる音声情報に基づいて音声区間率を計算し、計算した音声区間率をタグ付与部40に出力する。ここで、ステップS102の動作とステップS104の動作は、どちらが先に行われてもよいし、同時に動作してもよい。
ステップS106において、タグ付与部40は、有音区間率計算部36から入力された有音区間率と、音声区間率計算部38から入力された音声区間率とに基づいて、コンテンツを分類する分類タグを選択する。
ステップS108において、タグ付与部40は、選択された分類タグを音声データに付与する。
したがって、本発明の第1の実施の形態にかかるコンテンツ処理装置1は、動画コンテンツを分類し、分類したコンテンツにタグ付けする際に、高い精度で自動分類することができる。その理由は、コンテンツを、音声データの有音区間率および音声区間率に基づいて、すなわち音量情報と音声情報(音声らしさの情報)を用いて分類するからである。
<第2の実施の形態>
次に、上述した第1の実施の形態にかかるコンテンツ処理装置1を基本とする本発明の第2の実施の形態にかかるコンテンツ処理装置2について説明する。
図4は、本発明の第2の実施の形態にかかるコンテンツ処理装置2の構成例を示すブロック図である。図4に示すように、本発明の第2の実施の形態にかかるコンテンツ処理装置2は、音量測定部32および音声検出部34をさらに備える点が、第1の実施の形態にかかるコンテンツ処理装置1とは異なる。それ以外の構成については、第1の実施の形態にかかるコンテンツ処理装置1と同様なため、同一の図面参照番号を付与すると共に重複する説明は省略する。
音量測定部32は、入力された音声データが表す音量を測定する。具体的には、音量測定部32は、入力された音声データを用いて音量を測定し、測定した音量情報を単位時間(フレーム)あたりの時系列情報として有音区間率計算部36に対して出力する。
音声検出部34は、入力された音声データが表す音声を検出する。具体的には、音声検出部34は、入力された音声データが表す音声を検出し、検出した音声情報をフレームあたりの時系列情報として音声区間率計算部38に対して出力する。音声検出には、一般に音声らしさの情報としてパワー特徴量、零交差情報、あるいは音声モデルとの距離などが用いられる。音声検出技術に関しては、一般的な手法を採用することができるので、本願における詳細な説明は省略する。
有音区間率計算部36は、音量測定部32から入力された音量情報に基づいて有音区間率を計算し、計算した結果をタグ付与部40に対して出力する。
音声区間率検出部38は、音声検出部34から入力された音声情報に基づいて音声区間率を計算し、計算した結果をタグ付与部40に対して出力する。
タグ付与部40は、有音区間率計算部36により計算された有音区間率と、音声区間率計算部38により計算された音声区間率とに基づいてコンテンツに分類タグを付与する。
次に、コンテンツ処理装置2の動作を説明する。
図5は、本発明の第2の実施の形態にかかるコンテンツ処理装置2の動作を示すフローチャートである。かかるフローチャートは、図4に示す各ブロックがプログラムによって表される場合、そのプログラムを実行するCPU10の処理手順を表す。図5に示すように、ステップS100において、音声データが、音量測定部32および音声検出部34に入力される。
ステップS110において、音量測定部32は、入力された音声データが表す音量を測定し、測定した音量情報を有音区間率計算部36に出力する。
ステップS102において、有音区間率検出部36は、音量測定部32から入力された音量情報に基づいて有音区間率を計算し、計算した有音区間率をタグ付与部40に出力する。
ステップS112において、音声検出部34は、入力された音声データが表す音声を検出し、検出した音声情報を音声区間率計算部38に出力する。ここで、ステップS110の動作とステップS112の動作は、どちらが先に行われてもよいし、同時に動作してもよい。
ステップS104において、音声区間率計算部38は、音声検出部34から入力された音声情報に基づいて音声区間率を計算し、計算した音声区間率をタグ付与部40に出力する。ここで、ステップS102の動作とステップS104の動作は、どちらが先に行われてもよいし、同時に動作してもよい。
ステップS106において、タグ付与部40は、有音区間率計算部36から入力された有音区間率と、音声区間率計算部38から入力された音声区間率とに基づいて、コンテンツを分類する分類タグを選択する。
ステップS108において、タグ付与部40は、選択された分類タグを音声データに付与する。
ここで、有音区間率と音声区間率とに基づいた分類タグの選択方法について説明する。図6は、有音区間率と音声区間率とが予め定められた範囲に含まれるかどうかにより分類タグを選択する場合に使用する分類表の一例である。ここでの音声区間率は、有音区間の中で、音声検出された区間の割合を音声区間率として計算したと仮定する。
図6に示すように、タグ付与部40は、有音区間率および音声区間率の閾値を設定することにより、「音楽」「ニュース」および「ホームビデオ」という3つの分類タグを付与する。本例では、上記した3つの分類タグを付与できない場合には「その他」という分類タグを付与することとする。ここで、有音区間率および音声区間率の閾値は、人や場所に依存せずに使用可能と考えられるため、例えば予め少数のデータを用いて閾値を設定してもよい。すなわち、学習フェーズを設けることにより、事前に閾値を設定してもよい。
図7は、「音楽」「ニュース」「ホームビデオ」および「その他」の4つの動画コンテンツを有音区間率と音声区間率との2軸上にプロットしたグラフである。図6と同様に、ここでの音声区間率は、有音区間の中で、音声検出された区間の割合を音声区間率として計算したものとする。
図7に示すように、図6に示す分類表の閾値となる値を、それぞれグラフ上に表すことにより、各種の動画コンテンツを、「A.ホームビデオ」、「B.音楽」、「C.ニュース」および「D.その他」という4種類の属性に分類し、個々の分類属性を表す分類タグを動画コンテンツに付与する。
ここで、分類タグとは、コンテンツの分類属性を表すタグである。例えば、分類タグは、本実施の形態に示すように、「ホームビデオ」、「音楽」および「ニュース」などコンテンツの分類属性を示すタグでもよい。
なお、本実施の形態では、図6に示した3種類の分類タグを動画コンテンツに付与する構成としたが、この構成に限らない。例えば、タグ付与部40は、講演や講義の動画コンテンツを分類してもよいし、ホームビデオを更に詳細に分類して音声中心の動画コンテンツと背景音中心の動画コンテンツとを分類してもよい。
また、本実施の形態では、分類タグの付与も1つのコンテンツにつき1つの分類タグを付与するとしたが、これに限らない。例えば、タグ付与部40は、1つのコンテンツにつき複数の分類タグを付与してもよい。
さらに、本実施の形態では、動画コンテンツを対象としたが、これに限らない。本実施の形態では、音声データを有するコンテンツを対象としてもよい。例えば、音声データのみからなるコンテンツであってもよいし、静止画と音声との組み合わせからなるコンテンツを対象としてもよい。
したがって、本発明の第2の実施の形態にかかるコンテンツ処理装置2は、動画コンテンツを分類し、分類したコンテンツにタグ付けする際に、高い精度で自動分類することができる。その理由は、コンテンツを、有音区間率および音声区間率に基づいて、すなわち音量情報と音声情報(音声らしさの情報)を用いて分類するからである。
また、本発明の第2の実施の形態にかかるコンテンツ処理装置2は、音声認識システムのように一般に音声検出処理を有するシステムであれば、容易に実現できる。その理由は、コンテンツを、音量情報および音声検出情報から分類することができるからである。
<第3の実施の形態>
次に、上述した第2の実施の形態にかかるコンテンツ処理装置2を基本とする本発明の第3の実施の形態にかかる情報処理装置3について説明する。
図8は、本発明の第3の実施の形態にかかる情報処理装置3の構成例を示すブロック図である。図7に示すように、本発明の第3の実施の形態にかかる情報処理装置3は、入力部110、動画記録部120、音声データ抽出部130、および出力部140をさらに備える点が、第2の実施の形態にかかるコンテンツ処理装置2とは異なる。それ以外の構成については、第2の実施の形態にかかるコンテンツ処理装置2と同様なため、同一の図面参照番号を付与すると共に重複する説明は省略する。
入力部110は、映像データと音声データを入力する。例えば、入力部110は、カメラとマイクから構成される。
動画記録部120は、入力部110から入力された映像データと音声データを統合して動画コンテンツとして記録する。映像と音声データを統合して動画を構成する技術に関しては、一般的な手法を採用することができるので、本願における詳細な説明は省略する。
音声データ抽出部130は、動画記録部120において記録された動画コンテンツから音声データを抽出する。なお、音声データ抽出部130は、動画記録部120において統合された動画コンテンツから音声データを抽出してもよいし、入力部110から入力された統合される前の音声データを抽出してもよい。
出力部140は、タグ付与部40によって分類タグが付与された動画コンテンツを出力する。なお、タグ付与部40は、動画コンテンツを保存する場合にタグ情報として分類タグを記載してもよい。また、タグ付与部40は、動画コンテンツの保存場所として分類タグに対応する領域を選択してもよい。
次に、情報処理装置3の動作を説明する。
図9は、本発明の第3の実施の形態にかかる情報処理装置3の動作を示すフローチャートである。かかるフローチャートは、図8に示す各ブロックがプログラムによって表される場合、そのプログラムを実行するCPU10処理手順を表す。なお、図9に示された各処理のうち、第2の実施の形態にかかるコンテンツ処理装置2の処理と実質的に同一の処理は、同一の符号を付与すると共に重複する説明は省略する。
図9に示すように、ステップS114において、動画記録部120は、入力部110から入力された映像と音声データとを統合する。
ステップS116において、動画記録部120は、統合した映像と音声データを動画コンテンツとして記録する。
ステップS118において、音声データ抽出部130は、動画記録部120において記録された動画コンテンツから音声データを抽出し、音量測定部32および音声検出部34に出力する。なお、音声データ抽出部130は、入力装置110から入力された音声データを抽出してもよい。
ステップS100、ステップS110、ステップS102、ステップS112、ステップS104、ステップS106、およびステップS108において、音声データの有音区間率と音声区間率とに基づいて、分類タグを付与する。
ステップS120において、出力部140は、タグ付与部40から得られる分類タグが付与された動画コンテンツを出力する。
したがって、本発明の第3の実施の形態にかかる情報処理装置3は、動画を撮影された場合に、撮影された動画コンテンツを分類することができる。例えば、個人の携帯端末で動画が撮影された場合、動画撮影終了後に、撮影されたコンテンツに自動で分類タグを付与することができる。その理由は、情報処理装置3は、撮影された動画コンテンツの音声データに基づいて分類タグを付与することができるからである。
1、2 コンテンツ処理装置
3 情報処理装置
10 CPU
12 メモリ
14 HDD
16 通信IF
18 入力装置
20 出力装置
22 リーダーライター
24 バス
26 記憶媒体
32 音量測定部
34 音声検出部
36 有音区間率計算部
38 音声区間率計算部
40 タグ付与部
110 入力部
120 動画記録部
130 音声データ抽出部
140 出力部

Claims (9)

  1. コンテンツに含まれる音声データが表す音量に基づいて有音区間率を計算する有音区間率計算部と、
    前記音声データに含まれる音声を表す情報に基づいて音声区間率を計算する音声区間率計算部と、
    前記有音区間率と前記音声区間率とに基づいて、前記コンテンツを分類する分類タグを付与する分類タグ付与部と、
    を備えるコンテンツ処理装置。
  2. 前記音声データが表す音量を測定する音量測定部と、
    前記音声データに含まれる音声を表す情報を検出する音声検出部と、
    をさらに備え、
    前記有音区間率計算部は、前記音量測定部により測定された音量に基づいて有音区間率を計算し、
    前記音声区間率計算部は、前記音声検出部により検出された音声に基づいて音声区間率を計算する請求項1に記載のコンテンツ処理装置。
  3. 前記分類タグ付与部は、前記有音区間率と前記音声区間率とが予め定められた範囲に含まれるか否かに応じて分類タグを選択する請求項1または請求項2に記載のコンテンツ処理装置。
  4. 前記有音区間率計算部は、前記音声データの全区間において、音量が予め定められた閾値を超える区間の割合を有音区間率として計算する請求項1乃至3のいずれかに記載のコンテンツ処理装置。
  5. 前記音声区間率計算部は、前記音声データの全区間において、音声検出された区間の割合を音声区間率として計算する請求項1乃至4のいずれかに記載のコンテンツ処理装置。
  6. 前記音声区間率計算部は、音量が予め定められた閾値を超える区間において、音声検出された区間の割合を音声区間率として計算する請求項1乃至4のいずれかに記載のコンテンツ処理装置。
  7. 前記音量測定部は、前記音声データの単位時間毎の音量を測定し、
    前記音声検出部は、前記音声データの当該単位時間毎の音声を検出し、
    前記有音区間率計算部と前記音声区間率計算部は、当該単位時間を最小単位とした計算を行う請求項2乃至6のいずれかに記載のコンテンツ処理装置。
  8. コンテンツに含まれる音声データが表す音量に基づいて有音区間率を計算し、
    前記音声データに含まれる音声を表す情報に基づいて音声区間率を計算し、
    前記有音区間率と前記音声区間率とに基づいて、前記コンテンツを分類する分類タグを付与するコンテンツ処理方法。
  9. コンテンツに含まれる音声データが表す音量に基づいて有音区間率を計算する処理と、
    前記音声データに含まれる音声を表す情報に基づいて音声区間率を計算する処理と、
    前記有音区間率と前記音声区間率とに基づいて、前記コンテンツを分類する分類タグを付与する処理と、
    をコンピュータに実行させるコンピュータプログラム。
JP2012139421A 2012-06-21 2012-06-21 コンテンツ処理装置、コンテンツ処理方法、およびコンピュータプログラム Pending JP2014002336A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012139421A JP2014002336A (ja) 2012-06-21 2012-06-21 コンテンツ処理装置、コンテンツ処理方法、およびコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012139421A JP2014002336A (ja) 2012-06-21 2012-06-21 コンテンツ処理装置、コンテンツ処理方法、およびコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2014002336A true JP2014002336A (ja) 2014-01-09

Family

ID=50035538

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012139421A Pending JP2014002336A (ja) 2012-06-21 2012-06-21 コンテンツ処理装置、コンテンツ処理方法、およびコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2014002336A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019229936A1 (ja) * 2018-05-31 2019-12-05 株式会社ソニー・インタラクティブエンタテインメント 情報処理システム
KR20220137544A (ko) 2021-04-02 2022-10-12 도쿄엘렉트론가부시키가이샤 에칭 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019229936A1 (ja) * 2018-05-31 2019-12-05 株式会社ソニー・インタラクティブエンタテインメント 情報処理システム
KR20220137544A (ko) 2021-04-02 2022-10-12 도쿄엘렉트론가부시키가이샤 에칭 방법

Similar Documents

Publication Publication Date Title
US9304657B2 (en) Audio tagging
US10559323B2 (en) Audio and video synchronizing perceptual model
CN109767765A (zh) 话术匹配方法及装置、存储介质、计算机设备
US11950020B2 (en) Methods and apparatus for displaying, compressing and/or indexing information relating to a meeting
US20130289991A1 (en) Application of Voice Tags in a Social Media Context
US8909525B2 (en) Interactive voice recognition electronic device and method
JP7394809B2 (ja) ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム
CN108563655B (zh) 基于文本的事件识别方法和装置
US10586528B2 (en) Domain-specific speech recognizers in a digital medium environment
US20190199939A1 (en) Suggestion of visual effects based on detected sound patterns
CN104423543A (zh) 一种信息处理方法及装置
US8868419B2 (en) Generalizing text content summary from speech content
WO2014025911A1 (en) Sensor input recording and translation into human linguistic form
CN111868823A (zh) 一种声源分离方法、装置及设备
Kim et al. Automatic detection of conflict escalation in spoken conversations.
CN111435369B (zh) 音乐推荐方法、装置、终端及存储介质
KR102135077B1 (ko) 인공지능 스피커를 이용한 실시간 이야깃거리 제공 시스템
CN113450804A (zh) 语音可视化方法、装置、投影设备及计算机可读存储介质
JP5589426B2 (ja) コンテンツ提供システム、コンテンツ提供方法、およびコンテンツ提供プログラム
JP2014002336A (ja) コンテンツ処理装置、コンテンツ処理方法、およびコンピュータプログラム
TW201409259A (zh) 多媒體記錄系統及方法
JP6838739B2 (ja) 近時記憶支援装置
CN111610851A (zh) 互动方法、装置以及用于实现该互动方法的用户终端
CN115440198B (zh) 混合音频信号的转换方法、装置、计算机设备和存储介质
JP5777568B2 (ja) 音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラム