JP2022150777A - 区間抽出装置およびプログラム - Google Patents

区間抽出装置およびプログラム Download PDF

Info

Publication number
JP2022150777A
JP2022150777A JP2021053534A JP2021053534A JP2022150777A JP 2022150777 A JP2022150777 A JP 2022150777A JP 2021053534 A JP2021053534 A JP 2021053534A JP 2021053534 A JP2021053534 A JP 2021053534A JP 2022150777 A JP2022150777 A JP 2022150777A
Authority
JP
Japan
Prior art keywords
section
threshold
detection
voice
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021053534A
Other languages
English (en)
Inventor
麻乃 一木
Manon Ichiki
徹 都木
Toru Tsugi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
NHK Engineering System Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp, NHK Engineering System Inc filed Critical Nippon Hoso Kyokai NHK
Priority to JP2021053534A priority Critical patent/JP2022150777A/ja
Publication of JP2022150777A publication Critical patent/JP2022150777A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】大量の素材データの中から、必要と思われるシーンの候補を、簡単に特定することのできる区間抽出装置およびプログラムを提供する。【解決手段】音声判定部は、素材データに含まれる音声の有声度が、所定の有声度閾値以上であるか否かを判定する。閾値設定部は、前記音声のパワーの推移に基づいて、前記音声のパワーについての第1閾値および第2閾値を設定する。区間検出部は、前記有声度が前記有声度閾値以上であって且つ前記音声のパワーが前記第1閾値以上である区間を第1検出区間として検出するとともに、前記有声度が前記有声度閾値以上であって且つ前記音声のパワーが前記第2閾値以上である区間を第2検出区間として検出する。区間情報出力部は、時間軸に対応して検出された前記第1検出区間と前記第2検出区間とを視覚的に表した区間情報を出力する。【選択図】図1

Description

本発明は、区間抽出装置およびプログラムに関する。
大量の映像データまたは音声データの中から、所定のイベントを検出する研究が行われている。このとき、映像データは、音声データを含むものである。また、映像データまたは音声データから検出したイベントに基づいてそれらの映像データまたは音声データにメタデータを付与することも可能である。イベントの検出やメタデータの付与を自動的に行えるようにすることは、情報検索のために有用である。また、例えば映像コンテンツの制作作業のためにこのような技術を利用することもできる。
音声処理によって情報を付加する技術の一例は、音響イベント検出の技術である。また、映像データまたは音声データの中から人の声による発話区間を検出する技術の例は、音声認識のVAD(voice activity detection)による有声区間検出技術や、話速変換技術で用いられる有声区間推定技術である。
特許文献1には、テレビ番組等の映像データにメタデータを付与するための技術が開示されている。
特許文献2には、ニューラルネットワークを利用して、音響データの中に含まれる音響イベントを推定する技術が開示されている。
特許文献3には、音響データの中に含まれる音響イベントに関して、適切な言語表現を特定するための技術が記載されている。
特開2006-018972号公報 特開2015-057630号公報 特開2015-212731号公報
上で説明した従来技術のそれぞれは、個々の特定の目的に特化した技術である。したがって、大量の映像データあるいは音声データの中から、例えば映像コンテンツの制作のために必要と考えられる区間(シーン)のみを素早く特定する、といった用途に適したものではない。
例えば、映像コンテンツの制作のために、映像データの中からイベントを検出して特定の映像区間等にラベルを付与する処理の場合には、そもそも何を抽出したいのかを予め明確にしておかなければならないという問題がある。
また、イベント検出の精度を高めるにはディープラーニング(Deep Learning)の技術を活用することも考えられるが、そのためには目的とする物についての学習処理を事前に行う必要がある。映像を入力とするニューラルネットワークが所望の出力を適切に行うためには、フレーム画像ごとの処理を行う必要がある。例えば、数千時間におよぶ大量の映像データを分析するためには、時間がかかりすぎて、現実的な映像コンテンツ制作のスケジュールには合わないという問題がある。
音声区間を検出するためのVAD技術は、例えば発話の長さを計測する目的には適している。また、ディープラーニングの手法を用いてVAD技術を実施することにより、ノイズを含む音声データからも、ある程度の精度で音声区間を検出することができる。しかしながら、ディープラーニングを用いた音声区間の検出の精度は、学習データの質や量にも依存しており、抽出したい音の種類に合わせて音声区間検出用の学習モデルを柔軟に設定することができないという問題がある。
上記のいずれの場合も、ディープラーニングを用いるためには、膨大な学習データを準備したうえで、膨大な計算資源(GPU(Graphics Processing Unit)等)と学習のための時間をかけて、モデルの学習を行うことが必須である。ディープラーニングを用いる手法は、分析対象となる実際の映像データの検出したいイベントによく合った学習データでモデルを学習する場合には、有効である。その一方で、学習データに出現しない想定外の状況のすべてを学習することは困難である。また、処理能力の低い計算機でディープラーニングを行うことは、困難、あるいは非効率的である。
本発明は、上記のような事情を考慮して為されたものであり、大量の映像データや音声データ(これらを素材データと呼ぶ)の中から、必要と思われるシーン(映像区間あるいは音声区間)を、短時間で、且つ軽い処理で特定することのできる区間抽出装置およびプログラムを提供しようとするものである。
[1]上記の課題を解決するため、本発明の一態様による区間抽出装置は、素材データに含まれる音声の有声度が、所定の有声度閾値以上であるか否かを判定する音声判定部と、前記音声のパワーの推移に基づいて、前記音声のパワーについての第1閾値および第2閾値(ただし、前記第1閾値が表すパワーは前記第2閾値が表すパワーよりも小さい)を設定する閾値設定部と、前記有声度が前記有声度閾値以上であって且つ前記音声のパワーが前記第1閾値以上である区間を第1検出区間として検出するとともに、前記有声度が前記有声度閾値以上であって且つ前記音声のパワーが前記第2閾値以上である区間を第2検出区間として検出する、区間検出部と、時間軸に対応して検出された前記第1検出区間と前記第2検出区間とを視覚的に表した区間情報を出力する区間情報出力部と、を備える。
[2]また、本発明の一態様は、上記の区間抽出装置において、前記区間検出部は、時間軸上において所定の間隔上限値以下の間隔を隔てる複数の前記第1検出区間と前記第2検出区間を結合して結合区間として、前記区間情報出力部は、前記時間軸に対応して、前記結合区間をさらに視覚的に表した前記区間情報を出力する、ものである。
[3]また、本発明の一態様は、上記の区間抽出装置において、前記素材データ内の前記結合区間に対応する部分を切出して区間データとして出力する区間データ切出部、をさらに備えるものである。
[4]また、本発明の一態様は、上記の区間抽出装置において、前記区間情報出力部は、前記区間情報内の前記結合区間の視覚的表現と、前記結合区間に対応する前記区間データとを、関連付けた形態で、前記区間情報を出力する、ものである。
[5]また、本発明の一態様は、上記の区間抽出装置において、前記区間情報出力部は、前記区間情報内の前記結合区間の視覚的表現内の所定の時点と、前記結合区間に対応する前記区間データの対応する再生位置とを、関連付けた形態で、前記区間情報を出力する、ものである。
[6]また、本発明の一態様は、上記の区間抽出装置において、前記区間情報出力部は、前記結合区間の一部にはならかなった前記第1検出区間および前記第2検出区間に関しては、前記結合区間の一部になった前記第1検出区間および前記第2検出区間とは異なる表示属性を用いる形で、視覚的に表した前記区間情報を出力する、ものである。
[7]また、本発明の一態様は、上記の区間抽出装置において、前記閾値設定部は、前記素材データの所定の時間窓における前記音声のパワーの極大値の平均値から、予め定めた第1オフセット値および第2オフセット値をそれぞれ減じて、前記第1閾値および前記第2閾値を決定する、ものである。
[8]また、本発明の一態様は、素材データに含まれる音声の有声度が、所定の有声度閾値以上であるか否かを判定する音声判定部と、前記音声のパワーの推移に基づいて、前記音声のパワーについての第1閾値および第2閾値(ただし、前記第1閾値が表すパワーは前記第2閾値が表すパワーよりも小さい)を設定する閾値設定部と、前記有声度が前記有声度閾値以上であって且つ前記音声のパワーが前記第1閾値以上である区間を第1検出区間として検出するとともに、前記有声度が前記有声度閾値以上であって且つ前記音声のパワーが前記第2閾値以上である区間を第2検出区間として検出する、区間検出部と、時間軸に対応して検出された前記第1検出区間と前記第2検出区間とを視覚的に表した区間情報を出力する区間情報出力部と、を備える区間抽出装置、としてコンピューターを機能させるためのプログラムである。
本発明によれば、区間抽出装置は、着目すべき音声区間である第1検出区間および第2検出区間を自動的に求め、それらの区間の情報を、視覚的に表現した区間情報として、出力することができる。これにより、素材データからの区間の選択を効率的に行えるようになる。
本発明の実施形態による区間抽出装置の概略機能構成を示すブロック図である。 同実施形態によるデータ取得部が取得する映像データ群の例を示す概略図である。 同実施形態による音声データ分離部が映像データから分離して得られた音声データ群の例を示す概略図である。 同実施形態による音声分析部や音声判定部や閾値設定部が処理対象とする音声データの例を表すグラフ(音声のパワーの時間推移のグラフ)である。 同実施形態による区間情報出力部が出力した区間情報の第1例を示した概略図である。 同実施形態による区間情報出力部が出力した区間情報の第2例を示した概略図である。 同実施形態による区間情報出力部が出力した区間情報の第3例を示した概略図である。 同実施形態による区間抽出装置の内部構成の例を示すブロック図である。
以下において、図面を参照しながら、本発明の実施形態について説明する。本実施形態の区間抽出装置は、映像データまたは音声データを基に、その音声を分析することによって、所定の条件に合う区間(時間区間)を抽出するものである。区間抽出装置は、抽出した区間に関する情報を出力する。また、区間抽出装置は、抽出した区間の映像データまたは音声データを切出して出力する。
本実施形態の区間抽出装置が想定する用途の一例は、次の通りである。即ち、映像コンテンツを制作するために、100台程度またはそれ以上のカメラを様々な場所に設置して数日間程度は撮影(映像収録)しっぱなしの状態とする。それら多数のカメラで取得される映像データ(音声を含む)は、延べ数千時間程度あるいは1万時間以上にもおよぶ。そのような膨大な映像データの中から、番組として使用できる可能性のある個所(映像区間)の候補を、簡単に且つ短時間で切出すために必要な情報を、区間抽出装置は自動的に抽出する。区間抽出装置が出力する情報は、映像コンテンツに使用できる可能性が比較的高い区間(時間区間)に関する情報である。このような情報を、便宜的に、区間情報と呼ぶ。映像コンテンツの編集者であるユーザーは、区間抽出装置が出力した区間情報を参照しながら、映像コンテンツとして利用できる可能性のあるシーンを特定して、それらを抜き出す。ユーザーは、本実施形態の区間抽出装置とは別の装置である編集システムを用いて、抜き出したシーンを適宜つなぐなどして、目的の映像コンテンツの編集を行える。つまり、本実施形態の区間抽出装置によって、映像コンテンツとして利用できるシーンを特定するための時間や手間が、大幅に削減される。
図1は、本実施形態による区間抽出装置の概略機能構成を示すブロック図である。図示するように、区間抽出装置1は、データ取得部21と、映像データ記憶部22と、音声データ分離部23と、音声データ記憶部24と、音声分析部31と、音声判定部32と、閾値設定部33と、区間検出部34と、区間情報出力部43と、区間データ切出部44と、を含んで構成される。これらの各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ(SSD)といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。各部の機能は、次の通りである。
データ取得部21は、外部から映像データを取得する。データ取得部21は、例えば、半導体メモリーを用いた記録媒体から、映像データを読み出す。この映像データは、映像撮影用のカメラが撮影し、前記記録媒体に書き込んだものである。映像データは、映像だけでなく音声をも含んでいるデータである。この映像データを「素材データ」と呼んでもよい。映像データは、映像コンテンツを制作するための素材である。
映像データ記憶部22は、データ取得部21が取得した映像データを記憶する。映像データ記憶部22は、大量の映像データのファイルを記憶することができる。
音声データ分離部23は、映像データ記憶部22に記憶されている映像データファイルから、音声データを分離する。具体的には、音声データ分離部23は、映像と音声とを含んだ映像データファイルを映像データ記憶部22から読み出す。音声データ分離部23は、この映像データファイルをデコードし、音声のみを抽出する。音声データ分離部23は、抽出した音声を、音声データファイルとして出力する。つまり、音声データ分離部23は、映像データファイルから抽出した音声データのファイルを、音声データ記憶部24に書き込む。この音声データを「素材データ」と呼んでもよい。
音声データ記憶部24は、音声データファイルを記憶する。この音声データファイルは、音声データ分離部23によって書き込まれるものである。
音声分析部31は、音声データ記憶部24から音声データファイルを読み込み、その音声を分析する。音声分析部31は、例えば、音声データファイルに含まれる音声を、窓ごとに分析する。窓は、予め決められた長さ(時間長)を有するものである。音声分析部は、所定のシフト量ごとに窓を時間方向に移動させながら、窓ごとの分析を行う。一例として、音声分析部31は、2.0秒(sec)の窓を、シフト量として5ミリ秒(msec)ずつ移動させながら、その窓の区間の音声を分析する。
音声分析部31は、窓区間内の音声のパワーを算出する。音声分析部31は、窓区間内のフレーム単位でのパワーの推移を求める。1フレームは固定長である。1フレームの長さを、例えば、5ミリ秒(msec)としてもよい。音声分析部31は、窓区間内の音声のパワーの推移を求め、さらに、窓内のP_upperおよびP_maxのそれぞれの値を決定する。P_upperは、窓内の音声のパワーの最大値である。P_maxは、窓内の音声のパワーの極大値の平均値である。P_upperおよびP_maxについては、後でさらに説明する。
音声判定部32は、音声分析部31が分析対象とした音声についての判定を行う。具体的には、音声判定部32は、音声のフレームごとの有声度を算出する。有声度の算出自体は、既存の技術および方法を用いて行うことができる。また、音声判定部32は、フレームごとに、算出した有声度が所定の閾値以上であるか否かを判定する。ここでの閾値を、例えば、0.85としてよい。この有声度に関する閾値を「有声度閾値」と呼んでもよい。つまり、音声判定部32は、素材データに含まれる音声の有声度が、所定の有声度閾値以上であるか否かを判定する。
閾値設定部33は、後述する第1検出区間および第2検出区間を検出するための閾値を設定する。第1検出区間を検出するための閾値は、第1閾値P_min1である。第2検出区間を検出するための閾値は、第2閾値P_min2である。閾値設定部33は、例えば、前記のP_maxの値に基づいて、第1閾値P_min1および第2閾値P_min2の値を決定することができる。第1閾値P_min1および第2閾値P_min2の値の決定のしかたの具体例については、後述する。なお、P_min1<P_min2である。つまり、閾値設定部33は、素材データに含まれる音声のパワーの推移に基づいて、音声のパワーについての第1閾値および第2閾値(ただし、前記第1閾値が表すパワーは前記第2閾値が表すパワーよりも小さい)を設定する。閾値設定部33は、例えば、素材データ(音声データ等)の所定の時間窓における音声のパワーの極大値の平均値から、予め定めた第1オフセット値および第2オフセット値をそれぞれ減じて、前記第1閾値および前記第2閾値を決定してもよい。
区間検出部34は、分析対象とした音声内の第1検出区間および第2検出区間を、それぞれ検出する。区間検出部34は、前記の有声度が所定の閾値以上である区間の中から、第1検出区間および第2検出区間をそれぞれ検出する。具体的には、区間検出部34は、有声度が前記閾値以上で、且つ音声のパワーPがP>P_min1である区間(時間区間)を、第1検出区間として検出する。また、区間検出部34は、有声度が前記閾値以上で、且つ音声のパワーPがP>P_min2である区間(時間区間)を、第2検出区間として検出する。区間検出部34は、検出した第1検出区間および第2検出区間それぞれの、開始点および終了点の情報を、区間情報出力部43に渡す。
つまり、区間検出部34は、有声度が前記有声度閾値以上であって且つ前記音声のパワーが前記第1閾値以上である区間を第1検出区間として検出する。また、区間検出部34は、前記有声度が前記有声度閾値以上であって且つ前記音声のパワーが前記第2閾値以上である区間を第2検出区間として検出する。また、区間検出部34は、時間軸上において所定の間隔上限値以下の間隔を隔てる第1検出区間と第2検出区間とを結合して結合区間とすることができる。
区間検出部34は、検出された第1検出区間や第2検出区間を、所定のルールにしたがって結合する。区間検出部34は、結合された結果である結合区間を決定する。区間検出部34は、結合区間の開始点および終了点の情報を、区間情報出力部43や区間データ切出部44に渡す。
区間情報出力部43は、区間検出部34が検出した第1検出区間および第2検出区間に関する情報を、区間情報として出力する。区間情報出力部43は、第1検出区間および第2検出区間に関する複数の項目の情報を出力する。区間情報出力部43は、具体的には、区間情報を文書としてファイルに出力する。区間情報出力部43は、区間情報の文書を、ファイルに出力する代わりに、紙に印刷した文書として出力してもよい。また、区間情報出力部43は、結合区間の一部にはならかなった第1検出区間および第2検出区間に関しては、前記結合区間の一部になった第1検出区間および第2検出区間とは異なる表示属性(例えば、異なる色)を用いる形で、視覚的に表した前記区間情報を出力してもよい。これにより、結合区間には含まれない音声区間について、ユーザーに注意を促すことができるようになる。
つまり、区間情報出力部43は、少なくとも、時間軸に対応して検出された第1検出区間と第2検出区間とを視覚的に表した区間情報を出力する。また、区間情報出力部43は、前記時間軸に対応して前記結合区間をさらに視覚的表現として含む前記区間情報を出力する。また、区間情報出力部43は、前記区間情報内の前記結合区間の視覚的表現と、前記結合区間に対応する前記区間データ(切出されるファイル)とを、関連付けた形態で、前記区間情報を出力してもよい。ここで、結合区間の視覚的表現と結合区間に対応する区間データとの関連付けの方法は、例えば、ハイパーリンクである。これにより、区間情報内における結合区間の視覚的表現の選択(クリック、タップ、タッチ等)により、例えば、関連している区間データの再生を開始させることができる。さらに、区間情報出力部43は、区間情報内の結合区間の視覚的表現内の所定の時点と、その結合区間に対応する区間データ内の対応する再生位置とを、関連付けた形態で、区間情報を出力するようにしてもよい。これにより、区間情報内における結合区間の視覚的表現の中の特定の時点の選択(クリック、タップ、タッチ等)により、例えば、関連している区間データの、対応する時点(再生位置)からの再生を開始させることができる。
区間データ切出部44は、映像データ記憶部22が記憶する映像データファイル(素材データ)から、所定の区間の映像データのみを切出して、ファイル(区間データ)として出力する。ここでの所定の区間とは、例えば、区間検出部34が決定した上記の結合区間である。つまり、区間データ切出部44は、素材データ内の、結合区間に対応する部分を切出して、区間データとして出力する。
図2は、データ取得部21が取得する映像データ群の例を示す概略図である。データ取得部21は、取得した映像データ群を、映像データ記憶部22に書き込む。映像データ群は、複数のカメラによって記録された映像のデータである。映像データ記憶部22に書き込まれた段階において、映像データは、カメラごとに、且つ記録時間帯ごとに、別のファイルとして管理される。図示する例では、映像データ記憶部22は、100台のカメラによって記録された、それぞれ24個の映像データファイルを記憶している。それぞれの映像データファイルは、例えば、3時間分の映像のデータを保持している。各映像データファイルは、ファイル名や、格納されているフォルダーの名称によって識別され得る。図示する例では、映像データファイルのファイル名は、「Cmmm-nn.mp4」である。ここで「mmm」はカメラを識別するための番号(例えば、001から100まで)であり、「nn」は撮影された時間帯を識別するための番号(例えば、01から24まで)である。「mp4」はファイルの拡張子であり、ファイルがmp4形式のファイルであることを表している。例えば、ファイル名「C002-24.mp4」は、第2番目のカメラの、第24番目の時間帯の、mp4形式の映像データのファイルであることを表す。図示する例では、各データファイルが3時間分の映像を保持しており、時間帯を識別する番号が24種類ある。つまり、100台のカメラが撮影したそれぞれ72時間分の映像データを、映像データ記憶部22が記憶している。なお、カメラの台数や、映像の記録時間の長さや、1つのファイルにおける映像の時間の長さなどは、任意であり、上に例示した場合とは異なっていてもよい。
図3は、音声データ分離部23が映像データから分離して得られた音声データ群の例を示す概略図である。音声データ分離部23は、得られた音声データ群を、音声データ記憶部24に書き込む。音声データ群は、映像データから抽出された音声のみのデータである。音声データのファイルは、上記の映像データのファイルに対応して、カメラごと且つ記録時間帯ごとに、別のファイルとして管理される。それぞれの音声データファイルは、映像データファイルに対応して、例えば3時間分の音声のデータを保持している。各音声データファイルは、ファイル名や、格納されているフォルダーの名称によって識別され得る。図示する例では、音声データファイルのファイル名は、「Cmmm-nn.wav」である。ここでの「mmm」および「nn」は、上記の映像データファイルの名称と同様の識別情報である。「wav」はファイルの拡張子であり、ファイルがwav形式(wave)の音声ファイルであることを表している。例えば、ファイル名「C003-23.wav」は、第3番目のカメラの、第23番目の時間帯の、映像データのファイルから抽出された音声データのファイルであることを表す。図示する例では、各データファイルが3時間分の音声を保持しており、時間帯を識別する番号が24種類ある。つまり、図3に示す個々の音声データファイルは、図2に示した映像データファイルと1対1に対応する。なお、カメラの台数や、映像の記録時間の長さや、1つのファイルにおける音声の時間の長さなどは、任意であり、上に例示した場合とは異なっていてもよい。
なお、個々の音声データファイルは、所定の形式でコード化されたデータを保持する。音声データファイルは、音声波形と等価な情報を持つものである。音声データファイルを基に、音声波形を再現することが可能である。また、音声データファイルを基に、その音声に関する様々な量を算出することが可能である。ここでの量とは、例えば、ある時点における音声全体のパワーや、周波数ビンごとのパワーなどを含む。
図4は、音声分析部31や音声判定部32や閾値設定部33が処理対象とする音声データの例を表すグラフである。音声分析部31は、所定時間ずつシフトする窓における音声を分析対象とする。音声判定部32や閾値設定部33も、同様の窓を処理対象とする。ここで、分析対象の窓は、例えば、5ミリ秒(msec)ずつシフトしていく窓である。窓の幅(長さ)は、例えば、2.000秒(sec)である。同図のグラフは、窓内における音声のパワーの時間推移を表すものである。このグラフの横軸は時間であり、縦軸は音声のパワー(単位は、デシベル(dB))である。音声のパワーは、前述の音声データのファイル(例えば、WAV形式のファイル)を基に求めることができる。同図に示すP_upper、P_max、P_min2、P_min1のそれぞれは、窓内の音声を分析することによって求められるパワーのレベルである。P_upperは、当該窓の区間内(2秒間)における音声のパワーの最大値である。つまり、P_upperは、パワー上限値である。P_maxは、当該窓の区間内に含まれるパワーの極大値(ピーク値)の平均値である。つまり、P_maxは、パワー平均極大値である。P_maxは、窓内における極大値の合計を、それらの極大点の数で除すことによって算出される。この定義より、P_max≦P_upperである。P_min2は、上記P_max(パワー平均極大値)から所定の第2オフセット量を減じたパワーである。P_min2は、第2閾値と呼ぶことができる。P_min1は、上記P_max(パワー平均極大値)から所定の第1オフセット量を減じたパワーである。P_min1は、第1閾値と呼ぶことができる。
P_upper、P_max、P_min2、P_min1の値の例は、次の通りである。窓の区間内におけるパワーの最大値が-8[dB]である場合、P_upper=-8[dB]である。窓の区間内に含まれるパワーの極大値(ピーク値)の平均値が-20[dB]である場合、P_max=-20[dB]である。第2閾値を求めるための第2オフセット値は、例えば、6[dB]である。この場合、P_min2=-20-6=-26[dB]である。第1閾値を求めるための第1オフセット値は、例えば、10[dB]である。この場合、P_min1=-20-10=-30[dB]である。なお、実際の値は、ここに例示した値と異なっていてもよい。また、音声素材に合わせて、言い換えれば音源の種類や音響環境等に応じて、第2閾値および第1閾値の値のそれぞれを適宜変更するようにしてもよい。
区間検出部34は、窓区間における音声のパワーの推移(フレームごとのパワーの値の系列)と、音声判定部32が判定した有声度についての判定結果と、閾値設定部33が設定した2種類の閾値、即ち第1閾値P_min1および第2閾値P_min2と、に基づいて、区間の検出を行う。
つまり、区間検出部34は、有声度が所定閾値(例えば、0.85)以上、且つ音声のパワーPがP≧P_min1であるような時間区間を、第1検出区間として検出する。第1検出区間は、マイクロフォンの芯または周辺のいずれかで音を捉えていると推定できる時間区間である。言い換えれば、第1検出区間は、パワーが小さくても明瞭な周辺の音声を含んで捉えていると推定できる。また、区間検出部34は、有声度が所定閾値(上と同様)以上、且つ音声のパワーPがP≧P_min2であるような時間区間を、第2検出区間として検出する。第2検出区間は、マイクロフォンの芯で音を捉えていると推定できる時間区間である。言い換えれば、第2検出区間は、パワーが大きく且つ明瞭な音声を捉えている区間であると推定できる。
また、区間検出部34は、検出した区間の結合を行い、結合区間を求める。具体的には、区間検出部34は、条件に基づいて、既に検出した第1検出区間または第2検出区間を、前または後の別の第1検出区間または第2検出区間と結合する。つまり、区間検出部34は、条件に基づいて、複数の第1検出区間または第2検出区間を相互に結合して、まとまった結合区間とする。その条件とは、結合対象となる複数の第1検出区間または第2検出区間の相互の間隔が所定の長さ以下であることである。ここで、結合のための間隔の上限値は、適宜設定可能な値としてよい。一例として、結合のための間隔の上限値(「間隔上限値」と呼んでもよい)を10.0秒(sec)としてよい。つまり、間隔の上限値を10.0秒とした場合、ある第1検出区間または第2検出区間と、次の第1検出区間または第2検出区間との間隔が上限値(10.0秒)以下である場合に、区間検出部34は、それら2つの区間を結合して、1つの結合区間とする。なお、3つ以上の第1検出区間または第2検出区間が並んでいて、それらの区間の隣り合う区間との間隔がすべて上限値以下である場合には、区間検出部34は、それら3つ以上の第1検出区間または第2検出区間をすべて結合して、1つの結合区間とする。
区間検出部34は、検出した区間や結合した区間の情報を、区間情報出力部43や区間データ切出部44に伝える。具体的には、区間検出部34は、検出した第1検出区間や第2検出区間の情報(区間情報)を、区間情報出力部43に伝える。ここでの区間情報は、少なくとも、各々の第1検出区間または第2検出区間の、始点の時刻情報と終点の時刻情報とを含む。また、区間検出部34は、結合区間の情報(結合区間情報)を、区間情報出力部43および区間データ切出部44の両方に伝える。ここでの結合区間情報は、少なくとも、各々の結合区間の始点の時刻情報と終点の時刻情報とを含む。このようにして、区間情報出力部43や区間データ切出部44は、処理に必要な区間の情報を取得する。
なお、結合区間は、区間データ切出部44が区間データを切出して出力する場合の単位である。つまり、区間データ切出部44は、結合区間に対応する区間データ(映像データ)を元の映像データから切出して出力する。
次に、区間情報出力部43が出力する情報の例について、図5、図6、図7を参照しながら説明する。図5、図6、図7のそれぞれは、区間情報出力部43が出力する区間情報の例を示す概略図である。図示するように、区間情報出力部43によって出力される区間情報は、複数の項目の情報を含むものである。図5、図6、図7のそれぞれは、所定の長さ(26~28分程度)の音声の分析結果に基づく情報を示している。区間情報出力部43によって出力される区間情報は、例えばプリンター等を用いてA4判の紙に印刷した情報であってもよいし、例えばPDF(Portable Document Format)形式等の文書ファイルの情報であってもよい。
図5、図6、図7のそれぞれにおいて、区間情報は、符号501から505までの情報表示欄を含む。501は、分析対象となった音声の波形を表示するための欄である。502は、時間軸に対応する目盛を表示するための欄である。この時間軸の目盛は、503、504、505のそれぞれの欄に対応するものである。503は、区間検出部34が検出した第1検出区間を表示するための欄である。504は、区間検出部34が検出した第2検出区間を表示するための欄である。505は、区間検出部34が条件に基づいて結合した結果である結合区間を表示するための欄である。
図5は、区間情報出力部43が出力した区間情報の第1例を示した概略図である。図6は、区間情報出力部43が出力した区間情報の第2例を示した概略図である。図7は、区間情報出力部43が出力した区間情報の第3例を示した概略図である。
図5に示す第1例では、502の欄に表示されている時間帯は、18:20:00、18:25:00、18:30:00、18:35:00、18:40:00(いずれも、hh:mm:ss形式、つまり時・分・秒の形式)を含む。この第1例において、811、812、813、814のそれぞれの領域(破線の枠の領域)の特徴は、次の通りである。
領域811では、第1検出区間のみが検出される時間と、第1検出区間および第2検出区間の両方が検出される時間とが、ほどよいバランスで混ざっている。つまり、領域811では、複数の人による対話の音声が含まれていると推定できる。
領域812では、第1検出区間のみが検出される時間が含まれている一方で、第2検出区間が検出される時間はない。つまり、領域812では、マイクロフォンの位置を基準としたときの周辺音だけが含まれていると推定できる。
領域813では、第1検出区間および第2検出区間の両方が検出される時間が含まれている一方で、第1検出区間のみが検出される時間はない。つまり、領域813では、マイクロフォンの芯で捉えられた音声のみ、即ち、独話の音声ないしは独話に近い音声が含まれていると推定できる。領域814も、上記領域813と同様の特徴を持つ。つまり、領域814においても、マイクロフォンの芯で捉えられた音声のみ、即ち、独話の音声ないしは独話に近い音声が含まれていると推定できる。
図6に示す第2例では、502の欄に表示されている時間帯は、18:20:00、18:25:00、18:30:00、18:35:00、18:40:00(いずれも、hh:mm:ss形式、つまり時・分・秒の形式)を含む。この第2例において、821、822、823、824のそれぞれの領域(破線の枠の領域)の特徴は、次の通りである。
領域821では、第1検出区間のみが検出される時間と、第1検出区間および第2検出区間の両方が検出される時間とが、ほどよいバランスで混ざっている。つまり、領域821では、複数の人による対話の音声が含まれていると推定できる。領域823も、上記の領域821と同様の特徴を持っている。つまり、領域823では、複数の人による対話の音声が含まれていると推定できる。
領域822では、第1検出区間のみが検出される時間が含まれている一方で、第2検出区間が検出される時間はない。つまり、領域812では、マイクロフォンの位置を基準としたときの周辺音だけが含まれていると推定できる。
領域824では、第1検出区間および第2検出区間の両方が検出される時間が含まれている一方で、第1検出区間のみが検出される時間はない。つまり、領域824では、マイクロフォンの芯で捉えられた音声のみ、即ち、独話の音声ないしは独話に近い音声が含まれていると推定できる。
図7に示す第3例では、502の欄に表示されている時間帯は、17:35:00、17:40:00、17:45:00、17:50:00、17:55:00(いずれも、hh:mm:ss形式、つまり時・分・秒の形式)を含む。この第3例において、831、832のそれぞれの領域(破線の枠の領域)の特徴は、次の通りである。
領域831では、第1検出区間および第2検出区間の両方が検出される時間が含まれている一方で、第1検出区間のみが検出される時間はない。つまり、領域831では、マイクロフォンの芯で捉えられた音声のみ、即ち、独話の音声ないしは独話に近い音声が含まれていると推定できる。
領域832では、第1検出区間のみが検出される時間と、第1検出区間および第2検出区間の両方が検出される時間とが、ほどよいバランスで混ざっている。つまり、領域832では、複数の人による対話の音声が含まれていると推定できる。
上の図5、図6、図7の上記のように、第1検出区間の検出時間および第2検出区間の検出時間の組合せのパターンによって、各領域(時間区間)における音の特徴の分類を行うことができる。つまり、区間抽出装置1の区間情報出力部43が図5、図6、図7に示したような区間情報を出力することにより、ユーザーは、領域ごとの音の特徴を、視覚的な情報に基づいて理解することができる。また、ユーザーは上記の領域ごとの音の特徴を、区間データ切出部44が切出した区間データ(映像のデータ)との関連において把握することができる。
以上の説明のように、本実施形態では、大量の映像データの中から、効率的に且つ簡単な装置で、番組で使えそうなシーンを特定する。これを実現する手法として、区間抽出装置1は、音声から発話区間を捉え、その区間(第1検出区間や第2検出区間のそれぞれ)をタイムラインで表示する。また、区間抽出装置1は、ひとかたまりの区間(結合区間)に対応する結合区間のデータファイル(映像ファイル等)を自動的に切出して出力する。これにより、ユーザーである映像の編集者は、大量の映像データ(素材)の探索を容易に行うことができる。本実施形態の特徴は、次の通りである。
第1の特徴として、区間情報出力部43は、時間経過に沿った音声の状態の推移を視覚情報として出力する。ここでの音声の状態は、音声の有無や、音声のパワーの大きさに関する情報を含む。これにより、ユーザーは、音声データ内のどのタイミングに音声の塊が存在しているのかを、視覚的に即座に把握することができる。つまり、区間情報出力部43がタイムラインに沿って音声の状態を描画することにより、ユーザーは、どのタイミングに音声の塊が存在しているのかを即座に視認できる。
第2の特徴として、区間情報出力部43は、上記の視覚情報の少なくとも一部として、時間経過に沿った音声波形の推移を出力する。これにより、ユーザーは、時間経過の中での、音声のパワーが大きい位置を視覚的に把握することができる。言い換えれば、区間情報出力部43が音声波形を描画することにより、ユーザーは、音声パワーが大きい位置を把握できる。
第3の特徴として、区間情報出力部43は、区間検出部34が分析、検出した結果を2種類の視覚情報として描画し、出力する。この視覚情報の第1の種類は、第1検出区間の情報である。第1検出区間は、音声データ内の細やかな音声をも含む区間である。区間検出部34は、音声のパワーが比較的小さい時間区間についても、その音声の存在を検出する。これにより、マイクの芯で拾った音声だけではなく、マイクの周辺で拾った音声の存在を、視覚的に認知可能な情報として出力することができる。また、上記視覚情報の第2の種類は、音声データ内の、パワーが比較的大きい音声の検出である。区間検出部34は、音声のパワーが大きい時間区間について、その音声の存在を検出する。これにより、マイクの芯が捉えたメインの音声の存在を、視覚情報として出力することができる。上記の2種類の視覚情報を出力するために、区間検出部34は、2種類の閾値P_min1およびP_min2を用いて、音声のパワーの大きさを判断する。区間情報出力部43が上記の2種類の視覚情報を出力することによって、ユーザーは、ある時間区間の音声が、周囲のざわつきだけの音声なのか、メインと周囲の会話なのか、メインの音声のみ(ひとりごと、独話)なのか、おおよそのあたりをつけることができる。つまり、区間検出部34が2種類の分析を行い、区間情報出力部43がそれらの分析結果および音声波形を含む情報を出力することにより、ユーザーは、映像コンテンツを制作するために使用できる可能性のある映像データの時間区間をおおまかに把握することができる。
第4の特徴として、区間検出部34は、複数の発話区間(第1検出区間や第2検出区間)を一括りにまとめて、ある程度の大きさ(長さ)を持った塊の発話区間(結合区間)にする。つまり、区間検出部34が複数の発話区間を結合することにより、検出された区間を細切れの区間として捉えなくてよくなる。これにより、ユーザーは、一目で、音声が集中しているシーンを、視認、確認することができる。
第5の特徴として、区間データ切出部は、上記の結合区間に対応するデータファイル(映像データのファイル等)を自動的に切出す。区間情報出力部43が出力する区間情報が切出されたデータファイルに関連付くようにしておけば、ユーザーは、区間情報の中から上記の切出されたデータファイルにアクセスし、映像等の再生を行うこともできる。また、切出されたデータファイル内の再生位置を区間情報内から指定できるようにしておくことにより、ユーザーは、所望の映像等の位置を直ちに再生して視聴することもできる。これらにより、ユーザーにかかる手間をより一層短縮することが可能となる。
つまり、区間情報出力部43は、前記区間情報内の前記結合区間の視覚的表現と、前記結合区間に対応する前記区間データ(切出されるファイル)とを、関連付けた形態で、前記区間情報を出力してもよい。関連付けを行う方法の一例は、ハイパーリンクである。これにより、区間情報内における結合区間の視覚的表現の選択(クリック、タップ、タッチ等)により、例えば、関連している区間データの再生を開始させることができる。さらに、区間情報出力部43は、区間情報内の結合区間の視覚的表現内の所定の時点と、その結合区間に対応する区間データ内の対応する再生位置とを、関連付けた形態で、区間情報を出力するようにしてもよい。これにより、区間情報内における結合区間の視覚的表現の中の特定の時点の選択(クリック、タップ、タッチ等)により、例えば、関連している区間データの、対応する時点(再生位置)からの再生を開始させることができる。
第6の特徴として、検出された第1検出区間または第2検出区間のうち、結合区間に含まれなかった区間について、区間情報出力部43が、例えば色を変えるなど、表示属性を変えて示すようにしてもよい。この場合、ユーザーの注意を促すことができる。
一般に音声は、有声音あるいは無声音の2種類に大別される。また、それ以外の雑音や無音などを音声でないものとして分類することができる。本実施形態では、有声度に基づいて音声の程度を区別するための判定を行っている。つまり、本実施形態は、有声音のみを音声区間として扱っている。有声音のパワーは大きく、且つ雑音でなければ信号のゼロ交差数は小さくなる。
有声度の算出や有声音の区間検出自体は、既存技術を用いて行うことができる。
例えば、文献:都木徹「ピッチ同期音声処理のためのピッチ区間自動区分化の一手法」には、本実施形態が利用する自己相関分析のVc(有声度)や、有声音区間の検出方法が記載されている。
本実施形態では、2種類の閾値P_min1およびP_min2を用いることにより、異なる区間を検出できるようにしている。また、これにより、異なる種類の音声区間を検出できるようにしている。区間を検出する際のパワーの閾値を小さくすればするほど、該当する区間は増える。つまり、P_min1<P_min2であるため、小さい方の閾値P_min1を用いて検出した区間(第1検出区間)は、本来不要な区間を含んでしまう可能性もあるものの、閾値P_min2による検出だけでは漏れてしまう音声をも検出するようにできる。大きい方の閾値であるP_min2で検出した区間(第2検出区間)は、第1検証区間よりは少ない区間であるが、余計な音声を除去した区間であり、主音声となるべき音声だけを対象として拾うことができる。ユーザーは、これらの第1検出区間と第2検出区間の組合せのパターンに基づいて、編集作業を行うことができる。
第1検出区間のみの区間と、第1検出区間および第2検出区間の両方の区間とが、ともに多く検出されている領域では、そのシーンのメインの人(被写体)が周囲の誰か別の人と対話している可能性が高いと考えられる。また、第1検出区間および第2検出区間の両方の区間は、上記のメインの人が発声していると推定される領域であり、ユーザーは、そういった区間を優先的に視聴することもできる。
いずれの場合も、ユーザーは、出力される区間情報を参照することにより、視覚的に当該シーンの状況を把握することができるため、実際の映像を効率的に視聴できるようになる。このように収録した映像内のイベントを早期に発見できることは、コンテンツの効率的な制作につながる。
図8は、本実施形態の区間抽出装置1の内部構成の例を示すブロック図である。区間抽出装置1は、コンピューターを用いて実現され得る。図示するように、そのコンピューターは、中央処理装置901と、RAM902と、入出力ポート903と、入出力デバイス904や905等と、バス906と、を含んで構成される。コンピューター自体は、既存技術を用いて実現可能である。中央処理装置901は、RAM902等から読み込んだプログラムに含まれる命令を実行する。中央処理装置901は、各命令にしたがって、RAM902にデータを書き込んだり、RAM902からデータを読み出したり、算術演算や論理演算を行ったりする。RAM902は、データやプログラムを記憶する。RAM902に含まれる各要素は、アドレスを持ち、アドレスを用いてアクセスされ得るものである。なお、RAMは、「ランダムアクセスメモリー」の略である。入出力ポート903は、中央処理装置901が外部の入出力デバイス等とデータのやり取りを行うためのポートである。入出力デバイス904や905は、入出力デバイスである。入出力デバイス904や905は、入出力ポート903を介して中央処理装置901との間でデータをやりとりする。バス906は、コンピューター内部で使用される共通の通信路である。例えば、中央処理装置901は、バス906を介してRAM902のデータを読んだり書いたりする。また、例えば、中央処理装置901は、バス906を介して入出力ポートにアクセスする。
なお、上述した実施形態における区間抽出装置1の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM、DVD-ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。つまり、「コンピューター読み取り可能な記録媒体」とは、非一過性の(non-transitory)コンピューター読み取り可能な記録媒体であってよい。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
[変形例]
ここで、上記実施形態の変形例を説明する。上記実施形態では、データ取得部21が映像データを取得していた。映像データは、映像と音声とを含んでいた。音声データ分離部23は、上記のような映像データから音声のみを分離・抽出し、音声データを生成していた。音声データ記憶部24は、そのような音声データのファイルを記憶している。本実施形態では、映像データを外部から取得する代わりに、最初から音声のみのデータを外部から取得する。つまり、外部から取得した大量の音声のデータが、音声データ記憶部24に書き込まれている。このような音声データは、動画用のカメラではなく、録音機(ICレコーダー等)で収音されたものである。変形例の区間抽出装置1において、その後の音声分析等の処理は、上記実施形態と同様の処理である。ただし、区間データ切出部44は、映像データを切出して区間データ(映像)を生成するのではなく、音声データを切出して区間データ(音声のデータ)を生成する。このように、上記実施形態の変形例を実施するようにしてもよい。このような変形例は、例えば音声コンテンツを制作するために利用できる。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
例えば、区間情報出力部43が出力する区間情報は、必ずしも図5~図7に例示した形態あるいはレイアウトで出力されるものでなくてもよい。区間情報出力部43は、上で説明した情報と等価な情報を、図5~図7とは異なる形態あるいはレイアウトで出力するようにしてもよい。また、区間情報出力部43は、図5~図7で示した情報項目のうちの一部のみを区間情報として出力してもよい。
また、例えば、音声分析部31や、音声判定部32や、閾値設定部33や、区間検出部34は、素材データに含まれる音声(あるいは含まれていた音声)を処理対象としてよい。必ずしも、音声データ分離部23が、映像データから音声のみを分離して独立のデータファイルとして生成しなくてもよい。
本発明は、例えば、コンテンツの制作のために利用することができる。より具体的には、本発明は、例えば、映像や音声の素材を基にコンテンツを制作する際に、素材の中から選択すべき区間の候補に関する情報をわかりやすくユーザーに提示するために利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。
1 区間抽出装置
21 データ取得部
22 映像データ記憶部
23 音声データ分離部
24 音声データ記憶部
31 音声分析部
32 音声判定部
33 閾値設定部
34 区間検出部
43 区間情報出力部
44 区間データ切出部
901 中央処理装置
902 RAM
903 入出力ポート
904,905 入出力デバイス
906 バス

Claims (8)

  1. 素材データに含まれる音声の有声度が、所定の有声度閾値以上であるか否かを判定する音声判定部と、
    前記音声のパワーの推移に基づいて、前記音声のパワーについての第1閾値および第2閾値(ただし、前記第1閾値が表すパワーは前記第2閾値が表すパワーよりも小さい)を設定する閾値設定部と、
    前記有声度が前記有声度閾値以上であって且つ前記音声のパワーが前記第1閾値以上である区間を第1検出区間として検出するとともに、前記有声度が前記有声度閾値以上であって且つ前記音声のパワーが前記第2閾値以上である区間を第2検出区間として検出する、区間検出部と、
    時間軸に対応して検出された前記第1検出区間と前記第2検出区間とを視覚的に表した区間情報を出力する区間情報出力部と、
    を備える区間抽出装置。
  2. 前記区間検出部は、時間軸上において所定の間隔上限値以下の間隔を隔てる複数の前記第1検出区間と前記第2検出区間を結合して結合区間として、
    前記区間情報出力部は、前記時間軸に対応して、前記結合区間をさらに視覚的に表した前記区間情報を出力する、
    請求項1に記載の区間抽出装置。
  3. 前記素材データ内の前記結合区間に対応する部分を切出して区間データとして出力する区間データ切出部、
    をさらに備える請求項2に記載の区間抽出装置。
  4. 前記区間情報出力部は、前記区間情報内の前記結合区間の視覚的表現と、前記結合区間に対応する前記区間データとを、関連付けた形態で、前記区間情報を出力する、
    請求項3に記載の区間抽出装置。
  5. 前記区間情報出力部は、前記区間情報内の前記結合区間の視覚的表現内の所定の時点と、前記結合区間に対応する前記区間データの対応する再生位置とを、関連付けた形態で、前記区間情報を出力する、
    請求項4に記載の区間抽出装置。
  6. 前記区間情報出力部は、前記結合区間の一部にはならかなった前記第1検出区間および前記第2検出区間に関しては、前記結合区間の一部になった前記第1検出区間および前記第2検出区間とは異なる表示属性を用いる形で、視覚的に表した前記区間情報を出力する、
    請求項2に記載の区間抽出装置。
  7. 前記閾値設定部は、前記素材データの所定の時間窓における前記音声のパワーの極大値の平均値から、予め定めた第1オフセット値および第2オフセット値をそれぞれ減じて、前記第1閾値および前記第2閾値を決定する、
    請求項1から6までのいずれか一項に記載の区間抽出装置。
  8. 素材データに含まれる音声の有声度が、所定の有声度閾値以上であるか否かを判定する音声判定部と、
    前記音声のパワーの推移に基づいて、前記音声のパワーについての第1閾値および第2閾値(ただし、前記第1閾値が表すパワーは前記第2閾値が表すパワーよりも小さい)を設定する閾値設定部と、
    前記有声度が前記有声度閾値以上であって且つ前記音声のパワーが前記第1閾値以上である区間を第1検出区間として検出するとともに、前記有声度が前記有声度閾値以上であって且つ前記音声のパワーが前記第2閾値以上である区間を第2検出区間として検出する、区間検出部と、
    時間軸に対応して検出された前記第1検出区間と前記第2検出区間とを視覚的に表した区間情報を出力する区間情報出力部と、
    を備える区間抽出装置、としてコンピューターを機能させるためのプログラム。
JP2021053534A 2021-03-26 2021-03-26 区間抽出装置およびプログラム Pending JP2022150777A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021053534A JP2022150777A (ja) 2021-03-26 2021-03-26 区間抽出装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021053534A JP2022150777A (ja) 2021-03-26 2021-03-26 区間抽出装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2022150777A true JP2022150777A (ja) 2022-10-07

Family

ID=83465372

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021053534A Pending JP2022150777A (ja) 2021-03-26 2021-03-26 区間抽出装置およびプログラム

Country Status (1)

Country Link
JP (1) JP2022150777A (ja)

Similar Documents

Publication Publication Date Title
JP4600828B2 (ja) 文書対応付け装置、および文書対応付け方法
US6697564B1 (en) Method and system for video browsing and editing by employing audio
CN103035247B (zh) 基于声纹信息对音频/视频文件进行操作的方法及装置
JP2007519987A (ja) 内部及び外部オーディオビジュアルデータの統合解析システム及び方法
US20110153328A1 (en) Obscene content analysis apparatus and method based on audio data analysis
JP2004533756A (ja) 自動コンテンツ分析及びマルチメデイア・プレゼンテーションの表示
JP2004229283A (ja) ニュースビデオにおいてニュース司会者の遷移を識別する方法
JP2010011409A (ja) 映像ダイジェスト装置及び映像編集プログラム
US7349477B2 (en) Audio-assisted video segmentation and summarization
JP3437617B2 (ja) 時系列データ記録再生装置
JP2009278202A (ja) 映像編集装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
US20050114388A1 (en) Apparatus and method for segmentation of audio data into meta patterns
CN107886975A (zh) 音频的处理方法、装置、存储介质及电子设备
JP2022150777A (ja) 区間抽出装置およびプログラム
CN114495946A (zh) 声纹聚类方法、电子设备和存储介质
JPH08249343A (ja) 音声情報取得装置及び音声情報取得方法
JP4272611B2 (ja) 映像処理方法、映像処理装置、映像処理用プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2019213160A (ja) 動画編集装置、動画編集方法、及び動画編集プログラム
CN112581937A (zh) 一种语音指令的获得方法及装置
WO2023152811A1 (ja) 映像検索装置、映像検索方法およびプログラム記憶媒体
US20240135973A1 (en) Video segment selection and editing using transcript interactions
US20240127857A1 (en) Face-aware speaker diarization for transcripts and text-based video editing
US20240134909A1 (en) Visual and text search interface for text-based video editing
US20240127820A1 (en) Music-aware speaker diarization for transcripts and text-based video editing
US20240127858A1 (en) Annotated transcript text and transcript thumbnail bars for text-based video editing

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20231222

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240222