JP2022150777A

JP2022150777A - 区間抽出装置およびプログラム

Info

Publication number: JP2022150777A
Application number: JP2021053534A
Authority: JP
Inventors: 麻乃一木; Manon Ichiki; 徹都木; Toru Tsugi
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp; NHK Engineering System Inc
Current assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2022-10-07

Abstract

【課題】大量の素材データの中から、必要と思われるシーンの候補を、簡単に特定することのできる区間抽出装置およびプログラムを提供する。【解決手段】音声判定部は、素材データに含まれる音声の有声度が、所定の有声度閾値以上であるか否かを判定する。閾値設定部は、前記音声のパワーの推移に基づいて、前記音声のパワーについての第１閾値および第２閾値を設定する。区間検出部は、前記有声度が前記有声度閾値以上であって且つ前記音声のパワーが前記第１閾値以上である区間を第１検出区間として検出するとともに、前記有声度が前記有声度閾値以上であって且つ前記音声のパワーが前記第２閾値以上である区間を第２検出区間として検出する。区間情報出力部は、時間軸に対応して検出された前記第１検出区間と前記第２検出区間とを視覚的に表した区間情報を出力する。【選択図】図１

Description

本発明は、区間抽出装置およびプログラムに関する。

大量の映像データまたは音声データの中から、所定のイベントを検出する研究が行われている。このとき、映像データは、音声データを含むものである。また、映像データまたは音声データから検出したイベントに基づいてそれらの映像データまたは音声データにメタデータを付与することも可能である。イベントの検出やメタデータの付与を自動的に行えるようにすることは、情報検索のために有用である。また、例えば映像コンテンツの制作作業のためにこのような技術を利用することもできる。

音声処理によって情報を付加する技術の一例は、音響イベント検出の技術である。また、映像データまたは音声データの中から人の声による発話区間を検出する技術の例は、音声認識のＶＡＤ（voice activity detection）による有声区間検出技術や、話速変換技術で用いられる有声区間推定技術である。

特許文献１には、テレビ番組等の映像データにメタデータを付与するための技術が開示されている。

特許文献２には、ニューラルネットワークを利用して、音響データの中に含まれる音響イベントを推定する技術が開示されている。

特許文献３には、音響データの中に含まれる音響イベントに関して、適切な言語表現を特定するための技術が記載されている。

特開２００６－０１８９７２号公報特開２０１５－０５７６３０号公報特開２０１５－２１２７３１号公報

上で説明した従来技術のそれぞれは、個々の特定の目的に特化した技術である。したがって、大量の映像データあるいは音声データの中から、例えば映像コンテンツの制作のために必要と考えられる区間（シーン）のみを素早く特定する、といった用途に適したものではない。

例えば、映像コンテンツの制作のために、映像データの中からイベントを検出して特定の映像区間等にラベルを付与する処理の場合には、そもそも何を抽出したいのかを予め明確にしておかなければならないという問題がある。

また、イベント検出の精度を高めるにはディープラーニング（Deep Learning）の技術を活用することも考えられるが、そのためには目的とする物についての学習処理を事前に行う必要がある。映像を入力とするニューラルネットワークが所望の出力を適切に行うためには、フレーム画像ごとの処理を行う必要がある。例えば、数千時間におよぶ大量の映像データを分析するためには、時間がかかりすぎて、現実的な映像コンテンツ制作のスケジュールには合わないという問題がある。

音声区間を検出するためのＶＡＤ技術は、例えば発話の長さを計測する目的には適している。また、ディープラーニングの手法を用いてＶＡＤ技術を実施することにより、ノイズを含む音声データからも、ある程度の精度で音声区間を検出することができる。しかしながら、ディープラーニングを用いた音声区間の検出の精度は、学習データの質や量にも依存しており、抽出したい音の種類に合わせて音声区間検出用の学習モデルを柔軟に設定することができないという問題がある。

上記のいずれの場合も、ディープラーニングを用いるためには、膨大な学習データを準備したうえで、膨大な計算資源（ＧＰＵ（Graphics Processing Unit）等）と学習のための時間をかけて、モデルの学習を行うことが必須である。ディープラーニングを用いる手法は、分析対象となる実際の映像データの検出したいイベントによく合った学習データでモデルを学習する場合には、有効である。その一方で、学習データに出現しない想定外の状況のすべてを学習することは困難である。また、処理能力の低い計算機でディープラーニングを行うことは、困難、あるいは非効率的である。

本発明は、上記のような事情を考慮して為されたものであり、大量の映像データや音声データ（これらを素材データと呼ぶ）の中から、必要と思われるシーン（映像区間あるいは音声区間）を、短時間で、且つ軽い処理で特定することのできる区間抽出装置およびプログラムを提供しようとするものである。

［１］上記の課題を解決するため、本発明の一態様による区間抽出装置は、素材データに含まれる音声の有声度が、所定の有声度閾値以上であるか否かを判定する音声判定部と、前記音声のパワーの推移に基づいて、前記音声のパワーについての第１閾値および第２閾値（ただし、前記第１閾値が表すパワーは前記第２閾値が表すパワーよりも小さい）を設定する閾値設定部と、前記有声度が前記有声度閾値以上であって且つ前記音声のパワーが前記第１閾値以上である区間を第１検出区間として検出するとともに、前記有声度が前記有声度閾値以上であって且つ前記音声のパワーが前記第２閾値以上である区間を第２検出区間として検出する、区間検出部と、時間軸に対応して検出された前記第１検出区間と前記第２検出区間とを視覚的に表した区間情報を出力する区間情報出力部と、を備える。

［２］また、本発明の一態様は、上記の区間抽出装置において、前記区間検出部は、時間軸上において所定の間隔上限値以下の間隔を隔てる複数の前記第１検出区間と前記第２検出区間を結合して結合区間として、前記区間情報出力部は、前記時間軸に対応して、前記結合区間をさらに視覚的に表した前記区間情報を出力する、ものである。

［３］また、本発明の一態様は、上記の区間抽出装置において、前記素材データ内の前記結合区間に対応する部分を切出して区間データとして出力する区間データ切出部、をさらに備えるものである。

［４］また、本発明の一態様は、上記の区間抽出装置において、前記区間情報出力部は、前記区間情報内の前記結合区間の視覚的表現と、前記結合区間に対応する前記区間データとを、関連付けた形態で、前記区間情報を出力する、ものである。

［５］また、本発明の一態様は、上記の区間抽出装置において、前記区間情報出力部は、前記区間情報内の前記結合区間の視覚的表現内の所定の時点と、前記結合区間に対応する前記区間データの対応する再生位置とを、関連付けた形態で、前記区間情報を出力する、ものである。

［６］また、本発明の一態様は、上記の区間抽出装置において、前記区間情報出力部は、前記結合区間の一部にはならかなった前記第１検出区間および前記第２検出区間に関しては、前記結合区間の一部になった前記第１検出区間および前記第２検出区間とは異なる表示属性を用いる形で、視覚的に表した前記区間情報を出力する、ものである。

［７］また、本発明の一態様は、上記の区間抽出装置において、前記閾値設定部は、前記素材データの所定の時間窓における前記音声のパワーの極大値の平均値から、予め定めた第１オフセット値および第２オフセット値をそれぞれ減じて、前記第１閾値および前記第２閾値を決定する、ものである。

［８］また、本発明の一態様は、素材データに含まれる音声の有声度が、所定の有声度閾値以上であるか否かを判定する音声判定部と、前記音声のパワーの推移に基づいて、前記音声のパワーについての第１閾値および第２閾値（ただし、前記第１閾値が表すパワーは前記第２閾値が表すパワーよりも小さい）を設定する閾値設定部と、前記有声度が前記有声度閾値以上であって且つ前記音声のパワーが前記第１閾値以上である区間を第１検出区間として検出するとともに、前記有声度が前記有声度閾値以上であって且つ前記音声のパワーが前記第２閾値以上である区間を第２検出区間として検出する、区間検出部と、時間軸に対応して検出された前記第１検出区間と前記第２検出区間とを視覚的に表した区間情報を出力する区間情報出力部と、を備える区間抽出装置、としてコンピューターを機能させるためのプログラムである。

本発明によれば、区間抽出装置は、着目すべき音声区間である第１検出区間および第２検出区間を自動的に求め、それらの区間の情報を、視覚的に表現した区間情報として、出力することができる。これにより、素材データからの区間の選択を効率的に行えるようになる。

本発明の実施形態による区間抽出装置の概略機能構成を示すブロック図である。同実施形態によるデータ取得部が取得する映像データ群の例を示す概略図である。同実施形態による音声データ分離部が映像データから分離して得られた音声データ群の例を示す概略図である。同実施形態による音声分析部や音声判定部や閾値設定部が処理対象とする音声データの例を表すグラフ（音声のパワーの時間推移のグラフ）である。同実施形態による区間情報出力部が出力した区間情報の第１例を示した概略図である。同実施形態による区間情報出力部が出力した区間情報の第２例を示した概略図である。同実施形態による区間情報出力部が出力した区間情報の第３例を示した概略図である。同実施形態による区間抽出装置の内部構成の例を示すブロック図である。

以下において、図面を参照しながら、本発明の実施形態について説明する。本実施形態の区間抽出装置は、映像データまたは音声データを基に、その音声を分析することによって、所定の条件に合う区間（時間区間）を抽出するものである。区間抽出装置は、抽出した区間に関する情報を出力する。また、区間抽出装置は、抽出した区間の映像データまたは音声データを切出して出力する。

本実施形態の区間抽出装置が想定する用途の一例は、次の通りである。即ち、映像コンテンツを制作するために、１００台程度またはそれ以上のカメラを様々な場所に設置して数日間程度は撮影（映像収録）しっぱなしの状態とする。それら多数のカメラで取得される映像データ（音声を含む）は、延べ数千時間程度あるいは１万時間以上にもおよぶ。そのような膨大な映像データの中から、番組として使用できる可能性のある個所（映像区間）の候補を、簡単に且つ短時間で切出すために必要な情報を、区間抽出装置は自動的に抽出する。区間抽出装置が出力する情報は、映像コンテンツに使用できる可能性が比較的高い区間（時間区間）に関する情報である。このような情報を、便宜的に、区間情報と呼ぶ。映像コンテンツの編集者であるユーザーは、区間抽出装置が出力した区間情報を参照しながら、映像コンテンツとして利用できる可能性のあるシーンを特定して、それらを抜き出す。ユーザーは、本実施形態の区間抽出装置とは別の装置である編集システムを用いて、抜き出したシーンを適宜つなぐなどして、目的の映像コンテンツの編集を行える。つまり、本実施形態の区間抽出装置によって、映像コンテンツとして利用できるシーンを特定するための時間や手間が、大幅に削減される。

図１は、本実施形態による区間抽出装置の概略機能構成を示すブロック図である。図示するように、区間抽出装置１は、データ取得部２１と、映像データ記憶部２２と、音声データ分離部２３と、音声データ記憶部２４と、音声分析部３１と、音声判定部３２と、閾値設定部３３と、区間検出部３４と、区間情報出力部４３と、区間データ切出部４４と、を含んで構成される。これらの各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ（ＳＳＤ）といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。各部の機能は、次の通りである。

データ取得部２１は、外部から映像データを取得する。データ取得部２１は、例えば、半導体メモリーを用いた記録媒体から、映像データを読み出す。この映像データは、映像撮影用のカメラが撮影し、前記記録媒体に書き込んだものである。映像データは、映像だけでなく音声をも含んでいるデータである。この映像データを「素材データ」と呼んでもよい。映像データは、映像コンテンツを制作するための素材である。

映像データ記憶部２２は、データ取得部２１が取得した映像データを記憶する。映像データ記憶部２２は、大量の映像データのファイルを記憶することができる。

音声データ分離部２３は、映像データ記憶部２２に記憶されている映像データファイルから、音声データを分離する。具体的には、音声データ分離部２３は、映像と音声とを含んだ映像データファイルを映像データ記憶部２２から読み出す。音声データ分離部２３は、この映像データファイルをデコードし、音声のみを抽出する。音声データ分離部２３は、抽出した音声を、音声データファイルとして出力する。つまり、音声データ分離部２３は、映像データファイルから抽出した音声データのファイルを、音声データ記憶部２４に書き込む。この音声データを「素材データ」と呼んでもよい。

音声データ記憶部２４は、音声データファイルを記憶する。この音声データファイルは、音声データ分離部２３によって書き込まれるものである。

音声分析部３１は、音声データ記憶部２４から音声データファイルを読み込み、その音声を分析する。音声分析部３１は、例えば、音声データファイルに含まれる音声を、窓ごとに分析する。窓は、予め決められた長さ（時間長）を有するものである。音声分析部は、所定のシフト量ごとに窓を時間方向に移動させながら、窓ごとの分析を行う。一例として、音声分析部３１は、２．０秒（ｓｅｃ）の窓を、シフト量として５ミリ秒（ｍｓｅｃ）ずつ移動させながら、その窓の区間の音声を分析する。

音声分析部３１は、窓区間内の音声のパワーを算出する。音声分析部３１は、窓区間内のフレーム単位でのパワーの推移を求める。１フレームは固定長である。１フレームの長さを、例えば、５ミリ秒（ｍｓｅｃ）としてもよい。音声分析部３１は、窓区間内の音声のパワーの推移を求め、さらに、窓内のＰ＿ｕｐｐｅｒおよびＰ＿ｍａｘのそれぞれの値を決定する。Ｐ＿ｕｐｐｅｒは、窓内の音声のパワーの最大値である。Ｐ＿ｍａｘは、窓内の音声のパワーの極大値の平均値である。Ｐ＿ｕｐｐｅｒおよびＰ＿ｍａｘについては、後でさらに説明する。

音声判定部３２は、音声分析部３１が分析対象とした音声についての判定を行う。具体的には、音声判定部３２は、音声のフレームごとの有声度を算出する。有声度の算出自体は、既存の技術および方法を用いて行うことができる。また、音声判定部３２は、フレームごとに、算出した有声度が所定の閾値以上であるか否かを判定する。ここでの閾値を、例えば、０．８５としてよい。この有声度に関する閾値を「有声度閾値」と呼んでもよい。つまり、音声判定部３２は、素材データに含まれる音声の有声度が、所定の有声度閾値以上であるか否かを判定する。

閾値設定部３３は、後述する第１検出区間および第２検出区間を検出するための閾値を設定する。第１検出区間を検出するための閾値は、第１閾値Ｐ＿ｍｉｎ１である。第２検出区間を検出するための閾値は、第２閾値Ｐ＿ｍｉｎ２である。閾値設定部３３は、例えば、前記のＰ＿ｍａｘの値に基づいて、第１閾値Ｐ＿ｍｉｎ１および第２閾値Ｐ＿ｍｉｎ２の値を決定することができる。第１閾値Ｐ＿ｍｉｎ１および第２閾値Ｐ＿ｍｉｎ２の値の決定のしかたの具体例については、後述する。なお、Ｐ＿ｍｉｎ１＜Ｐ＿ｍｉｎ２である。つまり、閾値設定部３３は、素材データに含まれる音声のパワーの推移に基づいて、音声のパワーについての第１閾値および第２閾値（ただし、前記第１閾値が表すパワーは前記第２閾値が表すパワーよりも小さい）を設定する。閾値設定部３３は、例えば、素材データ（音声データ等）の所定の時間窓における音声のパワーの極大値の平均値から、予め定めた第１オフセット値および第２オフセット値をそれぞれ減じて、前記第１閾値および前記第２閾値を決定してもよい。

区間検出部３４は、分析対象とした音声内の第１検出区間および第２検出区間を、それぞれ検出する。区間検出部３４は、前記の有声度が所定の閾値以上である区間の中から、第１検出区間および第２検出区間をそれぞれ検出する。具体的には、区間検出部３４は、有声度が前記閾値以上で、且つ音声のパワーＰがＰ＞Ｐ＿ｍｉｎ１である区間（時間区間）を、第１検出区間として検出する。また、区間検出部３４は、有声度が前記閾値以上で、且つ音声のパワーＰがＰ＞Ｐ＿ｍｉｎ２である区間（時間区間）を、第２検出区間として検出する。区間検出部３４は、検出した第１検出区間および第２検出区間それぞれの、開始点および終了点の情報を、区間情報出力部４３に渡す。

つまり、区間検出部３４は、有声度が前記有声度閾値以上であって且つ前記音声のパワーが前記第１閾値以上である区間を第１検出区間として検出する。また、区間検出部３４は、前記有声度が前記有声度閾値以上であって且つ前記音声のパワーが前記第２閾値以上である区間を第２検出区間として検出する。また、区間検出部３４は、時間軸上において所定の間隔上限値以下の間隔を隔てる第１検出区間と第２検出区間とを結合して結合区間とすることができる。

区間検出部３４は、検出された第１検出区間や第２検出区間を、所定のルールにしたがって結合する。区間検出部３４は、結合された結果である結合区間を決定する。区間検出部３４は、結合区間の開始点および終了点の情報を、区間情報出力部４３や区間データ切出部４４に渡す。

区間情報出力部４３は、区間検出部３４が検出した第１検出区間および第２検出区間に関する情報を、区間情報として出力する。区間情報出力部４３は、第１検出区間および第２検出区間に関する複数の項目の情報を出力する。区間情報出力部４３は、具体的には、区間情報を文書としてファイルに出力する。区間情報出力部４３は、区間情報の文書を、ファイルに出力する代わりに、紙に印刷した文書として出力してもよい。また、区間情報出力部４３は、結合区間の一部にはならかなった第１検出区間および第２検出区間に関しては、前記結合区間の一部になった第１検出区間および第２検出区間とは異なる表示属性（例えば、異なる色）を用いる形で、視覚的に表した前記区間情報を出力してもよい。これにより、結合区間には含まれない音声区間について、ユーザーに注意を促すことができるようになる。

つまり、区間情報出力部４３は、少なくとも、時間軸に対応して検出された第１検出区間と第２検出区間とを視覚的に表した区間情報を出力する。また、区間情報出力部４３は、前記時間軸に対応して前記結合区間をさらに視覚的表現として含む前記区間情報を出力する。また、区間情報出力部４３は、前記区間情報内の前記結合区間の視覚的表現と、前記結合区間に対応する前記区間データ（切出されるファイル）とを、関連付けた形態で、前記区間情報を出力してもよい。ここで、結合区間の視覚的表現と結合区間に対応する区間データとの関連付けの方法は、例えば、ハイパーリンクである。これにより、区間情報内における結合区間の視覚的表現の選択（クリック、タップ、タッチ等）により、例えば、関連している区間データの再生を開始させることができる。さらに、区間情報出力部４３は、区間情報内の結合区間の視覚的表現内の所定の時点と、その結合区間に対応する区間データ内の対応する再生位置とを、関連付けた形態で、区間情報を出力するようにしてもよい。これにより、区間情報内における結合区間の視覚的表現の中の特定の時点の選択（クリック、タップ、タッチ等）により、例えば、関連している区間データの、対応する時点（再生位置）からの再生を開始させることができる。

区間データ切出部４４は、映像データ記憶部２２が記憶する映像データファイル（素材データ）から、所定の区間の映像データのみを切出して、ファイル（区間データ）として出力する。ここでの所定の区間とは、例えば、区間検出部３４が決定した上記の結合区間である。つまり、区間データ切出部４４は、素材データ内の、結合区間に対応する部分を切出して、区間データとして出力する。

図２は、データ取得部２１が取得する映像データ群の例を示す概略図である。データ取得部２１は、取得した映像データ群を、映像データ記憶部２２に書き込む。映像データ群は、複数のカメラによって記録された映像のデータである。映像データ記憶部２２に書き込まれた段階において、映像データは、カメラごとに、且つ記録時間帯ごとに、別のファイルとして管理される。図示する例では、映像データ記憶部２２は、１００台のカメラによって記録された、それぞれ２４個の映像データファイルを記憶している。それぞれの映像データファイルは、例えば、３時間分の映像のデータを保持している。各映像データファイルは、ファイル名や、格納されているフォルダーの名称によって識別され得る。図示する例では、映像データファイルのファイル名は、「Ｃｍｍｍ－ｎｎ．ｍｐ４」である。ここで「ｍｍｍ」はカメラを識別するための番号（例えば、００１から１００まで）であり、「ｎｎ」は撮影された時間帯を識別するための番号（例えば、０１から２４まで）である。「ｍｐ４」はファイルの拡張子であり、ファイルがｍｐ４形式のファイルであることを表している。例えば、ファイル名「Ｃ００２－２４．ｍｐ４」は、第２番目のカメラの、第２４番目の時間帯の、ｍｐ４形式の映像データのファイルであることを表す。図示する例では、各データファイルが３時間分の映像を保持しており、時間帯を識別する番号が２４種類ある。つまり、１００台のカメラが撮影したそれぞれ７２時間分の映像データを、映像データ記憶部２２が記憶している。なお、カメラの台数や、映像の記録時間の長さや、１つのファイルにおける映像の時間の長さなどは、任意であり、上に例示した場合とは異なっていてもよい。

図３は、音声データ分離部２３が映像データから分離して得られた音声データ群の例を示す概略図である。音声データ分離部２３は、得られた音声データ群を、音声データ記憶部２４に書き込む。音声データ群は、映像データから抽出された音声のみのデータである。音声データのファイルは、上記の映像データのファイルに対応して、カメラごと且つ記録時間帯ごとに、別のファイルとして管理される。それぞれの音声データファイルは、映像データファイルに対応して、例えば３時間分の音声のデータを保持している。各音声データファイルは、ファイル名や、格納されているフォルダーの名称によって識別され得る。図示する例では、音声データファイルのファイル名は、「Ｃｍｍｍ－ｎｎ．ｗａｖ」である。ここでの「ｍｍｍ」および「ｎｎ」は、上記の映像データファイルの名称と同様の識別情報である。「ｗａｖ」はファイルの拡張子であり、ファイルがｗａｖ形式（wave）の音声ファイルであることを表している。例えば、ファイル名「Ｃ００３－２３．ｗａｖ」は、第３番目のカメラの、第２３番目の時間帯の、映像データのファイルから抽出された音声データのファイルであることを表す。図示する例では、各データファイルが３時間分の音声を保持しており、時間帯を識別する番号が２４種類ある。つまり、図３に示す個々の音声データファイルは、図２に示した映像データファイルと１対１に対応する。なお、カメラの台数や、映像の記録時間の長さや、１つのファイルにおける音声の時間の長さなどは、任意であり、上に例示した場合とは異なっていてもよい。

なお、個々の音声データファイルは、所定の形式でコード化されたデータを保持する。音声データファイルは、音声波形と等価な情報を持つものである。音声データファイルを基に、音声波形を再現することが可能である。また、音声データファイルを基に、その音声に関する様々な量を算出することが可能である。ここでの量とは、例えば、ある時点における音声全体のパワーや、周波数ビンごとのパワーなどを含む。

図４は、音声分析部３１や音声判定部３２や閾値設定部３３が処理対象とする音声データの例を表すグラフである。音声分析部３１は、所定時間ずつシフトする窓における音声を分析対象とする。音声判定部３２や閾値設定部３３も、同様の窓を処理対象とする。ここで、分析対象の窓は、例えば、５ミリ秒（ｍｓｅｃ）ずつシフトしていく窓である。窓の幅（長さ）は、例えば、２．０００秒（ｓｅｃ）である。同図のグラフは、窓内における音声のパワーの時間推移を表すものである。このグラフの横軸は時間であり、縦軸は音声のパワー（単位は、デシベル（ｄＢ））である。音声のパワーは、前述の音声データのファイル（例えば、ＷＡＶ形式のファイル）を基に求めることができる。同図に示すＰ＿ｕｐｐｅｒ、Ｐ＿ｍａｘ、Ｐ＿ｍｉｎ２、Ｐ＿ｍｉｎ１のそれぞれは、窓内の音声を分析することによって求められるパワーのレベルである。Ｐ＿ｕｐｐｅｒは、当該窓の区間内（２秒間）における音声のパワーの最大値である。つまり、Ｐ＿ｕｐｐｅｒは、パワー上限値である。Ｐ＿ｍａｘは、当該窓の区間内に含まれるパワーの極大値（ピーク値）の平均値である。つまり、Ｐ＿ｍａｘは、パワー平均極大値である。Ｐ＿ｍａｘは、窓内における極大値の合計を、それらの極大点の数で除すことによって算出される。この定義より、Ｐ＿ｍａｘ≦Ｐ＿ｕｐｐｅｒである。Ｐ＿ｍｉｎ２は、上記Ｐ＿ｍａｘ（パワー平均極大値）から所定の第２オフセット量を減じたパワーである。Ｐ＿ｍｉｎ２は、第２閾値と呼ぶことができる。Ｐ＿ｍｉｎ１は、上記Ｐ＿ｍａｘ（パワー平均極大値）から所定の第１オフセット量を減じたパワーである。Ｐ＿ｍｉｎ１は、第１閾値と呼ぶことができる。

Ｐ＿ｕｐｐｅｒ、Ｐ＿ｍａｘ、Ｐ＿ｍｉｎ２、Ｐ＿ｍｉｎ１の値の例は、次の通りである。窓の区間内におけるパワーの最大値が－８［ｄＢ］である場合、Ｐ＿ｕｐｐｅｒ＝－８［ｄＢ］である。窓の区間内に含まれるパワーの極大値（ピーク値）の平均値が－２０［ｄＢ］である場合、Ｐ＿ｍａｘ＝－２０［ｄＢ］である。第２閾値を求めるための第２オフセット値は、例えば、６［ｄＢ］である。この場合、Ｐ＿ｍｉｎ２＝－２０－６＝－２６［ｄＢ］である。第１閾値を求めるための第１オフセット値は、例えば、１０［ｄＢ］である。この場合、Ｐ＿ｍｉｎ１＝－２０－１０＝－３０［ｄＢ］である。なお、実際の値は、ここに例示した値と異なっていてもよい。また、音声素材に合わせて、言い換えれば音源の種類や音響環境等に応じて、第２閾値および第１閾値の値のそれぞれを適宜変更するようにしてもよい。

区間検出部３４は、窓区間における音声のパワーの推移（フレームごとのパワーの値の系列）と、音声判定部３２が判定した有声度についての判定結果と、閾値設定部３３が設定した２種類の閾値、即ち第１閾値Ｐ＿ｍｉｎ１および第２閾値Ｐ＿ｍｉｎ２と、に基づいて、区間の検出を行う。

つまり、区間検出部３４は、有声度が所定閾値（例えば、０．８５）以上、且つ音声のパワーＰがＰ≧Ｐ＿ｍｉｎ１であるような時間区間を、第１検出区間として検出する。第１検出区間は、マイクロフォンの芯または周辺のいずれかで音を捉えていると推定できる時間区間である。言い換えれば、第１検出区間は、パワーが小さくても明瞭な周辺の音声を含んで捉えていると推定できる。また、区間検出部３４は、有声度が所定閾値（上と同様）以上、且つ音声のパワーＰがＰ≧Ｐ＿ｍｉｎ２であるような時間区間を、第２検出区間として検出する。第２検出区間は、マイクロフォンの芯で音を捉えていると推定できる時間区間である。言い換えれば、第２検出区間は、パワーが大きく且つ明瞭な音声を捉えている区間であると推定できる。

また、区間検出部３４は、検出した区間の結合を行い、結合区間を求める。具体的には、区間検出部３４は、条件に基づいて、既に検出した第１検出区間または第２検出区間を、前または後の別の第１検出区間または第２検出区間と結合する。つまり、区間検出部３４は、条件に基づいて、複数の第１検出区間または第２検出区間を相互に結合して、まとまった結合区間とする。その条件とは、結合対象となる複数の第１検出区間または第２検出区間の相互の間隔が所定の長さ以下であることである。ここで、結合のための間隔の上限値は、適宜設定可能な値としてよい。一例として、結合のための間隔の上限値（「間隔上限値」と呼んでもよい）を１０．０秒（ｓｅｃ）としてよい。つまり、間隔の上限値を１０．０秒とした場合、ある第１検出区間または第２検出区間と、次の第１検出区間または第２検出区間との間隔が上限値（１０．０秒）以下である場合に、区間検出部３４は、それら２つの区間を結合して、１つの結合区間とする。なお、３つ以上の第１検出区間または第２検出区間が並んでいて、それらの区間の隣り合う区間との間隔がすべて上限値以下である場合には、区間検出部３４は、それら３つ以上の第１検出区間または第２検出区間をすべて結合して、１つの結合区間とする。

区間検出部３４は、検出した区間や結合した区間の情報を、区間情報出力部４３や区間データ切出部４４に伝える。具体的には、区間検出部３４は、検出した第１検出区間や第２検出区間の情報（区間情報）を、区間情報出力部４３に伝える。ここでの区間情報は、少なくとも、各々の第１検出区間または第２検出区間の、始点の時刻情報と終点の時刻情報とを含む。また、区間検出部３４は、結合区間の情報（結合区間情報）を、区間情報出力部４３および区間データ切出部４４の両方に伝える。ここでの結合区間情報は、少なくとも、各々の結合区間の始点の時刻情報と終点の時刻情報とを含む。このようにして、区間情報出力部４３や区間データ切出部４４は、処理に必要な区間の情報を取得する。

なお、結合区間は、区間データ切出部４４が区間データを切出して出力する場合の単位である。つまり、区間データ切出部４４は、結合区間に対応する区間データ（映像データ）を元の映像データから切出して出力する。

次に、区間情報出力部４３が出力する情報の例について、図５、図６、図７を参照しながら説明する。図５、図６、図７のそれぞれは、区間情報出力部４３が出力する区間情報の例を示す概略図である。図示するように、区間情報出力部４３によって出力される区間情報は、複数の項目の情報を含むものである。図５、図６、図７のそれぞれは、所定の長さ（２６～２８分程度）の音声の分析結果に基づく情報を示している。区間情報出力部４３によって出力される区間情報は、例えばプリンター等を用いてＡ４判の紙に印刷した情報であってもよいし、例えばＰＤＦ（Portable Document Format）形式等の文書ファイルの情報であってもよい。

図５、図６、図７のそれぞれにおいて、区間情報は、符号５０１から５０５までの情報表示欄を含む。５０１は、分析対象となった音声の波形を表示するための欄である。５０２は、時間軸に対応する目盛を表示するための欄である。この時間軸の目盛は、５０３、５０４、５０５のそれぞれの欄に対応するものである。５０３は、区間検出部３４が検出した第１検出区間を表示するための欄である。５０４は、区間検出部３４が検出した第２検出区間を表示するための欄である。５０５は、区間検出部３４が条件に基づいて結合した結果である結合区間を表示するための欄である。

図５は、区間情報出力部４３が出力した区間情報の第１例を示した概略図である。図６は、区間情報出力部４３が出力した区間情報の第２例を示した概略図である。図７は、区間情報出力部４３が出力した区間情報の第３例を示した概略図である。

図５に示す第１例では、５０２の欄に表示されている時間帯は、１８：２０：００、１８：２５：００、１８：３０：００、１８：３５：００、１８：４０：００（いずれも、ｈｈ：ｍｍ：ｓｓ形式、つまり時・分・秒の形式）を含む。この第１例において、８１１、８１２、８１３、８１４のそれぞれの領域（破線の枠の領域）の特徴は、次の通りである。

領域８１１では、第１検出区間のみが検出される時間と、第１検出区間および第２検出区間の両方が検出される時間とが、ほどよいバランスで混ざっている。つまり、領域８１１では、複数の人による対話の音声が含まれていると推定できる。

領域８１２では、第１検出区間のみが検出される時間が含まれている一方で、第２検出区間が検出される時間はない。つまり、領域８１２では、マイクロフォンの位置を基準としたときの周辺音だけが含まれていると推定できる。

領域８１３では、第１検出区間および第２検出区間の両方が検出される時間が含まれている一方で、第１検出区間のみが検出される時間はない。つまり、領域８１３では、マイクロフォンの芯で捉えられた音声のみ、即ち、独話の音声ないしは独話に近い音声が含まれていると推定できる。領域８１４も、上記領域８１３と同様の特徴を持つ。つまり、領域８１４においても、マイクロフォンの芯で捉えられた音声のみ、即ち、独話の音声ないしは独話に近い音声が含まれていると推定できる。

図６に示す第２例では、５０２の欄に表示されている時間帯は、１８：２０：００、１８：２５：００、１８：３０：００、１８：３５：００、１８：４０：００（いずれも、ｈｈ：ｍｍ：ｓｓ形式、つまり時・分・秒の形式）を含む。この第２例において、８２１、８２２、８２３、８２４のそれぞれの領域（破線の枠の領域）の特徴は、次の通りである。

領域８２１では、第１検出区間のみが検出される時間と、第１検出区間および第２検出区間の両方が検出される時間とが、ほどよいバランスで混ざっている。つまり、領域８２１では、複数の人による対話の音声が含まれていると推定できる。領域８２３も、上記の領域８２１と同様の特徴を持っている。つまり、領域８２３では、複数の人による対話の音声が含まれていると推定できる。

領域８２２では、第１検出区間のみが検出される時間が含まれている一方で、第２検出区間が検出される時間はない。つまり、領域８１２では、マイクロフォンの位置を基準としたときの周辺音だけが含まれていると推定できる。

領域８２４では、第１検出区間および第２検出区間の両方が検出される時間が含まれている一方で、第１検出区間のみが検出される時間はない。つまり、領域８２４では、マイクロフォンの芯で捉えられた音声のみ、即ち、独話の音声ないしは独話に近い音声が含まれていると推定できる。

図７に示す第３例では、５０２の欄に表示されている時間帯は、１７：３５：００、１７：４０：００、１７：４５：００、１７：５０：００、１７：５５：００（いずれも、ｈｈ：ｍｍ：ｓｓ形式、つまり時・分・秒の形式）を含む。この第３例において、８３１、８３２のそれぞれの領域（破線の枠の領域）の特徴は、次の通りである。

領域８３１では、第１検出区間および第２検出区間の両方が検出される時間が含まれている一方で、第１検出区間のみが検出される時間はない。つまり、領域８３１では、マイクロフォンの芯で捉えられた音声のみ、即ち、独話の音声ないしは独話に近い音声が含まれていると推定できる。

領域８３２では、第１検出区間のみが検出される時間と、第１検出区間および第２検出区間の両方が検出される時間とが、ほどよいバランスで混ざっている。つまり、領域８３２では、複数の人による対話の音声が含まれていると推定できる。

上の図５、図６、図７の上記のように、第１検出区間の検出時間および第２検出区間の検出時間の組合せのパターンによって、各領域（時間区間）における音の特徴の分類を行うことができる。つまり、区間抽出装置１の区間情報出力部４３が図５、図６、図７に示したような区間情報を出力することにより、ユーザーは、領域ごとの音の特徴を、視覚的な情報に基づいて理解することができる。また、ユーザーは上記の領域ごとの音の特徴を、区間データ切出部４４が切出した区間データ（映像のデータ）との関連において把握することができる。

以上の説明のように、本実施形態では、大量の映像データの中から、効率的に且つ簡単な装置で、番組で使えそうなシーンを特定する。これを実現する手法として、区間抽出装置１は、音声から発話区間を捉え、その区間（第１検出区間や第２検出区間のそれぞれ）をタイムラインで表示する。また、区間抽出装置１は、ひとかたまりの区間（結合区間）に対応する結合区間のデータファイル（映像ファイル等）を自動的に切出して出力する。これにより、ユーザーである映像の編集者は、大量の映像データ（素材）の探索を容易に行うことができる。本実施形態の特徴は、次の通りである。

第１の特徴として、区間情報出力部４３は、時間経過に沿った音声の状態の推移を視覚情報として出力する。ここでの音声の状態は、音声の有無や、音声のパワーの大きさに関する情報を含む。これにより、ユーザーは、音声データ内のどのタイミングに音声の塊が存在しているのかを、視覚的に即座に把握することができる。つまり、区間情報出力部４３がタイムラインに沿って音声の状態を描画することにより、ユーザーは、どのタイミングに音声の塊が存在しているのかを即座に視認できる。

第２の特徴として、区間情報出力部４３は、上記の視覚情報の少なくとも一部として、時間経過に沿った音声波形の推移を出力する。これにより、ユーザーは、時間経過の中での、音声のパワーが大きい位置を視覚的に把握することができる。言い換えれば、区間情報出力部４３が音声波形を描画することにより、ユーザーは、音声パワーが大きい位置を把握できる。

第３の特徴として、区間情報出力部４３は、区間検出部３４が分析、検出した結果を２種類の視覚情報として描画し、出力する。この視覚情報の第１の種類は、第１検出区間の情報である。第１検出区間は、音声データ内の細やかな音声をも含む区間である。区間検出部３４は、音声のパワーが比較的小さい時間区間についても、その音声の存在を検出する。これにより、マイクの芯で拾った音声だけではなく、マイクの周辺で拾った音声の存在を、視覚的に認知可能な情報として出力することができる。また、上記視覚情報の第２の種類は、音声データ内の、パワーが比較的大きい音声の検出である。区間検出部３４は、音声のパワーが大きい時間区間について、その音声の存在を検出する。これにより、マイクの芯が捉えたメインの音声の存在を、視覚情報として出力することができる。上記の２種類の視覚情報を出力するために、区間検出部３４は、２種類の閾値Ｐ＿ｍｉｎ１およびＰ＿ｍｉｎ２を用いて、音声のパワーの大きさを判断する。区間情報出力部４３が上記の２種類の視覚情報を出力することによって、ユーザーは、ある時間区間の音声が、周囲のざわつきだけの音声なのか、メインと周囲の会話なのか、メインの音声のみ（ひとりごと、独話）なのか、おおよそのあたりをつけることができる。つまり、区間検出部３４が２種類の分析を行い、区間情報出力部４３がそれらの分析結果および音声波形を含む情報を出力することにより、ユーザーは、映像コンテンツを制作するために使用できる可能性のある映像データの時間区間をおおまかに把握することができる。

第４の特徴として、区間検出部３４は、複数の発話区間（第１検出区間や第２検出区間）を一括りにまとめて、ある程度の大きさ（長さ）を持った塊の発話区間（結合区間）にする。つまり、区間検出部３４が複数の発話区間を結合することにより、検出された区間を細切れの区間として捉えなくてよくなる。これにより、ユーザーは、一目で、音声が集中しているシーンを、視認、確認することができる。

第５の特徴として、区間データ切出部は、上記の結合区間に対応するデータファイル（映像データのファイル等）を自動的に切出す。区間情報出力部４３が出力する区間情報が切出されたデータファイルに関連付くようにしておけば、ユーザーは、区間情報の中から上記の切出されたデータファイルにアクセスし、映像等の再生を行うこともできる。また、切出されたデータファイル内の再生位置を区間情報内から指定できるようにしておくことにより、ユーザーは、所望の映像等の位置を直ちに再生して視聴することもできる。これらにより、ユーザーにかかる手間をより一層短縮することが可能となる。

つまり、区間情報出力部４３は、前記区間情報内の前記結合区間の視覚的表現と、前記結合区間に対応する前記区間データ（切出されるファイル）とを、関連付けた形態で、前記区間情報を出力してもよい。関連付けを行う方法の一例は、ハイパーリンクである。これにより、区間情報内における結合区間の視覚的表現の選択（クリック、タップ、タッチ等）により、例えば、関連している区間データの再生を開始させることができる。さらに、区間情報出力部４３は、区間情報内の結合区間の視覚的表現内の所定の時点と、その結合区間に対応する区間データ内の対応する再生位置とを、関連付けた形態で、区間情報を出力するようにしてもよい。これにより、区間情報内における結合区間の視覚的表現の中の特定の時点の選択（クリック、タップ、タッチ等）により、例えば、関連している区間データの、対応する時点（再生位置）からの再生を開始させることができる。

第６の特徴として、検出された第１検出区間または第２検出区間のうち、結合区間に含まれなかった区間について、区間情報出力部４３が、例えば色を変えるなど、表示属性を変えて示すようにしてもよい。この場合、ユーザーの注意を促すことができる。

一般に音声は、有声音あるいは無声音の２種類に大別される。また、それ以外の雑音や無音などを音声でないものとして分類することができる。本実施形態では、有声度に基づいて音声の程度を区別するための判定を行っている。つまり、本実施形態は、有声音のみを音声区間として扱っている。有声音のパワーは大きく、且つ雑音でなければ信号のゼロ交差数は小さくなる。
有声度の算出や有声音の区間検出自体は、既存技術を用いて行うことができる。
例えば、文献：都木徹「ピッチ同期音声処理のためのピッチ区間自動区分化の一手法」には、本実施形態が利用する自己相関分析のＶｃ（有声度）や、有声音区間の検出方法が記載されている。

本実施形態では、２種類の閾値Ｐ＿ｍｉｎ１およびＰ＿ｍｉｎ２を用いることにより、異なる区間を検出できるようにしている。また、これにより、異なる種類の音声区間を検出できるようにしている。区間を検出する際のパワーの閾値を小さくすればするほど、該当する区間は増える。つまり、Ｐ＿ｍｉｎ１＜Ｐ＿ｍｉｎ２であるため、小さい方の閾値Ｐ＿ｍｉｎ１を用いて検出した区間（第１検出区間）は、本来不要な区間を含んでしまう可能性もあるものの、閾値Ｐ＿ｍｉｎ２による検出だけでは漏れてしまう音声をも検出するようにできる。大きい方の閾値であるＰ＿ｍｉｎ２で検出した区間（第２検出区間）は、第１検証区間よりは少ない区間であるが、余計な音声を除去した区間であり、主音声となるべき音声だけを対象として拾うことができる。ユーザーは、これらの第１検出区間と第２検出区間の組合せのパターンに基づいて、編集作業を行うことができる。

第１検出区間のみの区間と、第１検出区間および第２検出区間の両方の区間とが、ともに多く検出されている領域では、そのシーンのメインの人（被写体）が周囲の誰か別の人と対話している可能性が高いと考えられる。また、第１検出区間および第２検出区間の両方の区間は、上記のメインの人が発声していると推定される領域であり、ユーザーは、そういった区間を優先的に視聴することもできる。

いずれの場合も、ユーザーは、出力される区間情報を参照することにより、視覚的に当該シーンの状況を把握することができるため、実際の映像を効率的に視聴できるようになる。このように収録した映像内のイベントを早期に発見できることは、コンテンツの効率的な制作につながる。

図８は、本実施形態の区間抽出装置１の内部構成の例を示すブロック図である。区間抽出装置１は、コンピューターを用いて実現され得る。図示するように、そのコンピューターは、中央処理装置９０１と、ＲＡＭ９０２と、入出力ポート９０３と、入出力デバイス９０４や９０５等と、バス９０６と、を含んで構成される。コンピューター自体は、既存技術を用いて実現可能である。中央処理装置９０１は、ＲＡＭ９０２等から読み込んだプログラムに含まれる命令を実行する。中央処理装置９０１は、各命令にしたがって、ＲＡＭ９０２にデータを書き込んだり、ＲＡＭ９０２からデータを読み出したり、算術演算や論理演算を行ったりする。ＲＡＭ９０２は、データやプログラムを記憶する。ＲＡＭ９０２に含まれる各要素は、アドレスを持ち、アドレスを用いてアクセスされ得るものである。なお、ＲＡＭは、「ランダムアクセスメモリー」の略である。入出力ポート９０３は、中央処理装置９０１が外部の入出力デバイス等とデータのやり取りを行うためのポートである。入出力デバイス９０４や９０５は、入出力デバイスである。入出力デバイス９０４や９０５は、入出力ポート９０３を介して中央処理装置９０１との間でデータをやりとりする。バス９０６は、コンピューター内部で使用される共通の通信路である。例えば、中央処理装置９０１は、バス９０６を介してＲＡＭ９０２のデータを読んだり書いたりする。また、例えば、中央処理装置９０１は、バス９０６を介して入出力ポートにアクセスする。

なお、上述した実施形態における区間抽出装置１の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。つまり、「コンピューター読み取り可能な記録媒体」とは、非一過性の（non-transitory）コンピューター読み取り可能な記録媒体であってよい。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

［変形例］
ここで、上記実施形態の変形例を説明する。上記実施形態では、データ取得部２１が映像データを取得していた。映像データは、映像と音声とを含んでいた。音声データ分離部２３は、上記のような映像データから音声のみを分離・抽出し、音声データを生成していた。音声データ記憶部２４は、そのような音声データのファイルを記憶している。本実施形態では、映像データを外部から取得する代わりに、最初から音声のみのデータを外部から取得する。つまり、外部から取得した大量の音声のデータが、音声データ記憶部２４に書き込まれている。このような音声データは、動画用のカメラではなく、録音機（ＩＣレコーダー等）で収音されたものである。変形例の区間抽出装置１において、その後の音声分析等の処理は、上記実施形態と同様の処理である。ただし、区間データ切出部４４は、映像データを切出して区間データ（映像）を生成するのではなく、音声データを切出して区間データ（音声のデータ）を生成する。このように、上記実施形態の変形例を実施するようにしてもよい。このような変形例は、例えば音声コンテンツを制作するために利用できる。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

例えば、区間情報出力部４３が出力する区間情報は、必ずしも図５～図７に例示した形態あるいはレイアウトで出力されるものでなくてもよい。区間情報出力部４３は、上で説明した情報と等価な情報を、図５～図７とは異なる形態あるいはレイアウトで出力するようにしてもよい。また、区間情報出力部４３は、図５～図７で示した情報項目のうちの一部のみを区間情報として出力してもよい。

また、例えば、音声分析部３１や、音声判定部３２や、閾値設定部３３や、区間検出部３４は、素材データに含まれる音声（あるいは含まれていた音声）を処理対象としてよい。必ずしも、音声データ分離部２３が、映像データから音声のみを分離して独立のデータファイルとして生成しなくてもよい。

本発明は、例えば、コンテンツの制作のために利用することができる。より具体的には、本発明は、例えば、映像や音声の素材を基にコンテンツを制作する際に、素材の中から選択すべき区間の候補に関する情報をわかりやすくユーザーに提示するために利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。

１区間抽出装置
２１データ取得部
２２映像データ記憶部
２３音声データ分離部
２４音声データ記憶部
３１音声分析部
３２音声判定部
３３閾値設定部
３４区間検出部
４３区間情報出力部
４４区間データ切出部
９０１中央処理装置
９０２ＲＡＭ
９０３入出力ポート
９０４，９０５入出力デバイス
９０６バス

Claims

素材データに含まれる音声の有声度が、所定の有声度閾値以上であるか否かを判定する音声判定部と、
前記音声のパワーの推移に基づいて、前記音声のパワーについての第１閾値および第２閾値（ただし、前記第１閾値が表すパワーは前記第２閾値が表すパワーよりも小さい）を設定する閾値設定部と、
前記有声度が前記有声度閾値以上であって且つ前記音声のパワーが前記第１閾値以上である区間を第１検出区間として検出するとともに、前記有声度が前記有声度閾値以上であって且つ前記音声のパワーが前記第２閾値以上である区間を第２検出区間として検出する、区間検出部と、
時間軸に対応して検出された前記第１検出区間と前記第２検出区間とを視覚的に表した区間情報を出力する区間情報出力部と、
を備える区間抽出装置。
前記区間検出部は、時間軸上において所定の間隔上限値以下の間隔を隔てる複数の前記第１検出区間と前記第２検出区間を結合して結合区間として、
前記区間情報出力部は、前記時間軸に対応して、前記結合区間をさらに視覚的に表した前記区間情報を出力する、
請求項１に記載の区間抽出装置。
前記素材データ内の前記結合区間に対応する部分を切出して区間データとして出力する区間データ切出部、
をさらに備える請求項２に記載の区間抽出装置。
前記区間情報出力部は、前記区間情報内の前記結合区間の視覚的表現と、前記結合区間に対応する前記区間データとを、関連付けた形態で、前記区間情報を出力する、
請求項３に記載の区間抽出装置。
前記区間情報出力部は、前記区間情報内の前記結合区間の視覚的表現内の所定の時点と、前記結合区間に対応する前記区間データの対応する再生位置とを、関連付けた形態で、前記区間情報を出力する、
請求項４に記載の区間抽出装置。
前記区間情報出力部は、前記結合区間の一部にはならかなった前記第１検出区間および前記第２検出区間に関しては、前記結合区間の一部になった前記第１検出区間および前記第２検出区間とは異なる表示属性を用いる形で、視覚的に表した前記区間情報を出力する、
請求項２に記載の区間抽出装置。
前記閾値設定部は、前記素材データの所定の時間窓における前記音声のパワーの極大値の平均値から、予め定めた第１オフセット値および第２オフセット値をそれぞれ減じて、前記第１閾値および前記第２閾値を決定する、
請求項１から６までのいずれか一項に記載の区間抽出装置。
素材データに含まれる音声の有声度が、所定の有声度閾値以上であるか否かを判定する音声判定部と、
前記音声のパワーの推移に基づいて、前記音声のパワーについての第１閾値および第２閾値（ただし、前記第１閾値が表すパワーは前記第２閾値が表すパワーよりも小さい）を設定する閾値設定部と、
前記有声度が前記有声度閾値以上であって且つ前記音声のパワーが前記第１閾値以上である区間を第１検出区間として検出するとともに、前記有声度が前記有声度閾値以上であって且つ前記音声のパワーが前記第２閾値以上である区間を第２検出区間として検出する、区間検出部と、
時間軸に対応して検出された前記第１検出区間と前記第２検出区間とを視覚的に表した区間情報を出力する区間情報出力部と、
を備える区間抽出装置、としてコンピューターを機能させるためのプログラム。