JP6923033B2

JP6923033B2 - 情報処理装置、情報処理方法および情報処理プログラム

Info

Publication number: JP6923033B2
Application number: JP2020055134A
Authority: JP
Inventors: 隆一難波; 金章藤下
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-10-04
Filing date: 2020-03-25
Publication date: 2021-08-18
Anticipated expiration: 2034-11-04
Also published as: JP2020126247A

Description

本開示は、情報処理装置、情報処理方法および情報処理プログラムに関する。

音声情報や映像情報等の所定の時間長さを有する情報に対して、その内容を全て視聴することなく当該内容の概要を把握したいという要望がある。そこで、例えば特許文献１には、音声情報の特徴を示す特徴量から、音声情報の中で注目すべき場面である盛り上がり部分を検出し、音声情報の中の当該盛り上がり部分に対してインデックスを付与する技術が開示されている。当該技術によれば、音声情報の中から当該インデックスが付された部分のみを再生することにより、盛り上がり部分のみが抽出された当該音声情報のダイジェストを生成することができる。

特開２００４−１９１７８０号公報

ここで、例えば会議の様子を録音した音声情報のダイジェストを生成することを考えると、会議の内容の概要を把握するために盛り上がっている場面、すなわち議論が紛糾している場面をダイジェストに含めたいという要望がある一方で、会議の参加者を把握するためにできるだけ多くの人物の声が含まれるようにダイジェストを生成したいという要望も存在し得る。このように、ユーザがダイジェストに対して求める要望は、その目的に応じて多様である。特許文献１に記載の技術は、盛り上がり部分を検出することに特化したものであるため、特許文献１に記載の技術ではこのようなユーザの多様な要望に応えることは困難であると考えられる。

そこで、本開示では、ユーザの利便性をより向上させることが可能な、新規かつ改良された情報処理装置、情報処理方法および情報処理プログラムを提案する。

本開示によれば、音声情報に含まれる音声の音源種別の蓋然性を示す音源種別スコアを算出する音源種別スコア算出部と、算出された前記音源種別スコアに基づいて、前記音声情報の中から、前記音声情報のダイジェストを構成するダイジェスト区間を決定するダイジェスト区間決定部と、を備え、前記音源種別スコア算出部は、前記音声情報が取得される間、前記ダイジェスト区間以下の長さの時間からなるスコア算出区間に対応する時間長さの音声情報が新たに取得された際に、前記スコア算出区間ごとに前記音源種別スコアを算出し、前記ダイジェスト区間決定部は、前記音声情報が取得された際に、前記音声情報の前記ダイジェストを更新し生成する、情報処理装置が提供される。

本開示によれば、ユーザの利便性をより向上させることができる。

以上説明したように本開示によれば、ユーザの利便性をより向上させることが可能となる。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、又は上記の効果に代えて、本明細書に示されたいずれかの効果、又は本明細書から把握され得る他の効果が奏されてもよい。

本実施形態に係る情報処理装置の機能構成の一例を示す機能ブロック図である。音源種別スコア算出部によって算出される音源種別スコアの一例を示す図である。音声情報とダイジェストとの関係について説明するための説明図である。オフライン処理の処理手順の一例を示すフロー図である。オフライン処理における、単一音源モードでのダイジェスト区間決定処理の処理手順の一例を示すフロー図である。オフライン処理における、単一音源モードでのダイジェスト区間決定処理の処理手順の一例を示すフロー図である。オフライン処理での高スコア区間決定処理について説明するための説明図である。オフライン処理での高スコア区間決定処理の処理手順の一例を示すフロー図である。オフライン処理での高スコア区間決定処理の処理手順の一例を示すフロー図である。オフライン処理における、複数音源モードでのダイジェスト区間決定処理の処理手順の一例を示すフロー図である。オフライン処理における、複数音源モードでのダイジェスト区間決定処理の処理手順の一例を示すフロー図である。多様性反映モードにおける各処理を実行する情報処理装置の機能構成の一例を示す機能ブロック図である。オフライン処理における、多様性反映モードでのダイジェスト区間決定処理の処理手順の一例を示すフロー図である。オフライン処理における、多様性反映モードでのダイジェスト区間決定処理の処理手順の一例を示すフロー図である。オフライン処理における、多様性に基づくダイジェスト区間削除処理の処理手順の一例を示すフロー図である。オンライン処理の処理手順の一例を示すフロー図である。オフライン処理における、単一音源モードでのダイジェスト区間決定処理の処理手順の一例を示すフロー図である。オンライン処理における、単一音源モードでのフレーム削除処理の処理手順の一例を示すフロー図である。オンライン処理での高スコア区間決定処理について説明するための説明図である。オンライン処理での高スコア区間決定処理の処理手順の一例を示すフロー図である。オンライン処理での高スコア区間決定処理の処理手順の一例を示すフロー図である。オンライン処理での高スコア区間決定処理の処理手順の一例を示すフロー図である。オンライン処理における、複数音源モードでのダイジェスト区間決定処理の処理手順の一例を示すフロー図である。オンライン処理における、複数音源モードでのフレーム削除処理の処理手順の一例を示すフロー図である。オンライン処理における、多様性反映モードでのフレーム削除処理の処理手順の一例を示すフロー図である。オンライン処理における、多様性に基づく削除フレーム選択処理の処理手順の一例を示すフロー図である。音声収音機能が設けられる変形例に係る情報処理装置の機能構成の一例を示す機能ブロック図である。ダイジェスト生成機能が設けられる変形例に係る情報処理装置の機能構成の一例を示す機能ブロック図である。音声情報データベースが設けられる変形例に係る情報処理装置の機能構成の一例を示す機能ブロック図である。本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．既存の技術に対する検討
２．装置構成
３．オフライン処理の詳細
３−１．全体の処理手順
３−２．単一音源モード
３−２−１．ダイジェスト区間決定処理の処理手順
３−２−２．高スコア区間決定処理
３−３．複数音源モード
３−３−１．ダイジェスト区間決定処理の処理手順
３−４．多様性反映モード
３−４−１．機能構成
３−４−２．ダイジェスト区間決定処理の処理手順
３−４−３．多様性に基づくダイジェスト区間削除処理
４．オンライン処理の詳細
４−１．全体の処理手順
４−２．単一音源モード
４−２−１．ダイジェスト区間決定処理
４−２−２．フレーム削除処理
４−２−３．高スコア区間決定処理
４−３．複数音源モード
４−３−１．ダイジェスト区間決定処理の処理手順
４−３−２．フレーム削除処理
４−４．多様性反映モード
４−４−１．フレーム削除処理の処理手順
４−４−２．多様性に基づく削除フレーム選択処理
５．変形例
６．ハードウェア構成
７．まとめ

（１．既存の技術に対する検討）
本開示の好適な一実施形態について説明するに先立ち、本発明者らが既存の一般的な技術について検討した結果について説明するとともに、本発明者らが本開示に想到した背景について説明する。

一般的に、音声情報や映像情報等の概要を簡易に把握するために、そのダイジェストを生成するための技術が開発されている。特に、例えば録画したテレビ番組のダイジェストを生成する等、映像情報に関する技術は多数提案されている。しかしながら、映像情報からダイジェストを生成する技術では、映像から算出される特徴量と音声から算出される特徴量の双方を用いた、マルチモーダルな枠組みを前提としているものが多い。情報量の多い映像情報に比べて、音声情報のみに基づいて当該音声情報のダイジェストを適切に生成することはより困難であると考えられる。

例えば、音声情報のダイジェストを生成する一般的な方法として、音声情報の先頭部分、中間部分及び末尾部分を単純に抜き出してダイジェストを生成する方法や、音量の大きい区間を抜き出してダイジェストを生成する方法等が考えられる。あるいは、既存のＩＣレコーダーの中には、選択された音声ファイルの冒頭５秒間を再生する機能が搭載されているものが存在する。しかしながら、音声情報の内容にかかわらず所定の区間を抜き出す方法では、有意な情報がダイジェストに含まれない可能性が高い。また、音量に基づく方法では、雑音が大きい区間等、必ずしも有用とは言えない区間がダイジェストに含まれてしまう可能性がある。

また、音声情報のダイジェストを生成するための技術としては、例えば上記特許文献１に記載の技術がある。しかしながら、上述したように、当該技術は、盛り上がり部分を抽出してダイジェストを生成することに特化したものである。ユーザがダイジェストで把握したい内容は、必ずしも盛り上がり部分に限定されないため、当該技術では、ダイジェストに求められるユーザの多様な要望に応えることが難しい。

以上、本発明者らが既存の一般的な技術に対して検討した結果について説明した。以上説明したように、音声情報のダイジェストを生成する技術においては、ユーザの多様な要望に応え得るより利便性の高い技術が望まれていた。本発明者らは、以上の既存の技術に対する検討結果に基づいて、よりユーザの利便性を向上させることが可能な技術について鋭意検討した結果、以下に説明する本開示の一実施形態に想到した。以下では、本発明者らが想到した、本開示の好適な一実施形態について詳細に説明する。

（２．装置構成）
図１を参照して、本開示の一実施形態に係る情報処理装置の機能構成について説明する。図１は、本実施形態に係る情報処理装置の機能構成の一例を示す機能ブロック図である。

図１を参照すると、本実施形態に係る情報処理装置１１０は、その機能として、特徴量抽出部１１１と、音源種別スコア算出部１１３と、ダイジェスト区間決定部１１５と、を有する。情報処理装置１１０は、任意の音声情報を入力として、当該音声情報の中で当該音声情報のダイジェストを構成する区間であるダイジェスト区間を決定し、当該ダイジェスト区間についての情報（ダイジェスト区間情報）を出力する装置である。

なお、情報処理装置１１０に対する音声情報の入力元は任意であってよい。例えば、情報処理装置１１０に入力される音声情報は、情報処理装置１１０内に設けられる記憶部（図示せず。）に記憶されているものであってもよいし、情報処理装置１１０とは異なる外部の機器から入力されるものであってもよい。あるいは、情報処理装置１１０が外部の音声を収音する収音部を有する場合には、当該収音部を介して音声情報が入力されてもよい（このような構成については、下記（５−１．音声収音機能が設けられる変形例）で詳しく説明する。）。

特徴量抽出部１１１は、音声情報の特徴量を抽出する。当該特徴量としては、音声情報の特性を示す各種の物理量が算出され得る。例えば、当該特徴量としては、パワー、スペクトル包絡形状、ゼロ交差数、ピッチ（基本周波数）、ＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ）等が算出されてよい。また、互いに異なる位置に配置されたマイクロフォンで収音された音声情報であれば、特徴量として、その収音位置間での相関が算出されてもよい。また、当該相関に基づいて音源方位が更に算出されてもよい。特徴量抽出部１１１は、これらの特徴量のうちの少なくともいずれかを算出し得る。

なお、特徴量抽出部１１１によって行われる、音声情報から特徴量を抽出する処理としては、音声情報の解析処理において一般的に用いられている各種の手法が用いられてよいため、その具体的な処理についての詳細な説明は省略する。また、特徴量抽出部１１１によって算出される特徴量は上記で列挙したものに限定されず、特徴量抽出部１１１は、音声情報の解析処理において一般的に算出され得る各種の特徴量を算出してよい。

特徴量抽出部１１１によって算出された特徴量は、例えば、算出した特徴量の種類数の次元を有する空間（特徴量空間）内でのベクトル（特徴量ベクトル）として表現され得る。特徴量抽出部１１１は、算出した特徴量についての情報（すなわち特徴量ベクトルについての情報）を音源種別スコア算出部１１３に提供する。

音源種別スコア算出部１１３は、特徴量抽出部１１１によって抽出された音声情報の特徴量に基づいて、当該音声情報に含まれる音声の音源種別の蓋然性を示す音源種別スコアを算出する。ここで、音源種別とは、音声の音源をいくつかの種類に分類したものである。例えば、音源種別スコアには、音楽らしさを示す音楽スコア、人の声らしさを示す声スコア及び／又は雑音らしさを示すノイズスコア等が含まれる。また、声スコアが算出される際には、より詳細に、男性の声らしさを示す男性声スコア、女性の声らしさを示す女性声スコア、子どもの声らしさを示す子ども声スコア、及び／又は前記音声を発している特定の人物らしさを示す特定声スコア等が算出されてもよい。

音源種別スコア算出部１１３は、音声情報における所定の区間ごとに、上述した音源種別スコアのうちの少なくともいずれかを算出する。以下では、音源種別スコア算出部１１３が音源種別スコアを算出する時間単位を、スコア算出区間と呼称する。スコア算出区間は、例えばフレームに対応する区間であってよい。

音源種別スコアの算出には、音声情報の解析処理において一般的に用いられている各種の識別器が用いられてよい。当該識別器は、例えば、機械学習により、解析の対象としている音声情報の特徴量ベクトルに応じて、すなわち、特徴量空間内での座標に応じて、各音源種別スコアを算出することができる。事前に識別器において機械学習を行うことが困難である場合には、音源種別スコア算出部１１３は、過去の計算から導かれる平均的な話者性との距離に応じて音源種別スコアを算出することができる。例えば、音源種別スコア算出部１１３は、過去の話者性との距離が大きいほど、音源種別スコアとしてより高い値を出力する。

図２に、音源種別スコア算出部１１３によって算出される音源種別スコアの一例を示す。図２は、音源種別スコア算出部１１３によって算出される音源種別スコアの一例を示す図である。図２では、横軸に音声情報内での時間を取り、縦軸にスコア算出区間ごとに算出された音源種別スコアを取り、両者の関係性をプロットしている。図２に示す例では、音源種別スコア算出部１１３によって、３種類の音源種別スコアが算出されている。

音源種別スコア算出部１１３は、スコア算出区間ごとに算出した音源種別スコアについての情報を、ダイジェスト区間決定部１１５に提供する。

ダイジェスト区間決定部１１５は、音源種別スコア算出部１１３によって算出された音源種別スコアに基づいて、音声情報の中から、当該音声情報のダイジェストを構成する時間区間であるダイジェスト区間を決定する。ここで、図３を参照して、音声情報とダイジェストとの関係について説明する。図３は、音声情報とダイジェストとの関係について説明するための説明図である。

図３に示すように、ダイジェストは、音声情報内の少なくとも１つの時間区間によって構成されている。図示する例では、音声情報内で４つの時間区間（ダイジェスト区間１〜４）が、ダイジェストを構成する時間区間（ダイジェスト区間）として決定されており、これらのダイジェスト区間がつなぎ合わされることによりダイジェストが構成されている。

以下の説明では、各ダイジェスト区間の時間長さをダイジェスト区間長と呼称する。また、ダイジェストの時間長さをダイジェスト長と呼称する。ダイジェスト長は、例えば１分間等、得たいダイジェストの長さとして、予めユーザや情報処理装置１１０の設計者等によって設定されている。ダイジェスト区間長の合計がダイジェスト長と略一致するようにダイジェスト区間が決定されることとなる。

ダイジェスト区間決定部１１５は、基本的には、音楽情報の中で音源種別スコアがより高い時間区間を、ダイジェスト区間として決定する。しかしながら、図２に示すように、音声情報に対しては、複数の音源種別スコアがそれぞれ独立に算出され得る。従って、いずれの音源種別スコアを用いてダイジェスト区間を決定するかが事前に設定される必要がある。

ここで、いずれの音源種別スコアを優先的に用いてダイジェスト区間を決定するかは、ユーザの要望に応じて多様であり得る。例えば、音声情報の中から男性の声だけを抽出したいと考えているユーザに対しては、男性声スコアに注目し、当該男性声スコアがより高い時間区間がダイジェスト区間として決定されることが望ましい。あるいは、音声情報に含まれる多様な音声を万遍なく抽出したいと考えているユーザに対しては、音源種別ごとにその音源種別スコアが高い時間区間がバランスよくダイジェスト区間として決定されることが望ましい。

そこで、本実施形態では、生成するダイジェストのモードが設定され、ダイジェスト区間決定部１１５は、設定されたモードに従ってダイジェスト区間を決定する処理を行う。モードは予め所定のものが設定されていてもよいし、図示しない情報処理装置１１０の入力部を介したユーザによる操作入力に応じて任意に切り替えられてもよい。設定されたモードを示すモード情報は、ダイジェスト区間決定部１１５に入力される。ダイジェスト区間決定部１１５は、設定されたモードに基づいてダイジェストに含める音声の音源種別を決定し、音声情報の中で、決定した音源種別に係る音源種別スコアがより高い区間を、ダイジェスト区間として決定することができる。

例えば、モードとしては、単一の音源種別の音声のみを含むようにダイジェストを生成する単一音源モード、複数の音源種別の音声を所定の割合で含むようにダイジェストを生成する複数音源モード、及び／又は、同一の音源種別に分類される音声の中から多様な音声が含まれるようにダイジェストを生成する多様性反映モードが存在する。

モードが単一音源モードである場合には、そのモード情報には、ダイジェストに優先的に含める音源種別を指定する旨の情報が含まれる。モードが単一音源モードである場合には、ダイジェスト区間決定部１１５は、指定された一の音源種別に係る音源種別スコアがより高い区間を、ダイジェスト区間として決定する。

また、モードが複数音源モードである場合には、そのモード情報には、ダイジェストに含める音源種別の割合を指定する旨の情報が含まれる。モードが複数音源モードである場合には、ダイジェスト区間決定部１１５は、指定された割合に基づいて、ダイジェストに含める音声の時間長さを音源種別ごとに設定し、音源種別ごとに音源種別スコアがより高い区間であって当該区間の合計長さが設定した音源種別ごとの時間長さ以下となるような区間を、ダイジェスト区間として決定する。

当該割合は、モード情報としてユーザによって適宜指定され得る。これにより、ユーザは、ダイジェストに優先的に含める音源種別を自身の要望に合わせて選択することができる。また、逆に、雑音等、ダイジェストに含めたくない音声種別の割合を低い値に設定することも可能である。

なお、ダイジェストに含める音源種別の割合は、モード情報として外部から入力されるのではなく、情報処理装置１１０によって自動的に設定されてもよい。例えば、音源種別ごとに音源種別スコアが比較的高い区間の時間長さの総和が算出され、当該総和の音源種別間の比率として、上記割合が決定され、種別ダイジェスト長が決定されてもよい。このように決定される割合は、音声情報内での音源種別ごとの音声の出現確率を反映するものであり得る。

また、モードが多様性反映モードである場合には、ダイジェスト区間決定部１１５は、同一の音源種別内での特徴量のばらつき及び同一の音源種別内での音声が発せられた時刻のばらつきを算出し、当該特徴量のばらつき及び当該時刻のばらつきがより大きくなるように、ダイジェスト区間を決定する。

例えば、音源種別スコアの観点からは同一の音源種別に分類された場合であっても、実際には異なる人物の音声であることもあり得る。同一の音源種別内での特徴量のばらつきがより大きくなるようにダイジェスト区間が決定されることにより、音源種別スコアの観点からは同一の音源種別に分類されるものの比較的特徴量が異なっている音声がダイジェストに含まれることになり、より多様な音声がダイジェストに含まれることになる。

また、例えば、音源種別スコアの観点からは同一の音源種別に分類され、同一人物の声である可能性が高い場合であっても、時間的に間隔を空けてなされた発言は、内容的には全く異なるものであることもあり得る。同一の音源種別内での音声が発せられた時刻のばらつきがより大きくなるようにダイジェスト区間が決定されることにより、音源種別スコアの観点からは同一の音源種別に分類されるものの発せられた時刻が隔たっている音声がダイジェストに含まれることになり、より多様な内容の音声がダイジェストに含まれることになる。

なお、単一音源モード、複数音源モード及び多様性反映モードのそれぞれのモードにおけるダイジェスト区間決定処理のより具体的な処理内容については、下記（３−２．単一音源モード）、（３−３．複数音源モード）、（３−４．多様性反映モード）、（４−２．単一音源モード）、（４−３．複数音源モード）、（４−４．多様性反映モード）で詳しく説明する。

ダイジェスト区間決定部１１５は、ダイジェスト区間を決定すると、決定したダイジェスト区間についての情報（ダイジェスト区間情報）を出力する。ダイジェスト区間情報は、例えば、ダイジェスト区間の開始時刻、終了時刻、ダイジェスト区間長、ダイジェスト区間に付されるインデックス（ダイジェスト区間インデックス）等についての情報を含む。つまり、ダイジェスト区間情報は、音声情報内でのダイジェスト区間の位置を特定するための情報であり、音声情報及びダイジェスト区間情報に基づいてダイジェストが生成され得る。

ダイジェスト区間決定部１１５によるダイジェスト区間情報の出力先は任意であってよい。例えば、ダイジェスト区間決定部１１５は、情報処理装置１１０に設けられる記憶部（図示せず）にダイジェスト区間情報を出力してもよいし、情報処理装置１１０とは異なる外部の機器にダイジェスト区間情報を出力してもよい。

ダイジェスト区間情報が情報処理装置１１０内に保存される場合には、情報処理装置１１０は、当該ダイジェスト区間情報及び音声情報に基づいてダイジェストを生成する機能を更に有してもよい（このような構成については、下記（５−２．ダイジェスト生成機能が設けられる変形例）で詳しく説明する。）。また、ダイジェスト区間情報が外部機器に出力される場合には、当該外部機器が、当該ダイジェスト区間情報及び音声情報に基づいてダイジェストを生成する機能を有してもよい。このように、本実施形態では、情報処理装置１１０は、少なくともダイジェスト区間情報を生成する機能を有するように構成され、その後に実際にダイジェストを生成する機能は、必ずしも情報処理装置１１０に設けられなくてもよい。

以上、図１を参照して、本実施形態に係る情報処理装置の機能構成について説明した。以上説明したように、本実施形態によれば、音声情報に含まれる音声の音源種別の蓋然性を示す音源種別スコアが算出され、当該音源種別スコアに基づいて、当該音声情報の中から当該音声情報のダイジェストを構成するダイジェスト区間が決定される。従って、例えば、音楽のみをダイジェストに含めたい、人の声のみをダイジェストに含めたい、音楽と人の声とをバランスよくダイジェストに含めたい等、ユーザの多様な要望に応じたダイジェストを生成することが可能になる。なお、特徴量抽出部１１１、音源種別スコア算出部１１３及びダイジェスト区間決定部１１５による一連の処理は、ユーザによる入力部（図示せず）を介した指示に応じて開始されてもよいし、音声情報が情報処理装置１１０に入力されることにより当該音声情報に対する処理が自動的に開始されてもよい。

ここで、情報処理装置１１０の具体的な装置構成は任意であってよい。例えば、情報処理装置１１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等の各種のプロセッサであってよい。あるいは、情報処理装置１１０は、各種のプロセッサが実装されたＰＣやサーバ、スマートフォン、タブレットＰＣ等の装置であってよい。また、あるいは、情報処理装置１１０は、ＩＣレコーダー等の収音、録音機能を有する装置であってもよい。各種のプロセッサが所定のプログラムに従って動作することにより、図１に示す情報処理装置１１０の機能が実行され得る。

また、例えば、情報処理装置１１０の各機能（特徴量抽出部１１１、音源種別スコア算出部１１３及びダイジェスト区間決定部１１５）は、必ずしも１つの装置によって実行されなくてもよい。例えば、特徴量抽出部１１１、音源種別スコア算出部１１３及びダイジェスト区間決定部１１５に対応する各機能が、複数の情報処理装置（例えば複数のプロセッサ）に分散されて実装され、当該複数の装置が互いに通信可能に接続され協働して動作することにより、以上説明した情報処理装置１１０としての機能が実現されてもよい。また、情報処理装置１１０は、ユーザによって直接的に操作されるローカルの情報処理装置であってもよいし、ネットワークを介してユーザの端末と接続されるいわゆるクラウド上の情報処理装置であってもよい。例えば、スマートフォンやＩＣレコーダー等のユーザの端末が録音機能を有している場合には、当該端末で録音された音声情報が、当該端末からクラウド上の情報処理装置１１０に送信され、情報処理装置１１０によって当該音声情報に対して上述した各種の処理が施され、処理結果であるダイジェスト区間情報又はダイジェストに係る音声情報が、情報処理装置１１０から当該端末に送信されてもよい。

なお、上述のような本実施形態に係る情報処理装置１１０の各機能を実現するためのコンピュータプログラムを作製し、ＰＣ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。

以下、情報処理装置１１０によって実行される処理についてより詳細に説明する。ここで、本実施形態では、情報処理装置１１０が行う処理を、その処理形態から大きく２つに分けることができる。一方の処理では、情報処理装置１１０は、予めその全てが取得されている音声情報に対して、特徴量抽出処理、音源種別スコア算出処理及びダイジェスト区間決定処理を行う。以下、このような処理のことをオフライン処理と呼ぶ。

一方、他方の処理では、情報処理装置１１０は、現在まさに取得され続けている音声情報に対して、特徴量抽出処理、音源種別スコア算出処理及びダイジェスト区間決定処理を随時行う。この場合には、音声情報が取得され続けている間、ダイジェスト区間情報が随時更新されることとなる。以下、このような処理のことをオンライン処理と呼ぶ。

オフライン処理とオンライン処理とでは、その詳細な処理内容が異なるものとなり得る。そこで、以下では、オフライン処理及びオンライン処理のそれぞれについて、その詳細な処理内容について説明する。また、オフライン処理及びオンライン処理のそれぞれについて、上述したモードに応じて、ダイジェスト区間決定処理の詳細な処理内容が異なるものとなり得る。そこで、以下では、オフライン処理及びオンライン処理のそれぞれについて、モードに応じたダイジェスト区間決定処理の詳細な処理内容について説明する。

なお、以下の説明では、一例として、スコア算出区間がフレーム区間である場合について説明する。つまり、フレームごとに音源種別スコアが算出される場合について説明する。ただし、本実施形態はかかる例に限定されず、複数のフレームからなる区間がスコア算出区間として設定されてもよい。また、以下の説明では、簡単のため、音源種別スコアのことを単にスコアと呼ぶ場合がある。

（３．オフライン処理の詳細）
（３−１．全体の処理手順）
図４を参照して、オフライン処理の処理手順について説明する。図４は、オフライン処理の処理手順の一例を示すフロー図である。図４に示す処理手順は、オフライン処理時における、図１に示す情報処理装置１１０によって実行される情報処理方法全体の処理手順に対応している。オフライン処理では、音声情報の全フレームのスコアが算出された後に、当該スコアに基づいて音声情報の中からダイジェスト区間が決定される。

図４を参照すると、オフライン処理では、まず、音声情報の特徴量が抽出される（ステップＳ１０１）。ステップＳ１０１に示す処理では、音声情報の特徴量として、例えばパワーやスペクトル包絡形状等、音声情報の特性を示す各種の物理量が算出される。ステップＳ１０１に示す処理は、例えば図１に示す特徴量抽出部１１１によって行われる処理に対応している。

次に、抽出された特徴量に基づいて、各フレームの音源種別スコアが算出される（ステップＳ１０３）。ステップＳ１０３に示す処理では、例えば、音声情報の特徴量に応じて音声の音源種別を識別する識別器によって、フレームごとに当該音声の音源種別の蓋然性を示す音源種別スコアが算出される。この際、音声スコア、声スコア、ノイズスコア等、複数の種類の音源種別スコアが算出されてよい。ステップＳ１０３に示す処理は、例えば図１に示す音源種別スコア算出部１１３によって行われる処理に対応している。

なお、スコア算出区間がフレーム区間ではなく、複数のフレーム区間からなる場合には、ステップＳ１０３において、各フレームの音源種別スコアを平滑化してスコア算出区間としての音源種別スコアを算出する処理が行われてもよい。

次に、算出された音源種別スコアに基づいて、音声情報の中からダイジェスト区間が決定される（ステップＳ１０５）。例えば、ステップＳ１０５に示す処理では、音声情報の中で音源種別スコアのより高い時間区間がダイジェスト区間として決定される。ステップＳ１０５の具体的な処理内容はモードに応じて異なるため、その詳細な処理内容については、下記（３−２．単一音源モード）、（３−３．複数音源モード）及び（３−４．多様性反映モード）においてモードごとにより詳細に説明する。決定されたダイジェスト区間についてのダイジェスト区間情報を出力して、一連の処理が終了する。なお、ステップＳ１０５に示す処理は、例えば図１に示すダイジェスト区間決定部１１５によって行われる処理に対応している。

以上、図４を参照して、オフライン処理の処理手順について説明した。

（３−２．単一音源モード）
（３−２−１．ダイジェスト区間決定処理の処理手順）
単一音源モードでは、ある１つの種類の音源種別が指定され、指定された一の音源種別に係る音源種別スコアがより高い区間が、ダイジェスト区間として決定される。

図５及び図６を参照して、オフライン処理における、単一音源モードでのダイジェスト区間決定処理の処理手順について説明する。図５及び図６は、オフライン処理における、単一音源モードでのダイジェスト区間決定処理の処理手順の一例を示すフロー図である。

図５及び図６を参照すると、オフライン処理における単一音源モードでのダイジェスト区間決定処理では、まず、スコア閾値上限値としてスコア閾値理論上限値が設定される（ステップＳ２０１）。次いで、スコア閾値上限値よりも低い値としてスコア閾値が設定される（ステップＳ２０３）。

ここで、詳しくは後述するが、ダイジェスト区間決定処理では、音声情報の中からよりスコアの高い区間（高スコア区間）をダイジェスト区間として決定する処理（ステップＳ２０５に示す高スコア区間決定処理）が行われ、その後、それらのダイジェスト区間の時間長さ（ダイジェスト区間長）の合計がダイジェスト長に適合するように、ダイジェスト区間長の長さやダイジェスト区間の数が調整される。

スコア閾値とは、高スコア区間決定処理において、各フレームを高スコア区間に含めるかどうか（すなわちダイジェスト区間に含めるかどうか）を判断するための閾値である。スコア閾値は、後述するステップＳ２１３やステップＳ２１９において行われるように、ダイジェスト区間長の合計をダイジェスト長に応じて調整するために、ダイジェスト区間決定処理の一連の処理中に適宜変更される。スコア閾値がより高い値に変更されれば、ダイジェスト区間に含まれるフレーム数が増加し、ダイジェスト区間長は長くなる。逆に、スコア閾値がより低い値に変更されれば、ダイジェスト区間に含まれるフレーム数が減少し、ダイジェスト区間長は短くなる。

スコア閾値上限値は、変更されるスコア閾値の上限を規定する値である。スコア閾値が高くなり過ぎると、ダイジェスト区間に含まれるフレームの数が少なくなり、ダイジェスト区間長の合計がダイジェスト長に大幅に満たない事態が生じてしまう可能性がある。スコアしきい値上限値はこのような事態が起こることを防止するために設定される（後述するステップＳ２１７に示す処理を参照）。

スコアしきい値理論上限値は、例えば、スコアの計算に用いられた識別器の性能等に応じて設定される、スコアが取り得る理論上の上限値である。上記のように、ステップＳ２０１において、スコア閾値上限値の初期値として、スコアしきい値理論上限値が設定される。

ステップＳ２０１及びステップＳ２０３に示す処理が行われると、次に、音声情報の中でより高いスコアを有する区間（高スコア区間）をダイジェスト区間として決定する処理（高スコア区間決定処理）が行われる（ステップＳ２０５）。高スコア区間とは、音声情報の中で連続してスコアの高い区間のことである。ただし、本実施形態では、スコアが低い区間の時間長さが極短い場合には、当該区間も高スコア区間に含める処理が行われる。スコアが低い区間の時間長さが極短い場合には、当該区間は、例えばある人物の一連の発言の最中の息継ぎ等、情報の内容の観点からは、前後の区間と一連の区間であると考えられるからである。

オフライン処理においては、ダイジェスト区間決定処理では、ステップＳ２０５において決定された高スコア区間をダイジェスト区間とみなし、その後の処理において、ダイジェスト区間長の合計がダイジェスト長に応じた長さになるように、ダイジェスト区間の時間長や数を調整する処理が行われる。高スコア区間決定処理において決定される高スコア区間は、いわば、最終的に決定されるダイジェスト区間の候補であると言える。

なお、高スコア区間決定処理のより詳細な処理内容については、図７−９を参照して、後程改めて説明する。

ステップＳ２０５において高スコア区間が決定されると、これらの区間をダイジェスト区間とみなして、各ダイジェスト区間の区間内での平均スコア（区間平均スコア）が算出される（ステップＳ２０７）。区間平均スコアは、高スコア区間決定処理において決定される、高スコア区間（すなわちダイジェスト区間）の開始時刻や終了時刻、インデックスとともに、ダイジェスト区間情報に含まれてよい。

次に、ダイジェスト区間長の合計がダイジェスト長よりも大幅に短いかどうかが判断される（ステップＳ２０９）。具体的には、ステップＳ２０９では、ダイジェスト区間長の合計が、ダイジェスト長に対して設定されるダイジェスト長からのずれ量の許容範囲を下回っているかどうかが判断される。ダイジェスト区間長の合計がダイジェスト長と完全に一致するようにダイジェスト区間を決定することは困難であるため、本実施形態では、このような許容範囲が設定され、ダイジェスト区間長の合計が当該許容範囲に含まれるかどうかによって、ダイジェスト区間長の合計が適切かどうかが判断される。当該許容範囲は、ユーザがダイジェストを聴く際に、実際のダイジェスト長がダイジェスト長の設定値よりも長い又は短いことにより違和感を与えないようなずれ量の範囲として、情報処理装置１１０の設計者等によって適宜設定されてよい。

ステップＳ２０９でダイジェスト区間長の合計がダイジェスト長よりも大幅に短いと判断された場合には、ステップＳ２１１〜ステップＳ２１３に進む。ステップＳ２１１〜ステップＳ２１３では、ダイジェスト区間長の合計をより長くするための処理が行われる。

具体的には、ステップＳ２１１では、スコア閾値上限値として現在のスコア閾値が設定される。これは、ダイジェスト区間長の合計がダイジェスト長よりも大幅に短いということは、現在のスコア閾値は適切な値に比べて高過ぎると考えられるため、今後の処理においてスコア閾値が変更される際に、当該スコア閾値が現在のスコア閾値よりも大きくならないようにするためである。

次に、新たなスコア閾値として、現在のスコア閾値よりも低い値が設定される（ステップＳ２１３）。そして、ステップＳ２０７に進み、新たなスコア閾値を用いて高スコア区間決定処理が再度行われる。より低い値に設定された新たなスコア閾値を用いて高スコア区間決定処理が行われることにより、高スコア区間に含まれるフレームの数が増えるため、ダイジェスト区間長の合計が長くなり、ダイジェスト区間長の合計をよりダイジェスト長に近付けることができる。

ステップＳ２０９でダイジェスト区間長の合計がダイジェスト長よりも大幅に短くはないと判断された場合には、ステップＳ２１５に進む。ステップＳ２１５では、逆に、ダイジェスト区間長の合計がダイジェスト長よりも大幅に長いかどうかが判断される。

ステップＳ２１５でダイジェスト区間長の合計がダイジェスト長よりも大幅に長くはないと判断された場合には、ダイジェスト区間決定処理の一連の処理を終了する。つまり、高スコア区間決定処理で決定された現在のダイジェスト区間が、最終的なダイジェスト区間として確定される。ステップＳ２０９でダイジェスト区間長の合計がダイジェスト長よりも大幅に短くはないと判断され、かつ、ステップＳ２１５でダイジェスト区間長の合計がダイジェスト長よりも大幅に長くはないと判断された場合には、ダイジェスト区間長の合計は、ダイジェスト長の許容範囲に含まれているからである。

一方、ステップＳ２１５でダイジェスト区間長の合計がダイジェスト長よりも大幅に長いと判断された場合には、ステップＳ２１７に進む。ステップＳ２１７以降の処理では、ダイジェスト区間長の合計をより短くするための処理が行われる。

ステップＳ２１７では、スコア閾値がスコア閾値上限値よりも小さいかどうかが判断される。ステップＳ２１７でスコア閾値がスコア閾値上限値よりも小さいと判断された場合には、ステップＳ２１９に進む。ステップＳ２１９では、新たなスコア閾値として、現在のスコア閾値よりも高い値が設定される。そして、ステップＳ２０７に進み、新たなスコア閾値を用いて高スコア区間決定処理が再度行われる。より高い値に設定された新たなスコア閾値を用いて高スコア区間決定処理が行われることにより、高スコア区間に含まれるフレームの数が減るため、ダイジェスト区間長の合計が短くなり、ダイジェスト区間長の合計をよりダイジェスト長に近付けることができる。

ステップＳ２１７でスコア閾値がスコア閾値上限値よりも小さくないと判断された場合には、ステップＳ２２１に進む。この場合には、スコア閾値を現在の値以上に高くすることができないため、スコア閾値を変更することによりダイジェスト区間長の合計を短くすることはできない。従って、ステップＳ２２１以降の処理では、現在のダイジェスト区間の中からフレームを削除する、又は現在のダイジェスト区間の数を減らすことにより、ダイジェスト区間長の合計を短くする処理が行われる。

具体的には、ステップＳ２２１では、各ダイジェスト区間について、ダイジェスト区間長の短縮が可能かどうかが判断される。ここで、ダイジェスト区間長の短縮が可能かどうかは、ダイジェスト区間長と連続区間最低長とを比較することによって行われる。連続区間最低長は、音声として出力した際に人が当該音声の意味を認識可能な最小区間として設定される。ダイジェスト区間長が連続最低長以下であると、ダイジェストを聴いた際に、当該ダイジェスト区間に対応する部分の意味を把握できないため、ダイジェストとして有意なものではなくなってしまう。従って、ステップＳ２２１に示す判断処理を行うことにより、ダイジェスト区間長が連続最低長よりも大きくなるようにダイジェスト区間が決定されるようにしているのである。

ステップＳ２２１でいずれかのダイジェスト区間においてダイジェスト区間長の短縮が可能と判断された場合には、ステップＳ２２３〜ステップＳ２２７に進む。ステップＳ２２３〜ステップＳ２２７では、現在のダイジェスト区間の中からフレームを削除することによりダイジェスト区間長の合計を短くする処理が行われる。

具体的には、ステップＳ２２３では、ダイジェスト区間長の短縮が可能と判断されたダイジェスト区間（すなわちダイジェスト区間長が連続最低長よりも長いダイジェスト区間）の中で、区間平均スコアがより低いダイジェスト区間のダイジェスト区間長が短縮される。ダイジェスト区間長を短縮する際には、例えば、短縮対象であるダイジェスト区間の先頭の所定の数のフレーム及び終端の所定の数のフレームのうち、スコアの平均値が低い方がダイジェスト区間から除外される。

次に、フレームが削除されダイジェスト区間長が短縮されたダイジェスト区間の区間平均スコアが更新される（ステップＳ２２５）。そして、ダイジェスト区間長の合計がダイジェスト長と略一致するかどうかが判断される（ステップＳ２２７）。ステップＳ２２７では、具体的には、ダイジェスト区間長の合計が、ダイジェスト長に設定されている許容範囲に含まれるかどうかが判断される。

ステップＳ２２７でダイジェスト区間長の合計がダイジェスト長と略一致していると判断された場合には、ダイジェスト区間決定処理の一連の処理を終了する。つまり、現在のダイジェスト区間が、最終的なダイジェスト区間として確定される。

一方、ステップＳ２２７でダイジェスト区間長の合計がダイジェスト長と略一致していないと判断された場合には、ステップＳ２２１に戻り、再度、各ダイジェスト区間について、ダイジェスト区間長の短縮が可能かどうかが判断される。

ステップＳ２２１でいずれのダイジェスト区間においてもダイジェスト区間長の短縮が不可能と判断された場合には、ステップＳ２２９〜ステップＳ２３１に進む。ステップＳ２２９〜ステップＳ２３１では、現在のダイジェスト区間の数を減らすことによりダイジェスト区間長の合計を短くする処理が行われる。

具体的には、ステップＳ２２９では、現在のダイジェスト区間の中から、区間平均スコアのより低いダイジェスト区間が削除される。そして、ダイジェスト区間長の合計がダイジェスト長と略一致するかどうかが判断される（ステップＳ２３１）。ステップＳ２３１では、ステップＳ２２７と同様に、ダイジェスト区間長の合計が、ダイジェスト長に設定されている許容範囲に含まれるかどうかが判断される。

ステップＳ２３１でダイジェスト区間長の合計がダイジェスト長と略一致していると判断された場合には、ダイジェスト区間決定処理の一連の処理を終了する。つまり、現在のダイジェスト区間が、最終的なダイジェスト区間として確定される。

（３−２−２．高スコア区間決定処理）
ここで、図７−図９を参照して、詳細な説明を省略していたステップＳ２０５に示す、オフライン処理での高スコア区間決定処理について詳しく説明する。図７は、オフライン処理での高スコア区間決定処理について説明するための説明図である。図８及び図９は、オフライン処理での高スコア区間決定処理の処理手順の一例を示すフロー図である。

以下の高スコア区間決定処理についての説明では現在フレーム、現ダイジェスト区間、連続区間及び不連続区間という用語を用いる。高スコア区間決定処理の具体的な処理手順について説明する前に、図７を参照して、これらの用語が示す概念について説明する。

図７では、横軸に音声情報の時間を取り、縦軸にフレームごとに算出されたスコアを取り、両者の関係性をプロットしている。高スコア区間決定処理では、フレームごとに、時系列に従って、当該フレームをダイジェスト区間に含めるかどうかの判断が行われる。図中、現在フレームは、現在判断処理の対象としているフレームを示している。

現ダイジェスト区間は、現在フレームを含めるかどうかを判断する対象としているダイジェスト区間を意味する。連続区間は、現ダイジェスト区間内でスコアがスコア閾値を連続的に超えている区間を意味している。不連続区間は、現ダイジェスト区間内で直前の連続区間の終了時刻から現在フレームまでの区間を意味している。現ダイジェスト区間、連続区間及び不連続区間の時間長さのことを、それぞれ、現ダイジェスト区間長、連続区間長及び不連続区間長とも呼称する。

図８及び図９を参照して、オフライン処理における高スコア区間決定処理の具体的な処理手順について説明する。図８及び図９を参照すると、オフライン処理における高スコア区間決定処理では、まず、フレームインデックスがゼロに設定される（ステップＳ３０１）。また、ダイジェスト区間インデックスがゼロに設定される（ステップＳ３０３）。フレームインデックスは、音声情報の各フレームに対して時系列順に付されるものであり、フレームインデックスがゼロのフレームは音声情報の先頭のフレームを指している。ステップＳ３０１及びステップＳ３０３に示す処理は、現在フレームをフレーム＃０とし、現ダイジェスト区間をダイジェスト区間＃０にする処理に対応している。

次に、現在フレームのスコアがスコア閾値よりも大きいかどうかが判断される（ステップＳ３０５）。ステップＳ３０５で現在フレームのスコアがスコア閾値以下と判断された場合には、現在フレームをダイジェスト区間には含めずに、ステップＳ３１９に進む。この場合には、現在フレームは不連続区間に追加されることになる。ステップＳ３１９における処理については後述する。

一方、ステップＳ３０５で現在フレームのスコアがスコア閾値よりも大きいと判断された場合には、ステップＳ３０７に進む。ステップＳ３０７〜ステップＳ３１７では、現在フレームをダイジェスト区間に含めるための処理が行われる。

まず、ステップＳ３０７において、不連続区間長が不連続区間最大長よりも小さいかどうかが判断される。ここで、不連続区間最大長とは、不連続区間が、ダイジェスト区間に含めるべき有意な区間であるかどうかを判断する基準となる時間長さである。上述したように、不連続区間は、直前の連続区間の終了時刻から現在フレームまでの区間であるため、連続区間には含まれない、スコアが連続的に低い区間であると言える。従って、不連続区間は、ダイジェストに含める対象としている音源種別の音声がほぼ発せられていない沈黙の区間であると考えられるが、例えば不連続区間が極短い場合には、当該区間は、例えばある人物の一連の発言の最中の息継ぎ等、情報の内容の観点からは、前後の区間と一連の区間である可能性が高い。不連続区間最大長は、このような観点から、不連続区間に対応する沈黙の区間が、一連の音声中の極短い沈黙なのか、あるいは例えば話者の変更を伴うような長い沈黙なのかを判断するための時間長さとして設定され得る。

ステップＳ３０７で不連続区間長が不連続区間最大長よりも小さいと判断された場合には、ステップＳ３０９に進む。この場合、上述したように、不連続区間はその直前の連続区間と一連の区間と考えられるべきである。よって、ステップＳ３０９では、現ダイジェスト区間に不連続区間及び現在フレームを接続する（すなわち、不連続区間及び現在フレームを現ダイジェスト区間の終端に加える）処理が行われる。このように、不連続期間が極短い場合に、当該不連続期間まで含むようにダイジェスト区間が決定されることにより、一連の音声が途切れることなくダイジェストに含まれることとなり、内容把握の観点からより有用なダイジェストを生成することが可能となる。なお、この際、フレームインデックスが１つ小さいフレーム（すなわち時系列的に１つ前のフレーム）に対してもステップＳ３０９に示す処理が行われた場合には、既に不連続区間は現ダイジェスト区間に含まれているため、現在フレームのみが現ダイジェスト区間に接続される。ステップＳ３０９に示す処理を終えると、ステップＳ３１９に進む。

一方、ステップＳ３０７で不連続区間長が不連続区間最大長以上であると判断された場合には、ステップＳ３１１に進む。ステップＳ３１１では、不連続区間前の連続区間長が連続区間最低長以上であるかどうかが判断される。図６のステップＳ２２１に示す処理について説明する際に言及したように、連続区間最低長とは、音声として出力した際に人が当該音声の意味を認識可能な最小区間として設定される時間長さである。つまり、ステップＳ３１１に示す処理は、連続区間が有意な区間であるかどうかを時間長さの観点から判断する処理であると言える。

ステップＳ３１１で不連続区間前の連続区間長が連続区間最低長以上であると判断された場合には、ステップＳ３１３〜ステップＳ３１５に進む。この場合は、不連続区間が不連続区間最大長以上であり、かつ、連続区間が連続区間最低長以上である場合（すなわち、不連続区間が有意な区間でなく、かつ、不連続区間の前の連続区間が有意な区間である場合）であるため、不連続区間を破棄する（ダイジェスト区間に含めない）とともに、不連続区間の前の連続区間を採用する（ダイジェスト区間に含める）処理が行われる。

具体的には、ステップＳ３１３では、不連続区間前の連続区間が１つのダイジェスト区間として確定される。次いで、ステップＳ３１５では、ダイジェスト区間インデックスが１つ繰り上げられ（すなわち処理対象である現ダイジェスト区間が新たに設定され）、現在フレームがその新たな現ダイジェスト区間の開始時刻に設定される。ステップＳ３１５に示す処理を終えると、ステップＳ３１９に進む。

一方、ステップＳ３１１で不連続区間前の連続区間長が連続区間最低長よりも小さいと判断された場合には、ステップＳ３１７に進む。この場合は、不連続区間が不連続区間最大長以上であり、かつ、連続区間が連続区間最低長よりも小さい場合（すなわち、不連続区間が有意な区間でなく、かつ、不連続区間の前の連続区間も有意でない場合）であるため、不連続区間と、不連続区間の前の連続区間を、ともに破棄する（ダイジェスト区間に含めない）処理が行われる。このように、連続期間が人によって認識できないほど短い場合に、当該連続期間を含まないようにダイジェスト区間が決定されることにより、ダイジェストを聴いた際にユーザにとって耳障りとなるような、内容把握の意味の薄い区間をダイジェストから省くことができ、より品質の高いダイジェストを生成することが可能となる。

具体的には、ステップＳ３１７では、不連続区間前の連続区間が破棄され、現在フレームが現ダイジェスト区間の開始時刻に設定される。ステップＳ３１７に示す処理を終えると、ステップＳ３１９に進む。

ステップＳ３１９では、音声情報が終端かどうかが判断される。ステップＳ３１９で音声情報が終端でないと判断された場合には、フレームインデックスが１つ繰り上げられ（すなわち処理対象であるフレームが１つ先のフレームに設定され）（ステップＳ３２１）、ステップＳ３０５以降の処理が繰り返し実行される。

一方、ステップＳ３１９で音声情報が終端であると判断された場合には、ステップＳ３２３に進む。ステップＳ３２３では、現ダイジェスト区間長が連続区間最低長よりも大きいかどうかが判断される。つまり、ステップＳ３２３では、最後に処理対象であったダイジェスト区間が、時間長さの観点から有意な区間であるかどうか（すなわち音声の識別が可能な程度の時間長さを有しているかどうか）が判断される。

ステップＳ３２３で現ダイジェスト区間長が連続区間最低長よりも大きいと判断された場合には、現ダイジェスト区間は時間長さ的に有意な区間であると考えられるため、当該ダイジェスト区間を採用し、一連の処理を終了する。一方、ステップＳ３２３で現ダイジェスト区間長が連続区間最低長以下であると判断された場合には、現ダイジェスト区間は時間長さ的に有意な区間でないと考えられるため、当該ダイジェスト区間を破棄し、一連の処理を終了する。

以上、オフライン処理における、単一音源モードでのダイジェスト区間決定処理の処理手順について説明した。

（３−３．複数音源モード）
（３−３−１．ダイジェスト区間決定処理の処理手順）
複数音源モードでは、指定された割合に基づいてダイジェストに含める音声の時間長さが音源種別ごとに設定され、音源種別ごとに音源種別スコアがより高い区間であって当該区間の合計長さが設定した音源種別ごとの時間長さ以下となるような区間が、ダイジェスト区間として決定される。

図１０及び図１１を参照して、オフライン処理における、複数音源モードでのダイジェスト区間決定処理の処理手順について説明する。図１０及び図１１は、オフライン処理における、複数音源モードでのダイジェスト区間決定処理の処理手順の一例を示すフロー図である。

なお、図１０及び図１１に示す複数音源モードでのダイジェスト区間決定処理は、図５−図９を参照して説明した単一音源モードでのダイジェスト区間決定処理における各処理が音源種別ごとに行われるものであり、各処理の内容自体は、単一音源モードでのダイジェスト区間決定処理と略同様であり得る。ただし、単一音源モードでのダイジェスト区間決定処理では、１つの音源種別しか対象にしていなかったため、上述したステップＳ２０９及びステップＳ２１５において、その音源種別に係るスコアに基づいて決定されたダイジェスト区間長の合計値がダイジェスト長と比較されていたが、複数音源モードでのダイジェスト区間決定処理では、各音源種別に係るスコアに基づいて決定されたダイジェスト区間長の合計値が、ダイジェストに含める各音源種別の音声の時間長さ（以下、種別ダイジェスト長とも呼称する。）と比較される。

以下の複数音源モードでのダイジェスト区間決定処理の処理手順についての説明では、単一音源モードでのダイジェスト区間決定処理の処理手順と相違する事項について主に説明し、重複する事項についてはその詳細な説明を省略する。

図１０及び図１１を参照すると、オフライン処理における複数音源モードでのダイジェスト区間決定処理では、まず、スコア閾値上限値としてスコア閾値理論上限値が設定される（ステップＳ４０１）。次いで、スコア閾値上限値よりも低い値としてスコア閾値が設定される（ステップＳ４０３）。これらの処理は、図５及び図６に示すステップＳ２０１及びステップＳ２０３における処理と同様である。

次に、種別ダイジェスト長が設定される（ステップＳ４０５）。例えば、種別ダイジェスト長は、モード情報に基づいて設定され得る。例えば、モード情報には、ダイジェストに含める音源種別の割合を指定する旨の情報が含まれている。ステップＳ４０５に示す処理では、ダイジェスト長に当該割合を乗じることにより、音源種別ごとにその種別ダイジェスト長が算出される。

ただし、ステップＳ４０５に示す処理はかかる例に限定されず、ダイジェストに含める音源種別の割合は、モード情報として外部から入力されるのではなく、情報処理装置１１０によって自動的に設定されてもよい。例えば、何らかの機会に図８及び図９に示す高スコア区間決定処理が各音源種別に対して既に１度実行されており、各種別音源に対して、高スコア区間が決定されている場合であれば、当該高スコア区間についての情報を用いて、上記割合が決定され、種別ダイジェスト長が決定されてもよい。

具体的には、高スコア区間決定処理の結果から、音源種別ごとに、決定された高スコア区間の時間長さの総和が算出され、その比率が計算される。そして、計算された比率をダイジェスト長に乗じることにより、音源種別ごとにその種別ダイジェスト長が算出され得る。このように高スコア区間の時間長さに基づいて決定される割合は、音声情報内における音源種別ごとの音声の出現確率が反映されたものであり得る。

なお、モード情報に基づく場合、及び高スコア区間に基づく場合ともに、算出された種別ダイジェスト長が連続区間最低長を下回る場合には、その長さを調整する処理が適宜行われる。種別ダイジェスト長が連続区間最低長を下回る場合には、当該種別ダイジェスト長が短過ぎ、その音声が、人によって有意に認識されないからである。具体的には、連続区間最低長を下回る種別ダイジェスト長を連続区間最低長まで増加させるとともに、他の連続区間最低長を上回る種別ダイジェスト長からその増加分を減じる処理が行われる。

種別ダイジェスト長が決定されると、次に、音声情報の中でより高いスコアを有する区間（高スコア区間）をダイジェスト区間として決定する処理（高スコア区間決定処理）が行われる（ステップＳ４０７）。ステップＳ４０７に示す処理は、図５及び図６に示すステップＳ２０５における処理、すなわち、図８及び図９に示す一連の処理と同様であるため、その詳細な説明を省略する。

以降、ステップＳ４０９〜ステップＳ４３３に示す処理は、音源種別ごとに実行される点を除けば、図５及び図６に示すステップＳ２０７〜ステップＳ２３１における処理と同様の処理であるため、その詳細な説明を省略する。ステップＳ４１１〜ステップＳ４２１に示す処理は、図５及び図６に示すステップＳ２０９〜ステップＳ２１９における処理に対応する。ステップＳ４１１〜ステップＳ４２１に示す処理では、音源種別ごとに、ダイジェスト区間長の合計が種別ダイジェスト長と大幅に異なっていないかが判断され、スコア閾値が調整されることにより、ダイジェスト区間長の合計が種別ダイジェスト長の許容範囲に含まれるように、各ダイジェスト区間長が調整される。

ステップＳ４２３〜ステップＳ４３３に示す処理は、図５及び図６に示すステップＳ２２１〜ステップＳ２３１における処理に対応する。ステップＳ４２３〜ステップＳ４３３に示す処理は、スコア閾値の調整がそれ以上できなくなった場合に行われる処理であり、ステップＳ４２３以降の処理では、現在のダイジェスト区間の中からフレームを削除する、又は現在のダイジェスト区間の数を減らすことにより、ダイジェスト区間長の合計を短くする処理が行われる。ただし、図５及び図６に示すステップＳ２２１〜ステップＳ２３１における処理では、フレーム又は区間数の削除対象となるダイジェスト区間は単一の音源種別に係るものであったが、ステップＳ４２３〜ステップＳ４３３に示す処理では、フレーム又は区間数の削除対象となるダイジェスト区間は、複数の音源種別に係るダイジェスト区間が混合されたものである。

以上、図１０及び図１１を参照して、オフライン処理における、複数音源モードでのダイジェスト区間決定処理の処理手順について説明する。

（３−４．多様性反映モード）
多様性反映モードでは、同一の音源種別に分類される音声の中から多様な音声が含まれるようにダイジェストが生成される。具体的には、多様性反映モードでは、同一の音源種別内での音声の特徴量のばらつき及び同一の音源種別内での音声の時間的ばらつきがより大きくなるように、ダイジェスト区間が決定される。

（３−４−１．機能構成）
ここで、上述した単一音源モード及び複数音源モードにおける各処理は、図１に示す情報処理装置１１０の機能構成によって実行され得る。ただし、多様性反映モードにおける各処理は、図１に示す情報処理装置１１０とは若干異なる機能構成によって実行され得る。

図１２を参照して、多様性反映モードにおける各処理を実行する情報処理装置の機能構成について説明する。図１２は、多様性反映モードにおける各処理を実行する情報処理装置の機能構成の一例を示す機能ブロック図である。

図１２を参照すると、多様性反映モードに対応する情報処理装置１２０は、その機能として、特徴量抽出部１１１と、音源種別スコア算出部１１３と、ダイジェスト区間決定部１１５と、を有する。ここで、特徴量抽出部１１１、音源種別スコア算出部１１３及びダイジェスト区間決定部１１５の機能は、図１に示す情報処理装置１１０におけるこれらの機能ブロックの機能と同様であるため、その詳細な説明は省略する。

情報処理装置１２０では、情報処理装置１１０と異なり、特徴量抽出部１１１によって算出された音声情報の特徴量についての情報が、ダイジェスト区間決定部１１５にも提供される。ダイジェスト区間決定部１１５は、当該特徴量についての情報を用いて、多様性を考慮してダイジェスト区間を決定することができる（後述する図１４のステップＳ５３１に示す処理を参照）。

（３−４−２．ダイジェスト区間決定処理の処理手順）
図１３及び図１４を参照して、図１２に示す情報処理装置１２０によって実行され得る、オフライン処理における、多様性反映モードでのダイジェスト区間決定処理の処理手順について説明する。図１３及び図１４は、オフライン処理における、多様性反映モードでのダイジェスト区間決定処理の処理手順の一例を示すフロー図である。

なお、多様性反映モードは、同一音源種別内での多様性を考慮してダイジェスト区間を決定するものであるため、ダイジェストに含める対象とする音源種別は、単一の音源種別であってもよいし、複数の音源種別であってもよい。図１３及び図１４では、一例として、ダイジェストに複数の音源種別からなる音声を含める場合における処理手順を図示している。

ここで、多様性反映モードでのダイジェスト区間決定処理における各処理は、後述するステップＳ５３１に示す処理を除き、図１０及び図１１を参照して説明した複数音源モードでのダイジェスト区間決定処理における各処理と同様である。従って、以下の多様性反映モードでのダイジェスト区間決定処理における各処理についての説明では、複数音源モードでのダイジェスト区間決定処理における各処理と相違する事項について主に説明し、重複する事項についてはその詳細な説明を省略する。なお、ダイジェストに複数の音源種別からなる音声を含める場合における多様性反映モードでのダイジェスト区間決定処理の処理手順は、図５及び図６に示す単一音源モードでのダイジェスト区間決定処理の処理手順において、ステップＳ２２９に示す処理の代わりに後述するステップＳ５３１に示す処理が行われるものに対応する。

図１３及び図１４を参照すると、多様性反映モードでのダイジェスト区間決定処理において、ステップＳ５０１〜ステップＳ５２１における処理は、図１０及び図１１に示すステップＳ４０１〜ステップＳ４２１における処理と同様の処理である。またステップＳ５２３以降の処理も、複数音源モードでのダイジェスト区間決定処理と同様に、スコア閾値の調整がそれ以上できなくなった場合に行われる処理である。ステップＳ５２３以降の処理では、現在のダイジェスト区間の中からフレームを削除する、又は現在のダイジェスト区間の数を減らすことにより、ダイジェスト区間長の合計を短くする処理が行われる。

ここで、多様性反映モードにおいて、ステップＳ５２３で各ダイジェスト区間についてダイジェスト区間長の短縮が可能であると判断された場合に、より区間平均スコアが低いダイジェスト区間からフレームを削除することによりダイジェスト区間長の合計を短くする一連の処理（ステップＳ５２５〜ステップＳ５２９に示す処理）は、複数音源モードにおけるこれらの処理（ステップＳ４２５〜ステップＳ４２９に示す処理）と同様である。

一方、多様性反映モードにおいては、ステップＳ５２３でいずれのダイジェスト区間においてもダイジェスト区間長の短縮が不可能と判断された場合に、ダイジェスト区間の数が減じられる処理の詳細が、複数音源モードとは異なる。具体的には、複数音源モードでは、区間平均スコアの低いダイジェスト区間が削除されていた（図１１のステップＳ４３１に示す処理を参照）。一方、多様性反映モードでは、多様性に基づいてダイジェスト区間を削除する処理（多様性に基づくダイジェスト区間削除処理）が行われる（ステップＳ５３１）。ダイジェスト区間が削除された後に、ダイジェスト区間長の合計がダイジェスト長と略一致するかどうかが判断され（ステップＳ５３３）、ダイジェスト区間長の合計がダイジェスト長と略一致するまで、ステップＳ５３１に示す多様性に基づくダイジェスト区間削除処理が実行される。

（３−４−３．多様性に基づくダイジェスト区間削除処理）
図１５を参照して、図１４のステップＳ５３１に示す多様性に基づくダイジェスト区間削除処理について詳しく説明する。図１５は、オフライン処理における、多様性に基づくダイジェスト区間削除処理の処理手順の一例を示すフロー図である。

図１５を参照すると、オフライン処理における多様性に基づくダイジェスト区間削除処理では、まず、各ダイジェスト区間の特徴量ベクトルの平均（平均特徴量ベクトル）が算出される（ステップＳ６０１）。

次に、全ダイジェスト区間の場合と、任意の１つのダイジェスト区間を除いた場合の、ｎ通りの特徴量空間における平均特徴量ベクトルの分散が計算される（ステップＳ６０３）。

次に、各ダイジェスト区間の平均時刻が算出される（ステップＳ６０５）。平均時刻は、例えば、各ダイジェスト区間の開始時刻と終了時刻との中間の時刻として計算される。

次に、全ダイジェスト区間の場合と、任意の１つのダイジェスト区間を除いた場合の、ｎ通りの各ダイジェスト区間の平均時刻の分散が計算される（ステップＳ６０７）。

次に、平均特徴量ベクトルの分散及び平均時刻の分散に重み付けを行った上でその総和が計算され、全ダイジェスト区間の場合の値からの低減量が最も少ない場合に除外されたダイジェスト区間が、削除するダイジェスト区間として決定される（ステップＳ６０９）。つまり、ステップＳ６０９に示す処理では、平均特徴量ベクトル及び平均時刻の分散の計算に用いられなかった場合に最も影響の少ない平均特徴量ベクトル及び平均時刻を有するダイジェスト区間が、削除するダイジェスト区間として決定される。これにより、平均特徴量ベクトル及び平均時刻の分散がより大きくなるように、ダイジェストに含めるダイジェスト区間が選択されることとなる。最後に、決定されたダイジェスト区間が削除される（ステップＳ６１１）。

以上、図１３及び図１４を参照して、オフライン処理における、多様性反映モードでのダイジェスト区間決定処理の処理手順について説明した。また、図１５を参照して、ステップＳ５３１に示す多様性に基づくダイジェスト区間削除処理について説明した。

以上説明したように、多様性反映モードでは、同一の音源種別に分類される音声について特徴量ベクトル及び時刻の多様性が確保されるように、ダイジェスト区間が決定される。特徴量ベクトルの多様性が確保されることにより、同一の音源種別に分類されてはいるが実際には別人の声が存在する場合に、これらの声をともにダイジェストに含めることが可能となる。また、時刻の多様性が確保されることにより、同一の音源種別に分類されている音声が時間的に離れた場所で発言をしている場合に、これらの声をともにダイジェストに含めることが可能となる。

（４．オンライン処理の詳細）
（４−１．全体の処理手順）
図１６を参照して、オンライン処理の処理手順について説明する。図１６は、オンライン処理の処理手順の一例を示すフロー図である。図１６に示す処理手順は、オンライン処理時における、図１に示す情報処理装置１１０によって実行される情報処理方法全体の処理手順に対応している。

オンライン処理では、音声情報のフレームが新たに入力される度に、その新たに入力されたフレーム（入力フレーム）のスコアが算出され、当該スコアに基づいて音声情報の中からダイジェスト区間が決定される。つまり、オンライン処理では、音声情報が入力されている間、図１６に示す一連の処理が。フレームが新たに入力される度に実行され、ダイジェスト区間情報が更新される。

なお、スコア算出区間がフレーム区間ではなく、複数のフレーム区間からなる場合には、図１６に示す一連の処理は、スコア算出区間に対応する複数のフレームが入力される度に実行され得る。

図１６を参照すると、オンライン処理では、まず、これまでに取得されている音声情報の特徴量が抽出される（ステップＳ７０１）。ステップＳ７０１に示す処理では、音声情報の特徴量として、例えばパワーやスペクトル包絡形状等、音声情報の特性を示す各種の物理量が算出される。ステップＳ７０１に示す処理は、例えば図１に示す特徴量抽出部１１１によって行われる処理に対応している。

次に、抽出された特徴量に基づいて、入力フレームの音源種別スコアが算出される（ステップＳ７０３）。ステップＳ７０３に示す処理では、例えば、音声情報の特徴量に応じて音声の音源種別を識別する識別器によって、入力フレームにおける当該音声の音源種別の蓋然性を示す音源種別スコアが算出される。この際、音声スコア、声スコア、ノイズスコア等、複数の種類の音源種別スコアが算出されてよい。ステップＳ７０３に示す処理は、例えば図１に示す音源種別スコア算出部１１３によって行われる処理に対応している。

なお、スコア算出区間がフレーム区間ではなく、複数のフレーム区間からなる場合には、ステップＳ７０３において、各フレームの音源種別スコアを平滑化してスコア算出区間としての音源種別スコアを算出する処理が行われてもよい。

次に、算出された音源種別スコアに基づいて、音声情報の中からダイジェスト区間が決定される（ステップＳ７０５）。ステップＳ７０５に示す処理は、例えば図１に示すダイジェスト区間決定部１１５によって行われる処理に対応している。

ステップＳ７０５に示す処理では、これまでに取得された音声情報の時間長さがダイジェスト長（ダイジェストの時間長さの設定値）よりも短い場合には、入力フレームが無条件でダイジェストに追加される。一方、これまでに取得された音声情報の時間長さがダイジェスト長以上である場合には、入力フレームがダイジェストに追加されるとともに、その代わりに、ダイジェストの中から例えばよりスコアの低いフレームが削除される。

なお、ステップＳ７０５における具体的な処理内容はモードに応じて異なるため、その詳細な処理内容については、下記（４−２．単一音源モード）、（４−３．複数音源モード）及び（４−４．多様性反映モード）においてモードごとにより詳細に説明する。

次に、音声情報の入力が終了したかどうかが判断される（ステップＳ７０７）。ステップＳ７０７で音声情報の入力が終了したと判断された場合には、決定されたダイジェスト区間についてのダイジェスト区間情報を出力して、一連の処理が終了する。一方、ステップＳ７０７で音声情報の入力が終了していないと判断された場合には、次のフレームの入力を待機し（ステップＳ７０９）、新たに入力されたフレームに対して、ステップＳ７０１以降の処理が繰り返し実行される。

以上、図１６を参照して、オンライン処理の処理手順について説明した。

（４−２．単一音源モード）
（４−２−１．ダイジェスト区間決定処理）
図１７を参照して、オフライン処理における、単一音源モードでのダイジェスト区間決定処理の処理手順について説明する。図１７は、オフライン処理における、単一音源モードでのダイジェスト区間決定処理の処理手順の一例を示すフロー図である。

図１７を参照すると、オフライン処理における単一音源モードでのダイジェスト区間決定処理では、まず、現在のダイジェスト長が、ダイジェスト長よりも短いかどうかが判断される（ステップＳ８０１）。ステップＳ８０１で、現在のダイジェスト長がダイジェスト長よりも短いと判断された場合には、入力フレームがダイジェストに追加されるとともに、ダイジェスト全体としての平均スコア（ダイジェスト平均スコア）が更新される（ステップＳ８０３）。そして、ダイジェスト区間決定処理を終了し、次の入力フレームを待つ。

ステップＳ８０１及びステップＳ８０３に示す処理は、これまでに入力された音声情報の時間長さがダイジェスト長に満たない場合には、入力フレームを無条件でダイジェストに追加する処理に対応している。

ステップＳ８０１で、現在のダイジェスト長がダイジェスト長以上である判断された場合には、ステップＳ８０５に進む。ステップＳ８０５では、入力フレームのスコアがダイジェスト平均スコア以上であるかどうかが判断される。ステップＳ８０５で入力フレームのスコアがダイジェスト平均スコアよりも小さいと判断された場合には、当該入力フレームをダイジェストに追加することなく、ダイジェスト区間決定処理を終了する。つまり、スコアのより低いフレームはダイジェストに含まれないようにする。

一方、ステップＳ８０５で入力フレームのスコアがダイジェスト平均スコア以上である判断された場合には、入力フレームがダイジェストに追加され、ダイジェスト平均スコアが更新される（ステップＳ８０７）。ただし、この場合には、入力フレームをダイジェストに追加したことにより、現在のダイジェスト長が、１フレームに対応する時間長さ分、ダイジェスト長を超過してしまっている。従って、ステップＳ８０７に示す処理に次いで、ダイジェストの中からフレームを削除する処理（フレーム削除処理）が行われる（ステップＳ８０９）。フレーム削除処理では、例えばダイジェストの中から、よりスコアの低いフレームが削除される。なお、ステップＳ８０９に示すフレーム削除処理の詳細については、図１８を参照して後述する。

フレームが削除されると、ダイジェスト平均スコアが更新され（ステップＳ８１１）、ダイジェスト区間決定処理を終了する。

（４−２−２．フレーム削除処理）
ここで、図１８を参照して、図１７のステップＳ８０９に示すフレーム削除処理の詳細について説明する。図１８は、オンライン処理における、単一音源モードでのフレーム削除処理の処理手順の一例を示すフロー図である。

図１８を参照すると、オンライン処理における単一音源モードでのフレーム削除処理では、まず、スコア閾値として、ダイジェスト平均スコアが設定される（ステップＳ９０１）。そして、設定されたスコア閾値を用いて、ダイジェストの中でより高いスコアを有する区間（高スコア区間）をダイジェスト区間として決定する処理（高スコア区間決定処理）が行われる（ステップＳ９０３）。

ステップＳ９０３に示す高スコア区間決定処理では、図５のステップＳ２０５に示すオフライン処理での高スコア区間決定処理と略同様の処理が行われるが、一部の処理はオフライン処理のそれとは相違する。具体的には、オフライン処理では、音声情報全体を対象にして、当該音声情報の中でダイジェスト区間を決定するために高スコア区間決定処理が行われる。一方、図１７を参照して説明したように、オンライン処理では、これまでに取得された音声情報の時間長さがダイジェスト長に至るまでの間は、無条件に入力フレームがダイジェストに追加されるため、高スコア区間決定処理を行う前に、既に、いわば仮のダイジェストが生成されている。オンライン処理では、入力フレームが追加され現在のダイジェスト長が１フレーム分だけダイジェスト長の設定値よりも長くなっている場合に、そのダイジェストの中からよりスコアの低い区間を見付けて削除するフレームを決定するために、高スコア区間決定処理が行われるのである。つまり、オンライン処理では、ダイジェストを対象として高スコア区間決定処理が行われる。

また、上記の事情から、オフライン処理では、音声情報の中で高スコア区間として決定されなかった区間は、当然ダイジェスト区間として採用されない。一方、オンライン処理では、ダイジェストの中で高スコア区間として決定されなかった区間が存在した場合であっても、ダイジェストから削除される区間は１フレーム分の区間であるため、その高スコア区間として決定されなかった区間全てをダイジェストから削除することはできない。つまり、オンライン処理では、高スコア区間決定処理の結果高スコア区間として決定されなかった区間が、ダイジェスト内に残存し得る。以下の説明では、このような高スコア区間として決定されなかった区間のことを削除対象区間と呼称する。削除対象区間の中から、例えば最もスコアの低いフレームが、削除されるフレームとして選択されることになる。このように、削除対象区間は、現在はダイジェスト内に存在するが、随時音声情報が入力され、ダイジェストが更新されるにつれていずれ削除されるべき区間であるとも言える。

また、オンライン処理では、上記のように、ダイジェストに入力フレームが追加されるとともに、いずれかのフレームが削除されていくこととなるため、ダイジェスト内の各フレームにおけるスコアを時系列順に並べた際に、スコアが不連続になる点が存在し得る。上述したオフライン処理での高スコア区間決定処理では、音楽情報全体が処理対象であり、このようなスコアの不連続点は考慮する必要がなかったが、オンライン処理での高スコア区間決定処理では、当該不連続点に対処するための追加的な処理が必要となる。

なお、ステップＳ９０３に示すオンライン処理における高スコア区間決定処理のより詳細な処理内容については、図１９−図２２を参照して後程改めて説明する。

ステップＳ９０３において高スコア区間が決定されると、高スコア区間決定処理の結果、高スコア区間として決定されなかった削除対象期間が存在するかどうかが判断される（ステップＳ９０５）。ステップＳ９０５において削除対象区間が存在すると判断された場合には、その削除対象区間からスコアのより低いフレームが１つ選択される（ステップＳ９０７）。そして、選択されたそのフレームがダイジェストから削除される（ステップＳ９１１）。

一方、ステップＳ９０５において削除対象区間が存在しないと判断された場合には、ダイジェストからスコアのより低いフレームが１つ選択される（すなわちＳ９０９）。そして、選択されたそのフレームがダイジェストから削除される（ステップＳ９１１）。

（４−２−３．高スコア区間決定処理）
ここで、図１９−図２２を参照して、詳細な説明を省略していた図１８のステップＳ９０３に示す、オンライン処理での高スコア区間決定処理について詳しく説明する。図１９は、オンライン処理での高スコア区間決定処理について説明するための説明図である。図２０−図２２は、オンライン処理での高スコア区間決定処理の処理手順の一例を示すフロー図である。

図１９では、横軸に音声情報の時間を取り、縦軸にフレームごとに算出されたスコアを取り、両者の関係性をプロットしている。高スコア区間決定処理では、フレームごとに、時系列に従って、当該フレームをダイジェスト区間に含めるかどうかの判断が行われる。現在フレーム、現ダイジェスト区間、連続区間及び不連続区間の意味は、図７に示すオフライン処理での高スコア区間決定処理と同様である。

ただし、上述したように、オンライン処理では、オフライン処理とは異なり、その処理対象がダイジェストである。従って、図示するように、ダイジェスト内からフレームが削除されることにより、ダイジェスト内の各フレームにおけるスコアを時系列順に並べた際にスコアが不連続になる点（不連続点）が存在し得る。また、これも上述したように、高スコア区間決定処理が行われた結果、高スコア区間（すなわちダイジェスト区間）としては決定されなかったがダイジェスト内に存在する区間である削除対象区間がダイジェスト内に存在し得る。

図２０−図２２を参照して、オンライン処理における高スコア区間決定処理の具体的な処理手順について説明する。なお、図２０−図２２に示すオンライン処理における高スコア区間決定処理の処理手順は、処理対象が音声情報全体ではなくダイジェストであることと、後述するステップＳ１１１９〜ステップＳ１１２３に示す処理が追加されたことを除けば、図８及び図９を参照して説明したオフライン処理における高スコア区間決定処理の処理手順と略同様である。従って、以下のオンライン処理における高スコア区間決定処理の処理手順についての説明では、オフライン処理における高スコア区間決定処理の処理手順と重複する事項についてはその詳細な説明を省略し、相違する事項について主に説明する。

図２０−図２２を参照すると、オンライン処理における高スコア区間決定処理では、まず、フレームインデックスがゼロに設定され（ステップＳ１１０１）、ダイジェスト区間インデックスがゼロに設定される（すなわちＳ１１０３）。これらの処理は、図８及び図９に示すステップＳ３０１及びステップＳ３０３に示す処理と同様である。

以降のステップＳ１１０５〜ステップＳ１１１７に示す処理は、図８及び図９に示すステップＳ３０５〜ステップＳ３１７に示す処理と同様である。具体的には、ステップＳ１１０５において、現在フレームのスコアがスコア閾値よりも大きいかどうかが判断される。現在フレームのスコアがスコア閾値以下と判断された場合には、現在フレームをダイジェスト区間には含めずに、ステップＳ１１１９に進む。一方、現在フレームのスコアがスコア閾値以下と判断された場合には、ステップＳ１１０７〜ステップＳ１１１７に進み、現在フレームをダイジェスト区間に含めるための処理が行われる。

ステップＳ１１０７〜ステップＳ１１１７では、不連続区間長が不連続区間最大長よりも小さい場合には、現ダイジェスト区間に不連続区間及び現在フレームが接続される（ステップＳ１１０９）。また、不連続区間長が不連続区間最大長以上であり、かつ不連続区間前の連続区間が連続区間最低長以上である場合には、不連続区間前の連続区間を１つのダイジェスト区間として確定するとともに、ダイジェスト区間インデックスが１つ繰り上げられ、現在フレームがその新たな現ダイジェスト区間の開始時刻に設定される（ステップＳ１１１３、Ｓ１１１５）。また、不連続区間長が不連続区間最大長以上であり、かつ不連続区間前の連続区間が連続区間最低長よりも小さい場合には、不連続区間前の連続区間が破棄され（すなわち削除対象区間とされ）、現在フレームが現ダイジェスト区間の開始時刻に設定される（ステップＳ１１１７）。ステップＳ１１０９、ステップＳ１１１５及びステップＳ１１１７のいずれかの処理が終了すると、ステップＳ１１１９に進む。

ステップＳ１１１９では、現在フレームが不連続点かどうかが判断される。ステップＳ１１１９で現在フレームが不連続点でないと判断された場合には、特段の処理は行われず、ステップＳ１１２５に進む。

一方、ステップＳ１１１９で現在フレームが不連続点であると判断された場合には、ステップＳ１１２３に進む。ステップＳ１１２３では、現ダイジェスト区間長が連続区間最低長よりも大きいかどうかが判断される。つまり、ステップＳ１１２３では、不連続点直前のダイジェスト区間が、時間長さの観点から有意な区間であるかどうか（すなわち音声の識別が可能な程度の時間長さを有しているかどうか）が判断される。

ステップＳ１１２３で現ダイジェスト区間長が連続区間最低長よりも大きいと判断された場合には、現ダイジェスト区間は時間長さ的に有意な区間であると考えられるため、当該ダイジェスト区間を採用し、ステップＳ１１２５に進む。一方、ステップＳ１１２３で現ダイジェスト区間長が連続区間最低長以下であると判断された場合には、現ダイジェスト区間は時間長さ的に有意な区間でないと考えられるため、当該ダイジェスト区間を破棄し（すなわち削除対象区間とし）、ステップＳ１１２５に進む。

以降のステップＳ１１２５〜ステップＳ１１３１に示す処理は、図８及び図９に示すステップＳ３１９〜ステップＳ３２５に示す処理と同様である。具体的には、ステップＳ１１２５では、音声情報が終端かどうかが判断される。ステップＳ１１２５で音声情報が終端でないと判断された場合には、フレームインデックスが１つ繰り上げられ（すなわち処理対象であるフレームが１つ先のフレームに設定され）（ステップＳ１１２７）、ステップＳ１１０５以降の処理が繰り返し実行される。

一方、ステップＳ１１２５で音声情報が終端であると判断された場合には、ステップＳ１１２１に進み、現ダイジェスト区間長が連続区間最低長よりも大きいかどうか、すなわち最後に処理対象であったダイジェスト区間が、時間長さの観点から有意な区間であるかどうかが判断される。

ステップＳ１１２１で現ダイジェスト区間長が連続区間最低長よりも大きいと判断された場合には、現ダイジェスト区間は時間長さ的に有意な区間であると考えられるため、当該ダイジェスト区間を採用し、一連の処理を終了する。一方、ステップＳ１１２１で現ダイジェスト区間長が連続区間最低長以下であると判断された場合には、現ダイジェスト区間は時間長さ的に有意な区間でないと考えられるため、当該ダイジェスト区間を破棄し（すなわち削除対象区間とし）、一連の処理を終了する。

以上、オンライン処理における、単一音源モードでのダイジェスト区間決定処理の処理手順について説明した。

（４−３．複数音源モード）
（４−３−１．ダイジェスト区間決定処理の処理手順）
図２３を参照して、オンライン処理における、複数音源モードでのダイジェスト区間決定処理の処理手順について説明する。図２３は、オンライン処理における、複数音源モードでのダイジェスト区間決定処理の処理手順の一例を示すフロー図である。

なお、図２３に示す複数音源モードでのダイジェスト区間決定処理は、図１７を参照して説明した単一音源モードでのダイジェスト区間決定処理に対して、一部の処理（具体的には後述するステップＳ１２０５に示す処理）が変更されたものであり、その他の処理は、単一音源モードでのダイジェスト区間決定処理と略同様である。従って、以下の複数音源モードでのダイジェスト区間決定処理の処理手順についての説明では、単一音源モードでのダイジェスト区間決定処理の処理手順と重複する事項についてはその詳細な説明を省略し、相違する事項について主に説明する。

図２３を参照すると、複数音源モードでのダイジェスト区間決定処理では、まず、現在のダイジェスト長が、ダイジェスト長（ダイジェストの時間長さの設定値）よりも短いかどうかが判断され（ステップＳ１２０１）、現在のダイジェスト長がダイジェスト長よりも短いと判断された場合には、入力フレームがダイジェストに追加され、ダイジェスト平均スコアが更新される（ステップＳ１２０３）。ステップＳ１２０１及びステップＳ１２０３に示す処理は、図１７に示すステップＳ８０１及びステップＳ８０３における処理と同様である。

ステップＳ１２０１で、現在のダイジェスト長がダイジェスト長以上である判断された場合には、ステップＳ１２０５に進む。ステップＳ１２０５では、音源種別ごとに入力フレームのスコアとダイジェスト平均スコアとが比較され、いずれかの音源種別において、入力フレームのスコアがダイジェスト平均スコア以上であるかどうかが判断される。ステップＳ１２０５で、いずれの音源種別においても、入力フレームのスコアがダイジェスト平均スコアよりも小さいと判断された場合には、当該入力フレームをダイジェストに追加することなく、ダイジェスト区間決定処理を終了する。

一方、ステップＳ１２０５で、いずれかの音源種別において入力フレームのスコアがダイジェスト平均スコア以上であると判断された場合には、ステップＳ１２０７に進む。以降のステップＳ１２０７〜ステップＳ１２１１に示す処理は、図１７に示すステップＳ８０７〜ステップＳ８１１における処理と同様である。すなわち、入力フレームがダイジェストに追加されダイジェスト平均スコアが更新される（ステップＳ１２０７）。次いで、フレーム削除処理（ステップＳ１２０９）が行われ、フレームが削除されると、ダイジェスト平均スコアが更新され（ステップＳ１２１１）、ダイジェスト区間決定処理を終了する。

（４−３−２．フレーム削除処理）
ここで、図２４を参照して、図２３のステップＳ１２０９に示すフレーム削除処理の詳細について説明する。図２４は、オンライン処理における、複数音源モードでのフレーム削除処理の処理手順の一例を示すフロー図である。

図２４を参照すると、オンライン処理における複数音源モードでのフレーム削除処理では、まず、音源種別ごとに、スコア閾値として、ダイジェスト平均スコアが設定される（ステップＳ１３０１）。次いで、種別ダイジェスト長が設定される（ステップＳ１３０３）。なお、ステップＳ１３０３に示す処理では、種別ダイジェスト長は、図１０に示す、オフライン処理における複数音源モードでのダイジェスト区間決定処理のステップＳ４０５に示す処理と同様の方法によって設定されてよい。

そして、設定されたスコア閾値を用いて、ダイジェストの中でより高いスコアを有する区間（高スコア区間）をダイジェスト区間として決定する処理（高スコア区間決定処理）が行われる（ステップＳ１３０５）。ステップＳ１３０５に示す処理は、図１８に示すステップＳ９０３における処理、すなわち、図２０−図２２に示す一連の処理と同様であるため、その詳細な説明を省略する。ただし、複数音源モードでのフレーム削除処理では、高スコア区間決定処理が、音源種別ごとに行われる。

ステップＳ１３０５において高スコア区間が決定されると、高スコア区間決定処理の結果、いずれかの音源種別において、削除対象期間が存在するかどうかが判断される（ステップＳ１３０７）。ステップＳ１３０７においていずれかの音源種別において削除対象区間が存在すると判断された場合には、その音源種別の削除対象区間からスコアのより低いフレームが１つ選択される（ステップＳ１３０９）。そして、選択されたそのフレームがダイジェストから削除される（ステップＳ１３１５）。

一方、ステップＳ１３０７において、いずれの音源種別にも削除対象区間が存在しないと判断された場合には、ダイジェスト区間長の合計が種別ダイジェスト長を最も超過している音源種別が選択される（ステップＳ１３１１）。そして、選択された音源種別について、そのスコアのより低いフレームが１つ選択される（ステップＳ１３１３）。そして、選択されたそのフレームがダイジェストから削除される（ステップＳ１３１５）。

以上、オンライン処理における、複数音源モードでのダイジェスト区間決定処理の処理手順について説明した。

（４−４．多様性反映モード）
オンライン処理における多様性反映モードでのダイジェスト区間決定処理の処理手順は、図２３を参照して説明したオンライン処理における複数音源モードでのダイジェスト区間決定処理の処理手順と同様である。ただし、多様性反映モードでは、図２３のステップＳ１２０９に示すフレーム削除処理の詳細が、複数音源モードとは異なる。従って、以下のオンライン処理における多様性反映モードでのダイジェスト区間決定処理についての説明では、フレーム削除処理の詳細について主に説明する。

なお、オンライン処理においても、オフライン処理と同様に、多様性反映モードにおける各処理は、図１２に示す情報処理装置１２０によって実行され得る。

（４−４−１．フレーム削除処理の処理手順）
図２５を参照して、オンライン処理における、多様性反映モードでのフレーム削除処理の処理手順について説明する。図２５は、オンライン処理における、多様性反映モードでのフレーム削除処理の処理手順の一例を示すフロー図である。

ここで、多様性反映モードは、同一音源種別内での多様性を考慮してダイジェスト区間を決定するものであるため、ダイジェストに含める対象とする音源種別は、単一の音源種別であってもよいし、複数の音源種別であってもよい。図２５では、一例として、ダイジェストに複数の音源種別からなる音声を含める場合における処理手順を図示している。

なお、多様性反映モードでのフレーム削除処理における各処理は、後述するステップＳ１４１３に示す処理を除き、図２４を参照して説明した複数音源モードでのフレーム削除処理における各処理と同様である。従って、以下の多様性反映モードでのフレーム削除処理の処理手順についての説明では、複数音源モードでのフレーム削除処理の処理手順と相違する事項について主に説明し、重複する事項についてはその詳細な説明を省略する。

図２５を参照すると、オンライン処理における多様性反映モードでのフレーム削除処理では、まず、音源種別ごとに、スコア閾値としてダイジェスト平均スコアが設定され（ステップＳ１４０１）、次いで、種別ダイジェスト長が設定される（ステップＳ１４０３）。そして、設定されたスコア閾値を用いて、音源種別ごとに、高スコア区間決定処理が行われる（ステップＳ１４０５）。これらの処理は、図２４に示すステップＳ１３０１〜ステップＳ１３０５における処理と同様である。

次に、高スコア区間決定処理の結果、いずれかの音源種別において、削除対象期間が存在するかどうかが判断される（ステップＳ１４０７）。いずれかの音源種別において削除対象区間が存在すると判断された場合には、その音源種別の削除対象区間からスコアのより低いフレームが１つ選択され（ステップＳ１４０９）、選択されたそのフレームがダイジェストから削除される（ステップＳ１４１５）。これらの処理は、図２４に示すステップＳ１３０７、ステップＳ１３０９、ステップＳ１３１５における処理と同様である。

一方、ステップＳ１４０７において、いずれの音源種別にも削除対象区間が存在しないと判断された場合には、ダイジェスト区間長の合計が種別ダイジェスト長を最も超過している音源種別が選択される（ステップＳ１４１１）。そして、選択された音源種別について、当該音源種別内での多様性を考慮して削除するフレームを選択する処理（多様性に基づく削除フレーム選択処理）が行われる（ステップＳ１４１３）。そして、選択されたそのフレームがダイジェストから削除される（ステップＳ１４１５）。

（４−４−２．多様性に基づく削除フレーム選択処理）
図２６を参照して、図２５のステップＳ１４１３に示す多様性に基づく削除フレーム選択処理について詳しく説明する。図２６は、オンライン処理における、多様性に基づく削除フレーム選択処理の処理手順の一例を示すフロー図である。

図２６を参照すると、オンライン処理における多様性に基づく削除フレーム選択処理では、まず、全フレームの場合と、任意の１つのフレームを除いた場合の、ｎ通りの特徴量空間における特徴量ベクトルの分散が計算される（ステップＳ１５０１）。

次に、全フレームの場合と、任意の１つのフレームを除いた場合の、ｎ通りのフレームの時刻の分散が計算される（ステップＳ１５０３）。

次に、特徴量ベクトルの分散及び時刻の分散に重み付けを行った上でその総和が計算され、全フレームの場合の値からの低減量が最も少ない場合に除外されたフレームが、削除するフレームとして決定される（ステップＳ１５０５）。つまり、ステップＳ１５０５に示す処理では、特徴量ベクトル及び時刻の分散の計算に用いられなかった場合に最も影響の少ない特徴量ベクトル及び時刻を有するフレームが、削除するフレームとして決定される。これにより、特徴量ベクトル及び時刻の分散がより大きくなるように、ダイジェストに含めるフレームが選択されることとなる。

以上、図２５を参照して、オンライン処理における、多様性反映モードでのダイジェスト区間決定処理の処理手順について説明した。また、図２６を参照して、図２５のステップＳ１４１３に示す多様性に基づく削除フレーム選択処理について説明した。

（５．変形例）
以上説明した実施形態のいくつかの変形例について説明する。なお、以上説明した実施形態及び以下に説明する各変形例に記載される事項は、可能な範囲で互いに組み合わされてよい。

（５−１．音声収音機能が設けられる変形例）
図２７を参照して、情報処理装置に音声収音機能が設けられる変形例について説明する。図２７は、音声収音機能が設けられる変形例に係る情報処理装置の機能構成の一例を示す機能ブロック図である。

図２７を参照すると、本変形例に係る情報処理装置１３０は、その機能として、特徴量抽出部１１１と、音源種別スコア算出部１１３と、ダイジェスト区間決定部１１５と、音声収音部１３１と、を有する。ここで、特徴量抽出部１１１、音源種別スコア算出部１１３及びダイジェスト区間決定部１１５の機能は、図１に示す情報処理装置１１０におけるこれらの機能ブロックの機能と同様であるため、その詳細な説明は省略する。

音声収音部１３１は、例えばマイクロフォン等の収音装置によって構成され、外部の音声を収音し、音声情報として情報処理装置１１０に入力する機能を有する。音声収音部１３１は、収音した外部音声に係る音声情報を、特徴量抽出部１１１に提供する。特徴量抽出部１１１、音源種別スコア算出部１１３及びダイジェスト区間決定部１１５は、音声収音部１３１から提供された音声情報に対して、以上説明した実施形態に係る各種の処理（特徴量抽出処理、音源種別スコア算出処理及びダイジェスト区間決定処理）を行う。

なお、音声収音部１３１は、１つのマイクロフォンによって構成されてもよいし、互いに異なる位置に配置される複数のマイクロフォンによって構成されてもよい。音声収音部１３１が、互いに異なる位置に配置される複数のマイクロフォンによって構成される場合には、特徴量抽出部１１１は、収音位置間の相関や音源方位等、マイクロフォンが複数存在することによって算出可能となる各種の特徴量を算出することができる。

以上、図２７を参照して、情報処理装置に音声収音機能が設けられる変形例について説明した。以上説明したように、本変形例によれば、情報処理装置１３０自体が外部の音声を収音する収音機能を有し、収音した外部音声に係る音声情報のダイジェスト区間情報を出力することができる。このような情報処理装置１３０は、例えばＩＣレコーダーや外部音声を録音するアプリケーションソフトが搭載されたスマートフォン等であり得る。

（５−２．ダイジェスト生成機能が設けられる変形例）
図２８を参照して、情報処理装置にダイジェスト生成機能が設けられる変形例について説明する。図２８は、ダイジェスト生成機能が設けられる変形例に係る情報処理装置の機能構成の一例を示す機能ブロック図である。

図２８を参照すると、本変形例に係る情報処理装置１４０は、その機能として、特徴量抽出部１１１と、音源種別スコア算出部１１３と、ダイジェスト区間決定部１１５と、出力音声生成部１４１と、を有する。ここで、特徴量抽出部１１１、音源種別スコア算出部１１３及びダイジェスト区間決定部１１５の機能は、図１に示す情報処理装置１１０におけるこれらの機能ブロックの機能と同様であるため、その詳細な説明は省略する。

出力音声生成部１４１は、各種のプロセッサによって構成され、音声情報と、ダイジェスト区間決定部１１５によって生成されるダイジェスト区間情報と、に基づいて、当該音声情報のダイジェストを、音声出力機器で出力可能なデータ形式で生成する。出力音声生成部１４１は、ダイジェストを生成する際に、ダイジェスト区間同士のつなぎ目に対してクロスフェード処理を施す等、ユーザの聴き心地を考慮して、各種の公知の音声処理を適宜行ってもよい。出力音声生成部１４１は、生成したダイジェストに対応する音声情報（出力音声情報）を、例えばスピーカ等の音声出力機器に出力する。当該音声出力機器によってダイジェストが音声として出力される。

以上、図２８を参照して、情報処理装置にダイジェスト生成機能が設けられる変形例について説明した。以上説明したように、本変形例によれば、情報処理装置１４０自身がダイジェストを生成する機能を有し、生成したダイジェストを、情報処理装置１４０自身に設けられる音声出力機器又は情報処理装置１４０の外部の音声出力機器から出力することができる。

なお、情報処理装置１４０自身が音声出力機器を有し、ダイジェストを再生可能である場合には、情報処理装置１４０は、音声情報を取得したら自動的にダイジェストを生成してもよい。また、その場合、情報処理装置１４０では、例えば、表示画面上の音声情報を表すファイル名にポインタを載せる等のＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）を用いた操作や、プレビュー操作等の簡易な操作によって、ダイジェストが再生されてもよい。情報処理装置１４０がこのように構成されることにより、ユーザは、ダイジェスト生成のための操作をわざわざ行わなくてもよく、また、簡易な操作でダイジェストを聴くことができるため、あたかも映像情報におけるサムネイルを確認するような感覚で音声情報のダイジェストを確認することができ、ユーザの利便性がより向上する。

（５−３．音声情報データベースが設けられる変形例）
図２９を参照して、情報処理装置に音声情報データベースが設けられる変形例について説明する。図２９は、音声情報データベースが設けられる変形例に係る情報処理装置の機能構成の一例を示す機能ブロック図である。

図２９を参照すると、本変形例に係る情報処理装置１５０は、その機能として、特徴量抽出部１１１と、音源種別スコア算出部１１３と、ダイジェスト区間決定部１１５と、音声情報データベース１５１と、を有する。ここで、特徴量抽出部１１１、音源種別スコア算出部１１３及びダイジェスト区間決定部１１５の機能は、図１に示す情報処理装置１１０におけるこれらの機能ブロックの機能と同様であるため、その詳細な説明は省略する。

音声情報データベース１５１は、例えばＨＤＤ等の記憶装置によって構成され、データベース化された音声情報を記憶する。特徴量抽出部１１１は、音声情報データベース１５１にアクセスすることにより、当該音声情報データベース１５１内の任意の音声情報から特徴量を抽出することができる。つまり、本変形例によれば、情報処理装置１５０内に設けられる記憶部内のデータベース化された音声情報に対して、特徴量抽出部１１１、音源種別スコア算出部１１３及びダイジェスト区間決定部１１５が、以上説明した実施形態に係る各種の処理（特徴量抽出処理、音源種別スコア算出処理及びダイジェスト区間決定処理）を行う。

以上、図２９を参照して、情報処理装置に音声情報データベースが設けられる変形例について説明した。以上説明したように、本変形例によれば、情報処理装置１５０自身が音声情報が格納されたデータベースを有し、当該データベース内の音声情報のダイジェスト区間情報を出力することができる。

（６．ハードウェア構成）
次に、図３０を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図３０は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図３０に示す情報処理装置９００は、例えば、図１、図１２、図２７−図２９に示す情報処理装置１１０、１２０、１３０、１４０、１５０の機能構成を実現し得る。

情報処理装置９００は、ＣＰＵ９０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０３及びＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０５を備える。また、情報処理装置９００は、ホストバス９０７、ブリッジ９０９、外部バス９１１、インターフェース９１３、入力装置９１５、出力装置９１７、ストレージ装置９１９、通信装置９２１、ドライブ９２３及び接続ポート９２５を備えてもよい。情報処理装置９００は、ＣＰＵ９０１に代えて、又はこれとともに、ＤＳＰ若しくはＡＳＩＣと呼ばれるような処理回路を有してもよい。

ＣＰＵ９０１は、演算処理装置及び制御装置として機能し、ＲＯＭ９０３、ＲＡＭ９０５、ストレージ装置９１９又はリムーバブル記録媒体９２９に記録された各種のプログラムに従って、情報処理装置９００内の動作全般又はその一部を制御する。ＲＯＭ９０３は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０５は、ＣＰＵ９０１の実行において使用するプログラムや、その実行時のパラメータ等を一次記憶する。ＣＰＵ９０１、ＲＯＭ９０３及びＲＡＭ９０５は、ＣＰＵバス等の内部バスにより構成されるホストバス９０７により相互に接続されている。更に、ホストバス９０７は、ブリッジ９０９を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バス等の外部バス９１１に接続されている。ＣＰＵ９０１は、例えば、上述した実施形態における特徴量抽出部１１１、音源種別スコア算出部１１３、ダイジェスト区間決定部１１５及び出力音声生成部１４１を構成し得る。

ホストバス９０７は、ブリッジ９０９を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バス等の外部バス９１１に接続されている。

入力装置９１５は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ及びレバー等、ユーザによって操作される装置によって構成される。また、入力装置９１５は、例えば、赤外線やその他の電波を利用したリモートコントロール装置（いわゆる、リモコン）であってもよいし、情報処理装置９００の操作に対応した携帯電話やＰＤＡ等の外部接続機器９３１であってもよい。更に、入力装置９１５は、例えば、上記の操作手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路などから構成されている。情報処理装置９００のユーザは、この入力装置９１５を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。本実施形態では、入力装置９１５を介して、例えばダイジェスト区間決定処理を開始する旨の指示や、モードの切り替え指示等が、情報処理装置１１０、１２０、１３０、１４０、１５０に入力されてよい。

また、入力装置９１５は、周囲の音声を収音し、当該周囲の音声を音声情報として情報処理装置９００に入力するマイクロフォンであってもよい。入力装置９１５がマイクロフォンである場合には、当該入力装置９１５は、上述した実施形態における音声収音部１３１を構成し得る。

出力装置９１７は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で構成される。このような装置として、ＣＲＴディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ＥＬディスプレイ装置及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置９１７は、例えば、情報処理装置９００が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置９００が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。本実施形態では、当該音声出力装置を介して、例えば、情報処理装置１４０によって生成される音声情報のダイジェストが出力されてよい。また、当該表示装置には、入力装置９１５を介して各種の指示を入力するためのＧＵＩに係る表示が表示されてもよい。

ストレージ装置９１９は、情報処理装置９００の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９は、例えば、ＨＤＤ等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により構成される。このストレージ装置９１９は、ＣＰＵ９０１が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。ストレージ装置９１９は、例えば、上述した実施形態における音声情報データベース１５１を構成し得る。

通信装置９２１は、例えば、通信網（ネットワーク）９２７に接続するための通信デバイス等で構成された通信インターフェースである。通信装置９２１は、例えば、有線若しくは無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カード等である。また、通信装置９２１は、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ又は各種通信用のモデム等であってもよい。この通信装置９２１は、例えば、インターネットや他の通信機器との間で、例えばＴＣＰ／ＩＰ等の所定のプロトコルに則して信号等を送受信することができる。また、通信装置９２１に接続されるネットワーク９２７は、有線又は無線によって接続されたネットワーク等により構成され、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信又は衛星通信等であってもよい。本実施形態では、例えば、情報処理装置１１０、１２０、１３０、１４０、１５０が、通信装置９２１を介して、音声情報やダイジェスト区間情報、出力音声情報等の、情報処理装置１１０、１２０、１３０、１４０、１５０の入出力である各種の情報を、外部の機器との間でやり取りしてよい。

ドライブ９２３は、記録媒体用リーダライタであり、情報処理装置９００に内蔵、あるいは外付けされる。ドライブ９２３は、装着されている磁気ディスク、光ディスク、光磁気ディスク又は半導体メモリ等のリムーバブル記録媒体９２９に記録されている情報を読み出して、ＲＡＭ９０５に出力する。また、ドライブ９２３は、装着されている磁気ディスク、光ディスク、光磁気ディスク又は半導体メモリ等のリムーバブル記録媒体９２９に情報を書き込むことも可能である。リムーバブル記録媒体９２９は、例えば、ＤＶＤメディア、ＨＤ−ＤＶＤメディア、Ｂｌｕ−ｒａｙ（登録商標）メディア等である。また、リムーバブル記録媒体９２９は、コンパクトフラッシュ（登録商標）（ＣｏｍｐａｃｔＦｌａｓｈ：ＣＦ）、フラッシュメモリ又はＳＤメモリカード（ＳｅｃｕｒｅＤｉｇｉｔａｌｍｅｍｏｒｙｃａｒｄ）等であってもよい。また、リムーバブル記録媒体９２９は、例えば、非接触型ＩＣチップを搭載したＩＣカード（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｃａｒｄ）又は電子機器等であってもよい。本実施形態では、例えば情報処理装置１１０、１２０、１３０、１４０、１５０によって処理される各種の情報が、ドライブ９２３によってリムーバブル記録媒体９２９から読み出されたり、リムーバブル記録媒体９２９に書き込まれたりしてもよい。

接続ポート９２５は、機器を情報処理装置９００に直接接続するためのポートである。接続ポート９２５の一例として、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポート、ＩＥＥＥ１３９４ポート及びＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）ポート等がある。接続ポート９２５の別の例として、ＲＳ−２３２Ｃポート、光オーディオ端子及びＨＤＭＩ（登録商標）（Ｈｉｇｈ−ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）ポート等がある。この接続ポート９２５に外部接続機器９３１を接続することで、情報処理装置９００は、外部接続機器９３１から直接各種のデータを取得したり、外部接続機器９３１に各種のデータを提供したりする。本実施形態では、例えば情報処理装置１１０、１２０、１３０、１４０、１５０によって処理される各種の情報が、接続ポート９２５を介して外部接続機器９３１から取得されたり、外部接続機器９３１に出力されたりしてもよい。

以上、本実施形態に係る情報処理装置９００の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。

なお、上述のような本実施形態に係る情報処理装置９００の各機能を実現するためのコンピュータプログラムを作製し、ＰＣ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。

（７．まとめ）
以上説明したように、本実施形態によれば、音声情報に含まれる音声の音源種別の蓋然性を示す音源種別スコアが算出され、当該音源種別スコアに基づいて、当該音声情報の中から当該音声情報のダイジェストを構成するダイジェスト区間が決定される。従って、例えば、音楽のみをダイジェストに含めたい、人の声のみをダイジェストに含めたい、音楽と人の声とをバランスよくダイジェストに含めたい等、ユーザの多様な要望に応じたダイジェストを生成することが可能になる。よって、ユーザの利便性をより向上させることができる。

また、モードが設定され、ダイジェストに含まれる音声の音源種別が適宜調整されることにより、よりユーザの意向に沿ったダイジェストを生成することが可能になる。例えば、複数音源モードにおいてノイズスコアに係る音声がダイジェストに含まれる割合を低い値に設定する等、モードを適宜設定することで、ノイズが低減された、よりユーザにとって聞き取りやすいダイジェストを生成することが可能である。

ここで、一般的に、映像情報については、例えばサムネイルを表示することにより、当該映像情報の概要を視覚的にユーザに対して通知することができる。しかしながら、主に映像情報ではなく音声情報を取得する音声収録機器（例えばＩＣレコーダー、録音アプリケーションソフトが搭載されたスマートフォン、カメラ機能が搭載されていない又はカメラ機能が使用できない状況下でのウェアラブル機器等）で音声を収録した場合、その音声情報のファイル名、収音日時等は視覚的に表示され得るが、ユーザにとって、これらの情報から、その音声情報の概要を視覚的に把握することは困難である。また、音声情報とともに映像情報を有する場合であっても、例えば暗い室内でのイベント中で表示画面のバックライトを点灯することが憚られる場合等、状況によっては、表示画面を見ることができず視覚的な確認ができない場合もある。

このような場合、音声情報（又は、音声情報及び映像情報）の内容を把握するためには、ユーザは、実際に当該音声情報を試聴する必要がある。しかしながら、音声情報の時間長さが長い場合には、内容確認のために当該音声情報を一通り聞くことは、時間的な負荷が大きく、ユーザにとって大きな負担となる。

一方、本実施形態によれば、上述したように、ユーザの要望に沿った音声情報のダイジェストを作成することが可能になる。従って、例えば数秒のダイジェストを試聴するだけで音声情報の内容を把握することができ、これまでは多大な時間を要していた内容確認に掛かる時間を、大幅に短縮することができる。

また、本実施形態によれば、例えば、音声を収録した装置本体、又はストレージに移動された後の音声情報を管理する他の装置等により、取得された音声情報に対して、自動的にダイジェストが生成されてもよい。また、取得された音声情報に対して自動的にダイジェストが生成される場合には、例えば、表示画面上の音声情報を表すファイル名にポインタを載せる等のＧＵＩを用いた操作や、プレビュー操作等の簡易な操作によって、ダイジェストが再生されてもよい。これにより、ユーザは、煩わしい操作を行うことなく、より気楽にダイジェストを確認することができる。

また、本実施形態に係る技術は、いわゆるビッグデータを解析する用途にも好適に適用可能である。例えば、コールセンターや捜査機関等で収集される通話記録に対して本実施形態に係る技術を適用し、通話記録のダイジェストを生成することにより、膨大な量の通話記録の内容をより短時間で確認することが可能となる。従って、通話記録の解析がより容易になる。

また、音声情報とともに映像情報を有する場合であっても、映像情報に基づくサムネイル等を用いた視覚的な方法では、内容の把握が難しい状況が考えられる。例えば、似通った映像に対して音声部分のみが大きく異なる複数のファイルが存在する場合や、装置の処理速度等の実装的な制約から映像情報を利用できない場合、定点カメラ等による映像であるために映像内に音源が映っていない場合（すなわち話者が特定できない場合）等が、このような状況に該当し得る。本実施形態に係る技術は、このような、内容の把握のために映像情報が有効に利用できない場合にも好適に適用され得る。

更に、本実施形態に係る技術は、動画を編集する場合等、音声情報を編集する作業においても、編集前の素材となる音声情報の内容を容易に把握する上で、有効である。例えば、近年、静止画像と音声とを組み合わせた、音声情報付きの写真を生成、提供するサービスが存在する。このような、静止画像と音声とを組み合わせたフォーマットのファイルを生成する際に、音声部分を編集する際にも、本実施形態に係る技術が有効に活用され得る。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

また、本明細書に記載された効果は、あくまで説明的又は例示的なものであって限定的なものではない。つまり、本開示に係る技術は、上記の効果とともに、又は上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。

ここで、本明細書では、各処理の処理手順での判断処理において、スコアをしきい値と比較する際等に、「以下」や「よりも大きい」等の表現を用いているが、これらの表現はあくまで例示であり、当該判断処理における境界条件を限定するものではない。本実施形態では、スコア等の値がしきい値と等しい場合に、その大小関係をどのように判断するかは任意に設定可能であってよい。本明細書における「以下」との表現は「よりも小さい」との表現と互いに適宜読み替えることが可能であるし、「よりも大きい」との表現は「以上」との表現と互いに適宜読み替えることが可能である。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）音声情報に含まれる音声の音源種別の蓋然性を示す音源種別スコアを算出する音源種別スコア算出部と、算出された前記音源種別スコアに基づいて、前記音声情報の中から、前記音声情報のダイジェストを構成するダイジェスト区間を決定するダイジェスト区間決定部と、を備える、情報処理装置。
（２）前記音源種別スコアは、音楽らしさを示す音楽スコア、人の声らしさを示す声スコア及び雑音らしさを示すノイズスコアの少なくともいずれかを含む、前記（１）に記載の情報処理装置。
（３）前記声スコアは、男性の声らしさを示す男性声スコア、女性の声らしさを示す女性声スコア、子どもの声らしさを示す子ども声スコア、及び前記音声を発している特定の人物らしさを示す特定声スコアの少なくともいずれかを更に含む、前記（２）に記載の情報処理装置。
（４）前記音源種別スコア算出部は、前記音声情報の特徴を示す特徴量に基づいて、前記音源種別スコアを算出する、前記（１）〜（３）のいずれか１項に記載の情報処理装置。
（５）前記特徴量は、前記音声情報についての、パワー、スペクトル包絡形状、ゼロ交差数、ピッチ、ＭＦＣＣ、収音位置間での相関、及び音源方位の特性を示す物理量のうちの少なくとも１つを含む、前記（４）に記載の情報処理装置。
（６）前記ダイジェスト区間決定部は、生成する前記ダイジェストのモードに基づいて前記ダイジェストに含める前記音声の音源種別を決定し、前記音声情報の中で、決定した音源種別に係る前記音源種別スコアがより高い区間を、前記ダイジェスト区間として決定する、前記（１）〜（５）のいずれか１項に記載の情報処理装置。
（７）前記モードは、単一の音源種別の前記音声のみを含むように前記ダイジェストを生成する単一音源モード、複数の音源種別の前記音声を所定の割合で含むように前記ダイジェストを生成する複数音源モード、及び、同一の前記音源種別に分類される前記音声の中から多様な前記音声が含まれるように前記ダイジェストを生成する多様性反映モード、の少なくともいずれかから選択される、前記（６）に記載の情報処理装置。
（８）前記モードが前記単一音源モードである場合には、前記ダイジェスト区間決定部は、指定された一の音源種別に係る前記音源種別スコアがより高い区間を、前記ダイジェスト区間として決定する、前記（７）に記載の情報処理装置。
（９）前記モードが前記複数音源モードである場合には、前記ダイジェスト区間決定部は、前記ダイジェストに含める前記音声の時間長さを音源種別ごとに設定し、音源種別ごとに前記音源種別スコアがより高い区間であって当該区間の合計長さが設定した音源種別ごとの前記時間長さと略等しくなるような前記区間を、前記ダイジェスト区間として決定する、前記（７）に記載の情報処理装置。
（１０）前記モードが前記多様性反映モードである場合には、前記ダイジェスト区間決定部は、同一の音源種別内での前記音声情報の特徴を示す特徴量のばらつき及び同一の前記音源種別内での前記音声が発せられた時刻のばらつきを算出し、前記特徴量のばらつき及び前記時刻のばらつきがより大きくなるように、前記ダイジェスト区間を決定する、前記（７）に記載の情報処理装置。
（１１）前記ダイジェスト区間決定部は、前記音源種別スコアが所定のしきい値よりも高い第１の区間と、前記音源種別スコアが所定のしきい値よりも低い第２の区間と、が連続して存在しており、かつ、前記第２の区間の時間長さが所定の時間よりも短い場合には、前記第１及び第２の区間をともに含むように前記ダイジェスト区間を決定する、前記（６）〜（１０）のいずれか１項に記載の情報処理装置。
（１２）前記ダイジェスト区間決定部は、前記音源種別スコアが所定のしきい値よりも高い第１の区間の時間長さが、人にとって音声として認識できない長さである場合には、前記第１の区間を含まないように前記ダイジェスト区間を決定する、前記（６）〜（１１）のいずれか１項に記載の情報処理装置。
（１３）前記音源種別スコア算出部は、予め全てが取得されている前記音声情報について、前記音源種別スコアを算出し、前記ダイジェスト区間決定部は、予め全てが取得されている前記音声情報の前記ダイジェストを生成する、前記（１）〜（１２）のいずれか１項に記載の情報処理装置。
（１４）前記音源種別スコア算出部は、現在まさに取得され続けている前記音声情報について、前記ダイジェスト区間以下の長さの時間からなるスコア算出区間に対応する時間長さの音声情報が新たに取得される度に、前記スコア算出区間ごとに前記音源種別スコアを算出し、前記ダイジェスト区間決定部は、前記音声情報が取得されている間、前記音声情報の前記ダイジェストを随時更新しながら生成する、前記（１）〜（１２）のいずれか１項に記載の情報処理装置。
（１５）前記ダイジェスト区間決定部は、これまでに取得された前記音声情報の時間長さが、前記ダイジェストの時間長さの設定値よりも短い場合には、新たに取得された前記音声情報を前記ダイジェストに追加し、これまでに取得された前記音声情報の時間長さが、前記ダイジェストの時間長さの設定値以上である場合には、新たに取得された前記スコア算出区間分の前記音声情報を前記ダイジェストに追加するとともに、前記ダイジェストの中から前記スコア算出区間分の時間長さの区間であって前記音源種別スコアがより低い区間を削除する、前記（１４）に記載の情報処理装置。
（１６）外部の音声を収音する音声収音部、を更に備え、前記音声情報は、前記音声収音部によって収音された外部音声に係る音声情報である、前記（１）〜（１５）のいずれか１項に記載の情報処理装置。
（１７）データベース化された前記音声情報が保存される記憶部、を更に備え、前記音源種別スコア算出部は、データベース化された前記音声情報に対して音源種別スコアを算出し、前記ダイジェスト区間決定部は、データベース化された前記音声情報に対して前記ダイジェスト区間を決定する、前記（１）〜（１５）のいずれか１項に記載の情報処理装置。
（１８）前記音声情報と、前記ダイジェスト区間決定部によって決定されたダイジェスト区間についての情報と、に基づいて、前記音声情報のダイジェストを、音声出力機器で出力可能なデータ形式で生成する出力音声生成部、を更に備える、前記（１）〜（１７）のいずれか１項に記載の情報処理装置。
（１９）プロセッサが、音声情報に含まれる音声の音源種別の蓋然性を示す音源種別スコアを算出することと、算出された前記音源種別スコアに基づいて、前記音声情報の中から、前記音声情報のダイジェストを構成するダイジェスト区間を決定することと、を含む、情報処理方法。
（２０）コンピュータのプロセッサに、音声情報に含まれる音声の音源種別の蓋然性を示す音源種別スコアを算出する機能と、算出された前記音源種別スコアに基づいて、前記音声情報の中から、前記音声情報のダイジェストを構成するダイジェスト区間を決定する機能と、を実現させる、プログラム。

１１０、１２０、１３０、１４０、１５０情報処理装置
１１１特徴量抽出部
１１３音源種別スコア算出部
１１５ダイジェスト区間決定部
１３１音声収音部
１４１出力音声生成部
１５１音声情報データベース（ＤＢ）

Claims

音声情報に含まれる音声の音源種別の蓋然性を示す音源種別スコアを算出する音源種別スコア算出部と、
算出された前記音源種別スコアに基づいて、前記音声情報の中から、前記音声情報のダイジェストを構成するダイジェスト区間を決定するダイジェスト区間決定部と、
を備え、
前記音源種別スコア算出部は、前記音声情報が取得される間、前記ダイジェスト区間以下の長さの時間からなるスコア算出区間に対応する時間長さの音声情報が新たに取得された際に、前記スコア算出区間ごとに前記音源種別スコアを算出し、前記ダイジェスト区間決定部は、前記音声情報が取得された際に、前記音声情報の前記ダイジェストを更新し生成し、
前記ダイジェスト区間決定部は、これまでに取得された前記音声情報の時間長さが、前記ダイジェストの時間長さの設定値よりも短い場合には、新たに取得された前記音声情報を前記ダイジェストに追加し、これまでに取得された前記音声情報の時間長さが、前記ダイジェストの時間長さの設定値以上である場合には、新たに取得された前記スコア算出区間分の前記音声情報を前記ダイジェストに追加するとともに、前記ダイジェストの中から前記スコア算出区間分の時間長さの区間であって前記音源種別スコアがより低い区間を削除する、情報処理装置。
前記ダイジェスト区間決定部は、生成する前記ダイジェストのモードに基づいて前記ダイジェストに含める前記音声の音源種別を決定し、前記音声情報の中で、決定した音源種別に係る前記音源種別スコアがより高い区間を、前記ダイジェスト区間として決定し、
前記モードは、単一の音源種別の前記音声のみを含むように前記ダイジェストを生成する単一音源モード、複数の音源種別の前記音声を所定の割合で含むように前記ダイジェストを生成する複数音源モード、及び、同一の前記音源種別に分類される前記音声の中から多様な前記音声が含まれるように前記ダイジェストを生成する多様性反映モード、の少なくともいずれかから選択される、請求項１に記載の情報処理装置。
前記モードが前記単一音源モードである場合には、前記ダイジェスト区間決定部は、指定された一の前記音源種別に係る音源種別スコアがより高い区間を、前記ダイジェスト区間として決定する、
請求項２に記載の情報処理装置。
前記モードが前記複数音源モードである場合には、前記ダイジェスト区間決定部は、前記ダイジェストに含める前記音声の時間長さを音源種別ごとに設定し、前記音源種別ごとに音源種別スコアがより高い区間であって当該区間の合計長さが設定した前記音源種別ごとの前記時間長さと略等しくなるような前記区間を、前記ダイジェスト区間として決定する、
請求項２に記載の情報処理装置。
前記モードが前記多様性反映モードである場合には、前記ダイジェスト区間決定部は、同一の前記音源種別内での前記音声情報の特徴を示す特徴量のばらつき及び同一の前記音源種別内での前記音声が発せられた時刻のばらつきを算出し、前記特徴量のばらつき及び前記時刻のばらつきがより大きくなるように、前記ダイジェスト区間を決定する、
請求項２に記載の情報処理装置。
前記ダイジェスト区間決定部は、前記音源種別スコアが所定のしきい値よりも高い第１の区間と、前記音源種別スコアが所定のしきい値よりも低い第２の区間と、が連続して存在しており、かつ、前記第２の区間の時間長さが所定の時間よりも短い場合には、前記第１及び第２の区間をともに含むように前記ダイジェスト区間を決定する、
請求項１に記載の情報処理装置。
前記ダイジェスト区間決定部は、前記音源種別スコアが所定のしきい値よりも高い第１の区間の時間長さが、人にとって音声として認識できない長さである場合には、前記第１の区間を含まないように前記ダイジェスト区間を決定する、
請求項１に記載の情報処理装置。
前記音源種別スコア算出部は、予め全てが取得されている前記音声情報について、前記音源種別スコアを算出し、
前記ダイジェスト区間決定部は、予め全てが取得されている前記音声情報の前記ダイジェストを生成する、
請求項１に記載の情報処理装置。
データベース化された前記音声情報が保存される記憶部、を更に備え、
前記音源種別スコア算出部は、データベース化された前記音声情報に対して前記音源種別スコアを算出し、
前記ダイジェスト区間決定部は、データベース化された前記音声情報に対して前記ダイジェスト区間を決定する、
請求項１に記載の情報処理装置。
前記音源種別スコアは、音楽らしさを示す音楽スコア、人の声らしさを示す声スコア及び雑音らしさを示すノイズスコアの少なくともいずれかを含む、
請求項１に記載の情報処理装置。
前記声スコアは、男性の声らしさを示す男性声スコア、女性の声らしさを示す女性声スコア、子どもの声らしさを示す子ども声スコア、及び前記音声を発している特定の人物らしさを示す特定声スコアの少なくともいずれかを更に含む、
請求項１０に記載の情報処理装置。
前記特徴量は、前記音声情報についての、パワー、スペクトル包絡形状、ゼロ交差数、ピッチ、ＭＦＣＣ、収音位置間での相関、及び音源方位の特性を示す物理量のうちの少なくとも１つを含む、
請求項５に記載の情報処理装置。
外部の音声を収音する音声収音部、を更に備え、
前記音声情報は、前記音声収音部によって収音された外部音声に係る音声情報である、
請求項１に記載の情報処理装置。
前記音声情報と、前記ダイジェスト区間決定部によって決定されたダイジェスト区間についての情報と、に基づいて、前記音声情報のダイジェストを、音声出力機器で出力可能なデータ形式で生成する出力音声生成部、を更に備える、
請求項１に記載の情報処理装置。
音声情報に含まれる音声の音源種別の蓋然性を示す音源種別スコアを算出することと、
算出された前記音源種別スコアに基づいて、前記音声情報の中から、前記音声情報のダイジェストを構成するダイジェスト区間を決定することと、
前記音声情報が取得される間、前記ダイジェスト区間以下の長さの時間からなるスコア算出区間に対応する時間長さの音声情報が新たに取得された際に、前記スコア算出区間ごとに前記音源種別スコアを算出することと、
前記音声情報が取得された際に、前記音声情報の前記ダイジェストを更新し生成することと、を含み、
これまでに取得された前記音声情報の時間長さが、前記ダイジェストの時間長さの設定値よりも短い場合には、新たに取得された前記音声情報を前記ダイジェストに追加し、これまでに取得された前記音声情報の時間長さが、前記ダイジェストの時間長さの設定値以上である場合には、新たに取得された前記スコア算出区間分の前記音声情報を前記ダイジェストに追加するとともに、前記ダイジェストの中から前記スコア算出区間分の時間長さの区間であって前記音源種別スコアがより低い区間を削除する、情報処理方法。
コンピュータを、
音声情報に含まれる音声の音源種別の蓋然性を示す音源種別スコアを算出する音源種別スコア算出部と、
算出された前記音源種別スコアに基づいて、前記音声情報の中から、前記音声情報のダイジェストを構成するダイジェスト区間を決定するダイジェスト区間決定部と、
として機能させ、
前記音源種別スコア算出部を、前記音声情報が取得される間、前記ダイジェスト区間以下の長さの時間からなるスコア算出区間に対応する時間長さの音声情報が新たに取得された際に、前記スコア算出区間ごとに前記音源種別スコアを算出するよう機能させ、前記ダイジェスト区間決定部を、前記音声情報が取得された際に、前記音声情報の前記ダイジェストを更新し生成するよう機能させ、
前記ダイジェスト区間決定部を、これまでに取得された前記音声情報の時間長さが、前記ダイジェストの時間長さの設定値よりも短い場合には、新たに取得された前記音声情報を前記ダイジェストに追加し、これまでに取得された前記音声情報の時間長さが、前記ダイジェストの時間長さの設定値以上である場合には、新たに取得された前記スコア算出区間分の前記音声情報を前記ダイジェストに追加するとともに、前記ダイジェストの中から前記スコア算出区間分の時間長さの区間であって前記音源種別スコアがより低い区間を削除するよう機能させる、情報処理プログラム。