以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.既存の技術に対する検討
2.装置構成
3.オフライン処理の詳細
3−1.全体の処理手順
3−2.単一音源モード
3−2−1.ダイジェスト区間決定処理の処理手順
3−2−2.高スコア区間決定処理
3−3.複数音源モード
3−3−1.ダイジェスト区間決定処理の処理手順
3−4.多様性反映モード
3−4−1.機能構成
3−4−2.ダイジェスト区間決定処理の処理手順
3−4−3.多様性に基づくダイジェスト区間削除処理
4.オンライン処理の詳細
4−1.全体の処理手順
4−2.単一音源モード
4−2−1.ダイジェスト区間決定処理
4−2−2.フレーム削除処理
4−2−3.高スコア区間決定処理
4−3.複数音源モード
4−3−1.ダイジェスト区間決定処理の処理手順
4−3−2.フレーム削除処理
4−4.多様性反映モード
4−4−1.フレーム削除処理の処理手順
4−4−2.多様性に基づく削除フレーム選択処理
5.変形例
6.ハードウェア構成
7.まとめ
(1.既存の技術に対する検討)
本開示の好適な一実施形態について説明するに先立ち、本発明者らが既存の一般的な技術について検討した結果について説明するとともに、本発明者らが本開示に想到した背景について説明する。
一般的に、音声情報や映像情報等の概要を簡易に把握するために、そのダイジェストを生成するための技術が開発されている。特に、例えば録画したテレビ番組のダイジェストを生成する等、映像情報に関する技術は多数提案されている。しかしながら、映像情報からダイジェストを生成する技術では、映像から算出される特徴量と音声から算出される特徴量の双方を用いた、マルチモーダルな枠組みを前提としているものが多い。情報量の多い映像情報に比べて、音声情報のみに基づいて当該音声情報のダイジェストを適切に生成することはより困難であると考えられる。
例えば、音声情報のダイジェストを生成する一般的な方法として、音声情報の先頭部分、中間部分及び末尾部分を単純に抜き出してダイジェストを生成する方法や、音量の大きい区間を抜き出してダイジェストを生成する方法等が考えられる。あるいは、既存のICレコーダーの中には、選択された音声ファイルの冒頭5秒間を再生する機能が搭載されているものが存在する。しかしながら、音声情報の内容にかかわらず所定の区間を抜き出す方法では、有意な情報がダイジェストに含まれない可能性が高い。また、音量に基づく方法では、雑音が大きい区間等、必ずしも有用とは言えない区間がダイジェストに含まれてしまう可能性がある。
また、音声情報のダイジェストを生成するための技術としては、例えば上記特許文献1に記載の技術がある。しかしながら、上述したように、当該技術は、盛り上がり部分を抽出してダイジェストを生成することに特化したものである。ユーザがダイジェストで把握したい内容は、必ずしも盛り上がり部分に限定されないため、当該技術では、ダイジェストに求められるユーザの多様な要望に応えることが難しい。
以上、本発明者らが既存の一般的な技術に対して検討した結果について説明した。以上説明したように、音声情報のダイジェストを生成する技術においては、ユーザの多様な要望に応え得るより利便性の高い技術が望まれていた。本発明者らは、以上の既存の技術に対する検討結果に基づいて、よりユーザの利便性を向上させることが可能な技術について鋭意検討した結果、以下に説明する本開示の一実施形態に想到した。以下では、本発明者らが想到した、本開示の好適な一実施形態について詳細に説明する。
(2.装置構成)
図1を参照して、本開示の一実施形態に係る情報処理装置の機能構成について説明する。図1は、本実施形態に係る情報処理装置の機能構成の一例を示す機能ブロック図である。
図1を参照すると、本実施形態に係る情報処理装置110は、その機能として、特徴量抽出部111と、音源種別スコア算出部113と、ダイジェスト区間決定部115と、を有する。情報処理装置110は、任意の音声情報を入力として、当該音声情報の中で当該音声情報のダイジェストを構成する区間であるダイジェスト区間を決定し、当該ダイジェスト区間についての情報(ダイジェスト区間情報)を出力する装置である。
なお、情報処理装置110に対する音声情報の入力元は任意であってよい。例えば、情報処理装置110に入力される音声情報は、情報処理装置110内に設けられる記憶部(図示せず。)に記憶されているものであってもよいし、情報処理装置110とは異なる外部の機器から入力されるものであってもよい。あるいは、情報処理装置110が外部の音声を収音する収音部を有する場合には、当該収音部を介して音声情報が入力されてもよい(このような構成については、下記(5−1.音声収音機能が設けられる変形例)で詳しく説明する。)。
特徴量抽出部111は、音声情報の特徴量を抽出する。当該特徴量としては、音声情報の特性を示す各種の物理量が算出され得る。例えば、当該特徴量としては、パワー、スペクトル包絡形状、ゼロ交差数、ピッチ(基本周波数)、MFCC(Mel−Frequency Cepstrum Coefficients)等が算出されてよい。また、互いに異なる位置に配置されたマイクロフォンで収音された音声情報であれば、特徴量として、その収音位置間での相関が算出されてもよい。また、当該相関に基づいて音源方位が更に算出されてもよい。特徴量抽出部111は、これらの特徴量のうちの少なくともいずれかを算出し得る。
なお、特徴量抽出部111によって行われる、音声情報から特徴量を抽出する処理としては、音声情報の解析処理において一般的に用いられている各種の手法が用いられてよいため、その具体的な処理についての詳細な説明は省略する。また、特徴量抽出部111によって算出される特徴量は上記で列挙したものに限定されず、特徴量抽出部111は、音声情報の解析処理において一般的に算出され得る各種の特徴量を算出してよい。
特徴量抽出部111によって算出された特徴量は、例えば、算出した特徴量の種類数の次元を有する空間(特徴量空間)内でのベクトル(特徴量ベクトル)として表現され得る。特徴量抽出部111は、算出した特徴量についての情報(すなわち特徴量ベクトルについての情報)を音源種別スコア算出部113に提供する。
音源種別スコア算出部113は、特徴量抽出部111によって抽出された音声情報の特徴量に基づいて、当該音声情報に含まれる音声の音源種別の蓋然性を示す音源種別スコアを算出する。ここで、音源種別とは、音声の音源をいくつかの種類に分類したものである。例えば、音源種別スコアには、音楽らしさを示す音楽スコア、人の声らしさを示す声スコア及び/又は雑音らしさを示すノイズスコア等が含まれる。また、声スコアが算出される際には、より詳細に、男性の声らしさを示す男性声スコア、女性の声らしさを示す女性声スコア、子どもの声らしさを示す子ども声スコア、及び/又は前記音声を発している特定の人物らしさを示す特定声スコア等が算出されてもよい。
音源種別スコア算出部113は、音声情報における所定の区間ごとに、上述した音源種別スコアのうちの少なくともいずれかを算出する。以下では、音源種別スコア算出部113が音源種別スコアを算出する時間単位を、スコア算出区間と呼称する。スコア算出区間は、例えばフレームに対応する区間であってよい。
音源種別スコアの算出には、音声情報の解析処理において一般的に用いられている各種の識別器が用いられてよい。当該識別器は、例えば、機械学習により、解析の対象としている音声情報の特徴量ベクトルに応じて、すなわち、特徴量空間内での座標に応じて、各音源種別スコアを算出することができる。事前に識別器において機械学習を行うことが困難である場合には、音源種別スコア算出部113は、過去の計算から導かれる平均的な話者性との距離に応じて音源種別スコアを算出することができる。例えば、音源種別スコア算出部113は、過去の話者性との距離が大きいほど、音源種別スコアとしてより高い値を出力する。
図2に、音源種別スコア算出部113によって算出される音源種別スコアの一例を示す。図2は、音源種別スコア算出部113によって算出される音源種別スコアの一例を示す図である。図2では、横軸に音声情報内での時間を取り、縦軸にスコア算出区間ごとに算出された音源種別スコアを取り、両者の関係性をプロットしている。図2に示す例では、音源種別スコア算出部113によって、3種類の音源種別スコアが算出されている。
音源種別スコア算出部113は、スコア算出区間ごとに算出した音源種別スコアについての情報を、ダイジェスト区間決定部115に提供する。
ダイジェスト区間決定部115は、音源種別スコア算出部113によって算出された音源種別スコアに基づいて、音声情報の中から、当該音声情報のダイジェストを構成する時間区間であるダイジェスト区間を決定する。ここで、図3を参照して、音声情報とダイジェストとの関係について説明する。図3は、音声情報とダイジェストとの関係について説明するための説明図である。
図3に示すように、ダイジェストは、音声情報内の少なくとも1つの時間区間によって構成されている。図示する例では、音声情報内で4つの時間区間(ダイジェスト区間1〜4)が、ダイジェストを構成する時間区間(ダイジェスト区間)として決定されており、これらのダイジェスト区間がつなぎ合わされることによりダイジェストが構成されている。
以下の説明では、各ダイジェスト区間の時間長さをダイジェスト区間長と呼称する。また、ダイジェストの時間長さをダイジェスト長と呼称する。ダイジェスト長は、例えば1分間等、得たいダイジェストの長さとして、予めユーザや情報処理装置110の設計者等によって設定されている。ダイジェスト区間長の合計がダイジェスト長と略一致するようにダイジェスト区間が決定されることとなる。
ダイジェスト区間決定部115は、基本的には、音楽情報の中で音源種別スコアがより高い時間区間を、ダイジェスト区間として決定する。しかしながら、図2に示すように、音声情報に対しては、複数の音源種別スコアがそれぞれ独立に算出され得る。従って、いずれの音源種別スコアを用いてダイジェスト区間を決定するかが事前に設定される必要がある。
ここで、いずれの音源種別スコアを優先的に用いてダイジェスト区間を決定するかは、ユーザの要望に応じて多様であり得る。例えば、音声情報の中から男性の声だけを抽出したいと考えているユーザに対しては、男性声スコアに注目し、当該男性声スコアがより高い時間区間がダイジェスト区間として決定されることが望ましい。あるいは、音声情報に含まれる多様な音声を万遍なく抽出したいと考えているユーザに対しては、音源種別ごとにその音源種別スコアが高い時間区間がバランスよくダイジェスト区間として決定されることが望ましい。
そこで、本実施形態では、生成するダイジェストのモードが設定され、ダイジェスト区間決定部115は、設定されたモードに従ってダイジェスト区間を決定する処理を行う。モードは予め所定のものが設定されていてもよいし、図示しない情報処理装置110の入力部を介したユーザによる操作入力に応じて任意に切り替えられてもよい。設定されたモードを示すモード情報は、ダイジェスト区間決定部115に入力される。ダイジェスト区間決定部115は、設定されたモードに基づいてダイジェストに含める音声の音源種別を決定し、音声情報の中で、決定した音源種別に係る音源種別スコアがより高い区間を、ダイジェスト区間として決定することができる。
例えば、モードとしては、単一の音源種別の音声のみを含むようにダイジェストを生成する単一音源モード、複数の音源種別の音声を所定の割合で含むようにダイジェストを生成する複数音源モード、及び/又は、同一の音源種別に分類される音声の中から多様な音声が含まれるようにダイジェストを生成する多様性反映モードが存在する。
モードが単一音源モードである場合には、そのモード情報には、ダイジェストに優先的に含める音源種別を指定する旨の情報が含まれる。モードが単一音源モードである場合には、ダイジェスト区間決定部115は、指定された一の音源種別に係る音源種別スコアがより高い区間を、ダイジェスト区間として決定する。
また、モードが複数音源モードである場合には、そのモード情報には、ダイジェストに含める音源種別の割合を指定する旨の情報が含まれる。モードが複数音源モードである場合には、ダイジェスト区間決定部115は、指定された割合に基づいて、ダイジェストに含める音声の時間長さを音源種別ごとに設定し、音源種別ごとに音源種別スコアがより高い区間であって当該区間の合計長さが設定した音源種別ごとの時間長さ以下となるような区間を、ダイジェスト区間として決定する。
当該割合は、モード情報としてユーザによって適宜指定され得る。これにより、ユーザは、ダイジェストに優先的に含める音源種別を自身の要望に合わせて選択することができる。また、逆に、雑音等、ダイジェストに含めたくない音声種別の割合を低い値に設定することも可能である。
なお、ダイジェストに含める音源種別の割合は、モード情報として外部から入力されるのではなく、情報処理装置110によって自動的に設定されてもよい。例えば、音源種別ごとに音源種別スコアが比較的高い区間の時間長さの総和が算出され、当該総和の音源種別間の比率として、上記割合が決定され、種別ダイジェスト長が決定されてもよい。このように決定される割合は、音声情報内での音源種別ごとの音声の出現確率を反映するものであり得る。
また、モードが多様性反映モードである場合には、ダイジェスト区間決定部115は、同一の音源種別内での特徴量のばらつき及び同一の音源種別内での音声が発せられた時刻のばらつきを算出し、当該特徴量のばらつき及び当該時刻のばらつきがより大きくなるように、ダイジェスト区間を決定する。
例えば、音源種別スコアの観点からは同一の音源種別に分類された場合であっても、実際には異なる人物の音声であることもあり得る。同一の音源種別内での特徴量のばらつきがより大きくなるようにダイジェスト区間が決定されることにより、音源種別スコアの観点からは同一の音源種別に分類されるものの比較的特徴量が異なっている音声がダイジェストに含まれることになり、より多様な音声がダイジェストに含まれることになる。
また、例えば、音源種別スコアの観点からは同一の音源種別に分類され、同一人物の声である可能性が高い場合であっても、時間的に間隔を空けてなされた発言は、内容的には全く異なるものであることもあり得る。同一の音源種別内での音声が発せられた時刻のばらつきがより大きくなるようにダイジェスト区間が決定されることにより、音源種別スコアの観点からは同一の音源種別に分類されるものの発せられた時刻が隔たっている音声がダイジェストに含まれることになり、より多様な内容の音声がダイジェストに含まれることになる。
なお、単一音源モード、複数音源モード及び多様性反映モードのそれぞれのモードにおけるダイジェスト区間決定処理のより具体的な処理内容については、下記(3−2.単一音源モード)、(3−3.複数音源モード)、(3−4.多様性反映モード)、(4−2.単一音源モード)、(4−3.複数音源モード)、(4−4.多様性反映モード)で詳しく説明する。
ダイジェスト区間決定部115は、ダイジェスト区間を決定すると、決定したダイジェスト区間についての情報(ダイジェスト区間情報)を出力する。ダイジェスト区間情報は、例えば、ダイジェスト区間の開始時刻、終了時刻、ダイジェスト区間長、ダイジェスト区間に付されるインデックス(ダイジェスト区間インデックス)等についての情報を含む。つまり、ダイジェスト区間情報は、音声情報内でのダイジェスト区間の位置を特定するための情報であり、音声情報及びダイジェスト区間情報に基づいてダイジェストが生成され得る。
ダイジェスト区間決定部115によるダイジェスト区間情報の出力先は任意であってよい。例えば、ダイジェスト区間決定部115は、情報処理装置110に設けられる記憶部(図示せず)にダイジェスト区間情報を出力してもよいし、情報処理装置110とは異なる外部の機器にダイジェスト区間情報を出力してもよい。
ダイジェスト区間情報が情報処理装置110内に保存される場合には、情報処理装置110は、当該ダイジェスト区間情報及び音声情報に基づいてダイジェストを生成する機能を更に有してもよい(このような構成については、下記(5−2.ダイジェスト生成機能が設けられる変形例)で詳しく説明する。)。また、ダイジェスト区間情報が外部機器に出力される場合には、当該外部機器が、当該ダイジェスト区間情報及び音声情報に基づいてダイジェストを生成する機能を有してもよい。このように、本実施形態では、情報処理装置110は、少なくともダイジェスト区間情報を生成する機能を有するように構成され、その後に実際にダイジェストを生成する機能は、必ずしも情報処理装置110に設けられなくてもよい。
以上、図1を参照して、本実施形態に係る情報処理装置の機能構成について説明した。以上説明したように、本実施形態によれば、音声情報に含まれる音声の音源種別の蓋然性を示す音源種別スコアが算出され、当該音源種別スコアに基づいて、当該音声情報の中から当該音声情報のダイジェストを構成するダイジェスト区間が決定される。従って、例えば、音楽のみをダイジェストに含めたい、人の声のみをダイジェストに含めたい、音楽と人の声とをバランスよくダイジェストに含めたい等、ユーザの多様な要望に応じたダイジェストを生成することが可能になる。なお、特徴量抽出部111、音源種別スコア算出部113及びダイジェスト区間決定部115による一連の処理は、ユーザによる入力部(図示せず)を介した指示に応じて開始されてもよいし、音声情報が情報処理装置110に入力されることにより当該音声情報に対する処理が自動的に開始されてもよい。
ここで、情報処理装置110の具体的な装置構成は任意であってよい。例えば、情報処理装置110は、CPU(Central Processing Unit)やDSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)等の各種のプロセッサであってよい。あるいは、情報処理装置110は、各種のプロセッサが実装されたPCやサーバ、スマートフォン、タブレットPC等の装置であってよい。また、あるいは、情報処理装置110は、ICレコーダー等の収音、録音機能を有する装置であってもよい。各種のプロセッサが所定のプログラムに従って動作することにより、図1に示す情報処理装置110の機能が実行され得る。
また、例えば、情報処理装置110の各機能(特徴量抽出部111、音源種別スコア算出部113及びダイジェスト区間決定部115)は、必ずしも1つの装置によって実行されなくてもよい。例えば、特徴量抽出部111、音源種別スコア算出部113及びダイジェスト区間決定部115に対応する各機能が、複数の情報処理装置(例えば複数のプロセッサ)に分散されて実装され、当該複数の装置が互いに通信可能に接続され協働して動作することにより、以上説明した情報処理装置110としての機能が実現されてもよい。また、情報処理装置110は、ユーザによって直接的に操作されるローカルの情報処理装置であってもよいし、ネットワークを介してユーザの端末と接続されるいわゆるクラウド上の情報処理装置であってもよい。例えば、スマートフォンやICレコーダー等のユーザの端末が録音機能を有している場合には、当該端末で録音された音声情報が、当該端末からクラウド上の情報処理装置110に送信され、情報処理装置110によって当該音声情報に対して上述した各種の処理が施され、処理結果であるダイジェスト区間情報又はダイジェストに係る音声情報が、情報処理装置110から当該端末に送信されてもよい。
なお、上述のような本実施形態に係る情報処理装置110の各機能を実現するためのコンピュータプログラムを作製し、PC等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。
以下、情報処理装置110によって実行される処理についてより詳細に説明する。ここで、本実施形態では、情報処理装置110が行う処理を、その処理形態から大きく2つに分けることができる。一方の処理では、情報処理装置110は、予めその全てが取得されている音声情報に対して、特徴量抽出処理、音源種別スコア算出処理及びダイジェスト区間決定処理を行う。以下、このような処理のことをオフライン処理と呼ぶ。
一方、他方の処理では、情報処理装置110は、現在まさに取得され続けている音声情報に対して、特徴量抽出処理、音源種別スコア算出処理及びダイジェスト区間決定処理を随時行う。この場合には、音声情報が取得され続けている間、ダイジェスト区間情報が随時更新されることとなる。以下、このような処理のことをオンライン処理と呼ぶ。
オフライン処理とオンライン処理とでは、その詳細な処理内容が異なるものとなり得る。そこで、以下では、オフライン処理及びオンライン処理のそれぞれについて、その詳細な処理内容について説明する。また、オフライン処理及びオンライン処理のそれぞれについて、上述したモードに応じて、ダイジェスト区間決定処理の詳細な処理内容が異なるものとなり得る。そこで、以下では、オフライン処理及びオンライン処理のそれぞれについて、モードに応じたダイジェスト区間決定処理の詳細な処理内容について説明する。
なお、以下の説明では、一例として、スコア算出区間がフレーム区間である場合について説明する。つまり、フレームごとに音源種別スコアが算出される場合について説明する。ただし、本実施形態はかかる例に限定されず、複数のフレームからなる区間がスコア算出区間として設定されてもよい。また、以下の説明では、簡単のため、音源種別スコアのことを単にスコアと呼ぶ場合がある。
(3.オフライン処理の詳細)
(3−1.全体の処理手順)
図4を参照して、オフライン処理の処理手順について説明する。図4は、オフライン処理の処理手順の一例を示すフロー図である。図4に示す処理手順は、オフライン処理時における、図1に示す情報処理装置110によって実行される情報処理方法全体の処理手順に対応している。オフライン処理では、音声情報の全フレームのスコアが算出された後に、当該スコアに基づいて音声情報の中からダイジェスト区間が決定される。
図4を参照すると、オフライン処理では、まず、音声情報の特徴量が抽出される(ステップS101)。ステップS101に示す処理では、音声情報の特徴量として、例えばパワーやスペクトル包絡形状等、音声情報の特性を示す各種の物理量が算出される。ステップS101に示す処理は、例えば図1に示す特徴量抽出部111によって行われる処理に対応している。
次に、抽出された特徴量に基づいて、各フレームの音源種別スコアが算出される(ステップS103)。ステップS103に示す処理では、例えば、音声情報の特徴量に応じて音声の音源種別を識別する識別器によって、フレームごとに当該音声の音源種別の蓋然性を示す音源種別スコアが算出される。この際、音声スコア、声スコア、ノイズスコア等、複数の種類の音源種別スコアが算出されてよい。ステップS103に示す処理は、例えば図1に示す音源種別スコア算出部113によって行われる処理に対応している。
なお、スコア算出区間がフレーム区間ではなく、複数のフレーム区間からなる場合には、ステップS103において、各フレームの音源種別スコアを平滑化してスコア算出区間としての音源種別スコアを算出する処理が行われてもよい。
次に、算出された音源種別スコアに基づいて、音声情報の中からダイジェスト区間が決定される(ステップS105)。例えば、ステップS105に示す処理では、音声情報の中で音源種別スコアのより高い時間区間がダイジェスト区間として決定される。ステップS105の具体的な処理内容はモードに応じて異なるため、その詳細な処理内容については、下記(3−2.単一音源モード)、(3−3.複数音源モード)及び(3−4.多様性反映モード)においてモードごとにより詳細に説明する。決定されたダイジェスト区間についてのダイジェスト区間情報を出力して、一連の処理が終了する。なお、ステップS105に示す処理は、例えば図1に示すダイジェスト区間決定部115によって行われる処理に対応している。
以上、図4を参照して、オフライン処理の処理手順について説明した。
(3−2.単一音源モード)
(3−2−1.ダイジェスト区間決定処理の処理手順)
単一音源モードでは、ある1つの種類の音源種別が指定され、指定された一の音源種別に係る音源種別スコアがより高い区間が、ダイジェスト区間として決定される。
図5及び図6を参照して、オフライン処理における、単一音源モードでのダイジェスト区間決定処理の処理手順について説明する。図5及び図6は、オフライン処理における、単一音源モードでのダイジェスト区間決定処理の処理手順の一例を示すフロー図である。
図5及び図6を参照すると、オフライン処理における単一音源モードでのダイジェスト区間決定処理では、まず、スコア閾値上限値としてスコア閾値理論上限値が設定される(ステップS201)。次いで、スコア閾値上限値よりも低い値としてスコア閾値が設定される(ステップS203)。
ここで、詳しくは後述するが、ダイジェスト区間決定処理では、音声情報の中からよりスコアの高い区間(高スコア区間)をダイジェスト区間として決定する処理(ステップS205に示す高スコア区間決定処理)が行われ、その後、それらのダイジェスト区間の時間長さ(ダイジェスト区間長)の合計がダイジェスト長に適合するように、ダイジェスト区間長の長さやダイジェスト区間の数が調整される。
スコア閾値とは、高スコア区間決定処理において、各フレームを高スコア区間に含めるかどうか(すなわちダイジェスト区間に含めるかどうか)を判断するための閾値である。スコア閾値は、後述するステップS213やステップS219において行われるように、ダイジェスト区間長の合計をダイジェスト長に応じて調整するために、ダイジェスト区間決定処理の一連の処理中に適宜変更される。スコア閾値がより高い値に変更されれば、ダイジェスト区間に含まれるフレーム数が増加し、ダイジェスト区間長は長くなる。逆に、スコア閾値がより低い値に変更されれば、ダイジェスト区間に含まれるフレーム数が減少し、ダイジェスト区間長は短くなる。
スコア閾値上限値は、変更されるスコア閾値の上限を規定する値である。スコア閾値が高くなり過ぎると、ダイジェスト区間に含まれるフレームの数が少なくなり、ダイジェスト区間長の合計がダイジェスト長に大幅に満たない事態が生じてしまう可能性がある。スコアしきい値上限値はこのような事態が起こることを防止するために設定される(後述するステップS217に示す処理を参照)。
スコアしきい値理論上限値は、例えば、スコアの計算に用いられた識別器の性能等に応じて設定される、スコアが取り得る理論上の上限値である。上記のように、ステップS201において、スコア閾値上限値の初期値として、スコアしきい値理論上限値が設定される。
ステップS201及びステップS203に示す処理が行われると、次に、音声情報の中でより高いスコアを有する区間(高スコア区間)をダイジェスト区間として決定する処理(高スコア区間決定処理)が行われる(ステップS205)。高スコア区間とは、音声情報の中で連続してスコアの高い区間のことである。ただし、本実施形態では、スコアが低い区間の時間長さが極短い場合には、当該区間も高スコア区間に含める処理が行われる。スコアが低い区間の時間長さが極短い場合には、当該区間は、例えばある人物の一連の発言の最中の息継ぎ等、情報の内容の観点からは、前後の区間と一連の区間であると考えられるからである。
オフライン処理においては、ダイジェスト区間決定処理では、ステップS205において決定された高スコア区間をダイジェスト区間とみなし、その後の処理において、ダイジェスト区間長の合計がダイジェスト長に応じた長さになるように、ダイジェスト区間の時間長や数を調整する処理が行われる。高スコア区間決定処理において決定される高スコア区間は、いわば、最終的に決定されるダイジェスト区間の候補であると言える。
なお、高スコア区間決定処理のより詳細な処理内容については、図7−9を参照して、後程改めて説明する。
ステップS205において高スコア区間が決定されると、これらの区間をダイジェスト区間とみなして、各ダイジェスト区間の区間内での平均スコア(区間平均スコア)が算出される(ステップS207)。区間平均スコアは、高スコア区間決定処理において決定される、高スコア区間(すなわちダイジェスト区間)の開始時刻や終了時刻、インデックスとともに、ダイジェスト区間情報に含まれてよい。
次に、ダイジェスト区間長の合計がダイジェスト長よりも大幅に短いかどうかが判断される(ステップS209)。具体的には、ステップS209では、ダイジェスト区間長の合計が、ダイジェスト長に対して設定されるダイジェスト長からのずれ量の許容範囲を下回っているかどうかが判断される。ダイジェスト区間長の合計がダイジェスト長と完全に一致するようにダイジェスト区間を決定することは困難であるため、本実施形態では、このような許容範囲が設定され、ダイジェスト区間長の合計が当該許容範囲に含まれるかどうかによって、ダイジェスト区間長の合計が適切かどうかが判断される。当該許容範囲は、ユーザがダイジェストを聴く際に、実際のダイジェスト長がダイジェスト長の設定値よりも長い又は短いことにより違和感を与えないようなずれ量の範囲として、情報処理装置110の設計者等によって適宜設定されてよい。
ステップS209でダイジェスト区間長の合計がダイジェスト長よりも大幅に短いと判断された場合には、ステップS211〜ステップS213に進む。ステップS211〜ステップS213では、ダイジェスト区間長の合計をより長くするための処理が行われる。
具体的には、ステップS211では、スコア閾値上限値として現在のスコア閾値が設定される。これは、ダイジェスト区間長の合計がダイジェスト長よりも大幅に短いということは、現在のスコア閾値は適切な値に比べて高過ぎると考えられるため、今後の処理においてスコア閾値が変更される際に、当該スコア閾値が現在のスコア閾値よりも大きくならないようにするためである。
次に、新たなスコア閾値として、現在のスコア閾値よりも低い値が設定される(ステップS213)。そして、ステップS207に進み、新たなスコア閾値を用いて高スコア区間決定処理が再度行われる。より低い値に設定された新たなスコア閾値を用いて高スコア区間決定処理が行われることにより、高スコア区間に含まれるフレームの数が増えるため、ダイジェスト区間長の合計が長くなり、ダイジェスト区間長の合計をよりダイジェスト長に近付けることができる。
ステップS209でダイジェスト区間長の合計がダイジェスト長よりも大幅に短くはないと判断された場合には、ステップS215に進む。ステップS215では、逆に、ダイジェスト区間長の合計がダイジェスト長よりも大幅に長いかどうかが判断される。
ステップS215でダイジェスト区間長の合計がダイジェスト長よりも大幅に長くはないと判断された場合には、ダイジェスト区間決定処理の一連の処理を終了する。つまり、高スコア区間決定処理で決定された現在のダイジェスト区間が、最終的なダイジェスト区間として確定される。ステップS209でダイジェスト区間長の合計がダイジェスト長よりも大幅に短くはないと判断され、かつ、ステップS215でダイジェスト区間長の合計がダイジェスト長よりも大幅に長くはないと判断された場合には、ダイジェスト区間長の合計は、ダイジェスト長の許容範囲に含まれているからである。
一方、ステップS215でダイジェスト区間長の合計がダイジェスト長よりも大幅に長いと判断された場合には、ステップS217に進む。ステップS217以降の処理では、ダイジェスト区間長の合計をより短くするための処理が行われる。
ステップS217では、スコア閾値がスコア閾値上限値よりも小さいかどうかが判断される。ステップS217でスコア閾値がスコア閾値上限値よりも小さいと判断された場合には、ステップS219に進む。ステップS219では、新たなスコア閾値として、現在のスコア閾値よりも高い値が設定される。そして、ステップS207に進み、新たなスコア閾値を用いて高スコア区間決定処理が再度行われる。より高い値に設定された新たなスコア閾値を用いて高スコア区間決定処理が行われることにより、高スコア区間に含まれるフレームの数が減るため、ダイジェスト区間長の合計が短くなり、ダイジェスト区間長の合計をよりダイジェスト長に近付けることができる。
ステップS217でスコア閾値がスコア閾値上限値よりも小さくないと判断された場合には、ステップS221に進む。この場合には、スコア閾値を現在の値以上に高くすることができないため、スコア閾値を変更することによりダイジェスト区間長の合計を短くすることはできない。従って、ステップS221以降の処理では、現在のダイジェスト区間の中からフレームを削除する、又は現在のダイジェスト区間の数を減らすことにより、ダイジェスト区間長の合計を短くする処理が行われる。
具体的には、ステップS221では、各ダイジェスト区間について、ダイジェスト区間長の短縮が可能かどうかが判断される。ここで、ダイジェスト区間長の短縮が可能かどうかは、ダイジェスト区間長と連続区間最低長とを比較することによって行われる。連続区間最低長は、音声として出力した際に人が当該音声の意味を認識可能な最小区間として設定される。ダイジェスト区間長が連続最低長以下であると、ダイジェストを聴いた際に、当該ダイジェスト区間に対応する部分の意味を把握できないため、ダイジェストとして有意なものではなくなってしまう。従って、ステップS221に示す判断処理を行うことにより、ダイジェスト区間長が連続最低長よりも大きくなるようにダイジェスト区間が決定されるようにしているのである。
ステップS221でいずれかのダイジェスト区間においてダイジェスト区間長の短縮が可能と判断された場合には、ステップS223〜ステップS227に進む。ステップS223〜ステップS227では、現在のダイジェスト区間の中からフレームを削除することによりダイジェスト区間長の合計を短くする処理が行われる。
具体的には、ステップS223では、ダイジェスト区間長の短縮が可能と判断されたダイジェスト区間(すなわちダイジェスト区間長が連続最低長よりも長いダイジェスト区間)の中で、区間平均スコアがより低いダイジェスト区間のダイジェスト区間長が短縮される。ダイジェスト区間長を短縮する際には、例えば、短縮対象であるダイジェスト区間の先頭の所定の数のフレーム及び終端の所定の数のフレームのうち、スコアの平均値が低い方がダイジェスト区間から除外される。
次に、フレームが削除されダイジェスト区間長が短縮されたダイジェスト区間の区間平均スコアが更新される(ステップS225)。そして、ダイジェスト区間長の合計がダイジェスト長と略一致するかどうかが判断される(ステップS227)。ステップS227では、具体的には、ダイジェスト区間長の合計が、ダイジェスト長に設定されている許容範囲に含まれるかどうかが判断される。
ステップS227でダイジェスト区間長の合計がダイジェスト長と略一致していると判断された場合には、ダイジェスト区間決定処理の一連の処理を終了する。つまり、現在のダイジェスト区間が、最終的なダイジェスト区間として確定される。
一方、ステップS227でダイジェスト区間長の合計がダイジェスト長と略一致していないと判断された場合には、ステップS221に戻り、再度、各ダイジェスト区間について、ダイジェスト区間長の短縮が可能かどうかが判断される。
ステップS221でいずれのダイジェスト区間においてもダイジェスト区間長の短縮が不可能と判断された場合には、ステップS229〜ステップS231に進む。ステップS229〜ステップS231では、現在のダイジェスト区間の数を減らすことによりダイジェスト区間長の合計を短くする処理が行われる。
具体的には、ステップS229では、現在のダイジェスト区間の中から、区間平均スコアのより低いダイジェスト区間が削除される。そして、ダイジェスト区間長の合計がダイジェスト長と略一致するかどうかが判断される(ステップS231)。ステップS231では、ステップS227と同様に、ダイジェスト区間長の合計が、ダイジェスト長に設定されている許容範囲に含まれるかどうかが判断される。
ステップS231でダイジェスト区間長の合計がダイジェスト長と略一致していると判断された場合には、ダイジェスト区間決定処理の一連の処理を終了する。つまり、現在のダイジェスト区間が、最終的なダイジェスト区間として確定される。
(3−2−2.高スコア区間決定処理)
ここで、図7−図9を参照して、詳細な説明を省略していたステップS205に示す、オフライン処理での高スコア区間決定処理について詳しく説明する。図7は、オフライン処理での高スコア区間決定処理について説明するための説明図である。図8及び図9は、オフライン処理での高スコア区間決定処理の処理手順の一例を示すフロー図である。
以下の高スコア区間決定処理についての説明では現在フレーム、現ダイジェスト区間、連続区間及び不連続区間という用語を用いる。高スコア区間決定処理の具体的な処理手順について説明する前に、図7を参照して、これらの用語が示す概念について説明する。
図7では、横軸に音声情報の時間を取り、縦軸にフレームごとに算出されたスコアを取り、両者の関係性をプロットしている。高スコア区間決定処理では、フレームごとに、時系列に従って、当該フレームをダイジェスト区間に含めるかどうかの判断が行われる。図中、現在フレームは、現在判断処理の対象としているフレームを示している。
現ダイジェスト区間は、現在フレームを含めるかどうかを判断する対象としているダイジェスト区間を意味する。連続区間は、現ダイジェスト区間内でスコアがスコア閾値を連続的に超えている区間を意味している。不連続区間は、現ダイジェスト区間内で直前の連続区間の終了時刻から現在フレームまでの区間を意味している。現ダイジェスト区間、連続区間及び不連続区間の時間長さのことを、それぞれ、現ダイジェスト区間長、連続区間長及び不連続区間長とも呼称する。
図8及び図9を参照して、オフライン処理における高スコア区間決定処理の具体的な処理手順について説明する。図8及び図9を参照すると、オフライン処理における高スコア区間決定処理では、まず、フレームインデックスがゼロに設定される(ステップS301)。また、ダイジェスト区間インデックスがゼロに設定される(ステップS303)。フレームインデックスは、音声情報の各フレームに対して時系列順に付されるものであり、フレームインデックスがゼロのフレームは音声情報の先頭のフレームを指している。ステップS301及びステップS303に示す処理は、現在フレームをフレーム#0とし、現ダイジェスト区間をダイジェスト区間#0にする処理に対応している。
次に、現在フレームのスコアがスコア閾値よりも大きいかどうかが判断される(ステップS305)。ステップS305で現在フレームのスコアがスコア閾値以下と判断された場合には、現在フレームをダイジェスト区間には含めずに、ステップS319に進む。この場合には、現在フレームは不連続区間に追加されることになる。ステップS319における処理については後述する。
一方、ステップS305で現在フレームのスコアがスコア閾値よりも大きいと判断された場合には、ステップS307に進む。ステップS307〜ステップS317では、現在フレームをダイジェスト区間に含めるための処理が行われる。
まず、ステップS307において、不連続区間長が不連続区間最大長よりも小さいかどうかが判断される。ここで、不連続区間最大長とは、不連続区間が、ダイジェスト区間に含めるべき有意な区間であるかどうかを判断する基準となる時間長さである。上述したように、不連続区間は、直前の連続区間の終了時刻から現在フレームまでの区間であるため、連続区間には含まれない、スコアが連続的に低い区間であると言える。従って、不連続区間は、ダイジェストに含める対象としている音源種別の音声がほぼ発せられていない沈黙の区間であると考えられるが、例えば不連続区間が極短い場合には、当該区間は、例えばある人物の一連の発言の最中の息継ぎ等、情報の内容の観点からは、前後の区間と一連の区間である可能性が高い。不連続区間最大長は、このような観点から、不連続区間に対応する沈黙の区間が、一連の音声中の極短い沈黙なのか、あるいは例えば話者の変更を伴うような長い沈黙なのかを判断するための時間長さとして設定され得る。
ステップS307で不連続区間長が不連続区間最大長よりも小さいと判断された場合には、ステップS309に進む。この場合、上述したように、不連続区間はその直前の連続区間と一連の区間と考えられるべきである。よって、ステップS309では、現ダイジェスト区間に不連続区間及び現在フレームを接続する(すなわち、不連続区間及び現在フレームを現ダイジェスト区間の終端に加える)処理が行われる。このように、不連続期間が極短い場合に、当該不連続期間まで含むようにダイジェスト区間が決定されることにより、一連の音声が途切れることなくダイジェストに含まれることとなり、内容把握の観点からより有用なダイジェストを生成することが可能となる。なお、この際、フレームインデックスが1つ小さいフレーム(すなわち時系列的に1つ前のフレーム)に対してもステップS309に示す処理が行われた場合には、既に不連続区間は現ダイジェスト区間に含まれているため、現在フレームのみが現ダイジェスト区間に接続される。ステップS309に示す処理を終えると、ステップS319に進む。
一方、ステップS307で不連続区間長が不連続区間最大長以上であると判断された場合には、ステップS311に進む。ステップS311では、不連続区間前の連続区間長が連続区間最低長以上であるかどうかが判断される。図6のステップS221に示す処理について説明する際に言及したように、連続区間最低長とは、音声として出力した際に人が当該音声の意味を認識可能な最小区間として設定される時間長さである。つまり、ステップS311に示す処理は、連続区間が有意な区間であるかどうかを時間長さの観点から判断する処理であると言える。
ステップS311で不連続区間前の連続区間長が連続区間最低長以上であると判断された場合には、ステップS313〜ステップS315に進む。この場合は、不連続区間が不連続区間最大長以上であり、かつ、連続区間が連続区間最低長以上である場合(すなわち、不連続区間が有意な区間でなく、かつ、不連続区間の前の連続区間が有意な区間である場合)であるため、不連続区間を破棄する(ダイジェスト区間に含めない)とともに、不連続区間の前の連続区間を採用する(ダイジェスト区間に含める)処理が行われる。
具体的には、ステップS313では、不連続区間前の連続区間が1つのダイジェスト区間として確定される。次いで、ステップS315では、ダイジェスト区間インデックスが1つ繰り上げられ(すなわち処理対象である現ダイジェスト区間が新たに設定され)、現在フレームがその新たな現ダイジェスト区間の開始時刻に設定される。ステップS315に示す処理を終えると、ステップS319に進む。
一方、ステップS311で不連続区間前の連続区間長が連続区間最低長よりも小さいと判断された場合には、ステップS317に進む。この場合は、不連続区間が不連続区間最大長以上であり、かつ、連続区間が連続区間最低長よりも小さい場合(すなわち、不連続区間が有意な区間でなく、かつ、不連続区間の前の連続区間も有意でない場合)であるため、不連続区間と、不連続区間の前の連続区間を、ともに破棄する(ダイジェスト区間に含めない)処理が行われる。このように、連続期間が人によって認識できないほど短い場合に、当該連続期間を含まないようにダイジェスト区間が決定されることにより、ダイジェストを聴いた際にユーザにとって耳障りとなるような、内容把握の意味の薄い区間をダイジェストから省くことができ、より品質の高いダイジェストを生成することが可能となる。
具体的には、ステップS317では、不連続区間前の連続区間が破棄され、現在フレームが現ダイジェスト区間の開始時刻に設定される。ステップS317に示す処理を終えると、ステップS319に進む。
ステップS319では、音声情報が終端かどうかが判断される。ステップS319で音声情報が終端でないと判断された場合には、フレームインデックスが1つ繰り上げられ(すなわち処理対象であるフレームが1つ先のフレームに設定され)(ステップS321)、ステップS305以降の処理が繰り返し実行される。
一方、ステップS319で音声情報が終端であると判断された場合には、ステップS323に進む。ステップS323では、現ダイジェスト区間長が連続区間最低長よりも大きいかどうかが判断される。つまり、ステップS323では、最後に処理対象であったダイジェスト区間が、時間長さの観点から有意な区間であるかどうか(すなわち音声の識別が可能な程度の時間長さを有しているかどうか)が判断される。
ステップS323で現ダイジェスト区間長が連続区間最低長よりも大きいと判断された場合には、現ダイジェスト区間は時間長さ的に有意な区間であると考えられるため、当該ダイジェスト区間を採用し、一連の処理を終了する。一方、ステップS323で現ダイジェスト区間長が連続区間最低長以下であると判断された場合には、現ダイジェスト区間は時間長さ的に有意な区間でないと考えられるため、当該ダイジェスト区間を破棄し、一連の処理を終了する。
以上、オフライン処理における、単一音源モードでのダイジェスト区間決定処理の処理手順について説明した。
(3−3.複数音源モード)
(3−3−1.ダイジェスト区間決定処理の処理手順)
複数音源モードでは、指定された割合に基づいてダイジェストに含める音声の時間長さが音源種別ごとに設定され、音源種別ごとに音源種別スコアがより高い区間であって当該区間の合計長さが設定した音源種別ごとの時間長さ以下となるような区間が、ダイジェスト区間として決定される。
図10及び図11を参照して、オフライン処理における、複数音源モードでのダイジェスト区間決定処理の処理手順について説明する。図10及び図11は、オフライン処理における、複数音源モードでのダイジェスト区間決定処理の処理手順の一例を示すフロー図である。
なお、図10及び図11に示す複数音源モードでのダイジェスト区間決定処理は、図5−図9を参照して説明した単一音源モードでのダイジェスト区間決定処理における各処理が音源種別ごとに行われるものであり、各処理の内容自体は、単一音源モードでのダイジェスト区間決定処理と略同様であり得る。ただし、単一音源モードでのダイジェスト区間決定処理では、1つの音源種別しか対象にしていなかったため、上述したステップS209及びステップS215において、その音源種別に係るスコアに基づいて決定されたダイジェスト区間長の合計値がダイジェスト長と比較されていたが、複数音源モードでのダイジェスト区間決定処理では、各音源種別に係るスコアに基づいて決定されたダイジェスト区間長の合計値が、ダイジェストに含める各音源種別の音声の時間長さ(以下、種別ダイジェスト長とも呼称する。)と比較される。
以下の複数音源モードでのダイジェスト区間決定処理の処理手順についての説明では、単一音源モードでのダイジェスト区間決定処理の処理手順と相違する事項について主に説明し、重複する事項についてはその詳細な説明を省略する。
図10及び図11を参照すると、オフライン処理における複数音源モードでのダイジェスト区間決定処理では、まず、スコア閾値上限値としてスコア閾値理論上限値が設定される(ステップS401)。次いで、スコア閾値上限値よりも低い値としてスコア閾値が設定される(ステップS403)。これらの処理は、図5及び図6に示すステップS201及びステップS203における処理と同様である。
次に、種別ダイジェスト長が設定される(ステップS405)。例えば、種別ダイジェスト長は、モード情報に基づいて設定され得る。例えば、モード情報には、ダイジェストに含める音源種別の割合を指定する旨の情報が含まれている。ステップS405に示す処理では、ダイジェスト長に当該割合を乗じることにより、音源種別ごとにその種別ダイジェスト長が算出される。
ただし、ステップS405に示す処理はかかる例に限定されず、ダイジェストに含める音源種別の割合は、モード情報として外部から入力されるのではなく、情報処理装置110によって自動的に設定されてもよい。例えば、何らかの機会に図8及び図9に示す高スコア区間決定処理が各音源種別に対して既に1度実行されており、各種別音源に対して、高スコア区間が決定されている場合であれば、当該高スコア区間についての情報を用いて、上記割合が決定され、種別ダイジェスト長が決定されてもよい。
具体的には、高スコア区間決定処理の結果から、音源種別ごとに、決定された高スコア区間の時間長さの総和が算出され、その比率が計算される。そして、計算された比率をダイジェスト長に乗じることにより、音源種別ごとにその種別ダイジェスト長が算出され得る。このように高スコア区間の時間長さに基づいて決定される割合は、音声情報内における音源種別ごとの音声の出現確率が反映されたものであり得る。
なお、モード情報に基づく場合、及び高スコア区間に基づく場合ともに、算出された種別ダイジェスト長が連続区間最低長を下回る場合には、その長さを調整する処理が適宜行われる。種別ダイジェスト長が連続区間最低長を下回る場合には、当該種別ダイジェスト長が短過ぎ、その音声が、人によって有意に認識されないからである。具体的には、連続区間最低長を下回る種別ダイジェスト長を連続区間最低長まで増加させるとともに、他の連続区間最低長を上回る種別ダイジェスト長からその増加分を減じる処理が行われる。
種別ダイジェスト長が決定されると、次に、音声情報の中でより高いスコアを有する区間(高スコア区間)をダイジェスト区間として決定する処理(高スコア区間決定処理)が行われる(ステップS407)。ステップS407に示す処理は、図5及び図6に示すステップS205における処理、すなわち、図8及び図9に示す一連の処理と同様であるため、その詳細な説明を省略する。
以降、ステップS409〜ステップS433に示す処理は、音源種別ごとに実行される点を除けば、図5及び図6に示すステップS207〜ステップS231における処理と同様の処理であるため、その詳細な説明を省略する。ステップS411〜ステップS421に示す処理は、図5及び図6に示すステップS209〜ステップS219における処理に対応する。ステップS411〜ステップS421に示す処理では、音源種別ごとに、ダイジェスト区間長の合計が種別ダイジェスト長と大幅に異なっていないかが判断され、スコア閾値が調整されることにより、ダイジェスト区間長の合計が種別ダイジェスト長の許容範囲に含まれるように、各ダイジェスト区間長が調整される。
ステップS423〜ステップS433に示す処理は、図5及び図6に示すステップS221〜ステップS231における処理に対応する。ステップS423〜ステップS433に示す処理は、スコア閾値の調整がそれ以上できなくなった場合に行われる処理であり、ステップS423以降の処理では、現在のダイジェスト区間の中からフレームを削除する、又は現在のダイジェスト区間の数を減らすことにより、ダイジェスト区間長の合計を短くする処理が行われる。ただし、図5及び図6に示すステップS221〜ステップS231における処理では、フレーム又は区間数の削除対象となるダイジェスト区間は単一の音源種別に係るものであったが、ステップS423〜ステップS433に示す処理では、フレーム又は区間数の削除対象となるダイジェスト区間は、複数の音源種別に係るダイジェスト区間が混合されたものである。
以上、図10及び図11を参照して、オフライン処理における、複数音源モードでのダイジェスト区間決定処理の処理手順について説明する。
(3−4.多様性反映モード)
多様性反映モードでは、同一の音源種別に分類される音声の中から多様な音声が含まれるようにダイジェストが生成される。具体的には、多様性反映モードでは、同一の音源種別内での音声の特徴量のばらつき及び同一の音源種別内での音声の時間的ばらつきがより大きくなるように、ダイジェスト区間が決定される。
(3−4−1.機能構成)
ここで、上述した単一音源モード及び複数音源モードにおける各処理は、図1に示す情報処理装置110の機能構成によって実行され得る。ただし、多様性反映モードにおける各処理は、図1に示す情報処理装置110とは若干異なる機能構成によって実行され得る。
図12を参照して、多様性反映モードにおける各処理を実行する情報処理装置の機能構成について説明する。図12は、多様性反映モードにおける各処理を実行する情報処理装置の機能構成の一例を示す機能ブロック図である。
図12を参照すると、多様性反映モードに対応する情報処理装置120は、その機能として、特徴量抽出部111と、音源種別スコア算出部113と、ダイジェスト区間決定部115と、を有する。ここで、特徴量抽出部111、音源種別スコア算出部113及びダイジェスト区間決定部115の機能は、図1に示す情報処理装置110におけるこれらの機能ブロックの機能と同様であるため、その詳細な説明は省略する。
情報処理装置120では、情報処理装置110と異なり、特徴量抽出部111によって算出された音声情報の特徴量についての情報が、ダイジェスト区間決定部115にも提供される。ダイジェスト区間決定部115は、当該特徴量についての情報を用いて、多様性を考慮してダイジェスト区間を決定することができる(後述する図14のステップS531に示す処理を参照)。
(3−4−2.ダイジェスト区間決定処理の処理手順)
図13及び図14を参照して、図12に示す情報処理装置120によって実行され得る、オフライン処理における、多様性反映モードでのダイジェスト区間決定処理の処理手順について説明する。図13及び図14は、オフライン処理における、多様性反映モードでのダイジェスト区間決定処理の処理手順の一例を示すフロー図である。
なお、多様性反映モードは、同一音源種別内での多様性を考慮してダイジェスト区間を決定するものであるため、ダイジェストに含める対象とする音源種別は、単一の音源種別であってもよいし、複数の音源種別であってもよい。図13及び図14では、一例として、ダイジェストに複数の音源種別からなる音声を含める場合における処理手順を図示している。
ここで、多様性反映モードでのダイジェスト区間決定処理における各処理は、後述するステップS531に示す処理を除き、図10及び図11を参照して説明した複数音源モードでのダイジェスト区間決定処理における各処理と同様である。従って、以下の多様性反映モードでのダイジェスト区間決定処理における各処理についての説明では、複数音源モードでのダイジェスト区間決定処理における各処理と相違する事項について主に説明し、重複する事項についてはその詳細な説明を省略する。なお、ダイジェストに複数の音源種別からなる音声を含める場合における多様性反映モードでのダイジェスト区間決定処理の処理手順は、図5及び図6に示す単一音源モードでのダイジェスト区間決定処理の処理手順において、ステップS229に示す処理の代わりに後述するステップS531に示す処理が行われるものに対応する。
図13及び図14を参照すると、多様性反映モードでのダイジェスト区間決定処理において、ステップS501〜ステップS521における処理は、図10及び図11に示すステップS401〜ステップS421における処理と同様の処理である。またステップS523以降の処理も、複数音源モードでのダイジェスト区間決定処理と同様に、スコア閾値の調整がそれ以上できなくなった場合に行われる処理である。ステップS523以降の処理では、現在のダイジェスト区間の中からフレームを削除する、又は現在のダイジェスト区間の数を減らすことにより、ダイジェスト区間長の合計を短くする処理が行われる。
ここで、多様性反映モードにおいて、ステップS523で各ダイジェスト区間についてダイジェスト区間長の短縮が可能であると判断された場合に、より区間平均スコアが低いダイジェスト区間からフレームを削除することによりダイジェスト区間長の合計を短くする一連の処理(ステップS525〜ステップS529に示す処理)は、複数音源モードにおけるこれらの処理(ステップS425〜ステップS429に示す処理)と同様である。
一方、多様性反映モードにおいては、ステップS523でいずれのダイジェスト区間においてもダイジェスト区間長の短縮が不可能と判断された場合に、ダイジェスト区間の数が減じられる処理の詳細が、複数音源モードとは異なる。具体的には、複数音源モードでは、区間平均スコアの低いダイジェスト区間が削除されていた(図11のステップS431に示す処理を参照)。一方、多様性反映モードでは、多様性に基づいてダイジェスト区間を削除する処理(多様性に基づくダイジェスト区間削除処理)が行われる(ステップS531)。ダイジェスト区間が削除された後に、ダイジェスト区間長の合計がダイジェスト長と略一致するかどうかが判断され(ステップS533)、ダイジェスト区間長の合計がダイジェスト長と略一致するまで、ステップS531に示す多様性に基づくダイジェスト区間削除処理が実行される。
(3−4−3.多様性に基づくダイジェスト区間削除処理)
図15を参照して、図14のステップS531に示す多様性に基づくダイジェスト区間削除処理について詳しく説明する。図15は、オフライン処理における、多様性に基づくダイジェスト区間削除処理の処理手順の一例を示すフロー図である。
図15を参照すると、オフライン処理における多様性に基づくダイジェスト区間削除処理では、まず、各ダイジェスト区間の特徴量ベクトルの平均(平均特徴量ベクトル)が算出される(ステップS601)。
次に、全ダイジェスト区間の場合と、任意の1つのダイジェスト区間を除いた場合の、n通りの特徴量空間における平均特徴量ベクトルの分散が計算される(ステップS603)。
次に、各ダイジェスト区間の平均時刻が算出される(ステップS605)。平均時刻は、例えば、各ダイジェスト区間の開始時刻と終了時刻との中間の時刻として計算される。
次に、全ダイジェスト区間の場合と、任意の1つのダイジェスト区間を除いた場合の、n通りの各ダイジェスト区間の平均時刻の分散が計算される(ステップS607)。
次に、平均特徴量ベクトルの分散及び平均時刻の分散に重み付けを行った上でその総和が計算され、全ダイジェスト区間の場合の値からの低減量が最も少ない場合に除外されたダイジェスト区間が、削除するダイジェスト区間として決定される(ステップS609)。つまり、ステップS609に示す処理では、平均特徴量ベクトル及び平均時刻の分散の計算に用いられなかった場合に最も影響の少ない平均特徴量ベクトル及び平均時刻を有するダイジェスト区間が、削除するダイジェスト区間として決定される。これにより、平均特徴量ベクトル及び平均時刻の分散がより大きくなるように、ダイジェストに含めるダイジェスト区間が選択されることとなる。最後に、決定されたダイジェスト区間が削除される(ステップS611)。
以上、図13及び図14を参照して、オフライン処理における、多様性反映モードでのダイジェスト区間決定処理の処理手順について説明した。また、図15を参照して、ステップS531に示す多様性に基づくダイジェスト区間削除処理について説明した。
以上説明したように、多様性反映モードでは、同一の音源種別に分類される音声について特徴量ベクトル及び時刻の多様性が確保されるように、ダイジェスト区間が決定される。特徴量ベクトルの多様性が確保されることにより、同一の音源種別に分類されてはいるが実際には別人の声が存在する場合に、これらの声をともにダイジェストに含めることが可能となる。また、時刻の多様性が確保されることにより、同一の音源種別に分類されている音声が時間的に離れた場所で発言をしている場合に、これらの声をともにダイジェストに含めることが可能となる。
(4.オンライン処理の詳細)
(4−1.全体の処理手順)
図16を参照して、オンライン処理の処理手順について説明する。図16は、オンライン処理の処理手順の一例を示すフロー図である。図16に示す処理手順は、オンライン処理時における、図1に示す情報処理装置110によって実行される情報処理方法全体の処理手順に対応している。
オンライン処理では、音声情報のフレームが新たに入力される度に、その新たに入力されたフレーム(入力フレーム)のスコアが算出され、当該スコアに基づいて音声情報の中からダイジェスト区間が決定される。つまり、オンライン処理では、音声情報が入力されている間、図16に示す一連の処理が。フレームが新たに入力される度に実行され、ダイジェスト区間情報が更新される。
なお、スコア算出区間がフレーム区間ではなく、複数のフレーム区間からなる場合には、図16に示す一連の処理は、スコア算出区間に対応する複数のフレームが入力される度に実行され得る。
図16を参照すると、オンライン処理では、まず、これまでに取得されている音声情報の特徴量が抽出される(ステップS701)。ステップS701に示す処理では、音声情報の特徴量として、例えばパワーやスペクトル包絡形状等、音声情報の特性を示す各種の物理量が算出される。ステップS701に示す処理は、例えば図1に示す特徴量抽出部111によって行われる処理に対応している。
次に、抽出された特徴量に基づいて、入力フレームの音源種別スコアが算出される(ステップS703)。ステップS703に示す処理では、例えば、音声情報の特徴量に応じて音声の音源種別を識別する識別器によって、入力フレームにおける当該音声の音源種別の蓋然性を示す音源種別スコアが算出される。この際、音声スコア、声スコア、ノイズスコア等、複数の種類の音源種別スコアが算出されてよい。ステップS703に示す処理は、例えば図1に示す音源種別スコア算出部113によって行われる処理に対応している。
なお、スコア算出区間がフレーム区間ではなく、複数のフレーム区間からなる場合には、ステップS703において、各フレームの音源種別スコアを平滑化してスコア算出区間としての音源種別スコアを算出する処理が行われてもよい。
次に、算出された音源種別スコアに基づいて、音声情報の中からダイジェスト区間が決定される(ステップS705)。ステップS705に示す処理は、例えば図1に示すダイジェスト区間決定部115によって行われる処理に対応している。
ステップS705に示す処理では、これまでに取得された音声情報の時間長さがダイジェスト長(ダイジェストの時間長さの設定値)よりも短い場合には、入力フレームが無条件でダイジェストに追加される。一方、これまでに取得された音声情報の時間長さがダイジェスト長以上である場合には、入力フレームがダイジェストに追加されるとともに、その代わりに、ダイジェストの中から例えばよりスコアの低いフレームが削除される。
なお、ステップS705における具体的な処理内容はモードに応じて異なるため、その詳細な処理内容については、下記(4−2.単一音源モード)、(4−3.複数音源モード)及び(4−4.多様性反映モード)においてモードごとにより詳細に説明する。
次に、音声情報の入力が終了したかどうかが判断される(ステップS707)。ステップS707で音声情報の入力が終了したと判断された場合には、決定されたダイジェスト区間についてのダイジェスト区間情報を出力して、一連の処理が終了する。一方、ステップS707で音声情報の入力が終了していないと判断された場合には、次のフレームの入力を待機し(ステップS709)、新たに入力されたフレームに対して、ステップS701以降の処理が繰り返し実行される。
以上、図16を参照して、オンライン処理の処理手順について説明した。
(4−2.単一音源モード)
(4−2−1.ダイジェスト区間決定処理)
図17を参照して、オフライン処理における、単一音源モードでのダイジェスト区間決定処理の処理手順について説明する。図17は、オフライン処理における、単一音源モードでのダイジェスト区間決定処理の処理手順の一例を示すフロー図である。
図17を参照すると、オフライン処理における単一音源モードでのダイジェスト区間決定処理では、まず、現在のダイジェスト長が、ダイジェスト長よりも短いかどうかが判断される(ステップS801)。ステップS801で、現在のダイジェスト長がダイジェスト長よりも短いと判断された場合には、入力フレームがダイジェストに追加されるとともに、ダイジェスト全体としての平均スコア(ダイジェスト平均スコア)が更新される(ステップS803)。そして、ダイジェスト区間決定処理を終了し、次の入力フレームを待つ。
ステップS801及びステップS803に示す処理は、これまでに入力された音声情報の時間長さがダイジェスト長に満たない場合には、入力フレームを無条件でダイジェストに追加する処理に対応している。
ステップS801で、現在のダイジェスト長がダイジェスト長以上である判断された場合には、ステップS805に進む。ステップS805では、入力フレームのスコアがダイジェスト平均スコア以上であるかどうかが判断される。ステップS805で入力フレームのスコアがダイジェスト平均スコアよりも小さいと判断された場合には、当該入力フレームをダイジェストに追加することなく、ダイジェスト区間決定処理を終了する。つまり、スコアのより低いフレームはダイジェストに含まれないようにする。
一方、ステップS805で入力フレームのスコアがダイジェスト平均スコア以上である判断された場合には、入力フレームがダイジェストに追加され、ダイジェスト平均スコアが更新される(ステップS807)。ただし、この場合には、入力フレームをダイジェストに追加したことにより、現在のダイジェスト長が、1フレームに対応する時間長さ分、ダイジェスト長を超過してしまっている。従って、ステップS807に示す処理に次いで、ダイジェストの中からフレームを削除する処理(フレーム削除処理)が行われる(ステップS809)。フレーム削除処理では、例えばダイジェストの中から、よりスコアの低いフレームが削除される。なお、ステップS809に示すフレーム削除処理の詳細については、図18を参照して後述する。
フレームが削除されると、ダイジェスト平均スコアが更新され(ステップS811)、ダイジェスト区間決定処理を終了する。
(4−2−2.フレーム削除処理)
ここで、図18を参照して、図17のステップS809に示すフレーム削除処理の詳細について説明する。図18は、オンライン処理における、単一音源モードでのフレーム削除処理の処理手順の一例を示すフロー図である。
図18を参照すると、オンライン処理における単一音源モードでのフレーム削除処理では、まず、スコア閾値として、ダイジェスト平均スコアが設定される(ステップS901)。そして、設定されたスコア閾値を用いて、ダイジェストの中でより高いスコアを有する区間(高スコア区間)をダイジェスト区間として決定する処理(高スコア区間決定処理)が行われる(ステップS903)。
ステップS903に示す高スコア区間決定処理では、図5のステップS205に示すオフライン処理での高スコア区間決定処理と略同様の処理が行われるが、一部の処理はオフライン処理のそれとは相違する。具体的には、オフライン処理では、音声情報全体を対象にして、当該音声情報の中でダイジェスト区間を決定するために高スコア区間決定処理が行われる。一方、図17を参照して説明したように、オンライン処理では、これまでに取得された音声情報の時間長さがダイジェスト長に至るまでの間は、無条件に入力フレームがダイジェストに追加されるため、高スコア区間決定処理を行う前に、既に、いわば仮のダイジェストが生成されている。オンライン処理では、入力フレームが追加され現在のダイジェスト長が1フレーム分だけダイジェスト長の設定値よりも長くなっている場合に、そのダイジェストの中からよりスコアの低い区間を見付けて削除するフレームを決定するために、高スコア区間決定処理が行われるのである。つまり、オンライン処理では、ダイジェストを対象として高スコア区間決定処理が行われる。
また、上記の事情から、オフライン処理では、音声情報の中で高スコア区間として決定されなかった区間は、当然ダイジェスト区間として採用されない。一方、オンライン処理では、ダイジェストの中で高スコア区間として決定されなかった区間が存在した場合であっても、ダイジェストから削除される区間は1フレーム分の区間であるため、その高スコア区間として決定されなかった区間全てをダイジェストから削除することはできない。つまり、オンライン処理では、高スコア区間決定処理の結果高スコア区間として決定されなかった区間が、ダイジェスト内に残存し得る。以下の説明では、このような高スコア区間として決定されなかった区間のことを削除対象区間と呼称する。削除対象区間の中から、例えば最もスコアの低いフレームが、削除されるフレームとして選択されることになる。このように、削除対象区間は、現在はダイジェスト内に存在するが、随時音声情報が入力され、ダイジェストが更新されるにつれていずれ削除されるべき区間であるとも言える。
また、オンライン処理では、上記のように、ダイジェストに入力フレームが追加されるとともに、いずれかのフレームが削除されていくこととなるため、ダイジェスト内の各フレームにおけるスコアを時系列順に並べた際に、スコアが不連続になる点が存在し得る。上述したオフライン処理での高スコア区間決定処理では、音楽情報全体が処理対象であり、このようなスコアの不連続点は考慮する必要がなかったが、オンライン処理での高スコア区間決定処理では、当該不連続点に対処するための追加的な処理が必要となる。
なお、ステップS903に示すオンライン処理における高スコア区間決定処理のより詳細な処理内容については、図19−図22を参照して後程改めて説明する。
ステップS903において高スコア区間が決定されると、高スコア区間決定処理の結果、高スコア区間として決定されなかった削除対象期間が存在するかどうかが判断される(ステップS905)。ステップS905において削除対象区間が存在すると判断された場合には、その削除対象区間からスコアのより低いフレームが1つ選択される(ステップS907)。そして、選択されたそのフレームがダイジェストから削除される(ステップS911)。
一方、ステップS905において削除対象区間が存在しないと判断された場合には、ダイジェストからスコアのより低いフレームが1つ選択される(すなわちS909)。そして、選択されたそのフレームがダイジェストから削除される(ステップS911)。
(4−2−3.高スコア区間決定処理)
ここで、図19−図22を参照して、詳細な説明を省略していた図18のステップS903に示す、オンライン処理での高スコア区間決定処理について詳しく説明する。図19は、オンライン処理での高スコア区間決定処理について説明するための説明図である。図20−図22は、オンライン処理での高スコア区間決定処理の処理手順の一例を示すフロー図である。
図19では、横軸に音声情報の時間を取り、縦軸にフレームごとに算出されたスコアを取り、両者の関係性をプロットしている。高スコア区間決定処理では、フレームごとに、時系列に従って、当該フレームをダイジェスト区間に含めるかどうかの判断が行われる。現在フレーム、現ダイジェスト区間、連続区間及び不連続区間の意味は、図7に示すオフライン処理での高スコア区間決定処理と同様である。
ただし、上述したように、オンライン処理では、オフライン処理とは異なり、その処理対象がダイジェストである。従って、図示するように、ダイジェスト内からフレームが削除されることにより、ダイジェスト内の各フレームにおけるスコアを時系列順に並べた際にスコアが不連続になる点(不連続点)が存在し得る。また、これも上述したように、高スコア区間決定処理が行われた結果、高スコア区間(すなわちダイジェスト区間)としては決定されなかったがダイジェスト内に存在する区間である削除対象区間がダイジェスト内に存在し得る。
図20−図22を参照して、オンライン処理における高スコア区間決定処理の具体的な処理手順について説明する。なお、図20−図22に示すオンライン処理における高スコア区間決定処理の処理手順は、処理対象が音声情報全体ではなくダイジェストであることと、後述するステップS1119〜ステップS1123に示す処理が追加されたことを除けば、図8及び図9を参照して説明したオフライン処理における高スコア区間決定処理の処理手順と略同様である。従って、以下のオンライン処理における高スコア区間決定処理の処理手順についての説明では、オフライン処理における高スコア区間決定処理の処理手順と重複する事項についてはその詳細な説明を省略し、相違する事項について主に説明する。
図20−図22を参照すると、オンライン処理における高スコア区間決定処理では、まず、フレームインデックスがゼロに設定され(ステップS1101)、ダイジェスト区間インデックスがゼロに設定される(すなわちS1103)。これらの処理は、図8及び図9に示すステップS301及びステップS303に示す処理と同様である。
以降のステップS1105〜ステップS1117に示す処理は、図8及び図9に示すステップS305〜ステップS317に示す処理と同様である。具体的には、ステップS1105において、現在フレームのスコアがスコア閾値よりも大きいかどうかが判断される。現在フレームのスコアがスコア閾値以下と判断された場合には、現在フレームをダイジェスト区間には含めずに、ステップS1119に進む。一方、現在フレームのスコアがスコア閾値以下と判断された場合には、ステップS1107〜ステップS1117に進み、現在フレームをダイジェスト区間に含めるための処理が行われる。
ステップS1107〜ステップS1117では、不連続区間長が不連続区間最大長よりも小さい場合には、現ダイジェスト区間に不連続区間及び現在フレームが接続される(ステップS1109)。また、不連続区間長が不連続区間最大長以上であり、かつ不連続区間前の連続区間が連続区間最低長以上である場合には、不連続区間前の連続区間を1つのダイジェスト区間として確定するとともに、ダイジェスト区間インデックスが1つ繰り上げられ、現在フレームがその新たな現ダイジェスト区間の開始時刻に設定される(ステップS1113、S1115)。また、不連続区間長が不連続区間最大長以上であり、かつ不連続区間前の連続区間が連続区間最低長よりも小さい場合には、不連続区間前の連続区間が破棄され(すなわち削除対象区間とされ)、現在フレームが現ダイジェスト区間の開始時刻に設定される(ステップS1117)。ステップS1109、ステップS1115及びステップS1117のいずれかの処理が終了すると、ステップS1119に進む。
ステップS1119では、現在フレームが不連続点かどうかが判断される。ステップS1119で現在フレームが不連続点でないと判断された場合には、特段の処理は行われず、ステップS1125に進む。
一方、ステップS1119で現在フレームが不連続点であると判断された場合には、ステップS1123に進む。ステップS1123では、現ダイジェスト区間長が連続区間最低長よりも大きいかどうかが判断される。つまり、ステップS1123では、不連続点直前のダイジェスト区間が、時間長さの観点から有意な区間であるかどうか(すなわち音声の識別が可能な程度の時間長さを有しているかどうか)が判断される。
ステップS1123で現ダイジェスト区間長が連続区間最低長よりも大きいと判断された場合には、現ダイジェスト区間は時間長さ的に有意な区間であると考えられるため、当該ダイジェスト区間を採用し、ステップS1125に進む。一方、ステップS1123で現ダイジェスト区間長が連続区間最低長以下であると判断された場合には、現ダイジェスト区間は時間長さ的に有意な区間でないと考えられるため、当該ダイジェスト区間を破棄し(すなわち削除対象区間とし)、ステップS1125に進む。
以降のステップS1125〜ステップS1131に示す処理は、図8及び図9に示すステップS319〜ステップS325に示す処理と同様である。具体的には、ステップS1125では、音声情報が終端かどうかが判断される。ステップS1125で音声情報が終端でないと判断された場合には、フレームインデックスが1つ繰り上げられ(すなわち処理対象であるフレームが1つ先のフレームに設定され)(ステップS1127)、ステップS1105以降の処理が繰り返し実行される。
一方、ステップS1125で音声情報が終端であると判断された場合には、ステップS1121に進み、現ダイジェスト区間長が連続区間最低長よりも大きいかどうか、すなわち最後に処理対象であったダイジェスト区間が、時間長さの観点から有意な区間であるかどうかが判断される。
ステップS1121で現ダイジェスト区間長が連続区間最低長よりも大きいと判断された場合には、現ダイジェスト区間は時間長さ的に有意な区間であると考えられるため、当該ダイジェスト区間を採用し、一連の処理を終了する。一方、ステップS1121で現ダイジェスト区間長が連続区間最低長以下であると判断された場合には、現ダイジェスト区間は時間長さ的に有意な区間でないと考えられるため、当該ダイジェスト区間を破棄し(すなわち削除対象区間とし)、一連の処理を終了する。
以上、オンライン処理における、単一音源モードでのダイジェスト区間決定処理の処理手順について説明した。
(4−3.複数音源モード)
(4−3−1.ダイジェスト区間決定処理の処理手順)
図23を参照して、オンライン処理における、複数音源モードでのダイジェスト区間決定処理の処理手順について説明する。図23は、オンライン処理における、複数音源モードでのダイジェスト区間決定処理の処理手順の一例を示すフロー図である。
なお、図23に示す複数音源モードでのダイジェスト区間決定処理は、図17を参照して説明した単一音源モードでのダイジェスト区間決定処理に対して、一部の処理(具体的には後述するステップS1205に示す処理)が変更されたものであり、その他の処理は、単一音源モードでのダイジェスト区間決定処理と略同様である。従って、以下の複数音源モードでのダイジェスト区間決定処理の処理手順についての説明では、単一音源モードでのダイジェスト区間決定処理の処理手順と重複する事項についてはその詳細な説明を省略し、相違する事項について主に説明する。
図23を参照すると、複数音源モードでのダイジェスト区間決定処理では、まず、現在のダイジェスト長が、ダイジェスト長(ダイジェストの時間長さの設定値)よりも短いかどうかが判断され(ステップS1201)、現在のダイジェスト長がダイジェスト長よりも短いと判断された場合には、入力フレームがダイジェストに追加され、ダイジェスト平均スコアが更新される(ステップS1203)。ステップS1201及びステップS1203に示す処理は、図17に示すステップS801及びステップS803における処理と同様である。
ステップS1201で、現在のダイジェスト長がダイジェスト長以上である判断された場合には、ステップS1205に進む。ステップS1205では、音源種別ごとに入力フレームのスコアとダイジェスト平均スコアとが比較され、いずれかの音源種別において、入力フレームのスコアがダイジェスト平均スコア以上であるかどうかが判断される。ステップS1205で、いずれの音源種別においても、入力フレームのスコアがダイジェスト平均スコアよりも小さいと判断された場合には、当該入力フレームをダイジェストに追加することなく、ダイジェスト区間決定処理を終了する。
一方、ステップS1205で、いずれかの音源種別において入力フレームのスコアがダイジェスト平均スコア以上であると判断された場合には、ステップS1207に進む。以降のステップS1207〜ステップS1211に示す処理は、図17に示すステップS807〜ステップS811における処理と同様である。すなわち、入力フレームがダイジェストに追加されダイジェスト平均スコアが更新される(ステップS1207)。次いで、フレーム削除処理(ステップS1209)が行われ、フレームが削除されると、ダイジェスト平均スコアが更新され(ステップS1211)、ダイジェスト区間決定処理を終了する。
(4−3−2.フレーム削除処理)
ここで、図24を参照して、図23のステップS1209に示すフレーム削除処理の詳細について説明する。図24は、オンライン処理における、複数音源モードでのフレーム削除処理の処理手順の一例を示すフロー図である。
図24を参照すると、オンライン処理における複数音源モードでのフレーム削除処理では、まず、音源種別ごとに、スコア閾値として、ダイジェスト平均スコアが設定される(ステップS1301)。次いで、種別ダイジェスト長が設定される(ステップS1303)。なお、ステップS1303に示す処理では、種別ダイジェスト長は、図10に示す、オフライン処理における複数音源モードでのダイジェスト区間決定処理のステップS405に示す処理と同様の方法によって設定されてよい。
そして、設定されたスコア閾値を用いて、ダイジェストの中でより高いスコアを有する区間(高スコア区間)をダイジェスト区間として決定する処理(高スコア区間決定処理)が行われる(ステップS1305)。ステップS1305に示す処理は、図18に示すステップS903における処理、すなわち、図20−図22に示す一連の処理と同様であるため、その詳細な説明を省略する。ただし、複数音源モードでのフレーム削除処理では、高スコア区間決定処理が、音源種別ごとに行われる。
ステップS1305において高スコア区間が決定されると、高スコア区間決定処理の結果、いずれかの音源種別において、削除対象期間が存在するかどうかが判断される(ステップS1307)。ステップS1307においていずれかの音源種別において削除対象区間が存在すると判断された場合には、その音源種別の削除対象区間からスコアのより低いフレームが1つ選択される(ステップS1309)。そして、選択されたそのフレームがダイジェストから削除される(ステップS1315)。
一方、ステップS1307において、いずれの音源種別にも削除対象区間が存在しないと判断された場合には、ダイジェスト区間長の合計が種別ダイジェスト長を最も超過している音源種別が選択される(ステップS1311)。そして、選択された音源種別について、そのスコアのより低いフレームが1つ選択される(ステップS1313)。そして、選択されたそのフレームがダイジェストから削除される(ステップS1315)。
以上、オンライン処理における、複数音源モードでのダイジェスト区間決定処理の処理手順について説明した。
(4−4.多様性反映モード)
オンライン処理における多様性反映モードでのダイジェスト区間決定処理の処理手順は、図23を参照して説明したオンライン処理における複数音源モードでのダイジェスト区間決定処理の処理手順と同様である。ただし、多様性反映モードでは、図23のステップS1209に示すフレーム削除処理の詳細が、複数音源モードとは異なる。従って、以下のオンライン処理における多様性反映モードでのダイジェスト区間決定処理についての説明では、フレーム削除処理の詳細について主に説明する。
なお、オンライン処理においても、オフライン処理と同様に、多様性反映モードにおける各処理は、図12に示す情報処理装置120によって実行され得る。
(4−4−1.フレーム削除処理の処理手順)
図25を参照して、オンライン処理における、多様性反映モードでのフレーム削除処理の処理手順について説明する。図25は、オンライン処理における、多様性反映モードでのフレーム削除処理の処理手順の一例を示すフロー図である。
ここで、多様性反映モードは、同一音源種別内での多様性を考慮してダイジェスト区間を決定するものであるため、ダイジェストに含める対象とする音源種別は、単一の音源種別であってもよいし、複数の音源種別であってもよい。図25では、一例として、ダイジェストに複数の音源種別からなる音声を含める場合における処理手順を図示している。
なお、多様性反映モードでのフレーム削除処理における各処理は、後述するステップS1413に示す処理を除き、図24を参照して説明した複数音源モードでのフレーム削除処理における各処理と同様である。従って、以下の多様性反映モードでのフレーム削除処理の処理手順についての説明では、複数音源モードでのフレーム削除処理の処理手順と相違する事項について主に説明し、重複する事項についてはその詳細な説明を省略する。
図25を参照すると、オンライン処理における多様性反映モードでのフレーム削除処理では、まず、音源種別ごとに、スコア閾値としてダイジェスト平均スコアが設定され(ステップS1401)、次いで、種別ダイジェスト長が設定される(ステップS1403)。そして、設定されたスコア閾値を用いて、音源種別ごとに、高スコア区間決定処理が行われる(ステップS1405)。これらの処理は、図24に示すステップS1301〜ステップS1305における処理と同様である。
次に、高スコア区間決定処理の結果、いずれかの音源種別において、削除対象期間が存在するかどうかが判断される(ステップS1407)。いずれかの音源種別において削除対象区間が存在すると判断された場合には、その音源種別の削除対象区間からスコアのより低いフレームが1つ選択され(ステップS1409)、選択されたそのフレームがダイジェストから削除される(ステップS1415)。これらの処理は、図24に示すステップS1307、ステップS1309、ステップS1315における処理と同様である。
一方、ステップS1407において、いずれの音源種別にも削除対象区間が存在しないと判断された場合には、ダイジェスト区間長の合計が種別ダイジェスト長を最も超過している音源種別が選択される(ステップS1411)。そして、選択された音源種別について、当該音源種別内での多様性を考慮して削除するフレームを選択する処理(多様性に基づく削除フレーム選択処理)が行われる(ステップS1413)。そして、選択されたそのフレームがダイジェストから削除される(ステップS1415)。
(4−4−2.多様性に基づく削除フレーム選択処理)
図26を参照して、図25のステップS1413に示す多様性に基づく削除フレーム選択処理について詳しく説明する。図26は、オンライン処理における、多様性に基づく削除フレーム選択処理の処理手順の一例を示すフロー図である。
図26を参照すると、オンライン処理における多様性に基づく削除フレーム選択処理では、まず、全フレームの場合と、任意の1つのフレームを除いた場合の、n通りの特徴量空間における特徴量ベクトルの分散が計算される(ステップS1501)。
次に、全フレームの場合と、任意の1つのフレームを除いた場合の、n通りのフレームの時刻の分散が計算される(ステップS1503)。
次に、特徴量ベクトルの分散及び時刻の分散に重み付けを行った上でその総和が計算され、全フレームの場合の値からの低減量が最も少ない場合に除外されたフレームが、削除するフレームとして決定される(ステップS1505)。つまり、ステップS1505に示す処理では、特徴量ベクトル及び時刻の分散の計算に用いられなかった場合に最も影響の少ない特徴量ベクトル及び時刻を有するフレームが、削除するフレームとして決定される。これにより、特徴量ベクトル及び時刻の分散がより大きくなるように、ダイジェストに含めるフレームが選択されることとなる。
以上、図25を参照して、オンライン処理における、多様性反映モードでのダイジェスト区間決定処理の処理手順について説明した。また、図26を参照して、図25のステップS1413に示す多様性に基づく削除フレーム選択処理について説明した。
(5.変形例)
以上説明した実施形態のいくつかの変形例について説明する。なお、以上説明した実施形態及び以下に説明する各変形例に記載される事項は、可能な範囲で互いに組み合わされてよい。
(5−1.音声収音機能が設けられる変形例)
図27を参照して、情報処理装置に音声収音機能が設けられる変形例について説明する。図27は、音声収音機能が設けられる変形例に係る情報処理装置の機能構成の一例を示す機能ブロック図である。
図27を参照すると、本変形例に係る情報処理装置130は、その機能として、特徴量抽出部111と、音源種別スコア算出部113と、ダイジェスト区間決定部115と、音声収音部131と、を有する。ここで、特徴量抽出部111、音源種別スコア算出部113及びダイジェスト区間決定部115の機能は、図1に示す情報処理装置110におけるこれらの機能ブロックの機能と同様であるため、その詳細な説明は省略する。
音声収音部131は、例えばマイクロフォン等の収音装置によって構成され、外部の音声を収音し、音声情報として情報処理装置110に入力する機能を有する。音声収音部131は、収音した外部音声に係る音声情報を、特徴量抽出部111に提供する。特徴量抽出部111、音源種別スコア算出部113及びダイジェスト区間決定部115は、音声収音部131から提供された音声情報に対して、以上説明した実施形態に係る各種の処理(特徴量抽出処理、音源種別スコア算出処理及びダイジェスト区間決定処理)を行う。
なお、音声収音部131は、1つのマイクロフォンによって構成されてもよいし、互いに異なる位置に配置される複数のマイクロフォンによって構成されてもよい。音声収音部131が、互いに異なる位置に配置される複数のマイクロフォンによって構成される場合には、特徴量抽出部111は、収音位置間の相関や音源方位等、マイクロフォンが複数存在することによって算出可能となる各種の特徴量を算出することができる。
以上、図27を参照して、情報処理装置に音声収音機能が設けられる変形例について説明した。以上説明したように、本変形例によれば、情報処理装置130自体が外部の音声を収音する収音機能を有し、収音した外部音声に係る音声情報のダイジェスト区間情報を出力することができる。このような情報処理装置130は、例えばICレコーダーや外部音声を録音するアプリケーションソフトが搭載されたスマートフォン等であり得る。
(5−2.ダイジェスト生成機能が設けられる変形例)
図28を参照して、情報処理装置にダイジェスト生成機能が設けられる変形例について説明する。図28は、ダイジェスト生成機能が設けられる変形例に係る情報処理装置の機能構成の一例を示す機能ブロック図である。
図28を参照すると、本変形例に係る情報処理装置140は、その機能として、特徴量抽出部111と、音源種別スコア算出部113と、ダイジェスト区間決定部115と、出力音声生成部141と、を有する。ここで、特徴量抽出部111、音源種別スコア算出部113及びダイジェスト区間決定部115の機能は、図1に示す情報処理装置110におけるこれらの機能ブロックの機能と同様であるため、その詳細な説明は省略する。
出力音声生成部141は、各種のプロセッサによって構成され、音声情報と、ダイジェスト区間決定部115によって生成されるダイジェスト区間情報と、に基づいて、当該音声情報のダイジェストを、音声出力機器で出力可能なデータ形式で生成する。出力音声生成部141は、ダイジェストを生成する際に、ダイジェスト区間同士のつなぎ目に対してクロスフェード処理を施す等、ユーザの聴き心地を考慮して、各種の公知の音声処理を適宜行ってもよい。出力音声生成部141は、生成したダイジェストに対応する音声情報(出力音声情報)を、例えばスピーカ等の音声出力機器に出力する。当該音声出力機器によってダイジェストが音声として出力される。
以上、図28を参照して、情報処理装置にダイジェスト生成機能が設けられる変形例について説明した。以上説明したように、本変形例によれば、情報処理装置140自身がダイジェストを生成する機能を有し、生成したダイジェストを、情報処理装置140自身に設けられる音声出力機器又は情報処理装置140の外部の音声出力機器から出力することができる。
なお、情報処理装置140自身が音声出力機器を有し、ダイジェストを再生可能である場合には、情報処理装置140は、音声情報を取得したら自動的にダイジェストを生成してもよい。また、その場合、情報処理装置140では、例えば、表示画面上の音声情報を表すファイル名にポインタを載せる等のGUI(Graphical User Interface)を用いた操作や、プレビュー操作等の簡易な操作によって、ダイジェストが再生されてもよい。情報処理装置140がこのように構成されることにより、ユーザは、ダイジェスト生成のための操作をわざわざ行わなくてもよく、また、簡易な操作でダイジェストを聴くことができるため、あたかも映像情報におけるサムネイルを確認するような感覚で音声情報のダイジェストを確認することができ、ユーザの利便性がより向上する。
(5−3.音声情報データベースが設けられる変形例)
図29を参照して、情報処理装置に音声情報データベースが設けられる変形例について説明する。図29は、音声情報データベースが設けられる変形例に係る情報処理装置の機能構成の一例を示す機能ブロック図である。
図29を参照すると、本変形例に係る情報処理装置150は、その機能として、特徴量抽出部111と、音源種別スコア算出部113と、ダイジェスト区間決定部115と、音声情報データベース151と、を有する。ここで、特徴量抽出部111、音源種別スコア算出部113及びダイジェスト区間決定部115の機能は、図1に示す情報処理装置110におけるこれらの機能ブロックの機能と同様であるため、その詳細な説明は省略する。
音声情報データベース151は、例えばHDD等の記憶装置によって構成され、データベース化された音声情報を記憶する。特徴量抽出部111は、音声情報データベース151にアクセスすることにより、当該音声情報データベース151内の任意の音声情報から特徴量を抽出することができる。つまり、本変形例によれば、情報処理装置150内に設けられる記憶部内のデータベース化された音声情報に対して、特徴量抽出部111、音源種別スコア算出部113及びダイジェスト区間決定部115が、以上説明した実施形態に係る各種の処理(特徴量抽出処理、音源種別スコア算出処理及びダイジェスト区間決定処理)を行う。
以上、図29を参照して、情報処理装置に音声情報データベースが設けられる変形例について説明した。以上説明したように、本変形例によれば、情報処理装置150自身が音声情報が格納されたデータベースを有し、当該データベース内の音声情報のダイジェスト区間情報を出力することができる。
(6.ハードウェア構成)
次に、図30を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図30は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図30に示す情報処理装置900は、例えば、図1、図12、図27−図29に示す情報処理装置110、120、130、140、150の機能構成を実現し得る。
情報処理装置900は、CPU901、ROM(Read Only Memory)903及びRAM(Random Access Memory)905を備える。また、情報処理装置900は、ホストバス907、ブリッジ909、外部バス911、インターフェース913、入力装置915、出力装置917、ストレージ装置919、通信装置921、ドライブ923及び接続ポート925を備えてもよい。情報処理装置900は、CPU901に代えて、又はこれとともに、DSP若しくはASICと呼ばれるような処理回路を有してもよい。
CPU901は、演算処理装置及び制御装置として機能し、ROM903、RAM905、ストレージ装置919又はリムーバブル記録媒体929に記録された各種のプログラムに従って、情報処理装置900内の動作全般又はその一部を制御する。ROM903は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM905は、CPU901の実行において使用するプログラムや、その実行時のパラメータ等を一次記憶する。CPU901、ROM903及びRAM905は、CPUバス等の内部バスにより構成されるホストバス907により相互に接続されている。更に、ホストバス907は、ブリッジ909を介して、PCI(Peripheral Component Interconnect/Interface)バス等の外部バス911に接続されている。CPU901は、例えば、上述した実施形態における特徴量抽出部111、音源種別スコア算出部113、ダイジェスト区間決定部115及び出力音声生成部141を構成し得る。
ホストバス907は、ブリッジ909を介して、PCI(Peripheral Component Interconnect/Interface)バス等の外部バス911に接続されている。
入力装置915は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ及びレバー等、ユーザによって操作される装置によって構成される。また、入力装置915は、例えば、赤外線やその他の電波を利用したリモートコントロール装置(いわゆる、リモコン)であってもよいし、情報処理装置900の操作に対応した携帯電話やPDA等の外部接続機器931であってもよい。更に、入力装置915は、例えば、上記の操作手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路などから構成されている。情報処理装置900のユーザは、この入力装置915を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。本実施形態では、入力装置915を介して、例えばダイジェスト区間決定処理を開始する旨の指示や、モードの切り替え指示等が、情報処理装置110、120、130、140、150に入力されてよい。
また、入力装置915は、周囲の音声を収音し、当該周囲の音声を音声情報として情報処理装置900に入力するマイクロフォンであってもよい。入力装置915がマイクロフォンである場合には、当該入力装置915は、上述した実施形態における音声収音部131を構成し得る。
出力装置917は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で構成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置917は、例えば、情報処理装置900が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置900が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。本実施形態では、当該音声出力装置を介して、例えば、情報処理装置140によって生成される音声情報のダイジェストが出力されてよい。また、当該表示装置には、入力装置915を介して各種の指示を入力するためのGUIに係る表示が表示されてもよい。
ストレージ装置919は、情報処理装置900の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919は、例えば、HDD等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により構成される。このストレージ装置919は、CPU901が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。ストレージ装置919は、例えば、上述した実施形態における音声情報データベース151を構成し得る。
通信装置921は、例えば、通信網(ネットワーク)927に接続するための通信デバイス等で構成された通信インターフェースである。通信装置921は、例えば、有線若しくは無線LAN(Local Area Network)、Bluetooth(登録商標)又はWUSB(Wireless USB)用の通信カード等である。また、通信装置921は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用のモデム等であってもよい。この通信装置921は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。また、通信装置921に接続されるネットワーク927は、有線又は無線によって接続されたネットワーク等により構成され、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信又は衛星通信等であってもよい。本実施形態では、例えば、情報処理装置110、120、130、140、150が、通信装置921を介して、音声情報やダイジェスト区間情報、出力音声情報等の、情報処理装置110、120、130、140、150の入出力である各種の情報を、外部の機器との間でやり取りしてよい。
ドライブ923は、記録媒体用リーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ923は、装着されている磁気ディスク、光ディスク、光磁気ディスク又は半導体メモリ等のリムーバブル記録媒体929に記録されている情報を読み出して、RAM905に出力する。また、ドライブ923は、装着されている磁気ディスク、光ディスク、光磁気ディスク又は半導体メモリ等のリムーバブル記録媒体929に情報を書き込むことも可能である。リムーバブル記録媒体929は、例えば、DVDメディア、HD−DVDメディア、Blu−ray(登録商標)メディア等である。また、リムーバブル記録媒体929は、コンパクトフラッシュ(登録商標)(CompactFlash:CF)、フラッシュメモリ又はSDメモリカード(Secure Digital memory card)等であってもよい。また、リムーバブル記録媒体929は、例えば、非接触型ICチップを搭載したICカード(Integrated Circuit card)又は電子機器等であってもよい。本実施形態では、例えば情報処理装置110、120、130、140、150によって処理される各種の情報が、ドライブ923によってリムーバブル記録媒体929から読み出されたり、リムーバブル記録媒体929に書き込まれたりしてもよい。
接続ポート925は、機器を情報処理装置900に直接接続するためのポートである。接続ポート925の一例として、USB(Universal Serial Bus)ポート、IEEE1394ポート及びSCSI(Small Computer System Interface)ポート等がある。接続ポート925の別の例として、RS−232Cポート、光オーディオ端子及びHDMI(登録商標)(High−Definition Multimedia Interface)ポート等がある。この接続ポート925に外部接続機器931を接続することで、情報処理装置900は、外部接続機器931から直接各種のデータを取得したり、外部接続機器931に各種のデータを提供したりする。本実施形態では、例えば情報処理装置110、120、130、140、150によって処理される各種の情報が、接続ポート925を介して外部接続機器931から取得されたり、外部接続機器931に出力されたりしてもよい。
以上、本実施形態に係る情報処理装置900の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。
なお、上述のような本実施形態に係る情報処理装置900の各機能を実現するためのコンピュータプログラムを作製し、PC等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。
(7.まとめ)
以上説明したように、本実施形態によれば、音声情報に含まれる音声の音源種別の蓋然性を示す音源種別スコアが算出され、当該音源種別スコアに基づいて、当該音声情報の中から当該音声情報のダイジェストを構成するダイジェスト区間が決定される。従って、例えば、音楽のみをダイジェストに含めたい、人の声のみをダイジェストに含めたい、音楽と人の声とをバランスよくダイジェストに含めたい等、ユーザの多様な要望に応じたダイジェストを生成することが可能になる。よって、ユーザの利便性をより向上させることができる。
また、モードが設定され、ダイジェストに含まれる音声の音源種別が適宜調整されることにより、よりユーザの意向に沿ったダイジェストを生成することが可能になる。例えば、複数音源モードにおいてノイズスコアに係る音声がダイジェストに含まれる割合を低い値に設定する等、モードを適宜設定することで、ノイズが低減された、よりユーザにとって聞き取りやすいダイジェストを生成することが可能である。
ここで、一般的に、映像情報については、例えばサムネイルを表示することにより、当該映像情報の概要を視覚的にユーザに対して通知することができる。しかしながら、主に映像情報ではなく音声情報を取得する音声収録機器(例えばICレコーダー、録音アプリケーションソフトが搭載されたスマートフォン、カメラ機能が搭載されていない又はカメラ機能が使用できない状況下でのウェアラブル機器等)で音声を収録した場合、その音声情報のファイル名、収音日時等は視覚的に表示され得るが、ユーザにとって、これらの情報から、その音声情報の概要を視覚的に把握することは困難である。また、音声情報とともに映像情報を有する場合であっても、例えば暗い室内でのイベント中で表示画面のバックライトを点灯することが憚られる場合等、状況によっては、表示画面を見ることができず視覚的な確認ができない場合もある。
このような場合、音声情報(又は、音声情報及び映像情報)の内容を把握するためには、ユーザは、実際に当該音声情報を試聴する必要がある。しかしながら、音声情報の時間長さが長い場合には、内容確認のために当該音声情報を一通り聞くことは、時間的な負荷が大きく、ユーザにとって大きな負担となる。
一方、本実施形態によれば、上述したように、ユーザの要望に沿った音声情報のダイジェストを作成することが可能になる。従って、例えば数秒のダイジェストを試聴するだけで音声情報の内容を把握することができ、これまでは多大な時間を要していた内容確認に掛かる時間を、大幅に短縮することができる。
また、本実施形態によれば、例えば、音声を収録した装置本体、又はストレージに移動された後の音声情報を管理する他の装置等により、取得された音声情報に対して、自動的にダイジェストが生成されてもよい。また、取得された音声情報に対して自動的にダイジェストが生成される場合には、例えば、表示画面上の音声情報を表すファイル名にポインタを載せる等のGUIを用いた操作や、プレビュー操作等の簡易な操作によって、ダイジェストが再生されてもよい。これにより、ユーザは、煩わしい操作を行うことなく、より気楽にダイジェストを確認することができる。
また、本実施形態に係る技術は、いわゆるビッグデータを解析する用途にも好適に適用可能である。例えば、コールセンターや捜査機関等で収集される通話記録に対して本実施形態に係る技術を適用し、通話記録のダイジェストを生成することにより、膨大な量の通話記録の内容をより短時間で確認することが可能となる。従って、通話記録の解析がより容易になる。
また、音声情報とともに映像情報を有する場合であっても、映像情報に基づくサムネイル等を用いた視覚的な方法では、内容の把握が難しい状況が考えられる。例えば、似通った映像に対して音声部分のみが大きく異なる複数のファイルが存在する場合や、装置の処理速度等の実装的な制約から映像情報を利用できない場合、定点カメラ等による映像であるために映像内に音源が映っていない場合(すなわち話者が特定できない場合)等が、このような状況に該当し得る。本実施形態に係る技術は、このような、内容の把握のために映像情報が有効に利用できない場合にも好適に適用され得る。
更に、本実施形態に係る技術は、動画を編集する場合等、音声情報を編集する作業においても、編集前の素材となる音声情報の内容を容易に把握する上で、有効である。例えば、近年、静止画像と音声とを組み合わせた、音声情報付きの写真を生成、提供するサービスが存在する。このような、静止画像と音声とを組み合わせたフォーマットのファイルを生成する際に、音声部分を編集する際にも、本実施形態に係る技術が有効に活用され得る。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
また、本明細書に記載された効果は、あくまで説明的又は例示的なものであって限定的なものではない。つまり、本開示に係る技術は、上記の効果とともに、又は上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。
ここで、本明細書では、各処理の処理手順での判断処理において、スコアをしきい値と比較する際等に、「以下」や「よりも大きい」等の表現を用いているが、これらの表現はあくまで例示であり、当該判断処理における境界条件を限定するものではない。本実施形態では、スコア等の値がしきい値と等しい場合に、その大小関係をどのように判断するかは任意に設定可能であってよい。本明細書における「以下」との表現は「よりも小さい」との表現と互いに適宜読み替えることが可能であるし、「よりも大きい」との表現は「以上」との表現と互いに適宜読み替えることが可能である。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)音声情報に含まれる音声の音源種別の蓋然性を示す音源種別スコアを算出する音源種別スコア算出部と、算出された前記音源種別スコアに基づいて、前記音声情報の中から、前記音声情報のダイジェストを構成するダイジェスト区間を決定するダイジェスト区間決定部と、を備える、情報処理装置。
(2)前記音源種別スコアは、音楽らしさを示す音楽スコア、人の声らしさを示す声スコア及び雑音らしさを示すノイズスコアの少なくともいずれかを含む、前記(1)に記載の情報処理装置。
(3)前記声スコアは、男性の声らしさを示す男性声スコア、女性の声らしさを示す女性声スコア、子どもの声らしさを示す子ども声スコア、及び前記音声を発している特定の人物らしさを示す特定声スコアの少なくともいずれかを更に含む、前記(2)に記載の情報処理装置。
(4)前記音源種別スコア算出部は、前記音声情報の特徴を示す特徴量に基づいて、前記音源種別スコアを算出する、前記(1)〜(3)のいずれか1項に記載の情報処理装置。
(5)前記特徴量は、前記音声情報についての、パワー、スペクトル包絡形状、ゼロ交差数、ピッチ、MFCC、収音位置間での相関、及び音源方位の特性を示す物理量のうちの少なくとも1つを含む、前記(4)に記載の情報処理装置。
(6)前記ダイジェスト区間決定部は、生成する前記ダイジェストのモードに基づいて前記ダイジェストに含める前記音声の音源種別を決定し、前記音声情報の中で、決定した音源種別に係る前記音源種別スコアがより高い区間を、前記ダイジェスト区間として決定する、前記(1)〜(5)のいずれか1項に記載の情報処理装置。
(7)前記モードは、単一の音源種別の前記音声のみを含むように前記ダイジェストを生成する単一音源モード、複数の音源種別の前記音声を所定の割合で含むように前記ダイジェストを生成する複数音源モード、及び、同一の前記音源種別に分類される前記音声の中から多様な前記音声が含まれるように前記ダイジェストを生成する多様性反映モード、の少なくともいずれかから選択される、前記(6)に記載の情報処理装置。
(8)前記モードが前記単一音源モードである場合には、前記ダイジェスト区間決定部は、指定された一の音源種別に係る前記音源種別スコアがより高い区間を、前記ダイジェスト区間として決定する、前記(7)に記載の情報処理装置。
(9)前記モードが前記複数音源モードである場合には、前記ダイジェスト区間決定部は、前記ダイジェストに含める前記音声の時間長さを音源種別ごとに設定し、音源種別ごとに前記音源種別スコアがより高い区間であって当該区間の合計長さが設定した音源種別ごとの前記時間長さと略等しくなるような前記区間を、前記ダイジェスト区間として決定する、前記(7)に記載の情報処理装置。
(10)前記モードが前記多様性反映モードである場合には、前記ダイジェスト区間決定部は、同一の音源種別内での前記音声情報の特徴を示す特徴量のばらつき及び同一の前記音源種別内での前記音声が発せられた時刻のばらつきを算出し、前記特徴量のばらつき及び前記時刻のばらつきがより大きくなるように、前記ダイジェスト区間を決定する、前記(7)に記載の情報処理装置。
(11)前記ダイジェスト区間決定部は、前記音源種別スコアが所定のしきい値よりも高い第1の区間と、前記音源種別スコアが所定のしきい値よりも低い第2の区間と、が連続して存在しており、かつ、前記第2の区間の時間長さが所定の時間よりも短い場合には、前記第1及び第2の区間をともに含むように前記ダイジェスト区間を決定する、前記(6)〜(10)のいずれか1項に記載の情報処理装置。
(12)前記ダイジェスト区間決定部は、前記音源種別スコアが所定のしきい値よりも高い第1の区間の時間長さが、人にとって音声として認識できない長さである場合には、前記第1の区間を含まないように前記ダイジェスト区間を決定する、前記(6)〜(11)のいずれか1項に記載の情報処理装置。
(13)前記音源種別スコア算出部は、予め全てが取得されている前記音声情報について、前記音源種別スコアを算出し、前記ダイジェスト区間決定部は、予め全てが取得されている前記音声情報の前記ダイジェストを生成する、前記(1)〜(12)のいずれか1項に記載の情報処理装置。
(14)前記音源種別スコア算出部は、現在まさに取得され続けている前記音声情報について、前記ダイジェスト区間以下の長さの時間からなるスコア算出区間に対応する時間長さの音声情報が新たに取得される度に、前記スコア算出区間ごとに前記音源種別スコアを算出し、前記ダイジェスト区間決定部は、前記音声情報が取得されている間、前記音声情報の前記ダイジェストを随時更新しながら生成する、前記(1)〜(12)のいずれか1項に記載の情報処理装置。
(15)前記ダイジェスト区間決定部は、これまでに取得された前記音声情報の時間長さが、前記ダイジェストの時間長さの設定値よりも短い場合には、新たに取得された前記音声情報を前記ダイジェストに追加し、これまでに取得された前記音声情報の時間長さが、前記ダイジェストの時間長さの設定値以上である場合には、新たに取得された前記スコア算出区間分の前記音声情報を前記ダイジェストに追加するとともに、前記ダイジェストの中から前記スコア算出区間分の時間長さの区間であって前記音源種別スコアがより低い区間を削除する、前記(14)に記載の情報処理装置。
(16)外部の音声を収音する音声収音部、を更に備え、前記音声情報は、前記音声収音部によって収音された外部音声に係る音声情報である、前記(1)〜(15)のいずれか1項に記載の情報処理装置。
(17)データベース化された前記音声情報が保存される記憶部、を更に備え、前記音源種別スコア算出部は、データベース化された前記音声情報に対して音源種別スコアを算出し、前記ダイジェスト区間決定部は、データベース化された前記音声情報に対して前記ダイジェスト区間を決定する、前記(1)〜(15)のいずれか1項に記載の情報処理装置。
(18)前記音声情報と、前記ダイジェスト区間決定部によって決定されたダイジェスト区間についての情報と、に基づいて、前記音声情報のダイジェストを、音声出力機器で出力可能なデータ形式で生成する出力音声生成部、を更に備える、前記(1)〜(17)のいずれか1項に記載の情報処理装置。
(19)プロセッサが、音声情報に含まれる音声の音源種別の蓋然性を示す音源種別スコアを算出することと、算出された前記音源種別スコアに基づいて、前記音声情報の中から、前記音声情報のダイジェストを構成するダイジェスト区間を決定することと、を含む、情報処理方法。
(20)コンピュータのプロセッサに、音声情報に含まれる音声の音源種別の蓋然性を示す音源種別スコアを算出する機能と、算出された前記音源種別スコアに基づいて、前記音声情報の中から、前記音声情報のダイジェストを構成するダイジェスト区間を決定する機能と、を実現させる、プログラム。