JP2003177778A

JP2003177778A - 音声抄録抽出方法、音声データ抄録抽出システム、音声抄録抽出システム、プログラム、及び、音声抄録選択方法

Info

Publication number: JP2003177778A
Application number: JP2002298114A
Authority: JP
Inventors: T Foote Jonathan; ティー．フートジョナサン; Matthew L Cooper; エル．クーパーマシュー; Lynn D Wilcox; ディー．ウィルコックスリン
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2001-11-01
Filing date: 2002-10-11
Publication date: 2003-06-27
Anticipated expiration: 2022-10-11
Also published as: US20030083871A1; US7260439B2; JP4442081B2

Abstract

(57)【要約】【課題】ロバストな音声抄録(excerpts)の抽出方法を
提供する。【解決手段】本発明の方法は、音声データを複数の音
声データセグメントにセグメント化するステップ(S300)
と、複数の音声データセグメントの適合基準を設定する
ステップ(S400)と、適合基準に基づいて複数の音声デー
タセグメントを分析するステップと、適合基準を満た
す、複数の音声データセグメントのうち１つを選択する
ステップ(S500)と、を含む。さらに、複数の音声データ
セグメントのうち選択した１つをビデオデータに関連付
けるステップ(S600)を含むこともできる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声抄録(excerpt
s)又はアブストラクトの自動抽出に関する。

【０００２】

【従来の技術及び発明が解決しようとする課題】音声セ
グメント化の公知の技術は、ポーズの検出に基づく。こ
のような技術は、雑音や反響のある条件下ではロバスト
ではなく、音楽や非スピーチ音声に対してもあまりロバ
ストではない。スピーチ認識及び／又はスピーカ識別ベ
ースの技術は、トレーニングした統計モデルを必要とす
る。このような技術は、音声データがトレーニングドメ
インに相似しない限りロバストではない。さらに、この
ような技術に必要な演算リソースは膨大で、普通は実行
できない。

【０００３】ビデオサマリーの作成において、従来のビ
デオサマリージェネレータのいくつかはシーン転換グラ
フを使用してアドホックなセグメント化を実行しようと
試みてきた。アドホックなセグメント化に続いて階層ク
ラスタリングプロセスを実行し、サマリーを作成する。
他の従来のビデオサマリージェネレータは、クローズド
キャプション、アコースティックサイレンス及びピッチ
を使用してセグメント境界を決定し、サマリーの作成に
使用するセグメント候補を識別してきた。これらの従来
のシステムは、ワーク内にクローズドキャプション、ア
コースティックサイレンス及びピッチが存在するかを判
定することに依存し、これらの特徴が検出しづらい場
合、ワークにない場合はうまく作動しなかった。さらに
これら従来のシステムは単に代表的なセグメントを選択
するだけなので、かなり長いセグメント候補のサマリー
を作成することはできない。

【０００４】米国特許出願番号第０９／９４７、３８５
号、米国特許出願番号第０９／５６９、２３０号および
他の従来の技術では上記課題は解決されていない（例え
ば、非特許文献１〜８参照）。

【０００５】

【非特許文献１】ヒーら(He et al.)、「プレゼンテー
ションサマリーの比較：スライド、リーディング、リス
ニング」("Comparing Presentation Summaries : Slide
vs. Reading vs. Listening")、マイクロソフトリサー
チ(Microsoft Research)

【非特許文献２】フート(Foote)、「音声ノベルティの
計測を用いた自動音声セグメンテーション」("Automati
c Audio Segmentation Using A Measure ofAudio Novel
ty")、エフエックスパロアルトラボラトリーインコーポ
レイテッド(FX Palo Alto Laboratory, Inc.)

【非特許文献３】ウィルコックスら(Wilcox et al.)、
「スピーカ認識を用いたスピーチセグメンテーション」
("Segmentation Of Speech Using Speaker Identificat
ion")、ゼロックスパーク(Xerox PARC.)

【非特許文献４】クーパーら(Cooper et al.)、「ビデ
オ自己類似分析によるシーン境界検出」("Scene Bounda
ry Detection Via Video Self-Similarity Analysi
s")、エフエックスパロアルトラボラトリーインコーポ
レイテッド(FX Palo Alto Laboratory, Inc.)

【非特許文献５】アロンズ(Arons)、「スピーチ記録の
セグメンテーションのためのピッチベース強調検出」("
Pitch-Based Emphasis Detection For Segmenting Spee
ch Recordings")、Proceedings of International Conf
erence on Spoken language Processing（日本、横浜、
９月１８〜２２日）、１９９４年、vol. 4、第１９３１
〜１９３４頁

【非特許文献６】スチフェルマン(Stifelman)、「リア
ルワールドオブジェクトの拡張：ペーパーベース音声ノ
ート」("Augmenting Real-World Objects :A paper-Bas
ed Audio Notebook")、ＭＩＴメディアラボラトリー、
スピーチリサーチグループ(MIT Media Laboratory、Spe
ech ResearchGroup)

【非特許文献７】チウら(Chiu et al.)、「インクおよ
び音声ノートのための動的グループ化技術」("A Dynami
c Grouping Technique for Ink and Audio Notes")、エ
フエックスパロアルトラボラトリーインコーポレイテッ
ド(FX Palo Alto Laboratory, Inc.)

【非特許文献８】キンバーら(Kimber et al.)、「音声
ブラウザのためのアコースティックセグメンテーショ
ン」("Acoustic Segmentation for Audio Browsers
")、ゼロックスパーク(Xerox PARC)、エフエックスパ
ロアルトラボラトリーインコーポレイテッド(FX Palo A
lto Laboratory, Inc.)

【０００６】

【課題を解決するための手段】本発明のシステム及び方
法は、音声抄録の自動抽出を提供する。本発明のシステ
ム及び方法はまた、自己類似ベースのセグメント化を用
いた自動抽出も提供する。

【０００７】音声抄録の自動抽出は、種々の環境で有用
である。例えば、音声抄録の自動抽出は音声／ビデオ分
類及びリトリーバルシステムにおいて有用である。ビデ
オワークをセグメント化し、各セグメントの主要なコン
ポーネントを決定し、第２の同様にセグメント化したビ
デオと比較する。比較の細分性に基づいて、主要なコン
ポーネントの類似の程度を比較し、主要なコンポーネン
トの変化のシーケンス及び／又は頻度を決定することに
よって、又は比較する第１及び第２のワークの主要なコ
ンポーネントの類似を決定するあらゆる他の手段を使用
することによって、類似する、或いはほぼ類似するワー
クを識別することができる。音声抄録の自動抽出によっ
て、キーフレームビデオサマリーに音声抄録で注釈を付
けることができる。キーフレームと組合せたこのような
音声アブストラクトによって、帯域幅の広いストリーミ
ングビデオ又は音声を使用せずに、（音声付き）ビデオ
又は類似の媒体を視聴する軽量且つウェブブラウジング
可能なインタフェースを容易に実現できる。

【０００８】本発明の種々の例示的な実施形態では、音
声抄録の抽出方法は、音声データを複数の音声データセ
グメントにセグメント化するステップと、複数の音声デ
ータセグメントの適合基準を設定するステップと、適合
基準に基づいて複数の音声データセグメントを分析する
ステップと、適合基準を満たす、複数の音声データセグ
メントのうち１つを選択するステップと、を含む。音声
データのセグメント化は、音声セグメントの識別に適し
たあらゆる公知の又はこれから開発されるセグメント化
技術であってよい。種々の実施形態では、音声データを
複数の音声データセグメントにセグメント化するステッ
プは、自己類似分析に基づいて音声データをセグメント
化するステップを含む。自己類似分析に基づく音声デー
タのセグメント化ステップは、音声データのソース信号
においてノベルティ(novelty)ポイントを識別するステ
ップを含むことができる。

【０００９】本発明の方法の種々の実施形態では、複数
の音声データセグメントの適合基準を設定するステップ
が、音声データセグメントの持続時間制約を設定するス
テップを含み、適合基準に基づいて複数の音声データセ
グメントを分析するステップが、各音声データセグメン
トの持続時間と持続時間制約とを比較するステップを含
む。このような実施形態では、複数の音声データセグメ
ントのうち１つを選択するステップが、持続時間制約を
満たす、複数の音声データセグメントのうち第１番目を
選択するステップを含むことができる。さらに適合基準
に基づいて複数の音声データセグメントを分析するステ
ップが、持続時間制約との比較に基づいて各音声データ
セグメントの適合スコアを演算するステップをさらに含
むことができる。このような実施形態では、複数の音声
データセグメントのうち１つを選択するステップが、適
合スコアの極大値を有する音声データセグメントを選択
するステップを含むことができる。

【００１０】本発明の方法の他の種々の実施形態では、
複数の音声データセグメントの適合基準を設定するステ
ップが、持続時間、ピッチ輪郭、音響上の類似、ビデオ
特徴、キーフレーム時間及び関連データのうち少なくと
も１つを音声データセグメントの制約として選択するス
テップを含み、適合基準に基づいて複数の音声データセ
グメントを分析するステップが、持続時間、ピッチ輪
郭、音響上の類似、ビデオ特徴、キーフレーム時間及び
関連データのうち少なくとも１つを各音声データセグメ
ントに対して識別し制約を適用するステップを含む。

【００１１】本発明の種々の例示的な実施形態では、音
声抄録の抽出方法は、複数の音声データセグメントのう
ち選択した１つをビデオデータに関連付けるステップを
さらに含む。このような実施形態では、複数の音声デー
タセグメントのうち選択した１つをビデオデータに関連
付けるステップが、複数の音声データセグメントのうち
選択した１つをキーフレームに関連付けるステップを含
むことができる。

【００１２】本発明の他の種々の例示的な実施形態で
は、音声抄録の抽出方法は、音声データを複数の音声デ
ータセグメントにセグメント化するステップと、複数の
音声データセグメントの持続時間制約を設定するステッ
プと、各音声データセグメントの持続時間と持続時間制
約とを比較するステップと、持続時間制約を満たす、複
数の音声データセグメントのうち１つを選択するステッ
プと、を含む。音声データのセグメント化は、音声セグ
メントの識別に適したあらゆる公知の又はこれから開発
されるセグメント化技術であり得る。種々の実施形態で
は、音声データを複数の音声データセグメントにセグメ
ント化するステップが、自己類似分析に基づいて音声デ
ータをセグメント化するステップを含む。自己類似分析
に基づく音声データのセグメント化ステップは、音声デ
ータのソース信号においてノベルティポイントを識別す
るステップを含むことができる。

【００１３】本発明の種々の例示的な実施形態では、音
声データ抄録の抽出システムは、コントローラと、音声
データを複数の音声データセグメントにセグメント化す
るセグメント化回路と、少なくとも１つの適合基準に基
づいて複数の音声データセグメントを分析する分析回路
と、適合基準を満たす、複数の音声データセグメントの
うち１つを選択する選択回路と、を含む。種々の実施形
態では、このシステムは複数の音声データセグメントの
うち選択した１つをビデオデータに関連付けるアソシエ
ーション回路をさらに含む。

【００１４】本発明の他の種々の例示的な実施形態で
は、音声抄録の抽出システムは、コントローラと、音声
データを複数の音声データセグメントにセグメント化す
るセグメント化回路と、各音声データセグメントの持続
時間と持続時間制約とを比較する分析回路と、持続時間
制約を満たす、複数の音声データセグメントのうち１つ
を選択する選択回路と、を含む。種々の実施形態では、
このシステムは複数の音声データセグメントのうち選択
した１つをビデオデータに関連付けるアソシエーション
回路をさらに含む。

【００１５】本発明はさらに、本発明の種々の方法を実
行するコンピュータ読取可能記憶媒体及び／又はプログ
ラムを想定している。

【００１６】本発明の第１の態様の音声抄録(excerpts)
抽出方法は、音声データを複数の音声データセグメント
にセグメント化するステップと、前記複数の音声データ
セグメントの適合基準を設定するステップと、前記適合
基準に基づいて前記複数の音声データセグメントを分析
するステップと、前記適合基準を満たす、前記複数のデ
ータセグメントのうち１つを選択するステップと、を含
む。

【００１７】本発明の第２の態様の音声抄録抽出方法
は、第１の態様の音声抄録抽出方法において、前記音声
データを複数の音声データセグメントにセグメント化す
る前記ステップが、自己類似分析に基づいて前記音声デ
ータをセグメント化するステップを含む。

【００１８】本発明の第３の態様の音声抄録抽出方法
は、第２の態様の音声抄録抽出方法において、自己類似
分析に基づいて前記音声データをセグメント化する前記
ステップが、前記音声データのソース信号においてノベ
ルティ(novelty)ポイントを識別するステップを含む。

【００１９】本発明の第４の態様の音声抄録抽出方法
は、第１の態様の音声抄録抽出方法において、前記複数
の音声データセグメントの適合基準を設定する前記ステ
ップが、前記音声データセグメントの持続時間制約を設
定するステップを含み、前記適合基準に基づいて前記複
数のデータセグメントを分析する前記ステップが、各音
声データセグメントの持続時間と前記持続時間制約とを
比較するステップを含む。

【００２０】本発明の第５の態様の音声抄録抽出方法
は、第４の態様の音声抄録抽出方法において、前記複数
の音声データセグメントのうち１つを選択する前記ステ
ップが、前記持続時間制約を満たす、前記複数の音声デ
ータセグメントのうち第１番目の音声データセグメント
を選択するステップを含む。

【００２１】本発明の第６の態様の音声抄録抽出方法
は、第４の態様の音声抄録抽出方法において、前記適合
基準に基づいて前記複数の音声データセグメントを分析
する前記ステップが、前記持続時間制約との前記比較に
基づいて各音声データセグメントの適合スコアを演算す
るステップをさらに含む。

【００２２】本発明の第７の態様の音声抄録抽出方法
は、第６の態様の音声抄録抽出方法において、前記複数
の音声データセグメントのうち１つを選択する前記ステ
ップが、前記適合スコアの極大値を有する音声データセ
グメントを選択するステップを含む。

【００２３】本発明の第８の態様の音声抄録抽出方法
は、第１の態様の音声抄録抽出方法において、前記複数
の音声データセグメントの適合基準を設定する前記ステ
ップが、持続時間、ピッチ輪郭、音響上の類似、ビデオ
特徴、キーフレーム時間及び関連データのうち少なくと
も１つを前記音声データセグメントの制約として選択す
るステップを含み、前記適合基準に基づいて前記複数の
音声データセグメントを分析する前記ステップが、持続
時間、ピッチ輪郭、音響上の類似、ビデオ特徴、キーフ
レーム時間及び関連データのうち少なくとも１つを各音
声データセグメントに対して識別し前記制約を適用する
ステップを含む。

【００２４】本発明の第９の態様の音声抄録抽出方法
は、第１の態様の音声抄録抽出方法において、前記複数
の音声データセグメントのうち選択した１つをビデオデ
ータに関連付けるステップをさらに含む。

【００２５】本発明の第１０の態様の音声抄録抽出方法
は、第９の態様の音声抄録抽出方法において、前記複数
の音声データセグメントのうち選択した１つをビデオデ
ータに関連付ける前記ステップが、前記複数の音声デー
タセグメントのうち選択した１つをキーフレームに関連
付けるステップを含む。

【００２６】本発明の第１１の態様の音声抄録抽出方法
は、音声データを複数の音声データセグメントにセグメ
ント化するステップと、前記複数の音声データセグメン
トの持続時間制約を設定するステップと、各音声データ
セグメントの持続時間と前記持続時間制約とを比較する
ステップと、前記持続時間制約を満たす、前記複数の音
声データセグメントのうち１つを選択するステップと、
を含む。

【００２７】本発明の第１２の態様の音声抄録抽出方法
は、第１１の態様の音声抄録抽出方法において、前記音
声データを複数の音声データセグメントにセグメント化
する前記ステップが、自己類似分析に基づいて前記音声
データをセグメント化するステップを含む。

【００２８】本発明の第１３の態様の音声抄録抽出方法
は、第１２の態様の音声抄録抽出方法において、自己類
似分析に基づいて前記音声データをセグメント化する前
記ステップが、前記音声データのソース信号においてノ
ベルティポイントを識別するステップを含む。

【００２９】本発明の第１４の態様の音声抄録抽出方法
は、第１１の態様の音声抄録抽出方法において、前記複
数の音声データセグメントのうち１つを選択する前記ス
テップが、前記持続時間制約を満たす、前記複数の音声
データセグメントの第１番目の音声データセグメントを
選択するステップを含む。

【００３０】本発明の第１５の態様の音声抄録抽出方法
は、第１１の態様の音声抄録抽出方法において、前記持
続時間制約との前記比較に基づいて各音声データセグメ
ントの適合スコアを演算するステップをさらに含む。

【００３１】本発明の第１６の態様の音声抄録抽出方法
は、第１５の態様の音声抄録抽出方法において、前記複
数の音声データセグメントのうち１つを選択する前記ス
テップが、前記適合スコアの極大値を有する音声データ
セグメントを選択するステップを含む。

【００３２】本発明の第１７の態様の音声抄録抽出方法
は、第１１の態様の音声抄録抽出方法において、前記複
数の音声データセグメントのうち選択した１つをビデオ
データに関連付けるステップをさらに含む。

【００３３】本発明の第１８の態様の音声抄録抽出方法
は、第１７の態様の音声抄録抽出方法において、前記複
数の音声データセグメントのうち選択した１つをビデオ
データに関連付ける前記ステップが、前記複数の音声デ
ータセグメントのうち選択した１つをキーフレームに関
連付けるステップを含む。

【００３４】本発明の第１９の態様の音声データ抄録抽
出システムは、コントローラと、音声データを複数の音
声データセグメントにセグメント化するセグメント化回
路と、前記複数の音声データセグメントを少なくとも
１つの適合基準に基づいて分析する分析回路と、前記適
合基準を満たす、前記複数の音声データセグメントのう
ち１つを選択する選択回路と、を含む。

【００３５】本発明の第２０の態様の音声データ抄録抽
出システムは、第１９の態様の音声データ抄録抽出シス
テムにおいて、前記複数の音声データセグメントのうち
選択した１つをビデオデータに関連付けるアソシエーシ
ョン回路をさらに含む。

【００３６】本発明の第２１の態様の音声抄録抽出シス
テムは、コントローラと、音声データを複数の音声デー
タセグメントにセグメント化するセグメント化回路と、
各音声データセグメントの持続時間を持続時間制約と比
較する分析回路と、前記持続時間制約を満たす、前記複
数の音声データセグメントのうち１つを選択する選択回
路と、を含む。

【００３７】本発明の第２２の態様の音声抄録抽出シス
テムは、第２１の態様の音声抄録抽出システムにおい
て、前記複数の音声データセグメントのうち選択した１
つをビデオデータに関連付けるアソシエーション回路を
さらに含む。

【００３８】本発明の第２３の態様のコンピュータ読取
可能記憶媒体は、前記コンピュータ読取可能記憶媒体に
記憶されるコンピュータ読取可能プログラムコードを含
み、前記コンピュータ読取可能プログラムコードは音声
抄録の抽出方法を実行するためにコンピュータをプログ
ラムするのに使用可能であって、該方法は、音声データ
を複数の音声データセグメントにセグメント化するステ
ップと、前記複数の音声データセグメントの適合基準を
設定するステップと、前記適合基準に基づいて前記複数
の音声データセグメントを分析するステップと、前記適
合基準を満たす、前記複数の音声データセグメントのう
ち１つを選択するステップと、を含む。

【００３９】本発明の第２４の態様の音声抄録の抽出方
法に使用可能な制御プログラムは、音声データを複数の
音声データセグメントにセグメント化する命令と、前記
複数の音声データセグメントの適合基準を設定する命令
と、前記適合基準に基づいて前記複数の音声データセグ
メントを分析する命令と、前記適合基準を満たす、前記
複数の音声データセグメントのうち１つを選択する命令
と、を含む。

【００４０】本発明の第２５の態様のコンピュータ読取
可能記憶媒体は、前記コンピュータ読取可能記憶媒体に
記憶されるコンピュータ読取可能プログラムコードを含
み、前記コンピュータ読取可能プログラムコードは音声
抄録の抽出方法を実行するためにコンピュータをプログ
ラムするのに使用可能で、該方法は、音声データを複数
の音声データセグメントにセグメント化するステップ
と、前記複数の音声データセグメントの持続時間制約を
設定するステップと、各音声データセグメントの持続時
間と前記持続時間制約とを比較するステップと、前記持
続時間制約を満たす、前記複数の音声データセグメント
のうち１つを選択するステップと、を含む。

【００４１】本発明の第２６の態様の音声抄録の抽出方
法に使用可能な制御プログラムは、音声データを複数の
音声データセグメントにセグメント化する命令と、前記
複数の音声データセグメントの持続時間制約を設定する
命令と、各音声データセグメントの持続時間と前記持続
時間制約とを比較する命令と、前記持続時間制約を満た
す、前記複数の音声データセグメントのうち１つを選択
する命令と、を含む。

【００４２】本発明の第２７の態様の複数の音声データ
セグメントからの音声抄録選択方法は、境界候補リスト
から境界開始候補を選択するステップと、前記境界候補
リストから隣接境界候補を選択してセグメント候補を定
義するステップと、少なくとも１つの適合基準に基づい
て前記セグメント候補を分析するステップと、前記セグ
メント候補が前記少なくとも１つの適合基準を満たすな
らば、前記セグメント候補をセグメント候補リストに付
加するステップと、前記ステップを繰り返して前記境界
候補リストからの境界開始候補と隣接境界候補とのあら
ゆる組合せを評価するステップと、前記作成したセグメ
ント候補リストからセグメント候補のうち１つを選択す
るステップと、を含む。

【００４３】本発明の第２８の態様の音声抄録選択方法
は、第２７の態様の音声抄録選択方法において、前記作
成したセグメント候補リストからセグメント候補のうち
１つを選択する前記ステップが、前記少なくとも１つの
適合基準に基づく。

【００４４】本発明の第２９の態様の音声抄録選択方法
は、第２７の態様の音声抄録選択方法において、前記作
成したセグメント候補リストからセグメント候補のうち
１つを選択する前記ステップが、前記少なくとも１つの
適合基準と異なる少なくとも第２の適合基準に基づく。

【００４５】

【発明の実施の形態】本発明のこれらの及び他の特徴や
利点は、本発明のシステム及び方法の種々の例示的な実
施形態の以下の詳細な記述に説明されており、またこれ
から明らかとなる。

【００４６】本発明のシステム及び方法の種々の例示的
な実施形態を、添付図面を参照しながら以下に詳細に説
明する。

【００４７】図１は、本発明の自動抽出システム１００
の例示的な実施形態を示す。コントローラ１０２、メモ
リ１０４、セグメント化回路１０６、分析回路１０８、
選択回路１１０及びアソシエーション回路１１２が入出
力回路１１４を介して通信リンク２０１に接続する。ア
ソシエーション回路１１２は任意であり、選択した音声
データセグメントがビデオデータに関連しない場合は省
いてもよいことを理解されたい。

【００４８】コントローラ１０２は入出力回路１１４を
起動させ、通信リンク２０１を介して音声データをリト
リーブし、かつ／又は受信する。本発明の種々の実施形
態では、音声データはＭＰＥＧ−３、ＭＰＥＧ−４、リ
アルネットワーク(RealNetworks)によるＰＮＭ−Ｒｅａ
ｌＮｅｔｗｏｒｋｓプロトコル、ＲｅａｌＶｉｄｅｏプ
ロトコル、マイクロソフト（商標）コーポレーションに
よるウィンドウズ（Ｒ）メディアのマイクロソフト（商
標）メディアストリーミングプロトコルなどのストリー
ミング音声／ビデオプロトコルやあらゆる他の公知の又
はこれから開発される音声及び／又は音声／ビデオプロ
トコルに符号化される音声／ビデオ情報の一部である。
本発明の種々の実施形態はまた、ＭＰＥＧ−４での動作
やあらゆる他の符号化情報も想定しており、別個の復号
化や符号化を必要とせずに符号化情報ストリーム又はプ
ロトコルに直接アクセスする。

【００４９】リトリーブした、かつ／又は受信した音声
データは生音声データでもよいし、既に粗くセグメント
化されている音声データでもよい。粗いセグメント化
は、公知の又はこれから開発されるあらゆる適切な技術
を用いて達成することができる。例えば、音声データが
音声／ビデオデータの一部である場合、粗いセグメント
化は１９９９年３月１２日に出願した同時係属中の米国
出願番号第09/267,529号（参照によって本明細書中に援
用する）に記載されているように、ビデオデータのカラ
ーヒストグラム分析に基づく。

【００５０】リトリーブした、かつ／又は受信した音声
データは、メモリ１０４に保存される。次いでセグメン
ト化回路１０６が起動されてリトリーブした、かつ／又
は受信した音声データの複数の音声データセグメントを
識別する。例えば、種々の音声データセグメントを定義
するセグメント境界候補を識別することができる。セグ
メント化回路１０６は、音声データのセグメント化に適
したあらゆる公知の又はこれから開発されるセグメント
化技術を実行することができる。

【００５１】本発明の種々の例示的な実施形態では、セ
グメント化回路１０６は自己類似分析に基づく音声デー
タのセグメント化を実行することができる。例えば、セ
グメント化回路１０６は、自己類似分析が音声データの
ソース信号におけるノベルティポイントの識別からなる
セグメント化を実行することができる。このようなセグ
メント化技術は、２０００年５月１１日に出願した同時
係属中の米国出願番号第09/569,230号（参照として本明
細書中に援用する）に記載されている。

【００５２】この自己類似セグメント化技術は、雑音が
多かったり反響したりする条件下ではロバストでなく、
音楽や他の非スピーチの音声データに適さない他の技術
に対して利点を提示する。さらにこの技術は統計モデリ
ングを必要としないし、演算も比較的わずかしか必要と
しない。図２は、９秒間の音声データのエネルギースコ
アとノベルティ(novelty)スコアのグラフを例示する。
ノベルティスコアのピーク、即ち極大点が優れたセグメ
ント境界候補を提供する。その理由は、音声データは極
大点間で自己類似しており、これらの極大点を超えると
著しく異なるためである。さらにノベルティスコアは非
線形測定であるため、比較的広い時間間隔で計算しても
ノベルティスコアは先鋭且つ明確なピーク即ち極大点を
生成する。比較すると、時間間隔が比較的広い場合は、
平均エネルギーを用いた技術のほうがピークがあまり明
確ではない。

【００５３】図２に示すように、ノベルティスコアのピ
ーク即ち極大点は、エネルギースコアのピークよりも長
い時間間隔で生じる。したがって、ノベルティスコアは
考慮すべき境界候補の数が少ない。ピークの数を減らす
ためにエネルギースコアをローパスフィルタ処理した場
合、より検出しにくい狭いピークが生じ、時間分解能が
減少する。

【００５４】自己類似セグメント化技術を用いて、セグ
メント境界候補をノベルティスコアのピークから選択す
る。選択は、例えば、ノベルティスコアが局所又は広域
閾値を越える点を識別することに基づく。より時間の精
度を上げたいならば、閾値より上の極大点又は傾きがゼ
ロである点を識別することで、ピークを正確に検出する
ことができる。次いで最も高いピークのみを選択するた
めに、ピークを高さによってランク付けする。このこと
によって可変閾値を有効に得ることができ、そのためセ
グメント化方法は雑音のある音声データやわずかしか変
化しない音声データを含む全ての種類の音声データに対
してロバストとなる。

【００５５】セグメント境界候補を識別又は選択する
と、分析回路１０８は時間分析及び／又は適合分析に基
づいて当該音声データセグメントを評価する。時間分析
の場合、分析回路１０８は持続時間制約にしたがって当
該音声データセグメントを評価する。例えば、識別又は
選択した各セグメント境界候補を当該音声データセグメ
ントの境界開始とみなすことができる。音声データセグ
メント候補が所与のアプリケーションに対して長すぎた
り短すぎたりしないように持続時間制約を設定する。例
えば、５〜１５秒の範囲を持続時間制約として使用する
ことができる。セグメント境界候補の開始と終了の各組
合せを分析回路１０８で持続時間制約と比較する。

【００５６】適合分析の場合、分析回路１０８は少なく
とも１つの適合基準にしたがって当該音声データセグメ
ントを評価する。分析回路１０８が時間分析を実行する
場合、適合基準は持続時間制約を満たす第１番目の音声
データセグメントとなる。或いは、適合基準は持続時間
制約内の好ましい持続時間に最も近い音声データセグメ
ントでもよい。例えば、分析回路１０８は、音声データ
セグメント候補の好ましい持続時間からの偏差に基づい
てこれらの候補のランキングを作成することができる。

【００５７】適合基準はエネルギー基準であってもよ
い。例えば、分析回路１０８は、音声データセグメント
候補それぞれの平均エネルギーを評価してもよい。エネ
ルギー基準を使用することで、サイレンス又はバックグ
ラウンドノイズのみからなる音声データセグメント候補
は確実に好まれず選択されない。さらに分析回路１０８
は、フレーズ全体、音、楽音などの可能性のある音声デ
ータセグメントが好まれるように、隣接する音声データ
セグメント候補のエネルギーに基づいて音声データセグ
メントの各候補を評価することができる。

【００５８】分析回路１０８は、１つ以上の適合基準に
基づいて音声データセグメントの各候補を評価しランク
付けすることができる。使用できる適合基準の他の非限
定的な例として、スピーチ強調を識別する音声データセ
グメント候補のピッチ輪郭や特定の音声特徴を識別する
音声データセグメント候補の音響類似が挙げられる。

【００５９】音声データがビデオデータに関連する場
合、音声データセグメント候補に対応する特定のビデオ
画像特徴を適合基準として使用することができる。例え
ば、スピーチを含んでいる可能性のある音声データセグ
メント候補を識別するために、顔検出アルゴリズムを使
用することができる。また、音声データセグメントがビ
デオキーフレームに関連している場合、キーフレーム時
間を適合基準として使用することができ、例えば、キー
フレーム時間が音声データセグメント候補時に生じるか
どうか、各音声データセグメントの境界開始がキーフレ
ーム時間にどの程度近いかを評価する。

【００６０】音声データセグメント候補を、他のデータ
ソースに基づく適合基準によって分析回路１０８で評価
することもできる。例えば、タイムスタンプ注釈、キャ
プション又はサブタイトルデータ、図形データ又は音声
データに関連し得るあらゆる他の適切なデータソースが
挙げられる。

【００６１】適合基準に基づいて、分析回路１０８は音
声データセグメントの各候補の適合スコアを作成するこ
とができる。適合スコアは、音声データセグメントの各
候補がどの程度適合基準を満たしているかの測定を表
す。次いで選択回路１１０を使用し、例えば、適合スコ
アに基づいて音声データセグメント候補のうち１つを選
択することができる。

【００６２】選択回路１１０によって音声データセグメ
ントを選択すると、アソシエーション回路１１２が選択
した音声データセグメントをビデオデータに関連付け
る。例えば、アソシエーション回路１１２は、選択した
音声データセグメントをキーフレームに関連付けてマル
チメディアドキュメントで使用することができる。

【００６３】図３〜６は、本発明の自動音声抽出の例示
的な方法を示すフローチャートである。以下に説明する
ように、図３は例示的な方法のフローチャートであり、
図４〜６はその方法の種々のステップをより詳細に例示
するフローチャートである。

【００６４】図３に示すように、プロセスはステップＳ
１０から始まり、Ｓ１００に続く。ステップＳ１００で
は、生音声データを受信する。次いでステップＳ２００
では、生音声データに粗いセグメント化技術を施す。上
述のように、粗いセグメント化技術は音声データをセグ
メント化するあらゆる公知の又はこれから開発される技
術でよい。また、ステップＳ２００の粗いセグメント化
は任意であり、ステップＳ１００で受信した生音声デー
タをＳ３００の前にセグメント化しなくてもよいことを
理解されたい。

【００６５】ステップＳ３００では、生音声データ又は
粗いセグメント化による音声データセグメントに対して
類似ベースのセグメント化を実行する。上述の理由か
ら、この技術は他のセグメント化技術よりも好ましい。
しかしながら本発明は類似ベースのセグメント化を含む
方法に限定されず、公知の又はこれから開発される他の
セグメント化技術も使用できることを理解されたい。

【００６６】例示的な方法では、ステップＳ４００で音
声データセグメントに時間分析を実行し、音声データセ
グメント候補を識別する。次いでステップＳ５００で
は、識別した音声データセグメント候補を適合分析す
る。例示的なシステムの上記の説明に基づくと、ステッ
プＳ４００が所与のアプリケーションに必要な唯一の分
析であってよいことを理解されたい。またステップＳ４
００の時間分析を省いてもよいため、唯一の分析がステ
ップＳ５００の適合分析となってもよい。さらにステッ
プＳ４００の時間分析をステップＳ５００の適合分析に
含めてもよいことを理解されたい。

【００６７】ステップＳ５００の適合分析に基づいて、
ステップＳ６００で選択した音声データセグメントをビ
デオデータに関連付ける。上述のように好適な実施形態
では、ビデオデータはマルチメディアドキュメントで使
用するためのキーフレームを含む。次いでコントロール
はステップＳ６１０に続き、プロセスが終了する。

【００６８】図４に示すように、ステップＳ３００はス
テップＳ３１０、Ｓ３２０及びＳ３３０を有する。音声
データを粗くセグメント化し音声データセグメントをス
テップＳ３１０で受信する場合、ステップＳ３１０、Ｓ
３２０及びＳ３３０をループとして実行し、各セグメン
トを順番に処理する。生音声データ又は単一セグメント
のみをステップＳ３１０で受信する場合、ステップＳ３
１０、Ｓ３２０及びＳ３３０を図示するようにこの順で
実行する。音声データセグメントをステップＳ３１０で
受信すると、ステップＳ３２０でそのセグメントのノベ
ルティスコアを決定する。次いでステップＳ３３０でノ
ベルティスコアを使用して上述のようにセグメント境界
候補を識別する。

【００６９】図５に示すように、ステップＳ４００はス
テップＳ４１０、Ｓ４２０及びＳ４３０を有する。ステ
ップＳ４１０では、音声データセグメントに対して持続
時間制約を設定する。持続時間制約はユーザからの入力
によって手作業で設定してもよいし、例えば、ステップ
Ｓ１００で受信した音声データの種類又は特徴に基づい
て自動的に設定してもよい。ステップＳ４２０では、セ
グメント境界候補を持続時間制約と比較する。次いでス
テップＳ４３０では、持続時間制約を満たすセグメント
境界候補を識別する。

【００７０】図６に示すように、ステップＳ５００はス
テップＳ５１０、Ｓ５２０及びＳ５３０を有する。ステ
ップＳ５１０では、音声データセグメントに対して適合
基準を設定する。適合基準はユーザからの入力によって
手作業で設定してもよいし、例えば、ステップＳ１００
で受信した音声データの種類又は特徴に基づいて自動的
に設定してもよい。ステップＳ５２０では、セグメント
境界候補を適合基準に基づいて分析する。次いでステッ
プＳ５３０では、適合基準を満たすセグメント境界候補
に対応する、音声データセグメントのうち１つを選択す
る。

【００７１】図７は、本発明の例示的なセグメント選択
方法を示すフローチャートである。このプロセスはステ
ップＳ１０１０で始まり、ステップＳ１１００に続く。
ステップＳ１１００では、境界候補のリストを取得す
る。境界候補のリストはノベルティスコアを使用して決
定することができる。図２に示すように、ノベルティス
コア基準に基づいて境界候補（１）〜（６）を選択す
る。

【００７２】次にステップＳ１２００では、境界候補の
リストから１つの境界候補を境界開始候補Ａ_iとして選
択する。これは時間順に行われる。そのため、図２の境
界候補（１）が第１の境界開始候補として選択される。
ステップＳ１３００では、境界候補のリストから次の隣
接する境界候補Ｂ_jを選択し、セグメント候補Ａ_iＢ_jを
定義する。次いでステップＳ１４００では、セグメント
候補Ａ_iＢ_jを所望の適合基準に対して分析又は比較す
る。セグメント候補Ａ_iＢ_jが適合基準を満たすならばコ
ントロールはステップＳ１５００に進み、そこでセグメ
ント候補Ａ_iＢ_jをセグメント候補のリストに付加する。
コントロールはステップＳ１６００に続く。セグメント
候補Ａ_iＢ_jが適合基準を満たさないならば、コントロー
ルはステップＳ１６００にジャンプする。

【００７３】ステップＳ１６００では、他の隣接境界候
補Ｂ_jが存在するか、或いは最後の隣接境界候補Ｂ_jが選
択されたかどうかを判定する。他の隣接境界候補Ｂ_jが
存在するならば、コントロールはステップＳ１３００に
戻る。境界候補Ｂ_jが最後であるならば、コントロール
はステップＳ１７００に進む。

【００７４】ステップＳ１７００では、他の境界開始候
補Ａ_iが存在するか、或いは最後の境界開始候補Ａ_iが選
択されたかどうかを判定する。他の境界開始候補Ａ_iが
存在するならば、コントロールはステップＳ１２００に
戻る。境界開始候補Ａ_iが最後ならば、コントロールは
ステップＳ１８００に進む。このようにして、リストか
らの境界候補のあらゆる組合せを評価する。例えば、図
２に示す境界候補（１）〜（６）のリストの場合、セグ
メント候補（（１）−（２））、（（１）−（３））、
（（１）−（４））、（（１）−（５））、（（１）−
（６））、（（２）−（３））、（（２）−（４））、
（（２）−（５））、（（２）−（６））、（（３）−
（４））、（（３）−（５））、（（３）−（６））、
（（４）−（５））、（（４）−（６））及び（（５）
−（６））を評価する。

【００７５】ステップＳ１８００では、セグメント候補
のリストをソートする、例えば、適合スコアによってラ
ンク付けする。ソーティングは、ステップＳ１４００の
セグメント候補を評価するために使用したものと同じ適
合基準に基づいてもよいし、基づかなくてもよい。次い
でステップＳ１９００では、ソートしたセグメント候補
のリストから最良のセグメント候補を選択する。「最良
の」セグメント候補は、ユーザの好み及び／又は抽出し
た音声セグメントの特定のアプリケーションに依存して
いる。次いでコントロールはステップＳ１９１０に続
き、そこでプロセスは終了する。

【００７６】上記に概説した種々の例示的な実施形態で
は、自動音声抽出システム１００をプログラムされた汎
用コンピュータを使用して実行することができる。しか
しながら自動音声抽出システム１００は、専用コンピュ
ータ、プログラムされたマイクロプロセッサ又はマイク
ロコントローラ及び周辺集積回路素子、ＡＳＩＣ又は他
の集積回路、デジタル信号プロセッサ、離散素子回路な
どのハードワイヤード電子又はロジック回路、ＰＬＤ、
ＰＬＡ、ＦＰＧＡ又はＰＡＬなどのプログラマブルロジ
ック装置を使用して実行することもできる。一般に、図
３〜６及び７に示すフローチャートを実行できる有限状
態マシーンを実行できるあらゆる装置を、自動音声抽出
システム１００を実行するために使用することができ
る。

【００７７】上記に概説した自動音声抽出システム１０
０の回路１０２〜１１４のそれぞれは、適切にプログラ
ムされた汎用コンピュータの部分として実行することが
できる。或いは、上記に概説した自動音声抽出システム
１００の回路１０２〜１１４は、ＡＳＩＣ内の物理的に
別個のハードウェア回路として、又はＦＰＧＡ、ＰＤ
Ｌ、ＰＬＡ若しくはＰＡＬを使用して、又は離散ロジッ
ク素子若しくは離散回路素子を使用して実行することが
できる。上記に概説した自動音声抽出システム１００の
回路１０２〜１１４のそれぞれがとる特定の形態は設計
上の選択であり、当業者には明らかで予測できるもので
ある。

【００７８】さらに上述の自動音声抽出システム１００
及び／又は種々の回路それぞれは、ソフトウェアルーチ
ン、マネージャ又はプログラムされた汎用コンピュー
タ、専用コンピュータ、マイクロプロセッサなどで実行
するオブジェクトとして実行することができる。この場
合、上述の自動音声抽出システム１００及び／又は種々
の回路それぞれは、通信ネットワークに埋め込まれた１
つ以上のルーチンとして、サーバ上に存在するリソース
として実行することができる。上述の自動音声抽出シス
テム１００及び種々の回路はまた、自動音声抽出システ
ム１００をウェブサーバのハードウェア及びソフトウェ
アシステムなどのソフトウェア及び／又はハードウェア
システムに物理的に組み込むことによって実行すること
もできる。

【００７９】図１に示すメモリ１０４は、可変の揮発性
若しくは不揮発性メモリ又は不可変即ち固定メモリのあ
らゆる適切な組合せを使用して実行することができる。
可変メモリは、揮発性であっても不揮発性であっても、
スタティック又はダイナミックＲＡＭ、フロッピー
（Ｒ）ディスクとディスクドライブ、書き込み可能又は
書き換え可能光ディスクとディスクドライブ、ハードド
ライブ、フラッシュメモリなどのうち任意の１つ以上を
使用して実行することができる。同様に、不可変即ち固
定メモリは、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲ
ＯＭ、ＣＤ−ＲＯＭ又はＤＶＤ−ＲＯＭディスクなどの
光ＲＯＭディスクのうち任意の１つ以上とディスクドラ
イブを使用して実行することができる。

【００８０】図１に示す通信リンク２０１は、通信装置
を自動音声抽出システム１００に接続するあらゆる公知
の又はこれから開発される装置又はシステムであること
ができ、ダイレクトケーブル接続、ワイドエリアネット
ワーク又はローカルエリアネットワークを介した接続、
イントラネットを介した接続、インターネットを介した
接続又はあらゆる他の分散処理ネットワーク又はシステ
ムを介した接続を含む。一般に通信リンク２０１は、装
置を接続し通信を容易にするために使用できるあらゆる
公知の又はこれから開発される接続システム又は構造で
あることができる。

【００８１】さらに、通信リンク２０１がネットワーク
へのワイヤード又はワイヤレスリンクであり得ることを
理解されたい。ネットワークは、ローカルエリアネット
ワーク、ワイドエリアネットワーク、イントラネット、
インターネット、又はあらゆる他の分散処理及びストレ
ージネットワークであり得る。

【００８２】上記に概説した例示的な実施形態に関連さ
せて本発明を説明してきたが、当業者には多くの代替、
修正及びバリエーションが明らかであることは明白であ
る。したがって、上記に説明した本発明の例示的な実施
形態は例示を意図するものであり限定するものではな
い。本発明の趣旨や範囲から逸脱せずに種々の変更を行
うことができる。

【図面の簡単な説明】

【図１】本発明の例示的な自動音声抽出システムを示す
図である。

【図２】９秒間の音声データのエネルギースコアとノベ
ルティスコアの例示的なグラフである。

【図３】本発明の例示的な自動音声抽出方法のフローチ
ャートである。

【図４】本発明の例示的な類似ベースのセグメント化方
法のフローチャートである。

【図５】本発明の例示的な時間分析方法のフローチャー
トである。

【図６】本発明の例示的な適合分析方法のフローチャー
トである。

【図７】本発明の例示的なセグメント選択方法のフロー
チャートである。

【符号の説明】

１００自動音声抽出システム１０２コントローラ１０４メモリ１０６セグメント化回路１０８分析回路１１０選択回路１１２アソシエーション回路１１４入出力回路２０１通信リンク

───────────────────────────────────────────────────── フロントページの続き (72)発明者マシューエル．クーパーアメリカ合衆国 94304 カリフォルニア州パロアルトヒルビューアベニュー 3400 ビルディング４エフエックスパロアルトラボラトリーインコーポレイテッド内 (72)発明者リンディー．ウィルコックスアメリカ合衆国 94304 カリフォルニア州パロアルトヒルビューアベニュー 3400 ビルディング４エフエックスパロアルトラボラトリーインコーポレイテッド内Ｆターム(参考） 5D015 CC05 DD03 KK02

Claims

【特許請求の範囲】

【請求項１】音声データを複数の音声データセグメン
トにセグメント化するステップと、前記複数の音声データセグメントの適合基準を設定する
ステップと、前記適合基準に基づいて前記複数の音声データセグメン
トを分析するステップと、前記適合基準を満たす、前記複数のデータセグメントの
うち１つを選択するステップと、を含む、音声抄録(excerpts)抽出方法。
【請求項２】前記音声データを複数の音声データセグ
メントにセグメント化する前記ステップが、自己類似分
析に基づいて前記音声データをセグメント化するステッ
プを含む、請求項１に記載の方法。
【請求項３】自己類似分析に基づいて前記音声データ
をセグメント化する前記ステップが、前記音声データの
ソース信号においてノベルティ(novelty)ポイントを識
別するステップを含む、請求項２に記載の方法。
【請求項４】前記複数の音声データセグメントの適合
基準を設定する前記ステップが、前記音声データセグメ
ントの持続時間制約を設定するステップを含み、前記適合基準に基づいて前記複数のデータセグメントを
分析する前記ステップが、各音声データセグメントの持
続時間と前記持続時間制約とを比較するステップを含
む、請求項１に記載の方法。
【請求項５】前記複数の音声データセグメントのうち
１つを選択する前記ステップが、前記持続時間制約を満
たす、前記複数の音声データセグメントのうち第１番目
の音声データセグメントを選択するステップを含む、請
求項４に記載の方法。
【請求項６】前記適合基準に基づいて前記複数の音声
データセグメントを分析する前記ステップが、前記持続
時間制約との前記比較に基づいて各音声データセグメン
トの適合スコアを演算するステップをさらに含む、請求
項４に記載の方法。
【請求項７】前記複数の音声データセグメントのうち
１つを選択する前記ステップが、前記適合スコアの極大
値を有する音声データセグメントを選択するステップを
含む、請求項６に記載の方法。
【請求項８】前記複数の音声データセグメントの適合
基準を設定する前記ステップが、持続時間、ピッチ輪
郭、音響上の類似、ビデオ特徴、キーフレーム時間及び
関連データのうち少なくとも１つを前記音声データセグ
メントの制約として選択するステップを含み、前記適合基準に基づいて前記複数の音声データセグメン
トを分析する前記ステップが、持続時間、ピッチ輪郭、
音響上の類似、ビデオ特徴、キーフレーム時間及び関連
データのうち少なくとも１つを各音声データセグメント
に対して識別し前記制約を適用するステップを含む、請
求項１に記載の方法。
【請求項９】前記複数の音声データセグメントのうち
選択した１つをビデオデータに関連付けるステップをさ
らに含む、請求項１に記載の方法。
【請求項１０】前記複数の音声データセグメントのう
ち選択した１つをビデオデータに関連付ける前記ステッ
プが、前記複数の音声データセグメントのうち選択した
１つをキーフレームに関連付けるステップを含む、請求
項９に記載の方法。
【請求項１１】音声データを複数の音声データセグメ
ントにセグメント化するステップと、前記複数の音声データセグメントの持続時間制約を設定
するステップと、各音声データセグメントの持続時間と前記持続時間制約
とを比較するステップと、前記持続時間制約を満たす、前記複数の音声データセグ
メントのうち１つを選択するステップと、を含む、音声抄録抽出方法。
【請求項１２】前記音声データを複数の音声データセ
グメントにセグメント化する前記ステップが、自己類似
分析に基づいて前記音声データをセグメント化するステ
ップを含む、請求項１１に記載の方法。
【請求項１３】自己類似分析に基づいて前記音声デー
タをセグメント化する前記ステップが、前記音声データ
のソース信号においてノベルティポイントを識別するス
テップを含む、請求項１２に記載の方法。
【請求項１４】前記複数の音声データセグメントのう
ち１つを選択する前記ステップが、前記持続時間制約を
満たす、前記複数の音声データセグメントの第１番目の
音声データセグメントを選択するステップを含む、請求
項１１に記載の方法。
【請求項１５】前記持続時間制約との前記比較に基づ
いて各音声データセグメントの適合スコアを演算するス
テップをさらに含む、請求項１１に記載の方法。
【請求項１６】前記複数の音声データセグメントのう
ち１つを選択する前記ステップが、前記適合スコアの極
大値を有する音声データセグメントを選択するステップ
を含む、請求項１５に記載の方法。
【請求項１７】前記複数の音声データセグメントのう
ち選択した１つをビデオデータに関連付けるステップを
さらに含む、請求項１１に記載の方法。
【請求項１８】前記複数の音声データセグメントのう
ち選択した１つをビデオデータに関連付ける前記ステッ
プが、前記複数の音声データセグメントのうち選択した
１つをキーフレームに関連付けるステップを含む、請求
項１７に記載の方法。
【請求項１９】コントローラと、音声データを複数の音声データセグメントにセグメント
化するセグメント化回路と、前記複数の音声データセグメントを少なくとも１つの適
合基準に基づいて分析する分析回路と、前記適合基準を満たす、前記複数の音声データセグメン
トのうち１つを選択する選択回路と、を含む、音声データ抄録抽出システム。
【請求項２０】前記複数の音声データセグメントのう
ち選択した１つをビデオデータに関連付けるアソシエー
ション回路をさらに含む、請求項１９に記載のシステ
ム。
【請求項２１】コントローラと、音声データを複数の音声データセグメントにセグメント
化するセグメント化回路と、各音声データセグメントの持続時間を持続時間制約と比
較する分析回路と、前記持続時間制約を満たす、前記複数の音声データセグ
メントのうち１つを選択する選択回路と、を含む、音声抄録抽出システム。
【請求項２２】前記複数の音声データセグメントのう
ち選択した１つをビデオデータに関連付けるアソシエー
ション回路をさらに含む、請求項２１に記載のシステ
ム。
【請求項２３】音声抄録の抽出方法に使用可能な制御
プログラムであって、音声データを複数の音声データセグメントにセグメント
化する命令と、前記複数の音声データセグメントの適合基準を設定する
命令と、前記適合基準に基づいて前記複数の音声データセグメン
トを分析する命令と、前記適合基準を満たす、前記複数の音声データセグメン
トのうち１つを選択する命令と、を含む、プログラム。
【請求項２４】音声抄録の抽出方法に使用可能な制御
プログラムであって、音声データを複数の音声データセグメントにセグメント
化する命令と、前記複数の音声データセグメントの持続時間制約を設定
する命令と、各音声データセグメントの持続時間と前記持続時間制約
とを比較する命令と、前記持続時間制約を満たす、前記複数の音声データセグ
メントのうち１つを選択する命令と、を含む、プログラム。
【請求項２５】境界候補リストから境界開始候補を選
択するステップと、前記境界候補リストから隣接境界候補を選択してセグメ
ント候補を定義するステップと、少なくとも１つの適合基準に基づいて前記セグメント候
補を分析するステップと、前記セグメント候補が前記少なくとも１つの適合基準を
満たすならば、前記セグメント候補をセグメント候補リ
ストに付加するステップと、前記ステップを繰り返して前記境界候補リストからの境
界開始候補と隣接境界候補とのあらゆる組合せを評価す
るステップと、前記作成したセグメント候補リストからセグメント候補
のうち１つを選択するステップと、を含む、複数の音声データセグメントからの音声抄録選
択方法。
【請求項２６】前記作成したセグメント候補リストか
らセグメント候補のうち１つを選択する前記ステップ
が、前記少なくとも１つの適合基準に基づく、請求項２
５に記載の方法。
【請求項２７】前記作成したセグメント候補リストか
らセグメント候補のうち１つを選択する前記ステップ
が、前記少なくとも１つの適合基準と異なる少なくとも
第２の適合基準に基づく、請求項２５に記載の方法。