JP5231130B2

JP5231130B2 - キーフレーズ抽出装置、シーン分割装置およびプログラム

Info

Publication number: JP5231130B2
Application number: JP2008208602A
Authority: JP
Inventors: 菊佳三浦; 一郎山田; 英樹住吉; 正啓柴田
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2008-08-13
Filing date: 2008-08-13
Publication date: 2013-07-10
Anticipated expiration: 2028-08-13
Also published as: JP2010044614A

Description

本発明は、自然言語処理技術に関する。特に、映像をシーンごとに分割するためのキーフレーズを抽出するキーフレーズ抽出装置、それらのキーフレーズを利用して映像を分割するシーン分割装置、およびそれらのコンピュータプログラムに関する。

テレビ番組等の大量の映像コンテンツを利用しやすい形で蓄積するために、予め映像コンテンツをシーンごとに分割しておくことが求められている。このとき、人手をかけずに効率的に、妥当なシーンに分割できることが望ましい。

非特許文献１に記載される技術では、テキストの語彙的結束性（単語の分布）を算出し、結束度の低い箇所をシーン切れ目と判断する手法が取られる。
また、非特許文献２に記載される技術では、例えば接続詞の「ところで」などといった表層的手がかりを組み合わせることにより、シーン切れ目を判断する手法が取られる。
また、非特許文献３に記載される技術では、尤度関数（言語モデル）を予め定義し、ベイズ学習を行なうことによって話題変化点を検出する手法が取られる。
また、非特許文献４に記載される技術では、テキストの生成モデルとしてleft-to-right型隠れマルコフモデル（ＨＭＭ）を仮定し、変分ベイズ（ＶＢ）法に基づくテキスト分割アルゴリズムを導出している。
M.A. Hearst，"Multi-paragraph segmentation of expository text"，32nd Annual Meeting of the Association for Computational Linguistics，１９９４年，pp.9-16．望月源，本田岳夫，奥村学，「複数の表層的手がかりを統合したテキストセグメンテーション」，自然言語処理，１９９９年，vol.6，No.3，pp.43-58．持橋大地，菊井玄一郎，「Gibbs Samplingによる確率的テキスト分割と複数観測への拡張」，ＮＬＰ−２００６，２００６年，pp.212-215．越仲孝文，奥村明俊，磯谷亮輔，「ＨＭＭの変分ベイズ学習によるテキストセグメンテーション及びその映像インデキシングヘの応用」，電子情報通信学会論文誌Ｄ，２００６年，Vol.J89-D，No.9，pp.2113-2122．

しかしながら、上に述べた従来技術には、次のような問題点がある。
非特許文献１に記載されている技術では、テキストの語彙的結束性を利用するため、シーンの切れ目を境として語彙分布が全く異なるテキストについては有効であると考えられるが、例えば情報提供型のテレビ番組等においては、シーンの切れ目をまたがって類似の語彙分布が出現する場合もよくあるため、そのような映像コンテンツのシーンの分割には不適切である。

非特許文献２に記載されている技術では、表層的手がかりを用いるため、手がかり語を予め人が指定する必要がある。そのためには分割しようとする映像コンテンツを人が実際に視聴する必要があるなど、効率が悪いという問題がある。

非特許文献３に記載されている技術では、あらかじめ話題数を指定する必要がある。また、サンプリング法を使うものであるため、様々な話題を含むテキストにこの手法を適用して且つシーン分割の精度を上げるためには、大量のデータを用意する必要があるという問題がある。さらに、シーン分割の対象となるデータに対して、尤度関数（言語モデル）をあらかじめ綿密に作る必要があるという問題がある。

非特許文献４に記載されている技術は、話題数が未知である場合にも利用できる。また、シーンの切れ目を境に語の分布が全く異なるテキストに対しては有効であると考えられる。当該文献においては、この技術をニュース番組に適用して評価実験を行なっている。しかしながら、非特許文献１の技術と同様に、シーンの切れ目をまたがって類似の語彙分布が出現するような映像コンテンツに対しては、有効ではない。

例えば、情報提供型のテレビ番組では、番組の最初から終わりまでが一貫したテーマを有している場合がある。一例としてＮＨＫのテレビ番組「ためしてガッテン」では、「温泉の入り方」や「おいしいチャーハンの極意」など、一回分の放送におけるトピックは番組のはじめから終わりまで同一であり、その一回分の放送の中で少しずつシーンが変化したり、多角的な検証が行われたりする。このような場合には、放送一回分の中では語彙分布の変化が期待できず、従って、語彙分布を利用して番組中のシーンの切れ目を検出するのは困難である。
また、非特許文献２の技術のように手がかり語を用いようとしても、テレビ番組で使われるのは話し言葉であり語や文節などが省略される場合が多く、さらに放送字幕においては接続詞が省略されることも多い。従って、シーンの切れ目を検出するためには、人手で列挙した手がかり語だけを用いてでは不十分である。

本発明は、上記のような事情を考慮して為されたものであり、人手で与える手がかり語を用いることなく、語彙分布がそれほど変わらないシーン間の切れ目を効率的に検出するためのキーフレーズ抽出装置と、検出された切れ目で映像コンテンツを分割するシーン分割装置、およびコンピュータプログラムを提供することを目的とする。

本発明は、いわゆるレギュラー番組においては、毎回（言い換えれば、毎放送回、毎番組）、同じシーン転換あるいは類似のシーン転換がなされることに着目する。そして、上記の課題を解決するため、本発明は、このシーン転換部分の特徴的な語などを手がかり語（キーフレーズ）として取り出す。そして、単語等の言語的単位の分布が似ているセグメントを番組ごとに集め、そのセグメント系列から話題展開の手がかりとなる語をキーフレーズとして抽出する。

［１］本発明の一態様によるキーフレーズ抽出装置は、番組開始時からの相対時刻と、前記相対時刻に関連付けられたテキストとを記憶する番組テキスト記憶部と、前記番組テキスト記憶部から読み出した前記相対時刻および前記テキストに基づき、番組を時間で区切ったセグメント毎に、言語的単位の出現頻度を表わすセグメント特徴量を算出するセグメント特徴量生成部と、前記セグメント特徴量生成部によって算出された前記セグメント特徴量のセグメント間の類似度を算出することにより、複数の番組に属するセグメントから類似のセグメントを選択し、それら選択されたセグメントから成るセグメント系列を生成するセグメントアラインメント処理部と、前記セグメントアラインメント処理部によって生成されたセグメント系列内における前記言語的単位の出現頻度に基づき言語的単位毎のスコアを算出し、算出されたスコアの良い言語的単位をキーフレーズとして抽出するスコア算出部とを具備することを特徴とする。
なお、ここで、言語的単位とは、例えば単語や文節やＮグラム（Ｎ−ｇｒａｍ）など、言語上の所定のまとまりを持つ単位である。

これによれば、番組を時間で区切ったセグメント毎に言語的単位の出現頻度に基づくセグメント特徴量が算出され、このセグメント特徴量を用いてセグメント間の類似度を算出することができる。このとき、セグメント間の類似度としては、ある番組に含まれるセグメントと、他の番組に含まれるセグメントとの間の類似度を算出することができる。これにより、複数の番組（レギュラー番組の一連の放送回など）にわたって、類似度の高い一連のセグメントからなるセグメント系列を生成できる。セグメント系列を構成するそれぞれのセグメントは、必ずしも番組開始時からの相対時刻が同じものには限定されない。このセグメント系列を構成する複数のセグメントは、それぞれの番組に含まれる同じ話題転換点を含んでいる可能性が比較的高い。そして、スコア算出部は、生成されたセグメント系列内における言語的単位の出現頻度に基づき言語的単位毎のスコアを算出する。スコアを算出する際の計算により、セグメント系列内においてより多くの番組に出現し且つセグメント系列外では出現頻度が比較的小さいような言語的単位に、良いスコアを与えることができる。そして、良いスコアが得られた言語的単位が、話題転換点の手がかりとなるキーフレーズとして抽出される。

［２］また、本発明の一態様は、上記のキーフレーズ抽出装置において、セグメント特徴量生成部は、前記言語的単位ごとの正確確率検定による有意確率に基づく値を要素とするベクトルとして前記セグメント特徴量を算出することを特徴とする。

これにより、標本数が比較的少ない場合にも、セグメント内かセグメント外かによって統計的に有意な差のある言語的単位の存在が、セグメント特徴量の値を特徴付ける。

［３］また、本発明の一態様は、上記のキーフレーズ抽出装置において、前記スコア算出部は、言語的単位毎に、全番組数のうち前記セグメント系列内において当該言語的単位が出現する番組数の割合が高いほど良い値となり、且つ、正確確率検定による有意確率が低いほど良い値となる前記スコアを算出することを特徴とする。

これにより、標本数が比較的少ない場合にも、セグメント系列内で特有に出現し、統計的に有意な言語的単位に、良いスコアを与えることができる。

［４］また、本発明の一態様は、上記のキーフレーズ抽出装置において、前記セグメントアラインメント処理部は、あるセグメントについてのセグメント系列を生成する際に、当該セグメントの基準となる相対時刻と当該セグメントが属する番組以外の他の番組に属する他のセグメントの基準となる相対時刻との差の絶対値が大きいほど当該他のセグメントが選ばれにくくなるように作用するペナルティ関数値を、算出された前記類似度に乗じることにより、前記他のセグメントを選択することを特徴とする。

これにより、ある番組のあるセグメントに着目したとき、他の番組内に、セグメント間の言語的単位の出現頻度の特徴が同じような複数のセグメントが仮に存在する場合にも、番組開始時からの相対時刻が近いセグメントほど、着目したセグメントの系列として選択されやすい。番組のフォーマット上、ある話題転換点の相対時刻が複数の番組間で近いという前提に基づくと、この構成により、セグメントアラインメントの精度がより高くなる。

［５］また、本発明の一態様によるシーン分割装置は、上記のいずれかの態様のキーフレーズ抽出装置と、前記番組テキスト記憶部に記憶されたテキストに対応する番組映像を記憶する番組映像記憶部と、前記スコア算出部が抽出したキーフレーズを用いて前記番組テキスト記憶部を検索することにより番組のシーンを分割すべき分割時刻情報を得る検索処理部と、前記検索処理部によって得られた前記分割時刻情報を用いて、前記番組テキスト記憶部に記憶されたテキストに対応する番組映像を前記番組映像記憶部から読み出してシーンに分割する処理を行なう映像分割処理部を具備することを特徴とする。

これにより、番組テキストに基づいて抽出されたキーフレーズを手がかりに、実際に番組映像をシーン毎に分割することができる。

［６］また、本発明のコンピュータプログラムは、コンピュータを、上記のいずれかの態様のキーフレーズ抽出装置あるいはシーン分割装置として機能させる。
例えば、その一態様は、番組開始時からの相対時刻と、前記相対時刻に関連付けられたテキストとを記憶する番組テキスト記憶部を具備するコンピュータに、前記番組テキスト記憶部から読み出した前記相対時刻および前記テキストに基づき、番組を時間で区切ったセグメント毎に、言語的単位の出現頻度を表わすセグメント特徴量を算出するセグメント特徴量生成過程と、前記セグメント特徴量生成過程によって算出された前記セグメント特徴量のセグメント間の類似度を算出することにより、複数の番組に属するセグメントから類似のセグメントを選択し、それら選択されたセグメントから成るセグメント系列を生成するセグメントアラインメント処理過程と、前記セグメントアラインメント処理過程によって生成されたセグメント系列内における前記言語的単位の出現頻度に基づき言語的単位毎のスコアを算出し、算出されたスコアの良い言語的単位をキーフレーズとして抽出するスコア算出過程との処理を実行させるプログラムである。

本発明によれば、言語的単位の出現の特徴に基づき、シーンの切れ目に対応するキーフレーズを抽出することができる。これにより、人手に頼らずに番組映像等を効率的にシーンに分割できる。これにより、シーンごとに分割された映像ライブラリを構築できる。放送局において、番組制作者などが番組映像から必要なシーンのみを取り出す際、話題転換で切れ目があるとより的確に目的のシーンを取り出しやすい。また、ビデオ・オン・デマンドや教育用途における映像百科などのサービスにおいて、シーンごとに番組が分割されていると二次活用しやすくなる。

以下、図面を参照しながら、本発明の複数の実施形態を説明する。

［第１の実施の形態］
図１は、第１の実施形態によるキーフレーズ抽出装置の機能構成を示すブロック図である。図示するように、キーフレーズ抽出装置１０は、番組映像記憶部１１と、クローズドキャプションデータ記憶部１２（番組テキスト記憶部）と、キーフレーズ抽出処理部１３と、キーフレーズ記憶部１４とを含んで構成される。

番組映像記憶部１１は、テレビ等の番組の映像データ（この映像データは、音声データを含む。以下においても同様。）を記憶するものである。ここで番組映像記憶部１１が記憶する番組は、いわゆるレギュラー番組である。つまり、番組映像記憶部１１は、ある番組の第１回放送分、第２回放送分、・・・と、所定の番組フォーマットに従って進行する複数回分の映像データを記憶する。
クローズドキャプションデータ記憶部１２は、番組映像記憶部１１が記憶する映像データそれぞれに対応するクローズドキャプション（画面に表示するための字幕）のデータを記憶する。なお、クローズドキャプションデータ記憶部１２は、番組開始時からの相対時刻と、この相対時刻に関連付けられたクローズドキャプション（テキスト）とを記憶するものである。
キーフレーズ抽出処理部１３は、上記のクローズドキャプションのデータを元に、シーン分割の手がかりとなり得るキーフレーズを抽出する処理を行うものである。
キーフレーズ記憶部１４は、キーフレーズ抽出処理部によって抽出されたキーフレーズを記憶するものである。

番組映像記憶部１１とクローズドキャプションデータ記憶部１２とキーフレーズ記憶部１４は、例えばハードディスク装置や半導体メモリなどを用いて実現する。また、適宜、ファイルシステムあるいはデータベース管理システムを用いて、これらの記憶部に記憶されるデータを管理する。

図２は、クローズドキャプションデータ記憶部１２が記憶するクローズドキャプションデータの構成とデータ例を示す概略図である。図示するように、クローズドキャプションデータは、相対時刻とクローズドキャプション（テキスト）が関連付けられているデータである。この相対時刻は、対応するクローズドキャプションの表示が開始される時刻であり、番組映像の開始時点を起点とする「時：分：秒．フレーム番号」の形式で表わされている。ここでフレーム番号は、当該秒内におけるフレームの相対番号であり、テレビ番組等の映像は通常１秒あたり３０枚のフレームで構成される。つまり、クローズドキャプションのテキストは、この相対時刻を介して、番組映像内の１フレームに関連付けられている。
図示する例において、１行目のデータは、相対時刻が「００：０５：０５．０１」のときに、「こんばんは５月になりました。」というクローズドキャプションの表示が開始されることを表わす。
なお、ここで図示しているデータは、特定の番組の特定の放送回の中における相対時刻と、それに対応するクローズドキャプションである。

図３は、本実施形態によるシーン分割装置の機能構成を示すブロック図である。図示するように、シーン分割装置２０は、番組映像記憶部２１と、クローズドキャプションデータ記憶部２２と、キーフレーズ記憶部２４と、検索処理部２５と、検索結果データ２６（分割時刻情報）と、映像分割処理部２７と、分割済番組映像記憶部２８とを含んで構成される。

番組映像記憶部２１は、図１に示した番組映像記憶部１１と同様のデータ（映像）を記憶するものである。なお、これらの番組映像記憶部１１および２１を、共通の記憶装置によって実現しても良い。
また、クローズドキャプションデータ記憶部２２は、図１に示したクローズドキャプションデータ記憶部１２と同様のデータを記憶するものである。なお、これらのクローズドキャプションデータ記憶部１２および２２を、共通の記憶装置によって実現しても良い。
また、キーフレーズ記憶部２４は、図１に示したキーフレーズ記憶部１４と同様のデータ（抽出されたキーフレーズのデータ）を記憶するものである。なお、これらのキーフレーズ記憶部１４および２４を、共通の記憶装置によって実現しても良い。

検索処理部２５は、キーフレーズ記憶部２４から読み出したキーフレーズのデータに基づいて、クローズドキャプションデータ記憶部２２を検索し、その結果として、シーンを分割すべき箇所の時刻情報（分割時刻情報）を得るものである。
検索結果データ２６は、検索処理部によって得られた分割時刻情報である。
映像分割処理部２７は、検索結果データ２６に基づいて、番組映像記憶部２１に記憶されている番組映像を分割する処理を行なう。つまり、映像分割処理部は、上の検索結果で得られた時刻で番組映像を分割する。この分割処理により、シーンごとに分割された番組映像を得ることができる。映像分割処理部２７は、分割済の映像を分割済番組映像記憶部２８に書き込む。
分割済番組映像記憶部２８は、映像分割処理部２７によって分割された番組映像を記憶するものである。

図４は、キーフレーズ抽出装置１０が備えるキーフレーズ抽出処理部１３の、より詳細な機能構成を示すブロック図である。図示するように、キーフレーズ抽出処理部１３は、内部に、セグメント特徴量生成部１３１と、セグメントアラインメント処理部１３２と、スコア算出部１３３とを含んで構成される。

セグメント特徴量生成部１３１は、クローズドキャプションデータ記憶部１２からレギュラー番組複数回分のクローズドキャプションデータを読み出し、各回に含まれるセグメントごとのセグメントベクトル（セグメント特徴量）を生成する。なお、セグメント特徴量生成部１３１は、番組開始時からの相対時刻に関連付けられたクローズドキャプションデータを読み出す。セグメントは、番組を所定の時間で区切ったものである。セグメント特徴量は、セグメント毎に、言語的単位の出現頻度を表わすものである。
セグメントアラインメント処理部１３２は、生成されたセグメントベクトルを利用して、セグメント間の類似度を算出することにより、各回間でセグメント同士の対応付けを行う。言い換えれば、セグメントアラインメント処理部１３２は、複数の番組に属するセグメントから類似のセグメントを選択し、それら選択されたセグメントから成るセグメント系列を生成する。
スコア算出部１３３は、セグメントアラインメント処理部１３２によってセグメント系列が特定された後、言語的単位ごとのスコアを計算し、このスコアに基づいてクローズドキャプションのテキストの中からキーフレーズを抽出する。言い換えれば、スコア算出部１３３は、セグメント系列内における言語的単位の出現頻度に基づき言語的単位毎のスコアを算出し、算出されたスコアの良い言語的単位をキーフレーズとして抽出する。
キーフレーズ抽出処理部が備える各部による処理ついて、以下でさらに詳細に説明する。

図５は、セグメント特徴量生成部１３１がセグメントベクトルを生成するための処理の手順を示すフローチャートである。このフローチャートにそって処理を説明する。なお、セグメントそのものについては後で説明する。
セグメント特徴量生成部１３１は、まずステップＳ３１において、クローズドキャプションデータ記憶部１２から番組１回分のクローズドキャプションデータを読み込む。
次にステップＳ３２において、当該番組１回分の中のセグメントを１つ選択する。
次にステップＳ３３において、選択されている現セグメントから１文を取り出す。
次にステップＳ３４において、上で取り出された１文の形態素解析処理を行なう。なお、この形態素解析処理そのものは、既存の技術を用いて行なう。
次にステップＳ３５において、当該文に含まれる単語（本実施形態においては、単語を言語的単位とする）を取り出す。
次にステップＳ３６において、現在の文に出現する単語の頻度（出現回数）を計算し、これに基づいてセグメントベクトルを生成する。セグメントベクトルの具体的な生成方法については後述する。

次にステップＳ３７において、現セグメントの最後の文の処理を終えたか否かを判断する。つまり、現セグメントに含まれるすべての文の処理を終えたか否かを判断する。そして、最後の文の処理を終えた場合には次のステップＳ３８に進み、その他の場合には次の文を処理するためにステップＳ３３に戻る。
次にステップＳ３８において、当該放送回の最後のセグメントの処理を終えたか否かを判断する。つまり、当該放送回のすべてのセグメントの処理を終えたか否かを判断する。そして、最後のセグメントの処理を終えた場合には次のステップＳ３９に進み、その他の場合には次のセグメントを処理するためにステップＳ３２に戻る。
最後にステップＳ３９において、当該放送回の全セグメント分のセグメントベクトルを出力する。

なお、このフローチャートで説明した処理は、放送１回分のクローズドキャプションデータからセグメントベクトルを生成するためのものである。セグメント特徴量生成部１３１は、レギュラー番組の複数回分のそれぞれについて、このセグメントベクトル生成の処理を行なう。

図６は、セグメントアラインメント処理部１３２によるアラインメント処理の概略を示す概念図である。
この図において、横軸方向は時間を表わす。また、時間軸に付されている目盛は分単位である。各回の番組は、複数のセグメントを含んでいる。図示する例では、１セグメントの長さは２分であり、ｊ番目のセグメント（ｊ＝１，２，３，・・・）は相対時刻（ｊ−１）分に開始し相対時刻（ｊ＋１）分に終了する。つまり、セグメント１は相対時刻００：００：００（ｈｈ：ｍｍ：ｓｓ）に開始し相対時刻００：０２：００に終了する。セグメント２は、相対時刻００：０１：００に開始し相対時刻００：０３：００に終了する。セグメント３以降についても同様である。このように隣り合うセグメントは、時間的に重なる領域を持っている。

この図は、第１回から第Ｎ回までの番組を示しているが、その中でハッチングされた領域が、セグメントアラインメント処理部１３２によって特定されたセグメント系列である。つまり、図示する例では、第１回のセグメント２（００：０１：００から００：０３：００まで）と、第２回のセグメント４（００：０３：００から００：０５：００まで）と、第３回のセグメント３（００：０２：００から００：０４：００まで）と、・・・（途中記載省略）・・・、第Ｎ回のセグメント１（００：００：００から００：０２：００）まで）が、ひとつのセグメント系列である。ひとつのセグメント系列は、各回から１つずつ選ばれたセグメントによって構成される。また、セグメントアラインメント処理部１３２は、後述する方法によって、互いにセグメント特徴量（セグメントベクトル）が近いセグメントを選んでひとつのセグメント系列とする。
なお、この図ではひとつのセグメント系列のみを示しているが、セグメントアラインメント処理部１３２が第１回から第Ｎ回までのデータに基づいて特定するセグメント系列の数は、１に限られず、複数であっても良い。

次に、セグメントアラインメント処理部１３２による処理について、より詳細に説明する。
まず、セグメントアラインメント処理部１３２は、番組を、一定時間ｔの長さのセグメントに分割する。このとき、前述の通り、隣り合うセグメントが時間的に重なる領域を持っていても良い。
そして、セグメントアラインメント処理部１３２は、Ｎ回分の番組の入力データに基づき、ｉ回目の番組のｊ番目のセグメントＳ_ｉｊに対応するセグメントベクトルｓ_ｉｊを算出する。セグメントベクトルｓ_ｉｊは下の式（１）で表わされる。

ここで、Ｋは、処理の対象としているＮ回分の番組に含まれる単語の種類数である。但し、助詞や助動詞などの出現頻度を考慮せずにセグメントベクトルを生成する場合には、Ｋは、それら助詞や助動詞などを除外した単語の種類数である。
そして、ｘ_ｋはＫ種類の単語の中のｋ番目（１≦ｋ≦Ｋ）の単語ｗ_ｋに対応する値であり、その値は下の式（２）で表わされる。

ここで、ｆ_ｋは、セグメントセグメントＳ_ｉｊ中の単語ｗ_ｋに対するＦｉｓｈｅｒの正確確率検定による有意確率である（ｋ番目の単語ｗ_ｋがセグメントＳ_ｉｊに含まれる場合）。なお、単語ｗ_ｋがセグメントＳ_ｉｊに含まれない場合には、ｘ_ｋ＝０とする。
ここでは、単語の偏りと頻度を考慮するために、Ｆｉｓｈｅｒの正確確率検定を用いている。なお、ｆ_ｋの算出法については後で説明する。

そして、セグメントアラインメント処理部１３２は、セグメントベクトルｓ_ｉｊに対して、残りのＮ−１回の番組の各々から、最もコサイン距離の近いセグメントベクトルを有するセグメントを１つずつ選択する。
ここで、第ｌ（エル）回の番組から選択されるセグメントＣ_ｉｊ，ｌは、そのセグメントベクトルｃ_ｉｊ，ｌが下の式（３）を満たすものである。

つまり、セグメントアラインメント処理部１３２は、第ｌ（エル）回目の番組に属するセグメントベクトルの中から、Ｋ次元空間においてベクトルｓ_ｉｊとなす角度が最も小さいセグメントベクトルを選択する。言い換えれば、その角度をθとしたとき、ｃｏｓ（θ）の値が最も大きくなるようなセグメントベクトルを選択する。言い換えれば、ベクトルｓ_ｉｊとのコサイン距離が最も小さくなるようなセグメントベクトルを抽出する。言い換えれば、ベクトルｓ_ｉｊとの類似度が高いセグメントベクトルを抽出する。
この結果、セグメントアラインメント処理部１３２は、セグメントｓ_ｉｊに対応するセグメント系列ｓｅｑ_ｉｊを得る。この系列ｓｅｑ_ｉｊは、下の式（４）で表わされる。

上述したＦｉｓｈｅｒの正確確率検定は、２変数間に統計学的に有意な差があるか否かを判定する検定手法であり、近似せずにすべての可能な事象について列挙し、直接有意確率を計算する。枠とある単語ｗの頻度の組み合わせを考える場合、下の表に示す２×２分割表を作成する。

この表において枠内とは、第ｉ回の番組のセグメントＳ_ｉｊと第ｌ（エル）回の番組のセグメントＳ_ｌｍを含むものである。また、枠外とは、第ｉ回の番組のＳ_ｉｊ以外のすべてのセグメントと第ｌ（エル）回の番組のＳ_ｌｍ以外のすべてのセグメントを含むものである。
上の表に示す事例が出現する確率ｐは、下の式（５）で与えられる。

そして、有意確率は下の式（６）で表わされる。

つまり、セグメント特徴量生成部１３１は、言語的単位ごとの正確確率検定による有意確率に基づく値を要素とするベクトルとしてセグメント特徴量を算出する。

図７は、上述した方法を用いてセグメントアラインメント処理部１３２がセグメント系列を求める処理手順を示すフローチャートである。
まず、セグメントアラインメント処理部１３２は、ステップＳ４１において、番組の放送回の中から未処理のもの（第ｉ回）を１つ選ぶ。
次に、ステップＳ４２において、現放送回（第ｉ回）に含まれるセグメントの中から未処理のものＳ_ｉｊを１つ選ぶ。
次に、ステップＳ４３において、前述の手法により、現セグメントＳ_ｉｊに対するセグメント系列ｓｅｑ_ｉｊを得る。
次に、ステップＳ４４において、現放送回（第ｉ回）に含まれるすべてのセグメントの処理を終えたか否かを判断する。終えている場合（ＹＥＳ）には、次のステップＳ４５に進む。終えていない場合（ＮＯ）には、未処理のセグメントを処理するためにステップＳ４２に戻る。
次に、ステップＳ４５において、すべての放送回の処理を終えたか否かを判断する。終えている場合（ＹＥＳ）には、このフローチャート全体の処理を終了する。終えていない場合（ＮＯ）には、未処理の放送回を処理するためにステップＳ４１に戻る。

次に、スコア算出部１３３によるスコアの算出方法の詳細を説明する。
スコア算出部１３３は、セグメントＳ_ｉｊに対応するセグメント系列ｓｅｑ_ｉｊ内に出現する単語

のスコアｓｃｏｒｅ_ｉｊ，ｋを下の式（７）により算出する。

式（７）において、

は、単語

がセグメント系列ｓｅｑ_ｉｊ内で出現した番組数（番組の回数）である。また、Ｄは、全番組数（番組の回数）である。また、ｆ_ｉｊ，ｋは、単語

に対するＦｉｓｈｅｒの正確確率検定による有意確率である。なお、このスコア算出部１３３がスコアを算出する際のＦｉｓｈｅｒの正確確率検定においては、枠内とはセグメント系列ｓｅｑ_ｉｊに含まれるすべてのセグメントである。また、枠外とは、第１回から第Ｎ回までの番組においてセグメント系列ｓｅｑ_ｉｊに含まれないすべてのセグメントである。
このようなスコアの計算方法によれば、セグメント系列内においてより多くの番組に出現し且つセグメント系列外では出現頻度がより小さいような単語に、より良いスコアを与えることができる。

式（７）により計算したスコアが高い単語ほど、シーン分割のために適切なキーフレーズとなりやすい。そして、スコア算出部１３３は、各セグメントについて単語のスコアを計算し、各セグメントでスコアが上位となる（例えば、上位３個などの）単語をキーフレーズとして獲得する。スコア算出部１３３は、このようにして獲得したキーフレーズに関するデータをキーフレーズ記憶部１４に書き込む。

以上述べたように、スコア算出部１３３は、言語的単位ごとに、全番組数のうちのその言語的単位が出現する番組数の割合が高いほど良い値となり、且つ、正確確率検定による有意確率が低いほど良い値となるスコアを算出する。

図８は、上述した方法を用いてスコア算出部１３３がセグメント系列を求める処理手順を示すフローチャートである。
まず、スコア算出部１３３は、ステップＳ５１において、番組の放送回の中から未処理のもの（第ｉ回）を１つ選ぶ。
次に、ステップＳ５２において、現放送回（第ｉ回）に含まれるセグメントの中から未処理のものＳ_ｉｊを１つ選ぶ。
次に、ステップＳ５３において、現セグメントＳ_ｉｊに含まれる単語それぞれについて、式（７）によるスコアを計算する。
次に、ステップＳ５４において、現セグメントＳ_ｉｊに含まれる単語の中から、算出したスコアが上位のもの（例えば、上位３個）を選択し、その単語（キーフレーズ）に関するデータをキーフレーズ記憶部１４に書き込む。
次に、ステップＳ５５において、現放送回（第ｉ回）に含まれるすべてのセグメントの処理を終えたか否かを判断する。終えている場合（ＹＥＳ）には、次のステップＳ５６に進む。終えていない場合（ＮＯ）には、未処理のセグメントを処理するためにステップＳ５２に戻る。
次に、ステップＳ５６において、すべての放送回の処理を終えたか否かを判断する。終えている場合（ＹＥＳ）には、このフローチャート全体の処理を終了する。終えていない場合（ＮＯ）には、未処理の放送回を処理するためにステップＳ５１に戻る。

図９は、キーフレーズ記憶部１４が記憶するデータの構成を示す概略図である。図示するように、キーフレーズ記憶部１４が記憶するデータは、番組名、放送回、セグメント、キーフレーズ（単語等の言語的単位）、スコアの項目を有している。番組名は、複数回にわたるレギュラー番組の名称である。放送回（ｉ）は、当該レギュラー番組の第何回の放送であるかを表わすデータである。セグメント（ｊ）は、当該放送回におけるセグメントの番号を表わすデータである。また、このテーブルは、ひとつのセグメント（Ｓ_ｉｊ）につき上位３個のキーフレーズを記憶し、そのそれぞれのキーフレーズに対するスコアも記憶するようになっている。

前述したように、シーン分割装置２０のキーフレーズ記憶部２４は、上のキーフレーズ記憶部１４と同様のデータを記憶する。そして、シーン分割装置２０の検索処理部２５は、キーフレーズ記憶部２４から読み出したキーフレーズのデータに基づいて、クローズドキャプションデータ記憶部２２を検索する。このとき、検索処理部２５が、キーフレーズ記憶部２４に記憶されているすべてのキーフレーズを使う代わりに、スコアの高いキーフレーズのみを用いるようにしても良い。そして、検索処理部２５は、キーフレーズ記憶部２４から読み出したデータに基づき、使用するキーフレーズが属するセグメントを特定し、さらに特定されたセグメントが属するセグメント系列を特定し、その特定されたセグメント系列に含まれるセグメントの中で当該キーフレーズが含まれる箇所を探す処理を行なう。そして、そのキーフレーズが見つかった箇所が、番組映像を複数シーンに分割すべきポイント（分割時刻）となる。

図１０は、キーフレーズ抽出装置１０によって得られたキーフレーズを用いて、検索処理部２５がクローズドキャプションデータ記憶部２２を検索したことにより得られた分割時刻情報を含む、検索結果データの構成を示す概略図である。この検索結果データは、図３において符号２６で示したものである。

以上説明したように、本実施形態では、クローズドキャプションデータに基づいて、セグメントごとの言語的単位の特徴を表わすベクトルであるセグメントベクトルを生成し、セグメントベクトル間の類似度を算出することにより、その特徴が類似のセグメントの系列であるセグメント系列を生成し、そのセグメント系列内での言語的単位の出現頻度に基づく言語的単位毎のスコアを算出し、このスコアに基づいて、シーン分割の手がかりとなるキーフレーズを抽出している。これにより、人手によらず、効率よくシーン分割を行なうことが可能となる。

［第２の実施形態］
次に、本発明の第２の実施形態について説明する。
第１の実施形態では番組のクローズドキャプションデータを用いたのに対し、本実施形態では、音声を元に音声認識処理を行なって得られた認識結果のテキストを用いる。この音声認識処理に用いられる音声は、元々番組の映像に含まれるものである。従って、音声認識結果のテキストは番組の相対時刻に関連付けられている。
本実施形態では、キーフレーズ抽出装置は、第１の実施形態で用いたクローズドキャプションデータ記憶部１２の代わりに、音声認識結果記憶部を備えている。また、シーン分割装置は、第１の実施形態で用いたクローズドキャプションデータ記憶部２２の代わりに、音声認識結果記憶部を備えている。この音声認識結果記憶部は、音声認識結果のテキストとその時刻（番組の相対時刻）とを関連付けて保持する。従って、第１の実施形態の場合と同様に、この第２の実施形態においても、テキストを時刻およびセグメントに関連付けて処理することが可能である。
本実施形態では、キーフレーズ抽出処理部（図１の符号１３に相当）は、この音声認識結果記憶部から読み出したテキストを用いて処理を行なう。また、検索処理部（図２の符号２５に相当）は、この音声認識結果記憶部から読み出したテキストを用いて処理を行なう。
なお、クローズドキャプションデータの代わりに音声認識結果を用いる点以外は、第１の実施形態と同様であるので、第１の実施形態と共通の部分については説明を省略する。

［第３の実施形態］
次に、本発明の第３の実施形態について説明する。
第１の実施形態では番組のクローズドキャプションデータを用いたのに対し、本実施形態では、番組台本のテキストを用いる。番組台本のテキストは番組の相対時刻に関連付けられている。
本実施形態では、キーフレーズ抽出装置は、第１の実施形態で用いたクローズドキャプションデータ記憶部１２の代わりに、番組台本記憶部を備えている。また、シーン分割装置は、第１の実施形態で用いたクローズドキャプションデータ記憶部２２の代わりに、番組台本記憶部を備えている。この番組台本記憶部は、番組台本のテキストとその時刻（番組の相対時刻）とを関連付けて保持する。従って、第１の実施形態の場合と同様に、この第３の実施形態においても、テキストを時刻およびセグメントに関連付けて処理することが可能である。
本実施形態では、キーフレーズ抽出処理部（図１の符号１３に相当）は、この番組台本記憶部から読み出したテキストを用いて処理を行なう。また、検索処理部（図２の符号２５に相当）は、この番組台本記憶部から読み出したテキストを用いて処理を行なう。
なお、クローズドキャプションデータの代わりに番組台本を用いる点以外は、第１の実施形態と同様であるので、第１の実施形態と共通の部分については説明を省略する。

［第４の実施形態］
次に、本発明の第４の実施形態について説明する。
第１〜第３の実施形態では言語的単位として単語を用いていたのに対し、本実施形態では言語的単位として文節を用いる。つまり、本実施形態では、セグメント特徴量生成部（図４の符号１３１に相当）は、単語の頻度の代わりに文節の頻度を用いてＦｉｓｈｅｒの正確確率検定を行ない、セグメントベクトルを算出する。また、スコア算出部（図４の符号１３３に相当）は、単語のスコアを算出する代わりに文節ごとのスコアを算出し、スコア値が上位のものをキーフレーズとして抽出する。
なお、言語的単位として文節を用いる点以外は、第１〜第３の実施形態と同様であるので、それらの実施形態と共通の部分については説明を省略する。

［第５の実施形態］
次に、本発明の第５の実施形態について説明する。
第１〜第３の実施形態では言語的単位として単語を用いていたのに対し、本実施形態では言語的単位としてｎグラム（ｎ−ｇｒａｍ）を用いる。ここで用いるｎグラムは、文字のｎグラム、単語のｎグラム、あるいは文節のｎグラムのいずれかである。文字のｎグラムは、テキスト中で連続して並ぶｎ文字である。単語のｎグラムは、テキスト中で連続して並ぶｎ単語である。文節のｎグラムは、テキスト中で連続して並ぶｎ文節である。
つまり、本実施形態では、セグメント特徴量生成部（図４の符号１３１に相当）は、単語の頻度の代わりにｎグラムの頻度を用いてＦｉｓｈｅｒの正確確率検定を行ない、セグメントベクトルを算出する。また、スコア算出部（図４の符号１３３に相当）は、単語のスコアを算出する代わりにｎグラムごとのスコアを算出し、スコア値が上位のものをキーフレーズとして抽出する。
なお、言語的単位としてｎグラムを用いる点以外は、第１〜第３の実施形態と同様であるので、それらの実施形態と共通の部分については説明を省略する。

［第６の実施形態］
次に、本発明の第６の実施形態について説明する。
第１の実施形態では、キーフレーズ抽出装置１０が有するクローズドキャプションデータ記憶部１２とシーン分割装置２０が有するクローズドキャプションデータ記憶部２２とは、同じデータ（同じ放送回のデータ）を保持していた。それに対して本実施形態では、それらが保持しているデータが互いに異なる。言い換えれば、それらが保持しているデータの放送回が互いに異なる。例えば、あるレギュラー番組について、キーフレーズ抽出装置１０側では１月から７月までの放送分のクローズドキャプションデータを用いてキーフレーズの抽出を行い、それで得られたキーフレーズのデータを元に、シーン分割装置２０側では８月から９月分までの放送分のクローズドキャプションデータを検索して、その映像の分割時刻を求める。
番組フォーマットがほぼ一定の場合には、異なる放送回から抽出されたキーフレーズを用いた場合にも良い精度でシーンの分割ができるため、本実施形態の装置が有効である。
本実施形態では、一旦抽出したキーフレーズを流用することができる。つまり、放送回を重ねるごとに改めてキーフレーズ抽出の処理を行なう必要がなく、効率が良い。

［第７の実施形態］
次に、本発明の第７の実施形態について説明する。
第１〜第６の実施形態においてはセグメントアラインメント処理部１３２がセグメント系列を求める際に式（３）を用いていたのに対し、本実施形態では、下の式（８）を用いる。

ただし、式（８）におけるｆ（ｘ）の定義は、下の式（９）の通りである。

この式（９）は正規分布（ガウス分布）である。ここで、μは、着目しているセグメントＳ_ｉｊの開始時刻である。また、ｘは、第ｌ（エル）回目の放送において選択の対象となるセグメントの開始時刻である。また、σは、この分布に対して適宜与えられる標準偏差である。つまり、式（８）において、関数ｆ（ｘ）が作用することにより、セグメントＳ_ｉｊの相対時刻に近いセグメントがセグメント系列として選ばれやすく、セグメントＳ_ｉｊの相対時刻から遠いセグメントはセグメント系列として選ばれにくい。
なお、正規分布関数に限らず、セグメントアラインメント処理部がセグメント系列を求める際に、セグメント時刻が遠いものに対するペナルティとして作用するような関数ｆ（ｘ）を適宜選択して用いても良い。

本実施形態の特徴は、以上述べたように、セグメントアラインメント処理部が、あるセグメントについてのセグメント系列を生成する際に、当該セグメントの基準となる相対時刻と当該セグメントが属する番組以外の他の番組に属する他のセグメントの基準となる相対時刻との差の絶対値が大きいほど当該他のセグメントが選ばれにくくなるように作用するペナルティ関数値を、算出された類似度に乗じることにより、他のセグメントを選択することである。セグメントの基準となる相対時刻とは、例えば、各セグメントの開始時や終了時やちょうど真ん中の時点の相対時刻である。

本実施形態では、セグメント時刻が遠いセグメント同士であるにも関わらずたまたまセグメントベクトルが類似になるようなものが番組フォーマット上存在するときも、そのように時刻の離れたセグメントがセグメント系列として選ばれにくくなる。本発明の趣旨からして、このようなペナルティを与える関数を用いてセグメント系列を選択することは、シーン分割の精度をより一層高めることにつながる。
なお、ペナルティ関数のピーク度合いが過度に急峻であると時間的にわずかに離れたセグメントが極端に選択されにくくなるという弊害も出るため、ペナルティ関数のピーク度合いが適度になだらかになるようなσを選択するようにする。

［第８の実施形態］
次に、本発明の第８の実施形態について説明する。
図１１は、本実施形態による機能構成を示すブロック図である。図示するように、本実施形態では、キーフレーズ抽出装置の機能とシーン分割装置の機能とを一体化させ、シーン分割装置１２０として構成している。
番組映像記憶部１１１は、図１に示した番組映像記憶部１１および図３に示した番組映像記憶部２１と同様の機能を有する。クローズドキャプションデータ記憶部１１２は、図１に示したクローズドキャプションデータ記憶部１２および図３に示したクローズドキャプションデータ記憶部２２と同様の機能を有する。
キーフレーズ抽出装置１１０は、キーフレーズ抽出処理部１１３とキーフレーズ記憶部１１４からなる。キーフレーズ抽出処理部１１３およびキーフレーズ記憶部１１４は、それぞれ、図１に示したキーフレーズ抽出処理部１３およびキーフレーズ記憶部１４と同様の機能を有する。
検索処理部１２５、検索結果データ１２６、映像分割処理部１２７、分割済番組映像記憶部１２８は、それぞれ、図３に示した検索処理部２５、検索結果データ２６、映像分割処理部２７、分割済番組映像記憶部２８と同様の機能を有する。
このシーン分割装置１２０では、キーフレーズ抽出処理部１１３が抽出したキーフレーズがキーフレーズ記憶部１１４に書き込まれ、検索処理部１２５はそのキーフレーズ記憶部１１４からキーフレーズの情報を読み出して前述した検索処理を行ない、その検索結果データ１２６を用いて映像分割処理部１２７が番組映像の分割を行なう。

なお、上述した複数の実施形態におけるキーフレーズ抽出装置およびシーン分割装置の全部または一部の機能をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
例えば、上記の各実施形態では、すべてのセグメント長を一定としたが、必ずしも厳密に一定のセグメント長でなくてもよい。

本発明は、番組等の映像を効率よくシーン単位に分割するために利用できる。例えば、放送された番組映像の二次活用のために、番組映像を元にシーンごとに管理された映像ライブラリを構築する目的などに利用可能である。

本発明の第１の実施形態によるキーフレーズ抽出装置の機能構成を示したブロック図である。同実施形態によるクローズドキャプションデータ（番組テキストデータ）の構成とデータ例を示す概略図である。同実施形態によるシーン分割装置の機能構成を示すブロック図である。同実施形態によるキーフレーズ抽出処理部の詳細な機能構成を示すブロック図である。同実施形態によるセグメント特徴量生成部がセグメントベクトルを生成するための処理の手順を示すフローチャートである。同実施形態のセグメントアラインメント処理部によるアラインメント処理の概略を示す概念図である。同実施形態によるセグメントアラインメント処理部がセグメント系列を求める処理手順を示すフローチャートである。同実施形態によるスコア算出部がセグメント系列を求める処理手順を示すフローチャートである。同実施形態によるキーフレーズ記憶部が記憶するデータの構成を示す概略図である。同実施形態による検索処理部が検索により得る、分割時刻情報を含む検索結果データの構成を示す概略図である。第８の実施形態によるシーン分割装置の機能構成を示すブロック図である。

符号の説明

１０キーフレーズ抽出装置
１１，２１番組映像記憶部
１２，２２クローズドキャプションデータ記憶部（番組テキスト記憶部）
１３キーフレーズ抽出処理部
１４，２４キーフレーズ記憶部
２０シーン分割装置
２５検索処理部
２６検索結果データ（分割時刻情報）
２７映像分割処理部
２８分割済番組映像記憶部
１３１セグメント特徴量生成部
１３２セグメントアラインメント処理部
１３３スコア算出部

Claims

番組開始時からの相対時刻と、前記相対時刻に関連付けられたテキストとを記憶する番組テキスト記憶部と、
前記番組テキスト記憶部から読み出した前記相対時刻および前記テキストに基づき、番組を時間で区切ったセグメント毎に、言語的単位の出現頻度を表わすセグメント特徴量を算出するセグメント特徴量生成部と、
前記セグメント特徴量生成部によって算出された前記セグメント特徴量のセグメント間の類似度を算出することにより、複数の番組に属するセグメントから類似のセグメントを選択し、それら選択されたセグメントから成るセグメント系列を生成するセグメントアラインメント処理部と、
前記セグメントアラインメント処理部によって生成されたセグメント系列内における前記言語的単位の出現頻度に基づき言語的単位毎のスコアを算出し、算出されたスコアの良い言語的単位をキーフレーズとして抽出するスコア算出部と、
を具備し、
前記セグメントアラインメント処理部は、あるセグメントについてのセグメント系列を生成する際に、当該セグメントの基準となる相対時刻と当該セグメントが属する番組以外の他の番組に属する他のセグメントの基準となる相対時刻との差の絶対値が大きいほど当該他のセグメントが選ばれにくくなるように作用するペナルティ関数値を、算出された前記類似度に乗じることにより、前記他のセグメントを選択する、
ことを特徴とするキーフレーズ抽出装置。
セグメント特徴量生成部は、前記言語的単位ごとの正確確率検定による有意確率に基づく値を要素とするベクトルとして前記セグメント特徴量を算出する、
ことを特徴とする請求項１に記載のキーフレーズ抽出装置。
前記スコア算出部は、言語的単位毎に、全番組数のうち前記セグメント系列内において当該言語的単位が出現する番組数の割合が高いほど良い値となり、且つ、正確確率検定による有意確率が低いほど良い値となる前記スコアを算出する、
ことを特徴とする請求項１又は２に記載のキーフレーズ抽出装置。
請求項１から３までのいずれか一項に記載のキーフレーズ抽出装置と、
前記番組テキスト記憶部に記憶されたテキストに対応する番組映像を記憶する番組映像記憶部と、
前記スコア算出部が抽出したキーフレーズを用いて前記番組テキスト記憶部を検索することにより番組のシーンを分割すべき分割時刻情報を得る検索処理部と、
前記検索処理部によって得られた前記分割時刻情報を用いて、前記番組テキスト記憶部に記憶されたテキストに対応する番組映像を前記番組映像記憶部から読み出してシーンに分割する処理を行なう映像分割処理部と、
を具備することを特徴とするシーン分割装置。
番組開始時からの相対時刻と、前記相対時刻に関連付けられたテキストとを記憶する番組テキスト記憶部を具備するコンピュータに、
前記番組テキスト記憶部から読み出した前記相対時刻および前記テキストに基づき、番組を時間で区切ったセグメント毎に、言語的単位の出現頻度を表わすセグメント特徴量を算出するセグメント特徴量生成過程と、
前記セグメント特徴量生成過程によって算出された前記セグメント特徴量のセグメント間の類似度を算出することにより、複数の番組に属するセグメントから類似のセグメントを選択し、それら選択されたセグメントから成るセグメント系列を生成するセグメントアラインメント処理過程と、
前記セグメントアラインメント処理過程によって生成されたセグメント系列内における前記言語的単位の出現頻度に基づき言語的単位毎のスコアを算出し、算出されたスコアの良い言語的単位をキーフレーズとして抽出するスコア算出過程と、
の処理を実行させるプログラムであって、
前記セグメントアラインメント処理過程では、あるセグメントについてのセグメント系列を生成する際に、当該セグメントの基準となる相対時刻と当該セグメントが属する番組以外の他の番組に属する他のセグメントの基準となる相対時刻との差の絶対値が大きいほど当該他のセグメントが選ばれにくくなるように作用するペナルティ関数値を、算出された前記類似度に乗じることにより、前記他のセグメントを選択する、
ことを特徴とするプログラム。