JP2008140168A - シンボル列集合類似度算出方法及びメタデータ生成装置及びメタデータ付与装置及びプログラム - Google Patents

シンボル列集合類似度算出方法及びメタデータ生成装置及びメタデータ付与装置及びプログラム Download PDF

Info

Publication number
JP2008140168A
JP2008140168A JP2006326003A JP2006326003A JP2008140168A JP 2008140168 A JP2008140168 A JP 2008140168A JP 2006326003 A JP2006326003 A JP 2006326003A JP 2006326003 A JP2006326003 A JP 2006326003A JP 2008140168 A JP2008140168 A JP 2008140168A
Authority
JP
Japan
Prior art keywords
symbol
symbol string
similarity
similarity calculation
string set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006326003A
Other languages
English (en)
Inventor
Hidenobu Osada
秀信 長田
Isao Kondo
功 近藤
Masashi Morimoto
正志 森本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006326003A priority Critical patent/JP2008140168A/ja
Publication of JP2008140168A publication Critical patent/JP2008140168A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】単純な時間伸縮や部分一致では対応付けが困難であった2つのメディアの対応付けという課題を解決する。
【解決手段】本発明は、時系列メディアまたは文字列から抽出した特徴を表すシンボル列集合の類似度を算出する際に、類似度の算出対象である第1のシンボル列集合を記憶手段に格納しておき、類似度算出手段が、記憶手段から第1のシンボル列集合を読み出して、該第1のシンボル列集合に含まれる1つのシンボル列の長さを、当該第1のシンボル列と、入力手段より入力されたもう一方の第2のシンボル列集合に含まれる任意のシンボル列との距離で除して得られる数を用いる。このようにして求めた類似度に基づいてメタデータの生成、及び映像にメタデータを付与する処理を行う。
【選択図】図1

Description

本発明は、シンボル列集合類似度算出方法及びメタデータ生成装置及びメタデータ付与装置及びプログラムに係り、特に、映像に対し、メタデータと呼ばれる関連情報を自動的に付与するためのシンボル列集合類似度算出方法及びメタデータ生成装置及びメタデータ付与装置及びプログラムに関する。
映像ファイルを、その内容に基づいて検索したいという要求がある。映像ファイルの内容検索のためには、内容を表すメタデータが予め付与されている必要がある。現在、メタデータの生成には次のような方法が提案されている。
a) メタデータ付与システムを用いた手作業による方法:
この方法は、人手により正確な情報を付与可能であるため、精度の保障されたデータを作成できる(例えば、非特許文献1、2参照)。
b)自動音声認識技術による方法:
この方法は、メタデータ生成コストは比較的小さいというメリットがあるものの、メタデータの精度は認識技術の精度に依存する(例えば、非特許文献3参照)。近年、当該方法において認識精度を向上させる方法として、予め認識対象となるニュースの関連記事を用いて辞書を作成する方法(例えば、非特許文献3参照)や、リスピーク(アナウンサ等のプロによるニュース記事の読み上げ)による方法(例えば、非特許文献4参照)が提案されている。
c)異なるメディアの対応付けに基づく方法:
上記のb)に対し、例えば、映像とテキストを対応付ける場合の1つの方法として、映像から音声認識技術や予め付与されているクローズド・キャプション等を用いてテキスト文字列を抽出し、そのテキスト文字列を用いて対応付けを行う対象となるテキストデータ(新聞記事など)を検索し、元の映像の内容にマッチするテキストが見つかった場合、これをメタデータとして元の映像に関連付けるという方法がある。
Katashi Nagao. Shigeki Ohira, Mitsuhiro Yoneoka. "Annotation-based multimedia summarization and translation". In Proceedings of the Nineteenth International Conference on Computational Linguistics (COLLING-2002).2002. http://www.ricoh.co.jp/src/multimedia/MovieTool/about/index_j.html 河原達也、李晃伸、「連続音声認識ソフトウェア Julius」人工知能学会誌、Vol. 20, No.1, pp.41-49, 2005 本間真一、松井淳、佐藤庄衛、小早川健、尾上和穂、今井亨、安藤彰男(NHK放送技研)、"生番組字幕放送のための音声認識−システムの概要とリスピークの効果"、信学技報, SP2002-50, pp.49-54 (2002)
しかしながら、上記のa)の方法は、その生成コストは極めて大きく、日々放送されるニュース映像の内容に関するメタデータを付与することはできていない。
また、上記のb)の方法では、生成されるメタデータの誤りを少なくすることができると考えられるが、辞書の作成やリスピークという人手が介することによるコスト増加というデメリットがある。
また、上記のc)の方法は、文字列を用いて映像(時系列メディア)とテキスト(長さを持つメディア)との対応付けを行う例であると言い換えられるが、
・音声認識は認識誤りが発生し正しい文字列は取得困難;
・意味の異なる文字列に変換がなされた場合、適切な内容のテキストに対応付けることが困難;
・クローズド・キャプションそのものが付与されていない;
・映像やテキストが同様の話題を扱っていたとしても、映像中での話の順序や言い回しの順序はテキストと異なる場合がある;
という問題があり、文字列の部分一致を用いる方法や、DPマッチング等の時間伸縮を用いる方法では、対応付けが困難である場合や、対応付けそのものができない場合が多い。
結果として、現状では日々放送されるニュース等の放送映像に対するメディアデータの生成は困難となっている。
本発明は、上記の点に鑑みなされたもので、単純な時間伸縮や部分一致では対応付けが困難であった2つのメディアの対応付けという課題を解決したシンボル列集合類似度算出方法及びメタデータ生成装置及びメタデータ付与装置及びプログラムを提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、時系列メディア同士または時系列メディアと文字列または文字列同士の類似性を評価するためのシンボル列集合類似度算出方法であって、
時系列メディアまたは文字列から抽出した特徴を表すシンボル列集合の類似度を、
類似度の算出対象である第1のシンボル列集合を記憶手段に格納しておき(ステップ1)、
類似度算出手段が、記憶手段から第1のシンボル列集合を読み出し、類似度の算出対象のもう一方の第2のシンボル列集合を取得し(ステップ2)、該第1のシンボル列集合に含まれる1つのシンボル列の長さを、当該第1のシンボル列と、第2のシンボル列集合に含まれる任意のシンボル列との距離で除して得られる数を用いて算出する(ステップ3)。
また、本発明(請求項2)は、類似度算出手段において、
類似度の算出対象である第1のシンボル列集合、第2のシンボル列集合のそれぞれに含まれる任意の一組のシンボル列の距離を、レーベンシュタイン距離尺度を用いて求める。
また、本発明(請求項3)は、類似度算出手段において、
類似度の算出対象である第1のシンボル列集合、第2のシンボル列集合のそれぞれに含まれる任意の一組のシンボル列の距離を、編集許容範囲を設定したレーベンシュタイン距離尺度を用いて求める。
また、本発明(請求項4)は、類似度算出手段において、
類似度の算出対象である第1のシンボル列集合、第2のシンボル列集合のうち少なくとも一つに含まれる任意のシンボルの長さを、該第1のシンボル列集合、該第2のシンボル列集合にそれぞれ含まれる任意の2つのシンボル列の距離で除した数を求め、該数を全てのシンボル列に適用した場合の総和をとる。
本発明(請求項5)は、類似度の算出対象に、記憶手段に格納された構造化されたテキスト文字列の読み仮名に基づくシンボル列集合A{a,a,a,…,a(M−1)}と、入力された映像中の音声から生成した音素列に基づくシンボル列集合B{b,b,b,…,b(N−1)}を用いるものとし、
類似度算出手段において、
シンボル列集合B{b,b,b,…,b(N−1)}に対するシンボル列集合A{a,a,a,…,a(M−1)}の類似度の算出に、少なくとも
・シンボル列集合B{b,b,b,…,b(N−1)}の生成の際における音素認識誤り許容範囲に基づく、レーベンシュタイン距離尺度の許容限界値;
・比較対象となるシンボル列の長さ;
の2つを用いる。
また、本発明(請求項6)は、類似度算出手段において、シンボル列集合B{b,b,b,…,b(N−1)}に対するシンボル列集合A{a,a,a,…,a(M−1)}の類似度の算出に、少なくとも、
・類似度の算出対象となる2つのシンボル列集合のうち、何れかのシンボル列集合に含まれる任意のシンボル列に対する重み係数であって、シンボル列の生成元となる時系列メディアあるいはテキスト文書の特徴に基づいて決定される重み係数;
・シンボル列集合B{b,b,b,…,b(N−1)}の生成の際における音素認識誤り許容範囲;
・比較対象となるシンボル列の長さ;
を用いる。
図2は、本発明の原理構成図である。
本発明(請求項7)は、請求項5または6記載のシンボル列集合類似度算出方法を用いて、一組の時系列メディアもしくは時系列メディアと文字列とを対応付けるための対応関係を表すメタデータを生成するメタデータ生成装置であって、
入力された2つの時系列メディアから、音声信号、画像、テキスト文字列のうち少なくとも1つ以上を抽出し、時系列のシンボル列集合に変換し、記憶手段2に格納する特徴抽出手段1と、
記憶手段2に格納されているシンボル列集合のうち、異なるメディアのそれぞれから生成したシンボル列集合の少なくとも1組以上に対し、請求項5または6記載のシンボル列集合類似度算出方法により類似度を算出するシンボル列集合類似度計算手段3と、
シンボル列集合類似度計算手段3によって得られるシンボル列集合の類似度に基づいて、異なるメディアの時系列情報の対応関係を表すメタデータを生成する対応付け手段4と、
を有する。
本発明(請求項8)は、請求項5または6記載のシンボル列集合類似度算出方法を用いて、映像ファイルにメタデータを付与するメタデータ付与装置であって、
定期的に最新のニュース記事の内容を取得して記憶手段に格納する最新記事取得手段と、
ニュース記事のテキストの分かち書きを行い、平仮名に変換し、該平仮名から読みのシンボル列を音素列に変換したシンボル列を生成し、記憶手段に格納するテキスト特徴量抽出手段と、
映像ファイルの入力を受け付ける映像取得手段と、
テキスト文字列の入力を受け付けるテキスト文字列取得手段と、
映像ファイルから音声を抽出する音声抽出手段と、
音声抽出手段によって抽出した音声を解析し、音素列のシンボル列を生成する音声シンボル列生成手段と、
音声シンボル列生成手段により生成されたシンボル列集合と、記憶手段に格納されているシンボル列集合に対し、請求項5または6記載のシンボル列集合類似度算出方法により類似度を算出するシンボル列集合類似度計算手段と、
シンボル列集合類似度計算手段によって得られるシンボル列の類似度に基づいて、ニュース記事と映像ファイルとの関連情報を出力するメタデータ生成手段と、
記憶手段の内容を更新する更新手段と、を有する。
本発明(請求項9)は、コンピュータに、請求項1乃至6記載のシンボル列集合類似度算出方法の処理を実行させるプログラムである。
本発明によれば、メディアを一旦シンボル列集合に変換し、レーベンシュタイン距離及びシンボル列の長さ、シンボル列集合生成の元となるメディアの構造情報に由来する重み係数を用いて、シンボル列集合の類似度を算出することにより、対応付けを行うことが可能となる。
これにより、従来は単純な時間伸縮や文字列一致によって対応付けることができなかったシンボル列を対応付けることができるようになる。本発明を応用することによって、Web上の情報を用いてニュース等の放送映像に関するメタデータを生成できる。
以下、図面と共に本発明の実施の形態を説明する。
以下では、複数の数字及び記号の組み合わせの列を「シンボル列」と称する。また、複数のシンボル列の集合を「シンボル列集合」と称する。
[第1の実施の形態]
以下では、ユーザが検索クエリとして音声を含むニュース等の映像ファイルを入力し、入力された映像と内容の関連のあるWeb上のニュースを検索する場合を想定して説明する。
図3は、本発明の第1の実施の形態におけるシステム構成を示す。
同図に示すシステムは、DB(データベース)生成装置100、検索装置200、DB生成装置100に接続されるWebサイト10、検索装置200に接続される入力装置20、表示装置30、ファイル40から構成される。
最初にDB生成装置100について説明する。
DB生成装置100は、Web上の情報のテキストをシンボル列に変換して記事DB140に保持するものであり、ネットワークを介してWebサイト10上から情報を取得するWeb情報取得部110、Web情報からテキストを取得し記事DB140に格納する最新記事取得部120、取得したテキストを音素列のシンボル列に変換し記事DB140に格納するテキスト特徴量抽出部130、抽出されたテキスト及びシンボル列等を格納する記事DB140、記事DB130の内容を最新状態に更新するためにWeb情報取得部110、最新記事取得部120、テキスト特徴量抽出部130の各処理を実行させる記事更新部150から構成される。
次に、上記の構成における動作を説明する。
図4は、本発明の第1の実施の形態におけるDB生成装置の動作のフローチャートである。
ステップ111) Web情報取得部110において、Web上のサイト(例えば、goo(登録商標)ニュース(http://news.goo.ne.jp/topics/)にアクセスし、Webサイトの見出しや要約などのメタデータを構造化して記述するXMLベースのフォーマットであるRSS(Rich Site Summary)で記述された記事の更新情報に基づき、Web情報を取得する。
ステップ112) 最新記事取得部120は、ステップ111により取得したWeb情報からRSSの構造情報に基づいてニュース本文記事、タイトル、更新時刻及び記事カテゴリを取得し、これらに任意の数字による記事IDを付与して記事DB140に格納する。
ステップ113) テキスト特徴量抽出部130は、ステップ112により取得したテキストを入力し、分かち書きを行い、読みのアルファベットの列に変換し、アルファベットの列を音節表により音素列のシンボル列に変換し、文節情報と音素列からなるシンボル列を記事DB140に格納する。
ステップ114) 予め決められている一定の時間が経過した場合は、DB生成処理を終了するかを判定し、終了しない場合は、ステップ115に移行する。
ステップ115) 記事DB更新部150は、所定の時間が経過すると、記事DB140の情報を一定時間毎に更新するため、上記のステップ111〜114の処理を実行させる。
次に、検索装置200について説明する。
検索装置200は、映像を入力する映像入力部210、映像から音声を抽出する音声抽出部220、音声から音素列を求めシンボル列を生成する音声シンボル列生成部230、記事DB140と音声シンボル列生成部230からシンボル列集合を読み込んで類似度を求め、映像ファイルと関連記事IDのテキストを関連付ける関連記事検索部240から構成される。
図5は、本発明の第1の実施の形態における検索装置における動作のフローチャートである。
ステップ121) 映像入力部210において、ユーザに指定された映像ファイルを入力装置20から入力する。
ステップ122) 音声抽出部220において、入力された映像ファイルから音声を抽出する。
ステップ123) 音声シンボル列生成部230において、ステップ122により抽出された音声から音素列を求め、音素記号及び無音区間情報からなるシンボル列を記憶手段(図示せず)に格納する。ここで、音素列の生成には非特許文献2の技術を用いることができる。
ステップ124) 関連記事検索部240において、ステップ123で求められた音声シンボル列集合と記事DB140から取得したシンボル列集合を読み込んで、記事DB130から取得したシンボル列集合のそれぞれについて、音声シンボル集合に対する類似度を求め、映像入力部210で指定された映像ファイルと、類似度が最大となる関連記事のIDに対応する記事の文章を関連付けて出力する。
ここで、関連記事検索部240について詳細に説明する。
関連記事検索部240は、図6に示すように、シンボル列集合入力部241、シンボル列間距離計算部242、シンボル列長さ計算部243、類似度スコア算出部244から構成される。
図7は、本発明の第1の実施の形態における関連記事検索部の動作のフローチャートである。
ステップ1241) 関連記事検索部240のシンボル列集合入力部241において、記事DB140からシンボル列集合A(i){a,a,a,…,a}(i=0,1,2,…,I)を読み込む。
ステップ1242) シンボル列集合入力部241において、音声シンボル列生成部230で生成され、記憶手段(図示せず)から音声シンボル列集合B{b,b,b,…,b}Smax=0を取得する。
ステップ1243) シンボル列長さ計算部243は、ステップ1241とステップ1242で入力された1組のシンボル列集合のそれぞれから、任意のシンボル列を一組指定し、指定された1組のうちシンボル列集合Aに含まれるシンボル列の長さD(a)を計算する。次に、シンボル列間距離計算部243において、1組のシンボル列についてその距離L(a,b)を求める。次に、類似度スコア算出部244において、以下の式により音声シンボル列集合Bに対するシンボル列集合A(i)の類似度S(i)を求める。
Figure 2008140168
上記の式において、iは記事DB140中の記事のカウント、a は記事DB140中で記事ID=iの記事のp番目のシンボル列、bは音声シンボル列生成部230により作成されたq番目の音声シンボル列である。L(a,b,C)は編集距離許容範囲をCとしたシンボル列aとbとのレーベンシュタイン距離であり、Cは任意に設定できるものとする。また、分母において"+1"としているのは、レーベンシュタイン距離尺度は、2つのシンボル列が完全一致した場合に"0"の値をとるため、シンボル列が完全一致するとき(すなわちL=0の時)、シンボル列aの長さをそのままスコアとして加算するためである。D(a)はシンボル列aの長さである。また、wA(a )は記事DB140中のシンボル列に対する重みであり、記事の構造に基づいて決定する。w(b)は音声シンボル列に対する重みであり、シンボル列生成の元となる映像ファイル及びその関連情報に基づいて決定する。
なお、類似度S(i)は、記事ID=iから生成されたシンボル列集合A(i)が含むシンボル列の総数Mで正規化する。
ここで、上記のレーベンシュタイン距離について説明する。
レーベンシュタイン距離尺度は、2つの文字列(またはシンボル列)A,Bがあるとき、2つの文字列(またはシンボル列)がどの程度異なっているかを示す数値であって、文字の挿入、削除、または置換によってBをAに変形するまでに必要な最小ステップ数で与えられる。
例えば、2つのシンボル列(Nippon, Nihon)のレーベンシュタイン距離をL(Nippon, Nihon)とし、これを求める。
「Nippon」を最短ステップで「Nihon」に変換する方法をとる。
ステップa)Nippon→pをhに変換→Nipon
ステップb)Nihpon→pを削除→Nihon(変換完了)
従って、L(Nippon, Nihon)=2
本発明では、これに任意に設定できる編集許容範囲Cを設定し、
Figure 2008140168
とする。上記の例でC=1としたならば、L(Nippon, Nihon,1)=∞となる。
ステップ1244) 関連記事検索部240は、Smax<S(i)であるかを判定する。そうである場合はステップ1245に移行し、そうでない場合はステップ1246に移行する。
ステップ1245) ID=i、Smax=SA(i)とする。
ステップ1246) iを1増やし、i=I(Iは記事DB130の記事の総数)である場合は当該処理を終了し、そうでない場合は、ステップ1243に移行する。つまり、スコアS(i)がこれまでにとった最大値Smaxの値を更新し、最終的に(i=I)スコアS(i)がSmaxをとるときのiを関連記事のIDとして出力する。
本実施の形態では、比較対象の記事DB140から取得したシンボル列が記事のタイトルに含まれている場合に、wA(ai p)が1以上の値をとり、wB(bq)は常に1である。
[第2の実施の形態]
本実施の形態は、第1の実施の形態を拡張したものである。
本実施の形態では、映像ファイルと、テキスト文字列によるキーワードの両方を検索クエリとして入力する点で、第1の実施の形態と異なる。
図8は、本発明の第2の実施の形態におけるシステム構成を示す。
DB生成装置100の構成及び記事DB140を生成する処理については第1の実施の形態と同様であるのでその説明は省略する。
検索装置200は、第1の実施の形態における図3の構成に、検索クエリとしてユーザによって入力された任意の単語を取得する単語入力部250が付加された構成である。
図9は、本発明の第2の実施の形態における検索装置の動作のフローチャートである。
ステップ221) 映像入力部210において、ユーザに指定された映像ファイルを入力装置20から入力する。
ステップ222) 単語入力部250において、ユーザからの検索クエリとして入力された単語を取得する。
ステップ223) 音声抽出部220において、入力された映像ファイルから音声を抽出する。
ステップ224) 音声シンボル列生成部230において、音声抽出部220により抽出された音声及び単語入力部250で取得した単語のそれぞれから音素列を求め、音素記号及び無音区間情報からなるシンボル列を出力する。ここで、音素列の出力には、非特許文献2の技術を用いることができる。
ステップ225) 関連記事検索部240において、音声シンボル列生成部230で生成されたシンボル列及び単語入力部250で入力された単語を用い、関連する記事を記事DB140から検索し、記事IDを取得し、当該記事IDに基づいて、映像入力部210で入力された映像、単語入力部250で取得した単語に関連する記事文章を端末の表示装置30または、ファイル40に出力する。
このときの関連記事検索部240の動作は、第1の実施の形態の図7のフローチャートと同様であるが、ステップ1243の評価式のパラメータの重みが異なる。本実施の形態における類似度を求める式は、
Figure 2008140168
を用いる。上記の式において、添え字及び関数の意味は全て第1の実施の形態と同様である。本実施の形態では、比較対象のシンボル列が記事のタイトルに含まれるか、または、単語入力部250で入力した単語に一致した場合に、wが1以上の値をとり、wは常に1である。
[第3の実施の形態]
本実施の形態は、第1の実施の形態を拡張したものである。本実施の形態では、EPG(電子番組表)を用いて放送番組を自動録画し、録画された映像データに対して関連するニュース記事をメタデータとして自動付与する点において、第1の実施の形態と異なる。
図10は、本発明の第3の実施の形態におけるシステム構成図である。
同図に示すシステムは、DB生成装置100とメタデータ付与装置300、Webサイト10、入力装置20、表示装置30、ファイル40から構成される。DB生成装置100は、第1の実施の形態における図3の構成と同様であるので、その説明は省略する。
メタデータ付与装置300は、入力装置20からユーザが指定した番組を録画する録画映像取得部310、電子番組表を記憶した記憶手段からユーザが指定した番組の電子番組表を取得するEPG取得部320、電子番組表を解析するEPG解析部330、録画した映像から音声を抽出する音声抽出部340、音声から音声シンボル列を生成する音声シンボル列生成部350、シンボル列及び電子番組表を解析した結果に基づいて記事DB140から記事IDを取得する関連記事検索部360、記事IDに基づいて録画した映像ファイルに記事の本文を関連付けて出力するメタデータ生成部370から構成される。
次に、上記のメタデータ付与装置の動作を説明する。
図11は、本発明の第3の実施の形態におけるメタデータ付与装置の動作のフローチャートである。
ステップ321) 録画映像指定部310は、入力装置20からユーザが指定した番組を録画し、映像ファイルに格納する。
ステップ322) EPG取得部320において、電子番組表記憶手段より指定された番組の電子番組表を取得する。
ステップ323) EPG解析部330は、電子番組表を解析し、あらすじ及び番組タイトルに含まれる固有名詞を抽出する。
ステップ324) 音声抽出部340は、ステップ321において録画した映像ファイルから音声を抽出する。
ステップ325) 音声シンボル列生成部350において、音声抽出部340により抽出された音声及びEPG解析部330で抽出された固有名詞のそれぞれから音素列を求め、音素記号及び無音区間情報からなるシンボル列を生成する。ここで、音素列を求める方法として、非特許文献2の技術を用いることが可能である。
ステップ326) 関連記事検索部360は、音声シンボル列生成部350で生成されたシンボル列及びEPG解析部330で抽出された固有名詞を用い、関連する記事を記事DB140から検索し、記事IDを取得する。このとき、以下の評価式を用いる。本実施の形態の当該ステップにおける入出力動作及び下記の評価式は、第1の実施の形態と同様であるが、式中のパラメータの重み(w)が第1の実施の形態とは異なる。
Figure 2008140168
上記の式において、添え字及び関数の意味は全て第1の実施の形態と同様である。本実施の形態では、比較対象のシンボル列が記事のタイトルに含まれる場合にwが1以上の値をとる。また、比較対象のシンボル列がEPG解析部330で取得した固有名詞に一致した場合にwが1以上の値をとる。
ステップ327) メタデータ生成部370は、関連記事検索部360により得られる記事IDに基づいて、録画映像指定部310で録画した映像ファイルに記事の本文を関連付け、その結果をファイル40または端末の表示装置30に出力する。
[第4の実施の形態]
本実施の形態は、第1の実施の形態を拡張したものである。本実施の形態は第1の実施の形態の図5に示す動作と同じステップから構成されるが、関連記事検索部240の動作(ステップ124)の評価式中のパラメータの重み付けが第1の実施の形態と異なる。
以下において、第1の実施の形態と同様の動作については説明を省略する。
図5におけるステップ124では、関連記事検索部240において、第1の実施の形態のDB生成装置100で生成した記事DB140中のシンボル列集合と、第1の実施の形態の音声シンボル列生成部230から得られるシンボル列集合とを読み込み、記事DB140のシンボル列集合のそれぞれに対し、音声シンボル列集合に対する類似度を下記の式で求め、類似度が最大となる関連記事のIDを取得し、当該IDに基づいて、第1の実施の形態における映像入力部210で指定された映像ファイルと、第1の実施の形態の記事DB140中に含まれる記事文章とを関連付け、ファイル40または表示装置30に出力する。
Figure 2008140168
上記の式におけるwは、評価対象の記事IDに基づいて得られる記事の日時と映像入力部210で入力される映像の放送日時のタイムラグに基づいて決定される重み係数であり、w,wは1である。
また、上記の第1〜第4の実施の形態における動作をプログラムとして構築し、メタデータを付与する装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または配布することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
映像に対するメタデータを低コストで自動生成する際に、日々放送されるニュース等の放送映像に関連する文書の一部がWeb上に存在することを利用して、放送映像とWeb上の記事を自動的に関連付ける技術に適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の第1の実施の形態におけるシステム構成図である。 本発明の第1の実施の形態におけるDB生成装置の動作のフローチャートである。 本発明の第1の実施の形態における検索装置の動作のフローチャートである。 本発明の第1の実施の形態における関連記事検索部の構成図である。 本発明の第1の実施の形態における関連記事検索部の動作のフローチャートである。 本発明の第2の実施の形態におけるシステム構成図である。 本発明の第2の実施の形態における検索装置の動作のフローチャートである。 本発明の第3の実施の形態におけるシステム構成図である。 本発明の第3の実施の形態におけるメタデータ付与装置の動作のフローチャートである。
符号の説明
1 特徴抽出手段
2 記憶手段
3 シンボル列集合類似度計算手段
4 対応付け手段
10 Webサイト
20 入力装置
30 表示装置
40 ファイル
100 DB生成装置
110 Web情報取得部
120 最新記事取得部
130 テキスト特徴量抽出部
140 記事DB
150 記事更新部
200 検索装置
210 映像入力部
220 音声抽出部
230 音声シンボル列生成部
240 関連記事検索部
241 シンボル列集合入力部
242 シンボル列間距離計算部
243 シンボル列長さ計算部
244 類似度スコア算出部
250 単語入力部
300 メタデータ付与装置
310 録画映像取得部
320 EPG取得部
330 EPG解析部
340 音声抽出部
350 音声シンボル列生成部
360 関連記事検索部
370 メタデータ生成部

Claims (9)

  1. 時系列メディア同士または時系列メディアと文字列または文字列同士の類似性を評価するためのシンボル列集合類似度算出方法であって、
    時系列メディアまたは文字列から抽出した特徴を表すシンボル列集合の類似度を算出する際に、
    類似度の算出対象である第1のシンボル列集合を記憶手段に格納しておき、
    類似度算出手段が、前記記憶手段から第1のシンボル列集合を読み出し、類似度の算出対象のもう一方の第2のシンボル列集合を取得し、該第1のシンボル列集合に含まれる1つのシンボル列の長さを、当該第1のシンボル列と、該第2のシンボル列集合に含まれる任意のシンボル列との距離で除して得られる数を用いる、
    ことを特徴とするシンボル列集合類似度算出方法。
  2. 前記類似度算出手段において、
    類似度の算出対象である前記第1のシンボル列集合、前記第2のシンボル列集合のそれぞれに含まれる任意の一組のシンボル列の距離を、レーベンシュタイン距離尺度を用いて求める
    請求項1記載のシンボル列集合類似度算出方法。
  3. 前記類似度算出手段において、
    類似度の算出対象である前記第1のシンボル列集合、前記第2のシンボル列集合のそれぞれに含まれる任意の一組のシンボル列の距離を、編集許容範囲を設定したレーベンシュタイン距離尺度を用いて求める
    請求項2記載のシンボル列集合類似度算出方法。
  4. 前記類似度算出手段において、
    類似度の算出対象である前記第1のシンボル列集合、前記第2のシンボル列集合のうち少なくとも一つに含まれる任意のシンボルの長さを、該第1のシンボル列集合、該第2のシンボル列集合にそれぞれ含まれる任意の2つのシンボル列の距離で除した数を求め、該数を全てのシンボル列に適用した場合の総和をとる
    請求項1乃至3のシンボル列集合類似度算出方法。
  5. 類似度の算出対象に、前記記憶手段に格納された構造化されたテキスト文字列の読み仮名に基づくシンボル列集合A{a,a,a,…,a(M−1)}と、入力された映像中の音声から生成した音素列に基づくシンボル列集合B{b,b,b,…,b(N−1)}を用いるものとし、
    前記類似度算出手段において、
    前記シンボル列集合B{b,b,b,…,b(N−1)}に対する前記シンボル列集合A{a,a,a,…,a(M−1)}の類似度の算出に、少なくとも
    ・前記シンボル列集合B{b,b,b,…,b(N−1)}の生成の際における音素認識誤り許容範囲に基づく、レーベンシュタイン距離尺度の許容限界値;
    ・比較対象となるシンボル列の長さ;
    の2つを用いる
    請求項1乃至4記載のシンボル列集合類似度算出方法。
  6. 前記類似度算出手段において、
    前記シンボル列集合B{b,b,b,…,b(N−1)}に対する前記シンボル列集合A{a,a,a,…,a(M−1)}の類似度の算出に、少なくとも、
    ・類似度の算出対象となる2つのシンボル列集合のうち、何れかのシンボル列集合に含まれる任意のシンボル列に対する重み係数であって、シンボル列の生成元となる時系列メディアあるいはテキスト文書の特徴に基づいて決定される重み係数;
    ・シンボル列集合B{b,b,b,…,b(N−1)}の生成の際における音素認識誤り許容範囲;
    ・比較対象となるシンボル列の長さ;
    を用いる
    請求項5記載のシンボル列集合類似度算出方法。
  7. 請求項5または6記載のシンボル列集合類似度算出方法を用いて、一組の時系列メディアもしくは時系列メディアと文字列とを対応付けるための対応関係を表すメタデータを生成するメタデータ生成装置であって、
    入力された2つの時系列メディアから、音声信号、画像、テキスト文字列のうち少なくとも1つ以上を抽出し、時系列のシンボル列集合に変換し、記憶手段に格納する特徴抽出手段と、
    前記記憶手段に格納されている前記シンボル列集合のうち、異なるメディアのそれぞれから生成したシンボル列集合の少なくとも1組以上に対し、請求項5または6記載のシンボル列集合類似度算出方法により類似度を算出するシンボル列集合類似度計算手段と、
    前記シンボル列集合類似度計算手段によって得られるシンボル列集合の類似度に基づいて、異なるメディアの時系列情報の対応関係を表すメタデータを生成する対応付け手段と、
    を有することを特徴とするメタデータ生成装置。
  8. 請求項5または6記載のシンボル列集合類似度算出方法を用いて、映像ファイルにメタデータを付与するメタデータ付与装置であって、
    定期的に最新のニュース記事の内容を取得して記憶手段に格納する最新記事取得手段と、
    前記ニュース記事のテキストの分かち書きを行い、平仮名に変換し、該平仮名から読みのシンボル列を音素列に変換したシンボル列を生成し、前記記憶手段に格納するテキスト特徴量抽出手段と、
    映像ファイルの入力を受け付ける映像取得手段と、
    テキスト文字列の入力を受け付けるテキスト文字列取得手段と、
    前記映像ファイルから音声を抽出する音声抽出手段と、
    前記音声抽出手段によって抽出した音声を解析し、音素列のシンボル列を生成する音声シンボル列生成手段と、
    前記音声シンボル列生成手段により生成されたシンボル列集合と、前記記憶手段に格納されているシンボル列集合に対し、請求項5または6記載のシンボル列集合類似度算出方法により類似度を算出するシンボル列集合類似度計算手段と、
    前記シンボル列集合類似度計算手段によって得られるシンボル列の類似度に基づいて、前記ニュース記事と前記映像ファイルとの関連情報を出力するメタデータ生成手段と、
    前記記憶手段の内容を更新する更新手段と、
    を有することを特徴とするメタデータ付与装置。
  9. コンピュータに、
    請求項1乃至6記載のシンボル列集合類似度算出方法の処理を実行させることを特徴とするプログラム。
JP2006326003A 2006-12-01 2006-12-01 シンボル列集合類似度算出方法及びメタデータ生成装置及びメタデータ付与装置及びプログラム Pending JP2008140168A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006326003A JP2008140168A (ja) 2006-12-01 2006-12-01 シンボル列集合類似度算出方法及びメタデータ生成装置及びメタデータ付与装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006326003A JP2008140168A (ja) 2006-12-01 2006-12-01 シンボル列集合類似度算出方法及びメタデータ生成装置及びメタデータ付与装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2008140168A true JP2008140168A (ja) 2008-06-19

Family

ID=39601548

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006326003A Pending JP2008140168A (ja) 2006-12-01 2006-12-01 シンボル列集合類似度算出方法及びメタデータ生成装置及びメタデータ付与装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2008140168A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010282376A (ja) * 2009-06-03 2010-12-16 Nippon Telegr & Teleph Corp <Ntt> メタデータ管理装置、メタデータ管理方法、及び、メタデータ管理プログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0484367A (ja) * 1990-07-27 1992-03-17 Nec Corp 記号列照合装置の制御方式
JPH07129602A (ja) * 1993-10-29 1995-05-19 C Ee C:Kk 文書検索装置および方法
JP2002251408A (ja) * 2001-02-23 2002-09-06 Fuji Xerox Co Ltd 情報閲覧支援装置
JP2002278579A (ja) * 2001-03-16 2002-09-27 Ricoh Co Ltd 音声データ検索装置
JP2005167452A (ja) * 2003-12-01 2005-06-23 Nippon Telegr & Teleph Corp <Ntt> 映像シーン区間情報抽出方法,映像シーン区間情報抽出装置,映像シーン区間情報抽出プログラムおよびそのプログラムを記録した記録媒体
JP2005165538A (ja) * 2003-12-01 2005-06-23 Nippon Telegr & Teleph Corp <Ntt> ラベルの系列マッチングの誤り修正方法及び装置及びプログラム及びラベルの系列のマッチング誤り修正プログラムを格納したコンピュータ読み取り可能な記憶媒体
JP2006053866A (ja) * 2004-08-16 2006-02-23 Advanced Telecommunication Research Institute International カタカナ文字列の表記ゆれの検出方法
JP2006209022A (ja) * 2005-01-31 2006-08-10 Toshiba Corp 情報検索システム、方法及びプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0484367A (ja) * 1990-07-27 1992-03-17 Nec Corp 記号列照合装置の制御方式
JPH07129602A (ja) * 1993-10-29 1995-05-19 C Ee C:Kk 文書検索装置および方法
JP2002251408A (ja) * 2001-02-23 2002-09-06 Fuji Xerox Co Ltd 情報閲覧支援装置
JP2002278579A (ja) * 2001-03-16 2002-09-27 Ricoh Co Ltd 音声データ検索装置
JP2005167452A (ja) * 2003-12-01 2005-06-23 Nippon Telegr & Teleph Corp <Ntt> 映像シーン区間情報抽出方法,映像シーン区間情報抽出装置,映像シーン区間情報抽出プログラムおよびそのプログラムを記録した記録媒体
JP2005165538A (ja) * 2003-12-01 2005-06-23 Nippon Telegr & Teleph Corp <Ntt> ラベルの系列マッチングの誤り修正方法及び装置及びプログラム及びラベルの系列のマッチング誤り修正プログラムを格納したコンピュータ読み取り可能な記憶媒体
JP2006053866A (ja) * 2004-08-16 2006-02-23 Advanced Telecommunication Research Institute International カタカナ文字列の表記ゆれの検出方法
JP2006209022A (ja) * 2005-01-31 2006-08-10 Toshiba Corp 情報検索システム、方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010282376A (ja) * 2009-06-03 2010-12-16 Nippon Telegr & Teleph Corp <Ntt> メタデータ管理装置、メタデータ管理方法、及び、メタデータ管理プログラム

Similar Documents

Publication Publication Date Title
Chelba et al. Retrieval and browsing of spoken content
JP3923513B2 (ja) 音声認識装置および音声認識方法
US7979268B2 (en) String matching method and system and computer-readable recording medium storing the string matching method
Pavel et al. Sceneskim: Searching and browsing movies using synchronized captions, scripts and plot summaries
JP4887264B2 (ja) 音声データ検索システム
KR20080068844A (ko) 텍스트 메타데이터를 갖는 음성문서의 인덱싱 및 검색방법, 컴퓨터 판독가능 매체
US20070156404A1 (en) String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method
US8688725B2 (en) Search apparatus, search method, and program
US10943600B2 (en) Systems and methods for interrelating text transcript information with video and/or audio information
JPWO2008016102A1 (ja) 類似度計算装置及び情報検索装置
WO2003010754A1 (fr) Systeme de recherche a entree vocale
JP4699954B2 (ja) マルチメディアデータ管理方法とその装置
JP5296598B2 (ja) 音声情報抽出装置
CN110781328A (zh) 基于语音识别的视频生成方法、系统、装置和存储介质
TWI610294B (zh) 語音辨識系統及其方法、詞彙建立方法與電腦程式產品
JP2008140168A (ja) シンボル列集合類似度算出方法及びメタデータ生成装置及びメタデータ付与装置及びプログラム
JP2008097232A (ja) 音声情報検索プログラムとその記録媒体、音声情報検索システム、並びに音声情報検索方法
JP4084515B2 (ja) アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体
Hernandez et al. Multimodal corpus analysis of autoblog 2020: lecture videos in machine learning
JP2011128903A (ja) 系列信号検索装置および系列信号検索方法
CN113536029A (zh) 一种对齐音频和文本的方法、装置、电子设备及存储介质
JP2010044614A (ja) キーフレーズ抽出装置、シーン分割装置およびプログラム
JP2009204732A (ja) 音声認識装置、音声認識辞書作成方法およびプログラム
JP2005267053A (ja) 音声検索装置、音声検索サーバ、音声検索方法及び音声検索プログラム
Zeng et al. MusicTM-dataset for joint representation learning among sheet music, lyrics, and musical audio

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110301

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110809