JP2011175349A

JP2011175349A - コンテンツ構造化処理方法、コンテンツ構造化処理装置及びコンテンツ構造化処理プログラム

Info

Publication number: JP2011175349A
Application number: JP2010037312A
Authority: JP
Inventors: Takeshi Sadohara; 健佐土原
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2010-02-23
Filing date: 2010-02-23
Publication date: 2011-09-08
Anticipated expiration: 2030-02-23
Also published as: JP5392780B2

Abstract

【課題】メディアコンテンツに含まれるテキストまたは音声に対するデータ処理をコンピュータにより実行し、コンテンツを意味的に構造化するコンテンツ構造化処理方法を提供する。
【解決手段】コンテンツのテキストまたは音声を符号列に変換し、符号列に対して分析の最小単位とする原子セグメントの抽出を行い、原子セグメントの間の類似性を文字列カーネルにより計算してメモリ上に類似性行列として格納する。原子セグメントどうしの類似性を際立たせるための類似性行列の対角成分の縮減を行い、意味的な構造化に寄与しない部分符号列の平均的な出現パターンを除去する。そして、動的計画法により大域的に最適な構造を計算する各計算過程を、コンピュータにより実行する。
【選択図】図１

Description

本発明は、メディアコンテンツに含まれるテキストや音声を手がかりとして、コンテンツを意味的に構造化するためのコンテンツ構造化処理方法、コンテンツ構造化処理装置及びコンテンツ構造化処理プログラムに関する。

今日、デジタル技術、大容量記憶装置技術の進歩により、一個人においてさえも、テキスト、音声そして画像等の情報が大量に蓄積可能になった。こうした情報を資源として有効に活用するためには、欲しい情報に素早く到達するための索引化や、情報の概要を素早く把握するための構造化を行う必要がある。

しかし、情報量の多さ故に、このような処理を人手で行うことは困難であり、計算機を用いて自動的に情報の資源化を行うための技術が切実に求められている。

特に、テキストや音声に含まれる単語等の構文的要素の出現分布に着目して、コンテンツの各部分のトピックを推定したり、コンテンツをトピック単位に分割したりする意味的構造化技術は、検索、分類、要約等のより高次の情報資源化処理を行うための基礎的技術として、これまでに多くの研究開発がなされてきた。

コンテンツに現れるトピックがある程度予測できる場合には、トピックに関する事前知識や訓練データからトピックのモデルを構築し、そのモデルを用いて与えられたコンテンツの意味的構造化を行うことができる（特許文献１、非特許文献１）。

しかしながら、ホームビデオや会社における日常的な小規模会議記録等のコンテンツのように、現れるトピックを予測することが難しい場合も多い。また、そのようなカジュアルなコンテンツにおいては、高いコストを払ってトピックに関するモデルをあらかじめ用意することは現実的でない。そのため、このような場合には、与えられたコンテンツのみを用いて意味的構造化を行う必要がある。

トピックに関する知識を仮定できない場合の典型的な方法として、コンテンツを分析のための小区間に分割したうえで、これら分析区間に類似性を定義し、類似した区間をまとめ上げることで意味的な構造化を行うという方法がある。

多くの意味的な構造化の手法において、分析区間は、出現する単語などの構文要素の出現頻度を素性とするベクトルとして表現される。その際、活用などの単語の語形変化を吸収するために、語幹の抽出を行うステミング処理を施すのが一般的である。さらに、意味的な分析には有用でない助詞や助動詞等の機能語を取り除くストップワード除去も同時に行われる。

分析区間の類似性の判別では、特許文献２、非特許文献２においては、分析区間の表現ベクトルの余弦を用いており、隣接する分析区間の類似性が高い場合に同一のトピックに属する区間とみなされる。

この場合、隣接する分析区間の局所的な類似性のみを考慮するのではなく、複数の分析区間の集合どうしの類似性を考慮し、動的計画法の問題解決手法を用いて大域的に最適な分割を計算する方法も提案されている（非特許文献５、非特許文献６）。

コンテンツに含まれる音声を利用した分析を行う場合には、大語彙連続音声認識技術を用いて、音声をテキストに変換し、上述したようなテキストの分析技術を適用することが一般的である。

しかし、ニュース音声のような読み上げ音声とは異なり、現在の音声認識処理の技術では、自由発話の音声認識精度は十分ではなく、認識精度の低いテキストからの意味的構造化もまた十分な性能を発揮することができない。音声認識の精度を高めるためには、語彙や言語モデルをコンテンツに適応させる必要があるが、そのためにはコンテンツに現れるトピックに関する知識を必要とするという構造的な問題も抱えている。

従来から、このような問題点を解決するため、大語彙連続音声認識を用いることなく、音声を音節や音素や音素片（特許文献３）等のサブワードユニットの符号列として認識した上で、任意の部分符号列の出現分布を単語の分布の代わりに分析して、音声の意味的な構造化を行うトピック分割処理方法が提案されている（特許文献４、特許文献５、非特許文献４）。

また、この種のマルチメディアコンテンツのトピック分割に関係する従来技術の文献としては、次のような各文献が参照できる。

特表平８−５１２１４８号公報特開２００４−１５７３３７号公報特開２００２−２２１９８４号公報特開２００６−２５１５５３号公報特開２００７−３１６３２３号公報

Ｋ．Ｏｈｔｓｕｋｉｅｔａｌ．：ＴｏｐｉｃＥｘｔｒａｃｔｉｏｎＢａｓｅｄｏｎＣｏｎｔｉｎｕｏｕｓＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎｉｎＢｒｏａｄｃａｓｔＮｅｗｓＳｐｅｅｃｈ，ＩＥＩＣＥＴＲＡＮＳ．ＩＮＦ．＆ＳＹＳＴ．，Ｖｏｌ．Ｅ８５Ｄ，Ｎｏ．７，２００２．鷹尾誠一他：ニュース音声に対するトピックセグメンテーションと分類、情報処理学会研究報告、２４、ｐｐ．５５−６２、１９９８．Ｊ．Ｓｈａｗｅ−ＴａｙｌｏｒａｎｄＮ．Ｃｒｉｓｔｉａｎｉｎｉ：Ｋｅｒｎｅｌｍｅｔｈｏｄｓｆｏｒｐａｔｔｅｒｎａｎａｌｙｓｉｓ，ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，２００４．佐土原健他：音素片のカーネル主成分分析を用いたトピックセグメンテーション、電子情報通信学会技術研究報告、１０４巻７２６号、ｐｐ．３７−４１、２００５．内山将夫他：統計的手法による分野非依存のテキスト分割、自然言語処理、８：４、ｐｐ．１９−３６、２００１．Ｐ．Ｆｒａｇｋｏｕｅｔａｌ．：ＡＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇＡｌｇｏｒｉｔｈｍＦｏｒＬｉｎｅａｒＴｅｘｔＳｅｇｍｅｎｔａｔｉｏｎ，ＪｏｕｒｎａｌｏｆＩｎｔｅｌｌｉｇｅｎｔＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓ，２３：２，ｐｐ．１７９−９７，２００２．

上述したように、テキストの意味的構造化の際には、ステミング処理やストップワード除去処理といった前処理が必要になる。通常、これらの処理は、事前に与えられた言語知識に基づいて、どのようなコンテンツに対しても同じ処理アルゴリズムを用いて行われる。しかし、このような静的な処理アルゴリズムは、いつでも有効に機能するとは限らない。例えば、「音声」や「認識」という単語は内容語であるので、通常ストップワードとはみなされないが、音声認識について議論した会議記録の中では至る所に出現する単語であるので、この場合については、意味的な構造化に有用ではない。

このように、ステミング処理やストップワード除去処理といった前処理は、事前に与えられた言語知識に基づく静的なアルゴリズムではなく、与えられたコンテンツに依存して、意味的構造化に有用であるか否かという観点で動的にアルゴリズムを変化させる必要がある。

また、大語彙連続音声認識技術を使ってコンテンツに含まれる音声をテキストに変換する際、分析するコンテンツに現れる語彙や語用についての言語知識なしには十分な認識精度を得ることが難しい。コンテンツに含まれるトピックすらわからない状況では、そのような事前知識を得ることは難しく、一度テキストに変換し、テキスト分析技術を用いて意味的構造化を行うという従来手法では、十分な精度の意味的構造化を実現することはできない。

このような問題点の解決を目指して、本発明者によってなされた特許文献４および特許文献５に記載の発明においては、大語彙連続音声認識を用いることなく、音声を音節や音素や音素片等の単語よりも粒度の細かいサブワードユニットを、符号列として認識した上で、任意の部分符号列の出現分布を単語の出現分布の代わりに分析して、音声の意味的構造化を行う方法を開示している。

しかし、これらの従来技術においては、ギャップを含んだ不連続な部分符号列の分析ができず、サブワードユニットの認識時には、脱落・挿入誤りが頻繁に生じるので、ギャップを含んだ部分文字列の出現頻度分析を行わない場合、性能が劣化してしまうという問題点を含んでいる。

さらに、サブワードユニットの認識時には、あるサブワードユニットを、発声が類似した別のサブワードユニットとして誤認識する置換誤りも頻発するので、その解決策として、字面上異なる符号の類似性を零とするハードマッチングではなく、対応するサブワードユニットの類似性に応じた連続量で類似度を評価するソフトマッチング処理を行うことが望ましいが、従来の技術では、計算量の問題でソフトマッチング処理を行うことができない。

また、これらの従来技術では、分析区間をまとあげて意味的な構造を作る際、貪欲法に基づいたアルゴリズムを採用していたため、局所的最適解に捕らわれ、大域的最適解を得ることができない場合があり得るという問題がある。

本発明は、上記のような問題を解決するためになされたものであり、本発明の目的は、メディアコンテンツに含まれるテキストや音声を手がかりとして、コンテンツを意味的に構造化するためのコンテンツ構造化処理方法、コンテンツ構造化処理装置及びコンテンツ構造化処理プログラムを提供することにある。

上記のような目的を達成するため、本発明においては、基本的データ処理として、コンテンツのテキストや音声を符号列に変換し、ステミングやストップワード除去に相当する部分符号列に対する前処理を、与えられたコンテンツに依存して、意味的構造化に寄与するか否かという観点で動的に行い、部分符号列の出現分布の分析の際には、ギャップを含む不連続な部分符号列も分析に対象にしたソフトマッチング処理を用いる。さらに、分析に基づいた意味的構造化の際には、動的計画法や主成分分析等を用いて、大域的最適解を求めることが可能な、コンテンツ構造化処理方法、コンテンツ構造化処理装置及びコンテンツ構造化処理プログラムが提供される。

具体的には、第１の態様として、本発明によるコンテンツ構造化処理が、メディアコンテンツに含まれるテキストまたは音声を入力し、入力したテキストまたは音声に対するデータ処理をコンピュータにより実行し、コンテンツを意味的に構造化するためのコンテンツ構造化処理方法であって、テキストまたは音声を単語、音節、音素や文字等の符号列に変換するコンテンツ符号化過程と、前記符号列に対して分析の最小単位となる原子セグメントの抽出を行う原子セグメント抽出過程と、原子セグメント間の類似性を文字列カーネルにより計算してメモリ上に格納する類似性行列計算過程と、原子セグメントどうしの類似性を際立たせるための独立性緩和過程と、意味的な構造化をする際に有用でない任意の部分符号列を除去する冗長成分除去過程と、動的計画法や主成分分析を用いて大域的に最適な構造を計算する最適構造計算過程との処理をコンピュータにより実行することを特徴とするものである。

また、本発明は、第２の態様として、本発明によるコンテンツ構造化処理装置が、メディアコンテンツに含まれるテキストまたは音声を入力し、入力したテキストまたは音声に対するデータ処理をコンピュータにより実行し、コンテンツを意味的に構造化するためのコンテンツ構造化処理装置であって、テキストまたは音声を単語、音節、音素や文字等の符号列に変換するコンテンツ符号化手段と、前記符号列に対して分析の最小単位となる原子セグメントの抽出を行う原子セグメント抽出手段と、原子セグメント間の類似性を計算してメモリ上に格納する類似性行列計算手段と、原子セグメントどうしの類似性を際立たせるための独立性緩和手段と、意味的な構造化をする際に有用でない任意の部分符号列を除去する冗長成分除去手段と、動的計画法や主成分分析を用いて大域的に最適な構造を計算する最適構造計算手段を備えることを特徴とするものである。

また、本発明は、第３の態様として、本発明によるコンテンツ構造化処理プログラムが、メディアコンテンツに含まれるテキストまたは音声を入力し、入力したテキストまたは音声に対するデータ処理をコンピュータにより実行し、コンテンツを意味的に構造化するためのコンテンツ構造化処理プログラムであって、テキストまたは音声を単語、音節、音素や文字等の符号列に変換するコンテンツ符号化ステップと、前記符号列に対して分析の最小単位となる原子セグメントの抽出を行う原子セグメント抽出ステップと、原子セグメント間の類似性を計算してメモリ上に格納する類似性行列計算ステップと、原子セグメントどうしの類似性を際立たせるための独立性緩和ステップと、意味的な構造化をする際に有用でない任意の部分符号列を除去する冗長成分除去ステップと、動的計画法や主成分分析を用いて大域的に最適な構造を計算する最適構造計算ステップとの処理をコンピュータに実行させることを特徴とするものである。

上記のような特徴を有する本発明のコンテンツ構造化処理方法、コンテンツ構造化処理装置及びコンテンツ構造化処理プログラムによれば、コンテンツに含まれるテキストまたは音声を単語、音節、音素や文字等の符号列に変換した上で、任意の部分符号列の出現分布のパターンを分析し、コンテンツの意味的構造化を行うことが可能となる。このため、コンテンツに含まれるトピックに関する事前知識や、語彙、言語モデル、ストップワードリストなどの言語的な知識を必要とせず、しかも、既に発明者によりなされた同様な技術（特許文献４、特許文献５）よりも高性能の意味的構造化の処理を実現することができる。

本発明に係るコンテンツ構造化処理の一例を示すフローチャートである。本発明によるコンテンツ構造化処理装置の構成を説明する図である。本発明によるコンテンツ構造化処理をコンピュータの処理により実行する場合のプログラムのフローチャートである。本発明によるコンテンツ構造化処理における最適構造計算過程の処理フローを示すフローチャートである。最適構造計算過程の平滑化ステップの処理の一例の構造の粒度の制約を用いた平滑化処理の例を示すフローチャートである。最適構造計算過程の平滑化ステップの処理の別の一例の主成分分析を用いた平滑化処理の例を示すフローチャートである。本発明によるコンテンツ意味構造処理装置を、日常的な小規模会議の記録のサマリを提示・作成する意味構造処理装置として実施する構成例を説明するブロック図である。コンテンツ構造提示部（Ｂ８）に接続されたディスプレイ上に提示される表示画面の一例を例示する図である。会議コンテンツサマリ提示のための意味構造処理装置の実装例を説明するための図である。

以下、本発明を実施する場合の一形態について図面を参照して説明する。図１は、本発明に係るコンテンツ構造化処理の一例を示すフローチャートである。図１を参照して、本発明によるコンテンツ構造化処理の原理について説明する。

本発明によるコンテンツ構造化処理では、基本的な処理としては、メディアコンテンツに含まれるテキストまたは音声を、単語、音節、音素や文字等の符号列に変換するコンテンツ符号化過程（Ｐ１）と、前記符号列に対して分析の最小単位となる原子セグメントの抽出を行う原子セグメント抽出過程（Ｐ２）と、抽出した原子セグメント間の類似性を文字列カーネルを用いて計算し類似性行列としてメモリ上に格納する類似性行列計算過程（Ｐ３）と、原子セグメントどうしの類似性を際立たせるための類似性行列の対角成分の縮減を行う独立性緩和過程（Ｐ４）と、意味的な構造化をする際に所定基準により有用でない部分符号列を除去する冗長成分除去過程（Ｐ５）と、動的計画法または主成分分析を用いて大域的に最適な構造を計算する最適構造計算過程（Ｐ６）の各処理を行う。

更に詳細に説明する。コンテンツ構造化処理を実行する場合に、まず、コンテンツ符号化過程（Ｐ１）によって、入力がテキストである場合には、単語や単語を構成する文字を単位とする符号化を行い、入力が音声である場合には、連続音声認識技術を用いて、単語、音節、音素、音素片などを単位とする符号化を行う。

次に、この符号系列を入力として、原子セグメント抽出過程（Ｐ２）において、テキストが入力である場合には、例えば文の単位で部分系列を抽出し、入力が音声である場合には、無音区間で区切られた発話の単位で部分系列を抽出し、これを原子セグメントとする。

引き続いて、類似性行列計算過程（Ｐ３）において、任意の２つの原子セグメントに対して、非特許文献３に記載されたＧａｐ−ｗｅｉｇｈｔｅｄｓｕｂｓｅｑｕｅｎｃｅｋｅｒｎｅｌに準じた方法で類似性を計算する。ここで用いる類似性は、各原子セグメントを、長さがＰ以下の部分文字列に対応する素性を要素とするベクトルとして表現した上で、このベクトルの内積として定義される。したがって、このベクトルの次元は以下のように非常に大きい。

今、原子セグメントｓの表現ベクトルを以下のようにｚとおく。

このとき、長さｐの部分文字列ｕに対応するｚの成分を、ｓにおけるｕの出現毎に以下のように定義する。

ここで、｜ｓ｜はｓの文字数を表し、Ｉ_ｐはギャップを含むｓの任意の部分文字列のインデックスの集合であり、上記素性は、ｕの各出現を含まれるギャップ数の指数乗で重みづけしたものと考えられる。このように、単語ではなく、単語を構成する文字や音素等のサブワードユニットの出現頻度を分析する場合には、ステミング処理と同等の前処理が意味的構造化処理の内部で動的に行われることに注意されたい。

このベクトルとして表現された「表現ベクトル」を用いて、任意の原子セグメントｓ_１とｓ_２の類似性を以下のように表現ベクトルの内積として定義する。

もちろん、このような内積は、表現ベクトルが非常に高次元であることを考えれば、素朴な計算法では現実的な時間に計算することはできない。しかし幸いなことに、非特許文献３に記載されたＧａｐ−ｗｅｉｇｈｔｅｄｓｕｂｓｅｑｕｅｎｃｅｋｅｒｎｅｌに準じた方法を用いることで効率良く計算することができる。具体的には、以下のような動的計画法を用いて原子セグメントｓ，ｔの表現ベクトルの内積を計算する。

ただし、ｓ（ｉ：ｊ）は符号列ｓのｉ番目からｊ番目までの部分文字列を表している。上記の計算は計算結果のテーブルを活用することでさらに効率化できて、Ｏ（ｐ｜ｓ｜｜ｔ｜）の計算量で計算可能であることが知られている。

また、上記の数式に現れる［ａ＝ｂ］を、以下のように、符号間の類似性を表す行列の要素Ａ_ａ，ｂで置き換えると、ソフトマッチングを実現できることも知られている。

ただし、上記計算が表現ベクトル間の内積になっていることを保証するためには、符号間の類似性行列Ａは、対称かつ半正定値でなければならない。この類似性行列は、例えば、符号の混同行列を用いて、次のように構成することが可能である。

ここで、Ｐ（Ｏ＝ｃ），Ｐ（Ｒ＝ａ｜Ｏ＝ｃ）は混同行列から計算される確率で、それぞれ、符号ｃの出現確率、符号ｃが符号ａとして誤認識される確率を表している。

以上述べたように、原子セグメントの間の類似性行列Ｋが類似性行列計算過程（Ｐ３）で計算されたのち、独立性緩和過程（Ｐ４）では、原子セグメント間の独立性を弱めるために類似性行列Ｋの対角成分が以下に述べるような方法で適切に縮減される。

もしも、ある部分符号列が特定の原子セグメントｓ_ｉにしか現れない場合、このような部分符号列は他の原子セグメントに対する原子セグメントｓ_ｉの独立性を強めることに寄与し、類似性行列ＫのＫ_ｉｉ成分だけを大きくする効果を持つ。このような成分が増大することは、原子セグメントが他のどの原子セグメントにも類似しておらず、極端な場合、コンテンツが全ての原子セグメント毎に分割された非常に微細な構造が出力されてしまう。そこで、意味的な構造化の観点からはノイズと考えられる特定の原子セグメントにしか現れない部分符号列を、以下のような手順で除去する。

今、φ（ｓ_ｉ）を除く全ての原子セグメントの表現ベクトルφ（ｓ_１），…，φ（ｓ_ｉ−１），φ（ｓ_ｉ＋１），…，φ（ｓ_ｎ）が張る部分空間をＵ_ｉとおき、φ（ｓ_ｉ）のＵ_ｉへの射影を計算して、φ（ｓ_ｉ）の２乗ノルムであるＫ_ｉｉを射影の２乗ノルムに置き換える。

φ（ｓ_ｉ）のＵ_ｉへの射影は、類似性行列Ｋのｉ行目とｉ列目を取り除いた行列Ｌの固有値λ_ｊとノルムが１の固有ベクトルｖ^ｊを用いて、以下のように計算できる。

このようにして計算された射影の２乗ノルムをＫ_ｉｉと置換することで、独立性緩和過程（Ｐ４）においては、以下のような新しい類似性行列が計算される。

次に、冗長成分除去過程（Ｐ５）では、ストップワード除去に相当する前処理として、部分文字列の平均的な出現パターンの影響を取り除く。そのために、例えば、重心を原点とする単純なセンタリングを行うことができる。この場合、類似性行列は以下のように変換すればよい。

あるいは、変換の線型性に配慮して、全ての原子セグメントの表現ベクトルの平均をとり、各原子セグメントに対して、この平均ベクトルの直交補空間への射影を新たな表現ベクトルとすることもできる。この場合、類似性行列は以下のように変換される。

最後に、最適構造計算過程（Ｐ６）では、冗長成分除去過程（Ｐ５）で得られた類似性行列Ｋを用いて、最適な意味的構造が計算される。以下、図４を用いて最適構造計算過程（Ｐ６）をより詳細に説明する。

図４は、コンテンツ構造化処理における最適構造計算過程の処理フローを示すフローチャートである。この最適構造計算過程の処理においては、まず、類似性行列読み込みステップ（Ｓ１０１）において、類似性行列がメモリ上にロードされた後、コンテンツ構造初期化ステップ（Ｓ１０２）において、任意の原子セグメントを１つのセグメントとする構造の初期値がメモリ上に格納される。

次に、平滑化パラメータ読み込みステップ（Ｓ１０３）において、意味構造の粒度の滑らかさに関するパラメータがメモリ上に読み込まれる。この際に、ユーザーによる確認および入力を行うこともできる。平滑化パラメータとしては、コンテンツの分割数を陽に与えることもできるし、分割数の上限・下限を与えることもできる。あるいは、平滑化ステップ（Ｓ１０５）で詳細に説明するように、各セグメントの大きさの平均値や、最も大きなセグメントに対する最も小さなセグメントの大きさの比の下限などを与えて、分割の粒度を制御することができる。さらには、ノイズとみなされるセグメントの除去を目的として主成分分析を行う際は、累積寄与率や最大固有値に対する固有値の大きさの比なども平滑化パラメータとして用いることができる。

引き続き、最小コストパス計算ステップ（Ｓ１０４）の処理を行う。この最小コストパス計算ステップの処理では、原子セグメント系列とその類似性行列を入力として、以下に説明する意味で最適な分割の計算を行う。

まず、分割数に何も制約がない場合で説明する。この場合には、以下の式のように定義される最適な分割Ｔ^＊が計算される。

ここで、Ｔは全ての原子セグメント集合の分割である。各セグメントの表現ベクトルをそのセグメントに含まれる原子セグメントの表現ベクトルの和と考えると、Ｔ^＊は、可能な分割の内、セグメントの表現ベクトルの２乗ノルムの和を最大とする分割になる。

この最適化問題は、いわゆる最小コストパス問題に帰着できる。最小コストパス問題は、０からｎまでのｎ＋１個のノードの任意の２つのノードにコストが定義されているとき、０からｎに至るパスの内、最もコストの小さいパスを求める問題であり、以下のような動的計画法によりＯ（ｎ^２）で解くことが可能である。

このとき、Ｃ（ｎ）が最小のコストを表し、最小コストパスは以下のようになる。

また、最小コストパスから、最適分割は以下のようにして得られる。

もしも、平滑化パラメータとして分割の数Ｌが与えられた場合には、パス長さをＬに制限した最小コストパス問題を解けばよい。この場合最適分割は以下のような動的計画法で計算される。

この場合以下が最適なパスとなる。

同様な方法で、分割の最大値をＬに制限した最適分割を求めることもできる。以下の動的計画法により最適分割に対応した最小コストパスが計算される。

さらに、分割の最小値をＬに制限した最適分割も同様に求めることができる。以下の動的計画法により最適分割に対応した最小コストパスが計算される。

ただし、上記、長さの最小値を制限した動的計画法において、長さの制限のない最小コストパス問題が内包されていることに注意されたい。

以上に述べたように、平滑化パラメータとして、分割数が与えられない場合、分割数が与えられる場合、分割数の上限が与えられる場合、分割数の下限が与えられる場合、それぞれに応じた最小コスト問題を解くことにより、分割数に関する制約を考慮した最適な分割が最小コストパス計算ステップ（Ｓ１０５）において計算される。

このようにして得られた最適分割に対して、平滑化ステップ（Ｓ１０５）において、後に説明するように、他のセグメントに比べてあまりに細かなセグメントを取り除く平滑化を行う。

また、このようにして得られた最適分割に対して、ユーザーの求めに応じて（Ｓ１０６）、さらなる上位構造を計算させることもできる。この場合、類似性行列縮退ステップ（Ｓ１０７）において、分割の中の各セグメントを原子セグメントみなし、類似性行列の連続する行と連続する列を１つの要素に縮退させた新たな類似性行列が計算される。新たな類似性行列のｉ，ｊ要素は、ｉ番目のセグメントとｊ番目のセグメントの内積を表しており、以下のように計算される。

新たな類似性行列を用いて、最小コストパス計算ステップ（Ｓ１０４）において、再び最適な構造を計算する。この場合、現在の構造とは異なる上位構造が出力されるように、類似性行列の行の数よりも小さい数を分割数の上限として選ぶことができる。

このようなステップを繰り返した後、次に、セグメント情報付与ステップ（Ｓ１０８）の処理に進む。このセグメント情報付与ステップ（Ｓ１０８）の処理では、各階層の各セグメントに、セグメントの特徴を表す情報を付与する。例えば、他のセグメントに対する類似性に関する情報を付与する。この情報は、例えば、類似したセグメントは類似した色で表示する等の目的で使用することができる。セグメントの類似性のデータとしては、類似性行列に基づいて以下のように計算される余弦を用いることができる。

また、すでにあるセグメントにラベルが付与されている場合には、他の類似するセグメントに対しても類似度付きでラベル情報を付与することもできる。

最後に、コンテンツ構造保存ステップ（Ｓ１０９）の処理を行う。この処理において、これまで得られたコンテンツの階層構造と各階層の各セグメントに付与された情報からなるコンテンツ構造が主記憶に保存される。

ここで、平滑化ステップ（Ｓ１０５）について、二つの具体的な方法を挙げてより詳細に説明する。まず、分割の結果、得られるセグメントの粒度に関する制約が与えられる場合について図５を用いて説明する。

図５は、最適構造計算過程の平滑化ステップの処理の一例の構造の粒度の制約を用いた平滑化処理の例を示すフローチャートである。この平滑化処理では、ノルム計算ステップ（Ｓ１１０）において、類似性行列Ｋと分割Ｔ＝Ｔ_１，…，Ｔ_ｒに対して、各セグメントの表現ベクトルの２乗ノルムが以下のように計算される。

次に、粒度基準評価ステップ（Ｓ１１１）において、粒度基準に適合しているかどうかが調べられる。粒度基準として、２乗ノルムの最小値と最大値の比の下限が与えられる場合、この閾値を下回れば、セグメントの統合が行われる。あるいは、２乗ノルムの分散の上限が与えられる場合は、この閾値を上回った場合に、セグメントの統合が行われる。

セグメントの統合は、最大長指定最小コストパス計算ステップ（Ｓ１１２）において行われ、上述した最大パス長を制限した最小コストパス問題を解く動的計画法を用いて新たな分割が計算される。この際、元の分割よりも粗い分割が計算されるよう分割数の最大値（最大パス長）として、元の分割数よりも小さな値を指定する。以上のような手順で、平滑化パラメータとして粒度基準が与えられた場合の平滑化ステップ（Ｓ１０５）の処理が終了する。

また、平滑化ステップ（Ｓ１０５）の処理においては、主成分分析を行い、ノイズと思われる成分の除去を行うことによっても平滑化処理が実行できる。これについて、図６を参照して、主成分分析を用いた平滑化処理について説明する。

図６は、最適構造計算過程の平滑化ステップの処理の別の一例の主成分分析を用いた平滑化処理の例を示すフローチャートである。この場合、原子セグメントの表現ベクトルは非常に高次元であることから、これをそのまま用いた通常の主成分分析は現実的な時間で実行することは不可能であるので、類似性行列を用いて主成分分析を行うカーネル主成分分析を行う。カーネル主成分分析について非特許文献３等に詳細に説明されているので、ここでの説明は省略する。

図６を参照すると、この処理では、まず、類似性行列縮退ステップ（Ｓ１１３）において、類似性行列Ｋと分割Ｔ＝Ｔ_１，…，Ｔ_ｒから、Ｔのセグメントの表現ベクトル間の内積を要素とする行列を以下のように計算する。

次に、固有値計算ステップ（Ｓ１１４）において、この行列の固有値を計算し、平滑化パラメータを用いて、上位ｍ個の正の固有値λ_１＞…＞λ_ｍ＞０と、これに対応するノルム１の固有ベクトルｖ^１，…，ｖ^ｍを選択する。平滑化パラメータとしては、累積寄与率や最大固有値に対する比などを用い、累積寄与率が与えられた閾値を超える上位ｍ個の固有値を選択したり、または、最大固有値に対する比が閾値を超える上位ｍ個の固有値を選択したりする。

引き続き、類似性行列再計算ステップ（Ｓ１１５）の処理を行う。この処理においては、このように選択された固有値と固有ベクトルを用いて、ノイズ成分を除去した各セグメントの表現ベクトルの内積を要素とする新たな類似性行列を以下のようにして計算する。

新たに得られた類似性行列が、類似性行列縮退ステップ（Ｓ１１３）で得られた行列と大きく異なる場合には、これを判断して（Ｓ１１６）、最小コストパス計算ステップ（Ｓ１１７）の処理を行う。この処理により、前述した図４の最小コストパスステップ（Ｓ１０４）と同様の方法で、最適な分割を計算する。このような処理のステップを、類似性行列がほとんど変化しなくなるまで繰り返した後、平滑化ステップ（Ｓ１０５）の処理を終了する。

以上、本発明によるコンテンツ構造化処理の原理について述べたが、原子セグメントの表現ベクトルは原理の説明のために用いただけであり、実際の計算においては、その内積を格納した類似性行列Ｋのみを介して全ての計算が行われていることに注意されたい。原子セグメントの表現ベクトルは上述したように非常に高次元であるので、そのような高次元ベクトルを陽に計算に用いないことによって、計算の大幅な効率化に寄与している。この意味で、本発明は、非特許文献３で解説されているカーネル法の一種であり、計算アルゴリズムの観点における本発明の新規性の一面を示している。

図２は、本発明によるコンテンツ構造化処理装置の構成を説明する図である。図２に示すように、本発明によるコンテンツ構造化処理装置は、コンテンツ符号化手段（Ｍ１）、原子セグメント抽出手段（Ｍ２）、類似性行列計算手段（Ｍ３）、独立性緩和手段（Ｍ４）、冗長成分除去手段（Ｍ６）、最適構造計算手段（Ｍ６）から構成されており、マルチメディアコンテンツを入力とし、コンテンツに含まれるテキストまたは音声に基づいてコンテンツの意味的な構造化を行い、最終的に意味構造情報を出力する。

コンテンツ符号化手段（Ｍ１）では、メディアコンテンツに含まれるテキストや音声を、単語、文字、音節、音素、音素片等の符号の系列に変換する。原子セグメント抽出手段（Ｍ２）では、変換された符号系列を入力とし、テキストならば文、音声ならば発話区間などのように分析の最小単位に分割して主記憶上に格納する。

類似性行列計算手段（Ｍ３）では、原子セグメント間の類似性を、文字列カーネルを用いて計算し、類似性行列として主記憶上のテーブルに格納する。独立性緩和手段（Ｍ４）では、このテーブルから類似性行列を読み出し、対角成分を独立性緩和過程（Ｐ４）で説明した方法で縮減し、テーブルに値を書き戻す。冗長成分除去手段（Ｍ５）では、類似性行列をテーブルから読み込み、冗長成分除去過程（Ｐ５）で説明した方法で、冗長な成分を取り除いた表現ベクトルの内積を要素とする新たな類似性行列を計算し主記憶上のテーブルに格納する。最適構造計算手段（Ｍ６）では、主記憶上に格納された類似性行列に基づいて、動的計画法または主成分分析を用いて、大域的に最適なコンテンツの構造を計算し主記憶上に格納する。

図３は、本発明によるコンテンツ構造化処理をコンピュータの処理により実行する場合のプログラムのフローチャートである。このプログラムの処理を実行するコンピュータは、プログラムに従い、図３に示すように、コンテンツ符号化ステップ（Ｓ１）、原子セグメント抽出ステップ（Ｓ２）、類似性行列計算ステップ（Ｓ３）、独立性緩和ステップ（Ｓ４）、冗長成分除去ステップ（Ｓ６）、最適構造計算ステップ（Ｓ６）の各ステップの処理を実行する。このプログラムがインストールされたコンピュータは、各ステップの処理を実行することにより、コンテンツ符号化手段、原子セグメント抽出手段、類似性行列計算手段、独立性緩和手段、冗長成分除去手段、最適構造計算手段として機能するコンテンツ構造化処理装置を構成する。

本発明においては、前述したように、テキストや音声を手がかりにマルチメディアコンテンツを意味的に構造化することにより、コンテンツの概要を素早く理解することが可能となるユーザーインタフェースの実現を一つの目的としている。しかも、コンテンツに関する知識に依存しない手法を実現するために、コンテンツに含まれる語彙、言語モデルやストップワードといった言語的な知識や、トピックに関する事前知識を用いることなしに、テキストや音声を符号系列に変換した上で、符号系列に含まれる脱落・挿入・置換誤りに対して、頑健な方法で任意の部分符号列の出現分布を分析し、コンテンツを意味的に構造化することができる。このような、コンテンツのサマリ提示を目的とした意味的構造処理装置について次に説明する。

図７は、本発明によるコンテンツ意味構造処理装置を、日常的な小規模会議の記録のサマリを提示・作成する意味構造処理装置として実施する構成例を説明するブロック図である。この意味構造処理装置は、図７に示すように、サブワード符号化部（Ｂ１）、原子セグメント抽出部（Ｂ２）、類似性行列計算部（Ｂ３）、独立性緩和部（Ｂ４）、冗長成分除去部（Ｂ５）、最適構造計算部（Ｂ６）、意味構造情報記録部（Ｂ７）、意味構造提示部（Ｂ８）、発話区間記録部（Ｂ９）、発話区間抽出部（Ｂ１０）、音声特徴抽出部（Ｂ１１）から構成される。

図７に示す意味構造処理装置において、発話区間抽出部（Ｂ１０）は、会議参加者それぞれのマイクから入力される音声から発話区間を切り出し、発話者および発話時間とともに発話区間記録部（Ｂ９）の持つ外部記憶に保存する。この際、ビデオカメラで会議を撮影している場合においては、発話に同期してビデオ映像を発話記録部（Ｂ９）に記録することもできる。

同時に、切り出された発話区間は、音声特徴抽出部（Ｂ１１）に送られ、通常のフレーム化処理、スペクトル分析を経てＭＦＣＣやＬＰＣ等の音響特徴量に変換された後、サブワード符号化部（Ｂ１）において、ＨＭＭ等を用いたサブワードユニットの音響モデルを使ってサブワード符号の系列に変換される。さらに、原子セグメント抽出部（Ｂ２）では、１発話から得られたサブワード符号の符号列を、１つの原子セグメントとして主記憶に保存する。

類似性行列計算部（Ｂ３）では、主記憶上の原子セグメントを読み出し、任意の二つの原子セグメントに対して文字列カーネルを用いて類似性を計算し、これを要素とする類似性行列を主記憶上のテーブルに格納する。

独立性緩和部（Ｂ４）では、各原子セグメントの過剰な独立性を緩和するために類似性行列の対角成分を適切に縮減する。冗長成分除去部（Ｂ５）では、会議音声の意味的構造化において冗長となる成分を除去して得られる新たな類似性行列を、前の類似性行列に基づいて計算し、新たな値を主記憶上のテーブルに書き戻す。

最適構造計算部（Ｂ６）では、最新の類似性行列を参照しながら、動的計画法または主成分分析を用いてコンテンツの最適な意味構造を計算し、意味構造情報記録部（Ｂ７）がこれを主記憶あるいは外部記憶に保存する。

意味構造提示部（Ｂ８）は、意味構造情報記録部（Ｂ７）が保持する階層構造、各階層各セグメントの特徴量等の情報を参照し、意味構造を反映した会議音声の視覚化を行い、ユーザーに提示する。同時にユーザーからの求めに応じて、ユーザーの希望する部分区間を発話区間記録部（Ｂ９）が保持する音声データを元に再生する。あるいは、ユーザーがあるセグメントにラベルを付与したり、ある発話にテキストを付与したり、意味構造を修正したりした場合には、意味構造情報記録部（Ｂ７）を通して、この変更を意味構造情報に反映させる。さらに、ユーザーが異なる平滑化パラメータによる意味構造の再計算を指示した場合には、最適構造計算部（Ｂ６）を通して、意味構造の再計算を行い、その結果得られた意味構造情報を意味構造提示部（Ｂ８）によりユーザーに提示する。

図８は、コンテンツ構造提示部（Ｂ８）に接続されたディスプレイ上に提示される表示画面の一例を例示する図である。図８に示されるように、この表示画面は、階層表示部（Ｂ１０１）とコンテンツ再生部（Ｂ１０２）のウィンドウ表示領域から構成される。

階層表示部（Ｂ１０１）のウィンドウ表示領域には、意味構造情報に基づいて、コンテンツに含まれる構造が階層的に表示される。表示される階層の深さは、スライダーで選択可能であり、最下層のセグメントには、コンテンツの該当する区間の中から選ばれた静止画が表示される。

ユーザーは、マウスの操作指示により、階層表示部（Ｂ１０１）に表示されているウィンドウ表示領域の内の任意の階層のウィンドウを選択することができる。ユーザーが、ある階層を選択すると、コンテンツ再生部（Ｂ１０２）のウィンドウ表示処理を行うユーザーインタフェース処理部では、意味構造情報から選択された階層に対応する開始時刻と終了時刻を読み出し、コンテンツの該当部分をロードする。そして、区間再生ボタンが押されると、該当部分の再生を行う。

また、コンテンツ再生部（Ｂ１０２）のウィンドウ表示を行うユーザーインタフェース処理部においては、フレーズ再生ボタンが押されると、その階層を特徴付けるフレーズが再生される。このようなフレーズは、階層全体に対応するセグメントの表現ベクトルに対して、これに類似した表現ベクトルを持つ部分区間を計算することで抽出することができる。例えば、類似度の高い上位３区間がフレーズ再生ボタン１〜３に関連付けられる。そして、フレーズ再生ボタン１が押されると、最も類似した部分区間が再生され、フレーズ再生ボタン２が押されると、２番目に類似した部分区間が再生され、フレーズ再生ボタン３が押されると、３番目に類似した部分区間が再生される。

図９は、会議コンテンツサマリ提示のための意味構造処理装置の実装例を説明するための図である。図９において、Ｂ１１３は、発話区間記録部（Ｂ９）、発話区間抽出部（Ｂ１０）と音声特徴抽出部（Ｂ１１）を実装した計算機であり、会議の動画を撮影するビデオカメラ、会議参加者が使用するマイク、動画と音声を記録する外部記憶装置が接続されている。

Ｂ１１２は、意味構造提示部（Ｂ８）を実装した計算機であり、ディスプレイ、キーボード、マウス、スピーカー等のユーザーインタフェースが接続されている。計算機Ｂ１１３上に実装することもできるが、この図のように通信回線で接続された別の計算機上に実装することも可能である。

また、Ｂ１１１は、サブワード符号化部（Ｂ１）、原子セグメント抽出部（Ｂ２）、類似性行列計算部（Ｂ３）、独立性緩和部（Ｂ４）、冗長成分除去部（Ｂ５）、最適構造計算部（Ｂ６）、意味構造情報記録部（Ｂ７）を実装した計算機である。ユーザー側に計算リソースを設置することもできるが、図９に示すように、インターネット上のクラウドコンピューティング環境上に構築することもできる。この場合、計算機Ｂ１１２および計算機Ｂ１１３においては、定められたＡＰＩを介して、コンテンツの分析サービスを提供することが可能となる。

本発明によるコンテンツ意味構造処理装置によれば、マルチメディアコンテンツに含まれるテキストまたは音声を手がかりに、コンテンツを意味的に構造化した上で、コンテンツ構造提示装置を用いて、意味構造を反映した任意の部分階層を選択的に再生することにより、例えば、１時間のコンテンツの概要を数分で把握することが可能になり、要約機能を備えたマルチメディアコンテンツのインタフェース装置として利用される。

Claims

メディアコンテンツに含まれるテキストまたは音声を入力し、入力したテキストまたは音声に対するデータ処理をコンピュータにより実行し、コンテンツを意味的に構造化するコンテンツ構造化処理方法であって、
入力したテキストまたは音声を符号列に変換するコンテンツ符号化過程と、
前記符号列に対して分析の最小単位とする原子セグメントの抽出を行う原子セグメント抽出過程と、
抽出した原子セグメントの間の類似性を文字列カーネルにより計算して類似性行列としてメモリ上に格納する類似性行列計算過程と、
原子セグメントどうしの類似性を際立たせるための類似性行列の対角成分の縮減を行う独立性緩和過程と、
意味的な構造化に寄与しない部分符号列の平均的な出現パターンを除去する冗長成分除去過程と、
動的計画法を用いて大域的に最適な構造を計算する最適構造計算過程と、
のそれぞれの処理をコンピュータにより実行することを特徴とするコンテンツ構造化処理方法。
メディアコンテンツに含まれるテキストまたは音声を入力し、入力したテキストまたは音声に対するデータ処理をコンピュータにより実行し、コンテンツを意味的に構造化するコンテンツ構造化処理装置であって、
入力したテキストまたは音声を符号列に変換するコンテンツ符号化手段と、
前記符号列に対して分析の最小単位とする原子セグメントの抽出を行う原子セグメント抽出手段と、
抽出した原子セグメントの間の類似性を文字列カーネルにより計算して類似性行列としてメモリ上に格納する類似性行列計算手段と、
原子セグメントどうしの類似性を際立たせるための類似性行列の対角成分の縮減を行う独立性緩和手段と、
意味的な構造化をする際に所定基準により有用でない部分符号列を除去する冗長成分除去手段と、
動的計画法により最適な構造を計算する最適構造計算手段と
を備えることを特徴とするメディアコンテンツ構造化処理装置。
メディアコンテンツに含まれるテキストまたは音声を入力し、入力したテキストまたは音声に対するデータ処理をコンピュータにより実行し、コンテンツを意味的に構造化するためのコンテンツ構造化処理プログラムであって、
入力したテキストまたは音声を符号列に変換するコンテンツ符号化ステップと、
前記符号列に対して分析の最小単位となる原子セグメントの抽出を行う原子セグメント抽出ステップと、
抽出した原子セグメントの間の類似性を文字列カーネルにより計算して類似性行列としてメモリ上に格納する類似性行列計算ステップと、
原子セグメントどうしの類似性を際立たせるための類似性行列の対角成分の縮減を行う独立性緩和ステップと、
意味的な構造化をする際に所定基準により有用でない部分符号列を除去する冗長成分除去ステップと、
動的計画法により大域的に最適な構造を計算する最適構造計算ステップと
の処理をコンピュータに実行させることを特徴とするコンテンツ構造化処理プログラム。