JP2014021826A - ストリームデータ処理装置、ストリームデータ処理方法、及び、プログラム - Google Patents

ストリームデータ処理装置、ストリームデータ処理方法、及び、プログラム Download PDF

Info

Publication number
JP2014021826A
JP2014021826A JP2012161493A JP2012161493A JP2014021826A JP 2014021826 A JP2014021826 A JP 2014021826A JP 2012161493 A JP2012161493 A JP 2012161493A JP 2012161493 A JP2012161493 A JP 2012161493A JP 2014021826 A JP2014021826 A JP 2014021826A
Authority
JP
Japan
Prior art keywords
metadata
stream data
value
section
designated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012161493A
Other languages
English (en)
Inventor
Takenori Tsujikawa
剛範 辻川
Takafumi Koshinaka
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2012161493A priority Critical patent/JP2014021826A/ja
Publication of JP2014021826A publication Critical patent/JP2014021826A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】ストリームデータ上で位置が指定された場合に、当該位置を指定した意図を把握する。
【解決手段】ストリームデータ入力部110は、ストリームデータを入力する。メタデータ入力部120は、複数のメタデータの各々について、ストリームデータ上の位置に対応付けて当該メタデータの値を入力する。メタデータ推定部140は、ストリームデータにおける指定位置と、複数のメタデータの各々における各値が付与された区間と、の間の距離をもとに、複数のメタデータの内の当該指定位置の指定に係るメタデータの値を推定し、出力する。
【選択図】図1

Description

本発明は、ストリームデータ処理装置、ストリームデータ処理方法、及び、プログラムに関する。
音声やビデオ等のストリームデータ上で指定された重要箇所等の位置やその周囲のデータをもとに、要約の生成等の各種処理を行うストリームデータ処理技術が知られている。
このようなストリームデータ処理技術の一例が、例えば、特許文献1に開示されている。特許文献1に記載のコンテンツ要約システムは、音声ストリームデータと入力された重要箇所とを同期させ、重要箇所に対する重要区間を推定する。そして、コンテンツ要約システムは、音声認識によって得られたテキスト情報と推定した重要区間とを参照し、テキストの要約処理を行う。
国際公開第2008/050649号
図15、及び、図16は、特許文献1に記載のコンテンツ要約システムで生成される要約の例を示す図である。
図15に示すように、上述の特許文献1に記載のコンテンツ要約システムでは、指定された重要箇所から推定された重要区間に対して要約が作成される。しかしながら、作成された要約を閲覧する場合に、以下のような問題が発生する。
例えば、要約を閲覧するユーザ(閲覧者)が作成された要約を閲覧するときに、重要箇所を指定して要約の作成を指示したユーザ(作成者)が、コンテンツ(テキスト)から得られる様々な情報(例えば、特定の一文、特定のトピック、特定の人物、特定の場所など)の内のどの情報を重要と考えていたかを把握できない。すなわち、閲覧者は、作成者により重要箇所が指示された意図(または、理由、目的等)を把握できない。このため、閲覧者がある特定の情報に着目して要約を閲覧する場合に比べて、作成者から閲覧者へ伝わる情報量が減少する。
また、図16に示すように、例えば、閲覧者が、同じコンテンツ対する、複数の作成者によって作成された要約を閲覧する場合、閲覧者は、同様に、各作成者により重要箇所が指示された意図を把握できない。このため、閲覧者は、効率良く複数の作成者のコンテンツ内における興味の対象を知ることができない。
本発明の目的は、上述した課題を解決し、ストリームデータにおける重要箇所等の位置が指定された場合に、当該位置が指定された意図を把握可能なストリームデータ処理装置、ストリームデータ処理方法、及び、プログラムを提供することにある。
本発明のストリームデータ処理装置は、ストリームデータを入力するストリームデータ入力手段と、複数のメタデータの各々について、前記ストリームデータ上の位置に対応付けて当該メタデータの値を入力するメタデータ入力手段と、前記ストリームデータにおける、指定された位置である指定位置と、前記複数のメタデータの各々における各値が付与された区間と、の間の距離をもとに、前記複数のメタデータの内の当該指定位置の指定に係るメタデータの値を推定し、出力するメタデータ推定手段と、を含む。
本発明のストリームデータ処理方法は、ストリームデータを入力し、複数のメタデータの各々について、前記ストリームデータ上の位置に対応付けて当該メタデータの値を入力し、前記ストリームデータにおける、指定された位置である指定位置と、前記複数のメタデータの各々における各値が付与された区間と、の間の距離をもとに、前記複数のメタデータの内の当該指定位置の指定に係るメタデータの値を推定し、出力する。
本発明のプログラムは、コンピュータに、ストリームデータを入力し、複数のメタデータの各々について、前記ストリームデータ上の位置に対応付けて当該メタデータの値を入力し、前記ストリームデータにおける、指定された位置である指定位置と、前記複数のメタデータの各々における各値が付与された区間と、の間の距離をもとに、前記複数のメタデータの内の当該指定位置の指定に係るメタデータの値を推定し、出力する、処理を実行させる。
本発明の効果は、ストリームデータにおける位置が指定された場合に、当該位置が指定された意図を把握可能なことである。
本発明の第1の実施の形態の特徴的な構成を示すブロック図である。 本発明の第1の実施の形態における、ストリームデータ処理装置100の構成を示すブロック図である。 本発明の第1の実施の形態における、ストリームデータ処理装置100の処理を示すフローチャートである。 本発明の第1の実施の形態における、指定時刻、音声信号ストリーム、及び、メタデータの関係の例を示す図である。 本発明の第1の実施の形態における、指定時刻、音声信号ストリーム、及び、メタデータの関係の他の例を示す図である。 本発明の第1の実施の形態における、指定時刻、音声信号ストリーム、及び、メタデータの関係の他の例を示す図である。 本発明の第1の実施の形態における、指定時刻、音声信号ストリーム、及び、メタデータの関係の他の例を示す図である。 本発明の第2の実施の形態における、ストリームデータ処理装置100の構成を示すブロック図である。 本発明の第2の実施の形態における、ストリームデータ処理装置100の処理を示すフローチャートである。 本発明の第2の実施の形態における、指定時刻、音声信号ストリーム、及び、メタデータの関係の例を示す図である。 本発明の第2の実施の形態の第1の具体例における、ストリームデータ処理システムの構成を示すブロック図である。 本発明の第2の実施の形態の第1の具体例における、指定時刻、音声信号ストリーム、及び、メタデータの関係の例を示す図である。 本発明の第2の実施の形態の第2の具体例における、ストリームデータ処理システムの構成を示すブロック図である。 本発明の第2の実施の形態の第2の具体例における、指定時刻、ビデオストリーム、及び、メタデータの関係の例を示す図である。 特許文献1に記載のコンテンツ要約システムで生成される要約の例を示す図である。 特許文献1に記載のコンテンツ要約システムで生成される要約の他の例を示す図である。
(第1の実施の形態)
次に、本発明の第1の実施の形態について説明する。
本発明の実施の形態においては、ストリームデータ上の位置が、ストリームデータの始点等、所定の点を基準とした、時刻で特定されると仮定する。なお、ストリームデータ上の位置は、時刻以外に、インデックス等、他の情報で特定されてもよい。
はじめに、本発明の第1の実施の形態の構成について説明する。図2は、本発明の第1の実施の形態における、ストリームデータ処理装置100の構成を示すブロック図である。
図2を参照すると、本発明の第1の実施の形態のストリームデータ処理装置100は、ストリームデータ入力部110、メタデータ入力部120、指定時刻入力部130、及び、メタデータ推定部140を含む。
ここで、ストリームデータ入力部110は、ストリームデータの入力を受け付ける。
メタデータ入力部120は、ストリームデータ上の時刻に対応付けて、複数のメタデータの各々について、当該メタデータが示す、ストリームデータに係る属性の値(属性値)の入力を受け付ける。
指定時刻入力部130は、ストリームデータ上の重要箇所等の時刻(指定時刻、または、指定位置)の入力を受け付ける。
メタデータ推定部140は、複数のメタデータの内、指定時刻を指定した意図(または、理由、目的等)に係るメタデータの属性値を推定する。
メタデータ推定部140は、重み算出部141、及び、属性値出力部142を含む。重み算出部141は、ストリームデータにおける指定時刻と、複数のメタデータの各々における各属性値が付与された区間と、の間の時刻の差分(距離)をもとに、メタデータの属性値に対する重みを算出する。属性値出力部142は、算出された重みをもとに、指定時刻を指定した意図に係るメタデータの属性値を推定する。
なお、ストリームデータ入力部110とメタデータ入力部120と指定時刻入力部130とメタデータ推定部140とはCPU(Central Processing Unit)とプログラムを記憶した記憶媒体を含み、プログラムにもとづく制御によって動作するコンピュータであってもよい。
次に、本発明の第1の実施の形態におけるストリームデータ処理装置100の動作について説明する。
ここでは、ストリームデータが音声信号のストリームデータの場合を例に動作を説明するが、ストリームデータは、音声信号ストリームデータに限定されず、ビデオストリームデータなど他のストリームデータでもよい。
図3は、本発明の第1の実施の形態における、ストリームデータ処理装置100の処理を示すフローチャートである。
はじめに、ストリームデータ入力部110は、音声信号ストリームデータS(t)の入力を受け付ける(ステップS101)。ここで、tはストリームデータ上の位置を特定するための時刻である。
音声信号ストリームデータには、人が発する音声や周囲の音など様々な音が含まれる。音声信号ストリームデータは、モノラル(1チャンネル)のデータ、ステレオ(2チャンネル)のデータ、3チャンネル以上のデータでもよい。複数チャネルのデータの場合、チャンネル間の時間の対応はとれているものとする。
次に、メタデータ入力部120は、ストリームデータ入力部110に入力された音声信号ストリームデータS(t)上の時刻に対応付けられた複数(Q種類)のメタデータ(M1(t)、M2(t)、…、MQ(t))の入力を受け付ける(ステップS102)。
ここで、メタデータが示す属性の種類として、例えば、場所、音声/非音声、話者、言語、音声認識の結果、トピック(=話題)、感情等が用いられる。また、属性が場所の場合、属性値として、例えば、経度/緯度/高度、国名、県名、最寄り駅名、自席/会議室/食堂/廊下/エレベータ/ロビー等が用いられる。また、属性が話者の場合、属性値として、例えば、老人/成人/子供、男性/女性、男性A/男性B/男性C/女性A/女性B/女性C、個人名等が用いられる。また、属性が感情の場合、属性値として、例えば、喜/怒/哀/楽/通常等の値が用いられる。メタデータ入力部120に入力されるメタデータの属性、及び、属性値は、例えば管理者等により、予め設定される。
また、属性値は、音声信号ストリームデータから推定された値でもよいし、GPS(Global Positioning System)センサやRFID(Radio Frequency Identification)を利用して推定された場所等、センサからのデータにもとづいて推定された値でもよい。また、属性値は、手動で付与されてもよい。
次に、指定時刻入力部130は、音声信号ストリームデータS(t)上の指定時刻の入力を受け付ける(ステップS103)。ここで、指定時刻は、例えば音声信号ストリームデータS(t)上の重要箇所等を判断するユーザ等により指定される。指定時刻は、時間軸上の1点(始点側(t=tps)、終点側(t=tpe)、始点側、終点側の区別なし(t=tp)の内のいずれか)、または、時間軸上の2点(始点側(t=tps)と終点側(t=tpe))により入力される。
なお、指定時刻入力部130は、指定時刻を、図示しない入力デバイス等の入力部により受け付けてもよいし、ファイル等で受け付けてもよい。
次に、メタデータ推定部140の重み算出部141は、複数のメタデータ(M1(t)、M2(t)、…、MQ(t))が示す属性値の各々について、重みを算出する(ステップS104)。
図4〜図7は、本発明の第1の実施の形態における、指定時刻、音声信号ストリーム、及び、メタデータの関係の例を示す図である。
図4〜図7の例では、音声信号ストリームデータS(t)に対して、3種類のメタデータ(M1(t)、M2(t)、M3(t))が入力されている。また、メタデータM1(t)の属性値は、t=tm11、tm12、tm13、tm14、メタデータM2(t)の属性値は、t=tm21、tm22、tm23、メタデータM3(t)の属性値は、t=tm31、tm32、tm33において、それぞれ、切り替わっている。
ここで、重み算出部141は、複数のメタデータの各々において、音声信号ストリームデータにおける指定時刻(指定位置)と、各属性値の切り替わり時刻間の区間(各属性値が付与された区間)と、の間の時刻の差分(距離)をもとに、属性値に対する重みを算出する。
重み算出部141は、指定時刻入力部130が受け付けた指定時刻の種類に応じて、以下のように重みを算出する。
<1.時間軸上の1点(始点側(t=tps))が指定された場合>
図4は、指定時刻として、時間軸上の1点(始点側(t=tps))が指定された場合の例である。
重み算出部141は、数1〜3式のように、メタデータ(M1(t)、M2(t)、M3(t))ごとに、属性値の切り替わり時刻の内、指定時刻tpsとの間の差分(距離)が最も小さい属性値の切り替わり時刻を算出する。
Figure 2014021826
Figure 2014021826
Figure 2014021826
ここで、argmin_{x}[f(x)]は、f(x)を最小にするxを示す。
そして、重み算出部141は、算出した切り替わり時刻(tm1min、tm2min、tm3min)を始点とする区間(近接区間)の属性値に対して、重みを算出する。ここで、重み算出部141は、指定時刻と切り替わり時刻との間の差分(|tps-tm1min|、|tps-tm2min|、|tps-tm3min|)の値が小さいほど、大きな重みを付与する。すなわち、図4の場合、差分の値は小さい順に|tps-tm31|、|tps-tm12|、|tps-tm22|であるため、重み算出部141は、属性値M3(t)(ただしtm31<=t<tm32、以降M3(tm31〜tm32)のように記述する)に最も大きな重みを付与し、次に属性値M1(tm12〜tm13)、そして属性値M2(tm22〜tm23)に最も小さい重みを付与する。なお、重み算出部141は、例えば重みの比率を差分|tps-tm31|、|tps-tm12|、|tps-tm22|の比率に反比例させる等、重みの配分を差分に依存させてもよい。
<2.時間軸上の1点(終点側(t=tpe))が指定された場合>
図5は、指定時刻として、時間軸上の1点(終点側(t=tpe))が指定された場合の例である。
重み算出部141は、数4〜6式のように、メタデータ(M1(t)、M2(t)、M3(t))ごとに、属性値の切り替わり時刻の内、指定された指定時刻tpeとの間の差分(距離)が最も小さい属性値の切り替わり時刻を算出する。
Figure 2014021826
Figure 2014021826
Figure 2014021826
そして、重み算出部141は、算出した切り替わり時刻(tm1min、tm2min、tm3min)を終点とする区間(近接区間)の属性値に対して、重みを算出する。ここで、重み算出部141は、指定時刻と切り替わり時刻との間の差分(|tpe-tm1min|、|tpe-tm2min|、|tpe-tm3min|)の値が小さいほど、大きな重みを付与する。すなわち、図5の場合、差分の値は小さい順に|tpe-tm32|、|tpe-tm13|、|tpe-tm23|であるため、重み算出部141は、属性値M3(tm31〜tm32)に最も大きな重みを付与し、次に属性値M1(tm12〜tm13)、そして属性値M2(tm22〜tm23)に最も小さい重みを付与する。なお、重み算出部141は、重みの配分を、差分|tpe-tm32|、|tpe-tm13|、|tpe-tm23|に依存させてもよい。
<3.時間軸上の1点(始点側、終点側の区別なし(t=tp))が指定された場合>
図6は、指定時刻として、時間軸上の1点(始点側、終点側の区別なし(t=tp))が指定された場合の例である。
重み算出部141は、数7〜9式のように、メタデータ(M1(t)、M2(t)、M3(t))ごとに、属性値の切り替わり時刻の内、指定された指定時刻tpとの間の差分(距離)が最も小さい属性値の切り替わり時刻を算出する。ここで、重み算出部141は、切り替わり時刻を始点または終点とする切り替わり時刻間の区間に、指定時刻tpを含むような切り替わり時刻を算出する。
Figure 2014021826
Figure 2014021826
Figure 2014021826
そして、重み算出部141は、算出した切り替わり時刻(tm1min、tm2min、tm3min)を始点または終点とし、指定時刻tpを含む区間(近接区間)の属性値に対して、重みを算出する。ここで、重み算出部141は、指定時刻と切り替わり時刻との間の差分(距離)(|tp-tm1min|、|tp-tm2min|、|tp-tm3min|)の値が小さいほど、大きな重みを付与する。すなわち、図6の場合、差分の値は小さい順に|tp-tm32|、|tp-tm13|、|tp-tm23|であるため、重み算出部141は、属性値M3(tm31〜tm32)に最も大きな重みを付与し、次に属性値M1(tm13〜tm14)、そして属性値M2(tm22〜tm23)に最も小さい重みを付与する。なお、重み算出部141は、重みの配分を、差分|tp-tm32|、|tp-tm13|、|tp-tm23|に依存させてもよい。ここで、指定時刻が終点側の時刻t=tpeの場合と比較すると、図5では、属性値M1(tm12〜tm13)に対して重みが付与されたが、図6では、属性値M1(tm13〜tm14)に対して重みが付与される。
<4.時間軸上の2点(始点側(t=tps)と終点側(t=tpe))が指定された場合>
図7は、指定時刻として、時間軸上の2点(始点側(t=tps)と終点側(t=tpe))が指定された場合の例である。
はじめに、重み算出部141は、数10〜12式のように、メタデータ(M1(t)、M2(t)、M3(t))ごとに、属性値の切り替わり時刻間の区間の始点、終点のペアの内、指定された始点側の指定時刻tpsと始点との間の差分(距離)、終点側の指定時刻tpeと終点との間の差分(距離)の合計が最も小さいペアを算出する。
Figure 2014021826
Figure 2014021826
Figure 2014021826
そして、重み算出部141は、算出した切り替わり時刻のペア((tm1mins,tm1mine),(tm2mins,tm2mine),(tm3mins,tm3mine))を始点、及び、終点とする区間(近接区間)の属性値に対して、重みを算出する。ここで、重み算出部141は、指定時刻と切り替わり時刻との間の差分(|tps-tm1mins|+|tpe-tm1mine|、|tps-tm2mins|+|tpe-tm2mine|、|tps-tm3mins|+|tpe-tm3mine|)の値が小さいほど、大きな重みを付与する。すなわち、図7の場合、差分の値は小さい順に|tps-tm31|+|tpe-tm32|、|tps-tm12|+|tpe-tm13|、|tps-tm22|+|tpe-tm23|であるため、重み算出部141は、属性値M3(tm31〜tm32)に最も大きな重みを付与し、次に属性値M1(tm12〜tm13)、そして属性値M2(tm22〜tm23)に最も小さい重みを付与する。なお、重み算出部141は、重みの配分を、差分|tps-tm31|+|tpe-tm32|、|tps-tm12|+|tpe-tm13|、|tps-tm22|+|tpe-tm23|に依存させてもよい。
次に、属性値出力部142は、算出された重みをもとに、指定時刻を指定した意図に係るメタデータの属性値を推定し、出力する(ステップS105)。
ここで、属性値出力部142は、複数のメタデータの属性値の内、算出された重みが大きいメタデータの属性値が、指定時刻を指定した意図に係る属性値である可能性が高いと推定する。そして、属性値出力部142は、例えば、算出された重みが最も大きいメタデータの属性値を、指定時刻を指定した意図に係る属性値として出力する。ここで、属性値出力部142は、属性の種類とともに、属性値を出力してもよい。
図4の例では、属性値M3(tm31〜tm32)、M1(tm12〜tm13)、M2(tm22〜tm23)の順に、大きな重みが付与されている。従って、属性値出力部142は、属性値M3(tm31〜tm32)を、指定時刻を指定した意図に係る属性値として出力する。
同様に、図5、図6、図7の例でも、属性値出力部142は、属性値M3(tm31〜tm32)を、指定時刻を指定した意図に係る属性値として出力する。
なお、属性値出力部142は、算出された重みが最も大きい順に、複数のメタデータの属性値を出力してもよい。この場合、属性値出力部142は、算出された重みが所定の閾値以上のメタデータの属性値を出力してもよい。
また、属性値出力部142は、指定時刻を指定した意図に係る属性値を、図示しない表示部により表示してもよいし、ファイル等で出力してもよい。
属性値出力部142により出力された属性値は、例えば、指定時刻を指定したユーザとは異なる(または、同一の)ユーザが、指定時刻を指定したユーザの意図を把握するために用いられる。
なお、メタデータの属性、または、属性値に、属性値が正しいかどうか、あるいは、属性値が切り替わる時刻が正確かどうかを示す信頼度が付与されている場合、重み算出部141は、算出した重みに信頼度を乗じる等、算出した重みを信頼度で重み付けしてもよい。すなわち、信頼度が低い属性値の場合には、推定した属性値が誤りである可能性が高いため、信頼度が低い属性値の重みを小さく(信頼度が高い属性値の重みを大きく)してから、属性値出力部142において属性値を推定する。
以上により、本発明の第1の実施の形態の動作が完了する。
次に、本発明の第1の実施の形態の特徴的な構成を説明する。図1は、本発明の第1の実施の形態の特徴的な構成を示すブロック図である。
図1を参照すると、ストリームデータ処理装置100は、ストリームデータ入力部110、メタデータ入力部120、及び、メタデータ推定部140を含む。
ストリームデータ入力部110は、ストリームデータを入力する。
メタデータ入力部120は、複数のメタデータの各々について、ストリームデータ上の時刻(位置)に対応付けて当該メタデータの値を入力する。
メタデータ推定部140は、ストリームデータにおける、指定された時刻(位置)である指定時刻(指定位置)と、複数のメタデータの各々における各値が付与された区間と、の間の時刻の差分(距離)をもとに、複数のメタデータの内の当該指定時刻(指定位置)の指定に係るメタデータの値を推定し、出力する。
本発明の第1の実施の形態によれば、ストリームデータ上で位置が指定された場合に、当該位置を指定した意図を把握できる。その理由は、メタデータ推定部140が、ストリームデータにおける指定時刻と、複数のメタデータの各々における各値が付与された区間と、の間の時刻の差分をもとに、複数のメタデータの内の当該指定時刻の指定に係るメタデータの値を推定するためである。
(第2の実施の形態)
次に、本発明の第2の実施の形態について説明する。
本発明の第2の実施の形態においては、属性値が付与された区間の長さ(切り替わり間隔)をもとに、指定時刻と切り替わり時刻との間の差分を補正する点において、本発明の第1の実施の形態と異なる。なお、本発明の第2の実施の形態において、第1の実施の形態と同様の構成要素については、同一の符号を付し、説明を省略する。
はじめに、本発明の第2の実施の形態の構成について説明する。図8は、本発明の第2の実施の形態における、ストリームデータ処理装置100の構成を示すブロック図である。
図8を参照すると、本発明の第2の実施の形態のストリームデータ処理装置100は、本発明の第1の実施の形態の構成(図2)に加えて、メタデータ推定部140が、切り替わり間隔算出部143、及び、切り替わり間隔記憶部144を含む。
切り替わり間隔算出部143は、メタデータの属性値の切り替わり間隔を算出する。
切り替わり間隔記憶部144、算出された切り替わり間隔を保存する。
重み算出部141は、指定時刻と属性値の切り替わり時刻との間の差分を算出するときに、切り替わり間隔を用いて、差分を補正する。
次に、本発明の第2の実施の形態におけるストリームデータ処理装置100の動作について説明する。
図9は、本発明の第2の実施の形態における、ストリームデータ処理装置100の処理を示すフローチャートである。
はじめに、本発明の第1の実施の形態(ステップS101、S102)と同様に、ストリームデータ入力部110が、音声信号ストリームデータS(t)の入力を受け付け(ステップS201)、メタデータ入力部120が、複数のメタデータ(M1(t)、M2(t)、…、MQ(t))の入力を受け付ける(ステップS202)。
次に、切り替わり間隔算出部143は、入力されたメタデータについて、属性値の切り替わり間隔を算出する(ステップS203)。ここで、切り替わり間隔算出部143は、メタデータごと、または、各メタデータの属性値ごとに、切り替わり間隔の平均値を算出する。
図10は、本発明の第2の実施の形態における、指定時刻、音声信号ストリーム、及び、メタデータの関係の例を示す図である。
メタデータごとに切り替わり間隔を算出する場合、切り替わり間隔算出部143は、以下のように切り替わり間隔を算出する。
図10において、メタデータM1(t)の属性値はt=tm11、tm12、tm13、tm14において切り替わる。従って、切り替わり間隔算出部143は、例えば数13式のように、メタデータM1(t)の切り替わり間隔の平均値MM1を算出する。
Figure 2014021826
同様に、メタデータM2(t)の属性値はt=tm21、tm22、tm23において切り替わる。従って、切り替わり間隔算出部143は、例えば数14式のように、メタデータM2(t)の切り替わり間隔の平均値MM2を算出する。
Figure 2014021826
また、メタデータM3(t)の属性値はt=tm31、tm32、tm33、…、tm3X3で切り替わる。従って、切り替わり間隔算出部143は、例えば数15式のように、メタデータM3(t)の切り替わり間隔の平均値MM3を算出する。
Figure 2014021826
ここで、Σ_{x}[f(x)]はxに関するf(x)の和を示す。
一方、属性値ごとに切り替わり間隔を算出する場合、切り替わり間隔算出部143は、以下のように切り替わり間隔を算出する。
図10において、メタデータM3(t)の属性値として、黒、斜線、白で示した区間のそれぞれに、同じ値が用いられていると仮定する。切り替わり間隔算出部143は、属性値ごとに切り替わり間隔の平均値を算出する。例えば、切り替わり間隔算出部143は、黒で示した区間の切り替わり間隔の平均値MM3Bを、(tm32-tm31)、(tm34-tm33)、…、により算出する。同様に、切り替わり間隔算出部143は、斜線で示した区間の切り替わり間隔の平均値MM3Gを(tm33-tm32)、…、白で示した区間の切り替わり間隔の平均値MM3Wを(tm39-tm38)、…、により算出する。
切り替わり間隔算出部143は、算出したメタデータごと、及び、属性値ごとの切り替わり間隔の平均値を、切り替わり間隔記憶部144に保存する。
なお、切り替わり間隔算出部143は、切り替わり間隔の平均値に加えて分散値を算出し、同様に、切り替わり間隔記憶部144に保存してもよい。
次に、本発明の第1の実施の形態(ステップS103)と同様に、指定時刻入力部130は、音声信号ストリームデータS(t)上の、指定時刻の入力を受け付ける(ステップS204)。
メタデータ推定部140の重み算出部141は、本発明の第1の実施の形態(ステップS104)と同様に、複数のメタデータ(M1(t)、M2(t)、…、MQ(t))が示す属性値の各々について、重みを算出する(ステップS205)。
ここで、重み算出部141は、属性値の切り替わり間隔の平均値をもとに、指定時刻と切り替わり時刻との間の差分を補正し、補正した差分を用いて、以下のように重みを算出する。
図10は、図4と同様に、指定時刻として、時間軸上の1点(始点側(t=tps))が指定された場合の例である。
はじめに、重み算出部141は、切り替わり間隔記憶部144から、切り替わり間隔を取得する。ここで、メタデータごと、及び、属性値ごとの切り替わり間隔の内、どちらを用いるかについては、予め指定されていると仮定する。
例えば、メタデータM1(t)、M2(t)に対して、メタデータごとの切り替わり間隔、メタデータM3(t)に対して、属性値ごとの切り替わり間隔を用いる場合、重み算出部141は、メタデータM1(t)、M2(t)の切り替わり間隔の平均値MM1、MM2、メタデータM3(t)に係る属性値ごとの切り替わり間隔の平均値MM3B、MM3G、MM3Wを取得する。
そして、重み算出部141は、数16〜21式のように、メタデータ(M1(t)、M2(t)、M3(t))ごとに、属性値の切り替わり時刻の内、指定時刻tpsとの間の差分が最も小さい属性値の切り替わり時刻を算出する。ここで、メタデータM1(t)、M2(t)については、差分として、メタデータごとの切り替わり間隔の平均値MM1、MM2で補正した差分(|tps-tm1min|/MM1、|tps-tm2min|/MM2)が用いられる。また、メタデータM3(t)については、差分として、属性値ごとの切り替わり間隔の平均値MM3B、MM3G、MM3Wで補正した差分(|tps-tm3min|/MM3B、|tps-tm3min|/MM3G、|tps-tm3min|/MM3W)が用いられる。
Figure 2014021826
Figure 2014021826
Figure 2014021826
Figure 2014021826
Figure 2014021826
Figure 2014021826
そして、重み算出部141は、算出した切り替わり時刻(tm1min、tm2min、tm3min)を始点とする区間(近接区間)の属性値に対して、重みを算出する。ここで、重み算出部141は、指定時刻と切り替わり時刻との間の、補正された差分(|tps-tm1min|/MM1、|tps-tm2min|/MM2、|tps-tm3min|/MM3B)の値が小さいほど、大きな重みを付与する。すなわち、図10の場合、補正された差分の値は小さい順に|tps-tm21|/MM2、|tps-tm11|/MM1、|tps-tm31|/MM3Bであるため、重み算出部141は、属性値M2(tm21〜tm22)に最も大きな重みを付与し、次に属性値M1(tm11〜tm12)、そして属性値M3(tm31〜tm32)に最も小さい重みを付与する。なお、重み算出部141は、重みの配分を、差分|tps-tm21|/MM2、|tps-tm11|/MM1、|tps-tm31|/MM3Bに依存させてもよい。
なお、指定時刻として、時間軸上の1点(終点側(t=tpe)、始点側、終点側の区別なし(t=tp))が指定された場合や、時間軸上の2点(始点側(t=tps)と終点側(t=tpe))が指定された場合についても、重み算出部141は、上記と同様に、補正された差分を用いて、重みを算出する。
また、重み算出部141は、切り替わり間隔の平均値の代わりに、切り替わり間隔の平均値に分散値の平方根(標準偏差)を加えた値を使用してもよい。
次に、本発明の第1の実施の形態(ステップS105)と同様に、属性値出力部142は、算出された重みをもとに、指定時刻を指定した意図に係るメタデータの属性値を推定し、出力する(ステップS206)。
図10の例では、属性値M2(tm21〜tm22)、M1(tm11〜tm12)、M3(tm31〜tm32)の順に、大きな重みが付与されている。従って、属性値出力部142は、属性値M2(tm21〜tm22)を、指定時刻を指定した意図に係る属性値として出力する。
なお、本発明の第2の実施の形態では、重み算出部141が、推定対象のストリームデータとともに入力されたメタデータについて算出された切り替わり間隔を用いて、指定時刻と切り替わり時刻との間の差分を補正している。しかしながら、これに限らず、切り替わり間隔記憶部144は、他のストリームデータとともに入力された他のメタデータに対して算出された切り替わり間隔を記憶し、重み算出部141が、当該他のメタデータに対して算出された切り替わり間隔を用いて、差分を補正してもよい。
本発明の第2の実施の形態によれば、メタデータごと、あるいは、属性値ごとに属性値の切り替わり間隔が大きく異なる場合でも、指定時刻を指定した意図を、より適切に把握できる。その理由は、重み算出部141が、属性値の切り替わり間隔をもとに、指定時刻と切り替わり時刻との間の差分を補正し、補正した差分をもとに重みを算出するためである。
次に、本発明の第2の実施の形態の具体例を説明する。
(具体例1)
図11は、本発明の第2の実施の形態の第1の具体例における、ストリームデータ処理システムの構成を示すブロック図である。
図11のストリームデータ処理システムでは、ストリームデータとして、複数話者の発話を含む音声信号が用いられる。また、メタデータが示す属性の種類として、音声信号を取得した場所、音声信号に含まれる話題、及び、複数話者の発話状態が用いられる。
図11を参照すると、ストリームデータ処理システムは、ストリームデータ処理装置100に加えて、マイクロホン201、位置センサ202、メタデータ生成装置203、及び、ボタンスイッチ204を含む。
ストリームデータ処理装置100のストリームデータ入力部110には、マイクロホン201から音声信号ストリームデータが入力される。メタデータ入力部120には、メタデータ生成装置203で生成された複数のメタデータ(場所、話題、発話状態)が入力される。メタデータ生成装置203は、マイクロホン201からの音声信号ストリームデータを用いて、音声認識を行うことにより話題を推定し、話題に係るメタデータを生成する。また、メタデータ生成装置203は、発話がある場合に、その発話がユーザ(話者A)によるものかどうかを判別し、発話がない状態も含めて発話状態に係るメタデータを生成する。また、メタデータ生成装置203は、位置センサ202からの位置データストリームを用いて、場所に係るメタデータを生成する。指定時刻入力部130には、ボタンスイッチ204からの指定時刻を示す信号が入力される。ユーザ(話者A)は、ボタンスイッチ204により、音声信号ストリームデータにおける指定時刻を入力する。
図12は、本発明の第2の実施の形態の第1の具体例における、指定時刻、音声信号ストリーム、及び、メタデータの関係の例を示す図である。図12の例では、指定時刻として、時間軸上の2点(始点側(t=tps)と終点側(t=tpe))が指定されている。
メタデータ推定部140は、指定時刻tps、tpeに対する近接区間の属性値である、「場所:カフェテリア」、「話題:週末の宴会」、「話者:話者A」に対して、重みを算出する。そして、メタデータ推定部140は、指定時刻と切り替わり時刻との差分が小さい、「話題:週末の宴会」を、指定時刻tps、tpeを指定した意図に係る属性として出力する。
図11のストリームデータ処理システムの使用例として、例えば、ユーザ(話者A)が所持する携帯端末で、ユーザ(話者A)の発話を含む音声信号、及び、位置情報を記録しながら、複数の指定時刻を入力する。そして、当該ユーザ(話者A)が音声を聞き直したり、他の話者と共有したりするときに、各指定時刻に対して出力された属性値を参照することで、各指定時刻を指定した意図を確認できる。
(具体例2)
図13は、本発明の第2の実施の形態の第2の具体例における、ストリームデータ処理システムの構成を示すブロック図である。
図13のストリームデータ処理システムでは、ストリームデータとして、ビデオが用いられる。また、メタデータが示す属性の種類として、ビデオに含まれるBGM、風景、人物が用いられる。
図13を参照すると、ストリームデータ処理システムは、ストリームデータ処理装置100に加えて、コンテンツ配信装置205、ディスプレイ装置206、及び、ボタンスイッチ204を含む。
ストリームデータ処理装置100のストリームデータ入力部110には、コンテンツ配信装置205からビデオストリームデータが入力される。メタデータ入力部120には、コンテンツ配信装置205からビデオストリームデータに対応付けられた複数のメタデータ(BGM、風景、人物)が入力される。指定時刻入力部130には、ボタンスイッチ204からの指定時刻を示す信号が入力される。ビデオストリームデータは、また、ディスプレイ装置206により、ユーザに対して出力される。ユーザは、ボタンスイッチ204により、ビデオストリームデータにおける指定時刻を入力する。
図14は、本発明の第2の実施の形態の第2の具体例における、指定時刻、ビデオストリーム、及び、メタデータの関係の例を示す図である。図14の例では、指定時刻として、時間軸上の2点(始点側(t=tps)と終点側(t=tpe))が指定されている。
メタデータ推定部140は、指定時刻tps、tpeに対する近接区間の属性値である、「BGM:BGM2」、「風景:大自然」、「人物:人物A」に対して、重みを算出する。そして、メタデータ推定部140は、例えば、指定時刻と切り替わり時刻との差分が小さい、「BGM:BGM2」を、指定時刻tps、tpeを指定した意図に係る属性値として出力する。
図13のストリームデータ処理システムの使用例として、例えば、ユーザがビデオを視聴しながら複数の指定時刻を入力する。そして、当該ユーザがビデオを再度視聴するときに、各指定時刻に対して出力された属性値を参照することで、各指定時刻を指定した意図を確認できる。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
100 ストリームデータ処理装置
110 ストリームデータ入力部
120 メタデータ入力部
130 指定時刻入力部
140 メタデータ推定部
141 重み算出部
142 属性値出力部
143 切り替わり間隔算出部
144 切り替わり間隔記憶部
201 マイクロホン
202 位置センサ
203 メタデータ生成装置
204 ボタンスイッチ
205 コンテンツ配信装置
206 ディスプレイ装置

Claims (10)

  1. ストリームデータを入力するストリームデータ入力手段と、
    複数のメタデータの各々について、前記ストリームデータ上の位置に対応付けて当該メタデータの値を入力するメタデータ入力手段と、
    前記ストリームデータにおける、指定された位置である指定位置と、前記複数のメタデータの各々における各値が付与された区間と、の間の距離をもとに、前記複数のメタデータの内の当該指定位置の指定に係るメタデータの値を推定し、出力するメタデータ推定手段と、
    を含むストリームデータ処理装置。
  2. 前記メタデータ推定手段は、前記複数のメタデータの各々について、他の前記区間に比べて前記指定位置との距離が小さい前記区間である近接区間のメタデータの値を抽出し、当該抽出したメタデータの値に対して、前記指定位置と前記近接区間との間の距離に応じて大きくなる重みを算出し、前記複数のメタデータの値の内、当該算出された重みが他のメタデータに比べて大きいメタデータの値を、前記指定位置の指定に係るメタデータの値として出力する
    請求項1に記載のストリームデータ処理装置。
  3. 前記指定位置として、前記ストリームデータ上の一つの位置が指定され、
    前記メタデータ推定手段は、前記指定位置と前記区間との間の距離として、前記指定位置と前記区間の始点または終点との間の距離を用いる
    請求項2に記載のストリームデータ処理装置。
  4. 前記メタデータ推定手段は、前記複数のメタデータの各々について、他の前記区間に比べて前記指定位置との間の距離が小さく、かつ、前記指定位置を含む前記区間を、前記近接区間とする
    請求項3に記載のストリームデータ処理装置。
  5. 前記指定位置として、前記ストリームデータにおける第1位置と当該第1位置より後方の第2位置が指定され、
    前記メタデータ推定手段は、前記指定位置と前記区間との間の距離として、前記第1位置と前記区間の始点との間の距離及び前記第2位置と前記区間の終点との間の距離の合計距離を用いる
    請求項2に記載のストリームデータ処理装置。
  6. 前記メタデータ推定手段は、前記複数のメタデータの各々、または、前記複数のメタデータの各々における各値の、前記区間の長さの平均値をもとに、前記指定位置と前記区間との間の距離を補正する
    請求項1乃至5のいずれかに記載のストリームデータ処理装置。
  7. 前記メタデータ推定手段は、前記ストリームデータとは異なる他のストリームデータに対して入力された前記複数のメタデータの各々、または、前記複数のメタデータの各々における各値の、前記区間の長さの平均値をもとに、前記指定位置と前記区間との間の距離を補正する
    請求項6に記載のストリームデータ処理装置。
  8. 前記複数のメタデータの各々には信頼度が付与され、
    前記メタデータ推定手段は、前記複数のメタデータの値の各々について算出された重みに当該メタデータの信頼度を乗じ、前記複数のメタデータの値の内、当該信頼度を乗じた重みが他のメタデータの値に比べて大きいメタデータの値を、前記指定位置の指定に係るメタデータの値として出力する
    請求項2乃至5のいずれかに記載のストリームデータ処理装置。
  9. ストリームデータを入力し、
    複数のメタデータの各々について、前記ストリームデータ上の位置に対応付けて当該メタデータの値を入力し、
    前記ストリームデータにおける、指定された位置である指定位置と、前記複数のメタデータの各々における各値が付与された区間と、の間の距離をもとに、前記複数のメタデータの内の当該指定位置の指定に係るメタデータの値を推定し、出力する、
    ストリームデータ処理方法。
  10. コンピュータに、
    ストリームデータを入力し、
    複数のメタデータの各々について、前記ストリームデータ上の位置に対応付けて当該メタデータの値を入力し、
    前記ストリームデータにおける、指定された位置である指定位置と、前記複数のメタデータの各々における各値が付与された区間と、の間の距離をもとに、前記複数のメタデータの内の当該指定位置の指定に係るメタデータの値を推定し、出力する、
    処理を実行させるプログラム。
JP2012161493A 2012-07-20 2012-07-20 ストリームデータ処理装置、ストリームデータ処理方法、及び、プログラム Pending JP2014021826A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012161493A JP2014021826A (ja) 2012-07-20 2012-07-20 ストリームデータ処理装置、ストリームデータ処理方法、及び、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012161493A JP2014021826A (ja) 2012-07-20 2012-07-20 ストリームデータ処理装置、ストリームデータ処理方法、及び、プログラム

Publications (1)

Publication Number Publication Date
JP2014021826A true JP2014021826A (ja) 2014-02-03

Family

ID=50196610

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012161493A Pending JP2014021826A (ja) 2012-07-20 2012-07-20 ストリームデータ処理装置、ストリームデータ処理方法、及び、プログラム

Country Status (1)

Country Link
JP (1) JP2014021826A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016208440A1 (ja) * 2015-06-26 2016-12-29 株式会社デンソー センサの出力補正装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016208440A1 (ja) * 2015-06-26 2016-12-29 株式会社デンソー センサの出力補正装置
JP2017015410A (ja) * 2015-06-26 2017-01-19 株式会社デンソー センサ出力補正装置
US10767994B2 (en) 2015-06-26 2020-09-08 Denso Corporation Sensor output correction apparatus

Similar Documents

Publication Publication Date Title
US10126823B2 (en) In-vehicle gesture interactive spatial audio system
US9293133B2 (en) Improving voice communication over a network
EP3244403A1 (en) Dialogue processing program, dialogue processing method, and information processing device
US10375465B2 (en) System and method for alerting a user of preference-based external sounds when listening to audio through headphones
JP6217682B2 (ja) 情報処理装置及びプログラム
US20150195378A1 (en) Information processing apparatus, server, information processing method, and information processing system
KR102190988B1 (ko) 개별 화자 별 음성 제공 방법 및 컴퓨터 프로그램
EP3996088A1 (en) Method and computer program for generating voice for each individual speaker
US20120053937A1 (en) Generalizing text content summary from speech content
US8793128B2 (en) Speech signal processing system, speech signal processing method and speech signal processing method program using noise environment and volume of an input speech signal at a time point
CN105741833A (zh) 语音通信数据处理方法和装置
JPWO2009008115A1 (ja) 音声認識装置およびナビゲーションシステム
JP6973380B2 (ja) 情報処理装置、および情報処理方法
JP6254504B2 (ja) 検索サーバ、及び検索方法
JP6081906B2 (ja) 議論支援装置および議論支援プログラム
JP2014021826A (ja) ストリームデータ処理装置、ストリームデータ処理方法、及び、プログラム
JP7225673B2 (ja) 案内文生成装置、案内システム、案内文生成方法及びプログラム
JP6322125B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP2014149571A (ja) コンテンツ検索装置
US9992536B2 (en) Information provision device, information provision method, and information provision system
KR102190989B1 (ko) 동시 발화 구간에서의 음성 생성 방법
KR20150107520A (ko) 음성인식 방법 및 장치
JP2011013564A (ja) 情報提示装置および情報提示方法
WO2020208972A1 (ja) 応答生成装置及び応答生成方法
KR20130091128A (ko) 음성인식을 이용한 발음 평가 방법 및 이를 적용한 전자기기