JP2003288096A - コンテンツ情報配信方法、コンテンツ情報配信装置、コンテンツ情報配信プログラム - Google Patents

コンテンツ情報配信方法、コンテンツ情報配信装置、コンテンツ情報配信プログラム

Info

Publication number
JP2003288096A
JP2003288096A JP2002088582A JP2002088582A JP2003288096A JP 2003288096 A JP2003288096 A JP 2003288096A JP 2002088582 A JP2002088582 A JP 2002088582A JP 2002088582 A JP2002088582 A JP 2002088582A JP 2003288096 A JP2003288096 A JP 2003288096A
Authority
JP
Japan
Prior art keywords
probability
voice
section
state
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002088582A
Other languages
English (en)
Inventor
Kota Hidaka
浩太 日▲高▼
Shinya Nakajima
信弥 中嶌
Osamu Mizuno
理 水野
Haruhiko Kojima
治彦 児島
Hidekatsu Kuwano
秀豪 桑野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002088582A priority Critical patent/JP2003288096A/ja
Priority to US10/214,232 priority patent/US20030055634A1/en
Priority to EP02017720A priority patent/EP1288911B1/en
Priority to DE60204827T priority patent/DE60204827T2/de
Publication of JP2003288096A publication Critical patent/JP2003288096A/ja
Priority to US11/397,803 priority patent/US8793124B2/en
Pending legal-status Critical Current

Links

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

(57)【要約】 【課題】 何時でも携帯端末で映画等のコンテンツの要
約を視聴することができるコンテンツ情報配信方法を提
案する。 【解決手段】 コンテンツデータベースに蓄積された音
声付映像コンテンツを利用者の携帯端末からの指示によ
り検索して指定し、この指定されたコンテンツに付属し
た音声信号をフレーム毎に分析した特徴量に基づき強調
状態にある音声区間を要約区間として抽出し、この要約
区間の音声情報と、この音声情報に同期した映像情報を
要約コンテンツとして利用者の携帯端末又は表示器付電
話機に配信するコンテンツ情報配信方法を提案する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は外出先でもデータ
センタに格納されている各種コンテンツの要約を視聴す
ることができ、視聴の結果そのコンテンツが気に入れば
その場で自宅に備えた録画装置に、そのコンテンツを録
画させることを指示することができ、外出先でもコンテ
ンツを購入することができるコンテンツ販売方法、コン
テンツ販売システム及びこのコンテンツ販売システムを
コンピュータ上で実現するプログラムを提案しようとす
るものである。
【0002】
【従来の技術】従来より、通信網を介して映画等のコン
テンツを販売する実例が見られる。従来のこの種の販売
方法としては利用者のパーソナルコンピュータから販売
元のコンピュータにアクセスし、販売しているコンテン
ツの名称等を目録として利用者のパーソナルコンピュー
タに伝送し、利用者のパーソナルコンピュータにコンテ
ンツの名称等を表示させ、その名称の中から購入を希望
するコンテンツを指定し、そのコンテンツの要約を利用
者のパーソナルコンピュータに伝送する。
【0003】利用者は送られて来たコンテンツの要約を
視聴し、気に入ればそのコンテンツの購入を指示し、コ
ンテンツの本体を販売元から送らせてパーソナルコンピ
ュータに取り込み購入を完了する。従来はパーソナルコ
ンピュータが存在する環境下(一般に自宅)でなければ
コンテンツの要約を視聴したり、購入の指示を出すこと
ができなかった。また、視聴できる要約は予め販売元で
作成された一定の内容の要約しか用意されていないた
め、利用者の希望する要約でないことが多い。つまり、
総延長で2時間のコンテンツを5分に要約したり、10
分に要約したり、自由に圧縮率を選択できないため、詳
しい要約を視聴したい利用者には不満が残る。
【0004】また、従来の要約方法としては連続する複
数フレームからなる区間動画像を動画全体の各ブロック
から抽出し、抽出した各ブロックの区間動画像をつなぎ
合わせてダイジェスト画像とする装置があった。例え
ば、日本国特開平8−9310号公報、日本国特開平3
−90968号公報、日本国特開平6−165009号
公報などに示されている。また、利用者の好みに合った
番組のみをダイジェスト録画するために、番組ガイド情
報と利用者が設定したジャンル別優先順位テーブルから
ダイジェスト番組予約表を作成してダイジェスト録画す
る方法があった。例えば、日本国特開2001−157
169号公報などに示されている。
【0005】また、オーディオセグメントの時間圧縮方
法として、ポーズ圧縮の割合を精密に制御し、了解性の
高いダイジェストを作成する方法があった。例えば、日
本国特開2001−154700号公報などに示されて
いる。また、テロップや音情報を使って、当該番組映像
の特徴となる場面やシーンを抽出してダイジェスト映像
とするシステムがあった。例えば、日本国特開2001
−23062号公報などに示されている。
【0006】
【発明が解決しようとする課題】コンテンツを任意の時
間で要約、もしくはダイジェストを生成するには、コン
テンツを構成する各シーンの優先順位をあらかじめ求め
ておく必要がある。日本国特開平8−9310号公報、
日本国特開平3−90968号公報、日本国特開平6−
165009号公報では、利用者が重要と思うシーンを
ジョイスティックもしくは、複数のボタンを用いて入力
し、ダイジェスト優先度情報を付与しているが、利用者
にとってダイジェスト生成のための負担が大きく、自動
生成方法は無かった。
【0007】日本国特開2001−157169号公報
では、番組ガイド情報と利用者が設定したジャンル別優
先順位テーブルからダイジェスト番組予約表を作成して
ダイジェスト録画しているが、ダイジェストガイド情報
をコンテンツ作成者、もしくは送信者が作成しなければ
ならず、自動的にダイジェストを作成することは出来な
い。また、ダイジェストガイド情報の無いコンテンツの
要約への適応は不可能である。日本国特開2001−1
54700号公報では、ポーズ圧縮によって、ダイジェ
ストを生成しているがポーズを除去することで元のコン
テンツの1/10時間や1/20時間などに要約するこ
とは困難である。
【0008】日本国特開2000−23062号公報で
は、ダイジェスト映像生成方法として、音情報の音量値
をチェックしているが、音量情報のみから要約が生成さ
れる根拠が乏しく、また定量的な評価も行っていない。
また、テロップ情報も用いているが、テロップが存在し
ないコンテンツのダイジェストの生成や、テロップが出
現しない区間ではダイジェストを生成することは不可能
である。従ってこの要約方法は有用な要約方法ではな
い。この発明の目的は購入を希望するコンテンツの要約
を動画像を受信することができる携帯端末機或は、表示
器付の電話機等で受信し視聴することができそのコンテ
ンツの購入を希望する場合は、その携帯端末機或は表示
器付電話機等を利用して購入の手続を行なうことができ
更に、要約率も利用者が自由に設定し、コンテンツの内
容を利用者が希望する時間長に圧縮して視聴することが
できるコンテンツ販売方法、コンテンツ販売システム、
コンテンツ販売プログラムを提案しようとするものであ
る。
【0009】
【課題を解決するための手段】この発明は音声信号と同
期する映像信号を含むコンテンツとその属性を示す補助
情報を対応付けて蓄積するコンテンツ蓄積手段を具備
し、ユーザ端末から受信した補助情報に対応するコンテ
ンツの少なくとも一部をユーザ端末に送信するコンテン
ツ情報配信方法において、少なくとも基本周波数又はピ
ッチ周期、パワー、動的特徴量の時間変化特性、又はこ
れらのフレーム間差分を含む特徴量と強調状態での出現
確率とを対応して格納した符号帳を用い、前記音声信号
をフレーム毎に分析した前記特徴量に対応する強調状態
での出現確率を求め、前記強調状態での出現確率に基づ
いて強調状態となる確率を算出し、前記強調状態となる
確率が所定の確率よりも大きい音声信号区間を要約区間
と判断し、前記要約区間に同期する映像信号のうち少な
くとも1フレームの映像信号を代表映像信号として選択
し、前記代表映像信号と要約区間の少なくとも一部の音
声信号に基づく情報を送信するコンテンツ情報配信方法
を提案する。
【0010】この発明では更に前記符号帳が少なくとも
基本周波数又はピッチ周期、パワー、動的特徴量の時間
変化特性、又はこれらのフレーム間差分を含む特徴量と
強調状態での出現確率に対応して平静状態での出現確率
が格納され、前記音声信号をフレーム毎に分析した前記
特徴量に対応する平静状態での出現確率を求め、前記平
静状態での出現確率に基づいて平静状態となる確率を算
出し、前記強調状態となる確率の前記平静状態となる確
率に対する確率比が所定の係数より大きい音声信号区間
を要約区間と仮判定し、要約区間の時間の総和、又は要
約率として前記音声信号全区間の時間の前記要約区間の
時間の総和に対する比率を算出し、前記要約区間の時間
の総和又は前記総和の全音声信号区間に対する比である
ユーザ端末から受信または予め決められた所定の要約時
間又は要約率となる前記所定の係数を算出して要約区間
を決定するコンテンツ情報配信方法を提案する。
【0011】この発明では更に前記符号帳が少なくとも
基本周波数又はピッチ周期、パワー、動的特徴量の時間
変化特性、又はこれらのフレーム間差分を含む特徴量と
強調状態での出現確率に対応して平静状態での出現確率
が格納され、前記音声信号をフレーム毎に分析した前記
特徴量に対応する平静状態での出現確率を求め、前記平
静状態での出現確率に基づいて平静状態となる確率を算
出し、前記強調状態となる確率の前記平静状態となる確
率に対する確率比を音声信号区間ごとに算出し、前記確
率比に対応する音声信号区間の時間を降順に累積して要
約区間の時間の総和を算出し、前記要約区間の時間の総
和又は前記総和の全音声信号区間に対する比である要約
率がユーザ端末から受信または予め決められた所定の要
約時間又は要約率となる音声信号区間を前記要約区間と
決定するコンテンツ情報配信方法を提案する。
【0012】この発明では更に前記音声信号をフレーム
ごとに無音区間か否か、有声区間か否か判定し、所定フ
レーム数以上の無音区間で囲まれ、有声区間を含む部分
を音声小段落と判定し、音声小段落に含まれる有声区間
の平均パワーが該音声小段落内の平均パワーの所定の定
数倍より小さい音声小段落を末尾とする音声小段落群を
音声段落と判定し、前記音声信号区間は音声段落ごとに
定められたものであり、前記要約区間の時間の総和を前
記強調区間を含む音声段落ごとに累積して求めるコンテ
ンツ情報配信方法を提案する。
【0013】この発明では更にコンテンツの音声信号の
全てをそのまま前記ユーザ端末に配信するコンテンツ情
報配信方法において、前記音声信号の配信期間中に音声
の強調確率が所定値以上又は強調確率と平静確率との比
が所定値以上となる音声信号と同期した代表静止画を抽
出し、この代表静止画を前記音声信号と共に前記ユーザ
端末に配信するコンテンツ情報配信方法を提案する。こ
の発明では更に前記要約区間の音声情報を音声認識して
テキスト情報を生成し、前記音声信号に基づく情報とし
て前記テキスト情報を送信するコンテンツ情報配信方法
を提案する。
【0014】この発明によれば更に、前記テキスト情報
の少なくとも一部を構成する文字コードに対応する文字
画像パタンを前記代表映像に重畳して文字重畳映像を生
成し、前記代表映像信号と前記要約区間の少なくとも一
部の音声信号に基づく情報として前記文字重畳映像を送
信するコンテンツ情報配信方法を提案する。この発明で
は更に音声信号と同期する映像信号を含むコンテンツと
その属性を示す補助情報を対応付けて蓄積するコンテン
ツ蓄積手段を具備し、ユーザ端末から受信した補助情報
に対応するコンテンツの少なくとも一部をユーザ端末に
送信するコンテンツ情報配信装置において、少なくとも
基本周波数又はピッチ周期、パワー、動的特徴量の時間
変化特性、又はこれらのフレーム間差分を含む特徴量と
強調状態での出現確率とを対応して格納した符号帳と、
前記音声信号をフレーム毎に分析した前記特徴量に対応
する強調状態での出現確率を求め、前記強調状態での出
現確率に基づいて強調状態となる確率を算出する強調状
態確率計算部と、前記強調状態となる確率が所定の確率
よりも大きい音声信号区間を要約区間と判断する要約区
間決定部と、前記要約区間に同期する映像信号のうち少
なくとも1フレームの映像信号を代表映像信号として選
択する代表映像選択部と、前記代表映像信号と前記要約
区間の少なくとも一部の音声信号に基づく情報を送信す
る要約配信手段と、を有するコンテンツ情報配信装置を
提案する。
【0015】この発明では更に音声信号と同期する映像
信号を含むコンテンツとその属性を示す補助情報を対応
付けて蓄積するコンテンツ蓄積手段を具備し、ユーザ端
末から受信した補助情報に対応するコンテンツの音声信
号の全てを前記ユーザ端末に送信するコンテンツ情報配
信装置において、少なくとも基本周波数又はピッチ周
期、パワー、動的特徴量の時間変化特性、又はこれらの
フレーム間差分を含む特徴量と強調状態での出現確率と
を対応して格納した符号帳と、前記音声信号をフレーム
毎に分析した前記特徴量に対応する強調状態での出現確
率を求め、前記強調状態での出現確率に基づいて強調状
態となる確率を算出する強調状態確率計算部と、前記強
調状態となる確率が所定の確率よりも大きい音声信号に
同期した映像信号のうち少なくとも1フレームの映像信
号を代表映像信号として選択する代表映像選択部と、前
記コンテンツの音声情報の全てと前記代表映像信号とを
前記ユーザ端末に送信する要約配信手段とを有するコン
テンツ情報配信装置を提案する。
【0016】この発明では更に前記符号帳が少なくとも
基本周波数又はピッチ周期、パワー、動的特徴量の時間
変化特性、又はこれらのフレーム間差分を含む特徴量と
強調状態での出現確率に対応して平静状態での出現確率
が格納され、前記符号帳を用いて前記音声信号をフレー
ム毎に分析した前記特徴量に対応する平静状態での出現
確率を求め、前記平静状態での出現確率に基づいて平静
状態となる確率を算出する平静状態確率計算部と、前記
強調状態となる確率の前記平静状態となる確率に対する
確率比が所定の係数より大きい音声信号区間を要約区間
と仮判定する要約区間仮判定部と、要約区間の時間の総
和、又は要約率として前記音声信号全区間の時間の前記
要約区間の時間の総和に対する比率を算出し、前記要約
区間の時間の総和が略所定の要約時間に、又は前記要約
率が略所定の要約率となる前記所定の係数を算出して要
約区間を決定する要約区間決定部と、を有するコンテン
ツ情報配信装置を提案する。
【0017】この発明では更に前記符号帳が少なくとも
基本周波数又はピッチ周期、パワー、動的特徴量の時間
変化特性、又はこれらのフレーム間差分を含む特徴量と
強調状態での出現確率に対応して平静状態での出現確率
が格納され、前記符号帳を用いて前記音声信号をフレー
ム毎に分析した前記特徴量に対応する平静状態での出現
確率を求め、前記平静状態での出現確率に基づいて平静
状態となる確率を算出する平静状態確率計算部と、前記
強調状態となる確率の前記平静状態となる確率に対する
確率比を音声信号区間ごとに算出し、前記確率比に対応
する音声信号区間の時間を降順に所定の確率比まで累積
して要約区間の時間の総和を算出し要約区間と仮判定す
る要約区間仮判定部と、前記要約区間の時間の総和又は
前記総和の全音声信号区間に対する比である要約率がユ
ーザ端末から受信または予め決められた所定の要約時間
又は要約率となる音声信号区間を前記要約区間と決定す
る要約区間決定部と、を有するコンテンツ情報配信装置
を提案する。
【0018】この発明では更にコンピュータが読み取り
可能な符号によって記述され、前記コンテンツ情報配信
方法を実行するコンテンツ情報配信プログラムを提案す
る。 作用 この発明によるコンテンツ情報配信方法によれば外出先
でも携帯電話機或は表示器付電話機を使ってコンテンツ
の要約を視聴することができる。更に購入手続を行な
い、自宅に設置した記録装置に希望するコンテンツをデ
ータベースから配信させ、記録させることができる。
【0019】この結果、利用者はパーソナルコンピュー
タを利用できる環境下でなくとも、特に外出先からでも
コンテンツの購入手続を行なうことができ、何時でも、
どこからでもコンテンツの購入を行なうことができる。
また、この発明によれば動画を受信できる携帯端末或は
表示器付電話機さえあればどこにいても購入を希望する
コンテンツの要約を視聴することができる。特にコンテ
ンツの要約時間を利用者が自由に設定できる構成とする
ことができるから、コンテンツの内容を詳しく知りた
い、或は時間の都合により短時間しか視聴できない、等
の要求に対応することができる特徴を有する。
【0020】この発明の特徴とする点は、コンテンツ要
約時に利用者の端末からの要求に従って、どのような要
約率(圧縮率)にでもコンテンツを要約することができ
る要約方法を用いる点にある。この特徴とする要約方法
は、先願である特願2001−241278号で本出願
人が提案した、任意の音声小段落の発話状態を判定し、
強調状態となる確率が平静状態となる確率よりも大きけ
れば、その音声小段落を強調状態にあると判定し、その
音声小段落を含む音声段落を要約区間として抽出する音
声強調状態判定方法及び音声要約方法を利用して実現す
ることができる。
【0021】
【発明の実施の形態】ここで、この発明で用いられる音
声小段落抽出方法、音声段落抽出方法、各音声小段落毎
に強調状態となる確率及び平静状態となる確率を求める
方法について、説明する。図2に先に提案した音声要約
方法の実施形態の基本手順を示す。ステップS1で入力
音声信号を分析して音声特徴量を求める。ステップS2
で、入力音声信号の音声小段落と、複数の音声小段落か
ら構成される音声段落を抽出する。ステップS3で各音
声小段落を構成するフレームが平静状態か、強調状態か
発話状態を判定する。この判定に基づきステップS4で
要約音声を作成し、要約音声を得る。
【0022】以下に、自然な話し言葉や会話音声を、要
約に適用する場合の実施例を述べる。音声特徴量は、ス
ペクトル情報等に比べて、雑音環境下でも安定して得ら
れ、かつ話者に依存し難いものを用いる。入力音声信号
から音声特徴量として基本周波数(f0)、パワー
(p)、音声の動的特徴量の時間変化特性(d)、ポー
ズ時間長(無音区間)(ps)を抽出する。これらの音
声特徴量の抽出法は、例えば、「音響・音響工学」(古
井貞煕、近代科学社、1998)、「音声符号化」(守
谷健弘、電子情報通信学会、1998)、「ディジタル
音声処理」(古井貞煕、東海大学出版会、1985)、
「複合正弦波モデルに基づく音声分析アルゴリズムに関
する研究」(嵯峨山茂樹、博士論文、1998)などに
述べられている。音声の動的特徴量の時間変化は発話速
度の尺度となるパラメータであり特許第2976998
号に記載のものを用いてもよい。即ち、動的変化量とし
てスペクトル包絡を反映するLPCスペクトラム係数の
時間変化特性を求め、その時間変化をもとに発話速度係
数が求められるものである。より具体的にはフレーム毎
にLPCスペクトラム係数C1(t)、…Ck(t)を
抽出して次式のような動的特徴量d(ダイナミックメジ
ャー)を求める。d(t)=Σi=1k[Σf=t-f0t+f0[f
×Ci(t)]/(Σf=t-f0t+f0f2)2ここで、f0は
前後の音声区間フレーム数(必ずしも整数個のフレーム
でなくとも一定の時間区間でもよい)、kはLPCスペ
クトラムの次数、i=1、2、…kである。発話速度の
係数として動的特徴量の変化の極大点の単位時間当たり
の個数、もしくは単位時間当たりの変化率が用いられ
る。
【0023】実施例では例えば100msを1フレーム
とし、シフトを50msとする。1フレーム毎の平均の
基本周波数を求める(f0´)。パワーについても同様
に1フレーム毎の平均パワー(p´)を求める。更に現
フレームのf0´と±iフレーム前後のf0´との差分
をとり、±Δf0´i(Δ成分)とする。パワーについ
ても同様に現フレームのp´と±iフレーム前後のp´
との差分±Δp´i(Δ成分)を求める。f0´、±Δ
f0´i、p´、±Δp´iを規格化する。この規格は
例えばf0´、±Δf0´iをそれぞれ、音声波形全体
の平均基本周波数で割り規格化する。これら規格化され
た値をf0″、±f0″iと表す。p´、±Δp´iに
ついても同様に、発話状態判定の対象とする音声波形全
体の平均パワーで割り、規格化する。規格化するにあた
り、後述する音声小段落、音声段落ごとの平均パワーで
割ってもよい。これら規格化された値をp″、±Δp″
iと表す。iの値は例えばi=4とする。現フレームの
前後±T1msの、ダイナミックメジャーのピーク本
数、即ち動的特徴量の変化の極大点の個数dpを算出す
る。これと、現フレームの開始時刻の、T2ms前の時
刻を区間に含むフレームのdpとのΔ成分(−Δdp)
を求める。前記±T1msのdpと、現フレームの終了
時刻の、T3ms後の時刻を区間に含むフレームのdp
とのΔ成分(+Δdp)を求める。これら、T1、T
2、T3の値は例えばT1=T2=T3=450msと
する。フレームの前後の無音区間の時間長を±psとす
る。ステップS1ではこれら音声特徴パラメータの各値
をフレーム毎に抽出する。
【0024】ステップS2における入力音声の音声小段
落と、音声段落を抽出する方法の例を図3に示す。ここ
で音声小段落を発話状態判定を行う単位とする。ステッ
プS201で、入力音声信号の無音区間と有声区間を抽
出する。無音区間は例えばフレーム毎のパワーが所定の
パワー値以下であれば無音区間と判定し、有声区間は、
例えばフレーム毎の相関関数が所定の相関関数値以上で
あれば有声区間と判定する。有声/無声の決定は、周期
性/非周期性の特徴と同一視することにより、自己相関
関数や変形相関関数のピーク値で行うことが多い。入力
信号の短時間スペクトルからスペクトル包絡を除去した
予測残差の自己相関関数が変形相関関数であり、変形相
関関数のピークが所定の閾値より大きいか否かによって
有声/無声の判定を行い、又そのピークを与える遅延時
間によってピッチ周期1/f0(基本周波数f0)の抽
出を行う。これらの区間の抽出法の詳細は、例えば、
「ディジタル音声処理」(古井貞煕、東海大学出版会、
1985)などに述べられている。ここでは音声信号か
ら各音声特徴量をフレーム毎に分析することについて述
べたが、既に符号化等により分析された係数もしくは符
号に対応する特徴量を符号化に用いる符号帳から読み出
して用いてもよい。
【0025】ステップS202で、有声区間を囲む無音
区間の時間がそれぞれt秒以上になるとき、その無音区
間で囲まれた有声区間を含む部分を音声小段落とする。
このtは例えばt=400msとする。ステップS20
3で、この音声小段落内の好ましくは後半部の、有声区
間の平均パワーと、その音声小段落の平均のパワーの値
BAの定数β倍とを比較し、前者の方が小さい場合はそ
の音声小段落を末尾音声小段落とし、直前の末尾音声小
段落後の音声小段落から現に検出した末尾音声小段落ま
でを音声段落として決定する。
【0026】図4に、有声区間、音声小段落、音声段落
を模式的に示す。音声小段落を前記の、有声区間を囲む
無音区間の時間がt秒の条件で、抽出する。図4では、
音声小段落j−1、j、j+1について示している。こ
こで音声小段落jは、n個の有声区間から構成され、平
均パワーをPjとする。有声区間の典型的な例として、
音声小段落jに含まれる、有声区間vの平均パワーはp
vである。音声段落kは、音声小段落jと音声小段落を
構成する後半部分の有声区間のパワーから抽出する。i
=n−αからnまでの有声区間の平均パワーpiの平均
が音声小段落jの平均パワーPjより小さいとき、即
ち、 Σpi/(α+1)<βPj 式(1) を満たす時、音声小段落jが音声段落kの末尾音声小段
落であるとする。ただし、Σはi=n−αからnまでで
ある。式(1)のα、βは定数であり、これらを操作し
て、音声段落を抽出する。実施例では、αは3、βは
0.8とした。このようにして末尾音声小段落を区切り
として隣接する末尾音声小段落間の音声小段落群を音声
段落と判定できる。
【0027】図2中のステップS3における音声小段落
発話状態判定方法の例を図5に示す。ステップS301
で、入力音声小段落の音声特徴量をベクトル量子化す
る。このために、あらかじめ少なくとも2つの量子化音
声特徴量(コード)が格納された符号帳(コードブッ
ク)を作成しておく。ここでコードブックに蓄えられた
音声特徴量と入力音声もしくは既に分析して得られた音
声の音声特徴量との照合をとり、コードブックの中から
音声特徴量間の歪(距離)を最小にする量子化音声特徴
量を特定することが常套である。
【0028】図6に、このコードブックの作成法の例を
示す。多数の学習用音声を被験者が聴取し、発話状態が
平静状態であるものと、強調状態であるものをラベリン
グする(S501)。例えば、被験者が発話の中で強調
状態とする理由として、 (a)声が大きく、名詞や接続詞を伸ばすように発話す
る (b)話し始めを伸ばして話題変更を主張、意見を集約
するように声を大きくする (c)声を大きく高くして重要な名詞等を強調する時 (d)高音であるが声はそれほど大きくない (e)苦笑いしながら、焦りから本音をごまかすような
時 (f)周囲に同意を求める、あるいは問いかけるよう
に、語尾が高音になるとき (g)ゆっくりと力強く、念を押すように、語尾の声が
大きくなる時 (h)声が大きく高く、割り込んで発話するという主
張、相手より大きな声で (i)大きな声では憚られるような本音や秘密を発言す
る場合や、普段、声の大きい人にとっての重要なことを
発話するような時(例えば声が小さくボソボソ、ヒソヒ
ソという口調)を挙げた。この例では、平静状態とは、
前記の(a)〜(i)のいずれでもなく、発話が平静で
あると被験者が感じたものとした。
【0029】尚、上述では強調状態と判定する対象を発
話であるものとして説明したが、音楽でも強調状態を特
定することができる。ここでは音声付の楽曲において、
音声から強調状態を特定しようとした場合に、強調と感
じる理由として、 (a)声が大きく、かつ声が高い (b)声が力強い (c)声が高く、かつアクセントが強い (d)声が高く、声質が変化する (e)声を伸長させ、かつ声が大きい (f)声が大きく、かつ、声が高く、アクセントが強い (g)声が大きく、かつ、声が高く、叫んでいる (h)声が高く、アクセントが変化する (i)声を伸長させ、かつ、声が大きく、語尾が高い (j)声が高く、かつ、声を伸長させる (k)声を伸長させ、かつ、叫び、声が高い (l)語尾上がり力強い (m)ゆっくり強め (n)曲調が不規則 (o)曲調が不規則、かつ、声が高い また、音声を含まない楽器演奏のみの楽曲でも強調状態
を特定することができる。その強調と感じる理由とし
て、 (a)強調部分全体のパワー増大 (b)音の高低差が大きい (c)パワーが増大する (d)楽器の数が変化する (e)曲調、テンポが変化する 等である。
【0030】これらを基にコードブックを作成しておく
ことにより、発話に限らず音楽の要約も行うことができ
ることになる。平静状態と強調状態の各ラベル区間につ
いて、図2中のステップS1と同様に、音声特徴量を抽
出し(S502)、パラメータを選択する(S50
3)。平静状態と強調状態のラベル区間の、前記パラメ
ータを用いて、LBGアルゴリズムでコードブックを作
成する(S504)。LBGアルゴリズムについては、
例えば、(Y.Linde,A.Buzo and
R.M.Gray,“Analgorithm for
vector quantizer desig
n,”IEEE Trans.Commun.,vo
l.Com−28,pp.84−95,1980)があ
る。コードブックサイズは2のn乗個に可変である。こ
のコードブック作成は音声小段落で又はこれより長い適
当な区間毎あるいは学習音声全体の音声特徴量で規格化
した音声特徴量を用いることが好ましい。
【0031】図5中のステップS301で、このコード
ブックを用いて、入力音声小段落の音声特徴量を、各音
声特徴量について規格化し、その規格化された音声特徴
量をフレーム毎に照合もしくはベクトル量子化し、フレ
ーム毎にコード(量子化された音声特徴量)を得る。こ
の際の入力音声信号より抽出する音声特徴量は前記のコ
ードブック作成に用いたパラメータと同じである。強調
状態が含まれる音声小段落を特定するために、音声小段
落でのコードを用いて、発話状態の尤度(らしさ)を、
平静状態と強調状態について求める。このために、あら
かじめ、任意のコード(量子化音声特徴量)の出現確率
を、平静状態の場合と、強調状態の場合について求めて
おき、この出現確率とそのコードとを組としてコードブ
ックに格納しておく、以下にこの出現確率の求め方の例
を述べる。前記のコードブック作成に用いた学習音声中
のラベルが与えられた1つの区間(ラベル区間)の音声
特徴量のコード(フレーム毎に得られる)が、時系列で
Ci、Cj、Ck、…Cnであるとき、ラベル区間αが
強調状態となる確率をPα(e)、平静状態となる確率
をPα(n)とし、 Pα(e)=Pemp(Ci)Pemp(Cj|Ci)
…Pemp(Cn|Ci…Cn−1)=Pemp(C
i)ΠPemp(Cx|Ci…Cx−1) Pα(n)=Pnrm(Ci)Pnrm(Cj|Ci)
…Pnrm(Cn|Ci…Cn−1)=Pemp(C
i)ΠPnrm(Cx|Ci…Cx−1) となる。ただし、Pemp(Cx|Ci…Cx−1)は
コード列Ci…Cx−1の次にCxが強調状態となる条
件付確率、Pnrm(Cx|Ci…Cx−1)は同様に
Ci…Cx−1に対しCxが平静状態となる確率であ
る。ただし、Πはx=i+1からnまでの積である。ま
たPemp(Ci)は学習音声についてフレームで量子
化し、これらコード中のCiが強調状態とラベリングさ
れた部分に存在した個数を計数し、その計数値を全学習
音声の全コード数(フレーム数)で割り算した値であ
り、Pnrm(Ci)はCiが平静状態とラベリングさ
れた部分に存在した個数を全コード数で割り算した値で
ある。
【0032】このラベル区間αの各状態確率を簡単にす
るために、この例ではN−gramモデル(N<n)を
用いて、 Pα(e)=Pemp(Cn|Cn−N+1…Cn−
1) Pα(n)=Pnrm(Cn|Cn−N+1…Cn−
1) とする。つまりCnよりN−1個の過去のコード列Cn
−N+1…Cn−1の次にCnが強調状態として得られ
る確率をPα(e)とし、同様にN−gramの確率値
をより低次のM−gram(N≧M)の確率値と線形に
補間する線形補間法を適応することが好ましい。例えば
CnよりN−1個の過去のコード列Cn−N+1…Cn
−1の次にCnが平静状態として得られる確率をPα
(n)とする。このようなPα(e)、Pα(n)の条
件付確率をラベリングされた学習音声の量子化コード列
から全てを求めるが、入力音声信号の音声特徴量の量子
化したコード列と対応するものが学習音声から得られて
いない場合もある。そのため、高次(即ちコード列の長
い)の条件付確率を単独出現確率とより低次の条件付出
現確率とを補間して求める。例えばN=3のtrigr
am、N=2のbigram、N=1のunigram
を用いて線形補間法を施す。N−gram、線形補間
法、trigramについては、例えば、「音声言語処
理」(北 研二、中村 哲、永田昌明、森北出版、19
96、29頁)などに述べられている。即ち、 N=3(trigram):Pemp(Cn|Cn−2
Cn−1)、Pnrm(Cn|Cn−2Cn−1) N=2(bigram):Pemp(Cn|Cn−
1)、Pnrm(Cn|Cn−1) N=1(unigram):Pemp(Cn)、Pnr
m(Cn) であり、これら3つの強調状態でのCnの出現確率、ま
た3つの平静状態でのCnの出現確率をそれぞれ用いて
次式により、Pemp(Cn|Cn−2Cn−1)、P
nrm(Cn|Cn−2Cn−1)を計算することにす
る。 Pemp(Cn|Cn−2Cn−1)=λemp1Pemp(Cn|Cn−2Cn −1)+λemp2Pemp(Cn|Cn−1)+λemp3Pemp(Cn) 式(2) Pnrm(Cn|Cn−2Cn−1)=λnrmlPnrm(Cn|Cn−2Cn −1)+λnrm2Pnrm(Cn|Cn−1)+λnrm3Pnrm(Cn) 式(3) Trigramの学習データをNとしたとき、すなわ
ち、コードが時系列でC1、C2、...CNが得られ
たとき、λemp1、λemp2、λemp3の再推定
式は前出の参考文献「音声言語処理」より次のようにな
る。 λemp1=1/NΣ(λemp1Pemp(Cn|C
n−2C−1)/(λemp1Pemp(Cn|Cn−
2C−1)+λemp2Pemp(Cn|C−1)+λ
emp3Pemp(Cn))) λemp2=1/NΣ(λemp2Pemp(Cn|C
−1)/(λemp1Pemp(Cn|Cn−2C−
1)+λemp2Pemp(Cn|C−1)+λemp
3Pemp(Cn))) λemp3=1/NΣ(λemp3Pemp(Cn)/
(λemp1Pemp(Cn|Cn−2C−1)+λe
mp2Pemp(Cn|C−1)+λemp3Pemp
(Cn))) ただし、Σはn=1からNまでの和である。以下同様に
してλnrm1、λnrm2、λnrm3も求められ
る。
【0033】この例では、ラベル区間αがフレーム数N
αで得たコードがCi1、Ci2、…、CiNαのと
き、このラベル区間αが強調状態となる確率Pα
(e)、平静状態となる確率Pα(n)は、 Pα(e)=Pemp(Ci3|Ci1Ci2)…Pemp(CiNα|Ci( Nα−1)Ci(Nα−2)) 式(4) Pα(n)=Pnrm(Ci3|Ci1Ci2)…Pnrm(CiNα|Ci( Nα−1)Ci(Nα−2)) 式(5) となる。この計算ができるように前記のtrigra
m、unigram、bigramを任意のコードにつ
いて求めてコードブックに格納しておく。つまりコード
ブックには各コードの音声特徴量とその強調状態での出
現確率とこの例では平静状態での出現確率との組が格納
され、その強調状態での出現確率は、その音声特徴量が
過去のフレームでの音声特徴量と無関係に強調状態で出
現する確率(unigram:単独出現確率と記す)の
み、又はこれと、過去のフレームでの音声特徴量から現
在のフレームの音声特徴量に至るフレーム単位の音声特
徴量列毎に、その音声特徴量が強調状態で出現する条件
付確率との組合せの何れかであり、平静状態での出現確
率も同様に、その音声特徴量が過去のフレームでの音声
特徴量と無関係に平静状態で出現する確率(unigr
am:単独出現確率と記す)のみ、又はこれと、過去の
フレームでの音声特徴量から現在のフレームの音声特徴
量に至るフレーム単位の音声特徴量列毎にその音声特徴
量が平静状態で出現する条件付確率と組合せの何れかで
ある。
【0034】例えば図7に示すようにコードブックには
各コードC1、C2、…毎にその音声特徴量と、その単
独出現確率が強調状態、平静状態について、また条件付
確率が強調状態、平静状態についてそれぞれ組として格
納されている。図5中のステップS302では、入力音
声小段落の全フレームのコードについてのそのコードブ
ックに格納されている前記確率から、発話状態の尤度
を、平静状態と強調状態について求める。図8に実施例
の模式図を示す。時刻tから始まる音声小段落のうち、
第4フレームまでを〜で示している。前記のよう
に、ここでは、フレーム長は100ms、フレームシフ
トを50msとフレーム長の方を長くした。フレーム
番号f、時刻t〜t+100でコードCiが、フレー
ム番号f+1、時刻t+50〜t+150でコードCj
が、フレーム番号f+2、時刻t+100〜t+20
0でコードCkが、フレーム番号f+3、時刻t+1
50〜t+250でコードClが得られ、つまりフレー
ム順にコードがCi、Cj、Ck、Clであるとき、フ
レーム番号f+2以上のフレームでtrigramが計
算できる。音声小段落sが強調状態となる確率をPs
(e)、平静状態となる確率をPs(n)とすると第4
フレームまでの確率はそれぞれ、 Ps(e)=Pemp(Ck|CiCj)Pemp(Cl|CjCk) 式(6) Ps(n)=Pnrm(Ck|CiCj)Pnrm(Cl|CjCk) 式(7) となる。ただし、この例では、コードブックからCk、
Clの強調状態及び平静状態の各単独出現確率を求め、
またCjの次にCkが強調状態及び平静状態で各出現す
る条件付確率、更にCkがCi、Cjの次に、ClがC
j、Ckの次にそれぞれ強調状態及び平静状態でそれぞ
れ出現する条件付確率をコードブックから求めると、以
下のようになる。 Pemp(Ck|CiCj)=λemp1Pemp(Ck|CiCj)+λem p2Pemp(Ck|Cj)+λemp3Pemp(Ck) 式(8) Pemp(Cl|CjCk)=λemp1Pemp(Cl|CjCk)+λem p2Pemp(Cl|Ck)+λemp3Pemp(Cl) 式(9) Pnrm(Ck|CiCj)=λnrm1Pnrm(Ck|CiCj)+λnr m2Pnrm(Ck|Cj)+λnrm3Pnrm(Ck) 式(10) Pnrm(Cl|CjCk)=λnrm1Pnrm(Cl|CjCk)+λnr m2Pnrm(Cl|Ck)+λnrm3Pnrm(Cl) 式(11) 上記(8)〜(11)式を用いて(6)式と(7)式で
示される第4フレームまでの強調状態となる確率Ps
(e)と、平静状態となる確率Ps(n)が求まる。こ
こで、Pemp(Ck|CiCj)、Pnrm(Ck|
CiCj)はフレーム番号f+2において計算できる。
【0035】この例では、音声小段落sがフレーム数N
sで得たコードがCi1、Ci2、…、CiNsのと
き、この音声小段落sが強調状態になる確率Ps(e)
と平静状態になる確率Ps(n)を次式により計算す
る。 Ps(e)=Pemp(Ci3|Ci1Ci2)…Pe
mp(CiNs|Ci(Ns−1)Ci(Ns−2)) Ps(n)=Pnrm(Ci3|Ci1Ci2)…Pn
rm(CiNs|Ci(Ns−1)Ci(Ns−2)) この例ではこれらの確率が、Ps(e)>Ps(n)で
あれば、その音声小段落Sは強調状態、Ps(n)>P
s(e)であれば平静状態とする。
【0036】図9は以上説明した音声小段落抽出方法、
音声段落抽出方法、各音声小段落毎に強調状態となる確
率及び平静状態となる確率を求める方法を用いた音声強
調状態判定装置及び音声要約装置の実施形態を示す。入
力部11に音声強調状態が判定されるべき、又は音声の
要約が検出されるべき入力音声(入力音声信号)が入力
される。入力部11には必要に応じて入力音声信号をデ
ィジタル信号に変換する機能も含まれる。ディジタル化
された音声信号は必要に応じて記憶部12に格納され
る。音声特徴量抽出部13で前述した音声特徴量がフレ
ーム毎に抽出される。抽出した音声特徴量は必要に応じ
て、音声特徴量の平均値で規格化され、量子化部14で
各フレームの音声特徴量がコードブック15を参照して
量子化され、量子化された音声特徴量は強調確率計算部
16と平静確率計算部17に送り込まれる。コードブッ
ク15は例えば図7に示したようなものである。
【0037】強調確率計算部16によりその量子化され
た音声特徴量の強調状態での出現確率が、コードブック
15に格納されている対応する確率を用いて、例えば式
(8)又は(9)により計算される。同様に平静確率計
算部17により、前記量子化された音声特徴量の平静状
態での出現確率がコードブック15に格納されている対
応する確率を用いて、例えば式(10)又は(11)に
より計算される。強調確率計算部16及び平静確率計算
部17で各フレーム毎に算出された強調状態での出現率
と平静状態での出現確率及び各フレームの音声特徴量は
各フレームに付与したフレーム番号と共に記憶部12に格
納する。
【0038】これら各部の制御は制御部19の制御のも
とに順次行われる。音声要約装置の実施形態は、図9中
に実線ブロックに対し、破線ブロックが付加される。つ
まり記憶部12に格納されている各フレームの音声特徴
量が無音区間判定部21と有音区間判定部22に送り込
まれ、無音区間判定部21により各フレーム毎に無音区
間か否かが判定され、また有音区間判定部22により各
フレーム毎に有声区間か否かが判定される。これらの無
音区間判定結果と有音区間判定結果が音声小段落判定部
23に入力される。音声小段落判定部23はこれら無音
区間判定、有声区間判定に基づき、先の方法の実施形態
で説明したように所定フレーム数を連続する無音区間に
囲まれた有声区間を含む部分が音声小段落と判定する。
音声小段落判定部23の判定結果は記憶部12に書き込
まれ、記憶部12に格納されている音声データ列に付記
され、無音区間で囲まれたフレーム群に音声小段落番号
列を付与する。これと共に音声小段落判定部23の判定
結果は末尾音声小段落判定部24に入力される。
【0039】末尾音声小段落判定部24では、例えば図
4を参照して説明した手法により末尾音声小段落が検出
され、末尾音声小段落判定結果が音声段落判定部25に
入力され、音声段落判定部25により2つの末尾音声小
段落間の複数の音声小段落を含む部分を音声段落と判定
する。この音声段落判定結果も記憶部12に書き込ま
れ、記憶部12に記憶している音声小段落番号列に音声
段落列番号を付与する。音声要約装置として動作する場
合、強調確率計算部16及び平静確率計算部17では記
憶部12から各音声小段落を構成する各フレームの強調
確率と平静確率を読み出し、各音声小段落毎の確率が例
えば式(8)及び式(10)により計算される。強調状
態判定部18ではこの音声小段落毎の確率計算値を比較
して、その音声小段落が強調状態か否かを判定し、要約
区間取出し部26では音声段落中の1つの音声小段落で
も強調状態と判定されたものがあればその音声小段落を
含む音声段落を取り出す。各部の制御は制御部19によ
り行われる。
【0040】以上により音声で構成される音声波形を音
声小段落及び音声段落に分離する方法及び各音声小段落
毎に強調状態となる確率及び平静状態となる確率を算出
できることが理解できよう。以下では上述した各方法を
利用したこの発明による音声処理方法、音声処理装置及
び音声処理プログラムに関わる実施の形態を説明する。
図10にこの発明の音声処理方法の実施の形態の基本手
順を示す。この実施例ではステップS11で音声強調確
率算出処理を実行し、音声小段落の強調確率及び平静確
率を求める。
【0041】ステップS12では要約条件入力ステップ
S12を実行する。この要約条件入力ステップS12で
は例えば利用者に要約時間又は要約率或は圧縮率の入力
を促す情報を提供し、要約時間又は要約率或は要約率又
は圧縮率を入力させる。尚、予め設定された複数の要約
時間又は要約率、圧縮率の中から一つを選択する入力方
法を採ることもできる。ステップS13では抽出条件の
変更を繰り返す動作を実行し、ステップS12の要約条
件入力ステップS12で入力された要約時間又は要約
率、圧縮率を満たす抽出条件を決定する。
【0042】ステップS14で要約抽出ステップを実行
する。この要約抽出ステップS14では抽出条件変更ス
テップS13で決定した抽出条件を用いて採用すべき音
声段落を決定し、この採用すべき音声段落の総延長時間
を計算する。ステップ15では要約再生処理を実行し、
要約抽出ステップS14で抽出した音声段落列を再生す
る。図11は図10に示した音声強調確率算出ステップ
の詳細を示す。ステップS101で要約対象とする音声
波形列を音声小段落に分離する。
【0043】ステップS102ではステップS101で
分離した音声小段落列から音声段落を抽出する。音声段
落とは図4で説明したように、1つ以上の音声小段落で
構成され、意味を理解できる単位である。ステップS1
03及びステップS104でステップS101で抽出し
た音声小段落毎に図7で説明したコードブックと前記し
た式(8)、(10)等を利用して各音声小段落が強調
状態となる確率(以下強調確率と称す)Ps(e)と、
平静状態となる確率(以下平静確率と称す)Ps(n)
とを求める。
【0044】ステップS105ではステップS103及
びS104において各音声小段落毎に求めた強調確率P
s(e)と平静確率Ps(n)などを各音声小段落毎に
仕分けして記憶手段に音声強調確率テーブルとして格納
する。図12に記憶手段に格納した音声強調確率テーブ
ルの一例を示す。図12に示すF1、F2、F3…は音
声小段落毎に求めた音声小段落強調確率Ps(e)と、
音声小段落平静確率Ps(n)を記録した小段落確率記
憶部を示す。これらの小段落確率記憶部F1、F2、F
3…には各音声小段落Sに付された音声小段落番号i
と、開始時刻(言語列の先頭から計時した時刻)終了時
刻、音声小段落強調確率、音声小段落平静確率、各音声
小段落を構成するフレーム数fn等が格納される。
【0045】要約条件入力ステップS12で入力する条
件としては要約すべきコンテンツの全長を1/X(Xは
正の整数)の時間に要約することを示す要約率X(請求
項1記載の要約率を指す)、あるいは要約時間tを入力
する。この要約条件の設定に対し、抽出条件変更ステッ
プS13では初期値として重み係数WをW=1に設定
し、この重み係数を要約抽出ステップS14に入力す
る。要約抽出ステップS14は重み係数W=1として音
声強調確率テーブルから各音声小段落毎に格納されてい
る強調確率Ps(e)と平静確率Ps(e)とを比較
し、 W・Ps(e)>Ps(n) の関係にある音声小段落を抽出すると共に、更にこの抽
出した音声小段落を一つでも含む音声段落を抽出し、抽
出した音声段落列の総延長時間MT(分)を求める。
【0046】抽出した音声段落列の総延長時間MT
(分)と要約条件で決めた所定の要約時間YT(分)と
を比較する。ここでMT≒YT(YTに対するMTの誤
差が例えば±数%程度の範囲)であればそのまま採用し
た音声段落列を要約音声として再生する。要約条件で設
定した要約時間YTに対するコンテンツの要約した総延
長時間MTとの誤差値が規定より大きく、その関係がM
T>YTであれば抽出した音声段落列の総延長時間MT
(分)が、要約条件で定めた要約時間YT(分)より長
いと判定し、図10に示した抽出条件変更ステップS1
3を再実行させる。抽出条件変更ステップS13では重
み係数がW=1で抽出した音声段落列の総延長時間MT
(分)が要約条件で定めた要約時間YT(分)より「長
い」とする判定結果を受けて強調確率Ps(e)に現在
値より小さい重み付け係数W(請求項1記載の所定の係
数の場合は現在値よりも大きくする)を乗算W・Ps
(e)して重み付けを施す。重み係数Wとしては例えば
W=1−0.001×K(Kはループ回数)で求める。
【0047】つまり、音声強調確率テーブルから読み出
した音声段落列の全ての音声小段落で求められている強
調確率Ps(e)の配列に1回目のループではW=1−
0.001×1で決まる重み係数W=0.999を乗算
し、重み付けを施す。この重み付けされた全ての各音声
小段落の強調確率W・Ps(e)と各音声小段落の平静
確率Ps(n)とを比較し、W・Ps(e)>Ps
(n)の関係にある音声小段落を抽出する。この抽出結
果に従って要約抽出ステップS14では抽出された音声
小段落を含む音声段落を抽出し、要約音声段落列を再び
求める。これと共に、この要約音声段落列の総延長時間
MT(分)を算出し、この総延長時間MT(分)と要約
条件で定められる要約時間YT(分)とを比較する。比
較の結果がMT≒YTであれば、その音声段落列を要約
音声と決定し、再生する。
【0048】1回目の重み付け処理の結果が依然として
MT>YTであれば抽出条件変更ステップを、2回目の
ループとして実行させる。このとき重み係数WはW=1
−0.001×2で求める。全ての強調確率Ps(e)
にW=0.998の重み付けを施す。このように、ルー
プの実行を繰り返す毎にこの例では重み係数Wの値を徐
々に小さくするように抽出条件を変更していくことによ
りWPs(e)>Ps(n)の条件を満たす音声小段落
の数を漸次減らすことができる。これにより要約条件を
満たすMT≒YTの状態を検出することができる。
【0049】尚、上述では要約時間MTの収束条件とし
てMT≒YTとしたが、厳密にMT=YTに収束させる
こともできる。この場合には要約条件に例えば5秒不足
している場合、あと1つの音声段落を加えると10秒超
過してしまうが、音声段落から5秒のみ再生することで
利用者の要約条件に一致させることができる。また、こ
の5秒は強調と判定された音声小段落の付近の5秒でも
よいし、音声段落の先頭から5秒でもよい。 また、上述した初期状態でMT<YTと判定された場合
は重み係数Wを現在値よりも小さく例えばW=1−0.
001×Kとして求め、この重み係数Wを平静確率Ps
(n)の配列に乗算し、平静確率Ps(n)に重み付け
を施せばよい。また、他の方法としては初期状態でMT
>YTと判定された場合に重み係数を現在値より大きく
W=1+0.001×Kとし、この重み係数Wを平静確
率Ps(n)の配列に乗算してもよい。
【0050】また、要約再生ステップS15では要約抽
出ステップS14で抽出した音声段落列を再生するもの
として説明したが、音声付の画像情報の場合、要約音声
として抽出した音声段落に対応した画像情報を切り出し
てつなぎ合わせ、音声と共に再生することによりテレビ
放送の要約、あるいは映画の要約等を行うことができ
る。また、上述では音声強調確率テーブルに格納した各
音声小段落毎に求めた強調確率又は平静確率のいずれか
一方に直接重み係数Wを乗算して重み付けを施すことを
説明したが、強調状態を精度良く検出するためには重み
係数Wに各音声小段落を構成するフレームの数F乗して
WFとして重み付けを行うことが望ましい。
【0051】つまり、式(8)及び式(10)で算出す
る条件付の強調確率Ps(e)は各フレーム毎に求めた
強調状態となる確率の積を求めている。また平静状態と
なる確率Ps(n)も各フレーム毎に算出した平静状態
となる確率の積を求めている。従って、例えば強調確率
Ps(e)に重み付けを施すには各フレーム毎に求めた
強調状態となる確率毎に重み付け係数Wを乗算すれば正
しい重み付けを施したことになる。この場合には音声小
段落を構成するフレーム数をFとすれば重み係数WはW
Fとなる。
【0052】この結果、フレームの数Fに応じて重み付
けの影響が増減され、フレーム数の多い音声小段落ほ
ど、つまり延長時間が長い音声小段落程大きい重みが付
されることになる。但し、単に強調状態を判定するため
の抽出条件を変更すればよいのであれば各フレーム毎に
求めた強調状態となる確率の積又は平静状態となる積に
重み係数Wを乗算するだけでも抽出条件の変更を行うこ
とができる。従って、必ずしも重み付け係数WをWFと
する必要はない。
【0053】また、上述では抽出条件の変更手段として
音声小段落毎に求めた強調確率Ps(e)又は平静確率
Ps(n)に重み付けを施してPs(e)>Ps(n)
を満たす音声小段落の数を変化させる方法を採ったが、
他の方法として全ての音声小段落の強調確率Ps(e)
と平静確率Ps(n)に関してその確率比Ps(e)/
Ps(n)を演算し、この確率比の降順に対応する音声
信号区間(音声小段落)を累積して要約区間の和を算出
し、要約区間の時間の総和が、略所定の要約時間に合致
する場合、そのときの音声信号区間を要約区間と決定し
て要約音声を編成する方法も考えられる。
【0054】この場合、編成した要約音声の総延長時間
が要約条件で設定した要約時間に対して過不足が生じた
場合には、強調状態にあると判定するための確率比Ps
(e)/Ps(n)の値を選択する閾値を変更すれば抽
出条件を変更することができる。この抽出条件変更方法
を採る場合には要約条件を満たす要約音声を編成するま
での処理を簡素化することができる利点が得られる。上
述では各音声小段落毎に求める強調確率Ps(e)と平
静確率Ps(n)を各フレーム毎に算出した強調状態と
なる確率の積及び平静状態となる確率の積で算出するも
のとして説明したが、他の方法として各フレーム毎に求
めた強調状態となる確率の平均値を求め、この平均値を
その音声小段落の強調確率Ps(e)及び平静確率Ps
(n)として用いることもできる。
【0055】従って、この強調確率Ps(e)及び平静
確率Ps(n)の算出方法を採る場合には重み付けに用
いる重み付け係数Wはそのまま強調確率Ps(e)又は
平静確率Ps(n)に乗算すればよい。図13を用いて
要約率を自由に設定することができる音声処理装置の実
施例を示す。この実施例では図9に示した音声強調状態
要約装置の構成に要約条件入力部31と、音声強調確率
テーブル32と、強調小段落抽出部33と、抽出条件変
更部34と、要約区間仮判定部35と、この要約区間仮
判定部35の内部に要約音声の総延長時間を求める総延
長時間算出部35Aと、この総延長時間算出部35Aが
算出した要約音声の総延長時間が要約条件入力部31で
入力した要約時間の設定の範囲に入っているか否かを判
定する要約区間決定部35Bと、要約条件に合致した要
約音声を保存し、再生する要約音声保存・再生部35C
を設けた構成とした点を特徴とするものである。
【0056】入力音声は図8で説明したように、フレー
ム毎に音声特徴量が求められ、この音声特徴量に従って
強調確率計算部16と平静確率計算部17でフレーム毎
に強調確率と、平静確率とを算出し、これら強調確率と
平静確率を各フレームに付与したフレーム番号と共に記
憶部12に格納する。更に、このフレーム列番号に音声
小段落判定部で判定した音声小段落列に付与した音声小
段落列番号が付記され、各フレーム及び音声小段落にア
ドレスが付与される。この発明による音声処理装置では
強調確率算出部16と平静確率算出部17は記憶部12
に格納している各フレームの強調確率と平静確率を読み
出し、この強調確率及び平静確率から各音声小段落毎に
強調確率Ps(e)と平静確率Ps(n)とを求め、こ
れら強調確率Ps(e)と平静確率Ps(n)を音声強
調テーブル32に格納する。
【0057】音声強調テーブル32には各種のコンテン
ツの音声波形の音声小段落毎に求めた強調確率と平静確
率とが格納され、いつでも利用者の要求に応じて要約が
実行できる体制が整えられている。利用者は要約条件入
力部31に要約条件を入力する。ここで言う要約条件と
は要約したいコンテンツの名称と、そのコンテンツの全
長時間に対する要約率を指す。要約率としてはコンテン
ツの全長を1/10に要約するか、或は時間で10分に
要約するなどの入力方法が考えられる。ここで例えば1
/10と入力した場合は要約時間算出部31Aはコンテ
ンツの全長時間を1/10した時間を算出し、その算出
した要約時間を要約区間仮判定部35の要約区間決定部
35Bに送り込む。
【0058】要約条件入力部31に要約条件が入力され
たことを受けて制御部19は要約音声の生成動作を開始
する。その開始の作業としては音声強調テーブル32か
ら利用者が希望したコンテンツの強調確率と平静確率を
読み出す。読み出された強調確率と平静確率を強調小段
落抽出部33に送り込み、強調状態にあると判定される
音声小段落番号を抽出する。強調状態にある音声区間を
抽出するための条件を変更する方法としては上述した強
調確率Ps(e)又は平静確率Ps(n)に確率比の逆
数となる重み付け係数Wを乗算しW・Ps(e)>Ps
(n)の関係にある音声小段落を抽出し、音声小段落を
含む音声段落により要約音声を得る方法と、確率比Ps
(e)/Ps(n)を算出し、この確率比を降順に累算
して要約時間を得る方法とを用いることができる。
【0059】抽出条件の初期値としては重み付けにより
抽出条件を変更する場合には重み付け係数WをW=1と
して初期値とすることが考えられる。また、各音声小段
落毎に求めた強調確率Ps(e)と平静確率Ps(n)
の確率比Ps(e)/Ps(n)の値に応じて強調状態
と判定する場合は初期値としてその比の値が例えばPs
(e)/Ps(n)≧1である場合を強調状態と判定す
ることが考えられる。この初期設定状態で強調状態と判
定された音声小段落番号と開始時刻、終了時刻を表わす
データを強調小段落抽出部33から要約区間仮判定部3
5に送り込む。要約区間仮判定部35では強調状態と判
定した強調小段落番号を含む音声段落を記憶部12に格
納している音声段落列から検索し、抽出する。抽出した
音声段落列の総延長時間を総延長時間算出部35Aで算
出し、その総延長時間と要約条件で入力された要約時間
とを要約区間決定部35Bで比較する。比較の結果が要
約条件を満たしていれば、その音声段落列を要約音声保
存・再生部35Cで保存し、再生する。この再生動作は
強調小段落抽出部33で強調状態と判定された音声小段
落の番号から音声段落を抽出し、その音声段落の開始時
刻と終了時刻の指定により各コンテンツの音声データ或
は映像データを読み出して要約音声及び要約映像データ
として送出する。
【0060】要約区間決定部35Bで要約条件を満たし
ていないと判定した場合は、要約区間決定部35Bから
抽出条件変更部34に抽出条件の変更指令を出力し、抽
出条件変更部34に抽出条件の変更を行わせる。抽出条
件変更部34は抽出条件の変更を行い、その抽出条件を
強調小段落抽出部33に入力する。強調小段落抽出部3
3は抽出条件変更部34から入力された抽出条件に従っ
て再び音声強調確率テーブル32に格納されている各音
声小段落の強調確率と平静確率との比較判定を行う。
【0061】強調小段落抽出部33の抽出結果は再び要
約区間仮判定部35に送り込まれ、強調状態と判定され
た音声小段落を含む音声段落の抽出を行わせる。この抽
出された音声段落の総延長時間を算出し、その算出結果
が要約条件を満たすか否かを要約区間決定部35Bで行
う。この動作が要約条件を満たすまで繰り返され、要約
条件が満たされた音声段落列が要約音声及び要約映像デ
ータとして記憶部12から読み出されユーザ端末に配信
される。以上により音声波形を音声小段落及び音声段落
に分離する方法及び各音声小段落毎に強調状態となる確
率及び平静状態となる確率を算出できること及び音声の
要約率を自由に変更して任意の長さの要約音声を得るこ
とができることが理解できよう。
【0062】以下では上述した各方法を利用したこの発
明によるコンテンツ情報配信方法、コンテンツ情報配信
装置、コンテンツ情報配信プログラムに関わる実施の形
態を説明する。図1にこの発明によるコンテンツ情報配
信方法及びコンテンツ情報配信装置を説明するためのブ
ロック図を示す。図中100はコンテンツプロバイダ装
置、200はデータセンタ、300は端末機群、400
は記録装置、500は課金部、600はこれらの間を接
続する通信網を示す。通信網600は例えば電話回線
網、インターネット、ケーブルテレビ網、等を用いるこ
とが考えられる。
【0063】コンテンツプロバイダ装置100は例えば
テレビ放送局、映画配給会社等のコンテンツ供給者が管
理する計算機または通信機器を示す。自ら創作もしくは
管理するコンテンツとその名称や制作日や制作者等の書
誌情報や著作権情報を補助情報として記録する。図1で
はコンテンツプロバイダ装置100を一つだけ示すが、
現実には、多数のコンテンツプロバイダ装置が存在する
ものと考える。コンテンツプロバイダ装置100は販売
を希望するコンテンツ(一般に映画のような音声付映像
情報)を通信網600を通じてデータセンタ200に送
信する。尚、コンテンツの搬入に関しては通信網600
を利用する形態の他に、磁気テープ、DVD等の記録媒
体に記録した形態でデータセンタ200に搬入する形態
も考えられる。
【0064】データセンタ200は例えば通信網600
を運営する通信会社或はその他の第3者が運営してもよ
く、コンテンツデータベース201を備え、そこにコン
テンツプロバイダ装置100から受信したコンテンツと
補助情報を対応付けて蓄積する。さらに検索手段202
と要約手段203と、要約配信手段204と、コンテン
ツ配信手段205と、配信先アドレス照合手段206
と、代表映像選択部207とが設けられる。端末機群3
00は動画情報を受信することができる携帯電話機30
1或はLモード対応形と呼ばれている表示器付電話機3
02、或は動画情報を送信し、受信することができる情
報端末303等を利用することができる。この実施例で
は説明を簡素化するために以下では携帯電話機301を
用いて要約の依頼と、コンテンツの注文を行なうものと
して説明する。
【0065】記録装置400は携帯電話機301を利用
する利用者が所有する装置である。ここでは携帯電話機
301の利用者の自宅に設置されているものとする。課
金部500は通信網600に接続され、データセンタ2
00からコンテンツが配信されたことを示す信号を受信
し、当該配信先に対するコンテンツの対値の課金処理を
行なう。携帯電話機301にコンテンツの要約を配信す
る過程から、記録装置400へコンテンツが配信されて
コンテンツの販売が完了するまでの過程を以下に説明す
る。
【0066】(1)携帯電話機301からデータセンタ
200に希望するコンテンツ名もしくはその識別情報と
必要に応じて要約率又は要約時間を送信し、データセン
タ200で受信する。 (2)データセンタ200では検索手段201が携帯電
話機301から送られて来たコンテンツ名に従って、デ
ータベース201内を検索し、与えられたコンテンツを
抽出する。 (3)検索手段201が抽出したコンテンツは要約手段
203に入力され要約手段203でコンテンツの要約を
生成する。ここで、コンテンツに含まれる音声信号につ
いて図13を用いて説明した音声処理を用いて要約区間
を決定する。携帯電話機301から送信された要約率又
は要約時間で強調状態を判定し、強調状態に基づいて決
定される。要約率又は要約時間は必ずしも携帯電話機3
01から入力されたものでなくともよく、または予め設
定記憶された数値(例えば、5倍、20秒、等)を用い
てもよい。
【0067】決定された要約区間毎に同期するコンテン
ツ映像信号から少なくとも1フレームの代表静止映像を
選択する。代表静止映像として各要約区間の映像信号の
先頭または終端、あるいは特開平8−32924号公報
記載のようにフレーム間距離が予め定められた閾値より
大きくその距離変化が基準値よりも小さいフレームの画
像、つまりカット点画像を選択してもよい。あるいは、
音声の強調状態となる確率Ps(e)が最大になる時刻
の画像フレーム又は音声の強調状態となる確率Ps
(e)と平静状態となる確率Pn(e)との確率比Ps
(e)/Pn(e)が最大になる時刻の画像フレームを
代表静止画像としてもよい。また、かかる代表静止画像
の選択は音声段落ごとに行ってもよい。従って、要約コ
ンテンツとして得られた各要約区間の音声信号と代表静
止画像が決定される。
【0068】(4)要約配信手段204は要約手段20
3が生成した要約コンテンツを携帯端末301に配信す
る。 (5)携帯電話機301にはデータセンタ200から配
信された要約コンテンツのうち代表静止画像を表示器で
表示し、要約区間の音声を再生する。これにより必ずし
も全画像情報を伝送する必要性はなくなり、要約区間の
音声により情報の欠落を補える。移動通信のように通信
容量が極めて制限されている場合でもコンテンツの概要
を情報の欠落を最小限にして配信することが可能にな
る。
【0069】(6)要約コンテンツを視聴した利用者の
操作により、当該コンテンツの全体の配信を受けること
を示すコンテンツ注文情報をデータセンタ200に送信
する。 (7)データセンタ200ではコンテンツ注文情報を入
力し、携帯電話機301に割り当てられている電話番号
や電子メールアドレス等の端末識別情報に対応する配信
先装置の識別情報を配信先アドレス照合手段206を用
いて特定する。 (8)アドレス照合手段206には予め各携帯電話30
1の利用者名、携帯電話の端末識別情報、配信先装置の
識別情報を対応付けて記憶しておく。配信先装置は利用
者の携帯電話自体でもよいし、普段から用いているパー
ソナルコンピュータでもよい。
【0070】(9)コンテンツ配信手段205は希望コ
ンテンツをコンテンツデータベース201から入力し識
別情報が示す配信先に送信する。 (10)記録装置400はアクセス検知手段401で通
信網600から自己に割り当られているアドレスを検知
し、その検知信号により、記録装置400を起動させア
ドレスに添付されているコンテンツ情報を取り込み記録
する。 (11)課金部500はコンテンツ配信に伴う課金処理
を行う。例えば、配信先のユーザの金融口座の金融残高
から配信したコンテンツ対価を控除するとともに、コン
テンツ販売者の金融口座の金融残高に当該コンテンツ対
価を加算して実現される。
【0071】上述では音声の要約区間毎に、代表静止画
を抽出し、要約された音声情報と代表静止画を配信する
方法を実施例として説明したが、他の実施例として、音
声は要約せずに連続して原音声情報のままユーザ端末に
配信し、その配信期間中例えば音声の強調確率が高い部
分で代表静止画を抽出し、その代表静止画を配信する方
法も考えられる。代表静止画の抽出方法としては、 A.時間t秒毎に、そのt秒間で最も強調確率が高い音
声信号と同期した映像を代表静止画として抽出する方法
と、 B.音声小段落毎にその音声小段落期間中各フレームで
強調確率が高いフレームと同期した映像を代表静止画と
してS枚抽出する方法と、 C.音声小段落毎に、音声小段落の時間がy秒のとき、
このy秒を一定値tで正規化したy/t枚の代表静止画
を音声の強調確率の高い音声信号と同期して抽出する方
法と、 D.音声小段落の各フレームの強調確率の値、又は強調
確率と平静確率の比の値、重み係数Wの値のそれぞれに
比例した枚数で代表静止画を抽出する方法。 E.前記B〜Dの音声小段落を音声段落に変更した抽出
方法、 等が考えられる。
【0072】つまり、前記Aではt秒間毎にそのt秒間
の間で最も強調確率が高い音声信号に同期した代表静止
画を例えば1枚抽出する例を示す。また前記Bでは音声
小段落毎に各音声小段落の強調確率が高いフレームと同
期した映像を任意のS枚抽出し、これを代表静止画とす
る実施例を示す。更に、前記Cでは音声小段落の時間y
の長短に比例した枚数の静止画を抽出する実施例を示
す。更に、前記Dでは強調確率の値に比例した枚数の静
止画を抽出する実施例を示す。
【0073】この実施例を実現するためには、図1に示
したコンテンツ配信手段205は検索手段202で検索
されたコンテンツの音声信号をコンテンツデータベース
201からそのままユーザ端末301又は302、30
3に配信すると共に要約手段203で音声信号の強調確
率又は強調確率と平静確率の比Pe/Pn又は強調状態
と判定するための閾値を変更するための重みWの値を算
出させ、その値に応じて代表映像選択部207で代表静
止画を抽出させ、その抽出した代表静止画を音声信号と
共に、コンテンツ配信手段205からユーザ端末に配信
すればよい。
【0074】これらの実施例によれば音声信号に関して
は欠落することなく、全てを聴くことができる。これに
加えて音声に同期して音声の強調状態と判定される部分
と同期した静止画が間欠的に表示される。この結果例え
ばドラマ等は始まりから、終了までの全ての流れを知る
ことができるから、ユーザに対して伝達できる情報量が
大きいにも係わらず、実際に伝送されているデータ量を
小さくできる利点が得られる。尚、上述ではデータセン
タ200に配信先アドレス照合手段206を設けた例を
説明したが、この配信先アドレス照合手段206は必ず
しも必要としない。つまり、配信先が携帯電話機301
である場合には配信先装置の識別情報として携帯電話機
301の識別情報を用いればよい。
【0075】また要約手段203は音声認識手段を備
え、要約区間の音声信号から音韻列を特定し、その音韻
列を示すテキスト情報を生成する。音声認識手段として
は古井著「音響・音声工学」(近代科学社、1992
年)記載のものに限らず音波から発声内容を示すテキス
ト情報を決定するものであればよい。生成されたテキス
ト情報を音声信号の変わりに要約コンテンツの一部とし
て送信してもよい。その場合、携帯電話機301では文
字コードとも文字画像パタンを対応して記憶しておき、
要約コンテンツのテキストを構成する文字コードに対応
する文字画像パタンを特定し、これを字幕のように代表
画像に重畳した文字重畳画像を表示してもよい。
【0076】また、音声信号が要約コンテンツとして伝
送される場合でも携帯電話機301に音声認識手段を備
えることにより、伝送された音声信号を認識して得られ
たテキスト情報に基づく文字画像パタンを生成して代表
画像に重畳した文字重畳画像を表示してもよい。要約手
段203において文字コードと共に文字画像パタンを対
応して記憶しておき、テキスト情報を構成する文字コー
ドに対応する文字画像パタンを特定し、これを代表画像
に重畳した文字重畳画像を生成してもよい。この場合に
は要約コンテンツとして文字重畳画像が携帯電話機30
1に送信される。携帯電話機では文字重畳画像を表示す
る手段を備えればよく文字コードとも文字画像パタンの
対応を記憶する必要も音声認識手段を備える必要もな
い。
【0077】いずれにせよ要約コンテンツを音声再生す
ることなく画像情報によって表示できるので、電車やバ
ス等の公共交通機関に乗車している場合のように音声再
生が制限される状況でも要約コンテンツを再生すること
ができる。データセンタ200ではこの注文情報に添付
されて来る記録装置400のアドレスに対して注文され
たコンテンツを配信すればよい。また、上述した本発明
のコンテンツ情報配信方法はコンテンツ情報配信プログ
ラムを実行させて実現することができる。コンテンツ情
報配信プログラムは通信回線を通じてコンピュータにイ
ンストールされるか又はCD−ROM、或は磁気ディス
クからコンピュータにインストールされてコンピュータ
内のCPUに実行させる。
【0078】
【発明の効果】以上説明したように、この発明によれば
携帯電話機301又は表示器付電話機その他の携帯端末
303の何れでも動画を受信できる端末であればデータ
センタ200に格納しているコンテンツの要約を視聴す
ることができる。この結果、利用者は外出先でも如何な
る場所でも注目しているコンテンツの要約を視聴できる
から、この点で従来より便利である。然も要約の要約時
間又は要約率を自由に設定できるから、利用者の時間の
都合に応じた要約を視聴することができる。この点でも
従来より便利である。
【0079】更に、要約を視聴した結果、そのコンテン
ツを購入したい場合にはその場で、コンテンツの注文を
出すことができ、注文の結果直ちにコンテンツは自己の
記録装置400に配信され記録することができる。従っ
て、コンテンツの内容を確認することと、コンテンツを
自己の記録装置に格納し、購入するまでの手順を簡素化
することができるから、従来では考えられない程便利で
ある。
【図面の簡単な説明】
【図1】この発明によるコンテンツ情報配信装置の概要
を説明するためのブロック図。
【図2】先に提案した音声要約方法を説明するためのフ
ローチャート。
【図3】先に提案した音声段落の抽出方法を説明するた
めのフローチャート。
【図4】音声段落と音声小段落の関係を説明するための
図。
【図5】図2に示したステップS2における入力音声小
段落の発話状態を判定する方法の例を示すフローチャー
ト。
【図6】先に提案した音声要約方法に用いられるコード
ブックを作成する手順の例を示すフローチャート。
【図7】この発明において用いられるコードブックの記
憶例を示す図。
【図8】発話状態尤度計算を説明するための波形図。
【図9】先に提案した音声強調状態判定装置及び音声要
約装置の一実施例を説明するためのブロック図。
【図10】要約率を自由に変更することができる要約方
法を説明するためのフローチャート。
【図11】音声の要約に用いる音声小段落の抽出動作と
各音声小段落の強調確率算出動作、音声小段落平静確率
抽出動作を説明するためのフローチャート。
【図12】音声要約装置に用いる音声強調確率テーブル
の構成を説明するための図。
【図13】要約率を自由に変更することができる音声要
約装置の一例を説明するためのブロック図。
【符号の説明】
100 コンテンツプロバイダ装置 200 データセンタ 201 コンテンツデータベース 202 検索手段 203 要約手段 204 要約配信手段 205 コンテンツ配信手段 300 端末機群 301 携帯電話機 302 表示器付電話機 303 携帯端末 400 記録装置 500 課金部 600 通信網
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04N 5/91 G10L 3/00 551A 5/93 531N 7/173 610 561H 521U (72)発明者 水野 理 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 (72)発明者 児島 治彦 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 (72)発明者 桑野 秀豪 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 Fターム(参考) 5C053 FA14 GB06 GB11 JA03 JA05 JA16 LA15 5C064 BA07 BB10 BC18 BC23 BC25 BD02 BD08 5D015 FF00 KK01 LL11

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 音声信号と同期する映像信号を含むコン
    テンツとその属性を示す補助情報を対応付けて蓄積する
    コンテンツ蓄積手段を具備し、ユーザ端末から受信した
    補助情報に対応するコンテンツの少なくとも一部を前記
    ユーザ端末に送信するコンテンツ情報配信方法におい
    て、 少なくとも基本周波数又はピッチ周期、パワー、動的特
    徴量の時間変化特性、又はこれらのフレーム間差分を含
    む特徴量と強調状態での出現確率とを対応して格納した
    符号帳を用い、 前記音声信号をフレーム毎に分析した前記特徴量に対応
    する強調状態での出現確率を求め、 前記強調状態での出現確率に基づいて強調状態となる確
    率を算出し、 前記強調状態となる確率が所定の確率よりも大きい音声
    信号区間を要約区間と判断し、 前記要約区間に同期する映像信号のうち少なくとも1フ
    レームの映像信号を代表映像信号として選択し、 前記代表映像信号と前記要約区間の少なくとも一部の音
    声信号に基づく情報を送信することを特徴とするコンテ
    ンツ情報配信方法。
  2. 【請求項2】 前記符号帳が少なくとも基本周波数又は
    ピッチ周期、パワー、動的特徴量の時間変化特性、又は
    これらのフレーム間差分を含む特徴量と強調状態での出
    現確率に対応して平静状態での出現確率が格納され、 前記音声信号をフレーム毎に分析した前記特徴量に対応
    する平静状態での出現確率を求め、 前記平静状態での出現確率に基づいて平静状態となる確
    率を算出し、 前記強調状態となる確率の前記平静状態となる確率に対
    する確率比が所定の係数より大きい音声信号区間を要約
    区間と仮判定し、 要約区間の時間の総和、又は要約率として前記音声信号
    全区間の時間の前記要約区間の時間の総和に対する比率
    を算出し、 前記要約区間の時間の総和又は前記総和の全音声信号区
    間に対する比である要約率が前記ユーザ端末から受信ま
    たは予め決められた所定の要約時間又は要約率となる前
    記所定の係数を算出して要約区間を決定することを特徴
    とする請求項1記載のコンテンツ情報配信方法。
  3. 【請求項3】 前記符号帳が少なくとも基本周波数又は
    ピッチ周期、パワー、動的特徴量の時間変化特性、又は
    これらのフレーム間差分を含む特徴量と強調状態での出
    現確率に対応して平静状態での出現確率が格納され、 前記音声信号をフレーム毎に分析した前記特徴量に対応
    する平静状態での出現確率を求め、 前記平静状態での出現確率に基づいて平静状態となる確
    率を算出し、 前記強調状態となる確率の前記平静状態となる確率に対
    する確率比を音声信号区間ごとに算出し、 前記確率比に対応する音声信号区間の時間を降順に累積
    して要約区間の時間の総和を算出し、 前記要約区間の時間の総和又は前記総和の全音声信号区
    間に対する比である要約率が前記ユーザ端末から受信ま
    たは予め決められた所定の要約時間又は要約率となる音
    声信号区間を前記要約区間と決定することを特徴とする
    請求項1記載のコテンツ情報配信方法。
  4. 【請求項4】 前記音声信号をフレームごとに無音区間
    か否か、有声区間か否か判定し、 所定フレーム数以上の無音区間で囲まれ、有声区間を含
    む部分を音声小段落と判定し、 音声小段落に含まれる有声区間の平均パワーが該音声小
    段落内の平均パワーの所定の定数倍より小さい音声小段
    落を末尾とする音声小段落群を音声段落と判定し、 前記音声信号区間は音声段落ごとに定められたものであ
    り、 前記要約区間の時間の総和を前記強調区間を含む音声段
    落ごとに累積して求めることを特徴とする請求項2又は
    3の何れかに記載のコンテンツ情報配信方法。
  5. 【請求項5】 コンテンツの音声信号の全てをそのまま
    前記ユーザ端末に配信するコンテンツ情報配信方法であ
    って、 前記音声信号の配信期間中に音声の強調確率が所定値以
    上又は強調確率と平静確率との比が所定値以上となる音
    声信号と同期した代表静止画を抽出し、この代表静止画
    を前記音声信号と共に前記ユーザ端末に配信することを
    特徴とするコンテンツ情報配信方法。
  6. 【請求項6】 前記要約区間の音声情報を音声認識して
    テキスト情報を生成し、前記音声信号に基づく情報とし
    て前記テキスト情報を送信することを特徴とする請求項
    1乃至4のいずれか一項に記載のコンテンツ情報配信方
    法。
  7. 【請求項7】 前記テキスト情報の少なくとも一部を構
    成する文字コードに対応する文字画像パタンを前記代表
    映像に重畳して文字重畳映像を生成し、前記代表映像信
    号と前記要約区間の少なくとも一部の音声信号に基づく
    情報として前記文字重畳映像を送信することを特徴とす
    る請求項5記載のコンテンツ情報配信方法。
  8. 【請求項8】 音声信号と同期する映像信号を含むコン
    テンツとその属性を示す補助情報を対応付けて蓄積する
    コンテンツ蓄積手段を具備し、ユーザ端末から受信した
    補助情報に対応するコンテンツの少なくとも一部を前記
    ユーザ端末に送信するコンテンツ情報配信装置におい
    て、 少なくとも基本周波数又はピッチ周期、パワー、動的特
    徴量の時間変化特性、又はこれらのフレーム間差分を含
    む特徴量と強調状態での出現確率とを対応して格納した
    符号帳と、 前記音声信号をフレーム毎に分析した前記特徴量に対応
    する強調状態での出現確率を求め、 前記強調状態での出現確率に基づいて強調状態となる確
    率を算出する強調状態確率計算部と、 前記強調状態となる確率が所定の確率よりも大きい音声
    信号区間を要約区間と判断する要約区間決定部と、 前記要約区間に同期する映像信号のうち少なくとも1フ
    レームの映像信号を代表映像信号として選択する代表映
    像選択部と、 前記代表映像信号と前記要約区間の少なくとも一部の音
    声信号に基づく情報を送信する要約配信手段と、を有す
    ることを特徴とするコンテンツ情報配信装置。
  9. 【請求項9】 音声信号と同期する映像信号を含むコン
    テンツとその属性を示す補助情報を対応付けて蓄積する
    コンテンツ蓄積手段を具備し、ユーザ端末から受信した
    補助情報に対応するコンテンツの音声信号の全てを前記
    ユーザ端末に送信するコンテンツ情報配信装置におい
    て、 少なくとも基本周波数又はピッチ周期、パワー、動的特
    徴量の時間変化特性、又はこれらのフレーム間差分を含
    む特徴量と強調状態での出現確率とを対応して格納した
    符号帳と、 前記音声信号をフレーム毎に分析した前記特徴量に対応
    する強調状態での出現確率を求め、 前記強調状態での出現確率に基づいて強調状態となる確
    率を算出する強調状態確率計算部と、 前記強調状態となる確率が所定の確率よりも大きい音声
    信号に同期した映像信号のうち少なくとも1フレームの
    映像信号を代表映像信号として選択する代表映像選択部
    と、 前記コンテンツの音声情報の全てと前記代表映像信号と
    を前記ユーザ端末に送信する要約配信手段と、 を有することを特徴とするコンテンツ情報配信装置。
  10. 【請求項10】 前記符号帳が少なくとも基本周波数又
    はピッチ周期、パワー、動的特徴量の時間変化特性、又
    はこれらのフレーム間差分を含む特徴量と強調状態での
    出現確率に対応して平静状態での出現確率が格納され、 前記符号帳を用いて前記音声信号をフレーム毎に分析し
    た前記特徴量に対応する平静状態での出現確率を求め、 前記平静状態での出現確率に基づいて平静状態となる確
    率を算出する平静状態確率計算部と、 前記強調状態となる確率の前記平静状態となる確率に対
    する確率比が所定の係数より大きい音声信号区間を要約
    区間と仮判定する要約区間仮判定部と、 要約区間の時間の総和、又は要約率として前記音声信号
    全区間の時間の前記要約区間の時間の総和に対する比率
    を算出し、前記要約区間の時間の総和が略所定の要約時
    間に、又は前記要約率が略所定の要約率となる前記所定
    の係数を算出して要約区間を決定する要約区間決定部
    と、を有したことを特徴とする請求項8又は9の何れか
    に記載のコンテンツ情報配信装置。
  11. 【請求項11】 前記符号帳が少なくとも基本周波数又
    はピッチ周期、パワー、動的特徴量の時間変化特性、又
    はこれらのフレーム間差分を含む特徴量と強調状態での
    出現確率に対応して平静状態での出現確率が格納され、 前記符号帳を用いて前記音声信号をフレーム毎に分析し
    た前記特徴量に対応する平静状態での出現確率を求め、 前記平静状態での出現確率に基づいて平静状態となる確
    率を算出する平静状態確率計算部と、 前記強調状態となる確率の前記平静状態となる確率に対
    する確率比を音声信号区間ごとに算出し、 前記確率比に対応する音声信号区間の時間を降順に所定
    の確率比まで累積して要約区間の時間の総和を算出し要
    約区間と仮判定する要約区間仮判定部と、 前記要約区間の時間の総和又は前記総和の全音声信号区
    間に対する比である要約率がユーザ端末から受信または
    予め決められた所定の要約時間又は要約率となる音声信
    号区間を前記要約区間と決定する要約区間決定部と、 を有することを特徴とする請求項8又は9の何れかに記
    載のコンテンツ情報配信装置。
  12. 【請求項12】 コンピュータが読み取り可能な符号に
    よって記述され、請求項1乃至7記載の何れかのコンテ
    ンツ情報配信方法を実行することを特徴とするコンテン
    ツ情報配信プログラム。
JP2002088582A 2001-08-08 2002-03-27 コンテンツ情報配信方法、コンテンツ情報配信装置、コンテンツ情報配信プログラム Pending JP2003288096A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2002088582A JP2003288096A (ja) 2002-03-27 2002-03-27 コンテンツ情報配信方法、コンテンツ情報配信装置、コンテンツ情報配信プログラム
US10/214,232 US20030055634A1 (en) 2001-08-08 2002-08-08 Speech processing method and apparatus and program therefor
EP02017720A EP1288911B1 (en) 2001-08-08 2002-08-08 Emphasis detection for automatic speech summary
DE60204827T DE60204827T2 (de) 2001-08-08 2002-08-08 Anhebungsdetektion zur automatischen Sprachzusammenfassung
US11/397,803 US8793124B2 (en) 2001-08-08 2006-04-05 Speech processing method and apparatus for deciding emphasized portions of speech, and program therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002088582A JP2003288096A (ja) 2002-03-27 2002-03-27 コンテンツ情報配信方法、コンテンツ情報配信装置、コンテンツ情報配信プログラム

Publications (1)

Publication Number Publication Date
JP2003288096A true JP2003288096A (ja) 2003-10-10

Family

ID=29234399

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002088582A Pending JP2003288096A (ja) 2001-08-08 2002-03-27 コンテンツ情報配信方法、コンテンツ情報配信装置、コンテンツ情報配信プログラム

Country Status (1)

Country Link
JP (1) JP2003288096A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006060284A (ja) * 2004-08-17 2006-03-02 Matsushita Electric Ind Co Ltd 情報配信システムおよび携帯端末装置、情報提供装置
WO2006048963A1 (ja) * 2004-11-02 2006-05-11 Tv Asahi Data Vision Corporation 字幕付き静止画コンテンツ作成装置、字幕付き静止画コンテンツ作成プログラム及び字幕付き静止画コンテンツ作成システム
JP2007189343A (ja) * 2006-01-11 2007-07-26 Toshiba Corp 映像要約装置、映像要約方法および映像要約プログラム
JP2007202065A (ja) * 2006-01-30 2007-08-09 Daikin Ind Ltd 放送画像生成方法、放送画像生成プログラム及び放送画像生成装置
JP2010051019A (ja) * 2009-11-30 2010-03-04 Victor Co Of Japan Ltd 携帯再生装置、受信端末、及びそれらで用いられるコンテンツ取得プログラム
US8538244B2 (en) 2005-05-10 2013-09-17 Canon Kabushiki Kaisha Recording/reproduction apparatus and recording/reproduction method
JP2023043782A (ja) * 2021-09-16 2023-03-29 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0879491A (ja) * 1994-08-31 1996-03-22 Canon Inc 情報通信方式
JPH08292965A (ja) * 1995-02-20 1996-11-05 Hitachi Ltd 映像支援システム
JPH09182019A (ja) * 1995-12-26 1997-07-11 Sony Corp 映像信号記録装置及び再生装置
JPH10276395A (ja) * 1997-03-28 1998-10-13 Sony Corp 画像処理装置および画像処理方法、並びに記録媒体
JPH1188807A (ja) * 1997-09-10 1999-03-30 Media Rinku Syst:Kk 映像ソフト再生方法、映像ソフト処理方法、映像ソフト再生プログラムを記録した媒体、映像ソフト処理プログラムを記録した媒体、映像ソフト再生装置、映像ソフト処理装置及び映像ソフト記録媒体
JP2000253351A (ja) * 1999-03-01 2000-09-14 Mitsubishi Electric Corp 動画要約装置および動画要約作成プログラムを記録したコンピュータ読み取り可能な記録媒体および動画再生装置および動画再生プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001045395A (ja) * 1999-07-28 2001-02-16 Minolta Co Ltd 放送番組送受信システム、送信装置、放送番組送信方法、受信再生装置、放送番組再生方法、及び記録媒体
JP2001258005A (ja) * 2000-03-13 2001-09-21 Sony Corp 配信装置、配信システムおよびその方法
JP2001306599A (ja) * 2000-04-21 2001-11-02 Nippon Telegr & Teleph Corp <Ntt> 映像の階層的管理方法および階層的管理装置並びに階層的管理プログラムを記録した記録媒体
JP2002084492A (ja) * 2000-09-08 2002-03-22 Just Syst Corp 編集処理装置、及び編集処理プログラムが記憶された記憶媒体
JP2003316378A (ja) * 2001-08-08 2003-11-07 Nippon Telegr & Teleph Corp <Ntt> 音声処理方法及びその方法を使用した装置及びそのプログラム

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0879491A (ja) * 1994-08-31 1996-03-22 Canon Inc 情報通信方式
JPH08292965A (ja) * 1995-02-20 1996-11-05 Hitachi Ltd 映像支援システム
JPH09182019A (ja) * 1995-12-26 1997-07-11 Sony Corp 映像信号記録装置及び再生装置
JPH10276395A (ja) * 1997-03-28 1998-10-13 Sony Corp 画像処理装置および画像処理方法、並びに記録媒体
JPH1188807A (ja) * 1997-09-10 1999-03-30 Media Rinku Syst:Kk 映像ソフト再生方法、映像ソフト処理方法、映像ソフト再生プログラムを記録した媒体、映像ソフト処理プログラムを記録した媒体、映像ソフト再生装置、映像ソフト処理装置及び映像ソフト記録媒体
JP2000253351A (ja) * 1999-03-01 2000-09-14 Mitsubishi Electric Corp 動画要約装置および動画要約作成プログラムを記録したコンピュータ読み取り可能な記録媒体および動画再生装置および動画再生プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001045395A (ja) * 1999-07-28 2001-02-16 Minolta Co Ltd 放送番組送受信システム、送信装置、放送番組送信方法、受信再生装置、放送番組再生方法、及び記録媒体
JP2001258005A (ja) * 2000-03-13 2001-09-21 Sony Corp 配信装置、配信システムおよびその方法
JP2001306599A (ja) * 2000-04-21 2001-11-02 Nippon Telegr & Teleph Corp <Ntt> 映像の階層的管理方法および階層的管理装置並びに階層的管理プログラムを記録した記録媒体
JP2002084492A (ja) * 2000-09-08 2002-03-22 Just Syst Corp 編集処理装置、及び編集処理プログラムが記憶された記憶媒体
JP2003316378A (ja) * 2001-08-08 2003-11-07 Nippon Telegr & Teleph Corp <Ntt> 音声処理方法及びその方法を使用した装置及びそのプログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006060284A (ja) * 2004-08-17 2006-03-02 Matsushita Electric Ind Co Ltd 情報配信システムおよび携帯端末装置、情報提供装置
WO2006048963A1 (ja) * 2004-11-02 2006-05-11 Tv Asahi Data Vision Corporation 字幕付き静止画コンテンツ作成装置、字幕付き静止画コンテンツ作成プログラム及び字幕付き静止画コンテンツ作成システム
JPWO2006048963A1 (ja) * 2004-11-02 2008-05-22 株式会社テレビ朝日データビジョン 字幕付き静止画コンテンツ作成装置、字幕付き静止画コンテンツ作成プログラム及び字幕付き静止画コンテンツ作成システム
KR100965471B1 (ko) 2004-11-02 2010-06-24 가부시키가이샤 테레비 아사히 데이터 비젼 자막 첨부 정지 화상 컨텐츠 작성 장치, 자막 첨부 정지화상 컨텐츠 작성 프로그램 및 자막 첨부 정지 화상 컨텐츠작성 시스템
JP4616274B2 (ja) * 2004-11-02 2011-01-19 株式会社テレビ朝日データビジョン 字幕付き静止画コンテンツ作成装置、字幕付き静止画コンテンツ作成プログラム及び字幕付き静止画コンテンツ作成システム
US8538244B2 (en) 2005-05-10 2013-09-17 Canon Kabushiki Kaisha Recording/reproduction apparatus and recording/reproduction method
JP2007189343A (ja) * 2006-01-11 2007-07-26 Toshiba Corp 映像要約装置、映像要約方法および映像要約プログラム
JP2007202065A (ja) * 2006-01-30 2007-08-09 Daikin Ind Ltd 放送画像生成方法、放送画像生成プログラム及び放送画像生成装置
JP4544166B2 (ja) * 2006-01-30 2010-09-15 ダイキン工業株式会社 放送画像生成方法、放送画像生成プログラム及び放送画像生成装置
JP2010051019A (ja) * 2009-11-30 2010-03-04 Victor Co Of Japan Ltd 携帯再生装置、受信端末、及びそれらで用いられるコンテンツ取得プログラム
JP2023043782A (ja) * 2021-09-16 2023-03-29 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Similar Documents

Publication Publication Date Title
US8793124B2 (en) Speech processing method and apparatus for deciding emphasized portions of speech, and program therefor
JP3621686B2 (ja) データ編集方法、データ編集装置、データ編集プログラム
US8898055B2 (en) Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech
US8706488B2 (en) Methods and apparatus for formant-based voice synthesis
US7523036B2 (en) Text-to-speech synthesis system
US7788095B2 (en) Method and apparatus for fast search in call-center monitoring
US20100250257A1 (en) Voice quality edit device and voice quality edit method
CA2452022C (en) Apparatus and method for changing the playback rate of recorded speech
JP3803311B2 (ja) 音声処理方法及びその方法を使用した装置及びそのプログラム
US20210279427A1 (en) Systems and methods for generating multi-language media content with automatic selection of matching voices
JP2003288096A (ja) コンテンツ情報配信方法、コンテンツ情報配信装置、コンテンツ情報配信プログラム
JP4696418B2 (ja) 情報検出装置及び方法
JP4256393B2 (ja) 音声処理方法及びそのプログラム
JP3803302B2 (ja) 映像要約装置
JP3081108B2 (ja) 話者分類処理装置及び方法
JP2005345496A (ja) 音声処理装置、音声処理方法およびそのプログラム
JP3803301B2 (ja) 要約区間判定方法、要約情報提供方法、それらの方法を用いた装置、およびプログラム
JP2004145161A (ja) 音声データベース登録処理方法,音声発生源認識方法,音声発生区間検索方法,音声データベース登録処理装置,音声発生源認識装置,音声発生区間検索装置,並びにそのプログラムおよびそのプログラムの記録媒体
JP2003255983A (ja) コンテンツ情報配信方法、コンテンツ情報配信装置、コンテンツ情報配信プログラム
JP3754386B2 (ja) 音声着信方法、音声着信装置、音声着信プログラム
JP2005352420A (ja) 要約コンテンツ生成装置、生成方法及びそのプログラム
Mumtaz et al. Transformer-based quality assessment model for generalized user-generated multimedia audio content.
JP2005353006A (ja) 要約コンテンツ配信システム及び配信方法
JP2006011159A (ja) コンテンツ応答処理装置、処理方法及びそのプログラム
JP2003316398A (ja) 音響信号符号化方法、符号化器及びそのプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050816

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051014

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20051014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A132

Effective date: 20051129

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060418