JP2007213176A

JP2007213176A - 情報処理装置および方法、並びにプログラム

Info

Publication number: JP2007213176A
Application number: JP2006030483A
Authority: JP
Inventors: Shunji Yoshimura; 俊司吉村; Kenichiro Kobayashi; 賢一郎小林
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2006-02-08
Filing date: 2006-02-08
Publication date: 2007-08-23
Also published as: EP1818936A1; US20070185704A1

Abstract

【課題】話速を容易に求めることができるようにする。
【解決手段】字幕として表示される複数の文字列が、文章の終わりに現れる文字や記号を基準として文字列Ｔ₁乃至Ｔ₄にそれぞれ区切られる。文字列Ｔ₁乃至Ｔ₄のそれぞれの文字列を構成する文字の数が数えられるとともに、それぞれの文字列により内容が表される発話の区間Ｓ₁乃至Ｓ₄の時間が求められる。求められた文字数を発話時間で除算した値が、文字列Ｔ₁乃至Ｔ₄のそれぞれが字幕として表示されるタイミングでコンテンツの登場人物によって発話されるその発話の速度として求められる。本発明は、テレビジョン番組や映画などの動画コンテンツを扱う装置に適用することができる。
【選択図】図４

Description

本発明は、情報処理装置および方法、並びにプログラムに関し、特に、話速を容易に求めることができるようにした情報処理装置および方法、並びにプログラムに関する。

従来より、話速を検出する技術として音声認識によってそれを行うものがある。検出された話速は、例えば、録音された音声の再生スピードを調整したりするために用いられる。

特許文献１には、有声区間の時間内に発話可能な語数と１画面に表示可能な文字数から字幕画面数を算出し、有声区間の時間長を字幕画面数で割って得られる時間間隔で字幕情報を順次表示させることによって、音声と字幕の出力タイミングにずれが生じるのをなくす技術が開示されている。
特開２００４−１２８８４９号公報

例えば、音声認識によりテキストデータ化された音声の内容を表す文字列を構成する文字の数を数え、数えた文字数と発話時間から発話の速度、すなわち、話速を求めるといったことが考えられるものの、この場合、正しい話速を検出するためには少なくとも音声認識で音節の認識が正しく行われる必要がある。現在の音声認識技術でも、相応の精度を持ってこのような認識を行うことは可能であるが、認識の精度と処理の規模（処理のための演算量）はトレードオフの関係にあり、機器のコストを大幅に上昇させることなく高精度の認識を行うことは難しい。仮に、音節の認識が誤って行われた場合、文字数を正しく数えることができず、結果として、正しい話速を求めることができない。

本発明はこのような状況に鑑みてなされたものであり、例えば音声認識などを用いて求める場合に較べて、話速を容易に求めることができるようにするものである。

本発明の一側面の情報処理装置は、発話の内容を表す文字列を構成する文字の数を数える計数手段と、前記発話の時間を計測する発話時間計測手段と、前記計数手段により数えられた前記文字の数と前記発話時間計測手段により計測された前記発話の時間に基づいて前記発話の速度を算出する算出手段とを備える。

前記算出手段には、単位時間あたりの文字の数で表される値を前記発話の速度として算出させることができる。

前記文字列はコンテンツの再生時に画面上に表示される文字列であり、前記発話は前記文字列の表示にあわせて出力される音声であるようにすることができる。

前記算出手段により算出された前記発話の速度が所定の速度より早い前記コンテンツの区間を内容の盛り上がりの区間として検出する検出手段をさらに設けることができる。

コンテンツに含まれる文字列の情報と音声の情報を抽出する抽出手段と、前記抽出手段により情報が抽出された複数の文字列と、抽出された音声の情報に基づいて出力される複数の発話のうち、前記発話の速度の算出に用いられる前記文字の数を数える対象となる文字列と、前記発話の時間を計測する対象となる発話との対応付け行う制御手段とをさらに設けることができる。

発話時間計測手段には、コンテンツに含まれるそれぞれの文字列の表示時刻の情報に基づいて前記発話の時間を計測させることができる。

コンテンツの再生時に画面上に表示される文字列の表示領域を抽出する領域抽出手段をさらに設けることができる。この場合、前記計数手段には、前記領域抽出手段により抽出された領域の画像に基づいて文字の数を数えさせることができる。

前記発話時間計測手段には、前記領域検出手段により検出された領域に文字列が表示されている時間を前記発話の時間として計測させることができる。

コンテンツの再生時に画面上に表示される文字列を構成する文字を文字認識により認識する認識手段をさらに設けることができる。この場合、前記計数手段には、前記認識手段により認識された前記文字の数を数えさせることができる。

本発明の一側面の情報処理方法またはプログラムは、発話の内容を表す文字列を構成する文字の数を数え、前記発話の時間を計測し、数えられた前記文字の数と計測された前記発話の時間に基づいて前記発話の速度を算出するステップを含む。

本発明の一側面においては、発話の内容を表す文字列を構成する文字の数が数えられるとともに、発話の時間が計測される。また、数えられた文字の数と計測された発話の時間に基づいて発話の速度が算出される。

本発明の一側面によれば、話速を容易に求めることができる。

以下に本発明の実施の形態を説明するが、本発明の構成要件と、明細書又は図面に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、明細書又は図面に記載されていることを確認するためのものである。従って、明細書又は図面中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が発明に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外には対応しないものであることを意味するものでもない。

本発明の一側面の情報処理装置（例えば、図１の情報処理装置１）は、発話の内容を表す文字列を構成する文字の数を数える計数手段（例えば、図３の文字数カウント部３２）と、前記発話の時間を計測する発話時間計測手段（例えば、図３の発話時間計測部３３）と、前記計数手段により数えられた前記文字の数と前記発話時間計測手段により計測された前記発話の時間に基づいて前記発話の速度を算出する算出手段（例えば、図３の除算部３５）とを備える。

この情報処理装置には、前記算出手段により算出された前記発話の速度が所定の速度より早い前記コンテンツの区間を内容の盛り上がりの区間として検出する検出手段（例えば、図１５の属性情報生成部１１２）をさらに設けることができる。

また、情報処理装置には、コンテンツに含まれる文字列の情報と音声の情報を抽出する抽出手段（例えば、図３の抽出部３１）と、前記抽出手段により情報が抽出された複数の文字列と、抽出された音声の情報に基づいて出力される複数の発話のうち、前記発話の速度の算出に用いられる前記文字の数を数える対象となる文字列と、前記発話の時間を計測する対象となる発話との対応付け行う制御手段（例えば、図３のタイミング制御部３４）とをさらに設けることができる。

さらに、情報処理装置には、コンテンツの再生時に画面上に表示される文字列の表示領域を抽出する領域抽出手段（例えば、図９の文字領域抽出部５２）をさらに設けることができる。

情報処理装置には、コンテンツの再生時に画面上に表示される文字列を構成する文字を文字認識により認識する認識手段（例えば、図１２の文字認識部６２）をさらに設けることができる。

本発明の一側面の情報処理方法またはプログラムは、発話の内容を表す文字列を構成する文字の数を数え、前記発話の時間を計測し、数えられた前記文字の数と計測された前記発話の時間に基づいて前記発話の速度を算出するステップ（例えば、図５のステップＳ５）を含む。

以下、本発明の実施の形態について図を参照して説明する。

図１は、本発明の一実施形態に係る情報処理装置を示す図である。

情報処理装置１は、テレビジョン番組や映画などの、音声のデータを含むコンテンツを入力とし、コンテンツに登場する人物などによる発話の速度（話速）を求め、求めた話速を表す情報である話速情報を外部に出力する装置である。

情報処理装置１に入力されるコンテンツには、コンテンツの再生時にその画面上に字幕を表示するために用いられるクローズドキャプションデータなどのテキストデータも映像や音声のデータとともに含まれており、情報処理装置１においては、例えば、ある発話の内容を表すものとして画面上に表示される文字列を構成する文字の数と、音声データに基づいて出力される、その発話の出力時間（発話時間）から話速が求められる。

後述するように、情報処理装置１から出力された話速情報は、入力されたコンテンツに属性情報を付加するために用いられる。話速が比較的早いコンテンツの部分は、そのコンテンツの中でも内容が盛り上がっている部分であると考えられるから、例えば、コンテンツの再生時に、話速の早い部分、すなわち、盛り上がりの部分だけを再生するときに参照される、盛り上がり部分であることを表す属性情報がコンテンツに付加される。

図２は、図１の情報処理装置１のハードウエア構成例を示すブロック図である。

CPU(Central Processing Unit)１１は、ROM(Read Only Memory)１２、または記憶部１８に記憶されているプログラムに従って各種の処理を実行する。RAM(Random Access Memory)１３には、CPU１１が実行するプログラムやデータなどが適宜記憶される。これらのCPU１１、ROM１２、およびRAM１３は、バス１４により相互に接続されている。

CPU１１にはまた、バス１４を介して入出力インターフェース１５が接続されている。入出力インターフェース１５には、コンテンツの入力を受ける入力部１６、話速情報を出力する出力部１７が接続されている。

入出力インターフェース１５に接続されている記憶部１８は例えばハードディスクからなり、CPU１１が実行するプログラムや各種のデータを記憶する。通信部１９は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。

入出力インターフェース１５に接続されているドライブ２０は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア２１が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部１８に転送され、記憶される。

図３は、情報処理装置１の機能構成例を示すブロック図である。図３に示す機能部のうちの少なくとも一部は、図２のCPU１１により所定のプログラムが実行されることによって実現される。

情報処理装置１においては、例えば、抽出部３１、文字数カウント部３２、発話時間計測部３３、タイミング制御部３４、および除算部３５が実現される。

抽出部３１は、供給されたコンテンツからテキストストリーム（字幕として表示される文字列の並び）と音声データを抽出し、抽出したテキストストリームを文字数カウント部３２に、音声データを発話時間計測部３３にそれぞれ出力する。

文字数カウント部３２は、タイミング制御部３４による制御にしたがって、抽出部３１から供給された複数の文字列中に含まれる句読点、改行位置などによって区切られたそれぞれの文字列を構成する文字の数を数え、得られた文字数の情報を除算部３５に出力する。

発話時間計測部３３は、タイミング制御部３４による制御にしたがって、コンテンツの再生時に文字数カウント部３２によって文字の数が数えられた文字列が画面に表示されるのと同じタイミングでコンテンツの登場人物によって発話されるその発話の時間を計測し、計測して得られた発話時間の情報を除算部３５に出力する。例えば、抽出部３１から供給された音声データのスペクトラム解析、パワー解析などが行われ、人間が話していると認識された部分の時間が計測される。

タイミング制御部３４は、同じ発話について、発話の内容を表す文字列（字幕）の文字数が文字数カウント部３２によって数えられるとともに、その発話の時間が発話時間計測部３３によって計測されるように、文字数カウント部３２が文字数を数えるタイミングと発話時間計測部３３が発話時間を計測するタイミングを制御する。タイミング制御部３４は、同じ発話についての文字数の情報と発話時間の情報を用いて話速の算出が行われるように、文字数カウント部３２から供給される文字数の情報と発話時間計測部３３から供給される発話時間の情報の対応関係を表す情報を除算部３５に出力する。

除算部３５は、文字数カウント部３２から供給された文字数の情報と発話時間計測部３３から供給された発話時間の情報のうち、タイミング制御部３４によって対応付けられた文字数の情報と発話時間の情報を用い、それらの情報によって表される文字数を発話時間（例えば、秒）で除算した値を話速として求める。除算部３５は、求めた話速を表す話速情報を外部に出力する。

図４は、図３の情報処理装置１において行われる話速の算出の例を示す図である。図４において横方向は時間方向を示す。

図４の例においては、字幕として表示される複数の文字列の例として「お前最近車乗ってるのか？乗ってないです。じゃほとんどペーパードライバー？うん。・・・」が示されている。コンテンツの再生時、画面上には、「お前最近車乗ってるのか？乗ってないです。じゃほとんどペーパードライバー？うん。・・・」が、所定の範囲の文字列毎に左側にあるものから順次表示される。

この例では、実線で囲んで示されるように、「お前最近車乗ってるのか？」、「乗ってないです。」、「じゃほとんどペーパードライバー？」、「うん。」の文字列Ｔ₁乃至Ｔ₄にそれぞれ区切られている。これは、例えば、句読点や「？」などのように文章の終わりに現れる文字や記号を基準として区切られたものである。

この場合、文字数カウント部３２においては、文字列Ｔ₁乃至Ｔ₄のそれぞれの文字列を構成する文字の数が数えられ、文字数を表す情報が除算部３５に出力される。スペースも１文字として数えた場合、文字列Ｔ₁の文字数は１４文字、文字列Ｔ₂の文字数は５文字、文字列Ｔ₃の文字数は１１文字、文字列Ｔ₄の文字数は３文字である。

また、図４においては、時刻ｔ₁から時刻ｔ₂までの区間が発話区間Ｓ₁、時刻ｔ₃から時刻ｔ₄までの区間が発話区間Ｓ₂、時刻ｔ₅から時刻ｔ₆までの区間が発話区間Ｓ₃、時刻ｔ₇から時刻ｔ₈までの区間が発話区間Ｓ₄とされている。

この場合、発話時間計測部３３においては、発話区間Ｓ₁の発話時間として「ｔ₂−ｔ₁」で表される時間が計測され、発話区間Ｓ₂の発話時間として「ｔ₄−ｔ₃」で表される時間が計測される。発話区間Ｓ₃の発話時間として「ｔ₆−ｔ₅」で表される時間が計測され、発話区間Ｓ₄の発話時間として「ｔ₈−ｔ₇」で表される時間が計測される。これらの発話時間を表す情報が除算部３５に出力される。

このような文字列と発話区間が得られた場合、タイミング制御部３４においては、例えばコンテンツの先頭の位置を基準として左側にあるものから順に、文字列（文字数）と発話区間（発話時間）が対応付けられ、その対応関係が除算部３５に出力される。

図４の例においては、「？」で区切られる１つ目の文字列である文字列Ｔ₁の文字数の１４文字と１つ目の発話区間である発話区間Ｓ₁の時間の「ｔ₂−ｔ₁」が対応付けられ、「。」で区切られる２つ目の文字列である文字列Ｔ₂の文字数の５文字と２つ目の発話区間である発話区間Ｓ₂の時間の「ｔ₄−ｔ₃」が対応付けられる。

また、「？」で区切られる３つ目の文字列である文字列Ｔ₃の文字数の１１文字と３つ目の発話区間である発話区間Ｓ₃の時間の「ｔ₆−ｔ₅」が対応付けられ、「。」で区切られる４つ目の文字列である文字列Ｔ₄の文字数の３文字と４つ目の発話区間である発話区間Ｓ₄の時間の「ｔ₈−ｔ₇」が対応付けられる。

除算部３５においては、対応付けられた文字数と発話時間に基づいて話速が求められる。話速は例えば単位時間あたりの文字数で表され、この場合、発話区間Ｓ₁乃至Ｓ₄におけるそれぞれの話速は下式（１）乃至（４）で表されるものになる。
発話区間Ｓ₁における話速＝１４／（ｔ₂−ｔ₁）・・・（１）
発話区間Ｓ₂における話速＝５／（ｔ₄−ｔ₃）・・・（２）
発話区間Ｓ₃における話速＝１１／（ｔ₆−ｔ₅）・・・（３）
発話区間Ｓ₄における話速＝３／（ｔ₈−ｔ₇）・・・（４）

ここで、図５のフローチャートを参照して、以上のようにして話速を求める情報処理装置１の処理について説明する。

ステップＳ１において、抽出部３１は、供給されたコンテンツからテキストストリームと音声データを抽出し、抽出したテキストストリームを文字数カウント部３２に、音声データを発話時間計測部３３にそれぞれ出力する。

ステップＳ２において、文字数カウント部３２は、抽出部３１から供給された文字列全体を所定の範囲毎の文字列に分け、それぞれの文字列の文字数を数える。文字数カウント部３２は、得られた文字数の情報を除算部３５に出力する。

ステップＳ３において、発話時間計測部３３は、抽出部３１から供給された音声データを解析することによって発話区間を検出し、その時間を計測する。

ステップＳ４において、タイミング制御部３４は、発話の算出に用いられる文字列（文字数）と発話区間（発話時間）を対応付け、文字数カウント部３２から供給される文字数の情報と発話時間計測部３３から供給される発話時間の情報の対応関係を表す情報を除算部３５に出力する。

ステップＳ５において、除算部３５は、タイミング制御部３４によって対応付けられた文字数の情報と発話時間の情報を用い、上述したように、例えば単位時間あたりの文字数を話速として求める。除算部３５は、求めた話速を表す話速情報を外部に出力し、処理を終了させる。

このように、コンテンツの再生時に字幕として画面上に表示される文字の数と発話の時間から話速を求めるようにしたため、例えば、音声認識によって得られた文字列などを用いて話速を求める場合に較べて、容易に、かつ比較的精度よく話速を求めることができる。発話の内容を表す正しい文字列を音声認識によって得るためには少なくともその発話の音節までを認識する必要があるが、情報処理装置１においては、単に、コンテンツの再生時に画面上に表示される文字の数を数え、それを話速の算出に用いるだけであるから複雑な処理が不要となる。

以上においては、音声データを解析することによって発話の時間が求められ、それが話速の算出に用いられるものとしたが、クローズドキャプションデータのように、字幕として表示するそれぞれの文字列のテキストデータだけでなく、それぞれの文字列の表示時刻の情報を含む情報がコンテンツに付加されている場合、その表示時刻の情報から発話の時間が求められ、求められた発話の時間が話速の算出に用いられるようにしてもよい。この場合、文字列の表示されている時間が、発話時間として扱われることになる。

図６は、表示時刻の情報を用いて話速を求める情報処理装置１の機能構成例を示すブロック図である。

図６の情報処理装置１においては、例えば、抽出部４１、字幕パーサ４２、前処理部４３、文字数カウント部４４、表示時間計算部４５、除算部４６、および後処理部４７が実現される。

抽出部４１は、供給されたコンテンツから字幕データ（クローズドキャプションデータ）を抽出し、抽出した字幕データを字幕パーサ４２に出力する。字幕データには、コンテンツの再生時に字幕として表示される文字列のテキストデータと、それぞれの文字列の表示時刻の情報（表示時刻情報）が含まれている。表示時刻情報により、どの文字列を、コンテンツ全体のある時刻を基準としてどの時刻で表示するのかが表される。

字幕パーサ４２は、抽出部４１から供給された字幕データからテキストストリームと表示時刻情報を抽出し、抽出したテキストストリームを前処理部４３に、表示時刻情報を表示時間計算部４５にそれぞれ出力する。

前処理部４３は、字幕パーサ４２から供給されたテキストストリームに含まれる文字列に対して前処理を施し、処理を施すことによって得られたそれぞれの文字列を文字数カウント部４４に出力する。

例えば、コンテンツの再生時に登場人物によって発話されない記号や発話主の名前を表す文字などを除去することが前処理として行われる。コンテンツの再生時に画面上に表示される字幕には、その先頭の位置に発話主の名前が表示されることが多く、これは登場人物によっては発話されない文字である。これにより、後段において、実際に音声として出力される発話の内容を表す文字の数だけを数えることが可能となり、求められる話速の精度を向上させることができる。

また、文字列の中に漢字が含まれる場合、それを平仮名に変換することも前処理として行われるようにしてもよい。これにより、正しい発話の音節の数が分かり、求められる話速の精度の向上が期待できる。

文字数カウント部４４は、前処理部４３から供給されたそれぞれの文字列を構成する文字の数を数え、得られた文字数の情報を除算部４６に出力する。

表示時間計算部４５は、字幕パーサ４２から供給された表示時刻情報に基づいて、コンテンツの登場人物の発話の時間を求め、求められた発話時間の情報を除算部４６に出力する。ここでは、文字列が表示されている時間が登場人物が発話している時間とされるから、第１の文字列の表示時刻から次に表示される第２の文字列の表示時刻までの時間（第１と第２の文字列の表示時刻の差分）が、その第１の文字列の表示時間として求められる。

除算部４６は、文字数カウント部４４から供給された文字数の情報と表示時間計算部４５から供給された発話時間の情報に基づいて、文字数を発話時間で除算した値をそれぞれの発話の話速として求める。除算部４６は、求めた話速を表す話速情報を後処理部４７に出力する。

後処理部４７は、除算部４６から供給された話速情報に対して後処理を適宜施し、処理を施すことによって得られた話速情報を外部に出力する。例えば、所定の数の話速の平均を求めることなどが後処理として行われる。

図７は、字幕データに含まれる情報の例と、含まれる情報に基づいて求められた話速の算出結果の例を示す図である。

図７の例においては、「お前最近車乗ってるのか？乗ってないです。」、「じゃほとんどペーパードライバー？うん。」、「言っとくけどいきなりこの車には乗れないぞ。なんで？」、・・・の文字列が示されている。

また、コンテンツの先頭位置などのある時刻を基準として、第１の文字列である「お前最近車乗ってるのか？乗ってないです。」の表示時刻は８５秒が経過した時刻に表示されるものとされ、第２の文字列である「じゃほとんどペーパードライバー？うん。」の表示時刻は９０秒が経過した時刻に表示されるものとされ、第３の文字列である「言っとくけどいきなりこの車には乗れないぞ。なんで？」の表示時刻は９７秒が経過した時刻に表示されるものとされている。

これらの情報（文字列のテキストデータと表示時刻の情報）が字幕データに含まれており、このうちの文字列の情報が前処理部４３に、表示時刻の情報が表示時間計算部４５にそれぞれ字幕パーサ４２によって供給される。

文字列と表示時刻がこのようなものである場合、図７に示されるように、第１の文字列の表示時間は、第１の文字列の表示時刻と第２の文字列の表示時刻の差分である５秒となり、第２の文字列の表示時間は、第２の文字列の表示時刻と第３の文字列の表示時刻の差分である７秒となる。第３の文字列の表示時間は、第３の文字列の表示時刻と第４の文字列（「なんでって…。・・・」）の表示時刻の差分である４秒となる。このような表示時間が表示時間計算部４５により求められる。

また、図７に示されるように、第１の文字列の文字数は２３文字であり、第２の文字列の文字数は２０文字であり、第３の文字列の文字数は２６文字である。このような文字数が文字数カウント部４４により求められる。

さらに、図７に示されるように、第１の文字列に対応する発話（第１の文字列により内容が表される発話）の速度は４．６（文字数／表示時間（秒））となり、第２の文字列に対応する発話の速度は２．８６となる。また、第３の文字列に対応する話速の速度は６．５となる。このような話速が除算部４６により求められる。

ここで、図８のフローチャートを参照して、以上のようにして話速を求める図６の情報処理装置１の処理について説明する。

ステップＳ１１において、抽出部４１は、供給されたコンテンツから字幕データを抽出し、抽出した字幕データを字幕パーサ４２に出力する。

ステップＳ１２において、字幕パーサ４２は、抽出部４１から供給された字幕データからテキストストリームと表示時刻情報を抽出し、抽出したテキストストリームを前処理部４３に、表示時刻情報を表示時間計算部４５にそれぞれ出力する。

ステップＳ１３において、前処理部４３は、字幕パーサ４２から供給されたテキストストリームに含まれる文字列に対して前処理を施し、処理を施すことによって得られたそれぞれの文字列を文字数カウント部４４に出力する。

ステップＳ１４において、文字数カウント部４４は、前処理部４３から供給されたそれぞれの文字列を構成する文字の数を数え、得られた文字数の情報を除算部４６に出力する。

ステップＳ１５において、表示時間計算部４５は、それぞれの文字列の表示時間を発話の時間として、字幕パーサ４２から供給された表示時刻情報に基づいてコンテンツの登場人物の発話の時間を求める。表示時間計算部４５は、求めた発話時間の情報を除算部４６に出力する。

ステップＳ１６において、除算部４６は、文字数カウント部４４から供給された文字数の情報と表示時間計算部４５から供給された発話時間の情報に基づいて、文字数を発話時間で除算した値を話速として求める。除算部４６は、求めた話速の情報を後処理部４７に出力する。

ステップＳ１７において、後処理部４７は、除算部４６から供給された話速情報に対して後処理を適宜施し、処理を施すことによって得られた話速情報を外部に出力する。その後、処理は終了される。

以上の処理によっても、音声認識によって得られた文字列などを用いて話速を求める場合に較べて、容易に、かつ正しい話速を求めることができる。

以上においては、音声データを解析したり、字幕データに含まれるそれぞれの文字列の表示時刻の情報から発話時間が求められ、それが話速の算出に用いられるものとしたが、音声データや表示時刻の情報からではなく、コンテンツの再生時に表示される画像から発話時間が求められ、話速の算出に用いられるようにしてもよい。

図９は、画像から話速を求める情報処理装置１の機能構成例を示すブロック図である。

図９の情報処理装置１においては、例えば、抽出部５１、文字領域抽出部５２、文字数カウント部５３、表示時間計算部５４、除算部５５、および後処理部５６が実現される。

抽出部５１は、供給されたコンテンツから画像データを抽出し、抽出した画像データを文字領域抽出部５２に出力する。

文字領域抽出部５２は、抽出部５１から供給された画像データに基づいて、それぞれの画面の例えば下方の位置に帯状に表示される字幕の表示領域を抽出し、抽出した表示領域内の画像データを文字数カウント部５３と表示時間計算部５４に出力する。

文字数カウント部５３は、文字領域抽出部５２から供給された字幕の表示領域内の画像データを解析することによって表示領域内に表示されているそれぞれの文字の領域を検出し、検出した文字領域の数を文字列の文字数として数える。文字数カウント部５３は、得られた文字数の情報を除算部５５に出力する。

なお、文字領域抽出部５２による字幕の表示領域の検出や文字数カウント部５３による文字の領域の検出には、例えば、OCR（Optical Character Reader）ソフトウエアなどでも採用されているような技術が用いられる。一般的に、OCRソフトウエアにおいては、光学的に取り込んだ画像から文字の領域を抽出し、それぞれの領域に含まれる文字を認識することが行われる。

表示時間計算部５４は、文字領域抽出部５２から供給された字幕の表示領域内の画像データを解析することによって表示領域の表示内容（文字列）の変化点を検出し、検出した変化点間の時間を発話時間として求める。すなわち、ここでも、ある文字列が字幕の表示領域に表示される時間がその文字列によって内容が表される発話の時間とされるが、その表示時間が字幕データに含まれる文字列の表示時刻の情報からではなく画像から求められる。表示時間計算部５４は、求めた発話時間の情報を除算部５５に出力する。

除算部５５は、文字数カウント部５３から供給された文字数の情報と表示時間計算部５４から供給された発話時間の情報に基づいて、文字数を発話時間で除算した値を話速として求める。除算部５５は、求めた話速を表す話速情報を後処理部５６に出力する。

後処理部５６は、除算部５５から供給された話速情報に対して後処理を適宜施し、処理を施すことによって得られた話速情報を外部に出力する。例えば、所定の数の話速の平均を求めることなどが後処理として行われる。

図１０は、コンテンツの再生時に表示される画像の例を示す図である。

図１０に示される画像が処理対象となっている場合、その下方の位置に帯状に表示される領域Ａが文字領域抽出部５２により抽出される。図１０の例においては、領域Ａには「お前最近車乗ってるのか？乗ってないです。」の字幕（文字列）が表示されている。

文字数カウント部５３においては、領域Ａの画像データから、「お」の領域、「前」の領域、「」の領域、「最」の領域、・・・といったように、それぞれの文字の領域が画像処理により検出され、検出された領域の数が文字数として求められる。図１０の領域Ａの画像データからは、２３文字であるとして文字数が検出される。

また、表示時間計算部５４においては、図１０の「お前最近車乗ってるのか？乗ってないです。」の文字列が領域Ａに表示されている時間が発話時間として求められる。

ここで、図１１のフローチャートを参照して、以上のようにして話速を求める図９の情報処理装置１の処理について説明する。

ステップＳ２１において、抽出部５１は、供給されたコンテンツから画像データを抽出し、抽出した画像データを文字領域抽出部５２に出力する。

ステップＳ２２において、文字領域抽出部５２は、抽出部５１から供給された画像データから字幕の表示領域を抽出し、抽出した表示領域内の画像データを文字数カウント部５３と表示時間計算部５４に出力する。

ステップＳ２３において、文字数カウント部５３は、文字領域抽出部５２から供給された字幕の表示領域全体をそれぞれの文字の領域に分離し、分離した文字領域の数を文字列の文字数として数える。文字数カウント部５３は、得られた文字数の情報を除算部５５に出力する。

ステップＳ２４において、表示時間計算部５４は、文字領域抽出部５２から供給された字幕の表示領域の表示内容の変化点を検出し、検出した変化点間の時間、すなわち、字幕の表示開始時刻と表示終了時刻の差分を発話時間として求める。表示時間計算部５４は、求めた発話時間の情報を除算部５５に出力する。

ステップＳ２５において、除算部５５は、文字数カウント部５３から供給された文字数の情報と表示時間計算部５４から供給された発話時間の情報に基づいて話速を求め、求めた話速を表す話速情報を後処理部５６に出力する。

ステップＳ２６において、後処理部５６は、除算部５５から供給された話速情報に対して後処理を適宜施し、処理を施すことによって得られた話速情報を外部に出力する。その後、処理は終了される。

以上の処理により、音声データや文字列の表示時刻の情報を用いることなく、画像から、話速を求めることができる。したがって、字幕として表示される文字列がテキストデータとして用意されていない、例えば、オープンキャプションによって字幕が表示されるコンテンツを対象とした場合であっても話速を求めることが可能となる。

また、話速の算出に用いられる文字数や発話時間（文字列の表示時間）は、文字の内容までを認識する必要はなく、文字が表示されていることを検出するだけで得られる情報であるから、容易に、かつ正しい話速を求めることができる。テレビジョン番組の画面などの場合、字幕として表示される文字列のまわりには背景（撮影された範囲）があり、文字列の背景は複雑なものであることが多いため文字の認識精度はあまり期待できないが、文字が表示されていることだけの認識（検出）であれば比較的正しく検出することができるものと考えられる。

図１２は、画像から話速を求める情報処理装置１の他の機能構成例を示すブロック図である。

図１２の情報処理装置１においては、例えば、抽出部６１、文字認識部６２、前処理部６３、文字数カウント部６４、表示時間計算部６５、除算部６６、および後処理部６７が実現される。

抽出部６１は、供給されたコンテンツから画像データを抽出し、抽出した画像データを文字認識部６２に出力する。

文字認識部６２は、抽出部６１から供給された画像データに基づいて、それぞれの画面の例えば下方の位置に帯状に表示される字幕の表示領域を抽出し、抽出した表示領域内の画像データを解析することによって文字列を認識する。すなわち、図９の情報処理装置１とは異なり、文字認識部６２においては、表示されている文字の内容までが認識される。文字認識部６２は、認識した文字列を前処理部６３と表示時間計算部６５に出力する。

前処理部６３は、文字認識部６２から供給された文字列に対して前処理を施し、処理を施すことによって得られたそれぞれの文字列を文字数カウント部６４に出力する。上述したように、例えば、コンテンツの再生時に登場人物によって発話されない記号や発話主の名前を表す文字などを除去することが前処理として行われる。

文字数カウント部６４は、前処理部６３から供給されたそれぞれの文字列を構成する文字の数を数え、得られた文字数の情報を除算部６６に出力する。

表示時間計算部６５は、文字認識部６２から供給された文字列に基づいて、文字列の内容の変化点を検出し、検出した変化点間の時間を発話時間として求める。表示時間計算部６５は、求めた発話時間の情報を除算部６６に出力する。ここでも、文字列が表示されている時間が登場人物が発話している時間とされることになる。

除算部６６は、文字数カウント部６４から供給された文字数の情報と表示時間計算部６５から供給された発話時間の情報に基づいて、文字数を発話時間で除算した値を話速として求める。除算部６６は、求めた話速を表す話速情報を後処理部６７に出力する。

後処理部６７は、除算部６６から供給された話速情報に対して後処理を適宜施し、処理を施すことによって得られた話速情報を外部に出力する。上述したように、例えば、所定の数の話速の平均を求めることなどが後処理として行われる。

ここで、図１３のフローチャートを参照して、以上のようにして話速を求める図１２の情報処理装置１の処理について説明する。

ステップＳ３１において、抽出部６１は、供給されたコンテンツから画像データを抽出し、抽出した画像データを文字認識部６２に出力する。

ステップＳ３２において、文字認識部６２は、抽出部６１から供給された画像データに基づいて、それぞれの画面に表示される字幕の表示領域を抽出し、抽出した表示領域内の画像データを解析することによって文字列を認識する。文字認識部６２は、認識した文字列のテキストデータを前処理部６３と表示時間計算部６５に出力する。

ステップＳ３３において、前処理部６３は、文字認識部６２から供給された文字列に対して前処理を施し、処理を施すことによって得られたそれぞれの文字列を文字数カウント部６４に出力する。

ステップＳ３４において、文字数カウント部６４は、前処理部６３から供給されたそれぞれの文字列を構成する文字の数を数え、得られた文字数の情報を除算部６６に出力する。

ステップＳ３５において、表示時間計算部６５は、文字認識部６２から供給された文字列に基づいて表示内容の変化点を検出し、検出した変化点間の時間、すなわち、字幕の表示開始時刻と表示終了時刻の差分を発話時間として求める。表示時間計算部６５は、求めた発話時間の情報を除算部６６に出力する。

ステップＳ３６において、除算部６６は、文字数カウント部６４から供給された文字数の情報と表示時間計算部６５から供給された発話時間の情報に基づいて、文字数を発話時間で除算した値を話速として求める。除算部６６は、求めた話速の情報を後処理部６７に出力する。

ステップＳ３７において、後処理部６７は、除算部６６から供給された話速情報に対して後処理を適宜施し、処理を施すことによって得られた話速情報を外部に出力する。その後、処理は終了される。

以上の処理によっても画像から話速を求めることができる。

以上においては、文字列の表示時刻情報がない場合、発話時間は、音声データを解析することによって（例えば、図３）、あるいは、文字列が表示されている時間を発話時間とすることによって（例えば、図９、図１２）求められるものとしたが、音声データを解析することによって得られた発話時間と文字列が表示されている時間から得られた発話時間とを用いて、より正しい発話時間を求めるようにしてもよい。正しい発話時間が求められることにより、より精度の高い話速を求めることが可能となる。

図１４は、音声データを解析することによって得られた発話時間と、文字列が表示されている時間から得られた発話時間の例を示す図である。

図１４の例においては、音声データを解析することによって検出された発話時間である発話時間Ｓ₁乃至Ｓ₇と、文字列が表示されている時間から検出された発話時間である発話時間ｓ₁，ｓ₂が示されている。

この場合、図１４に示されるように、発話時間Ｓ₁乃至Ｓ₄と発話時間ｓ₁、発話時間Ｓ₅乃至Ｓ₇と発話時間ｓ₂がそれぞれ対応付けられる。対応付けは、例えば、検出された時間的な順序関係や、検出された時間の差などに基づいて行われる（例えば、図１４においては、閾値より短い時間を挟む発話時間をひとまとまりの時間とした発話時間Ｓ₁の開始時刻から発話時間Ｓ₄の終了時刻までの時間と、発話時間ｓ₁の差が少ないことと、発話時間Ｓ₁乃至Ｓ₄からなるひとまとまりの時間と発話時間ｓ₁はともに１つめの発話時間として検出されていることから対応付けられたものである。同様に、閾値より短い時間を挟む発話時間をひとまとまりの時間とした発話時間Ｓ₅の開始時刻から発話時間Ｓ₇の終了時刻までの時間と、発話時間ｓ₂の差が少ないことと、発話時間Ｓ₅乃至Ｓ₇からなるひとまとまりの時間と発話時間ｓ₂はともに２つめの発話時間として検出されていることから対応付けられたものである）。

図１４に示されるようにして対応付けがなされた場合、発話時間Ｓ₁乃至Ｓ₄をあわせたひとまとまりの時間と発話時間ｓ₁の平均が１つの発話時間として求められ、また、発話時間Ｓ５乃至Ｓ６をあわせたひとまとまりの時間と発話時間ｓ₂の平均が１つの発話時間として求められる。求められた発話時間は、それらの時間に表示された文字列の文字数とともに、話速の算出に用いられる。

次に、以上のようにして生成された話速情報に基づく属性情報の生成について説明する。生成された属性情報はコンテンツに付加され、そのコンテンツの再生時などに用いられる。

図１５は、情報処理装置１０１の機能構成例を示すブロック図である。

情報処理装置１０１は上述した情報処理装置１と同様に図２のハードウエア構成を有している。情報処理装置１０１のCPU１１により所定のプログラムが実行されることによって、図１５に示されるように情報処理部１１１と属性情報生成部１１２が情報処理装置１０１においては実現される。

情報処理部１１１は、テレビジョン番組や映画などの、音声のデータを含むコンテンツを入力とし、コンテンツに登場する人物などによる発話の速度を求め、求めた話速を表す情報である話速情報を属性情報生成部１１２に出力する。すなわち、情報処理部１１１は、図３、図６、図９、図１２のいずれかに示されるものと同じ構成を有しており、上述したようにして話速を求める。

属性情報生成部１１２は、情報処理部１１１から供給された話速情報に基づいて属性情報を生成し、生成した属性情報を外部から入力されたコンテンツに付加する。属性情報生成部１１２においては、例えば、閾値となる速度より早い話速が求められたコンテンツの部分が、コンテンツの内容が盛り上がっている部分であるとして検出され、その部分の開始時刻と終了時刻の情報が属性情報として生成される。

例えば、処理対象のコンテンツがトーク番組のコンテンツである場合、出演者の話速が速くなる部分は議論が激しくなった部分などであり、そのような部分はトーク番組としては内容が盛り上がっている部分と考えられる。また、処理対象のコンテンツがドラマのコンテンツである場合、出演者の話速が速くなる部分は激しいセリフのやりとりが行われている部分などであり、そのような部分はドラマとしては内容が盛り上がっている部分と考えられる。

属性情報生成部１１２により生成された属性情報が付加されたコンテンツは外部に出力され、所定のタイミングで再生される。コンテンツの再生時、属性情報生成部１１２により生成された属性情報がコンテンツの再生装置により参照され、例えば、開始時刻と終了時刻により指定される盛り上がりの部分だけの再生が行われる。開始時刻と終了時刻により指定される盛り上がりの部分だけがリムーバブルメディアに記録されたり、携帯型のプレーヤなどの外部機器に転送されるようにしてもよい。

図１６のフローチャートを参照して、図１５の情報処理装置１０１（属性情報生成部１１２）の属性情報生成処理について説明する。この処理は、例えば、図５、図８、図１１、および図１３を参照して説明した処理が情報処理部１１１によって行われ、話速情報が属性情報生成部１１２に供給されたときに開始される。

ステップＳ１０１において、属性情報生成部１１２は、情報処理部１１１から供給された話速情報に基づいて、閾値となる速度より早い話速が求められたコンテンツの部分を検出する。

ステップＳ１０２において、属性情報生成部１１２は、ステップＳ１０１で検出した部分の開始時刻と終了時刻の情報を属性情報として生成し、ステップＳ１０３に進み、コンテンツに付加して外部に出力する。

これにより、コンテンツの盛り上がり部分だけの再生を外部の再生装置に行わせることが可能となる。

なお、ここでは、以上のようにして求められた話速がコンテンツの盛り上がりの部分を検出するために用いられるものとしたが、話速の用途はこれに限られるものではない。

以上においては、話速は、単位時間あたりの文字数によって表されるものとしたが、文字列の文字数と発話時間を少なくとも用いて表されるものであれば、どのような形で表されるようにしてもよい。

また、以上においては、情報処理装置１（情報処理装置１０１）に入力されるコンテンツはテレビジョン番組や映画のコンテンツであるとしたが、このコンテンツは、放送されるものだけでなく、DVDなどにパッケージ化されたコンテンツであってもよい。

上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図２に示すように、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory)，DVD(Digital Versatile Disc)を含む）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア２１、または、プログラムが一時的もしくは永続的に格納されるROM１２や、記憶部１８を構成するハードディスクなどにより構成される。プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインターフェースである通信部１９を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。

なお、本明細書において、プログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

本発明の一実施形態に係る情報処理装置を示す図である。情報処理装置のハードウエア構成例を示すブロック図である。情報処理装置の機能構成例を示すブロック図である。話速の算出の例を示す図である。図３の情報処理装置の話速算出処理について説明するフローチャートである。情報処理装置の他の機能構成例を示すブロック図である。字幕データに含まれる情報の例と、含まれる情報に基づいて求められた話速の算出結果の例を示す図である。図６の情報処理装置の話速算出処理について説明するフローチャートである。情報処理装置のさらに他の機能構成例を示すブロック図である。画像の例を示す図である。図９の情報処理装置の話速算出処理について説明するフローチャートである。情報処理装置の機能構成例を示すブロック図である。図１２の情報処理装置の話速算出処理について説明するフローチャートである。音声データを解析することによって得られた発話時間と、文字列が表示されている時間から得られた発話時間の例を示す図である。情報処理装置の機能構成例を示すブロック図である。図１５の情報処理装置の属性情報生成処理について説明するフローチャートである。

符号の説明

１情報処理装置，３１抽出部，３２文字数カウント部，３３発話時間計測部，３４タイミング制御部，３５除算部，４１抽出部，４２字幕パーサ，４３前処理部，４４文字数カウント部，４５表示時間計算部，４６除算部，４７後処理部，５１抽出部，５２文字領域抽出部，５３文字数カウント部，５４表示時間計算部，５５除算部，５６後処理部，６１抽出部，６２文字認識部，６３前処理部，６４文字数カウント部，６５表示時間計算部，６６除算部，６７後処理部，１０１情報処理装置，１１１情報処理部，１１２属性情報生成部

Claims

発話の内容を表す文字列を構成する文字の数を数える計数手段と、
前記発話の時間を計測する発話時間計測手段と、
前記計数手段により数えられた前記文字の数と前記発話時間計測手段により計測された前記発話の時間に基づいて前記発話の速度を算出する算出手段と
を備える情報処理装置。
前記算出手段は、単位時間あたりの文字の数で表される値を前記発話の速度として算出する
請求項１に記載の情報処理装置。
前記文字列はコンテンツの再生時に画面上に表示される文字列であり、前記発話は前記文字列の表示にあわせて出力される音声である
請求項１に記載の情報処理装置。
前記算出手段により算出された前記発話の速度が所定の速度より早い前記コンテンツの区間を内容の盛り上がりの区間として検出する検出手段をさらに備える
請求項３に記載の情報処理装置。
コンテンツに含まれる文字列の情報と音声の情報を抽出する抽出手段と、
前記抽出手段により情報が抽出された複数の文字列と、抽出された音声の情報に基づいて出力される複数の発話のうち、前記発話の速度の算出に用いられる前記文字の数を数える対象となる文字列と、前記発話の時間を計測する対象となる発話との対応付け行う制御手段と
をさらに備える請求項１に記載の情報処理装置。
発話時間計測手段は、コンテンツに含まれるそれぞれの文字列の表示時刻の情報に基づいて前記発話の時間を計測する
請求項１に記載の情報処理装置。
コンテンツの再生時に画面上に表示される文字列の表示領域を抽出する領域抽出手段をさらに備え、
前記計数手段は、前記領域抽出手段により抽出された領域の画像に基づいて文字の数を数える
請求項１に記載の情報処理装置。
前記発話時間計測手段は、前記領域検出手段により検出された領域に文字列が表示されている時間を前記発話の時間として計測する
請求項７に記載の情報処理装置。
コンテンツの再生時に画面上に表示される文字列を構成する文字を文字認識により認識する認識手段をさらに備え、
前記計数手段は、前記認識手段により認識された前記文字の数を数える
請求項１に記載の情報処理装置。
発話の内容を表す文字列を構成する文字の数を数え、
前記発話の時間を計測し、
数えられた前記文字の数と計測された前記発話の時間に基づいて前記発話の速度を算出する
ステップを含む情報処理方法。
発話の内容を表す文字列を構成する文字の数を数え、
前記発話の時間を計測し、
数えられた前記文字の数と計測された前記発話の時間に基づいて前記発話の速度を算出する
ステップを含む処理をコンピュータに実行させるプログラム。