JP2007213176A - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP2007213176A
JP2007213176A JP2006030483A JP2006030483A JP2007213176A JP 2007213176 A JP2007213176 A JP 2007213176A JP 2006030483 A JP2006030483 A JP 2006030483A JP 2006030483 A JP2006030483 A JP 2006030483A JP 2007213176 A JP2007213176 A JP 2007213176A
Authority
JP
Japan
Prior art keywords
utterance
time
unit
characters
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2006030483A
Other languages
English (en)
Inventor
Shunji Yoshimura
俊司 吉村
Kenichiro Kobayashi
賢一郎 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2006030483A priority Critical patent/JP2007213176A/ja
Priority to EP07101904A priority patent/EP1818936A1/en
Priority to US11/672,750 priority patent/US20070185704A1/en
Publication of JP2007213176A publication Critical patent/JP2007213176A/ja
Abandoned legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】話速を容易に求めることができるようにする。
【解決手段】字幕として表示される複数の文字列が、文章の終わりに現れる文字や記号を基準として文字列T1乃至T4にそれぞれ区切られる。文字列T1乃至T4のそれぞれの文字列を構成する文字の数が数えられるとともに、それぞれの文字列により内容が表される発話の区間S1乃至S4の時間が求められる。求められた文字数を発話時間で除算した値が、文字列T1乃至T4のそれぞれが字幕として表示されるタイミングでコンテンツの登場人物によって発話されるその発話の速度として求められる。本発明は、テレビジョン番組や映画などの動画コンテンツを扱う装置に適用することができる。
【選択図】図4

Description

本発明は、情報処理装置および方法、並びにプログラムに関し、特に、話速を容易に求めることができるようにした情報処理装置および方法、並びにプログラムに関する。
従来より、話速を検出する技術として音声認識によってそれを行うものがある。検出された話速は、例えば、録音された音声の再生スピードを調整したりするために用いられる。
特許文献1には、有声区間の時間内に発話可能な語数と1画面に表示可能な文字数から字幕画面数を算出し、有声区間の時間長を字幕画面数で割って得られる時間間隔で字幕情報を順次表示させることによって、音声と字幕の出力タイミングにずれが生じるのをなくす技術が開示されている。
特開2004−128849号公報
例えば、音声認識によりテキストデータ化された音声の内容を表す文字列を構成する文字の数を数え、数えた文字数と発話時間から発話の速度、すなわち、話速を求めるといったことが考えられるものの、この場合、正しい話速を検出するためには少なくとも音声認識で音節の認識が正しく行われる必要がある。現在の音声認識技術でも、相応の精度を持ってこのような認識を行うことは可能であるが、認識の精度と処理の規模(処理のための演算量)はトレードオフの関係にあり、機器のコストを大幅に上昇させることなく高精度の認識を行うことは難しい。仮に、音節の認識が誤って行われた場合、文字数を正しく数えることができず、結果として、正しい話速を求めることができない。
本発明はこのような状況に鑑みてなされたものであり、例えば音声認識などを用いて求める場合に較べて、話速を容易に求めることができるようにするものである。
本発明の一側面の情報処理装置は、発話の内容を表す文字列を構成する文字の数を数える計数手段と、前記発話の時間を計測する発話時間計測手段と、前記計数手段により数えられた前記文字の数と前記発話時間計測手段により計測された前記発話の時間に基づいて前記発話の速度を算出する算出手段とを備える。
前記算出手段には、単位時間あたりの文字の数で表される値を前記発話の速度として算出させることができる。
前記文字列はコンテンツの再生時に画面上に表示される文字列であり、前記発話は前記文字列の表示にあわせて出力される音声であるようにすることができる。
前記算出手段により算出された前記発話の速度が所定の速度より早い前記コンテンツの区間を内容の盛り上がりの区間として検出する検出手段をさらに設けることができる。
コンテンツに含まれる文字列の情報と音声の情報を抽出する抽出手段と、前記抽出手段により情報が抽出された複数の文字列と、抽出された音声の情報に基づいて出力される複数の発話のうち、前記発話の速度の算出に用いられる前記文字の数を数える対象となる文字列と、前記発話の時間を計測する対象となる発話との対応付け行う制御手段とをさらに設けることができる。
発話時間計測手段には、コンテンツに含まれるそれぞれの文字列の表示時刻の情報に基づいて前記発話の時間を計測させることができる。
コンテンツの再生時に画面上に表示される文字列の表示領域を抽出する領域抽出手段をさらに設けることができる。この場合、前記計数手段には、前記領域抽出手段により抽出された領域の画像に基づいて文字の数を数えさせることができる。
前記発話時間計測手段には、前記領域検出手段により検出された領域に文字列が表示されている時間を前記発話の時間として計測させることができる。
コンテンツの再生時に画面上に表示される文字列を構成する文字を文字認識により認識する認識手段をさらに設けることができる。この場合、前記計数手段には、前記認識手段により認識された前記文字の数を数えさせることができる。
本発明の一側面の情報処理方法またはプログラムは、発話の内容を表す文字列を構成する文字の数を数え、前記発話の時間を計測し、数えられた前記文字の数と計測された前記発話の時間に基づいて前記発話の速度を算出するステップを含む。
本発明の一側面においては、発話の内容を表す文字列を構成する文字の数が数えられるとともに、発話の時間が計測される。また、数えられた文字の数と計測された発話の時間に基づいて発話の速度が算出される。
本発明の一側面によれば、話速を容易に求めることができる。
以下に本発明の実施の形態を説明するが、本発明の構成要件と、明細書又は図面に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、明細書又は図面に記載されていることを確認するためのものである。従って、明細書又は図面中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が発明に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外には対応しないものであることを意味するものでもない。
本発明の一側面の情報処理装置(例えば、図1の情報処理装置1)は、発話の内容を表す文字列を構成する文字の数を数える計数手段(例えば、図3の文字数カウント部32)と、前記発話の時間を計測する発話時間計測手段(例えば、図3の発話時間計測部33)と、前記計数手段により数えられた前記文字の数と前記発話時間計測手段により計測された前記発話の時間に基づいて前記発話の速度を算出する算出手段(例えば、図3の除算部35)とを備える。
この情報処理装置には、前記算出手段により算出された前記発話の速度が所定の速度より早い前記コンテンツの区間を内容の盛り上がりの区間として検出する検出手段(例えば、図15の属性情報生成部112)をさらに設けることができる。
また、情報処理装置には、コンテンツに含まれる文字列の情報と音声の情報を抽出する抽出手段(例えば、図3の抽出部31)と、前記抽出手段により情報が抽出された複数の文字列と、抽出された音声の情報に基づいて出力される複数の発話のうち、前記発話の速度の算出に用いられる前記文字の数を数える対象となる文字列と、前記発話の時間を計測する対象となる発話との対応付け行う制御手段(例えば、図3のタイミング制御部34)とをさらに設けることができる。
さらに、情報処理装置には、コンテンツの再生時に画面上に表示される文字列の表示領域を抽出する領域抽出手段(例えば、図9の文字領域抽出部52)をさらに設けることができる。
情報処理装置には、コンテンツの再生時に画面上に表示される文字列を構成する文字を文字認識により認識する認識手段(例えば、図12の文字認識部62)をさらに設けることができる。
本発明の一側面の情報処理方法またはプログラムは、発話の内容を表す文字列を構成する文字の数を数え、前記発話の時間を計測し、数えられた前記文字の数と計測された前記発話の時間に基づいて前記発話の速度を算出するステップ(例えば、図5のステップS5)を含む。
以下、本発明の実施の形態について図を参照して説明する。
図1は、本発明の一実施形態に係る情報処理装置を示す図である。
情報処理装置1は、テレビジョン番組や映画などの、音声のデータを含むコンテンツを入力とし、コンテンツに登場する人物などによる発話の速度(話速)を求め、求めた話速を表す情報である話速情報を外部に出力する装置である。
情報処理装置1に入力されるコンテンツには、コンテンツの再生時にその画面上に字幕を表示するために用いられるクローズドキャプションデータなどのテキストデータも映像や音声のデータとともに含まれており、情報処理装置1においては、例えば、ある発話の内容を表すものとして画面上に表示される文字列を構成する文字の数と、音声データに基づいて出力される、その発話の出力時間(発話時間)から話速が求められる。
後述するように、情報処理装置1から出力された話速情報は、入力されたコンテンツに属性情報を付加するために用いられる。話速が比較的早いコンテンツの部分は、そのコンテンツの中でも内容が盛り上がっている部分であると考えられるから、例えば、コンテンツの再生時に、話速の早い部分、すなわち、盛り上がりの部分だけを再生するときに参照される、盛り上がり部分であることを表す属性情報がコンテンツに付加される。
図2は、図1の情報処理装置1のハードウエア構成例を示すブロック図である。
CPU(Central Processing Unit)11は、ROM(Read Only Memory)12、または記憶部18に記憶されているプログラムに従って各種の処理を実行する。RAM(Random Access Memory)13には、CPU11が実行するプログラムやデータなどが適宜記憶される。これらのCPU11、ROM12、およびRAM13は、バス14により相互に接続されている。
CPU11にはまた、バス14を介して入出力インターフェース15が接続されている。入出力インターフェース15には、コンテンツの入力を受ける入力部16、話速情報を出力する出力部17が接続されている。
入出力インターフェース15に接続されている記憶部18は例えばハードディスクからなり、CPU11が実行するプログラムや各種のデータを記憶する。通信部19は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。
入出力インターフェース15に接続されているドライブ20は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア21が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部18に転送され、記憶される。
図3は、情報処理装置1の機能構成例を示すブロック図である。図3に示す機能部のうちの少なくとも一部は、図2のCPU11により所定のプログラムが実行されることによって実現される。
情報処理装置1においては、例えば、抽出部31、文字数カウント部32、発話時間計測部33、タイミング制御部34、および除算部35が実現される。
抽出部31は、供給されたコンテンツからテキストストリーム(字幕として表示される文字列の並び)と音声データを抽出し、抽出したテキストストリームを文字数カウント部32に、音声データを発話時間計測部33にそれぞれ出力する。
文字数カウント部32は、タイミング制御部34による制御にしたがって、抽出部31から供給された複数の文字列中に含まれる句読点、改行位置などによって区切られたそれぞれの文字列を構成する文字の数を数え、得られた文字数の情報を除算部35に出力する。
発話時間計測部33は、タイミング制御部34による制御にしたがって、コンテンツの再生時に文字数カウント部32によって文字の数が数えられた文字列が画面に表示されるのと同じタイミングでコンテンツの登場人物によって発話されるその発話の時間を計測し、計測して得られた発話時間の情報を除算部35に出力する。例えば、抽出部31から供給された音声データのスペクトラム解析、パワー解析などが行われ、人間が話していると認識された部分の時間が計測される。
タイミング制御部34は、同じ発話について、発話の内容を表す文字列(字幕)の文字数が文字数カウント部32によって数えられるとともに、その発話の時間が発話時間計測部33によって計測されるように、文字数カウント部32が文字数を数えるタイミングと発話時間計測部33が発話時間を計測するタイミングを制御する。タイミング制御部34は、同じ発話についての文字数の情報と発話時間の情報を用いて話速の算出が行われるように、文字数カウント部32から供給される文字数の情報と発話時間計測部33から供給される発話時間の情報の対応関係を表す情報を除算部35に出力する。
除算部35は、文字数カウント部32から供給された文字数の情報と発話時間計測部33から供給された発話時間の情報のうち、タイミング制御部34によって対応付けられた文字数の情報と発話時間の情報を用い、それらの情報によって表される文字数を発話時間(例えば、秒)で除算した値を話速として求める。除算部35は、求めた話速を表す話速情報を外部に出力する。
図4は、図3の情報処理装置1において行われる話速の算出の例を示す図である。図4において横方向は時間方向を示す。
図4の例においては、字幕として表示される複数の文字列の例として「お前 最近 車 乗ってるのか?乗ってないです。じゃ ほとんどペーパードライバー?うん。・・・」が示されている。コンテンツの再生時、画面上には、「お前 最近 車 乗ってるのか?乗ってないです。じゃ ほとんどペーパードライバー?うん。・・・」が、所定の範囲の文字列毎に左側にあるものから順次表示される。
この例では、実線で囲んで示されるように、「お前 最近 車 乗ってるのか?」、「乗ってないです。」、「じゃ ほとんどペーパードライバー?」、「うん。」の文字列T1乃至T4にそれぞれ区切られている。これは、例えば、句読点や「?」などのように文章の終わりに現れる文字や記号を基準として区切られたものである。
この場合、文字数カウント部32においては、文字列T1乃至T4のそれぞれの文字列を構成する文字の数が数えられ、文字数を表す情報が除算部35に出力される。スペースも1文字として数えた場合、文字列T1の文字数は14文字、文字列T2の文字数は5文字、文字列T3の文字数は11文字、文字列T4の文字数は3文字である。
また、図4においては、時刻t1から時刻t2までの区間が発話区間S1、時刻t3から時刻t4までの区間が発話区間S2、時刻t5から時刻t6までの区間が発話区間S3、時刻t7から時刻t8までの区間が発話区間S4とされている。
この場合、発話時間計測部33においては、発話区間S1の発話時間として「t2−t1」で表される時間が計測され、発話区間S2の発話時間として「t4−t3」で表される時間が計測される。発話区間S3の発話時間として「t6−t5」で表される時間が計測され、発話区間S4の発話時間として「t8−t7」で表される時間が計測される。これらの発話時間を表す情報が除算部35に出力される。
このような文字列と発話区間が得られた場合、タイミング制御部34においては、例えばコンテンツの先頭の位置を基準として左側にあるものから順に、文字列(文字数)と発話区間(発話時間)が対応付けられ、その対応関係が除算部35に出力される。
図4の例においては、「?」で区切られる1つ目の文字列である文字列T1の文字数の14文字と1つ目の発話区間である発話区間S1の時間の「t2−t1」が対応付けられ、「。」で区切られる2つ目の文字列である文字列T2の文字数の5文字と2つ目の発話区間である発話区間S2の時間の「t4−t3」が対応付けられる。
また、「?」で区切られる3つ目の文字列である文字列T3の文字数の11文字と3つ目の発話区間である発話区間S3の時間の「t6−t5」が対応付けられ、「。」で区切られる4つ目の文字列である文字列T4の文字数の3文字と4つ目の発話区間である発話区間S4の時間の「t8−t7」が対応付けられる。
除算部35においては、対応付けられた文字数と発話時間に基づいて話速が求められる。話速は例えば単位時間あたりの文字数で表され、この場合、発話区間S1乃至S4におけるそれぞれの話速は下式(1)乃至(4)で表されるものになる。
発話区間S1における話速 = 14/(t2−t1) ・・・ (1)
発話区間S2における話速 = 5/(t4−t3) ・・・ (2)
発話区間S3における話速 = 11/(t6−t5) ・・・ (3)
発話区間S4における話速 = 3/(t8−t7) ・・・ (4)
ここで、図5のフローチャートを参照して、以上のようにして話速を求める情報処理装置1の処理について説明する。
ステップS1において、抽出部31は、供給されたコンテンツからテキストストリームと音声データを抽出し、抽出したテキストストリームを文字数カウント部32に、音声データを発話時間計測部33にそれぞれ出力する。
ステップS2において、文字数カウント部32は、抽出部31から供給された文字列全体を所定の範囲毎の文字列に分け、それぞれの文字列の文字数を数える。文字数カウント部32は、得られた文字数の情報を除算部35に出力する。
ステップS3において、発話時間計測部33は、抽出部31から供給された音声データを解析することによって発話区間を検出し、その時間を計測する。
ステップS4において、タイミング制御部34は、発話の算出に用いられる文字列(文字数)と発話区間(発話時間)を対応付け、文字数カウント部32から供給される文字数の情報と発話時間計測部33から供給される発話時間の情報の対応関係を表す情報を除算部35に出力する。
ステップS5において、除算部35は、タイミング制御部34によって対応付けられた文字数の情報と発話時間の情報を用い、上述したように、例えば単位時間あたりの文字数を話速として求める。除算部35は、求めた話速を表す話速情報を外部に出力し、処理を終了させる。
このように、コンテンツの再生時に字幕として画面上に表示される文字の数と発話の時間から話速を求めるようにしたため、例えば、音声認識によって得られた文字列などを用いて話速を求める場合に較べて、容易に、かつ比較的精度よく話速を求めることができる。発話の内容を表す正しい文字列を音声認識によって得るためには少なくともその発話の音節までを認識する必要があるが、情報処理装置1においては、単に、コンテンツの再生時に画面上に表示される文字の数を数え、それを話速の算出に用いるだけであるから複雑な処理が不要となる。
以上においては、音声データを解析することによって発話の時間が求められ、それが話速の算出に用いられるものとしたが、クローズドキャプションデータのように、字幕として表示するそれぞれの文字列のテキストデータだけでなく、それぞれの文字列の表示時刻の情報を含む情報がコンテンツに付加されている場合、その表示時刻の情報から発話の時間が求められ、求められた発話の時間が話速の算出に用いられるようにしてもよい。この場合、文字列の表示されている時間が、発話時間として扱われることになる。
図6は、表示時刻の情報を用いて話速を求める情報処理装置1の機能構成例を示すブロック図である。
図6の情報処理装置1においては、例えば、抽出部41、字幕パーサ42、前処理部43、文字数カウント部44、表示時間計算部45、除算部46、および後処理部47が実現される。
抽出部41は、供給されたコンテンツから字幕データ(クローズドキャプションデータ)を抽出し、抽出した字幕データを字幕パーサ42に出力する。字幕データには、コンテンツの再生時に字幕として表示される文字列のテキストデータと、それぞれの文字列の表示時刻の情報(表示時刻情報)が含まれている。表示時刻情報により、どの文字列を、コンテンツ全体のある時刻を基準としてどの時刻で表示するのかが表される。
字幕パーサ42は、抽出部41から供給された字幕データからテキストストリームと表示時刻情報を抽出し、抽出したテキストストリームを前処理部43に、表示時刻情報を表示時間計算部45にそれぞれ出力する。
前処理部43は、字幕パーサ42から供給されたテキストストリームに含まれる文字列に対して前処理を施し、処理を施すことによって得られたそれぞれの文字列を文字数カウント部44に出力する。
例えば、コンテンツの再生時に登場人物によって発話されない記号や発話主の名前を表す文字などを除去することが前処理として行われる。コンテンツの再生時に画面上に表示される字幕には、その先頭の位置に発話主の名前が表示されることが多く、これは登場人物によっては発話されない文字である。これにより、後段において、実際に音声として出力される発話の内容を表す文字の数だけを数えることが可能となり、求められる話速の精度を向上させることができる。
また、文字列の中に漢字が含まれる場合、それを平仮名に変換することも前処理として行われるようにしてもよい。これにより、正しい発話の音節の数が分かり、求められる話速の精度の向上が期待できる。
文字数カウント部44は、前処理部43から供給されたそれぞれの文字列を構成する文字の数を数え、得られた文字数の情報を除算部46に出力する。
表示時間計算部45は、字幕パーサ42から供給された表示時刻情報に基づいて、コンテンツの登場人物の発話の時間を求め、求められた発話時間の情報を除算部46に出力する。ここでは、文字列が表示されている時間が登場人物が発話している時間とされるから、第1の文字列の表示時刻から次に表示される第2の文字列の表示時刻までの時間(第1と第2の文字列の表示時刻の差分)が、その第1の文字列の表示時間として求められる。
除算部46は、文字数カウント部44から供給された文字数の情報と表示時間計算部45から供給された発話時間の情報に基づいて、文字数を発話時間で除算した値をそれぞれの発話の話速として求める。除算部46は、求めた話速を表す話速情報を後処理部47に出力する。
後処理部47は、除算部46から供給された話速情報に対して後処理を適宜施し、処理を施すことによって得られた話速情報を外部に出力する。例えば、所定の数の話速の平均を求めることなどが後処理として行われる。
図7は、字幕データに含まれる情報の例と、含まれる情報に基づいて求められた話速の算出結果の例を示す図である。
図7の例においては、「お前 最近 車 乗ってるのか?乗ってないです。」、「じゃ ほとんどペーパードライバー?うん。」、「言っとくけど いきなりこの車には乗れないぞ。なんで?」、・・・の文字列が示されている。
また、コンテンツの先頭位置などのある時刻を基準として、第1の文字列である「お前 最近 車 乗ってるのか?乗ってないです。」の表示時刻は85秒が経過した時刻に表示されるものとされ、第2の文字列である「じゃ ほとんどペーパードライバー?うん。」の表示時刻は90秒が経過した時刻に表示されるものとされ、第3の文字列である「言っとくけど いきなりこの車には乗れないぞ。なんで?」の表示時刻は97秒が経過した時刻に表示されるものとされている。
これらの情報(文字列のテキストデータと表示時刻の情報)が字幕データに含まれており、このうちの文字列の情報が前処理部43に、表示時刻の情報が表示時間計算部45にそれぞれ字幕パーサ42によって供給される。
文字列と表示時刻がこのようなものである場合、図7に示されるように、第1の文字列の表示時間は、第1の文字列の表示時刻と第2の文字列の表示時刻の差分である5秒となり、第2の文字列の表示時間は、第2の文字列の表示時刻と第3の文字列の表示時刻の差分である7秒となる。第3の文字列の表示時間は、第3の文字列の表示時刻と第4の文字列(「なんでって…。・・・」)の表示時刻の差分である4秒となる。このような表示時間が表示時間計算部45により求められる。
また、図7に示されるように、第1の文字列の文字数は23文字であり、第2の文字列の文字数は20文字であり、第3の文字列の文字数は26文字である。このような文字数が文字数カウント部44により求められる。
さらに、図7に示されるように、第1の文字列に対応する発話(第1の文字列により内容が表される発話)の速度は4.6(文字数/表示時間(秒))となり、第2の文字列に対応する発話の速度は2.86となる。また、第3の文字列に対応する話速の速度は6.5となる。このような話速が除算部46により求められる。
ここで、図8のフローチャートを参照して、以上のようにして話速を求める図6の情報処理装置1の処理について説明する。
ステップS11において、抽出部41は、供給されたコンテンツから字幕データを抽出し、抽出した字幕データを字幕パーサ42に出力する。
ステップS12において、字幕パーサ42は、抽出部41から供給された字幕データからテキストストリームと表示時刻情報を抽出し、抽出したテキストストリームを前処理部43に、表示時刻情報を表示時間計算部45にそれぞれ出力する。
ステップS13において、前処理部43は、字幕パーサ42から供給されたテキストストリームに含まれる文字列に対して前処理を施し、処理を施すことによって得られたそれぞれの文字列を文字数カウント部44に出力する。
ステップS14において、文字数カウント部44は、前処理部43から供給されたそれぞれの文字列を構成する文字の数を数え、得られた文字数の情報を除算部46に出力する。
ステップS15において、表示時間計算部45は、それぞれの文字列の表示時間を発話の時間として、字幕パーサ42から供給された表示時刻情報に基づいてコンテンツの登場人物の発話の時間を求める。表示時間計算部45は、求めた発話時間の情報を除算部46に出力する。
ステップS16において、除算部46は、文字数カウント部44から供給された文字数の情報と表示時間計算部45から供給された発話時間の情報に基づいて、文字数を発話時間で除算した値を話速として求める。除算部46は、求めた話速の情報を後処理部47に出力する。
ステップS17において、後処理部47は、除算部46から供給された話速情報に対して後処理を適宜施し、処理を施すことによって得られた話速情報を外部に出力する。その後、処理は終了される。
以上の処理によっても、音声認識によって得られた文字列などを用いて話速を求める場合に較べて、容易に、かつ正しい話速を求めることができる。
以上においては、音声データを解析したり、字幕データに含まれるそれぞれの文字列の表示時刻の情報から発話時間が求められ、それが話速の算出に用いられるものとしたが、音声データや表示時刻の情報からではなく、コンテンツの再生時に表示される画像から発話時間が求められ、話速の算出に用いられるようにしてもよい。
図9は、画像から話速を求める情報処理装置1の機能構成例を示すブロック図である。
図9の情報処理装置1においては、例えば、抽出部51、文字領域抽出部52、文字数カウント部53、表示時間計算部54、除算部55、および後処理部56が実現される。
抽出部51は、供給されたコンテンツから画像データを抽出し、抽出した画像データを文字領域抽出部52に出力する。
文字領域抽出部52は、抽出部51から供給された画像データに基づいて、それぞれの画面の例えば下方の位置に帯状に表示される字幕の表示領域を抽出し、抽出した表示領域内の画像データを文字数カウント部53と表示時間計算部54に出力する。
文字数カウント部53は、文字領域抽出部52から供給された字幕の表示領域内の画像データを解析することによって表示領域内に表示されているそれぞれの文字の領域を検出し、検出した文字領域の数を文字列の文字数として数える。文字数カウント部53は、得られた文字数の情報を除算部55に出力する。
なお、文字領域抽出部52による字幕の表示領域の検出や文字数カウント部53による文字の領域の検出には、例えば、OCR(Optical Character Reader)ソフトウエアなどでも採用されているような技術が用いられる。一般的に、OCRソフトウエアにおいては、光学的に取り込んだ画像から文字の領域を抽出し、それぞれの領域に含まれる文字を認識することが行われる。
表示時間計算部54は、文字領域抽出部52から供給された字幕の表示領域内の画像データを解析することによって表示領域の表示内容(文字列)の変化点を検出し、検出した変化点間の時間を発話時間として求める。すなわち、ここでも、ある文字列が字幕の表示領域に表示される時間がその文字列によって内容が表される発話の時間とされるが、その表示時間が字幕データに含まれる文字列の表示時刻の情報からではなく画像から求められる。表示時間計算部54は、求めた発話時間の情報を除算部55に出力する。
除算部55は、文字数カウント部53から供給された文字数の情報と表示時間計算部54から供給された発話時間の情報に基づいて、文字数を発話時間で除算した値を話速として求める。除算部55は、求めた話速を表す話速情報を後処理部56に出力する。
後処理部56は、除算部55から供給された話速情報に対して後処理を適宜施し、処理を施すことによって得られた話速情報を外部に出力する。例えば、所定の数の話速の平均を求めることなどが後処理として行われる。
図10は、コンテンツの再生時に表示される画像の例を示す図である。
図10に示される画像が処理対象となっている場合、その下方の位置に帯状に表示される領域Aが文字領域抽出部52により抽出される。図10の例においては、領域Aには「お前 最近 車 乗ってるのか?乗ってないです。」の字幕(文字列)が表示されている。
文字数カウント部53においては、領域Aの画像データから、「お」の領域、「前」の領域、「 」の領域、「最」の領域、・・・といったように、それぞれの文字の領域が画像処理により検出され、検出された領域の数が文字数として求められる。図10の領域Aの画像データからは、23文字であるとして文字数が検出される。
また、表示時間計算部54においては、図10の「お前 最近 車 乗ってるのか?乗ってないです。」の文字列が領域Aに表示されている時間が発話時間として求められる。
ここで、図11のフローチャートを参照して、以上のようにして話速を求める図9の情報処理装置1の処理について説明する。
ステップS21において、抽出部51は、供給されたコンテンツから画像データを抽出し、抽出した画像データを文字領域抽出部52に出力する。
ステップS22において、文字領域抽出部52は、抽出部51から供給された画像データから字幕の表示領域を抽出し、抽出した表示領域内の画像データを文字数カウント部53と表示時間計算部54に出力する。
ステップS23において、文字数カウント部53は、文字領域抽出部52から供給された字幕の表示領域全体をそれぞれの文字の領域に分離し、分離した文字領域の数を文字列の文字数として数える。文字数カウント部53は、得られた文字数の情報を除算部55に出力する。
ステップS24において、表示時間計算部54は、文字領域抽出部52から供給された字幕の表示領域の表示内容の変化点を検出し、検出した変化点間の時間、すなわち、字幕の表示開始時刻と表示終了時刻の差分を発話時間として求める。表示時間計算部54は、求めた発話時間の情報を除算部55に出力する。
ステップS25において、除算部55は、文字数カウント部53から供給された文字数の情報と表示時間計算部54から供給された発話時間の情報に基づいて話速を求め、求めた話速を表す話速情報を後処理部56に出力する。
ステップS26において、後処理部56は、除算部55から供給された話速情報に対して後処理を適宜施し、処理を施すことによって得られた話速情報を外部に出力する。その後、処理は終了される。
以上の処理により、音声データや文字列の表示時刻の情報を用いることなく、画像から、話速を求めることができる。したがって、字幕として表示される文字列がテキストデータとして用意されていない、例えば、オープンキャプションによって字幕が表示されるコンテンツを対象とした場合であっても話速を求めることが可能となる。
また、話速の算出に用いられる文字数や発話時間(文字列の表示時間)は、文字の内容までを認識する必要はなく、文字が表示されていることを検出するだけで得られる情報であるから、容易に、かつ正しい話速を求めることができる。テレビジョン番組の画面などの場合、字幕として表示される文字列のまわりには背景(撮影された範囲)があり、文字列の背景は複雑なものであることが多いため文字の認識精度はあまり期待できないが、文字が表示されていることだけの認識(検出)であれば比較的正しく検出することができるものと考えられる。
図12は、画像から話速を求める情報処理装置1の他の機能構成例を示すブロック図である。
図12の情報処理装置1においては、例えば、抽出部61、文字認識部62、前処理部63、文字数カウント部64、表示時間計算部65、除算部66、および後処理部67が実現される。
抽出部61は、供給されたコンテンツから画像データを抽出し、抽出した画像データを文字認識部62に出力する。
文字認識部62は、抽出部61から供給された画像データに基づいて、それぞれの画面の例えば下方の位置に帯状に表示される字幕の表示領域を抽出し、抽出した表示領域内の画像データを解析することによって文字列を認識する。すなわち、図9の情報処理装置1とは異なり、文字認識部62においては、表示されている文字の内容までが認識される。文字認識部62は、認識した文字列を前処理部63と表示時間計算部65に出力する。
前処理部63は、文字認識部62から供給された文字列に対して前処理を施し、処理を施すことによって得られたそれぞれの文字列を文字数カウント部64に出力する。上述したように、例えば、コンテンツの再生時に登場人物によって発話されない記号や発話主の名前を表す文字などを除去することが前処理として行われる。
文字数カウント部64は、前処理部63から供給されたそれぞれの文字列を構成する文字の数を数え、得られた文字数の情報を除算部66に出力する。
表示時間計算部65は、文字認識部62から供給された文字列に基づいて、文字列の内容の変化点を検出し、検出した変化点間の時間を発話時間として求める。表示時間計算部65は、求めた発話時間の情報を除算部66に出力する。ここでも、文字列が表示されている時間が登場人物が発話している時間とされることになる。
除算部66は、文字数カウント部64から供給された文字数の情報と表示時間計算部65から供給された発話時間の情報に基づいて、文字数を発話時間で除算した値を話速として求める。除算部66は、求めた話速を表す話速情報を後処理部67に出力する。
後処理部67は、除算部66から供給された話速情報に対して後処理を適宜施し、処理を施すことによって得られた話速情報を外部に出力する。上述したように、例えば、所定の数の話速の平均を求めることなどが後処理として行われる。
ここで、図13のフローチャートを参照して、以上のようにして話速を求める図12の情報処理装置1の処理について説明する。
ステップS31において、抽出部61は、供給されたコンテンツから画像データを抽出し、抽出した画像データを文字認識部62に出力する。
ステップS32において、文字認識部62は、抽出部61から供給された画像データに基づいて、それぞれの画面に表示される字幕の表示領域を抽出し、抽出した表示領域内の画像データを解析することによって文字列を認識する。文字認識部62は、認識した文字列のテキストデータを前処理部63と表示時間計算部65に出力する。
ステップS33において、前処理部63は、文字認識部62から供給された文字列に対して前処理を施し、処理を施すことによって得られたそれぞれの文字列を文字数カウント部64に出力する。
ステップS34において、文字数カウント部64は、前処理部63から供給されたそれぞれの文字列を構成する文字の数を数え、得られた文字数の情報を除算部66に出力する。
ステップS35において、表示時間計算部65は、文字認識部62から供給された文字列に基づいて表示内容の変化点を検出し、検出した変化点間の時間、すなわち、字幕の表示開始時刻と表示終了時刻の差分を発話時間として求める。表示時間計算部65は、求めた発話時間の情報を除算部66に出力する。
ステップS36において、除算部66は、文字数カウント部64から供給された文字数の情報と表示時間計算部65から供給された発話時間の情報に基づいて、文字数を発話時間で除算した値を話速として求める。除算部66は、求めた話速の情報を後処理部67に出力する。
ステップS37において、後処理部67は、除算部66から供給された話速情報に対して後処理を適宜施し、処理を施すことによって得られた話速情報を外部に出力する。その後、処理は終了される。
以上の処理によっても画像から話速を求めることができる。
以上においては、文字列の表示時刻情報がない場合、発話時間は、音声データを解析することによって(例えば、図3)、あるいは、文字列が表示されている時間を発話時間とすることによって(例えば、図9、図12)求められるものとしたが、音声データを解析することによって得られた発話時間と文字列が表示されている時間から得られた発話時間とを用いて、より正しい発話時間を求めるようにしてもよい。正しい発話時間が求められることにより、より精度の高い話速を求めることが可能となる。
図14は、音声データを解析することによって得られた発話時間と、文字列が表示されている時間から得られた発話時間の例を示す図である。
図14の例においては、音声データを解析することによって検出された発話時間である発話時間S1乃至S7と、文字列が表示されている時間から検出された発話時間である発話時間s1,s2が示されている。
この場合、図14に示されるように、発話時間S1乃至S4と発話時間s1、発話時間S5乃至S7と発話時間s2がそれぞれ対応付けられる。対応付けは、例えば、検出された時間的な順序関係や、検出された時間の差などに基づいて行われる(例えば、図14においては、閾値より短い時間を挟む発話時間をひとまとまりの時間とした発話時間S1の開始時刻から発話時間S4の終了時刻までの時間と、発話時間s1の差が少ないことと、発話時間S1乃至S4からなるひとまとまりの時間と発話時間s1はともに1つめの発話時間として検出されていることから対応付けられたものである。同様に、閾値より短い時間を挟む発話時間をひとまとまりの時間とした発話時間S5の開始時刻から発話時間S7の終了時刻までの時間と、発話時間s2の差が少ないことと、発話時間S5乃至S7からなるひとまとまりの時間と発話時間s2はともに2つめの発話時間として検出されていることから対応付けられたものである)。
図14に示されるようにして対応付けがなされた場合、発話時間S1乃至S4をあわせたひとまとまりの時間と発話時間s1の平均が1つの発話時間として求められ、また、発話時間S5乃至S6をあわせたひとまとまりの時間と発話時間s2の平均が1つの発話時間として求められる。求められた発話時間は、それらの時間に表示された文字列の文字数とともに、話速の算出に用いられる。
次に、以上のようにして生成された話速情報に基づく属性情報の生成について説明する。生成された属性情報はコンテンツに付加され、そのコンテンツの再生時などに用いられる。
図15は、情報処理装置101の機能構成例を示すブロック図である。
情報処理装置101は上述した情報処理装置1と同様に図2のハードウエア構成を有している。情報処理装置101のCPU11により所定のプログラムが実行されることによって、図15に示されるように情報処理部111と属性情報生成部112が情報処理装置101においては実現される。
情報処理部111は、テレビジョン番組や映画などの、音声のデータを含むコンテンツを入力とし、コンテンツに登場する人物などによる発話の速度を求め、求めた話速を表す情報である話速情報を属性情報生成部112に出力する。すなわち、情報処理部111は、図3、図6、図9、図12のいずれかに示されるものと同じ構成を有しており、上述したようにして話速を求める。
属性情報生成部112は、情報処理部111から供給された話速情報に基づいて属性情報を生成し、生成した属性情報を外部から入力されたコンテンツに付加する。属性情報生成部112においては、例えば、閾値となる速度より早い話速が求められたコンテンツの部分が、コンテンツの内容が盛り上がっている部分であるとして検出され、その部分の開始時刻と終了時刻の情報が属性情報として生成される。
例えば、処理対象のコンテンツがトーク番組のコンテンツである場合、出演者の話速が速くなる部分は議論が激しくなった部分などであり、そのような部分はトーク番組としては内容が盛り上がっている部分と考えられる。また、処理対象のコンテンツがドラマのコンテンツである場合、出演者の話速が速くなる部分は激しいセリフのやりとりが行われている部分などであり、そのような部分はドラマとしては内容が盛り上がっている部分と考えられる。
属性情報生成部112により生成された属性情報が付加されたコンテンツは外部に出力され、所定のタイミングで再生される。コンテンツの再生時、属性情報生成部112により生成された属性情報がコンテンツの再生装置により参照され、例えば、開始時刻と終了時刻により指定される盛り上がりの部分だけの再生が行われる。開始時刻と終了時刻により指定される盛り上がりの部分だけがリムーバブルメディアに記録されたり、携帯型のプレーヤなどの外部機器に転送されるようにしてもよい。
図16のフローチャートを参照して、図15の情報処理装置101(属性情報生成部112)の属性情報生成処理について説明する。この処理は、例えば、図5、図8、図11、および図13を参照して説明した処理が情報処理部111によって行われ、話速情報が属性情報生成部112に供給されたときに開始される。
ステップS101において、属性情報生成部112は、情報処理部111から供給された話速情報に基づいて、閾値となる速度より早い話速が求められたコンテンツの部分を検出する。
ステップS102において、属性情報生成部112は、ステップS101で検出した部分の開始時刻と終了時刻の情報を属性情報として生成し、ステップS103に進み、コンテンツに付加して外部に出力する。
これにより、コンテンツの盛り上がり部分だけの再生を外部の再生装置に行わせることが可能となる。
なお、ここでは、以上のようにして求められた話速がコンテンツの盛り上がりの部分を検出するために用いられるものとしたが、話速の用途はこれに限られるものではない。
以上においては、話速は、単位時間あたりの文字数によって表されるものとしたが、文字列の文字数と発話時間を少なくとも用いて表されるものであれば、どのような形で表されるようにしてもよい。
また、以上においては、情報処理装置1(情報処理装置101)に入力されるコンテンツはテレビジョン番組や映画のコンテンツであるとしたが、このコンテンツは、放送されるものだけでなく、DVDなどにパッケージ化されたコンテンツであってもよい。
上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図2に示すように、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)を含む)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア21、または、プログラムが一時的もしくは永続的に格納されるROM12や、記憶部18を構成するハードディスクなどにより構成される。プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインターフェースである通信部19を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。
なお、本明細書において、プログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
本発明の一実施形態に係る情報処理装置を示す図である。 情報処理装置のハードウエア構成例を示すブロック図である。 情報処理装置の機能構成例を示すブロック図である。 話速の算出の例を示す図である。 図3の情報処理装置の話速算出処理について説明するフローチャートである。 情報処理装置の他の機能構成例を示すブロック図である。 字幕データに含まれる情報の例と、含まれる情報に基づいて求められた話速の算出結果の例を示す図である。 図6の情報処理装置の話速算出処理について説明するフローチャートである。 情報処理装置のさらに他の機能構成例を示すブロック図である。 画像の例を示す図である。 図9の情報処理装置の話速算出処理について説明するフローチャートである。 情報処理装置の機能構成例を示すブロック図である。 図12の情報処理装置の話速算出処理について説明するフローチャートである。 音声データを解析することによって得られた発話時間と、文字列が表示されている時間から得られた発話時間の例を示す図である。 情報処理装置の機能構成例を示すブロック図である。 図15の情報処理装置の属性情報生成処理について説明するフローチャートである。
符号の説明
1 情報処理装置, 31 抽出部, 32 文字数カウント部, 33 発話時間計測部, 34 タイミング制御部, 35 除算部, 41 抽出部, 42 字幕パーサ, 43 前処理部, 44 文字数カウント部, 45 表示時間計算部, 46 除算部, 47 後処理部, 51 抽出部, 52 文字領域抽出部, 53 文字数カウント部, 54 表示時間計算部, 55 除算部, 56 後処理部, 61 抽出部, 62 文字認識部, 63 前処理部, 64 文字数カウント部, 65 表示時間計算部, 66 除算部, 67 後処理部, 101 情報処理装置, 111 情報処理部, 112 属性情報生成部

Claims (11)

  1. 発話の内容を表す文字列を構成する文字の数を数える計数手段と、
    前記発話の時間を計測する発話時間計測手段と、
    前記計数手段により数えられた前記文字の数と前記発話時間計測手段により計測された前記発話の時間に基づいて前記発話の速度を算出する算出手段と
    を備える情報処理装置。
  2. 前記算出手段は、単位時間あたりの文字の数で表される値を前記発話の速度として算出する
    請求項1に記載の情報処理装置。
  3. 前記文字列はコンテンツの再生時に画面上に表示される文字列であり、前記発話は前記文字列の表示にあわせて出力される音声である
    請求項1に記載の情報処理装置。
  4. 前記算出手段により算出された前記発話の速度が所定の速度より早い前記コンテンツの区間を内容の盛り上がりの区間として検出する検出手段をさらに備える
    請求項3に記載の情報処理装置。
  5. コンテンツに含まれる文字列の情報と音声の情報を抽出する抽出手段と、
    前記抽出手段により情報が抽出された複数の文字列と、抽出された音声の情報に基づいて出力される複数の発話のうち、前記発話の速度の算出に用いられる前記文字の数を数える対象となる文字列と、前記発話の時間を計測する対象となる発話との対応付け行う制御手段と
    をさらに備える請求項1に記載の情報処理装置。
  6. 発話時間計測手段は、コンテンツに含まれるそれぞれの文字列の表示時刻の情報に基づいて前記発話の時間を計測する
    請求項1に記載の情報処理装置。
  7. コンテンツの再生時に画面上に表示される文字列の表示領域を抽出する領域抽出手段をさらに備え、
    前記計数手段は、前記領域抽出手段により抽出された領域の画像に基づいて文字の数を数える
    請求項1に記載の情報処理装置。
  8. 前記発話時間計測手段は、前記領域検出手段により検出された領域に文字列が表示されている時間を前記発話の時間として計測する
    請求項7に記載の情報処理装置。
  9. コンテンツの再生時に画面上に表示される文字列を構成する文字を文字認識により認識する認識手段をさらに備え、
    前記計数手段は、前記認識手段により認識された前記文字の数を数える
    請求項1に記載の情報処理装置。
  10. 発話の内容を表す文字列を構成する文字の数を数え、
    前記発話の時間を計測し、
    数えられた前記文字の数と計測された前記発話の時間に基づいて前記発話の速度を算出する
    ステップを含む情報処理方法。
  11. 発話の内容を表す文字列を構成する文字の数を数え、
    前記発話の時間を計測し、
    数えられた前記文字の数と計測された前記発話の時間に基づいて前記発話の速度を算出する
    ステップを含む処理をコンピュータに実行させるプログラム。
JP2006030483A 2006-02-08 2006-02-08 情報処理装置および方法、並びにプログラム Abandoned JP2007213176A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006030483A JP2007213176A (ja) 2006-02-08 2006-02-08 情報処理装置および方法、並びにプログラム
EP07101904A EP1818936A1 (en) 2006-02-08 2007-02-07 Information processing apparatus, method and program product thereof
US11/672,750 US20070185704A1 (en) 2006-02-08 2007-02-08 Information processing apparatus, method and computer program product thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006030483A JP2007213176A (ja) 2006-02-08 2006-02-08 情報処理装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2007213176A true JP2007213176A (ja) 2007-08-23

Family

ID=37943818

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006030483A Abandoned JP2007213176A (ja) 2006-02-08 2006-02-08 情報処理装置および方法、並びにプログラム

Country Status (3)

Country Link
US (1) US20070185704A1 (ja)
EP (1) EP1818936A1 (ja)
JP (1) JP2007213176A (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0224806D0 (en) * 2002-10-24 2002-12-04 Ibm Method and apparatus for a interactive voice response system
US9552596B2 (en) * 2012-07-12 2017-01-24 Spritz Technology, Inc. Tracking content through serial presentation
WO2014107141A1 (en) * 2013-01-03 2014-07-10 Sestek Ses Ve Iletişim Bilgisayar Teknolojileri Sanayii Ve Ticaret Anonim Şirketi Speech analytics system and methodology with accurate statistics
US9569167B2 (en) * 2013-03-12 2017-02-14 Tivo Inc. Automatic rate control for improved audio time scaling
JP2014191212A (ja) * 2013-03-27 2014-10-06 Seiko Epson Corp 音声処理装置、集積回路装置、音声処理システム及び音声処理装置の制御方法
JP6244658B2 (ja) * 2013-05-23 2017-12-13 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP6164076B2 (ja) * 2013-12-17 2017-07-19 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US9311932B2 (en) * 2014-01-23 2016-04-12 International Business Machines Corporation Adaptive pause detection in speech recognition
CN106463110A (zh) * 2014-06-03 2017-02-22 索尼公司 信息处理设备、信息处理方法和程序
US9826257B2 (en) * 2014-07-14 2017-11-21 Hulu, LLC Caption and speech alignment for a video delivery system
JP6392150B2 (ja) * 2015-03-18 2018-09-19 株式会社東芝 講演支援装置、方法およびプログラム
US10134424B2 (en) * 2015-06-25 2018-11-20 VersaMe, Inc. Wearable word counter
US10959648B2 (en) 2015-06-25 2021-03-30 The University Of Chicago Wearable word counter
US10789939B2 (en) 2015-06-25 2020-09-29 The University Of Chicago Wearable word counter
JP2017167805A (ja) 2016-03-16 2017-09-21 株式会社東芝 表示支援装置、方法およびプログラム
US10950235B2 (en) * 2016-09-29 2021-03-16 Nec Corporation Information processing device, information processing method and program recording medium
JP6942995B2 (ja) 2017-03-31 2021-09-29 ブラザー工業株式会社 情報処理プログラム、情報処理装置、および情報処理装置の制御方法
KR102598824B1 (ko) * 2018-02-26 2023-11-06 구글 엘엘씨 미리 레코딩된 비디오들에 대한 자동화된 보이스 번역 더빙
US10891489B2 (en) * 2019-04-08 2021-01-12 Nedelco, Incorporated Identifying and tracking words in a video recording of captioning session
CN109934210B (zh) * 2019-05-17 2019-08-09 上海肇观电子科技有限公司 版面分析方法、阅读辅助设备、电路和介质
US11817117B2 (en) * 2021-01-29 2023-11-14 Nvidia Corporation Speaker adaptive end of speech detection for conversational AI applications

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07295588A (ja) * 1994-04-21 1995-11-10 Nippon Hoso Kyokai <Nhk> 発話速度推定方法
US20070011012A1 (en) * 2005-07-11 2007-01-11 Steve Yurick Method, system, and apparatus for facilitating captioning of multi-media content

Also Published As

Publication number Publication date
EP1818936A1 (en) 2007-08-15
US20070185704A1 (en) 2007-08-09

Similar Documents

Publication Publication Date Title
JP2007213176A (ja) 情報処理装置および方法、並びにプログラム
US11887578B2 (en) Automatic dubbing method and apparatus
JP5313466B2 (ja) 音声の再生に同期して音声の内容を表示させる技術
JP4635891B2 (ja) 情報処理装置および方法、並びにプログラム
US7286749B2 (en) Moving image playback apparatus, moving image playback method, and computer program thereof with determining of first voice period which represents a human utterance period and second voice period other than the first voice period
US7521622B1 (en) Noise-resistant detection of harmonic segments of audio signals
CN101359473A (zh) 自动进行语音转换的方法和装置
JPWO2005069171A1 (ja) 文書対応付け装置、および文書対応付け方法
KR20160122542A (ko) 발음 유사도 측정 방법 및 장치
WO2010140355A1 (ja) 音響信号処理装置および方法
JP2011250100A (ja) 画像処理装置および方法、並びにプログラム
JP2002136764A (ja) 入力音声をキャラクタの動作に反映させるエンタテインメント装置、方法および記憶媒体
CN103053173B (zh) 兴趣区间确定装置、兴趣区间确定方法及兴趣区间确定集成电路
US20120070016A1 (en) Sound quality correcting apparatus and sound quality correcting method
US11361168B2 (en) Systems and methods for replaying content dialogue in an alternate language
US20060039682A1 (en) DVD player with language learning function
KR20060089922A (ko) 음성 인식을 이용한 데이터 추출 장치 및 방법
JP2009278202A (ja) 映像編集装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
JP5273844B2 (ja) 字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置
WO2004093078A1 (en) Process for adding subtitles to video content
JP5166470B2 (ja) 音声認識装置、及びコンテンツ再生装置
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
JP2008301340A (ja) ダイジェスト作成装置
JP2006154531A (ja) 音声速度変換装置、音声速度変換方法、および音声速度変換プログラム
JP4962930B2 (ja) 発音評定装置、およびプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090616

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20090819