JP5313466B2 - 音声の再生に同期して音声の内容を表示させる技術 - Google Patents

音声の再生に同期して音声の内容を表示させる技術 Download PDF

Info

Publication number
JP5313466B2
JP5313466B2 JP2007170113A JP2007170113A JP5313466B2 JP 5313466 B2 JP5313466 B2 JP 5313466B2 JP 2007170113 A JP2007170113 A JP 2007170113A JP 2007170113 A JP2007170113 A JP 2007170113A JP 5313466 B2 JP5313466 B2 JP 5313466B2
Authority
JP
Japan
Prior art keywords
text
voice
misrecognized
recognized
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007170113A
Other languages
English (en)
Other versions
JP2009008884A (ja
Inventor
貴利 渡部
紀子 井本
哲也 宇田
Original Assignee
ニュアンス コミュニケーションズ,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ニュアンス コミュニケーションズ,インコーポレイテッド filed Critical ニュアンス コミュニケーションズ,インコーポレイテッド
Priority to JP2007170113A priority Critical patent/JP5313466B2/ja
Priority to US12/145,804 priority patent/US8065142B2/en
Publication of JP2009008884A publication Critical patent/JP2009008884A/ja
Priority to US13/279,479 priority patent/US8209169B2/en
Application granted granted Critical
Publication of JP5313466B2 publication Critical patent/JP5313466B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Description

本発明は、音声の再生に同期して音声の内容を表示させる技術に関する。本発明は、特に、音声の内容を予め記録したテキストを、音声の再生に同期して表示する技術に関する。
近年、例えば語学の学習用システムや、テレビ番組のテロップなどのような、テキストを表示しながらその読み上げ音声を出力するシステムが用いられている。このようなシステムにおいて、読み上げている箇所を判別し易くするためには、読み上げている語句の表示を変更すること、例えば、その語句の色を変えて表示することが望ましい。一例として、下記の特許文献1には、カラオケ楽曲の歌詞文字を、歌詞の発声タイミングに対応して表示する技術が開示されている。しかし、このような技術においては、表示の制御が、読み上げのタイミングと僅かでもずれてしまうと、利用者にとっては大変不自然に感じられる。
特開平11−162152号公報
これに対し、読み上げの音声を音声認識して、その認識結果とテキストとを照合すれば、各語句が発音されるタイミングを正確に検出できるとも考えられる。しかしながら、このアイデアでは、正しく音声認識できた語句についてはそのタイミングを正確に検出できるが、音声認識できなかった語句についてはそのタイミングを全く検出できない。一般に、音声認識の精度は充分に高くないので、語句によっては、誤認識によりタイミングを検出できない場合がある。このため、全ての語句について発音のタイミングを正確に検出しようとすれば、誤認識された部分については人手で発音のタイミングを設定したりしなければならず、多大な費用と時間がかかってしまう。
上記課題を解決するために、本発明の第1の側面においては、音声データの再生に同期して、再生される音声の内容を記録したテキストを表示させるために、その音声において各語句が発音されるタイミングを推定するシステムであって、再生される音声の内容を予め記録したテキストを入力し、その入力したテキストを読み上げる合成音声を生成する音声合成部と、生成したその合成音声において、その入力したテキストに含まれる複数の語句のそれぞれが発音される時間の比率を算出する比率算出部と、それらの複数の語句のそれぞれに、算出したその比率に応じて、その音声データが再生される時間の一部をそれぞれ対応付けて、その対応付けを示すデータを出力する出力部とを備えるシステムを提供する。また、当該システムとしてコンピュータを機能させるプログラムおよび方法を提供する。
また、本発明の第2の側面においては、再生される音声の内容を予め記録したテキストを入力し、音声認識のための辞書に、その入力したテキストに含まれる少なくとも1つの語句を登録する第1登録部と、音声データを再生して生成した音声を、前記第1登録部により語句が登録されたその辞書を用いて音声認識することで、その音声の内容を認識したテキストである第1認識テキストを生成する第1認識部と、入力したそのテキストを、その第1認識テキストと比較して、その入力したテキストのうちその第1認識テキストと相違するテキストである第1誤認識テキストを検出する第1検出部と、音声認識のための前記辞書から、入力したそのテキストに含まれ、かつ、その第1誤認識テキストには含まれない少なくとも1つの語句を除外する第2登録部と、音声データのうちその第1誤認識テキストに対応する部分を再生して生成した音声を、前記第2登録部により語句が除外された辞書を用いて音声認識することで、その音声の内容を認識したテキストである第2認識テキストを生成する第2認識部と、入力したそのテキストに含まれる語句のうち、その第1または第2認識テキストと一致する語句に、前記第1または第2認識部がその語句を認識した音声の再生時間を対応付けて出力する出力部とを備えるシステムを提供する。また、当該システムとしてコンピュータを機能させるプログラムおよび方法を提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。
以下、発明を実施するための最良の形態(実施形態と称す)を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、本実施形態に係る情報システム10の全体構成を示す。情報システム10は、録音装置12と、データベース15と、同期システム20と、表示装置25とを備える。録音装置12は、予め定められた入力テキスト100を話者が読み上げる音声を録音することで、入力音声データ110を生成する。データベース15は、生成されたこの入力音声データ110、および、入力テキスト100を格納する。同期システム20は、入力テキスト100および入力音声データ110をデータベース15から取得する。そして、同期システム20は、入力音声データ110の再生に同期して、再生される音声の内容を予め記録した入力テキスト100を表示させるために、その音声において各語句が発音されるタイミングを推定する。推定結果は編集者に対し表示されてもよいし、編集者からの入力によって変更されてもよい。また、推定の結果はタイムスタンプデータ105として入力テキスト100に対応付けられて、入力音声データ110と共に記録媒体50に記録される。これに代えて、推定の結果は電気通信回線を介して表示装置25に対し送信されてもよい。
表示装置25は、記録媒体50から入力テキスト100、タイムスタンプデータ105および入力音声データ110を読み出す。そして、表示装置25は、入力音声データ110の再生に同期して入力テキスト100を表示する。具体的には、表示装置25は、再生開始からの経過時間が、タイムスタンプデータ105において各語句に対応付けて記録された時間に達する毎に、その時間に対応する語句を、他の語句とは識別可能に表示する。一例として、表示装置25は、再生中の音声に対応する語句を、他の語句とは異なる色彩で着色して表示してもよい。これにより、語学の学習をしたり、テレビ番組を視聴したりする一般利用者は、いま発音されている語句を画面上で正確に認識できる。
本実施形態に係る情報システム10は、このような音声データの再生とテキストの表示とを同期させる技術において、これまでの技術では発音タイミングの特定が困難だった語句についても、極めて高精度にその発音タイミングを検出することを目的とする。
図2は、本実施形態に係る入力テキスト100の具体例を示す。入力テキスト100は、再生される音声の内容を予め記録したものである。一例として、入力テキスト100は、英文「A New Driving Road For Cars」を含む文字列である。入力テキスト100は、この英文のように、語句の区切りが空白で区切られたテキストを記録していてもよい。これに代えて、入力テキスト100は、日本語、中国語または韓国語などのように、語句の区切りが明記されていない言語の文字列を記録していてもよい。また、語句は一単語でなくともよく、複合語またはフレーズなどのように多数の単語から構成されてもよい。さらには、語句は、例えばハイフンで接続された複数の文字列のうちの一つなどのように、文法上の単語の一部の文字列であってもよい。
図3は、本実施形態に係る入力音声データ110の具体例を示す。入力音声データ110は、例えば話者の発声を録音したデータである。そしてそのデータは、時間の経過を横軸に表し、音声の振幅を縦軸に表した波形データとして表される。図3には説明のため、この波形データの語句ごとの区切りと、語句を示す文字列とを併せて記載している。しかしながら、入力音声データ110は連続的に発音される音声を単に録音したものである。このため、実際にはその発音の各部分が入力テキスト100中のどの語句に対応するものであるかは、録音時点においては識別できない。
図4は、本実施形態に係るタイムスタンプデータ105の具体例を示す。タイムスタンプデータ105は、入力テキスト100に含まれる複数の語句のそれぞれに、その語句が入力音声データ110において発音される時間を対応付けたデータである。例えば、タイムスタンプデータ105は、各語句が発音される時間として、入力音声データ110の再生開始から起算した、その語句の発音の開始時刻および終了時刻を記録している。一例として、入力テキスト100中の語句「Driving」について、その発音の開始時刻は再生開始から1.4秒後であり、その発音の終了時刻は再生開始から1.8秒後である。このように、入力テキスト100中の各語句についてその発音の開始および終了の時刻が分かれば、表示装置25は、入力音声データ110の再生開始からの経過時間を計測することで、いまどの語句が発音されているかを正確に判別できる。この結果、入力テキスト100の各語句を着色して表示するなどの、入力音声データ110の再生に同期した表示が実現できる。
なお、各語句の開始時刻がその語句の直前の語句の終了時刻と一致する場合には、タイムスタンプデータ105は、各語句の発音の開始時刻および終了時刻の一方を記録してもよい。実際には、入力テキスト100中の語句と語句との間に句読点がある場合には、それらの語句の発音の間にポーズと呼ばれる無音時間を設けることが望ましい。この場合には、各語句の発音の開始時刻はその直前の語句の終了時刻とは一致しない。このような場合に備えて、タイムスタンプデータ105は、各語句についてその発音の開始時刻および終了時刻の双方を記録していることが望ましい。
図5は、本実施形態に係る同期システム20の機能構成を示す。同期システム20は、入力した入力テキスト100および入力音声データ110に基づいて、入力テキスト100に含まれる各語句が発音されるタイミングを決定する機能を有している。具体的には、同期システム20は、第1登録部200と、基本辞書データベース205と、第1辞書データベース208と、第1認識部210と、第1検出部220と、第2登録部230と、第2辞書データベース235と、第2認識部240と、第2検出部250と、音声合成部260と、比率算出部270と、出力部280とを有する。基本辞書データベース205、第1辞書データベース208および第2登録部230のそれぞれは、後述のハードディスクドライブ1040などの記憶装置によって実現される。その他の各部は、後述のCPU1000がプログラムの指令に基づいて動作することによって実現される。
第1登録部200は、入力テキスト100を入力し、音声認識のための第1辞書に、その入力テキスト100に含まれる少なくとも1つの語句を登録する。具体的には、第1登録部200は、予め音声認識のために準備された辞書を基本辞書データベース205から読み出す。この辞書は、各語句をその発音データに対応付けたものである。そして、基本辞書データベース205は、その辞書の中から入力テキスト100に含まれる語句を選択して、その発音データと共に第1辞書として第1辞書データベース208に格納する。
基本辞書データベース205内の辞書に登録されていない語句(以下、未知語と呼ぶ)が入力テキスト100に含まれている場合には、第1登録部200は、その未知語については音声合成の技術によって合成音声を生成し、その未知語の文字列とその合成音声を対応付けて第1辞書に追加する。第1認識部210は、入力音声データ110を入力し、その入力音声データ110を再生して生成した音声を、第1辞書データベース208に格納された第1辞書を用いて音声認識することで、その音声の内容を認識したテキストである第1認識テキストを生成する。
音声認識については、様々な技術が研究されているので、その詳細については他の文献を参照されたい。ここでは、その基本アイデアについて簡単に説明すると共に、音声認識を本実施形態においてどのように利用するかについて説明する。音声認識技術の基本的概念において、まず、入力された音声データの各部分が、第1辞書に登録された各語句の音声データと比較される。そして、入力された音声データのある部分が、何れかの語句の音声データと一致した場合に、その部分はその語句を発音したものと判断される。
一致は完全一致のみならず、ある程度の範囲で近似することも含まれる。また、音声データとは必ずしも音声の周波数のデータのみならず、それを抽象化するべく変換されたデータでもよい。さらには、ある語句の認識にはその語句のみならずその前後の文脈が考慮されてもよい。何れにしろ、音声認識技術の適用の結果、入力された音声データの各部分がどの語句を発音するものであるかが分かる。
音声認識技術の目的は認識結果のテキストを出力するものであるところ、音声データのどの部分がどの語句に対応しているかという情報までもが出力される必要は無い。しかしながら、上述のように、そのような情報についても内部の処理過程で生成されている場合が多い。第1認識部210は、このような、内部処理過程で用いられる情報に基づいて、各語句が発音される時間を示すタイムスタンプデータを生成し、第2認識部240に出力する。このタイムスタンプデータは、即ち、入力テキスト100に含まれる各語句についての、入力音声データ110の再生開始から起算した発音の開始時刻および終了時刻を示す。
なお、第1認識部210による音声認識処理は、入力音声データ110に含まれる予め定められた単位の音声ごとに行われ、その単位ごとに第1認識テキストが生成されることが望ましい。この予め定められた単位とは、例えば文である。詳細には、第1認識部210は、入力音声データ110の中から予め定められた基準時間以上連続する無音部分を検出して、その無音部分を境界として入力音声データ110を複数の文に分割する。そして、第1認識部210は、そのそれぞれの文について上記処理を行う。これにより、ある文についての誤認識の影響が他の文に及ぶことを防ぎ、認識率を高めることができる。
以下に説明する処理は、それぞれの文についての第1認識テキストについて略同一であるから、以降特に断らない限り、これらを代表して1つの第1認識テキストについて説明する。
第1検出部220は、入力テキスト100を入力し、その入力テキスト100を、第1認識部210から入力した第1認識テキストと比較する。そして、第1検出部220は、入力テキスト100のうちその第1認識テキストと相違するテキストである第1誤認識テキストを検出する。即ち、この第1誤認識テキストは、第1認識部210により誤認識された部分に対応する、正しい内容のテキストである。第1誤認識テキストは第2登録部230、第2認識部240および第2検出部250に対し出力される。なお、第1検出部220は、入力テキスト100のうちその第1認識テキストと相違するテキストを含む文全体を、第1誤認識テキストとして検出してもよい。更にこの場合、連続する複数の文がそれぞれ誤認識部分を含む場合には、第1検出部220は、それら複数の文に対応する入力テキスト100中の複数の文をまとめて第1誤認識テキストとして検出してもよい。
第2登録部230は、音声認識のための第2辞書に、第1誤認識テキストに含まれる少なくとも1つの語句を登録する。具体的にはこの第2辞書は、第1辞書を利用して生成されてもよい。即ち例えば、第2登録部230は、第1辞書を第1辞書データベース208から読み出して、その読み出した第1辞書から、入力テキスト100には含まれ、かつ第1誤認識テキストに含まれない少なくとも1つの語句を除外し、第2辞書データベース235に格納してもよい。これにより、第1誤認識テキストに含まれ、かつ、基本辞書に含まれる語句については、基本辞書に格納されている音声が対応付けられて、また、第1誤認識テキストに含まれる未知語には、その未知語の合成音声が対応付けられて、第2辞書データベース235に格納される。
第2認識部240は、入力音声データ110のうちその第1誤認識テキストに対応する部分を再生する音声を特定する。具体的には、第2認識部240は、第1認識部210から受け取ったタイムスタンプデータに基づいて、第1誤認識テキストの直前の語句に対応する音声の終了時刻、および、第1誤認識テキストの直後の語句に対応する音声の開始時刻を選択する。次に、第2認識部240は、入力音声データ110のうちその終了時刻から開始時刻までの間に発音される音声の音声データを選択する。この音声データが、第1誤認識テキストに対応する部分となる。そして、第2認識部240は、この部分を再生した音声を、第2辞書データベース235に格納された辞書を用いて音声認識することで、その音声の内容を認識したテキストである第2認識テキストを生成する。
音声認識技術の概要は上述の通りであるから説明を省略する。また、上述の第1認識部210の例と同様に、第2認識部240は、音声認識の内部処理過程で生成される情報に基づいて、タイムスタンプデータを生成し、第1認識部210から受け取ったタイムスタンプデータと共に出力部280に対し出力する。第2検出部250は、この第2認識テキストと、上述の第1誤認識テキストを比較する。そして、第2検出部250は、その第1誤認識テキストのうちその第2認識テキストと相違するテキストである第2誤認識テキストを検出する。第2誤認識テキストは、相違部分のみならずその相違部分を含む文全体であってもよい。
音声合成部260は、音声認識技術によっては発音のタイミングが認識できなかったテキストについて、それに含まれる各語句の発音のタイミングを判断する。音声認識技術によっては発音のタイミングが認識できなかったテキストとは、例えば、上述の第2誤認識テキストである。これに代えて、音声合成部260は、第2認識部240等による処理を経ずに、第1誤認識テキストそれ自体やその少なくとも一部を対象に、語句が発音されるタイミングを検出してよい。以降、第2誤認識テキストを処理の対象とする例について説明する。
まず、音声合成部260は、その第2誤認識テキストを入力し、その入力した第2誤認識テキストを読み上げる合成音声を生成する。音声合成についても、様々な技術が研究されているので、その詳細については他の文献を参照されたい。ここでは、その基本アイデアについて簡単に説明すると共に、音声合成を本実施形態においてどのように利用するかについて説明する。
音声合成技術の基本的概念として、まず、入力されたテキストの各部分が、予め音声合成用の辞書に登録された文字列と比較される。この辞書は、語句の文字列とその音声データを対応付けたものである。そして、入力されたテキストのある語句が、何れかの語句についてその辞書に登録された文字列に一致した場合に、その語句はその文字列に対応する音声データにより発音されると判断される。このようにして、入力されたテキストの各語句に対応する音声データを辞書から検索することで、そのテキストの合成音声が生成される。
一致は完全一致のみならず、ある程度の範囲で近似することも含まれる。また、ある語句についての合成音声の生成にはその語句のみならずその前後の文脈が考慮されてもよい。何れにしろ、音声合成技術の適用の結果、入力されたテキストに含まれる各語句をどのように発音するべきかがわかる。
音声合成技術は、合成音声の生成を目的とすることから、各語句について検索された音声データが連結されて出力されればよい。但し、上述のように、音声合成の内部処理の過程では、各語句にはその合成発音を示す音声データが対応付けられている。本実施形態に係る音声合成部260は、このような内部処理の過程で得られる、各語句に対応付けられた音声データを、比率算出部270に対し出力する。この音声データに基づいて、比率算出部270は、その合成音声において第2誤認識テキストに含まれる複数の語句のそれぞれが発音される時間の比率を算出して、その算出結果を第2誤認識テキストと共に出力部280に出力する。
出力部280は、第2誤認識テキストに含まれる複数の語句のそれぞれに、算出したその比率に応じて、入力音声データ110のうちその第2誤認識テキストに対応する部分を再生する時間の一部をそれぞれ対応付けて、出力する。第2誤認識テキストが複数の場合には、そのそれぞれについてこの処理を行う。また、出力部280は、第1認識部210および第2認識部240により生成されたタイムスタンプデータのうち、誤認識部分を除いたテキストについてのタイムスタンプデータを更に出力する。このタイムスタンプデータは、即ち、入力テキスト100に含まれる語句のうち、第1または第2認識テキストと一致する語句に、第1認識部210および第2認識部240がその語句を認識した音声の再生時間を対応付けたものとなる。このようにして出力されるデータをまとめてタイムスタンプデータ105とする。また、出力部280は、これに加えて、入力音声データ110自体および入力テキスト100自体を更に出力してよい。
図6は、本実施形態に係る同期システム20がタイムスタンプデータ105を生成する処理のフローチャートである。同期システム20は、まず、入力テキスト100および入力音声データ110を入力する(S600)。同期システム20は、入力した入力テキスト100に対し、以降の処理を可能とするための前処理を行ってもよい。例えば、入力テキスト100が、語句の区切りが明示されていない言語で記述されている場合には、同期システム20は、入力テキスト100に対し形態素解析を行って、語句の区切りを検出する。また、同期システム20は、入力テキスト100が複数の文を含む場合には、グラマー登録と呼ばれる、入力テキスト100を文ごとに分割して一時的に記憶装置に格納する処理を行ってもよい。さらには、同期システム20は、読まれない文字(無音文字)を入力テキスト100から削除してもよいし、入力テキスト100中の数値を表す文字に対し所定の変換を行ってもよい。
次に、第1認識部210は、第1の認識処理を行う(S610)。この処理により、入力音声データ110が音声認識されて、その認識結果である第1認識テキストが入力テキスト100と比較される。この第1認識テキストに誤認識部分が含まれる場合、即ち、入力テキスト100のうちこの第1認識テキストと相違する第1誤認識テキストが検出された場合には(S620:YES)、第2認識部240は、第2の認識処理を行う(S630)。この処理により、第1誤認識テキストに対応する音声が音声認識されて、その認識結果である第2認識テキストがこの第1誤認識テキストと比較される。
この第2認識テキストに誤認識部分が含まれる場合、即ち、第1誤認識テキストのうちこの第2認識テキストと相違する第2誤認識テキストが検出された場合には(S640:YES)、音声合成部260および比率算出部270は、音声合成技術を利用した推定処理を行う(S650)。そして出力部280は、第1認識部210による認識結果、第2認識部240による認識結果、並びに、音声合成部260および比率算出部270による推定結果を組み合わせてタイムスタンプデータ105を生成し、出力する(S660)。このタイムスタンプデータ105は、入力音声データ110が再生される時間を、比率算出部270が算出した比率で分割した各時間の、開始時刻および終了時刻の少なくとも一方を、その時間に発音される語句に対応付けたデータとなる。
図7は、S610における処理の詳細を示す。第1登録部200は、入力テキスト100を入力し、音声認識のための第1辞書に、その入力テキスト100に含まれる少なくとも1つの語句を登録する(S700)。この処理は、入力テキスト100が複数の文を含む場合であっても入力テキスト100全体を対象として行われる。即ち、第1登録部200は、入力テキスト100に含まれる各語句に対応する音声データを基本辞書データベース205から読み出すと共に、入力テキスト100に含まれる未知語に対応する合成音声の音声データを音声合成により生成する。そして、第1登録部200は、生成したこれらの音声データを第1辞書データベース208に格納する。
次に、第1認識部210は、入力した入力音声データ110を再生して生成した音声を、第1辞書データベース208に格納された第1辞書を用いて音声認識することで、その音声の内容を認識したテキストである第1認識テキストを生成する(S710)。この処理の過程で、第1認識部210は、認識したそれぞれの語句が入力音声データ110において再生される時間を示すタイムスタンプデータを生成する。これらの処理は、入力音声データ110に含まれる文ごとに行われる。そして、第1検出部220は、入力した入力テキスト100を、第1認識部210から入力したそれぞれの第1認識テキストと比較する(S720)。第1検出部220は、各第1認識テキストについて、入力テキスト100のうちその第1認識テキストと相違するテキストである第1誤認識テキストを検出する。
図8は、S630における処理の詳細を示す。同期システム20は、それぞれの第1誤認識テキストについて以下の処理を行う。まず、第2登録部230は、音声認識のための第2辞書に、当該第1誤認識テキストに含まれる少なくとも1つの語句を登録する(S800)。具体的には、第2登録部230は、第1誤認識テキストに含まれ、かつ、基本辞書に含まれる語句については、基本辞書からそれに対応する音声データを選択し、第1誤認識テキストに含まれる未知語については、その未知語の合成音声の音声データを生成して、第2辞書データベース235に格納する。
次に、第2認識部240は、その第1誤認識テキストに対応する部分を再生する音声を、第2辞書データベース235に格納された辞書を用いて音声認識することで、その音声の内容を認識したテキストである第2認識テキストを生成する(S810)。次に、第2検出部250は、この第2認識テキストと、上述の第1誤認識テキストを比較する(S820)。そして、第2検出部250は、その第1誤認識テキストのうちその第2認識テキストと相違するテキストである第2誤認識テキストを検出する。
後に第2誤認識テキストを音声合成する処理において、音声合成の精度を向上させるべく、好ましくは、第2検出部250は、その第1誤認識テキストのうち第2認識テキストと相違するテキストを含む、予め定められた単位の文字列を、第2誤認識テキストとして検出してもよい。この予め定められ単位の文字列は、例えば、文法上の「文」である。音声合成は各語句単独ではなく文単位で文脈を考慮して処理されることが多いので、このようにすることで音声合成の精度を向上できる。
図9は、S650における処理の詳細を示す。音声合成部260は、誤認識されたテキストを少なくとも含むテキスト、例えば、上記の第2誤認識テキストを選択する(S900)。そして、音声合成部260は、その選択した第2誤認識テキストを読み上げる合成音声を生成する(S910)。この音声合成の過程で、音声合成部260は、入力テキスト100に含まれる各語句が、合成音声のどの部分に対応するかを示すデータを生成する。
そして、比率算出部270は、このデータに基づき、その生成した合成音声において、その第2誤認識テキストのうち、第2認識テキストとは相違している複数の語句のそれぞれが発音される時間の比率を算出する(S920)。即ち、音声合成は誤認識部分を含む文全体について行うが、発音される時間の比率については誤認識された複数の語句のみについて行う。そして、出力部280は、これら複数の語句のそれぞれに、算出したその比率に応じて、入力音声データ110のうちその複数の語句に対応する部分を再生する時間の一部をそれぞれ対応付ける(S930)。図10のこの処理の概要を示す。
図10は、算出した比率に基づき再生時間を対応付ける処理(S930)の概略を示す。この図10の例において、「A New Driving Road For Cars」というテキストの読み上げ音声を図上部に示す。この読み上げ音声のうち、「Driving Road」に対応する部分が音声認識処理によって誤認識されている。したがって、「Driving Road」という文字列全体についてはその再生時間が前後の語句の認識結果に基づき判明しているものの、「Driving」という語句と「Road」という語句がそれぞれどのような時間で再生されるかは分からない。
これに対し、音声合成部260は、誤認識された「Driving Road」という文字列を少なくとも含むテキストを音声合成して、合成音声を生成する。この合成音声を図下部に示す。比率算出部270は、この合成音声において、「Driving」が発音される時間、および、「Road」が発音される時間の比率を、3:7と算出する。以上より、出力部280は、入力音声データ110において、「Driving Road」全体を再生する時間を、その比率である3:7の比率で、「Driving」を再生する時間、および、「Road」を再生する時間にそれぞれ対応付けて出力する。なお、比率算出部270は、算出されたこの比率をそのまま再生時間の比率としなくともよく、算出されたこの比率に応じるものであれば、この比率に所定の重み付けをして再生時間の比率としてもよい。
図9に戻る。そして、出力部280は、このような対応付けを示すデータに、第1認識部210および第2認識部240により生成されたタイムスタンプデータのうち、誤認識部分を除いたテキストについてのタイムスタンプデータを加えることで、入力テキスト100全体に対応するタイムスタンプデータを生成する(S940)。
以上、図1から図10を参照して説明したように、本実施形態に係る同期システム20によれば、同一の音声データについて複数回の音声認識を行うことで、より多くの語句についてその発音タイミングを正しく検出することができる。特に、初めの音声認識で認識できなかった音声に含まれる語句を後の音声認識のための辞書に登録することで、後の音声認識処理をその音声の認識に特化させて、認識精度を向上させることができる。さらには、複数回の音声認識によっても正しく認識できなかった語句については、音声合成技術を用いて、発音タイミングを高精度で推定できる。
この推定の処理は、以下の効果をもたらす。第1に、音声合成によって各語句が発音された時間は、その実時間ではなく、その時間の比率が推定結果として利用される。したがって、合成音声が全体として入力音声データ110の再生と比較してゆっくりと再生される場合など、利用する音声合成技術が汎用のものであって入力音声データ110と全く関係ない場合であっても、発音タイミングを高精度で推定できる。これにより、音声認識エンジンおよび音声合成エンジンの双方を準備することができれば、広く様々な言語について、発音タイミングの高精度な推定を実現することができる。
また、音声認識処理では発音タイミングを検出できない語句が生じ得るのに対し、音声合成を利用すれば全ての語句についてその発音タイミングを決定付けることができる。この結果、発音タイミングが不明な部分が無いので、幅広い分野に対し応用が可能となる。図11にその一例を示す。
図11は、本実施形態に係る同期システム20または表示装置25が、タイムスタンプデータに基づいて表示する画面の例を示す。同期システム20は、例えば発音タイミングの編集者に対し、その編集結果を明示するために、入力テキスト100を入力音声データ110に同期して表示する。また、表示装置25は、例えば一般利用者に対し、入力音声データ110の内容を理解し易くするために、入力テキスト100を入力音声データ110の再生に同期して表示する。
ここでは、同期システム20または表示装置25が表示する処理を代表して、同期システム20の出力部280がその画面を表示するものとして説明をすすめる。出力部280は、入力テキスト100を画面に表示する。入力テキスト100は、例えば語学学習用のソフトウェアにより生成されるテキストであってもよいし、その他一般のウェブページであってもよい。それと共に、出力部280は、入力音声データ110を再生して音声を順次出力する。
また、出力部280は、入力音声データ110の再生開始からの経過時間を計測する。そして、出力部280は、その経過時間に対応する語句をタイムスタンプデータ105から検索する。例えば、図4の例を用いれば、経過時間が1.5秒のとき、その時間を開始時刻から終了時刻までの間に含む語句「Driving」が検索される。そして、出力部280は、検索したその語句を、他の語句とは識別可能に表示する。図11の例では具体的には、検索したその語句以前に発音された語句と、検索したその語句以降の語句とが異なる色で着色されて表示される。
検索したその語句自体については、その語句の発音の進行に応じて、左側の文字から順に、検索したその語句以前に発音された語句と同一の色で着色される。この着色の例に代えて、出力部280は、検索したその語句の字体を変更してもよいし、検索したその語句の文字を画面上で動かして表示してもよい。
これに加えて、同期システム20の出力部280は、発音タイミングの編集者に対し、入力テキスト100に含まれる各語句に互いに異なるアンダーラインを付して表示してもよい。たとえば一重下線は、それを付した語句が、第1認識部210によって正しく認識されたこと、即ち何れの誤認識テキストにも含まれないことを示す。また、2重下線は、それを付した語句が、第2認識部240によって正しく認識されたこと、即ち第1誤認識テキストには含まれるが第2誤認識テキストには含まれないことを示す。また、波線は、それを付した語句が、音声合成部260によって発音タイミングが推定されたこと、即ち第2誤認識テキストに含まれることを示す。
このように、認識結果を区別可能に表示することで、編集者は、各語句の発音タイミングがどのように決定付けられたかを把握して、その後の編集作業に利用できる。たとえば、第1認識部210によって正しく認識された語句についてはその発音タイミングの信頼性が極めて高いものと把握することができる。
図12は、本実施形態に係る同期システム20として機能するコンピュータのハードウェア構成の一例を示す。同期システム20は、ホストコントローラ1082により相互に接続されるCPU1000、RAM1020、及びグラフィックコントローラ1075を有するCPU周辺部と、入出力コントローラ1084によりホストコントローラ1082に接続される通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を有する入出力部と、入出力コントローラ1084に接続されるROM1010、フレキシブルディスクドライブ1050、及び入出力チップ1070を有するレガシー入出力部とを備える。
ホストコントローラ1082は、RAM1020と、高い転送レートでRAM1020をアクセスするCPU1000及びグラフィックコントローラ1075とを接続する。CPU1000は、ROM1010及びRAM1020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ1075は、CPU1000等がRAM1020内に設けたフレームバッファ上に生成する画像データを取得し、表示装置1080上に表示させる。これに代えて、グラフィックコントローラ1075は、CPU1000等が生成する画像データを格納するフレームバッファを、内部に含んでもよい。
入出力コントローラ1084は、ホストコントローラ1082と、比較的高速な入出力装置である通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を接続する。通信インターフェイス1030は、ネットワークを介して外部の装置と通信する。ハードディスクドライブ1040は、同期システム20が使用するプログラム及びデータを格納する。CD−ROMドライブ1060は、CD−ROM1095からプログラム又はデータを読み取り、RAM1020又はハードディスクドライブ1040に提供する。
また、入出力コントローラ1084には、ROM1010と、フレキシブルディスクドライブ1050や入出力チップ1070等の比較的低速な入出力装置とが接続される。ROM1010は、同期システム20の起動時にCPU1000が実行するブートプログラムや、同期システム20のハードウェアに依存するプログラム等を格納する。フレキシブルディスクドライブ1050は、フレキシブルディスク1090からプログラム又はデータを読み取り、入出力チップ1070を介してRAM1020またはハードディスクドライブ1040に提供する。入出力チップ1070は、フレキシブルディスク1090や、例えばパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して各種の入出力装置を接続する。
同期システム20に提供されるプログラムは、フレキシブルディスク1090、CD−ROM1095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、入出力チップ1070及び/又は入出力コントローラ1084を介して、記録媒体から読み出され同期システム20にインストールされて実行される。プログラムが同期システム20等に働きかけて行わせる動作は、図1から図11において説明した同期システム20における動作と同一であるから、説明を省略する。
以上に示したプログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク1090、CD−ROM1095の他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムを同期システム20に提供してもよい。
なお、本実施の形態に係る表示装置25のハードウェア構成も、図12に示す同期システム20のハードウェア構成と略同一であるから説明を省略する。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
図1は、本実施形態に係る情報システム10の全体構成を示す。 図2は、本実施形態に係る入力テキスト100の具体例を示す。 図3は、本実施形態に係る入力音声データ110の具体例を示す。 図4は、本実施形態に係るタイムスタンプデータ105の具体例を示す。 図5は、本実施形態に係る同期システム20の機能構成を示す。 図6は、本実施形態に係る同期システム20がタイムスタンプデータ105を生成する処理のフローチャートである。 図7は、S610における処理の詳細を示す。 図8は、S630における処理の詳細を示す。 図9は、S650における処理の詳細を示す。 図10は、算出した比率に基づき再生時間を対応付ける処理(S930)の概略を示す。 図11は、本実施形態に係る同期システム20または表示装置25が、タイムスタンプデータに基づいて表示する画面の例を示す。 図12は、本実施形態に係る同期システム20として機能するコンピュータのハードウェア構成の一例を示す。
符号の説明
10 情報システム
12 録音装置
15 データベース
20 同期システム
25 表示装置
50 記録媒体
100 入力テキスト
105 タイムスタンプデータ
110 入力音声データ
200 第1登録部
205 基本辞書データベース
208 第1辞書データベース
210 第1認識部
220 第1検出部
230 第2登録部
235 第2辞書データベース
240 第2認識部
250 第2検出部
260 音声合成部
270 比率算出部
280 出力部

Claims (12)

  1. 音声データの再生に同期して、再生される音声の内容を記録したテキストを表示させるために、その音声において各語句が発音されるタイミングを推定するシステムであって、
    再生される音声の内容を予め記録したテキストを入力し、音声認識のための辞書に、その入力したテキストに含まれる少なくとも1つの語句を登録する第1登録部と、
    前記音声データを再生して生成した音声を、前記第1登録部により語句が登録されたその辞書を用いて音声認識することで、その音声の内容を認識したテキストである第1認識テキストを生成する第1認識部と、
    再生される音声の内容を予め記録したテキストを入力し、その第1認識テキストと比較して、その入力したテキストのうちその第1認識テキストと相違するテキストである第1誤認識テキストを検出する第1検出部と、
    その第1誤認識テキストの少なくとも一部のテキストを入力し、その入力したテキストを読み上げる合成音声を生成する音声合成部と、
    生成したその合成音声において、その入力したテキストに含まれる複数の語句のそれぞれが発音される時間の比率を算出する比率算出部と、
    それらの複数の語句のそれぞれに、算出したその比率に応じて、その音声データのうちその入力したテキストに対応する部分を再生する時間の一部をそれぞれ対応付けて、その対応付けを示すデータを出力する出力部と
    を備え
    音声認識のための辞書に、前記第1誤認識テキストに含まれる少なくとも1つの語句を登録する第2登録部と、
    前記音声データのうちその第1誤認識テキストに対応する部分を再生して生成した音声を、前記第2登録部により語句が登録された辞書を用いて音声認識することで、その音声の内容を認識したテキストである第2認識テキストを生成する第2認識部と、
    その第1誤認識テキストをその第2認識テキストと比較して、その第1誤認識テキストのうちその第2認識テキストと相違するテキストである第2誤認識テキストを検出する第2検出部と
    を更に備え、
    前記音声合成部は、その第2誤認識テキストを入力して、その入力した第2誤認識テキストを読み上げる合成音声を生成し、
    前記比率算出部は、生成したその合成音声において、その第2誤認識テキストに含まれる複数の語句のそれぞれが発音される時間の比率を算出し、
    前記出力部は、その複数の語句のそれぞれに、算出したその比率に応じて、その音声データのうちその第2誤認識テキストに対応する部分を再生する時間の一部をそれぞれ対応付けて、その対応付けを示すデータを出力するシステム。
  2. 前記第2登録部は、前記第1誤認識テキストに含まれる少なくとも1つの語句に、その語句を音声合成した合成音声を対応付けて、音声認識のための辞書に登録する
    請求項に記載のシステム。
  3. 前記第2検出部は、前記第1誤認識テキストを前記第2認識テキストと比較して、その第1誤認識テキストのうちその第2認識テキストと相違するテキストを含む、予め定められた単位の文字列を、前記第2誤認識テキストとして検出し、
    前記比率算出部は、その第2誤認識テキストについて生成した合成音声において、その第2誤認識テキストに含まれる語句のうち、その第2認識テキストとは相違している複数の語句のそれぞれが発音される時間の比率を算出し、
    前記出力部は、その複数の語句のそれぞれに、算出したその比率に応じて、音声データのうちその複数の語句に対応する部分を再生する時間の一部をそれぞれ対応付けて出力する
    請求項に記載のシステム。
  4. 前記第2検出部が前記第2誤認識テキストとして検出する、前記予め定められた単位は、文である、請求項に記載のシステム。
  5. 前記出力部は、前記音声データが再生される時間を、前記比率算出部が算出した比率で分割して、分割した各時間の開始時刻および終了時刻の少なくとも一方を、入力したテキストに含まれる複数の語句のそれぞれに対応付けたデータを生成し、出力する、請求項1に記載のシステム。
  6. 前記出力部は、さらに、前記音声データを再生して音声を順次出力すると共に、再生開始からの経過時間を計測し、その経過時間に対応する語句を他の語句とは識別可能に表示する、請求項1に記載のシステム。
  7. 前記出力部は、再生される音声の内容を予め記録したテキストに含まれる各語句を、その語句が、前記第2誤認識テキストに含まれるか、その第2誤認識テキストには含まれず前記第1誤認識テキストに含まれるか、または、それらの何れの誤認識テキストにも含まれないかを、識別可能に表示する、請求項に記載のシステム。
  8. 再生される音声の内容を予め記録したテキストを入力し、音声認識のための辞書に、その入力したテキストに含まれる少なくとも1つの語句を登録する第1登録部と、
    音声データを再生して生成した音声を、前記第1登録部により語句が登録されたその辞書を用いて音声認識することで、その音声の内容を認識したテキストである第1認識テキストを生成する第1認識部と、
    入力したそのテキストを、その第1認識テキストと比較して、その入力したテキストのうちその第1認識テキストと相違するテキストである第1誤認識テキストを検出する第1検出部と、
    音声認識のための前記辞書から、入力したそのテキストに含まれ、かつ、その第1誤認識テキストには含まれない少なくとも1つの語句を除外する第2登録部と、
    その音声データのうちその第1誤認識テキストに対応する部分を再生して生成した音声を、前記第2登録部により語句が除外された辞書を用いて音声認識することで、その音声の内容を認識したテキストである第2認識テキストを生成する第2認識部と、
    入力したそのテキストに含まれる語句のうち、その第1または第2認識テキストと一致する語句に、前記第1または第2認識部がその語句を認識した音声の再生時間を対応付けて出力する出力部と
    を備えるシステム。
  9. 音声データの再生に同期して、再生される音声の内容を記録したテキストを表示させるために、その音声において各語句が発音されるタイミングをコンピュータにより推定する方法であって、
    前記コンピュータにより、再生される音声の内容を予め記録したテキストを入力し、音声認識のための辞書に、その入力したテキストに含まれる少なくとも1つの語句を登録するステップと、
    前記コンピュータにより、前記音声データを再生して生成した音声を、語句が登録されたその辞書を用いて音声認識することで、その音声の内容を認識したテキストである第1認識テキストを生成するステップと、
    前記コンピュータにより、再生される音声の内容を予め記録したテキストを入力し、その第1認識テキストと比較して、その入力したテキストのうちその第1認識テキストと相違するテキストである第1誤認識テキストを検出するステップと、
    前記コンピュータにより、その第1誤認識テキストの少なくとも一部のテキストを入力し、その入力したテキストを読み上げる合成音声を生成するステップと、
    前記コンピュータにより、生成したその合成音声において、その入力したテキストに含まれる複数の語句のそれぞれが発音される時間の比率を算出するステップと、
    前記コンピュータにより、それらの複数の語句のそれぞれに、算出したその比率に応じて、その音声データのうちその入力したテキストに対応する部分を再生する時間の一部をそれぞれ対応付けて、その対応付けを示すデータを出力するステップと
    を備え
    前記コンピュータにより、音声認識のための辞書に、前記第1誤認識テキストに含まれる少なくとも1つの更なる語句を登録するステップと、
    前記コンピュータにより、前記音声データのうちその第1誤認識テキストに対応する部分を再生して生成した音声を、更なる語句が登録された辞書を用いて音声認識することで、その音声の内容を認識したテキストである第2認識テキストを生成するステップと、
    前記コンピュータにより、その第1誤認識テキストをその第2認識テキストと比較して、その第1誤認識テキストのうちその第2認識テキストと相違するテキストである第2誤認識テキストを検出するステップと、
    前記コンピュータにより、その第2誤認識テキストを入力して、その入力した第2誤認識テキストを読み上げる合成音声を生成するステップと、
    前記コンピュータにより、生成したその合成音声において、その第2誤認識テキストに含まれる複数の語句のそれぞれが発音される時間の比率を算出するステップと、
    前記コンピュータにより、その複数の語句のそれぞれに、算出したその比率に応じて、その音声データのうちその第2誤認識テキストに対応する部分を再生する時間の一部をそれぞれ対応付けて、その対応付けを示すデータを出力するステップと
    を更に備える方法。
  10. コンピュータにより、再生される音声の内容を予め記録したテキストを入力し、音声認識のための辞書に、その入力したテキストに含まれる少なくとも1つの語句を登録するステップと、
    前記コンピュータにより、音声データを再生して生成した音声を、前記登録することにおいて語句が登録されたその辞書を用いて音声認識することで、その音声の内容を認識したテキストである第1認識テキストを生成するステップと、
    前記コンピュータにより、入力したそのテキストを、その第1認識テキストと比較して、その入力したテキストのうちその第1認識テキストと相違するテキストである第1誤認識テキストを検出するステップと、
    前記コンピュータにより、音声認識のための前記辞書から、入力したそのテキストに含まれ、かつ、その第1誤認識テキストには含まれない少なくとも1つの語句を除外するステップと、
    前記コンピュータにより、その音声データのうちその第1誤認識テキストに対応する部分を再生して生成した音声を、前記除外することによって語句が除外された辞書を用いて音声認識することで、その音声の内容を認識したテキストである第2認識テキストを生成するステップと、
    前記コンピュータにより、入力したそのテキストに含まれる語句のうち、その第1または第2認識テキストと一致する語句に、前記第1または第2認識部がその語句を認識した音声の再生時間を対応付けて出力するステップと
    を備える方法。
  11. 音声データの再生に同期して、再生される音声の内容を記録したテキストを表示させるために、その音声において各語句が発音されるタイミングを推定するシステムとして、コンピュータを機能させるプログラムであって、
    前記コンピュータを、
    再生される音声の内容を予め記録したテキストを入力し、音声認識のための辞書に、その入力したテキストに含まれる少なくとも1つの語句を登録する第1登録部と、
    前記音声データを再生して生成した音声を、前記第1登録部により語句が登録されたその辞書を用いて音声認識することで、その音声の内容を認識したテキストである第1認識テキストを生成する第1認識部と、
    再生される音声の内容を予め記録したテキストを入力し、その第1認識テキストと比較して、その入力したテキストのうちその第1認識テキストと相違するテキストである第1誤認識テキストを検出する第1検出部と、
    その第1誤認識テキストの少なくとも一部のテキストを入力し、その入力したテキストを読み上げる合成音声を生成する音声合成部と、
    生成したその合成音声において、その入力したテキストに含まれる複数の語句のそれぞれが発音される時間の比率を算出する比率算出部と、
    それらの複数の語句のそれぞれに、算出したその比率に応じて、その音声データのうちその入力したテキストに対応する部分を再生する時間の一部をそれぞれ対応付けて、その対応付けを示すデータを出力する出力部
    として機能させ
    更に、前記コンピュータを、
    音声認識のための辞書に、前記第1誤認識テキストに含まれる少なくとも1つの語句を登録する第2登録部と、
    前記音声データのうちその第1誤認識テキストに対応する部分を再生して生成した音声を、前記第2登録部により語句が登録された辞書を用いて音声認識することで、その音声の内容を認識したテキストである第2認識テキストを生成する第2認識部と、
    その第1誤認識テキストをその第2認識テキストと比較して、その第1誤認識テキストのうちその第2認識テキストと相違するテキストである第2誤認識テキストを検出する第2検出部
    として機能させ、
    前記音声合成部は、その第2誤認識テキストを入力して、その入力した第2誤認識テキストを読み上げる合成音声を生成し、
    前記比率算出部は、生成したその合成音声において、その第2誤認識テキストに含まれる複数の語句のそれぞれが発音される時間の比率を算出し、
    前記出力部は、その複数の語句のそれぞれに、算出したその比率に応じて、その音声データのうちその第2誤認識テキストに対応する部分を再生する時間の一部をそれぞれ対応付けて、その対応付けを示すデータを出力するプログラム。
  12. コンピュータを、
    再生される音声の内容を予め記録したテキストを入力し、音声認識のための辞書に、その入力したテキストに含まれる少なくとも1つの語句を登録する第1登録部と、
    音声データを再生して生成した音声を、前記第1登録部により語句が登録されたその辞書を用いて音声認識することで、その音声の内容を認識したテキストである第1認識テキストを生成する第1認識部と、
    入力したそのテキストを、その第1認識テキストと比較して、その入力したテキストのうちその第1認識テキストと相違するテキストである第1誤認識テキストを検出する第1検出部と、
    音声認識のための前記辞書から、入力したそのテキストに含まれ、かつ、その第1誤認識テキストには含まれない少なくとも1つの語句を除外する第2登録部と、
    その音声データのうちその第1誤認識テキストに対応する部分を再生して生成した音声を、前記第2登録部により語句が除外された辞書を用いて音声認識することで、その音声の内容を認識したテキストである第2認識テキストを生成する第2認識部と、
    入力したそのテキストに含まれる語句のうち、その第1または第2認識テキストと一致する語句に、前記第1または第2認識部がその語句を認識した音声の再生時間を対応付けて出力する出力部
    として機能させるプログラム。
JP2007170113A 2007-06-28 2007-06-28 音声の再生に同期して音声の内容を表示させる技術 Expired - Fee Related JP5313466B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007170113A JP5313466B2 (ja) 2007-06-28 2007-06-28 音声の再生に同期して音声の内容を表示させる技術
US12/145,804 US8065142B2 (en) 2007-06-28 2008-06-25 Synchronization of an input text of a speech with a recording of the speech
US13/279,479 US8209169B2 (en) 2007-06-28 2011-10-24 Synchronization of an input text of a speech with a recording of the speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007170113A JP5313466B2 (ja) 2007-06-28 2007-06-28 音声の再生に同期して音声の内容を表示させる技術

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2012116006A Division JP5608706B2 (ja) 2012-05-21 2012-05-21 音声の再生に同期して音声の内容を表示させる技術

Publications (2)

Publication Number Publication Date
JP2009008884A JP2009008884A (ja) 2009-01-15
JP5313466B2 true JP5313466B2 (ja) 2013-10-09

Family

ID=40161632

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007170113A Expired - Fee Related JP5313466B2 (ja) 2007-06-28 2007-06-28 音声の再生に同期して音声の内容を表示させる技術

Country Status (2)

Country Link
US (2) US8065142B2 (ja)
JP (1) JP5313466B2 (ja)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2932920A1 (fr) * 2008-06-19 2009-12-25 Archean Technologies Procede et appareil de mesure de l'intelligibilite d'un dispositif de diffusion sonore
US10088976B2 (en) 2009-01-15 2018-10-02 Em Acquisition Corp., Inc. Systems and methods for multiple voice document narration
US8346557B2 (en) * 2009-01-15 2013-01-01 K-Nfb Reading Technology, Inc. Systems and methods document narration
US8498866B2 (en) * 2009-01-15 2013-07-30 K-Nfb Reading Technology, Inc. Systems and methods for multiple language document narration
US8392186B2 (en) * 2010-05-18 2013-03-05 K-Nfb Reading Technology, Inc. Audio synchronization for document narration with user-selected playback
CN102298582B (zh) * 2010-06-23 2016-09-21 商业对象软件有限公司 数据搜索和匹配方法和系统
CN102314874A (zh) * 2010-06-29 2012-01-11 鸿富锦精密工业(深圳)有限公司 文本到语音转换系统与方法
WO2012025579A1 (en) * 2010-08-24 2012-03-01 Veovox Sa System and method for recognizing a user voice command in noisy environment
FR2966635A1 (fr) * 2010-10-20 2012-04-27 France Telecom Procede et dispositif d'affichage de donnees vocales d'un contenu audio
KR101030777B1 (ko) * 2010-11-10 2011-05-25 김인송 스크립트 데이터 생성 방법 및 장치
CN102541504A (zh) * 2011-01-04 2012-07-04 鸿富锦精密工业(深圳)有限公司 语音文字转换装置及方法
KR101326275B1 (ko) 2011-07-29 2013-11-11 김희곤 문자 및 음성 동기화 출력 장치
JP5787780B2 (ja) * 2012-01-25 2015-09-30 株式会社東芝 書き起こし支援システムおよび書き起こし支援方法
JP2013161205A (ja) * 2012-02-03 2013-08-19 Sony Corp 情報処理装置、情報処理方法、及びプログラム
KR102023157B1 (ko) * 2012-07-06 2019-09-19 삼성전자 주식회사 휴대 단말기의 사용자 음성 녹음 및 재생 방법 및 장치
TW201409259A (zh) * 2012-08-21 2014-03-01 Hon Hai Prec Ind Co Ltd 多媒體記錄系統及方法
US20140310190A1 (en) 2013-03-14 2014-10-16 Worldone, Inc. System and method for concept discovery with online information environments
KR101493006B1 (ko) * 2013-03-21 2015-02-13 디노플러스 (주) 멀티미디어 콘텐츠 편집장치 및 그 방법
JP2014240884A (ja) * 2013-06-11 2014-12-25 株式会社東芝 コンテンツ作成支援装置、方法およびプログラム
JP5943436B2 (ja) * 2014-06-30 2016-07-05 シナノケンシ株式会社 テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム
JP2016012098A (ja) * 2014-06-30 2016-01-21 シナノケンシ株式会社 電子図書再生装置及び電子図書再生プログラム
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
JP6128146B2 (ja) * 2015-02-24 2017-05-17 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
CN105872157A (zh) * 2016-06-02 2016-08-17 安徽声讯信息技术有限公司 一种带通话、充电功能的语音速记装置
US10950235B2 (en) * 2016-09-29 2021-03-16 Nec Corporation Information processing device, information processing method and program recording medium
CN106486119B (zh) * 2016-10-20 2019-09-20 海信集团有限公司 一种识别语音信息的方法和装置
WO2019038573A1 (en) * 2017-08-25 2019-02-28 Leong David Tuk Wai APPARATUS FOR RECOGNIZING SOUNDS
US10657202B2 (en) * 2017-12-11 2020-05-19 International Business Machines Corporation Cognitive presentation system and method
US10671251B2 (en) 2017-12-22 2020-06-02 Arbordale Publishing, LLC Interactive eReader interface generation based on synchronization of textual and audial descriptors
US11443646B2 (en) 2017-12-22 2022-09-13 Fathom Technologies, LLC E-Reader interface system with audio and highlighting synchronization for digital books
CN109389969B (zh) * 2018-10-29 2020-05-26 百度在线网络技术(北京)有限公司 语料库优化方法及装置
CN112530405A (zh) * 2019-09-18 2021-03-19 北京声智科技有限公司 一种端到端语音合成纠错方法、系统及装置
US20220130409A1 (en) * 2020-10-26 2022-04-28 RINGR, Inc. Systems and methods for multi-party media management
US11615250B2 (en) * 2021-02-11 2023-03-28 Dell Products L.P. Information handling system and method for automatically generating a meeting summary

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9100732D0 (en) 1991-01-14 1991-02-27 Xerox Corp A data access system
US5333275A (en) * 1992-06-23 1994-07-26 Wheatley Barbara J System and method for time aligning speech
JP2986345B2 (ja) 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
JP3745403B2 (ja) 1994-04-12 2006-02-15 ゼロックス コーポレイション オーディオデータセグメントのクラスタリング方法
US5606643A (en) 1994-04-12 1997-02-25 Xerox Corporation Real-time audio recording system for automatic speaker indexing
US5655058A (en) 1994-04-12 1997-08-05 Xerox Corporation Segmentation of audio data for indexing of conversational speech for real-time or postprocessing applications
US5598507A (en) 1994-04-12 1997-01-28 Xerox Corporation Method of speaker clustering for unknown speakers in conversational audio data
JPH08160989A (ja) * 1994-12-09 1996-06-21 Hitachi Ltd サウンドデータリンク編集方法
US20020002562A1 (en) 1995-11-03 2002-01-03 Thomas P. Moran Computer controlled display system using a graphical replay device to control playback of temporal data representing collaborative activities
US5717869A (en) 1995-11-03 1998-02-10 Xerox Corporation Computer controlled display system using a timeline to control playback of temporal data representing collaborative activities
US5850629A (en) 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
US6076059A (en) * 1997-08-29 2000-06-13 Digital Equipment Corporation Method for aligning text with audio signals
JPH11162152A (ja) * 1997-11-26 1999-06-18 Victor Co Of Japan Ltd 歌詞表示制御情報編集装置
US6714909B1 (en) 1998-08-13 2004-03-30 At&T Corp. System and method for automated multimedia content indexing and retrieval
US6434520B1 (en) 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
US6332122B1 (en) 1999-06-23 2001-12-18 International Business Machines Corporation Transcription system for multiple speakers, using and establishing identification
US6263308B1 (en) * 2000-03-20 2001-07-17 Microsoft Corporation Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process
US6505153B1 (en) 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions
US7260771B2 (en) 2001-04-26 2007-08-21 Fuji Xerox Co., Ltd. Internet-based system for multimedia meeting minutes
US20020193895A1 (en) 2001-06-18 2002-12-19 Ziqiang Qian Enhanced encoder for synchronizing multimedia files into an audio bit stream
US7298930B1 (en) 2002-11-29 2007-11-20 Ricoh Company, Ltd. Multimodal access of meeting recordings
JP4127668B2 (ja) * 2003-08-15 2008-07-30 株式会社東芝 情報処理装置、情報処理方法、およびプログラム
JP2005070645A (ja) * 2003-08-27 2005-03-17 Casio Comput Co Ltd テキスト音声同期装置およびテキスト音声同期処理プログラム
US7734996B2 (en) 2003-09-08 2010-06-08 Nec Corporation Documentation browsing method, documentation browsing apparatus, documentation browsing robot, and documentation browsing program
JP3945778B2 (ja) * 2004-03-12 2007-07-18 インターナショナル・ビジネス・マシーンズ・コーポレーション 設定装置、プログラム、記録媒体、及び設定方法
CN1773536A (zh) 2004-11-11 2006-05-17 国际商业机器公司 生成话音纪要的方法、设备和系统
US7809572B2 (en) * 2005-07-20 2010-10-05 Panasonic Corporation Voice quality change portion locating apparatus
JP2007133052A (ja) * 2005-11-09 2007-05-31 Flash Soft Kk 学習機器とそのプログラム

Also Published As

Publication number Publication date
US8209169B2 (en) 2012-06-26
US20090006087A1 (en) 2009-01-01
US20120041758A1 (en) 2012-02-16
JP2009008884A (ja) 2009-01-15
US8065142B2 (en) 2011-11-22

Similar Documents

Publication Publication Date Title
JP5313466B2 (ja) 音声の再生に同期して音声の内容を表示させる技術
JP3945778B2 (ja) 設定装置、プログラム、記録媒体、及び設定方法
EP1909263B1 (en) Exploitation of language identification of media file data in speech dialog systems
US7117231B2 (en) Method and system for the automatic generation of multi-lingual synchronized sub-titles for audiovisual data
CN103003875B (zh) 用于执行音频和相应文本转录的同步并确定该同步的置信值的方法和系统
US8106285B2 (en) Speech-driven selection of an audio file
JP4129989B2 (ja) テキスト音声合成を支援するシステム
JPWO2005069171A1 (ja) 文書対応付け装置、および文書対応付け方法
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JP2008216756A (ja) 語句として新たに認識するべき文字列等を取得する技術
JP5451982B2 (ja) 支援装置、プログラムおよび支援方法
JP5273844B2 (ja) 字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置
KR101493006B1 (ko) 멀티미디어 콘텐츠 편집장치 및 그 방법
JP5334716B2 (ja) 文字情報提示制御装置及びプログラム
US5806039A (en) Data processing method and apparatus for generating sound signals representing music and speech in a multimedia apparatus
JP5608706B2 (ja) 音声の再生に同期して音声の内容を表示させる技術
US20090043568A1 (en) Accent information extracting apparatus and method thereof
JP2008020622A (ja) オーサリングシステムおよびプログラム
KR102546555B1 (ko) 노래 번역 시스템
JP2686085B2 (ja) 音声認識システム
WO2022196087A1 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
Lertwongkhanakool et al. Real-time synchronization of live speech with its transcription
JP2647873B2 (ja) 文章作成システム
JP2019095526A (ja) 音声処理プログラム、音声処理装置、及び音声処理方法
JP2647872B2 (ja) 文章作成システム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090930

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120221

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120521

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20120521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120814

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130115

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130514

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130522

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130704

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5313466

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees