JP5313466B2

JP5313466B2 - 音声の再生に同期して音声の内容を表示させる技術

Info

Publication number: JP5313466B2
Application number: JP2007170113A
Authority: JP
Inventors: 貴利渡部; 紀子井本; 哲也宇田
Original assignee: ニュアンスコミュニケーションズ，インコーポレイテッド
Priority date: 2007-06-28
Filing date: 2007-06-28
Publication date: 2013-10-09
Anticipated expiration: 2027-06-28
Also published as: US8209169B2; US20090006087A1; US20120041758A1; JP2009008884A; US8065142B2

Description

本発明は、音声の再生に同期して音声の内容を表示させる技術に関する。本発明は、特に、音声の内容を予め記録したテキストを、音声の再生に同期して表示する技術に関する。

近年、例えば語学の学習用システムや、テレビ番組のテロップなどのような、テキストを表示しながらその読み上げ音声を出力するシステムが用いられている。このようなシステムにおいて、読み上げている箇所を判別し易くするためには、読み上げている語句の表示を変更すること、例えば、その語句の色を変えて表示することが望ましい。一例として、下記の特許文献１には、カラオケ楽曲の歌詞文字を、歌詞の発声タイミングに対応して表示する技術が開示されている。しかし、このような技術においては、表示の制御が、読み上げのタイミングと僅かでもずれてしまうと、利用者にとっては大変不自然に感じられる。
特開平１１−１６２１５２号公報

これに対し、読み上げの音声を音声認識して、その認識結果とテキストとを照合すれば、各語句が発音されるタイミングを正確に検出できるとも考えられる。しかしながら、このアイデアでは、正しく音声認識できた語句についてはそのタイミングを正確に検出できるが、音声認識できなかった語句についてはそのタイミングを全く検出できない。一般に、音声認識の精度は充分に高くないので、語句によっては、誤認識によりタイミングを検出できない場合がある。このため、全ての語句について発音のタイミングを正確に検出しようとすれば、誤認識された部分については人手で発音のタイミングを設定したりしなければならず、多大な費用と時間がかかってしまう。

上記課題を解決するために、本発明の第１の側面においては、音声データの再生に同期して、再生される音声の内容を記録したテキストを表示させるために、その音声において各語句が発音されるタイミングを推定するシステムであって、再生される音声の内容を予め記録したテキストを入力し、その入力したテキストを読み上げる合成音声を生成する音声合成部と、生成したその合成音声において、その入力したテキストに含まれる複数の語句のそれぞれが発音される時間の比率を算出する比率算出部と、それらの複数の語句のそれぞれに、算出したその比率に応じて、その音声データが再生される時間の一部をそれぞれ対応付けて、その対応付けを示すデータを出力する出力部とを備えるシステムを提供する。また、当該システムとしてコンピュータを機能させるプログラムおよび方法を提供する。

また、本発明の第２の側面においては、再生される音声の内容を予め記録したテキストを入力し、音声認識のための辞書に、その入力したテキストに含まれる少なくとも１つの語句を登録する第１登録部と、音声データを再生して生成した音声を、前記第１登録部により語句が登録されたその辞書を用いて音声認識することで、その音声の内容を認識したテキストである第１認識テキストを生成する第１認識部と、入力したそのテキストを、その第１認識テキストと比較して、その入力したテキストのうちその第１認識テキストと相違するテキストである第１誤認識テキストを検出する第１検出部と、音声認識のための前記辞書から、入力したそのテキストに含まれ、かつ、その第１誤認識テキストには含まれない少なくとも１つの語句を除外する第２登録部と、音声データのうちその第１誤認識テキストに対応する部分を再生して生成した音声を、前記第２登録部により語句が除外された辞書を用いて音声認識することで、その音声の内容を認識したテキストである第２認識テキストを生成する第２認識部と、入力したそのテキストに含まれる語句のうち、その第１または第２認識テキストと一致する語句に、前記第１または第２認識部がその語句を認識した音声の再生時間を対応付けて出力する出力部とを備えるシステムを提供する。また、当該システムとしてコンピュータを機能させるプログラムおよび方法を提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。

以下、発明を実施するための最良の形態（実施形態と称す）を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

図１は、本実施形態に係る情報システム１０の全体構成を示す。情報システム１０は、録音装置１２と、データベース１５と、同期システム２０と、表示装置２５とを備える。録音装置１２は、予め定められた入力テキスト１００を話者が読み上げる音声を録音することで、入力音声データ１１０を生成する。データベース１５は、生成されたこの入力音声データ１１０、および、入力テキスト１００を格納する。同期システム２０は、入力テキスト１００および入力音声データ１１０をデータベース１５から取得する。そして、同期システム２０は、入力音声データ１１０の再生に同期して、再生される音声の内容を予め記録した入力テキスト１００を表示させるために、その音声において各語句が発音されるタイミングを推定する。推定結果は編集者に対し表示されてもよいし、編集者からの入力によって変更されてもよい。また、推定の結果はタイムスタンプデータ１０５として入力テキスト１００に対応付けられて、入力音声データ１１０と共に記録媒体５０に記録される。これに代えて、推定の結果は電気通信回線を介して表示装置２５に対し送信されてもよい。

表示装置２５は、記録媒体５０から入力テキスト１００、タイムスタンプデータ１０５および入力音声データ１１０を読み出す。そして、表示装置２５は、入力音声データ１１０の再生に同期して入力テキスト１００を表示する。具体的には、表示装置２５は、再生開始からの経過時間が、タイムスタンプデータ１０５において各語句に対応付けて記録された時間に達する毎に、その時間に対応する語句を、他の語句とは識別可能に表示する。一例として、表示装置２５は、再生中の音声に対応する語句を、他の語句とは異なる色彩で着色して表示してもよい。これにより、語学の学習をしたり、テレビ番組を視聴したりする一般利用者は、いま発音されている語句を画面上で正確に認識できる。
本実施形態に係る情報システム１０は、このような音声データの再生とテキストの表示とを同期させる技術において、これまでの技術では発音タイミングの特定が困難だった語句についても、極めて高精度にその発音タイミングを検出することを目的とする。

図２は、本実施形態に係る入力テキスト１００の具体例を示す。入力テキスト１００は、再生される音声の内容を予め記録したものである。一例として、入力テキスト１００は、英文「ＡＮｅｗＤｒｉｖｉｎｇＲｏａｄＦｏｒＣａｒｓ」を含む文字列である。入力テキスト１００は、この英文のように、語句の区切りが空白で区切られたテキストを記録していてもよい。これに代えて、入力テキスト１００は、日本語、中国語または韓国語などのように、語句の区切りが明記されていない言語の文字列を記録していてもよい。また、語句は一単語でなくともよく、複合語またはフレーズなどのように多数の単語から構成されてもよい。さらには、語句は、例えばハイフンで接続された複数の文字列のうちの一つなどのように、文法上の単語の一部の文字列であってもよい。

図３は、本実施形態に係る入力音声データ１１０の具体例を示す。入力音声データ１１０は、例えば話者の発声を録音したデータである。そしてそのデータは、時間の経過を横軸に表し、音声の振幅を縦軸に表した波形データとして表される。図３には説明のため、この波形データの語句ごとの区切りと、語句を示す文字列とを併せて記載している。しかしながら、入力音声データ１１０は連続的に発音される音声を単に録音したものである。このため、実際にはその発音の各部分が入力テキスト１００中のどの語句に対応するものであるかは、録音時点においては識別できない。

図４は、本実施形態に係るタイムスタンプデータ１０５の具体例を示す。タイムスタンプデータ１０５は、入力テキスト１００に含まれる複数の語句のそれぞれに、その語句が入力音声データ１１０において発音される時間を対応付けたデータである。例えば、タイムスタンプデータ１０５は、各語句が発音される時間として、入力音声データ１１０の再生開始から起算した、その語句の発音の開始時刻および終了時刻を記録している。一例として、入力テキスト１００中の語句「Ｄｒｉｖｉｎｇ」について、その発音の開始時刻は再生開始から１．４秒後であり、その発音の終了時刻は再生開始から１．８秒後である。このように、入力テキスト１００中の各語句についてその発音の開始および終了の時刻が分かれば、表示装置２５は、入力音声データ１１０の再生開始からの経過時間を計測することで、いまどの語句が発音されているかを正確に判別できる。この結果、入力テキスト１００の各語句を着色して表示するなどの、入力音声データ１１０の再生に同期した表示が実現できる。

なお、各語句の開始時刻がその語句の直前の語句の終了時刻と一致する場合には、タイムスタンプデータ１０５は、各語句の発音の開始時刻および終了時刻の一方を記録してもよい。実際には、入力テキスト１００中の語句と語句との間に句読点がある場合には、それらの語句の発音の間にポーズと呼ばれる無音時間を設けることが望ましい。この場合には、各語句の発音の開始時刻はその直前の語句の終了時刻とは一致しない。このような場合に備えて、タイムスタンプデータ１０５は、各語句についてその発音の開始時刻および終了時刻の双方を記録していることが望ましい。

図５は、本実施形態に係る同期システム２０の機能構成を示す。同期システム２０は、入力した入力テキスト１００および入力音声データ１１０に基づいて、入力テキスト１００に含まれる各語句が発音されるタイミングを決定する機能を有している。具体的には、同期システム２０は、第１登録部２００と、基本辞書データベース２０５と、第１辞書データベース２０８と、第１認識部２１０と、第１検出部２２０と、第２登録部２３０と、第２辞書データベース２３５と、第２認識部２４０と、第２検出部２５０と、音声合成部２６０と、比率算出部２７０と、出力部２８０とを有する。基本辞書データベース２０５、第１辞書データベース２０８および第２登録部２３０のそれぞれは、後述のハードディスクドライブ１０４０などの記憶装置によって実現される。その他の各部は、後述のＣＰＵ１０００がプログラムの指令に基づいて動作することによって実現される。

第１登録部２００は、入力テキスト１００を入力し、音声認識のための第１辞書に、その入力テキスト１００に含まれる少なくとも１つの語句を登録する。具体的には、第１登録部２００は、予め音声認識のために準備された辞書を基本辞書データベース２０５から読み出す。この辞書は、各語句をその発音データに対応付けたものである。そして、基本辞書データベース２０５は、その辞書の中から入力テキスト１００に含まれる語句を選択して、その発音データと共に第１辞書として第１辞書データベース２０８に格納する。

基本辞書データベース２０５内の辞書に登録されていない語句（以下、未知語と呼ぶ）が入力テキスト１００に含まれている場合には、第１登録部２００は、その未知語については音声合成の技術によって合成音声を生成し、その未知語の文字列とその合成音声を対応付けて第１辞書に追加する。第１認識部２１０は、入力音声データ１１０を入力し、その入力音声データ１１０を再生して生成した音声を、第１辞書データベース２０８に格納された第１辞書を用いて音声認識することで、その音声の内容を認識したテキストである第１認識テキストを生成する。

音声認識については、様々な技術が研究されているので、その詳細については他の文献を参照されたい。ここでは、その基本アイデアについて簡単に説明すると共に、音声認識を本実施形態においてどのように利用するかについて説明する。音声認識技術の基本的概念において、まず、入力された音声データの各部分が、第１辞書に登録された各語句の音声データと比較される。そして、入力された音声データのある部分が、何れかの語句の音声データと一致した場合に、その部分はその語句を発音したものと判断される。

一致は完全一致のみならず、ある程度の範囲で近似することも含まれる。また、音声データとは必ずしも音声の周波数のデータのみならず、それを抽象化するべく変換されたデータでもよい。さらには、ある語句の認識にはその語句のみならずその前後の文脈が考慮されてもよい。何れにしろ、音声認識技術の適用の結果、入力された音声データの各部分がどの語句を発音するものであるかが分かる。

音声認識技術の目的は認識結果のテキストを出力するものであるところ、音声データのどの部分がどの語句に対応しているかという情報までもが出力される必要は無い。しかしながら、上述のように、そのような情報についても内部の処理過程で生成されている場合が多い。第１認識部２１０は、このような、内部処理過程で用いられる情報に基づいて、各語句が発音される時間を示すタイムスタンプデータを生成し、第２認識部２４０に出力する。このタイムスタンプデータは、即ち、入力テキスト１００に含まれる各語句についての、入力音声データ１１０の再生開始から起算した発音の開始時刻および終了時刻を示す。

なお、第１認識部２１０による音声認識処理は、入力音声データ１１０に含まれる予め定められた単位の音声ごとに行われ、その単位ごとに第１認識テキストが生成されることが望ましい。この予め定められた単位とは、例えば文である。詳細には、第１認識部２１０は、入力音声データ１１０の中から予め定められた基準時間以上連続する無音部分を検出して、その無音部分を境界として入力音声データ１１０を複数の文に分割する。そして、第１認識部２１０は、そのそれぞれの文について上記処理を行う。これにより、ある文についての誤認識の影響が他の文に及ぶことを防ぎ、認識率を高めることができる。
以下に説明する処理は、それぞれの文についての第１認識テキストについて略同一であるから、以降特に断らない限り、これらを代表して１つの第１認識テキストについて説明する。

第１検出部２２０は、入力テキスト１００を入力し、その入力テキスト１００を、第１認識部２１０から入力した第１認識テキストと比較する。そして、第１検出部２２０は、入力テキスト１００のうちその第１認識テキストと相違するテキストである第１誤認識テキストを検出する。即ち、この第１誤認識テキストは、第１認識部２１０により誤認識された部分に対応する、正しい内容のテキストである。第１誤認識テキストは第２登録部２３０、第２認識部２４０および第２検出部２５０に対し出力される。なお、第１検出部２２０は、入力テキスト１００のうちその第１認識テキストと相違するテキストを含む文全体を、第１誤認識テキストとして検出してもよい。更にこの場合、連続する複数の文がそれぞれ誤認識部分を含む場合には、第１検出部２２０は、それら複数の文に対応する入力テキスト１００中の複数の文をまとめて第１誤認識テキストとして検出してもよい。

第２登録部２３０は、音声認識のための第２辞書に、第１誤認識テキストに含まれる少なくとも１つの語句を登録する。具体的にはこの第２辞書は、第１辞書を利用して生成されてもよい。即ち例えば、第２登録部２３０は、第１辞書を第１辞書データベース２０８から読み出して、その読み出した第１辞書から、入力テキスト１００には含まれ、かつ第１誤認識テキストに含まれない少なくとも１つの語句を除外し、第２辞書データベース２３５に格納してもよい。これにより、第１誤認識テキストに含まれ、かつ、基本辞書に含まれる語句については、基本辞書に格納されている音声が対応付けられて、また、第１誤認識テキストに含まれる未知語には、その未知語の合成音声が対応付けられて、第２辞書データベース２３５に格納される。

第２認識部２４０は、入力音声データ１１０のうちその第１誤認識テキストに対応する部分を再生する音声を特定する。具体的には、第２認識部２４０は、第１認識部２１０から受け取ったタイムスタンプデータに基づいて、第１誤認識テキストの直前の語句に対応する音声の終了時刻、および、第１誤認識テキストの直後の語句に対応する音声の開始時刻を選択する。次に、第２認識部２４０は、入力音声データ１１０のうちその終了時刻から開始時刻までの間に発音される音声の音声データを選択する。この音声データが、第１誤認識テキストに対応する部分となる。そして、第２認識部２４０は、この部分を再生した音声を、第２辞書データベース２３５に格納された辞書を用いて音声認識することで、その音声の内容を認識したテキストである第２認識テキストを生成する。

音声認識技術の概要は上述の通りであるから説明を省略する。また、上述の第１認識部２１０の例と同様に、第２認識部２４０は、音声認識の内部処理過程で生成される情報に基づいて、タイムスタンプデータを生成し、第１認識部２１０から受け取ったタイムスタンプデータと共に出力部２８０に対し出力する。第２検出部２５０は、この第２認識テキストと、上述の第１誤認識テキストを比較する。そして、第２検出部２５０は、その第１誤認識テキストのうちその第２認識テキストと相違するテキストである第２誤認識テキストを検出する。第２誤認識テキストは、相違部分のみならずその相違部分を含む文全体であってもよい。

音声合成部２６０は、音声認識技術によっては発音のタイミングが認識できなかったテキストについて、それに含まれる各語句の発音のタイミングを判断する。音声認識技術によっては発音のタイミングが認識できなかったテキストとは、例えば、上述の第２誤認識テキストである。これに代えて、音声合成部２６０は、第２認識部２４０等による処理を経ずに、第１誤認識テキストそれ自体やその少なくとも一部を対象に、語句が発音されるタイミングを検出してよい。以降、第２誤認識テキストを処理の対象とする例について説明する。

まず、音声合成部２６０は、その第２誤認識テキストを入力し、その入力した第２誤認識テキストを読み上げる合成音声を生成する。音声合成についても、様々な技術が研究されているので、その詳細については他の文献を参照されたい。ここでは、その基本アイデアについて簡単に説明すると共に、音声合成を本実施形態においてどのように利用するかについて説明する。

音声合成技術の基本的概念として、まず、入力されたテキストの各部分が、予め音声合成用の辞書に登録された文字列と比較される。この辞書は、語句の文字列とその音声データを対応付けたものである。そして、入力されたテキストのある語句が、何れかの語句についてその辞書に登録された文字列に一致した場合に、その語句はその文字列に対応する音声データにより発音されると判断される。このようにして、入力されたテキストの各語句に対応する音声データを辞書から検索することで、そのテキストの合成音声が生成される。

一致は完全一致のみならず、ある程度の範囲で近似することも含まれる。また、ある語句についての合成音声の生成にはその語句のみならずその前後の文脈が考慮されてもよい。何れにしろ、音声合成技術の適用の結果、入力されたテキストに含まれる各語句をどのように発音するべきかがわかる。

音声合成技術は、合成音声の生成を目的とすることから、各語句について検索された音声データが連結されて出力されればよい。但し、上述のように、音声合成の内部処理の過程では、各語句にはその合成発音を示す音声データが対応付けられている。本実施形態に係る音声合成部２６０は、このような内部処理の過程で得られる、各語句に対応付けられた音声データを、比率算出部２７０に対し出力する。この音声データに基づいて、比率算出部２７０は、その合成音声において第２誤認識テキストに含まれる複数の語句のそれぞれが発音される時間の比率を算出して、その算出結果を第２誤認識テキストと共に出力部２８０に出力する。

出力部２８０は、第２誤認識テキストに含まれる複数の語句のそれぞれに、算出したその比率に応じて、入力音声データ１１０のうちその第２誤認識テキストに対応する部分を再生する時間の一部をそれぞれ対応付けて、出力する。第２誤認識テキストが複数の場合には、そのそれぞれについてこの処理を行う。また、出力部２８０は、第１認識部２１０および第２認識部２４０により生成されたタイムスタンプデータのうち、誤認識部分を除いたテキストについてのタイムスタンプデータを更に出力する。このタイムスタンプデータは、即ち、入力テキスト１００に含まれる語句のうち、第１または第２認識テキストと一致する語句に、第１認識部２１０および第２認識部２４０がその語句を認識した音声の再生時間を対応付けたものとなる。このようにして出力されるデータをまとめてタイムスタンプデータ１０５とする。また、出力部２８０は、これに加えて、入力音声データ１１０自体および入力テキスト１００自体を更に出力してよい。

図６は、本実施形態に係る同期システム２０がタイムスタンプデータ１０５を生成する処理のフローチャートである。同期システム２０は、まず、入力テキスト１００および入力音声データ１１０を入力する（Ｓ６００）。同期システム２０は、入力した入力テキスト１００に対し、以降の処理を可能とするための前処理を行ってもよい。例えば、入力テキスト１００が、語句の区切りが明示されていない言語で記述されている場合には、同期システム２０は、入力テキスト１００に対し形態素解析を行って、語句の区切りを検出する。また、同期システム２０は、入力テキスト１００が複数の文を含む場合には、グラマー登録と呼ばれる、入力テキスト１００を文ごとに分割して一時的に記憶装置に格納する処理を行ってもよい。さらには、同期システム２０は、読まれない文字（無音文字）を入力テキスト１００から削除してもよいし、入力テキスト１００中の数値を表す文字に対し所定の変換を行ってもよい。

次に、第１認識部２１０は、第１の認識処理を行う（Ｓ６１０）。この処理により、入力音声データ１１０が音声認識されて、その認識結果である第１認識テキストが入力テキスト１００と比較される。この第１認識テキストに誤認識部分が含まれる場合、即ち、入力テキスト１００のうちこの第１認識テキストと相違する第１誤認識テキストが検出された場合には（Ｓ６２０：ＹＥＳ）、第２認識部２４０は、第２の認識処理を行う（Ｓ６３０）。この処理により、第１誤認識テキストに対応する音声が音声認識されて、その認識結果である第２認識テキストがこの第１誤認識テキストと比較される。

この第２認識テキストに誤認識部分が含まれる場合、即ち、第１誤認識テキストのうちこの第２認識テキストと相違する第２誤認識テキストが検出された場合には（Ｓ６４０：ＹＥＳ）、音声合成部２６０および比率算出部２７０は、音声合成技術を利用した推定処理を行う（Ｓ６５０）。そして出力部２８０は、第１認識部２１０による認識結果、第２認識部２４０による認識結果、並びに、音声合成部２６０および比率算出部２７０による推定結果を組み合わせてタイムスタンプデータ１０５を生成し、出力する（Ｓ６６０）。このタイムスタンプデータ１０５は、入力音声データ１１０が再生される時間を、比率算出部２７０が算出した比率で分割した各時間の、開始時刻および終了時刻の少なくとも一方を、その時間に発音される語句に対応付けたデータとなる。

図７は、Ｓ６１０における処理の詳細を示す。第１登録部２００は、入力テキスト１００を入力し、音声認識のための第１辞書に、その入力テキスト１００に含まれる少なくとも１つの語句を登録する（Ｓ７００）。この処理は、入力テキスト１００が複数の文を含む場合であっても入力テキスト１００全体を対象として行われる。即ち、第１登録部２００は、入力テキスト１００に含まれる各語句に対応する音声データを基本辞書データベース２０５から読み出すと共に、入力テキスト１００に含まれる未知語に対応する合成音声の音声データを音声合成により生成する。そして、第１登録部２００は、生成したこれらの音声データを第１辞書データベース２０８に格納する。

次に、第１認識部２１０は、入力した入力音声データ１１０を再生して生成した音声を、第１辞書データベース２０８に格納された第１辞書を用いて音声認識することで、その音声の内容を認識したテキストである第１認識テキストを生成する（Ｓ７１０）。この処理の過程で、第１認識部２１０は、認識したそれぞれの語句が入力音声データ１１０において再生される時間を示すタイムスタンプデータを生成する。これらの処理は、入力音声データ１１０に含まれる文ごとに行われる。そして、第１検出部２２０は、入力した入力テキスト１００を、第１認識部２１０から入力したそれぞれの第１認識テキストと比較する（Ｓ７２０）。第１検出部２２０は、各第１認識テキストについて、入力テキスト１００のうちその第１認識テキストと相違するテキストである第１誤認識テキストを検出する。

図８は、Ｓ６３０における処理の詳細を示す。同期システム２０は、それぞれの第１誤認識テキストについて以下の処理を行う。まず、第２登録部２３０は、音声認識のための第２辞書に、当該第１誤認識テキストに含まれる少なくとも１つの語句を登録する（Ｓ８００）。具体的には、第２登録部２３０は、第１誤認識テキストに含まれ、かつ、基本辞書に含まれる語句については、基本辞書からそれに対応する音声データを選択し、第１誤認識テキストに含まれる未知語については、その未知語の合成音声の音声データを生成して、第２辞書データベース２３５に格納する。

次に、第２認識部２４０は、その第１誤認識テキストに対応する部分を再生する音声を、第２辞書データベース２３５に格納された辞書を用いて音声認識することで、その音声の内容を認識したテキストである第２認識テキストを生成する（Ｓ８１０）。次に、第２検出部２５０は、この第２認識テキストと、上述の第１誤認識テキストを比較する（Ｓ８２０）。そして、第２検出部２５０は、その第１誤認識テキストのうちその第２認識テキストと相違するテキストである第２誤認識テキストを検出する。

後に第２誤認識テキストを音声合成する処理において、音声合成の精度を向上させるべく、好ましくは、第２検出部２５０は、その第１誤認識テキストのうち第２認識テキストと相違するテキストを含む、予め定められた単位の文字列を、第２誤認識テキストとして検出してもよい。この予め定められ単位の文字列は、例えば、文法上の「文」である。音声合成は各語句単独ではなく文単位で文脈を考慮して処理されることが多いので、このようにすることで音声合成の精度を向上できる。

図９は、Ｓ６５０における処理の詳細を示す。音声合成部２６０は、誤認識されたテキストを少なくとも含むテキスト、例えば、上記の第２誤認識テキストを選択する（Ｓ９００）。そして、音声合成部２６０は、その選択した第２誤認識テキストを読み上げる合成音声を生成する（Ｓ９１０）。この音声合成の過程で、音声合成部２６０は、入力テキスト１００に含まれる各語句が、合成音声のどの部分に対応するかを示すデータを生成する。

そして、比率算出部２７０は、このデータに基づき、その生成した合成音声において、その第２誤認識テキストのうち、第２認識テキストとは相違している複数の語句のそれぞれが発音される時間の比率を算出する（Ｓ９２０）。即ち、音声合成は誤認識部分を含む文全体について行うが、発音される時間の比率については誤認識された複数の語句のみについて行う。そして、出力部２８０は、これら複数の語句のそれぞれに、算出したその比率に応じて、入力音声データ１１０のうちその複数の語句に対応する部分を再生する時間の一部をそれぞれ対応付ける（Ｓ９３０）。図１０のこの処理の概要を示す。

図１０は、算出した比率に基づき再生時間を対応付ける処理（Ｓ９３０）の概略を示す。この図１０の例において、「ＡＮｅｗＤｒｉｖｉｎｇＲｏａｄＦｏｒＣａｒｓ」というテキストの読み上げ音声を図上部に示す。この読み上げ音声のうち、「ＤｒｉｖｉｎｇＲｏａｄ」に対応する部分が音声認識処理によって誤認識されている。したがって、「ＤｒｉｖｉｎｇＲｏａｄ」という文字列全体についてはその再生時間が前後の語句の認識結果に基づき判明しているものの、「Ｄｒｉｖｉｎｇ」という語句と「Ｒｏａｄ」という語句がそれぞれどのような時間で再生されるかは分からない。

これに対し、音声合成部２６０は、誤認識された「ＤｒｉｖｉｎｇＲｏａｄ」という文字列を少なくとも含むテキストを音声合成して、合成音声を生成する。この合成音声を図下部に示す。比率算出部２７０は、この合成音声において、「Ｄｒｉｖｉｎｇ」が発音される時間、および、「Ｒｏａｄ」が発音される時間の比率を、３：７と算出する。以上より、出力部２８０は、入力音声データ１１０において、「ＤｒｉｖｉｎｇＲｏａｄ」全体を再生する時間を、その比率である３：７の比率で、「Ｄｒｉｖｉｎｇ」を再生する時間、および、「Ｒｏａｄ」を再生する時間にそれぞれ対応付けて出力する。なお、比率算出部２７０は、算出されたこの比率をそのまま再生時間の比率としなくともよく、算出されたこの比率に応じるものであれば、この比率に所定の重み付けをして再生時間の比率としてもよい。

図９に戻る。そして、出力部２８０は、このような対応付けを示すデータに、第１認識部２１０および第２認識部２４０により生成されたタイムスタンプデータのうち、誤認識部分を除いたテキストについてのタイムスタンプデータを加えることで、入力テキスト１００全体に対応するタイムスタンプデータを生成する（Ｓ９４０）。

以上、図１から図１０を参照して説明したように、本実施形態に係る同期システム２０によれば、同一の音声データについて複数回の音声認識を行うことで、より多くの語句についてその発音タイミングを正しく検出することができる。特に、初めの音声認識で認識できなかった音声に含まれる語句を後の音声認識のための辞書に登録することで、後の音声認識処理をその音声の認識に特化させて、認識精度を向上させることができる。さらには、複数回の音声認識によっても正しく認識できなかった語句については、音声合成技術を用いて、発音タイミングを高精度で推定できる。

この推定の処理は、以下の効果をもたらす。第１に、音声合成によって各語句が発音された時間は、その実時間ではなく、その時間の比率が推定結果として利用される。したがって、合成音声が全体として入力音声データ１１０の再生と比較してゆっくりと再生される場合など、利用する音声合成技術が汎用のものであって入力音声データ１１０と全く関係ない場合であっても、発音タイミングを高精度で推定できる。これにより、音声認識エンジンおよび音声合成エンジンの双方を準備することができれば、広く様々な言語について、発音タイミングの高精度な推定を実現することができる。

また、音声認識処理では発音タイミングを検出できない語句が生じ得るのに対し、音声合成を利用すれば全ての語句についてその発音タイミングを決定付けることができる。この結果、発音タイミングが不明な部分が無いので、幅広い分野に対し応用が可能となる。図１１にその一例を示す。

図１１は、本実施形態に係る同期システム２０または表示装置２５が、タイムスタンプデータに基づいて表示する画面の例を示す。同期システム２０は、例えば発音タイミングの編集者に対し、その編集結果を明示するために、入力テキスト１００を入力音声データ１１０に同期して表示する。また、表示装置２５は、例えば一般利用者に対し、入力音声データ１１０の内容を理解し易くするために、入力テキスト１００を入力音声データ１１０の再生に同期して表示する。

ここでは、同期システム２０または表示装置２５が表示する処理を代表して、同期システム２０の出力部２８０がその画面を表示するものとして説明をすすめる。出力部２８０は、入力テキスト１００を画面に表示する。入力テキスト１００は、例えば語学学習用のソフトウェアにより生成されるテキストであってもよいし、その他一般のウェブページであってもよい。それと共に、出力部２８０は、入力音声データ１１０を再生して音声を順次出力する。

また、出力部２８０は、入力音声データ１１０の再生開始からの経過時間を計測する。そして、出力部２８０は、その経過時間に対応する語句をタイムスタンプデータ１０５から検索する。例えば、図４の例を用いれば、経過時間が１．５秒のとき、その時間を開始時刻から終了時刻までの間に含む語句「Ｄｒｉｖｉｎｇ」が検索される。そして、出力部２８０は、検索したその語句を、他の語句とは識別可能に表示する。図１１の例では具体的には、検索したその語句以前に発音された語句と、検索したその語句以降の語句とが異なる色で着色されて表示される。

検索したその語句自体については、その語句の発音の進行に応じて、左側の文字から順に、検索したその語句以前に発音された語句と同一の色で着色される。この着色の例に代えて、出力部２８０は、検索したその語句の字体を変更してもよいし、検索したその語句の文字を画面上で動かして表示してもよい。

これに加えて、同期システム２０の出力部２８０は、発音タイミングの編集者に対し、入力テキスト１００に含まれる各語句に互いに異なるアンダーラインを付して表示してもよい。たとえば一重下線は、それを付した語句が、第１認識部２１０によって正しく認識されたこと、即ち何れの誤認識テキストにも含まれないことを示す。また、２重下線は、それを付した語句が、第２認識部２４０によって正しく認識されたこと、即ち第１誤認識テキストには含まれるが第２誤認識テキストには含まれないことを示す。また、波線は、それを付した語句が、音声合成部２６０によって発音タイミングが推定されたこと、即ち第２誤認識テキストに含まれることを示す。

このように、認識結果を区別可能に表示することで、編集者は、各語句の発音タイミングがどのように決定付けられたかを把握して、その後の編集作業に利用できる。たとえば、第１認識部２１０によって正しく認識された語句についてはその発音タイミングの信頼性が極めて高いものと把握することができる。

図１２は、本実施形態に係る同期システム２０として機能するコンピュータのハードウェア構成の一例を示す。同期システム２０は、ホストコントローラ１０８２により相互に接続されるＣＰＵ１０００、ＲＡＭ１０２０、及びグラフィックコントローラ１０７５を有するＣＰＵ周辺部と、入出力コントローラ１０８４によりホストコントローラ１０８２に接続される通信インターフェイス１０３０、ハードディスクドライブ１０４０、及びＣＤ−ＲＯＭドライブ１０６０を有する入出力部と、入出力コントローラ１０８４に接続されるＲＯＭ１０１０、フレキシブルディスクドライブ１０５０、及び入出力チップ１０７０を有するレガシー入出力部とを備える。

ホストコントローラ１０８２は、ＲＡＭ１０２０と、高い転送レートでＲＡＭ１０２０をアクセスするＣＰＵ１０００及びグラフィックコントローラ１０７５とを接続する。ＣＰＵ１０００は、ＲＯＭ１０１０及びＲＡＭ１０２０に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ１０７５は、ＣＰＵ１０００等がＲＡＭ１０２０内に設けたフレームバッファ上に生成する画像データを取得し、表示装置１０８０上に表示させる。これに代えて、グラフィックコントローラ１０７５は、ＣＰＵ１０００等が生成する画像データを格納するフレームバッファを、内部に含んでもよい。

入出力コントローラ１０８４は、ホストコントローラ１０８２と、比較的高速な入出力装置である通信インターフェイス１０３０、ハードディスクドライブ１０４０、及びＣＤ−ＲＯＭドライブ１０６０を接続する。通信インターフェイス１０３０は、ネットワークを介して外部の装置と通信する。ハードディスクドライブ１０４０は、同期システム２０が使用するプログラム及びデータを格納する。ＣＤ−ＲＯＭドライブ１０６０は、ＣＤ−ＲＯＭ１０９５からプログラム又はデータを読み取り、ＲＡＭ１０２０又はハードディスクドライブ１０４０に提供する。

また、入出力コントローラ１０８４には、ＲＯＭ１０１０と、フレキシブルディスクドライブ１０５０や入出力チップ１０７０等の比較的低速な入出力装置とが接続される。ＲＯＭ１０１０は、同期システム２０の起動時にＣＰＵ１０００が実行するブートプログラムや、同期システム２０のハードウェアに依存するプログラム等を格納する。フレキシブルディスクドライブ１０５０は、フレキシブルディスク１０９０からプログラム又はデータを読み取り、入出力チップ１０７０を介してＲＡＭ１０２０またはハードディスクドライブ１０４０に提供する。入出力チップ１０７０は、フレキシブルディスク１０９０や、例えばパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して各種の入出力装置を接続する。

同期システム２０に提供されるプログラムは、フレキシブルディスク１０９０、ＣＤ−ＲＯＭ１０９５、又はＩＣカード等の記録媒体に格納されて利用者によって提供される。プログラムは、入出力チップ１０７０及び/又は入出力コントローラ１０８４を介して、記録媒体から読み出され同期システム２０にインストールされて実行される。プログラムが同期システム２０等に働きかけて行わせる動作は、図１から図１１において説明した同期システム２０における動作と同一であるから、説明を省略する。

以上に示したプログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク１０９０、ＣＤ−ＲＯＭ１０９５の他に、ＤＶＤやＰＤ等の光学記録媒体、ＭＤ等の光磁気記録媒体、テープ媒体、ＩＣカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はＲＡＭ等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムを同期システム２０に提供してもよい。
なお、本実施の形態に係る表示装置２５のハードウェア構成も、図１２に示す同期システム２０のハードウェア構成と略同一であるから説明を省略する。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

図１は、本実施形態に係る情報システム１０の全体構成を示す。図２は、本実施形態に係る入力テキスト１００の具体例を示す。図３は、本実施形態に係る入力音声データ１１０の具体例を示す。図４は、本実施形態に係るタイムスタンプデータ１０５の具体例を示す。図５は、本実施形態に係る同期システム２０の機能構成を示す。図６は、本実施形態に係る同期システム２０がタイムスタンプデータ１０５を生成する処理のフローチャートである。図７は、Ｓ６１０における処理の詳細を示す。図８は、Ｓ６３０における処理の詳細を示す。図９は、Ｓ６５０における処理の詳細を示す。図１０は、算出した比率に基づき再生時間を対応付ける処理（Ｓ９３０）の概略を示す。図１１は、本実施形態に係る同期システム２０または表示装置２５が、タイムスタンプデータに基づいて表示する画面の例を示す。図１２は、本実施形態に係る同期システム２０として機能するコンピュータのハードウェア構成の一例を示す。

符号の説明

１０情報システム
１２録音装置
１５データベース
２０同期システム
２５表示装置
５０記録媒体
１００入力テキスト
１０５タイムスタンプデータ
１１０入力音声データ
２００第１登録部
２０５基本辞書データベース
２０８第１辞書データベース
２１０第１認識部
２２０第１検出部
２３０第２登録部
２３５第２辞書データベース
２４０第２認識部
２５０第２検出部
２６０音声合成部
２７０比率算出部
２８０出力部

Claims

音声データの再生に同期して、再生される音声の内容を記録したテキストを表示させるために、その音声において各語句が発音されるタイミングを推定するシステムであって、
再生される音声の内容を予め記録したテキストを入力し、音声認識のための辞書に、その入力したテキストに含まれる少なくとも１つの語句を登録する第１登録部と、
前記音声データを再生して生成した音声を、前記第１登録部により語句が登録されたその辞書を用いて音声認識することで、その音声の内容を認識したテキストである第１認識テキストを生成する第１認識部と、
再生される音声の内容を予め記録したテキストを入力し、その第１認識テキストと比較して、その入力したテキストのうちその第１認識テキストと相違するテキストである第１誤認識テキストを検出する第１検出部と、
その第１誤認識テキストの少なくとも一部のテキストを入力し、その入力したテキストを読み上げる合成音声を生成する音声合成部と、
生成したその合成音声において、その入力したテキストに含まれる複数の語句のそれぞれが発音される時間の比率を算出する比率算出部と、
それらの複数の語句のそれぞれに、算出したその比率に応じて、その音声データのうちその入力したテキストに対応する部分を再生する時間の一部をそれぞれ対応付けて、その対応付けを示すデータを出力する出力部と
を備え、
音声認識のための辞書に、前記第１誤認識テキストに含まれる少なくとも１つの語句を登録する第２登録部と、
前記音声データのうちその第１誤認識テキストに対応する部分を再生して生成した音声を、前記第２登録部により語句が登録された辞書を用いて音声認識することで、その音声の内容を認識したテキストである第２認識テキストを生成する第２認識部と、
その第１誤認識テキストをその第２認識テキストと比較して、その第１誤認識テキストのうちその第２認識テキストと相違するテキストである第２誤認識テキストを検出する第２検出部と
を更に備え、
前記音声合成部は、その第２誤認識テキストを入力して、その入力した第２誤認識テキストを読み上げる合成音声を生成し、
前記比率算出部は、生成したその合成音声において、その第２誤認識テキストに含まれる複数の語句のそれぞれが発音される時間の比率を算出し、
前記出力部は、その複数の語句のそれぞれに、算出したその比率に応じて、その音声データのうちその第２誤認識テキストに対応する部分を再生する時間の一部をそれぞれ対応付けて、その対応付けを示すデータを出力するシステム。
前記第２登録部は、前記第１誤認識テキストに含まれる少なくとも１つの語句に、その語句を音声合成した合成音声を対応付けて、音声認識のための辞書に登録する
請求項１に記載のシステム。
前記第２検出部は、前記第１誤認識テキストを前記第２認識テキストと比較して、その第１誤認識テキストのうちその第２認識テキストと相違するテキストを含む、予め定められた単位の文字列を、前記第２誤認識テキストとして検出し、
前記比率算出部は、その第２誤認識テキストについて生成した合成音声において、その第２誤認識テキストに含まれる語句のうち、その第２認識テキストとは相違している複数の語句のそれぞれが発音される時間の比率を算出し、
前記出力部は、その複数の語句のそれぞれに、算出したその比率に応じて、音声データのうちその複数の語句に対応する部分を再生する時間の一部をそれぞれ対応付けて出力する
請求項１に記載のシステム。
前記第２検出部が前記第２誤認識テキストとして検出する、前記予め定められた単位は、文である、請求項３に記載のシステム。
前記出力部は、前記音声データが再生される時間を、前記比率算出部が算出した比率で分割して、分割した各時間の開始時刻および終了時刻の少なくとも一方を、入力したテキストに含まれる複数の語句のそれぞれに対応付けたデータを生成し、出力する、請求項１に記載のシステム。
前記出力部は、さらに、前記音声データを再生して音声を順次出力すると共に、再生開始からの経過時間を計測し、その経過時間に対応する語句を他の語句とは識別可能に表示する、請求項１に記載のシステム。
前記出力部は、再生される音声の内容を予め記録したテキストに含まれる各語句を、その語句が、前記第２誤認識テキストに含まれるか、その第２誤認識テキストには含まれず前記第１誤認識テキストに含まれるか、または、それらの何れの誤認識テキストにも含まれないかを、識別可能に表示する、請求項１に記載のシステム。
再生される音声の内容を予め記録したテキストを入力し、音声認識のための辞書に、その入力したテキストに含まれる少なくとも１つの語句を登録する第１登録部と、
音声データを再生して生成した音声を、前記第１登録部により語句が登録されたその辞書を用いて音声認識することで、その音声の内容を認識したテキストである第１認識テキストを生成する第１認識部と、
入力したそのテキストを、その第１認識テキストと比較して、その入力したテキストのうちその第１認識テキストと相違するテキストである第１誤認識テキストを検出する第１検出部と、
音声認識のための前記辞書から、入力したそのテキストに含まれ、かつ、その第１誤認識テキストには含まれない少なくとも１つの語句を除外する第２登録部と、
その音声データのうちその第１誤認識テキストに対応する部分を再生して生成した音声を、前記第２登録部により語句が除外された辞書を用いて音声認識することで、その音声の内容を認識したテキストである第２認識テキストを生成する第２認識部と、
入力したそのテキストに含まれる語句のうち、その第１または第２認識テキストと一致する語句に、前記第１または第２認識部がその語句を認識した音声の再生時間を対応付けて出力する出力部と
を備えるシステム。
音声データの再生に同期して、再生される音声の内容を記録したテキストを表示させるために、その音声において各語句が発音されるタイミングをコンピュータにより推定する方法であって、
前記コンピュータにより、再生される音声の内容を予め記録したテキストを入力し、音声認識のための辞書に、その入力したテキストに含まれる少なくとも１つの語句を登録するステップと、
前記コンピュータにより、前記音声データを再生して生成した音声を、語句が登録されたその辞書を用いて音声認識することで、その音声の内容を認識したテキストである第１認識テキストを生成するステップと、
前記コンピュータにより、再生される音声の内容を予め記録したテキストを入力し、その第１認識テキストと比較して、その入力したテキストのうちその第１認識テキストと相違するテキストである第１誤認識テキストを検出するステップと、
前記コンピュータにより、その第１誤認識テキストの少なくとも一部のテキストを入力し、その入力したテキストを読み上げる合成音声を生成するステップと、
前記コンピュータにより、生成したその合成音声において、その入力したテキストに含まれる複数の語句のそれぞれが発音される時間の比率を算出するステップと、
前記コンピュータにより、それらの複数の語句のそれぞれに、算出したその比率に応じて、その音声データのうちその入力したテキストに対応する部分を再生する時間の一部をそれぞれ対応付けて、その対応付けを示すデータを出力するステップと
を備え、
前記コンピュータにより、音声認識のための辞書に、前記第１誤認識テキストに含まれる少なくとも１つの更なる語句を登録するステップと、
前記コンピュータにより、前記音声データのうちその第１誤認識テキストに対応する部分を再生して生成した音声を、更なる語句が登録された辞書を用いて音声認識することで、その音声の内容を認識したテキストである第２認識テキストを生成するステップと、
前記コンピュータにより、その第１誤認識テキストをその第２認識テキストと比較して、その第１誤認識テキストのうちその第２認識テキストと相違するテキストである第２誤認識テキストを検出するステップと、
前記コンピュータにより、その第２誤認識テキストを入力して、その入力した第２誤認識テキストを読み上げる合成音声を生成するステップと、
前記コンピュータにより、生成したその合成音声において、その第２誤認識テキストに含まれる複数の語句のそれぞれが発音される時間の比率を算出するステップと、
前記コンピュータにより、その複数の語句のそれぞれに、算出したその比率に応じて、その音声データのうちその第２誤認識テキストに対応する部分を再生する時間の一部をそれぞれ対応付けて、その対応付けを示すデータを出力するステップと
を更に備える方法。
コンピュータにより、再生される音声の内容を予め記録したテキストを入力し、音声認識のための辞書に、その入力したテキストに含まれる少なくとも１つの語句を登録するステップと、
前記コンピュータにより、音声データを再生して生成した音声を、前記登録することにおいて語句が登録されたその辞書を用いて音声認識することで、その音声の内容を認識したテキストである第１認識テキストを生成するステップと、
前記コンピュータにより、入力したそのテキストを、その第１認識テキストと比較して、その入力したテキストのうちその第１認識テキストと相違するテキストである第１誤認識テキストを検出するステップと、
前記コンピュータにより、音声認識のための前記辞書から、入力したそのテキストに含まれ、かつ、その第１誤認識テキストには含まれない少なくとも１つの語句を除外するステップと、
前記コンピュータにより、その音声データのうちその第１誤認識テキストに対応する部分を再生して生成した音声を、前記除外することによって語句が除外された辞書を用いて音声認識することで、その音声の内容を認識したテキストである第２認識テキストを生成するステップと、
前記コンピュータにより、入力したそのテキストに含まれる語句のうち、その第１または第２認識テキストと一致する語句に、前記第１または第２認識部がその語句を認識した音声の再生時間を対応付けて出力するステップと
を備える方法。
音声データの再生に同期して、再生される音声の内容を記録したテキストを表示させるために、その音声において各語句が発音されるタイミングを推定するシステムとして、コンピュータを機能させるプログラムであって、
前記コンピュータを、
再生される音声の内容を予め記録したテキストを入力し、音声認識のための辞書に、その入力したテキストに含まれる少なくとも１つの語句を登録する第１登録部と、
前記音声データを再生して生成した音声を、前記第１登録部により語句が登録されたその辞書を用いて音声認識することで、その音声の内容を認識したテキストである第１認識テキストを生成する第１認識部と、
再生される音声の内容を予め記録したテキストを入力し、その第１認識テキストと比較して、その入力したテキストのうちその第１認識テキストと相違するテキストである第１誤認識テキストを検出する第１検出部と、
その第１誤認識テキストの少なくとも一部のテキストを入力し、その入力したテキストを読み上げる合成音声を生成する音声合成部と、
生成したその合成音声において、その入力したテキストに含まれる複数の語句のそれぞれが発音される時間の比率を算出する比率算出部と、
それらの複数の語句のそれぞれに、算出したその比率に応じて、その音声データのうちその入力したテキストに対応する部分を再生する時間の一部をそれぞれ対応付けて、その対応付けを示すデータを出力する出力部
として機能させ、
更に、前記コンピュータを、
音声認識のための辞書に、前記第１誤認識テキストに含まれる少なくとも１つの語句を登録する第２登録部と、
前記音声データのうちその第１誤認識テキストに対応する部分を再生して生成した音声を、前記第２登録部により語句が登録された辞書を用いて音声認識することで、その音声の内容を認識したテキストである第２認識テキストを生成する第２認識部と、
その第１誤認識テキストをその第２認識テキストと比較して、その第１誤認識テキストのうちその第２認識テキストと相違するテキストである第２誤認識テキストを検出する第２検出部
として機能させ、
前記音声合成部は、その第２誤認識テキストを入力して、その入力した第２誤認識テキストを読み上げる合成音声を生成し、
前記比率算出部は、生成したその合成音声において、その第２誤認識テキストに含まれる複数の語句のそれぞれが発音される時間の比率を算出し、
前記出力部は、その複数の語句のそれぞれに、算出したその比率に応じて、その音声データのうちその第２誤認識テキストに対応する部分を再生する時間の一部をそれぞれ対応付けて、その対応付けを示すデータを出力するプログラム。
コンピュータを、
再生される音声の内容を予め記録したテキストを入力し、音声認識のための辞書に、その入力したテキストに含まれる少なくとも１つの語句を登録する第１登録部と、
音声データを再生して生成した音声を、前記第１登録部により語句が登録されたその辞書を用いて音声認識することで、その音声の内容を認識したテキストである第１認識テキストを生成する第１認識部と、
入力したそのテキストを、その第１認識テキストと比較して、その入力したテキストのうちその第１認識テキストと相違するテキストである第１誤認識テキストを検出する第１検出部と、
音声認識のための前記辞書から、入力したそのテキストに含まれ、かつ、その第１誤認識テキストには含まれない少なくとも１つの語句を除外する第２登録部と、
その音声データのうちその第１誤認識テキストに対応する部分を再生して生成した音声を、前記第２登録部により語句が除外された辞書を用いて音声認識することで、その音声の内容を認識したテキストである第２認識テキストを生成する第２認識部と、
入力したそのテキストに含まれる語句のうち、その第１または第２認識テキストと一致する語句に、前記第１または第２認識部がその語句を認識した音声の再生時間を対応付けて出力する出力部
として機能させるプログラム。