以下、本発明の実施の形態を図面を参照して説明する。
図1は、実施の形態に適用される発明の概念図である。
本発明にかかる音声再生装置1は、音声データを記録する音声データ記憶手段1a、編集済音声データを記録する編集音声データ記憶手段1b、及びランク情報を記憶するランク情報記憶手段1cの記憶手段と、音声データの区切り点を設定する区切り点設定手段1d、音声データの再生速度を調整する編集を行う音声データ編集手段1e、音声を再生する音声再生制御手段1f、及びランクを調整するランク調整手段1gの処理手段と、を有し、作業者の処理速度に合わせて音声データの再生速度を調整することができる。
なお、ここでは、音声の再生速度は、単位時間当たりに再生される音声数であるとする。したがって、音声と音声の間が長い場合も、短い間隔で連続的に発生する音声の後に無音区間が挿入される場合も、単位時間当たりの音声数が同じであれば、再生速度は同じと解釈する。また、処理速度は、単位時間当たりに作業者が所定の作業で処理した音声数であるとする。たとえば、書き起こし作業であれば、単位時間当たりに作業者が打鍵できる音声数を処理速度とする。なお、聞き直しなどの操作が行われなければ、再生時間内に処理が終了しているので、再生された音声数と、処理された音声数とは同じになる。そこで、本願発明では、再生された音声数を処理した音声数と見なす。上記の書き起こし作業の場合であれば、再生された音声数と打鍵された音声数とは同じと見なす。このように、作業の処理速度を音声数で計測することにより、音声の再生速度との比較が容易になるという利点がある。
各手段について説明する。
音声データ記憶手段1aには、再生対象の音声が電子的な音声データに変換されて記憶されている。音声データは、自装置が録音したものであっても、他装置が録音したものであってもよい。
編集音声データ記憶手段1bには、音声データ編集手段1eによって編集が施された編集済音声データが記憶される。編集済音声データは、元の音声データに対し、作業者が聞き取りやすいように、理解しやすい点で区切られ、再生速度を調整するための適当な無音部を付加する編集が施されている。
ランク情報記憶手段1cには、少なくとも現在設定されている設定ランクが記憶されている。ランクは、音声データの1音声当たりに付加する無音時間に対応付けられるとともに、再生された音声を聞いて作業を行う作業者の処理速度に応じてランクの値が設定される。ランク値と、付加する無音時間との対応付けは、予めランクテーブルなどに設定される。たとえば、ランク値が大きくなるに従って、1発声音当たりに追加する無音時間が長くなるように対応付けたランクテーブルが用意される。
区切り点設定手段1dは、音声データ記憶手段1aに記憶されている音声データを読み出し、作業者が理解しやすい箇所に区切り点を設定する。そして、区切り点で区切られる区間の音声データを抽出し、音声データ編集手段1eへ出力する。以下、区切り点と区切り点の間を区間と呼び、その区間の音声データを区間音声データと呼ぶ。区間音声データは、編集音声データ記憶手段1bに記憶させて音声データ編集手段1eに引き渡してもよい。音声データを区切る区切り点は、たとえば、音声データの有音部分が終了した箇所や、有音部分が一定時間経過したときなどに設定される。ただし、このように機械的に区切り点を設定するのでは、区切り点が作業者にとって聞き取りやすい箇所に設定されたのかどうかはわからない。そこで、次回処理対象の音声データよりも先の(時間的に後で再生される)音声データを先読みし、読み出した音声データを解析して適当な区切り点を設定することもできる。たとえば、読み出した音声データを解析し、音声データに文章の終わりが含まれていないかを検索する。「〜です」「〜ます」などの音声が検索対象になる。このように、文の終わりなどの論理的な区切りを区間音声データのための区切り点とすることにより、作業者の作業はやりやすくなるという利点がある。なお、文の終わりの判断は、検索された音声の前後の音声や、その後に無音があるか、などによって判断する。音声の波形データなどから、音声が意味する語や、無音であるかなどを検出する方法については公知であるので、ここではそのいずれかを用いて行うとし、詳細な説明は省略する。また、録音された元の音声データには、話が途切れるなどして、無音部分が長すぎるものもある。無音部分が長すぎるときには、その間作業者の処理が停止されてしまい、効率が悪くなる。そこで、無音状態が所定の期間を超えて継続するときは、この無音部分を削除し、無音部分の前の有音部分が再生された後、続けて無音部分の次の有音部分が再生されるようにしてもよい。
音声データ編集手段1eは、区間音声データを入力し、ランク情報記憶手段1cに記憶される現在の設定ランクに基づいて区間音声データに付加する無音部を算出する。そして、算出された無音部を区間音声データに付加する編集を施し、再生速度を調整する。生成された編集済音声データは、編集音声データ記憶手段1bに記憶する。ランクは、音声データの1音声当たりに付加する無音時間に対応付けられており、設定ランクから導出される無音時間と、区間音声データの音声数とから、区間音声データに付加する無音部を算出する。なお、区間音声データの音声数の算出は、区切り点設定手段1d、あるいは、音声データ編集手段1eのいずれで行ってもよい。
音声再生制御手段1fは、編集音声データ記憶手段1bに格納される編集済音声データを読み出して再生する。再生指示が入力されると、区間ごとに生成される編集音声データを順次読み出して音声に再生する。また、再生途中に、再生の中断や聞き直しを指示する再生指示が入力されたときは、再生指示に従って編集済音声データの再生を制御する。「中断」が入力されたときは、編集済音声データの再生を一時停止させる。そして、「再開」が指示されれば、中断した時点からの再生を再開する。また、「聞き直し」が指示されたときは、再生中の区間の編集音声データの最初まで戻り、再生を行う。
ランク調整手段1gは、音声再生制御手段1fによって編集済音声データが再生された時間を計測し、計測された再生時間と、再生された編集済音声データの音声数と、に基づき、作業者の処理速度を算出する。上記のように作業者の処理速度は、単位時間当たりに再生された音声数と定義されるので、
作業者の処理速度 = 再生された音声数/再生時間 ・・・(1)
によって算出する。なお、式(1)で用いる「再生された音声数」は、再生対象の編集済音声データそのものに含まれる音声数とする。すなわち、聞き直しが行われると、編集済音声データが何度か再生されるので実際に再生される音声数は増加するが、「再生された音声数」としてカウントされるのは、編集済音声データを1回再生したときの音声数になる。したがって、中断も聞き直しも指示されないとき、処理速度の値が最も大きくなり(この状態を処理速度が速いとする)、中断や聞き直しが指示されるごとに値は小さくなる(この状態を処理速度が遅いとする)。ランク調整手段1gでは、算出された処理速度に基づいて、設定されているランクを評価し、作業者に適した値となるように調整を行う。たとえば、処理速度が速いときは、設定ランクを上げ(設定ランクをより再生速度の速いランクに更新する)、処理速度が著しく遅いときは、設定ランクを下げる(設定ランクをより再生速度の遅いランクにする)ように調整を行う。
このような構成の音声再生装置1の動作について説明する。
再生対象の音声データは、音声データ記憶手段1aに記憶されている。また、ランク情報記憶手段1cには、初期化処理で設定された設定ランクが記憶されている。
区切り設定手段1dは、音声データ記憶手段1aの音声データに所定の区切り点を設定し、区切り点で区切られる区間の音声データを抽出し、区間音声データとして音声データ編集手段1eへ出力する。区切り点は、作業者が聞き取りやすいように、論理的な区切りが検索されて設定される。音声データ編集手段1eは、ランク情報記憶手段1cに記憶される設定ランクを読み出し、区間音声データの音声数と、ランクに対応付けられた1音声当たりに付加する無音時間とに基づいて無音部の時間を算出する。そして、区間音声データに無音部を付加する編集を行って再生時間を調整する。編集された区間音声データは、編集済音声データとして編集音声データ記憶手段1bへ格納する。音声再生制御手段1fは、編集済音声データを再生する。このとき、聞き直しなどの再生指示が入力されたときには、指示に従って再生制御が行われる。ランク調整手段1gは、再生された編集済音声データの再生時間を計測し、再生時間と、編集済音声データの音声数とから、作業者の処理速度を算出する。処理速度が速いときは、再生時間が短くなるように設定ランクを上げ、処理速度が遅いときは、再生時間が長くなるように設定ランクを下げる。こうして、ランク調整が行われ、調整された設定ランクに基づいて、次の区間音声データが再生される。
以上のように、本発明によれば、作業者の処理速度を計測し、計測された処理速度に応じて音声データの再生速度を調整する。これにより、作業者の状態に合わせて音声データの再生速度を最適に保つことが可能となり、中断や聞き直しの回数を削減し、作業の効率を上げることができる。
以下、実施の形態として、音声再生装置を書き起こし作業に適用した場合を例に図面を参照して詳細に説明する。
ここで、音声再生装置のハードウェア構成について説明する。図2は、本実施の形態の音声再生装置のハードウェア構成例を示すブロック図である。
音声再生装置10は、CPU(Central Processing Unit)11によって装置全体が制御されている。CPU11には、バス18を介してRAM(Random Access Memory)12、ハードディスクドライブ(HDD:Hard Disk Drive)13、グラフィック処理装置14、入力インタフェース15、音声処理部16、及び計時部17が接続されている。RAM12には、CPU11に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM12には、CPU11による処理に必要な各種データが格納される。HDD13には、OSやアプリケーションのプログラムが格納される。グラフィック処理装置14には、モニタ23が接続されており、CPU11からの命令に従って画像をモニタ23の画面に表示させる。入力インタフェース15には、キーボード22が接続されており、キーボード22から送られてくる信号を、バス18を介してCPU11に送信する。音声処理部16は、スピーカ21に接続しており、CPU11からの命令にしたがって音声データをスピーカ21に出力する。計時部17は、時刻、または、ある時点からの経過時間を計時する時計機能を備える。計測した時間は、バス18を解してCPU11に送信する。
このようなハードウェア構成によって、本実施の形態の処理機能を実現することができる。なお、図2には、音声再生装置10が入力インタフェース15を具備し、キーボード22からの入力を処理するとしたが、キーボード22からの入力信号の処理は、他の装置で行う構成とすることもできる。
図3は、音声再生装置のソフトウェア構成例を示す機能ブロック図である。
音声再生装置10は、音声データDB(データベース)111、編集音声データバッファ112、ランク情報記憶部113、及びテキストデータDB114の記憶手段と、区切り点設定部120、音声データ編集部130、音声再生制御部140、打鍵速度計測部150、ランク調整部160、及びテキスト変換部170の処理手段と、を有する。
音声データDB111は、音声データを格納する音声データ記憶手段である。編集音声データバッファ112は、無音部が付加された編集音声データを記憶する編集音声データ記憶手段である。ランク情報記憶部113は、ランク情報を記憶するランク情報記憶手段である。テキストデータDB114は、再生された音声データを文字情報に変換したテキストデータを記憶する記憶手段である。
区切り点設定部120は、音声データ先読み手段121、論理区切り点設定手段122、及び区間音声データ抽出手段123を有する。音声データ先読み手段121は、音声データを先読みし、読み出した音声データの声波形を解析する。そして、無声部分があれば、その部分を読み飛ばす。たとえば、50音声を先読みすることとし、9音声が検出された後、10分間の無声部分があったとする。この場合、10分間の無声部分を飛ばして、次に検出された40音声を抽出する。論理区切り点設定手段122は、音声データを解析して語を識別し、論理的に区切ることのできる箇所、たとえば、文章の終わりを検出する。具体的には、次の音声が出てくる間隔が長いところや、「〜ます」「〜です」などを検索する。こうして検索された文の区切りと判別できる箇所に区切り点を設定する。区間音声データ抽出手段123は、音声データ先読み手段121が検出した無声部分を音声データから削除し、論理区切り点設定手段122が設定した論理区切り点で区切られる区間の区間音声データを抽出する。これにより、論理的に区切られた有音部のみで構成される区間音声データが生成される。
音声データ編集部130は、無音部算出手段131及び無音部付加手段132を有する。無音部算出手段131は、ランク情報記憶部113に記憶される現在の設定ランクと、区切り点設定部120が区切った区間音声データの音声数とを取得し、当該区間音声データに付加する無音部を算出する。無音部は、音声数と、当該ランクに対応する無音時間とを乗算することにより算出できる。無音部付加手段132は、算出された無音部を区間音声データの後ろに付加し、音声再生制御部140へ出力する。
ここで、無音部について説明する。音声におけるひとつの発音、(たとえば、「あ」、「か」など)を発音する時間は発声者によってほぼ一定であり、所定の時間に発声できる発声音声数もほぼ一定になる。一方、ある時間内(たとえば、10分程度)における打鍵者の打鍵可能音声数もほぼ一定であると考えられる。このように、発生者による発声音声数と、打鍵者による打鍵可能音声数とが、ほぼ一定であるとき、打鍵の速度が音声の速度に追いつくためには、その時間差を埋める無音部を音声データに付加すればよいことになる。たとえば、5秒間に発声者が平均10音声を発声し、打鍵者は7音声打鍵できるとする。この場合、音声データに3音声分打鍵する時間を付加すれば、打鍵者の打鍵が音声に追いつくことになる。以上から、必要な無音時間は、
必要無音時間 = 打鍵に必要な時間 − 発声に必要な時間 ・・・(2)
によって算出することができる。ここで、打鍵に必要な時間は、1音声当たりの平均打鍵時間×発声数で算出できる。同様に、発声に必要な時間は、1音声当たりの平均発声時間×発声数で算出できる。ランクに対応付けられる1音声当たりの無音時間は、1音声当たりの必要無音時間になる。なお、打鍵に必要な時間は、母音、子音による打鍵キー数の違いや、漢字カナ変換のための変換キー操作の有無などによってキー操作数に若干差異が生じるが、ある程度の間隔では平均化されるため、一様に処理することができる。
音声再生制御部140は、音声再生手段141及び指示受付手段142を有する。音声再生手段141は、編集音声データバッファ112に順次蓄積される編集済音声データ(区間音声データ+無音部)に基づき音声を再生し、スピーカ21から出力する。指示受付手段142は、外部から中断や聞き直しなどの再生指示が入力されると、その指示に従って音声再生手段141を制御する。聞き直しが指示されれば、指示時点で再生を中断し、当該編集済音声データの最初から再生を行わせる。
打鍵速度計測部150は、音声数計測手段151、再生時間計測手段152、及び打鍵速度算出手段153を有する。音声数計測手段151は、再生される編集済音声データに含まれる音声数を計測する。これは、打鍵される打鍵音声数に相当する。また、音声数は、区切り点設定部120が区間音声データを抽出したときに計測し、その計測データを取得するとしてもよい。途中、聞き直しが行われても、再度流れる音声はカウントしない。再生時間計測手段152は、音声再生制御部140が区切り点で区切られる区間の編集済音声データの再生に費やしたすべての時間を含む。たとえば、音声再生制御部140より区間の開始通知を受け、次の区間の開始通知までにかかる時間を計測する。途中に中断や、聞き直しが行われた場合は、中断時間や聞き直しに要した時間を含む再生時間が計測される。打鍵速度算出手段153は、計測された打鍵音声数と、再生時間とに基づき、単位時間あたりの打鍵音声数を算出する。打鍵速度は、式(1)により算出することができる。
ランク調整部160は、初期ランク設定手段161及び途中ランク更新手段162を有する。初期ランク設定手段161は、処理が開始されてから所定の期間に測定された作業者の打鍵速度に応じたランクを設定する。途中ランク更新手段162は、初期ランクが設定された後、処理ごとに、もしくは、一定間隔ごとに、測定された作業者の打鍵速度に応じてランクを更新する。初期設定時に設定されたランクが最適であっても、時間の経過とともに作業者の打鍵速度は変化する。そこで、作業の途中の任意のタイミングでランクを更新する。
ここで、ランク設定について説明する。式(1)に示したように、処理速度(打鍵速度)は再生時間が短くなると速くなり、再生時間が長くなるほど遅くなる。最も短い再生時間は、中断や聞き直しが行われずにキー入力が終了した時間になる。中断が長くなったり、聞き直しが何回も行われたりすると、それに応じて再生時間が長くなり、打鍵速度は低下する。そこで、打鍵速度に基づいて、ランクの調整が行われる。たとえば、打鍵速度が低下するのは、聞き直しなどが行われているときで、現在の設定ランクの再生速度に打鍵者の打鍵が追いついていないことを意味する。そこで、再生速度が低下する(無音時間が長くなる)ようにランクを調整する。また、音声データの再生速度に打鍵が追いついているときは、打鍵速度は最大となる。そこで、打鍵速度が最大を継続するようなときは、音声の再生速度が増す(無音時間が短くなる)ようにランクを調整する。ランクの調整は、毎処理ごと、あるいは、一定時間以上打鍵速度が最大を継続するときなど、条件が満たされたときに行う。
テキスト変換部170は、再生された音声データを聞きながら、その内容を文字にするために作業者が操作するキーボード22より入力される入力信号をテキストデータに変換し、テキストデータDB114に格納する。
このようなソフトウェア構成によって、本実施の形態の処理機能を実現することができる。なお、各処理手段は、コンピュータが、音声再生プログラムを実行することにより、その処理機能を実現する。
次に、各記憶部に格納される情報について説明する。
音声データDB111に格納される音声データは、話者の音声を録音した電子的な音声データである。音声がそのまま録音された音声データであり、長時間に渡る無音時間が含まれている場合もある。
編集音声データバッファ112に格納される編集済音声データは、上記音声データを所定の区切り点で区切った区間音声データに対し、打鍵者の打鍵速度に応じた無音時間を付加する編集が施されている。
ランク情報記憶部113には、ランクと無音時間とを対応付けたランクテーブル、初期ランク設定手段161で参照される初期ランク設定情報、及び途中ランク更新手段162で参照される途中ランク設定情報が格納される。
図4は、ランクテーブルの一例を示した図である。
ランクテーブル310は、ランク311と、1発声音当たりの追加無音時間(秒)312とが対応付けられている。ランクの値が小さいほど、付加される無音時間が短くなり、音声の再生速度が速くなる。したがって、打鍵の速い人向きの設定である。ランクの値が大きくなるにつれて、付加される無音時間が長くなる。
図の例では、ランクは1から8の8段階が設定されている。最も再生速度が速いのはランク1で、追加される無音時間は、1発声音当たり0秒である。すなわち、ランク1では、無音時間が追加されない状態で再生される。最も再生速度が遅いのはランク8で、追加される無音時間は、1発声音当たり0.35秒である。ランク8では、たとえば、10音声につき、3.5秒の無音時間が追加される。
図5は、初期ランク設定処理において参照されるランク情報を示した図である。
初期化ランク設定処理では、ランク初期最適値321、初期打鍵速度322、及びランク調整情報323の各ランク情報を参照して処理が行われる。
ランク初期最適値321は、打鍵開始とともに開始される初期化ランク設定処理において選択される最適なランクを格納する領域である。ランク1からランク8までのいずれかのランク値が設定される。
初期打鍵速度322は、初期化ランク設定処理において計測された、それぞれのランクが設定されたときの打鍵速度が格納される。初期化ランク設定処理においては、ランク初期最適値を得るために、いくつかのランクが仮に設定され、そのランクにおける打鍵速度が計測される。初期打鍵速度322には、そのとき計測された打鍵速度が格納される。
ランク調整情報323は、初期化ランク設定処理において、最適なランクを探索するために使用する領域であり、仮に設定される仮ランクが一時保存される。ランク引き上げ情報は、仮ランクを引き上げて打鍵速度を計測するときに使用される。ランク引き下げ情報は、ランクを引き下げて打鍵速度を計測するときに使用される。
図6は、途中ランク更新処理において参照されるランク情報を示した図である。
途中ランク更新処理では、作業途中ランク情報330に格納されるランク情報331と、打鍵速度情報332とを参照して処理が行われる。
ランク情報331は、今回設定される今回のランク、前回設定された前回のランク、その前に設定された前々回のランクが格納される。打鍵速度情報332は、ランク情報331に対応付けられ、それぞれのランクにおいて計測された打鍵速度が格納される。たとえば、ランク情報331の「今回のランク」に対応する打鍵速度は、打鍵速度情報332に、「今回の打鍵速度」に格納される。
次に、上記の構成の音声再生装置の動作及び音声再生方法について説明する。以下の説明では、テキストデータへの変換処理についての説明を省略する。
図7は、音声再生装置における処理手順を示したフローチャートである。
対象の音声データが指定され、音声再生が指示されて処理が開始される。
[ステップS01] 処理が開始されると、まず、ランクテーブル310が読み出される。以降の処理では、読み出したランクテーブル310に基づいてランクの調整と、音声データに付加する無音時間の調整が行われる。
[ステップS02] 音声データ先読み手段121は、対象の音声データを音声データDB1211から読み込む。このとき、読み出した音声データを解析し、声波形に基づいて所定の数の音声を先読みする。読み込み時に、無音声部分が検出されれば、これを削除して有音部分まで読み飛ばす。これは、音声が途切れた場合に、打鍵者に不要な音声待ちをさせないための処理である。
[ステップS03] ステップS02における先読みを行って、最後まで検索しても音声データが検出されなかったかどうかを判断する。検出されないときは、音声データ終了と判断して処理を終了する。検出されたときは、ステップS04へ処理を進める。
[ステップS04] 論理区切り点設定手段122は、打鍵者が聞きやすいように、論理的に区切れる部分に区切り点を設定する。たとえば、次の音声が検出されるまでの無音時間が長い箇所や、音声解析を行って文の終わりと判断できる部分を検索し、検索された箇所を区切り点とする。そして、区間音声データ抽出手段123は、区切り点で区切られた区間の区間音声データを抽出する。
[ステップS05] ランクの初期設定が終了したかどうかを判定する。たとえば、初期化終了フラグが設定されたかどうかを判定する。初期設定が終了していれば、処理をステップS07へ進める。終了していなければ、処理をステップS06へ進める。
[ステップS06] ランクの初期設定が終了していないとき、初期ランク設定手段161は、初期ランク設定処理を行う。初期ランク設定処理では、音声打鍵処理が開始されたときの打鍵者の打鍵速度に最適なランクを設定する。詳細は後述する。終了後、処理をステップS08へ進める。
[ステップS07] ランクの初期設定が終了しているとき、途中ランク更新手段162は、途中ランク設定処理を行う。途中ランク設定処理では、時間経過とともに打鍵者の打鍵速度に変化が生じるので、その変化に合わせてランク設定を調整する。詳細は後述する。
[ステップS08] ステップS04で抽出された区間音声データに、設定ランクに基づく無音部を付加する音声データ編集処理を行う。無音部算出手段131は、ランクテーブル310から設定ランクに対応付けられる追加無音時間を読み出し、区間音声データの音声数と乗算して無音部を算出する。無音部付加手段132は、算出された無音部を区間音声データに付加して、編集済音声データを生成する。こうして生成された編集済音声データには、再生される編集済音声データを打鍵するために必要十分な時間が確保されている。
[ステップS09] 音声再生手段141は、ステップS08で生成された編集済音声データを再生する。再生される音声の後ろには、音声速度と打鍵速度との差を埋めるための無音時間が流れる。編集済音声データが再生されると同時に、打鍵者によって音声の内容を打鍵する処理が開始される。このとき、音声の再生速度に打鍵が追いつかないときは、打鍵者によって中断や聞き直しを指示する操作が行われる。指示受付手段142は、指示が入力されたときは、指示に応じて再生の中断や、この区間の編集済音声データを最初から再生する。
[ステップS10] 打鍵速度測定のため、音声数計測手段151は、編集済音声データの音声数を計測し、再生時間計測手段152は、再生にかかった時間を計測する。そして、打鍵速度算出手段153は、音声数と計測時間とに基づき、単位時間あたりの処理音声数を算出する。これが、打鍵速度になる。打鍵速度は、中断や聞き直しが行われると、低下する。算出された打鍵速度を作業途中ランク情報330または初期打鍵速度322に格納し、ステップS02に戻って、次の音声データに対する読み込み処理を行う。
以上の処理手順が実行されることにより、作業者の打鍵速度に応じてランクが動的に調整され、そのときの作業者の状態に最も適した再生速度で音声データを再生させることができる。
次に、具体例を用いて音声再生装置の動作を説明する。図8は、音声再生装置の処理によって順次生成される情報を示した図である。
処理の開始前までには、音声データDB111に、対象の音声データが格納される。図の例では、音声データ「おはようございます ほんじつはとうしゃのしょうひんを・・・」401が格納されている。なお、語と語の間のスペースは、話者の音声が途切れた無音時間を表す。
区切り点設定部120では、音声データDB111に格納される音声データ401を読み出して、区切り点を設定し、区間音声データを抽出する。ここでは、音声解析と無声部分の検索から、文の終わりの「〜ます」が検出され、最初の1文の区間音声データ「おはようございます」402が抽出されている。
次に、区間音声データにランクに応じた無音部を設定する編集処理が行われる。無音部は、設定されているランクに対応する1音声当たりの無音時間と、区間音声データの音声数とを乗算して算出する。図の例では、算出された無音部は、2文字分の音声の発音時間に相当する。そこで、区間音声データとして抽出された有音部(おはようございます)に、算出された無音部(2文字分)を付加する編集が行われ、編集済音声データ「おはようございます○○」403が生成される。マル(○)は、無音部の1文字分を表している。無音部が追加されることにより、有音部の再生時間と、作業者の打鍵時間との差が埋まる。区間音声データに無音部が付加された編集済音声データ「おはようございます○○」403は、編集音声データバッファ112に格納される。
編集音声データバッファ112に格納された編集済音声データ「おはようございます○○」403が再生されると、「おはようございます」の音声の後に、2文字分に相当する無音時間が発生する。この間に、作業者は、キーボードを操作し、「おはようございます」に相当するキーを打鍵する。入力された信号は、テキスト変換され、テキストデータ「お早うございます。」404が生成される。生成されたテキストデータ「お早うございます。」404は、テキストデータDB114に格納される。
上記の処理が繰り返されることにより、音声データが順次テキストデータに変換される。編集済音声データ403の再生時間は、無音部が追加されることにより、編集済音声データ403の打鍵に必要十分な時間となるように調整されている。したがって、作業者の打鍵速度が安定していれば、再生時間内に作業者の打鍵は完了し、音声再生の中断や聞き直しをすることなく、作業を行うことが可能となり、作業効率を向上させることができる。
この作業効率を最大にするためには、作業者の打鍵速度に対してランクが最適に設定される必要がある。このため、打鍵処理開始時に作業者の打鍵速度を計測し、最適なランクを設定する必要がある。さらに、作業者の打鍵速度は、経過時間とともに変化するので、所定のタイミングでランクの調整を行うことが望ましい。
ここで、打鍵速度の測定処理について説明する。図9は、打鍵速度測定部による打鍵速度測定処理を説明する図である。図の例では、有音部分も無音部分も1音声分を1秒として表記している。
(A)パターン1は、有音部(9文字分)に無音部(3文字分)が付加された編集済音声データを中断も聞き直しも行わずに打鍵が終了した場合である。
この場合の開始時刻は、10:05:30で、有音部の9秒(9文字分)と、無音部の3秒(3文字分)との合計12秒が経過した10:05:42に再生が終了している。打鍵速度計測部15では、再生時間(ここでは、12秒)を打鍵時間と見なし、打鍵速度を算出する。パターン1の打鍵速度は、
音声数(9文字)/再生時間(12秒)=0.75(文字/秒)
になる。
(B)パターン2は、有音部(9文字分)に無音部(2文字分)が付加された編集済音声データを中断も聞き直しも行わずに打鍵が終了した場合である。設定ランクは、パターン1の場合よりも高い(再生速度が速い)。
この場合の開始時刻は、10:05:30で、有音部の9秒(9文字分)と、無音部の2秒(2文字分)との合計11秒が経過した10:05:41に再生が終了している。パターン1と同様にして、パターン2の打鍵速度を算出すると、
音声数(9文字)/再生時間(11秒)=0.82(文字/秒)
になる。
(C)パターン3は、有音部(9文字分)に無音部(2文字分)が付加された編集済音声データを、途中で1回聞き直し操作を行って打鍵が終了した場合である。設定ランクはパターン2と同じであるが、再生速度が速いため、再生時間内に打鍵ができなかった。
この場合の開始時刻は、10:05:30で、有音部を6秒(6文字分)再生した時点で、聞き直し操作が行われている。聞き直し操作に30秒を要し、その後、最初に戻って有音部の9秒(9文字分)と、無音部の2秒(2文字分)と、が再生される。この場合は、最初の有音部再生の9秒、聞き直し操作の30秒、及び聞き直し後の有音部(9秒)と無音部(2秒)との11秒を合算した、合計47秒が経過した10:06:07に再生が終了したとする。パターン1と同様にして、パターン3の打鍵速度を算出すると、
音声数(9文字)/再生時間(47秒)=0.19(文字/秒)
になる。
このように、再生時間を打鍵時間と見なし、再生時間を計測することにより打鍵速度を算出する。これにより、たとえば、打鍵が終了したことを検出するための信号をキー入力部から受け取ることなく、音声再生部だけで打鍵時間を計測することができる。
次に、ランク調整処理について説明する。図7に示したように、ランク設定には、初期化時に実行される初期ランク設定処理(ステップS06)と、作業途中でランクを更新する途中ランク設定処理(ステップS07)がある。
最初に、第1の実施の形態のランク調整処理について説明する。第1の実施の形態では、標準ランクから最適ランク判定を行う初期ランク設定処理と、初期ランク設定終了後、処理ごとにランク調整を行う途中ランク設定処理とを行う。
作業者が打鍵処理を開始した時点では、作業者の能力は不明である。そこで、ランクテーブルに規定されるランクのうち、標準的なランクから打鍵速度の計測を開始し、最適なランクを決定する。このとき使用される音声データは、処理対象の音声データを用いることとする。単位時間当たりの打鍵音声数で算出される打鍵速度によってランクごとの評価を行うので、予め決められたテストデータを用意して比較を行う必要がなく、無駄な作業を省くことができる。なお、以下の説明では、処理はランクテーブル310を用いて行うとし、標準ランクはランク4(以下、R4と表記する)であるとする。
図10は、第1の実施の形態の初期ランク設定処理の手順を示したフローチャートである。初期段階における最適なランクが設定されるまで、区間音声データが読み出されるごとに処理が開始される。
[ステップS101] 読み出された区間音声データが、処理が開始されてから1〜3回目の読み出しによるものであるかどうかを判断する。1〜3回目であれば、処理をステップS102へ進め、それ以外であれば、処理をステップS103へ進める。
[ステップS102] 1〜3回目に読み出された区間音声データが対象であれば、それぞれの計測対象の仮ランクを設定する。最適なランクを判定するためには、隣接するランクの打鍵速度を計測して比較する必要がある。そこで、1〜3回目であれば、標準ランクR4を中心として、その上のR5(R4よりも無音時間が1段階長い)と、その下のR3(R4よりも無音時間が1段階短い)との打鍵速度を計測する。ここでは、1回目はR4、2回目はR5、3回目はR3、を計測ランクとして設定する。また、中心のR4をランク調整情報323の仮ランクに登録しておく。そして、計測された打鍵速度が、初期打鍵速度322の該当箇所に格納されるように格納アドレスを指示し、処理を終了する。
[ステップS103] 1〜3回目に読み出された区間音声データが対象でなければ、少なくとも3段階のランクの打鍵速度の計測値を得られているので、初期設定する初期ランクを判定する。どのランクが中心となるかは、ランク調整情報323に基づいて判断する。そして、中心となるランクと、その上下のランク値の打鍵速度とを読み出し、最も速い打鍵速度を選択する。中心となるランクの打鍵速度が最も速いときは、そのランクが最適と判断する。それ以外のランクの打鍵速度が速いときは、さらに、上、または下のランクの打鍵速度を計測する必要がある。たとえば、1〜3回目の打鍵速度計測が終了した時点では、初期打鍵速度322のR3,R4,R5に打鍵速度が登録されている。そこで、R3,R4,R5の打鍵速度を比較する。中心となるR4が最も速ければ、R4が最適ランクとなる。R3が最も速ければ、さらに下のランクが最適となる可能性もあるので、下のランクの打鍵速度を計測する必要がある。同様に、R5が最も速ければ、さらに上のランクの打鍵速度を計測する必要がある。
[ステップS104] ステップS103による初期ランク判定で、最適なランクが決定されたかどうかを判定する。中心のランクの処理速度が最も速いときのみ最適なランクが決定されていると判定される。ランクが決定されていれば、処理をステップS105へ進め、未決定であれば、処理をステップS106へ進める。
[ステップS105] 中心のランクの処理速度が最も速いと判定され、さらなる計測が必要ない場合、この中心のランクをランク初期最適値に設定し、処理を終了する。終了時には、初期化終了フラグをセットする。
[ステップS106] さらに、打鍵速度を計測する必要があるとき、ステップS103で最速と判定されたランクが、中心のランクより上であるか下であるかを判定する。上の場合にはランクを引き上げて打鍵速度を計測する必要があり、下の場合にはランクを引き下げて打鍵速度を計測する必要がある。ランクを引き下げるときは、処理をステップS107へ進め、ランクを引き上げるときは処理をステップS110へ進める。
[ステップS107] ランクを引き下げる必要があるとき、現在の打鍵速度が計測されている最も小さいランク値が最小であるかどうかを判定する。この場合、最も小さいランク値はR1になる。最小であれば、処理をステップS108へ進め、最小でなければ、処理をステップS109へ進める。
[ステップS108] ランクの引き下げが必要で、かつ、現在のランクが最小のときは、ランク初期最適値を最小のR1に設定し、処理を終了する。
[ステップS109] ランクの引き下げが必要で、かつ、現在の仮ランクが最小でないときは、ランク調整情報323のランク引き下げ情報に登録されている仮ランクmを1段階下げ、仮ランクに設定する。そして、さらに1段階小さいランクを計測ランクに設定し、処理を終了する。これにより、新たに設定された仮ランクm−1を中心として、打鍵速度が得られ、仮ランクm−1の評価を行うことができるようになる。
[ステップS110] ランクを引き上げる必要があるとき、現在の打鍵速度が計測されている最も大きいランク値が最大であるかどうかを判定する。この場合、最も大きいランク値はR8になる。最大であれば処理をステップS111へ進め、最大でなければ処理をステップS112へ進める。
[ステップS111] ランクの引き上げが必要で、かつ、現在の仮ランクが最大のときは、ランク初期最適値を最大のR8に設定し、処理を終了する。
[ステップS112] ランクの引き上げが必要で、かつ、現在のランクが最大でないときは、ランク調整情報323のランク引き上げ情報に登録されている仮ランクnを1段階上げ、仮ランクに設定する。そして、さらに1段階上のランクを計測ランクに設定し、処理を終了する。これにより、新たに設定された仮ランクn−1を中心として、打鍵速度が得られ、仮ランクn−1の評価を行うことができるようになる。
以上の処理手順が実行されることにより、処理開始後の作業者の状態に最適な再生速度に対応するランクがランク初期最適値に設定される。
しかし、作業者の状態は同じではないので、作業途中でランクを調整する必要がある。
図11は、第1の実施の形態の途中ランク設定処理の手順を示したフローチャートである。上記の初期ランク設定処理が終了し、ランク初期最適値が設定された後、区間音声データが読み出されるごとに処理が開始される。
[ステップS201] 作業途中ランク情報330を更新する。ランク情報331の前回のランクを前々回のランクに、今回のランクを前回のランクに格納する。同様に、打鍵速度情報332の前回の打鍵速度を前々回の打鍵速度に、今回の打鍵速度を前回の打鍵速度に格納する。なお、初期ランク設定処理終了時点では、今回のランクにはランク初期最適値が、今回の打鍵速度には、ランク初期最適値に対応する初期打鍵速度が格納されている。
[ステップS202] 打鍵速度情報332に格納される前々回打鍵速度と、前回打鍵速度とを読み出して比較する。
[ステップS203] 比較の結果、前回打鍵速度の方が、前々回打鍵速度より大きいかどうかを判定する。大きいときは、処理をステップS204へ進め、大きくないときは処理をステップS205へ進める。
[ステップS204] 前回打鍵速度が前々回打鍵速度より大きいときは、今回のランクを前回のランクより1段階下にする。すなわち、無音時間を短くし、再生速度を速くし、処理を終了する。前回打鍵速度が前々回打鍵速度より大きいときは、作業者の打鍵速度が速くなっていると判断されるので、より速い再生速度が選択されるようにランク調整を行う。
[ステップS205] 前回打鍵速度が前々回打鍵速度より大きくないときは、前回打鍵速度と前々回打鍵速度とが同じであるかどうかを判定する。同じときは、処理をステップS206へ進め、同じでないときは、処理をステップS207へ進める。
[ステップS206] 前回打鍵速度と前々回打鍵速度とが同じときは、今回のランクを前回のランクより1段階下にする。すなわち、無音時間を短くし、再生速度を速くし、処理を終了する。前回打鍵速度が前々回打鍵速度と同じであれば、作業者の打鍵速度は再生速度に十分対応しているので、再生速度を速くしても対応できる可能性がある。そこで、より速い再生速度が選択されるランク調整を行う。なお、必要であれば、打鍵速度を保持している期間が一定時間を超えたときなどの条件をさらに付加し、ランクを下げる判断を行うようにしてもよい。
[ステップS207] 前回打鍵速度が前々回打鍵速度より小さいときは、今回のランクを前回のランクより1段階上にする。すなわち、無音時間を長くし、再生速度を遅くし、処理を終了する。前回打鍵速度が前々回打鍵速度より小さいときは、作業者の打鍵速度が再生速度に追いつかないと判断されるので、再生速度を下げるようにランク調整を行う。
以上のように、前回と前々回の打鍵速度に応じて、ランク調整を行って、音声の再生速度を調整する。これにより、作業者の状態が変化し、打鍵速度が速くなったり遅くなったりしても、これに合わせて再生速度が調整される。このように、常に最適な再生速度で作業を行うことが可能となる。
なお、上記の説明では、初期ランク設定と、作業途中でのランク設定に用いるランクテーブルを共通としたが、それぞれにランクテーブルを用意してもよい。たとえば、作業途中では、再生速度の変化がより穏やかになるようにランクテーブルを設定する。
また、実際の処理では、算出される打鍵速度は、再生される音声によって多少揺らぎが生じる。そこで、判定基準に幅を持たせるようにしてもよい。
次に、第2の実施の形態のランク調整処理について説明する。第1の実施の形態では、初期ランク設定処理を標準のランクから最適ランクを調べるとしたが、第2の実施の形態では、最小のランクから最適ランクを調べる。また、第1の実施の形態では、1回の処理で打鍵速度を求めていたが、第2の実施の形態では、同一ランクについて複数回分の打鍵速度を算出する。ここでは、同一ランクで5回測定を行うとする。
図12は、第2の実施の形態の初期ランク設定処理の手順を示したフローチャートである。初期段階における最適なランクが設定されるまで、区間音声データが読み出されるごとに処理が開始される。
[ステップS301] 読み出された区間音声データが、処理が開始されてから1回目の読み出しによるものであるかどうかを判断する。1回目であれば、処理をステップS302へ進め、それ以外であれば、処理をステップS303へ進める。
[ステップS302] 1回目に読み出された区間音声データが対象であれば、それぞれの計測対象の仮ランクを最小(再生速度が最も速い)のR1に設定する。さらに、測定カウンタを0に初期化し、処理を終了する。第2の実施の形態では、同一ランクについて5回分の打鍵速度を測定し、最適なランクの判定を行う。
[ステップS303] 1回目に読み出された区間音声データが対象でなければ、測定カウンタを読み出し、カウントの値が5以上であるかどうかを判定する。5以上であれば、処理をステップS305へ進め、5に満たなければ処理をステップS304へ進める。
[ステップS304] 測定カウンタの値が5に満たない場合は、打鍵速度の測定が必要回数(5回)行われていない。そこで、測定カウンタを1カウントアップするとともに、5つの打鍵速度を格納できる領域を格納アドレスに指定し、処理を終了する。これにより、同一ランクで5回分の打鍵速度が測定される。
[ステップS305] 測定カウンタの値が5を超える場合は、打鍵速度の測定が必要回数(5回)行われているので、測定された打鍵速度を比較する。
[ステップS306] 測定された打鍵速度が基準の範囲内であるかどうかを判定する。打鍵速度は、再生音声データの違いなどによって、多少差が出る。しかし、5回計測を行って、そのうち所定の基準を超えて遅い打鍵速度が検出されたときは、打鍵速度が生成速度に追いつかず、聞き直しなどの操作がされたと判断される。すべて基準内であれば、処理をステップS307へ進め、基準を超えるものがあれば、処理をステップS308へ進める。
[ステップS307] すべての打鍵速度が基準内であると判定されたときは、このとき設定される仮ランクをランク初期最適値に設定し、処理を終了する。終了時には、初期化終了フラグをセットする。
[ステップS308] 基準を超える打鍵速度が検出されたときは、再生速度が打鍵速度に比べて速いと判断し、仮ランクRnを1段階上のR(n+1)に設定する。さらに、測定カウンタをリセットし、処理を終了する。
以上の処理手順が実行されることにより、処理開始後の作業者の状態に最適な再生速度に対応するランクがランク初期最適値に設定される。このように、最も速い再生速度から順にランクを試し、再生時間内に打鍵処理が終了したランクを最適ランクとすることにより、作業効率を最大とするランクを設定することができる。また、同一ランクで複数回の計測を行うことにより、安定的なランク設定が可能となる。
次に、第3の実施の形態のランク調整処理について説明する。第3の実施の形態では、途中ランク設定処理においてランクを上げる(再生速度を遅くする)タイミングを、聞き直しなどの指示が出されたと思われる場合に限定する。図9に示したように、聞き直しなどの再生指示が途中で発生すると、打鍵速度は著しく低下する。そこで、このように打鍵速度が著しく低下したときを検出したときのみ、ランクを上げる。
図13は、第3の実施の形態の途中ランク設定処理の手順を示したフローチャートである。初期ランク設定処理が終了し、ランク初期最適値が設定された後、区間音声データが読み出されるごとに処理が開始される。
[ステップS401] 作業途中ランク情報330を更新する。ランク情報331の前回のランクを前々回のランクに、今回のランクを前回のランクに格納する。同様に、打鍵速度情報332の前回の打鍵速度を前々回の打鍵速度に、今回の打鍵速度を前回の打鍵速度に格納する。なお、初期ランク設定処理終了時点では、今回のランクにはランク初期最適値が、今回の打鍵速度には、ランク初期最適値に対応する初期打鍵速度が格納されている。
[ステップS402] 打鍵速度情報332に格納される前々回打鍵速度と、前回打鍵速度とを読み出して比較する。
[ステップS403] 比較の結果、前回打鍵速度の方が、前々回打鍵速度より大きいかどうかを判定する。大きいときは、処理をステップS404へ進め、大きくないときは処理をステップS405へ進める。
[ステップS404] 前回打鍵速度が前々回打鍵速度より大きいときは、今回のランクを前回のランクより1段階下にする。すなわち、無音時間を短くし、再生速度を速くし、処理を終了する。前回打鍵速度が前々回打鍵速度より大きいときは、作業者の打鍵速度が速くなっていると判断されるので、より速い再生速度を選択するランク調整を行う。
[ステップS405] 前回打鍵速度が前々回打鍵速度より大きくないときは、前回打鍵速度と前々回打鍵速度とが同じであるかどうかを判定する。同じときは、処理をステップS406へ進め、同じでないときは、処理をステップS407へ進める。
[ステップS406] 前回打鍵速度と前々回打鍵速度とが同じときは、今回のランクを前回のランクより1段階下にする。すなわち、無音時間を短くし、再生速度を速くし、処理を終了する。前回打鍵速度が前々回打鍵速度と同じであれば、作業者の打鍵速度は再生速度に十分対応しているので、再生速度を速くしても対応できる可能性がある。そこで、より速い再生速度を選択するランク調整を行う。
[ステップS407] 前回打鍵速度が前々回打鍵速度より小さいときは、その差の大きさを比較する。前回打鍵処理時に、聞き直しなどの再生指示が行われていれば、前回打鍵速度と、前々回打鍵速度との差は大きくなる。
[ステップS408] ステップS407における比較の結果、前回打鍵速度と前々回打鍵速度との差が大きくないときは、処理をステップS409へ進め、差が大きいときは、処理をステップS410へ進める。
[ステップS409] 前回打鍵速度と前々回打鍵速度との差が大きくないときは、設定ランクをそのまま維持し、処理を終了する。
[ステップS410] 前回打鍵速度と前々回打鍵速度との差が大きいときは、作業者の打鍵速度が再生速度に追いつかず、聞き直しなどの操作が行われたと判断されるので、再生速度を下げるようにランク調整を行う。
以上の処理手順が実行されることにより、聞き直し操作などが行われたときのみ、ランクを上げて再生速度を遅くすることができるようになる。再生速度が速いほど、作業効率は向上し、作業時間が短縮される。したがって、作業効率の向上のためには、聞き直しなどの操作が行われない限り、その速度が維持されることが望ましい。そこで、第3の実施の形態では、ランクの引き上げを聞き直し操作などが行われたきに限定する。
次に、第4の実施の形態のランク調整処理について説明する。第4の実施の形態では、ある所定の時間ごとに、初期ランク設定処理を行わせ、ランクの最適化を図る。ここでは、途中ランク設定処理が100回行われるごとに、初期ランク設定処理が実行される。
図14は、第4の実施の形態の途中ランク設定処理の手順を示したフローチャートである。初期ランク設定処理が終了し、ランク初期最適値が設定された後、区間音声データが読み出されるごとに処理が開始される。
[ステップS501] 途中ランク設定処理の処理回数をカウントするカウンタを読み出し、カウンタが100以上であるかどうかを判定する。100以上であれば、処理をステップS502へ進め、100に満たなければ、処理をステップS503へ進める。
[ステップS502] カウンタが100以上であれば、初期ランク設定処理終了後、途中ランク設定処理が100回以上行われているので、初期化終了フラグをリセットし、処理を終了する。これにより、次回処理では、初期ランク設定処理が行われる。
[ステップS503] 作業途中ランク情報330を更新する。ランク情報331の前回のランクを前々回のランクに、今回のランクを前回のランクに格納する。同様に、打鍵速度情報332の前回の打鍵速度を前々回の打鍵速度に、今回の打鍵速度を前回の打鍵速度に格納する。なお、初期ランク設定処理終了時点では、今回のランクにはランク初期最適値が、今回の打鍵速度には、ランク初期最適値に対応する初期打鍵速度が格納されている。
[ステップS504] 打鍵速度情報332に格納される前々回打鍵速度と、前回打鍵速度とを読み出して比較する。
[ステップS505] 比較の結果、前回打鍵速度の方が、前々回打鍵速度より大きいかどうかを判定する。大きいときは、処理をステップS506へ進め、大きくないときは処理をステップS507へ進める。
[ステップS506] 前回打鍵速度が前々回打鍵速度より大きいときは、今回のランクを前回のランクより1段階下にする。すなわち、無音時間を短くし、再生速度を速くし、処理をステップS513へ進める。前回打鍵速度が前々回打鍵速度より大きいときは、作業者の打鍵速度が速くなっていると判断されるので、より速い再生速度を選択するランク調整を行う。
[ステップS507] 前回打鍵速度が前々回打鍵速度より大きくないときは、前回打鍵速度と前々回打鍵速度とが同じであるかどうかを判定する。同じときは、処理をステップS508へ進め、同じでないときは、処理をステップS509へ進める。
[ステップS508] 前回打鍵速度と前々回打鍵速度とが同じときは、今回のランクを前回のランクより1段階下にする。すなわち、無音時間を短くし、再生速度を速くし、処理をステップS513に進める。
[ステップS509] 前回打鍵速度が前々回打鍵速度より小さいときは、その差の大きさを比較する。前回打鍵処理時に、聞き直しなどの再生指示が行われていれば、前回打鍵速度と、前々回打鍵速度との差は大きくなる。
[ステップS510] ステップS509における比較の結果、前回打鍵速度と前々回打鍵速度との差が大きくないときは、処理をステップS511へ進め、差が大きいときは、処理をステップS512へ進める。
[ステップS511] 前回打鍵速度と前々回打鍵速度との差が大きくないときは、設定ランクをそのまま維持し、処理をステップS513に進める。
[ステップS512] 前回打鍵速度と前々回打鍵速度との差が大きいときは、作業者の打鍵速度が再生速度に追いつかず、聞き直しなどの操作が行われたと判断されるので、再生速度を下げるようにランク調整を行う。
[ステップS513] カウンタをカウントアップし、処理を終了する。
以上の処理手順が実行されることにより、途中ランク設定処理が所定の回数実行されるごとに、初期ランク設定処理が1回起動されるようになる。また、初期ランク設定処理は、たとえば、計時手段によって経過時間を計測し、所定の時間が経過するごとに起動させるようにしてもよい。
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、音声再生装置が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。光磁気記録媒体には、MO(Magneto-Optical disk)などがある。
プログラムを流通させる場合には、たとえば、そのプログラムが記録されたDVD、CD−ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
プログラムを実行するコンピュータは、たとえば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。
(付記1) 記録媒体に記録された音声データの再生処理のための音声再生プログラムにおいて、
コンピュータを、
前記音声データの有音部分を検出して区切り点を設定し、前記区切り点で区切られる区間音声データを抽出する区切り点設定手段、
1音声当たりに付加される無音時間に対応付けられるとともに、再生された音声を聞いて作業を行う作業者の処理速度に応じて値が設定されるランクが記憶されるランク情報記憶手段から現在設定されている設定ランクを読み出し、前記区間音声データに、前記設定ランクに基づいて算出される無音部を付加して再生速度を調整する編集を施し、編集音声データ記憶手段に格納する音声データ編集手段、
前記編集音声データ記憶手段から編集が終了した編集済音声データを読み出して再生するとともに、聞き直しを含む再生指示が外部より入力されたときは、前記再生指示に従って前記編集済音声データの再生を制御する音声再生制御手段、
前記音声再生制御手段によって前記編集済音声データが再生された時間を計測した再生時間と、前記編集済音声データの音声数とに基づいて前記作業者の処理速度を算出し、前記作業者の処理速度に応じて前記設定ランクを調整するランク調整手段、
として機能させることを特徴とする音声再生プログラム。
(付記2) 前記ランク調整手段は、
処理が開始されたときに前記作業者の処理速度を計測し、計測結果に基づいて処理開始時点で最適な前記設定ランクを決定する初期ランク設定手段と、
作業途中の任意のタイミングで前記作業者の処理速度を評価し、前記作業者の処理速度が同程度を維持、または、速くなっていることが検出されたときは、前記再生速度を速め、前記作業者の処理速度が遅くなっているときは、前記再生速度を遅くするように前記設定ランクを調整する途中ランク更新手段と、
を有することを特徴とする付記1記載の音声再生プログラム。
(付記3) 前記ランク調整手段は、前記作業者の処理速度の変化を、前回処理で計測された処理速度と、前記前回処理よりも前に計測された処理速度と、を比較することによって検出する、ことを特徴とする付記2記載の音声再生プログラム。
(付記4) 前記ランク調整手段は、前記計測された処理速度が、所定の基準範囲を超えることが検出されたときのみ、前記再生速度を遅くさせるように前記設定ランクを調整する、ことを特徴とする付記2記載の音声再生プログラム。
(付記5) 前記ランク調整手段は、前記初期ランク設定手段を、所定の時間が経過するごとに、もしくは、前記途中ランク更新手段が所定の回数実行されるごとに、起動させる、ことを特徴とする付記2記載の音声再生プログラム。
(付記6) 前記区切り点設定手段は、次回処理対象の前記区間音声データの次の区間よりも後に再生される区間の前記音声データを先読みし、無音部分が含まれるときはこれを削除し、有音部分のみを抽出する、ことを特徴とする付記1記載の音声再生プログラム。
(付記7) 前記区切り点設定手段は、前記先読みされた音声データを解析し、論理的に区切れる箇所に前記区切り点を設定する、ことを特徴とする付記6記載の音声再生プログラム。
(付記8) 前記作業者は、前記再生された音声を聞いて前記音声データをテキストデータに変換する書き起こし作業を行い、前記作業者の処理速度は、前記作業者がキーボードを操作して打鍵処理を行った音声数によって算出される打鍵速度である、ことを特徴とする付記1記載の音声再生プログラム。
(付記9) 記録媒体に記録された音声データに基づいて音声を再生する音声再生装置において、
1音声当たりに付加される無音時間に対応付けられるとともに、再生された音声を聞いて作業を行う作業者の処理速度に応じて値が設定されるランクが記憶されるランク情報記憶手段と、
編集が施された編集済音声データが記憶される編集音声データ記憶手段と、
前記記録媒体に記録された前記音声データの有音部分を検出して区切り点を設定し、前記区切り点で区切られる区間音声データを抽出する区切り点設定手段と、
前記ランク情報記憶手段から現在設定されている設定ランクを読み出し、前記区間音声データに、前記設定ランクに基づいて算出される無音部を付加して再生速度を調整する編集を施し、編集音声データ記憶手段に格納する音声データ編集手段と、
前記編集音声データ記憶手段から編集が終了した前記編集済音声データを読み出して再生するとともに、聞き直しを含む再生指示が外部より入力されたときは、前記再生指示に従って前記編集済音声データの再生を制御する音声再生制御手段と、
前記音声再生制御手段によって前記編集済音声データが再生された時間を計測した再生時間と、前記編集済音声データの音声数とに基づいて前記作業者の処理速度を算出し、前記作業者の処理速度に応じて前記設定ランクを調整するランク調整手段と、
を有することを特徴とする音声再生装置。
(付記10) 記録媒体に記録された音声データの再生処理のための音声再生方法において、
区切り点設定手段が、前記音声データの有音部分を検出して区切り点を設定し、前記区切り点で区切られる区間音声データを抽出するステップと、
音声データ編集手段が、1音声当たりに付加される無音時間に対応付けられるとともに、再生された音声を聞いて作業を行う作業者の処理速度に応じて値が設定されるランクが記憶されるランク情報記憶手段から、現在設定されている設定ランクを読み出し、前記設定ランクに基づいて前記区間音声データに付加する無音部を算出して付加する編集を施して編集音声データ記憶手段に格納するステップと、
音声再生制御手段が、前記編集音声データ記憶手段から編集が終了した編集済音声データを読み出して再生するとともに、聞き直しを含む再生指示が外部より入力されたときは、前記再生指示に従って前記編集済音声データの再生を制御するステップと、
ランク調整手段が、前記音声再生制御手段によって前記編集済音声データが再生された時間を計測した再生時間と、前記編集済音声データの音声数とに基づいて前記作業者の処理速度を算出し、前記作業者の処理速度に応じて前記設定ランクを調整するステップと、
を有することを特徴とする音声再生方法。