JP4973431B2

JP4973431B2 - 音声再生プログラム及び音声再生装置

Info

Publication number: JP4973431B2
Application number: JP2007263002A
Authority: JP
Inventors: 卓治沼田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-10-09
Filing date: 2007-10-09
Publication date: 2012-07-11
Anticipated expiration: 2027-10-09
Also published as: JP2009092907A

Description

本発明は音声再生プログラム及び音声再生装置に関し、特に記録媒体に記録された音声データの再生処理のための音声再生プログラム、及びその音声再生処理を行う音声再生装置に関する。

従来から、話者の音声を録音しておき、後から録音された音声を聞いて行われる作業があった。たとえば、作業者が録音された音声を聞きながら話の内容をタイピングすることによって、話の内容を文字情報として残すという作業（以下、書き起こし作業とする）がある。また、こうして作成された原稿の確認をする作業などもある。

特に書き起こし作業では、音声の再生速度の方が打鍵の速度と比較して速いため、音声の開始とともに作業者が打鍵を開始しても、やがて音声の速度に打鍵がついていけなくなるという問題がある。従来、打鍵者は、音声に追従できなくなると、音声再生装置に接続する足踏みペダルやキーボードなどを操作して音声を中断、あるいは、少し前に戻して聞き直しを行っていた。しかし、このような中断や聞き直しに要する時間が、書き起こし作業の効率を低下させる大きな要因となっていた。

近年では、録音される音声はデジタル化されており、さまざまな加工が容易に行えるようになっている。そこで、書き起こし作業の効率を上げるため、デジタル化された音声データを作業者が聞き取りやすいように加工する音声再生装置が提案されている。

このような音声再生装置のひとつに、デジタル化された音声ファイルの有音区間と無音区間とを検出してその区切りのアドレスを登録しておき、ユーザからキーボードを介して指示があれば、有音区間を区切りまで再生することにより、ユーザの入力速度に合わせて音声を再生するものがある（たとえば、特許文献１参照）。

また、１つの有音区間の終了を検出した後、次の有音区間の再生を行う前に再生を一定時間停止させたり、有音区間が予め決められた最長連続有音再生時間を超えるときには、一時停止時間を挿入するなどして、有音区間を調整する手法も提案されている（たとえば、特許文献２参照）。このような音声再生装置によれば、音声再生時に適宜無音区間を挿入することによって、音声の再生速度を打鍵の速度に合わせることができる。すなわち、打鍵の速度が遅ければ、無音区間を長く設定し、打鍵の速度が速いときには無音区間は短く設定することにより、途中で一時休止操作や聞き直し操作を行うことなく、打鍵を継続させることができる。
特開昭６３−２６１４５６号公報特開２０００−２１４８８６号公報

しかし、従来の音声再生装置では、作業者の能力や状態に適するように音声の再生速度を制御することが難しいという問題点がある。なお、再生速度は、単位時間当たりに再生される音声数である。

従来の一区切りごとに有音区間を再生する音声再生装置では、一区切りの有音区間が終了すると、次に指示されるまで再生は停止されているので、中断や聞き直しの回数を減らすことができる。しかしながら、作業者は毎回再生指示を行わなければならず、作業効率が良くない。また、有音区間を一区切りとしているため、話者の話し方に応じて再生時間が長くなったり短くなったり変動し、作業がしやすい区切りとならないこともある。

一方、一時停止時間が自動挿入される音声再生装置では、一旦設定すると、所定の区切りで次の有音部の再生を停止している無音時間が発生するので、作業はやりやすくなる。しかし、適切な一時停止時間が設定されていないと、聞き直しの回数が増えたり、打鍵が終了してから次の音声が再生されるまでの待ち時間が長くなるなどし、作業効率を向上させることが難しい。同一の打鍵者であっても、打鍵を開始したときの状態、しばらくして作業に慣れたころの状態、あるいは長時間作業を行って疲れてきたときの状態など、そのときどきに応じて打鍵の速度は異なる。たとえば、開始直後は、打鍵の速度は比較的遅く、慣れるに従って速くなるが、疲労がたまってくると、再び打鍵の速度は遅くなる、という具合に変化する。したがって、最初に設定された再生速度がずっと最適とは限らないという問題がある。また、同じ作業者であっても、音声の聞き取りやすさによって打鍵の速度は異なる。しかし、聞く側の打鍵者との相性もあり、ある打鍵者にとって聞き取りやすい音声であっても、他の打鍵者にとっても聞き取りやすいとは限らないため、一様に再生速度を設定することは難しい。このように、作業者に適した一時停止時間を事前に設定することは非常に難しい。

本発明はこのような点に鑑みてなされたものであり、作業者の状態に合わせて音声データの再生速度を調整することによって、作業の効率を上げることが可能な音声再生プログラム及び音声再生装置を提供することを目的とする。

本発明では上記課題を解決するために、図１に示すような処理をコンピュータに実行させるための音声再生プログラムが提供される。本発明にかかる音声再生プログラムは、音声再生装置１に適用され、コンピュータを、区切り点設定手段１ｄ、音声データ編集手段１ｅ、音声再生制御手段１ｆ、及びランク調整手段１ｇとして機能させ、以下の処理を実行させることができる。

区切り点設定手段１ｄは、記録媒体（図では、音声データ記憶手段１ａ）に記録された音声データの有音部分を検出して区切り点を設定し、区切り点で区切られる区間音声データを抽出する。音声データ編集手段１ｅは、１音声当たりに付加される無音時間に対応付けられるとともに、再生された音声を聞いて作業を行う作業者の処理速度に応じて値が設定されるランクが記憶されるランク情報記憶手段１ｃから、現在設定されている設定ランクを読み出す。そして、区間音声データに、設定ランクに基づいて算出される無音部を付加することによって、再生速度を調整する編集を施し、編集音声データ記憶手段１ｂに格納する。音声再生制御手段１ｆは、編集音声データ記憶手段１ｂから編集が終了した編集済音声データを読み出して再生するとともに、聞き直しを含む再生指示が外部より入力されたときは、再生指示に従って編集済音声データの再生を制御する。ランク調整手段１ｇは、音声再生制御手段１ｆによって編集済音声データが再生された時間を計測した再生時間と、編集済音声データの音声数とに基づいて作業者の処理速度を算出し、作業者の処理速度に応じて設定ランクを調整する。

このような音声再生プログラムを実行するコンピュータによれば、音声データ記憶手段１ａに格納される音声データは、区切り点で区切られ、区間音声データとして抽出される。次に、音声データ編集手段１ｅで、再生速度を調整するための無音部を付加する編集が施された後、編集音声データ記憶手段１ｂに格納される。無音区間は、設定ランクに基づいて算出される。編集が終了した編集済音声データは、音声再生制御手段１ｆによって再生される。聞き直しを含む再生指示が外部より入力されたときは、再生指示に基づいて編集済音声データの再生が制御される。ランク調整手段１ｇは、聞き直し時間を含む編集済音声データが再生された時間と、編集済音声データの音声数とに基づいて作業者の処理速度を算出し、設定ランクを動的に調整する。

また、上記課題を解決するために、記録媒体に記録された音声データに基づいて音声を再生する音声再生装置において、１音声当たりに付加される無音時間に対応付けられるとともに、再生された音声を聞いて作業を行う作業者の処理速度に応じて値が設定されるランクが記憶されるランク情報記憶手段と、編集が施された編集済音声データが記録される編集音声データ記憶手段と、記録媒体に記録された音声データの有音部分を検出して区切り点を設定し、区切り点で区切られる区間音声データを抽出する区切り点設定手段と、ランク情報記憶手段から現在設定されている設定ランクを読み出し、区間音声データに、設定ランクに基づいて算出される無音部を付加して再生速度を調整する編集を施し、編集音声データ記憶手段に格納する音声データ編集手段と、編集音声データ記憶手段から編集が終了した編集済音声データを読み出して再生するとともに、聞き直しを含む再生指示が外部より入力されたときは、再生指示に従って編集済音声データの再生を制御する音声再生制御手段と、音声再生制御手段によって編集済音声データが再生された時間を計測した再生時間と、編集済音声データの音声数とに基づいて作業者の処理速度を算出し、作業者の処理速度に応じて設定ランクを調整するランク調整手段と、を有することを特徴とする音声再生装置、が提供される。

このような音声再生装置によれば、作業者の処理速度に応じた無音時間を規定するランクがランク情報記憶手段に記憶されている。再生が指示されると、対象の音声データは、区切り点が設定されて区間音声データとして抽出され、設定ランクに基づく無音時間が付加された後、編集音声データ記憶手段に格納される。音再生制御手段は、編集が終了した編集済音声データを編集音声データ記憶手段から読み出して再生する。そして、聞き直し時間を含む編集済音声データが再生された時間と、編集済音声データの音声数とに基づいて作業者の処理速度が算出され、設定ランクが動的に調整される。

本発明によれば、再生された音声を聞いて作業を行う作業者の処理速度に応じて音声データに付加する無音時間を規定するランクが動的に調整される。音声データを区切り点で区切った区間音声データごとに、設定ランクに応じた無音部を付加する編集が施され、再生速度が調整された後、再生される。このときの音声データの再生時間に基づいて作業者の処理速度が算出され、処理速度に応じて設定ランクが調整される。このように、作業者の処理速度に合わせて動的にランクの調整が行われることによって、その時点における作業者の状態に最適な速度で音声が再生されるようになる。この結果、中断や聞き直し、無駄な音声待ち時間が減少し、作業の効率を上げることが可能となる。

以下、本発明の実施の形態を図面を参照して説明する。
図１は、実施の形態に適用される発明の概念図である。
本発明にかかる音声再生装置１は、音声データを記録する音声データ記憶手段１ａ、編集済音声データを記録する編集音声データ記憶手段１ｂ、及びランク情報を記憶するランク情報記憶手段１ｃの記憶手段と、音声データの区切り点を設定する区切り点設定手段１ｄ、音声データの再生速度を調整する編集を行う音声データ編集手段１ｅ、音声を再生する音声再生制御手段１ｆ、及びランクを調整するランク調整手段１ｇの処理手段と、を有し、作業者の処理速度に合わせて音声データの再生速度を調整することができる。

なお、ここでは、音声の再生速度は、単位時間当たりに再生される音声数であるとする。したがって、音声と音声の間が長い場合も、短い間隔で連続的に発生する音声の後に無音区間が挿入される場合も、単位時間当たりの音声数が同じであれば、再生速度は同じと解釈する。また、処理速度は、単位時間当たりに作業者が所定の作業で処理した音声数であるとする。たとえば、書き起こし作業であれば、単位時間当たりに作業者が打鍵できる音声数を処理速度とする。なお、聞き直しなどの操作が行われなければ、再生時間内に処理が終了しているので、再生された音声数と、処理された音声数とは同じになる。そこで、本願発明では、再生された音声数を処理した音声数と見なす。上記の書き起こし作業の場合であれば、再生された音声数と打鍵された音声数とは同じと見なす。このように、作業の処理速度を音声数で計測することにより、音声の再生速度との比較が容易になるという利点がある。

各手段について説明する。
音声データ記憶手段１ａには、再生対象の音声が電子的な音声データに変換されて記憶されている。音声データは、自装置が録音したものであっても、他装置が録音したものであってもよい。

編集音声データ記憶手段１ｂには、音声データ編集手段１ｅによって編集が施された編集済音声データが記憶される。編集済音声データは、元の音声データに対し、作業者が聞き取りやすいように、理解しやすい点で区切られ、再生速度を調整するための適当な無音部を付加する編集が施されている。

ランク情報記憶手段１ｃには、少なくとも現在設定されている設定ランクが記憶されている。ランクは、音声データの１音声当たりに付加する無音時間に対応付けられるとともに、再生された音声を聞いて作業を行う作業者の処理速度に応じてランクの値が設定される。ランク値と、付加する無音時間との対応付けは、予めランクテーブルなどに設定される。たとえば、ランク値が大きくなるに従って、１発声音当たりに追加する無音時間が長くなるように対応付けたランクテーブルが用意される。

区切り点設定手段１ｄは、音声データ記憶手段１ａに記憶されている音声データを読み出し、作業者が理解しやすい箇所に区切り点を設定する。そして、区切り点で区切られる区間の音声データを抽出し、音声データ編集手段１ｅへ出力する。以下、区切り点と区切り点の間を区間と呼び、その区間の音声データを区間音声データと呼ぶ。区間音声データは、編集音声データ記憶手段１ｂに記憶させて音声データ編集手段１ｅに引き渡してもよい。音声データを区切る区切り点は、たとえば、音声データの有音部分が終了した箇所や、有音部分が一定時間経過したときなどに設定される。ただし、このように機械的に区切り点を設定するのでは、区切り点が作業者にとって聞き取りやすい箇所に設定されたのかどうかはわからない。そこで、次回処理対象の音声データよりも先の（時間的に後で再生される）音声データを先読みし、読み出した音声データを解析して適当な区切り点を設定することもできる。たとえば、読み出した音声データを解析し、音声データに文章の終わりが含まれていないかを検索する。「〜です」「〜ます」などの音声が検索対象になる。このように、文の終わりなどの論理的な区切りを区間音声データのための区切り点とすることにより、作業者の作業はやりやすくなるという利点がある。なお、文の終わりの判断は、検索された音声の前後の音声や、その後に無音があるか、などによって判断する。音声の波形データなどから、音声が意味する語や、無音であるかなどを検出する方法については公知であるので、ここではそのいずれかを用いて行うとし、詳細な説明は省略する。また、録音された元の音声データには、話が途切れるなどして、無音部分が長すぎるものもある。無音部分が長すぎるときには、その間作業者の処理が停止されてしまい、効率が悪くなる。そこで、無音状態が所定の期間を超えて継続するときは、この無音部分を削除し、無音部分の前の有音部分が再生された後、続けて無音部分の次の有音部分が再生されるようにしてもよい。

音声データ編集手段１ｅは、区間音声データを入力し、ランク情報記憶手段１ｃに記憶される現在の設定ランクに基づいて区間音声データに付加する無音部を算出する。そして、算出された無音部を区間音声データに付加する編集を施し、再生速度を調整する。生成された編集済音声データは、編集音声データ記憶手段１ｂに記憶する。ランクは、音声データの１音声当たりに付加する無音時間に対応付けられており、設定ランクから導出される無音時間と、区間音声データの音声数とから、区間音声データに付加する無音部を算出する。なお、区間音声データの音声数の算出は、区切り点設定手段１ｄ、あるいは、音声データ編集手段１ｅのいずれで行ってもよい。

音声再生制御手段１ｆは、編集音声データ記憶手段１ｂに格納される編集済音声データを読み出して再生する。再生指示が入力されると、区間ごとに生成される編集音声データを順次読み出して音声に再生する。また、再生途中に、再生の中断や聞き直しを指示する再生指示が入力されたときは、再生指示に従って編集済音声データの再生を制御する。「中断」が入力されたときは、編集済音声データの再生を一時停止させる。そして、「再開」が指示されれば、中断した時点からの再生を再開する。また、「聞き直し」が指示されたときは、再生中の区間の編集音声データの最初まで戻り、再生を行う。

ランク調整手段１ｇは、音声再生制御手段１ｆによって編集済音声データが再生された時間を計測し、計測された再生時間と、再生された編集済音声データの音声数と、に基づき、作業者の処理速度を算出する。上記のように作業者の処理速度は、単位時間当たりに再生された音声数と定義されるので、
作業者の処理速度＝再生された音声数／再生時間・・・（１）
によって算出する。なお、式（１）で用いる「再生された音声数」は、再生対象の編集済音声データそのものに含まれる音声数とする。すなわち、聞き直しが行われると、編集済音声データが何度か再生されるので実際に再生される音声数は増加するが、「再生された音声数」としてカウントされるのは、編集済音声データを１回再生したときの音声数になる。したがって、中断も聞き直しも指示されないとき、処理速度の値が最も大きくなり（この状態を処理速度が速いとする）、中断や聞き直しが指示されるごとに値は小さくなる（この状態を処理速度が遅いとする）。ランク調整手段１ｇでは、算出された処理速度に基づいて、設定されているランクを評価し、作業者に適した値となるように調整を行う。たとえば、処理速度が速いときは、設定ランクを上げ（設定ランクをより再生速度の速いランクに更新する）、処理速度が著しく遅いときは、設定ランクを下げる（設定ランクをより再生速度の遅いランクにする）ように調整を行う。

このような構成の音声再生装置１の動作について説明する。
再生対象の音声データは、音声データ記憶手段１ａに記憶されている。また、ランク情報記憶手段１ｃには、初期化処理で設定された設定ランクが記憶されている。

区切り設定手段１ｄは、音声データ記憶手段１ａの音声データに所定の区切り点を設定し、区切り点で区切られる区間の音声データを抽出し、区間音声データとして音声データ編集手段１ｅへ出力する。区切り点は、作業者が聞き取りやすいように、論理的な区切りが検索されて設定される。音声データ編集手段１ｅは、ランク情報記憶手段１ｃに記憶される設定ランクを読み出し、区間音声データの音声数と、ランクに対応付けられた１音声当たりに付加する無音時間とに基づいて無音部の時間を算出する。そして、区間音声データに無音部を付加する編集を行って再生時間を調整する。編集された区間音声データは、編集済音声データとして編集音声データ記憶手段１ｂへ格納する。音声再生制御手段１ｆは、編集済音声データを再生する。このとき、聞き直しなどの再生指示が入力されたときには、指示に従って再生制御が行われる。ランク調整手段１ｇは、再生された編集済音声データの再生時間を計測し、再生時間と、編集済音声データの音声数とから、作業者の処理速度を算出する。処理速度が速いときは、再生時間が短くなるように設定ランクを上げ、処理速度が遅いときは、再生時間が長くなるように設定ランクを下げる。こうして、ランク調整が行われ、調整された設定ランクに基づいて、次の区間音声データが再生される。

以上のように、本発明によれば、作業者の処理速度を計測し、計測された処理速度に応じて音声データの再生速度を調整する。これにより、作業者の状態に合わせて音声データの再生速度を最適に保つことが可能となり、中断や聞き直しの回数を削減し、作業の効率を上げることができる。

以下、実施の形態として、音声再生装置を書き起こし作業に適用した場合を例に図面を参照して詳細に説明する。
ここで、音声再生装置のハードウェア構成について説明する。図２は、本実施の形態の音声再生装置のハードウェア構成例を示すブロック図である。

音声再生装置１０は、ＣＰＵ（Central Processing Unit）１１によって装置全体が制御されている。ＣＰＵ１１には、バス１８を介してＲＡＭ（Random Access Memory）１２、ハードディスクドライブ（ＨＤＤ：Hard Disk Drive）１３、グラフィック処理装置１４、入力インタフェース１５、音声処理部１６、及び計時部１７が接続されている。ＲＡＭ１２には、ＣＰＵ１１に実行させるＯＳ（Operating System）のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、ＲＡＭ１２には、ＣＰＵ１１による処理に必要な各種データが格納される。ＨＤＤ１３には、ＯＳやアプリケーションのプログラムが格納される。グラフィック処理装置１４には、モニタ２３が接続されており、ＣＰＵ１１からの命令に従って画像をモニタ２３の画面に表示させる。入力インタフェース１５には、キーボード２２が接続されており、キーボード２２から送られてくる信号を、バス１８を介してＣＰＵ１１に送信する。音声処理部１６は、スピーカ２１に接続しており、ＣＰＵ１１からの命令にしたがって音声データをスピーカ２１に出力する。計時部１７は、時刻、または、ある時点からの経過時間を計時する時計機能を備える。計測した時間は、バス１８を解してＣＰＵ１１に送信する。

このようなハードウェア構成によって、本実施の形態の処理機能を実現することができる。なお、図２には、音声再生装置１０が入力インタフェース１５を具備し、キーボード２２からの入力を処理するとしたが、キーボード２２からの入力信号の処理は、他の装置で行う構成とすることもできる。

図３は、音声再生装置のソフトウェア構成例を示す機能ブロック図である。
音声再生装置１０は、音声データＤＢ（データベース）１１１、編集音声データバッファ１１２、ランク情報記憶部１１３、及びテキストデータＤＢ１１４の記憶手段と、区切り点設定部１２０、音声データ編集部１３０、音声再生制御部１４０、打鍵速度計測部１５０、ランク調整部１６０、及びテキスト変換部１７０の処理手段と、を有する。

音声データＤＢ１１１は、音声データを格納する音声データ記憶手段である。編集音声データバッファ１１２は、無音部が付加された編集音声データを記憶する編集音声データ記憶手段である。ランク情報記憶部１１３は、ランク情報を記憶するランク情報記憶手段である。テキストデータＤＢ１１４は、再生された音声データを文字情報に変換したテキストデータを記憶する記憶手段である。

区切り点設定部１２０は、音声データ先読み手段１２１、論理区切り点設定手段１２２、及び区間音声データ抽出手段１２３を有する。音声データ先読み手段１２１は、音声データを先読みし、読み出した音声データの声波形を解析する。そして、無声部分があれば、その部分を読み飛ばす。たとえば、５０音声を先読みすることとし、９音声が検出された後、１０分間の無声部分があったとする。この場合、１０分間の無声部分を飛ばして、次に検出された４０音声を抽出する。論理区切り点設定手段１２２は、音声データを解析して語を識別し、論理的に区切ることのできる箇所、たとえば、文章の終わりを検出する。具体的には、次の音声が出てくる間隔が長いところや、「〜ます」「〜です」などを検索する。こうして検索された文の区切りと判別できる箇所に区切り点を設定する。区間音声データ抽出手段１２３は、音声データ先読み手段１２１が検出した無声部分を音声データから削除し、論理区切り点設定手段１２２が設定した論理区切り点で区切られる区間の区間音声データを抽出する。これにより、論理的に区切られた有音部のみで構成される区間音声データが生成される。

音声データ編集部１３０は、無音部算出手段１３１及び無音部付加手段１３２を有する。無音部算出手段１３１は、ランク情報記憶部１１３に記憶される現在の設定ランクと、区切り点設定部１２０が区切った区間音声データの音声数とを取得し、当該区間音声データに付加する無音部を算出する。無音部は、音声数と、当該ランクに対応する無音時間とを乗算することにより算出できる。無音部付加手段１３２は、算出された無音部を区間音声データの後ろに付加し、音声再生制御部１４０へ出力する。

ここで、無音部について説明する。音声におけるひとつの発音、（たとえば、「あ」、「か」など）を発音する時間は発声者によってほぼ一定であり、所定の時間に発声できる発声音声数もほぼ一定になる。一方、ある時間内（たとえば、１０分程度）における打鍵者の打鍵可能音声数もほぼ一定であると考えられる。このように、発生者による発声音声数と、打鍵者による打鍵可能音声数とが、ほぼ一定であるとき、打鍵の速度が音声の速度に追いつくためには、その時間差を埋める無音部を音声データに付加すればよいことになる。たとえば、５秒間に発声者が平均１０音声を発声し、打鍵者は７音声打鍵できるとする。この場合、音声データに３音声分打鍵する時間を付加すれば、打鍵者の打鍵が音声に追いつくことになる。以上から、必要な無音時間は、
必要無音時間 = 打鍵に必要な時間 − 発声に必要な時間・・・（２）
によって算出することができる。ここで、打鍵に必要な時間は、１音声当たりの平均打鍵時間×発声数で算出できる。同様に、発声に必要な時間は、１音声当たりの平均発声時間×発声数で算出できる。ランクに対応付けられる１音声当たりの無音時間は、１音声当たりの必要無音時間になる。なお、打鍵に必要な時間は、母音、子音による打鍵キー数の違いや、漢字カナ変換のための変換キー操作の有無などによってキー操作数に若干差異が生じるが、ある程度の間隔では平均化されるため、一様に処理することができる。

音声再生制御部１４０は、音声再生手段１４１及び指示受付手段１４２を有する。音声再生手段１４１は、編集音声データバッファ１１２に順次蓄積される編集済音声データ（区間音声データ＋無音部）に基づき音声を再生し、スピーカ２１から出力する。指示受付手段１４２は、外部から中断や聞き直しなどの再生指示が入力されると、その指示に従って音声再生手段１４１を制御する。聞き直しが指示されれば、指示時点で再生を中断し、当該編集済音声データの最初から再生を行わせる。

打鍵速度計測部１５０は、音声数計測手段１５１、再生時間計測手段１５２、及び打鍵速度算出手段１５３を有する。音声数計測手段１５１は、再生される編集済音声データに含まれる音声数を計測する。これは、打鍵される打鍵音声数に相当する。また、音声数は、区切り点設定部１２０が区間音声データを抽出したときに計測し、その計測データを取得するとしてもよい。途中、聞き直しが行われても、再度流れる音声はカウントしない。再生時間計測手段１５２は、音声再生制御部１４０が区切り点で区切られる区間の編集済音声データの再生に費やしたすべての時間を含む。たとえば、音声再生制御部１４０より区間の開始通知を受け、次の区間の開始通知までにかかる時間を計測する。途中に中断や、聞き直しが行われた場合は、中断時間や聞き直しに要した時間を含む再生時間が計測される。打鍵速度算出手段１５３は、計測された打鍵音声数と、再生時間とに基づき、単位時間あたりの打鍵音声数を算出する。打鍵速度は、式（１）により算出することができる。

ランク調整部１６０は、初期ランク設定手段１６１及び途中ランク更新手段１６２を有する。初期ランク設定手段１６１は、処理が開始されてから所定の期間に測定された作業者の打鍵速度に応じたランクを設定する。途中ランク更新手段１６２は、初期ランクが設定された後、処理ごとに、もしくは、一定間隔ごとに、測定された作業者の打鍵速度に応じてランクを更新する。初期設定時に設定されたランクが最適であっても、時間の経過とともに作業者の打鍵速度は変化する。そこで、作業の途中の任意のタイミングでランクを更新する。

ここで、ランク設定について説明する。式（１）に示したように、処理速度（打鍵速度）は再生時間が短くなると速くなり、再生時間が長くなるほど遅くなる。最も短い再生時間は、中断や聞き直しが行われずにキー入力が終了した時間になる。中断が長くなったり、聞き直しが何回も行われたりすると、それに応じて再生時間が長くなり、打鍵速度は低下する。そこで、打鍵速度に基づいて、ランクの調整が行われる。たとえば、打鍵速度が低下するのは、聞き直しなどが行われているときで、現在の設定ランクの再生速度に打鍵者の打鍵が追いついていないことを意味する。そこで、再生速度が低下する（無音時間が長くなる）ようにランクを調整する。また、音声データの再生速度に打鍵が追いついているときは、打鍵速度は最大となる。そこで、打鍵速度が最大を継続するようなときは、音声の再生速度が増す（無音時間が短くなる）ようにランクを調整する。ランクの調整は、毎処理ごと、あるいは、一定時間以上打鍵速度が最大を継続するときなど、条件が満たされたときに行う。

テキスト変換部１７０は、再生された音声データを聞きながら、その内容を文字にするために作業者が操作するキーボード２２より入力される入力信号をテキストデータに変換し、テキストデータＤＢ１１４に格納する。

このようなソフトウェア構成によって、本実施の形態の処理機能を実現することができる。なお、各処理手段は、コンピュータが、音声再生プログラムを実行することにより、その処理機能を実現する。

次に、各記憶部に格納される情報について説明する。
音声データＤＢ１１１に格納される音声データは、話者の音声を録音した電子的な音声データである。音声がそのまま録音された音声データであり、長時間に渡る無音時間が含まれている場合もある。

編集音声データバッファ１１２に格納される編集済音声データは、上記音声データを所定の区切り点で区切った区間音声データに対し、打鍵者の打鍵速度に応じた無音時間を付加する編集が施されている。

ランク情報記憶部１１３には、ランクと無音時間とを対応付けたランクテーブル、初期ランク設定手段１６１で参照される初期ランク設定情報、及び途中ランク更新手段１６２で参照される途中ランク設定情報が格納される。

図４は、ランクテーブルの一例を示した図である。
ランクテーブル３１０は、ランク３１１と、１発声音当たりの追加無音時間（秒）３１２とが対応付けられている。ランクの値が小さいほど、付加される無音時間が短くなり、音声の再生速度が速くなる。したがって、打鍵の速い人向きの設定である。ランクの値が大きくなるにつれて、付加される無音時間が長くなる。

図の例では、ランクは１から８の８段階が設定されている。最も再生速度が速いのはランク１で、追加される無音時間は、１発声音当たり０秒である。すなわち、ランク１では、無音時間が追加されない状態で再生される。最も再生速度が遅いのはランク８で、追加される無音時間は、１発声音当たり０．３５秒である。ランク８では、たとえば、１０音声につき、３．５秒の無音時間が追加される。

図５は、初期ランク設定処理において参照されるランク情報を示した図である。
初期化ランク設定処理では、ランク初期最適値３２１、初期打鍵速度３２２、及びランク調整情報３２３の各ランク情報を参照して処理が行われる。

ランク初期最適値３２１は、打鍵開始とともに開始される初期化ランク設定処理において選択される最適なランクを格納する領域である。ランク１からランク８までのいずれかのランク値が設定される。

初期打鍵速度３２２は、初期化ランク設定処理において計測された、それぞれのランクが設定されたときの打鍵速度が格納される。初期化ランク設定処理においては、ランク初期最適値を得るために、いくつかのランクが仮に設定され、そのランクにおける打鍵速度が計測される。初期打鍵速度３２２には、そのとき計測された打鍵速度が格納される。

ランク調整情報３２３は、初期化ランク設定処理において、最適なランクを探索するために使用する領域であり、仮に設定される仮ランクが一時保存される。ランク引き上げ情報は、仮ランクを引き上げて打鍵速度を計測するときに使用される。ランク引き下げ情報は、ランクを引き下げて打鍵速度を計測するときに使用される。

図６は、途中ランク更新処理において参照されるランク情報を示した図である。
途中ランク更新処理では、作業途中ランク情報３３０に格納されるランク情報３３１と、打鍵速度情報３３２とを参照して処理が行われる。

ランク情報３３１は、今回設定される今回のランク、前回設定された前回のランク、その前に設定された前々回のランクが格納される。打鍵速度情報３３２は、ランク情報３３１に対応付けられ、それぞれのランクにおいて計測された打鍵速度が格納される。たとえば、ランク情報３３１の「今回のランク」に対応する打鍵速度は、打鍵速度情報３３２に、「今回の打鍵速度」に格納される。

次に、上記の構成の音声再生装置の動作及び音声再生方法について説明する。以下の説明では、テキストデータへの変換処理についての説明を省略する。
図７は、音声再生装置における処理手順を示したフローチャートである。

対象の音声データが指定され、音声再生が指示されて処理が開始される。
［ステップＳ０１］処理が開始されると、まず、ランクテーブル３１０が読み出される。以降の処理では、読み出したランクテーブル３１０に基づいてランクの調整と、音声データに付加する無音時間の調整が行われる。

［ステップＳ０２］音声データ先読み手段１２１は、対象の音声データを音声データＤＢ１２１１から読み込む。このとき、読み出した音声データを解析し、声波形に基づいて所定の数の音声を先読みする。読み込み時に、無音声部分が検出されれば、これを削除して有音部分まで読み飛ばす。これは、音声が途切れた場合に、打鍵者に不要な音声待ちをさせないための処理である。

［ステップＳ０３］ステップＳ０２における先読みを行って、最後まで検索しても音声データが検出されなかったかどうかを判断する。検出されないときは、音声データ終了と判断して処理を終了する。検出されたときは、ステップＳ０４へ処理を進める。

［ステップＳ０４］論理区切り点設定手段１２２は、打鍵者が聞きやすいように、論理的に区切れる部分に区切り点を設定する。たとえば、次の音声が検出されるまでの無音時間が長い箇所や、音声解析を行って文の終わりと判断できる部分を検索し、検索された箇所を区切り点とする。そして、区間音声データ抽出手段１２３は、区切り点で区切られた区間の区間音声データを抽出する。

［ステップＳ０５］ランクの初期設定が終了したかどうかを判定する。たとえば、初期化終了フラグが設定されたかどうかを判定する。初期設定が終了していれば、処理をステップＳ０７へ進める。終了していなければ、処理をステップＳ０６へ進める。

［ステップＳ０６］ランクの初期設定が終了していないとき、初期ランク設定手段１６１は、初期ランク設定処理を行う。初期ランク設定処理では、音声打鍵処理が開始されたときの打鍵者の打鍵速度に最適なランクを設定する。詳細は後述する。終了後、処理をステップＳ０８へ進める。

［ステップＳ０７］ランクの初期設定が終了しているとき、途中ランク更新手段１６２は、途中ランク設定処理を行う。途中ランク設定処理では、時間経過とともに打鍵者の打鍵速度に変化が生じるので、その変化に合わせてランク設定を調整する。詳細は後述する。

［ステップＳ０８］ステップＳ０４で抽出された区間音声データに、設定ランクに基づく無音部を付加する音声データ編集処理を行う。無音部算出手段１３１は、ランクテーブル３１０から設定ランクに対応付けられる追加無音時間を読み出し、区間音声データの音声数と乗算して無音部を算出する。無音部付加手段１３２は、算出された無音部を区間音声データに付加して、編集済音声データを生成する。こうして生成された編集済音声データには、再生される編集済音声データを打鍵するために必要十分な時間が確保されている。

［ステップＳ０９］音声再生手段１４１は、ステップＳ０８で生成された編集済音声データを再生する。再生される音声の後ろには、音声速度と打鍵速度との差を埋めるための無音時間が流れる。編集済音声データが再生されると同時に、打鍵者によって音声の内容を打鍵する処理が開始される。このとき、音声の再生速度に打鍵が追いつかないときは、打鍵者によって中断や聞き直しを指示する操作が行われる。指示受付手段１４２は、指示が入力されたときは、指示に応じて再生の中断や、この区間の編集済音声データを最初から再生する。

［ステップＳ１０］打鍵速度測定のため、音声数計測手段１５１は、編集済音声データの音声数を計測し、再生時間計測手段１５２は、再生にかかった時間を計測する。そして、打鍵速度算出手段１５３は、音声数と計測時間とに基づき、単位時間あたりの処理音声数を算出する。これが、打鍵速度になる。打鍵速度は、中断や聞き直しが行われると、低下する。算出された打鍵速度を作業途中ランク情報３３０または初期打鍵速度３２２に格納し、ステップＳ０２に戻って、次の音声データに対する読み込み処理を行う。

以上の処理手順が実行されることにより、作業者の打鍵速度に応じてランクが動的に調整され、そのときの作業者の状態に最も適した再生速度で音声データを再生させることができる。

次に、具体例を用いて音声再生装置の動作を説明する。図８は、音声再生装置の処理によって順次生成される情報を示した図である。
処理の開始前までには、音声データＤＢ１１１に、対象の音声データが格納される。図の例では、音声データ「おはようございますほんじつはとうしゃのしょうひんを・・・」４０１が格納されている。なお、語と語の間のスペースは、話者の音声が途切れた無音時間を表す。

区切り点設定部１２０では、音声データＤＢ１１１に格納される音声データ４０１を読み出して、区切り点を設定し、区間音声データを抽出する。ここでは、音声解析と無声部分の検索から、文の終わりの「〜ます」が検出され、最初の１文の区間音声データ「おはようございます」４０２が抽出されている。

次に、区間音声データにランクに応じた無音部を設定する編集処理が行われる。無音部は、設定されているランクに対応する１音声当たりの無音時間と、区間音声データの音声数とを乗算して算出する。図の例では、算出された無音部は、２文字分の音声の発音時間に相当する。そこで、区間音声データとして抽出された有音部（おはようございます）に、算出された無音部（２文字分）を付加する編集が行われ、編集済音声データ「おはようございます○○」４０３が生成される。マル（○）は、無音部の１文字分を表している。無音部が追加されることにより、有音部の再生時間と、作業者の打鍵時間との差が埋まる。区間音声データに無音部が付加された編集済音声データ「おはようございます○○」４０３は、編集音声データバッファ１１２に格納される。

編集音声データバッファ１１２に格納された編集済音声データ「おはようございます○○」４０３が再生されると、「おはようございます」の音声の後に、２文字分に相当する無音時間が発生する。この間に、作業者は、キーボードを操作し、「おはようございます」に相当するキーを打鍵する。入力された信号は、テキスト変換され、テキストデータ「お早うございます。」４０４が生成される。生成されたテキストデータ「お早うございます。」４０４は、テキストデータＤＢ１１４に格納される。

上記の処理が繰り返されることにより、音声データが順次テキストデータに変換される。編集済音声データ４０３の再生時間は、無音部が追加されることにより、編集済音声データ４０３の打鍵に必要十分な時間となるように調整されている。したがって、作業者の打鍵速度が安定していれば、再生時間内に作業者の打鍵は完了し、音声再生の中断や聞き直しをすることなく、作業を行うことが可能となり、作業効率を向上させることができる。

この作業効率を最大にするためには、作業者の打鍵速度に対してランクが最適に設定される必要がある。このため、打鍵処理開始時に作業者の打鍵速度を計測し、最適なランクを設定する必要がある。さらに、作業者の打鍵速度は、経過時間とともに変化するので、所定のタイミングでランクの調整を行うことが望ましい。

ここで、打鍵速度の測定処理について説明する。図９は、打鍵速度測定部による打鍵速度測定処理を説明する図である。図の例では、有音部分も無音部分も１音声分を１秒として表記している。

（Ａ）パターン１は、有音部（９文字分）に無音部（３文字分）が付加された編集済音声データを中断も聞き直しも行わずに打鍵が終了した場合である。
この場合の開始時刻は、１０：０５：３０で、有音部の９秒（９文字分）と、無音部の３秒（３文字分）との合計１２秒が経過した１０：０５：４２に再生が終了している。打鍵速度計測部１５では、再生時間（ここでは、１２秒）を打鍵時間と見なし、打鍵速度を算出する。パターン１の打鍵速度は、
音声数（９文字）／再生時間（１２秒）＝０．７５（文字／秒）
になる。

（Ｂ）パターン２は、有音部（９文字分）に無音部（２文字分）が付加された編集済音声データを中断も聞き直しも行わずに打鍵が終了した場合である。設定ランクは、パターン１の場合よりも高い（再生速度が速い）。

この場合の開始時刻は、１０：０５：３０で、有音部の９秒（９文字分）と、無音部の２秒（２文字分）との合計１１秒が経過した１０：０５：４１に再生が終了している。パターン１と同様にして、パターン２の打鍵速度を算出すると、
音声数（９文字）／再生時間（１１秒）＝０．８２（文字／秒）
になる。

（Ｃ）パターン３は、有音部（９文字分）に無音部（２文字分）が付加された編集済音声データを、途中で１回聞き直し操作を行って打鍵が終了した場合である。設定ランクはパターン２と同じであるが、再生速度が速いため、再生時間内に打鍵ができなかった。

この場合の開始時刻は、１０：０５：３０で、有音部を６秒（６文字分）再生した時点で、聞き直し操作が行われている。聞き直し操作に３０秒を要し、その後、最初に戻って有音部の９秒（９文字分）と、無音部の２秒（２文字分）と、が再生される。この場合は、最初の有音部再生の９秒、聞き直し操作の３０秒、及び聞き直し後の有音部（９秒）と無音部（２秒）との１１秒を合算した、合計４７秒が経過した１０：０６：０７に再生が終了したとする。パターン１と同様にして、パターン３の打鍵速度を算出すると、
音声数（９文字）／再生時間（４７秒）＝０．１９（文字／秒）
になる。

このように、再生時間を打鍵時間と見なし、再生時間を計測することにより打鍵速度を算出する。これにより、たとえば、打鍵が終了したことを検出するための信号をキー入力部から受け取ることなく、音声再生部だけで打鍵時間を計測することができる。

次に、ランク調整処理について説明する。図７に示したように、ランク設定には、初期化時に実行される初期ランク設定処理（ステップＳ０６）と、作業途中でランクを更新する途中ランク設定処理（ステップＳ０７）がある。

最初に、第１の実施の形態のランク調整処理について説明する。第１の実施の形態では、標準ランクから最適ランク判定を行う初期ランク設定処理と、初期ランク設定終了後、処理ごとにランク調整を行う途中ランク設定処理とを行う。

作業者が打鍵処理を開始した時点では、作業者の能力は不明である。そこで、ランクテーブルに規定されるランクのうち、標準的なランクから打鍵速度の計測を開始し、最適なランクを決定する。このとき使用される音声データは、処理対象の音声データを用いることとする。単位時間当たりの打鍵音声数で算出される打鍵速度によってランクごとの評価を行うので、予め決められたテストデータを用意して比較を行う必要がなく、無駄な作業を省くことができる。なお、以下の説明では、処理はランクテーブル３１０を用いて行うとし、標準ランクはランク４（以下、Ｒ４と表記する）であるとする。

図１０は、第１の実施の形態の初期ランク設定処理の手順を示したフローチャートである。初期段階における最適なランクが設定されるまで、区間音声データが読み出されるごとに処理が開始される。

［ステップＳ１０１］読み出された区間音声データが、処理が開始されてから１〜３回目の読み出しによるものであるかどうかを判断する。１〜３回目であれば、処理をステップＳ１０２へ進め、それ以外であれば、処理をステップＳ１０３へ進める。

［ステップＳ１０２］１〜３回目に読み出された区間音声データが対象であれば、それぞれの計測対象の仮ランクを設定する。最適なランクを判定するためには、隣接するランクの打鍵速度を計測して比較する必要がある。そこで、１〜３回目であれば、標準ランクＲ４を中心として、その上のＲ５（Ｒ４よりも無音時間が１段階長い）と、その下のＲ３（Ｒ４よりも無音時間が１段階短い）との打鍵速度を計測する。ここでは、１回目はＲ４、２回目はＲ５、３回目はＲ３、を計測ランクとして設定する。また、中心のＲ４をランク調整情報３２３の仮ランクに登録しておく。そして、計測された打鍵速度が、初期打鍵速度３２２の該当箇所に格納されるように格納アドレスを指示し、処理を終了する。

［ステップＳ１０３］１〜３回目に読み出された区間音声データが対象でなければ、少なくとも３段階のランクの打鍵速度の計測値を得られているので、初期設定する初期ランクを判定する。どのランクが中心となるかは、ランク調整情報３２３に基づいて判断する。そして、中心となるランクと、その上下のランク値の打鍵速度とを読み出し、最も速い打鍵速度を選択する。中心となるランクの打鍵速度が最も速いときは、そのランクが最適と判断する。それ以外のランクの打鍵速度が速いときは、さらに、上、または下のランクの打鍵速度を計測する必要がある。たとえば、１〜３回目の打鍵速度計測が終了した時点では、初期打鍵速度３２２のＲ３，Ｒ４，Ｒ５に打鍵速度が登録されている。そこで、Ｒ３，Ｒ４，Ｒ５の打鍵速度を比較する。中心となるＲ４が最も速ければ、Ｒ４が最適ランクとなる。Ｒ３が最も速ければ、さらに下のランクが最適となる可能性もあるので、下のランクの打鍵速度を計測する必要がある。同様に、Ｒ５が最も速ければ、さらに上のランクの打鍵速度を計測する必要がある。

［ステップＳ１０４］ステップＳ１０３による初期ランク判定で、最適なランクが決定されたかどうかを判定する。中心のランクの処理速度が最も速いときのみ最適なランクが決定されていると判定される。ランクが決定されていれば、処理をステップＳ１０５へ進め、未決定であれば、処理をステップＳ１０６へ進める。

［ステップＳ１０５］中心のランクの処理速度が最も速いと判定され、さらなる計測が必要ない場合、この中心のランクをランク初期最適値に設定し、処理を終了する。終了時には、初期化終了フラグをセットする。

［ステップＳ１０６］さらに、打鍵速度を計測する必要があるとき、ステップＳ１０３で最速と判定されたランクが、中心のランクより上であるか下であるかを判定する。上の場合にはランクを引き上げて打鍵速度を計測する必要があり、下の場合にはランクを引き下げて打鍵速度を計測する必要がある。ランクを引き下げるときは、処理をステップＳ１０７へ進め、ランクを引き上げるときは処理をステップＳ１１０へ進める。

［ステップＳ１０７］ランクを引き下げる必要があるとき、現在の打鍵速度が計測されている最も小さいランク値が最小であるかどうかを判定する。この場合、最も小さいランク値はＲ１になる。最小であれば、処理をステップＳ１０８へ進め、最小でなければ、処理をステップＳ１０９へ進める。

［ステップＳ１０８］ランクの引き下げが必要で、かつ、現在のランクが最小のときは、ランク初期最適値を最小のＲ１に設定し、処理を終了する。
［ステップＳ１０９］ランクの引き下げが必要で、かつ、現在の仮ランクが最小でないときは、ランク調整情報３２３のランク引き下げ情報に登録されている仮ランクｍを１段階下げ、仮ランクに設定する。そして、さらに１段階小さいランクを計測ランクに設定し、処理を終了する。これにより、新たに設定された仮ランクｍ−１を中心として、打鍵速度が得られ、仮ランクｍ−１の評価を行うことができるようになる。

［ステップＳ１１０］ランクを引き上げる必要があるとき、現在の打鍵速度が計測されている最も大きいランク値が最大であるかどうかを判定する。この場合、最も大きいランク値はＲ８になる。最大であれば処理をステップＳ１１１へ進め、最大でなければ処理をステップＳ１１２へ進める。

［ステップＳ１１１］ランクの引き上げが必要で、かつ、現在の仮ランクが最大のときは、ランク初期最適値を最大のＲ８に設定し、処理を終了する。
［ステップＳ１１２］ランクの引き上げが必要で、かつ、現在のランクが最大でないときは、ランク調整情報３２３のランク引き上げ情報に登録されている仮ランクｎを１段階上げ、仮ランクに設定する。そして、さらに１段階上のランクを計測ランクに設定し、処理を終了する。これにより、新たに設定された仮ランクｎ−１を中心として、打鍵速度が得られ、仮ランクｎ−１の評価を行うことができるようになる。

以上の処理手順が実行されることにより、処理開始後の作業者の状態に最適な再生速度に対応するランクがランク初期最適値に設定される。
しかし、作業者の状態は同じではないので、作業途中でランクを調整する必要がある。

図１１は、第１の実施の形態の途中ランク設定処理の手順を示したフローチャートである。上記の初期ランク設定処理が終了し、ランク初期最適値が設定された後、区間音声データが読み出されるごとに処理が開始される。

［ステップＳ２０１］作業途中ランク情報３３０を更新する。ランク情報３３１の前回のランクを前々回のランクに、今回のランクを前回のランクに格納する。同様に、打鍵速度情報３３２の前回の打鍵速度を前々回の打鍵速度に、今回の打鍵速度を前回の打鍵速度に格納する。なお、初期ランク設定処理終了時点では、今回のランクにはランク初期最適値が、今回の打鍵速度には、ランク初期最適値に対応する初期打鍵速度が格納されている。

［ステップＳ２０２］打鍵速度情報３３２に格納される前々回打鍵速度と、前回打鍵速度とを読み出して比較する。
［ステップＳ２０３］比較の結果、前回打鍵速度の方が、前々回打鍵速度より大きいかどうかを判定する。大きいときは、処理をステップＳ２０４へ進め、大きくないときは処理をステップＳ２０５へ進める。

［ステップＳ２０４］前回打鍵速度が前々回打鍵速度より大きいときは、今回のランクを前回のランクより１段階下にする。すなわち、無音時間を短くし、再生速度を速くし、処理を終了する。前回打鍵速度が前々回打鍵速度より大きいときは、作業者の打鍵速度が速くなっていると判断されるので、より速い再生速度が選択されるようにランク調整を行う。

［ステップＳ２０５］前回打鍵速度が前々回打鍵速度より大きくないときは、前回打鍵速度と前々回打鍵速度とが同じであるかどうかを判定する。同じときは、処理をステップＳ２０６へ進め、同じでないときは、処理をステップＳ２０７へ進める。

［ステップＳ２０６］前回打鍵速度と前々回打鍵速度とが同じときは、今回のランクを前回のランクより１段階下にする。すなわち、無音時間を短くし、再生速度を速くし、処理を終了する。前回打鍵速度が前々回打鍵速度と同じであれば、作業者の打鍵速度は再生速度に十分対応しているので、再生速度を速くしても対応できる可能性がある。そこで、より速い再生速度が選択されるランク調整を行う。なお、必要であれば、打鍵速度を保持している期間が一定時間を超えたときなどの条件をさらに付加し、ランクを下げる判断を行うようにしてもよい。

［ステップＳ２０７］前回打鍵速度が前々回打鍵速度より小さいときは、今回のランクを前回のランクより１段階上にする。すなわち、無音時間を長くし、再生速度を遅くし、処理を終了する。前回打鍵速度が前々回打鍵速度より小さいときは、作業者の打鍵速度が再生速度に追いつかないと判断されるので、再生速度を下げるようにランク調整を行う。

以上のように、前回と前々回の打鍵速度に応じて、ランク調整を行って、音声の再生速度を調整する。これにより、作業者の状態が変化し、打鍵速度が速くなったり遅くなったりしても、これに合わせて再生速度が調整される。このように、常に最適な再生速度で作業を行うことが可能となる。

なお、上記の説明では、初期ランク設定と、作業途中でのランク設定に用いるランクテーブルを共通としたが、それぞれにランクテーブルを用意してもよい。たとえば、作業途中では、再生速度の変化がより穏やかになるようにランクテーブルを設定する。

また、実際の処理では、算出される打鍵速度は、再生される音声によって多少揺らぎが生じる。そこで、判定基準に幅を持たせるようにしてもよい。
次に、第２の実施の形態のランク調整処理について説明する。第１の実施の形態では、初期ランク設定処理を標準のランクから最適ランクを調べるとしたが、第２の実施の形態では、最小のランクから最適ランクを調べる。また、第１の実施の形態では、１回の処理で打鍵速度を求めていたが、第２の実施の形態では、同一ランクについて複数回分の打鍵速度を算出する。ここでは、同一ランクで５回測定を行うとする。

図１２は、第２の実施の形態の初期ランク設定処理の手順を示したフローチャートである。初期段階における最適なランクが設定されるまで、区間音声データが読み出されるごとに処理が開始される。

［ステップＳ３０１］読み出された区間音声データが、処理が開始されてから１回目の読み出しによるものであるかどうかを判断する。１回目であれば、処理をステップＳ３０２へ進め、それ以外であれば、処理をステップＳ３０３へ進める。

［ステップＳ３０２］１回目に読み出された区間音声データが対象であれば、それぞれの計測対象の仮ランクを最小（再生速度が最も速い）のＲ１に設定する。さらに、測定カウンタを０に初期化し、処理を終了する。第２の実施の形態では、同一ランクについて５回分の打鍵速度を測定し、最適なランクの判定を行う。

［ステップＳ３０３］１回目に読み出された区間音声データが対象でなければ、測定カウンタを読み出し、カウントの値が５以上であるかどうかを判定する。５以上であれば、処理をステップＳ３０５へ進め、５に満たなければ処理をステップＳ３０４へ進める。

［ステップＳ３０４］測定カウンタの値が５に満たない場合は、打鍵速度の測定が必要回数（５回）行われていない。そこで、測定カウンタを１カウントアップするとともに、５つの打鍵速度を格納できる領域を格納アドレスに指定し、処理を終了する。これにより、同一ランクで５回分の打鍵速度が測定される。

［ステップＳ３０５］測定カウンタの値が５を超える場合は、打鍵速度の測定が必要回数（５回）行われているので、測定された打鍵速度を比較する。
［ステップＳ３０６］測定された打鍵速度が基準の範囲内であるかどうかを判定する。打鍵速度は、再生音声データの違いなどによって、多少差が出る。しかし、５回計測を行って、そのうち所定の基準を超えて遅い打鍵速度が検出されたときは、打鍵速度が生成速度に追いつかず、聞き直しなどの操作がされたと判断される。すべて基準内であれば、処理をステップＳ３０７へ進め、基準を超えるものがあれば、処理をステップＳ３０８へ進める。

［ステップＳ３０７］すべての打鍵速度が基準内であると判定されたときは、このとき設定される仮ランクをランク初期最適値に設定し、処理を終了する。終了時には、初期化終了フラグをセットする。

［ステップＳ３０８］基準を超える打鍵速度が検出されたときは、再生速度が打鍵速度に比べて速いと判断し、仮ランクＲｎを１段階上のＲ（ｎ＋１）に設定する。さらに、測定カウンタをリセットし、処理を終了する。

以上の処理手順が実行されることにより、処理開始後の作業者の状態に最適な再生速度に対応するランクがランク初期最適値に設定される。このように、最も速い再生速度から順にランクを試し、再生時間内に打鍵処理が終了したランクを最適ランクとすることにより、作業効率を最大とするランクを設定することができる。また、同一ランクで複数回の計測を行うことにより、安定的なランク設定が可能となる。

次に、第３の実施の形態のランク調整処理について説明する。第３の実施の形態では、途中ランク設定処理においてランクを上げる（再生速度を遅くする）タイミングを、聞き直しなどの指示が出されたと思われる場合に限定する。図９に示したように、聞き直しなどの再生指示が途中で発生すると、打鍵速度は著しく低下する。そこで、このように打鍵速度が著しく低下したときを検出したときのみ、ランクを上げる。

図１３は、第３の実施の形態の途中ランク設定処理の手順を示したフローチャートである。初期ランク設定処理が終了し、ランク初期最適値が設定された後、区間音声データが読み出されるごとに処理が開始される。

［ステップＳ４０１］作業途中ランク情報３３０を更新する。ランク情報３３１の前回のランクを前々回のランクに、今回のランクを前回のランクに格納する。同様に、打鍵速度情報３３２の前回の打鍵速度を前々回の打鍵速度に、今回の打鍵速度を前回の打鍵速度に格納する。なお、初期ランク設定処理終了時点では、今回のランクにはランク初期最適値が、今回の打鍵速度には、ランク初期最適値に対応する初期打鍵速度が格納されている。

［ステップＳ４０２］打鍵速度情報３３２に格納される前々回打鍵速度と、前回打鍵速度とを読み出して比較する。
［ステップＳ４０３］比較の結果、前回打鍵速度の方が、前々回打鍵速度より大きいかどうかを判定する。大きいときは、処理をステップＳ４０４へ進め、大きくないときは処理をステップＳ４０５へ進める。

［ステップＳ４０４］前回打鍵速度が前々回打鍵速度より大きいときは、今回のランクを前回のランクより１段階下にする。すなわち、無音時間を短くし、再生速度を速くし、処理を終了する。前回打鍵速度が前々回打鍵速度より大きいときは、作業者の打鍵速度が速くなっていると判断されるので、より速い再生速度を選択するランク調整を行う。

［ステップＳ４０５］前回打鍵速度が前々回打鍵速度より大きくないときは、前回打鍵速度と前々回打鍵速度とが同じであるかどうかを判定する。同じときは、処理をステップＳ４０６へ進め、同じでないときは、処理をステップＳ４０７へ進める。

［ステップＳ４０６］前回打鍵速度と前々回打鍵速度とが同じときは、今回のランクを前回のランクより１段階下にする。すなわち、無音時間を短くし、再生速度を速くし、処理を終了する。前回打鍵速度が前々回打鍵速度と同じであれば、作業者の打鍵速度は再生速度に十分対応しているので、再生速度を速くしても対応できる可能性がある。そこで、より速い再生速度を選択するランク調整を行う。

［ステップＳ４０７］前回打鍵速度が前々回打鍵速度より小さいときは、その差の大きさを比較する。前回打鍵処理時に、聞き直しなどの再生指示が行われていれば、前回打鍵速度と、前々回打鍵速度との差は大きくなる。

［ステップＳ４０８］ステップＳ４０７における比較の結果、前回打鍵速度と前々回打鍵速度との差が大きくないときは、処理をステップＳ４０９へ進め、差が大きいときは、処理をステップＳ４１０へ進める。

［ステップＳ４０９］前回打鍵速度と前々回打鍵速度との差が大きくないときは、設定ランクをそのまま維持し、処理を終了する。
［ステップＳ４１０］前回打鍵速度と前々回打鍵速度との差が大きいときは、作業者の打鍵速度が再生速度に追いつかず、聞き直しなどの操作が行われたと判断されるので、再生速度を下げるようにランク調整を行う。
以上の処理手順が実行されることにより、聞き直し操作などが行われたときのみ、ランクを上げて再生速度を遅くすることができるようになる。再生速度が速いほど、作業効率は向上し、作業時間が短縮される。したがって、作業効率の向上のためには、聞き直しなどの操作が行われない限り、その速度が維持されることが望ましい。そこで、第３の実施の形態では、ランクの引き上げを聞き直し操作などが行われたきに限定する。

次に、第４の実施の形態のランク調整処理について説明する。第４の実施の形態では、ある所定の時間ごとに、初期ランク設定処理を行わせ、ランクの最適化を図る。ここでは、途中ランク設定処理が１００回行われるごとに、初期ランク設定処理が実行される。

図１４は、第４の実施の形態の途中ランク設定処理の手順を示したフローチャートである。初期ランク設定処理が終了し、ランク初期最適値が設定された後、区間音声データが読み出されるごとに処理が開始される。

［ステップＳ５０１］途中ランク設定処理の処理回数をカウントするカウンタを読み出し、カウンタが１００以上であるかどうかを判定する。１００以上であれば、処理をステップＳ５０２へ進め、１００に満たなければ、処理をステップＳ５０３へ進める。

［ステップＳ５０２］カウンタが１００以上であれば、初期ランク設定処理終了後、途中ランク設定処理が１００回以上行われているので、初期化終了フラグをリセットし、処理を終了する。これにより、次回処理では、初期ランク設定処理が行われる。

［ステップＳ５０３］作業途中ランク情報３３０を更新する。ランク情報３３１の前回のランクを前々回のランクに、今回のランクを前回のランクに格納する。同様に、打鍵速度情報３３２の前回の打鍵速度を前々回の打鍵速度に、今回の打鍵速度を前回の打鍵速度に格納する。なお、初期ランク設定処理終了時点では、今回のランクにはランク初期最適値が、今回の打鍵速度には、ランク初期最適値に対応する初期打鍵速度が格納されている。

［ステップＳ５０４］打鍵速度情報３３２に格納される前々回打鍵速度と、前回打鍵速度とを読み出して比較する。
［ステップＳ５０５］比較の結果、前回打鍵速度の方が、前々回打鍵速度より大きいかどうかを判定する。大きいときは、処理をステップＳ５０６へ進め、大きくないときは処理をステップＳ５０７へ進める。

［ステップＳ５０６］前回打鍵速度が前々回打鍵速度より大きいときは、今回のランクを前回のランクより１段階下にする。すなわち、無音時間を短くし、再生速度を速くし、処理をステップＳ５１３へ進める。前回打鍵速度が前々回打鍵速度より大きいときは、作業者の打鍵速度が速くなっていると判断されるので、より速い再生速度を選択するランク調整を行う。

［ステップＳ５０７］前回打鍵速度が前々回打鍵速度より大きくないときは、前回打鍵速度と前々回打鍵速度とが同じであるかどうかを判定する。同じときは、処理をステップＳ５０８へ進め、同じでないときは、処理をステップＳ５０９へ進める。

［ステップＳ５０８］前回打鍵速度と前々回打鍵速度とが同じときは、今回のランクを前回のランクより１段階下にする。すなわち、無音時間を短くし、再生速度を速くし、処理をステップＳ５１３に進める。

［ステップＳ５０９］前回打鍵速度が前々回打鍵速度より小さいときは、その差の大きさを比較する。前回打鍵処理時に、聞き直しなどの再生指示が行われていれば、前回打鍵速度と、前々回打鍵速度との差は大きくなる。

［ステップＳ５１０］ステップＳ５０９における比較の結果、前回打鍵速度と前々回打鍵速度との差が大きくないときは、処理をステップＳ５１１へ進め、差が大きいときは、処理をステップＳ５１２へ進める。

［ステップＳ５１１］前回打鍵速度と前々回打鍵速度との差が大きくないときは、設定ランクをそのまま維持し、処理をステップＳ５１３に進める。
［ステップＳ５１２］前回打鍵速度と前々回打鍵速度との差が大きいときは、作業者の打鍵速度が再生速度に追いつかず、聞き直しなどの操作が行われたと判断されるので、再生速度を下げるようにランク調整を行う。
［ステップＳ５１３］カウンタをカウントアップし、処理を終了する。

以上の処理手順が実行されることにより、途中ランク設定処理が所定の回数実行されるごとに、初期ランク設定処理が１回起動されるようになる。また、初期ランク設定処理は、たとえば、計時手段によって経過時間を計測し、所定の時間が経過するごとに起動させるようにしてもよい。

なお、上記の処理機能は、コンピュータによって実現することができる。その場合、音声再生装置が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク装置（ＨＤＤ）、フレキシブルディスク（ＦＤ）、磁気テープなどがある。光ディスクには、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）などがある。光磁気記録媒体には、ＭＯ（Magneto-Optical disk）などがある。

プログラムを流通させる場合には、たとえば、そのプログラムが記録されたＤＶＤ、ＣＤ−ＲＯＭなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。

プログラムを実行するコンピュータは、たとえば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。

（付記１）記録媒体に記録された音声データの再生処理のための音声再生プログラムにおいて、
コンピュータを、
前記音声データの有音部分を検出して区切り点を設定し、前記区切り点で区切られる区間音声データを抽出する区切り点設定手段、
１音声当たりに付加される無音時間に対応付けられるとともに、再生された音声を聞いて作業を行う作業者の処理速度に応じて値が設定されるランクが記憶されるランク情報記憶手段から現在設定されている設定ランクを読み出し、前記区間音声データに、前記設定ランクに基づいて算出される無音部を付加して再生速度を調整する編集を施し、編集音声データ記憶手段に格納する音声データ編集手段、
前記編集音声データ記憶手段から編集が終了した編集済音声データを読み出して再生するとともに、聞き直しを含む再生指示が外部より入力されたときは、前記再生指示に従って前記編集済音声データの再生を制御する音声再生制御手段、
前記音声再生制御手段によって前記編集済音声データが再生された時間を計測した再生時間と、前記編集済音声データの音声数とに基づいて前記作業者の処理速度を算出し、前記作業者の処理速度に応じて前記設定ランクを調整するランク調整手段、
として機能させることを特徴とする音声再生プログラム。

（付記２）前記ランク調整手段は、
処理が開始されたときに前記作業者の処理速度を計測し、計測結果に基づいて処理開始時点で最適な前記設定ランクを決定する初期ランク設定手段と、
作業途中の任意のタイミングで前記作業者の処理速度を評価し、前記作業者の処理速度が同程度を維持、または、速くなっていることが検出されたときは、前記再生速度を速め、前記作業者の処理速度が遅くなっているときは、前記再生速度を遅くするように前記設定ランクを調整する途中ランク更新手段と、
を有することを特徴とする付記１記載の音声再生プログラム。

（付記３）前記ランク調整手段は、前記作業者の処理速度の変化を、前回処理で計測された処理速度と、前記前回処理よりも前に計測された処理速度と、を比較することによって検出する、ことを特徴とする付記２記載の音声再生プログラム。

（付記４）前記ランク調整手段は、前記計測された処理速度が、所定の基準範囲を超えることが検出されたときのみ、前記再生速度を遅くさせるように前記設定ランクを調整する、ことを特徴とする付記２記載の音声再生プログラム。

（付記５）前記ランク調整手段は、前記初期ランク設定手段を、所定の時間が経過するごとに、もしくは、前記途中ランク更新手段が所定の回数実行されるごとに、起動させる、ことを特徴とする付記２記載の音声再生プログラム。

（付記６）前記区切り点設定手段は、次回処理対象の前記区間音声データの次の区間よりも後に再生される区間の前記音声データを先読みし、無音部分が含まれるときはこれを削除し、有音部分のみを抽出する、ことを特徴とする付記１記載の音声再生プログラム。

（付記７）前記区切り点設定手段は、前記先読みされた音声データを解析し、論理的に区切れる箇所に前記区切り点を設定する、ことを特徴とする付記６記載の音声再生プログラム。

（付記８）前記作業者は、前記再生された音声を聞いて前記音声データをテキストデータに変換する書き起こし作業を行い、前記作業者の処理速度は、前記作業者がキーボードを操作して打鍵処理を行った音声数によって算出される打鍵速度である、ことを特徴とする付記１記載の音声再生プログラム。

（付記９）記録媒体に記録された音声データに基づいて音声を再生する音声再生装置において、
１音声当たりに付加される無音時間に対応付けられるとともに、再生された音声を聞いて作業を行う作業者の処理速度に応じて値が設定されるランクが記憶されるランク情報記憶手段と、
編集が施された編集済音声データが記憶される編集音声データ記憶手段と、
前記記録媒体に記録された前記音声データの有音部分を検出して区切り点を設定し、前記区切り点で区切られる区間音声データを抽出する区切り点設定手段と、
前記ランク情報記憶手段から現在設定されている設定ランクを読み出し、前記区間音声データに、前記設定ランクに基づいて算出される無音部を付加して再生速度を調整する編集を施し、編集音声データ記憶手段に格納する音声データ編集手段と、
前記編集音声データ記憶手段から編集が終了した前記編集済音声データを読み出して再生するとともに、聞き直しを含む再生指示が外部より入力されたときは、前記再生指示に従って前記編集済音声データの再生を制御する音声再生制御手段と、
前記音声再生制御手段によって前記編集済音声データが再生された時間を計測した再生時間と、前記編集済音声データの音声数とに基づいて前記作業者の処理速度を算出し、前記作業者の処理速度に応じて前記設定ランクを調整するランク調整手段と、
を有することを特徴とする音声再生装置。

（付記１０）記録媒体に記録された音声データの再生処理のための音声再生方法において、
区切り点設定手段が、前記音声データの有音部分を検出して区切り点を設定し、前記区切り点で区切られる区間音声データを抽出するステップと、
音声データ編集手段が、１音声当たりに付加される無音時間に対応付けられるとともに、再生された音声を聞いて作業を行う作業者の処理速度に応じて値が設定されるランクが記憶されるランク情報記憶手段から、現在設定されている設定ランクを読み出し、前記設定ランクに基づいて前記区間音声データに付加する無音部を算出して付加する編集を施して編集音声データ記憶手段に格納するステップと、
音声再生制御手段が、前記編集音声データ記憶手段から編集が終了した編集済音声データを読み出して再生するとともに、聞き直しを含む再生指示が外部より入力されたときは、前記再生指示に従って前記編集済音声データの再生を制御するステップと、
ランク調整手段が、前記音声再生制御手段によって前記編集済音声データが再生された時間を計測した再生時間と、前記編集済音声データの音声数とに基づいて前記作業者の処理速度を算出し、前記作業者の処理速度に応じて前記設定ランクを調整するステップと、
を有することを特徴とする音声再生方法。

実施の形態に適用される発明の概念図である。本実施の形態の音声再生装置のハードウェア構成例を示すブロック図である。音声再生装置のソフトウェア構成例を示す機能ブロック図である。ランクテーブルの一例を示した図である。初期ランク設定処理において参照されるランク情報を示した図である。途中ランク更新処理において参照されるランク情報を示した図である。音声再生装置における処理手順を示したフローチャートである。音声再生装置の処理によって順次生成される情報を示した図である。打鍵速度測定部による打鍵速度測定処理を説明する図である。第１の実施の形態の初期ランク設定処理の手順を示したフローチャートである。第１の実施の形態の途中ランク設定処理の手順を示したフローチャートである。第２の実施の形態の初期ランク設定処理の手順を示したフローチャートである。第３の実施の形態の途中ランク設定処理の手順を示したフローチャートである。第４の実施の形態の途中ランク設定処理の手順を示したフローチャートである。

符号の説明

１音声再生装置
１ａ音声データ記憶手段
１ｂ編集音声データ記憶手段
１ｃランク情報記憶手段
１ｄ区切り点設定手段
１ｅ音声データ編集手段
１ｆ音声再生制御手段
１ｇランク調整手段

Claims

記録媒体に記録された音声データの再生処理のための音声再生プログラムにおいて、
コンピュータを、
前記音声データの有音部分を検出して区切り点を設定し、前記区切り点で区切られる区間音声データを抽出する区切り点設定手段、
１音声当たりに付加される無音時間に対応付けられるとともに、再生された音声を聞いて作業を行う作業者の処理速度に応じて値が設定されるランクが記憶されるランク情報記憶手段から現在設定されている設定ランクを読み出し、前記区間音声データに、前記設定ランクに基づいて算出される無音部を付加して再生速度を調整する編集を施し、編集音声データ記憶手段に格納する音声データ編集手段、
前記編集音声データ記憶手段から編集が終了した編集済音声データを読み出して再生するとともに、聞き直しを含む再生指示が外部より入力されたときは、前記再生指示に従って前記編集済音声データの再生を制御する音声再生制御手段、
前記音声再生制御手段によって前記編集済音声データが再生された時間を計測した再生時間と、前記編集済音声データの音声数とに基づいて前記作業者の処理速度を算出し、前記作業者の処理速度に応じて前記設定ランクを調整するランク調整手段、
として機能させることを特徴とする音声再生プログラム。
前記ランク調整手段は、
処理が開始されたときに前記作業者の処理速度を計測し、計測結果に基づいて処理開始時点で最適な前記設定ランクを決定する初期ランク設定手段と、
作業途中の任意のタイミングで前記作業者の処理速度を評価し、前記作業者の処理速度が同程度を維持、または、速くなっていることが検出されたときは、前記再生速度を速め、前記作業者の処理速度が遅くなっているときは、前記再生速度を遅くするように前記設定ランクを調整する途中ランク更新手段と、
を有することを特徴とする請求項１記載の音声再生プログラム。
前記区切り点設定手段は、次回処理対象の前記区間音声データの次の区間よりも後に再生される区間の前記音声データを先読みし、無音部分が含まれるときはこれを削除し、有音部分のみを抽出する、ことを特徴とする請求項１記載の音声再生プログラム。
記録媒体に記録された音声データに基づいて音声を再生する音声再生装置において、
１音声当たりに付加される無音時間に対応付けられるとともに、再生された音声を聞いて作業を行う作業者の処理速度に応じて値が設定されるランクが記憶されるランク情報記憶手段と、
編集が施された編集済音声データが記憶される編集音声データ記憶手段と、
前記記録媒体に記録された前記音声データの有音部分を検出して区切り点を設定し、前記区切り点で区切られる区間音声データを抽出する区切り点設定手段と、
前記ランク情報記憶手段から現在設定されている設定ランクを読み出し、前記区間音声データに、前記設定ランクに基づいて算出される無音部を付加して再生速度を調整する編集を施し、編集音声データ記憶手段に格納する音声データ編集手段と、
前記編集音声データ記憶手段から編集が終了した前記編集済音声データを読み出して再生するとともに、聞き直しを含む再生指示が外部より入力されたときは、前記再生指示に従って前記編集済音声データの再生を制御する音声再生制御手段と、
前記音声再生制御手段によって前記編集済音声データが再生された時間を計測した再生時間と、前記編集済音声データの音声数とに基づいて前記作業者の処理速度を算出し、前記作業者の処理速度に応じて前記設定ランクを調整するランク調整手段と、
を有することを特徴とする音声再生装置。