JP2006503329A - 音声データを再生するための装置、方法、およびコンピュータプログラム - Google Patents

音声データを再生するための装置、方法、およびコンピュータプログラム Download PDF

Info

Publication number
JP2006503329A
JP2006503329A JP2004544587A JP2004544587A JP2006503329A JP 2006503329 A JP2006503329 A JP 2006503329A JP 2004544587 A JP2004544587 A JP 2004544587A JP 2004544587 A JP2004544587 A JP 2004544587A JP 2006503329 A JP2006503329 A JP 2006503329A
Authority
JP
Japan
Prior art keywords
data
text
playback
word
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004544587A
Other languages
English (en)
Inventor
クワク フリムポンガンサー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2006503329A publication Critical patent/JP2006503329A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel

Landscapes

  • Document Processing Apparatus (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

単語から構成されたテキストからのテキストデータ(Ti)に対応する、メモリ手段(19)に記憶された音声データ(Ai)の再生であって、音声データ(Ai)の順方向モードおよび逆方向モードでの再生を制御することのできる再生の間に、音声データ(Ai)中の特定の一時点の再生位置から開始して、ターゲット位置へ向かって、少なくとも約2つの単語分の長さに相当する戻り距離(1A、2A、3A、6A)に亘り、順方向シーケンスと反対向きの逆方向ジャンプが、逆方向モードでの音声データ(Ai)の再生のために自動的に始動され、その後、その特定のターゲット位置から開始して、戻り距離の一部(1B、2B、3B、6B)のみについて、順方向シーケンスでの音声データ(Ai)の再生が行われる。

Description

本発明は、単語から構成されたテキストからのテキストデータに対応する音声データを再生するための装置であって、記憶されるべき音声データをそのメモリ手段内に順方向シーケンスで読み込むことができる、音声データを記憶するためのメモリ手段と、記憶された音声データの、順方向モードおよび逆方向モードでの再生を制御する制御手段と、音声再生手段とを有する装置に関するものである。
本発明はまた、記憶されるべき音声データが順方向シーケンスで読み込まれるメモリ手段内に記憶された音声データであり、単語から構成されたテキストからのテキストデータに対応する音声データを再生するための方法であって、音声データの、順方向モードおよび逆方向モードでの再生を制御することができる方法にも関するものである。
本発明はさらに、コンピュータプログラム、およびこの種のコンピュータプログラムを実行するためのコンピュータにも関するものである。
テキストの手動または自動による文字化、とりわけ音声認識システムを用いて自動的に文字化されたテキストを修正する際には、口述されて音声データの形態でデジタル記憶されたテキストを、たとえばヘッドホン等の音声再生手段を用いて聞くのが普通である。その際、テキストが既に文字化されており修正を要する場合には、記憶された音声データに対応する、既にテキストファイルとして記憶されたテキストが、たとえばコンピュータワークステーションのモニター等のテキスト表示手段を用いて、同時に表示されるかもしれない。とりわけ、互いに対応する音声データおよびテキストデータに、たとえば単語の始点を示す対応の単語マーキングデータであって、互いに対応(すなわち一致)する音声データとテキストデータとが音響的および視覚的に順方向モードで同期再生されるように、それらの音声データとテキストデータとを表示する、リンクデータとしての単語マーキングデータが供給されることも知られている。この目的に適した1つの技術が、たとえば国際公開WO01/46853 A1号に記載されている。また、現在音響再生されている特定の単語が、視覚的に表示されているテキスト部分内で視覚的に強調されることも知られている。このことも、単語マーキングデータすなわちリンクデータによって形成された制御データを用いて実現され得る。
単語の聞取りおよび表示を互いに関連付けて行うことは、順方向モードおよび順方向シーケンスでのみ可能とされる。仮に、一時点の再生位置から開始して、順方向シーケンスと反対向きに前のテキスト位置に戻る動作が生じると、音声の再生も同時にアクティブ状態とされてもよいが、この音声の再生も同様に順方向シーケンスと反対向きになるため、理解不能な形態となる。たとえば口述が自動または手動により文字化され、文字化と修正(修正が適用可能である場合)とを担当する人物が、口述を行った人物と異なる場合、文字化を担当する人物は、前のテキスト位置への戻りに非常に苛立ちを感じる。これは、文字化を担当する人物は、口述されたテキストが全く分からず、かつ、メモリ手段内にデジタル形式で記憶された音声データが、利用可能なソフトウェアに応じて、順方向シーケンスと反対向きに、理解不能な形態で、文字化を担当する人物に高速で連続して提示されるためである。そのため、文字化を担当する人物は、順方向シーケンスでの再生に手動で切り換えて、口述された問題の節の聞取りを行わなければならず、前もって自動的な文字化が行われた場合には、対応するテキストの単語を目で確認しなくてはならない。この場合、視覚的に表示されたテキストと同期させられた音声再生は、この順方向モードにおいてのみ可能である。このことは、比較的大きな時間投入量を意味し、その結果、テキストの処理を行っている人物の集中力が落ちてしまうかもしれない。テキストの処理を行っている人物の処理能率も、悪影響を受ける。
米国特許出願公開2002/0062214 A1号には、単語のグループがコンピュータのモニター上に表示され、異なる作業工程の制御のために、切換フィールドが提供されたテキストマーキングシステムが記載されている。これにより、テキストの1つの行において視覚的に強調されてマーキングされた単語から、その直前の単語またはその直後の単語へのジャンプの発生を可能とし、その単語を視覚的に強調すると同時に音響再生するため、別個にアクティブ状態とされた2つの切換フィールドが提供される。しかしながら、ある特定の単語から開始して、たとえば10単語または20単語前といった、その単語より前に比較的遠くはなれたテキスト位置が探索される場合には、適当な切換フィールドにおいて手動で繰返しクリック操作を行う必要があるため、この制御システムは、非常な労力および時間を要するものである。
本発明の1つの目的は、上記の状況を改善し、処理を担当する人物の側において、最小限の可能な手動制御操作を必要とする、記憶された音声データ内の口述されたテキスト節の、高速かつターゲットを絞った探索を可能とする装置および方法を実現することである。
上記の目的を達成するため、本発明の第1の側面によれば、本発明は、単語から構成されたテキストからのテキストデータに対応する記憶された音声データを再生するための装置であって、記憶されるべき音声データをそのメモリ手段内に順方向シーケンスで読み込むことができる、音声データを記憶するためのメモリ手段と、記憶された音声データの、順方向モードおよび逆方向モードでの再生を制御する制御手段と、音声再生手段とを有し、逆方向モードでの音声データの再生の間に、その音声データ中の特定の一時点の再生位置から開始して、ターゲット位置へ向かって、少なくとも約2つの単語分の長さに相当する戻り距離に亘り、順方向シーケンスと反対向きの逆方向ジャンプを自動的に始動させ、その後、その特定のターゲット位置から開始して、上記の戻り距離の一部のみについて、順方向シーケンスでの音声データの再生を始動させるように、上記の制御手段が設定されている装置を提供する。
本発明の第2の側面によれば、本発明は、記憶されるべき音声データが順方向シーケンスで読み込まれるメモリ手段内に記憶された音声データであり、単語から構成されたテキストからのテキストデータに対応する音声データを再生するための方法であって、音声データの、順方向モードおよび逆方向モードでの再生を制御することができ、逆方向モードでの音声データの再生の間に、その音声データ中の特定の一時点の再生位置から開始して、ターゲット位置へ向かって、少なくとも約2つの単語分の長さに相当する戻り距離に亘り、順方向シーケンスと反対向きの逆方向ジャンプが自動的に生じ、その後、その特定のターゲット位置から開始して、上記の戻り距離の一部のみについて、順方向シーケンスでの再生が行われる方法を提供する。
本発明に係る方法を用いれば、音声データ内の特定のテキスト節の探索を、従来技術の場合よりも速く、かつ効率的に行うことができる。たとえば仮に、ある人物がテキストの文字化または修正を行っている際、あるテキスト位置に到達したときに、その人物が、文字化または修正途中のテキスト内の、10単語分または20単語分前にあった既に文字化または修正したテキスト位置において、明確さの欠如、矛盾、または間違いがあったかもしれないと認識する問題が生じたとする。その場合、コンピュータによる支援により、テキスト内のさらに以前に位置するターゲット位置への、指定された戻り距離に従うジャンプが自動的に発生し、その後、その特定の戻り距離の指定された部分のみについて、順方向シーケンスでの音響再生が行われる本発明に係る方法を始動させれば、逆方向モードでの対応の探索を、極めて速く、かつ完全自動で行うことができる。その結果、理解可能な音声再生が実現され、作業中の人物は、理解上の問題を有さないこととなる。対応の文字化されたテキストが既に利用可能である場合、音声データにより表されたテキスト内での逆方向ジャンプは、好ましくは、通常は新しい単語の始点を示すものである制御文字として、単語マーキングデータを利用して生じる。文字化されたテキストがまだ利用可能でない場合、音声データ内での自動的な逆方向ジャンプのための戻り距離は、たとえば少なくとも2つの単語の平均データ長または平均データ時間に対応するものとして推定される。その場合、たとえば1秒または2秒の順方向再生時間が基礎となる。したがって、かかる状況においては、平均化された「単語長」に従って音声データがセグメントに分割されてもよいので、特定の戻り距離は、必ずしも、実際に話された複数の単語分の長さに厳密に対応していなくてもよいとも言える。各々の逆方向ジャンプの後に提供される、順方向シーケンスでの再生の持続時間についても、同じことが言える。
したがって、本発明に係る方法の下では、(約)2つまたは3つの単語分の逆方向ジャンプが起こり得て、それに続き、(約)1つの単語分の自動的な音声再生が起こり得る。その際、現在再生されている単語は、その後、後続の工程において生じる音声データ内での逆方向ジャンプによって跳び越される、2つまたは3つの単語のうちの1つとなる。しかしながら、より多くの数の単語に対応する戻り距離を逆方向ジャンプし、順方向シーケンスで再生を行う際、たとえば4つおきまたは5つおきの単語のみを再生するといったように、口述されたテキスト内の単語を一度につき1つのみアクティブ状態にする、すなわち再生することも考えられる。しかしながら、順方向シーケンスにおいて、複数の単語が再生されてもよい。
音声再生は、単純に単語ベースで行われてもよい。すなわち、単語マーキングデータが既に利用可能な場合には、次の単語の始点を特定する次の単語マーキングデータの出現まで再生を行ってもよい。しかしながら、たとえばタイミング回路によって規定された平均単語持続時間に対応する、たとえば0.5から1.5秒の範囲内の、固定された再生時間を用いて、セグメントベースの再生を行うことも可能である。これは、主として、対応の単語マーキングデータを伴う文字化されたテキストがまだ利用可能でない場合のケースである。また、1つの単語の全体が再生されて、次のマーキングされた単語は、その単語の始めの方の一部のみが再生されることも考えられる。さらに、処理を担当する人物が、上記に述べた種々の選択肢の中から選択を行うことも考えられる。
処理を担当する人物が、探索の実行全体を必要に応じてより高速でまたはより低速で行うようにすることができるように、本発明によれば、上記の逆方向探索の実行の際、順方向シーケンスでの特定の音声再生が、調節可能なスピードで行われることが好ましい。たとえば上記の単語マーキングデータによって規定されていてもよい、再生中のテキスト内の以前のターゲット位置への逆方向ジャンプは、非常に高速で、すなわち実質的に時間損失なしでも行われ得る。この「高速巻戻し」モードでは、音響的な音声再生は行われる必要がない。
本発明に係る方法は、それ自体は従来からある方式(たとえば、LAN、WAN、もしくはインターネットといった通信ネットワークを介して、または音声担体を介して)で口述内容が受信され、音声認識手段によって自動的にテキストファイルに変換され、そのテキストファイルがチェックされ、適用可能であればその口述内容の音声データを聞きながらワードプロセッサソフトウェアを用いてそのテキストファイルが修正されるような文字化システムと共に、極めて格別に有利に働くように用いることができる。一方の音声ファイル内の単語と、他方のテキストファイル内の対応単語との間のリンクは、割り当てられた単語マーキングデータに基づいて確立される。したがって、この単語マーキングデータは、リンクデータとも呼ばれる。再生時には、現在音響再生されている単語は、テキスト表示手段上でも、たとえば背景が明るくされる等によって、視覚的に強調される。ここに、本発明は、テキストファイルからの単語が、順方向シーケンスとは反対方向のシーケンスで視覚的に強調され、各単語が視覚的に強調されるのと同期して、その単語に対応する音声データ内の単語が、記録時のシーケンスで、すなわち理解可能な形態で音響再生される、「同期逆方向再生モード」を提供する。このことは、対応の音声データの理解可能な音声再生の助けを借りながら、視覚的に表示された対応の単語の確認作業を、問題なく行うことができるようになるという利点を実現する。テキスト内のある位置の位置特定も著しく単純化され、文字化された口述内容の修正作業の全体的な効率が上がる。
したがって、本発明は、口述内容が受信ステーションによって受信され、文字化ステーションによって自動的に文字化され、その後、文字化された口述内容の手動による修正が修正ステーションにおいて行われ、最後に、受信された口述内容に対応するテキストファイルが送出ステーションによって送出される、この種の典型的な文字化システムにおいて、有利に働くように利用することができる。しかしながら、本発明はもちろん、上記の各工程、すなわち、受信、自動的な文字化、修正、およびテキストデータの最終的な送出の各工程を行い得る単一のコンピュータ、とりわけパーソナルコンピュータによって実現された文字化システムにおいても、利用することができる。
既に述べたように、口述を用いて、すなわち音声データを聞きながら、ワードプロセッサシステムによりテキストファイルが手動で生成される場合には、本発明はさらに、口述されたテキストの手動による文字化にも利用することができる。その場合、テキストファイルの手動による生成は、好ましくは、上記に述べた単語マーキングデータに対応する、音声データとテキストデータとのリンクデータの割当てを伴って行われ、生成すなわち文字化の工程に続いて、適用可能であれば修正作業も行われる。したがって、本発明は特に、モバイル型の口述装置や、デジタル設計の音声再生装置においても実現され得る。
本発明の第3の側面によれば、本発明は、コンピュータのメモリ内にロード可能なコンピュータプログラムであって、コンピュータのメモリ内へのロード後に実行されることによって、上記の本発明に係る方法をコンピュータで実行できるようにするためのソフトウェアコード部分を含む、コンピュータプログラムを提供する。
最後に、本発明の第4の側面によれば、本発明は、処理ユニットと内部メモリとを有する、上記の本発明に係るコンピュータプログラムを実行するためのコンピュータを提供する。
以下、図面に示した実施形態の例を参照して、本発明をさらに説明する。しかしながら、本発明は、これらの実施形態に限定されるものではない。
図1は、テキストデータT1、・・・、T4(Tiと一般表記する)と同期させて、音声データA1、・・・、A4(Aiと一般表記する)を順方向モードで再生するためのルーチンを概略的に示した図である。この順方向モードでは、データの再生(読出し)は、データの記録(読込み)と同一シーケンスすなわち同一方向(図1では左から右)で行われる。このシーケンスは、常に、順方向シーケンスと呼ばれる。対応付けられた対をなす音声データAiとテキストデータTiとは、テキストからの単語の連なりA1/T1、・・・、A4/T4を表す。単語マーキングコードすなわち単語マーキングデータM1、・・・、M5(Miと一般表記する)は、音声データAiとテキストデータTiとの同期再生のためのリンクデータを同時に形成するものであり、各単語の始点に割り当てられている。再生時においては、図1の下側に示された矢印1、2、3、4に従って、テキストデータT1、T2、・・・、T4(すなわち連続した単語)が連続的にアクティブ状態とされ、表示手段(図1には図示せず)上において視覚的に強調される。それと同期して、図1の上側に矢印1、2、3、4で示された各工程に従って、対応のデジタル音声データA1、A2、・・・、A4から、特定の単語が音響再生される。順方向モードにおける、マーキングすなわちリンクデータMiを用いた、テキストからの単語のこの視覚的および音響的な同時再生自体は、既知である。
図2もまた、逆方向モードにおける再生のための既知のルーチンを、概略的に示した図である。ここでは、単語T4、T3、T2、T1が、図2の下側の矢印1、2、3、4で示されるように、逆方向(すなわち図2の右から左)に連続的にアクティブ状態とされ、表示手段(図示せず)上で視覚的に強調される。同時に、単語マーキングすなわちリンクデータM5、M4、M3、M2を用いて、対応の音声データA4、A3、A2、A1、すなわち順方向シーケンスと反対方向に並ぶ単語が、図2の上側の矢印1、2、3、4で示されるように再生される。これにより、この音響再生は、記録時のシーケンスと反対方向、すなわち記録方向と反対方向に行われることとなり、したがって、理解不能な音声信号をもたらす。このことは、特定のテキスト位置を見つけることを妨げる。特定のテキスト位置を見つけることは、視覚的な表示に基づいてのみ可能であるが、このことは、口述を追いながらのテキストの文字化または修正時における通常の動作モードとは相容れない。なぜなら、文字化または文字化された文書の修正を行っている人物は、逆方向と順方向との双方に探索を行う場合には、音響再生されている音声信号に集中力を傾け、たとえ直接処理を行う場合であっても、聞き取られた音声信号に基づいて、テキストの書取りまたは修正を行うためである。
この場合、文字化されたテキスト(単語T1、・・・、T4を有するテキスト)がまだ利用可能でない場合には、音声データAiのみを用いてずっと前に位置する単語を見つけることは、極めて非能率的である。
これらの既知の技術と異なり、本発明では、逆方向モードにおいても、たとえば上記のA4、A3、A2、A1のシーケンスの場合には、図3においてこれらの音声データA4、A3、A2、A1の上側の矢印1、2、3、4で概略的に示されているとおり、音響再生が順方向シーケンスすなわち記録方向で行われるように、個々の音声データAiを音響再生することが可能となる。同時に、対応のテキストデータT4、T3、T2、T1が既に利用可能である場合には、テキストデータTiにより表される単語の視覚的な表示が、図3の下側に示した矢印1、2、3、4に従って始動させられる。
図4Aは、この種の「逆方向モードにおける同期再生」の際に、音声データA1からA6、および対応のテキストデータT1からT6内において、どのように逆方向ジャンプが生じ、理解可能な音声再生が生成されるのかを、詳細に示した図である。ここで使用される例は、正しくは「TO BE OR NOT TO BE(生きるべきか死ぬべきか)」であるが(図4Bも参照)、自動文字化システムによって、図4Aに示された形態すなわち「TWO BEE OR NOT TWO BEE(2匹の蜂であるまたは2匹の蜂でない)」と文字化されてしまった、ある口述中のテキスト節の例である。図4Aでは、この単語のシーケンスは、横棒11で示されている。個々の単語すなわちテキストデータT1、T2、・・・、T6を視覚的に表示するため、この横棒11は、たとえば視覚的な表示手段(図示せず、たとえばモニター)上に、このまま表示される。これらの単語はまた、デジタル形式の対応の音声データA1、A2、・・・、A6として、音声データメモリ手段(図4Aには図示せず)に記憶もされており、このメモリ手段から、音声再生のために読み出され得る。この目的のために与えられている単語マーキングすなわちリンクデータMiは、ここでも、図4AにおいてM1、M2、・・・、M7で概略的に示されている。
具体的には、図4Aに示されているように、口述または文字化されたテキストTi内においてより先に進んだ方(図4Aにおいて、より右の方)に位置する一時点の再生位置から、より前のターゲット位置(たとえば、リンクデータM6によって特定される、単語T6/A6(「BEE」)の始点)へと、逆方向ジャンプが生じる。この逆方向ジャンプは、図4Aでは、矢印1Aで示されている。その後、記憶されている音声データAiから、特にこの単語A6が、順方向シーケンスで再生される(矢印1B参照)。単語A6/T6の終点(すなわちマーキングデータM7でマーキングされた次の単語)に到達すると、この例では2つの単語A5+A6(すなわちT5+T6)分の長さに対応する最小戻り距離に亘って、リンクデータM5によって示される単語T5(テキストデータ)すなわち単語A5(音声データ)の始点へと、逆方向ジャンプが自動的に生じる(矢印2A参照)。続いて、矢印2Bで示されるように、単語A5が、順方向シーケンスの音声信号として再生される。この手順が、単語A4/T4、A3/T3、・・・についても自動的かつ連続的に繰り返される(矢印3A(ターゲット位置M4への逆方向ジャンプ)、3B(単語A4の、記録方向への音響再生)、・・・、6A、6B参照)。したがって、図4Aでは、矢印1A、2A、3A、・・・、6Aが戻り距離を示し、矢印1B、2B、3B、・・・・、6Bが、それらの戻り距離の、順方向シーケンスでの音声再生がなされるセクションを示している。
図4Bの横棒11’に示されているような正しいテキストを得るためには、上記のセクションベースの逆方向ジャンプと、順方向シーケンスでの個々の単語Aiの聞取りとを行いながら、特定の単語自体が直接修正されてもよいし、あるいは、特定のテキスト節の始点へと戻り、その後、順方向シーケンスで聞取りを行い、かつやはり順方向シーケンスで視覚的な表示を見ながら、通常の手法で、T1からT6の単語のシーケンス全体が修正されてもよい。
個々の音声データA1、・・・、A6の音響再生の間、それに対応するテキストデータT1、・・・、T6が、たとえば明るい背景の表示等によって、モニター上で視覚的に特に強調される。
図4Aにはさらに、矢印2Bの個所における破線の延長線によって、音響再生が、含まれるべき問題の単語を過ぎて、次に続く単語まで部分的に続いてもよいことが概略的に示されている。すなわち、「単語重複」型の音響再生が提供されてもよい。この状況は、たとえば、次に続くマーキングデータMi(たとえばM6)が、特定の音声再生を終了させるための制御コードとしては用いられず、代わりに時間カウントに基づく固定再生時間が与えられている場合に生じる。この固定再生時間は、たとえば1秒または1.5秒であってもよいし、1秒よりも若干短い時間であってもよい。特に、文字化されたテキストがまだ利用可能でなく、したがって制御コードとしての単語マーキングデータもまだ利用可能でないような場合には、音声再生のためのこの種の予め決められた持続時間が与えられるべきである。
同様に、逆方向ジャンプのための戻り距離も、たとえば平均単語長の2倍または3倍に対応する、固定されたタイムスパンに対応するように計算されてもよい。
図5は、テキストデータTiの再生と同期させて、音声データAiを再生するための装置12の例を示した図である。この装置12は、文字化データ処理装置13を含んでいる。この装置12では、それ自体は通常である手法で、口述ファイルが、通信媒体(たとえば、LAN、WAN、またはインターネットといった通信ネットワーク15)を介して、ユーザー14.1、・・・、14.Nから装置12へと伝送され、通信装置(この例ではモデム16)を介して受信され、その後、音声認識手段17へと送られる。ここで、通信手段は、いわゆる「構内交換設備(Private Branch Exchange;PBX)」によって実現されてもよい点に留意されたい。
それ自体は通常のものである音声認識ソフトウェアが実装された、音声認識手段17は、口述ファイルのテキストファイルへの自動的な文字化を行う。この際、対応の音声ファイルからの音声データAiの個々の項目に対応する、単語マーキングデータすなわちリンクデータMiを生成しながら、テキストデータTiの個々の単語が、テキストメモリ手段18と音声メモリ手段19とにそれぞれ記憶される。既に上記に述べたように、互いに対応するテキストデータTi中の単語と音声データAi中の単語とは(それぞれ、テキストメモリ手段18および音声メモリ手段19に対応)、単語マーキングデータMiによって、常に互いに対応付けすなわち互いにリンクされている。このリンクを通じて、制御手段20により、共に属する音声データAiとテキストデータTiとが、対として呼出しおよび再生される。制御手段20によって始動されるテキストデータTiの視覚的な再生は、ワードプロセッサ手段21を介して、とりわけコンピュータのモニターといったような表示手段22上になされる。
音声データAiの音響再生は、デジタル形式で記憶された音声データAiを、メモリ手段19から読み出し、電気音響変換器24のための再生回路23に送ることによって行われる。この目的のため、一般的にはヘッドホンが使用される。これにより、順方向シーケンスでの読出しが行われる。
テキスト中において、一時点の再生位置から、より前のターゲット位置へと逆方向ジャンプする際、および順方向の同期再生のための、ルーチン全体の制御は、内部メモリ25に記憶されたソフトウェアコード部分を用いて行われる。特定の制御手順をアクティブ状態とするため、および文字化またはテキスト修正の過程において様々な入力を行うための、ユーザーとのインターフェースとして、従来型のキーボードまたはそれに類似のものが、入力手段26として働く。順方向および逆方向の再生を制御するために、フットスイッチ型の操作装置が与えられてもよい。
再生回路23は、それ自体は通常の形態で、デジタル/アナログ変換器と、増幅器と、その他の類似の構成要素とを含んでいてもよく、変換器24と共に、音声再生手段27を形成している。
図6は、音声メモリ手段19から音声データAiを再生すなわち読み出す動作、および、その音声データAiを、テキストデータTiと関連付けて、たとえばテキストメモリ手段18に記憶された単語マーキングデータMiと共に再生手段27へと送る動作を、制御手段20がどのように制御するのかをより詳細に示した図である。中央制御回路28は、音声メモリ手段19に、直接または規定手段29を介して接続されている。規定手段29は、音声データAi内で逆方向ジャンプを行う際の、特定の戻り距離を規定するものである。図4Aを参照しながら上記に述べたように、予め決められた固定持続時間に亘って、逆方向モードにおける順方向シーケンスでの音声データの音響再生を可能とするためのタイミング回路30も、制御回路28に接続されている。タイミング回路30は、たとえば通常のクロック発生器であってもよい。その場合、制御回路28は、たとえば入力手段26を通じて設定可能な所望の特定の持続時間を、クロックパルスのカウントによって計測する。このようにして、たとえば1秒または1.5秒の、再生持続時間を設定することができる(図4Aの矢印2B参照)。あるいは、単語マーキングデータMiが既に利用可能である場合は、「単語ベース」の再生が選択されてもよい。その場合、次に続くマーキングデータMiに到達すると、制御回路28によって再生動作が終了させられる。タイミング回路30によって発せられるタイミング信号、とりわけクロックパルスが、規定手段29内において戻り距離を規定するための基として用いられてもよい。
好ましくは、前のテキスト中のターゲット位置への、セクションベースの逆方向ジャンプのための戻り距離を設定することも可能とされる。その場合、一度につき2つよりも多い単語、たとえば3つ、4つ、または5つの単語の跳越しが考えられ、対応するマーキングデータすなわちリンクデータMiの数がカウントされなくてはならない。この目的のため、制御回路28はカウント手段31に接続される。
タイミング回路30と同様に、このカウント手段31も当然、制御手段20による支援の下、ソフトウェアで実現されてもよい。規定手段29も同様であってもよく、メモリ手段19内における対応のアドレス指定により実現されてもよい。その場合、図6に従う制御回路28は、図5に従う制御手段20と一致する。加えて、再生手段27による音声再生のスピードを設定するために、設定手段32が設けられている。
ここで、単語マーキングデータMiは、全体が音声メモリ手段19に記憶されていてもよいし、テキストメモリ手段18と音声メモリ手段19との双方に分割されて記憶されていてもよい点に留意されたい。
よりよい説明を行うために、図7は、一度につき2つの単語分より長い距離、たとえば一度につき3つの単語分の距離だけ逆方向ジャンプが行われる際の工程(逆方向向きの矢印1A参照)を概略的に示している。図7では、この種の逆方向ジャンプの工程に続いて、後続の単語の順方向(すなわち順方向シーケンス)での音響再生が行われる(たとえば図7の矢印1B参照)。このようにして、図7に示された例では、マーキングデータM7、M5、M3、M1で特定された単語のみが、(この順番で)音響再生される(図7中で、この参照符号上に付された黒丸も参照)。一方、マーキングデータM8、M6、M4、M2が割り当てられた単語は、音響再生に関しては省略される。
もちろん、逆方向ジャンプの際に一度につき3つよりも多い単語が跳び越されて、その後の音響再生の際に、3つおき、4つおき等の単語のみが再生されてもよい。
図8は、上記の同期させられた逆方向再生および順方向再生の際の手順の一例を図解した、フローチャートを示している。このフローチャートは、実際の逆方向ジャンプ工程および順方向再生工程に先立って行われる、環境設定段階および計算段階も含んでいる。
図8によれば、ブロック33において処理が開始され、上記に述べたような、音声再生と、音声データ内での逆方向ジャンプのための戻り距離1A、2A、3A、・・・、6Aの計算とに関して、選択肢O1からO5を有する環境設定が行われる。これらの選択肢O1からO5としては、たとえば以下のような選択肢が与えられ得る。
O1−音声認識手段17が提供されており、その音声認識手段17が、音声データAiから自動的にテキストデータTiを生成するのに使用され、上記の単語マーキングデータMiもまた、音声認識手段17によってリンクデータとして自動的に規定される場合には、この選択肢O1が選択される。
O2−この選択肢O2は、手動により文字化されたテキストデータTiが、音声データAiの個々のセグメントまたは「単語」の長さを規定するのに用いられるケースに関連する。選択肢O2によれば、すべての音声セグメントについて固定された長さが与えられる。この固定された長さは、音声データAiの合計の持続時間と、文字化された単語の数とから、制御手段20を用いた単純な割り算によって計算される。その後、個々の音声セグメントまたは単語が「番号付け」されて(すなわちアドレスまたは添数が与えられて)、それらの番号またはアドレスが、戻り距離1A、2A、3A、・・・、6Aおよび/または音響再生されるべきセクション1B、2B、3B、・・・、6Bを特定するために用いられてもよい。
O3−この選択肢O3は、選択肢O2に非常によく似たものであり、聞き取られた音声データAiに基づくテキストデータTiの手動による文字化に同様に基づいて、単語の音節と音声データAiの全体の長さとに基づき、可変の長さの音声セグメントが、制御手段20によって計算される場合に選択される。すべての音節は、同一の長さのものであると仮定される。
O4−テキストデータTiがまだ利用可能でなく、音声データAiの音声セグメントまたは単語の長さが、音声エネルギープロファイル情報に基づいて計算される場合には、選択肢O4が選択され得る。
O5−この選択肢O5では、たとえば1秒のセグメント長といったような、固定長の音声セグメントが仮定される。また、たとえば1/3秒の持続時間を有するような、セグメントの重複が与えられてもよい。
順方向シーケンスでの通常の再生のスピード、高速で逆方向ジャンプするためのスピード、高速順方向再生のスピード、および逆方向ジャンプ中における順方向シーケンスでのセクションベースの音声再生のスピードも、ブロック33において選択されてもよい。
その後、ブロック34において、ここで問題になっている逆方向モードでの再生が、たとえば入力手段26上で対応のキーを操作することによって開始される。続いて、ブロック35において、逆方向モードで生じる音声データAi内における逆方向ジャンプ全体の全体戻り距離を、ユーザーが指定したか否かが自動的に照会される。ユーザーによる指定が行われていない場合は(ブロック35の出力N参照)、逆方向ジャンプのための適当な全体距離が、デフォルト値として規定される(たとえば音声データの始点への逆方向ジャンプ)(図8のブロック36参照)。一方、ユーザーが適当な入力を行っていた場合には(ブロック35の出力Y)、その選択された全体戻り距離が、ブロック37において基準として用いられる。
上記のようにして到達された図8のフローチャート中の2つの分岐路は、その後、ノード38において再び1つとなる。逆方向モード(ブロック34参照)が終了させられずに、一時点の音声位置前のテキスト修正が行われる場合には、以下の各工程が繰り返されることが、図中の矢印によって記号的に示されている。
ブロック39においては、音声認識の出力データが利用可能であるか否か、すなわち音声認識手段17内の音声認識ソフトウェアを用いて自動的に文字化されたテキストファイルTiが利用可能であるか否かが、照会される。利用可能である場合には(図8中のブロック39の出力Y参照)、ブロック40において、選択肢O1(ブロック33参照)が指定されたか否かが照会される。選択肢O1が指定されていた場合には(ブロック40の出力Y)、ブロック41において、既に分かっており編集されているテキストデータTi中のテキスト単語に対応するように、音声データAi中の音声セグメントまたは単語の計算が行われる。
一方、音声認識が使用されていない場合は(ブロック39の出力N)、ブロック42において、一時点の音声位置より前にテキストデータTiが存在するか否かが照会される。存在しない場合、すなわちテキストデータTiがまだ利用可能でない場合には(ブロック42の出力N)、ブロック43において、音声データの全体の長さまたは音声エネルギープロファイルに基づいて、音声セグメントの長さの推定が行われる(上記の選択肢O4およびO5参照)。
一方、ブロック42における確認の結果、一時点の音声位置より前にテキストデータTiが既に存在する場合には(ブロック42の出力Y参照)、ブロック44において、ブロック33で選択肢O2またはO3が設定されたか否かが照会される。選択肢O2またはO3が設定されていなかった場合には(ブロック44の出力N)、ブロック43に関連して上記で述べたような推定が同様に行われる。選択肢O2またはO3が設定されていた場合には(ブロック44の出力Y)、ブロック45において、音声データの全体の長さと、単語または音節の数とに基づいて、音声データAiの音声セグメントまたは単語の長さの推定が行われる(選択肢O2およびO3)。
図8に示されたフローチャートの、破線で囲まれた領域46では、逆方向ジャンプ、および順方向シーケンスでのセクションベースの再生に含まれる、実際の各工程が行われる。ブロック47では、音声データAiの単語またはセグメントの、順方向シーケンス(したがって理解可能な形態)での音声再生が開始される。ここで、再生は、ブロック33で設定されたスピードで行われる。その後、ブロック48において、順方向シーケンスで再生されるべき音声データAiの単語またはセグメントの終点に到達したか否かが照会される。到達していない場合は(出力N)、ブロック49において、ブロック48での照会が最終的に単語またはセグメントの終点に到達したことを示すまで(ブロック48の出力Y)、再生が続けられる。その後、ブロック50では、音声データAi内において、次の指定されたターゲット位置への逆方向ジャンプが行われる。この逆方向ジャンプは、たとえば3つの単語分の長さに対応する戻り距離に亘って行われる。最後に、ブロック51において、指定された開始位置(ブロック36および37参照)に到達したか否かが照会される。到達していない場合は(出力N)、ブロック47への戻りが生じる。一方、開始位置、すなわち逆方向モードの終点に到達した場合には(ブロック51の出力Y)、ブロック52において逆方向モードが終了させられる。
また、制御手段20による制御を受けて、自動的に実行される上記の処理が、入力手段26における「STOP(停止)」入力によって、指定された終点より前の任意の時点で、手動で終了させられるようにするのも好ましい。
ここで、いくつかの状況では、テキストの修正の後に、単語マーキングデータMiの再規定、または音声セグメントの長さの再計算が必要となるかもしれない点に留意されたい。
また、2つよりも多い単語(たとえば4つ、5つ、6つ、またはそれ以上の単語)を構成する逆方向ジャンプに続いて、1つよりも多い単語(たとえば2つ、3つ、または4つの単語)の音響的に満足な再生が行われてもよい点にも留意されたい。
順方向モードにおける、音声データとテキストデータとの同期再生のルーチンを概略的に示した図 従来技術による逆方向モードにおける、相互の対応付けを伴う音声データとテキストデータとの再生のルーチンを概略的に示した図 本発明に係る逆方向モードにおける、音声データとテキストデータとの再生のルーチンを概略的に示した図 予め自動的に文字化され修正を要するテキストが図解された、逆方向モードにおける音声データの聞取可能な再生のための、図3に示したルーチンに類似のルーチンを示した図 単語のシーケンスをたとえばモニター上に表示させながら、逆方向モードでの再生時において図4Aに示されたルーチンを用いて修正された、テキストを示した図 図3および図4Aに示した概略図に従う「同期逆方向モード再生」を行うことができる、音声再生のための機構を有する文字化システムを概略的に示したブロック図 「同期逆方向モード再生」のために提供された図5の文字化システムの、システム構成要素のより詳細なブロック図 図4Aに示したルーチンと類似であるが、いくらか簡素化された形態の、逆方向モードでの再生のための変更形態のルーチンを示した図 逆方向モードでの同期再生のための方法の、1つの変更形態を示したフローチャート

Claims (20)

  1. 単語から構成されたテキストからのテキストデータに対応する記憶された音声データを再生するための装置であって、記憶されるべき音声データをメモリ手段内に順方向シーケンスで読み込むことができる、前記音声データを記憶するための該メモリ手段と、記憶された音声データの、順方向モードおよび逆方向モードでの再生を制御する制御手段と、音声再生手段とを有し、逆方向モードでの音声データの再生の間に、該音声データ中の特定の一時点の再生位置から開始して、ターゲット位置へ向かって、少なくとも約2つの単語分の長さに相当する戻り距離に亘り、前記順方向シーケンスと反対向きの逆方向ジャンプを自動的に始動させ、その後、特定の前記ターゲット位置から開始して、前記戻り距離の一部のみについて、前記順方向シーケンスでの音声データの再生を始動させるように、前記制御手段が設定されていることを特徴とする装置。
  2. 前記単語に割り当てられた単語マーキングデータを制御データとして用いて、特定の前記ターゲット位置への逆方向ジャンプを始動させるように、前記制御手段が設定されていることを特徴とする請求項1記載の装置。
  3. 逆方向ジャンプまたは再生の間に到達した前記マーキングデータをカウントするために、前記制御手段にカウント手段が割り当てられていることを特徴とする請求項2記載の装置。
  4. 前記音声再生の持続時間を計算するために、前記制御手段にタイミング回路が割り当てられていることを特徴とする請求項1記載の装置。
  5. 前記音声再生のスピードを設定するために、前記制御手段に設定手段が接続されていることを特徴とする請求項1記載の装置。
  6. 前記制御手段がさらに、前記音声データに対応するテキストデータを記憶するためのテキストメモリ手段に接続されており、該テキストメモリ手段が、テキスト表示手段に接続されており、前記制御手段が、前記音声データおよび前記テキストデータについてのリンクデータを用いて、前記音声データと対応の前記テキストデータとの同期再生を始動させるように設定されていることを特徴とする請求項1記載の装置。
  7. 前記制御手段と、前記テキストメモリ手段と、前記音声データのための前記メモリ手段とが、自動的な文字化を行う音声認識手段に接続されていることを特徴とする請求項6記載の装置。
  8. 記憶されるべき音声データが順方向シーケンスで読み込まれるメモリ手段内に記憶された音声データであり、単語から構成されたテキストからのテキストデータに対応する音声データを再生するための方法であって、音声データの、順方向モードおよび逆方向モードでの再生を制御することができ、逆方向モードでの音声データの再生の間に、該音声データ中の特定の一時点の再生位置から開始して、ターゲット位置へ向かって、少なくとも約2つの単語分の長さに相当する戻り距離に亘り、前記順方向シーケンスと反対向きの逆方向ジャンプが自動的に生じ、その後、特定の前記ターゲット位置から開始して、前記戻り距離の一部のみについて、前記順方向シーケンスでの再生が行われることを特徴とする方法。
  9. 前記ターゲット位置への前記逆方向ジャンプの間、前記単語に割り当てられた単語マーキングデータが、制御データとして用いられることを特徴とする請求項8記載の方法。
  10. 再生中において次の前記単語マーキングデータに到達すると、前記順方向シーケンスでの再生が自動的に終了させられることを特徴とする請求項9記載の方法。
  11. 前記順方向シーケンスでの再生が、指定された時間の経過後に自動的に終了させられることを特徴とする請求項8記載の方法。
  12. 前記順方向シーケンスでの再生が終了すると、前記少なくとも約2つの単語分の長さに相当する戻り距離に亘る逆方向ジャンプが、自動的に生じることを特徴とする請求項8記載の方法。
  13. 前記音声データ内での前記逆方向ジャンプが、前記順方向シーケンスでの再生の再生スピードよりも速いスピードで、かつ記憶された前記音声データの音響再生なしで行われることを特徴とする請求項8記載の方法。
  14. 前記順方向シーケンスでの記憶された前記音声データの再生が、調節可能な再生スピードで行われることを特徴とする請求項8記載の方法。
  15. 前記順方向シーケンスでの記憶された前記音声データの再生と同期して、該音声データに対応するテキストデータの視覚的な表示が行われ、該表示が、記憶された該音声データおよび対応の該テキストデータについてのリンクデータによって制御されることを特徴とする請求項8記載の方法。
  16. 前記テキストデータの複数の単語の前記視覚的な表示の間、対応の音声データが再生中である視覚的に表示された特定の単語が、視覚的に強調されることを特徴とする請求項15記載の方法。
  17. 音声データに対応する前記テキストデータが、自動音声認識法によって取得され、同時に、単語マーキングデータが発生させられ、互いに対応する該テキストデータおよび該音声データについてのリンクデータとして記憶されることを特徴とする請求項15記載の方法。
  18. コンピュータのメモリ内にロード可能なコンピュータプログラムであって、該メモリ内へのロード後に実行されることによって、請求項8記載の方法を前記コンピュータで実行できるようにするためのソフトウェアコード部分を含むことを特徴とするコンピュータプログラム。
  19. コンピュータ読取可能な媒体上に記憶されていることを特徴とする請求項18記載のコンピュータプログラム。
  20. 処理ユニットと内部メモリとを有する、請求項18記載のコンピュータプログラムを実行するためのコンピュータ。
JP2004544587A 2002-10-17 2003-10-13 音声データを再生するための装置、方法、およびコンピュータプログラム Pending JP2006503329A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP02102461 2002-10-17
PCT/IB2003/004497 WO2004036541A2 (en) 2002-10-17 2003-10-13 Arrangement and method for reproducing audio data as well as computer program product for this

Publications (1)

Publication Number Publication Date
JP2006503329A true JP2006503329A (ja) 2006-01-26

Family

ID=32103997

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004544587A Pending JP2006503329A (ja) 2002-10-17 2003-10-13 音声データを再生するための装置、方法、およびコンピュータプログラム

Country Status (6)

Country Link
US (1) US8150691B2 (ja)
EP (1) EP1554721B1 (ja)
JP (1) JP2006503329A (ja)
CN (1) CN100383864C (ja)
AU (1) AU2003264829A1 (ja)
WO (1) WO2004036541A2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065619B (zh) * 2012-12-26 2015-02-04 安徽科大讯飞信息科技股份有限公司 一种语音合成方法和语音合成系统
KR102249086B1 (ko) * 2014-04-04 2021-05-10 삼성전자주식회사 레코딩 지원 전자장치 및 방법

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5835766A (ja) * 1981-08-21 1983-03-02 Sony Corp Dadプレ−ヤ
JPH02251998A (ja) 1989-03-27 1990-10-09 Sharp Corp 音声合成装置
JP3431030B2 (ja) * 1992-11-12 2003-07-28 ソニー株式会社 再生装置および再生方法
JPH07160289A (ja) 1993-12-06 1995-06-23 Canon Inc 音声認識方法及び装置
JP3162945B2 (ja) 1995-04-20 2001-05-08 三洋電機株式会社 ビデオテープレコーダ
US5875448A (en) * 1996-10-08 1999-02-23 Boys; Donald R. Data stream editing system including a hand-held voice-editing apparatus having a position-finding enunciator
US6457031B1 (en) * 1998-09-02 2002-09-24 International Business Machines Corp. Method of marking previously dictated text for deferred correction in a speech recognition proofreader
US6064965A (en) * 1998-09-02 2000-05-16 International Business Machines Corporation Combined audio playback in speech recognition proofreader
JP2003518266A (ja) * 1999-12-20 2003-06-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システムのテキスト編集用音声再生
JP2001188552A (ja) 1999-12-28 2001-07-10 Roland Corp オーディオ波形信号再生制御装置

Also Published As

Publication number Publication date
CN1705985A (zh) 2005-12-07
CN100383864C (zh) 2008-04-23
EP1554721A2 (en) 2005-07-20
AU2003264829A1 (en) 2004-05-04
EP1554721B1 (en) 2017-12-13
AU2003264829A8 (en) 2004-05-04
WO2004036541A2 (en) 2004-04-29
US8150691B2 (en) 2012-04-03
US20060044956A1 (en) 2006-03-02
WO2004036541A3 (en) 2004-07-15

Similar Documents

Publication Publication Date Title
JP7153681B2 (ja) 音声対話方法及び装置
JP5638479B2 (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2013025299A (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2006503329A (ja) 音声データを再生するための装置、方法、およびコンピュータプログラム
JP2002023787A (ja) 音声合成装置、音声合成システム、音声合成方法及び記憶媒体
JP2000206987A (ja) 音声認識装置
KR102078336B1 (ko) 원곡 음원과 미디 음원 간의 자연스러운 전환을 지원하는 노래반주기 및 그 동작 방법
JP4353084B2 (ja) 映像再生方法及び装置及びプログラム
JP2009288523A (ja) 音声認識装置及びその方法
JP3978465B2 (ja) 録音再生装置
KR102025903B1 (ko) 언어 학습을 위한 장치 및 그 제어방법
JP3809537B2 (ja) 語学学習システム
JP6387044B2 (ja) テキスト処理装置、テキスト処理方法およびテキスト処理プログラム
JP3334285B2 (ja) 留守番電話装置
JPH08251273A (ja) 電話機
JPH0816089A (ja) 発音比較学習装置
KR100557178B1 (ko) 엠피3 곡 선택재생방법
CN107424640A (zh) 一种音频播放方法及装置
JP2007140079A (ja) 再生装置
JP2017194546A (ja) 電子機器、その制御方法および制御プログラム
JP2001228897A (ja) 音声入力装置及びその制御方法並びにプログラムコードを格納した記憶媒体
JP2021099535A (ja) 再生装置、再生方法、及び、プログラム
JP2015187733A (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2004191616A (ja) 文書自動作成装置
JP3698050B2 (ja) 音声応答方法および音声応答システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061011

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090508

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090714

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090715

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100112