JP2006084965A - Voice data collecting device and program - Google Patents
Voice data collecting device and program Download PDFInfo
- Publication number
- JP2006084965A JP2006084965A JP2004271527A JP2004271527A JP2006084965A JP 2006084965 A JP2006084965 A JP 2006084965A JP 2004271527 A JP2004271527 A JP 2004271527A JP 2004271527 A JP2004271527 A JP 2004271527A JP 2006084965 A JP2006084965 A JP 2006084965A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- voice
- voice data
- text
- recording
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
この発明は、所定のテキストの読上音声を録音するための装置に関し、特に、音声コーパスのためのテキストを読上げた発話音声データを効率よく収集するための装置に関する。 The present invention relates to an apparatus for recording a read-out voice of a predetermined text, and more particularly to an apparatus for efficiently collecting utterance voice data obtained by reading a text for a voice corpus.
音声認識、音声合成などの音声関連技術においては、最近では統計的な手法が主流となっている。統計的な手法では、音声コーパスが重要である。統計的手法では、音声コーパスに含まれる音声データの量が多いほど、信頼性の高い処理が可能になる。そこで、できるだけ大きな音声コーパスを効率よく構築することが必要になる。 In speech-related technologies such as speech recognition and speech synthesis, statistical methods have become mainstream recently. In statistical methods, the speech corpus is important. In the statistical method, as the amount of speech data included in the speech corpus increases, processing with higher reliability becomes possible. Therefore, it is necessary to efficiently construct as large a speech corpus as possible.
従来は以下のようにして音声コーパスが構築されている。まず専門家による監督のもと、一連のテキストを話者が連続して読上げ、その音声を録音する。さらにその音声データを専門家が手作業で一発話ごとに分離し、別ファイルとして保存する。そのように保存された各ファイルと、その発話に対応するテキストとの間でアライメントをとる処理が行なわれる。アライメントの結果にしたがい、音声データに音素ラベルなどの情報をコンピュータ読取可能な形式で付しておく。 Conventionally, a speech corpus is constructed as follows. First, under the supervision of an expert, a speaker reads a series of texts continuously and records the speech. Furthermore, the audio data is manually separated by an expert for each utterance and stored as a separate file. A process of aligning each file stored in this manner and the text corresponding to the utterance is performed. According to the alignment result, information such as phoneme labels is attached to the audio data in a computer-readable format.
音声をデジタル化し、統計的手法の基礎データとして利用する場合、音声にノイズが入ることは避けなければならない。また、発話対象のテキストが大量にある場合、長期間にわたって録音が行なわれることもあり、録音機器の調子、および話者の体調などによっては録音時の音声レベルに変化が生じることがある。その結果、音声コーパスに蓄積される音声の質にばらつきが生じ、統計的手法の基礎データとして適切でなくなるおそれもある。また、発話すべきテキストを話者が間違えた場合には、統計的手法の前提となる音声コーパスそのものに誤りが混入することとなり問題である。 When voice is digitized and used as basic data for statistical methods, noise must be avoided in the voice. In addition, when there is a large amount of text to be uttered, recording may be performed over a long period of time, and the sound level at the time of recording may change depending on the condition of the recording device and the physical condition of the speaker. As a result, the quality of speech accumulated in the speech corpus varies, which may be inappropriate as basic data for statistical methods. In addition, when a speaker makes a mistake in the text to be uttered, an error is mixed into the speech corpus that is a premise of the statistical method, which is a problem.
そのため従来は、専門家が話者による録音の状況を注意深く観察し、所定の測定機器の表示を見ながら、音声にノイズが混入したり、音声レベルが適正な範囲から逸脱したり、話者が間違ってテキストを読んだりしていないかをチェックする必要がある。そして、もしも適切な録音が行なわれていなければ、その発話の先頭から話者に録音を繰返させていた。 For this reason, in the past, an expert carefully observed the recording status of the speaker, and while looking at the display of the specified measuring device, noise was mixed into the speech, the speech level deviated from the appropriate range, You need to check that you haven't read the text by mistake. And if appropriate recording was not performed, the speaker was made to repeat the recording from the beginning of the utterance.
しかしこのような方法では、録音時に監督者にかかる負担が大きくなるという問題がある。そのため、一時には一人の話者の録音しかできず、複数の話者の音声データを収集しようとする場合には、監督者の数を増加させたり、収録に要する時間を長くとったりする必要がある。その結果、充実した音声コーパスを、短時間で低コストに構築することが困難であるという問題がある。 However, such a method has a problem that the burden on the supervisor becomes large during recording. For this reason, only one speaker can be recorded at a time, and when collecting voice data of multiple speakers, it is necessary to increase the number of supervisors or increase the time required for recording. . As a result, there is a problem that it is difficult to construct a complete speech corpus at a low cost in a short time.
それゆえに本発明の一つの目的は、充実した音声コーパスを、短時間で低コストに構築可能とする音声データ収集装置およびそのためのプログラムを提供することである。 Therefore, one object of the present invention is to provide an audio data collection apparatus and a program therefor that can build a complete audio corpus in a short time and at a low cost.
本発明の別の目的は、監督者の負担を軽減し、充実した音声コーパスを、短時間で低コストに構築可能とする音声データ収集装置およびそのためのプログラムを提供することである。 Another object of the present invention is to provide an audio data collection device and a program therefor that can reduce the burden on the supervisor and can construct a complete audio corpus in a short time at low cost.
本発明の第1の局面に係る音声データ収集装置は、表示装置、ユーザが操作可能な所定の入力装置、およびマイクロフォンに接続され、所定のテキストに対応する発話の音声データを収集する音声データ収集装置であって、発話対象のテキストを表示装置上に表示するためのテキスト表示手段と、表示装置上に発話対象のテキストが表示されているときに所定の録音開始指示信号を受けたことに応答して、マイクロフォンからの音声信号のサンプリングを開始し、サンプリングされた発話音声データを第1の記憶装置に格納するための音声録音手段と、所定の録音終了指示信号に応答して、第1の記憶装置に格納されている発話音声データに基づいて音声波形を生成し表示装置上に表示するための波形表示手段と、入力装置から所定の保存指示信号を受けたことに応答して、第1の記憶装置に格納された発話音声データを、所定のテキストと関連付けて第2の記憶装置に格納するための保存手段とを含む。 An audio data collection device according to a first aspect of the present invention is connected to a display device, a predetermined input device operable by a user, and a microphone, and collects audio data of an utterance corresponding to a predetermined text. A device for displaying text to be spoken on a display device, and responding to reception of a predetermined recording start instruction signal when the text to be spoken is displayed on the display device Then, in response to the voice recording means for starting sampling of the voice signal from the microphone and storing the sampled speech voice data in the first storage device, and a predetermined recording end instruction signal, Waveform display means for generating a speech waveform based on the utterance speech data stored in the storage device and displaying it on the display device, and a predetermined storage instruction from the input device In response to receiving signals, including speech data stored in the first storage device, and a storage means for storing in the second storage device in association with predetermined text.
表示装置上に発話対象のテキストが表示される。ユーザがそのテキストを見ながら発話すると、その音声がサンプリングされ録音される。さらに、録音された発話の音声波形が画面上に表示される。ユーザはこの波形を見て録音状態を確認できる。したがって、この装置を用いれば、テキストに対する発話音声をユーザの操作により良好な形で収集することができる。監督者による監督は最低限でよい。 The text to be uttered is displayed on the display device. When the user speaks while watching the text, the voice is sampled and recorded. Furthermore, the voice waveform of the recorded utterance is displayed on the screen. The user can confirm the recording state by viewing this waveform. Therefore, by using this apparatus, it is possible to collect speech utterances for texts in a favorable form by user operations. Supervision by the supervisor is minimal.
好ましくは、音声データ収集装置は、表示装置上に音声波形が表示されているときに録音開始指示信号を受けたことに応答して、マイクロフォンからの音声信号のサンプリングを開始し、サンプリングされた発話音声データで第1の記憶装置に格納されている発話音声データを置換するための音声再録音手段をさらに含む。 Preferably, the voice data collection device starts sampling the voice signal from the microphone in response to receiving the recording start instruction signal when the voice waveform is displayed on the display device, and the sampled speech Voice re-recording means for replacing the voice data stored in the first storage device with the voice data is further included.
音声波形が表示されているときに録音開始指示信号を発生させることで、既に一度録音されている発話音声データを新たな発話音声データで置換できる。好ましい録音が得られるまで繰返し同じテキストに対する発話の録音を行なうことができる。その結果、テキストに対し、良好に録音された発話音声データを容易に収集できる。 By generating the recording start instruction signal when the voice waveform is displayed, the voice data already recorded can be replaced with new voice data. It is possible to record utterances for the same text repeatedly until a favorable recording is obtained. As a result, it is possible to easily collect well-recorded speech voice data for text.
さらに好ましくは、音声データ収集装置はさらにスピーカに接続されており、音声データ収集装置は、表示装置上に音声波形が表示されているときに所定の再生指示信号を受けたことに応答して、第1の記憶装置に格納されている発話音声データから発話音声を再生し、スピーカに与えるための再生手段をさらに含む。 More preferably, the audio data collection device is further connected to a speaker, and the audio data collection device is responsive to receiving a predetermined reproduction instruction signal when the audio waveform is displayed on the display device, Reproducing means for reproducing the utterance voice from the utterance voice data stored in the first storage device and giving the utterance voice to the speaker is further included.
録音された音声波形が再生手段により再生される。ユーザはこの再生音声により、録音が良好に行なえたか否かを容易に判定できる。 The recorded voice waveform is reproduced by the reproducing means. The user can easily determine whether or not recording has been successfully performed using the reproduced voice.
より好ましくは、音声データ収集装置は、第1の記憶装置に格納される発話音声データが所定の信号レベル範囲内にあるか否かを判定するためのレベル判定手段をさらに含み、波形表示手段は、録音終了指示信号に応答して、第1の記憶装置に格納されている発話音声データに基づいて音声波形を生成し、レベル判定手段による判定結果にしたがって、信号レベルが所定の信号レベル範囲内にあるか否かを視覚的に示すレベル判定情報とともに表示装置上に表示するための手段を含む。 More preferably, the voice data collection device further includes level judgment means for judging whether or not the speech voice data stored in the first storage device is within a predetermined signal level range, and the waveform display means In response to the recording end instruction signal, a voice waveform is generated based on the utterance voice data stored in the first storage device, and the signal level is within a predetermined signal level range according to the determination result by the level determination means. And means for displaying on the display device together with level determination information visually indicating whether or not there is.
録音された波形が適正レベルにあるか否かが判定され、その結果が視覚的に表示される。ユーザは録音レベルが適正かどうかを判定でき、必要であれば録音をし直すことができる。その結果、収集される発話音声データは適正なレベルのものとなり、発話音声データの品質が向上する。 It is determined whether the recorded waveform is at an appropriate level, and the result is visually displayed. The user can determine whether the recording level is appropriate and can re-record if necessary. As a result, the collected utterance voice data has an appropriate level, and the quality of the utterance voice data is improved.
音声データ収集装置は、第1の記憶装置に格納される発話音声データのうち、発話部分を検出するための発話部分検出手段をさらに含んでもよく、波形表示手段は、所定の録音終了指示信号に応答して、第1の記憶装置に格納されている発話音声データに基づいて音声波形を生成し、発話部分検出手段による検出結果にしたがって、音声波形のうちの発話部分を視覚的に示す発話部分マーカとともに表示装置上に表示するための手段を含んでもよい。 The voice data collection device may further include an utterance portion detection means for detecting an utterance portion of the utterance voice data stored in the first storage device, and the waveform display means outputs a predetermined recording end instruction signal. In response, an utterance portion that generates a speech waveform based on utterance speech data stored in the first storage device and visually indicates the utterance portion of the speech waveform according to the detection result by the utterance portion detection means A means for displaying on the display device together with the marker may be included.
発話部分とそうでない領域とが分けられて音声波形とともに表示される。例えばノイズが誤って発話として認識されたり、本来は発話であるはずの部分が発話部分として検出されなかったりした場合にも容易にそれらの誤りを確認できる。必要に応じて録音をし直すことも可能になり、収集される音声データの品質が向上する。 The speech part and the non-speech area are separated and displayed together with the speech waveform. For example, even when noise is mistakenly recognized as an utterance or a portion that should originally be an utterance is not detected as an utterance portion, those errors can be easily confirmed. It becomes possible to re-record as necessary, and the quality of the collected voice data is improved.
好ましくは、音声データ収集装置は、入力装置から与えられる発話部分マーカの位置の変更指示に応答して、発話部分検出手段により検出された発話部分を当該変更指示にしたがって変更するための発話部分変更手段をさらに含む。 Preferably, the voice data collection device changes the utterance part for changing the utterance part detected by the utterance part detection means in response to the instruction to change the position of the utterance part marker given from the input device. Means are further included.
発話部分が誤って検出された場合に、それを訂正できる。発話部分の切出、テキストとのアライメントなどにおける誤りを防止できる。 If the utterance is detected in error, it can be corrected. It is possible to prevent errors in the extraction of utterances and alignment with text.
さらに好ましくは、音声データ収集装置は、第1の記憶装置に格納される発話音声データと、表示装置上に表示されている発話対象テキストとの間の所定の音声単位でのアライメントを行ない、その結果を示すアライメントデータを生成するためのアライメント手段をさらに含み、保存手段は、入力装置から保存指示信号を受けたことに応答して、第1の記憶装置に格納された発話音声データおよびアライメントデータを、所定のテキストと関連付けて第2の記憶装置に格納するための手段を含む。 More preferably, the voice data collection device performs alignment in a predetermined voice unit between the utterance voice data stored in the first storage device and the utterance target text displayed on the display device. Alignment means for generating alignment data indicating the results is further included, and the storage means is uttered voice data and alignment data stored in the first storage device in response to receiving the storage instruction signal from the input device. Is stored in the second storage device in association with the predetermined text.
テキストと発話音声データとの間で所定の音声単位でのアライメントを自動的に行ない、アライメントデータを保存できる。この装置だけでアライメント済みの発話音声データを作成できる。音響モデルの学習などにこの発話音声データとアライメントデータとを利用できる。 It is possible to automatically align the text and the speech voice data in a predetermined voice unit and save the alignment data. Aligned speech data can be created with this device alone. The speech data and alignment data can be used for learning an acoustic model.
保存手段は、入力装置から保存指示信号を受けたことに応答して、第1の記憶装置に格納された発話音声データを、所定のテキストと関連付けて第2の記憶装置に格納し、さらに次の発話対象のテキストを表示装置に表示させるための手段を含んでもよい。 In response to receiving the save instruction signal from the input device, the save means stores the utterance voice data stored in the first storage device in the second storage device in association with a predetermined text. Means for displaying the text to be uttered on the display device may be included.
発話対象のテキストを一つずつ処理し、それらに対する発話音声データがそれぞれ第2の記憶装置に記憶される。従来のように全文を一度に録音し、それを後に手作業で分離していく必要はない。 The texts to be uttered are processed one by one, and utterance voice data for them is stored in the second storage device. There is no need to record the whole sentence at once and separate it later manually by conventional methods.
本発明の第2の局面に係る音声データ収集プログラムは、コンピュータにより実行されると、上記したいずれかの音声データ収集装置として当該コンピュータを動作させるものである。 The sound data collection program according to the second aspect of the present invention, when executed by a computer, causes the computer to operate as one of the sound data collection devices described above.
[構成]
図1は、本発明の一実施の形態に係る音声データ収集装置42を含む音声データ収集システム30の構成をブロック図形式で示したものである。図1を参照して、音声データ収集システム30は、話者が読上げる複数のテキストが記録された発話ファイルを記憶したテキスト記憶装置40と、テキスト記憶装置40からテキストファイルを読出し、一発話分ずつ話者に提示して発話させることにより、一文ずつ音声データファイルを作成するための、本実施の形態に係る音声データ収集装置42と、音声データ収集装置42の出力する音声データファイルを記憶するための音声データファイル記憶装置44とを含む。
[Constitution]
FIG. 1 is a block diagram showing a configuration of an audio
後述するように音声データ収集システム30はコンピュータにより実現可能であるが、その場合にはテキスト記憶装置40と音声データファイル記憶装置44とはハードディスクなどの不揮発性記憶装置により実現される。両者が物理的に同一の記憶装置により実現されてもよい。
As will be described later, the voice
また、発話テキストファイルとしては、本実施の形態ではプレーンテキストファイルを用いる。一つのファイルは複数の発話テキストを含む。各発話テキストの間は改行コードで分離されている。テキストの読出時には、改行に遭遇するまでファイルからテキストを読出すことで、ファイル中のテキストを順に一つずつ取出すことができる。 As the utterance text file, a plain text file is used in the present embodiment. One file contains a plurality of utterance texts. Each utterance text is separated by a line feed code. When reading text, the text in the file can be taken out one by one by reading the text from the file until a line break is encountered.
音声データ収集システム30はさらに、音声データ収集装置42に接続され、音声データ収集装置42が、次に発話すべきテキストを話者に提示したり、録音結果の音声波形を提示したりする際に使用するモニタ46と、音声データ収集装置42に接続され、話者が音声を録音する際に使用するマイクロフォン48と、音声データ収集装置42に接続され、音声データ収集装置42が話者の録音を再生する際に使用するスピーカ50と、話者が音声データ収集装置42に指示を与えるために使用する、マウス、キーボードなどからなる入力装置52とを含む。
The voice
図2に、音声データ収集装置42のより詳細な構成を機能ブロック図として示す。図2を参照して、音声データ収集装置42は、バス72と、入力装置52に接続され、入力装置52を介してユーザにより与えられる指示にしたがい、以下に述べる各機能部の動作シーケンスを制御するためのシーケンス制御部70と、いずれもバス72に接続されたメモリ76およびメモリ86と、バス72に接続され、ユーザにより指定されたテキストファイルをテキスト記憶装置40から読出してバス72を介してメモリ76にロードするためのロードモジュール74とを含む。
FIG. 2 shows a more detailed configuration of the voice
音声データ収集装置42はさらに、シーケンス制御部70からの指示にしたがい、音声データ収集装置42の各機能部により生成された情報をモニタ46に出力するための表示部78と、シーケンス制御部70を介して与えられるユーザの指示にしたがい、マイクロフォン48からの音声を録音し、対応するテキストとともにメモリ86に格納するための録音部80とを含む。これらはいずれもバス72に接続されている。
The voice
音声データ収集装置42はさらに、録音部80およびメモリ86に接続され、録音部80が録音しメモリ86に格納する音声信号のうち、音声部分を検出する機能と音声のボリュームが所定の範囲を逸脱していないか否かを判定する機能とを行なうためのボリュームチェック部82と、録音部80、ボリュームチェック部82およびバス72に接続され、録音部80が録音した音声と対応するテキストとの間でビタビアライメントを行ない、音声とメモリ76内に格納されたテキストの音素との間の対応付けを行ないアライメントデータを作成するためのビタビアライメント部84とを含む。
The audio
音声データ収集装置42はさらに、入力装置52およびシーケンス制御部70を介してユーザから与えられる、後述する発話部分のマーカの訂正入力に応答して、メモリ86に格納された音声情報のうち発話位置を示す情報を訂正するための調整部88と、シーケンス制御部70から音声再生の指示を受けたことに応答して、メモリ86から音声データを読出し、アナログの音声信号に変換してスピーカ50に与えるための再生部90と、シーケンス制御部70から音声データの格納を指示されたことに応答して、メモリ86に保持されている音声データ、対応するテキストデータ、アライメントデータその他の関連データを音声データファイル記憶装置44に書出すための格納処理部92とを含む。
The voice
図3は、シーケンス制御部70により実現される、音声データ収集装置42の動作シーケンスを示すフローチャートである。シーケンス制御部70は、この図に示されるフローチャートにしたがって音声データ収集装置42の動作ステータスが変化するように音声データ収集装置42の各部を制御する。この図により、音声データ収集装置42の動作も説明できる。
FIG. 3 is a flowchart showing an operation sequence of the audio
図3および図2を参照して、このシーケンスによれば、まずステップ110でロードモジュール74を制御して発話テキストファイルをテキスト記憶装置40から読出し、メモリ76にロードする。ステップ112で、次の発話テキスト(ロード直後には先頭の発話テキスト)をメモリ76から読出し、表示部78を制御してモニタ46に表示させる。
With reference to FIGS. 3 and 2, according to this sequence, first, in
続いてユーザからの録音指示に応答してステップ114に進み、録音部80を制御して、マイクロフォン48から電気信号の形で与えられる音声信号をサンプリングさせ、所定のデータ形式でメモリ86に記録させる。このサンプリングは、30ミリ秒のフレーム長で、かつ10ミリ秒ごとにフレーム位置をずらしながら行なう。
Subsequently, in response to the recording instruction from the user, the process proceeds to step 114 where the
録音が終了すると、ステップ116において、メモリ86に格納された録音データを調べ、発話レベルが適正レベルを超えているか否かをボリュームチェック部82により判定する。またボリュームチェック部82により、録音データのうちで発話部分がどこかを音声波形の振幅の大きさによって判定する。ステップ118において、録音データと、対応する発話テキストとの対応付けをビタビアライメント部84によって行ない、そのアライメント情報をラベルとして音声データの各フレームに付してメモリ86に格納する。
When the recording is completed, the recorded data stored in the
次に、ステップ120で、表示部78を制御し、メモリ86に記憶されている音声データの波形を、対応するテキストとともにモニタ46に表示させる。この表示時、ボリュームチェックで音声のレベルが過大な個所が検出されたときには、適正レベルで音声波形をクリップするとともに、適正レベルを示す枠を赤色でモニタ46に表示させる。また、音声波形のうち、ボリュームチェック部82が検出した発話領域については、それを示すマーカをモニタ46に表示させる。この後、ユーザからの指示待ちになる。
Next, in
なお、図2および図3には図示していないが、音声データ収集装置42は再生モードと発話領域の訂正モードとの二つの動作モードの切替が可能である。再生モードではマーカが付された部分に関し、再生部90による音声再生が行なえる。発話領域の訂正モードでは、マーカ位置を訂正することにより、発話領域を訂正することができる。
Although not shown in FIGS. 2 and 3, the audio
ステップ122において、ユーザからの入力がどのようなものであるかを判定する。もしも動作モードが再生モードで、マーカの入力が行なわれるとステップ124に進み、音声波形のうち、指定されたマーカ部分を再生部90およびスピーカ50を用いて再生する。この後ステップ120に戻り、波形表示をしてユーザの入力を待つ。
In
ステップ122において、もしも動作モードが発話領域の訂正モードでマーカの入力が行なわれると、ステップ126に進み、調整部88を用いてメモリ86に格納されている音声データを修正して、指定された発話領域に一致させる。この後、ステップ124に進む。以後の処理は前述したとおりである。
In
ステップ122において、もしも後述する保存(SAVE & NEXT)ボタンが押された場合には、メモリ86に保持されている音声データ、対応するテキスト、アライメントデータ、ラベルなどをまとめて音声データファイル記憶装置44に書出す。この後、ステップ130で、メモリ76にロードされている発話テキストファイルの全ての発話テキストに対する処理が完了したか否かを判定する。もしも完了していれば処理を終了する。完了していなければステップ112に戻り、次の発話テキストをメモリ76から読出して表示する。以下、上記した処理を発話テキストごとに繰返す。
If a later-described save (SAVE & NEXT) button is pressed in
ステップ122で「録音」ボタンが押されたと判定されると、ステップ114に戻り、再度同じ発話テキストを用いた録音を繰返す。
If it is determined in
以上がシーケンス制御部70により実現される音声データ収集装置42の各部の動作シーケンスの内容である。上の記載からまた、音声データ収集装置42の一般的動作も明らかとなったと思われる。
The above is the contents of the operation sequence of each unit of the audio
[動作]
本装置の動作は、図3を参照して説明したとおりである。したがって、ここではその詳細は繰返さない。
[Operation]
The operation of this apparatus is as described with reference to FIG. Therefore, details thereof will not be repeated here.
[コンピュータによる実現]
−コンピュータプログラムの制御構造−
上記した音声データ収集装置42は、コンピュータハードウェアと、そのコンピュータ上で実行されるコンピュータプログラムとにより実現可能である。図4および図5に、そのためのプログラムの概略の制御構造をフローチャート形式で示す。なお、このプログラムは、GUI(グラフィカル・ユーザ・インタフェース)を採用したものである。したがって、モニタ46に表示されたGUI部品(ボタン、メニュー項目などのオブジェクト)をユーザが操作すると、そのGUI部品のその操作について予め定義されていたプログラム(メソッド)が実行される。ユーザ操作によって対応するメソッドを呼出し実行するメカニズムは、OS(オペレーティング・システム)と、ユーザプログラムと、OSまたはユーザプログラムとは別にコンピュータにインストールされ、プログラムの実行時に動的に呼出されるモジュールなどと、場合によってはOSの上で動作する仮想コンピュータ環境などとの協働によって実現される。
[Realization by computer]
-Control structure of computer program-
The voice
図4を参照して、まずステップ150でファイルオープンのダイアログを表示する。ここでは、OSが用意したファイルオープンのダイアログを呼出せばよい。テキスト属性のファイルのみをダイアログで表示するように、いわゆるフィルタ処理をしてもよい。フィルタ処理は多くのOSで提供されている機能である。 Referring to FIG. 4, first, in step 150, a file open dialog is displayed. Here, a file open dialog prepared by the OS may be called. So-called filter processing may be performed so that only text attribute files are displayed in the dialog. Filter processing is a function provided by many OSs.
続いてステップ152では、ファイルオープンダイアログでユーザがファイルのオープンをキャンセルし、処理の終了を選択したか否かを判定する。終了が選択されていればプログラムを終了させる。それ以外の場合、すなわちファイルが選択された場合にはステップ154に進む。
Subsequently, in
ステップ154では、ダイアログで指定されたファイルをメモリ76にロードする。ステップ156では、メモリ76にロードしたファイルから、発話テキストの読出を試みる。ステップ158では、ステップ156の処理の結果、ファイルの末尾を示すEOF(End Of File)マークを読出したか否かを判定する。EOFを読出した場合には処理対象の発話テキストがなくなったということであるから処理を終了する。発話テキストの読出に成功した場合、ステップ160に進む。
In
ステップ160では、保存ボタンを不能化し、操作できないようにする。また録音ボタンを可能化し、ユーザが録音の指示を行なうことができるようにする。さらに、音声データ収集装置42の動作モードを再生モードに設定する。
In
この後、ステップ162で録音の初期画面を表示する。この画面では、読出した発話テキストを表示し、ユーザの操作を待つ。
Thereafter, in
続いて、図5を参照し、ステップ164で何らかのイベントが生じたか否かを判定する。ここでイベントとは、操作可能なGUI部品のいずれかをユーザが操作したり、何らかのモジュールがメッセージを発行したりしたことによって、OS等からこのプログラムに与えられる通知のことをいう。ここでは、録音(START)ボタンの操作、録音終了(STOP)ボタンの操作、モード切替の操作、マーカ入力の操作、および保存(SAVE & NEXT)ボタンの操作のいずれかがイベントとして発生するものとする。制御は、これらイベントに対応してそれぞれステップ170、180、200、202、および210に分岐する。
Subsequently, referring to FIG. 5, it is determined in
ステップ170では、画面上で録音ボタンを録音終了ボタンにトグルさせる。すなわち、録音ボタンの表示を録音終了ボタンに変え、その機能を録音ボタンから録音終了ボタンに切替える。この処理により、録音ボタンが不能化され、録音終了ボタンが可能化される。
In
続いてステップ172で録音を開始し、ステップ164に戻る。録音は、具体的には録音を行なうためにOSなどにより準備されている機能をAPI(Application Programming Interface)を用いて呼出すことにより行なわれる。
Subsequently, recording is started in
録音終了ボタンが操作された場合、ステップ180で録音終了ボタンを録音ボタンにトグルさせる。ステップ182で録音を終了させる。すなわち、ステップ172で録音のためのAPIにより呼出された機能を別のAPIを用いて停止させる。
If the recording end button is operated, in
ステップ184で、録音された音声データのレベルを調べ、発話領域の検出と、発話領域を示すラベルの音声データへの付与とを行なう。続いてステップ186で、音声データのレベルを調べ、適正なレベル範囲を逸脱した個所がないかどうかを判定する。逸脱した個所があれば、その音声データのフレームにボリュームチェックのラベルを付す。
In
ステップ188では、この発話に対応するテキストと、音声データとの間でビタビアライメントを行ない、音声データのどの部分がテキストのどの音素に対応するかを判定する。判定結果に応じ、音声データの各フレームに、対応する音素を示すラベル付けを行なう。このアライメント処理では話者の音声を学習データとして学習済みの音響モデルなどが必要であるが、アライメント自体には公知のアルゴリズムを使用できる。さらに本実施の形態では、音声データに対応するテキストが分かっているのでアライメントはさらに容易に行なえる。
In
ステップ190では、録音された音声データを視覚化した音声波形をモニタ46に表示する。このとき、画面の他の部分の表示もリフレッシュされる。また同時に、発話領域を示すマーカが表示される。もしもボリュームチェックの結果適正レベルを逸脱した個所があれば、波形全体はその適正レベルを上限または下限としてクリップされ、さらに適正レベルを示す矩形が波形を囲むように表示される。この後ステップ164に戻る。
In
ステップ164でイベントがモード切替のイベントであると判定されると、ステップ200において動作モードが再生モードであれば訂正モードに、訂正モードであれば再生モードに、トグルされる。この後ステップ164に戻る。
If it is determined in
ステップ164でイベントがマーカ入力であると判定されると、ステップ202で音声データ収集装置42の動作モードが再生モードか否かが判定される。再生モードであればステップ206で音声データのうちマーカで示された部分を再生しステップ164に戻る。再生モードでなければステップ204で発話領域を示すマーカを訂正し、ステップ206に進む。ステップ206でマーカ部分、すなわち発話領域の再生を行ない、ステップ164に戻る。
If it is determined in
ステップ164で保存ボタンが操作されたと判定された場合、ステップ210においてテキストおよびアラインメント済みでラベルが付された音声データが音声データファイル記憶装置44に格納される。この後、図4のステップ156に戻り、次のテキストを読出してステップ158以下の処理を繰返す。
If it is determined in
以上が、本実施の形態に係る音声データ収集装置42をコンピュータにより実現させるためのコンピュータプログラムの概略制御構造である。
The above is the schematic control structure of the computer program for realizing the audio
−コンピュータハードウェア−
図6はこの実施の形態に係る音声データ収集システム30を実現するコンピュータシステム330の外観を示し、図7はコンピュータシステム330の内部構成を示す。
-Computer hardware-
FIG. 6 shows the external appearance of a
図6を参照して、このコンピュータシステム330は、FD(フレキシブルディスク)ドライブ352およびCD−ROM(コンパクトディスク読出専用メモリ)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342と、マイクロフォン370と、スピーカ372とを含む。これらのうち、キーボード346およびマウス348は図1および図2に示す入力装置52に相当する。モニタ342、マイクロフォン370およびスピーカ372はそれぞれ、図1および図2に示すモニタ46、マイクロフォン48およびスピーカ50に相当する。
Referring to FIG. 6, the
図7を参照して、コンピュータ340は、FDドライブ352およびCD−ROMドライブ350に加えて、CPU(中央処理装置)356と、CPU356、FDドライブ352およびCD−ROMドライブ350に接続されたバス366と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ(RAM)360とを含む。コンピュータシステム330はさらに、図示しないプリンタを含んでいる。
Referring to FIG. 7, in addition to FD drive 352 and CD-
ここでは示さないが、コンピュータ340はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
Although not shown here, the
コンピュータシステム330に音声データ収集システム30(および音声データ収集装置42)としての動作を行なわせるためのコンピュータプログラムは、CD−ROMドライブ350またはFDドライブ352に挿入されるCD−ROM362またはFD364に記憶され、さらにハードディスク354に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。CD−ROM362から、FD364から、またはネットワークを介して、直接にRAM360にプログラムをロードしてもよい。
A computer program for causing the
このプログラムは、コンピュータ340にこの実施の形態の音声データ収集装置42としての動作を行なわせる複数の命令を含む。この方法を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するOSまたはサードパーティのプログラム、もしくはコンピュータ340にインストールされる各種ツールキットのモジュールにより提供される。従って、このプログラムはこの実施の形態のシステムおよび方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記した音声データ収集装置42を実現する命令のみを含んでいればよい。コンピュータシステム330の動作は周知であるので、ここでは繰返さない。
This program includes a plurality of instructions that cause the
−GUI画面−
図8に、本実施の形態において音声データ収集システム30に表示されるGUI画面180を示す。図8を参照して、このGUI画面180は、メニュー領域に配置されたファイルメニュー190と、ファイルの保存時に操作される保存ボタン192と、録音時のレベルを示すレベルメータ194と、録音/録音終了ボタン196とを含む。録音/録音終了ボタン196は、録音可能なときには録音ボタンとなり、録音中には録音終了ボタンとなるようにプログラムによりトグルされる。またファイルメニュー190をクリックすることにより、再生モードと訂正モードとの双方の項目を含む動作モード切替のプルダウンメニューが表示される。どちらかを選択することで音声データ収集装置42の動作モードが再生モードと訂正モードとの間でトグルする。
-GUI screen-
FIG. 8 shows a
GUI画面180はさらに、処理中の発話テキストのID(識別名)表示領域198と、処理中の発話テキストの表示領域200と、処理中の発話テキストの保存先ファイル名の表示領域202と、録音した音声データの時間軸に対する波形206をレベルとともに表示する波形表示領域204と、音声データのうち、発話データとして保存される部分を示す保存領域マーカ208とを含む。保存領域マーカ208は、ボリュームチェック部82により検出された発話領域210と、その前後の所定長さの無音領域212とを含む。本実施の形態では、二つの無音領域212の長さはいずれも、発話領域210の長さの半分に選ばれている。
The
なお、本実施の形態では、保存先ファイル名は、所定の文字列(これは操作者により指定可能である。図8の場合は「speechfile_demo」)に発話テキストのIDを付し、さらにサンプリングレートを拡張子の形で付したものを保存ファイル名としている。 In the present embodiment, the save destination file name is a predetermined character string (this can be specified by the operator. In the case of FIG. 8, “speechfile_demo”), the speech text ID is added, and the sampling rate The name of the file with the extension added is the saved file name.
以下、動作の各局面におけるGUI画面180の状態について説明する。図9は、図4のステップ162で表示される画面の例である。ファイルメニュー190が可能化され、録音/録音終了ボタン196は録音ボタンに設定される。ID表示領域198、表示領域200、および保存先ファイル名の表示領域202にはそれぞれ、現在処理対象の発話テキストのID、発話テキスト、および処理対象の発話テキストが保存されるファイル名、がそれぞれ表示されている。
Hereinafter, the state of the
図10は、録音中のGUI画面180の表示例である。録音中には録音/録音終了ボタン196は録音終了ボタンとなり、録音ボタンとしての機能は果たさない。また録音中にはレベルメータ194が録音レベルをリアルタイムで示している。
FIG. 10 is a display example of the
図9に示すように、録音可能なときには録音/録音終了ボタン196は録音ボタンとなっており、録音終了ボタンとしての機能は果たさない。また図10に示すように、録音中には録音/録音終了ボタン196は録音終了ボタンとなり、録音ボタンとしての機能を果たさない。したがってプログラムはこれらボタンが操作されるのはそれぞれ適切な時期だけであることを前提に処理をすればよい。
As shown in FIG. 9, when recording is possible, the record /
図11は、録音終了時のGUI画面180の表示例である。録音/録音終了ボタン196は再び録音ボタンとなっている。この画面で発話領域210のマーカを移動させると、動作モードに応じ、再生モードではマークされている領域の音声が再生され、訂正モードでは発話領域210のマーカ自体が入力された範囲に更新されるとともに、その領域の音声が再生される。
FIG. 11 is a display example of the
図12は、音声レベルが過大な部分220があるときのGUI画面180の表示例である。図12に示すように、音声レベルが過大となったときには、適正なレベルで音声波形がクリップされるとともに、適正レベルの範囲を示す矩形222が赤色で表示される。したがって操作者は録音レベルが適正でなかったことをすぐに理解でき、再度録音/録音終了ボタン196を押して録音をやり直すことができる。
FIG. 12 is a display example of the
図13は、発話音声230と別にノイズ232が存在している場合のGUI画面180の表示例である。このように、ノイズが録音されてしまった場合、それが分かりやすく表示されるので、利用者は再度録音すべきか否かを容易に判定できる。また、ノイズが保存領域の外にあれば、録音を再度する必要がないことが容易に分かり、録音時の時間と手間とを節約できる。
FIG. 13 is a display example of the
以上のように本実施の形態に係る音声データ収集システム30および音声データ収集装置42によれば、音声の録音において、発話テキストを表示しながら、話者と対話的に処理を進めていくことができる。音声波形が、自動的に検出された発話領域の表示とともに表示されるので、自動検出が誤った場合に容易に訂正できる。また、音声をすぐに発話単位で、または発話中の指定した領域単位で再生できるので発話間違いなども容易に確認できる。ノイズもすぐ確認できるように波形が表示される。さらに、録音時の音声レベルが適正だったか否かもすぐに確認できる態様で表示される。したがって、録音が適正に行なわれたか否かがすぐに判断でき、良質な音声データを得ることができる。
As described above, according to the voice
上記した音声データ収集システム30および音声データ収集装置42によれば、適正な録音ができたか否かが話者に容易に判断できるので、監督者が常に録音に注意を払っている必要はない。監督者の負担は大幅に軽減される。そのため、例えば複数の装置で複数の話者による録音を一人の監督者で監督しながら進行させたりすることも可能になり、音声コーパス作成のためのコストと時間とが節約できる。
According to the voice
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
30 音声データ収集システム、40 テキスト記憶装置、42 音声データ収集装置、44 音声データファイル記憶装置、46 モニタ、48 マイクロフォン、50 スピーカ、52 入力装置、70 シーケンス制御部、72 バス、74 ロードモジュール、76 メモリ、78 表示部、80 録音部、82 ボリュームチェック部、84 ビタビアライメント部、86 メモリ、88 調整部、90 再生部、92 格納処理部 30 voice data collection system, 40 text storage device, 42 voice data collection device, 44 voice data file storage device, 46 monitor, 48 microphone, 50 speaker, 52 input device, 70 sequence control unit, 72 bus, 74 load module, 76 Memory, 78 Display section, 80 Recording section, 82 Volume check section, 84 Viterbi alignment section, 86 Memory, 88 Adjustment section, 90 Playback section, 92 Storage processing section
Claims (9)
発話対象のテキストを前記表示装置上に表示するためのテキスト表示手段と、
前記表示装置上に発話対象のテキストが表示されているときに所定の録音開始指示信号を受けたことに応答して、前記マイクロフォンからの音声信号のサンプリングを開始し、サンプリングされた発話音声データを第1の記憶装置に格納するための音声録音手段と、
所定の録音終了指示信号に応答して、前記第1の記憶装置に格納されている発話音声データに基づいて音声波形を生成し前記表示装置上に表示するための波形表示手段と、
前記入力装置から所定の保存指示信号を受けたことに応答して、前記第1の記憶装置に格納された発話音声データを、前記所定のテキストと関連付けて第2の記憶装置に格納するための保存手段とを含む、音声データ収集装置。 A voice data collection device for collecting voice data of an utterance corresponding to a predetermined text, connected to a display device, a predetermined input device operable by a user, and a microphone;
Text display means for displaying the text to be spoken on the display device;
In response to receiving a predetermined recording start instruction signal when the text to be uttered is displayed on the display device, sampling of the voice signal from the microphone is started, and the sampled utterance voice data is obtained. Voice recording means for storing in the first storage device;
In response to a predetermined recording end instruction signal, waveform display means for generating a voice waveform based on the utterance voice data stored in the first storage device and displaying it on the display device;
In response to receiving a predetermined storage instruction signal from the input device, the speech data stored in the first storage device is stored in the second storage device in association with the predetermined text. And a voice data collection device including a storage means.
前記表示装置上に音声波形が表示されているときに所定の再生指示信号を受けたことに応答して、前記第1の記憶装置に格納されている発話音声データから発話音声を再生し、前記スピーカに与えるための再生手段をさらに含む、請求項1または請求項2に記載の音声データ収集装置。 The audio data collection device is further connected to a speaker;
In response to receiving a predetermined playback instruction signal when a voice waveform is displayed on the display device, the voice is reproduced from the voice data stored in the first storage device, and The audio data collection device according to claim 1, further comprising reproduction means for giving to a speaker.
前記波形表示手段は、前記録音終了指示信号に応答して、前記第1の記憶装置に格納されている発話音声データに基づいて音声波形を生成し、前記レベル判定手段による判定結果にしたがって、信号レベルが前記所定の信号レベル範囲内にあるか否かを視覚的に示すレベル判定情報とともに前記表示装置上に表示するための手段を含む、請求項1〜請求項3のいずれかに記載の音声データ収集装置。 Further comprising level determination means for determining whether the speech data stored in the first storage device is within a predetermined signal level range;
The waveform display means generates a speech waveform based on the utterance voice data stored in the first storage device in response to the recording end instruction signal, and a signal according to the determination result by the level determination means The sound according to any one of claims 1 to 3, comprising means for displaying on the display device together with level determination information visually indicating whether or not a level is within the predetermined signal level range. Data collection device.
前記波形表示手段は、所定の録音終了指示信号に応答して、前記第1の記憶装置に格納されている発話音声データに基づいて音声波形を生成し、前記発話部分検出手段による検出結果にしたがって、前記音声波形のうちの発話部分を視覚的に示す発話部分マーカとともに前記表示装置上に表示するための手段を含む、請求項1〜請求項3のいずれかに記載の音声データ収集装置。 Utterance part detection means for detecting an utterance part of the utterance voice data stored in the first storage device,
The waveform display means generates a speech waveform based on speech data stored in the first storage device in response to a predetermined recording end instruction signal, and according to a detection result by the speech portion detection means. The voice data collection device according to any one of claims 1 to 3, further comprising means for displaying on the display device together with an utterance portion marker that visually indicates an utterance portion of the voice waveform.
前記保存手段は、前記入力装置から保存指示信号を受けたことに応答して、前記第1の記憶装置に格納された発話音声データおよび前記アライメントデータを、前記所定のテキストと関連付けて第2の記憶装置に格納するための手段を含む、請求項1〜請求項6のいずれかに記載の音声データ収集装置。 The speech data stored in the first storage device and the speech target text displayed on the display device are aligned in a predetermined speech unit, and alignment data indicating the result is generated. Further comprising alignment means for
In response to receiving the save instruction signal from the input device, the save means associates the speech data and the alignment data stored in the first storage device with the predetermined text in a second The voice data collection device according to claim 1, comprising means for storing in a storage device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004271527A JP2006084965A (en) | 2004-09-17 | 2004-09-17 | Voice data collecting device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004271527A JP2006084965A (en) | 2004-09-17 | 2004-09-17 | Voice data collecting device and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006084965A true JP2006084965A (en) | 2006-03-30 |
Family
ID=36163511
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004271527A Pending JP2006084965A (en) | 2004-09-17 | 2004-09-17 | Voice data collecting device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006084965A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200100410A (en) * | 2019-02-18 | 2020-08-26 | 주식회사 딕토 | System for collecting learning data |
JP2021060484A (en) * | 2019-10-04 | 2021-04-15 | 東京瓦斯株式会社 | Voice information replacement system and program |
-
2004
- 2004-09-17 JP JP2004271527A patent/JP2006084965A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200100410A (en) * | 2019-02-18 | 2020-08-26 | 주식회사 딕토 | System for collecting learning data |
KR102296503B1 (en) * | 2019-02-18 | 2021-09-01 | 주식회사 딕토 | System for collecting learning data |
JP2021060484A (en) * | 2019-10-04 | 2021-04-15 | 東京瓦斯株式会社 | Voice information replacement system and program |
JP7341024B2 (en) | 2019-10-04 | 2023-09-08 | 東京瓦斯株式会社 | Audio information replacement system and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6370503B1 (en) | Method and apparatus for improving speech recognition accuracy | |
US6342903B1 (en) | User selectable input devices for speech applications | |
US6792409B2 (en) | Synchronous reproduction in a speech recognition system | |
US7962331B2 (en) | System and method for tuning and testing in a speech recognition system | |
US6324507B1 (en) | Speech recognition enrollment for non-readers and displayless devices | |
JP3940383B2 (en) | How to determine speech recognition accuracy | |
JP3827704B1 (en) | Operator work support system | |
JP4272658B2 (en) | Program for functioning a computer as an operator support system | |
US6492999B1 (en) | Connecting and optimizing audio input devices | |
US6275805B1 (en) | Maintaining input device identity | |
JP2002132287A (en) | Speech recording method and speech recorder as well as memory medium | |
JP2009031810A (en) | Operator's operation support system | |
US6674451B1 (en) | Preventing audio feedback | |
JP2006084965A (en) | Voice data collecting device and program | |
US6504553B2 (en) | Trouble shooting a wrong audio source | |
JP2001325250A (en) | Minutes preparation device, minutes preparation method and recording medium | |
KR101501705B1 (en) | Apparatus and method for generating document using speech data and computer-readable recording medium | |
JP7288530B1 (en) | system and program | |
JP7312639B2 (en) | Karaoke input device | |
JP2002268683A (en) | Method and device for information processing | |
JP2005284191A (en) | Voice waveform data display device and computer program therefor | |
JP2012190088A (en) | Audio recording device and method, and program |