JP2008180750A - Voice labeling support system - Google Patents
Voice labeling support system Download PDFInfo
- Publication number
- JP2008180750A JP2008180750A JP2007012157A JP2007012157A JP2008180750A JP 2008180750 A JP2008180750 A JP 2008180750A JP 2007012157 A JP2007012157 A JP 2007012157A JP 2007012157 A JP2007012157 A JP 2007012157A JP 2008180750 A JP2008180750 A JP 2008180750A
- Authority
- JP
- Japan
- Prior art keywords
- label image
- label
- search
- image
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、コーパスベース音声合成方式により音声合成を行う際に行われるラベリング作業を支援するシステムに関するものである。 The present invention relates to a system that supports labeling work performed when speech synthesis is performed by a corpus-based speech synthesis method.
コーパスベース音声合成方式により音声合成を行う場合には、ある話者で任意の単語や文章を読み上げた音声素片の集合により、音声データベースをあらかじめ構築しておく。音声合成の実行時には、この音声データベースから好適な音声素片を選択し、波形接続処理により最終的な合成音声を得る。
このように、コーパスベース音声合成方式においては、音声素片の品質が最終的な合成音声の品質に影響を与えるため、品質の良い音声素片を得ることが重要である。
When speech synthesis is performed by a corpus-based speech synthesis method, a speech database is constructed in advance by a set of speech segments that are read out by a certain speaker as an arbitrary word or sentence. When executing speech synthesis, a suitable speech segment is selected from the speech database, and a final synthesized speech is obtained by waveform connection processing.
In this way, in the corpus-based speech synthesis method, since the quality of speech units affects the quality of the final synthesized speech, it is important to obtain speech units with good quality.
音声素片を得る方法として、あらかじめある話者で音声を収録しておき、その音声波形と実音声を参照しながら、その音声波形中において、音声素片として好ましい位置に区切り符号を付与する(ラベリング)作業を行うことにより音声素片を得る、というものがある。
このラベリング作業は、経験のある作業者が手動でラベリングを行う手動ラベリングと、コンピュータ等による自動ラベリングとに大別される。
As a method of obtaining a speech unit, a speech is recorded in advance by a certain speaker, and a delimiter code is given to a position preferable as a speech unit in the speech waveform while referring to the speech waveform and the actual speech ( There is a method of obtaining a speech segment by performing a labeling operation.
This labeling work is roughly classified into manual labeling in which an experienced worker manually performs labeling and automatic labeling by a computer or the like.
ここで、『自動ラベリングの境界誤差を小とする。』ことを目的とした技術として、『入力音声信号をフレームごとに、複数の帯域にメル周波数分割し(S1)、各帯域のパワーを求め、また各フレームの音声信号エネルギーを求めてこれらを含む音響特徴量ベクトルを生成し(S2)、予めこの種の音響特徴量ベクトルを用いて各音韻又は音韻境界についてのHMM(隠れマルコフモデル)を作っておき、入力音声信号における予め知られている音韻又は音韻境界と対応するHMMの系列と先に求めた特徴量ベクトル系列と尤度が最大となるように計算し(S3)、その時の音声信号の各フレームに対し、音韻又は音韻境界を表わす情報(ラベル)を付与する(S4)。』というものが提案されている(特許文献1)。
また、十分な経験(2〜8年)を有するラベラー間では、手動ラベリングによるラベル誤差は小さい、という報告がなされている(非特許文献1)。
Here, “the boundary error of automatic labeling is made small. As a technology for the purpose of the above, “the input audio signal is divided into a plurality of bands for each frame by Mel frequency division (S1), the power of each band is obtained, and the audio signal energy of each frame is obtained and included. An acoustic feature vector is generated (S2), an HMM (Hidden Markov Model) for each phoneme or phoneme boundary is created in advance using this type of acoustic feature vector, and a previously known phoneme in the input speech signal is generated. Alternatively, the HMM sequence corresponding to the phoneme boundary, the previously obtained feature vector sequence, and the likelihood are calculated so as to maximize the likelihood (S3), and information representing the phoneme or phoneme boundary for each frame of the speech signal at that time (Label) is assigned (S4). Is proposed (Patent Document 1).
In addition, it has been reported that label errors due to manual labeling are small between labelers having sufficient experience (2 to 8 years) (Non-patent Document 1).
上述のような自動ラベリング技術によるラベリングの精度は向上しているものの、未だ精度が不十分である箇所が生じる場合もある。このような場合には、経験を積んだラベラーによる手動ラベリングが行われる。
一般に、手動ラベリングは非常に手間のかかる作業であるため、複数のラベラーが共同して作業を行う場合もあり、このような場合には、ラベリング作業は属人的なノウハウによるところが大きい故に、ラベル位置の精度がまちまちになってしまう。
ラベル位置の精度が低下することは、音声素片の品質の低下につながり、最終的には合成音声の品質に影響する。
そのため、ラベラーのノウハウに拠らず、ラベリング作業の品質を一定のレベルで統一することのできる音声ラベリング支援システムが望まれていた。
Although the accuracy of labeling by the automatic labeling technology as described above has been improved, there may be places where the accuracy is still insufficient. In such cases, manual labeling by experienced labelers is performed.
In general, manual labeling is a very time-consuming operation, and there are cases where multiple labelers work together. In such cases, labeling is largely based on personal know-how. Position accuracy will vary.
A decrease in the accuracy of the label position leads to a decrease in the quality of the speech segment, and finally affects the quality of the synthesized speech.
Therefore, an audio labeling support system that can unify the quality of labeling work at a certain level without relying on the know-how of the labeler has been desired.
本発明に係る音声ラベリング支援システムは、
音素環境のラベル列毎のラベルイメージを保持するラベルイメージDBを格納した記憶手段を備えるラベルイメージサーバと、
ラベリング作業を行うための作業端末と、
を有する音声ラベリング支援システムであって、
前記ラベルイメージサーバは、
検索ラベル列を受け取り、これに該当するラベルイメージを前記ラベルイメージDBから検索する検索部を備え、
前記作業端末は、
前記検索部にラベルイメージの検索を依頼する検索依頼部と、
ラベルイメージを画面表示するための表示部と、
を備え、
前記検索依頼部は、
ラベリング作業を行う音声のラベル列を前記ラベルイメージサーバに送信し、
前記検索部は、
前記検索依頼部よりラベル列を受け取り、そのラベル列に該当するエントリを前記ラベルイメージDBから検索し、そのラベル列に対応付けられたラベルイメージを前記作業端末に返信し、
前記検索依頼部は、
前記検索部よりラベルイメージを受け取り、前記表示部にそのラベルイメージを画面表示させる
ことを特徴とするものである。
An audio labeling support system according to the present invention includes:
A label image server comprising storage means for storing a label image DB for holding a label image for each label row of the phonemic environment;
A work terminal for labeling work,
An audio labeling support system comprising:
The label image server
A search unit that receives a search label string and searches the label image DB for a corresponding label image;
The work terminal is
A search request unit that requests the search unit to search for a label image;
A display for displaying the label image on the screen;
With
The search request unit
Send the label sequence of the audio to be labeled to the label image server,
The search unit
A label string is received from the search request unit, an entry corresponding to the label string is searched from the label image DB, and a label image associated with the label string is returned to the work terminal,
The search request unit
A label image is received from the search unit, and the label image is displayed on the screen on the display unit.
本発明に係る音声ラベリング支援システムによれば、ラベルイメージDBが保持しているラベルイメージを作業端末上に表示して、これを参照しながらラベリング作業を行うことができるため、ラベラー間のノウハウ等の差異によらず、ラベル位置の精度を統一的に向上させることができる。
また、その結果、コーパスベース音声合成方式における音声DBと、これを用いて生成する合成音声の品質も、向上させることができる。
According to the audio labeling support system according to the present invention, the label image held in the label image DB can be displayed on the work terminal and the labeling work can be performed while referring to the label image. Regardless of the difference, the accuracy of the label position can be improved uniformly.
As a result, the speech DB in the corpus-based speech synthesis method and the quality of synthesized speech generated using the speech DB can be improved.
実施の形態1.
図1は、本発明の実施の形態1に係る音声ラベリング支援システムの構成を示すものである。
図1の音声ラベリング支援システムは、ラベルイメージ登録端末100、ラベルイメージサーバ200、ラベリング作業端末300を有する。これらはネットワーク400を介して接続されている。
FIG. 1 shows a configuration of an audio labeling support system according to
The voice labeling support system of FIG. 1 includes a label
ラベルイメージ登録端末100は、ラベルイメージをラベルイメージサーバ200に登録するための端末であり、ラベル列送信部101と、ラベルイメージ送信部102を備える。
ラベル列送信部101は、音素ラベル列をラベルイメージサーバ200に送信して、その音素ラベル列に対応するラベルイメージが既に登録されているか否かを確認するよう、ラベルイメージサーバ200に依頼する。
ラベルイメージ送信部102は、ラベルイメージをラベルイメージサーバ200に送信し、そのラベルイメージを登録するように依頼する。
The label
The label
The label
ラベルイメージサーバ200は、ラベルイメージを保持し、ラベリング作業端末300からラベルイメージ取得要求を受けた際に、該当するラベルイメージを返送するためのサーバであり、ラベル登録判定部201、ラベルイメージ登録部202、ラベルイメージ検索部203、記憶手段204を備える。
ラベル登録判定部201は、音素ラベル列を受け取り、その音素ラベル列に対応するラベルイメージが、後述のラベルイメージDB(Databaseの略、以下同じ)204aに保持されているか否かを判定して結果を返信する。
ラベルイメージ登録部202は、ラベルイメージを受け取り、そのラベルイメージを後述のラベルイメージDB204aに格納する。
ラベルイメージ検索部203は、音素ラベル列を受け取り、その音素ラベル列に対応するラベルイメージを、後述のラベルイメージDB204aから検索して返信する。
記憶手段204は、後述の図3で説明するラベルイメージDB204aを格納している。
The
The label
The label
The label
The
ラベリング作業端末300は、ラベリング作業を行うための端末で、ラベルイメージ検索依頼部301、表示部302を備える。
ラベルイメージ検索依頼部301は、音素ラベル列をラベルイメージサーバ200に送信して、その音素ラベル列に対応するラベルイメージをラベルイメージDB204aから検索し、返送するよう依頼する。
表示部302は、ラベルイメージ検索依頼部301がラベルイメージサーバ200より取得したラベルイメージを、後述の図5で説明するような画面構成で表示する。
The
The label image
The
ラベル列送信部101、ラベルイメージ送信部102、ラベル登録判定部201、ラベルイメージ登録部202、ラベルイメージ検索部203、及びラベルイメージ検索依頼部301は、これらの機能を実行する回路デバイスのようなハードウェアで実現することもできるし、マイコンやCPUのような演算装置上で動作するソフトウェアとして実現することもできる。
記憶手段204は、HDD(Hard Disk Drive)のような、比較的容量の大きい記憶装置で構成することが望ましい。
表示部302は、ディスプレイデバイスのような画面表示装置と、これを制御するドライバソフトウェア等の制御機能により構成することができる。
また、各端末及びサーバは、必要なネットワークインターフェースを備えているものとする。
The label
The storage means 204 is preferably composed of a storage device having a relatively large capacity, such as an HDD (Hard Disk Drive).
The
Each terminal and server is assumed to have a necessary network interface.
ここで、図1の音声ラベリング支援システムの動作説明に入る前に、構成に関する補足説明をしておく。 Here, before entering the explanation of the operation of the voice labeling support system of FIG.
まず、本発明における「音素(環境の)ラベル列」の一例を示す。
例えばテキストで「おはよう」に相当するもののラベル列とは、「おはよう」を音素記号で表したものであり、「o−h+a」「h−a+y」「a−y+lo」「y−lo+slt」のように表すことができる。
ここで、「−」「+」は音素の前後のつながり、「lo」は「o」の長母音、「slt」は末尾の無音を表している。
First, an example of a “phoneme (environment) label string” in the present invention is shown.
For example, a label string corresponding to “good morning” in text is a representation of “good morning” with a phoneme symbol, such as “o−h + a”, “ha−y +”, “a−y + lo”, and “y−lo + slt”. Can be expressed as
Here, “−” and “+” indicate the connection before and after phonemes, “lo” indicates the long vowel of “o”, and “slt” indicates the end silence.
図2は、ラベルイメージの1例を示すものである。
本実施の形態1でいうラベルイメージとは、あるテキストをある話者に発生させた際の音声波形イメージを音素境界で切り分け、波形イメージと音素境界を併せて画像イメージとして記録したものである。画像イメージのフォーマットは、後に説明するラベリング作業端末300の表示部302にて表示可能なもの(例えばJPEGやビットマップのような標準的なフォーマット)としておく。
図2において、ある音素環境のラベル列「i−xsh+lu」を発生した際の波形イメージが表されており、さらにこれを、音素「i」「xsh」「lu」に切り分ける際の境界が、縦線により表されている。
FIG. 2 shows an example of a label image.
The label image referred to in the first embodiment is obtained by dividing a speech waveform image when a certain text is generated by a speaker at a phoneme boundary and recording the waveform image and the phoneme boundary together as an image image. The format of the image is set so that it can be displayed on the
FIG. 2 shows a waveform image when a label string “i-xsh + lu” is generated in a certain phonemic environment, and the boundary when dividing this into phonemes “i”, “xsh”, and “lu” is a vertical line. It is represented by a line.
手動ラベリング作業において、このように音素の境界を定めていく作業が行われるが、いずれの箇所を境界位置とするかはラベラー個人のノウハウに依拠する。
そこで、熟練したラベラーがラベリング作業を行った際に、図2のようなラベルイメージを取得して蓄積しておき、他のラベラーがラベリング作業を行う際に、これを参照しながらラベリング作業を行うことを考える。
本発明は、このような着想に基づくものであり、ラベルイメージサーバ200が上述の蓄積機能を備える。
In manual labeling work, the work of defining the boundary of phonemes is performed in this way, and it is dependent on the labeler's individual know-how which part is set as the boundary position.
Therefore, when a skilled labeler performs a labeling operation, the label image as shown in FIG. 2 is acquired and accumulated, and when another labeler performs the labeling operation, the labeling operation is performed with reference to this labeling operation. Think about it.
The present invention is based on such an idea, and the
図3は、ラベルイメージDB204aの構成とデータ例を示すものである。
ラベルイメージDB204aは、「ラベル列」列と「ラベルイメージ」列を有する。
「ラベル列」列には、音素ラベル列が格納されている。
「ラベルイメージ」列には、「ラベル列」列の値で特定される音素ラベル列に対応したラベルイメージが格納されている。本列に格納されているラベルイメージは、図2で説明したような、波形データとラベル位置を併せて示す画像データである。
FIG. 3 shows the configuration and data example of the
The
The “label string” column stores a phoneme label string.
The “label image” column stores a label image corresponding to the phoneme label column specified by the value of the “label column” column. The label image stored in this column is image data indicating both the waveform data and the label position as described in FIG.
次に、本実施の形態1における音声ラベリング支援システムの動作について説明する。 Next, the operation of the voice labeling support system according to the first embodiment will be described.
図4は、ラベルイメージ登録端末100がラベルイメージを登録する際の処理シーケンスを説明するものである。ここでは、音素ラベル列「k−a+i」に対応するラベルイメージを登録する際のシーケンスを例に取る。
以下、各ステップについて説明する。
FIG. 4 illustrates a processing sequence when the label
Hereinafter, each step will be described.
(0)事前作業
ここでは、ラベルイメージ登録端末100のオペレータは十分なラベリング作業経験を有し、事前作業として、同端末で音素ラベル列「k−a+i」についてのラベリング作業を実施したものとする。
(0) Preliminary work Here, it is assumed that the operator of the label
(1)「k−a+i」のラベル列を送信
オペレータは、図示しないラベルイメージ登録端末100の操作部を操作し、ラベルイメージサーバ200に対し、音素ラベル列「k−a+i」に対応するラベルイメージが既に登録されているか否かを判定するよう要求する。
ラベル列送信部101は、上述の操作指示を受けて、音素ラベル列「k−a+i」をラベルイメージサーバ200に送信し、音素ラベル列「k−a+i」に対応するラベルイメージがラベルイメージDB204aに登録されているか否か検索するよう要求する。
検索要求は、ネットワーク400を伝送するパケットとして、ラベルイメージサーバ200に到達する。
(1) Transmit the label sequence of “k−a + i” The operator operates an operation unit of the label image registration terminal 100 (not shown) to the
Upon receiving the above operation instruction, the label
The search request reaches the
(2)「k−a+i」のラベル列を検索する
ラベル登録判定部201は、ステップ(1)でラベル列送信部101が送信した要求パケットを受け取る。
次に、ラベル登録判定部201は、受け取ったラベル列「k−a+i」をキーにしてラベルイメージDB204aを検索し、対応するラベルイメージが登録されているか否かを判定する。
ここでは、対応するラベルイメージが検索にヒットせず、登録されていないものと判定したとする。
(2) Search for a Label Sequence “k−a + i” The label
Next, the label
Here, it is assumed that the corresponding label image does not hit the search and is determined not to be registered.
(3)ラベル列の検索結果
ラベル登録判定部201は、ラベル列「k−a+i」についての検索結果を、ラベルイメージ登録端末100に返信する。
(3) Label String Search Result The label
(4)送信依頼
ラベル列送信部101は、ラベルイメージ送信部102に対し、音素ラベル列「k−a+i」に対応するラベルイメージをラベルイメージサーバ200に送信するように依頼する。
(4) Transmission Request The label
(5)「k−a+i」のラベルイメージ送信
ラベルイメージ送信部102は、オペレータが事前作業としてラベリングを実施した、音素ラベル列「k−a+i」に対応するラベルイメージを、ラベルイメージサーバ200に送信する。
ラベルイメージは、ネットワーク400を伝送するパケットとして、ラベルイメージサーバ200に到達する。
(5) Label image transmission of “k−a + i” The label
The label image reaches the
(6)「k−a+i」のラベルイメージ登録
ラベルイメージ登録部202は、ステップ(5)でラベルイメージ送信部102が送信したラベルイメージパケットを受け取る。
次に、ラベルイメージ登録部202は、受け取ったラベルイメージをラベルイメージDB204aに登録する。ここでいう「登録する」とは、図3で説明したような構成でエントリを新たに追加することをいう。
(6) Label image registration of “k−a + i” The label
Next, the label
以上の処理により、音素ラベル列「k−a+i」に対応するラベルイメージがラベルイメージDB204aに登録された。
次に、ラベルイメージDB204aに登録されたラベルイメージを利用する手順について説明する。
Through the above processing, the label image corresponding to the phoneme label string “ka + i” is registered in the
Next, a procedure for using a label image registered in the
図5は、ラベリング作業端末300の表示部302に表示される、ラベリング作業画面の構成例である。以下、図5を参照しながら、ラベリング作業端末300のオペレータが行う作業について説明する。
FIG. 5 is a configuration example of a labeling work screen displayed on the
(1)音声波形データの読み込み
オペレータは、ラベリングを行う音声波形データを読み込むように、図示しない操作部を操作してラベリング作業端末300に指示を与える。
読み込まれた音声波形データに該当する波形イメージが、図5における「1」の部分に表示される。
(1) Reading voice waveform data The operator operates the operation unit (not shown) to give instructions to the
A waveform image corresponding to the read audio waveform data is displayed in a portion “1” in FIG.
(2)ラベリング箇所の拡大
オペレータは、ラベリングを行う箇所の音声波形イメージを拡大するように、ラベリング作業端末300に指示を与える。
拡大を指示した箇所の拡大波形イメージが、図5における「2」の部分に表示される。
(2) Enlarging the Labeling Location The operator gives an instruction to the
An enlarged waveform image of the location where the enlargement is instructed is displayed in a portion “2” in FIG.
(3)ラベル列の送信
オペレータは、図5における「5」の部分に音素ラベル列を入力し、「送信」ボタンを押下する。
(3) Transmission of label string The operator inputs a phoneme label string in the portion “5” in FIG. 5 and presses the “Send” button.
(4)ラベルイメージの取得、表示
ラベリング作業端末300は、後述の図6の処理により、オペレータがステップ(3)で入力した音素ラベル列に相当するラベルイメージをラベルイメージサーバ200から取得し、図5における「4」の部分に表示する。
(4) Acquisition and display of label image The
(5)ラベル位置の設定
オペレータは、図5における「4」の部分に表示されたラベルイメージを参照しながら、「3」の部分を、図示しない操作部を操作することにより移動させる。この位置がラベル位置として設定されることになる。
(5) Setting of Label Position The operator moves the part “3” by operating an operation unit (not shown) while referring to the label image displayed in the part “4” in FIG. This position is set as the label position.
このように、ラベリングを行おうとしている音素ラベル列に対応した(もしくは最も近い)ラベルイメージを、一種の作業マニュアルとして参照しながらラベリング作業を行うことができるので、ラベル位置の精度統一と向上を図ることができる。 In this way, labeling can be performed while referring to the label image corresponding to (or closest to) the phoneme label string to be labeled as a kind of work manual, so the accuracy and accuracy of the label position can be unified and improved. Can be planned.
図6は、ラベリング作業端末300のオペレータが、図5で説明したような画面上でラベリング作業を行う際に、ラベリング作業端末300が実行する内部的な処理シーケンスを説明するものである。
以下、各ステップについて説明する。
FIG. 6 illustrates an internal processing sequence executed by the
Hereinafter, each step will be described.
(1)「k−a+i」のラベル列を送信
オペレータは、図示しないラベリング作業端末300の操作部を操作し、ラベルイメージサーバ200に対し、音素ラベル列「k−a+i」に対応するラベルイメージを送信するよう要求する。
ラベルイメージ検索依頼部301は、上述の操作指示を受けて、音素ラベル列「k−a+i」をラベルイメージサーバ200に送信し、音素ラベル列「k−a+i」に対応するラベルイメージを検索するよう要求する。
検索要求は、ネットワーク400を伝送するパケットとして、ラベルイメージサーバ200に到達する。
なお、本ステップは、図5で説明したステップ(3)における、ラベリング作業端末300の内部動作に相当する。
(1) Sending a Label Sequence of “k−a + i” The operator operates an operation unit of a labeling work terminal 300 (not shown) and sends a label image corresponding to the phoneme label sequence “ka−i” to the
In response to the above operation instruction, the label image
The search request reaches the
This step corresponds to the internal operation of the
(2)「k−a+i」のラベル列を検索する
ラベルイメージ検索部203は、ステップ(1)でラベルイメージ検索依頼部301が送信した要求パケットを受け取る。
次に、ラベルイメージ検索部203は、受け取ったラベル列「k−a+i」をキーにしてラベルイメージDB204aを検索し、対応するラベルイメージを取得する。
ここでは、対応するラベルイメージがラベルイメージDB204aに登録済みであるものとする。
(2) Searching for a Label Sequence of “k−a + i” The label
Next, the label
Here, it is assumed that the corresponding label image has been registered in the
(3)「k−a+i」のラベルイメージ送信
ラベルイメージ検索部203は、ステップ(2)で取得したラベルイメージを、ラベリング作業端末300に送信する。
ラベルイメージは、ネットワーク400を伝送するパケットとして、ラベリング作業端末300に到達する。
(3) Label image transmission of “k−a + i” The label
The label image reaches the
(4)表示依頼
ラベルイメージ検索依頼部301は、表示部302に対し、取得したラベルイメージを画面表示するように依頼する。
表示部302は、ラベルイメージ検索依頼部301が取得したラベルイメージを画面表示する。
なお、本ステップは、図5で説明したステップ(4)における、ラベリング作業端末300の内部動作に相当する。
(4) Display Request The label image
The
This step corresponds to the internal operation of the
以上のように、本実施の形態1によれば、ラベルイメージDBが保持しているラベルイメージを作業端末上に表示して、これを参照しながらラベリング作業を行うことができるため、ラベラー間のノウハウ等の差異によらず、ラベル位置の精度を統一的に向上させることができる。
また、その結果、コーパスベース音声合成方式における音声DBと、これを用いて生成する合成音声の品質も、向上させることができる。
As described above, according to the first embodiment, the label image held in the label image DB can be displayed on the work terminal and the labeling work can be performed while referring to the label image. Regardless of the difference in know-how, the accuracy of the label position can be improved uniformly.
As a result, the speech DB in the corpus-based speech synthesis method and the quality of synthesized speech generated using the speech DB can be improved.
実施の形態2.
図7は、本発明の実施の形態2に係る音声ラベリング支援システムの構成を示すものである。
図7の音声ラベリング支援システムにおけるラベルイメージサーバ200は、図1の構成に加えて新たにデフォルトラベルイメージ記憶手段205を備えている。その他の構成は図1と同様であるため、説明を省略する。
デフォルトラベルイメージ記憶手段205は、HDD(Hard Disk Drive)のような、比較的容量の大きい記憶装置で構成することが望ましい。
FIG. 7 shows a configuration of an audio labeling support system according to
The
The default label
デフォルトラベルイメージ記憶手段205は、デフォルトラベルイメージDB205aを格納している。
デフォルトラベルイメージDB205aの構成は、図3で説明したラベルイメージDB204aと同様であるが、ラベルイメージDB204aが保持するラベルイメージは、ラベルイメージ登録端末100から送信するのに対し、デフォルトラベルイメージDB205aが保持するラベルイメージは、あらかじめ規定の話者の発声に基づき生成したラベルイメージを格納したものである点が異なる。
なお、図7では記憶手段204とデフォルトラベルイメージ記憶手段205を別々に設けたが、これらの記憶手段を一体的に構成して2つのDBを合わせて格納してもよい。後述の実施の形態においても同様である。
The default label
The configuration of the default
In FIG. 7, the
本実施の形態2における「規定ラベルイメージDB」は、デフォルトラベルイメージDB205aがこれに相当する。
The “specified label image DB” in the second embodiment corresponds to the default
図8は、本実施の形態2において、ラベリング作業端末300のオペレータが、図5で説明したような画面上でラベリング作業を行う際に、ラベリング作業端末300が実行する内部的な処理シーケンスを説明するものである。
各ステップの処理は、概ね図6で説明したものと同様であるが、ステップ(2)〜(3)における処理が異なるため、これについて説明する。
FIG. 8 illustrates an internal processing sequence executed by the
The processing in each step is substantially the same as that described with reference to FIG. 6, but the processing in steps (2) to (3) is different and will be described.
(2)「k−a+i」のラベル列を検索する
ラベルイメージ検索部203は、ステップ(1)でラベルイメージ検索依頼部301が送信した要求パケットを受け取る。
次に、ラベルイメージ検索部203は、受け取ったラベル列「k−a+i」をキーにしてラベルイメージDB204aを検索し、対応するラベルイメージを取得する。
ここで、対応するラベルイメージがラベルイメージDB204aに登録されていなかったものとする。
この場合、ラベルイメージ検索部203は、デフォルトラベルイメージDB205aが保持しているラベルイメージの中で、音素ラベル列が「k−a+i」と同一、又はこれと最も近いものを検索し、該当するラベルイメージを取得する。
(2) Searching for a Label Sequence of “k−a + i” The label
Next, the label
Here, it is assumed that the corresponding label image has not been registered in the
In this case, the label
(3)「k−a+i」に最も近いラベルイメージ送信
ラベルイメージ検索部203は、ステップ(2)で取得したラベルイメージを、ラベリング作業端末300に送信する。
ラベルイメージは、ネットワーク400を伝送するパケットとして、ラベリング作業端末300に到達する。
(3) Label image transmission closest to “k−a + i” The label
The label image reaches the
以上のように、本実施の形態2によれば、ラベルイメージDB204aに該当するラベルイメージが格納されていない場合であっても、標準的な話者の発声に基づきあらかじめデフォルトラベルイメージDB205aを構築しておくことにより、ラベリング作業を行う際に参照するラベルイメージが全くないという事態を回避できる。
例えば、ラベルイメージ登録端末100からラベルイメージDB204aに登録したラベルイメージの数が十分でない段階でラベリング作業を行わざるを得ないような場合であっても、少なくとも標準的な話者の発声に基づくラベルイメージが得られるため、ラベリング作業の精度を一定レベルに保つことができる。
As described above, according to the second embodiment, even if the label image corresponding to the
For example, even if the labeling operation is unavoidable when the number of label images registered in the
実施の形態3.
本発明の実施の形態3では、ラベルイメージサーバ200において、複数の話者の発声に基づき生成したラベルイメージを格納している構成例について説明する。
なお、本実施の形態3に係る音声ラベリング支援システムの構成は、ラベルイメージDB204aとデフォルトラベルイメージDB205aの構成を除き実施の形態2で説明したものと同様であるため、説明を省略する。
In the third embodiment of the present invention, a configuration example in which label images generated based on the utterances of a plurality of speakers are stored in the
The configuration of the audio labeling support system according to the third embodiment is the same as that described in the second embodiment except for the configurations of the
図9は、本実施の形態3におけるラベルイメージDB204aの構成とデータ例を示すものである。
図9において、図3で説明した構成に加え、新たに「話者名」列が追加されている。
「話者名」列には、話者を特定する情報、例えば氏名などが格納される。
「ラベル列」列には、音素ラベル列が格納されている。
「ラベルイメージ」列には、「話者名」列の値で特定される話者と「ラベル列」列の値で特定される音素ラベル列に対応したラベルイメージが格納されている。
FIG. 9 shows the configuration and data example of the
In FIG. 9, a “speaker name” column is newly added in addition to the configuration described in FIG. 3.
The “speaker name” column stores information for identifying a speaker, such as a name.
The “label string” column stores a phoneme label string.
The “label image” column stores a label image corresponding to the speaker specified by the value of the “speaker name” column and the phoneme label column specified by the value of the “label column” column.
即ち、本実施の形態3におけるラベルイメージDB204aには、複数の話者の発声に基づき生成したラベルイメージが格納されており、同じ音素ラベル列であっても、複数のラベルイメージを格納している場合もある。
このように、複数の話者のラベルイメージを格納しているのは、同じ音素ラベル列について発声したものであっても、話者によっては適切なラベル位置が異なる場合もあるからである。従ってラベルイメージDB204aには、ラベリング作業を行う音声の話者毎にラベルイメージを保持しておくことが望ましく、図9のようなデータ構成によりこれを実現している。
なお、デフォルトラベルイメージDB205aについても図9と同様の構成を備えることができる。
That is, the
The reason why the label images of a plurality of speakers are stored in this way is that even if the speech is made for the same phoneme label string, the appropriate label position may differ depending on the speaker. Therefore, it is desirable to store a label image for each voice speaker who performs labeling work in the
The default
図10は、ラベルイメージ登録端末100がラベルイメージを登録する際の処理シーケンスを説明するものである。ここでは、話者「A」と音素ラベル列「k−a+i」に対応するラベルイメージを登録する際のシーケンスを例に取る。
以下、各ステップについて説明する。
FIG. 10 illustrates a processing sequence when the label
Hereinafter, each step will be described.
(0)事前作業
ここでは、ラベルイメージ登録端末100のオペレータは十分なラベリング作業経験を有し、事前作業として、同端末で話者「A」の発声による音素ラベル列「k−a+i」についてのラベリング作業を実施したものとする。
(0) Pre-work Here, the operator of the label
(1)話者名「A」と「k−a+i」のラベル列を送信
オペレータは、図示しないラベルイメージ登録端末100の操作部を操作し、ラベルイメージサーバ200に対し、話者「A」の発声による音素ラベル列「k−a+i」に対応するラベルイメージが既に登録されているか否かを判定するよう要求する。
ラベル列送信部101は、上述の操作指示を受けて、話者名「A」と音素ラベル列「k−a+i」をラベルイメージサーバ200に送信し、話者「A」の発声による音素ラベル列「k−a+i」に対応するラベルイメージがラベルイメージDB204aに登録されているか否か検索するよう要求する。
検索要求は、ネットワーク400を伝送するパケットとして、ラベルイメージサーバ200に到達する。
(1) Transmit the label string of the speaker names “A” and “ka + i” The operator operates the operation unit of the label image registration terminal 100 (not shown) to the
In response to the above operation instruction, the label
The search request reaches the
(2)話者名「A」で「k−a+i」のラベル列を検索する
ラベル登録判定部201は、ステップ(1)でラベル列送信部101が送信した要求パケットを受け取る。
次に、ラベル登録判定部201は、受け取った話者名「A」とラベル列「k−a+i」をキーにしてラベルイメージDB204aを検索し、対応するラベルイメージが登録されているか否かを判定する。
判定は、話者名「A」とラベル列「k−a+i」の組み合わせがラベルイメージDB204aに登録されているか否かによる。即ち、いずれか一方のみが存在していても、検索条件に合致しているとはみなされない。
ここでは、対応するラベルイメージが検索にヒットせず、登録されていないものと判定したとする。
(2) Search for the label string of “ka + i” with the speaker name “A” The label
Next, the label
The determination is based on whether or not a combination of the speaker name “A” and the label string “k−a + i” is registered in the
Here, it is assumed that the corresponding label image does not hit the search and is determined not to be registered.
(3)ラベル列の検索結果
ラベル登録判定部201は、話者名「A」とラベル列「k−a+i」についての検索結果を、ラベルイメージ登録端末100に返信する。
(3) Label String Search Result The label
(4)送信依頼
ラベル列送信部101は、ラベルイメージ送信部102に対し、話者「A」の発声による音素ラベル列「k−a+i」に対応するラベルイメージをラベルイメージサーバ200に送信するように依頼する。
(4) Transmission Request The label
(5)話者名「A」と「k−a+i」のラベルイメージ送信
ラベルイメージ送信部102は、オペレータが事前作業としてラベリングを実施した、話者「A」の発声による音素ラベル列「k−a+i」に対応するラベルイメージを、ラベルイメージサーバ200に送信する。
ラベルイメージは、ネットワーク400を伝送するパケットとして、ラベルイメージサーバ200に到達する。
(5) Label image transmission of speaker names “A” and “ka + i” The label
The label image reaches the
(6)「k−a+i」のラベルイメージ登録
ラベルイメージ登録部202は、ステップ(5)でラベルイメージ送信部102が送信したラベルイメージパケットを受け取る。
次に、ラベルイメージ登録部202は、受け取ったラベルイメージをラベルイメージDB204aに登録する。登録の際には、図9の「話者名」列の値を「A」、「ラベル列」列の値を「k−a+i」とするエントリを新たに生成し、受け取ったラベルイメージを「ラベルイメージ」列に格納する。
(6) Label image registration of “k−a + i” The label
Next, the label
図11は、本実施の形態3において、ラベリング作業端末300のオペレータが、図5で説明したような画面上でラベリング作業を行う際に、ラベリング作業端末300が実行する内部的な処理シーケンスを説明するものである。
以下、各ステップについて説明する。
FIG. 11 illustrates an internal processing sequence executed by the
Hereinafter, each step will be described.
(1)話者名「A」と「k−a+i」のラベル列を送信
オペレータは、図示しないラベリング作業端末300の操作部を操作し、ラベルイメージサーバ200に対し、話者「A」の発声による音素ラベル列「k−a+i」に対応するラベルイメージを送信するよう要求する。
ラベルイメージ検索依頼部301は、上述の操作指示を受けて、話者名「A」と音素ラベル列「k−a+i」をラベルイメージサーバ200に送信し、話者「A」の発声による音素ラベル列「k−a+i」に対応するラベルイメージを検索するよう要求する。
検索要求は、ネットワーク400を伝送するパケットとして、ラベルイメージサーバ200に到達する。
なお、本ステップは、図5で説明したステップ(3)における、ラベリング作業端末300の内部動作に相当する。なお、この場合、図5の画面の「5」の部分において、「話者名」を入力する欄を設けておく。
(1) Transmitting the label string of the speaker names “A” and “ka + i” The operator operates the operation unit of the labeling work terminal 300 (not shown) and utters the speaker “A” to the
In response to the above operation instruction, the label image
The search request reaches the
This step corresponds to the internal operation of the
(2)話者名「A」で「k−a+i」のラベル列を検索する
ラベルイメージ検索部203は、ステップ(1)でラベルイメージ検索依頼部301が送信した要求パケットを受け取る。
次に、ラベルイメージ検索部203は、受け取った話者名「A」とラベル列「k−a+i」をキーにしてラベルイメージDB204aを検索し、対応するラベルイメージを取得する。対応するラベルイメージがラベルイメージDB204aに登録されていない場合には、デフォルトラベルイメージDB205aが保持しているラベルイメージの中で、話者名が「A」であり、音素ラベル列が「k−a+i」と同一、又はこれと最も近いものを検索し、該当するラベルイメージを取得する。
(2) Search for a label string of “ka + i” with the speaker name “A” The label
Next, the label
(3)「k−a+i」のラベルイメージ送信
ラベルイメージ検索部203は、ステップ(2)で取得したラベルイメージを、ラベリング作業端末300に送信する。
ラベルイメージは、ネットワーク400を伝送するパケットとして、ラベリング作業端末300に到達する。
(3) Label image transmission of “k−a + i” The label
The label image reaches the
(4)表示依頼
ラベルイメージ検索依頼部301は、表示部302に対し、取得したラベルイメージを画面表示するように依頼する。
表示部302は、ラベルイメージ検索依頼部301が取得したラベルイメージを画面表示する。
(4) Display Request The label image
The
以上のように、本実施の形態3によれば、ラベリング作業を行う音声の話者毎にラベルイメージを保持しておくことにより、実際にラベリング作業を行う音声のラベルイメージに近いラベルイメージを参照しながらラベリング作業を実施できるので、より精度の高いラベル位置の設定を、ラベラー間のノウハウ等の差異によらず統一的に行うことが可能となる。 As described above, according to the third embodiment, a label image close to the label image of the voice actually performing the labeling work is referred to by holding the label image for each speaker of the voice performing the labeling work. Since the labeling operation can be performed, it is possible to set the label position with higher accuracy in a unified manner regardless of the difference in know-how between the labelers.
実施の形態4.
本発明の実施の形態4では、ラベルイメージサーバ200において、ラベルイメージ毎にメルケプストラム情報を格納しており、ラベルイメージの検索の際に、このメルケプストラム情報を用いる構成例について説明する。
なお、本実施の形態4に係る音声ラベリング支援システムの構成は、ラベルイメージDB204aの構成を除いて実施の形態1で説明した図1と同様であるため、説明を省略する。
In the fourth embodiment of the present invention, a mel cepstrum information is stored for each label image in the
The configuration of the audio labeling support system according to the fourth embodiment is the same as that of FIG. 1 described in the first embodiment except for the configuration of the
なお、「メルケプストラム」とは、音程の感覚を表す尺度であるメルスケール上での対数パワースペクトルの逆フーリエ変換として定義されるものである。一般に、メルケプストラムを用いることにより、聴覚特性に合わせた情報圧縮が可能となる。
本実施の形態4において、メルケプストラム情報は、対応するラベル列の波形データ区間で5ms間隔で抽出され、各ラベル区間の4等分で平均化する。これらの数値は設計上のものであり、設計者が適宜設定すればよい。
“Mel cepstrum” is defined as an inverse Fourier transform of a logarithmic power spectrum on a mel scale, which is a scale representing a sense of pitch. In general, by using a mel cepstrum, it is possible to compress information in accordance with auditory characteristics.
In the fourth embodiment, the mel cepstrum information is extracted at 5 ms intervals in the waveform data section of the corresponding label sequence, and averaged at four equal parts in each label section. These numerical values are designed, and the designer may set them appropriately.
本実施の形態4では、ラベルイメージDB204aから該当ラベルイメージを検索する際に、検索ラベル列と併用してメルケプストラム情報を検索条件に用いる。
これにより、複数のエントリが検索条件に合致した場合や、検索条件に合致するエントリが全く存在しない場合であっても、メルケプストラム情報が最も近いラベルイメージを取得することができるので、ラベリング作業端末300でラベリング作業を行う際に参照するに適したラベルイメージを確実に取得することができる。
In the fourth embodiment, when searching for the corresponding label image from the
As a result, even when a plurality of entries match the search condition or when there is no entry that matches the search condition, the label image with the closest mel cepstrum information can be acquired. A label image suitable for reference when performing a labeling operation at 300 can be reliably acquired.
以下は、本実施の形態4の構成と動作について説明する。 The configuration and operation of the fourth embodiment will be described below.
図12は、本実施の形態4におけるラベルイメージDB204aの構成とデータ例を示すものである。
図12において、図3で説明した構成に加え、新たに「メルケプストラム」列が追加されている。
「ラベル列」列には、音素ラベル列が格納されている。
「ラベルイメージ」列には、「ラベル列」列の値で特定される音素ラベル列に対応したラベルイメージが格納されている。
「メルケプストラム」列には、「ラベルイメージ」列に格納されているラベルイメージに対応した波形データより算出したメルケプストラム情報が格納されている。ここでは、各ラベルイメージ毎に12個のメルケプストラム情報を格納している例を示しているが、メルケプストラム情報の個数はこれに限られるものではない。
FIG. 12 shows the configuration and data example of the
In FIG. 12, in addition to the configuration described in FIG. 3, a “Mel cepstrum” column is newly added.
The “label string” column stores a phoneme label string.
The “label image” column stores a label image corresponding to the phoneme label column specified by the value of the “label column” column.
The “mel cepstrum” column stores the mel cepstrum information calculated from the waveform data corresponding to the label image stored in the “label image” column. Here, an example is shown in which twelve pieces of mel cepstrum information are stored for each label image, but the number of pieces of mel cepstrum information is not limited to this.
図13は、ラベルイメージ登録端末100がラベルイメージを登録する際の処理シーケンスを説明するものである。ここでは、音素ラベル列「k−a+i」に対応するラベルイメージを登録する際のシーケンスを例に取る。
以下、各ステップについて説明する。
FIG. 13 illustrates a processing sequence when the label
Hereinafter, each step will be described.
(0)事前作業〜(3)ラベル列の検索結果
ステップ(0)〜(3)は、実施の形態1の図4で説明したものと同様であるため、説明を省略する。
(0) Preliminary work to (3) Label row search results Steps (0) to (3) are the same as those described in FIG.
(4)送信依頼
ラベル列送信部101は、ラベルイメージ送信部102に対し、音素ラベル列「k−a+i」に対応するラベルイメージと、その波形データより求めたメルケプストラム情報を、ラベルイメージサーバ200に送信するように依頼する。
(4) Transmission Request The label
(5)「k−a+i」のラベルイメージとメルケプストラム情報を送信
ラベルイメージ送信部102は、オペレータが事前作業としてラベリングを実施した、音素ラベル列「k−a+i」に対応するラベルイメージを、ラベルイメージサーバ200に送信する。
また、音声波形データより、そのラベルイメージに対応するメルケプストラム情報を求め、ラベルイメージとともにラベルイメージサーバ200に送信する。
ラベルイメージとメルケプストラム情報は、ネットワーク400を伝送するパケットとして、ラベルイメージサーバ200に到達する。
(5) Transmit “k−a + i” label image and mel cepstrum information The label
Further, the mel cepstrum information corresponding to the label image is obtained from the voice waveform data, and transmitted to the
The label image and the mel cepstrum information reach the
(6)「k−a+i」のラベルイメージとメルケプストラム情報を登録
ラベルイメージ登録部202は、ステップ(5)でラベルイメージ送信部102が送信したパケットを受け取る。
次に、ラベルイメージ登録部202は、受け取ったラベルイメージとメルケプストラム情報を、ラベルイメージDB204aに登録する。
(6) Register “k−a + i” label image and mel cepstrum information The label
Next, the label
なお、図13において、登録するラベルイメージに対応するメルケプストラム情報はラベルイメージ登録端末100が求めているが、これに代えて波形データをラベルイメージサーバ200に送信し、ラベルイメージサーバ200でメルケプストラム情報を求めて登録するように構成してもよい。
In FIG. 13, the mel cepstrum information corresponding to the label image to be registered is obtained by the label
図14は、本実施の形態4において、ラベリング作業端末300のオペレータが、図5で説明したような画面上でラベリング作業を行う際に、ラベリング作業端末300が実行する内部的な処理シーケンスを説明するものである。
以下、各ステップについて説明する。
FIG. 14 illustrates an internal processing sequence executed by the
Hereinafter, each step will be described.
(1)「k−a+i」のラベル列とメルケプストラム情報を送信
オペレータは、図示しないラベリング作業端末300の操作部を操作し、ラベルイメージサーバ200に対し、音素ラベル列「k−a+i」に対応するラベルイメージを送信するよう要求する。
ラベルイメージ検索依頼部301は、上述の操作指示を受けて、音素ラベル列「k−a+i」に対応する波形データよりメルケプストラム情報を求める。
次に、音素ラベル列「k−a+i」とともに、そのメルケプストラム情報をラベルイメージサーバ200に送信し、音素ラベル列「k−a+i」とそのメルケプストラム情報に対応するラベルイメージを検索するよう要求する。
検索要求は、ネットワーク400を伝送するパケットとして、ラベルイメージサーバ200に到達する。
(1) Transmit “k−a + i” label sequence and mel cepstrum information The operator operates an operation unit of the labeling work terminal 300 (not shown) to correspond to the phoneme label sequence “ka−i” to the
In response to the operation instruction described above, the label image
Next, the mel cepstrum information is transmitted to the
The search request reaches the
(2)「k−a+i」のラベル列とメルケプストラム情報を検索する
ラベルイメージ検索部203は、ステップ(1)でラベルイメージ検索依頼部301が送信した要求パケットを受け取る。
次に、ラベルイメージ検索部203は、受け取ったラベル列「k−a+i」をキーにしてラベルイメージDB204aを検索し、該当するエントリを取得する。ここでは、複数のエントリが検索にヒットしたものとする。
さらに、ラベルイメージ検索部203は、「k−a+i」をキーとする検索で得たエントリが保持するメルケプストラム情報と、ラベリング作業端末300より受け取ったメルケプストラム情報との距離を算出し、最も距離の小さいエントリを特定し、そのエントリのラベルイメージを取得する。
(2) Searching for the label string of “k−a + i” and mel cepstrum information The label
Next, the label
Furthermore, the label
(3)「k−a+i」のラベルイメージ送信〜(4)表示依頼
ステップ(3)〜(4)は、実施の形態1の図6で説明したステップ(3)〜(4)と同様であるため、説明を省略する。
(3) Label image transmission of “k−a + i” to (4) display request Steps (3) to (4) are the same as steps (3) to (4) described in FIG. 6 of the first embodiment. Therefore, the description is omitted.
なお、ステップ(2)において、ラベル列「k−a+i」に該当するエントリが複数存在する場合について説明したが、先に述べたように、該当するエントリが全く存在しない場合であっても、同様にラベリング作業端末300より受け取ったメルケプストラム情報との距離が最も小さいエントリを検索するようにしてもよい。
また、ラベル列とメルケプストラム情報を検索条件として併用することとしたが、メルケプストラム情報単独で検索条件にしてもよい。
いずれの場合であっても、メルケプストラム情報を用いることにより、ラベリング作業を行う音声の特徴に近いラベルイメージを取得することができる。
In step (2), the case where there are a plurality of entries corresponding to the label string “k−a + i” has been described. However, as described above, even if there is no corresponding entry at all, the same applies. Alternatively, the entry having the shortest distance from the mel cepstrum information received from the
Further, the label string and the mel cepstrum information are used together as search conditions, but the mel cepstrum information alone may be used as the search conditions.
In any case, by using the mel cepstrum information, it is possible to acquire a label image that is close to the feature of the voice that performs the labeling operation.
本実施の形態4の図12において、ラベルイメージDB204aの構成を説明したが、デフォルトラベルイメージDB205aについても同様の構成を備えることができる。
また、図12において、図3の構成に「メルケプストラム」列を追加した構成を例示したが、図9の構成に「メルケプストラム」列を追加した構成であっても、本実施の形態4による効果に差異はない。
Although the configuration of the
12 illustrates the configuration in which the “Mel cepstrum” column is added to the configuration in FIG. 3, but the configuration in which the “Mel cepstrum” column is added to the configuration in FIG. There is no difference in effect.
以上のように、本実施の形態4によれば、ラベルイメージDB204aにメルケプストラム情報を保持しておき、ラベルイメージを検索する際にメルケプストラム情報を用いるように構成したので、複数のエントリが検索条件に合致した場合や、検索条件に合致するエントリが全く存在しない場合であっても、メルケプストラム情報が最も近いラベルイメージを取得することができ、ラベリング作業を行う際に参照するに適したラベルイメージを確実に取得することができる。
As described above, according to the fourth embodiment, since the mel cepstrum information is stored in the
実施の形態5.
本発明の実施の形態5では、ラベルイメージサーバ200でメルケプストラム情報を算出する機能を備えた構成について説明する。これにより、ラベルイメージを検索する際の処理負荷をラベルイメージサーバ200に集約することを図る。
なお、本実施の形態5に係る音声ラベリング支援システムの構成は、実施の形態4で説明したものと同様であるため、説明を省略する。
In the fifth embodiment of the present invention, a configuration having a function of calculating mel cepstrum information by the
The configuration of the voice labeling support system according to the fifth embodiment is the same as that described in the fourth embodiment, and thus the description thereof is omitted.
図15は、本実施の形態5において、ラベリング作業端末300のオペレータが、図5で説明したような画面上でラベリング作業を行う際に、ラベリング作業端末300が実行する内部的な処理シーケンスを説明するものである。
以下、各ステップについて説明する。
FIG. 15 illustrates an internal processing sequence executed by the
Hereinafter, each step will be described.
(1)「k−a+i」のラベル列と波形データを送信
オペレータは、図示しないラベリング作業端末300の操作部を操作し、ラベルイメージサーバ200に対し、音素ラベル列「k−a+i」に対応するラベルイメージを送信するよう要求する。
ラベルイメージ検索依頼部301は、上述の操作指示を受けて、音素ラベル列「k−a+i」とともに、その波形データをラベルイメージサーバ200に送信し、音素ラベル列「k−a+i」とそのメルケプストラム情報に対応するラベルイメージを検索するよう要求する。
検索要求は、ネットワーク400を伝送するパケットとして、ラベルイメージサーバ200に到達する。
(1) Transmit “k−a + i” label sequence and waveform data The operator operates an operation unit of a labeling work terminal 300 (not shown) to correspond to the phoneme label sequence “k−a + i” to the
Upon receiving the above operation instruction, the label image
The search request reaches the
(2)メルケプストラム情報を求める
ラベルイメージ検索部203は、ステップ(1)でラベルイメージ検索依頼部301が送信した要求パケットを受け取る。
次に、ラベルイメージ検索部203は、受け取った波形データより、メルケプストラム情報を算出する。
(2) Obtaining Mel Cepstrum Information The label
Next, the label
(3)「k−a+i」のラベル列とメルケプストラム情報を検索する
ラベルイメージ検索部203は、受け取ったラベル列「k−a+i」をキーにしてラベルイメージDB204aを検索し、該当するエントリを取得する。ここでは、複数のエントリが検索にヒットしたものとする。
さらに、ラベルイメージ検索部203は、「k−a+i」をキーとする検索で得たエントリが保持するメルケプストラム情報と、ステップ(2)で算出したメルケプストラム情報との距離を算出し、最も距離の小さいエントリを特定し、そのエントリのラベルイメージを取得する。
(3) Search for the label string and mel cepstrum information of “ka + i” The label
Further, the label
(4)「k−a+i」のラベルイメージ送信〜(5)表示依頼
ステップ(4)〜(5)は、実施の形態1の図6で説明したステップ(3)〜(4)と同様であるため、説明を省略する。
(4) “k−a + i” label image transmission to (5) display request Steps (4) to (5) are the same as steps (3) to (4) described in FIG. 6 of the first embodiment. Therefore, the description is omitted.
なお、ステップ(2)において、ラベル列「k−a+i」に該当するエントリが複数存在する場合について説明したが、実施の形態4と同様に、該当するエントリが全く存在しない場合であっても、同様にラベリング作業端末300より受け取ったメルケプストラム情報との距離が最も小さいエントリを検索するようにしてもよい。
また、ラベル列とメルケプストラム情報を検索条件として併用することとしたが、実施の形態4と同様に、メルケプストラム情報単独で検索条件にしてもよい。
In addition, although the case where there are a plurality of entries corresponding to the label string “k−a + i” in step (2) has been described, as in the fourth embodiment, even if there is no corresponding entry at all, Similarly, an entry having the shortest distance from the mel cepstrum information received from the
In addition, the label string and the mel cepstrum information are used together as search conditions. However, similarly to the fourth embodiment, the mel cepstrum information alone may be used as a search condition.
以上のように、本実施の形態5によれば、ラベリング作業端末300がラベルイメージを取得する際に、メルケプストラム情報を求める処理をラベルイメージサーバ200で実行しているので、演算負荷をラベルイメージサーバ200に集約し、ラベリング作業端末300のCPUやメモリ等を小型化することができる。
また、演算負荷をラベルイメージサーバ200に集約することは、投資対象を集約することにもなるため、サーバ資産等の管理の観点からも好ましい。
As described above, according to the fifth embodiment, when the
In addition, it is preferable from the viewpoint of management of server assets and the like to consolidate the calculation load in the
なお、以上の実施の形態1〜5において、ラベルイメージ登録端末100とラベルイメージサーバ200の間の通信方式や、ラベリング作業端末300とラベルイメージサーバ200の間の通信方式については、特に言及していないが、任意の方式を用いることができる。
例えば、TCP上の任意のポートを用いてデータやコマンドの送受信を行うクライアント・サーバ型のシステムとして構成してもよいし、ラベルイメージサーバ200にWebサーバの機能を備えさせておき、さらにラベルイメージ登録端末100とラベリング作業端末300にWebブラウザ機能を備えさせて、Webアプリケーションとして構成してもよい。
In the first to fifth embodiments, the communication method between the label
For example, it may be configured as a client-server type system that transmits and receives data and commands using an arbitrary port on TCP, or the
また、ラベルイメージDB204aは記憶手段204に、デフォルトラベルイメージ205aはデフォルトラベルイメージ記憶手段205に、それぞれ格納されていることを説明したが、格納形式は適宜最適なものを用いればよい。
一例として、それぞれの記憶手段にデータファイルを格納するDBMS(Database Management System)をラベルイメージサーバ200上に構成し、DBMSの配下で図3、図9、図12のようなテーブル形式のデータ構造を定義し、各行に同各図で説明したようなデータエントリを格納するものとすることができる。
また、ラベルイメージの画像データサイズが大きい場合には、ラベルイメージを画像ファイルとしてDBとは別個に格納し、「ラベルイメージ」列にはそのファイルパスのみを保持するようにしてもよい。
In addition, although it has been described that the
As an example, a database management system (DBMS) that stores data files in each storage means is configured on the
When the image data size of the label image is large, the label image may be stored as an image file separately from the DB, and only the file path may be held in the “label image” column.
100 ラベルイメージ登録端末、101 ラベル列送信部、102 ラベルイメージ送信部、200 ラベルイメージサーバ、201 ラベル登録判定部、202 ラベルイメージ登録部、203 ラベルイメージ検索部、204 記憶手段、204a ラベルイメージDB、205 デフォルトラベルイメージ記憶手段、205a デフォルトラベルイメージDB、300 ラベリング作業端末、301 ラベルイメージ検索依頼部、302 表示部、400 ネットワーク。
DESCRIPTION OF
Claims (5)
ラベリング作業を行うための作業端末と、
を有する音声ラベリング支援システムであって、
前記ラベルイメージサーバは、
検索ラベル列を受け取り、これに該当するラベルイメージを前記ラベルイメージDBから検索する検索部を備え、
前記作業端末は、
前記検索部にラベルイメージの検索を依頼する検索依頼部と、
ラベルイメージを画面表示するための表示部と、
を備え、
前記検索依頼部は、
ラベリング作業を行う音声のラベル列を前記ラベルイメージサーバに送信し、
前記検索部は、
前記検索依頼部よりラベル列を受け取り、そのラベル列に該当するエントリを前記ラベルイメージDBから検索し、そのラベル列に対応付けられたラベルイメージを前記作業端末に返信し、
前記検索依頼部は、
前記検索部よりラベルイメージを受け取り、前記表示部にそのラベルイメージを画面表示させる
ことを特徴とする音声ラベリング支援システム。 A label image server comprising storage means for storing a label image DB for holding a label image for each label row of the phonemic environment;
A work terminal for labeling work,
An audio labeling support system comprising:
The label image server
A search unit that receives a search label string and searches the label image DB for a corresponding label image;
The work terminal is
A search request unit that requests the search unit to search for a label image;
A display for displaying the label image on the screen;
With
The search request unit
Send the label sequence of the audio to be labeled to the label image server,
The search unit
A label string is received from the search request unit, an entry corresponding to the label string is searched from the label image DB, and a label image associated with the label string is returned to the work terminal,
The search request unit
An audio labeling support system that receives a label image from the search unit and causes the display unit to display the label image on a screen.
規定の話者の発声に基づき生成した規定ラベルイメージDBを格納しており、
前記検索部は、
前記検索依頼部より受け取ったラベル列に該当するエントリが前記ラベルイメージDB中に存在しない場合には、
前記検索依頼部より受け取ったラベル列に最も近いラベル列に対応するラベルイメージを前記規定ラベルイメージDBの中から検索し、
そのラベルイメージを前記作業端末に返信する
ことを特徴とする請求項1に記載の音声ラベリング支援システム。 The storage means
Stores the specified label image DB generated based on the utterance of the specified speaker,
The search unit
If the entry corresponding to the label string received from the search request unit does not exist in the label image DB,
Search the label image DB corresponding to the label column closest to the label column received from the search request unit from the specified label image DB,
The voice labeling support system according to claim 1, wherein the label image is returned to the work terminal.
複数の話者の発声に基づき生成した前記ラベルイメージを保持しており、
前記検索依頼部は、
ラベリング作業を行う音声のラベル列とともに、話者を特定するための情報を前記ラベルイメージサーバに送信し、
前記検索部は、
前記検索依頼部よりラベル列及び話者を特定するための情報を受け取り、
そのラベル列と話者に該当するエントリを前記ラベルイメージDBから検索し、
そのラベル列と話者に対応付けられたラベルイメージを前記作業端末に返信する
ことを特徴とする請求項1又は請求項2に記載の音声ラベリング支援システム。 The label image DB is
Holding the label image generated based on the utterances of multiple speakers,
The search request unit
Along with the label sequence of the voice that performs the labeling operation, information for identifying the speaker is sent to the label image server,
The search unit
Receive information for identifying a label string and a speaker from the search request unit,
Search the label image DB for an entry corresponding to the label string and the speaker,
The voice labeling support system according to claim 1 or 2, wherein a label image associated with the label string and a speaker is returned to the work terminal.
前記ラベルイメージ毎のメルケプストラム情報を保持しており、
前記検索依頼部は、
ラベリング作業を行う音声のメルケプストラム情報を求め、その結果を前記ラベルイメージサーバに送信し、
前記検索部は、
前記検索依頼部よりメルケプストラム情報を受け取り、
前記ラベルイメージDBが保持しているメルケプストラム情報について、前記検索依頼部が送信したメルケプストラム情報との距離を算出し、
最も距離の小さいメルケプストラム情報を前記ラベルイメージDBから検索し、そのメルケプストラム情報に対応する前記ラベルイメージを前記作業端末に返信する
ことを特徴とする請求項1ないし請求項3のいずれかに記載の音声ラベリング支援システム。 The label image DB is
Holds mel cepstrum information for each label image,
The search request unit
Find the mel cepstrum information of the voice that performs the labeling work, send the result to the label image server,
The search unit
Receive mel cepstrum information from the search request section,
For the mel cepstrum information held in the label image DB, calculate the distance from the mel cepstrum information transmitted by the search request unit,
The mel cepstrum information with the shortest distance is searched from the label image DB, and the label image corresponding to the mel cepstrum information is returned to the work terminal. Voice labeling support system.
前記ラベルイメージ毎のメルケプストラム情報を保持しており、
前記検索依頼部は、
ラベリング作業を行う音声の波形データを前記ラベルイメージサーバに送信し、
前記検索部は、
前記検索依頼部より音声の波形データを受け取り、その波形データよりメルケプストラム情報を求め、
前記ラベルイメージDBが保持しているメルケプストラム情報について、前記検索部が求めたメルケプストラム情報との距離を算出し、
最も距離の小さいメルケプストラム情報を前記ラベルイメージDBから検索し、そのメルケプストラム情報に対応するラベルイメージを前記作業端末に返信する
ことを特徴とする請求項1ないし請求項3のいずれかに記載の音声ラベリング支援システム。 The label image DB is
Holds mel cepstrum information for each label image,
The search request unit
Send the waveform data of the voice to be labeled to the label image server,
The search unit
Receiving voice waveform data from the search request unit, obtaining mel cepstrum information from the waveform data,
For the mel cepstrum information held in the label image DB, calculate the distance from the mel cepstrum information obtained by the search unit,
4. The mel cepstrum information with the shortest distance is searched from the label image DB, and a label image corresponding to the mel cepstrum information is returned to the work terminal. Voice labeling support system.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007012157A JP4894533B2 (en) | 2007-01-23 | 2007-01-23 | Voice labeling support system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007012157A JP4894533B2 (en) | 2007-01-23 | 2007-01-23 | Voice labeling support system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008180750A true JP2008180750A (en) | 2008-08-07 |
JP4894533B2 JP4894533B2 (en) | 2012-03-14 |
Family
ID=39724722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007012157A Expired - Fee Related JP4894533B2 (en) | 2007-01-23 | 2007-01-23 | Voice labeling support system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4894533B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113113043A (en) * | 2021-04-09 | 2021-07-13 | 中国工商银行股份有限公司 | Method and device for converting voice into image |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63236098A (en) * | 1987-03-25 | 1988-09-30 | キヤノン株式会社 | Labelling system |
JPH05165494A (en) * | 1991-12-13 | 1993-07-02 | Osaka Gas Co Ltd | Voice recognizing device |
JPH06167989A (en) * | 1992-12-01 | 1994-06-14 | N T T Data Tsushin Kk | Speech synthesizing device |
JPH07104789A (en) * | 1993-10-05 | 1995-04-21 | N T T Data Tsushin Kk | Device and method for generating voice synthesis unit dictionary |
JPH0863189A (en) * | 1994-08-18 | 1996-03-08 | Fujitsu Ltd | Voice elementary piece forming device |
JP2000352989A (en) * | 1999-04-30 | 2000-12-19 | Lucent Technol Inc | Method executed on computer to make user settable pronunciation of character string |
JP2001306087A (en) * | 2000-04-26 | 2001-11-02 | Ricoh Co Ltd | Device, method, and recording medium for voice database generation |
JP2003186489A (en) * | 2001-12-14 | 2003-07-04 | Omron Corp | Voice information database generation system, device and method for sound-recorded document creation, device and method for sound recording management, and device and method for labeling |
JP2003345380A (en) * | 2002-05-29 | 2003-12-03 | L Labs Inc | User interface, system and method for automatically labeling voice signal in order to correcting pronunciation |
-
2007
- 2007-01-23 JP JP2007012157A patent/JP4894533B2/en not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63236098A (en) * | 1987-03-25 | 1988-09-30 | キヤノン株式会社 | Labelling system |
JPH05165494A (en) * | 1991-12-13 | 1993-07-02 | Osaka Gas Co Ltd | Voice recognizing device |
JPH06167989A (en) * | 1992-12-01 | 1994-06-14 | N T T Data Tsushin Kk | Speech synthesizing device |
JPH07104789A (en) * | 1993-10-05 | 1995-04-21 | N T T Data Tsushin Kk | Device and method for generating voice synthesis unit dictionary |
JPH0863189A (en) * | 1994-08-18 | 1996-03-08 | Fujitsu Ltd | Voice elementary piece forming device |
JP2000352989A (en) * | 1999-04-30 | 2000-12-19 | Lucent Technol Inc | Method executed on computer to make user settable pronunciation of character string |
JP2001306087A (en) * | 2000-04-26 | 2001-11-02 | Ricoh Co Ltd | Device, method, and recording medium for voice database generation |
JP2003186489A (en) * | 2001-12-14 | 2003-07-04 | Omron Corp | Voice information database generation system, device and method for sound-recorded document creation, device and method for sound recording management, and device and method for labeling |
JP2003345380A (en) * | 2002-05-29 | 2003-12-03 | L Labs Inc | User interface, system and method for automatically labeling voice signal in order to correcting pronunciation |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113113043A (en) * | 2021-04-09 | 2021-07-13 | 中国工商银行股份有限公司 | Method and device for converting voice into image |
Also Published As
Publication number | Publication date |
---|---|
JP4894533B2 (en) | 2012-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11450313B2 (en) | Determining phonetic relationships | |
US8560317B2 (en) | Voice recognition apparatus and recording medium storing voice recognition program | |
US9436678B2 (en) | Architecture for multi-domain natural language processing | |
KR101788500B1 (en) | Systems and methods for name pronunciation | |
KR101770358B1 (en) | Integration of embedded and network speech recognizers | |
US8521539B1 (en) | Method for chinese point-of-interest search | |
JP3232289B2 (en) | Symbol insertion device and method | |
US20100070263A1 (en) | Speech data retrieving web site system | |
JP2010191400A (en) | Speech recognition system and data updating method | |
JP2003502702A (en) | Automatic determination of pronunciation dictionary accuracy in speech recognition systems. | |
US20050256717A1 (en) | Dialog system, dialog system execution method, and computer memory product | |
JPH11259093A (en) | Speech synthesizer, control method therefor, and computer-readable memory | |
US20130006604A1 (en) | Cross-lingual audio search | |
JP5606951B2 (en) | Speech recognition system and search system using the same | |
US20090281808A1 (en) | Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device | |
JP2008234427A (en) | Device, method, and program for supporting interaction between user | |
US8275614B2 (en) | Support device, program and support method | |
JP5068225B2 (en) | Audio file search system, method and program | |
EP3241123B1 (en) | Voice recognition-based dialing | |
JP4894533B2 (en) | Voice labeling support system | |
JP2003162293A (en) | Device and method for voice recognition | |
JP6347939B2 (en) | Utterance key word extraction device, key word extraction system using the device, method and program thereof | |
JPH07319383A (en) | Map display device | |
JP2001022375A (en) | Speech recognition synthesizer | |
CN113516963B (en) | Audio data generation method and device, server and intelligent sound box |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091214 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110824 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110830 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111003 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111129 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4894533 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150106 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |