JP4894533B2

JP4894533B2 - 音声ラベリング支援システム

Info

Publication number: JP4894533B2
Application number: JP2007012157A
Authority: JP
Inventors: 勉兼安
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2007-01-23
Filing date: 2007-01-23
Publication date: 2012-03-14
Anticipated expiration: 2027-01-23
Also published as: JP2008180750A

Description

本発明は、コーパスベース音声合成方式により音声合成を行う際に行われるラベリング作業を支援するシステムに関するものである。

コーパスベース音声合成方式により音声合成を行う場合には、ある話者で任意の単語や文章を読み上げた音声素片の集合により、音声データベースをあらかじめ構築しておく。音声合成の実行時には、この音声データベースから好適な音声素片を選択し、波形接続処理により最終的な合成音声を得る。
このように、コーパスベース音声合成方式においては、音声素片の品質が最終的な合成音声の品質に影響を与えるため、品質の良い音声素片を得ることが重要である。

音声素片を得る方法として、あらかじめある話者で音声を収録しておき、その音声波形と実音声を参照しながら、その音声波形中において、音声素片として好ましい位置に区切り符号を付与する（ラベリング）作業を行うことにより音声素片を得る、というものがある。
このラベリング作業は、経験のある作業者が手動でラベリングを行う手動ラベリングと、コンピュータ等による自動ラベリングとに大別される。

ここで、『自動ラベリングの境界誤差を小とする。』ことを目的とした技術として、『入力音声信号をフレームごとに、複数の帯域にメル周波数分割し（Ｓ１）、各帯域のパワーを求め、また各フレームの音声信号エネルギーを求めてこれらを含む音響特徴量ベクトルを生成し（Ｓ２）、予めこの種の音響特徴量ベクトルを用いて各音韻又は音韻境界についてのＨＭＭ（隠れマルコフモデル）を作っておき、入力音声信号における予め知られている音韻又は音韻境界と対応するＨＭＭの系列と先に求めた特徴量ベクトル系列と尤度が最大となるように計算し（Ｓ３）、その時の音声信号の各フレームに対し、音韻又は音韻境界を表わす情報（ラベル）を付与する（Ｓ４）。』というものが提案されている（特許文献１）。
また、十分な経験（２〜８年）を有するラベラー間では、手動ラベリングによるラベル誤差は小さい、という報告がなされている（非特許文献１）。

特開２００４−７７９０１号公報（要約）河井恒、戸田智基、"波形接続型音声合成のための自動音素セグメンテーションの評価"、電子情報通信学会論文誌、Ｖｏｌ．ＳＰ２００２−１７０、ｐｐ．５−１０、０１．２００３（採録）

上述のような自動ラベリング技術によるラベリングの精度は向上しているものの、未だ精度が不十分である箇所が生じる場合もある。このような場合には、経験を積んだラベラーによる手動ラベリングが行われる。
一般に、手動ラベリングは非常に手間のかかる作業であるため、複数のラベラーが共同して作業を行う場合もあり、このような場合には、ラベリング作業は属人的なノウハウによるところが大きい故に、ラベル位置の精度がまちまちになってしまう。
ラベル位置の精度が低下することは、音声素片の品質の低下につながり、最終的には合成音声の品質に影響する。
そのため、ラベラーのノウハウに拠らず、ラベリング作業の品質を一定のレベルで統一することのできる音声ラベリング支援システムが望まれていた。

本発明に係る音声ラベリング支援システムは、
あるテキストをある話者に発声させた際の音声波形イメージを音素境界で切り分け、波形イメージと音素境界を併せて画像イメージとして記録したラベルイメージを、音素環境のラベル列毎に保持するラベルイメージＤＢを格納した記憶手段を備えるラベルイメージサーバと、
手動ラベリング作業を行うための作業端末と、
を有する音声ラベリング支援システムであって、
前記ラベルイメージサーバは、
検索ラベル列を受け取り、これに該当するラベルイメージを前記ラベルイメージＤＢから検索する検索部を備え、
前記作業端末は、
前記検索部にラベルイメージの検索を依頼する検索依頼部と、
手動ラベリング作業を行う音声の音声波形イメージと、ラベルイメージを画面表示するための表示部と、
を備え、
前記検索依頼部は、
手動ラベリング作業を行う音声のラベル列を前記ラベルイメージサーバに送信し、
前記検索部は、
前記検索依頼部よりラベル列を受け取り、そのラベル列に該当するエントリを前記ラベルイメージＤＢから検索し、そのラベル列に対応付けられたラベルイメージを前記作業端末に返信し、
前記検索依頼部は、
前記検索部よりラベルイメージを受け取り、前記表示部にそのラベルイメージを画面表示させる
ことを特徴とするものである。

本発明に係る音声ラベリング支援システムによれば、ラベルイメージＤＢが保持しているラベルイメージを作業端末上に表示して、これを参照しながらラベリング作業を行うことができるため、ラベラー間のノウハウ等の差異によらず、ラベル位置の精度を統一的に向上させることができる。
また、その結果、コーパスベース音声合成方式における音声ＤＢと、これを用いて生成する合成音声の品質も、向上させることができる。

実施の形態１．
図１は、本発明の実施の形態１に係る音声ラベリング支援システムの構成を示すものである。
図１の音声ラベリング支援システムは、ラベルイメージ登録端末１００、ラベルイメージサーバ２００、ラベリング作業端末３００を有する。これらはネットワーク４００を介して接続されている。

ラベルイメージ登録端末１００は、ラベルイメージをラベルイメージサーバ２００に登録するための端末であり、ラベル列送信部１０１と、ラベルイメージ送信部１０２を備える。
ラベル列送信部１０１は、音素ラベル列をラベルイメージサーバ２００に送信して、その音素ラベル列に対応するラベルイメージが既に登録されているか否かを確認するよう、ラベルイメージサーバ２００に依頼する。
ラベルイメージ送信部１０２は、ラベルイメージをラベルイメージサーバ２００に送信し、そのラベルイメージを登録するように依頼する。

ラベルイメージサーバ２００は、ラベルイメージを保持し、ラベリング作業端末３００からラベルイメージ取得要求を受けた際に、該当するラベルイメージを返送するためのサーバであり、ラベル登録判定部２０１、ラベルイメージ登録部２０２、ラベルイメージ検索部２０３、記憶手段２０４を備える。
ラベル登録判定部２０１は、音素ラベル列を受け取り、その音素ラベル列に対応するラベルイメージが、後述のラベルイメージＤＢ（Ｄａｔａｂａｓｅの略、以下同じ）２０４ａに保持されているか否かを判定して結果を返信する。
ラベルイメージ登録部２０２は、ラベルイメージを受け取り、そのラベルイメージを後述のラベルイメージＤＢ２０４ａに格納する。
ラベルイメージ検索部２０３は、音素ラベル列を受け取り、その音素ラベル列に対応するラベルイメージを、後述のラベルイメージＤＢ２０４ａから検索して返信する。
記憶手段２０４は、後述の図３で説明するラベルイメージＤＢ２０４ａを格納している。

ラベリング作業端末３００は、ラベリング作業を行うための端末で、ラベルイメージ検索依頼部３０１、表示部３０２を備える。
ラベルイメージ検索依頼部３０１は、音素ラベル列をラベルイメージサーバ２００に送信して、その音素ラベル列に対応するラベルイメージをラベルイメージＤＢ２０４ａから検索し、返送するよう依頼する。
表示部３０２は、ラベルイメージ検索依頼部３０１がラベルイメージサーバ２００より取得したラベルイメージを、後述の図５で説明するような画面構成で表示する。

ラベル列送信部１０１、ラベルイメージ送信部１０２、ラベル登録判定部２０１、ラベルイメージ登録部２０２、ラベルイメージ検索部２０３、及びラベルイメージ検索依頼部３０１は、これらの機能を実行する回路デバイスのようなハードウェアで実現することもできるし、マイコンやＣＰＵのような演算装置上で動作するソフトウェアとして実現することもできる。
記憶手段２０４は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）のような、比較的容量の大きい記憶装置で構成することが望ましい。
表示部３０２は、ディスプレイデバイスのような画面表示装置と、これを制御するドライバソフトウェア等の制御機能により構成することができる。
また、各端末及びサーバは、必要なネットワークインターフェースを備えているものとする。

ここで、図１の音声ラベリング支援システムの動作説明に入る前に、構成に関する補足説明をしておく。

まず、本発明における「音素（環境の）ラベル列」の一例を示す。
例えばテキストで「おはよう」に相当するもののラベル列とは、「おはよう」を音素記号で表したものであり、「ｏ−ｈ＋ａ」「ｈ−ａ＋ｙ」「ａ−ｙ＋ｌｏ」「ｙ−ｌｏ＋ｓｌｔ」のように表すことができる。
ここで、「−」「＋」は音素の前後のつながり、「ｌｏ」は「ｏ」の長母音、「ｓｌｔ」は末尾の無音を表している。

図２は、ラベルイメージの１例を示すものである。
本実施の形態１でいうラベルイメージとは、あるテキストをある話者に発生させた際の音声波形イメージを音素境界で切り分け、波形イメージと音素境界を併せて画像イメージとして記録したものである。画像イメージのフォーマットは、後に説明するラベリング作業端末３００の表示部３０２にて表示可能なもの（例えばＪＰＥＧやビットマップのような標準的なフォーマット）としておく。
図２において、ある音素環境のラベル列「ｉ−ｘｓｈ＋ｌｕ」を発生した際の波形イメージが表されており、さらにこれを、音素「ｉ」「ｘｓｈ」「ｌｕ」に切り分ける際の境界が、縦線により表されている。

手動ラベリング作業において、このように音素の境界を定めていく作業が行われるが、いずれの箇所を境界位置とするかはラベラー個人のノウハウに依拠する。
そこで、熟練したラベラーがラベリング作業を行った際に、図２のようなラベルイメージを取得して蓄積しておき、他のラベラーがラベリング作業を行う際に、これを参照しながらラベリング作業を行うことを考える。
本発明は、このような着想に基づくものであり、ラベルイメージサーバ２００が上述の蓄積機能を備える。

図３は、ラベルイメージＤＢ２０４ａの構成とデータ例を示すものである。
ラベルイメージＤＢ２０４ａは、「ラベル列」列と「ラベルイメージ」列を有する。
「ラベル列」列には、音素ラベル列が格納されている。
「ラベルイメージ」列には、「ラベル列」列の値で特定される音素ラベル列に対応したラベルイメージが格納されている。本列に格納されているラベルイメージは、図２で説明したような、波形データとラベル位置を併せて示す画像データである。

次に、本実施の形態１における音声ラベリング支援システムの動作について説明する。

図４は、ラベルイメージ登録端末１００がラベルイメージを登録する際の処理シーケンスを説明するものである。ここでは、音素ラベル列「ｋ−ａ＋ｉ」に対応するラベルイメージを登録する際のシーケンスを例に取る。
以下、各ステップについて説明する。

（０）事前作業
ここでは、ラベルイメージ登録端末１００のオペレータは十分なラベリング作業経験を有し、事前作業として、同端末で音素ラベル列「ｋ−ａ＋ｉ」についてのラベリング作業を実施したものとする。

（１）「ｋ−ａ＋ｉ」のラベル列を送信
オペレータは、図示しないラベルイメージ登録端末１００の操作部を操作し、ラベルイメージサーバ２００に対し、音素ラベル列「ｋ−ａ＋ｉ」に対応するラベルイメージが既に登録されているか否かを判定するよう要求する。
ラベル列送信部１０１は、上述の操作指示を受けて、音素ラベル列「ｋ−ａ＋ｉ」をラベルイメージサーバ２００に送信し、音素ラベル列「ｋ−ａ＋ｉ」に対応するラベルイメージがラベルイメージＤＢ２０４ａに登録されているか否か検索するよう要求する。
検索要求は、ネットワーク４００を伝送するパケットとして、ラベルイメージサーバ２００に到達する。

（２）「ｋ−ａ＋ｉ」のラベル列を検索する
ラベル登録判定部２０１は、ステップ（１）でラベル列送信部１０１が送信した要求パケットを受け取る。
次に、ラベル登録判定部２０１は、受け取ったラベル列「ｋ−ａ＋ｉ」をキーにしてラベルイメージＤＢ２０４ａを検索し、対応するラベルイメージが登録されているか否かを判定する。
ここでは、対応するラベルイメージが検索にヒットせず、登録されていないものと判定したとする。

（３）ラベル列の検索結果
ラベル登録判定部２０１は、ラベル列「ｋ−ａ＋ｉ」についての検索結果を、ラベルイメージ登録端末１００に返信する。

（４）送信依頼
ラベル列送信部１０１は、ラベルイメージ送信部１０２に対し、音素ラベル列「ｋ−ａ＋ｉ」に対応するラベルイメージをラベルイメージサーバ２００に送信するように依頼する。

（５）「ｋ−ａ＋ｉ」のラベルイメージ送信
ラベルイメージ送信部１０２は、オペレータが事前作業としてラベリングを実施した、音素ラベル列「ｋ−ａ＋ｉ」に対応するラベルイメージを、ラベルイメージサーバ２００に送信する。
ラベルイメージは、ネットワーク４００を伝送するパケットとして、ラベルイメージサーバ２００に到達する。

（６）「ｋ−ａ＋ｉ」のラベルイメージ登録
ラベルイメージ登録部２０２は、ステップ（５）でラベルイメージ送信部１０２が送信したラベルイメージパケットを受け取る。
次に、ラベルイメージ登録部２０２は、受け取ったラベルイメージをラベルイメージＤＢ２０４ａに登録する。ここでいう「登録する」とは、図３で説明したような構成でエントリを新たに追加することをいう。

以上の処理により、音素ラベル列「ｋ−ａ＋ｉ」に対応するラベルイメージがラベルイメージＤＢ２０４ａに登録された。
次に、ラベルイメージＤＢ２０４ａに登録されたラベルイメージを利用する手順について説明する。

図５は、ラベリング作業端末３００の表示部３０２に表示される、ラベリング作業画面の構成例である。以下、図５を参照しながら、ラベリング作業端末３００のオペレータが行う作業について説明する。

（１）音声波形データの読み込み
オペレータは、ラベリングを行う音声波形データを読み込むように、図示しない操作部を操作してラベリング作業端末３００に指示を与える。
読み込まれた音声波形データに該当する波形イメージが、図５における「１」の部分に表示される。

（２）ラベリング箇所の拡大
オペレータは、ラベリングを行う箇所の音声波形イメージを拡大するように、ラベリング作業端末３００に指示を与える。
拡大を指示した箇所の拡大波形イメージが、図５における「２」の部分に表示される。

（３）ラベル列の送信
オペレータは、図５における「５」の部分に音素ラベル列を入力し、「送信」ボタンを押下する。

（４）ラベルイメージの取得、表示
ラベリング作業端末３００は、後述の図６の処理により、オペレータがステップ（３）で入力した音素ラベル列に相当するラベルイメージをラベルイメージサーバ２００から取得し、図５における「４」の部分に表示する。

（５）ラベル位置の設定
オペレータは、図５における「４」の部分に表示されたラベルイメージを参照しながら、「３」の部分を、図示しない操作部を操作することにより移動させる。この位置がラベル位置として設定されることになる。

このように、ラベリングを行おうとしている音素ラベル列に対応した（もしくは最も近い）ラベルイメージを、一種の作業マニュアルとして参照しながらラベリング作業を行うことができるので、ラベル位置の精度統一と向上を図ることができる。

図６は、ラベリング作業端末３００のオペレータが、図５で説明したような画面上でラベリング作業を行う際に、ラベリング作業端末３００が実行する内部的な処理シーケンスを説明するものである。
以下、各ステップについて説明する。

（１）「ｋ−ａ＋ｉ」のラベル列を送信
オペレータは、図示しないラベリング作業端末３００の操作部を操作し、ラベルイメージサーバ２００に対し、音素ラベル列「ｋ−ａ＋ｉ」に対応するラベルイメージを送信するよう要求する。
ラベルイメージ検索依頼部３０１は、上述の操作指示を受けて、音素ラベル列「ｋ−ａ＋ｉ」をラベルイメージサーバ２００に送信し、音素ラベル列「ｋ−ａ＋ｉ」に対応するラベルイメージを検索するよう要求する。
検索要求は、ネットワーク４００を伝送するパケットとして、ラベルイメージサーバ２００に到達する。
なお、本ステップは、図５で説明したステップ（３）における、ラベリング作業端末３００の内部動作に相当する。

（２）「ｋ−ａ＋ｉ」のラベル列を検索する
ラベルイメージ検索部２０３は、ステップ（１）でラベルイメージ検索依頼部３０１が送信した要求パケットを受け取る。
次に、ラベルイメージ検索部２０３は、受け取ったラベル列「ｋ−ａ＋ｉ」をキーにしてラベルイメージＤＢ２０４ａを検索し、対応するラベルイメージを取得する。
ここでは、対応するラベルイメージがラベルイメージＤＢ２０４ａに登録済みであるものとする。

（３）「ｋ−ａ＋ｉ」のラベルイメージ送信
ラベルイメージ検索部２０３は、ステップ（２）で取得したラベルイメージを、ラベリング作業端末３００に送信する。
ラベルイメージは、ネットワーク４００を伝送するパケットとして、ラベリング作業端末３００に到達する。

（４）表示依頼
ラベルイメージ検索依頼部３０１は、表示部３０２に対し、取得したラベルイメージを画面表示するように依頼する。
表示部３０２は、ラベルイメージ検索依頼部３０１が取得したラベルイメージを画面表示する。
なお、本ステップは、図５で説明したステップ（４）における、ラベリング作業端末３００の内部動作に相当する。

以上のように、本実施の形態１によれば、ラベルイメージＤＢが保持しているラベルイメージを作業端末上に表示して、これを参照しながらラベリング作業を行うことができるため、ラベラー間のノウハウ等の差異によらず、ラベル位置の精度を統一的に向上させることができる。
また、その結果、コーパスベース音声合成方式における音声ＤＢと、これを用いて生成する合成音声の品質も、向上させることができる。

実施の形態２．
図７は、本発明の実施の形態２に係る音声ラベリング支援システムの構成を示すものである。
図７の音声ラベリング支援システムにおけるラベルイメージサーバ２００は、図１の構成に加えて新たにデフォルトラベルイメージ記憶手段２０５を備えている。その他の構成は図１と同様であるため、説明を省略する。
デフォルトラベルイメージ記憶手段２０５は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）のような、比較的容量の大きい記憶装置で構成することが望ましい。

デフォルトラベルイメージ記憶手段２０５は、デフォルトラベルイメージＤＢ２０５ａを格納している。
デフォルトラベルイメージＤＢ２０５ａの構成は、図３で説明したラベルイメージＤＢ２０４ａと同様であるが、ラベルイメージＤＢ２０４ａが保持するラベルイメージは、ラベルイメージ登録端末１００から送信するのに対し、デフォルトラベルイメージＤＢ２０５ａが保持するラベルイメージは、あらかじめ規定の話者の発声に基づき生成したラベルイメージを格納したものである点が異なる。
なお、図７では記憶手段２０４とデフォルトラベルイメージ記憶手段２０５を別々に設けたが、これらの記憶手段を一体的に構成して２つのＤＢを合わせて格納してもよい。後述の実施の形態においても同様である。

本実施の形態２における「規定ラベルイメージＤＢ」は、デフォルトラベルイメージＤＢ２０５ａがこれに相当する。

図８は、本実施の形態２において、ラベリング作業端末３００のオペレータが、図５で説明したような画面上でラベリング作業を行う際に、ラベリング作業端末３００が実行する内部的な処理シーケンスを説明するものである。
各ステップの処理は、概ね図６で説明したものと同様であるが、ステップ（２）〜（３）における処理が異なるため、これについて説明する。

（２）「ｋ−ａ＋ｉ」のラベル列を検索する
ラベルイメージ検索部２０３は、ステップ（１）でラベルイメージ検索依頼部３０１が送信した要求パケットを受け取る。
次に、ラベルイメージ検索部２０３は、受け取ったラベル列「ｋ−ａ＋ｉ」をキーにしてラベルイメージＤＢ２０４ａを検索し、対応するラベルイメージを取得する。
ここで、対応するラベルイメージがラベルイメージＤＢ２０４ａに登録されていなかったものとする。
この場合、ラベルイメージ検索部２０３は、デフォルトラベルイメージＤＢ２０５ａが保持しているラベルイメージの中で、音素ラベル列が「ｋ−ａ＋ｉ」と同一、又はこれと最も近いものを検索し、該当するラベルイメージを取得する。

（３）「ｋ−ａ＋ｉ」に最も近いラベルイメージ送信
ラベルイメージ検索部２０３は、ステップ（２）で取得したラベルイメージを、ラベリング作業端末３００に送信する。
ラベルイメージは、ネットワーク４００を伝送するパケットとして、ラベリング作業端末３００に到達する。

以上のように、本実施の形態２によれば、ラベルイメージＤＢ２０４ａに該当するラベルイメージが格納されていない場合であっても、標準的な話者の発声に基づきあらかじめデフォルトラベルイメージＤＢ２０５ａを構築しておくことにより、ラベリング作業を行う際に参照するラベルイメージが全くないという事態を回避できる。
例えば、ラベルイメージ登録端末１００からラベルイメージＤＢ２０４ａに登録したラベルイメージの数が十分でない段階でラベリング作業を行わざるを得ないような場合であっても、少なくとも標準的な話者の発声に基づくラベルイメージが得られるため、ラベリング作業の精度を一定レベルに保つことができる。

実施の形態３．
本発明の実施の形態３では、ラベルイメージサーバ２００において、複数の話者の発声に基づき生成したラベルイメージを格納している構成例について説明する。
なお、本実施の形態３に係る音声ラベリング支援システムの構成は、ラベルイメージＤＢ２０４ａとデフォルトラベルイメージＤＢ２０５ａの構成を除き実施の形態２で説明したものと同様であるため、説明を省略する。

図９は、本実施の形態３におけるラベルイメージＤＢ２０４ａの構成とデータ例を示すものである。
図９において、図３で説明した構成に加え、新たに「話者名」列が追加されている。
「話者名」列には、話者を特定する情報、例えば氏名などが格納される。
「ラベル列」列には、音素ラベル列が格納されている。
「ラベルイメージ」列には、「話者名」列の値で特定される話者と「ラベル列」列の値で特定される音素ラベル列に対応したラベルイメージが格納されている。

即ち、本実施の形態３におけるラベルイメージＤＢ２０４ａには、複数の話者の発声に基づき生成したラベルイメージが格納されており、同じ音素ラベル列であっても、複数のラベルイメージを格納している場合もある。
このように、複数の話者のラベルイメージを格納しているのは、同じ音素ラベル列について発声したものであっても、話者によっては適切なラベル位置が異なる場合もあるからである。従ってラベルイメージＤＢ２０４ａには、ラベリング作業を行う音声の話者毎にラベルイメージを保持しておくことが望ましく、図９のようなデータ構成によりこれを実現している。
なお、デフォルトラベルイメージＤＢ２０５ａについても図９と同様の構成を備えることができる。

図１０は、ラベルイメージ登録端末１００がラベルイメージを登録する際の処理シーケンスを説明するものである。ここでは、話者「Ａ」と音素ラベル列「ｋ−ａ＋ｉ」に対応するラベルイメージを登録する際のシーケンスを例に取る。
以下、各ステップについて説明する。

（０）事前作業
ここでは、ラベルイメージ登録端末１００のオペレータは十分なラベリング作業経験を有し、事前作業として、同端末で話者「Ａ」の発声による音素ラベル列「ｋ−ａ＋ｉ」についてのラベリング作業を実施したものとする。

（１）話者名「Ａ」と「ｋ−ａ＋ｉ」のラベル列を送信
オペレータは、図示しないラベルイメージ登録端末１００の操作部を操作し、ラベルイメージサーバ２００に対し、話者「Ａ」の発声による音素ラベル列「ｋ−ａ＋ｉ」に対応するラベルイメージが既に登録されているか否かを判定するよう要求する。
ラベル列送信部１０１は、上述の操作指示を受けて、話者名「Ａ」と音素ラベル列「ｋ−ａ＋ｉ」をラベルイメージサーバ２００に送信し、話者「Ａ」の発声による音素ラベル列「ｋ−ａ＋ｉ」に対応するラベルイメージがラベルイメージＤＢ２０４ａに登録されているか否か検索するよう要求する。
検索要求は、ネットワーク４００を伝送するパケットとして、ラベルイメージサーバ２００に到達する。

（２）話者名「Ａ」で「ｋ−ａ＋ｉ」のラベル列を検索する
ラベル登録判定部２０１は、ステップ（１）でラベル列送信部１０１が送信した要求パケットを受け取る。
次に、ラベル登録判定部２０１は、受け取った話者名「Ａ」とラベル列「ｋ−ａ＋ｉ」をキーにしてラベルイメージＤＢ２０４ａを検索し、対応するラベルイメージが登録されているか否かを判定する。
判定は、話者名「Ａ」とラベル列「ｋ−ａ＋ｉ」の組み合わせがラベルイメージＤＢ２０４ａに登録されているか否かによる。即ち、いずれか一方のみが存在していても、検索条件に合致しているとはみなされない。
ここでは、対応するラベルイメージが検索にヒットせず、登録されていないものと判定したとする。

（３）ラベル列の検索結果
ラベル登録判定部２０１は、話者名「Ａ」とラベル列「ｋ−ａ＋ｉ」についての検索結果を、ラベルイメージ登録端末１００に返信する。

（４）送信依頼
ラベル列送信部１０１は、ラベルイメージ送信部１０２に対し、話者「Ａ」の発声による音素ラベル列「ｋ−ａ＋ｉ」に対応するラベルイメージをラベルイメージサーバ２００に送信するように依頼する。

（５）話者名「Ａ」と「ｋ−ａ＋ｉ」のラベルイメージ送信
ラベルイメージ送信部１０２は、オペレータが事前作業としてラベリングを実施した、話者「Ａ」の発声による音素ラベル列「ｋ−ａ＋ｉ」に対応するラベルイメージを、ラベルイメージサーバ２００に送信する。
ラベルイメージは、ネットワーク４００を伝送するパケットとして、ラベルイメージサーバ２００に到達する。

（６）「ｋ−ａ＋ｉ」のラベルイメージ登録
ラベルイメージ登録部２０２は、ステップ（５）でラベルイメージ送信部１０２が送信したラベルイメージパケットを受け取る。
次に、ラベルイメージ登録部２０２は、受け取ったラベルイメージをラベルイメージＤＢ２０４ａに登録する。登録の際には、図９の「話者名」列の値を「Ａ」、「ラベル列」列の値を「ｋ−ａ＋ｉ」とするエントリを新たに生成し、受け取ったラベルイメージを「ラベルイメージ」列に格納する。

図１１は、本実施の形態３において、ラベリング作業端末３００のオペレータが、図５で説明したような画面上でラベリング作業を行う際に、ラベリング作業端末３００が実行する内部的な処理シーケンスを説明するものである。
以下、各ステップについて説明する。

（１）話者名「Ａ」と「ｋ−ａ＋ｉ」のラベル列を送信
オペレータは、図示しないラベリング作業端末３００の操作部を操作し、ラベルイメージサーバ２００に対し、話者「Ａ」の発声による音素ラベル列「ｋ−ａ＋ｉ」に対応するラベルイメージを送信するよう要求する。
ラベルイメージ検索依頼部３０１は、上述の操作指示を受けて、話者名「Ａ」と音素ラベル列「ｋ−ａ＋ｉ」をラベルイメージサーバ２００に送信し、話者「Ａ」の発声による音素ラベル列「ｋ−ａ＋ｉ」に対応するラベルイメージを検索するよう要求する。
検索要求は、ネットワーク４００を伝送するパケットとして、ラベルイメージサーバ２００に到達する。
なお、本ステップは、図５で説明したステップ（３）における、ラベリング作業端末３００の内部動作に相当する。なお、この場合、図５の画面の「５」の部分において、「話者名」を入力する欄を設けておく。

（２）話者名「Ａ」で「ｋ−ａ＋ｉ」のラベル列を検索する
ラベルイメージ検索部２０３は、ステップ（１）でラベルイメージ検索依頼部３０１が送信した要求パケットを受け取る。
次に、ラベルイメージ検索部２０３は、受け取った話者名「Ａ」とラベル列「ｋ−ａ＋ｉ」をキーにしてラベルイメージＤＢ２０４ａを検索し、対応するラベルイメージを取得する。対応するラベルイメージがラベルイメージＤＢ２０４ａに登録されていない場合には、デフォルトラベルイメージＤＢ２０５ａが保持しているラベルイメージの中で、話者名が「Ａ」であり、音素ラベル列が「ｋ−ａ＋ｉ」と同一、又はこれと最も近いものを検索し、該当するラベルイメージを取得する。

（４）表示依頼
ラベルイメージ検索依頼部３０１は、表示部３０２に対し、取得したラベルイメージを画面表示するように依頼する。
表示部３０２は、ラベルイメージ検索依頼部３０１が取得したラベルイメージを画面表示する。

以上のように、本実施の形態３によれば、ラベリング作業を行う音声の話者毎にラベルイメージを保持しておくことにより、実際にラベリング作業を行う音声のラベルイメージに近いラベルイメージを参照しながらラベリング作業を実施できるので、より精度の高いラベル位置の設定を、ラベラー間のノウハウ等の差異によらず統一的に行うことが可能となる。

実施の形態４．
本発明の実施の形態４では、ラベルイメージサーバ２００において、ラベルイメージ毎にメルケプストラム情報を格納しており、ラベルイメージの検索の際に、このメルケプストラム情報を用いる構成例について説明する。
なお、本実施の形態４に係る音声ラベリング支援システムの構成は、ラベルイメージＤＢ２０４ａの構成を除いて実施の形態１で説明した図１と同様であるため、説明を省略する。

なお、「メルケプストラム」とは、音程の感覚を表す尺度であるメルスケール上での対数パワースペクトルの逆フーリエ変換として定義されるものである。一般に、メルケプストラムを用いることにより、聴覚特性に合わせた情報圧縮が可能となる。
本実施の形態４において、メルケプストラム情報は、対応するラベル列の波形データ区間で５ｍｓ間隔で抽出され、各ラベル区間の４等分で平均化する。これらの数値は設計上のものであり、設計者が適宜設定すればよい。

本実施の形態４では、ラベルイメージＤＢ２０４ａから該当ラベルイメージを検索する際に、検索ラベル列と併用してメルケプストラム情報を検索条件に用いる。
これにより、複数のエントリが検索条件に合致した場合や、検索条件に合致するエントリが全く存在しない場合であっても、メルケプストラム情報が最も近いラベルイメージを取得することができるので、ラベリング作業端末３００でラベリング作業を行う際に参照するに適したラベルイメージを確実に取得することができる。

以下は、本実施の形態４の構成と動作について説明する。

図１２は、本実施の形態４におけるラベルイメージＤＢ２０４ａの構成とデータ例を示すものである。
図１２において、図３で説明した構成に加え、新たに「メルケプストラム」列が追加されている。
「ラベル列」列には、音素ラベル列が格納されている。
「ラベルイメージ」列には、「ラベル列」列の値で特定される音素ラベル列に対応したラベルイメージが格納されている。
「メルケプストラム」列には、「ラベルイメージ」列に格納されているラベルイメージに対応した波形データより算出したメルケプストラム情報が格納されている。ここでは、各ラベルイメージ毎に１２個のメルケプストラム情報を格納している例を示しているが、メルケプストラム情報の個数はこれに限られるものではない。

図１３は、ラベルイメージ登録端末１００がラベルイメージを登録する際の処理シーケンスを説明するものである。ここでは、音素ラベル列「ｋ−ａ＋ｉ」に対応するラベルイメージを登録する際のシーケンスを例に取る。
以下、各ステップについて説明する。

（０）事前作業〜（３）ラベル列の検索結果
ステップ（０）〜（３）は、実施の形態１の図４で説明したものと同様であるため、説明を省略する。

（４）送信依頼
ラベル列送信部１０１は、ラベルイメージ送信部１０２に対し、音素ラベル列「ｋ−ａ＋ｉ」に対応するラベルイメージと、その波形データより求めたメルケプストラム情報を、ラベルイメージサーバ２００に送信するように依頼する。

（５）「ｋ−ａ＋ｉ」のラベルイメージとメルケプストラム情報を送信
ラベルイメージ送信部１０２は、オペレータが事前作業としてラベリングを実施した、音素ラベル列「ｋ−ａ＋ｉ」に対応するラベルイメージを、ラベルイメージサーバ２００に送信する。
また、音声波形データより、そのラベルイメージに対応するメルケプストラム情報を求め、ラベルイメージとともにラベルイメージサーバ２００に送信する。
ラベルイメージとメルケプストラム情報は、ネットワーク４００を伝送するパケットとして、ラベルイメージサーバ２００に到達する。

（６）「ｋ−ａ＋ｉ」のラベルイメージとメルケプストラム情報を登録
ラベルイメージ登録部２０２は、ステップ（５）でラベルイメージ送信部１０２が送信したパケットを受け取る。
次に、ラベルイメージ登録部２０２は、受け取ったラベルイメージとメルケプストラム情報を、ラベルイメージＤＢ２０４ａに登録する。

なお、図１３において、登録するラベルイメージに対応するメルケプストラム情報はラベルイメージ登録端末１００が求めているが、これに代えて波形データをラベルイメージサーバ２００に送信し、ラベルイメージサーバ２００でメルケプストラム情報を求めて登録するように構成してもよい。

図１４は、本実施の形態４において、ラベリング作業端末３００のオペレータが、図５で説明したような画面上でラベリング作業を行う際に、ラベリング作業端末３００が実行する内部的な処理シーケンスを説明するものである。
以下、各ステップについて説明する。

（１）「ｋ−ａ＋ｉ」のラベル列とメルケプストラム情報を送信
オペレータは、図示しないラベリング作業端末３００の操作部を操作し、ラベルイメージサーバ２００に対し、音素ラベル列「ｋ−ａ＋ｉ」に対応するラベルイメージを送信するよう要求する。
ラベルイメージ検索依頼部３０１は、上述の操作指示を受けて、音素ラベル列「ｋ−ａ＋ｉ」に対応する波形データよりメルケプストラム情報を求める。
次に、音素ラベル列「ｋ−ａ＋ｉ」とともに、そのメルケプストラム情報をラベルイメージサーバ２００に送信し、音素ラベル列「ｋ−ａ＋ｉ」とそのメルケプストラム情報に対応するラベルイメージを検索するよう要求する。
検索要求は、ネットワーク４００を伝送するパケットとして、ラベルイメージサーバ２００に到達する。

（２）「ｋ−ａ＋ｉ」のラベル列とメルケプストラム情報を検索する
ラベルイメージ検索部２０３は、ステップ（１）でラベルイメージ検索依頼部３０１が送信した要求パケットを受け取る。
次に、ラベルイメージ検索部２０３は、受け取ったラベル列「ｋ−ａ＋ｉ」をキーにしてラベルイメージＤＢ２０４ａを検索し、該当するエントリを取得する。ここでは、複数のエントリが検索にヒットしたものとする。
さらに、ラベルイメージ検索部２０３は、「ｋ−ａ＋ｉ」をキーとする検索で得たエントリが保持するメルケプストラム情報と、ラベリング作業端末３００より受け取ったメルケプストラム情報との距離を算出し、最も距離の小さいエントリを特定し、そのエントリのラベルイメージを取得する。

（３）「ｋ−ａ＋ｉ」のラベルイメージ送信〜（４）表示依頼
ステップ（３）〜（４）は、実施の形態１の図６で説明したステップ（３）〜（４）と同様であるため、説明を省略する。

なお、ステップ（２）において、ラベル列「ｋ−ａ＋ｉ」に該当するエントリが複数存在する場合について説明したが、先に述べたように、該当するエントリが全く存在しない場合であっても、同様にラベリング作業端末３００より受け取ったメルケプストラム情報との距離が最も小さいエントリを検索するようにしてもよい。
また、ラベル列とメルケプストラム情報を検索条件として併用することとしたが、メルケプストラム情報単独で検索条件にしてもよい。
いずれの場合であっても、メルケプストラム情報を用いることにより、ラベリング作業を行う音声の特徴に近いラベルイメージを取得することができる。

本実施の形態４の図１２において、ラベルイメージＤＢ２０４ａの構成を説明したが、デフォルトラベルイメージＤＢ２０５ａについても同様の構成を備えることができる。
また、図１２において、図３の構成に「メルケプストラム」列を追加した構成を例示したが、図９の構成に「メルケプストラム」列を追加した構成であっても、本実施の形態４による効果に差異はない。

以上のように、本実施の形態４によれば、ラベルイメージＤＢ２０４ａにメルケプストラム情報を保持しておき、ラベルイメージを検索する際にメルケプストラム情報を用いるように構成したので、複数のエントリが検索条件に合致した場合や、検索条件に合致するエントリが全く存在しない場合であっても、メルケプストラム情報が最も近いラベルイメージを取得することができ、ラベリング作業を行う際に参照するに適したラベルイメージを確実に取得することができる。

実施の形態５．
本発明の実施の形態５では、ラベルイメージサーバ２００でメルケプストラム情報を算出する機能を備えた構成について説明する。これにより、ラベルイメージを検索する際の処理負荷をラベルイメージサーバ２００に集約することを図る。
なお、本実施の形態５に係る音声ラベリング支援システムの構成は、実施の形態４で説明したものと同様であるため、説明を省略する。

図１５は、本実施の形態５において、ラベリング作業端末３００のオペレータが、図５で説明したような画面上でラベリング作業を行う際に、ラベリング作業端末３００が実行する内部的な処理シーケンスを説明するものである。
以下、各ステップについて説明する。

（１）「ｋ−ａ＋ｉ」のラベル列と波形データを送信
オペレータは、図示しないラベリング作業端末３００の操作部を操作し、ラベルイメージサーバ２００に対し、音素ラベル列「ｋ−ａ＋ｉ」に対応するラベルイメージを送信するよう要求する。
ラベルイメージ検索依頼部３０１は、上述の操作指示を受けて、音素ラベル列「ｋ−ａ＋ｉ」とともに、その波形データをラベルイメージサーバ２００に送信し、音素ラベル列「ｋ−ａ＋ｉ」とそのメルケプストラム情報に対応するラベルイメージを検索するよう要求する。
検索要求は、ネットワーク４００を伝送するパケットとして、ラベルイメージサーバ２００に到達する。

（２）メルケプストラム情報を求める
ラベルイメージ検索部２０３は、ステップ（１）でラベルイメージ検索依頼部３０１が送信した要求パケットを受け取る。
次に、ラベルイメージ検索部２０３は、受け取った波形データより、メルケプストラム情報を算出する。

（３）「ｋ−ａ＋ｉ」のラベル列とメルケプストラム情報を検索する
ラベルイメージ検索部２０３は、受け取ったラベル列「ｋ−ａ＋ｉ」をキーにしてラベルイメージＤＢ２０４ａを検索し、該当するエントリを取得する。ここでは、複数のエントリが検索にヒットしたものとする。
さらに、ラベルイメージ検索部２０３は、「ｋ−ａ＋ｉ」をキーとする検索で得たエントリが保持するメルケプストラム情報と、ステップ（２）で算出したメルケプストラム情報との距離を算出し、最も距離の小さいエントリを特定し、そのエントリのラベルイメージを取得する。

（４）「ｋ−ａ＋ｉ」のラベルイメージ送信〜（５）表示依頼
ステップ（４）〜（５）は、実施の形態１の図６で説明したステップ（３）〜（４）と同様であるため、説明を省略する。

なお、ステップ（２）において、ラベル列「ｋ−ａ＋ｉ」に該当するエントリが複数存在する場合について説明したが、実施の形態４と同様に、該当するエントリが全く存在しない場合であっても、同様にラベリング作業端末３００より受け取ったメルケプストラム情報との距離が最も小さいエントリを検索するようにしてもよい。
また、ラベル列とメルケプストラム情報を検索条件として併用することとしたが、実施の形態４と同様に、メルケプストラム情報単独で検索条件にしてもよい。

以上のように、本実施の形態５によれば、ラベリング作業端末３００がラベルイメージを取得する際に、メルケプストラム情報を求める処理をラベルイメージサーバ２００で実行しているので、演算負荷をラベルイメージサーバ２００に集約し、ラベリング作業端末３００のＣＰＵやメモリ等を小型化することができる。
また、演算負荷をラベルイメージサーバ２００に集約することは、投資対象を集約することにもなるため、サーバ資産等の管理の観点からも好ましい。

なお、以上の実施の形態１〜５において、ラベルイメージ登録端末１００とラベルイメージサーバ２００の間の通信方式や、ラベリング作業端末３００とラベルイメージサーバ２００の間の通信方式については、特に言及していないが、任意の方式を用いることができる。
例えば、ＴＣＰ上の任意のポートを用いてデータやコマンドの送受信を行うクライアント・サーバ型のシステムとして構成してもよいし、ラベルイメージサーバ２００にＷｅｂサーバの機能を備えさせておき、さらにラベルイメージ登録端末１００とラベリング作業端末３００にＷｅｂブラウザ機能を備えさせて、Ｗｅｂアプリケーションとして構成してもよい。

また、ラベルイメージＤＢ２０４ａは記憶手段２０４に、デフォルトラベルイメージ２０５ａはデフォルトラベルイメージ記憶手段２０５に、それぞれ格納されていることを説明したが、格納形式は適宜最適なものを用いればよい。
一例として、それぞれの記憶手段にデータファイルを格納するＤＢＭＳ（ＤａｔａｂａｓｅＭａｎａｇｅｍｅｎｔＳｙｓｔｅｍ）をラベルイメージサーバ２００上に構成し、ＤＢＭＳの配下で図３、図９、図１２のようなテーブル形式のデータ構造を定義し、各行に同各図で説明したようなデータエントリを格納するものとすることができる。
また、ラベルイメージの画像データサイズが大きい場合には、ラベルイメージを画像ファイルとしてＤＢとは別個に格納し、「ラベルイメージ」列にはそのファイルパスのみを保持するようにしてもよい。

実施の形態１に係る音声ラベリング支援システムの構成を示すものである。ラベルイメージの１例を示すものである。ラベルイメージＤＢ２０４ａの構成とデータ例を示すものである。ラベルイメージ登録端末１００がラベルイメージを登録する際の処理シーケンスを説明するものである。ラベリング作業端末３００の表示部３０２に表示される、ラベリング作業画面の構成例である。実施の形態１におけるラベリング作業端末３００の内部的な処理シーケンスを説明するものである。実施の形態２に係る音声ラベリング支援システムの構成である。実施の形態２におけるラベリング作業端末３００の内部的な処理シーケンスを説明するものである。実施の形態３におけるラベルイメージＤＢ２０４ａの構成とデータ例を示すものである。ラベルイメージ登録端末１００がラベルイメージを登録する際の処理シーケンスを説明するものである。実施の形態３におけるラベリング作業端末３００の内部的な処理シーケンスを説明するものである。実施の形態４におけるラベルイメージＤＢ２０４ａの構成とデータ例を示すものである。ラベルイメージ登録端末１００がラベルイメージを登録する際の処理シーケンスを説明するものである。実施の形態４におけるラベリング作業端末３００の内部的な処理シーケンスを説明するものである。実施の形態５におけるラベリング作業端末３００の内部的な処理シーケンスを説明するものである。

符号の説明

１００ラベルイメージ登録端末、１０１ラベル列送信部、１０２ラベルイメージ送信部、２００ラベルイメージサーバ、２０１ラベル登録判定部、２０２ラベルイメージ登録部、２０３ラベルイメージ検索部、２０４記憶手段、２０４ａラベルイメージＤＢ、２０５デフォルトラベルイメージ記憶手段、２０５ａデフォルトラベルイメージＤＢ、３００ラベリング作業端末、３０１ラベルイメージ検索依頼部、３０２表示部、４００ネットワーク。

Claims

あるテキストをある話者に発声させた際の音声波形イメージを音素境界で切り分け、波形イメージと音素境界を併せて画像イメージとして記録したラベルイメージを、音素環境のラベル列毎に保持するラベルイメージＤＢを格納した記憶手段を備えるラベルイメージサーバと、
手動ラベリング作業を行うための作業端末と、
を有する音声ラベリング支援システムであって、
前記ラベルイメージサーバは、
検索ラベル列を受け取り、これに該当するラベルイメージを前記ラベルイメージＤＢから検索する検索部を備え、
前記作業端末は、
前記検索部にラベルイメージの検索を依頼する検索依頼部と、
手動ラベリング作業を行う音声の音声波形イメージと、ラベルイメージを画面表示するための表示部と、
を備え、
前記検索依頼部は、
手動ラベリング作業を行う音声のラベル列を前記ラベルイメージサーバに送信し、
前記検索部は、
前記検索依頼部よりラベル列を受け取り、そのラベル列に該当するエントリを前記ラベルイメージＤＢから検索し、そのラベル列に対応付けられたラベルイメージを前記作業端末に返信し、
前記検索依頼部は、
前記検索部よりラベルイメージを受け取り、前記表示部にそのラベルイメージを画面表示させる
ことを特徴とする音声ラベリング支援システム。
前記記憶手段は、
規定の話者の発声に基づき生成した規定ラベルイメージＤＢを格納しており、
前記検索部は、
前記検索依頼部より受け取ったラベル列に該当するエントリが前記ラベルイメージＤＢ中に存在しない場合には、
前記検索依頼部より受け取ったラベル列に最も近いラベル列に対応するラベルイメージを前記規定ラベルイメージＤＢの中から検索し、
そのラベルイメージを前記作業端末に返信する
ことを特徴とする請求項１に記載の音声ラベリング支援システム。
前記ラベルイメージＤＢは、
複数の話者の発声に基づき生成した前記ラベルイメージを保持しており、
前記検索依頼部は、
手動ラベリング作業を行う音声のラベル列とともに、話者を特定するための情報を前記ラベルイメージサーバに送信し、
前記検索部は、
前記検索依頼部よりラベル列及び話者を特定するための情報を受け取り、
そのラベル列と話者に該当するエントリを前記ラベルイメージＤＢから検索し、
そのラベル列と話者に対応付けられたラベルイメージを前記作業端末に返信する
ことを特徴とする請求項１又は請求項２に記載の音声ラベリング支援システム。
前記ラベルイメージＤＢは、
前記ラベルイメージ毎のメルケプストラム情報を保持しており、
前記検索依頼部は、
手動ラベリング作業を行う音声のメルケプストラム情報を求め、その結果を前記ラベルイメージサーバに送信し、
前記検索部は、
前記検索依頼部よりメルケプストラム情報を受け取り、
前記ラベルイメージＤＢが保持しているメルケプストラム情報について、前記検索依頼部が送信したメルケプストラム情報との距離を算出し、
最も距離の小さいメルケプストラム情報を前記ラベルイメージＤＢから検索し、そのメルケプストラム情報に対応する前記ラベルイメージを前記作業端末に返信する
ことを特徴とする請求項１ないし請求項３のいずれかに記載の音声ラベリング支援システム。
前記ラベルイメージＤＢは、
前記ラベルイメージ毎のメルケプストラム情報を保持しており、
前記検索依頼部は、
手動ラベリング作業を行う音声の波形データを前記ラベルイメージサーバに送信し、
前記検索部は、
前記検索依頼部より音声の波形データを受け取り、その波形データよりメルケプストラム情報を求め、
前記ラベルイメージＤＢが保持しているメルケプストラム情報について、前記検索部が求めたメルケプストラム情報との距離を算出し、
最も距離の小さいメルケプストラム情報を前記ラベルイメージＤＢから検索し、そのメルケプストラム情報に対応するラベルイメージを前記作業端末に返信する
ことを特徴とする請求項１ないし請求項３のいずれかに記載の音声ラベリング支援システム。