JP4894533B2 - 音声ラベリング支援システム - Google Patents
音声ラベリング支援システム Download PDFInfo
- Publication number
- JP4894533B2 JP4894533B2 JP2007012157A JP2007012157A JP4894533B2 JP 4894533 B2 JP4894533 B2 JP 4894533B2 JP 2007012157 A JP2007012157 A JP 2007012157A JP 2007012157 A JP2007012157 A JP 2007012157A JP 4894533 B2 JP4894533 B2 JP 4894533B2
- Authority
- JP
- Japan
- Prior art keywords
- label
- label image
- image
- search
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
このように、コーパスベース音声合成方式においては、音声素片の品質が最終的な合成音声の品質に影響を与えるため、品質の良い音声素片を得ることが重要である。
このラベリング作業は、経験のある作業者が手動でラベリングを行う手動ラベリングと、コンピュータ等による自動ラベリングとに大別される。
また、十分な経験(2〜8年)を有するラベラー間では、手動ラベリングによるラベル誤差は小さい、という報告がなされている(非特許文献1)。
一般に、手動ラベリングは非常に手間のかかる作業であるため、複数のラベラーが共同して作業を行う場合もあり、このような場合には、ラベリング作業は属人的なノウハウによるところが大きい故に、ラベル位置の精度がまちまちになってしまう。
ラベル位置の精度が低下することは、音声素片の品質の低下につながり、最終的には合成音声の品質に影響する。
そのため、ラベラーのノウハウに拠らず、ラベリング作業の品質を一定のレベルで統一することのできる音声ラベリング支援システムが望まれていた。
あるテキストをある話者に発声させた際の音声波形イメージを音素境界で切り分け、波形イメージと音素境界を併せて画像イメージとして記録したラベルイメージを、音素環境のラベル列毎に保持するラベルイメージDBを格納した記憶手段を備えるラベルイメージサーバと、
手動ラベリング作業を行うための作業端末と、
を有する音声ラベリング支援システムであって、
前記ラベルイメージサーバは、
検索ラベル列を受け取り、これに該当するラベルイメージを前記ラベルイメージDBから検索する検索部を備え、
前記作業端末は、
前記検索部にラベルイメージの検索を依頼する検索依頼部と、
手動ラベリング作業を行う音声の音声波形イメージと、ラベルイメージを画面表示するための表示部と、
を備え、
前記検索依頼部は、
手動ラベリング作業を行う音声のラベル列を前記ラベルイメージサーバに送信し、
前記検索部は、
前記検索依頼部よりラベル列を受け取り、そのラベル列に該当するエントリを前記ラベルイメージDBから検索し、そのラベル列に対応付けられたラベルイメージを前記作業端末に返信し、
前記検索依頼部は、
前記検索部よりラベルイメージを受け取り、前記表示部にそのラベルイメージを画面表示させる
ことを特徴とするものである。
また、その結果、コーパスベース音声合成方式における音声DBと、これを用いて生成する合成音声の品質も、向上させることができる。
図1は、本発明の実施の形態1に係る音声ラベリング支援システムの構成を示すものである。
図1の音声ラベリング支援システムは、ラベルイメージ登録端末100、ラベルイメージサーバ200、ラベリング作業端末300を有する。これらはネットワーク400を介して接続されている。
ラベル列送信部101は、音素ラベル列をラベルイメージサーバ200に送信して、その音素ラベル列に対応するラベルイメージが既に登録されているか否かを確認するよう、ラベルイメージサーバ200に依頼する。
ラベルイメージ送信部102は、ラベルイメージをラベルイメージサーバ200に送信し、そのラベルイメージを登録するように依頼する。
ラベル登録判定部201は、音素ラベル列を受け取り、その音素ラベル列に対応するラベルイメージが、後述のラベルイメージDB(Databaseの略、以下同じ)204aに保持されているか否かを判定して結果を返信する。
ラベルイメージ登録部202は、ラベルイメージを受け取り、そのラベルイメージを後述のラベルイメージDB204aに格納する。
ラベルイメージ検索部203は、音素ラベル列を受け取り、その音素ラベル列に対応するラベルイメージを、後述のラベルイメージDB204aから検索して返信する。
記憶手段204は、後述の図3で説明するラベルイメージDB204aを格納している。
ラベルイメージ検索依頼部301は、音素ラベル列をラベルイメージサーバ200に送信して、その音素ラベル列に対応するラベルイメージをラベルイメージDB204aから検索し、返送するよう依頼する。
表示部302は、ラベルイメージ検索依頼部301がラベルイメージサーバ200より取得したラベルイメージを、後述の図5で説明するような画面構成で表示する。
記憶手段204は、HDD(Hard Disk Drive)のような、比較的容量の大きい記憶装置で構成することが望ましい。
表示部302は、ディスプレイデバイスのような画面表示装置と、これを制御するドライバソフトウェア等の制御機能により構成することができる。
また、各端末及びサーバは、必要なネットワークインターフェースを備えているものとする。
例えばテキストで「おはよう」に相当するもののラベル列とは、「おはよう」を音素記号で表したものであり、「o−h+a」「h−a+y」「a−y+lo」「y−lo+slt」のように表すことができる。
ここで、「−」「+」は音素の前後のつながり、「lo」は「o」の長母音、「slt」は末尾の無音を表している。
本実施の形態1でいうラベルイメージとは、あるテキストをある話者に発生させた際の音声波形イメージを音素境界で切り分け、波形イメージと音素境界を併せて画像イメージとして記録したものである。画像イメージのフォーマットは、後に説明するラベリング作業端末300の表示部302にて表示可能なもの(例えばJPEGやビットマップのような標準的なフォーマット)としておく。
図2において、ある音素環境のラベル列「i−xsh+lu」を発生した際の波形イメージが表されており、さらにこれを、音素「i」「xsh」「lu」に切り分ける際の境界が、縦線により表されている。
そこで、熟練したラベラーがラベリング作業を行った際に、図2のようなラベルイメージを取得して蓄積しておき、他のラベラーがラベリング作業を行う際に、これを参照しながらラベリング作業を行うことを考える。
本発明は、このような着想に基づくものであり、ラベルイメージサーバ200が上述の蓄積機能を備える。
ラベルイメージDB204aは、「ラベル列」列と「ラベルイメージ」列を有する。
「ラベル列」列には、音素ラベル列が格納されている。
「ラベルイメージ」列には、「ラベル列」列の値で特定される音素ラベル列に対応したラベルイメージが格納されている。本列に格納されているラベルイメージは、図2で説明したような、波形データとラベル位置を併せて示す画像データである。
以下、各ステップについて説明する。
ここでは、ラベルイメージ登録端末100のオペレータは十分なラベリング作業経験を有し、事前作業として、同端末で音素ラベル列「k−a+i」についてのラベリング作業を実施したものとする。
オペレータは、図示しないラベルイメージ登録端末100の操作部を操作し、ラベルイメージサーバ200に対し、音素ラベル列「k−a+i」に対応するラベルイメージが既に登録されているか否かを判定するよう要求する。
ラベル列送信部101は、上述の操作指示を受けて、音素ラベル列「k−a+i」をラベルイメージサーバ200に送信し、音素ラベル列「k−a+i」に対応するラベルイメージがラベルイメージDB204aに登録されているか否か検索するよう要求する。
検索要求は、ネットワーク400を伝送するパケットとして、ラベルイメージサーバ200に到達する。
ラベル登録判定部201は、ステップ(1)でラベル列送信部101が送信した要求パケットを受け取る。
次に、ラベル登録判定部201は、受け取ったラベル列「k−a+i」をキーにしてラベルイメージDB204aを検索し、対応するラベルイメージが登録されているか否かを判定する。
ここでは、対応するラベルイメージが検索にヒットせず、登録されていないものと判定したとする。
ラベル登録判定部201は、ラベル列「k−a+i」についての検索結果を、ラベルイメージ登録端末100に返信する。
ラベル列送信部101は、ラベルイメージ送信部102に対し、音素ラベル列「k−a+i」に対応するラベルイメージをラベルイメージサーバ200に送信するように依頼する。
ラベルイメージ送信部102は、オペレータが事前作業としてラベリングを実施した、音素ラベル列「k−a+i」に対応するラベルイメージを、ラベルイメージサーバ200に送信する。
ラベルイメージは、ネットワーク400を伝送するパケットとして、ラベルイメージサーバ200に到達する。
ラベルイメージ登録部202は、ステップ(5)でラベルイメージ送信部102が送信したラベルイメージパケットを受け取る。
次に、ラベルイメージ登録部202は、受け取ったラベルイメージをラベルイメージDB204aに登録する。ここでいう「登録する」とは、図3で説明したような構成でエントリを新たに追加することをいう。
次に、ラベルイメージDB204aに登録されたラベルイメージを利用する手順について説明する。
オペレータは、ラベリングを行う音声波形データを読み込むように、図示しない操作部を操作してラベリング作業端末300に指示を与える。
読み込まれた音声波形データに該当する波形イメージが、図5における「1」の部分に表示される。
オペレータは、ラベリングを行う箇所の音声波形イメージを拡大するように、ラベリング作業端末300に指示を与える。
拡大を指示した箇所の拡大波形イメージが、図5における「2」の部分に表示される。
オペレータは、図5における「5」の部分に音素ラベル列を入力し、「送信」ボタンを押下する。
ラベリング作業端末300は、後述の図6の処理により、オペレータがステップ(3)で入力した音素ラベル列に相当するラベルイメージをラベルイメージサーバ200から取得し、図5における「4」の部分に表示する。
オペレータは、図5における「4」の部分に表示されたラベルイメージを参照しながら、「3」の部分を、図示しない操作部を操作することにより移動させる。この位置がラベル位置として設定されることになる。
以下、各ステップについて説明する。
オペレータは、図示しないラベリング作業端末300の操作部を操作し、ラベルイメージサーバ200に対し、音素ラベル列「k−a+i」に対応するラベルイメージを送信するよう要求する。
ラベルイメージ検索依頼部301は、上述の操作指示を受けて、音素ラベル列「k−a+i」をラベルイメージサーバ200に送信し、音素ラベル列「k−a+i」に対応するラベルイメージを検索するよう要求する。
検索要求は、ネットワーク400を伝送するパケットとして、ラベルイメージサーバ200に到達する。
なお、本ステップは、図5で説明したステップ(3)における、ラベリング作業端末300の内部動作に相当する。
ラベルイメージ検索部203は、ステップ(1)でラベルイメージ検索依頼部301が送信した要求パケットを受け取る。
次に、ラベルイメージ検索部203は、受け取ったラベル列「k−a+i」をキーにしてラベルイメージDB204aを検索し、対応するラベルイメージを取得する。
ここでは、対応するラベルイメージがラベルイメージDB204aに登録済みであるものとする。
ラベルイメージ検索部203は、ステップ(2)で取得したラベルイメージを、ラベリング作業端末300に送信する。
ラベルイメージは、ネットワーク400を伝送するパケットとして、ラベリング作業端末300に到達する。
ラベルイメージ検索依頼部301は、表示部302に対し、取得したラベルイメージを画面表示するように依頼する。
表示部302は、ラベルイメージ検索依頼部301が取得したラベルイメージを画面表示する。
なお、本ステップは、図5で説明したステップ(4)における、ラベリング作業端末300の内部動作に相当する。
また、その結果、コーパスベース音声合成方式における音声DBと、これを用いて生成する合成音声の品質も、向上させることができる。
図7は、本発明の実施の形態2に係る音声ラベリング支援システムの構成を示すものである。
図7の音声ラベリング支援システムにおけるラベルイメージサーバ200は、図1の構成に加えて新たにデフォルトラベルイメージ記憶手段205を備えている。その他の構成は図1と同様であるため、説明を省略する。
デフォルトラベルイメージ記憶手段205は、HDD(Hard Disk Drive)のような、比較的容量の大きい記憶装置で構成することが望ましい。
デフォルトラベルイメージDB205aの構成は、図3で説明したラベルイメージDB204aと同様であるが、ラベルイメージDB204aが保持するラベルイメージは、ラベルイメージ登録端末100から送信するのに対し、デフォルトラベルイメージDB205aが保持するラベルイメージは、あらかじめ規定の話者の発声に基づき生成したラベルイメージを格納したものである点が異なる。
なお、図7では記憶手段204とデフォルトラベルイメージ記憶手段205を別々に設けたが、これらの記憶手段を一体的に構成して2つのDBを合わせて格納してもよい。後述の実施の形態においても同様である。
各ステップの処理は、概ね図6で説明したものと同様であるが、ステップ(2)〜(3)における処理が異なるため、これについて説明する。
ラベルイメージ検索部203は、ステップ(1)でラベルイメージ検索依頼部301が送信した要求パケットを受け取る。
次に、ラベルイメージ検索部203は、受け取ったラベル列「k−a+i」をキーにしてラベルイメージDB204aを検索し、対応するラベルイメージを取得する。
ここで、対応するラベルイメージがラベルイメージDB204aに登録されていなかったものとする。
この場合、ラベルイメージ検索部203は、デフォルトラベルイメージDB205aが保持しているラベルイメージの中で、音素ラベル列が「k−a+i」と同一、又はこれと最も近いものを検索し、該当するラベルイメージを取得する。
ラベルイメージ検索部203は、ステップ(2)で取得したラベルイメージを、ラベリング作業端末300に送信する。
ラベルイメージは、ネットワーク400を伝送するパケットとして、ラベリング作業端末300に到達する。
例えば、ラベルイメージ登録端末100からラベルイメージDB204aに登録したラベルイメージの数が十分でない段階でラベリング作業を行わざるを得ないような場合であっても、少なくとも標準的な話者の発声に基づくラベルイメージが得られるため、ラベリング作業の精度を一定レベルに保つことができる。
本発明の実施の形態3では、ラベルイメージサーバ200において、複数の話者の発声に基づき生成したラベルイメージを格納している構成例について説明する。
なお、本実施の形態3に係る音声ラベリング支援システムの構成は、ラベルイメージDB204aとデフォルトラベルイメージDB205aの構成を除き実施の形態2で説明したものと同様であるため、説明を省略する。
図9において、図3で説明した構成に加え、新たに「話者名」列が追加されている。
「話者名」列には、話者を特定する情報、例えば氏名などが格納される。
「ラベル列」列には、音素ラベル列が格納されている。
「ラベルイメージ」列には、「話者名」列の値で特定される話者と「ラベル列」列の値で特定される音素ラベル列に対応したラベルイメージが格納されている。
このように、複数の話者のラベルイメージを格納しているのは、同じ音素ラベル列について発声したものであっても、話者によっては適切なラベル位置が異なる場合もあるからである。従ってラベルイメージDB204aには、ラベリング作業を行う音声の話者毎にラベルイメージを保持しておくことが望ましく、図9のようなデータ構成によりこれを実現している。
なお、デフォルトラベルイメージDB205aについても図9と同様の構成を備えることができる。
以下、各ステップについて説明する。
ここでは、ラベルイメージ登録端末100のオペレータは十分なラベリング作業経験を有し、事前作業として、同端末で話者「A」の発声による音素ラベル列「k−a+i」についてのラベリング作業を実施したものとする。
オペレータは、図示しないラベルイメージ登録端末100の操作部を操作し、ラベルイメージサーバ200に対し、話者「A」の発声による音素ラベル列「k−a+i」に対応するラベルイメージが既に登録されているか否かを判定するよう要求する。
ラベル列送信部101は、上述の操作指示を受けて、話者名「A」と音素ラベル列「k−a+i」をラベルイメージサーバ200に送信し、話者「A」の発声による音素ラベル列「k−a+i」に対応するラベルイメージがラベルイメージDB204aに登録されているか否か検索するよう要求する。
検索要求は、ネットワーク400を伝送するパケットとして、ラベルイメージサーバ200に到達する。
ラベル登録判定部201は、ステップ(1)でラベル列送信部101が送信した要求パケットを受け取る。
次に、ラベル登録判定部201は、受け取った話者名「A」とラベル列「k−a+i」をキーにしてラベルイメージDB204aを検索し、対応するラベルイメージが登録されているか否かを判定する。
判定は、話者名「A」とラベル列「k−a+i」の組み合わせがラベルイメージDB204aに登録されているか否かによる。即ち、いずれか一方のみが存在していても、検索条件に合致しているとはみなされない。
ここでは、対応するラベルイメージが検索にヒットせず、登録されていないものと判定したとする。
ラベル登録判定部201は、話者名「A」とラベル列「k−a+i」についての検索結果を、ラベルイメージ登録端末100に返信する。
ラベル列送信部101は、ラベルイメージ送信部102に対し、話者「A」の発声による音素ラベル列「k−a+i」に対応するラベルイメージをラベルイメージサーバ200に送信するように依頼する。
ラベルイメージ送信部102は、オペレータが事前作業としてラベリングを実施した、話者「A」の発声による音素ラベル列「k−a+i」に対応するラベルイメージを、ラベルイメージサーバ200に送信する。
ラベルイメージは、ネットワーク400を伝送するパケットとして、ラベルイメージサーバ200に到達する。
ラベルイメージ登録部202は、ステップ(5)でラベルイメージ送信部102が送信したラベルイメージパケットを受け取る。
次に、ラベルイメージ登録部202は、受け取ったラベルイメージをラベルイメージDB204aに登録する。登録の際には、図9の「話者名」列の値を「A」、「ラベル列」列の値を「k−a+i」とするエントリを新たに生成し、受け取ったラベルイメージを「ラベルイメージ」列に格納する。
以下、各ステップについて説明する。
オペレータは、図示しないラベリング作業端末300の操作部を操作し、ラベルイメージサーバ200に対し、話者「A」の発声による音素ラベル列「k−a+i」に対応するラベルイメージを送信するよう要求する。
ラベルイメージ検索依頼部301は、上述の操作指示を受けて、話者名「A」と音素ラベル列「k−a+i」をラベルイメージサーバ200に送信し、話者「A」の発声による音素ラベル列「k−a+i」に対応するラベルイメージを検索するよう要求する。
検索要求は、ネットワーク400を伝送するパケットとして、ラベルイメージサーバ200に到達する。
なお、本ステップは、図5で説明したステップ(3)における、ラベリング作業端末300の内部動作に相当する。なお、この場合、図5の画面の「5」の部分において、「話者名」を入力する欄を設けておく。
ラベルイメージ検索部203は、ステップ(1)でラベルイメージ検索依頼部301が送信した要求パケットを受け取る。
次に、ラベルイメージ検索部203は、受け取った話者名「A」とラベル列「k−a+i」をキーにしてラベルイメージDB204aを検索し、対応するラベルイメージを取得する。対応するラベルイメージがラベルイメージDB204aに登録されていない場合には、デフォルトラベルイメージDB205aが保持しているラベルイメージの中で、話者名が「A」であり、音素ラベル列が「k−a+i」と同一、又はこれと最も近いものを検索し、該当するラベルイメージを取得する。
ラベルイメージ検索部203は、ステップ(2)で取得したラベルイメージを、ラベリング作業端末300に送信する。
ラベルイメージは、ネットワーク400を伝送するパケットとして、ラベリング作業端末300に到達する。
ラベルイメージ検索依頼部301は、表示部302に対し、取得したラベルイメージを画面表示するように依頼する。
表示部302は、ラベルイメージ検索依頼部301が取得したラベルイメージを画面表示する。
本発明の実施の形態4では、ラベルイメージサーバ200において、ラベルイメージ毎にメルケプストラム情報を格納しており、ラベルイメージの検索の際に、このメルケプストラム情報を用いる構成例について説明する。
なお、本実施の形態4に係る音声ラベリング支援システムの構成は、ラベルイメージDB204aの構成を除いて実施の形態1で説明した図1と同様であるため、説明を省略する。
本実施の形態4において、メルケプストラム情報は、対応するラベル列の波形データ区間で5ms間隔で抽出され、各ラベル区間の4等分で平均化する。これらの数値は設計上のものであり、設計者が適宜設定すればよい。
これにより、複数のエントリが検索条件に合致した場合や、検索条件に合致するエントリが全く存在しない場合であっても、メルケプストラム情報が最も近いラベルイメージを取得することができるので、ラベリング作業端末300でラベリング作業を行う際に参照するに適したラベルイメージを確実に取得することができる。
図12において、図3で説明した構成に加え、新たに「メルケプストラム」列が追加されている。
「ラベル列」列には、音素ラベル列が格納されている。
「ラベルイメージ」列には、「ラベル列」列の値で特定される音素ラベル列に対応したラベルイメージが格納されている。
「メルケプストラム」列には、「ラベルイメージ」列に格納されているラベルイメージに対応した波形データより算出したメルケプストラム情報が格納されている。ここでは、各ラベルイメージ毎に12個のメルケプストラム情報を格納している例を示しているが、メルケプストラム情報の個数はこれに限られるものではない。
以下、各ステップについて説明する。
ステップ(0)〜(3)は、実施の形態1の図4で説明したものと同様であるため、説明を省略する。
ラベル列送信部101は、ラベルイメージ送信部102に対し、音素ラベル列「k−a+i」に対応するラベルイメージと、その波形データより求めたメルケプストラム情報を、ラベルイメージサーバ200に送信するように依頼する。
ラベルイメージ送信部102は、オペレータが事前作業としてラベリングを実施した、音素ラベル列「k−a+i」に対応するラベルイメージを、ラベルイメージサーバ200に送信する。
また、音声波形データより、そのラベルイメージに対応するメルケプストラム情報を求め、ラベルイメージとともにラベルイメージサーバ200に送信する。
ラベルイメージとメルケプストラム情報は、ネットワーク400を伝送するパケットとして、ラベルイメージサーバ200に到達する。
ラベルイメージ登録部202は、ステップ(5)でラベルイメージ送信部102が送信したパケットを受け取る。
次に、ラベルイメージ登録部202は、受け取ったラベルイメージとメルケプストラム情報を、ラベルイメージDB204aに登録する。
以下、各ステップについて説明する。
オペレータは、図示しないラベリング作業端末300の操作部を操作し、ラベルイメージサーバ200に対し、音素ラベル列「k−a+i」に対応するラベルイメージを送信するよう要求する。
ラベルイメージ検索依頼部301は、上述の操作指示を受けて、音素ラベル列「k−a+i」に対応する波形データよりメルケプストラム情報を求める。
次に、音素ラベル列「k−a+i」とともに、そのメルケプストラム情報をラベルイメージサーバ200に送信し、音素ラベル列「k−a+i」とそのメルケプストラム情報に対応するラベルイメージを検索するよう要求する。
検索要求は、ネットワーク400を伝送するパケットとして、ラベルイメージサーバ200に到達する。
ラベルイメージ検索部203は、ステップ(1)でラベルイメージ検索依頼部301が送信した要求パケットを受け取る。
次に、ラベルイメージ検索部203は、受け取ったラベル列「k−a+i」をキーにしてラベルイメージDB204aを検索し、該当するエントリを取得する。ここでは、複数のエントリが検索にヒットしたものとする。
さらに、ラベルイメージ検索部203は、「k−a+i」をキーとする検索で得たエントリが保持するメルケプストラム情報と、ラベリング作業端末300より受け取ったメルケプストラム情報との距離を算出し、最も距離の小さいエントリを特定し、そのエントリのラベルイメージを取得する。
ステップ(3)〜(4)は、実施の形態1の図6で説明したステップ(3)〜(4)と同様であるため、説明を省略する。
また、ラベル列とメルケプストラム情報を検索条件として併用することとしたが、メルケプストラム情報単独で検索条件にしてもよい。
いずれの場合であっても、メルケプストラム情報を用いることにより、ラベリング作業を行う音声の特徴に近いラベルイメージを取得することができる。
また、図12において、図3の構成に「メルケプストラム」列を追加した構成を例示したが、図9の構成に「メルケプストラム」列を追加した構成であっても、本実施の形態4による効果に差異はない。
本発明の実施の形態5では、ラベルイメージサーバ200でメルケプストラム情報を算出する機能を備えた構成について説明する。これにより、ラベルイメージを検索する際の処理負荷をラベルイメージサーバ200に集約することを図る。
なお、本実施の形態5に係る音声ラベリング支援システムの構成は、実施の形態4で説明したものと同様であるため、説明を省略する。
以下、各ステップについて説明する。
オペレータは、図示しないラベリング作業端末300の操作部を操作し、ラベルイメージサーバ200に対し、音素ラベル列「k−a+i」に対応するラベルイメージを送信するよう要求する。
ラベルイメージ検索依頼部301は、上述の操作指示を受けて、音素ラベル列「k−a+i」とともに、その波形データをラベルイメージサーバ200に送信し、音素ラベル列「k−a+i」とそのメルケプストラム情報に対応するラベルイメージを検索するよう要求する。
検索要求は、ネットワーク400を伝送するパケットとして、ラベルイメージサーバ200に到達する。
ラベルイメージ検索部203は、ステップ(1)でラベルイメージ検索依頼部301が送信した要求パケットを受け取る。
次に、ラベルイメージ検索部203は、受け取った波形データより、メルケプストラム情報を算出する。
ラベルイメージ検索部203は、受け取ったラベル列「k−a+i」をキーにしてラベルイメージDB204aを検索し、該当するエントリを取得する。ここでは、複数のエントリが検索にヒットしたものとする。
さらに、ラベルイメージ検索部203は、「k−a+i」をキーとする検索で得たエントリが保持するメルケプストラム情報と、ステップ(2)で算出したメルケプストラム情報との距離を算出し、最も距離の小さいエントリを特定し、そのエントリのラベルイメージを取得する。
ステップ(4)〜(5)は、実施の形態1の図6で説明したステップ(3)〜(4)と同様であるため、説明を省略する。
また、ラベル列とメルケプストラム情報を検索条件として併用することとしたが、実施の形態4と同様に、メルケプストラム情報単独で検索条件にしてもよい。
また、演算負荷をラベルイメージサーバ200に集約することは、投資対象を集約することにもなるため、サーバ資産等の管理の観点からも好ましい。
例えば、TCP上の任意のポートを用いてデータやコマンドの送受信を行うクライアント・サーバ型のシステムとして構成してもよいし、ラベルイメージサーバ200にWebサーバの機能を備えさせておき、さらにラベルイメージ登録端末100とラベリング作業端末300にWebブラウザ機能を備えさせて、Webアプリケーションとして構成してもよい。
一例として、それぞれの記憶手段にデータファイルを格納するDBMS(Database Management System)をラベルイメージサーバ200上に構成し、DBMSの配下で図3、図9、図12のようなテーブル形式のデータ構造を定義し、各行に同各図で説明したようなデータエントリを格納するものとすることができる。
また、ラベルイメージの画像データサイズが大きい場合には、ラベルイメージを画像ファイルとしてDBとは別個に格納し、「ラベルイメージ」列にはそのファイルパスのみを保持するようにしてもよい。
Claims (5)
- あるテキストをある話者に発声させた際の音声波形イメージを音素境界で切り分け、波形イメージと音素境界を併せて画像イメージとして記録したラベルイメージを、音素環境のラベル列毎に保持するラベルイメージDBを格納した記憶手段を備えるラベルイメージサーバと、
手動ラベリング作業を行うための作業端末と、
を有する音声ラベリング支援システムであって、
前記ラベルイメージサーバは、
検索ラベル列を受け取り、これに該当するラベルイメージを前記ラベルイメージDBから検索する検索部を備え、
前記作業端末は、
前記検索部にラベルイメージの検索を依頼する検索依頼部と、
手動ラベリング作業を行う音声の音声波形イメージと、ラベルイメージを画面表示するための表示部と、
を備え、
前記検索依頼部は、
手動ラベリング作業を行う音声のラベル列を前記ラベルイメージサーバに送信し、
前記検索部は、
前記検索依頼部よりラベル列を受け取り、そのラベル列に該当するエントリを前記ラベルイメージDBから検索し、そのラベル列に対応付けられたラベルイメージを前記作業端末に返信し、
前記検索依頼部は、
前記検索部よりラベルイメージを受け取り、前記表示部にそのラベルイメージを画面表示させる
ことを特徴とする音声ラベリング支援システム。 - 前記記憶手段は、
規定の話者の発声に基づき生成した規定ラベルイメージDBを格納しており、
前記検索部は、
前記検索依頼部より受け取ったラベル列に該当するエントリが前記ラベルイメージDB中に存在しない場合には、
前記検索依頼部より受け取ったラベル列に最も近いラベル列に対応するラベルイメージを前記規定ラベルイメージDBの中から検索し、
そのラベルイメージを前記作業端末に返信する
ことを特徴とする請求項1に記載の音声ラベリング支援システム。 - 前記ラベルイメージDBは、
複数の話者の発声に基づき生成した前記ラベルイメージを保持しており、
前記検索依頼部は、
手動ラベリング作業を行う音声のラベル列とともに、話者を特定するための情報を前記ラベルイメージサーバに送信し、
前記検索部は、
前記検索依頼部よりラベル列及び話者を特定するための情報を受け取り、
そのラベル列と話者に該当するエントリを前記ラベルイメージDBから検索し、
そのラベル列と話者に対応付けられたラベルイメージを前記作業端末に返信する
ことを特徴とする請求項1又は請求項2に記載の音声ラベリング支援システム。 - 前記ラベルイメージDBは、
前記ラベルイメージ毎のメルケプストラム情報を保持しており、
前記検索依頼部は、
手動ラベリング作業を行う音声のメルケプストラム情報を求め、その結果を前記ラベルイメージサーバに送信し、
前記検索部は、
前記検索依頼部よりメルケプストラム情報を受け取り、
前記ラベルイメージDBが保持しているメルケプストラム情報について、前記検索依頼部が送信したメルケプストラム情報との距離を算出し、
最も距離の小さいメルケプストラム情報を前記ラベルイメージDBから検索し、そのメルケプストラム情報に対応する前記ラベルイメージを前記作業端末に返信する
ことを特徴とする請求項1ないし請求項3のいずれかに記載の音声ラベリング支援システム。 - 前記ラベルイメージDBは、
前記ラベルイメージ毎のメルケプストラム情報を保持しており、
前記検索依頼部は、
手動ラベリング作業を行う音声の波形データを前記ラベルイメージサーバに送信し、
前記検索部は、
前記検索依頼部より音声の波形データを受け取り、その波形データよりメルケプストラム情報を求め、
前記ラベルイメージDBが保持しているメルケプストラム情報について、前記検索部が求めたメルケプストラム情報との距離を算出し、
最も距離の小さいメルケプストラム情報を前記ラベルイメージDBから検索し、そのメルケプストラム情報に対応するラベルイメージを前記作業端末に返信する
ことを特徴とする請求項1ないし請求項3のいずれかに記載の音声ラベリング支援システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007012157A JP4894533B2 (ja) | 2007-01-23 | 2007-01-23 | 音声ラベリング支援システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007012157A JP4894533B2 (ja) | 2007-01-23 | 2007-01-23 | 音声ラベリング支援システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008180750A JP2008180750A (ja) | 2008-08-07 |
JP4894533B2 true JP4894533B2 (ja) | 2012-03-14 |
Family
ID=39724722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007012157A Expired - Fee Related JP4894533B2 (ja) | 2007-01-23 | 2007-01-23 | 音声ラベリング支援システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4894533B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113113043B (zh) * | 2021-04-09 | 2023-01-13 | 中国工商银行股份有限公司 | 语音转图像方法及装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63236098A (ja) * | 1987-03-25 | 1988-09-30 | キヤノン株式会社 | ラベリングシステム |
JPH05165494A (ja) * | 1991-12-13 | 1993-07-02 | Osaka Gas Co Ltd | 音声認識装置 |
JPH06167989A (ja) * | 1992-12-01 | 1994-06-14 | N T T Data Tsushin Kk | 音声合成装置 |
JPH07104789A (ja) * | 1993-10-05 | 1995-04-21 | N T T Data Tsushin Kk | 音声合成単位辞書作成装置及び方法 |
JPH0863189A (ja) * | 1994-08-18 | 1996-03-08 | Fujitsu Ltd | 音声素片生成装置 |
US7292980B1 (en) * | 1999-04-30 | 2007-11-06 | Lucent Technologies Inc. | Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems |
JP2001306087A (ja) * | 2000-04-26 | 2001-11-02 | Ricoh Co Ltd | 音声データベース作成装置および音声データベース作成方法および記録媒体 |
JP3846300B2 (ja) * | 2001-12-14 | 2006-11-15 | オムロン株式会社 | 録音原稿作成装置および方法 |
TW556152B (en) * | 2002-05-29 | 2003-10-01 | Labs Inc L | Interface of automatically labeling phonic symbols for correcting user's pronunciation, and systems and methods |
-
2007
- 2007-01-23 JP JP2007012157A patent/JP4894533B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008180750A (ja) | 2008-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10283119B2 (en) | Architecture for multi-domain natural language processing | |
US8560317B2 (en) | Voice recognition apparatus and recording medium storing voice recognition program | |
US11450313B2 (en) | Determining phonetic relationships | |
US8527271B2 (en) | Method for speech recognition | |
JP5334178B2 (ja) | 音声認識装置およびデータ更新方法 | |
JP6021956B2 (ja) | 名前発音システム及び方法 | |
KR101770358B1 (ko) | 내장형 및 네트워크 음성 인식기들의 통합 | |
US8521539B1 (en) | Method for chinese point-of-interest search | |
GB2458238A (en) | Web site system for voice data search | |
US7742924B2 (en) | System and method for updating information for various dialog modalities in a dialog scenario according to a semantic context | |
JP2003502702A (ja) | 音声認識システムにおける発音辞書の精度の自動的決定 | |
EP1171871A1 (en) | Recognition engines with complementary language models | |
JPH11259093A (ja) | 音声合成装置及びその制御方法、コンピュータ可読メモリ | |
US20130006604A1 (en) | Cross-lingual audio search | |
US20060004577A1 (en) | Distributed speech synthesis system, terminal device, and computer program thereof | |
JP5606951B2 (ja) | 音声認識システムおよびこれを用いた検索システム | |
US8275614B2 (en) | Support device, program and support method | |
JP5068225B2 (ja) | 音声ファイルの検索システム、方法及びプログラム | |
EP3241123B1 (en) | Voice recognition-based dialing | |
JP4894533B2 (ja) | 音声ラベリング支援システム | |
US20050267755A1 (en) | Arrangement for speech recognition | |
JP2003162293A (ja) | 音声認識装置及び方法 | |
JP6347939B2 (ja) | 発話内重要語抽出装置とその装置を用いた発話内重要語抽出システムと、それらの方法とプログラム | |
JPH07319383A (ja) | 地図表示装置 | |
JP2001022375A (ja) | 音声認識合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091214 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110824 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110830 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111003 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111129 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4894533 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150106 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |