JP4436087B2

JP4436087B2 - 文字データ修正装置、文字データ修正方法および文字データ修正プログラム

Info

Publication number: JP4436087B2
Application number: JP2003282113A
Authority: JP
Inventors: 真一本間
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2003-07-29
Filing date: 2003-07-29
Publication date: 2010-03-24
Anticipated expiration: 2023-07-29
Also published as: JP2005049655A

Description

本発明は、文字データを修正するための技術に関し、特に文字データに含まれる誤りを修正する際に、オペレータの音声によって、修正する文字列を選択する文字データ修正装置、文字データ修正方法及び文字データ修正プログラムに関する。

現在、ニュース等の生番組の字幕放送において、音声認識装置を用いてニュース音声をリアルタイムで文字データに変換して、字幕を作成している。この音声認識装置によって変換した文字データには数％の誤りが含まれている。そして、文字データに含まれる誤りを修正する際には、一般的に、表示装置の画面上に文字データを表示して、オペレータがその画面上に表示された文字データに含まれる、誤りを含む文字列を、マウスやタッチパネル等のポインティングデバイスを用いて選択し、その後、この文字列に対応する正しい文字列を入力して修正する方法が行われている。

また、文字データを修正する文字データ修正装置として、文字データに含まれる誤り箇所を選択するポイント端末と、ポイント端末により選択された誤り箇所を修正する修正入力端末とを備える装置が開示されている（非特許文献１）。この装置は、ポイント端末で第１のオペレータが入力された文字データに含まれる修正箇所をタッチパネル等により選択すると、選択された文字列の情報がポイント端末から修正入力端末に出力され、修正入力端末で第２のオペレータが、ポイント端末から入力された誤りを含む文字列に対応した正しい文字列をキーボードで入力することで、誤りを含む文字列が正しい文字列に置換されるものである。
後藤淳、外６名、「ニュース音声認識結果のリアルタイム修正装置」電子情報通信学会総合大会、２０００年、Ａ−１５−１５、ｐ２９３

しかし、前記した従来の技術において、この修正する文字列をポインティングデバイスによって選択する操作と、選択した文字列をキーボードからマニュアル入力で修正する操作とを１名のオペレータで行う方法では、前記の２つの操作はどちらも手を使って行うものであるため、この２つの操作を交互に行うたびに、オペレータはポインティングデバイスとキーボードとを交互に手で操作しなくてはならない。そのため、作業の効率が悪くなり、高速の修正は不可能である。そして、特にニュース等の生番組の字幕放送では、リアルタイムで音声を変換・修正して字幕を生成しなくてはならないので、文字データに変換された字幕の修正に時間がかかると、不正確な字幕が放映されたり、あるいは放送に対して字幕の時間遅れが蓄積されることになる。

また、非特許文献１に開示された装置は、第１のオペレータが、まず文字データを読み、それに含まれる誤りを認識して、誤りを含む文字列を選択し、第２のオペレータが、選択された文字列に対応する正しい文字列を推察して、修正するものであるが、ここで第１のオペレータが誤りを含む文字列を認識すると同時に、その文字列に対応する正しい文字列を認識したとしても、第１のオペレータは修正を行わず、第２のオペレータが、改めて正しい文字列を推察しなくてはならない。そのため、１名で行う場合と比べて、オペレータの判断にかかる時間にロスがあり、作業の効率が悪くなる。またこの方法では、修正を行うのに少なくとも２名のオペレータが必要となる。

本発明は、前記従来技術の課題を解決するために成されたもので、文字データに含まれる、誤りを含む文字列を修正する際に、修正対象となる文字列を選択する操作と、この選択した文字列を修正する操作とを省力化し、前記の２つの操作を効率良く行えるようにすることで、少人数のオペレータで高速に修正することを可能にした文字データ修正装置、文字データ修正方法及び文字データ修正プログラムを提供することを目的とする。

前記課題を解決するため、請求項１に記載の文字データ修正装置は、入力された文字データから、修正対象となる文字列をオペレータの音声によって選択して、修正する文字データ修正装置であって、符号付加手段と、表示手段と、指令パターン記憶手段と、音声認識手段と、文字列選択手段と、修正手段と、修正手段とを備える構成とした。

かかる構成によれば、文字データ修正装置は、符号付加手段によって、文字データを、文字列を構成する、一文字あるいは複数の文字からなる文字群に複数区分し、この文字群に表示画面のデータ内で識別可能な、文字群に対応する符号を付加し、文字群とこの文字群に対応する符号とを関連付ける。
また、文字データ修正装置は、表示手段によって、文字データと符号を、表示画面上の文字群に対応する位置に合成して表示する。これによって、オペレータが各文字群に対応する符号を表示画面から認識できるようになる。
また、文字データ修正装置は、指令パターン記憶手段によって、修正対象となる文字列を示す修正対象情報を、当該文字列内で一番先に位置する文字群に対応する一の符号と、最後に位置する文字群に対応する他の符号と、一の符号から他の符号までを修正対象として選択することを示す特定文字との組み合わせで予め定型化して、組み合わせのパターンを記憶する。
さらに、文字データ修正装置は、音声認識手段によって、表示画面に表示された文字データに対する操作指令となる音声を認識する。すなわちオペレータからの文字データ修正装置への操作指示を音声により認識する。ここで、この操作指令となる音声は、表示画面の文字データから修正対象となる文字列を特定する修正対象情報を、オペレータが音声として発声したものである。
またさらに、文字データ修正装置は、修正対象解析手段によって、この音声認識手段により認識された、操作指令の音声認識結果を、指令パターン記憶手段に記憶した組み合わせのパターンに基づいて解析する。つまり、音声認識結果に含まれる、符号と特定文字との組み合わせを、この組み合わせパターンと一致する、指令パターン記憶手段に記憶されている定型化された組み合わせパターンに当てはめて解析することで、この音声認識結果に含まれる、符号と特定文字との組み合わせの示す内容を特定することができる。そして、文字データ修正装置は、それを修正対象情報として文字列選択手段に通知し、さらに、文字列選択手段によって、この修正対象解析手段により解析された修正対象情報に基づいて、複数の文字群を同時に選択することで、修正対象となる文字列を選択することができる。これによって、オペレータが修正対象の文字列を構成する文字群に対応する符号を示す、符号と特定文字との組み合わせを発声することで、文字データ修正装置は、この修正対象となる文字列を選択することが可能になる。
さらに加えて、文字データ修正装置は、文字列選択手段によって、この修正対象解析手段により解析された修正対象情報に基づいて、文字列を選択する。これによって、オペレータが修正対象情報を発声することで、修正対象情報に対応した文字列を選択することが可能になる。
そして、文字データ修正装置は、修正手段によって、文字列選択手段により選択された文字列を修正する。

ここで、修正対象情報とは、オペレータが音声として発声することができ、かつ、文字データに含まれる文字列を、表示画面に表示する文字データ内で特定することができるものである。修正対象情報は、修正対象となる文字列を示すものであり、当該文字列内で一番先に位置する文字群に対応する一の符号と、最後に位置する文字群に対応する他の符号と、一の符号から他の符号までを修正対象として選択することを示す特定文字との組み合わせをいう。修正対象情報は、表示画面に表示されたデータから、その文字データに含まれる文字列を特定することができるものであれば、他の方法によって特定するものであっても良い。ここで特定文字は、一つの文字あるいは複数の文字からなる所定の文字（列）であり、また、符号は、表示画面のデータ内で識別可能な文字（列）であれば良く、例えば、「１」、「２」、「３」…、「ａ」、「ｂ」、「ｃ」…、「ア」、「イ」、「ウ」、…等の文字や、これらを組み合わせたものを用いることができる。
これによれば、オペレータが選択する文字列内で一番先に位置する文字群に対応する一の符号と、最後に位置する文字群に対応する他の符号と、一の符号から他の符号までを修正対象として選択することを示す特定文字との組み合わせを発声することで、文字データ修正装置は、文字列選択手段によって、一の符号から他の符号までの全ての符号と関連付けられて文字群記憶手段に記憶されている全ての文字群を取得し、その文字群で構成される全ての文字列を一度に選択することができる。

また、請求項２に記載の文字データ修正装置は、請求項１に記載の文字データ修正装置であって、前記音声認識手段により認識された前記操作指令の音声認識結果には、前記表示画面に表示された文字データを修正する際に行う所定の操作を示す修正操作情報が含まれ、この修正操作情報を解析する修正操作解析手段を備え、前記修正手段は、この修正操作解析手段によって解析された、前記修正操作情報に対応する操作を行う構成とした。

かかる構成によれば、文字データ修正装置は、修正操作解析手段によって、音声認識結果に含まれる修正操作情報を解析する。そして、この修正操作情報に対応する修正操作の指令を検出し、修正手段に通知する。また、文字データ修正装置は、修正手段によって、認識結果解析手段から入力された修正操作情報に対応する所定の操作を行う。これによって、オペレータが音声を発声することで、文字列を選択する操作だけでなく、修正操作情報に対応する所定の操作を行うことができる。

ここで、修正操作情報は、文字列選択手段によって選択した文字列、またはその文字列の前後などに行う、所定の修正の操作あるいは修正を支援する操作（以下、修正操作という）を示すもので、例えば、選択した文字列の削除や他の文字列への置換等の、文字データを修正する操作や、選択した文字列のコピーや、選択した文字列の前へ文字を挿入できるようにする操作等の、修正を支援する操作を示すものである。これらの修正操作を示す文字（列）を定めておくことによって、音声認識手段によって認識された認識結果がこの文字（列）からなる修正操作情報を含む場合には、その文字（列）から修正操作を特定することができる。

さらに、請求項３に記載の文字データ修正方法は、入力された文字データから、修正対象となる文字列をオペレータの音声によって選択して、修正する文字データ修正方法であって、この文字データを文字列を構成する文字群に複数区分し、この文字群に、当該文字群に対応する符号を付加し、文字群とこの文字群に対応する符号とを関連づける符号付加ステップと、文字データと符号を、表示画面上の文字群に対応する位置に合成して表示する表示ステップと、修正対象となる文字列を示す修正対象情報を予め定型化して指令パターン記憶手段に記憶した組み合わせのパターンに基づいて、操作指令の音声認識結果を解析する修正対象解析ステップと、解析された修正対象情報に基づいて、この文字列を選択する文字列選択ステップと、文字列選択手段により選択された文字列を修正する修正ステップとを含むことを特徴とする。

この方法によれば、入力された文字データを表示画面に表示できる。そして、この文字データ修正方法は、オペレータが修正対象となる文字列を示す修正対象情報を音声として発声することで、修正対象情報に対応する文字列を選択し、その文字列を修正することが可能になる。

また、請求項４に記載の文字データ修正プログラムは、入力された文字データから、修正対象となる文字列をオペレータの音声によって選択して、修正するために、コンピュータを、この文字データを文字列を構成する文字群に複数区分し、この文字群に、当該文字群に対応する符号を付加し、文字群とこの文字群に対応する符号とを関連づける符号付加手段、文字データと符号を、表示画面上の文字群に対応する位置に合成して表示する表示手段、修正対象となる文字列を示す修正対象情報を予め定型化して指令パターン記憶手段に記憶した組み合わせのパターンに基づいて、操作指令の音声認識結果を解析する修正対象解析手段、解析された修正対象情報に基づいて、この文字列を選択する文字列選択手段、文字列選択手段により選択された文字列を修正する修正手段として機能させることとした。

かかる構成によれば、文字データ修正プログラムは、符号付加手段によって、文字データを文字列を構成する文字群に複数区分し、この文字群に、当該文字群に対応する符号を付加し、文字群とこの文字群に対応する符号とを関連づける。また、文字データ修正プログラムは、表示手段によって、文字データと符号を、表示画面上の文字群に対応する位置に合成して表示する。さらに、文字データ修正プログラムは、修正対象解析手段によって、修正対象となる文字列を示す修正対象情報を予め定型化して指令パターン記憶手段に記憶した組み合わせのパターンに基づいて、操作指令の音声認識結果を解析する。またさらに、文字データ修正プログラムは、文字列選択手段によって、解析された修正対象情報に基づいて、この文字列を選択する。そして、文字データ修正プログラムは、修正手段によって、文字列選択手段により選択された文字列を修正する。

本発明に係る文字データ修正装置、文字データ修正方法、文字データ修正プログラムでは、以下のような優れた効果を奏する。

請求項１、請求項３または請求項４に記載の発明によれば、入力された文字データに含まれる文字列を修正する際に、表示画面上に文字データを表示すると共に、文字データから修正対象となる文字列を特定する、オペレータの音声の音声認識結果によって、その文字列を選択し、修正することができる。そのため、オペレータは文字列を選択する際に、タッチパネルやマウス等を使う必要がなくなり、オペレータの手を使う作業は、選択した文字列を修正するためのキーボードでのマニュアル入力のみになる。これによって、作業が省力化され、作業効率が向上し、高速の修正が可能になる。また一人のオペレータで、文字列の選択と修正の作業が効率良く行えるため、従来よりも少人数で修正が行えるようになり、修正の作業に必要となるオペレータの人件費や、そのオペレータの育成にかかる費用を削減することが可能になる。そして、特にニュース音声等をリアルタイムで変換する字幕の文字データを修正する場合には、放送に対しての字幕の時間遅れを軽減でき、かつ、より正確な字幕を提供することができる。

また、入力された文字データを複数の文字群に区分し、その文字群には表示画面の文字データ内で識別可能な符号を付加し、この符号と特定文字との組み合わせで、選択する文字列を特定するので、オペレータが符号と特定文字との組み合わせからなる修正対象情報を発声することで、それに対応する文字群から構成される文字列を選択し、修正することができる。また、符号を簡単なものに設定すれば、オペレータの発声量を減らすことができる。さらに、文字群と符号とを対応させて表示画面に表示するため、オペレータは各文字群に対応する符号を認識できる。また、文字群の区分の単位は自由に設定できるので、例えば形態素単位や句単位等の、修正操作に適した任意の単位で区分することができ、修正の作業の省力化と高速化を図ることができる。

また、選択する文字列を構成する文字群に対応する符号全てをオペレータが発声しなくても、選択する文字列内で一番先に位置する文字群に対応する一の符号と、最後に位置する文字群に対応する他の符号と一の符号から他の符号までを修正対象として選択することを示す特定文字とを、所定の組み合わせで発声することで、それに対応する文字群から構成される文字列を選択し、修正することができる。これによって、誤り箇所が複数の文字群に渡って存在している場合でも、一度に複数の文字群を選択して修正できる。
また、修正対象情報を、選択する文字列内で一番先に位置する文字群に対応する一の符号と、最後に位置する文字群に対応する他の符号と一の符号から他の符号までを修正対象として選択することを示す特定文字との組み合わせで定型化するので、選択する文字列を構成する文字群に対応する符号全てをオペレータが発声しなくても、文字データ修正装置は、全ての符号に対応する文字群を選択することができる。また、表示画面に表示された全ての文字群に対応する符号を表す特定文字を設定したりすることも可能になるので、オペレータが複数の符号全てを発声しなくても、選択する文字列内で一番先に位置する文字群に対応する一の符号と、最後に位置する文字群に対応する他の符号と一の符号から他の符号までを修正対象として選択することを示す特定文字との組み合わせで発声することで、複数の文字群を同時に選択することが可能になる。また、これによって、オペレータの発声量を減らすことができ、修正の作業が省力化され、同時に、文字列の選択にかかる時間を短縮することができる。

請求項２に記載の発明によれば、文字データ修正装置は、音声認識結果に含まれる修正対象情報と修正操作情報を認識できるので、オペレータの音声によって、文字列を選択する操作と、所定の修正操作を行うことができる。そのため、修正する文字列を選択する操作と、文字データを修正する操作の両方を省力化することができる。

以下、本発明の実施の形態について図面を参照して説明する。ここでは本発明を、ニュース番組等の音声から字幕を生成する際に、番組の音声を音声認識技術によって変換して得られる文字データに対して適用し、字幕生成装置として構成している。

［字幕生成装置（文字データ修正装置）の構成］
図１は本発明における字幕生成装置（文字データ修正装置）の構成を示したブロック図である。字幕生成装置１は入力されたニュース番組等の音声の字幕化を行うもので、さらに、番組の音声を音声認識技術により文字データに変換し、この文字データ中の誤りを含む文字列を、オペレータの音声によって選択して修正するものである。ここでは、字幕生成装置１は、入力手段１０と、番組音声認識手段１１と、符号付加手段１２と、表示手段１３と、指令音声認識手段１４と、認識結果解析手段１５と、文字列選択手段１７と、修正手段１８と、記憶手段１９と、出力手段２０とを備えている。また、ここでは、字幕生成装置１は、文字や画像を表示するための表示装置２、音声を入力する入力手段であるマイク３、キー操作により文字等を入力する入力手段であるキーボード４とを外部に接続している。

入力手段１０は、字幕化する番組音声を外部から入力するものである。入力された番組音声は番組音声認識手段１１へ出力される。

番組音声認識手段１１は、入力手段１０から入力される番組音声を、言語・音響モデル１９ｄに基づいて音声認識し、文字データとして出力するものである。なお、音声認識は公知の音声認識技術を用いて実現することができる。そして、ここで認識された文字データは符号付加手段１２へ出力される。

符号付加手段１２は、番組音声認識手段１１の認識結果である文字データを複数の文字群に区分し、各文字群に符号を付加して、この文字群と、文字群に対応する符号とを関連付けた符号対応データを作成するものである。ここでは、文字データを形態素単位に分割し、この形態素を文字群とした。また、符号付加手段１２は、形態素解析部１２ａと、符号対応データ生成部１２ｂとを備えている。なお、番組音声認識手段１１が形態素を単位として出力する場合は、形態素解析部１２ａは不要である。

形態素解析部１２ａは、番組音声認識手段１１から入力される文字データを形態素単位に分割するものである。ここでは、形態素解析部１２ａは、言語・音響モデル１９ｄに記憶されている形態素辞書に基づいて、文字データを形態素解析することで、形態素単位に分割する。また、形態素解析部１２ａは、この文字データを後記する表示装置２に表示できるデータ量の単位（以下、表示単位という）に分割する。そのため、この文字データは表示単位に分割され、さらに形態素単位に分割される。そして、形態素解析部１２ａは、最初の表示単位の文字データを符号対応データ生成部１２ｂへ出力する。それ以外の表示単位の文字データは、後記する修正手段からの信号に基づいて、一表示単位ずつ、符号対応データ生成部１２ｂへ出力する。

なお、ここでは番組音声認識手段１１の認識結果である文字データを、形態素単位に分割しているが、他の単位で分割しても良く、例えば句単位や文単位などに分割しても良い。

符号対応データ生成部１２ｂは、形態素解析部１２ａから入力された文字データの形態素と符号Ｙｉ（ｉ＝１，２，３，…）とを対応させ、符号対応データを作成するものである。すなわち、符号対応データ生成部１２ｂは、形態素解析部１２ａから形態素が入力されると、その形態素を文字群Ｘｉ（ｉ＝１，２，３，…）とし、これを符号対応データとする。なお、ｉは、表示単位の文字データの形態素が形態素解析部１２ａから入力される順番ｉ（ｉ＝１，２，３，…）であり、表示単位の文字データ内で、文字群Ｘｉがｉ番目に位置することを示すものである。そして、その文字群Ｘｉと、予め記憶手段１９のコマンドデータ１９ｂに符号データとして登録してある符号Ｙｉとを対応させることで、符号Ｙｉと関連付けてある文字群Ｘｉからなる符号対応データを、記憶手段１９に符号対応データ１９ａ（文字群記憶手段）として記憶する。この時、符号対応データ１９ａに、別の表示単位の文字データの符号対応データが記憶されている場合には、それを全て消去した後に、新しい符号対応データを記憶する。また、この符号対応データは表示手段１３の符号合成部１３ａへ出力される。またここでは、文字群Ｘｉと符号Ｙｉとを対応させておき、この表示単位の文字データの文字群Ｘｉのみを符号対応データとしているが、この符号対応データは文字群Ｘｉと符号Ｙｉとを関連付けたものであれば良く、例えば、この文字群Ｘｉと符号Ｙｉとを対応するように合成したデータを符号対応データとしても良い。

なお符号Ｙｉは、後記する表示装置２に表示した際に、表示画面のデータ内で識別可能な文字（列）であり、記憶手段１９のコマンドデータ１９ｂに符号データとして予め登録しておく。例えば、コマンドデータ１９ｂに符号Ｙ１＝「１」＝「ｉｃｈｉ」、Ｙ２＝「２」＝「ｎｉ」、Ｙ３＝「３」＝「ｓａｎ」…のように符号Ｙｉ（ｉ＝１，２，３，…，ｎ）を登録する。ここで、登録する符号Ｙｉの個数ｎは、表示画面に表示される文字データの文字群に付加するのに十分な個数である必要がある。また符号Ｙｉは、表示画面のデータ内で識別可能であれば、他の文字（列）でも良く、例えば、「ａ」、「ｂ」、「ｃ」…等の文字や、「Ａ１」、「Ａ２」、「Ａ３」…等の複数の文字を組み合わせたものでも良い。

ここで、図２を参照（適宜図１参照）して、文字データを形態素単位に分割し、符号Ｙｉを付加する例について説明する。図２は文字データに符号Ｙｉを付加し、符号対応データを作成する例を示した説明図である。

形態素解析部１２ａに、図２の文字データＡ１が入力されると、形態素解析部１２ａは、文字データＡ１を形態素解析し、形態素単位に分割する。図２では、形態素の区分けを「／」で示してある。さらに形態素解析部１２ａは、文字データＡ１を表示単位のデータＢ１、Ｂ２、…に分割する。図２の例では、形態素解析部１２ａは、「発展途上国への……などの意見が出ました。」の文字データを表示単位のデータと判断し、一つの単位に分割している。そして形態素解析部１２ａは、まず表示単位の文字データＢ１を符号対応データ生成部１２ｂに出力する。なお、出力しなかった残りの文字データＢ２、Ｂ３（図示せず）、…は、出力した文字データＢ１を後記する修正手段１８が修正し、その修正した文字データを外部に出力した後に、一表示単位ずつ形態素解析部１２ａから出力される。

また符号対応データ生成部１２ｂは、形態素解析部１２ａから入力される文字データの形態素を文字群Ｘｉとした符号対応データＣ１を生成する。ここでｉは、形態素が形態素解析部１２ａから入力される順番ｉ（ｉ＝１，２，３，…）である。符号対応データ生成部１２ｂは、図２のように、「発展／途上／国／へ／の……など／の／意見／が／出／ました。」の文字データを形態素解析部１２ａから入力し、この文字データを、文字群Ｘ１＝「発展」、Ｘ２＝「途上」、Ｘ３＝「国」、……、Ｘ４７＝「出」、Ｘ４８＝「ました。」に変換して、符号対応データＣ１を生成する。この符号対応データＣ１の各文字群Ｘｉは、コマンドデータ１９ｂの符号データに登録された符号Ｙｉと対応している。ここで、コマンドデータ１９ｂの符号データにはＹ１＝「１」、Ｙ２＝「２」、Ｙ３＝「３」、…、Ｙ４７＝「４７」、Ｙ４８＝「４８」、…が登録されているとする。そのため、文字群Ｘ１＝「発展」は符号Ｙ１＝「１」と、文字群Ｘ２＝「途上」は符号Ｙ２＝「２」と対応しており、同様にｉ＝１〜４８までの全ての文字群Ｘｉと符号Ｙｉとが対応している。そして符号対応データ生成部１２ｂは、符号対応データＣ１を記憶手段１９に符号対応データ１９ａとして記憶する。

図１に戻って説明を続ける。表示手段１３は入力されたデータを解析して、表示可能な出力形式に変換して表示装置２へ出力するものである。表示手段１３は符号合成部１３ａと文字合成部１３ｂとを備える。

符号合成部１３ａ（符号合成手段）は、符号対応データ生成部１２ｂから入力される符号対応データと、記憶手段１９のコマンドデータ１９ｂに記憶された符号データとを解析して、表示画面上に文字群Ｘｉと符号Ｙｉとを対応させて表示する表示データを生成し、表示可能な出力形式に変換して出力するものである。ここで、符号合成部１３ａは、符号対応データとコマンドデータ１９ｂの符号データとから文字群Ｘｉと各文字群Ｘｉに対応する符号Ｙｉとを認識する。そして、文字群Ｘｉを形態素解析部１２ａから入力された順に並べ、表示画面上の文字群Ｘｉに対応する位置に、その文字群Ｘｉに付加された符号Ｙｉを合成して表示する表示データを生成する。このように生成された表示データを、表示可能な出力形式に変換して表示装置２に出力する。このように、符号Ｙｉを、画面上で文字群Ｘｉと対応する位置に合成して表示することで、オペレータは各文字群Ｘｉに付加された符号Ｙｉを認識することができる。

ここで、図３を参照（適宜図１参照）して、文字データに符号Ｙｉを合成して表示装置２に表示する例について説明する。図３は、図２のデータを表示手段によって処理し、表示装置に表示した画面例である。

符号合成部１３ａには、図２の符号対応データＣ１が入力される。そして符号合成部１３ａは、この符号対応データＣ１から文字群Ｘ１＝「発展」、Ｘ２＝「途上」、Ｘ３＝「国」、…を認識し、文字群Ｘｉを形態素解析部１２ａから入力された順に、「発展／途上／国／…」のように並べて表示する表示データを生成する。この時、各文字群Ｘｉの間には各文字群Ｘｉの区分を明確にするために「／」を挿入する。この区分を明確にする方法は、文字群Ｘｉの区分が分かるものであれば他の方法でも良く、例えば、各文字群Ｘｉの間にスペースを挿入したり、あるいは隣接する文字群Ｘｉの文字を異なる色で表示するように設定しても良い。

そして、記憶手段１９のコマンドデータ１９ｂに登録された符号データから、文字群Ｘｉに付加された符号Ｙｉとして、Ｙ１＝「１」、Ｙ２＝「２」、Ｙ３＝「３」、…を認識し、図３に示すように、表示画面上の文字群Ｘｉの下の位置に、それぞれの文字群Ｘｉに対応する符号Ｙｉを合成する。図３では、文字群Ｘ１の「発展」の下に符号Ｙ１の「１」を、文字群Ｘ２の「途上」の下に符号Ｙ２の「２」を合成し、残りのＸ３からＸ４８までの文字群についても同様に合成している。なお、この符号Ｙｉを合成する位置は、各文字群Ｘｉに対応する位置であれば文字群Ｘｉの下以外の位置であっても良い。

図１に戻って説明を続ける。文字合成部１３ｂは、後記する文字列選択手段１７、修正手段１８、あるいは認識結果解析手段１５から入力された文字等を表示画面上に合成するものである。それによって、文字列選択手段１７によって選択された文字列や、修正手段１８で修正する際にキーボード４から入力された文字列等を表示画面上に表示することができ、オペレータの修正操作を支援することができる。

ここで、図４を参照（適宜図１参照）して、後記する文字列選択手段１７と修正手段１８から入力された文字等を表示画面上に合成して、表示装置２に表示する例について説明する。図４は文字列選択手段で文字群が選択された画面例を示した図である。図４（ａ）は文字列選択手段１７によって、文字群「全戸」（文字群Ｘ９）が選択された場合の画面例であり、図４（ｂ）は文字列選択手段１７によって、文字群「文部」（文字群Ｘ２８）、「か」（文字群Ｘ２９）、「楽章」（文字群Ｘ３０）が選択された場合の画面例である。

図４（ａ）に示すように、文字合成部１３ｂは、文字列選択手段１７によって選択された文字群「全戸」（文字群Ｘ９）が入力されると、表示装置２の表示画面の所定位置（ここでは選択文字列表示欄Ｆ１）に合成して出力する。また、文字列選択手段１７から入力された文字群Ｘｉの表示画面上の文字データ内での位置をオペレータが認識できるように、文字合成部１３ｂは、表示画面上の文字群Ｘｉの周囲を四角で囲い、文字群Ｘｉを強調して表示している。図４（ａ）では、文字列選択手段１７から文字群Ｘ９が入力された際には、文字合成部１３ｂが、表示画面に文字群Ｘ９の周囲を四角で囲って文字群Ｘｉを強調する囲いＦ２を、表示画面上に合成するようにしている。また、文字列選択手段１７から入力された文字群Ｘｉを表示画面の文字データ内で強調して表示する方法は、この文字群Ｘｉと他の文字群Ｘｉとが区別できるものであれば良く、例えば、表示画面の文字データ内で、文字列選択手段１７から入力された文字群Ｘｉを、他の文字群Ｘｉと異なる色（図示せず）で表示するようにしても良い。

さらに、修正手段１８に、選択した文字列に対応する正しい文字列として、「全国」がキーボード４から入力された場合には、修正手段１８はその文字列「全国」を文字合成部１３ｂに出力し、文字合成部１３ｂは、その文字列を表示装置２の表示画面の所定位置（ここでは修正文字列表示欄Ｆ３）に合成して出力する。また、図示しないが、修正手段１８が文字群Ｘ９の書き換え（修正）を行い、修正手段１８から、文字群Ｘ９を「全国」に修正するという情報が入力された場合には、文字合成部１３ｂは、文字データ内の文字群Ｘ９を「全国」に置き換えて表示する。

また、図４（ｂ）に示すように、文字合成部１３ｂは、文字列選択手段１７で選択された文字群「文部」（文字群Ｘ２８）、「か」（文字群Ｘ２９）、「楽章」（文字群Ｘ３０）が入力されると、表示装置２の表示画面の所定位置（ここでは選択文字列表示欄Ｆ１）に、これらの文字群から構成される文字列「文部か楽章」を合成して出力する。

そして、修正手段１８に、選択した文字列に対応する正しい文字列として、「文部科学省」がキーボード４から入力された場合には、修正手段１８はその文字列「文部科学省」を文字合成部１３ｂに出力し、文字合成部１３ｂは、その文字列を表示装置２の表示画面の所定位置（ここでは修正文字列表示欄Ｆ３）に合成して出力する。また、図示しないが、修正手段１８が文字群Ｘ２８、Ｘ２９、Ｘ３０の書き換え（修正）を行い、文字群Ｘ２８を「文部科学省」に、Ｘ２９を「」（データなし）に、Ｘ３０を「」（データなし）に修正するという情報が修正手段１８から入力された場合には、文字合成部１３ｂは、文字データ内の文字群Ｘ２８を、「文部科学省」に置き換え、そして文字群Ｘ２９、Ｘ３０は消去して表示する。

図１に戻って説明を続ける。指令音声認識手段１４（音声認識手段）は、マイク３から入力されるオペレータの音声（指令音声）を、コマンドデータ１９ｂと言語・音響モデル１９ｄとに基づいて認識し、文字データとして出力するものである。この指令音声は、コマンドデータ１９ｂに予め登録された符号Ｙｉ、特定文字あるいは修正操作を示す文字（列）からなる文字列をオペレータが発声したものである。この指令音声認識手段１４における音声認識は、公知の音声認識技術を用いて実現することができる。そして、ここで認識した認識結果は、認識結果解析手段１５へ出力される。

ここで、特定文字は、一つの文字あるいは複数の文字からなる所定の文字（列）であり、コマンドデータ１９ｂに特定文字データとして予め登録してある。そして、符号のみ、特定文字のみ、あるいは符号との組み合わせで、修正対象情報を構成することができる。この修正対象情報は、選択する文字列を構成する文字群Ｘｉを特定するものであり、ここではこの文字群Ｘｉに対応する符号Ｙｉ、あるいはその符号Ｙｉを表す、符号Ｙｉと特定文字のうちの少なくとも一つからなる組み合わせによって、文字群Ｘｉを特定している。この符号と特定文字の組み合わせのパターンは、定型化してあり、この組み合わせパターンと、その組み合わせによって表される符号Ｙｉとを対応させて、指令テンプレート１９ｃに予め登録してある。この組み合わせパターンとしては、例えば、文字データ内で連続する複数の文字群Ｘｉ（ｉ＝ｊ〜ｋ）に対応する符号Ｙｉ（ｉ＝ｊ〜ｋ）を表す組み合わせを、選択する文字列内で一番先に位置する文字群Ｘｊに対応する符号Ｙｊと、特定文字「から」と、最後に位置する文字群Ｘｋに対応する符号Ｙｋとを組み合わせた「ＹｊからＹｋ」で定型化しても良いし、また、表示画面に表示された全ての文字群Ｘｉに対応する符号Ｙｉを表す組み合わせを、特定文字「全部」で定型化しても良い。この符号と特定文字の組み合わせは、一つあるいは複数の符号Ｙｉを特定できるように定型化されたものであれば良く、適宜、他の組み合わせや特定文字を指令テンプレート１９ｃおよびコマンドデータ１９ｂに登録することができる。

また、修正操作を示す文字（列）は、所定の修正操作を特定する文字（列）であり、コマンドデータ１９ｂに修正操作データとして予め登録してある。そして、この修正操作を示す文字（列）のみ、あるいは修正対象情報との組み合わせで、修正操作情報を構成することができる。また、この修正操作情報は所定の修正操作の指令を示すものである。ここで、修正操作とは、後記する文字列選択手段によって選択する文字列に対して、またはその文字列の前後などに行う、所定の修正の操作あるいは修正を支援する操作である。修正操作を示す文字（列）としては、例えば、選択した文字列の削除を示す修正操作を示す文字列を「削除」としたり、また選択した文字列のコピーを示すものを「コピー」、選択した文字列の前への文字を挿入できるようにする操作を示すものを「挿入」、選択した文字列に行った修正を元に戻す操作を示すものを「元に戻す」とするなど、様々な修正操作を特定する文字（列）を、コマンドデータ１９ｂおよび指令テンプレート１９ｃに適宜登録することができる。また、この修正操作を示す文字（列）と修正対象情報との組み合わせを定型化して、この修正対象情報の示す文字群Ｘｉに対して、所定の修正操作を行う指令を表すこととし、指令テンプレート１９ｃに登録しても良い。

認識結果解析手段１５は、指令音声認識手段１４から入力された認識結果を解析して、この認識結果が、修正対象として選択する文字群Ｘｉに対応する符号Ｙｉを示す、修正対象情報を含む場合は、この修正対象情報が示す符号Ｙｉを解析し、解析結果を文字列選択手段１７に出力するものである。また、認識結果が所定の修正操作を示す修正操作情報を含む場合は、修正操作情報から修正操作の指令を解析し、修正手段１８に出力する。認識結果解析手段１５は、指令解析部１５ａ、修正対象解析部１５ｂおよび修正操作解析部１５ｃを備える。

指令解析部１５ａは、指令音声認識手段１４による認識結果から、修正対象情報と修正操作情報とを識別するものである。すなわち、指令音声認識手段１４による認識結果を、コマンドデータ１９ｂに基づいて解析して、認識結果を符号Ｙｉ、特定文字あるいは修正操作を示す文字（列）と対応させて分割し、この符号Ｙｉ、特定文字あるいは修正操作を示す文字（列）と一致する語彙を単位（以下、指令構成単位という）として、予め定めた指令テンプレート１９ｃ（指令パターン記憶手段）とパターンマッチングを行うことで、認識結果から修正対象情報と修正操作情報を識別する。指令テンプレート１９ｃには、修正対象情報を構成する、符号Ｙｉと特定文字のうちの少なくとも一つからなる組み合わせのパターン（修正対象情報パターン）と、修正操作情報を構成する、修正操作を示す文字（列）のみ、あるいは、修正操作を示す文字（列）と修正対象情報の組み合わせからなるパターン（修正操作情報パターン）とが記憶されている。そして、認識結果の文字列の一部あるいは全部がこの修正対象情報パターンと一致する場合には、指令解析部１５ａは、一致する文字列を修正対象情報と認識し、この修正対象情報のパターンマッチング結果を修正対象解析部１５ｂに出力する。また、認識結果の文字列が前記の修正操作情報パターンと一致する場合には、指令解析部１５ａは、一致する文字列を修正操作情報と認識し、この修正操作情報のパターンマッチング結果を修正操作解析部１５ｃに出力する。

また、修正対象情報パターンとも、修正操作情報パターンとも一致しない場合には、予め設定してある応答文を表示手段１３の文字合成部１３ｂに通知して、オペレータに対して、指令を認識できなかったことを知らせる応答文を表示装置２に表示させる。

修正対象解析部１５ｂ（修正対象解析手段）は、指令解析部１５ａから入力された修正対象情報のパターンマッチング結果を、コマンドデータ１９ｂと指令テンプレート１９ｃに基づいて解析し、修正対象情報パターンと一致した文字列の示す符号Ｙｉを検出するものである。ここで指令テンプレート１９ｃには、修正対象情報パターンと、そのパターンの示す符号Ｙｉとが記憶されている。そのため、指令テンプレート１９ｃに従って解析することで、指令解析部１５ａから入力された、修正対象情報パターンと一致した文字列の示す符号Ｙｉを検出することができる。そして、修正対象解析部１５ｂは、検出した符号Ｙｉを修正対象情報として文字列選択手段１７に出力する。なお、ここでは符号Ｙｉを修正対象情報として文字列選択手段１７に出力するようにしたが、修正対象情報として出力するものは、文字列選択手段１７で選択する文字列を構成する文字群Ｘｉを特定するものであれば良く、例えば、修正対象解析部１５ｂで、修正対象情報パターンと一致した文字列の示す符号Ｙｉを解析し、その符号Ｙｉに付されたｉを、修正対象情報として文字列選択手段１７に出力するようにしても良い。

また、修正操作解析部１５ｃ（修正操作解析手段）は、指令解析部１５ａから入力された修正操作情報のパターンマッチング結果を、コマンドデータ１９ｂと指令テンプレート１９ｃに基づいて解析し、修正操作情報の示す修正操作の指令を検出するものである。ここで、指令テンプレート１９ｃには、修正操作情報パターンとそのパターンの示す修正操作の指令とが予め登録されているため、修正操作解析部１５ｃは、指令テンプレート１９ｃに基づいて、指令解析部１５ａから入力された修正操作情報の示す、修正操作の指令を検出することができる。そして、修正操作解析部１５ｃは、検出した修正操作の指令を修正操作情報として修正手段１８に出力する。

ここで、図５と図６を参照（適宜図１参照）して、認識結果解析手段１５が認識結果から修正対象情報と修正操作情報とを識別し、解析する手法について具体的に説明する。図５は、修正対象情報からなる認識結果から、指令を解析する例を説明するための説明図である。図６は、修正対象情報と修正操作情報とからなる認識結果から、指令を解析する例を説明するための説明図である。

図５では、指令音声認識手段１４によって、「３」と認識された認識結果Ｄ１が指令解析部１５ａに入力されている。ここで、指令解析部１５ａは、コマンドデータ１９ｂに基づいて解析を行い、修正対象情報および修正操作情報を構成する特定の語彙からなる指令構成単位に分割する。具体的には、図５の指令構成単位解析結果Ｄ２に示すように、認識結果Ｄ１の「３」を、コマンドデータ１９ｂに記憶してある符号Ｙｉ、特定文字あるいは修正操作を示す文字（列）と対応させる。ここで、コマンドデータ１９ｂの符号データに、符号「３」が予め登録されているとする。そのため指令解析部１５ａは、認識結果Ｄ１の「３」を符号「３」と一致させる。そしてこの「３」を、修正対象情報および修正操作情報を構成する指令構成単位とする。さらに、指令解析部１５ａは、各指令構成単位（ここでは「３」のみ）と指令テンプレート１９ｃとのパターンマッチングを行う。

例えば、指令テンプレート１９ｃの修正対象情報パターンに、「［符号］」（パターンＰ１）が登録されているとする。ここで［符号］はコマンドデータ１９ｂに登録されている符号Ｙｉのいずれか一つを表している。そのため、指令解析部１５ａは、指令音声認識手段１４から入力された認識結果Ｄ１の「３」を、指令テンプレート１９ｃの修正対象情報パターンに登録されている「［符号］」（パターンＰ１）と一致させる。そして、この認識結果Ｄ１の「３」を修正対象情報と識別し、このパターンマッチング結果Ｄ３を修正対象解析部１５ｂに出力する。

修正対象解析部１５ｂは、このパターンマッチング結果Ｄ３を、コマンドデータ１９ｂと指令テンプレート１９ｃに基づいて解析し、修正対象情報パターンと一致した文字列の示す符号Ｙｉを検出する。ここで、指令テンプレート１９ｃには、修正対象情報パターンＰ１の［符号］は、前記のパターンマッチングで［符号］と一致した符号そのものを示すことが登録されているとする。そこで修正対象解析部１５ｂは、認識結果Ｄ１の「３」の示す符号が「３」（修正対象情報解析結果Ｄ４）であることを検出し、修正対象情報として符号「３」を文字列選択手段１７に出力する。

また、図６では、指令音声認識手段１４によって、「１から３削除」と認識した認識結果Ｅ１が指令解析部１５ａに入力されている。ここで、指令解析部１５ａは、コマンドデータ１９ｂに基づいて解析を行い、図６の指令構成単位解析結果Ｅ２に示すように、認識結果Ｅ１の「１から３削除」を、コマンドデータ１９ｂに記憶してある符号Ｙｉ、特定文字あるいは修正操作を示す文字（列）と対応させる。ここで、コマンドデータ１９ｂの、符号データには符号「１」と「３」が、特定文字データには特定文字「から」が、修正操作を示す文字（列）を記憶した修正操作データには、「削除」が予め登録されているとする。そこで、指令解析部１５ａは、認識結果Ｅ１の「１から３削除」を、符号「１」、特定文字「から」、符号「３」、および、修正操作を示す文字（列）「削除」と一致させて分割する。そしてこの「１」と「から」と「３」と「削除」を指令構成単位とする。さらに、指令解析部１５ａは、これらの単位と指令テンプレート１９ｃとのパターンマッチングを行う。

例えば、指令テンプレート１９ｃの修正対象情報パターンに、「［符号］＊［から］＊［符号］」（パターンＰ２）が登録されているとする。また、指令テンプレート１９ｃの修正操作情報パターンに、「［修正対象情報］＊［削除］」（パターンＰ５）が登録されているとする。ここで［修正対象情報］は、指令テンプレート１９ｃに登録されている修正対象情報パターンのいずれか一つを表している。そして、前記解析結果の「１」「から」「３」「削除」は、この一部の「１」「から」「３」が、指令テンプレート１９ｃの修正対象情報パターンに登録されている「［符号］＊「から」＊「符号」」（パターンＰ２）と一致する。また、「１」「から」「３」「削除」は、修正操作情報パターンの「［修正対象情報］＊［削除］」（パターンＰ５）と一致する。そのため、指令解析部１５ａは、指令音声認識手段１４から入力された認識結果のうち、「１から３」を修正対象情報と識別し、このパターンマッチングの結果を修正対象解析部１５ｂに出力し、また、「１から３削除」を修正操作情報と識別し、このパターンマッチング結果Ｅ３を修正操作解析部１５ｃに出力する。

修正対象解析部１５ｂは、修正対象情報パターンＰ２の「［符号］＊［から］＊［符号］」と一致した修正対象情報「１から３」を、コマンドデータ１９ｂと指令テンプレート１９ｃに基づいて解析し、この修正対象情報「１から３」の示す符号Ｙｉを検出する。ここで、指令テンプレート１９ｃには、修正対象情報パターンＰ２［符号］＊［から］＊［符号］が、先の符号から後の符号までの全ての符号を示すことが登録されているとする。また、コマンドデータ１９ｂには符号データとして、符号が「１」、「２」、「３」、「４」、…の順で登録されているとする。そこで、修正対象解析部１５ｂは、修正対象情報「１から３」の示す符号が「１」と「２」と「３」（修正対象情報解析結果Ｅ４）であることを検出し、修正対象情報として「１」と「２」と「３」を、文字列選択手段１７に出力する。

また、修正操作解析部１５ｃは、修正操作情報パターンＰ５の「［修正対象情報］＊［削除］」と一致した修正操作情報「１から３削除」を、コマンドデータ１９ｂと指令テンプレート１９ｃに基づいて解析し、修正操作情報の示す修正操作の指令を検出する。ここで、指令テンプレート１９ｃには、修正操作情報パターンＰ５「［修正対象情報］＊［削除］」は、「文字列選択後に、その文字列を削除する」指令を示すことが登録されているとする。そこで、修正操作解析部１５ｃは、修正操作情報「１から３削除」の示す修正操作が、「文字列選択後に、その文字列を削除する」（修正操作情報解析結果Ｅ５）という指令であることを検出し、修正操作情報として「文字列選択後に、その文字列を削除する」という指令を修正手段１８に出力する。

図１に戻って説明を続ける。文字列選択手段１７は、符号対応データ１９ａとコマンドデータ１９ｂの符号データに基づいて、修正対象解析部１５ｂから入力された修正対象情報（符号Ｙｉ）に対応する文字群Ｘｉを取得するものである。文字列選択手段１７は、取得した文字群Ｘｉを修正手段１８に出力する。また、この文字群Ｘｉは表示手段１３の文字合成部１３ｂへ出力される。

ここで、文字列選択手段１７が、修正対象解析部１５ｂから入力された修正対象情報に対応する文字群Ｘｉを取得する手法を、具体的に説明する。例えば、修正対象解析部１５ｂから、修正対象情報として符号「９」が文字列選択手段１７に入力された場合、文字列選択手段１７は、コマンドデータ１９ｂの符号データに基づいて、符号「９」を解析する。ここで、コマンドデータ１９ｂの符号データには符号Ｙ９＝「９」が登録されているとする。そこで、文字列選択手段１７は、符号「９」が、符号Ｙ９であることを認識する。そして、符号Ｙｉは文字群Ｘｉに対応するので、文字列選択手段１７は、符号Ｙ９に対応する文字群Ｘ９を、符号対応データ１９ａから取得する。ここで、符号対応データ１９ａには、文字群Ｘ９＝「全戸」が記憶されているとする。そのため、文字列選択手段１７は、符号対応データ１９ａから、符号「９」に対応する文字群Ｘ９「全戸」を取得し、この文字群Ｘ９「全戸」を修正手段１８と文字合成部１３ｂに出力する。

また、例えば、修正対象解析部１５ｂから修正対象情報として、符号「２８」と「２９」と「３０」とが入力された場合、文字列選択手段１７は、コマンドデータ１９ｂの符号データに基づいて、符号「２８」と「２９」と「３０」を解析する。ここで、コマンドデータ１９ｂの符号データには符号Ｙ２８＝「２８」と、符号Ｙ２９＝「２９」と、符号Ｙ３０＝「３０」が登録されているとする。そこで、文字列選択手段１７は、符号「２８」と「２９」と「３０」とがそれぞれ、符号Ｙ２８とＹ２９とＹ３０とであることを認識する。そして、符号Ｙｉは文字群Ｘｉに対応するので、文字列選択手段１７は、符号Ｙ２８とＹ２９とＹ３０に対応する文字群Ｘ２８とＸ２９とＸ３０を、符号対応データ１９ａから取得する。ここで、符号対応データ１９ａには文字群Ｘ２８＝「文部」、文字群Ｘ２９＝「か」および文字群Ｘ３０＝「楽章」が記憶されているとする。そのため、文字列選択手段１７は、符号対応データ１９ａから、符号「２８」と「２９」と「３０」にそれぞれ対応する文字群Ｘ２８の「文部」と、文字群Ｘ２９の「か」と、文字群Ｘ３０の「楽章」を取得し、これらの文字群を修正手段１８と文字合成部１３ｂに出力する。

図１に戻って説明を続ける。修正手段１８は、文字列選択手段１７から入力された文字群Ｘｉを、キーボード４からの入力、あるいは、修正操作解析部１５ｃからの入力に従って書き換える（修正する）ものである。また、キーボード４から文字データの入力があった場合には、修正手段１８は、この文字データを文字合成部１３ｂに出力する。そして、修正手段１８が、キーボード４からの入力、あるいは、修正操作解析部１５ｃからの入力に従って、文字群Ｘｉを書き換えた（修正した）場合には、修正した文字群Ｘｉのデータを文字合成部１３ｂに出力する。これによって、文字合成部１３ｂは、キーボード４からの入力内容や修正を行った後の文字データを、表示装置２に表示できるので、オペレータは表示画面からそれらを確認することができる。

そして表示画面の文字データの修正が終了したら、表示画面の文字データの修正を終了する指令（テイク）が、オペレータの操作によってキーボード４から入力され、その指令（信号）に基づいて、修正手段１８は、修正した文字データを出力手段２０に出力する。また同時に、符号付加手段１２の形態素解析部１２ａに、未修正の表示単位の文字データがある場合には、次の表示単位の文字データを符号対応データ生成部１２ｂに出力させる信号を出力する。この信号により、形態素解析部１２ａは適正なタイミングで表示単位の文字データを出力することができる。また、表示画面の文字データの修正を終了した後に、次の表示単位の文字データを形態素解析部１２ａから出力させる方法は、上記の方法によらなくても良く、例えば、字幕生成装置１が、所定時間おきに信号を発生するタイミング回路（図示せず）を備える構造とし、この信号により修正手段１８は修正操作を終了して、字幕を出力し、形態素解析部１２ａに、次の表示単位の文字データを符号対応データ生成部１２ｂに出力させる信号を出力するようにしても良い。

記憶手段１９は、字幕生成装置１において、音声認識や音声認識結果の解析等に必要となる種々のデータを記憶するもので、半導体メモリ、ハードディスク等の一般的な記録媒体である。ここでは、記憶手段１９に、符号対応データ１９ａ、コマンドデータ１９ｂ、指令テンプレート１９ｃおよび言語・音響モデル１９ｄを記憶することとした。なお、これらのデータは、一つの記憶手段に記憶する必要はなく、複数の記憶手段に記憶することとしても良い。

符号対応データ１９ａ（文字群記憶手段）は、符号対応データ生成部１２ｂによって生成された符号対応データを記憶するものである。この符号対応データ１９ａは、文字列選択手段１７によって参照され、文字列選択手段１７は、指令音声認識結果に含まれる修正対象情報が示す符号Ｙｉに対応する文字群Ｘｉを、符号対応データ１９ａから取得する。

コマンドデータ１９ｂは、修正対象情報および修正操作情報を構成する、符号Ｙｉと特定文字、修正操作を示す文字（列）を記憶したものである。このコマンドデータ１９ｂは表示手段１３の符号合成部１３ａによって参照され、この符号合成部１３ａは、コマンドデータ１９ｂに登録された符号Ｙｉを、表示装置２の表示画面に合成して表示する。また、このコマンドデータ１９ｂは、指令音声認識手段１４によって参照され、指令音声を認識する際に用いられる。この指令音声は、コマンドデータ１９ｂに登録されている特定の語彙のみで構成されているので、指令音声認識手段１４は、コマンドデータ１９ｂに基づいて音声認識を行うことで、音声認識率を向上させることができる。

さらに、コマンドデータ１９ｂは、認識結果解析手段１５によって参照され、指令音声認識手段１４で認識された認識結果に含まれる、修正対象情報と修正操作情報の解析に用いられる。また、コマンドデータ１９ｂは、文字列選択手段１７によって参照され、認識結果解析手段１５から入力された修正対象情報（符号Ｙｉ）を解析する際に用いられる。

指令テンプレート１９ｃ（指令パターン記憶手段）は、修正対象情報を構成する、符号と特定文字のうちの少なくとも一つからなる組み合わせパターン（修正対象情報パターン）と、修正操作情報を構成する、修正操作を示す文字（列）のみ、あるいは、修正操作を示す文字（列）と修正対象情報の組み合わせからなるパターン（修正操作情報パターン）とを記憶したものである。さらに、前記の修正対象情報パターンと、その組み合わせパターンの示す符号Ｙｉとを対応させて記憶し、また、前記の修正操作情報パターンと、その組み合わせパターンの修正操作情報が示す修正操作の指令とを対応させて記憶している。この指令テンプレート１９ｃは、認識結果解析手段１５によって参照され、指令解析部１５ａが、指令音声認識手段１４で認識された認識結果から、修正対象情報と修正操作情報とを識別する際に用いられる。また、修正対象解析部１５ｂが修正対象情報パターンと一致した文字列の示す符号Ｙｉを解析する際に用いられ、同様に、修正操作解析部１５ｃが、修正操作情報の示す修正操作の指令を解析する際に用いられる。

言語・音響モデル１９ｄは、発音データに基づいて生成された音声の単語辞書と、個々の単語のつながりを確率により表現したモデルとを含んだデータである。さらに、この言語・音響モデル１９ｄは、形態素の辞書を含んでおり、番組音声認識手段１１と、指令音声認識手段１４が音声認識と形態素解析を行う際に用いられる。

また、字幕生成装置を使用するオペレータを、特定のオペレータに限定できる場合には、記憶手段１９は、番組音声認識手段１１によって参照される第１の言語・音響モデル１９ｄと、指令音声認識手段１４によって参照される第２の言語・音響モデル（図示せず）とを記憶することとし、この指令音声認識手段１４によって参照される第２の言語・音響モデルを、特定のオペレータに適応させたものとしても良い。これによって、指令音声認識手段１４における音声認識結果の認識率を向上させることができる。

出力手段２０は、修正手段１８から入力された修正後の文字データを、字幕として外部へ出力するものである。

以上、本発明に係る字幕生成装置（文字データ修正装置）１の構成について説明したが、本発明はこれに限定されるものではない。例えば、番組音声を入力するのではなく、文字データが、入力手段１０を介して符号付加手段１２に入力されるようにし、入力された文字データを修正する装置として構成してもよく、また、タッチパネルやマウス等のポインティングデバイスを外部に接続し、指令音声が認識されない場合に、このポインティングデバイスからの入力に基づいて、文字列選択手段によって文字列を選択できるようにしても良い。

なお、字幕生成装置（文字データ修正装置）１は、一般的なコンピュータにプログラムを実行させ、コンピュータ内の演算装置や記憶装置を動作させることで実現することができる。このプログラム（文字データ修正プログラム）は、通信回線を介して配布することもできるし、また、ＣＤ−ＲＯＭ等の記録媒体に記録して配布することも可能である。

［字幕生成装置（文字データ修正装置）の動作］
次に、図７および図８を参照（適宜図１参照）して、本発明における字幕生成装置（文字データ修正装置）１の動作について説明する。図７は、字幕生成装置（文字データ修正装置）が番組の音声から字幕を生成する動作（字幕生成動作）を示したフローチャートである。図８は、字幕生成装置（文字データ修正装置）が、表示画面に表示された番組の音声認識結果の文字データを修正し、出力する動作（文字データの修正・出力動作）を示したフローチャートである。

（字幕生成動作）
図７を参照（適宜１参照）して、字幕生成装置１が、ニュース番組等の音声を文字データに変換し、この文字データに含まれる誤りを修正して字幕を生成する動作について説明する。

字幕生成装置１は、入力手段１０を介して、外部からニュース番組等の音声を入力する（ステップＳ１０）。そしてこの音声は番組音声認識手段１１に入力され、番組音声認識手段１１が、この音声を音声認識して文字データに変換する（ステップＳ１１）。この文字データは符号付加手段１２の形態素解析部１２ａに出力される。

そして、符号付加手段１２の形態素解析部１２ａは、この文字データ（番組音声の認識結果）を形態素解析し、形態素単位に分割する（ステップＳ１２）。さらに、形態素解析部１２ａは、文字データを表示装置２に表示できる所定のデータ量の単位（表示単位）に分割する（ステップＳ１３）。そして、形態素解析部１２ａは、この表示単位に分割した文字データの、最初の表示単位のデータを、符号対応データ生成部１２ｂに出力する。

符号対応データ生成部１２ｂは、形態素解析部１２ａで分割した形態素と、符号Ｙｉ（ｉ＝１，２，３，…）とを関連付けた符号対応データを生成する（ステップＳ１４）。つまり、符号対応データ生成部１２ｂは、形態素解析部１２ａから形態素が入力されると、その形態素を文字群Ｘｉ（ｉ＝１，２，３，…）とする。なおｉは、形態素が形態素解析部１２ａから入力される順番ｉ（ｉ＝１，２，３，…）であり、ｉが同じ値の文字群Ｘｉと符号Ｙｉとを対応させるようにして、文字群Ｘｉと符号Ｙｉとを関連付けている。そして、この文字群Ｘｉからなる符号対応データを、記憶手段１９の符号対応データ１９ａに記憶する（ステップＳ１５）。さらに、符号対応データ生成部１２ｂは、生成した符号対応データを表示手段１３の符号合成部１３ａに出力する。

表示手段１３の符号合成部１３ａは、文字群Ｘｉに区分された文字データを、表示装置２の表示画面に表示し、さらに表示画面の文字群Ｘｉに対応する位置に、符号Ｙｉを合成して表示する表示データを生成する（ステップＳ１６）。そして、符号合成部１３ａは、この表示データを表示装置２に出力し、表示装置２の表示画面に、文字群Ｘｉに区分された文字データと、各文字群Ｘｉに対応する位置に合成した符号Ｙｉとを表示させる（ステップＳ１７）。

また、表示装置２に表示された文字データは、後記する文字データの修正・出力動作によって、誤りを修正されて字幕として出力される（ステップＳ１８）。そして、符号付加手段１２の形態素解析部１２ａによって表示単位に分割された文字データにおいて、符号対応データ生成部１２ｂに出力されていない文字データがある場合には、字幕生成装置１は文字データの修正が終了していないと判断し（ステップＳ１９でＮｏ）、ステップＳ１４に戻り、引き続き残りの表示単位の文字データについて、形態素と符号とを関連付けたデータを生成し、記憶手段１９に記憶する動作以降の操作を行う。

一方、符号付加手段１２の形態素解析部１２ａによって、表示単位に分割された文字データの全てが符号対応データ生成部１２ｂに出力され、ステップＳ１４〜Ｓ１９の操作を経て、字幕として出力された場合には、字幕生成装置１は、全ての文字データの修正が終了したと判断し（ステップＳ１９でＹｅｓ）、動作を終了する。

以上の動作により、字幕生成装置１は、外部から入力したニュ−ス番組等の音声を認識し、さらに認識結果を形態素解析し、記憶手段１９に各形態素（文字群Ｘｉ）と符号Ｙｉとを関連付けて記憶し、表示画面に文字群Ｘｉと符号Ｙｉとを対応させて表示することができる。さらに、表示された文字データの修正を行い、字幕として出力することができる。そして、全ての文字データの修正が終わるまで上記の字幕生成の動作を行うことができる。

また、ここでは番組音声の音声認識と、認識結果の形態素解析を行い、認識結果を表示単位に分割する操作（ステップＳ１０〜Ｓ１３）を行った後に、表示単位の文字データごとに、表示画面に表示して、誤りを修正する操作（ステップＳ１４〜Ｓ１９）を繰り返し行う構成としたが、番組音声が継続して入力され、音声入力と並行して字幕を生成して出力する場合には、音声が入力されるのに合わせて適宜ステップＳ１０〜Ｓ１３の操作を行い、並行してステップＳ１４〜Ｓ１９の操作を行うようにしても良い。さらにここでは、ステップＳ１８において、表示装置２に表示された文字データの修正が終了すると同時に、修正した表示単位の文字データを出力することで、全ての文字データの修正の終了を待たずに、早期に文字データ（字幕）送出し、リアルタイムで字幕生成を行える構成としているが、ステップＳ１８において、表示装置２に表示された文字データの修正が終了した後に、この修正した文字データを記憶手段１９に記憶するようにし、ステップＳ１９において、全ての文字データの修正が終了した後に、記憶手段１９に記憶した全ての修正した文字データを一括して出力する構成としても良い。

（文字データの修正・出力動作）
次に図８を参照（適宜図１参照）して、字幕生成装置１が、表示装置２に表示された文字データに含まれる誤りを選択し、誤りを修正して字幕を出力する、文字データの修正・出力動作（図７のステップＳ１８）について説明する。

字幕生成装置１は、指令音声認識手段１４によって、マイク３を介して入力されたオペレータの音声（指令音声）を音声認識し、文字データに変換する（ステップＳ２１）。この指令音声認識手段１４によって認識される指令音声は、コマンドデータ１９ｂに記憶された特定の語彙（符号、特定文字、あるいは修正操作を示す文字（列））のみから構成され、また、オペレータを特定の話者に特定できるので、指令音声認識手段１４における音声認識は、公知の音声認識技術を用いて実現することができるが、さらに、話者適応の技術によって特定の話者や利用環境にこの音声認識のシステムを適用させることで、より高度な認識率が得られる。この話者適応の技術は、「音声情報処理」（春日正夫他著、コロナ社、Ｐ．１３２−Ｐ．１３４）等の公知の技術によって実現できる。この指令音声の認識結果は認識結果解析手段１５の指令解析部１５ａに出力される。

そして、認識結果解析手段１５の指令解析部１５ａは、コマンドデータ１９ｂに登録されている符号、特定文字、あるいは修正操作を示す文字（列）を単位（指令構成単位）として、コマンドデータ１９ｂに登録されている符号、特定文字、あるいは修正操作を示す文字（列）と、指令音声の認識結果とを対応させて、認識結果を指令構成単位に分割する（ステップＳ２２）。さらに、指令構成単位として分割した符号、特定文字、あるいは修正操作を示す文字（列）の組み合わせパターンと、指令テンプレート１９ｃに登録された修正対象情報パターンおよび修正操作情報パターンとをパターンマッチングし、指令音声の認識結果から修正対象情報と修正操作情報を識別する（ステップＳ２３）。

そして、音声認識結果の一部あるいは全部が修正対象情報パターンと一致する場合（ステップＳ２４でＹｅｓ）は、指令解析部１５ａは、修正対象情報パターンと一致する文字列を修正対象情報と認識し、修正対象解析部１５ｂに出力する。修正対象解析部１５ｂは、コマンドデータ１９ｂと指令テンプレート１９ｃに基づいて、その修正対象情報パターンと一致する文字列を解析し、その文字列が示す符号Ｙｉを検出する（ステップＳ２５）。そして、文字列選択手段１７は、その符号Ｙｉに対応する文字群Ｘｉを、符号対応データ１９ａから取得する（ステップＳ２６）。これによって、文字列選択手段１７は、オペレータの指令音声によって、一つあるいは複数の文字群Ｘｉからなる文字列を選択することができる。また、文字列選択手段１７は、取得した文字群Ｘｉを文字合成部１３ｂに出力する。文字合成部１３ｂは、文字列選択手段１７から入力された文字群Ｘｉを、表示装置２の表示画面の所定位置に合成して表示する（ステップＳ２７）。さらに、文字列選択手段１７は、修正手段１８に取得した文字群Ｘｉを出力する。

そして、指令音声の音声認識結果が修正操作情報を含んでおらず（ステップＳ２８でＮｏ）、かつ、指令音声が指令音声認識手段１４に入力されない場合（ステップＳ２９でＮｏ）は、修正手段１８はキーボード４から入力された文字列を文字合成部１３ｂに出力する。文字合成部１３ｂは、修正手段１８から入力された文字列を、表示装置２３の表示画面の所定位置に合成して表示する（ステップＳ３０）。また、修正手段１８は、キーボード４からの入力に従って、文字列選択手段１７から入力された文字群Ｘｉを書き換える（修正する）（ステップＳ３１）。その後、後記するステップＳ３７以降の操作を行う。

また、指令音声認識手段の音声認識結果が修正操作情報を含んでおらず（ステップＳ２８でＮｏ）、かつ、指令音声が指令音声認識手段１４に入力された場合（ステップＳ２９でＹｅｓ）は、ステップＳ２１に戻り、オペレータの音声認識以降の動作を行う。

一方、指令音声の音声認識結果が修正対象情報を含み（ステップＳ２４でＹｅｓ）、かつ、修正操作情報を含んでいる場合（ステップＳ２８でＹｅｓ）は、ステップＳ２５〜Ｓ２７で、修正する文字列を選択して、その文字列を表示画面に表示する操作を行った後に、修正操作解析部１５ｃが、指令テンプレート１９ｃに基づいて解析し、その修正操作情報の示す修正操作の指令を検出する（ステップＳ３３）。そして、修正手段１８は、ステップＳ２６で、文字列選択手段１７が選択した文字群Ｘｉに対して、その修正操作を行う（ステップＳ３４）。さらに、修正手段１８は修正した文字群Ｘｉを文字合成部１３ｂに出力し、文字合成部１３ｂは、修正手段１８から入力された文字群Ｘｉを、表示画面に表示している文字群Ｘｉと置き換えて表示する（ステップＳ３５）。その後、後記するステップＳ３７以降の操作を行う。

さらに、指令音声の音声認識結果が修正対象情報を含まず（ステップＳ２４でＮｏ）、かつ、修正操作情報を含んでいる場合（ステップＳ３２でＹｅｓ）は、修正操作解析部１５ｃが、指令テンプレート１９ｃに基づいて、その修正操作情報の示す修正操作の指令を検出する（ステップＳ３３）。そして、修正手段１８は、既に文字列選択手段１７で選択した文字群Ｘｉに対して、その修正操作を行う（ステップＳ３４）。修正手段１８は修正した文字群Ｘｉを文字合成部１３ｂに出力し、文字合成部１３ｂは、修正手段１８から入力された文字群Ｘｉを、表示画面に表示している文字群Ｘｉと置き換えて表示する（ステップＳ３５）。その後、後記するステップＳ３７以降の操作を行う。

また、指令音声の音声認識結果が修正対象情報を含まず（ステップＳ２４でＮｏ）、かつ、修正操作情報を含んでいない場合（ステップＳ３２でＮｏ）は、文字合成部１３ｂが、指令音声を認識できなかったことを通知する応答文を、表示装置２の表示画面の所定位置に合成する（ステップＳ３６）。その後、後記するステップＳ３７以降の操作を行う。

そして、キーボード４等からオペレータによって、表示画面の文字データの修正を終了し修正した文字データを出力する指令（テイク）が、入力された場合には（ステップＳ３７でＹｅｓ）、修正手段１８は、表示装置２の表示画面に表示された文字データの修正が終了したと判断し、その指令（信号）に基づいて、修正結果を反映させた文字データを字幕データとして出力手段２０に出力する。そして、出力手段２０はこの字幕データを外部に出力する（ステップＳ３８）。また、表示画面の文字データの修正を終了する指令（テイク）が入力されない場合には（ステップＳ３７でＮｏ）、ステップＳ２１に戻って、オペレータの指令音声の音声認識以降の動作を行う。

以上の動作によって、字幕生成装置１は、オペレータが発声する音声を認識し、その認識結果から、修正対象となる文字列を示す指令と、修正操作の指令とを認識することができる。そのため、オペレータの音声によって、修正対象となる文字列を選択する操作と、修正操作とを行うことができる。さらに、オペレータが表示画面に表示された符号を発声するという簡単な操作で、字幕生成装置１は、表示画面に表示された文字データから、修正対象となる文字列を特定でき、その文字列を選択することができる。

本発明における字幕生成装置（文字データ修正装置）の構成を示したブロック図である。文字データに符号Ｙｉを付加し、符号対応データを作成する例を示した説明図である。図２のデータを表示手段によって処理し、表示装置に表示した画面例を示した説明図である。文字列選択手段で文字群が選択された画面例を示した説明図である。修正対象情報からなる認識結果から、指令を解析する例を説明するための説明図である。修正対象情報と修正操作情報とからなる認識結果から、指令を解析する例を説明するための説明図である。字幕生成装置（文字データ修正装置）が番組の音声から字幕を生成する動作（字幕生成動作）を示したフローチャートである。字幕生成装置（文字データ修正装置）が、表示画面に表示された番組の音声認識結果の文字データを修正し、出力する動作（文字データの修正・出力動作）を示したフローチャートである。

符号の説明

１字幕生成装置（文字データ修正装置）
１２符号付加手段
１３表示手段
１３ａ符号合成部（符号合成手段）
１４指令音声認識手段（音声認識手段）
１５認識結果解析手段
１５ｂ修正対象解析部（修正対象解析手段）
１５ｃ修正操作解析部（修正操作解析手段）
１７文字列選択手段
１８修正手段
１９記憶手段
１９ａ符号対応データ（文字群記憶手段）
１９ｃ指令テンプレート（指令パターン記憶手段）

Claims

入力された文字データから、修正対象となる文字列をオペレータの音声によって選択して、修正する文字データ修正装置であって、
前記文字データを、前記文字列を構成する、一文字あるいは複数の文字からなる文字群に複数区分し、この文字群に表示画面のデータ内で識別可能な、前記文字群に対応する符号を付加し、文字群とこの文字群に対応する符号とを関連付ける符号付加手段と、
前記文字データと前記符号を、前記表示画面上の前記文字群に対応する位置に合成して表示する表示手段と、
前記修正対象となる文字列を示す修正対象情報を、当該文字列内で一番先に位置する文字群に対応する一の符号と、最後に位置する文字群に対応する他の符号と、前記一の符号から前記他の符号までを修正対象として選択することを示す特定文字との組み合わせで予め定型化して、前記組み合わせのパターンを記憶する指令パターン記憶手段と、
前記表示画面に表示された文字データに対する操作指令となる、前記音声を認識する音声認識手段と、
この音声認識手段により認識された、前記操作指令の音声認識結果を、前記指令パターン記憶手段に記憶した組み合わせのパターンに基づいて解析する修正対象解析手段と、
この修正対象解析手段により解析された前記修正対象情報に基づいて、この文字列を選択する文字列選択手段と、
前記文字列選択手段により選択された文字列を修正する修正手段とを備えることを特徴とする文字データ修正装置。
前記音声認識手段により認識された前記操作指令の音声認識結果には、前記表示画面に表示された文字データを修正する際に行う所定の操作を示す修正操作情報が含まれ、
この修正操作情報を解析する修正操作解析手段を備え、
前記修正手段は、前記修正操作解析手段によって解析された、前記修正操作情報に対応する操作を行うことを特徴とする請求項１に記載の文字データ修正装置。
入力された文字データから、修正対象となる文字列をオペレータの音声によって選択して、修正する文字データ修正方法であって、
前記文字データを、前記文字列を構成する、一文字あるいは複数の文字からなる文字群に複数区分し、この文字群に表示画面のデータ内で識別可能な、前記文字群に対応する符号を付加し、文字群とこの文字群に対応する符号とを関連付ける符号付加ステップと、
前記文字データと前記符号を、前記表示画面上の前記文字群に対応する位置に合成して表示する表示ステップと、
前記表示画面に表示された文字データに対する操作指令となる前記音声を、音声認識手段により認識する音声認識ステップと、
前記修正対象となる文字列を示す修正対象情報を、当該文字列内で一番先に位置する文字群に対応する一の符号と、最後に位置する文字群に対応する他の符号と、前記一の符号から前記他の符号までを修正対象として選択することを示す特定文字との組み合わせで予め定型化して指令パターン記憶手段に記憶した組み合わせのパターンに基づいて、修正対象解析手段により、前記音声認識ステップにより認識された前記操作指令の音声認識結果を解析する修正対象解析ステップと、
この修正対象解析ステップにより解析された前記修正対象情報に基づいて、この文字列を文字列選択手段により選択する文字列選択ステップと、
前記文字列選択ステップにより選択された文字列を修正する修正ステップとを含むことを特徴とする文字データ修正方法。
入力された文字データから、修正対象となる文字列をオペレータの音声によって選択して、修正するために、コンピュータを、
前記文字データを、前記文字列を構成する、一文字あるいは複数の文字からなる文字群に複数区分し、この文字群に表示画面のデータ内で識別可能な、前記文字群に対応する符号を付加し、文字群とこの文字群に対応する符号とを関連付ける符号付加手段、
前記文字データと前記符号を、前記表示画面上の前記文字群に対応する位置に合成して表示する表示手段、
前記表示画面に表示された文字データに対する操作指令となる、前記音声を認識する音声認識手段、
前記修正対象となる文字列を示す修正対象情報を、当該文字列内で一番先に位置する文字群に対応する一の符号と、最後に位置する文字群に対応する他の符号と、前記一の符号から前記他の符号までを修正対象として選択することを示す特定文字との組み合わせで予め定型化して指令パターン記憶手段に記憶した組み合わせのパターンに基づいて、前記音声認識手段により認識された、前記操作指令の音声認識結果を解析する修正対象解析手段、
この修正対象解析手段により解析された前記修正対象情報に基づいて、この文字列を選択する文字列選択手段、
前記文字列選択手段により選択された文字列を修正する修正手段として機能させることを特徴とする文字データ修正プログラム。