JP2014240884A

JP2014240884A - コンテンツ作成支援装置、方法およびプログラム

Info

Publication number: JP2014240884A
Application number: JP2013122953A
Authority: JP
Inventors: 布目　光生; Mitsuo Nunome; 光生布目; 眞弘森田; Shinko Morita
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2013-06-11
Filing date: 2013-06-11
Publication date: 2014-12-25
Also published as: US20140365217A1; US9304987B2

Abstract

【課題】短時間かつ効率的に読み上げ音声を編集できる。
【解決手段】本実施形態に係るコンテンツ作成支援装置は、音声合成部、音声認識部、特徴抽出部、差分検出部、候補提示部およびユーザ選択部を含む。音声合成部は、原文の第１テキストを音声合成し合成音声を得る。音声認識部は、合成音声を音声認識し音声認識結果の第２テキストを得る。特徴抽出部は、第１テキスト及び第２テキストを形態素解析した文字列について、特徴量を抽出する。差分検出部は、第１テキストと第２テキストとの差分を抽出し、第１テキストにおいて第２テキストに対して差分が生じた文字列である第１差分文字列に関する特徴量と、第２テキストにおいて第１テキストに対して差分が生じた文字列である第２差分文字列に関する特徴量とを比較する。候補提示部は、第２差分文字列の特徴量に応じた１以上の修正候補を提示する。ユーザ選択部は、ユーザからの指示により修正候補を選択する。
【選択図】図１

Description

本発明の実施形態は、コンテンツ作成支援装置、方法およびプログラムに関する。

近年、ハードウェアおよびソフトウェアの計算機環境が飛躍的に向上している。特に、従来では処理性能や記憶容量の不足などから現実的ではなかった電子書籍の専用端末やコンテンツ配信といったサービスが普及している。このようなサービスに用いられる新たなアプリケーションとして、テキスト読み上げ機能と連携したコンテンツや、読み上げ音声データを埋め込めこんだコンテンツなどがある。

また、上述のような電子書籍に関するサービスを、図書館に保管される紙文書などの書籍に応用することができる。例えば、紙文書を機械的に音声読み上げできる品質の電子データに変換したり、紙文書に対応した読み上げ音声データを作成することにより、紙文書を電子データ化することができる。
但し、紙文書から電子データへ変換し、読み上げ音声データの際に誤変換が含まれる可能性があるので、電子データおよび読み上げ音声データの修正が必要となる。修正手法としては、例えば、読み上げ音声の不具合箇所を検出して修正する手法がある。

特開２０１１−２４２６３７号公報

しかし、読み上げ音声の修正は、流れる音声を聞いて内容を確認する必要があるため、一般的に作業時間が多く必要となる。また、読み上げ音声を正しく修正するためには、どの部分がどのように不適切であるかを見極めるスキルが必要であり、さらにアクセントや韻律など言語的または音響的な知識やスキルが必要となる。さらに、音声を聞きながらコンテンツを修正する場合、目立つ誤りや致命的な誤りなどがわかりにくいため、優先度や重要度を考慮して作業を進めることができない。

本開示は、上述の課題を解決するためになされたものであり、短時間かつ効率的に読み上げ音声を編集できるコンテンツ作成支援装置、方法およびプログラムを提供することを目的とする。

本実施形態に係るコンテンツ作成支援装置は、音声合成部、音声認識部、特徴抽出部、差分検出部、候補提示部およびユーザ選択部を含む。音声合成部は、原文の文字列からなる第１テキストを音声合成し、合成音声を生成する。音声認識部は、前記合成音声を音声認識し、音声認識結果の文字列からなる第２テキストを得る。特徴抽出部は、前記第１テキストおよび前記第２テキストをそれぞれ形態素解析した文字列について、文字列の読みを含む特徴量を抽出する。差分検出部は、前記第１テキストと前記第２テキストとの差分を抽出し、該第１テキストにおいて該第２テキストに対して差分が生じた文字列である第１差分文字列に関する前記特徴量と、該第２テキストにおいて該第１テキストに対して差分が生じた文字列である第２差分文字列に関する前記特徴量とを比較する。候補提示部は、前記第２差分文字列の前記特徴量に応じた１１以上の修正候補を提示する。ユーザ選択部は、ユーザからの指示により前記修正候補を選択する。

第１実施形態に係るコンテンツ作成支援装置を示すブロック図。コンテンツ作成支援装置の動作を示すフローチャート。特徴抽出部の特徴抽出処理を示すフローチャート。特徴抽出処理の処理結果の一例を示す図。特徴抽出部で設定される重要度の具体例を示す図。差分検出部の差分検出処理を示すフローチャート。差分検出部の処理結果の一例を示す図。第１の実施形態に係る修正候補提示部で提示される内容の一例を示す図。アクションの選択項目の一例を示す図。ユーザ選択部の選択処理を示すフローチャート。第２の実施形態に係るコンテンツ作成支援装置を示すブロック図。第２の実施形態に係る修正候補提示部で提示される内容の一例を示す図。

以下、図面を参照しながら本実施形態に係るコンテンツ作成支援装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。

（第１の実施形態）
第１の実施形態に係るコンテンツ作成支援装置について図１のブロック図を参照して説明する。
第１の実施形態に係るコンテンツ作成支援装置１００は、音声合成部１０１、音声認識部１０２、特徴抽出部１０３、差分検出部１０４、修正候補提示部１０５およびユーザ選択部１０６を含む。

音声合成部１０１は、外部から入力された原文の文字列からなるテキストである入力テキスト（第１テキストともいう）を受け取り、入力テキストに対して音声合成処理を行い、合成音声を得る。入力テキストは、文書編集ソフトなどにより作成されたテキストによる文書でもよいし、紙媒体に印字されたテキストをＯＣＲ（Optical Character Recognition）処理することにより電子的に文字認識できる状態に変換された文書でもよい。なお、音声合成処理は、一般的な音声合成処理であればよく、例えば一般的な漢字仮名まじりテキストを入力することで、合成音声が出力可能であればよい。

音声認識部１０２は、音声合成部１０１から合成音声を受け取り、合成音声に対して音声認識処理を行い、音声認識結果の文字列からなるテキストである音声認識テキスト（第２テキストともいう）を得る。音声認識処理は、一般的な音声認識処理であればよく、例えば、合成音声を音声認識し、合成音声を漢字仮名まじりのテキスト文に変換したデータを出力可能なものであればよい。
なお、音声合成部１０１における音声合成処理および音声認識部１０２における音声認識処理については、入出力の仕様が合致していればよく、各処理の内部で用いる言語、音響モデルおよび辞書などが共通である必要はない。すなわち、言語、音響モデルおよび辞書がブラックボックスであり、各処理で異なるベンダーのアプリケーションおよび手法が混在してもよい。

特徴抽出部１０３は、音声認識部１０２から入力テキストおよび音声認識テキストを受け取り、入力テキストおよび音声認識テキストをそれぞれ形態素解析する。さらに、特徴抽出部１０３は、形態素解析した結果に基づいて、単語ごとに、入力テキストおよび音声認識テキストに含まれる語がどのような特徴を有するかを示す特徴量を抽出する。特徴量の具体例については、図３を参照して後述する。
差分検出部１０４は、特徴抽出部１０３から入力テキスト、音声認識テキストおよび特徴量を受け取り、入力テキストおよび音声認識テキストの差分となる文字列を抽出する。テキスト間の差分を取る処理は、一般的な処理であるためここでの説明は省略する。本実施形態では、入力テキストにおいて音声認識テキストと差分を生じた文字列を第１差分文字列と呼び、音声認識テキストにおいて入力テキストと差分を生じた文字列を第２差分文字列と呼ぶ。さらに、差分検出部１０４は、第１差分文字列の特徴量と第２差分文字列の特徴量との比較を行ない、第１差分文字列と第２差分文字列とでどのように特徴量が異なるかを表す差分属性を得る。なお、本実施形態では、文字列は１文字である場合も含む。

修正候補提示部１０５は、差分検出部１０４から入力テキスト、音声認識テキスト、第１差分文字列、第２差分文字列および第１差分文字列と第２差分文字列とのそれぞれの特徴量を受け取る。修正候補提示部１０５は、第１差分文字列の特徴量に基づいて算出される指標である重要度に応じて、第２差分文字列の特徴量に応じた１以上の修正候補を提示する。
ユーザ選択部１０６は、ユーザからの指示を受け取り、ユーザからの指示により選択された修正候補を修正候補提示部１０５から抽出し、選択された修正候補に基づいて音声制御用メタデータを生成する。音声制御用メタデータは、入力テキストの文字列の読み上げを決定するメタデータである。

次に、コンテンツ作成支援装置１００の動作について図２のフローチャートを参照して説明する。
ステップＳ２０１では、音声合成部１０１が、入力テキストを取得する。
ステップＳ２０２では、音声合成部１０１が、入力テキストを音声合成し、合成音声を得る。
ステップＳ２０３では、音声認識部１０２が、合成音声を音声認識し、合成音声をテキスト化して音声認識テキストを得る。

ステップＳ２０４では、特徴抽出部１０３が、音声認識テキストおよび入力テキストの文字列を形態素解析し、特徴量を抽出する。
ステップＳ２０５では、差分検出部１０４が、入力テキストと音声認識テキストとの差分を検出する。
ステップＳ２０６では、差分検出部１０４が、入力テキストと音声認識テキストとの差分が存在するかどうかを判定する。差分が存在する場合はステップＳ２０７に進み、差分が存在しない場合は動作を終了する。

ステップＳ２０７では、修正候補提示部１０５が、第２差分文字列の特徴量に応じて修正候補を提示する。
ステップＳ２０８では、ユーザ選択部１０６が、ユーザからの指示により修正候補を選択する。
ステップＳ２０９では、ユーザ選択部１０６が、選択された修正候補について音声制御用メタデータを生成して保持する。なお、音声制御用メタデータを保持する場合は、図示しないが内部メモリに音声制御用メタデータを格納して保持してもよいし、外部のストレージに音声制御用メタデータを格納して保持してもよい。

次に、特徴抽出部１０３の特徴抽出処理について図３のフローチャートを参照して説明する。なお、図３に示す特徴抽出処理は、入力テキストおよび音声認識テキストの両方で同様の処理を行えばよい。
ステップＳ３０１では、テキスト中のテキスト領域を取得する。テキスト領域は、複数の書籍の間および書籍全体、あるいは文書中の章や節など、ユーザが一括して扱うのに適当な領域を示し、ユーザが自由にテキスト領域を指定できるものとする。
ステップＳ３０２では、テキスト領域の文字列に対して、形態素解析処理を行ない、文字列の特徴量として、文字列の形態素と品詞列とを抽出する。

ステップＳ３０３では、テキスト領域の文字列に対して読みを解析し、文字列の特徴量として、読みを抽出する。

ステップＳ３０４では、テキスト領域の文字列に対してアクセントパターンを解析し、文字列の特徴量として、文字列のアクセントパターンを抽出する。
ステップＳ３０５では、テキスト領域の文字列に対して、見出しおよび索引などの文書の構成要素を表す論理要素情報（文書要素ともいう）を抽出する。
ステップＳ３０６では、各特徴量の統計量を算出する。ここでは、統計量として出現頻度を算出する。

ステップＳ３０７では、各特徴量の重要度を設定する。重要度は、例えば、読みのバリエーション、品詞のバリエーション、アクセントパターンのバリエーションなどに基づいて設定されればよく、優先して修正すべき特徴量の順序に応じて重要度の順序が定義されればよい。具体例としては、品詞の修正よりも読みの修正を優先すべき場合が多いと考えられるので、読みの修正の重要度を高く設定すればよい。
また、重要度は、入力テキスト、および入力テキストのジャンルなどから算出された統計量（出現頻度）または各特徴量の分布状況に基づいて設定されてもよい。また、例えば、タイトルの読みは必ず修正するといったように予め設定されてもよいし、入力テキストの冒頭が最も重要度が高く、テキストの後半に進むに従って重要度を低く設定してもよい。

ステップＳ３０８では、重要度、テキスト領域の文字列および特徴量をそれぞれ対応付けて保持する。なお、これらの対応付けは、特徴抽出部１０３が保持してもよいし、外部のメモリに格納してもよい。
ステップＳ３０９では、未処理のテキスト領域が存在するかどうかを判定する。未処理のテキスト領域が存在すれば、ステップＳ３０１に戻り同様の処理を繰り返す。未処理のテキスト領域が存在しなければ、特徴量抽出処理を終了する。
なお、ステップＳ３０２からステップＳ３０５までの特徴量の抽出処理は、どのような順序で算出してもよい。

次に、特徴抽出部１０３における特徴量抽出処理の処理結果について図４を参照して説明する。
図４（ａ）は、入力テキストに関する対応表４００であり、図４（ｂ）は、音声認識テキストに関する対応表４５０である。

図４（ａ）の対応表４００は、位置４０１、入力テキスト４０２、特徴量４０３および重要度４０４がそれぞれ対応付けられる。位置４０１は、入力テキスト中で文字列が出現する位置を示す。入力テキスト４０２は、入力テキスト中に出現する文字列を示す。特徴量４０３は、特徴抽出部１０３で算出した特徴量であり、例えば、読み、アクセントパターン、文書要素が含まれる。重要度４０４は、特徴抽出部１０３で設定した重要度であり、ここでは「高」「低」で示しているが、数値で表してもよい。具体的に、位置４０１「Ｃｈａｐｔｅｒ＃３，ｌｉｎｅ（２１３）」、入力テキスト４０２「減少している点に関しては考証すべきである」、特徴量４０３「センテンス、“である”調」、重要度４０４「低」がそれぞれ対応付けられる。

図４（ｂ）の対応表４５０は、位置４０１、音声認識テキスト４０５、特徴量４０３および重要度４０４がそれぞれ対応付けられる。音声認識テキスト４０５は、音声認識テキスト中に出現する文字列を示す。具体的に、位置４０１「Ｃｈａｐｔｅｒ＃３，ｌｉｎｅ（２１３）」、音声認識テキスト４０５「緊張している点に関しては交渉すべきである」、特徴量４０３「センテンス、“である”調」、重要度４０４「低」がそれぞれ対応付けられる。
なお、ここでは入力テキスト４０２および音声認識テキスト４０５ともにセンテンスごとに表示しているが、形態素ごとに分割した文字列に対して、位置４０１と特徴量４０３と重要度４０４とを対応付けてもよい。

次に、特徴抽出部１０３の出現頻度に基づいた重要度の具体例について図５を参照して説明する。
図５は、入力テキストの文字列を形態素解析処理した結果のプロットであり、縦軸は出現頻度を示し、横軸は入力テキストにおける特定フレーズの出現順を示す。プロットされている文字列は接続詞および副詞であり、表層文字列で示される。さらに、サ変動詞を含むフレーズ（減少している、緊張しているなど）も列挙される。特徴抽出部１０３は、出現頻度が高い文字列の重要度を高く設定する。具体的には、文字列５０１「かつて」、文字列５０２「減少している」といった文字列が出現頻度が高いため、誤りがある場合は修正効果が高いと考えられる。よって、文字列５０１「かつて」および文字列５０２「減少している」の重要度を高く設定すればよい。

また、テキストの文字列の特徴量として文書要素を抽出した結果、入力文書がＨＴＭＬ（ＨｙｐｅｒｔｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）などの構造化文書形式で記述されており、見出しに相当する文書要素（ｔｉｔｌｅ、ｓｕｂｔｉｔｌｅ、ｈ１、ｈ２など）が付与される文字列がある。これらの文字列については、プロットされているマーカー記号や色を変えて表示することで、他の候補との差異が目立つようにしてもよい。図５の例では、文字列５０２「減少している」を示す白抜きのプロットが見出しに相当する文字列であり、これらの文字列の重要度を高く設定すればよい。

次に、差分検出部１０４の検出処理について図６のフローチャートを参照して説明する。
ステップＳ６０１では、入力テキストを取得する。
ステップＳ６０２では、音声認識テキストを取得する。
ステップＳ６０３では、入力テキストおよび音声認識テキストについて前処理を行なう。前処理は、入力テキストと音声認識テキストとの間の比較精度を高めるための処理である。例えば、前処理としては、テキストデータに含まれる空行の削除、句読点および記号などの表記揺れの正規化、ひらがな、カタカナおよび数字列などの半角全角の統一、行単位に含まれる論理要素の統一（例えば、１行には１文のみ含むなど）が挙げられる。

ステップＳ６０４では、ステップＳ６０３において前処理された入力テキストと前処理された音声認識テキストとの間の差分を取り、第１差分文字列および第２差分文字列を抽出する。
ステップＳ６０５では、第１差分文字列、入力テキスト中の第１差分文字列を含む位置および第１差分文字列の特徴量をそれぞれ対応付けて保持する。これらの対応付けは、差分検出部１０４で保持してもよいし、外部のメモリに格納してもよい。
ステップＳ６０６では、第１差分文字列の特徴量と第２差分文字列の特徴量とを比較する。
ステップＳ６０７では、特徴量を比較した結果、特徴量の差分属性を取得し、差分属性と入力テキストとを対応付けて格納する。差分属性は、特徴量がどのように異なっているかを示す指標であり、例えば、第１差分文字列と第２差分文字列とを比較して、読みが一緒であるが表記が異なる場合は、差分属性は「同音異表記」であり、同じ表記であるが、アクセントパターンが異なる場合は、差分属性は「アクセント違い」となる。

次に、差分検出部１０４の処理結果について図７を参照して説明する。
図７に示す対応表７００は、位置４０１、差分元７０１、差分先７０２、特徴量７０３および差分属性７０４が対応付けられる。

差分元７０１は、第１差分文字列の入力テキストにおける表層表現である。差分先７０２は、第２差分文字列の音声認識テキストにおける表層表現である。特徴量７０３は、ここでは品詞名である。差分属性７０４は、差分元７０１の特徴量と差分先７０２の特徴量とがどのように異なるかを示す。具体例としては、位置４０１「Ｃｈａｐｔｅｒ♯２、ｌｉｎｅ（１２）」、差分元７０１「減少」、差分先「考証」、特徴量７０３「サ変名詞」および差分属性７０４「表記違い」がそれぞれ対応付けられる。

次に、修正候補提示部１０５で提示される内容の具体例について図８を参照して説明する。
図８は、修正すべき箇所がモニタ画面で表示される例を示し、上段の表示領域８０１には図４に示すような入力テキストと音声認識テキストとの差分を提示し、下段の表示領域８０２にはどのような修正を行うかを示す修正方法を選択するための要素が提示される。

具体的に、表示領域８０１には、位置４０１、入力テキスト４０２、音声認識テキスト４０５が対応付けられて表示される。なお、音声認識テキスト４０５における第２差分文字列については、特徴抽出処理および差分検出処理の結果、得られた属性の違いによって、文字色および文字のフォントを変更したり、下線およびマーカーを引くことにより、強調表示してもよい。さらに、検討した結果、処理済みであることをチェックするためのチェック欄８０３を設けてもよい。

表示領域８０２には、アクション８０４、原文表記８０５、出現数８０６、検証結果８０７、表層および辞書見出し８０８および読み修正８０９を含む。
アクション８０４は、差分が生じている文字列に対し、どのような処理を行なうかを示す。原文表記８０５は、入力テキストの文字列を表示する。出現数８０６は、テキスト中に文字列がする回数を示す。検証結果８０７は、原文表記８０５に対応する音声認識をテキスト化した文字列である。表層および辞書見出し８０８は、表層表現を示す。読み修正８０９は、Ｘｐａｔｈ（XML Path language）表記のようなＸＭＬ形式による合成音声の記述を修正するブロックである。

具体的には、位置４０１「ｃｈａｐｔｅｒ＃２，ｌｉｎｅ（１２）」、すなわち２章の１２行目に出現している「前年同期比で８件減少しているものの、」という原文中の表記が、検証の結果「前年同期比で８件継承しているものの、」というように異なっており、差分が生じていることが分かる。
同様に、位置４０１「ｃｈａｐｔｅｒ＃３，ｌｉｎｅ（２１３）」、すなわち３章の２１３行目に出現している「減少している点に関しては考証すべきである。」という原文中の表記が、検証の結果「緊張している点に関しては交渉すべきである。」というように２箇所の差分が生じる。異表記で読みも異なる場合と同じ読みだが表記が異なる場合とがハイライトの種類によって区別されている。

次に、アクション８０４の選択項目の一例について図９を参照して説明する。
図９に示すように、選択項目の一例として、「誤りを報告」、「辞書登録」、「ここだけ修正」、「アクセント」、「強調／ゆっくり読み」、「説明読み」、「ＳＳＭＬ」および「無視」が挙げられる。

「誤りを報告」は、具体的な修正作業をせずに、誤りがあることだけを報告する処理であり、後段または他の作業者の処理にゆだねる場合に選択される。
「辞書登録」は、未知語、新語、固有名詞および専門用語など、読みが誤っているような表記に対して正しい読みを登録する処理である。
「ここだけ修正」は、辞書登録を行なう単語や他の修正に関して、修正範囲を限定するために、範囲を指定する情報を埋め込む処理である。ここでは、例えばＸＰａｔｈ表記で指定したり、所定の場所（各章または各節の冒頭）からのオフセット情報を指定したりすればよい。

「アクセント」は、差分が生じた文字列のアクセントパターンを指定する処理である。例えば、アクセントパターンを数種類用意して、その中から選択するようにすればよい。
「強調／ゆっくり読み」は、指定された表現に対して、音量を大きく読み上げるなどの強調を行なうか、音声の読み上げ速度をゆっくりと読み上げるかを示す、読み上げ音声の制御用タグを付与する処理である。
「説明読み」は、読みに複数の可能性または揺らぎが存在する場合に、読みの候補を提示したり、および補足情報を付加する処理である。例えば、「考証」という文字列である場合は、「コウは『考える』のコウ、ショウは『証し』のショウです」といった説明用の音声を生成すればよい。
「ＳＳＭＬ」は、一般的に用いられる音声制御用のタグおよび属性情報の入力を支援する処理である。
「無視」は、文字列に対して修正しないことを示す処理である。

次に、ユーザ選択部１０６の選択処理について図１０のフローチャートを参照して説明する。
ステップＳ１００１では、ユーザが選択したアクションの項目を読み込む。
ステップＳ１００２では、ステップＳ１００１で選択されたアクションに対応する入力フォームを提示する。具体的には、アクションのリスト中からユーザにより選択された処理に応じたテキストフォームおよび選択候補を提示する。
ステップＳ１００３では、処理対象としている第２差分文字列の差分属性に応じて、修正候補を提示する。例えば、読みであれば複数の読みの候補を提示し、アクセントであれば想定されるアクセントパターンの候補を提示する。

ステップＳ１００４では、ユーザにより選択されたステップＳ１００３の候補またはユーザから入力された入力情報を取得する。
ステップＳ１００５では、ユーザの入力情報と入力テキストとを対応付け、音声制御用メタデータを生成する。以上でユーザ選択部１０６の選択処理の動作を終了する。

格納された音声制御用メタデータは、書籍コンテンツの音声読み上げデータ作成時に参照されることで、テキストの音声合成に用いられる。または、コンテンツ作成者が予め音声ファイルとして作成するための前処理としても用いればよい。

以上に示した第１の実施形態によれば、入力テキストと入力テキストを音声合成したのちに音声認識したテキストとの特徴量を算出して、テキストの差分および特徴量の比較を行い、修正すべき文字列を重要度に応じてユーザに提示することで、音声読み上げデータを聞いて１つずつ確認することなく、音声の聴取に係る時間的コストを最小にして音声編集をすることができ、精度の高いコンテンツを生成することができる。

（第２の実施形態）
音声読み上げデータの修正作業を行なう際、作業スキルは人それぞれであるので、修正作業のスキルレベルが低いユーザが、ＳＳＭＬのパラメータ修正など高度な修正作業を行うことは好ましくない。そこで、第２の実施形態では、作業者のスキルレベルに応じて修正可能な項目を設定することで効率よくデータの修正を行なうことができる。

第２の実施形態に係るコンテンツ作成支援装置について図１１のブロック図を参照して説明する。

第２の実施形態に係るコンテンツ作成支援装置１１００は、音声合成部１０１、音声認識部１０２、特徴抽出部１０３、差分検出部１０４、修正候補提示部１０５、ユーザ選択部１０６およびレベル設定部１１０１を含む。
音声合成部１０１、音声認識部１０２、特徴抽出部１０３、差分検出部１０４、修正候補提示部１０５およびユーザ選択部１０６については、第１の実施形態と同様であるのでここでの説明を省略する。

レベル設定部１１０１は、スキルレベルに応じて修正候補提示部１０５で表示するアクションの候補を設定する。ユーザのスキルレベルの決定方法としては、例えば、ユーザが予め自身の作業スキルのレベルを入力するようにしてもよいし、音声読み上げデータの編集前に予備テストなどを行うことでユーザのスキルレベルを判定してしてもよい。

次に、第２の実施形態に係る修正候補提示部１０５の提示例について図１２を参照して説明する。
図１２に示すように、必要なスキルに応じて修正可能なアクションが制限されて提示される。例えば、アクション１２０１のように、音声合成のパラメータの意味および調整手段が理解できるといった、スキルレベルが高いユーザの場合は、全てのアクションを選択可能とする。

一方、アクション１２０２のように、読みやアクセントが修正できるといった、通常レベルのユーザには「誤りを報告」「辞書登録」「アクセント」の３つのアクションを提示する。
さらに、アクション１２０３のように、読み上げ音声の修正に関して初心者であるユーザおよび誤りが確認できる程度のスキルレベルであるユーザには、「誤りを報告」のみ提示する。
なお、一度スキルレベルを決定したあとは、ユーザがログインすることで自動的にアクションの選択を制限するようにしてもよい。また、ユーザの作業時間および作業日数が閾値以上となる場合に、スキルレベルの見直しを行ない、１段階スキルレベルを上げるようにしてもよいし、予備テストによりさらに決定してもよい。

以上に示した第２の実施形態によれば、修正作業に必要なスキルにばらつきがある場合でも、作業者のスキルレベルに応じて段階的に作業を進めることができ、不適切な修正がなされることを避けることができる。よって、例えば読み誤りが含まれる可能性のある膨大なコンテンツを公開しながら、ユーザからのフィードバックをふまえてコンテンツを修正するというサイクルを繰り返すことにより、レポジトリ全体としての質を高めることができる。

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述したコンテンツ作成支援装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷ、Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態のコンテンツ作成支援装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００，１１００・・・コンテンツ作成支援装置、１０１・・・音声合成部、１０２・・・音声認識部、１０３・・・特徴抽出部、１０４・・・差分検出部、１０５・・・修正候補提示部、１０６・・・ユーザ選択部、４００，４５０，７００・・・対応表、４０１・・・位置、４０２・・・入力テキスト、４０３，７０３・・・特徴量、４０４・・・重要度、４０５・・・音声認識テキスト、５０１，５０２・・・文字列、７０１・・・差分元、７０２・・・差分先、７０４・・・差分属性、８０１，８０２・・・表示領域、８０３・・・チェック欄、８０４・・・アクション、８０５・・・原文表記、８０６・・・出現数、８０７・・・検証結果、８０８・・・表層および辞書見出し、８０９・・・修正、１１０１・・・レベル設定部、１２０１，１２０２，１２０３・・・アクション。

Claims

原文の文字列からなる第１テキストを音声合成し、合成音声を生成する音声合成部と、
前記合成音声を音声認識し、音声認識結果の文字列からなる第２テキストを得る音声認識部と、
前記第１テキストおよび前記第２テキストをそれぞれ形態素解析した文字列について、文字列の読みを含む特徴量を抽出する特徴抽出部と、
前記第１テキストと前記第２テキストとの差分を抽出し、該第１テキストにおいて該第２テキストに対して差分が生じた文字列である第１差分文字列に関する前記特徴量と、該第２テキストにおいて該第１テキストに対して差分が生じた文字列である第２差分文字列に関する前記特徴量とを比較する差分検出部と、
前記第２差分文字列の前記特徴量に応じた１以上の修正候補を提示する候補提示部と、
ユーザからの指示により前記修正候補を選択するユーザ選択部と、を具備することを特徴とするコンテンツ作成支援装置。
前記特徴抽出部は、前記第１差分文字列の前記特徴量に基づいて算出される重要度と前記第２差分文字列とを対応付け、
前記候補提示部は、前記重要度の高い順に前記修正候補を提示することを特徴とする請求項１に記載のコンテンツ作成支援装置。
前記特徴抽出部は、前記特徴量として、アクセントパターン、固有表現の有無、および言い回しをさらに抽出する請求項１または請求項２に記載のコンテンツ作成支援装置。
前記特徴抽出部は、前記特徴量として、品詞と前記第１テキスト中の文書の構成要素を示す文書要素とをさらに抽出する請求項１から請求項３のいずれか１項に記載のコンテンツ作成支援装置。
前記特徴抽出部は、前記特徴量として、文字列の表層表現をさらに抽出する請求項１から請求項４のいずれか１項に記載のコンテンツ作成支援装置。
前記特徴抽出部は、前記第１差分文字列の前記表層表現の出現頻度を重要度として算出することを特徴とする請求項５に記載のコンテンツ作成支援装置。
ユーザの編集能力を表す編集レベルを設定するレベル設定部をさらに具備し、
前記候補提示部は、前記編集レベルに応じて、第２差分文字列の修正ジャンルを選択して提示することを特徴とする請求項１から請求項６のいずれか１項に記載のコンテンツ作成支援装置。
原文の文字列からなる第１テキストを音声合成し、合成音声を生成し、
前記合成音声を音声認識し、音声認識結果の文字列からなる第２テキストを得、
前記第１テキストおよび前記第２テキストをそれぞれ形態素解析した文字列について、文字列の読みを含む特徴量を抽出し、
前記第１テキストと前記第２テキストとの差分を抽出し、該第１テキストにおいて該第２テキストに対して差分が生じた文字列である第１差分文字列に関する前記特徴量と、該第２テキストにおいて該第１テキストに対して差分が生じた文字列である第２差分文字列に関する前記特徴量とを比較し、
前記第２差分文字列の前記特徴量に応じた１以上の修正候補を提示し、
ユーザからの指示により前記修正候補を選択することを特徴とするコンテンツ作成支援方法。
コンピュータを、
原文の文字列からなる第１テキストを音声合成し、合成音声を生成する音声合成手段と、
前記合成音声を音声認識し、音声認識結果の文字列からなる第２テキストを得る音声認識手段と、
前記第１テキストおよび前記第２テキストをそれぞれ形態素解析した文字列について、文字列の読みを含む特徴量を抽出する特徴抽出手段と、
前記第１テキストと前記第２テキストとの差分を抽出し、該第１テキストにおいて該第２テキストに対して差分が生じた文字列である第１差分文字列に関する前記特徴量と、該第２テキストにおいて該第１テキストに対して差分が生じた文字列である第２差分文字列に関する前記特徴量とを比較する差分検出手段と、
前記第２差分文字列の前記特徴量に応じた１以上の修正候補を提示する候補提示手段と、
ユーザからの指示により前記修正候補を選択するユーザ選択手段として機能させるためのコンテンツ作成支援プログラム。