JP2014240884A - コンテンツ作成支援装置、方法およびプログラム - Google Patents

コンテンツ作成支援装置、方法およびプログラム Download PDF

Info

Publication number
JP2014240884A
JP2014240884A JP2013122953A JP2013122953A JP2014240884A JP 2014240884 A JP2014240884 A JP 2014240884A JP 2013122953 A JP2013122953 A JP 2013122953A JP 2013122953 A JP2013122953 A JP 2013122953A JP 2014240884 A JP2014240884 A JP 2014240884A
Authority
JP
Japan
Prior art keywords
text
character string
difference
feature amount
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013122953A
Other languages
English (en)
Inventor
布目 光生
Mitsuo Nunome
光生 布目
眞弘 森田
Shinko Morita
眞弘 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2013122953A priority Critical patent/JP2014240884A/ja
Priority to US14/301,378 priority patent/US9304987B2/en
Publication of JP2014240884A publication Critical patent/JP2014240884A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

【課題】短時間かつ効率的に読み上げ音声を編集できる。
【解決手段】本実施形態に係るコンテンツ作成支援装置は、音声合成部、音声認識部、特徴抽出部、差分検出部、候補提示部およびユーザ選択部を含む。音声合成部は、原文の第1テキストを音声合成し合成音声を得る。音声認識部は、合成音声を音声認識し音声認識結果の第2テキストを得る。特徴抽出部は、第1テキスト及び第2テキストを形態素解析した文字列について、特徴量を抽出する。差分検出部は、第1テキストと第2テキストとの差分を抽出し、第1テキストにおいて第2テキストに対して差分が生じた文字列である第1差分文字列に関する特徴量と、第2テキストにおいて第1テキストに対して差分が生じた文字列である第2差分文字列に関する特徴量とを比較する。候補提示部は、第2差分文字列の特徴量に応じた1以上の修正候補を提示する。ユーザ選択部は、ユーザからの指示により修正候補を選択する。
【選択図】図1

Description

本発明の実施形態は、コンテンツ作成支援装置、方法およびプログラムに関する。
近年、ハードウェアおよびソフトウェアの計算機環境が飛躍的に向上している。特に、従来では処理性能や記憶容量の不足などから現実的ではなかった電子書籍の専用端末やコンテンツ配信といったサービスが普及している。このようなサービスに用いられる新たなアプリケーションとして、テキスト読み上げ機能と連携したコンテンツや、読み上げ音声データを埋め込めこんだコンテンツなどがある。
また、上述のような電子書籍に関するサービスを、図書館に保管される紙文書などの書籍に応用することができる。例えば、紙文書を機械的に音声読み上げできる品質の電子データに変換したり、紙文書に対応した読み上げ音声データを作成することにより、紙文書を電子データ化することができる。
但し、紙文書から電子データへ変換し、読み上げ音声データの際に誤変換が含まれる可能性があるので、電子データおよび読み上げ音声データの修正が必要となる。修正手法としては、例えば、読み上げ音声の不具合箇所を検出して修正する手法がある。
特開2011−242637号公報
しかし、読み上げ音声の修正は、流れる音声を聞いて内容を確認する必要があるため、一般的に作業時間が多く必要となる。また、読み上げ音声を正しく修正するためには、どの部分がどのように不適切であるかを見極めるスキルが必要であり、さらにアクセントや韻律など言語的または音響的な知識やスキルが必要となる。さらに、音声を聞きながらコンテンツを修正する場合、目立つ誤りや致命的な誤りなどがわかりにくいため、優先度や重要度を考慮して作業を進めることができない。
本開示は、上述の課題を解決するためになされたものであり、短時間かつ効率的に読み上げ音声を編集できるコンテンツ作成支援装置、方法およびプログラムを提供することを目的とする。
本実施形態に係るコンテンツ作成支援装置は、音声合成部、音声認識部、特徴抽出部、差分検出部、候補提示部およびユーザ選択部を含む。音声合成部は、原文の文字列からなる第1テキストを音声合成し、合成音声を生成する。音声認識部は、前記合成音声を音声認識し、音声認識結果の文字列からなる第2テキストを得る。特徴抽出部は、前記第1テキストおよび前記第2テキストをそれぞれ形態素解析した文字列について、文字列の読みを含む特徴量を抽出する。差分検出部は、前記第1テキストと前記第2テキストとの差分を抽出し、該第1テキストにおいて該第2テキストに対して差分が生じた文字列である第1差分文字列に関する前記特徴量と、該第2テキストにおいて該第1テキストに対して差分が生じた文字列である第2差分文字列に関する前記特徴量とを比較する。候補提示部は、前記第2差分文字列の前記特徴量に応じた11以上の修正候補を提示する。ユーザ選択部は、ユーザからの指示により前記修正候補を選択する。
第1実施形態に係るコンテンツ作成支援装置を示すブロック図。 コンテンツ作成支援装置の動作を示すフローチャート。 特徴抽出部の特徴抽出処理を示すフローチャート。 特徴抽出処理の処理結果の一例を示す図。 特徴抽出部で設定される重要度の具体例を示す図。 差分検出部の差分検出処理を示すフローチャート。 差分検出部の処理結果の一例を示す図。 第1の実施形態に係る修正候補提示部で提示される内容の一例を示す図。 アクションの選択項目の一例を示す図。 ユーザ選択部の選択処理を示すフローチャート。 第2の実施形態に係るコンテンツ作成支援装置を示すブロック図。 第2の実施形態に係る修正候補提示部で提示される内容の一例を示す図。
以下、図面を参照しながら本実施形態に係るコンテンツ作成支援装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。
(第1の実施形態)
第1の実施形態に係るコンテンツ作成支援装置について図1のブロック図を参照して説明する。
第1の実施形態に係るコンテンツ作成支援装置100は、音声合成部101、音声認識部102、特徴抽出部103、差分検出部104、修正候補提示部105およびユーザ選択部106を含む。
音声合成部101は、外部から入力された原文の文字列からなるテキストである入力テキスト(第1テキストともいう)を受け取り、入力テキストに対して音声合成処理を行い、合成音声を得る。入力テキストは、文書編集ソフトなどにより作成されたテキストによる文書でもよいし、紙媒体に印字されたテキストをOCR(Optical Character Recognition)処理することにより電子的に文字認識できる状態に変換された文書でもよい。なお、音声合成処理は、一般的な音声合成処理であればよく、例えば一般的な漢字仮名まじりテキストを入力することで、合成音声が出力可能であればよい。
音声認識部102は、音声合成部101から合成音声を受け取り、合成音声に対して音声認識処理を行い、音声認識結果の文字列からなるテキストである音声認識テキスト(第2テキストともいう)を得る。音声認識処理は、一般的な音声認識処理であればよく、例えば、合成音声を音声認識し、合成音声を漢字仮名まじりのテキスト文に変換したデータを出力可能なものであればよい。
なお、音声合成部101における音声合成処理および音声認識部102における音声認識処理については、入出力の仕様が合致していればよく、各処理の内部で用いる言語、音響モデルおよび辞書などが共通である必要はない。すなわち、言語、音響モデルおよび辞書がブラックボックスであり、各処理で異なるベンダーのアプリケーションおよび手法が混在してもよい。
特徴抽出部103は、音声認識部102から入力テキストおよび音声認識テキストを受け取り、入力テキストおよび音声認識テキストをそれぞれ形態素解析する。さらに、特徴抽出部103は、形態素解析した結果に基づいて、単語ごとに、入力テキストおよび音声認識テキストに含まれる語がどのような特徴を有するかを示す特徴量を抽出する。特徴量の具体例については、図3を参照して後述する。
差分検出部104は、特徴抽出部103から入力テキスト、音声認識テキストおよび特徴量を受け取り、入力テキストおよび音声認識テキストの差分となる文字列を抽出する。テキスト間の差分を取る処理は、一般的な処理であるためここでの説明は省略する。本実施形態では、入力テキストにおいて音声認識テキストと差分を生じた文字列を第1差分文字列と呼び、音声認識テキストにおいて入力テキストと差分を生じた文字列を第2差分文字列と呼ぶ。さらに、差分検出部104は、第1差分文字列の特徴量と第2差分文字列の特徴量との比較を行ない、第1差分文字列と第2差分文字列とでどのように特徴量が異なるかを表す差分属性を得る。なお、本実施形態では、文字列は1文字である場合も含む。
修正候補提示部105は、差分検出部104から入力テキスト、音声認識テキスト、第1差分文字列、第2差分文字列および第1差分文字列と第2差分文字列とのそれぞれの特徴量を受け取る。修正候補提示部105は、第1差分文字列の特徴量に基づいて算出される指標である重要度に応じて、第2差分文字列の特徴量に応じた1以上の修正候補を提示する。
ユーザ選択部106は、ユーザからの指示を受け取り、ユーザからの指示により選択された修正候補を修正候補提示部105から抽出し、選択された修正候補に基づいて音声制御用メタデータを生成する。音声制御用メタデータは、入力テキストの文字列の読み上げを決定するメタデータである。
次に、コンテンツ作成支援装置100の動作について図2のフローチャートを参照して説明する。
ステップS201では、音声合成部101が、入力テキストを取得する。
ステップS202では、音声合成部101が、入力テキストを音声合成し、合成音声を得る。
ステップS203では、音声認識部102が、合成音声を音声認識し、合成音声をテキスト化して音声認識テキストを得る。
ステップS204では、特徴抽出部103が、音声認識テキストおよび入力テキストの文字列を形態素解析し、特徴量を抽出する。
ステップS205では、差分検出部104が、入力テキストと音声認識テキストとの差分を検出する。
ステップS206では、差分検出部104が、入力テキストと音声認識テキストとの差分が存在するかどうかを判定する。差分が存在する場合はステップS207に進み、差分が存在しない場合は動作を終了する。
ステップS207では、修正候補提示部105が、第2差分文字列の特徴量に応じて修正候補を提示する。
ステップS208では、ユーザ選択部106が、ユーザからの指示により修正候補を選択する。
ステップS209では、ユーザ選択部106が、選択された修正候補について音声制御用メタデータを生成して保持する。なお、音声制御用メタデータを保持する場合は、図示しないが内部メモリに音声制御用メタデータを格納して保持してもよいし、外部のストレージに音声制御用メタデータを格納して保持してもよい。
次に、特徴抽出部103の特徴抽出処理について図3のフローチャートを参照して説明する。なお、図3に示す特徴抽出処理は、入力テキストおよび音声認識テキストの両方で同様の処理を行えばよい。
ステップS301では、テキスト中のテキスト領域を取得する。テキスト領域は、複数の書籍の間および書籍全体、あるいは文書中の章や節など、ユーザが一括して扱うのに適当な領域を示し、ユーザが自由にテキスト領域を指定できるものとする。
ステップS302では、テキスト領域の文字列に対して、形態素解析処理を行ない、文字列の特徴量として、文字列の形態素と品詞列とを抽出する。
ステップS303では、テキスト領域の文字列に対して読みを解析し、文字列の特徴量として、読みを抽出する。
ステップS304では、テキスト領域の文字列に対してアクセントパターンを解析し、文字列の特徴量として、文字列のアクセントパターンを抽出する。
ステップS305では、テキスト領域の文字列に対して、見出しおよび索引などの文書の構成要素を表す論理要素情報(文書要素ともいう)を抽出する。
ステップS306では、各特徴量の統計量を算出する。ここでは、統計量として出現頻度を算出する。
ステップS307では、各特徴量の重要度を設定する。重要度は、例えば、読みのバリエーション、品詞のバリエーション、アクセントパターンのバリエーションなどに基づいて設定されればよく、優先して修正すべき特徴量の順序に応じて重要度の順序が定義されればよい。具体例としては、品詞の修正よりも読みの修正を優先すべき場合が多いと考えられるので、読みの修正の重要度を高く設定すればよい。
また、重要度は、入力テキスト、および入力テキストのジャンルなどから算出された統計量(出現頻度)または各特徴量の分布状況に基づいて設定されてもよい。また、例えば、タイトルの読みは必ず修正するといったように予め設定されてもよいし、入力テキストの冒頭が最も重要度が高く、テキストの後半に進むに従って重要度を低く設定してもよい。
ステップS308では、重要度、テキスト領域の文字列および特徴量をそれぞれ対応付けて保持する。なお、これらの対応付けは、特徴抽出部103が保持してもよいし、外部のメモリに格納してもよい。
ステップS309では、未処理のテキスト領域が存在するかどうかを判定する。未処理のテキスト領域が存在すれば、ステップS301に戻り同様の処理を繰り返す。未処理のテキスト領域が存在しなければ、特徴量抽出処理を終了する。
なお、ステップS302からステップS305までの特徴量の抽出処理は、どのような順序で算出してもよい。
次に、特徴抽出部103における特徴量抽出処理の処理結果について図4を参照して説明する。
図4(a)は、入力テキストに関する対応表400であり、図4(b)は、音声認識テキストに関する対応表450である。
図4(a)の対応表400は、位置401、入力テキスト402、特徴量403および重要度404がそれぞれ対応付けられる。位置401は、入力テキスト中で文字列が出現する位置を示す。入力テキスト402は、入力テキスト中に出現する文字列を示す。特徴量403は、特徴抽出部103で算出した特徴量であり、例えば、読み、アクセントパターン、文書要素が含まれる。重要度404は、特徴抽出部103で設定した重要度であり、ここでは「高」「低」で示しているが、数値で表してもよい。具体的に、位置401「Chapter#3,line(213)」、入力テキスト402「減少している点に関しては考証すべきである」、特徴量403「センテンス、“である”調」、重要度404「低」がそれぞれ対応付けられる。
図4(b)の対応表450は、位置401、音声認識テキスト405、特徴量403および重要度404がそれぞれ対応付けられる。音声認識テキスト405は、音声認識テキスト中に出現する文字列を示す。具体的に、位置401「Chapter#3,line(213)」、音声認識テキスト405「緊張している点に関しては交渉すべきである」、特徴量403「センテンス、“である”調」、重要度404「低」がそれぞれ対応付けられる。
なお、ここでは入力テキスト402および音声認識テキスト405ともにセンテンスごとに表示しているが、形態素ごとに分割した文字列に対して、位置401と特徴量403と重要度404とを対応付けてもよい。
次に、特徴抽出部103の出現頻度に基づいた重要度の具体例について図5を参照して説明する。
図5は、入力テキストの文字列を形態素解析処理した結果のプロットであり、縦軸は出現頻度を示し、横軸は入力テキストにおける特定フレーズの出現順を示す。プロットされている文字列は接続詞および副詞であり、表層文字列で示される。さらに、サ変動詞を含むフレーズ(減少している、緊張しているなど)も列挙される。特徴抽出部103は、出現頻度が高い文字列の重要度を高く設定する。具体的には、文字列501「かつて」、文字列502「減少している」といった文字列が出現頻度が高いため、誤りがある場合は修正効果が高いと考えられる。よって、文字列501「かつて」および文字列502「減少している」の重要度を高く設定すればよい。
また、テキストの文字列の特徴量として文書要素を抽出した結果、入力文書がHTML(Hypertext Markup Language)などの構造化文書形式で記述されており、見出しに相当する文書要素(title、subtitle、h1、h2など)が付与される文字列がある。これらの文字列については、プロットされているマーカー記号や色を変えて表示することで、他の候補との差異が目立つようにしてもよい。図5の例では、文字列502「減少している」を示す白抜きのプロットが見出しに相当する文字列であり、これらの文字列の重要度を高く設定すればよい。
次に、差分検出部104の検出処理について図6のフローチャートを参照して説明する。
ステップS601では、入力テキストを取得する。
ステップS602では、音声認識テキストを取得する。
ステップS603では、入力テキストおよび音声認識テキストについて前処理を行なう。前処理は、入力テキストと音声認識テキストとの間の比較精度を高めるための処理である。例えば、前処理としては、テキストデータに含まれる空行の削除、句読点および記号などの表記揺れの正規化、ひらがな、カタカナおよび数字列などの半角全角の統一、行単位に含まれる論理要素の統一(例えば、1行には1文のみ含むなど)が挙げられる。
ステップS604では、ステップS603において前処理された入力テキストと前処理された音声認識テキストとの間の差分を取り、第1差分文字列および第2差分文字列を抽出する。
ステップS605では、第1差分文字列、入力テキスト中の第1差分文字列を含む位置および第1差分文字列の特徴量をそれぞれ対応付けて保持する。これらの対応付けは、差分検出部104で保持してもよいし、外部のメモリに格納してもよい。
ステップS606では、第1差分文字列の特徴量と第2差分文字列の特徴量とを比較する。
ステップS607では、特徴量を比較した結果、特徴量の差分属性を取得し、差分属性と入力テキストとを対応付けて格納する。差分属性は、特徴量がどのように異なっているかを示す指標であり、例えば、第1差分文字列と第2差分文字列とを比較して、読みが一緒であるが表記が異なる場合は、差分属性は「同音異表記」であり、同じ表記であるが、アクセントパターンが異なる場合は、差分属性は「アクセント違い」となる。
次に、差分検出部104の処理結果について図7を参照して説明する。
図7に示す対応表700は、位置401、差分元701、差分先702、特徴量703および差分属性704が対応付けられる。
差分元701は、第1差分文字列の入力テキストにおける表層表現である。差分先702は、第2差分文字列の音声認識テキストにおける表層表現である。特徴量703は、ここでは品詞名である。差分属性704は、差分元701の特徴量と差分先702の特徴量とがどのように異なるかを示す。具体例としては、位置401「Chapter♯2、line(12)」、差分元701「減少」、差分先「考証」、特徴量703「サ変名詞」および差分属性704「表記違い」がそれぞれ対応付けられる。
次に、修正候補提示部105で提示される内容の具体例について図8を参照して説明する。
図8は、修正すべき箇所がモニタ画面で表示される例を示し、上段の表示領域801には図4に示すような入力テキストと音声認識テキストとの差分を提示し、下段の表示領域802にはどのような修正を行うかを示す修正方法を選択するための要素が提示される。
具体的に、表示領域801には、位置401、入力テキスト402、音声認識テキスト405が対応付けられて表示される。なお、音声認識テキスト405における第2差分文字列については、特徴抽出処理および差分検出処理の結果、得られた属性の違いによって、文字色および文字のフォントを変更したり、下線およびマーカーを引くことにより、強調表示してもよい。さらに、検討した結果、処理済みであることをチェックするためのチェック欄803を設けてもよい。
表示領域802には、アクション804、原文表記805、出現数806、検証結果807、表層および辞書見出し808および読み修正809を含む。
アクション804は、差分が生じている文字列に対し、どのような処理を行なうかを示す。原文表記805は、入力テキストの文字列を表示する。出現数806は、テキスト中に文字列がする回数を示す。検証結果807は、原文表記805に対応する音声認識をテキスト化した文字列である。表層および辞書見出し808は、表層表現を示す。読み修正809は、Xpath(XML Path language)表記のようなXML形式による合成音声の記述を修正するブロックである。
具体的には、位置401「chapter#2,line(12)」、すなわち2章の12行目に出現している「前年同期比で8件減少しているものの、」という原文中の表記が、検証の結果「前年同期比で8件継承しているものの、」というように異なっており、差分が生じていることが分かる。
同様に、位置401「chapter#3,line(213)」、すなわち3章の213行目に出現している「減少している点に関しては考証すべきである。」という原文中の表記が、検証の結果「緊張している点に関しては交渉すべきである。」というように2箇所の差分が生じる。異表記で読みも異なる場合と同じ読みだが表記が異なる場合とがハイライトの種類によって区別されている。
次に、アクション804の選択項目の一例について図9を参照して説明する。
図9に示すように、選択項目の一例として、「誤りを報告」、「辞書登録」、「ここだけ修正」、「アクセント」、「強調/ゆっくり読み」、「説明読み」、「SSML」および「無視」が挙げられる。
「誤りを報告」は、具体的な修正作業をせずに、誤りがあることだけを報告する処理であり、後段または他の作業者の処理にゆだねる場合に選択される。
「辞書登録」は、未知語、新語、固有名詞および専門用語など、読みが誤っているような表記に対して正しい読みを登録する処理である。
「ここだけ修正」は、辞書登録を行なう単語や他の修正に関して、修正範囲を限定するために、範囲を指定する情報を埋め込む処理である。ここでは、例えばXPath表記で指定したり、所定の場所(各章または各節の冒頭)からのオフセット情報を指定したりすればよい。
「アクセント」は、差分が生じた文字列のアクセントパターンを指定する処理である。例えば、アクセントパターンを数種類用意して、その中から選択するようにすればよい。
「強調/ゆっくり読み」は、指定された表現に対して、音量を大きく読み上げるなどの強調を行なうか、音声の読み上げ速度をゆっくりと読み上げるかを示す、読み上げ音声の制御用タグを付与する処理である。
「説明読み」は、読みに複数の可能性または揺らぎが存在する場合に、読みの候補を提示したり、および補足情報を付加する処理である。例えば、「考証」という文字列である場合は、「コウは『考える』のコウ、ショウは『証し』のショウです」といった説明用の音声を生成すればよい。
「SSML」は、一般的に用いられる音声制御用のタグおよび属性情報の入力を支援する処理である。
「無視」は、文字列に対して修正しないことを示す処理である。
次に、ユーザ選択部106の選択処理について図10のフローチャートを参照して説明する。
ステップS1001では、ユーザが選択したアクションの項目を読み込む。
ステップS1002では、ステップS1001で選択されたアクションに対応する入力フォームを提示する。具体的には、アクションのリスト中からユーザにより選択された処理に応じたテキストフォームおよび選択候補を提示する。
ステップS1003では、処理対象としている第2差分文字列の差分属性に応じて、修正候補を提示する。例えば、読みであれば複数の読みの候補を提示し、アクセントであれば想定されるアクセントパターンの候補を提示する。
ステップS1004では、ユーザにより選択されたステップS1003の候補またはユーザから入力された入力情報を取得する。
ステップS1005では、ユーザの入力情報と入力テキストとを対応付け、音声制御用メタデータを生成する。以上でユーザ選択部106の選択処理の動作を終了する。
格納された音声制御用メタデータは、書籍コンテンツの音声読み上げデータ作成時に参照されることで、テキストの音声合成に用いられる。または、コンテンツ作成者が予め音声ファイルとして作成するための前処理としても用いればよい。
以上に示した第1の実施形態によれば、入力テキストと入力テキストを音声合成したのちに音声認識したテキストとの特徴量を算出して、テキストの差分および特徴量の比較を行い、修正すべき文字列を重要度に応じてユーザに提示することで、音声読み上げデータを聞いて1つずつ確認することなく、音声の聴取に係る時間的コストを最小にして音声編集をすることができ、精度の高いコンテンツを生成することができる。
(第2の実施形態)
音声読み上げデータの修正作業を行なう際、作業スキルは人それぞれであるので、修正作業のスキルレベルが低いユーザが、SSMLのパラメータ修正など高度な修正作業を行うことは好ましくない。そこで、第2の実施形態では、作業者のスキルレベルに応じて修正可能な項目を設定することで効率よくデータの修正を行なうことができる。
第2の実施形態に係るコンテンツ作成支援装置について図11のブロック図を参照して説明する。
第2の実施形態に係るコンテンツ作成支援装置1100は、音声合成部101、音声認識部102、特徴抽出部103、差分検出部104、修正候補提示部105、ユーザ選択部106およびレベル設定部1101を含む。
音声合成部101、音声認識部102、特徴抽出部103、差分検出部104、修正候補提示部105およびユーザ選択部106については、第1の実施形態と同様であるのでここでの説明を省略する。
レベル設定部1101は、スキルレベルに応じて修正候補提示部105で表示するアクションの候補を設定する。ユーザのスキルレベルの決定方法としては、例えば、ユーザが予め自身の作業スキルのレベルを入力するようにしてもよいし、音声読み上げデータの編集前に予備テストなどを行うことでユーザのスキルレベルを判定してしてもよい。
次に、第2の実施形態に係る修正候補提示部105の提示例について図12を参照して説明する。
図12に示すように、必要なスキルに応じて修正可能なアクションが制限されて提示される。例えば、アクション1201のように、音声合成のパラメータの意味および調整手段が理解できるといった、スキルレベルが高いユーザの場合は、全てのアクションを選択可能とする。
一方、アクション1202のように、読みやアクセントが修正できるといった、通常レベルのユーザには「誤りを報告」「辞書登録」「アクセント」の3つのアクションを提示する。
さらに、アクション1203のように、読み上げ音声の修正に関して初心者であるユーザおよび誤りが確認できる程度のスキルレベルであるユーザには、「誤りを報告」のみ提示する。
なお、一度スキルレベルを決定したあとは、ユーザがログインすることで自動的にアクションの選択を制限するようにしてもよい。また、ユーザの作業時間および作業日数が閾値以上となる場合に、スキルレベルの見直しを行ない、1段階スキルレベルを上げるようにしてもよいし、予備テストによりさらに決定してもよい。
以上に示した第2の実施形態によれば、修正作業に必要なスキルにばらつきがある場合でも、作業者のスキルレベルに応じて段階的に作業を進めることができ、不適切な修正がなされることを避けることができる。よって、例えば読み誤りが含まれる可能性のある膨大なコンテンツを公開しながら、ユーザからのフィードバックをふまえてコンテンツを修正するというサイクルを繰り返すことにより、レポジトリ全体としての質を高めることができる。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述したコンテンツ作成支援装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態のコンテンツ作成支援装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100,1100・・・コンテンツ作成支援装置、101・・・音声合成部、102・・・音声認識部、103・・・特徴抽出部、104・・・差分検出部、105・・・修正候補提示部、106・・・ユーザ選択部、400,450,700・・・対応表、401・・・位置、402・・・入力テキスト、403,703・・・特徴量、404・・・重要度、405・・・音声認識テキスト、501,502・・・文字列、701・・・差分元、702・・・差分先、704・・・差分属性、801,802・・・表示領域、803・・・チェック欄、804・・・アクション、805・・・原文表記、806・・・出現数、807・・・検証結果、808・・・表層および辞書見出し、809・・・修正、1101・・・レベル設定部、1201,1202,1203・・・アクション。

Claims (9)

  1. 原文の文字列からなる第1テキストを音声合成し、合成音声を生成する音声合成部と、
    前記合成音声を音声認識し、音声認識結果の文字列からなる第2テキストを得る音声認識部と、
    前記第1テキストおよび前記第2テキストをそれぞれ形態素解析した文字列について、文字列の読みを含む特徴量を抽出する特徴抽出部と、
    前記第1テキストと前記第2テキストとの差分を抽出し、該第1テキストにおいて該第2テキストに対して差分が生じた文字列である第1差分文字列に関する前記特徴量と、該第2テキストにおいて該第1テキストに対して差分が生じた文字列である第2差分文字列に関する前記特徴量とを比較する差分検出部と、
    前記第2差分文字列の前記特徴量に応じた1以上の修正候補を提示する候補提示部と、
    ユーザからの指示により前記修正候補を選択するユーザ選択部と、を具備することを特徴とするコンテンツ作成支援装置。
  2. 前記特徴抽出部は、前記第1差分文字列の前記特徴量に基づいて算出される重要度と前記第2差分文字列とを対応付け、
    前記候補提示部は、前記重要度の高い順に前記修正候補を提示することを特徴とする請求項1に記載のコンテンツ作成支援装置。
  3. 前記特徴抽出部は、前記特徴量として、アクセントパターン、固有表現の有無、および言い回しをさらに抽出する請求項1または請求項2に記載のコンテンツ作成支援装置。
  4. 前記特徴抽出部は、前記特徴量として、品詞と前記第1テキスト中の文書の構成要素を示す文書要素とをさらに抽出する請求項1から請求項3のいずれか1項に記載のコンテンツ作成支援装置。
  5. 前記特徴抽出部は、前記特徴量として、文字列の表層表現をさらに抽出する請求項1から請求項4のいずれか1項に記載のコンテンツ作成支援装置。
  6. 前記特徴抽出部は、前記第1差分文字列の前記表層表現の出現頻度を重要度として算出することを特徴とする請求項5に記載のコンテンツ作成支援装置。
  7. ユーザの編集能力を表す編集レベルを設定するレベル設定部をさらに具備し、
    前記候補提示部は、前記編集レベルに応じて、第2差分文字列の修正ジャンルを選択して提示することを特徴とする請求項1から請求項6のいずれか1項に記載のコンテンツ作成支援装置。
  8. 原文の文字列からなる第1テキストを音声合成し、合成音声を生成し、
    前記合成音声を音声認識し、音声認識結果の文字列からなる第2テキストを得、
    前記第1テキストおよび前記第2テキストをそれぞれ形態素解析した文字列について、文字列の読みを含む特徴量を抽出し、
    前記第1テキストと前記第2テキストとの差分を抽出し、該第1テキストにおいて該第2テキストに対して差分が生じた文字列である第1差分文字列に関する前記特徴量と、該第2テキストにおいて該第1テキストに対して差分が生じた文字列である第2差分文字列に関する前記特徴量とを比較し、
    前記第2差分文字列の前記特徴量に応じた1以上の修正候補を提示し、
    ユーザからの指示により前記修正候補を選択することを特徴とするコンテンツ作成支援方法。
  9. コンピュータを、
    原文の文字列からなる第1テキストを音声合成し、合成音声を生成する音声合成手段と、
    前記合成音声を音声認識し、音声認識結果の文字列からなる第2テキストを得る音声認識手段と、
    前記第1テキストおよび前記第2テキストをそれぞれ形態素解析した文字列について、文字列の読みを含む特徴量を抽出する特徴抽出手段と、
    前記第1テキストと前記第2テキストとの差分を抽出し、該第1テキストにおいて該第2テキストに対して差分が生じた文字列である第1差分文字列に関する前記特徴量と、該第2テキストにおいて該第1テキストに対して差分が生じた文字列である第2差分文字列に関する前記特徴量とを比較する差分検出手段と、
    前記第2差分文字列の前記特徴量に応じた1以上の修正候補を提示する候補提示手段と、
    ユーザからの指示により前記修正候補を選択するユーザ選択手段として機能させるためのコンテンツ作成支援プログラム。
JP2013122953A 2013-06-11 2013-06-11 コンテンツ作成支援装置、方法およびプログラム Pending JP2014240884A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013122953A JP2014240884A (ja) 2013-06-11 2013-06-11 コンテンツ作成支援装置、方法およびプログラム
US14/301,378 US9304987B2 (en) 2013-06-11 2014-06-11 Content creation support apparatus, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013122953A JP2014240884A (ja) 2013-06-11 2013-06-11 コンテンツ作成支援装置、方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2014240884A true JP2014240884A (ja) 2014-12-25

Family

ID=52006211

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013122953A Pending JP2014240884A (ja) 2013-06-11 2013-06-11 コンテンツ作成支援装置、方法およびプログラム

Country Status (2)

Country Link
US (1) US9304987B2 (ja)
JP (1) JP2014240884A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017167219A (ja) * 2016-03-14 2017-09-21 株式会社東芝 読み上げ情報編集装置、読み上げ情報編集方法およびプログラム
JP2021131514A (ja) * 2020-02-21 2021-09-09 株式会社東芝 データ生成装置、データ生成方法およびプログラム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102014114845A1 (de) * 2014-10-14 2016-04-14 Deutsche Telekom Ag Verfahren zur Interpretation von automatischer Spracherkennung
CN111382297A (zh) * 2018-12-29 2020-07-07 杭州海康存储科技有限公司 一种用户侧用户数据的上报方法及装置
CN110767209B (zh) * 2019-10-31 2022-03-15 标贝(北京)科技有限公司 语音合成方法、装置、系统和存储介质
EP4116970A1 (en) * 2021-07-07 2023-01-11 Honeywell International Inc. Transcription playback with variable emphasis

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999053476A1 (fr) * 1998-04-15 1999-10-21 Fujitsu Limited Dispositif antibruit actif
US6587846B1 (en) * 1999-10-01 2003-07-01 Lamuth John E. Inductive inference affective language analyzer simulating artificial intelligence
US7200555B1 (en) * 2000-07-05 2007-04-03 International Business Machines Corporation Speech recognition correction for devices having limited or no display
JP4296714B2 (ja) * 2000-10-11 2009-07-15 ソニー株式会社 ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム
KR100940630B1 (ko) * 2001-05-02 2010-02-05 소니 주식회사 로봇 장치와, 문자 인식 장치 및 문자 인식 방법과, 제어프로그램 및 기록 매체
DE60215296T2 (de) * 2002-03-15 2007-04-05 Sony France S.A. Verfahren und Vorrichtung zum Sprachsyntheseprogramm, Aufzeichnungsmedium, Verfahren und Vorrichtung zur Erzeugung einer Zwangsinformation und Robotereinrichtung
JP4661074B2 (ja) * 2004-04-07 2011-03-30 ソニー株式会社 情報処理システム、情報処理方法、並びにロボット装置
US20070239455A1 (en) * 2006-04-07 2007-10-11 Motorola, Inc. Method and system for managing pronunciation dictionaries in a speech application
US8972268B2 (en) * 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
JP5313466B2 (ja) * 2007-06-28 2013-10-09 ニュアンス コミュニケーションズ,インコーポレイテッド 音声の再生に同期して音声の内容を表示させる技術
US8504365B2 (en) * 2008-04-11 2013-08-06 At&T Intellectual Property I, L.P. System and method for detecting synthetic speaker verification
US8265936B2 (en) * 2008-06-03 2012-09-11 International Business Machines Corporation Methods and system for creating and editing an XML-based speech synthesis document
US8494854B2 (en) * 2008-06-23 2013-07-23 John Nicholas and Kristin Gross CAPTCHA using challenges optimized for distinguishing between humans and machines
US8095365B2 (en) * 2008-12-04 2012-01-10 At&T Intellectual Property I, L.P. System and method for increasing recognition rates of in-vocabulary words by improving pronunciation modeling
US9213687B2 (en) * 2009-03-23 2015-12-15 Lawrence Au Compassion, variety and cohesion for methods of text analytics, writing, search, user interfaces
US8515749B2 (en) * 2009-05-20 2013-08-20 Raytheon Bbn Technologies Corp. Speech-to-speech translation
JP2011242637A (ja) 2010-05-19 2011-12-01 Nec Corp 音声編集装置
JP5106608B2 (ja) 2010-09-29 2012-12-26 株式会社東芝 読み上げ支援装置、方法、およびプログラム
JP2012198277A (ja) 2011-03-18 2012-10-18 Toshiba Corp 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム
JP2013072957A (ja) 2011-09-27 2013-04-22 Toshiba Corp 文書読み上げ支援装置、方法及びプログラム
US20130110511A1 (en) * 2011-10-31 2013-05-02 Telcordia Technologies, Inc. System, Method and Program for Customized Voice Communication
US20140046891A1 (en) * 2012-01-25 2014-02-13 Sarah Banas Sapient or Sentient Artificial Intelligence
US8849666B2 (en) * 2012-02-23 2014-09-30 International Business Machines Corporation Conference call service with speech processing for heavily accented speakers
US9390085B2 (en) * 2012-03-23 2016-07-12 Tata Consultancy Sevices Limited Speech processing system and method for recognizing speech samples from a speaker with an oriyan accent when speaking english
JP5820320B2 (ja) 2012-03-27 2015-11-24 株式会社東芝 情報処理端末及び方法、並びに、情報管理装置及び方法
US9293129B2 (en) * 2013-03-05 2016-03-22 Microsoft Technology Licensing, Llc Speech recognition assisted evaluation on text-to-speech pronunciation issue detection

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017167219A (ja) * 2016-03-14 2017-09-21 株式会社東芝 読み上げ情報編集装置、読み上げ情報編集方法およびプログラム
US10255904B2 (en) 2016-03-14 2019-04-09 Kabushiki Kaisha Toshiba Reading-aloud information editing device, reading-aloud information editing method, and computer program product
JP2021131514A (ja) * 2020-02-21 2021-09-09 株式会社東芝 データ生成装置、データ生成方法およびプログラム
JP7314079B2 (ja) 2020-02-21 2023-07-25 株式会社東芝 データ生成装置、データ生成方法およびプログラム

Also Published As

Publication number Publication date
US9304987B2 (en) 2016-04-05
US20140365217A1 (en) 2014-12-11

Similar Documents

Publication Publication Date Title
Kisler et al. BAS Speech Science Web Services-an update of current developments
US20120041758A1 (en) Synchronization of an input text of a speech with a recording of the speech
JP2014240884A (ja) コンテンツ作成支援装置、方法およびプログラム
JP2011018330A (ja) 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
US7801722B2 (en) Techniques for customization of phonetic schemes
US20070179779A1 (en) Language information translating device and method
JP2008148322A (ja) 文字符号化処理方法及びシステム
Cassidy et al. Tools for multimodal annotation
James et al. Developing resources for te reo Māori text to speech synthesis system
Öktem et al. Corpora compilation for prosody-informed speech processing
WO2015162737A1 (ja) 音訳作業支援装置、音訳作業支援方法及びプログラム
JP2006030326A (ja) 音声合成装置
CN116360794A (zh) 数据库语言解析方法、装置、计算机设备及存储介质
JP5245737B2 (ja) 音声読み上げ文生成装置、音声読み上げ文生成方法および音声読み上げ文生成プログラム
KR100631086B1 (ko) Xml을 이용한 텍스트 정규화 방법 및 장치
Zhiyong et al. A unified framework for multilingual text-to-speech synthesis with SSML specification as interface
US10255904B2 (en) Reading-aloud information editing device, reading-aloud information editing method, and computer program product
WO2020012813A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP4677869B2 (ja) 音声出力機能付き情報表示制御装置およびその制御プログラム
JP5853688B2 (ja) 言語処理プログラム、言語処理装置および言語処理方法
WO2009144890A1 (ja) 翻訳前換言規則生成システム
US20240005906A1 (en) Information processing device, information processing method, and information processing computer program product
JP2010039864A (ja) 形態素解析装置、形態素解析方法及びコンピュータプログラム
Sawalha et al. Text analytics and transcription technology for quranic arabic
JP2009140056A (ja) 言語知識獲得装置および言語知識獲得プログラム