JP6290230B2 - 音訳作業支援装置、音訳作業支援方法及びプログラム - Google Patents

音訳作業支援装置、音訳作業支援方法及びプログラム Download PDF

Info

Publication number
JP6290230B2
JP6290230B2 JP2015541386A JP2015541386A JP6290230B2 JP 6290230 B2 JP6290230 B2 JP 6290230B2 JP 2015541386 A JP2015541386 A JP 2015541386A JP 2015541386 A JP2015541386 A JP 2015541386A JP 6290230 B2 JP6290230 B2 JP 6290230B2
Authority
JP
Japan
Prior art keywords
transliteration
correction
information
work
document data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015541386A
Other languages
English (en)
Other versions
JPWO2015052817A1 (ja
Inventor
布目 光生
光生 布目
由加 黒田
由加 黒田
良彰 水岡
良彰 水岡
眞弘 森田
眞弘 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JPWO2015052817A1 publication Critical patent/JPWO2015052817A1/ja
Application granted granted Critical
Publication of JP6290230B2 publication Critical patent/JP6290230B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

本発明の実施形態は音訳作業支援装置、音訳作業支援方法及びプログラムに関する。
視覚障碍や学習障碍者向けにも理解しやすいコンテンツを作成するために、文書の点訳作業や音訳作業が行われている。こうした作業の多くはボランティアベースで細々となされている現状がある。一方、近年の電子計算機環境の向上、特に音声合成技術の発達に伴い、従来は肉声で読み上げていた朗読音声を、音声合成により代替したり支援したりすることが可能になってきた。特に端末の技術革新などもあり、従来、音質や機能面で難があったが、近年は、任意の漢字仮名まじりテキストデータを音声合成機能により肉声感のある音声で読み上げることが可能になってきている。音声合成機能は、例えば当該音声合成機能を実現するアプリケーションを個々の端末に搭載したスタンドアロン環境や、当該アプリケーションをサーバに搭載したクライアントサーバシステム環境で利用されている。
特開2007−199410号公報 特開2008−090771号公報 特開2013−041421号公報
しかしながら任意の漢字仮名混じりテキストを、音声合成機能が、読み誤りやアクセントの誤りなく100%正確に読み上げることは現実的には困難である。そのためコンテンツを配信・提供する前の準備段階でコンテンツの品質を向上させる必要があり、例えばコンテンツの作成者が、読み誤りやアクセント誤りを人手で修正し、当該修正結果をメタデータとしてコンテンツに関連付ける作業を行うことがある。しかしながら音声はテキストデータと異なり、一度再生して聞くまではどこが正しくどこが誤っているか判断できなかったり、音声を修正した場合にも、確認のために何度も聞き直す必要があったりと時間的なコストが大きかった。
実施形態の音訳作業支援装置は、解析部と、記憶部と、推定部と、構築部と、更新部とを備える。解析部は文書データを言語解析し、前記文書データに含まれる語句の音訳の仕方を表す音訳補助情報を作成する。記憶部は語句の過去に修正された音訳の仕方を表す修正履歴を記憶する。推定部は前記文書データ又は前記音訳補助情報の修正箇所と修正候補とを、前記修正履歴から推定する。構築部は前記修正候補に応じた修正の種類毎の作業項目と、前記作業項目の進捗情報とを含む作業リスト情報を構築する。修正部は修正の指示を受け付けて前記文書データ又は前記音訳補助情報を修正する。更新部は前記修正部の修正に応じて前記修正履歴と前記作業リスト情報の前記進捗情報とを更新する。前記音訳補助情報は、語句の出現頻度を表す統計情報、並びに前記文書データに含まれる語句のレイアウトを表す論理要素情報を含む。
実施形態の音訳作業支援装置の構成例を示す図。 実施形態の修正履歴DBの例を示す図。 実施形態の作業リスト情報DBの例を示す図。 実施形態の作業項目間の制約条件の例を示す図。 実施形態の音訳作業支援装置の基本画面の例を示す図。 実施形態の作業リスト情報の表示例を示す図。 実施形態の作業リスト情報の表示例を示す図。 実施形態の修正箇所の数と作品クオリティレベルとの関係を示す図。 実施形態の作業項目(アクセント誤り)の表示例を示す図。 実施形態の作業項目(大見出し)の表示例を示す図。 実施形態の音訳作業支援装置の修正用のGUIの例を示す図。 実施形態の解析部の処理の例を示すフローチャート。 実施形態の音訳作業支援装置の修正処理の例を示すフローチャート。 実施形態の音訳作業支援装置のハードウェア構成の例を示す図。
以下に添付図面を参照して、音訳作業支援装置、音声作業支援方法及びプログラムの実施形態を詳細に説明する。
図1は実施形態の音訳作業支援装置100の構成例を示す図である。実施形態の音訳作業支援装置100は解析部1、記憶部2、推定部3、構築部4、表示部5、受付部6、修正部7及び更新部8を備える。記憶部2はコンテンツデータDB11、修正履歴DB12及び作業リスト情報DB13を記憶する。
解析部1は文書データを言語解析する。文書データは、音声データの音声を文書で表した情報である。解析部1は、例えば音声合成に使用される文書データを言語解析する。文書データに含まれる文章は任意のジャンルでよい。例えば、文書データは、小説、雑誌、教材、教科書又は専門書などの書籍に限らず、通知、案内、手紙又はメールなどでもよい。言語解析では文書データの文章の形態素解析や、文章データの論理要素の検出などを行う。形態素解析では文書データに含まれる文書を形態素に分解し、品詞を判定する。論理要素の検出では、文書中の見出し要素、空行、及びインデントの違いなどを手がかりとして、文書データに含まれる文書のレイアウトを示す論理要素情報を検出する。より具体的には、解析部1は、例えば文書データに文章のレイアウトを示すタグ情報が含まれている場合は、タグ情報により論理要素情報を検出する。また文書データにタグ情報がない場合、解析部1は、例えばある行の冒頭が記号や数値列で始まっていたり、前後に空行が存在していたりしている上で、近傍の行平均よりも文字数が短く孤立的な行として存在している場合、その行を、見出し表現を表す論理要素情報として検出する。
また言語解析では、固有名詞を含む名詞、辞書に存在しない未知語、及びそれらの複合語なども検出する。解析部1は言語解析の結果に基づいて、文書データに含まれる語句の音訳の仕方を表す音訳補助情報を作成する。音訳補助情報は、例えば語句毎の読み、アクセントの位置、及び読むスピードなどを表す。なお、語は一以上の形態素により構成され、句(フレーズ)は一以上の語により構成される。
また解析部1は、言語解析時に語句の出現頻度などを表す統計情報も算出する。統計情報は例えばTF/IDFやC−Valueなどである。TF/IDFは、一の文書データ内での語句の出現頻度(TF)と、複数の文書データに現れる語句の逆文書頻度(IDF)とを表す。C−Valueは、複数の単語により構成される複合語における単語間の結合度を表す。C−Valueは、複合語における単語の区切り位置の判定に利用される。TF/IDF及びC−Valueについては、統計情報として既によく知られているため詳細な説明は省略する。
解析部1は、音訳補助情報に統計情報を加えて、メタデータとして文書データに関連付ける。そして解析部1は文書データとメタデータとをコンテンツDB11に記憶する。
推定部3はコンテンツDB11から文書データとメタデータとを読み出す。推定部3はメタデータに含まれる音訳補助情報に基づいて、文書データに含まれる文章を特定の単語や句などの語句に区切る。そして推定部3は当該語句を検索キーにして修正履歴DB12を検索し、音訳補助情報の修正箇所(修正対象の語句)及び修正候補を推定する。ここで修正履歴DB12について説明する。
図2は実施形態の修正履歴DBの例を示す図である。修正履歴DBは、語句の過去に修正された音訳の仕方について、どのような条件でどのような修正を行ったかを示す情報を関連付けて記憶する。本実施形態の修正履歴DBは、ID、文書情報、条件1、条件2、条件3及び適用ルールの各フィールドを有する。IDは修正履歴DBのレコードを識別する識別情報である。IDは例えば通し番号である。文書情報は、修正履歴DBに登録されている語句の出典の原文情報を一意に示す番号である。文書情報は、例えばISBN(International Standard Book Number)、又はuuid(Universally Unique IDentifier)などである。条件1(表層表現)は単語や句などの語句の表層的な情報である。条件2(品詞)は、条件1(表層表現)の品詞の種類を示す情報である。条件3(文書ジャンル)は文書のジャンルを示す情報である。適用ルールは条件1〜3を満たす語句に適用する修正候補を示す情報である。なお条件2及び3は常に設定する必要はなく、条件1(表層表現)のより詳細な制約情報が必要である場合に設定してもよい。なお適用ルール(修正候補)は、図1では図示されていない文書ジャンル毎の読み方やアクセントなどが定義された辞書を使用して決定してもよい。
図2の修正履歴DB12について具体的に説明する。IDが1の修正履歴DB12のレコードは、「兵十」という表層表現を、それが名詞または未知語と判定されており、修正対象の文書データが物語文である場合に、「ヒ’ョージュー」といった読み・アクセントが修正候補になることを示す。なお「ヒ’ョージュー」は中間言語であり、「’」はアクセントの場所を示す。中間言語は、文書データに含まれる語句の発音の仕方などを表すために音訳作業支援装置で使用される言語である。また「兵十」という表層表現の出典は文書情報「docID:000230」により特定されることを示す。
またIDが3の例では、条件1の表層表現に「マシマロ」、条件2及び3にアスタリスク(*)、適用ルールに「マシュマロ」が設定されている。これは任意の品詞・文書ジャンルで「マシマロ」の修正候補を「マシュマロ」にしてよいことを示す。IDが4の例では、条件1の表層表現「えー、なんだってー」に「?」は存在しないが、その読み上げの修正候補(適用ルール)は、「エー:ナ’ンダッテー?」であり、語尾上げ記号(?)を含む。IDが4の適用ルール「エー:ナ’ンダッテー?」は、表層表現「えー、なんだってー」が「エー」と「ナ’ンダッテー?」とに分離されることを示す。「ナ’ンダッテー?」は、アクセントを「ナ」に置き、語尾を上げて発音することを示す。
なお修正履歴DB12では一の表層表現に、複数の適用ルールを対応させてもよい。一の表層表現に複数の適用ルールを対応させる方法は、例えば条件2及び条件3を変更することにより、複数の適用ルールのうち条件に応じて一の適用ルールを一の表層表現に対応させてもよい。また条件2及び条件3を同一にして複数の適用ルールを対応させてもよい。この場合は、音訳作業支援装置100が一の修正箇所に対して複数の修正候補を作業者に提示することになる。
図1に戻り、推定部3は、文書データに含まれる語句の修正箇所及び修正候補を示す情報、並びに当該修正箇所に含まれる語句の統計情報を構築部4に送信する。構築部4は、修正候補に応じた修正の種類毎の作業項目と、作業項目の進捗情報とを含む作業リスト情報を構築する。構築部4は作業リスト情報を作業リスト情報DB13に記憶する。ここで作業リスト情報DBについて説明する。
図3は実施形態の作業リスト情報DBの例を示す図である。本実施形態の作業リスト情報DBは、ID、作業項目名、スコア及び制約条件の各フィールドを有する。作業リスト情報DBは、作業項目と当該作業項目の属性(スコア及び制約条件)とを記憶するDBである。IDは作業リスト情報DBのレコードを識別する識別情報である。IDは例えば通し番号である。作業項目名は作業項目の名称である。図3の例では作業項目の種類は8種類ある。図3の例では作業項目は「アクセント誤り」、「読み誤り」、「アクセント区切り」、「よく出るキーワード」、「大見出し」、「引用」、「書誌情報・脚注」及び「ルビ」である。構築部4は、語句の修正箇所を一の作業として、修正候補に基づいて一又は複数の作業項目に振り分ける。なお複数の作業項目に振り分ける場合は、例えば一の修正箇所が「アクセント誤り」と「読み誤り」とに該当する場合などである。ここで各作業項目の作業内容について説明する。
「アクセント誤り」は、単語や句などの語句のアクセントの誤りを修正する作業である。具体的には後述の表示部5が、アクセントが誤っている可能性がある語句のアクセントの修正候補を作業者に表示する。作業者は表示された修正候補を参照しながらアクセントの誤りを修正する。なお当該語句のアクセントの修正候補は、推定部3が過去の修正履歴や文書中の語句の統計情報から推定する。なお語句の統計情報は、例えばアクセントの位置が複数推定されるときに、多数決により一のアクセントの位置を推定する場合に利用する。アクセントが誤っている可能性のある語句の例は、「おはようございまーす。」や「そうですよねー。」などである。
「読み誤り」は、単語や句などの語句の読み方の誤りを修正する作業である。具体的には後述の表示部5が、読み方が誤っている可能性がある語句の読み方の修正候補を作業者に表示する。作業者は表示された修正候補を参照しながら読み方の誤りを修正する。なお当該語句の読み方の修正候補は、「アクセント誤り」の場合と同様に、推定部3が過去の修正履歴や文書中の語句の統計情報から推定する。読みが誤っている可能性またはゆらぎがあるためにユーザが明示的に指定する必要がある語句の例は、「市場」に対して「いちば」とするか「しじょう」とするかなどである。
「アクセント区切り」は、単語や句などの語句のアクセントの区切りの誤りを修正する作業である。具体的には後述の表示部5が、アクセントの区切りが誤っている可能性がある語句のアクセントの区切りの修正候補を作業者に表示する。作業者は表示された修正候補を参照しながらアクセントの区切りの誤りを修正する。なお当該語句の読み方の修正候補は、「アクセント誤り」の場合と同様に、推定部3が過去の修正履歴や文書中の語句の統計情報から推定する。アクセントの区切りが誤っている可能性がある語句の例は、「小学校へはいったのは」に対して「小学校へ/はいったのはと」とするか「小学校へは/いったのは」とするかなどである。
「よく出るキーワード」は、重要な語句の読み方やアクセントを確認する作業である。具体的には後述の表示部5が、重要な語句の読み方やアクセントを作業者に表示し、作業者に確認を促す。なお重要な語句は、推定部3が、修正対象の文書データ、又は過去に取り扱った文書データにおける出願頻度が高い語句を重要な語句であると推定する。
「大見出し」は、文書データの文章のうち、「第一章」や「1.…」などで始まる行の読み方やアクセントを確認する作業である。具体的には後述の表示部5が、「第一章」や「1.…」などで始まる行の読み方やアクセントを作業者に表示し、作業者に確認を促す。なお「第一章」や「1.…」などで始まる行は、推定部3が、前述の音訳補助情報に含まれる論理要素情報から推定する。
「引用」は、文書データの文章のうち、引用文に含まれる語句の読み方やアクセントを確認する作業である。具体的には後述の表示部5が、引用文に含まれる語句の読み方やアクセントを作業者に表示し、作業者に確認を促す。なお引用文に含まれる語句は、推定部3が、前述の音訳補助情報に含まれる論理要素情報から推定する。推定部3は例えば論理用要素情報により文章のインデントの深さを特定し、インデントの深さにより文章が引用文であることを推定する。
「書誌情報・脚注」は、文書データの文章のうち、書誌情報・脚注に含まれる語句の読み方やアクセントを確認する作業である。具体的には後述の表示部5が、書誌情報・脚注に含まれる語句の読み方やアクセントを作業者に表示し、作業者に確認を促す。なお書誌情報・脚注に含まれる語句は、推定部3が、前述の音訳補助情報に含まれる論理要素情報から推定する。書誌情報・脚注の例は、用語の解説などが記載されている脚注情報的なパラグラフや、冒頭・作品末に記載のある書誌情報(何年何月発行や○○ボランティアグループ編纂)の対象行などである。
「ルビ」は文書データの文章のうち、ルビタグ(<ruby>)が付与されている単語、未知語又は句などの語句の読み方やアクセントを確認する作業である。具体的には後述の表示部5が、ルビタグ(<ruby>)が付与されている語句の読み方やアクセントを作業者に表示し、作業者に確認を促す。なおルビタグ(<ruby>)が付与されている語句は、推定部3が、音訳補助情報に含まれる前述の論理要素情報から推定する。
以上が図3の作業リスト情報DB13の各作業項目の作業内容の説明である。図3の作業リスト情報DBの各フィールドの説明に戻る。スコアは、作業項目毎の作業の効果を表す。図3の例ではスコアの数値が高い程、その作業を完了したときの文書データを使用した音声合成の品質を向上させる効果が高いことを示す。スコアは、構築部4が例えば下記式(1)により見積もる。
score(D,I)
=Σ(WIi*f(Ii,D)+Whi*Ph(Ii,D)) ・・・(1)
上記式(1)の記号について説明する。Dは文書データを表す。Iは作業項目を表す。すなわちscore(D,I)は特定の文書における特定の作業項目のスコアを表す。WIiは作業項目Iの重みを表す。Iiは作業項目Iに含まれるi番目の要素(修正対象の語句)を表す。f(li,D)は文書データD中に出現した要素iの出現回数を表す。Whiは修正履歴各項目の重みを表す。Ph(Ii,D)は修正履歴におけるIiの出現回数を表す。
図3に戻り、制約条件は、複数の作業項目がある場合の作業順序の制約を示す。例えばIDが1の「アクセント誤り」の作業項目には、制約条件として、「引用>」及び「読み誤り>」が指定されている。これは、「アクセント誤り」の作業をする前に、「引用」及び「読み誤り」の作業をしておくことが望ましいことを示す。なお制約条件は音訳作業支援装置100で予め定義しておく。
図4は実施形態の作業項目間の制約条件の例を示す図である。例えば「引用」は「アクセント区切り」よりも先に行うことが望ましいことを示す。なお制約条件は作業者などが随時変更できるようにしてもよい。また制約条件のパターンを複数用意しておき、作品ジャンルなどに応じて一の制約条件のパターンを選択できるようにしてもよい。
図1に戻り、表示部5は音訳作業を行うための操作画面を表示する。受付部6は文書データ又は音訳補助情報の修正に係る操作入力を作業者から受け付ける。受付部6は、例えばマウスやキーボードなどにより作業者から操作入力を受け付ける。受付部6は操作入力に応じた入力情報を修正部7に送信する。修正部7は入力情報に応じてコンテンツデータDB11の文書データ又は音訳補助情報を修正する。更新部8は修正部7の修正に応じて修正履歴DB12及び作業リスト情報DB13を更新する。更新部8は更新された作業リスト情報を表示部5に送信する。表示部5は作業リスト情報を表示する。
次に、図6〜図11を参照して構築部4、表示部5、受付部6、修正部7及び更新部8の動作について詳細に説明する。図5は実施形態の音訳作業支援装置100の基本画面の例を示す図である。まず表示部5は図5の例のように修正対象の文書データの文章を表示する。作業者は、図5の基本画面を介して、各文の読みやアクセント誤りを修正したり、文を読み上げる合成音声の話者などを選択及び指定したりしながら、所望の音声コンテンツデータを作成する。受付部6が図5中の「作業リストの表示」の選択を示す操作入力を作業者から受け付けると、表示部5は修正対象の文書データの作業リスト情報を表示する。
図6及び図7は実施形態の作業リスト情報の表示例を示す図である。図6の作業リスト情報の表示例は、8種類の作業項目と、各作業項目における修正箇所の総数と、各作業項目における作業の進捗情報(既に修正した修正箇所の数)と、現在の作品クオリティレベルとを有する。例えば作業項目「引用」の修正箇所の総数は4であり、そのうち1箇所が既に修正済みであることを示す。現在の作品クオリティレベルは、現在の修正状況における文書データ及び音訳補助情報を使用して音声合成を行った場合の音声コンテンツの品質を示す。ここで作品クオリティレベルと各作業項目のスコアとの関係について説明する。
作品クオリティレベルの判定は、構築部4が作業リスト情報に含まれる全ての作業項目のスコアの合計と、現在の進捗情報とに基づいて行う。例えば図3の作業リスト情報の場合、全ての作業項目のスコアの合計は50+38+33+40+17+20+25+10=233である。そして、例えば作品クオリティレベルを高い順にランクA,ランクB,ランクC,ランクDと定義する。また、例えばスコアの合計の60%分に相当する修正作業を行った場合、作品クオリティレベルをランクCに定義する。図3の作業リスト情報の場合、スコアの合計の60%は233*0.6=139.8である。
図7は作品クオリティレベルをランクCにする場合に、効率良くスコアが上がりやすい作業項目をハイライトして明示する例である。図7の例では、構築部4は作業リスト情報の作業項目のうち、「引用」、「アクセント誤り」、「読み誤り」、「大見出し」及び「引用」をハイライトして明示することを決定する。ここで構築部4がハイライトする作業項目を決定する動作について説明する。
まず構築部4はスコアの高い順に作業項目を順序付ける。図3の作業リスト情報の例では、「アクセント誤り(50)」>「よく出るキーワード(40)」>「読み誤り(38)」>「アクセント区切り(33)」>「書誌情報・脚注(25)」>「引用(20)」>「大見出し(17)」>「ルビ(10)」となる。
次に構築部4は作業項目間の制約条件を考慮して作業項目の順序を変更する。例えば、最もスコアの高い「アクセント誤り(50)」を行うためには、先に「引用(20)」及び「読み誤り(38)」を行う必要がある。そのため構築部4は、例えば作業項目の順序を「引用(20)」>「読み誤り(38)」>「アクセント誤り(50)」>「よく出るキーワード(40)」>「アクセント区切り(33)」>「書誌情報・脚注(25)」>「大見出し(17)」>「ルビ(10)」に変更する。「引用(20)」、「読み誤り(38)」及び「アクセント誤り(50)」を行った場合のスコアの合計は108である。まだスコアの合計の60%は139.8に到達しないため、構築部4は更に作業項目の順序を入れ換える。
例えば、スコアが2番目に高い「よく出るキーワード(40)」を行うためには、先に「大見出し(17)」及び「書誌情報・脚注(25)」を行う必要がある。そのため構築部4は、例えば作業項目の順序を「引用(20)」>「読み誤り(38)」>「アクセント誤り(50)」>「大見出し(17)」>「書誌情報・脚注(25)」>「よく出るキーワード(40)」>「アクセント区切り(33)」>「ルビ(10)」に更に変更する。「引用(20)」、「読み誤り(38)」、「アクセント誤り(50)」、「大見出し(17)」及び「書誌情報・脚注(25)」を行った場合のスコアの合計は150である。これによりスコアの合計の60%は139.8に到達するため、構築部4は「引用(20)」、「読み誤り(38)」、「アクセント誤り(50)」、「大見出し(17)」及び「書誌情報・脚注(25)」をハイライトして明示する作業項目に決定する。
なお構築部4は、所望の作品クオリティレベルを達成するために必要な作業項目の組み合わせとして、一の組み合わせだけでなく、いくつかの組み合わせを提示できるようにしてもよい。
図8は実施形態の修正箇所の数と作品クオリティレベルとの関係を示す図である。横軸は修正箇所の数を表す。縦軸は作品クオリティレベル(スコア)を表す。グラフは、例えば「引用(20)」>「読み誤り(38)」>「アクセント誤り(50)」>「大見出し(17)」>「書誌情報・脚注(25)」>「よく出るキーワード(40)」>「アクセント区切り(33)」>「ルビ(10)」の順序で作業項目を実施した場合のスコアの上昇の仕方を表す。
次に、受付部6が、作業リスト情報から一の作業項目を選択する操作入力を、作業者から受け付けた場合について説明する。ここでは「アクセント誤り」及び「大見出し」の場合を例にして説明する。
図9は実施形態の作業項目(アクセント誤り)の表示例を示す図である。図9の例では、出現行、表現、行頭からの文字位置及び作業フラグを表示する。出現行は修正対象の語句を含む文章の行を示す。表現は修正対象の語句を示す。行頭からの文字位置は、修正対象の語句の先頭の文字が行頭から何文字目にあるかを示す。作業フラグは修正対象の語句を修正したか否かを示す。図9の例では、例えば修正箇所として表現「兵十」が、文書データに含まれる文章の33行目の行頭(行頭から0文字目)にあり、まだ修正が行われていないことを示す。
図10は実施形態の作業項目(大見出し)の表示例を示す図である。図10の例では、出現行、表現及び作業フラグを表示する。出現行は修正対象の語句を含む文章の行を示す。表現は修正対象の語句を示す。作業フラグは修正対象の語句を修正したか否かを示す。図10の例では、例えば修正箇所として表現「1.はじめに」が、文書データに含まれる文章の1行目にあり、まだ修正が行われていないことを示す。
なお表示部5は図9(図10)の出現行や表現をハイパーリンクとし、当該ハイパーリンクを選択することにより、文書データの当該箇所を表示するようにしてもよい。また表示部5は、作業者が一の作業項目の修正中に、図5のように文書データの文書を表示するときに、図9(図10)の出現行により文書データの文書の行をフィルタリングして表示してもよい。
図11は実際に修正候補を参照しながら修正箇所を修正するときに表示する修正用のGUI(Graphical User Interface)の例である。図11は作業項目が「引用」である場合の修正用のGUIである。図11上部の文章は、音訳作業支援装置100に入力された文書データの文書を表す。図11の例では、文章中の引用部分が
ハイライトされている。当該引用部分は解析部1が言語解析時にインデントの深さなどから特定する。なお当該引用部分は修正時にユーザが特定して選択してもよい。
図11のカスケードメニュー方式は、例えば当該引用部分の領域でマウスを右クリックすることにより動的にコンテキストメニューを表示する方式である。図11の例では、作業者が「引用文」を選択し、その修正候補として「引用読み(標準)」を選択する操作入力をした場合の例である。
修正部7は当該操作入力を示す入力情報を受付部6から受信すると、まず修正部7は当該引用部分の前後に「以下引用」及び「引用終わり」の文言(読み上げ音声)を挿入する。なお修正部7は文書データの文章に「以下引用」及び「引用終わり」の文言を追加してもよいし、文書データの文章はそのままにしておき、音訳補助情報の当該引用部分に、「以下引用」及び「引用終わり」を読み上げ音声として追加してもよい。次に修正部7は音訳補助情報の当該引用部分の読み上げ速度及びピッチを「引用読み(標準)」に修正する。
修正部7は、これらの指定を、例えば音声合成に使用する音声合成エンジンが受理可能な制御用タグとして実現する。当該制御タグは、例えば<prosody pitch=“+2”>(引用文)</prosody>などの形式である。修正部7は、当該制御タグをコンテンツデータDB11の文書データ、又は音訳補助情報(メタデータ)に記憶する。これにより、当該引用部分を音声合成エンジンが音声合成したときに、「以下引用」及び「引用終わり」が読み上げ音声として追加され、当該引用部分の読み上げ速度及びピッチが「引用読み(標準)」で行われる。
なお表示部5は図11のカスケードメニュー方式において、作業リスト情報における当該引用部分の修正候補を示す情報に基づいて、「引用文」及び「引用読み(標準)」をデフォルトでハイライトして表示してもよい。これにより作業者は修正候補を参考にしながら文書データ又は音訳補助情報を修正することができる。なお作業者は必ずしも修正候補としてハイライトされた「引用読み(標準)」を選択する必要はない。例えば受付部6が作業者から「引用読み(pitch↑)」を選択する操作入力を受け付けると、修正部7が当該引用部分の前後に「以下引用」及び「引用終わり」を挿入するとともに、音訳補助情報の当該引用部分の読み上げピッチの設定を上げる修正をする。
図11のメニューアイコン方式は、修正GUIのウインドウ上部に、固定的にナビゲーションメニューとしてアイコンの列を表示する方式である。このようなメニューアイコン方式により作業者から修正の指示を受け付けてもよい。
次にフローチャートを参照して実施形態の音訳作業支援方法について説明する。図12は実施形態の解析部1の処理の例を示すフローチャートである。解析部1は文書データを読み込む(ステップS1)。次に、解析部1は文書データに含まれる文書の形態素解析を行う(ステップS2)。次に、解析部1は文書データに含まれる語句の統計情報としてTF/IDFを算出する(ステップS3)。次に、解析部1は文書データに含まれる語句の統計情報としてC−Valueを算出する(ステップS4)。次に、解析部1は文書データに含まれる文書のレイアウトを示す論理要素を検出する(ステップS5)。解析部1は、言語解析の結果(形態素解析の結果、及び論理要素の検出結果)を示す情報から音訳補助情報を作成する。次に、解析部1は音訳補助情報に統計情報(TF/IDF及びC−Value)を加えて、メタデータとして文書データに関連付けてコンテンツデータDB11に記憶する(ステップS6)。
図13は実施形態の音訳作業支援装置100における語句の音訳の仕方の修正処理の例を示すフローチャートである。まず、推定部3はメタデータに含まれる音訳補助情報に基づいて、文書データに含まれる文章を特定の単語や句などの語句に区切る。そして推定部3は当該語句を検索キーにして修正履歴DB12を検索し、音訳補助情報の修正箇所(修正対象の語句)及び修正候補を推定する(ステップS11)。次に、構築部4は、修正候補に応じた修正の種類毎の作業項目と、作業項目の進捗情報とを含む作業リスト情報を構築する(ステップS12)。次に、表示部5は作業リスト情報を表示する(ステップS13)。次に、受付部6は修正の指示入力を作業者から受け付けたか否かを判定する(ステップS14)。修正の指示入力を作業者から受け付けなかった場合(ステップS14、No)、処理を終了する。
修正の指示入力を作業者から受け付けた場合(ステップS14、Yes)、受付部6は修正の指示入力に基づく入力情報を修正部7に送信する。修正部7は、入力情報に応じて文書データ又は音訳補助情報を修正する(ステップS15)。次に、更新部8は修正部7の修正に応じて修正履歴DB12を更新する(ステップS16)。次に、処理がステップS12に戻り、更新部8は修正部7の修正に応じて作業リスト情報DB13を更新する。
音訳作業支援装置100は上述のステップS12〜ステップS16の処理を繰り返すことにより、作業者の音訳作業を支援する。
以上のように実施形態の音訳作業支援装置100は、推定部3が、文書データ又は音訳補助情報の修正箇所と修正候補とを修正履歴から推定し、構築部4が、修正候補に応じた修正の種類毎の作業項目と作業項目の進捗情報とを含む作業リスト情報を構築する。これにより作業者は音声コンテンツを実際に聞く前に、作業リスト情報から修正箇所と修正候補とを事前に把握することができるので音訳作業を効率的に行うことができる。
最後に実施形態の音訳作業支援装置100のハードウェア構成について説明する。図14は実施形態の音訳作業支援装置100のハードウェア構成の例を示す図である。
本実施形態の音訳作業支援装置100は、制御装置21、主記憶装置22、補助記憶装置23、表示装置24、入力装置25及び通信装置26を備える。制御装置21、主記憶装置22、補助記憶装置23、表示装置24、入力装置25及び通信装置26は、バス27を介して互いに接続されている。
制御装置21は、補助記憶装置23から主記憶装置22に読み出されたプログラムを実行する。主記憶装置22は、ROM(Read Only Memory)やRAM(Random Access Memory)等のメモリである。補助記憶装置23は、例えばハードディスクやメモリカード等である。表示装置24は、音訳作業支援装置100の状態等を表示する画面である。表示装置24は、例えば液晶ディスプレイ等である。入力装置25は、音訳作業支援装置100を操作するためのインタフェースである。入力装置25は、例えばキーボードやマウス等である。通信装置26は、ネットワークに接続するためのインタフェースである。
本実施形態の音訳作業支援装置100で実行されるプログラムを、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、メモリカード、CD−R及びDVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録し、コンピュータ・プログラム・プロダクトとして提供してもよい。また、本実施形態の音訳作業支援装置100で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供してもよい。また、本実施形態の音訳作業支援装置100で実行されるプログラムをダウンロードさせずに、インターネット等のネットワーク経由で提供、又は配布してもよい。また、本実施形態の音訳作業支援装置100のプログラムを、ROM等に予め組み込んで提供してもよい。
本実施形態の音訳作業支援装置100で実行されるプログラムは、上述した音訳作業支援装置100の各機能ブロックのうち、プログラムとしても実現可能な機能ブロック(解析部1、推定部3、構築部4、修正部7及び更新部8)を含むモジュール構成となっている。
当該モジュールは、実際のハードウェアとしては、制御装置21が上記記憶媒体からプログラムを読み出して実行することにより、上記各モジュールが主記憶装置22上にロードされる。すなわち、上記各モジュールは、主記憶装置22上に生成される。なお、音訳作業支援装置100の各機能ブロックの一部、又は全部を、プログラムにより実現せずに、IC(Integrated Circuit)等のハードウェアにより実現してもよい。
なお記憶部2は上述した主記憶装置22及び補助記憶装置23により実現される。また表示部5は上述した表示装置24により実現される。また受付部6は上述した入力装置25により実現される。
本発明の実施形態を説明したが、本実施形態は、例として表示したものであり、発明の範囲を限定することは意図していない。本新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims (9)

  1. 文書データを言語解析し、前記文書データに含まれる語句の音訳の仕方を表す音訳補助情報を作成する解析部と、
    語句の過去に修正された音訳の仕方を表す修正履歴を記憶する記憶部と、
    前記文書データ又は前記音訳補助情報の修正箇所と修正候補とを、前記修正履歴から推定する推定部と、
    前記修正候補に応じた修正の種類毎の作業項目と、前記作業項目の進捗情報とを含む作業リスト情報を構築する構築部と、
    修正の指示を受け付けて前記文書データ又は前記音訳補助情報を修正する修正部と、
    前記修正部の修正に応じて前記修正履歴と前記作業リスト情報の前記進捗情報とを更新する更新部と、を備え、
    前記音訳補助情報は、
    語句の出現頻度を表す統計情報、並びに前記文書データに含まれる語句のレイアウトを表す論理要素情報を含む、
    音訳作業支援装置。
  2. 作業者に前記作業リスト情報を表示する表示部と、
    前記作業者による前記修正の指示を受け付ける受付部と、
    を更に備える請求項1に記載の音訳作業支援装置。
  3. 前記作業リスト情報は、
    前記文書データと前記音訳補助情報とを使用して音声合成した場合に作成される音声コンテンツの品質情報を更に含み、
    前記更新部は、
    前記文書データ又は前記音訳補助情報の更新結果に応じて前記作業リスト情報の前記品質情報を更に更新する
    請求項1又は2に記載の音訳作業支援装置。
  4. 前記統計情報は、
    地名、人名、又は数量表現を表す固有表現、辞書に定義されていない未知語又は句の統計情報を含む
    請求項に記載の音訳作業支援装置。
  5. 前記構築部は、
    前記修正箇所に該当する語句の前記統計情報と、前記修正候補に応じた修正の種類とから前記作業項目のスコアを算出し、前記スコアに基づいて前記作業項目の表示方法を変更する
    請求項又はに記載の音訳作業支援装置。
  6. 前記構築部は、
    前記スコアが高い順に所定の数の前記作業項目の表示をハイライトする
    請求項に記載の音訳作業支援装置。
  7. 前記推定部は、
    前記論理要素情報に更に基づいて前記修正箇所と修正候補とを推定する
    請求項に記載の音訳作業支援装置。
  8. 音訳作業支援装置が、文書データを言語解析し、前記文書データに含まれる語句の音訳の仕方を表す音訳補助情報を作成するステップと、
    音訳作業支援装置が、語句の過去に修正された音訳の仕方を表す修正履歴を参照するステップと、
    音訳作業支援装置が、前記文書データ又は前記音訳補助情報の修正箇所と修正候補とを、前記修正履歴から推定するステップと、
    音訳作業支援装置が、前記修正候補に応じた修正の種類毎の作業項目と、前記作業項目の進捗情報とを含む作業リスト情報を構築するステップと、
    音訳作業支援装置が、修正の指示を受け付けて前記文書データ又は前記音訳補助情報を修正するステップと、
    音訳作業支援装置が、前記修正するステップの修正に応じて前記修正履歴と前記作業リスト情報の前記進捗情報とを更新するステップと、を含み、
    前記音訳補助情報は、
    語句の出現頻度を表す統計情報、並びに前記文書データに含まれる語句のレイアウトを表す論理要素情報を含む、
    音訳作業支援方法。
  9. 語句の過去に修正された音訳の仕方を表す修正履歴を記憶する記憶部を備えるコンピュータを、
    文書データを言語解析し、前記文書データに含まれる語句の音訳の仕方を表す音訳補助情報を作成する解析部と、
    前記文書データ又は前記音訳補助情報の修正箇所と修正候補とを、前記修正履歴から推定する推定部と、
    前記修正候補に応じた修正の種類毎の作業項目と、前記作業項目の進捗情報とを含む作業リスト情報を構築する構築部と、
    修正の指示を受け付けて前記文書データ又は前記音訳補助情報を修正する修正部と、
    前記修正部の修正に応じて前記修正履歴と前記作業リスト情報の前記進捗情報とを更新する更新部、として機能させ、
    前記音訳補助情報は、
    語句の出現頻度を表す統計情報、並びに前記文書データに含まれる語句のレイアウトを表す論理要素情報を含む、
    プログラム。
JP2015541386A 2013-10-10 2013-10-10 音訳作業支援装置、音訳作業支援方法及びプログラム Expired - Fee Related JP6290230B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/077669 WO2015052817A1 (ja) 2013-10-10 2013-10-10 音訳作業支援装置、音訳作業支援方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2015052817A1 JPWO2015052817A1 (ja) 2017-03-09
JP6290230B2 true JP6290230B2 (ja) 2018-03-07

Family

ID=52812664

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015541386A Expired - Fee Related JP6290230B2 (ja) 2013-10-10 2013-10-10 音訳作業支援装置、音訳作業支援方法及びプログラム

Country Status (3)

Country Link
US (1) US9928828B2 (ja)
JP (1) JP6290230B2 (ja)
WO (1) WO2015052817A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210057183A (ko) * 2018-09-25 2021-05-20 시놉시스, 인크. 상태-유지 루프들 및 발진 루프들을 식별하기 위한 하드웨어 시뮬레이션 시스템들 및 방법들

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2015162737A1 (ja) 2014-04-23 2017-04-13 株式会社東芝 音訳作業支援装置、音訳作業支援方法及びプログラム
JP6523998B2 (ja) * 2016-03-14 2019-06-05 株式会社東芝 読み上げ情報編集装置、読み上げ情報編集方法およびプログラム
CN111611575A (zh) 2016-10-13 2020-09-01 创新先进技术有限公司 基于虚拟现实场景的业务实现方法及装置
US10558748B2 (en) 2017-11-01 2020-02-11 International Business Machines Corporation Recognizing transliterated words using suffix and/or prefix outputs
JP7415495B2 (ja) 2019-12-02 2024-01-17 富士通株式会社 文書処理プログラム、文書処理装置、及び文書処理方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11327870A (ja) * 1998-05-15 1999-11-30 Fujitsu Ltd ドキュメント読み上げ装置、読み上げ制御方法及び記 録媒体
US7403888B1 (en) * 1999-11-05 2008-07-22 Microsoft Corporation Language input user interface
JP4326251B2 (ja) * 2003-04-04 2009-09-02 シャープ株式会社 テキスト音声合成装置、並びに、テキスト音声合成方法及びそのプログラム
JP2005345699A (ja) * 2004-06-02 2005-12-15 Toshiba Corp 音声編集装置、音声編集方法および音声編集プログラム
JP4859101B2 (ja) 2006-01-26 2012-01-25 インターナショナル・ビジネス・マシーンズ・コーポレーション テキストに付与する発音情報の編集を支援するシステム
JP2008090771A (ja) 2006-10-05 2008-04-17 Hitachi Ltd デジタルコンテンツ版管理システム
JP2008146019A (ja) * 2006-11-16 2008-06-26 Seiko Epson Corp 音声合成用辞書作成システム、半導体集積回路装置及び半導体集積回路装置の製造方法
US20080120093A1 (en) 2006-11-16 2008-05-22 Seiko Epson Corporation System for creating dictionary for speech synthesis, semiconductor integrated circuit device, and method for manufacturing semiconductor integrated circuit device
US8554537B2 (en) * 2009-10-23 2013-10-08 Samsung Electronics Co., Ltd Method and device for transliteration
US8612206B2 (en) * 2009-12-08 2013-12-17 Microsoft Corporation Transliterating semitic languages including diacritics
JP5423466B2 (ja) * 2010-02-19 2014-02-19 富士通株式会社 音声合成装置、音声合成方法、及び音声合成プログラム
JP2012198277A (ja) 2011-03-18 2012-10-18 Toshiba Corp 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム
JP5712818B2 (ja) * 2011-06-30 2015-05-07 富士通株式会社 音声合成装置、音質修正方法およびプログラム
JP2013041421A (ja) 2011-08-16 2013-02-28 Nec Corp 入力文字列誤り検出装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210057183A (ko) * 2018-09-25 2021-05-20 시놉시스, 인크. 상태-유지 루프들 및 발진 루프들을 식별하기 위한 하드웨어 시뮬레이션 시스템들 및 방법들

Also Published As

Publication number Publication date
WO2015052817A1 (ja) 2015-04-16
JPWO2015052817A1 (ja) 2017-03-09
US9928828B2 (en) 2018-03-27
US20160217782A1 (en) 2016-07-28

Similar Documents

Publication Publication Date Title
JP6290230B2 (ja) 音訳作業支援装置、音訳作業支援方法及びプログラム
US11281852B2 (en) Systems and methods for automatically creating tables using auto-generated templates
CN107247707B (zh) 基于补全策略的企业关联关系信息提取方法和装置
CN109426658B (zh) 使用基于文本分析的智能特征建议进行文档美化
US9218325B2 (en) Quick font match
US20200364265A1 (en) Aid For Dyslexic Readers
JP6505421B2 (ja) 情報抽出支援装置、方法およびプログラム
US20070288240A1 (en) User interface for text-to-phone conversion and method for correcting the same
Mosavi Miangah FarsiSpell: A spell-checking system for Persian using a large monolingual corpus
CN107077515B (zh) 显示控制装置、显示控制方法及显示控制媒体
US20080229191A1 (en) Providing spelling analysis
JP2008129692A (ja) 回答支援装置、回答支援システム、回答支援方法および回答支援プログラム
WO2015162737A1 (ja) 音訳作業支援装置、音訳作業支援方法及びプログラム
CN113157888A (zh) 支持多知识来源的询问答复方法、装置和电子设备
US8650482B2 (en) Dynamic positioning and aligning tabs relative to margins indent and column width
US8275620B2 (en) Context-relevant images
US11620441B1 (en) System, method, and computer program product for inserting citations into a textual document
US20150186363A1 (en) Search-Powered Language Usage Checks
US20090259995A1 (en) Apparatus and Method for Standardizing Textual Elements of an Unstructured Text
US6832197B2 (en) Machine interface
JP2020140374A (ja) 電子図書再生装置及び電子図書再生プログラム
Percival Confident Coding: Master the Fundamentals of Code and Supercharge Your Career
Marfurt et al. If the word “sizemik” has a red line under it, maybe you should run spell check
CN112541651A (zh) 电子设备、发音学习方法以及服务器装置
JP2023149188A (ja) 修正支援方法、修正支援プログラムおよび情報処理装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170721

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180207

R151 Written notification of patent or utility model registration

Ref document number: 6290230

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees