JP6290230B2

JP6290230B2 - 音訳作業支援装置、音訳作業支援方法及びプログラム

Info

Publication number: JP6290230B2
Application number: JP2015541386A
Authority: JP
Inventors: 布目　光生; 光生布目; 由加黒田; 良彰水岡; 眞弘森田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2013-10-10
Filing date: 2013-10-10
Publication date: 2018-03-07
Anticipated expiration: 2033-10-10
Also published as: WO2015052817A1; JPWO2015052817A1; US9928828B2; US20160217782A1

Description

本発明の実施形態は音訳作業支援装置、音訳作業支援方法及びプログラムに関する。

視覚障碍や学習障碍者向けにも理解しやすいコンテンツを作成するために、文書の点訳作業や音訳作業が行われている。こうした作業の多くはボランティアベースで細々となされている現状がある。一方、近年の電子計算機環境の向上、特に音声合成技術の発達に伴い、従来は肉声で読み上げていた朗読音声を、音声合成により代替したり支援したりすることが可能になってきた。特に端末の技術革新などもあり、従来、音質や機能面で難があったが、近年は、任意の漢字仮名まじりテキストデータを音声合成機能により肉声感のある音声で読み上げることが可能になってきている。音声合成機能は、例えば当該音声合成機能を実現するアプリケーションを個々の端末に搭載したスタンドアロン環境や、当該アプリケーションをサーバに搭載したクライアントサーバシステム環境で利用されている。

特開２００７−１９９４１０号公報特開２００８−０９０７７１号公報特開２０１３−０４１４２１号公報

しかしながら任意の漢字仮名混じりテキストを、音声合成機能が、読み誤りやアクセントの誤りなく１００％正確に読み上げることは現実的には困難である。そのためコンテンツを配信・提供する前の準備段階でコンテンツの品質を向上させる必要があり、例えばコンテンツの作成者が、読み誤りやアクセント誤りを人手で修正し、当該修正結果をメタデータとしてコンテンツに関連付ける作業を行うことがある。しかしながら音声はテキストデータと異なり、一度再生して聞くまではどこが正しくどこが誤っているか判断できなかったり、音声を修正した場合にも、確認のために何度も聞き直す必要があったりと時間的なコストが大きかった。

実施形態の音訳作業支援装置は、解析部と、記憶部と、推定部と、構築部と、更新部とを備える。解析部は文書データを言語解析し、前記文書データに含まれる語句の音訳の仕方を表す音訳補助情報を作成する。記憶部は語句の過去に修正された音訳の仕方を表す修正履歴を記憶する。推定部は前記文書データ又は前記音訳補助情報の修正箇所と修正候補とを、前記修正履歴から推定する。構築部は前記修正候補に応じた修正の種類毎の作業項目と、前記作業項目の進捗情報とを含む作業リスト情報を構築する。修正部は修正の指示を受け付けて前記文書データ又は前記音訳補助情報を修正する。更新部は前記修正部の修正に応じて前記修正履歴と前記作業リスト情報の前記進捗情報とを更新する。前記音訳補助情報は、語句の出現頻度を表す統計情報、並びに前記文書データに含まれる語句のレイアウトを表す論理要素情報を含む。

実施形態の音訳作業支援装置の構成例を示す図。実施形態の修正履歴ＤＢの例を示す図。実施形態の作業リスト情報ＤＢの例を示す図。実施形態の作業項目間の制約条件の例を示す図。実施形態の音訳作業支援装置の基本画面の例を示す図。実施形態の作業リスト情報の表示例を示す図。実施形態の作業リスト情報の表示例を示す図。実施形態の修正箇所の数と作品クオリティレベルとの関係を示す図。実施形態の作業項目（アクセント誤り）の表示例を示す図。実施形態の作業項目（大見出し）の表示例を示す図。実施形態の音訳作業支援装置の修正用のＧＵＩの例を示す図。実施形態の解析部の処理の例を示すフローチャート。実施形態の音訳作業支援装置の修正処理の例を示すフローチャート。実施形態の音訳作業支援装置のハードウェア構成の例を示す図。

以下に添付図面を参照して、音訳作業支援装置、音声作業支援方法及びプログラムの実施形態を詳細に説明する。

図１は実施形態の音訳作業支援装置１００の構成例を示す図である。実施形態の音訳作業支援装置１００は解析部１、記憶部２、推定部３、構築部４、表示部５、受付部６、修正部７及び更新部８を備える。記憶部２はコンテンツデータＤＢ１１、修正履歴ＤＢ１２及び作業リスト情報ＤＢ１３を記憶する。

解析部１は文書データを言語解析する。文書データは、音声データの音声を文書で表した情報である。解析部１は、例えば音声合成に使用される文書データを言語解析する。文書データに含まれる文章は任意のジャンルでよい。例えば、文書データは、小説、雑誌、教材、教科書又は専門書などの書籍に限らず、通知、案内、手紙又はメールなどでもよい。言語解析では文書データの文章の形態素解析や、文章データの論理要素の検出などを行う。形態素解析では文書データに含まれる文書を形態素に分解し、品詞を判定する。論理要素の検出では、文書中の見出し要素、空行、及びインデントの違いなどを手がかりとして、文書データに含まれる文書のレイアウトを示す論理要素情報を検出する。より具体的には、解析部１は、例えば文書データに文章のレイアウトを示すタグ情報が含まれている場合は、タグ情報により論理要素情報を検出する。また文書データにタグ情報がない場合、解析部１は、例えばある行の冒頭が記号や数値列で始まっていたり、前後に空行が存在していたりしている上で、近傍の行平均よりも文字数が短く孤立的な行として存在している場合、その行を、見出し表現を表す論理要素情報として検出する。

また言語解析では、固有名詞を含む名詞、辞書に存在しない未知語、及びそれらの複合語なども検出する。解析部１は言語解析の結果に基づいて、文書データに含まれる語句の音訳の仕方を表す音訳補助情報を作成する。音訳補助情報は、例えば語句毎の読み、アクセントの位置、及び読むスピードなどを表す。なお、語は一以上の形態素により構成され、句（フレーズ）は一以上の語により構成される。

また解析部１は、言語解析時に語句の出現頻度などを表す統計情報も算出する。統計情報は例えばＴＦ／ＩＤＦやＣ−Ｖａｌｕｅなどである。ＴＦ／ＩＤＦは、一の文書データ内での語句の出現頻度（ＴＦ）と、複数の文書データに現れる語句の逆文書頻度（ＩＤＦ）とを表す。Ｃ−Ｖａｌｕｅは、複数の単語により構成される複合語における単語間の結合度を表す。Ｃ−Ｖａｌｕｅは、複合語における単語の区切り位置の判定に利用される。ＴＦ／ＩＤＦ及びＣ−Ｖａｌｕｅについては、統計情報として既によく知られているため詳細な説明は省略する。

解析部１は、音訳補助情報に統計情報を加えて、メタデータとして文書データに関連付ける。そして解析部１は文書データとメタデータとをコンテンツＤＢ１１に記憶する。

推定部３はコンテンツＤＢ１１から文書データとメタデータとを読み出す。推定部３はメタデータに含まれる音訳補助情報に基づいて、文書データに含まれる文章を特定の単語や句などの語句に区切る。そして推定部３は当該語句を検索キーにして修正履歴ＤＢ１２を検索し、音訳補助情報の修正箇所（修正対象の語句）及び修正候補を推定する。ここで修正履歴ＤＢ１２について説明する。

図２は実施形態の修正履歴ＤＢの例を示す図である。修正履歴ＤＢは、語句の過去に修正された音訳の仕方について、どのような条件でどのような修正を行ったかを示す情報を関連付けて記憶する。本実施形態の修正履歴ＤＢは、ＩＤ、文書情報、条件１、条件２、条件３及び適用ルールの各フィールドを有する。ＩＤは修正履歴ＤＢのレコードを識別する識別情報である。ＩＤは例えば通し番号である。文書情報は、修正履歴ＤＢに登録されている語句の出典の原文情報を一意に示す番号である。文書情報は、例えばＩＳＢＮ（ＩｎｔｅｒｎａｔｉｏｎａｌＳｔａｎｄａｒｄＢｏｏｋＮｕｍｂｅｒ）、又はｕｕｉｄ（ＵｎｉｖｅｒｓａｌｌｙＵｎｉｑｕｅＩＤｅｎｔｉｆｉｅｒ）などである。条件１（表層表現）は単語や句などの語句の表層的な情報である。条件２（品詞）は、条件１（表層表現）の品詞の種類を示す情報である。条件３（文書ジャンル）は文書のジャンルを示す情報である。適用ルールは条件１〜３を満たす語句に適用する修正候補を示す情報である。なお条件２及び３は常に設定する必要はなく、条件１（表層表現）のより詳細な制約情報が必要である場合に設定してもよい。なお適用ルール（修正候補）は、図１では図示されていない文書ジャンル毎の読み方やアクセントなどが定義された辞書を使用して決定してもよい。

図２の修正履歴ＤＢ１２について具体的に説明する。ＩＤが１の修正履歴ＤＢ１２のレコードは、「兵十」という表層表現を、それが名詞または未知語と判定されており、修正対象の文書データが物語文である場合に、「ヒ’ョージュー」といった読み・アクセントが修正候補になることを示す。なお「ヒ’ョージュー」は中間言語であり、「’」はアクセントの場所を示す。中間言語は、文書データに含まれる語句の発音の仕方などを表すために音訳作業支援装置で使用される言語である。また「兵十」という表層表現の出典は文書情報「ｄｏｃＩＤ：０００２３０」により特定されることを示す。

またＩＤが３の例では、条件１の表層表現に「マシマロ」、条件２及び３にアスタリスク（＊）、適用ルールに「マシュマロ」が設定されている。これは任意の品詞・文書ジャンルで「マシマロ」の修正候補を「マシュマロ」にしてよいことを示す。ＩＤが４の例では、条件１の表層表現「えー、なんだってー」に「？」は存在しないが、その読み上げの修正候補（適用ルール）は、「エー：ナ’ンダッテー？」であり、語尾上げ記号（？）を含む。ＩＤが４の適用ルール「エー：ナ’ンダッテー？」は、表層表現「えー、なんだってー」が「エー」と「ナ’ンダッテー？」とに分離されることを示す。「ナ’ンダッテー？」は、アクセントを「ナ」に置き、語尾を上げて発音することを示す。

なお修正履歴ＤＢ１２では一の表層表現に、複数の適用ルールを対応させてもよい。一の表層表現に複数の適用ルールを対応させる方法は、例えば条件２及び条件３を変更することにより、複数の適用ルールのうち条件に応じて一の適用ルールを一の表層表現に対応させてもよい。また条件２及び条件３を同一にして複数の適用ルールを対応させてもよい。この場合は、音訳作業支援装置１００が一の修正箇所に対して複数の修正候補を作業者に提示することになる。

図１に戻り、推定部３は、文書データに含まれる語句の修正箇所及び修正候補を示す情報、並びに当該修正箇所に含まれる語句の統計情報を構築部４に送信する。構築部４は、修正候補に応じた修正の種類毎の作業項目と、作業項目の進捗情報とを含む作業リスト情報を構築する。構築部４は作業リスト情報を作業リスト情報ＤＢ１３に記憶する。ここで作業リスト情報ＤＢについて説明する。

図３は実施形態の作業リスト情報ＤＢの例を示す図である。本実施形態の作業リスト情報ＤＢは、ＩＤ、作業項目名、スコア及び制約条件の各フィールドを有する。作業リスト情報ＤＢは、作業項目と当該作業項目の属性（スコア及び制約条件）とを記憶するＤＢである。ＩＤは作業リスト情報ＤＢのレコードを識別する識別情報である。ＩＤは例えば通し番号である。作業項目名は作業項目の名称である。図３の例では作業項目の種類は８種類ある。図３の例では作業項目は「アクセント誤り」、「読み誤り」、「アクセント区切り」、「よく出るキーワード」、「大見出し」、「引用」、「書誌情報・脚注」及び「ルビ」である。構築部４は、語句の修正箇所を一の作業として、修正候補に基づいて一又は複数の作業項目に振り分ける。なお複数の作業項目に振り分ける場合は、例えば一の修正箇所が「アクセント誤り」と「読み誤り」とに該当する場合などである。ここで各作業項目の作業内容について説明する。

「アクセント誤り」は、単語や句などの語句のアクセントの誤りを修正する作業である。具体的には後述の表示部５が、アクセントが誤っている可能性がある語句のアクセントの修正候補を作業者に表示する。作業者は表示された修正候補を参照しながらアクセントの誤りを修正する。なお当該語句のアクセントの修正候補は、推定部３が過去の修正履歴や文書中の語句の統計情報から推定する。なお語句の統計情報は、例えばアクセントの位置が複数推定されるときに、多数決により一のアクセントの位置を推定する場合に利用する。アクセントが誤っている可能性のある語句の例は、「おはようございまーす。」や「そうですよねー。」などである。

「読み誤り」は、単語や句などの語句の読み方の誤りを修正する作業である。具体的には後述の表示部５が、読み方が誤っている可能性がある語句の読み方の修正候補を作業者に表示する。作業者は表示された修正候補を参照しながら読み方の誤りを修正する。なお当該語句の読み方の修正候補は、「アクセント誤り」の場合と同様に、推定部３が過去の修正履歴や文書中の語句の統計情報から推定する。読みが誤っている可能性またはゆらぎがあるためにユーザが明示的に指定する必要がある語句の例は、「市場」に対して「いちば」とするか「しじょう」とするかなどである。

「アクセント区切り」は、単語や句などの語句のアクセントの区切りの誤りを修正する作業である。具体的には後述の表示部５が、アクセントの区切りが誤っている可能性がある語句のアクセントの区切りの修正候補を作業者に表示する。作業者は表示された修正候補を参照しながらアクセントの区切りの誤りを修正する。なお当該語句の読み方の修正候補は、「アクセント誤り」の場合と同様に、推定部３が過去の修正履歴や文書中の語句の統計情報から推定する。アクセントの区切りが誤っている可能性がある語句の例は、「小学校へはいったのは」に対して「小学校へ／はいったのはと」とするか「小学校へは／いったのは」とするかなどである。

「よく出るキーワード」は、重要な語句の読み方やアクセントを確認する作業である。具体的には後述の表示部５が、重要な語句の読み方やアクセントを作業者に表示し、作業者に確認を促す。なお重要な語句は、推定部３が、修正対象の文書データ、又は過去に取り扱った文書データにおける出願頻度が高い語句を重要な語句であると推定する。

「大見出し」は、文書データの文章のうち、「第一章」や「１．…」などで始まる行の読み方やアクセントを確認する作業である。具体的には後述の表示部５が、「第一章」や「１．…」などで始まる行の読み方やアクセントを作業者に表示し、作業者に確認を促す。なお「第一章」や「１．…」などで始まる行は、推定部３が、前述の音訳補助情報に含まれる論理要素情報から推定する。

「引用」は、文書データの文章のうち、引用文に含まれる語句の読み方やアクセントを確認する作業である。具体的には後述の表示部５が、引用文に含まれる語句の読み方やアクセントを作業者に表示し、作業者に確認を促す。なお引用文に含まれる語句は、推定部３が、前述の音訳補助情報に含まれる論理要素情報から推定する。推定部３は例えば論理用要素情報により文章のインデントの深さを特定し、インデントの深さにより文章が引用文であることを推定する。

「書誌情報・脚注」は、文書データの文章のうち、書誌情報・脚注に含まれる語句の読み方やアクセントを確認する作業である。具体的には後述の表示部５が、書誌情報・脚注に含まれる語句の読み方やアクセントを作業者に表示し、作業者に確認を促す。なお書誌情報・脚注に含まれる語句は、推定部３が、前述の音訳補助情報に含まれる論理要素情報から推定する。書誌情報・脚注の例は、用語の解説などが記載されている脚注情報的なパラグラフや、冒頭・作品末に記載のある書誌情報（何年何月発行や○○ボランティアグループ編纂）の対象行などである。

「ルビ」は文書データの文章のうち、ルビタグ（＜ｒｕｂｙ＞）が付与されている単語、未知語又は句などの語句の読み方やアクセントを確認する作業である。具体的には後述の表示部５が、ルビタグ（＜ｒｕｂｙ＞）が付与されている語句の読み方やアクセントを作業者に表示し、作業者に確認を促す。なおルビタグ（＜ｒｕｂｙ＞）が付与されている語句は、推定部３が、音訳補助情報に含まれる前述の論理要素情報から推定する。

以上が図３の作業リスト情報ＤＢ１３の各作業項目の作業内容の説明である。図３の作業リスト情報ＤＢの各フィールドの説明に戻る。スコアは、作業項目毎の作業の効果を表す。図３の例ではスコアの数値が高い程、その作業を完了したときの文書データを使用した音声合成の品質を向上させる効果が高いことを示す。スコアは、構築部４が例えば下記式（１）により見積もる。

ｓｃｏｒｅ（Ｄ，Ｉ）
＝Σ（ＷＩｉ＊ｆ（Ｉｉ，Ｄ）＋Ｗｈｉ＊Ｐｈ（Ｉｉ，Ｄ））・・・（１）

上記式（１）の記号について説明する。Ｄは文書データを表す。Ｉは作業項目を表す。すなわちｓｃｏｒｅ（Ｄ，Ｉ）は特定の文書における特定の作業項目のスコアを表す。ＷＩｉは作業項目Ｉの重みを表す。Ｉｉは作業項目Ｉに含まれるｉ番目の要素（修正対象の語句）を表す。ｆ（ｌｉ，Ｄ）は文書データＤ中に出現した要素ｉの出現回数を表す。Ｗｈｉは修正履歴各項目の重みを表す。Ｐｈ（Ｉｉ，Ｄ）は修正履歴におけるＩｉの出現回数を表す。

図３に戻り、制約条件は、複数の作業項目がある場合の作業順序の制約を示す。例えばＩＤが１の「アクセント誤り」の作業項目には、制約条件として、「引用＞」及び「読み誤り＞」が指定されている。これは、「アクセント誤り」の作業をする前に、「引用」及び「読み誤り」の作業をしておくことが望ましいことを示す。なお制約条件は音訳作業支援装置１００で予め定義しておく。

図４は実施形態の作業項目間の制約条件の例を示す図である。例えば「引用」は「アクセント区切り」よりも先に行うことが望ましいことを示す。なお制約条件は作業者などが随時変更できるようにしてもよい。また制約条件のパターンを複数用意しておき、作品ジャンルなどに応じて一の制約条件のパターンを選択できるようにしてもよい。

図１に戻り、表示部５は音訳作業を行うための操作画面を表示する。受付部６は文書データ又は音訳補助情報の修正に係る操作入力を作業者から受け付ける。受付部６は、例えばマウスやキーボードなどにより作業者から操作入力を受け付ける。受付部６は操作入力に応じた入力情報を修正部７に送信する。修正部７は入力情報に応じてコンテンツデータＤＢ１１の文書データ又は音訳補助情報を修正する。更新部８は修正部７の修正に応じて修正履歴ＤＢ１２及び作業リスト情報ＤＢ１３を更新する。更新部８は更新された作業リスト情報を表示部５に送信する。表示部５は作業リスト情報を表示する。

次に、図６〜図１１を参照して構築部４、表示部５、受付部６、修正部７及び更新部８の動作について詳細に説明する。図５は実施形態の音訳作業支援装置１００の基本画面の例を示す図である。まず表示部５は図５の例のように修正対象の文書データの文章を表示する。作業者は、図５の基本画面を介して、各文の読みやアクセント誤りを修正したり、文を読み上げる合成音声の話者などを選択及び指定したりしながら、所望の音声コンテンツデータを作成する。受付部６が図５中の「作業リストの表示」の選択を示す操作入力を作業者から受け付けると、表示部５は修正対象の文書データの作業リスト情報を表示する。

図６及び図７は実施形態の作業リスト情報の表示例を示す図である。図６の作業リスト情報の表示例は、８種類の作業項目と、各作業項目における修正箇所の総数と、各作業項目における作業の進捗情報（既に修正した修正箇所の数）と、現在の作品クオリティレベルとを有する。例えば作業項目「引用」の修正箇所の総数は４であり、そのうち１箇所が既に修正済みであることを示す。現在の作品クオリティレベルは、現在の修正状況における文書データ及び音訳補助情報を使用して音声合成を行った場合の音声コンテンツの品質を示す。ここで作品クオリティレベルと各作業項目のスコアとの関係について説明する。

作品クオリティレベルの判定は、構築部４が作業リスト情報に含まれる全ての作業項目のスコアの合計と、現在の進捗情報とに基づいて行う。例えば図３の作業リスト情報の場合、全ての作業項目のスコアの合計は５０＋３８＋３３＋４０＋１７＋２０＋２５＋１０＝２３３である。そして、例えば作品クオリティレベルを高い順にランクＡ，ランクＢ，ランクＣ，ランクＤと定義する。また、例えばスコアの合計の６０％分に相当する修正作業を行った場合、作品クオリティレベルをランクＣに定義する。図３の作業リスト情報の場合、スコアの合計の６０％は２３３＊０．６＝１３９．８である。

図７は作品クオリティレベルをランクＣにする場合に、効率良くスコアが上がりやすい作業項目をハイライトして明示する例である。図７の例では、構築部４は作業リスト情報の作業項目のうち、「引用」、「アクセント誤り」、「読み誤り」、「大見出し」及び「引用」をハイライトして明示することを決定する。ここで構築部４がハイライトする作業項目を決定する動作について説明する。

まず構築部４はスコアの高い順に作業項目を順序付ける。図３の作業リスト情報の例では、「アクセント誤り（５０）」＞「よく出るキーワード（４０）」＞「読み誤り（３８）」＞「アクセント区切り（３３）」＞「書誌情報・脚注（２５）」＞「引用（２０）」＞「大見出し（１７）」＞「ルビ（１０）」となる。

次に構築部４は作業項目間の制約条件を考慮して作業項目の順序を変更する。例えば、最もスコアの高い「アクセント誤り（５０）」を行うためには、先に「引用（２０）」及び「読み誤り（３８）」を行う必要がある。そのため構築部４は、例えば作業項目の順序を「引用（２０）」＞「読み誤り（３８）」＞「アクセント誤り（５０）」＞「よく出るキーワード（４０）」＞「アクセント区切り（３３）」＞「書誌情報・脚注（２５）」＞「大見出し（１７）」＞「ルビ（１０）」に変更する。「引用（２０）」、「読み誤り（３８）」及び「アクセント誤り（５０）」を行った場合のスコアの合計は１０８である。まだスコアの合計の６０％は１３９．８に到達しないため、構築部４は更に作業項目の順序を入れ換える。

例えば、スコアが２番目に高い「よく出るキーワード（４０）」を行うためには、先に「大見出し（１７）」及び「書誌情報・脚注（２５）」を行う必要がある。そのため構築部４は、例えば作業項目の順序を「引用（２０）」＞「読み誤り（３８）」＞「アクセント誤り（５０）」＞「大見出し（１７）」＞「書誌情報・脚注（２５）」＞「よく出るキーワード（４０）」＞「アクセント区切り（３３）」＞「ルビ（１０）」に更に変更する。「引用（２０）」、「読み誤り（３８）」、「アクセント誤り（５０）」、「大見出し（１７）」及び「書誌情報・脚注（２５）」を行った場合のスコアの合計は１５０である。これによりスコアの合計の６０％は１３９．８に到達するため、構築部４は「引用（２０）」、「読み誤り（３８）」、「アクセント誤り（５０）」、「大見出し（１７）」及び「書誌情報・脚注（２５）」をハイライトして明示する作業項目に決定する。

なお構築部４は、所望の作品クオリティレベルを達成するために必要な作業項目の組み合わせとして、一の組み合わせだけでなく、いくつかの組み合わせを提示できるようにしてもよい。

図８は実施形態の修正箇所の数と作品クオリティレベルとの関係を示す図である。横軸は修正箇所の数を表す。縦軸は作品クオリティレベル（スコア）を表す。グラフは、例えば「引用（２０）」＞「読み誤り（３８）」＞「アクセント誤り（５０）」＞「大見出し（１７）」＞「書誌情報・脚注（２５）」＞「よく出るキーワード（４０）」＞「アクセント区切り（３３）」＞「ルビ（１０）」の順序で作業項目を実施した場合のスコアの上昇の仕方を表す。

次に、受付部６が、作業リスト情報から一の作業項目を選択する操作入力を、作業者から受け付けた場合について説明する。ここでは「アクセント誤り」及び「大見出し」の場合を例にして説明する。

図９は実施形態の作業項目（アクセント誤り）の表示例を示す図である。図９の例では、出現行、表現、行頭からの文字位置及び作業フラグを表示する。出現行は修正対象の語句を含む文章の行を示す。表現は修正対象の語句を示す。行頭からの文字位置は、修正対象の語句の先頭の文字が行頭から何文字目にあるかを示す。作業フラグは修正対象の語句を修正したか否かを示す。図９の例では、例えば修正箇所として表現「兵十」が、文書データに含まれる文章の３３行目の行頭（行頭から０文字目）にあり、まだ修正が行われていないことを示す。

図１０は実施形態の作業項目（大見出し）の表示例を示す図である。図１０の例では、出現行、表現及び作業フラグを表示する。出現行は修正対象の語句を含む文章の行を示す。表現は修正対象の語句を示す。作業フラグは修正対象の語句を修正したか否かを示す。図１０の例では、例えば修正箇所として表現「１．はじめに」が、文書データに含まれる文章の１行目にあり、まだ修正が行われていないことを示す。

なお表示部５は図９（図１０）の出現行や表現をハイパーリンクとし、当該ハイパーリンクを選択することにより、文書データの当該箇所を表示するようにしてもよい。また表示部５は、作業者が一の作業項目の修正中に、図５のように文書データの文書を表示するときに、図９（図１０）の出現行により文書データの文書の行をフィルタリングして表示してもよい。

図１１は実際に修正候補を参照しながら修正箇所を修正するときに表示する修正用のＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）の例である。図１１は作業項目が「引用」である場合の修正用のＧＵＩである。図１１上部の文章は、音訳作業支援装置１００に入力された文書データの文書を表す。図１１の例では、文章中の引用部分が
ハイライトされている。当該引用部分は解析部１が言語解析時にインデントの深さなどから特定する。なお当該引用部分は修正時にユーザが特定して選択してもよい。

図１１のカスケードメニュー方式は、例えば当該引用部分の領域でマウスを右クリックすることにより動的にコンテキストメニューを表示する方式である。図１１の例では、作業者が「引用文」を選択し、その修正候補として「引用読み（標準）」を選択する操作入力をした場合の例である。

修正部７は当該操作入力を示す入力情報を受付部６から受信すると、まず修正部７は当該引用部分の前後に「以下引用」及び「引用終わり」の文言（読み上げ音声）を挿入する。なお修正部７は文書データの文章に「以下引用」及び「引用終わり」の文言を追加してもよいし、文書データの文章はそのままにしておき、音訳補助情報の当該引用部分に、「以下引用」及び「引用終わり」を読み上げ音声として追加してもよい。次に修正部７は音訳補助情報の当該引用部分の読み上げ速度及びピッチを「引用読み（標準）」に修正する。

修正部７は、これらの指定を、例えば音声合成に使用する音声合成エンジンが受理可能な制御用タグとして実現する。当該制御タグは、例えば＜ｐｒｏｓｏｄｙｐｉｔｃｈ＝“＋２”＞（引用文）＜／ｐｒｏｓｏｄｙ＞などの形式である。修正部７は、当該制御タグをコンテンツデータＤＢ１１の文書データ、又は音訳補助情報（メタデータ）に記憶する。これにより、当該引用部分を音声合成エンジンが音声合成したときに、「以下引用」及び「引用終わり」が読み上げ音声として追加され、当該引用部分の読み上げ速度及びピッチが「引用読み（標準）」で行われる。

なお表示部５は図１１のカスケードメニュー方式において、作業リスト情報における当該引用部分の修正候補を示す情報に基づいて、「引用文」及び「引用読み（標準）」をデフォルトでハイライトして表示してもよい。これにより作業者は修正候補を参考にしながら文書データ又は音訳補助情報を修正することができる。なお作業者は必ずしも修正候補としてハイライトされた「引用読み（標準）」を選択する必要はない。例えば受付部６が作業者から「引用読み（ｐｉｔｃｈ↑）」を選択する操作入力を受け付けると、修正部７が当該引用部分の前後に「以下引用」及び「引用終わり」を挿入するとともに、音訳補助情報の当該引用部分の読み上げピッチの設定を上げる修正をする。

図１１のメニューアイコン方式は、修正ＧＵＩのウインドウ上部に、固定的にナビゲーションメニューとしてアイコンの列を表示する方式である。このようなメニューアイコン方式により作業者から修正の指示を受け付けてもよい。

次にフローチャートを参照して実施形態の音訳作業支援方法について説明する。図１２は実施形態の解析部１の処理の例を示すフローチャートである。解析部１は文書データを読み込む（ステップＳ１）。次に、解析部１は文書データに含まれる文書の形態素解析を行う（ステップＳ２）。次に、解析部１は文書データに含まれる語句の統計情報としてＴＦ／ＩＤＦを算出する（ステップＳ３）。次に、解析部１は文書データに含まれる語句の統計情報としてＣ−Ｖａｌｕｅを算出する（ステップＳ４）。次に、解析部１は文書データに含まれる文書のレイアウトを示す論理要素を検出する（ステップＳ５）。解析部１は、言語解析の結果（形態素解析の結果、及び論理要素の検出結果）を示す情報から音訳補助情報を作成する。次に、解析部１は音訳補助情報に統計情報（ＴＦ／ＩＤＦ及びＣ−Ｖａｌｕｅ）を加えて、メタデータとして文書データに関連付けてコンテンツデータＤＢ１１に記憶する（ステップＳ６）。

図１３は実施形態の音訳作業支援装置１００における語句の音訳の仕方の修正処理の例を示すフローチャートである。まず、推定部３はメタデータに含まれる音訳補助情報に基づいて、文書データに含まれる文章を特定の単語や句などの語句に区切る。そして推定部３は当該語句を検索キーにして修正履歴ＤＢ１２を検索し、音訳補助情報の修正箇所（修正対象の語句）及び修正候補を推定する（ステップＳ１１）。次に、構築部４は、修正候補に応じた修正の種類毎の作業項目と、作業項目の進捗情報とを含む作業リスト情報を構築する（ステップＳ１２）。次に、表示部５は作業リスト情報を表示する（ステップＳ１３）。次に、受付部６は修正の指示入力を作業者から受け付けたか否かを判定する（ステップＳ１４）。修正の指示入力を作業者から受け付けなかった場合（ステップＳ１４、Ｎｏ）、処理を終了する。

修正の指示入力を作業者から受け付けた場合（ステップＳ１４、Ｙｅｓ）、受付部６は修正の指示入力に基づく入力情報を修正部７に送信する。修正部７は、入力情報に応じて文書データ又は音訳補助情報を修正する（ステップＳ１５）。次に、更新部８は修正部７の修正に応じて修正履歴ＤＢ１２を更新する（ステップＳ１６）。次に、処理がステップＳ１２に戻り、更新部８は修正部７の修正に応じて作業リスト情報ＤＢ１３を更新する。

音訳作業支援装置１００は上述のステップＳ１２〜ステップＳ１６の処理を繰り返すことにより、作業者の音訳作業を支援する。

以上のように実施形態の音訳作業支援装置１００は、推定部３が、文書データ又は音訳補助情報の修正箇所と修正候補とを修正履歴から推定し、構築部４が、修正候補に応じた修正の種類毎の作業項目と作業項目の進捗情報とを含む作業リスト情報を構築する。これにより作業者は音声コンテンツを実際に聞く前に、作業リスト情報から修正箇所と修正候補とを事前に把握することができるので音訳作業を効率的に行うことができる。

最後に実施形態の音訳作業支援装置１００のハードウェア構成について説明する。図１４は実施形態の音訳作業支援装置１００のハードウェア構成の例を示す図である。

本実施形態の音訳作業支援装置１００は、制御装置２１、主記憶装置２２、補助記憶装置２３、表示装置２４、入力装置２５及び通信装置２６を備える。制御装置２１、主記憶装置２２、補助記憶装置２３、表示装置２４、入力装置２５及び通信装置２６は、バス２７を介して互いに接続されている。

制御装置２１は、補助記憶装置２３から主記憶装置２２に読み出されたプログラムを実行する。主記憶装置２２は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）やＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等のメモリである。補助記憶装置２３は、例えばハードディスクやメモリカード等である。表示装置２４は、音訳作業支援装置１００の状態等を表示する画面である。表示装置２４は、例えば液晶ディスプレイ等である。入力装置２５は、音訳作業支援装置１００を操作するためのインタフェースである。入力装置２５は、例えばキーボードやマウス等である。通信装置２６は、ネットワークに接続するためのインタフェースである。

本実施形態の音訳作業支援装置１００で実行されるプログラムを、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、メモリカード、ＣＤ−Ｒ及びＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録し、コンピュータ・プログラム・プロダクトとして提供してもよい。また、本実施形態の音訳作業支援装置１００で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供してもよい。また、本実施形態の音訳作業支援装置１００で実行されるプログラムをダウンロードさせずに、インターネット等のネットワーク経由で提供、又は配布してもよい。また、本実施形態の音訳作業支援装置１００のプログラムを、ＲＯＭ等に予め組み込んで提供してもよい。

本実施形態の音訳作業支援装置１００で実行されるプログラムは、上述した音訳作業支援装置１００の各機能ブロックのうち、プログラムとしても実現可能な機能ブロック（解析部１、推定部３、構築部４、修正部７及び更新部８）を含むモジュール構成となっている。

当該モジュールは、実際のハードウェアとしては、制御装置２１が上記記憶媒体からプログラムを読み出して実行することにより、上記各モジュールが主記憶装置２２上にロードされる。すなわち、上記各モジュールは、主記憶装置２２上に生成される。なお、音訳作業支援装置１００の各機能ブロックの一部、又は全部を、プログラムにより実現せずに、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等のハードウェアにより実現してもよい。

なお記憶部２は上述した主記憶装置２２及び補助記憶装置２３により実現される。また表示部５は上述した表示装置２４により実現される。また受付部６は上述した入力装置２５により実現される。

本発明の実施形態を説明したが、本実施形態は、例として表示したものであり、発明の範囲を限定することは意図していない。本新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims

文書データを言語解析し、前記文書データに含まれる語句の音訳の仕方を表す音訳補助情報を作成する解析部と、
語句の過去に修正された音訳の仕方を表す修正履歴を記憶する記憶部と、
前記文書データ又は前記音訳補助情報の修正箇所と修正候補とを、前記修正履歴から推定する推定部と、
前記修正候補に応じた修正の種類毎の作業項目と、前記作業項目の進捗情報とを含む作業リスト情報を構築する構築部と、
修正の指示を受け付けて前記文書データ又は前記音訳補助情報を修正する修正部と、
前記修正部の修正に応じて前記修正履歴と前記作業リスト情報の前記進捗情報とを更新する更新部と、を備え、
前記音訳補助情報は、
語句の出現頻度を表す統計情報、並びに前記文書データに含まれる語句のレイアウトを表す論理要素情報を含む、
音訳作業支援装置。
作業者に前記作業リスト情報を表示する表示部と、
前記作業者による前記修正の指示を受け付ける受付部と、
を更に備える請求項１に記載の音訳作業支援装置。
前記作業リスト情報は、
前記文書データと前記音訳補助情報とを使用して音声合成した場合に作成される音声コンテンツの品質情報を更に含み、
前記更新部は、
前記文書データ又は前記音訳補助情報の更新結果に応じて前記作業リスト情報の前記品質情報を更に更新する
請求項１又は２に記載の音訳作業支援装置。
前記統計情報は、
地名、人名、又は数量表現を表す固有表現、辞書に定義されていない未知語又は句の統計情報を含む
請求項１に記載の音訳作業支援装置。
前記構築部は、
前記修正箇所に該当する語句の前記統計情報と、前記修正候補に応じた修正の種類とから前記作業項目のスコアを算出し、前記スコアに基づいて前記作業項目の表示方法を変更する
請求項１又は４に記載の音訳作業支援装置。
前記構築部は、
前記スコアが高い順に所定の数の前記作業項目の表示をハイライトする
請求項５に記載の音訳作業支援装置。
前記推定部は、
前記論理要素情報に更に基づいて前記修正箇所と修正候補とを推定する
請求項１に記載の音訳作業支援装置。
音訳作業支援装置が、文書データを言語解析し、前記文書データに含まれる語句の音訳の仕方を表す音訳補助情報を作成するステップと、
音訳作業支援装置が、語句の過去に修正された音訳の仕方を表す修正履歴を参照するステップと、
音訳作業支援装置が、前記文書データ又は前記音訳補助情報の修正箇所と修正候補とを、前記修正履歴から推定するステップと、
音訳作業支援装置が、前記修正候補に応じた修正の種類毎の作業項目と、前記作業項目の進捗情報とを含む作業リスト情報を構築するステップと、
音訳作業支援装置が、修正の指示を受け付けて前記文書データ又は前記音訳補助情報を修正するステップと、
音訳作業支援装置が、前記修正するステップの修正に応じて前記修正履歴と前記作業リスト情報の前記進捗情報とを更新するステップと、を含み、
前記音訳補助情報は、
語句の出現頻度を表す統計情報、並びに前記文書データに含まれる語句のレイアウトを表す論理要素情報を含む、
音訳作業支援方法。
語句の過去に修正された音訳の仕方を表す修正履歴を記憶する記憶部を備えるコンピュータを、
文書データを言語解析し、前記文書データに含まれる語句の音訳の仕方を表す音訳補助情報を作成する解析部と、
前記文書データ又は前記音訳補助情報の修正箇所と修正候補とを、前記修正履歴から推定する推定部と、
前記修正候補に応じた修正の種類毎の作業項目と、前記作業項目の進捗情報とを含む作業リスト情報を構築する構築部と、
修正の指示を受け付けて前記文書データ又は前記音訳補助情報を修正する修正部と、
前記修正部の修正に応じて前記修正履歴と前記作業リスト情報の前記進捗情報とを更新する更新部、として機能させ、
前記音訳補助情報は、
語句の出現頻度を表す統計情報、並びに前記文書データに含まれる語句のレイアウトを表す論理要素情報を含む、
プログラム。