JP6523998B2

JP6523998B2 - 読み上げ情報編集装置、読み上げ情報編集方法およびプログラム

Info

Publication number: JP6523998B2
Application number: JP2016050089A
Authority: JP
Inventors: 布目　光生; 光生布目; 眞弘森田; 平芦川
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2016-03-14
Filing date: 2016-03-14
Publication date: 2019-06-05
Anticipated expiration: 2036-03-14
Also published as: JP2017167219A; US10255904B2; US20170263238A1

Description

本発明の実施形態は、読み上げ情報編集装置、読み上げ情報編集方法およびプログラムに関する。

近年、音声合成技術は、音質および話者性の向上に伴い、公共施設および公共交通機関でのナレーションをはじめ、エンターテインメントまたはシステムとの対話におけるインターフェース等、多くの場で利用されるようになっている。さらに、電子書籍等のテキストの読み上げ音声を自動化するなどの試みも行われてきている。

一般に、各種文書には、新語、未知語および固有名詞等の独特の言い回し、表現および表記等がある。音声合成技術で、そうした任意の自然文（漢字仮名混じり文）の読みおよびアクセントを、自動で常に正しく推定して音声として出力することは困難である。そのため、システムが読みおよびアクセントの指定を自動で行えない部分を、人手で修正する手法がよく用いられる。すなわち、音声合成機能による読み誤りおよびアクセント誤りが生じる個所に、人手で正しい読みおよびアクセントを指定しておくものである。

このような、音声合成機能を支援する技術として、文書内に出現する語の統計量、および合成音の音声認識結果テキスト等から、修正対象となる部分を順序付けてユーザへ提示させることにより、短時間かつ効率的に読み上げ音声を編集する技術が提案されている。しかしながら、読み上げ音声の編集の過程で、レビュー結果に沿って頻繁に修正したり、微調整する必要があっても、読み上げ音声の修正に伴う文書全体に対する影響範囲が認識できないため、修正作業の後戻りまたは見落としが発生する可能性があるという問題がある。

特開２０１４−２４０８８４号公報

本発明は、上記に鑑みてなされたものであって、テキストの音声合成についての編集に伴う文書内の影響範囲を特定することができる読み上げ情報編集装置、読み上げ情報編集方法およびプログラムを提供することを目的とする。

実施形態の読み上げ情報編集装置は、取得部と、解析部と、第１生成部と、第２生成部と、抽出部と、を備える。取得部は、文書から読み上げ情報が付加されたテキストを含む編集領域を取得する。解析部は、編集領域の文書構造を解析する。第１生成部は、文書構造に基づいて、編集領域を抽象化して１以上の条件パターンを生成する。第２生成部は、条件パターンのうち少なくとも１つを含み、文書からテキストを抽出するための抽出条件となる抽出条件を生成する。抽出部は、文書から、抽出条件に適合するテキストを抽出する。

読み上げ情報編集装置のハードウェア構成を示す図である。読み上げ情報編集装置の機能ブロックの構成を示す図である。入力文書の一例を示す図である。テキストに対するメタデータの編集作業の一例を示す図である。テキストに対する形態素解析の結果の一例を示す図である。条件パターンの生成処理の一例を示すフローチャートである。抽象度に応じて生成された条件パターンの一例を示す図である。特定の条件パターンに適合するテキストの抽出結果の一例を示す図である。抽出されたテキストについての差分を提示する例を示す図である。抽出されたテキストについての差分を提示する別の例を示す図である。読み上げ情報編集装置の全体動作を示すフローチャートである。

以下に、図面を参照しながら、本発明の実施形態に係る読み上げ情報編集装置、読み上げ情報編集方法およびプログラムを詳細に説明する。ただし、図面は模式的なものであるため、具体的な構成は以下の説明を参酌して判断すべきものである。

図１は、実施形態に係る読み上げ情報編集装置のハードウェア構成の一例を示す図である。図１を参照しながら、実施形態に係る読み上げ情報編集装置１のハードウェア構成について説明する。

図１に示すように、読み上げ情報編集装置１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０３と、補助記憶装置２０４と、表示装置２０５と、ネットワークＩ／Ｆ２０６と、操作装置２０７と、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）ドライブ２０８と、スピーカ２１０（音声出力装置）と、を備えている。読み上げ情報編集装置１は、例えば、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）等の情報処理装置でもよく、テキストの音声合成に特化した専用装置であってもよい。

ＣＰＵ２０１は、読み上げ情報編集装置１全体の動作を制御する装置である。ＲＯＭ２０２は、ＣＰＵ２０１が各機能を制御するために実行するＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ）またはファームウェア等のプログラムを記憶する不揮発性記憶装置である。ＲＡＭ２０３は、ＣＰＵ２０１のワークエリアとして使用される揮発性記憶装置である。

補助記憶装置２０４は、各種データおよびプログラム等を記憶する不揮発性の記憶装置である。補助記憶装置２０４は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）またはＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等である。

表示装置２０５は、ＣＰＵ２０１により実行されているアプリケーションの画面等を表示する装置である。表示装置２０５は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）ディスプレイ、液晶ディスプレイ、または有機ＥＬ（Ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ等である。

ネットワークＩ／Ｆ２０６は、外部のネットワークに接続し、サーバ装置等の外部機器と通信する装置である。ネットワークＩ／Ｆ２０６は、例えば、ＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）等の通信装置である。ネットワークＩ／Ｆ２０６の通信プロトコルとして、例えば、ＴＣＰ（ＴｒａｎｓｍｉｓｓｉｏｎＣｏｎｔｒｏｌＰｒｏｔｏｃｏｌ）／ＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）またはＵＤＰ（ＵｓｅｒＤａｔａｇｒａｍＰｒｏｔｏｃｏｌ）／ＩＰ等を適用できる。

操作装置２０７は、ユーザによってＣＰＵ１１に対して所定の処理を実行させるための操作入力を行う装置である。操作入力とは、例えば、文字および数字等の入力、各種指示の選択操作の入力、およびカーソルの移動操作の入力等である。操作装置２０７は、例えば、マウス、キーボード、テンキー、タッチパッド、またはタッチパネル等の入力装置である。

ＤＶＤドライブ２０８は、着脱自在な記憶媒体であるＤＶＤ２０９に対するデータの読み出しまたは書き込み等の動作を制御する装置である。なお、上述の着脱可能な記録媒体の他の例として、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＣＤ−Ｒ（ＣｏｍｐａｃｔＤｉｓｃＲｅｃｏｒｄａｂｌｅ）、ＤＶＤ−ＲＯＭ、ＤＶＤ―Ｒ（ＤＶＤＲｅｃｏｒｄａｂｌｅ）またはブルーレイディスク等のコンピュータで読み出しまたは書き込み可能な記録媒体であってもよい。

スピーカ２１０は、ＣＰＵ２０１の制御に従って、音声を出力する装置である。

上述のＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０３、補助記憶装置２０４、表示装置２０５、ネットワークＩ／Ｆ２０６、操作装置２０７、ＤＶＤドライブ２０８、およびスピーカ２１０は、アドレスバスおよびデータバス等のバス２１１によって互いに通信可能に接続されている。

なお、読み上げ情報編集装置１のハードウェア構成は一例であり、図１に示す構成に限定されるものではない。例えば、ＤＶＤドライブ２０８以外に、フラッシュメモリ等の読み書きの制御を行うメディアドライブ等を備えていてもよい。

図２は、実施形態に係る読み上げ情報編集装置の機能ブロックの構成の一例を示す図である。図３は、入力文書の一例を示す図である。図４は、テキストに対するメタデータの編集作業の一例を示す図である。図５は、テキストに対する形態素解析の結果の一例を示す図である。図６は、実施形態に係る読み上げ情報編集装置による条件パターンの生成処理の一例を示すフローチャートである。図７は、抽象度に応じて生成された条件パターンの一例を示す図である。図８は、特定の条件パターンに適合するテキストの抽出結果の一例を示す図である。図９は、条件パターンの組み合わせにより抽出されたテキストについての差分を提示する例を示す図である。図１０は、条件パターンの組み合わせにより抽出されたテキストについての差分を提示する別の例を示す図である。図２〜１０を参照しながら、本実施形態に係る読み上げ情報編集装置１の機能ブロックの構成および動作について説明する。

図２に示すように、本実施形態に係る読み上げ情報編集装置１は、編集部１０１（第１編集部）と、編集領域取得部１０２（取得部）と、解析部１０３と、パターン生成部１０４（第１生成部）と、パターン選択部１０５（選択部）と、抽出メタルール生成部１０６（第２生成部）と、抽出部１０７と、差分検出部１０８（検出部）と、差分提示部１０９（出力制御部）と、入力部１１０と、記憶部１１１と、表示部１１２と、音声出力部１１３（出力部）と、を備えている。

編集部１０１は、ユーザによる入力部１１０に対する操作入力（以下、単に操作入力と称する場合がある）に基づいて、文書中のテキストに対して、読み上げのアクセント、ポーズおよび速度等の読み上げの装飾情報（以下、メタデータと称する場合がある）（読み上げ情報）を編集する機能部である。

例えば、図３に示す入力文書４０１における「１．空気抵抗の低減」というテキストに対してメタデータを付加（編集）する例について、図４を参照しながら説明する。まず、編集部１０１は、操作入力に基づいて、「１．空気抵抗の低減」というテキストを音声合成を用いて、聞き手によりわかりやすいように読み上げが行われるように、見出し番号の「１．」をデフォルトの速度よりも遅めに読み上げるための「速度−２」というメタデータを付加する。これによって、デフォルトの速度に対して２段階分遅めに読み上げられるという効果が加えられる。

次に、編集部１０１は、操作入力に基づいて、「空気抵抗の低減」というテキストを、聞き手の印象に残るようにやや遅めに読み上げが行われるように「速度−１」というメタデータを付加し、さらに、過度に抑揚をつけずにやや控えめな抑揚で読み上げが行われるように「ピッチ−１」というメタデータを付加する。さらに、編集部１０１は、操作入力に基づいて、「１．」および「空気抵抗の」の直後に短めの間（ショートポーズ）を入れるためのメタデータを付加し、落ちついた印象を与える読み上げが行われるようにする。

以上のような図４に示す編集作業例のように、編集部１０１によって、入力文書４０１のテキストに対するメタデータの編集作業が行われる。また、このようなメタデータは、例えば、ＳＳＭＬ（ＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓＭａｒｋｕｐＬａｎｇｕａｇｅ）等の合成音声を生成するための汎用的なタグ表記として表現されるほか、音声合成エンジンが解釈できるパラメータに変換されて保持される。なお、入力文書４０１は、例えば、入力部１１０を用いてユーザにより作成された文書、記憶部１１１に記憶された文書、または、図１に示すネットワークＩ／Ｆ２０６を介して受信した文書等であればよい。

編集領域取得部１０２は、操作入力に基づいて、入力文書４０１のテキストの中からメタデータが付加された領域のテキスト（編集領域）とメタデータとを含む編集内容を取得する機能部である。ここで、編集内容とは、編集領域およびメタデータの情報自体を含むと共に、入力文書４０１中において編集領域がどの位置にあり、どのようなメタデータが付加されたかについての情報等を含む。

解析部１０３は、編集領域取得部１０２により取得された編集内容に対して解析を行う機能部である。具体的には、解析部１０３は、編集内容に含まれる編集領域に対して形態素解析を行い、例えば、図５に示すような形態素解析の結果である素性情報を得る。図５に示す素性情報である「＜数＞＜記号＞＜名＞＜名＞（の）＜助詞＞＜名＞」は、入力文書４０１の「１．空気抵抗の低減」に対して形態素解析を行った結果である。すなわち、図５に示す素性情報は、「１．空気抵抗の低減」が、数詞、記号、名詞、名詞、「の」という助詞、名詞の順で構成されていることを示す。この素性情報は、後述するように、パターン生成部１０４による編集領域の抽象化のために利用される。

また、解析部１０３は、編集内容の解析によって、編集領域が入力文書４０１においてどの位置にあるか、何文字で構成されているか、箇条書きである場合、何項目であるか、先行する文書の構造、後続する文書の構造、直前のテキストの構造、直後のテキストの構造、および文字装飾等のような編集領域の属性を示す文書情報を取得する。

パターン生成部１０４は、解析部１０３の解析により得られた素性情報を利用して、編集領域を段階的に抽象化した１以上の条件パターンを生成する機能部である。ここで、条件パターンとは、編集領域のテキストがどのような構造で構成しているのかを示す抽象化されたパターンを示し、抽象化の度合い（抽象度）によりそのパターンに適合するテキストが異なってくる。

ここで、図６および７を参照しながら、パターン生成部１０４による条件パターンの生成処理について説明する。また、一部、解析部１０３による解析動作についても言及する。図７に示すように、編集領域から、抽象度が高くなる順にパターン（１）〜（５）の５つの条件パターンが生成される例について説明する。なお、図７では、元の編集領域である「１．空気抵抗の低減」を便宜上、パターン（０）として示している。

＜ステップＳ１１＞
解析部１０３は、編集領域取得部１０２により取得された編集内容に含まれる表層表記である編集領域を読み込む。そして、ステップＳ１２へ移行する。

＜ステップＳ１２＞
解析部１０３は、編集領域に対して形態素解析を行う。例えば、解析部１０３は、編集領域が「１．空気抵抗の低減」であれば、上述の図５に示す形態素解析の結果である素性情報を得る。そして、ステップＳ１３へ移行する。

＜ステップＳ１３＞
パターン生成部１０４は、解析部１０３による形態素解析の結果である素性情報を利用し、「特定の品詞表記への置き換えを行う」という抽象化のルールに基づいて、編集領域を抽象化する。

例えば、パターン生成部１０４は、図７に示す編集領域「１．空気抵抗の低減」のうち、特定の品詞としての名詞を「＜名＞」に置き換える。すなわち、パターン生成部１０４は、「１．空気抵抗の低減」のうち名詞は「空気」、「抵抗」および「低減」なので、これらを「＜名＞」に置き換える。その結果、パターン生成部１０４は、図７に示すように、パターン（１）として「１．＜名＞＜名＞”の”＜名＞」を生成する。パターン（１）では、数詞（番号）、記号、および助詞「の」が原文の表記を維持している。すなわち、パターン（１）は、「＜名＞」の部分が、名詞であればどのようなテキストでも受容するということを示す条件パターンとなる。ここで、上述の各条件パターンを生成するための抽象化のルールを、以下、「パターンルール」と称する場合がある。そして、ステップＳ１４へ移行する。

＜ステップＳ１４＞
パターン生成部１０４は、素性情報を利用して、「数詞を＜数＞に置き換え、記号を＜記号＞に置き換え、かつ、名詞の繰り返しを受容することを示すために名詞の後に『＋』を付記する」というパターンルールに基づいて、パターン（１）をさらに抽象化する。

例えば、パターン生成部１０４は、図７に示すパターン（１）である「１．＜名＞＜名＞”の”＜名＞」のうち、「１」を「＜数＞」に、記号である「．」を「＜記号＞」に置き換え、さらに、名詞の繰り返し表記を受容するための「＋」を「＜名＞」の後に付記する。例えば、パターン（１）のうち「＜名＞＜名＞」のように既に繰り返されている部分についても、「＜名＞＋」のように置き換えることを意味する。その結果、パターン生成部１０４は、図７に示すように、パターン（２）として「＜数＞＜記号＞＜名＞＋”の”＜名＞＋」を生成する。パターン（２）では、助詞「の」のみが原文の表記を維持している。すなわち、パターン（２）は、「＜数＞」の部分が数詞のテキストを受容し、「＜記号＞」の部分が記号を示すテキストを受容し、かつ、「＜名＞＋」の部分が名詞の繰り返し表記を受容することを示す条件パターンとなる。

次に、パターン生成部１０４は、素性情報を利用して、「助詞を＜助詞＞に置き換え、かつ、助詞と名詞との組の繰り返しを受容することを示すために『＜助詞＞＜名＞』の後に『＋』を付記する」というパターンルールに基づいて、パターン（２）をさらに抽象化する。

例えば、パターン生成部１０４は、図７に示すパターン（２）である「＜数＞＜記号＞＜名＞＋”の”＜名＞＋」のうち、「”の”」を「＜助詞＞」に置き換え、さらに、助詞と名詞との組の繰り返しを受容するための「＋」を「＜助詞＞＜名＞」の後に付記する。その結果、パターン生成部１０４は、図７に示すように、パターン（３）として「＜数＞＜記号＞＜名＞＋（＜助詞＞＜名＞）＋」を生成する。すなわち、パターン（３）は、「＜数＞」の部分が数詞のテキストを受容し、「＜記号＞」の部分が記号を示すテキストを受容し、「＜名＞＋」の部分が名詞の繰り返し表記を受容し、かつ、「（＜助詞＞＜名＞）＋」の部分が助詞と名詞との組の繰り返し表記を受容することを示す条件パターンとなる。そして、ステップＳ１５へ移行する。

＜ステップＳ１５＞
パターン生成部１０４は、「＜数＞等の特定表記を＜カウンタ＞に置き換え、かつ、＜記号＞の後にスペースの存在を受容することを示すためにスペースを挿入する」というパターンルールに基づいて、パターン（３）をさらに抽象化する。

例えば、パターン生成部１０４は、図７に示すパターン（３）である「＜数＞＜記号＞＜名＞＋（＜助詞＞＜名＞）＋」のうち、特定表記である＜数＞を、上位化した＜カウンタ＞に置き換え、さらに、＜記号＞の後にスペースの存在を受容することを示すためにスペースを挿入する。その結果、パターン生成部１０４は、図７に示すように、パターン（４）として「＜カウンタ＞＜記号＞＜名＞＋（＜助詞＞＜名＞）＋」を生成する。すなわち、パターン（４）は、「＜カウンタ＞」の部分が、数詞だけでなく、例えば、アルファベット「ａ、ｂ、ｃ、・・・」、「あいうえお」および「アイウエオ」等の順序付き文字列を受容し、スペースの部分が、「＜記号＞」の後にスペースがあることを受容することを示す条件パターンとなる。そして、ステップＳ１６へ移行する。

＜ステップＳ１６＞
パターン生成部１０４は、「上述の特定表記以外の表記である＜名＞を＜＊＞に置き換える」というパターンルールに基づいて、パターン（４）をさらに抽象化する。

例えば、パターン生成部１０４は、図７に示すパターン（４）である「＜カウンタ＞＜記号＞＜名＞＋（＜助詞＞＜名＞）＋」のうち、特定表記以外の表記である＜名＞を＜＊＞に置き換える。その結果、パターン生成部１０４は、図７に示すように、パターン（５）として「＜カウンタ＞＜記号＞＜＊＞＋（＜助詞＞＜＊＞）＋」を生成する。パターン（５）は、例えば、「＜＊＞」の部分が、名詞だけではなく、その他の品詞を受容することを示す条件パターンであるものとすればよい。そして、ステップＳ１７へ移行する。

＜ステップＳ１７＞
パターン生成部１０４は、ステップＳ１６までで生成した条件パターン（図７の例では、パターン（５））で、さらに抽象化できる表記が存在するか確認する。抽象化できる表記が存在する場合（ステップＳ１７：Ｙｅｓ）、ステップＳ１４へ戻り、存在しない場合（ステップＳ１７：Ｎｏ）、条件パターンの生成処理を終了する。

以上の図６に示すフローチャート（特に、ステップＳ１３〜Ｓ１７）のように、パターン生成部１０４による条件パターンの生成処理が行われ、段階的に抽象度の高い条件パターン（図７の例では、５段階の条件パターン）が生成される。このように、段階的に抽象度が高い複数の条件パターンが生成されるので、一般には、各条件パターンに適合するテキストは、条件パターンの抽象度が高くなるほど増えることになる。

なお、パターン生成部１０４により生成される条件パターンとして図７に示した条件パターンは一例であり、その他のパターンルールに基づいて、異なる数の条件パターンが生成されるものとしてもよい。また、パターン生成部１０４により生成される条件パターンは複数であることに限定されるものではなく、１つであってもよい。また、図７に示すような条件パターンを生成するためのパターンルールは一例であり、例えば、入力部１１０を介したユーザによる操作入力によって、パターンルールを編集できるものとしてもよい。例えば、編集領域または条件パターンをどのように抽象化するか、または、何段階に抽象化するか等を編集できるものとしてもよい。この場合、例えば、編集部１０１（第２編集部の一例）が、入力部１１０を介したユーザによる操作入力によって、パターンルールを編集するものとすればよい。

パターン選択部１０５は、操作入力に基づいて、パターン生成部１０４により生成された条件パターンのうち１以上の条件パターンを選択する機能部である。この場合、例えば、パターン生成部１０４は、生成した複数の条件パターンを表示部１１２に表示させ、ユーザは、表示部１１２に表示された条件パターンを確認し、表示された条件パターンのうち１以上の条件パターンを、入力部１１０を介して選択操作する。

なお、パターン選択部１０５は、操作入力に基づいて、選択した条件パターンを適用する範囲として、入力文書４０１における行番号もしくは行範囲を、入力文書４０１全体における前半部分もしくは後半部分、または、入力文書４０１を構成するページ単位での前半部分、後半部分、冒頭部分もしくは末尾部分等を指定可能であるものとしてもよい。または、パターン選択部１０５は、入力文書４０１に事前に付与されたり、または内在する文書構造情報に基づいて、選択した条件パターンを適用する範囲を指定するものとしてもよい。例えば、入力文書４０１が、ＸＭＬ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）またはＸＨＴＭＬ（ＥｘｔｅｎｓｉｂｌｅＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）等で記載された文書である場合、パターン選択部１０５は、ＸＰａｔｈ（ＸＭＬＰａｔｈＬａｎｇｕａｇｅ）等による範囲指定方法に基づいて、選択した条件パターンを適用する範囲を指定するものとしてもよい。

また、パターン選択部１０５は、操作入力に基づいて、条件パターンを選択するのみならず、例えば、入力文書４０１において、抽出部１０７による抽出処理の適用範囲を選択することができるものとしてもよい。例えば、パターン選択部１０５は、操作入力に基づいて、入力文書４０１のうち抽出処理の対象となるページ範囲等を選択できるものとしてもよい。

抽出メタルール生成部１０６は、パターン選択部１０５により選択された１以上の条件パターンを含み、入力文書４０１からテキストを抽出するための抽出条件となる抽出メタルールを生成する機能部である。なお、パターン選択部１０５により、抽出部１０７の抽出処理の適用範囲が選択された場合は、その適用範囲を抽出条件として抽出メタルールに含まれるものとしてもよい。

抽出部１０７は、入力文書４０１から、抽出メタルール生成部１０６により生成された抽出メタルールに適合するテキストを抽出する機能部である。例えば、抽出メタルールが図７に示す条件パターンのうちパターン（３）により構成されている場合、抽出部１０７は、例えば、入力文書から、図８（ａ）に示す抽出表記５０１のようなパターン（３）に適合するテキストを抽出する。すなわち、抽出表記５０１に示すテキストは、それぞれ、箇条書き番号（数詞）に続いて閉じ括弧記号を含むテキストであり、パターン（３）により受容されるテキストであることを示す。また、抽出メタルールが図７に示す条件パターンのうちパターン（４）により構成されている場合、抽出部１０７は、例えば、入力文書から、図８（ｂ）に示す抽出表記５０２のようなパターン（４）に適合するテキストを抽出する。すなわち、抽出表記５０２に示すテキストは、それぞれ、順序付き文字列（カウンタ）「ａ」〜「ｃ」に続いて記号「．」を含むテキストであり、パターン（４）により受容されるテキストであることを示す。

また、抽出部１０７は、抽出したテキストが入力文書４０１中のどの位置にあるかを示す位置情報も抽出する。

差分検出部１０８は、抽出部１０７により抽出メタルールにより抽出したテキストにおいて、抽出メタルールが含むどの条件パターンにより抽出されたテキストであるかという差分を検出する機能部である。

差分提示部１０９は、抽出部１０７により抽出されたテキストおよび位置情報、ならびに、差分検出部１０８により検出された差分の情報に基づいて、入力文書４０１においてどの位置に、どの条件パターンに適合する、どのようなテキストが抽出されたかを、表示部１１２に表示させる機能部である。

例えば、図９に示す表示例は、入力文書４０１に対し、図７に示すパターン（２）およびパターン（３）の組を抽出メタルールとして、抽出部１０７により抽出されたテキストを示した例である。抽出部１０７は、入力文書４０１からパターン（２）に適合するテキストとして「２．ダウンフォースの増加」、「３．ウィングの機能」、「１）ＦＲＰ軽量パーツの活用」および「２）不要重量物の除去」を抽出している。また、抽出部１０７は、入力文書４０１からパターン（３）に適合するテキストとして、「３）タイヤの空気圧の適正化」を抽出している。ただし、パターン（３）は、上述のようにパターン（２）をさらに抽象化した条件パターンであるので、上述の「２．ダウンフォースの増加」、「３．ウィングの機能」、「１）ＦＲＰ軽量パーツの活用」および「２）不要重量物の除去」は、それぞれ、パターン（２）に適合すると共に、パターン（３）にも適合することになる。ただし、図９（および後述する図１０）では、抽象度の低い条件パターンに適合したことを優先して示すように表示されるものとしている。

そして、差分検出部１０８は、抽出部１０７により抽出されたテキストのうち、「２．ダウンフォースの増加」、「３．ウィングの機能」、「１）ＦＲＰ軽量パーツの活用」および「２）不要重量物の除去」がパターン（２）に適合するテキストであり、「３）タイヤの空気圧の適正化」がパターン（３）に適合するテキストであるという差分を検出する。そして、差分提示部１０９は、図９に示すように、例えば、パターン（３）に適合するテキストを、パターン（２）に適合するテキストよりも太字で表示させることにより、互いの差分を明確にする。なお、異なる条件パターンに適合するテキストを区別して表示させるためには、図９に示すように、テキストの文字の太さを変える方法に限定されるものではなく、例えば、テキストの大きさ、色、網掛け、またはハイライト等により視覚的に区別して表示するものとしてもよい。

さらに、差分提示部１０９は、抽出部１０７により抽出された位置情報を利用して、図９に示すように、ポインタ６０１ａにより、「１）ＦＲＰ軽量パーツの活用」および「２）不要重量物の除去」が、入力文書４０１の１ページ目から抽出されたことを示すようにしている。また、差分提示部１０９は、ポインタ６０１ｂにより、「２．ダウンフォースの増加」および「３．ウィングの機能」が、入力文書４０１の３ページ目から抽出されたことを示すようにしている。さらに、差分提示部１０９は、ポインタ６０２により、「３）タイヤの空気圧の適正化」が、入力文書４０１の１ページ目から抽出されたことを示すようにしている。

また、差分提示部１０９は、パターン（３）に適合するテキストである「３）タイヤの空気圧の適正化」の近傍に、読み上げ音声を出力するための音声再生用アイコン７０１を表示させている。差分提示部１０９は、操作入力により音声再生用アイコン７０１が押下されると、元の編集領域に付加されているメタデータと同じメタデータを「３）タイヤの空気圧の適正化」に適用した場合の読み上げ音声を、音声出力部１１３に出力させる。なお、図９に示す例では、音声再生用アイコンを「３）タイヤの空気圧の適正化」の近傍に配置させているが、これに限定されるものではなく、例えば、パターン（２）に適合するテキストの近傍に配置させてもよく、または、抽出されたすべてのテキストの近傍に配置させるものとしてもよい。

また、図１０に示す表示例は、入力文書４０１に対し、図７に示すパターン（３）およびパターン（４）の組を抽出メタルールとして、抽出部１０７により抽出されたテキストを示した例である。抽出部１０７は、入力文書４０１からパターン（３）に適合するテキストとして「２．ダウンフォースの増加」、「３．ウィングの機能」、「１）ＦＲＰ軽量パーツの活用」、「２）不要重量物の除去」および「３）タイヤの空気圧の適正化」を抽出している。また、抽出部１０７は、入力文書４０１からパターン（４）に適合するテキストとして、「ａ．周辺の環境整備」、「ｂ．廃棄物の総量削減」および「ｃ．エコグッズ利用の推進」を抽出している。ただし、パターン（４）は、上述のようにパターン（３）をさらに抽象化した条件パターンであるので、上述の「２．ダウンフォースの増加」、「３．ウィングの機能」、「１）ＦＲＰ軽量パーツの活用」、「２）不要重量物の除去」および「３）タイヤの空気圧の適正化」は、それぞれ、パターン（３）に適合すると共に、パターン（４）にも適合することになる。ただし、図１０では、図９と同様に、抽象度の低い条件パターンに適合したことを優先して示すように表示されるものとしている。

そして、差分検出部１０８は、抽出部１０７により抽出されたテキストのうち、「２．ダウンフォースの増加」、「３．ウィングの機能」、「１）ＦＲＰ軽量パーツの活用」、「２）不要重量物の除去」および「３）タイヤの空気圧の適正化」がパターン（３）に適合するテキストであり、「ａ．周辺の環境整備」、「ｂ．廃棄物の総量削減」および「ｃ．エコグッズ利用の推進」がパターン（４）に適合するテキストであるという差分を検出する。そして、差分提示部１０９は、図１０に示すように、例えば、パターン（４）に適合するテキストを、パターン（３）に適合するテキストよりも太字で表示させることにより、互いの差分を明確にする。

さらに、差分提示部１０９は、抽出部１０７により抽出された位置情報を利用して、図１０に示すように、ポインタ６１１ａにより、「１）ＦＲＰ軽量パーツの活用」、「２）不要重量物の除去」および「３）タイヤの空気圧の適正化」が、入力文書４０１の１ページ目から抽出されたことを示すようにしている。また、差分提示部１０９は、ポインタ６１１ｂにより、「２．ダウンフォースの増加」および「３．ウィングの機能」が、入力文書４０１の３ページ目から抽出されたことを示すようにしている。さらに、差分提示部１０９は、ポインタ６１２により、「ａ．周辺の環境整備」、「ｂ．廃棄物の総量削減」および「ｃ．エコグッズ利用の推進」が、入力文書４０１の６ページ目から抽出されたことを示すようにしている。

また、差分提示部１０９は、パターン（４）に適合するテキストである「ａ．周辺の環境整備」、「ｂ．廃棄物の総量削減」および「ｃ．エコグッズ利用の推進」それぞれの近傍に、読み上げ音声を出力するための音声再生用アイコン７１１ａ〜７１１ｃをそれぞれ表示させている。差分提示部１０９は、例えば、操作入力により音声再生用アイコン７１１ｂが押下されると、元の編集領域に付加されているメタデータと同じメタデータを「ｂ．廃棄物の総量削減」に適用した場合の読み上げ音声を、音声出力部１１３に出力させる。

そして、ユーザは、例えば上述の図９、１０で示した差分提示部１０９により表示された内容を確認し、音声出力部１１３から出力される読み上げ音声を確認することによって、入力部１１０に対する操作入力および編集部１０１により、編集領域のメタデータを編集できるものとしてもよい。なお、メタデータの編集が可能なテキストは編集領域だけに限定されるものではなく、例えば、抽出されたテキストそれぞれに対してメタデータを編集することができるものとしてもよい。

そして、ユーザは、差分提示部１０９による表示から編集領域のメタデータが適用される範囲を確認した上で、操作入力により、差分提示部１０９に、抽出されたテキストに対して、編集領域のメタデータと同じメタデータを付加させる。

入力部１１０は、ユーザから操作入力を受け付ける機能部である。入力部１１０は、図１に示す操作装置２０７によって実現される。

記憶部１１１は、入力文書、メタデータ、音声データその他の各種データおよびプログラム等を記憶する機能部である。記憶部１１１は、図１に示す補助記憶装置２０４によって実現される。

表示部１１２は、ＣＰＵ２０１により実行されているアプリケーションの画面等を表示する機能部である。例えば、表示部１１２は、図７に示したパターン生成部１０４により生成された条件パターン、または、図９および１０に示した差分提示部１０９の機能による結果を表示する。表示部１１２は、図１に示す表示装置２０５によって実現される。

音声出力部１１３は、例えば、差分提示部１０９の指示に基づいて、音声を出力する機能部である。例えば、音声出力部１１３は、編集領域に付加されているメタデータと同じメタデータを、抽出部１０７により抽出されたテキストに適用した場合の読み上げ音声を出力する。音声出力部１１３は、図１に示すスピーカ２１０によって実現される。

上述の編集部１０１、編集領域取得部１０２、解析部１０３、パターン生成部１０４、パターン選択部１０５、抽出メタルール生成部１０６、抽出部１０７、差分検出部１０８および差分提示部１０９は、図１に示すＣＰＵ２０１が補助記憶装置２０４等に記憶されたプログラムをＲＡＭ２０３に読み出して実行することにより実現される。なお、編集部１０１、編集領域取得部１０２、解析部１０３、パターン生成部１０４、パターン選択部１０５、抽出メタルール生成部１０６、抽出部１０７、差分検出部１０８および差分提示部１０９は、すべてがプログラムの実行により実現されることに限定されるものではなく、少なくとも一部がＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）またはＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等のハードウェア回路によって実現されるものとしてもよい。

また、図２に示す機能ブロックの構成は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図２で独立した機能部として図示した複数の機能部を、１つの機能部として構成してもよい。一方、図２の１つの機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。

図１１は、実施形態に係る読み上げ情報編集装置の全体動作の一例を示すフローチャートである。図１１を参照しながら、本実施形態に係る読み上げ情報編集装置１の全体動作の流れを総括的に説明する。

＜ステップＳ２１＞
編集部１０１は、ユーザによる入力部１１０に対する操作入力に基づいて、入力文書（例えば、図３に示す入力文書４０１）中のテキストに対して、読み上げのアクセント、ポーズおよび速度等の読み上げの装飾情報であるメタデータを編集する。そして、ステップＳ２２へ移行する。

＜ステップＳ２２＞
編集領域取得部１０２は、操作入力に基づいて、入力文書のテキストの中からメタデータが付加された領域のテキスト（編集領域）とメタデータとを含む編集内容を取得する。そして、ステップＳ２３へ移行する。

＜ステップＳ２３＞
解析部１０３は、編集領域取得部１０２により取得された編集内容に対して解析を行う。具体的には、解析部１０３は、編集内容に含まれる編集領域に対して形態素解析を行い、例えば、図５に示すような形態素解析の結果である素性情報を得る。そして、ステップＳ２４へ移行する。

＜ステップＳ２４＞
パターン生成部１０４は、解析部１０３の解析により得られた素性情報を利用して、編集領域を段階的に抽象化した条件パターンを生成する。例えば、パターン生成部１０４は、図７に示すように、編集領域から、抽象度が高くなる順にパターン（１）〜（５）の５つの条件パターンを生成する。パターン生成部１０４による条件パターンの生成処理の具体的な例は、図６に示すフローチャート（ステップＳ１３〜Ｓ１７）で上述した通りである。そして、ステップＳ２５へ移行する。

＜ステップＳ２５＞
パターン選択部１０５は、操作入力に基づいて、パターン生成部１０４により生成された条件パターンのうち１以上の条件パターンを選択する。そして、ステップＳ２６へ移行する。

＜ステップＳ２６＞
抽出メタルール生成部１０６は、パターン選択部１０５により選択された１以上の条件パターンであって、入力文書からテキストを抽出するための抽出条件となる抽出メタルールを生成する。そして、ステップＳ２７へ移行する。

＜ステップＳ２７＞
抽出部１０７は、入力文書から、抽出メタルール生成部１０６により生成された抽出メタルールに適合するテキストを抽出する。そして、ステップＳ２８へ移行する。

＜ステップＳ２８＞
差分検出部１０８は、抽出部１０７が抽出メタルールにより抽出したテキストにおいて、抽出メタルールが含むどの条件パターンにより抽出されたテキストであるかという差分を検出する。そして、ステップＳ２９へ移行する。

＜ステップＳ２９＞
差分提示部１０９は、抽出部１０７により抽出されたテキストおよび位置情報、ならびに、差分検出部１０８により検出された差分情報に基づいて、入力文書においてどの位置に、どの条件パターンに適合する、どのようなテキストが抽出されたかを、表示部１１２に表示（提示）させる。具体的な表示（提示）例については、図９および１０で上述した通りである。

以上の図１１に示すフローチャートで示すように、読み上げ情報編集装置１の全体動作が行われる。

以上のように、本実施形態に係る読み上げ情報編集装置１は、文書中のテキストにおいて、合成音声の読み上げの装飾情報（メタデータ）が付加された編集領域について、形態素解析を行い、その結果を用いて、編集領域を段階的に抽象化した１以上の条件パターンを生成する。そして、１以上の条件パターンを含む抽出メタルールに適合するテキストを抽出し、すなわち、編集領域と類似する文書構造（類似の程度は条件パターンの抽象度に基づく）を有するテキストを抽出することにより、編集領域に付加されたメタデータと同じメタデータを、抽出したテキストに適用することができる。一般に、音声合成で読み上げるための装飾情報をテキストに付加するためには、専用の記法があり、その習得には相当程度のスキルが必要である。また、複合語およびフレーズに対しては、アクセント句の分割および結合に関する知識も必要であり、直感的に読みおよびアクセントを指定することは、困難な場合がある。しかし、上述のように読み上げ情報編集装置１が構成されていることにより、編集領域に付加されたメタデータと同じメタデータを適用する場合の影響範囲を容易に認識することができ、さらに、その影響範囲のテキスト、すなわち、抽出メタルールに基づいて抽出されたテキストに、編集領域のメタデータと同じメタデータを一括で適用することができる。すなわち、編集領域と同様な文章構造を有するテキストに対して、一度に同じメタデータを適用することができるので、メタデータの編集作業の工数を削減することができ、さらに、編集の見落としも抑制することができる。

なお、読み上げ情報編集装置１は、図１および２に示すように１台にスタンドアロンの装置によって構成されるものとしたが、これに限定されるものではない。例えば、図２に示す機能部のうち、編集部１０１、編集領域取得部１０２、解析部１０３、パターン生成部１０４、パターン選択部１０５、抽出メタルール生成部１０６、抽出部１０７、差分検出部１０８、差分提示部１０９、および記憶部１１１を、サーバ装置が備えるものとし、入力部１１０、表示部１１２、および音声出力部１１３を、クライアント装置が備えるというようなクライアントサーバシステムで実現するものとしてもよい。

また、上述の実施形態の読み上げ情報編集装置１で実行されるプログラムは、例えば、ＲＯＭ等に予め組み込まれて提供されるものとしてもよい。

また、上述の実施形態の読み上げ情報編集装置１で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

また、上述の実施形態の読み上げ情報編集装置１で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上述の実施形態の読み上げ情報編集装置１で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

また、上述の実施形態の読み上げ情報編集装置１で実行されるプログラムは、コンピュータを上述した各機能部として機能させ得る。このコンピュータは、ＣＰＵがコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

本発明の実施形態を説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、および変更を行うことができる。この実施形態は、発明の範囲および要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１読み上げ情報編集装置
１０１編集部
１０２編集領域取得部
１０３解析部
１０４パターン生成部
１０５パターン選択部
１０６抽出メタルール生成部
１０７抽出部
１０８差分検出部
１０９差分提示部
１１０入力部
１１１記憶部
１１２表示部
１１３音声出力部
２０１ＣＰＵ
２０２ＲＯＭ
２０３ＲＡＭ
２０４補助記憶装置
２０５表示装置
２０６ネットワークＩ／Ｆ
２０７操作装置
２０８ＤＶＤドライブ
２０９ＤＶＤ
２１０スピーカ
２１１バス
４０１入力文書
５０１、５０２抽出表記
６０１ａ、６０１ｂ、６０２ポインタ
６１１ａ、６１１ｂ、６１２ポインタ
７０１、７１１ａ〜７１１ｃ音声再生用アイコン

Claims

文書から読み上げ情報が付加されたテキストを含む編集領域を取得する取得部と、
前記編集領域の文書構造を解析する解析部と、
前記文書構造に基づいて、前記編集領域を抽象化した１以上の条件パターンを生成する第１生成部と、
前記条件パターンのうち少なくとも１つを含み、前記文書からテキストを抽出するための抽出条件を生成する第２生成部と、
前記文書から、前記抽出条件に適合するテキストを抽出する抽出部と、
を備えた読み上げ情報編集装置。
前記文書の読み上げ情報を編集する第１編集部を、さらに備えた請求項１に記載の読み上げ情報編集装置。
前記第１生成部は、前記編集領域を段階的に抽象化して複数の前記条件パターンを生成し、
前記第２生成部は、２以上の前記条件パターンを含む前記抽出条件を生成し、
前記抽出部により抽出されたテキストそれぞれが適合する前記条件パターンの差分を検出する検出部と、前記抽出部により抽出されたテキストを、前記差分が明示されるように表示装置に出力させる出力制御部と、をさらに備えた請求項１に記載の読み上げ情報編集装置。
前記出力制御部は、前記差分に基づいて、前記抽出部により異なる前記条件パターンで抽出されたテキストをそれぞれ視覚的に異なるように前記表示装置に出力させる請求項３に記載の読み上げ情報編集装置。
前記取得部は、さらに前記編集領域に付加された前記読み上げ情報を取得し、
前記出力制御部は、前記抽出部により抽出されたテキストのうち少なくともいずれかのテキストに対して、前記編集領域の前記読み上げ情報を適用した場合の読み上げ音声を音声出力装置に出力させる請求項３に記載の読み上げ情報編集装置。
前記条件パターンは、前記編集領域のテキストの文書構造を示す抽象化したパターンである請求項１に記載の読み上げ情報編集装置。
前記第１生成部は、前記編集領域を段階的に抽象化して複数の前記条件パターンを生成し、
前記第１生成部により生成された複数の前記条件パターンから１以上の前記条件パターンを選択する選択部を、さらに備え、
前記第２生成部は、前記選択部により選択された前記条件パターンを含む前記抽出条件を生成する請求項１に記載の読み上げ情報編集装置。
前記第１生成部は、前記編集領域に含まれる連番の記号または数字をカウンタ要素として同一種別とする抽象化、前記編集領域の同じ品詞のテキストを同一種別とする抽象化、および、前記編集領域において１種以上の品詞の繰り返しを受容することによる抽象化のうち少なくともいずれかの抽象化に基づいて前記条件パターンを生成する請求項１に記載の読み上げ情報編集装置。
前記編集領域を抽象化するための規則であるパターンルールを編集する第２編集部を、さらに備え、
前記第１生成部は、前記編集領域を前記パターンルールに従って抽象化して、前記条件パターンを生成する請求項１に記載の読み上げ情報編集装置。
文書から読み上げ情報が付加されたテキストを含む編集領域を取得する取得ステップと、
前記編集領域の文書構造を解析する解析ステップと、
前記文書構造に基づいて、前記編集領域を抽象化した１以上の条件パターンを生成する第１生成ステップと、
前記条件パターンのうち少なくとも１つを含み、前記文書からテキストを抽出するための抽出条件となる抽出条件を生成する第２生成ステップと、
前記文書から、前記抽出条件に適合するテキストを抽出する抽出ステップと、
を有する読み上げ情報編集方法。
コンピュータを、
文書から読み上げ情報が付加されたテキストを含む編集領域を取得する取得部と、
前記編集領域の文書構造を解析する解析部と、
前記文書構造に基づいて、前記編集領域を抽象化した１以上の条件パターンを生成する第１生成部と、
前記条件パターンのうち少なくとも１つを含み、前記文書からテキストを抽出するための抽出条件となる抽出条件を生成する第２生成部と、
前記文書から、前記抽出条件に適合するテキストを抽出する抽出部と、
として機能させるためのプログラム。