JP6080058B2

JP6080058B2 - オーサリング装置、オーサリング方法、およびプログラム

Info

Publication number: JP6080058B2
Application number: JP2015039767A
Authority: JP
Inventors: 植野　博; 博植野
Original assignee: ProField Co Ltd
Current assignee: ProField Co Ltd
Priority date: 2015-03-02
Filing date: 2015-03-02
Publication date: 2017-02-15
Anticipated expiration: 2035-03-02
Also published as: JP2016161735A

Description

本発明は、オーサリング処理を行なうオーサリング装置等に関するものである。

従来の技術として、コンピュータを使用した自動電子出版支援システムであり、電気通信回線を介してコンテンツ提供者よりコンテンツ情報を受信して記憶装置に保存するコンテンツ取得手段と、電気通信回線を介して広告主より広告情報を受信して記憶装置に保存する広告取得手段と、所定のレイアウト決定ルールに基いて自動的にコンテンツ情報と広告情報を配置して電子出版物を生成する自動レイアウト手段を有する、自動電子出版支援システムが知られていた（例えば、特許文献１参照）。

特開２０１２−２４２８６５号公報（第１頁、第１図等）

しかしながら、従来のオーサリング装置においては、音声を用いてオブジェクトについて、オーサリング処理を行なうことができない、という課題があった。例えば、ページに配置されたオブジェクトに対して、音声により、サイズの変更や、位置の変更等のオーサリング処理を行なうことができなかった。このため、例えば、手がふさがっていて手による操作が困難な場合等に、容易にオーサリング処理を行なうことができなかった。また、手による操作に習熟していないユーザが、オーサリング処理を行なうことが困難であった。また、例えば、音声と手とによる入力の融合を図ることができない、という問題があった。

本発明は、上記のような課題を解消するためになされたものであり、音声を用いてオブジェクトについてオーサリング処理を行なうことができるオーサリング装置等を提供することを目的とする。

本発明のオーサリング装置は、１以上のオブジェクトが配置されたオーサリングデータが格納されるオーサリングデータ格納部と、音声を受け付ける音声受付部と、音声受付部が受け付けた音声について音声認識処理を行なう音声認識部と、音声認識部の音声認識処理の結果に応じて、オーサリングデータ格納部に格納されているオーサリングデータに配置されたオブジェクトについてオーサリング処理を行なうオーサリング処理部とオーサリング処理部の処理結果を出力する出力部とを備えたオーサリング装置である。

かかる構成により、音声を用いてオブジェクトについてオーサリング処理を行なうことができる。

また、本発明のオーサリング装置は、前記オーサリング装置において、オーサリングデータ格納部に格納されている１以上のオーサリングデータを表示する表示部を更に備え、オーサリング処理部は、表示部が表示しているオーサリングデータに配置された１以上のオブジェクトを処理対象としてオーサリング処理を行なうオーサリング装置である。

かかる構成により、表示されているオブジェクトについて、音声によりオーサリングを行なうことができる。

また、本発明のオーサリング装置は、前記オーサリング装置において、オーサリング処理部は、表示部が表示画面内に全体を表示しているオブジェクトのみを処理対象としてオーサリング処理を行なうオーサリング装置である。

かかる構成により、表示画面内に全体が表示されているオブジェクトを処理対象として、音声によりオーサリングを行なうことができる。

また、本発明のオーサリング装置は、前記オーサリング装置において、オーサリングデータ格納部に格納されている１以上のオーサリングデータを表示する表示部を更に備え、オーサリング処理部は、表示部が表示していないオブジェクトを処理対象としてオーサリング処理を行なうオーサリング装置である。

かかる構成により、表示されているオブジェクト以外のオブジェクトを処理対象として、音声を用いて処理を行なうことができる。

また、本発明のオーサリング装置は、前記オーサリング装置において、オーサリング処理部が取得するオーサリングデータは、オブジェクトが配置可能な１以上のレイヤを有しており、オーサリング処理部は、オーサリングデータの、音声認識処理により指定されたレイヤに対してオーサリング処理を行なうオーサリング装置である。

かかる構成により、処理対象のオブジェクトを、レイヤ単位で特定することができる。

また、本発明のオーサリング装置は、前記オーサリング装置において、オーサリング処理部は、音声認識結果の少なくとも一部から、処理対象のオブジェクトを特定し、音声認識結果の少なくとも一部から、オブジェクトに対する処理を特定するオーサリング装置である。

かかる構成により、音声認識結果から、処理対象のオブジェクトと処理とを特定することで、指定した処理対象に対して、指定した処理を行なうことができる。

また、本発明のオーサリング装置は、前記オーサリング装置において、オーサリング処理部は、音声認識結果の少なくとも一部から、被処理対象を特定し、被処理対象に対して１以上のオブジェクトを用いてオーサリング処理を行なうオーサリング装置である。

かかる構成により、ページやレイヤ等の被処理対象について処理対象のオブジェクトを用いた処理を行なうことができる。

また、本発明のオーサリング装置は、前記オーサリング装置において、オーサリングデータ格納部に格納されているオーサリングデータを表示する表示部を更に備え、オーサリング処理部は、音声認識結果の少なくとも一部から、処理対象のオブジェクトを特定できた場合に、オブジェクトに対してオーサリング処理を行ない、処理対象のオブジェクトを特定できない場合に、表示部が表示しているオブジェクトを処理対象としてオーサリング処理を行なうオーサリング装置である。

かかる構成により、処理対象が特定できない場合に、表示しているオブジェクトを処理対象とすることで、適切な処理対象に対して処理を行なうことができる。

また、本発明のオーサリング装置は、前記オーサリング装置において、オーサリング処理部は、音声認識結果の少なくとも一部から、処理対象のオブジェクトを特定できた場合に、オブジェクトに対してオーサリング処理を行ない、処理対象のオブジェクトを特定できない場合に、オーサリングデータが有する全てのオブジェクトを処理対象としてオーサリング処理を行なうオーサリング装置である。

かかる構成により、処理対象が特定できない場合に、表示されていない全てのオブジェクトを処理対象とすることで、適切な表示対象に対して処理を行なうことができる。

また、本発明のオーサリング装置は、前記オーサリング装置において、オーサリング処理部が行なうオーサリング処理は、オブジェクトの属性を変更する処理であるオーサリング装置である。

かかる構成により、音声によってオブジェクトの属性を変更することができる。

また、本発明のオーサリング装置は、前記オーサリング装置において、オーサリング処理部が行なうオーサリング処理は、オブジェクトの位置を変更する処理であるオーサリング装置である。

かかる構成により、音声によってオブジェクトの位置を変更することができる。

また、本発明のオーサリング装置は、前記オーサリング装置において、オーサリング処理部が行なうオーサリング処理は、オブジェクトの色を変更する処理であるオーサリング装置である。

かかる構成により、音声によってオブジェクトの色を変更することができる。

また、本発明のオーサリング装置は、前記オーサリング装置において、オブジェクトは、表示用のデータである表示データと、音声のデータである音声データとを一体化して有するオブジェクトであるオーサリング装置である。

かかる構成により、オブジェクトが有する音声データを用いて、音声により処理対象のオブジェクトを指定することができる。

本発明によるオーサリング装置等によれば、音声を用いてオブジェクトについてオーサリング処理を行なうことができる。

本発明の実施の形態におけるオーサリング装置のブロック図同オーサリング装置の動作について説明するフローチャート同オーサリング装置の一例を示す図同オーサリング装置のオーサリングデータ管理表を示す図同オーサリング装置のオーサリングデータのページ構成を示す模式図同オーサリング装置による表示例を示す図同オーサリング装置の認識処理対象管理表を示す図同オーサリング装置の認識処理管理表を示す図同オーサリング装置の被処理対象管理表を示す図同オーサリング装置の表示例を示す図同オーサリング装置のオーサリングデータのページ構成を示す模式図同オーサリング装置の表示例を示す図同オーサリング装置のオーサリングデータのページのレイヤを示す模式図同オーサリング装置のオーサリングデータのページ構成を示す模式図本発明の実施の形態におけるコンピュータシステムの外観の一例を示す図同コンピュータシステムの構成の一例を示す図

以下、オーサリング装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。

（実施の形態）
図１は、本実施の形態におけるオーサリング装置１のブロック図である。

オーサリング装置１は、オーサリングデータ格納部１０１、音声受付部１０２、音声認識部１０３、オーサリング処理部１０４、出力部１０５、表示部１０６を備える。

オーサリング装置１は、例えば、コンピュータや、携帯情報端末、携帯電話、いわゆるスマートフォン等の多機能携帯電話、タブレット端末等により実現可能である。

オーサリングデータ格納部１０１には、一以上のオーサリングデータが格納される。オーサリングデータは、１または２以上のオブジェクトが配置されたデータである。オーサリングデータは、例えば、オーサリング処理により取得されたデータである。オーサリング処理については後述する。オーサリングデータは、例えば、デジタルコンテンツやマルチメディアデータ等の最終生成物であってもよく、これらの最終生成物を生成するために用いられる中間生成物であっても良い。オーサリングデータが中間生成物である場合、例えば、オーサリングデータを、レンダリングしたり、予め指定された形式のデータとして書き出すことで、最終生成物が取得できる。

一のオーサリングデータは、例えば、一または２以上のページを有していても良い。ここでのページは、例えば、シートや、コンテンツ等を配置するための台紙等を含む概念である。ページは、例えば、１以上のオブジェクトが配置される面と考えてもよい。各ページには、例えば、ページ番号等のページの識別子が対応づけられている。また、一のページは、１または２以上のレイヤを有していても良い。各レイヤには、例えば、レイヤ名や、レイヤ番号等のレイヤの識別子が対応づけられている。ページや、レイヤについては、オーサリングの技術分野においては、公知技術であるため、ここでは、詳細な説明は省略する。なお、一のオーサリングデータは、ページを有していなくても良い。一のオーサリングデータは、例えば、一のファイルを構成するオーサリングデータである。

オーサリングデータに配置される１以上のオブジェクトとは、例えば、オーサリングの対象となるデータである。オブジェクトは、例えば、オーサリング対象の単位となるデータである。例えば、一のオブジェクトは、一のオーサリング対象として扱われるデータである。オブジェクトは、例えば、コンテンツのデータである。オブジェクトは、例えば、文字列や、映像、地図などを電子化したデータや、画像や文字列等を表示するソフトウェアや、これらを組み合わせたものである。オブジェクトは、例えば表示用のデータを有するデータである。表示用のデータとは、例えば、視覚化可能なデータである。オブジェクトは、例えば、テキストデータや、画像データである。テキストデータは、例えば、文字を示す一以上の文字コードを有するデータである。画像データは、静止画像であっても動画像であっても良い。静止画像は、ビットマップデータであっても、ベクタデータであっても良い。また、オブジェクトは、二次元や三次元のモデリングデータ等であっても良い。なお、予めページ等に固定されているページ番号等の文字列や画像や、テンプレート等として固定されている文字列や画像等については、ユーザが自由にオーサリングできルものではないと考えて、オーサリング対象であるオブジェクトから除外するようにしても良い。

オブジェクトは、例えば、表示用のデータと音声データとを一体化して有するデータであっても良い。表示用のデータと音声データとを一体化して有するデータをここでは音声付データと呼ぶ。例えば、音声付データは、表示用のデータと音声データとを一体化して有するファイルであっても良い。データ音声データとは、音声のデータである。音声データとは、例えば、音声の波形を示すデータである。例えば、音声データは、音声の波形を示す電圧の変化を示すデータである。音声データは、音声の波形を標本化したデータであってもよい。また、音声データは、非圧縮のデータであっても良く、圧縮したデータであっても良い。音声付データは、この音声付データに格納される音声データの特徴量を更に有していても良い。音声データの特徴量については後述する。また、音声付データは、この音声付データに格納される音声データを音素に分解した情報や、音素よりも更に細かい要素（以下、音素片と称す）に分解した情報や、これらを符号化した情報等を有していても良い。

オーサリングデータに配置されるオブジェクトは、オーサリングデータにリンクにより配置されたオブジェクトであっても良く、オーサリングデータに格納された（例えば、埋め込まれた）データであっても良い。リンクにより配置されるオブジェクトは、例えば、図示しないオブジェクト格納部等に格納されたデータである。

オーライングデータ格納部１０１には、例えば、オーサリング処理部１０４が、オーサリング処理を行なって取得したオーサリングデータが格納される。オーサリングデータ格納部１０１には、例えば、後述する出力部１０５が出力するオーサリングデータが格納される。また、外部から受信したオーサリングデータや、図示しない格納部等から読出されたオーサリングデータが格納されてもよい。

ここでの格納は、オーサリングデータを作成する際の、一時記憶等も含む概念である。例えば、オーサリングデータを作成する際に後述するオーサリング処理部１０４が取得したオーサリングデータの一時ファイル等がオーサリングデータ格納部１０１に格納され、この一時ファイルが、オーサリング処理部１０４により、適宜更新されても良い。ここでのオーサリング処理部１０４による取得は、オーサリング処理部１０４による生成であっても良く、オーサリング処理部１０４による図示しない格納部に格納されているオーサリングデータの読出しであってもよい。

オーサリングデータ格納部１０１は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。かかることは、他の格納部についても同様である。

音声受付部１０２は、音声を受け付ける。音声受付部１０２は、例えば、マイクロフォン（図示せず）等を介して入力された音声を受け付ける。音声受付部１０２が受け付ける音声は、例えば音声信号である。音声受付部１０２は、例えば、受け付けた音声を示す音声データを取得する。例えば、音声受付部１０２は、受け付けた音声を標本化して音声データを取得する。また、音声受付部１０２が受け付ける音声は、音声データと考えてもよい。例えば、音声受付部１０２は、他の装置や、オーサリング処理装置内の他の構成等から送信あるいは出力される音声データを音声として受信してもよい。

音声受付部１０２は、音声を受け付けるためのマイクロフォン等の入力手段を備えていてもよく、備えていなくても良い。音声受付部１０２は、入力手段のデバイスドライバや、メニュー画面の制御ソフトウェア等で実現され得る。

音声認識部１０３は、音声受付部１０２が受け付けた音声について音声認識処理を行なう。音声認識部１０３は、例えば、音声認識処理を行なって、オーサリング処理の処理対象を示す情報や、実行するオーサリング処理（以下、実行する処理と称す）を示す情報等を有する情報を取得する。例えば、音声認識部１０３は処理対象を示す情報や、実行する処理を示す情報を取得してもよく、これらを含むテキストデータ等のデータを取得してもよい。

処理対象とは、例えば、オーサリング処理の対象となるものであり、例えば、オーサリンデータに配置されたオブジェクト等である。処理対象を示す情報は、例えば、処理対象の識別子や、処理対象の属性を示す情報である。処理対象の識別子は、例えば、処理対象であるオブジェクトのファイル名や、処理対象に設定された名称（例えば、オブジェクト名や、レイヤ名）や、処理対象に割り当てられた文字列等で構成されるコード（例えば、処理対象であるオブジェクトのＩＤコード）等である。処理対象がテキストオブジェクトである場合、このオブジェクトの少なくとも一部のテキストであっても良い。処理対象の属性を示す情報は、例えば、処理対象となるオブジェクトの色や、サイズ、オブジェクトのデータタイプ（例えば、画像やテキスト）等を示す情報である。例えば、これらの属性の範囲を示す情報であっても良い。また、処理対象の属性を示す情報は、例えば、処理対象のページ内の位置を示す情報（例えば、座標等）であっても良い。また、一のページやレイヤを示す情報を、これらに配置された１以上のオブジェクトを処理対象として示す情報と考えてもよい。同様に、ページ等に配置されるフレームやコンテナと呼ばれるオブジェクトの配置領域を示す情報を、この配置領域に配置されたオブジェクトを示す情報と考えてもよい。また、配置されているオブジェクトが音声付オブジェクトを含む場合、この音声付オブジェクトに含まれる音声データの少なくとも一部や、この音声データの少なくとも一部に対応する特徴量や音素や音素片等を、処理対象を示す情報と考えてもよい。

実行する処理とは、例えば、処理対象に対して実行する１以上のオーサリング処理である。実行する処理を示す情報は、例えば、実行する処理を特定可能な情報であり、実行する処理を示す指示や、実行する処理の名称である。例えば実行する処理を示す情報は、オブジェクト等を移動させる指示や、オブジェクト等を削除させる指示や、画像オブジェクトの色を変更する指示等であってもよく、これらの指示を自然言語で表した「移動」や「削除」や「色を明るく」等の文字列であってもよい。実行する処理を示す情報は、実行する処理のパラメータ等を更に有する情報であっても良い。例えば、パラメータは、移動距離や、移動方向を示す情報である。例えば、パラメータは、左に５ピクセル、右に１０ピクセル等の、移動方向と移動量とを示す情報である。また、パラメータは、画像オブジェクトが示す画像の明るさを変更する程度を示す情報であっても良い。

音声認識部１０３が、音声受付部１０２が受け付けた音声についてどのような音声認識処理を行なうかは問わない。例えば、音声認識部１０３は、音声受付部１０２が受け付けた音声に対して音声認識を行なって、音声に対応したテキストデータを音声認識結果として取得する。このテキストデータは、例えば、音声受付部１０２が受け付けた音声に対応する音声データを、テキストデータ化したものである。この音声認識により取得されるテキストデータは、処理対象を示す情報や、実行する処理を示す情報を含むテキストデータである。後述する具体例においては、このように、音声認識結果が、音声に対応したテキストデータである場合を例に挙げて説明する。なお、音声から、音声認識により音声に対応するテキストデータを取得する処理は、公知技術であるため、ここでは詳細な説明は省略する。

また、音声認識部１０３は、更に、上記のように音声認識処理により取得したテキストデータの中に、処理対象を示す文字列や実行する処理等を示す文字列等である認識用文字列と一致する１以上の文字列が含まれているか否かを判断し、認識用文字列と一致する１以上の文字列が含まれる場合に、この１以上の認識用文字列にそれぞれ対応する処理対象を示す情報や、実行する処理を示す情報を取得するようにしてもよい。この場合、予め指定された閾値以上の数あるいは比率が一致する文字列が含まれている場合、テキストデータ内の一の文字列と、一の認識用文字列とが一致していると判断するようにしてもよい。

認識用文字列は、例えば、処理対象を表す認識用文字列と、実行する処理を表す認識用文字列とを有する。処理対象を表す認識用文字列は、例えば、処理対象を表す文字列であり、例えば、処理対象を自然言語等で表した文字列である。また、実行する処理を表す認識用文字列は、実行する処理を表した文字列であり、例えば実行する処理を自然言語等で表した文字列である。処理対象を表した認識用文字列は、例えば、処理対象を示す情報と対応づけられている。また、実行する処理を表した認識用文字列は、例えば、実行する処理を示す情報と対応づけられている。実行する処理を示す情報は、例えば、この処理を実行させるための指示や指示名である。ここでの指示は、コマンドも含むと考えてもよい。認識用文字列は、例えば、図示しない格納部等に予め格納しておくようにしてよい。

例えば、処理対象を示す情報が、処理対象を表した認識用文字列と同じである場合、音声認識部１０３は、一の処理対象を表した認識用文字列と一致する文字列が、音声認識処理により取得したテキストデータの中に検出された場合、この一致すると判断された処理対象を表した認識用文字列に対応する処理対象を示す情報として、この処理対象を表した認識用文字列自身を取得すればよい。また、例えば、処理対象を示す情報が、処理対象を表した認識用文字列と同じでない場合、音声認識部１０３は、一の処理対象を表した認識用文字列と一致する文字列が、音声認識処理により取得したテキストデータの中に検出された場合、この一致すると判断された処理対象を表した認識用文字列と対応づけて図示しない格納部等に格納されている処理対象を示す情報を、上記の処理対象を示す情報として取得すればよい

同様に、例えば、実行する処理を示す情報が、実行する処理を表した認識用文字列と同じである場合、音声認識部１０３は、一の実行する処理を表した認識用文字列と一致する文字列が、音声認識処理により取得したテキストデータの中に検出された場合、この一致すると判断された実行する処理を表した認識用文字列に対応する処理を示す情報として、この実行する処理を表した認識用文字列自身を取得すればよい。また、例えば、実行する処理を示す情報が、実行する処理を表した認識用文字列と同じでない場合、音声認識部１０３は、一の実行する処理を表した認識用文字列と一致する文字列が、音声認識処理により取得したテキストデータの中に検出された場合、この一致すると判断された実行する処理を表した認識用文字列と対応づけて図示しない格納部等に格納されている実行する処理を示す情報を、上記の実行する処理を示す情報として取得すればよい。

また、音声認識部１０３は、音声受付部１０２が音声受付部１０２が受け付けた音声からテキストデータを上記のように取得せずに、音声受付部１０２が受け付けた音声の特徴量を取得し、この特徴量と、処理対象を示す音声や実行する処理を示す音声等である認識用音声の特徴量とを照合し、１以上の認識用音声の特徴量との適合度が閾値以上である特徴量が、音声受付部１０２が受け付けた音声の特徴量の中に検出された場合に、この１以上の認識用音声にそれぞれ対応する処理対象を示す情報や、実行する処理を示す情報を取得するようにしてもよい。

認識用音声は、例えば、処理対象を表す認識用音声と、実行する処理を表す認識用音声とを有する。処理対象を表す認識用音声は、例えば、処理対象を表す音声であり、例えば、処理対象を自然言語等で表した音声である。また、実行する処理を表す認識用音声は、実行する処理を表した音声であり、例えば実行する処理を自然言語等で表した音声である。処理対象を表した認識用音声は、例えば、処理対象と対応づけられている。また、実行する処理を表した認識用音声は、例えば、実行する処理と対応づけられている。

例えば、処理対象を示す認識用音声は、処理対象の識別子等を自然言語で読み上げた場合に得られる音声である。例えば、認識用音声は、処理対象となるオブジェクトに割り当てられた名称を、自然言語で読み上げて得られる音声である。このような場合、処理対象を表した認識用音声を取得するために読み上げられた処理対象の識別子等が示す処理対象を、認識用音声に対応する処理対象とし、この処理対象の識別子等を、上記で取得される処理対象を示す情報としてもよい。

また、実行する処理を示す認識用音声は、実行する処理を自然言語で表したテキストを読み上げた音声である。例えば、認識用音声は、「移動」というテキストを読み上げた音声や、「大きく」というテキストを読み上げた音声であり、「移動」を読み上げた認識用音声は、移動を実行する処理と対応づけられており、「大きく」を読み上げた認識用音声は、拡大を実行する処理と対応づけられている。実行する処理を示す認識用音声が、この実行する処理と対応づけられているこということは、実行する処理を示す認識用音声が、この実行する処理を示す識別子、具体的には、処理を実行させるための指示や指示名と対応づけられていることと考えてもよい。このような場合、実行される処理を表す認識用音声を取得するために読み上げられた実行する処理の識別子等が示す処理を、認識用音声に対応する実行する処理とし、この処理の識別子等を、上記で取得される実行する処理を示す情報としてもよい。認識用音声や、認識用音声に対応する特徴量等は、図示しない格納部等に予め格納しておくようにすればよい。

音声に関して取得される特徴量は、例えば、短時間ごとに切り出された音声信号から抽出される特徴ベクトルを時系列に配列したものである。ここで取得する特徴量は、例えば、三角型フィルタを用いたチャネル数２４のフィルタバンク出力を離散コサイン変換したＭＦＣＣであり、その静的パラメータ、デルタパラメータ及びデルタデルタパラメータをそれぞれ１２次元有し、さらに正規化されたパワーとデルタパワー及びデルタデルタパワーを有してもよい（合計３９次元）。あるいは、特徴量は、ＭＦＣＣの１２次元、ΔＭＦＣＣの１２次元、Δ対数パワーの１次元を含む２５次元のものであってもよい。このように、種々の特徴量を用いることが可能である。特徴量は、特徴パラメータ、特徴ベクトルとも呼ばれる。

音声や音声データについて特徴量を取得する処理は公知技術であるため、ここでは詳細な説明は省略する。また、音声や音声データについて取得した特徴量を照合して、適合度を示す値等を取得する処理は公知技術であるため、ここでは詳細な説明は省略する。

なお、音声認識部１０３は、上記の音声の特徴量の代わりに、音声や音声データを音素や音素片に分解した情報等を用いて照合を行なって、処理対象を示す情報や、実行する処理を示す情報を取得しても良い。音素や音素片を取得する処理や、音素や音素片を符号化したデータを用いて検索を行なう処理については、公知技術であるため、ここでは詳細な説明は省略する。認識用音声や、認識用音声に対応する音素や音素片等は、図示しない格納部等に予め格納しておくようにすればよい。

なお、音声認識部１０３は、上記と同様に、音声認識処理を行なって、被処理対象を示す情報を更に有する情報を取得してもよい。被処理対象とは、例えば、オーサリングの処理対象であるオブジェクトが配置されるページやレイヤ等を意味する。被処理対象は、例えば、オブジェクトの移動先や、移動元や、複写先や、複写元等と考えてもよい。被処理対象を示す情報や、例えばページの識別子（例えばページ番号）や、レイヤの識別子等である。例えば、音声認識部１０３は、被処理対象を示す情報と対応づけられた被処理対象を示す認識用文字列や、認識用音声を用いて、上記と同様に、被処理対象を示す情報を取得しても良い。なお、音声認識処理により、被処理対象を示す情報を有する情報を取得する処理は、上述したような処理対象を示す情報を有する情報を取得する処理と同様であるため、ここでは説明を省略する。

同様に、音声認識部１０３は、音声認識処理を行って、レイヤを示す情報を更に有する情報を取得してもよい。ただし、ここで取得されるレイヤを示す情報は、当該レイヤに配置されている処理対象を特定するためのレイヤを示す情報である。例えば、音声認識部１０３は、レイヤを示す情報と対応づけられたレイヤを示す認識用文字列や、認識用音声を用いて、上記と同様に、レイヤを示す情報を取得しても良い。なお、音声認識処理により、レイヤを示す情報を有する情報を取得する処理は、上述したような処理対象を示す情報を有する情報を取得する処理と同様であるため、ここでは説明を省略する。

なお、音声認識部１０３が音声認識の結果として、音声データに対応するテキストデータを取得する場合、上述したようなテキストデータから、認識用文字列等を用いて、処理対象を示す情報や、実行する処理を示す情報を取得する処理を、音声認識部１０３が行なう代わりに、オーサリング処理部１０４が行なうようにしてもよい。

オーサリング処理部１０４は、音声認識部１０３の音声認識処理の結果に応じて、オーサリング処理を行なう。オーサリング処理部１０４は、オーサリングデータ格納部１０１に格納されている１以上のオーサリングデータに配置された１以上のオブジェクトについてオーサリング処理を行なう。例えば、オーサリング処理部１０４は、オーサリング処理を行なって、オーサリングデータを作成する。例えば、オーサリング処理部１０４は、オーサリング処理を行なって、オーサリングデータ格納部１０１に格納されている１以上のオーサリングデータを更新する。また、例えば、オーサリング処理部１０４は、オーサリング処理を行なって、オーサリングデータ格納部１０１に格納されている１以上のオーサリングデータから、新たなオーサリングデータを取得してもよい。

オーサリング処理とは、電子書籍やＷＥＢページ等のデジタルコンテンツやマルチメディアデータなどの制作や編集を行なう処理である。オーサリング処理は、例えば、オーサリングデータに配置されたオブジェクトを処理対象として行なわれる処理や、オーサリングデータを構成するページを作成したり、削除したり、ページの順番等を変更したりする処理や、ページの属性（例えば、サイズや、色等）を設定する処理や、ページに図示しない格納部等に格納されている１以上のコンテンツを配置したり、ページからコンテンツを削除する処理等である。オーサリング処理は、オーサリングデータを新規に作成する処理や、ページにレイヤを作成したり、削除したりする操作であってもよい。

オーサリング処理部１０４がオブジェクトについて行なうオーサリング処理とは、特に、オーサリング処理のうちの、オブジェクトを処理対象として行なわれる処理である。オブジェクトについて行なわれるオーサリング処理は、例えば、オブジェクトの属性を変更する処理である。オブジェクトの属性とは、例えば、オブジェクトを表示するための属性である。オブジェクトを表示するための属性は、例えば、オブジェクトの位置や、サイズ、色、向き、透過度、解像度等である。例えば、オーサリング処理部１０４は、オブジェクトの位置を変更する処理を行なう。また、オーサリング処理部１０４は、オブジェクトの色を変更する処理を行なう。オブジェクトの色を変更する処理は、例えば、画像オブジェクトやテキストオブジェクトの明度、色相、および彩度の少なくとも一つを変更する処理である。あるいは、オブジェクトのＲＧＢ値や、ＣＭＹＫ値を変更する処理であっても良い。

また、オブジェクトについて行なうオーサリング処理は、オブジェクトをページに配置したり、ページから削除したりする処理であってもよい。また、一のページに配置されたオブジェクトを、他のページに配置する処理や、複製する処理等であっても良い。ここでのページは、例えば、オーサリング処理の結果として得られるオーサリングデータのページである。

例えば、オーサリング処理部１０４は、音声認識部１０３による音声認識処理の結果（以下、音声認識結果と称す）の少なくとも一部から処理対象の一または二以上のオブジェクトを特定する。また、音声認識結果の少なくとも一部から実行する一または二以上の処理を特定する。そして、上記で特定した処理対象のオブジェクトに対して、上記で特定した処理を行ってオーサリングデータを取得する。

例えば、オーサリング処理部１０４は、音声認識部１０３が音声認識結果として取得した、処理対象を示す情報と実行する処理を示す情報とを有する情報の少なくとも一部から処理対象を示す情報を取得して、この情報が示す一または二以上のオブジェクトを特定する。例えば、処理対象を示す情報が、処理対象となるオブジェクトの識別子（例えば、オブジェクト名やオブジェクトのファイル名等）である場合、オーサリング処理部１０４は、この識別子と対応づけられたオブジェクトを処理対象に特定する。また、処理対象が示す情報が、処理対象を特定するための条件の情報である場合、この条件を満たすオブジェクトを特定してもよい。例えば、処理対象を示す情報が、処理対象を特定するための属性値（例えば、データタイプや、色や、サイズ等）である場合、オーサリング処理部１０４は、この属性値を有するオブジェクトを処理対象に特定する。また、処理対象を示す情報が、ページやレイヤを示す情報である場合、オーサリング処理部１０４は、この処理対象を示す情報が示すページやレイヤに配置されているオブジェクトを処理対象に特定しても良い。また、音声認識結果として複数の処理対象を示す情報が取得された場合、オーサリング処理部１０４は、これらを組合わせにより特定されるオブジェクト（例えば、これらの論理和や論理積が示すオブジェクト）を処理対象に特定しても良い。

例えば、オーサリング処理部１０４は、音声認識部１０３が音声認識結果として取得した、処理対象を示す情報と実行する処理を示す情報とを有する情報の少なくとも一部から実行する処理を示す情報を取得して、この情報が示す一または二以上の処理を特定する。そして、オブジェクト等に対して、上記で特定した処理を行ってオーサリングデータを取得してもよい。例えば、オーサリング処理部１０４は、上記で特定した処理対象のオブジェクト等に対して、上記で特定した処理を行なってオーサリングデータを取得しても良い。

なお、上述したような音声認識部１０３が音声認識を行なって取得した音声に対応したテキストデータから、認識用文字列等を用いて、処理対象を示す情報や、実行する処理を示す情報を取得する処理を音声認識部１０３が行なう代わりに、オーサリング処理部１０４が行なうようにし、取得した処理対象を示す情報や、実行する処理を示す情報を用いて、オーサリング処理部１０４が処理対象や、実行する処理を特定するようにしても良い。後述する具体例においては、このような場合を例に挙げて説明する。

オーサリング処理部１０４は、例えば、音声認識部１０３が音声認識結果として取得した音声受付部１０２が受け付けた音声が示すテキストデータの先頭側から、処理対象を示す文字列を取得し、後尾側から実行する処理を示す文字列を取得する。また、例えば、オーサリング処理部１０４は、音声認識結果として取得したテキストデータの先頭側から、処理対象を示す文字列を取得し、その直後、あるいは、予め指定された１以上の手がかり句を挟んで配置される位置から、実行する処理を示す文字列を取得してもよい。また、オーサリング処理部１０４は、例えば、形態素解析と、手がかり句との組み合わせや、文字列の位置関係等により、処理対象を示す文字列や、実行する処理を示す文字列を取得してもよい。例えば、オーサリング処理部１０４は、「画像を拡大する」というテキストデータの先頭側から、「画像」という名詞句を処理対象を示す文字列として取得し、その後に「を」という手がかり句を介して位置する「拡大」という名詞句を、実行する処理を示す文字列として取得しても良い。また、オーサリングデータ格納部１０１に格納されている一のオーサリングデータに配置されたオブジェクトや、既に、ページ等に配置されているオブジェクトや、現在、表示部１０６により少なくとも一部が表示されているオーサリングデータに配置された一以上のオブジェクトに対応するオブジェクトの識別子の中から、音声認識結果により取得されたテキストデータ内に含まれるものを検索等により特定してもよい。同様に、既に、オーサリングデータのページ等に配置されているオブジェクトや、現在、表示部１０６により表示されているオブジェクトに対応する属性値や、予め図示しない格納部等に用意されている属性値の中から、対応する属性値が、音声認識結果により取得されたテキストデータ内に含まれる属性値を検索等により特定してもよい。同様に、オーサリング処理部１０４が実行可能なオーサリング処理を示す情報の中から、音声認識結果により取得されたテキストデータ内に含まれるものを検索等により特定してもよい。

なお、オーサリング処理部１０４は、処理対象を示す情報を、適宜、処理対象を特定可能な情報に変換して、この変換した情報を用いて、処理対象を特定してもよい。かかる場合も処理対象を示す情報を用いて、処理対象を特定することと考えてもよい。例えば、処理対象を示す情報が「画像」という自然言語の文字列である場合、この情報を、図示しない格納部等に予め用意された変換表や、変換ルール等を用いて、「データタイプ」が「イメージ」であるデータを処理対象に特定する情報等に変換してもよい。かかる変換は、公知であるため、ここでは詳細な説明は省略する。

また、オーサリング処理部１０４は、実行する処理を示す情報を、適宜、実行する処理を特定可能な情報に変換して、この変換した情報を用いて、実行する処理を特定してもよい。かかる場合も実行する処理を示す情報を用いて、実行する処理を特定することと考えてもよい。例えば、実行する処理を示す情報が「大きく」という自然言語の文字列である場合、この情報を、図示しない格納部等に予め用意された変換表や、変換ルール等を用いて、拡大する処理を特定する指示やコマンド等に変換してもよい。

なお、オーサリング処理部１０４は、音声認識の結果から、処理対象のオブジェクトだけを特定してもよく、実行する処理だけを特定するようにしてもよい。例えば、オーサリング処理部１０４は、音声認識の結果から、処理対象のオブジェクトを特定し、実行する処理は、予め指定されたデフォルトの処理を特定するようにしても良い。また、オーサリング処理部１０４は、現在、表示部１０６が表示しているオブジェクト（あるいは、現在表示されているオーサリングデータに配置されている現在表示されていないオブジェクト）を処理対象のオブジェクトに特定し、音声認識の結果から実行する処理を特定するようにしても良い。

オーサリング処理部１０４は、例えば、表示部１０６が表示しているオブジェクトを処理対象としてオーサリング処理を行なう。オーサリング処理部１０４は、例えば、音声認識結果により特定された処理対象のオブジェクトのうちの、表示部１０６が現在表示しているオブジェクトを処理対象として、オーサリング処理を行う。また、オーサリング処理部１０４は、音声認識結果が、処理対象を示す情報を有さない場合、表示部１０６が現在表示しているオブジェクトを処理対象として、オーサリング処理を行うようにしてもよい。

なお、オーサリング処理部１０４は、表示部１０６が表示画面内に全体を表示しているオブジェクトのみを処理対象としてオーサリング処理を行なうようにしてもよい。例えば、オーサリング処理部１０４は、表示部１０６が表示しているオブジェクトについて、表示画面内に全体が表示されているか否かを判断し、全体が表示されているものだけを表示対象に特定し、全体が表示されていないものは表示対象から除外するようにしてもよい。なお、この場合においても、上述したように、音声認識結果により特定された処理対象のオブジェクトのうちの、表示部１０６が表示画面内に全体を表示しているオブジェクトのみを処理対象として特定してもよい。

また、オーサリング処理部１０４は、表示部１０６が表示していないオブジェクトを処理対象としてオーサリング処理を行なうようにしてもよい。例えば、オーサリング処理部１０４は、現在表示されていないページに配置されたオブジェクトや、現在表示画面内に表示されていないオブジェクトを処理対象に特定してオーサリング処理を行うようにしてもよい。この場合、全体が表示されていないオブジェクトを、表示していないオブジェクトに含めるようにしてもよく、含めないようにしてもよい。また、この場合においても、上述したように、音声認識結果により特定された処理対象のオブジェクトのうちの、表示部１０６が表示していないオブジェクトだけを処理対象として特定してもよい。

また、オーサリング処理部１０４が取得するオーサリングデータが、１または２以上のレイヤを有する場合、オーサリング処理部１０４は、オーサリングデータの、音声認識処理により指定されたレイヤに対してオーサリング処理を行なうようにしてもよい。レイヤに対するオーサリング処理とは、例えば、指定されたレイヤが、オブジェクトが配置可能な一以上のレイヤである場合、このレイヤに配置されたオブジェクトについて行なわれる拡大や移動等の上述したようなオーサリング処理である。レイヤに配置されたオブジェクトについてオーサリング処理を行なうよう場合、指定されたレイヤに配置されたすべてのオブジェクトを処理対象として特定してもよく、上述したように、音声認識結果により特定された処理対象のオブジェクトのうちの、指定されたレイヤに配置されたオブジェクトだけを処理対象として特定してもよい。また、レイヤに対するオーサリング処理は、例えば、レイヤ自身の属性値等を変更する処理である。例えば、一のレイヤが、このレイヤの下に配置される他のレイヤに配置されたオブジェクトの属性値を変更するレイヤである場合、オーサリング処理は、この属性値を設定する処理であっても良く、このようなレイヤを生成する処理であっても良い。例えば、一のレイヤが、その下に配置される画像オブジェクトの彩度を変更するレイヤである場合、オーサリングｓよりは、この一のレイヤが変更する彩度の量を変更する処理であっても良い。例えば、このような、下に配置される画像オブジェクトの属性値を変更するレイヤとしては、調整レイヤと呼ばれるものがある。また、レイヤ自身の属性値等を変更する処理は、レイヤの透過度や合成モード等の属性値を変更する処理であってもよい。

オーサリング処理部１０４は、音声認識結果の少なくとも一部から、被処理対象を特定し、被処理対象に対して１以上のオブジェクトを用いてオーサリング処理を行なうようにしてもよい。例えば、オーサリング処理部１０４は、音声認識結果から、被処理対象を示す情報を取得して、この被処理対象を示す情報が示す被処理対象を特定する。そして、この被処理対象に対して、オブジェクトを用いてオーサリング処理を行う。例えば、オーサリング処理部１０４は、現在表示されているページに配置された一のオブジェクトを、被処理対象を示す情報で特定されるページへ移動させるようにしてもよい。

オーサリング処理部１０４は、例えば、音声認識結果の少なくとも一部から、処理対象のオブジェクトを特定できた場合に、オブジェクトに対してオーサリング処理を行ない、処理対象のオブジェクトを特定できない場合に、表示部１０６が表示しているオブジェクトを処理対象としてオーサリング処理を行なうようにしてもよい。

オーサリング処理部１０４は、例えば、音声認識結果の少なくとも一部から、処理対象のオブジェクトを特定できた場合に、オブジェクトに対してオーサリング処理を行ない、処理対象のオブジェクトを特定できない場合に、オーサリングされている全てのオブジェクトを処理対象としてオーサリング処理を行なうようにしてもよい。オーサリングされているすべてのオブジェクトとは、例えば、オーサリング処理により、いずれかのページに配置されているすべてのオブジェクトや、オーサリング処理により、オーサリングデータに含まれることとなった全てのオブジェクトである。ただし、予めページ等に固定されているページ番号等の文字列や画像や、テンプレート等として固定されている文字列や画像等については、オーサリングされているオブジェクトから除外するようにしても良い。

なお、オーサリング処理部１０４が、オーサリングデータを生成したり、ページを生成したり、削除したり、レイヤを生成したり、オブジェクトを配置したり削除したり、オブジェクトの属性を変更したりする処理は、公知技術であるため、ここでは、詳細な説明は省略する。

なお、オブジェクトが、音声付データである場合、音声認識部１０３は、処理対象を示す情報として、音声受付部１０２が受け付けた音声から、処理対象を示す音声データや、この音声データの特徴量や、音素や、音素片等の処理対象を示す音声に関する情報を取得するようにし、オーサリング処理部１０４は、これらの処理対象を示す情報を用いて、音声付データであるオブジェクトが有する音声データについて、処理対象を示す音声に関する情報を用いて音声検索を行って、一致する音声を有すると判断された音声付データであるオブジェクトを処理対象に特定してもよい。

出力部１０５は、オーサリング処理部１０４の処理結果を出力する。例えば、出力部１０５は、オーサリング処理部１０４が取得したオーサリングデータを出力する。

ここでの出力とは、プリンタへの印字、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡し、図示しないモニタ等への表示などを含む概念である。例えば、出力部１０５は、オーサリング処理部１０４が取得したオーサリングデータを、オーサリングデータ格納部１０１に蓄積する。ここでのオーサリング処理部１０４が取得したオーサリングデータは、オーサリング処理中において一時的に取得されたオーサリングデータ等も含むと考えてもよい。また、例えば、出力部１０５は、オーサリング処理部１０４が取得したオーサリングデータを、外部の記憶媒体に蓄積したり、外部の装置等に送信してもよい。なお、ここでの表示は、後述する表示部１０６が行なう表示と同様の表示であっても良く、例えば、外部の装置を利用した表示等であっても良い。

出力部１０５は、通信手段等の出力デバイスを含むと考えても含まないと考えても良い。出力部１０５は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

表示部１０６は、オーサリングデータ格納部１０１に格納されている１以上のオーサリングデータを表示する。表示部１０６は、例えば、１以上のオブジェクトが配置されたオーサリングデータを表示する。表示部１０６が表示するオーサリングデータは、１以上のページのオーサリングデータや、１以上のページ内の一部の領域のオーサリングデータであっても良い。また、表示部１０６は、一のオーサリングデータの１以上のページの１以上のレイヤを表示しても良い。表示部１０６は、例えば、オーサリング処理の途中等において、オーサリングデータに変更が加えられる毎に、変更したオーサリングデータを表示してもよい。例えば、オーサリング処理部１０４によるオーサリング処理に応じてオーサリングデータ格納部１０１に格納されたオーサリングデータが更新される毎に、この更新に応じて、オーサリングデータの表示を更新してもよい。なお、ここでの表示は、オーサリングデータの画面を表示するためのデータを、図示しない外部の装置に送信することであっても良く、この画像を表示するためのデータにより外部の装置でオーサリングデータの画面を表示させることであっても良い。この外部の装置は、例えば、オーサリング装置１がサーバ装置である場合、このサーバ装置にネットワーク等で接続された端末装置である。この外部の装置は、例えば、オーサリングデータの画面を表示するためのデータを用いてこの画面の表示を行なう表示手段（図示せず）や、表示デバイス（図示せず）等を備えた装置である。

表示部１０６は、ディスプレイデバイスを含むと考えても含まないと考えても良い。表示部１０６は、ディスプレイデバイスのドライバーソフトまたは、ディスプレイデバイスのドライバーソフトとディスプレイデバイス等で実現され得る。

次に、オーサリング装置１の動作の一例について図２のフローチャートを用いて説明する。ここでは、オーサリング装置１のオーサリングデータ格納部１０１に既に一以上のオーサリングデータが予め格納されている場合を例に挙げて説明する。

（ステップＳ１０１）表示部１０６は、オーサリングデータ格納部１０１に格納されている一のオーサリングデータを表示するか否かを判断する。例えば、図示しない受付部が、一のオーサリングデータを表示する指示を受け付けた場合に、オーサリングデータを表示することを決定してもよい。オーサリングデータを表示する場合、ステップＳ１０２に進み、表示しない場合、ステップＳ１０１に戻る。

（ステップＳ１０２）表示部１０６は、一以上のオブジェクトが配置された一のオーサリングデータを、オーサリングデータ格納部１０１から図示しないメモリ等の記憶媒体等に読み出して図示しないモニタ等に表示する。例えば、オーサリングデータが複数のページを有している場合、表示部１０６は、オーサリングデータの予め指定された一以上のページや、ユーザにより指定された一以上のページを表示する。

（ステップＳ１０３）音声受付部１０２は、音声を受け付けたか否かを判断する。受け付けた場合、ステップＳ１０４に進み、受け付けていない場合、ステップＳ１１７に進む。

（ステップＳ１０４）音声認識部１０３は、ステップＳ１０３で受け付けた音声について音声認識処理を行って音声認識結果であるテキストデータを取得する。

（ステップＳ１０５）オーサリング処理部１０４は、ステップＳ１０４で取得したテキストデータに、処理対象を示す情報があるか否かを判断する。ある場合、この情報を取得して、ステップＳ１０６に進み、ない場合、ステップＳ１１２に進む。オーサリング処理部１０４は、図示しない格納部等に予め格納されているオブジェクトの属性値（例えば、データタイプ）を示す一以上の文字列を、処理対象を表す認識用文字列として読み出し、読み出した文字列に一致する文字列が含まれるか否かを判断し、含まれる場合、この属性値を、処理対象を示す情報として取得する。また、例えば、オーサリング処理部１０４は、現在表示部１０６が表示しているページに配置されている一以上のオブジェクトの識別子を、認識用文字列として取得し、この識別子と一致する文字列がステップＳ１０４で取得したテキストデータに含まれるか否かを判断し、含まれる場合、このオブジェクトの識別子を処理対象を示す情報として取得してもよい

（ステップＳ１０６）オーサリング処理部１０４は、処理対象となるオブジェクトを特定する。例えば、ステップＳ１０５で取得した処理対象を示す情報が、オブジェクトの識別子である場合、このオブジェクトの識別子が示すオブジェクトを、表示されているページ内において検出することで、処理対象のオブジェクトを特定する。また、ステップＳ１０５で取得した処理対象を示す情報が、オブジェクトの属性値を示す情報である場合、この属性値を有するオブジェクトを表示されているページ内において検出することで、処理対象のオブジェクトとして特定する。なお、オーサリング処理部１０４は、ここで検出したオブジェクトにおいて、オブジェクト全体が表示画面内に表示されていないオブジェクトを検出し、この検出したオブジェクトを除外したオブジェクトを、処理対象として特定するようにしてもよい。全体が表示されていないオブジェクトを処理対象から除外するか否かは、ユーザが予め設定しておくようにしても良い。

（ステップＳ１０７）オーサリング処理部１０４は、ステップＳ１０４で取得したテキストデータに、実行する処理を示す情報があるか否かを判断する。ある場合、この情報を読み出して、ステップＳ１０８に進み、ない場合、ステップＳ１１１に進む。例えば、予め用意された一以上の実行する処理を表す認識用文字列を図示しない格納部等から読み出し、読み出した実行する処理を表す認識用文字列と一致する文字列が含まれるか否かを判断し、含まれる場合、この処理を示す情報を取得する。

（ステップＳ１０８）オーサリング処理部１０４は、ステップＳ１０４で取得したテキストデータに、被処理対象を示す情報が含まれているか否かを判断する。含まれていない場合、ステップＳ１０９に進み、含まれている場合、ステップＳ１１１に進む。例えば、現在表示されているオーサリングデータに含まれる被処理対象を示す情報を、被処理対象を表す認識用文字列として取得し、これらのいずれかと一致する被処理対象を示す情報が含まれているか否かを判断し、含まれている場合、この被処理対象を示す情報を取得する。あるいは、形態素解析と手がかり句とを利用して、被処理対象を示す情報を取得してもよい。例えば、「ページ」や「レイヤ」という手がかり句と、これらの手がかり句の直前に検出される数詞等を検出することで、被処理対象であるページやレイヤを示す情報を検出してもよい。

（ステップＳ１０９）オーサリング処理部１０４は、ステップＳ１０７で取得した処理を示す情報が示す処理を、ステップＳ１０６で特定したオブジェクトに実行する。そして、ステップＳ１０３に戻る。なお、表示部１０６は、処理の実行結果に応じて、表示画面を適宜、更新する。

（ステップＳ１１０）オーサリング処理部１０４は、ステップＳ１０６で特定したオブジェクトに対して、デフォルトの処理を行う。そして、ステップＳ１０３に戻る。なお、表示部１０６は、処理の実行結果に応じて、表示画面を適宜更新する。

（ステップＳ１１１）オーサリング処理部１０４は、ステップＳ１０７で取得した処理を示す情報が示す処理を、ステップＳ１０８において取得した被処理対象について、ステップＳ１０６で特定したオブジェクトに実行する。なお、ステップＳ１０７で取得した処理を示す情報が示す処理が、ステップＳ１０８において取得した被処理対象について実行可能な処理でない場合には処理を実行しなくてもよい。そして、ステップＳ１０３に戻る。なお、表示部１０６は、処理の実行結果に応じて、表示画面を適宜更新する。

（ステップＳ１１２）オーサリング処理部１０４は、ステップＳ１０４で取得したテキストデータに、実行する処理を示す情報があるか否かを判断する。ある場合、この情報を読み出して、ステップＳ１１３に進み、ない場合、ステップＳ１０３に戻る。

（ステップＳ１１３）オーサリング処理部１０４は、ステップＳ１０４で取得したテキストデータに、レイヤを指定する情報が含まれているか否かを判断する。含まれていない場合、ステップＳ１１４に進み、含まれている場合、ステップＳ１１６に進む。

（ステップＳ１１４）オーサリング処理部１０４は、現在表示部１０６が表示しているオブジェクトを検出して特定する。オーサリング処理部１０４は、例えば、検出したオブジェクトの識別子等を取得する。

（ステップＳ１１５）オーサリング処理部１０４は、ステップＳ１１５で除外されずに残ったオブジェクトについて、ステップＳ１１２で取得した処理を示す情報が示すオーサリング処理を実行する。そして、ステップＳ１１６に戻る。なお、表示部１０６は、処理の実行結果に応じて、表示画面を適宜更新する。

（ステップＳ１１６）オーサリング処理部１０４は、ステップＳ１１３で検出したレイヤを示す情報が示すレイヤに配置されているオブジェクトを処理対象として特定し、このオブジェクトについて、ステップＳ１１２で取得した処理を示す情報が示すオーサリング処理を実行する。そして、ステップＳ１１６に戻る。なお、表示部１０６は、処理の実行結果に応じて、表示画面を適宜更新する。
（ステップＳ１１７）出力部１０５は、表示部１０６が表示しているオーサリングデータを出力するか否かを判断する。例えば、図示しない受付部等が、出力する指示を受け付けた場合に、オーサリングデータを出力することを決定する。出力する場合、ステップＳ１１８に進み、出力しない場合、ステップＳ１０３に戻る。
（ステップＳ１０３）出力部１０５は、表示部１０６が表示しているオーサリングデータを出力する。例えば、出力部１０５は、オーサリングデータを、外部に送信してもよく、変更されたオーサリングデータで、オーサリングデータ格納部１０１に格納されている変更前のオーサリングデータを更新（例えば、上書き）してもよい。

なお、図２のフローチャートにおいて、ステップＳ１１０でデフォルトの処理を行なわないようにしても良い。

また、図２のフローチャートのステップＳ１０６において特定する処理対象を、現在表示されているオブジェクトの少なくとも一部とする代わりに、表示部１０６が表示しているオブジェクトと同じオーサリングデータ（例えば、同じファイル等）に含まれる非表示のオブジェクトのうちの一部としても良く、非表示のオブジェクトの全てとしても良い。なお、処理対象を現在表示されているオブジェクトとするか、非表示のオブジェクトとするかは、例えば、ユーザが予め設定しておくようにしても良く、ユーザが処理を行なう際に指示するようにしてもよい。

また、図２のフローチャートのステップＳ１１４において、表示の有無にかかわらず、表示部１０６が表示しているオブジェクトと同じオーサリングデータ（例えば、同じファイル等）に含まれるすべてのオブジェクトを処理対象に特定してもよい。
また、図２のフローチャートのステップＳ１１５は省略してもよい。

なお、図２のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

以下、本実施の形態におけるオーサリング装置１の具体的な動作について説明する。

（具体例１）
図３は、本実施の形態のオーサリング装置１の一例を示す図であり、オーサリング装置１は、タブレット型端末であるとする。オーサリング装置１は、マイクロフォン１０２ａと、モニタ１０６ａとを備えているものとする。また、モニタ１０６ａの表面には、図示しないタッチパネルが設けられているものとする。

図４は、オーサリングデータ格納部１０１に格納されたオーサリングデータを管理するオーサリングデータ管理表である。オーサリングデータ管理表は、「オーサリングＩＤ」と、「オーサリングデータ」という属性を有している。「オーサリングＩＤ」は、オーサリングデータの識別子であり、ここでは、オーサリングデータのファイル名であるとする。「オーサリングデータ」は、オーサリングデータであり、ここでは、オーサリングデータのファイルであるとする。ここでは一例として、オーサリングデータが、電子書籍である場合について説明する。

まず、ユーザがタッチパネル等を操作して、オーサリングデータ格納部１０１に格納されている、「オーサリングＩＤ」が「００１」であるオーサリングデータを表示する指示をオーサリング装置１の図示しない受付部等に与えたとすると、表示部１０６は、オーサリングＩＤ「００１」と対応づけられたオーサリングデータをオーサリングデータ格納部１０１からメモリ等に読出して、モニタ１０６ａにこのオーサリングデータを表示する。ここでは、表示部１０６は、デフォルト等の設定に従って、このオーサリングデータの１ページ目の左上の一部の領域を表示する。以下、「オーサリングＩＤ」が「００１」であるオーサリングデータをオーサリングデータ００１と称す。

図５は、オーサリングデータ００１のページ構成を示す模式図である。オーサリングデータ００１は、第１ページであるページ５１から第４ページであるページ５４までの合計４ページのページを有しているものとする。各ページには、画像オブジェクトと、テキストオブジェクトとが配置されている。第一ページであるページ５１には、テキストオブジェクト５０１および５０４と、画像オブジェクト５０２と５０３とが配置されている。

図６は、表示部１０６によるオーサリングデータ００１の表示例を示す図である。モニタ１０６ａには、ページ５１の領域５１ａが表示されているものとする。具体的には、モニタ１０６ａには、ページ５１に配置されたテキストオブジェクト５０１の全体と、画像オブジェクト５０２の一部と、画像オブジェクト５０３の全体とが表示されている。

図７は、オーサリング処理部１０４が音声認識部１０３が音声認識結果として取得したテキストデータから処理対象を認識するために用いられる認識用文字列と、認識の結果として指定される処理対象との対応関係を管理する認識処理対象管理表である。認識処理対象管理表は、「対象文字列」と、「処理対象」という属性を有している。「対象文字列」は、処理対象を認識するための認識用文字列である。「処理対象」は、処理対象を示す情報であり、例えば、処理対象を検索するための属性とその属性値（属性：属性値）との組み合わせを示している。例えば、「データタイプ：画像」は、データタイプが画像であるオブジェクトを指定することを意味する。また、「オブジェクト名：ＡＢＣ」は、オブジェクト名が「ＡＢＣ」であるオブジェクトを指定することを示している。「対象文字列」の［＊＊］は、１文字以上の連続する文字列を示す正規表現であるとする。例えば、「ファイル［＊＊］」は、「ファイルＡＢＣ」や「ファイルＣＤＥ」等を示す。認識処理対象管理表は、例えば、図示しない格納部等に予め格納されている。

なお、ここでは、「処理対象」の属性値は、自然言語で表しているが、「処理対象」は、例えば、これらの自然言語に相当する処理対象を特定するために用いられる一以上の属性名や、属性値等で構成されていてもよい。また、「処理対象」は、これらの自然言語に対応する検索処理や判断処理等に用いられる検索キー等のデータであっても良い。

図８は、オーサリング処理部１０４が音声認識部１０３が音声認識結果として取得したテキストデータから実行する処理を認識するために用いられる認識用文字列と、認識の結果として指定される処理との対応関係を管理する認識処理管理表である。認識処理管理表は、「処理文字列」と、「処理」という属性を有している。「処理文字列」は、実行する処理を認識するための認識用文字列である。「処理」は、実行する処理を示す情報である。「処理」の［被処理対象］は、後述する被処理対象管理表を用いて取得される被処理対象の文字列である。認識処理管理表は、例えば、図示しない格納部等に予め格納されている。

なお、ここでは、「処理」の属性値は、自然言語で表しているが、「処理」は、例えば、これらの自然言語に相当する一以上の関数や、メソッド名や、「ｉｆ」、「ｔｈｅｎ」等で示される制御構文等で構成されていてもよい。また、「処理対象」は、これらの自然言語に対応する判断処理等を行うためのアルゴリズムであっても良い。

図９は、オーサリング処理部１０４が音声認識部１０３が音声認識結果として取得したテキストデータから被処理対象を認識するために用いられる認識用文字列を管理する被処理対象管理表である。被処理対象管理表は、「被処理対象」は、被処理対象を認識するための認識用文字列である。「被処理対象」において、［＊＊＊］は、１文字以上の連続する文字列を示す正規表現であるとする。例えば、「レイヤ［＊＊＊］」は、「レイヤＡＢＣ」や、「レイヤＤＥＦ」等を示す。

次に、ユーザが、図６に表示されている画像のサイズを拡大するために、マイクロフォン１０２ａに対して「画像を大きく」という音声を発したとする。この音声は、「画像」という処理対象を示す音声と、「大きく」という処理を示す音声とを有する音声であるとする。音声受付部１０２は、マイクロフォン１０２ａを介して、ユーザが発した音声を音声信号として受け付け、標本化を行なって音声データに変換する。

そして、音声認識部１０３が、音声受付部１０２が取得した音声データに対して音声認識を行なった結果、「画像を大きく」というテキストデータを取得したとする。

オーサリング処理部１０４は、図７に示した認識処理対象管理表の各レコード（行）から、処理対象を表す認識用文字列である「対象文字列」の属性値を順次読出し、読出した属性値と一致する文字列が、音声認識部１０３が取得したテキストデータに含まれるか否かを順次判断する。そして、含まれると判断された属性値に対応するレコードの「処理対象」の属性値、つまり、含まれると判断された属性値と同じレコードの「処理対象」の属性値を取得する。

ここでは、図７の上から一行目のレコードの「対象文字列」である「画像」と一致する文字列が、音声認識部１０３が取得したテキストデータに含まれるため、このレコード「処理対象」の値である「データタイプ：画像」を処理対象を示す情報として取得する。

オーサリング処理部１０４は、つぎに、図８に示した認識処理管理表の各レコード（行）から、実行する処理を表す認識用文字列である「処理文字列」の属性値を順次読出し、読出した属性値と一致する文字列が、音声認識部１０３が取得したテキストデータに含まれるか否かを順次判断する。そして、含まれると判断された属性値に対応するレコードの「処理」の属性値、つまり、含まれると判断された属性値と同じレコードの「処理」の属性値を取得する。

ここでは、図７の上から一行目のレコードの「処理文字列」である「大きく」と一致する文字列が、音声認識部１０３が取得したテキストデータに含まれるため、このレコード「処理」の値である「１２０％拡大」を取得する。この「１２０％拡大」は、オブジェクトを１２０％拡大する処理の実行を指示する情報であるとする。

さらに、オーサリング処理部１０４は、図９に示した被処理対象管理表の「被処理対象」の属性値を順次読出し、読出した属性値と一致する文字列が、音声認識部１０３が取得したテキストデータに含まれるか否かを順次判断する。そして、含まれると判断された属性値を取得する。例えば、テキストデータには、「レイヤ」や、「ページ」という文字列が含まれないため、図９に示した被処理対象管理表のいずれのレコードの「被処理対象」の属性値も、一致するものがなかったとする。なお、一致するものがあるか否かの判断において、「被処理対象」の属性値に含まれる正規表現の開始位置や、終了位置等は、形態素解析等を用いてテキストデータから取得した形態素の区切り等から判断してもよい。

上述したように、音声認識部１０３が取得したテキストデータから、処理対象を示す情報が取得され、処理を示す情報が取得され、被処理対象を示す情報が取得できなかったため、オーサリング処理部１０４は、現在表示されているオブジェクトのうちの、処理対象を示す情報「データタイプ：画像」が示すオブジェクトであって、全体がモニタ１０６ａに表示されているオブジェクトに対して、処理を示す情報「１２０％拡大」が示すオーサリング処理を行なう。

具体的には、現在表示されているオブジェクトのうちの、データタイプが画像であるオブジェクトであるオブジェクト５０２およびオブジェクト５０３を検出する。さらに、検出したオブジェクト５０２およびオブジェクト５０３の中から、オブジェクト全体がモニタ１０６ａに表示されていないオブジェクトを検出する。例えばオブジェクト内の座標の一部が、表示領域内に位置していないオブジェクトを検出する。ここでは、オブジェクト５０２を検出して、このオブジェクト５０２を、処理対象から除外する。そして、オーサリング処理部１０４は、処理対象として残ったオブジェクト５０２に対して、サイズ（大きさ）を１２０％拡大する処理を行なう。そして、表示部１０６は、このようにして取得されたオーサリングデータにより、モニタ１０６ａの表示を更新する。

図１０は、オーサリング処理後に表示部１０６が表示したオーサリングデータを示す図である。

なお、拡大処理の対象がテキストオブジェクトである場合、テキストが配置される領域を拡大するようにしても良く、テキストの文字サイズを変更するようにしても良い。

また、ここでは、オブジェクト全体がモニタ１０６ａに表示されていないオブジェクトを処理対象から除外するようにしたが、除外しないようにしてもよい。例えば、除外するか否かをユーザの指示等に応じて切り替えられるようにしてもよい。

また、ここでは、音声認識部１０３が取得したテキストデータに、「大きく」という文字列が含まれている場合について説明したが、例えば、仮に、このテキストデータに「大きく」の代わりに「もっと明るく」という文字列が含まれていた場合、オーサリング処理部１０４は、このテキストデータについて上記と同様の処理を行なって、図８に示した認識処理管理表から、「明度を１０％上げる」という処理を示す情報を取得する。これにより、オーサリング処理部１０４が実行する処理が、画像オブジェクトの明度を１０％上げることに特定される。そして、オーサリング処理部１０４が、この処理を、上記で特定された現在表示されている画像オブジェクトに対して行なうことで、現在表示されている画像オブジェクトの明度の値が１０％上げられて、表示される画像の明るさが明るくなる。

また、仮に、図６に示した状態において、音声受付部１０２がユーザから受け付けた音声が、「画像を４ページにコピー」という音声であったとし、音声認識部１０３が音声認識結果として「画像を第４ページにコピー」というテキストデータを取得したとする。

オーサリング処理部１０４は、音声認識結果として得られたテキストデータから、上記と同様の処理を行なって、処理対象を示す情報である「データタイプ：画像」と、処理を示す情報である「［被処理対象］にコピー」と、被処理対象を示す「第４ページ」とを取得する。例えば、上記のテキストデータは、「第４ページ」というテキストを含んでおり、このテキストが、図９に示した被処理対象管理表の上から二行目のレコードの「［＊＊＊］ページ」という正規表現を有する文字列と一致するため、オーサリング処理部１０４は、テキストデータから、この文字列に一致するテキストである「第４ページ」を，被処理対象を示す情報として取得する。

そして、オーサリング処理部１０４は、現在表示されているオブジェクトのうちの、データタイプが画像であるオブジェクトであるオブジェクト５０２およびオブジェクト５０３を第４ページにコピーする処理、具体的にはオブジェクト５０２およびオブジェクト５０３を複製して第４ページに配置する処理を行なう。ここでは、第１ページであるページ５１のオブジェクト５０２およびオブジェクト５０３の複製であるオブジェクト５０２ａおよび５０３ａを、第４ページであるページ５４の同じ位置（例えば同じ座標）に配置する。なお、ページ５１〜ページ５４には、例えば、「第１ページ」〜「第４ページ」という識別子をそれぞれ予め対応づけておくことで、コピー元のページと、コピーしたオブジェクトの配置先となるページを検出可能である。

これにより、「オーサリングＩＤ」が「００１」であるオーサリングデータ００１は、図１１に示すように変更される。

また、仮に、図６に示した状態において、ユーザが、マイクロフォン１０２ａに対して「もっと右」という音声を発したとする。この音声は、右へ移動させることを指示する音声であるとする。音声受付部１０２は、マイクロフォン１０２ａを介して、ユーザが発した音声を音声信号として受け付け、標本化を行なって音声データに変換する。そして、音声認識部１０３が、音声認識を行なって、「もっと右」というテキストデータを取得したとする。

オーサリング処理部１０４は、上記と同様に、図７に示した認識処理対象管理表の「対象文字列」の属性値を順次読出して一致する文字列が、音声認識部１０３が取得したテキストデータに含まれるか否かを順次判断するが、ここでは、いずれも含まれないと判断されたとする。つまり、オーサリング処理部１０４が、音声認識結果から、処理対象を特定できなかったとする。

このため、オーサリング処理部１０４は、上記と同様に、図８に示した認識処理管理表の各レコード（行）から、「処理文字列」の属性値を順次読出し、一致する文字列が、音声認識部１０３が取得したテキストデータに含まれると判断された場合に、含まれると判断された属性値に対応するレコードの「処理」の属性値を取得する。

ここでは、図７の上から六行目のレコードの「処理文字列」である「もっと右」と一致する文字列が取得したテキストデータに含まれるため、このレコードの「処理」の値である「右へ１０ピクセル移動」を取得する。この処理は、オブジェクトを右に１０ピクセル移動させる処理であり、この処理が、処理対象に対して行なう処理として特定された処理である。

さらに、オーサリング処理部１０４は、音声認識部１０３が取得したテキストデータに、レイヤを指定する情報が含まれるか否かを判断する。ここでは、具体的に、オーサリング処理部１０４は、取得したテキストデータに、図９に示した被処理対象管理表の上から一行目の属性値と同様の、「レイヤ［＊＊＊］」という正規表現を含む文字列と一致する文字列が含まれるか否かを判断する。ここでは、一致する文字列が含まれないと判断される。

このため、オーサリング処理部１０４は、現在、表示部１０６がモニタ１０６ａに表示している全てのオブジェクトであるオブジェクト５０１〜５０３を検出して，処理対象に特定する。

なお、ここでも、上記と同様に、一部が表示されていないオブジェクトは、処理対象から除外するようにしても良い。また、現在表示されている全てのオブジェクトの代わりに、オーサリング処理部１０４は、現在少なくとも一部が表示されているページであるページ５１に配置されているオブジェクトを処理対象として特定するようにしても良い。

そして、オーサリング処理部１０４は、上記で特定したオブジェクト５０１〜５０３に対して、それぞれ、上記で特定した処理であるオブジェクトの位置、ここでは座標を、右へ１０ピクセル移動させる処理を行なう。そして、表示部１０６は、このようにして取得されたオーサリングデータにより、モニタ１０６ａの表示を更新する。

図１２は、オーサリング処理後に表示部１０６が表示したオーサリングデータを示す図である。

図１３は、ページ５１が複数のレイヤを有している場合を説明するための模式図である。ここで、例えば、図５に示したオーサリングデータ００１の第１ページであるページ５１が、図１３に示すように、レイヤ５１ａと、レイヤ５１ｂとで構成されていたとする。レイヤ５１ａには、オブジェクト５０１およびオブジェクト５０２が配置され、レイヤ５１ｂには、オブジェクト５０３およびオブジェクト５０４が配置されていたとする。また、レイヤ５１ａは、「レイヤＬＦ」というレイヤ名が対応づけられており、レイヤ５１ｂには、「レイヤＬＢ」というレイヤ名が対応づけられていたとする。

このような場合において、仮に、図６のように、ページ５１を表示した状態で、ユーザが、マイクロフォン１０２ａに対して「レイヤＬＦを大きく」という音声を発したとする。この音声は、「レイヤＬＦ」という被処理対象を示す音声と、「大きく」という処理を示す音声とを有する音声であるとする。音声受付部１０２は、マイクロフォン１０２ａを介して、ユーザが発した音声を音声信号として受け付け、標本化を行なって音声データに変換する。そして、音声認識部１０３が、音声認識を行なって、「レイヤＬＦを大きく」というテキストデータを取得したとする。

オーサリング処理部１０４は、上記と同様に、図７に示した認識処理対象管理表の「対象文字列」の属性値を順次読出して一致する文字列がこのテキストデータに含まれるか否かを順次判断するが、ここでは、いずれも含まれないと判断されたとする。

このため、オーサリング処理部１０４は、上記と同様に、図８に示した認識処理管理表の各レコード（行）から、「処理文字列」の属性値を順次読出し、一致する文字列がこのテキストデータに含まれるか否かを判断して、上記と同様に、処理対象に対して行なう処理を特定する情報として、「１２０％拡大」を取得する。

さらに、オーサリング処理部１０４は、音声認識部１０３が取得したテキストデータに、「レイヤ［＊＊＊］」と一致する文字列が含まれるか否かを判断する。ここでは、「レイヤＬＦ」がこの文字列と一致するため、一致する文字列が含まれると判断される。

このため、オーサリング処理部１０４は、現在、表示部１０６がモニタ１０６ａに一部が表示しているページ５１の、レイヤ名が「レイヤＬＦ」であるレイヤ５１ａに配置されている全てのオブジェクトであるオブジェクト５０１及びオブジェクト５０２を検出して，処理対象に特定する。

なお、ここでも、上記と同様に、一部が表示されていないオブジェクトは、処理対象から除外するようにしても良い。

そして、オーサリング処理部１０４は、上記で特定したレイヤ５１ａに配置されているオブジェクト５０１及びオブジェクト５０２に対して、それぞれ、上記で特定した処理であるオブジェクトのサイズを１２０％拡大する処理を行なう。そして、表示部１０６は、このようにして取得されたオーサリングデータにより、モニタ１０６ａの表示を更新する。これにより、図５に示したオーサリングデータ００１のオブジェクト５０１および５０２を１２０％拡大したオーサリングデータを取得して、表示することができる。

（具体例２）
上記具体例においては、音声認識部１０３による音声認識結果から、処理対象のオブジェクトを特定できない場合に、表示部１０６がモニタ１０６ａに表示しているオブジェクトや、表示部１０６が表示しているページに配置されたオブジェクトに対して処理を行なう例について説明したが、以下においては、オーサリング処理部１０４が、オーサリングデータに配置されたオブジェクトのうちの、現在表示されているオブジェクト以外のオブジェクトに配置された全てのオブジェクトに対して処理を行なう例について説明する。

例えば、上記具体例と同様にオーサリングデータ００１をモニタ１０６ａに表示した状態で、ユーザが、マイクロフォン１０２ａに対して「大きく」という音声を発したとする。この音声は、「大きく」という処理を示す音声とを有する音声であるとする。音声受付部１０２は、マイクロフォン１０２ａを介して、ユーザが発した音声を音声信号として受け付け、標本化を行なって音声データに変換する。そして、音声認識部１０３が、音声認識を行なって、「大きく」というテキストデータを取得したとする。

このため、オーサリング処理部１０４は、上記と同様に、図８に示した認識処理管理表の各レコード（行）から、「処理文字列」の属性値を順次読出し、一致する文字列が、音声認識部１０３が取得したテキストデータに含まれるか否かを判断する。そして、含まれると判断した場合に、含まれると判断した属性値に対応するレコードの「処理」の属性値を取得する。

ここでは、図７の上から一行目のレコードの「処理文字列」である「大きく」と一致する文字列が取得したテキストデータに含まれるため、このレコードの「処理」の値である「１２０％拡大」を取得する。この処理が、処理対象に対して行なう処理として特定された処理である。

さらに、オーサリング処理部１０４は、音声認識部１０３が取得したテキストデータに、レイヤを指定する情報が含まれるか否かを判断する。ここでは、具体的に、オーサリング処理部１０４は、取得したテキストデータに、図９に示した被処理対象管理表の上から一行目の属性値と同様の、「レイヤ［＊＊＊］」という正規表現を含む文字列と一致する文字列が含まれるか否かを判断する。ここでは、一致する文字列が含まれないと判断されたとする。

このように、音声認識結果から処理対象のオブジェクトを特定できず、レイヤも検出されないため、オーサリング処理部１０４は、オーサリングデータ００１に配置されているオブジェクトのうちの、現在、表示部１０６がモニタ１０６ａに表示しているオブジェクトであるオブジェクト５０１〜５０３以外のオブジェクト、つまり現在表示されていない全てのオブジェクトを検出して、処理対象に特定する。

なお、オブジェクト５０２のように、オブジェクトの一部しか表示されていないオブジェクトは、現在表示されていないオブジェクトと考えて、処理対象に加えるようにしても良い。また、現在表示されている全てのオブジェクトの代わりに、オーサリング処理部１０４は、現在少なくとも一部が表示されているページであるページ５１に配置されている全てのオブジェクト（ここでは、例えば、オブジェクト５０１〜５０４）を処理対象から除外するようにしても良い。

そして、オーサリング処理部１０４は、オーサリングデータ００１の上記で特定したオブジェクト５０１〜５０３以外の全てのオブジェクトに対して、それぞれ、上記で特定した処理であるオブジェクトのサイズを１２０％拡大する処理を行なう。そして、表示部１０６は、このようにして取得されたオーサリングデータにより、モニタ１０６ａの表示を更新する。

図１４は、オーサリング処理後により変更されたオーサリングデータ００１のページ構成を示す模式図である。図１４に示すように、非表示のオブジェクト、つまり、ページ５２〜５４に配置されたオブジェクトおよびオブジェクト５０４のサイズが、図５に対して、いずれも１２０％拡大されている。

なお、非表示のオブジェクトを処理対象とする処理は、上記以外の処理についても適宜適用してもよいことはいうまでもない。

以上、本実施の形態によれば、音声を用いてオブジェクトについてオーサリング処理を行なうことができる。これにより、例えば、両手がふさがっている場合においても、容易にオーサリング処理を行なうことができる。

なお、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

また、上記各実施の形態では、オーサリング装置がスタンドアロンである場合について説明したが、オーサリング装置は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、受付部や出力部や表示部等は、通信回線を介して入力を受け付けたり、画面を表示するためのデータ等を出力したりすることになる。

また、上記各実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをＣＰＵ等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。その実行時に、プログラム実行部は、格納部（例えば、ハードディスクやメモリ等の記録媒体）にアクセスしながらプログラムを実行してもよい。

なお、上記各実施の形態におけるオーサリング装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、１以上のオブジェクトが配置されたデータであるオーサリングデータが格納されるオーサリングデータ格納部にアクセス可能なコンピュータを、音声を受け付ける音声受付部と、音声受付部が受け付けた音声について音声認識処理を行なう音声認識部と、音声認識部の音声認識処理の結果に応じて、オーサリングデータ格納部に格納されているオーサリングデータに配置されたオブジェクトについてオーサリング処理を行なうオーサリング処理部とオーサリング処理部の処理結果を出力する出力部として機能させるためのプログラムである。

なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を取得する取得部や、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には含まれない。

また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

図１５は、上記プログラムを実行して、上記実施の形態によるオーサリング装置を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現されうる。

図１５において、コンピュータシステム９００は、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブ９０５を含むコンピュータ９０１と、キーボード９０２と、マウス９０３と、モニタ９０４とを備える。

図１６は、コンピュータシステム９００の内部構成を示す図である。図１６において、コンピュータ９０１は、ＣＤ−ＲＯＭドライブ９０５に加えて、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９１１と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ９１２と、ＭＰＵ９１１に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９１３と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク９１４と、ＭＰＵ９１１、ＲＯＭ９１２等を相互に接続するバス９１５とを備える。なお、コンピュータ９０１は、ＬＡＮへの接続を提供する図示しないネットワークカードを含んでいてもよい。

コンピュータシステム９００に、上記実施の形態によるオーサリング装置等の機能を実行させるプログラムは、ＣＤ−ＲＯＭ９２１に記憶されて、ＣＤ−ＲＯＭドライブ９０５に挿入され、ハードディスク９１４に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ９０１に送信され、ハードディスク９１４に記憶されてもよい。プログラムは実行の際にＲＡＭ９１３にロードされる。なお、プログラムは、ＣＤ−ＲＯＭ９２１、またはネットワークから直接、ロードされてもよい。

プログラムは、コンピュータ９０１に、上記実施の形態によるオーサリング装置の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム９００がどのように動作するのかについては周知であり、詳細な説明は省略する。

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかるオーサリング装置等は、オーサリングを行なう装置等として適しており、特に、オーサリングデータに配置されたオブジェクトについてオーサリング処理を行なう装置等として有用である。

１オーサリング装置
１０１オーサリングデータ格納部
１０２音声受付部
１０２ａマイクロフォン
１０３音声認識部
１０４オーサリング処理部
１０５出力部
１０６表示部
１０６ａモニタ

Claims

１以上のオブジェクトが配置されたオーサリングデータが格納されるオーサリングデータ格納部と、
音声を受け付ける音声受付部と、
前記音声受付部が受け付けた音声について音声認識処理を行なう音声認識部と、
前記音声認識部の音声認識処理の結果に応じて、前記オーサリングデータ格納部に格納されているオーサリングデータに配置されたオブジェクトについてオーサリング処理を行なうオーサリング処理部と
前記オーサリング処理部の処理結果を出力する出力部とを備え、
前記オーサリング処理部は、前記音声認識結果の少なくとも一部から、処理対象のオブジェクトを特定できた場合に、当該オブジェクトに対してオーサリング処理を行ない、処理対象のオブジェクトを特定できない場合に、オーサリングデータが有する全てのオブジェクトを処理対象としてオーサリング処理を行なうオーサリング装置。
前記オーサリング処理部が行なうオーサリング処理は、オブジェクトの属性を変更する処理である請求項１記載のオーサリング装置。
前記オーサリング処理部が行なうオーサリング処理は、オブジェクトの位置を変更する処理である請求項２記載のオーサリング装置。
前記オーサリング処理部が行なうオーサリング処理は、オブジェクトの色を変更する処理である請求項２記載のオーサリング装置。
前記オブジェクトは、表示用のデータである表示データと、音声のデータである音声データとを一体化して有するオブジェクトである請求項１から請求項４いずれか一項に記載のオーサリング装置。
１以上のオブジェクトが配置されたオーサリングデータが格納されるオーサリングデータ格納部と、音声受付部と、音声認識部と、オーサリング処理部と、出力部とを用いて行なわれるオーサリング方法であって、
前記音声受付部が、音声を受け付ける音声受付ステップと、
前記音声認識部が、前記音声受付ステップで受け付けた音声について音声認識処理を行なう音声認識ステップと、
前記オーサリング処理部が、前記音声認識ステップによる音声認識処理の結果に応じて、前記オーサリングデータ格納部に格納されているオーサリングデータに配置されたオブジェクトについてオーサリング処理を行なうオーサリング処理ステップと
前記出力部が、前記オーサリング処理ステップによる処理結果を出力する出力ステップとを備え、
前記オーサリング処理ステップは、前記音声認識結果の少なくとも一部から、処理対象のオブジェクトを特定できた場合に、当該オブジェクトに対してオーサリング処理を行ない、処理対象のオブジェクトを特定できない場合に、オーサリングデータが有する全てのオブジェクトを処理対象としてオーサリング処理を行なうオーサリング方法。
１以上のオブジェクトが配置されたオーサリングデータが格納されるオーサリングデータ格納部にアクセス可能なコンピュータを、
音声を受け付ける音声受付部と、
前記音声受付部が受け付けた音声について音声認識処理を行なう音声認識部と、
前記音声認識部の音声認識処理の結果に応じて、前記オーサリングデータ格納部に格納されているオーサリングデータに配置されたオブジェクトについてオーサリング処理を行なうオーサリング処理部と
前記オーサリング処理部の処理結果を出力する出力部として機能させ、
前記オーサリング処理部は、前記音声認識結果の少なくとも一部から、処理対象のオブジェクトを特定できた場合に、当該オブジェクトに対してオーサリング処理を行ない、処理対象のオブジェクトを特定できない場合に、オーサリングデータが有する全てのオブジェクトを処理対象としてオーサリング処理を行なうプログラム。