JP2010066675A

JP2010066675A - 音声情報処理システム及び音声情報処理プログラム

Info

Publication number: JP2010066675A
Application number: JP2008234807A
Authority: JP
Inventors: Yoshibumi Matsunaga; 義文松永
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2008-09-12
Filing date: 2008-09-12
Publication date: 2010-03-25

Abstract

【課題】音声情報を再生する場合にあって、分割した複数の音声情報を出力して、利用者における音声情報の把握効率を上げるようにした音声情報処理システムを提供する。
【解決手段】音声情報処理システムの受付手段は、再生対象である第１の音声情報と第２の音声情報を受け付け、分割手段は、予め定められた再生間隔に基づいて、前記受付手段によって受け付けられた音声情報を分割し、生成手段は、前記第１の音声情報を前記分割手段によって分割された第１の分割音声情報と前記第２の音声情報を前記分割手段によって分割された第２の分割音声情報を結合して、再生する音声情報を生成し、再生手段は、前記生成手段によって生成された音声情報を再生する。
【選択図】図１

Description

本発明は、音声情報処理システム及び音声情報処理プログラムに関する。

従来、文字情報を音声情報として再生する方法は知られていた。読み上げソフトウェアとして商品として販売されているものもある。

これに関連する技術として、例えば、特許文献１には、見やすい情報の提供を目的に地名などの間に空白を入れているテキスト情報の音声変換の読み誤りを低減することを課題とし、テキスト音声変換回路は、地名などの間に空白文字を入れているテキスト情報からまだ処理を行っていない行を順次読み込み、読み込んだ行について連続する空白は１つの空白文字に置換し、行頭・行末の空白を削除し、行頭から１文字ずつ取り出し、文字が空白文字のときに２つ前と後の文字が空白又は記号又は行端であれば空白文字を除去し、それ以外は文の区切りの空白文字として扱って除去しないように処理して出力する空白除去回路と、空白除去処理を行った行のテキスト情報を解析し、辞書を参照し、文章の読みを決定して出力するテキスト解析回路と、文章の読みが決定された行のテキスト情報を音声信号に変換する波形生成回路とから構成されているものが開示されている。

また、例えば、特許文献２には、より多くの種類のタスクをより適した組合せで多重化して実行する多層ワークを支援することができる多層ワーク支援装置を提供することを課題とし、多重化プログラムの情報取得部は、Ｗｅｂ上の情報等を所定の契機で検索して取得し、属性設定部の重要度設定部は、取得された情報の内容に応じて当該情報の重要度を設定し、認知度設定部は、単語の出現頻度等に基づいて当該情報に対する作業者の認知度を設定し、関心度設定部は、予め登録されているキーワードに基づいて当該情報に対する作業者の関心度を設定し、属性設定部は、これらの属性を設定された情報を情報記憶部に保存し、多重化制御部は、記憶されている情報及びその属性を参照して、情報を重要度順、認知度順、関心度順に配列して一覧を作成し、ディスプレイに表示することが開示されている。

また、例えば、特許文献３には、複数の声の音声を合成する音声合成装置及び音声合成プログラムを提供することを課題とし、全文選択モードで「一斉」，「復唱」，「輪唱」の指定、音声種類を指定し、又はアクセント句モードでアクセント句毎に音声種類を指定し、「一斉」では、複数の音声を同時に出力して、複数の人が同時にテキストを読み上げているような効果を出し、「復唱」ではアクセント句毎に、先導の音声種類で音声出力した後、復唱の音声種類で音声出力して、アクセント句毎に先導の音声で出力されたものを復唱の音声が復唱するような効果を出し、「輪唱」では、指定された音声種類を指定された順番に、１つ前の音声種類の１番目のアクセント句の出力終了後、音声出力が開始され、合唱での輪唱のように複数の人が前の人に続いて読み上げを行うような効果を出し、「アクセント句モード」ではアクセント句毎に音声種類や人数が変わるよう読み上げられることが開示されている。

また、例えば、非特許文献１には、メール文面に対して、より自然に聞き取れるように変換を施した音声合成用文書変換装置又は文書読み上げ装置が開示されている。

また、例えば、非特許文献２には、録画倍速再生機能を用いて、同時系列内の２つのプログラムを漏れなく視聴することを目指したシステムの研究であって、単純な蓄積情報に対してだけではなく、１周期分のストックを活用することで、リアルタイム情報にも擬似的に対応することを特徴としており、さらに、切替時に、若干のオーバーラップ時間を設けることで、より自然な切替を実現していることが開示されている。
特許第３６６３５３１号公報特開２００７−１４８６５４号公報特開２００６−３３７４６８号公報発明協会公開技報公技番号９６−００９８６８号栖関他、「短縮再生を利用した二重ＴＶ視聴支援手法」、情報処理学会研究報告２００８−ＤＢＳ−１４４／２００８−ＧＮ−６６、２００８年１月２５日、ｐ．１６３−１７０

本発明は、音声情報を再生する場合にあって、分割した複数の音声情報を出力して、利用者における音声情報の把握効率を上げるようにした音声情報処理システム及び音声情報処理プログラムを提供することを目的としている。

かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項１の発明は、再生対象である第１の音声情報と第２の音声情報を受け付ける受付手段と、予め定められた再生間隔に基づいて、前記受付手段によって受け付けられた音声情報を分割する分割手段と、前記第１の音声情報を前記分割手段によって分割された第１の分割音声情報と前記第２の音声情報を前記分割手段によって分割された第２の分割音声情報を結合して、再生する音声情報を生成する生成手段と、前記生成手段によって生成された音声情報を再生する再生手段を具備することを特徴とする音声情報処理システムである。

請求項２の発明は、前記分割手段は、予め定められた分割数に基づいて、前記音声情報を分割することを特徴とする請求項１に記載の音声情報処理システムである。

請求項３の発明は、前記再生手段は、前記生成手段によって生成された音声情報内の分割音声情報を早送りで再生することを特徴とする請求項１又は２に記載の音声情報処理システムである。

請求項４の発明は、前記生成手段は、結合対象として、前記分割手段によって生成された分割音声情報の一部を抽出して、再生する音声情報を生成することを特徴とする請求項１から３のいずれか一項に記載の音声情報処理システムである。

請求項５の発明は、文字情報から要約を抽出し、該要約に基づいて音声情報を生成する文字音声情報生成手段をさらに具備し、前記受付手段は、前記文字音声情報生成手段によって生成された音声情報を受け付けることを特徴とする請求項１から４のいずれか一項に記載の音声情報処理システムである。

請求項６の発明は、前記分割手段は、分割音声情報のうち音量が予め定められた値よりも小さいものを削除することを特徴とする請求項１から５のいずれか一項に記載の音声情報処理システムである。

請求項７の発明は、前記再生手段は、第１の音声出力部で前記第１の分割音声情報を再生し、第２の音声出力部で前記第２の音声情報を再生することを特徴とする請求項１から６のいずれか一項に記載の音声情報処理システムである。

請求項８の発明は、前記再生手段によって、再生される音声情報の予定を提示する予定提示手段をさらに具備することを特徴とする請求項１から７のいずれか一項に記載の音声情報処理システムである。

請求項９の発明は、前記音声情報には、理解の困難さに関する属性情報が付されており、前記再生手段は、再生する時間帯によって、属性情報に対応した音声情報を再生することを特徴とする請求項１から８のいずれか一項に記載の音声情報処理システムである。

請求項１０の発明は、前記予定提示手段は、前記再生手段による再生の回数に基づいて、前記再生手段によって、再生される音声情報の予定を決定することを特徴とする請求項８又は９に記載の音声情報処理システムである。

請求項１１の発明は、コンピュータを、再生対象である第１の音声情報と第２の音声情報を受け付ける受付手段と、予め定められた再生間隔に基づいて、前記受付手段によって受け付けられた音声情報を分割する分割手段と、前記第１の音声情報を前記分割手段によって分割された第１の分割音声情報と前記第２の音声情報を前記分割手段によって分割された第２の分割音声情報を結合して、再生する音声情報を生成する生成手段と、前記生成手段によって生成された音声情報を再生する再生手段として機能させることを特徴とする音声情報処理プログラムである。

請求項１記載の音声情報処理システムによれば、音声情報を再生する場合にあって、本構成を有していない場合に比較して、分割した複数の音声情報を出力して、利用者における音声情報の把握効率を上げることができる。

請求項２記載の音声情報処理システムによれば、再生時間が異なる複数の音声情報であっても、予め定められた巡回の回数内でその複数の音声情報を再生することができる。

請求項３記載の音声情報処理システムによれば、音声情報の一般的な速度での再生の場合に比較して、高速にその内容を把握することができる。

請求項４記載の音声情報処理システムによれば、音声情報を全て再生する場合に比較して、高速にその内容を把握することができる。

請求項５記載の音声情報処理システムによれば、文字情報であるものを音声情報として再生する場合であって、文字情報の要約によってその内容を把握することができる。

請求項６記載の音声情報処理システムによれば、音声情報を全て再生する場合に比較して、高速にその内容を把握することができる。

請求項７記載の音声情報処理システムによれば、全ての音声情報を１つの音声出力部から再生する場合に比較して、異なる音声情報がそれぞれの音声出力部によって再生され、聞き分けることを容易にする。

請求項８記載の音声情報処理システムによれば、どのような音声情報が再生されるかについて、予め把握することができる。

請求項９記載の音声情報処理システムによれば、時間帯に分けて、音声情報の理解困難性に沿った再生を行うことができる。

請求項１０記載の音声情報処理システムによれば、過去の音声情報の再生頻度によって、音声情報の再生の予定を決定することができる。

請求項１１記載の音声情報処理プログラムによれば、音声情報を再生する場合にあって、本構成を有していない場合に比較して、分割した複数の音声情報を出力して、利用者における仕事の効率を上げることができる。

以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図１は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア（コンピュータ・プログラム）、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、コンピュータ・プログラム、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能にほぼ一対一に対応しているが、実装においては、１モジュールを１プログラムで構成してもよいし、複数モジュールを１プログラムで構成してもよく、逆に１モジュールを複数プログラムで構成してもよい。また、複数モジュールは１コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって１モジュールが複数コンピュータで実行されてもよい。なお、１つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続（データの授受、指示、データ間の参照関係等）の場合にも用いる。

また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク（一対一対応の通信接続を含む）等の通信手段で接続されて構成されるほか、１つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。「予め定められた」とは、対象としている処理の前であることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。また、管理という用語を用いるが、これは文脈に応じて、制御する、マネジメントする、制御又はマネジメントするためのデータを記憶するの意で用い、その役割又は動作をさす。ドキュメントとは、音声等の電子データであり、音声の電子データを含んでいる動画（ビデオ）、画像、テキスト等の電子データであってもよく、また、音声以外の電子データ（例えば、テキストの電子データ等）であるが、その電子データから音声データに変換できる（例えば、読み上げソフトウェア等）ものを含み、記憶、編集及び検索等ができ、システム又は利用者間で個別の単位として交換できるものをいい、これらに類似するものを含む。なお、ドキュメントは音声データと同義に用いる場合がある。

本実施の形態は、図１に示すように、ドキュメント音声生成システム１１０は、キーワード管理モジュール１１１、複数音声ライン生成モジュール１１２、音声生成制御モジュール１１３、ドキュメント番組表管理モジュール１１４、再生ドキュメント管理モジュール１１５、シリアル合成モジュール１１６、ドキュメント番組指定・制御モジュール１１７、通信モジュール１１８、音声出力モジュール１３１、ユーザインタフェース１３２を有している。ドキュメント管理サーバー１２０は、通信モジュール１２１、ドキュメント管理モジュール１２２、ドキュメントＤＢ１２３を有している。そして、ドキュメント音声生成システム１１０とドキュメント管理サーバー１２０は通信回線を介して接続されている。ドキュメント管理サーバー１２０は、ドキュメントを記憶しているサーバーであり、ドキュメント音声生成システム１１０は、再生すべきドキュメントをドキュメント管理サーバー１２０から抽出して、複数の音声情報を時分割的に再生し、ドキュメントの把握をする場合に用いられるものである。

ドキュメント音声生成システム１１０内のキーワード管理モジュール１１１、複数音声ライン生成モジュール１１２、音声生成制御モジュール１１３、ドキュメント番組表管理モジュール１１４、再生ドキュメント管理モジュール１１５、シリアル合成モジュール１１６、ドキュメント番組指定・制御モジュール１１７、通信モジュール１１８は、それぞれ接続されている。

音声生成制御モジュール１１３は、音声出力モジュール１３１と接続されている。なお、音声出力モジュール１３１は、例えば、スピーカであり、複数が接続されていてもよい。
音声生成制御モジュール１１３は、再生対象である複数の音声情報、つまり第１の音声情報と第２の音声情報を受け付ける。例えば、ドキュメント番組表管理モジュール１１４によって管理されているドキュメント番組表にしたがって、再生ドキュメント管理モジュール１１５が管理しているドキュメントを複数抽出する。なお、第２の音声情報は、第１の音声情報とは異なる音声情報である。音声生成制御モジュール１１３が受け付ける音声情報は、３つ以上の音声情報であってもよい。

そして、音声生成制御モジュール１１３は、予め定められた再生間隔（再生する時間、インタバルともいう）に基づいて、受け付けられた音声情報を分割する。また、予め定められた分割数に基づいて、音声情報を分割するようにしてもよい。なお、分割された音声情報を分割音声情報ともいう。また、分割音声情報のうち音量（音声ボリューム）が予め定められた値よりも小さいものを削除する。音量が小さい部分には、無音を含む。
次に、音声生成制御モジュール１１３は、分割した音声情報（第１の音声情報を分割した第１の分割音声情報と第２の音声情報を分割した第２の分割音声情報）を複数音声ライン生成モジュール１１２又はシリアル合成モジュール１１６に渡して、その分割音声情報を結合させ、再生する音声情報を生成する。そして、複数の音声出力モジュール１３１に音声情報を再生させる場合には、各音声出力モジュール１３１に対応させて音声情報を再生させる。つまり、第１の音声出力モジュール１３１で前記第１の分割音声情報を再生し、第２の音声出力モジュール１３１で前記第２の音声情報を再生する。

そして、音声生成制御モジュール１１３は、複数音声ライン生成モジュール１１２又はシリアル合成モジュール１１６を用いて生成した音声情報を、音声出力モジュール１３１を用いて再生する。また、生成した音声情報内の分割音声情報を早送りで再生するようにしてもよい。なお、音声生成制御モジュール１１３が早送りで再生するとは、音声生成制御モジュール１１３自身が普通速度の分割音声情報を早送りで再生する場合と、早送り用の分割音声情報を音声生成制御モジュール１１３による再生処理の前に生成して（例えば、複数音声ライン生成モジュール１１２又はシリアル合成モジュール１１６による処理）、音声生成制御モジュール１１３は、その早送り用の分割音声情報を再生するようにしてもよい。
また、音声生成制御モジュール１１３は、結合対象として、分割音声情報の一部を抽出して、再生する音声情報を生成するようにしてもよい。つまり、抽出されなかった分割音声情報は省略（スキップ）されることになる。
また、音声生成制御モジュール１１３は、再生する時間帯によって、属性情報に対応した音声情報を再生するようにしてもよい。

キーワード管理モジュール１１１は、音声情報に付されている属性であるキーワード等を管理する。また、その属性情報として、理解の困難さに関する属性情報があってもよい。そして、音声生成制御モジュール１１３からの指示に応じて、その属性情報を音声生成制御モジュール１１３に渡す。
複数音声ライン生成モジュール１１２は、音声生成制御モジュール１１３から分割音声情報を受け取って、１つの音声出力モジュール１３１（音声出力モジュール１３１が１つだけ音声生成制御モジュール１１３に接続されている場合、又は複数の音声出力モジュール１３１が音声生成制御モジュール１１３に接続されているが、そのうちの１つの音声出力モジュール１３１）で再生する音声情報を生成する。
シリアル合成モジュール１１６は、音声生成制御モジュール１１３から分割音声情報を受け取って、複数の音声出力モジュール１３１で再生する音声情報を生成する。つまり、各音声出力モジュール１３１で再生する音声情報を生成する。

再生ドキュメント管理モジュール１１５は、再生対象であるドキュメントを管理する。また、音声生成制御モジュール１１３からの指示に基づいて、管理しているドキュメントを渡す。また、ドキュメントが音声情報以外の電子データである場合は、その電子データ（例えば、テキスト等の電子データ）を音声情報に変換する。例えば、読み上げソフトウェアを用いてもよい。また、テキストの電子データから要約（アブストラクト）を抽出し、その要約に基づいて音声情報を生成するようにしてもよい。要約抽出として、例えば、ＸＭＬ（ｅＸｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）等のタグ付き言語で記述されている場合は、要約を示すタグに囲まれているテキストを抽出すること、言語解析技術を用いて要約を生成すること等がある。そして、音声生成制御モジュール１１３は、テキストの電子データの要約に対応する音声情報を受け付けることとなる。また、再生ドキュメント管理モジュール１１５が管理しているドキュメント内に、音声生成制御モジュール１１３の指示によるドキュメントがない場合は、通信モジュール１１８を介してドキュメント管理サーバー１２０からドキュメントを抽出する。

ドキュメント番組表管理モジュール１１４は、再生される音声情報の予定である番組表を作成する。その予定は、１日毎、１週間毎に作成するようにしてもよい。そして、その予定にしたがって、再生ドキュメント管理モジュール１１５によって管理されているドキュメントを音声生成制御モジュール１１３が再生する。また、音声生成制御モジュール１１３による過去の再生の回数に基づいて、音声生成制御モジュール１１３によって、再生される音声情報の予定を決定するようにしてもよい。

ドキュメント番組指定・制御モジュール１１７は、ドキュメント番組表管理モジュール１１４によって作成された予定をユーザインタフェース１３２を介して提示する。また、ユーザインタフェース１３２から利用者の操作を受け付けて、その操作に基づいて、音声生成制御モジュール１１３等を制御する。
ユーザインタフェース１３２は、ドキュメント番組指定・制御モジュール１１７と接続されている。例えば、マウス、キーボード等の入力装置から利用者の操作を受け付け、ドキュメント番組指定・制御モジュール１１７に渡す。又は、ドキュメント番組指定・制御モジュール１１７から受け付けた電子データをディスプレイ等の出力装置に出力する。
通信モジュール１１８は、ドキュメント管理サーバー１２０の通信モジュール１２１と通信回線を介して接続されている。再生ドキュメント管理モジュール１１５からの指示に基づいて、ドキュメント管理サーバー１２０と通信を行って、再生すべきドキュメントの受け取りを行う。

通信モジュール１２１は、ドキュメント管理モジュール１２２と接続されており、また、通信回線を介してドキュメント音声生成システム１１０の通信モジュール１１８と接続されている。ドキュメント音声生成システム１１０からの指示を受信し、ドキュメント管理モジュール１２２に渡す。また、ドキュメント管理モジュール１２２から渡されたドキュメントをドキュメント音声生成システム１１０に送信する。
ドキュメント管理モジュール１２２は、通信モジュール１２１、ドキュメントＤＢ１２３と接続されている。通信モジュール１２１を介してドキュメント音声生成システム１１０からの指示を受け取って、ドキュメントＤＢ１２３内に記憶されているドキュメントにアクセスして、その指示されているドキュメントを通信モジュール１２１を介してドキュメント音声生成システム１１０に渡す。
ドキュメントＤＢ１２３は、ドキュメント管理モジュール１２２からアクセスされる。ドキュメントを記憶しており、ドキュメント管理モジュール１２２からのアクセスに応じて、そのドキュメントを渡す。

図２は、ドキュメント番組表管理モジュール１１４が管理する番組表である再生対象ドキュメント管理表の例を示す説明図である。つまり、この再生対象ドキュメント管理表にしたがって、音声生成制御モジュール１１３がドキュメントを音声情報として再生する。再生対象ドキュメント管理表は、区分毎（ドキュメントが一部重複分類されていてもよい）に作成されている。例えば、利用者の仕事としてのプロジェクト毎等がある。各区分は、さらに、必要に応じて、そのドキュメントが再生されてからの時間順に並べられたもの（つまり、再生されていない順に並べられたもの、プロジェクトＡ（再生インタバルの長さ順）表２１０、プロジェクトＢ（再生インタバルの長さ順）表２３０）、属性情報である重要度順に並べられもの（プロジェクトＡ（重要度順）表２２０）等がある。
例えば、プロジェクトＡ（再生インタバルの長さ順）表２１０は、ドキュメント名欄２１１、重要度欄２１２、所要見積欄２１３、最近再生欄２１４を有している。ドキュメント名欄２１１は、再生すべきドキュメントのリストを記憶しており、また、ドキュメントの種類として、例えば、電子メール、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋ‐ｕｐＬａｎｇｕａｇｅ）、文書ファイル等があり、重要度欄２１２は、属性情報である重要度を記憶しており、所要見積欄２１３は、そのドキュメントを再生するにかかる時間を記憶しており、最近再生欄２１４は、再生された時からの経過時間（分、秒等であってもよい）を記憶している。そして、プロジェクトＡ（再生インタバルの長さ順）表２１０のドキュメント名欄２１１内の順で、分割されたドキュメントを音声生成制御モジュール１１３が再生することとなる。

図３は、音声生成制御モジュール１１３による処理例を示すフローチャートである。
ステップＳ３０２では、音声生成制御モジュール１１３が、変数Ｎに再生すべきドキュメントの対象総数を、変数Ｓに再生させる音声出力モジュール１３１であるスピーカ数を代入する。対象総数は、ドキュメント番組表管理モジュール１１４からの指示である番組表にしたがう。例えば、図２に示したプロジェクトＡ（再生インタバルの長さ順）表２１０内のドキュメント名欄２１１にあるドキュメントの数である。また、スピーカ数は、音声生成制御モジュール１１３に接続されている音声出力モジュール１３１の個数を検知してもよいし、利用者が指定する数（つまり、利用したい音声出力モジュール１３１の数）を用いてもよい。
ステップＳ３０４では、音声生成制御モジュール１１３が、スピーカ数からシリアル再生か空間再生かを判断する。かかる判断において、スピーカ数が１であるならば（Ｙ）ステップＳ３１０へ進み、それ以外の場合（Ｎ）はステップＳ３５０へ進む。なお、ここで、空間再生とは、複数のスピーカを空間的（前方の左右上下、後方の左右上下等）に配置しておき、それらの配置されたスピーカから再生させるものである。

ステップＳ３１０では、複数のドキュメントに対して、指定されたインタバル（再生間隔）にしたがって、シリアル再生するための音声情報を生成する。音声生成制御モジュール１１３が、シリアル合成モジュール１１６を用いて、この処理を行う。なお、この処理の詳細については、図４から図１２を用いて後述する。
ステップＳ３１２では、音声生成制御モジュール１１３が、ステップＳ３１０で生成された音声情報を音声出力モジュール１３１で再生する。

ステップＳ３５０では、音声生成制御モジュール１１３が、ＮとＳとを比較する。つまり、ＮはＳ以下であるか否かを判断する。これは、各音声出力モジュール１３１に１つの対象（ドキュメント）が対応している状態であるか否かを判断するものである。かかる判断において、ＮはＳ以下である場合（Ｙ）はステップＳ３５４へ進み、それ以外の場合はステップＳ３５２へ進む。
ステップＳ３５２では、音声生成制御モジュール１１３が、ＮをＳ以下になるように調整を要求する。この要求は、ドキュメント番組指定・制御モジュール１１７、ユーザインタフェース１３２を介して、利用者に要求するものであるが、音声生成制御モジュール１１３が、ＮをＳ以下の数に変更してもよい。つまり、再生するドキュメントを限定すること、又はドキュメントをＳ以下になるようにグループ分けすること等がある。グループ分けとは、そのグループ内にあるドキュメントを１つの対象とすることである。そして、ステップＳ３０４の処理に戻る。

ステップＳ３５４では、ステップＳ３１０と同様に、複数のドキュメントに対して、指定されたインタバル（再生間隔）にしたがって、シリアル再生するための音声情報を生成する。音声生成制御モジュール１１３が、シリアル合成モジュール１１６を用いて、この処理を行う。なお、この処理の詳細については、図４から図１２を用いて後述する。
ステップＳ３５６では、複数音声ライン生成モジュール１１２が、ステップＳ３５４で生成された音声情報をＮ個の独立ライン（各音声出力モジュール１３１で再生する音声情報）に分割する。なお、この処理の詳細については、図１３を用いて後述する。
ステップＳ３５８では、音声生成制御モジュール１１３が、ステップＳ３５６で分割されたそれぞれの音声情報を複数の音声出力モジュール１３１で再生する。

図４は、シリアル合成モジュール１１６による処理例を示す説明図である。つまり、シリアル再生の処理（ステップＳ３１０、ステップＳ３５４）について説明する。
再生対象ドキュメント（ファイル）数がＮだった場合、これを上から順に１つずつ再生して完了したら次のドキュメントを再生する方式ではなく、指定の再生インタバルＴ（例えば、ここではＴ＝３秒が指定されたとする）の時間で、分割し、Ｎ個の各３秒ずつを、順番に結合していく。Ｎ個の結合が終わったら、各４秒から６秒までを、次に同じように結合していく。このようにして、図４の例に示したように、Ｎ個の対象を１本の音声ラインにシリアライズ（複数のドキュメントを合成して１つの音声情報を生成）して、これを再生させる。

ステップＳ４０２はステップＳ３０２に対応し、音声生成制御モジュール１１３が、再生すべきドキュメントの対象総数を指定する。つまり、Ｎに対象総数を代入する。次にステップＳ３１０又はステップＳ３５４に対応するステップＳ４０４からステップＳ４０８を行う。
ステップＳ４０４では、音声生成制御モジュール１１３が、再生すべき対象となるドキュメントを特定する。そして、そのドキュメントを再生ドキュメント管理モジュール１１５から取得する。図４中のＤ１、Ｄ２、Ｄ３、・・・、ＤＮは、対象となっているそれぞれのドキュメントを示す符号である。

ステップＳ４０６では、音声生成制御モジュール１１３が、再生インタバルＴを指定する。この指定は、利用者による指定を、ユーザインタフェース１３２、ドキュメント番組指定・制御モジュール１１７を介して受け取る。そして、各ドキュメントを再生インタバルＴで分割する。例えば、図４内のＤ１はＴ４分の長さがあり、Ｄ１１、Ｄ１２、Ｄ１３、Ｄ１４に分割される。同様に、Ｄ２はＴ５分の長さがあり、Ｄ２１、Ｄ２２、Ｄ２３、Ｄ２４、Ｄ２５に分割される。他のドキュメントも同等である。
ステップＳ４０８では、シリアル合成モジュール１１６が、ステップＳ４０６で分割された音声情報を合成する。つまり、各ドキュメントの分割音声情報をドキュメントの順に沿って合成して、これを繰り返す。例えば、図４に示すように、Ｄ１１、Ｄ２１、Ｄ３１、・・・、ＤＮ１を合成して、これを１サイクルとし、さらに、その後にＤ１２、Ｄ２２、Ｄ３２、・・・、ＤＮ２を合成して最後まで繰り返す。
そして、音声生成制御モジュール１１３は、ステップＳ４０８で合成された音声情報を音声出力モジュール１３１で再生する。

例えば、再生途中で、インタラプトが入り、中止せざるを得なくなったとしても、Ｎ個の全体の最初の方を聞いたことになり、概要把握を促進する場合等に用いる。これは、全く初めてのドキュメントではなく、概ね一度は見たことのあるドキュメントの復習の場合は、冒頭のわずかでも全体を想起させることとなるからである。

図５は、分割音声情報の再生処理例を示す説明図である。
ドキュメントによっては、他のドキュメントより先に再生が終了してしまう場合ある。したがって、例えば、図５の場合（Ｎ＝７を想定）では、７コマ（コマとは、分割された音声情報）存在するのは３サイクル目までで、４サイクル目は６コマ（Ｄ３のコマがない）、５サイクル目は４コマ（Ｄ２、Ｄ４、Ｄ６、Ｄ７）というように、減少していくことになる。再生するコマ数が予め定められた数（例えば、７コマ）になるように、再生が終了したドキュメントが発生した場合は、別のドキュメントの再生を開始するようにしてもよい。また、再生が終了したドキュメントが発生した場合は、未だ再生が終了していないドキュメントの分割音声情報を再生するようにしてもよい。つまり、ドキュメント数を減らしながら、空いたコマに再生しているドキュメントのコマを入れて、無くなるまで続けるものである。

図６は、分割音声情報の再生処理例を示す説明図である。
対象ドキュメント数Ｎ＝７個、再生インタバルＴ＝３秒で、音声生成制御モジュール１１３は、最も早く終了するドキュメントＤ３を特定する。そして、再生が終了するサイクル数（ここでは、３サイクルとなる）に合わせて、その他のドキュメント（Ｄ１、Ｄ２、Ｄ４からＤ７）を、分割（３分割）する。その後、その分割した１つのコマの再生時間を再生インタバルＴ（３秒）になるように、圧縮処理（例えば、再生時に早送り再生させるように指定する等）する。これによって、Ｎ個の全てのドキュメントが３巡目後に全て終了することになる。また、圧縮率の高い（高速再生される）コマを持つドキュメントは、そのドキュメント自体のサイズが大きいということが、利用者にとって感覚的に捉え得ることとなる。

また、過去に読んだことのあるドキュメントや聞いたことのあるビデオ等の復習が主たる狙いである場合、最初の出だしと最後の結論はとりわけ重要である場合が多い。最初と最後が認識できれば、脳裏での再現が十分期待できる。そこで、圧縮処理（サンプリング処理）として、ドキュメント内の最初の数コマと、最後の数コマだけを抽出し、真ん中は飛ばしてしまう方法もまた、所要時間の効率化という観点からは有効となる。
なお、ドキュメント再生時間の見積もりは、コンピュータが空いているとき又はバックグラウンド処理を使って、実際に再生して時間を計るようにしてもよい。また、オリジナルドキュメントとは別に、ドキュメントを複製した再生用のドキュメントで、再生、計測を行うようにしてもよい。
Ｎ（再生する対象の総数）の大きさについては、Ｎ＝７までは巡回した実験の実績がある。また、短期記憶は７つまでという説もあるので、Ｎの値は２から１０程度での運用が適している。

図７は、分割音声情報の再生処理例を示す説明図である。予め定められた分割数に基づいて、ドキュメントを分割する例を示す。
図７の例は、同じ対象ドキュメントに対して、再生時間の長さに関わらず、他の対象ドキュメントと同じ分割数（インタバル数）Ｋに揃えるケースを表したものである。この場合、１コマの長さは、全体の再生時間Ｐに対して、Ｐ／Ｋで表される。つまり、図７（ａ）は３分割の例、図７（ｂ）は４分割の例、図７（ｃ）は５分割の例、図７（ｄ）は６分割の例、図７（ｅ）は８分割の例を示している。
この分割音声情報を合成処理（シリアライズ処理）する際に、各ドキュメント間で再生間隔を揃えないでそのまま巡回的に結合する場合と、再生間隔を揃える場合がある。後者の場合、最も再生時間が短いドキュメントに合わせるために、その他のドキュメントではコマごとに圧縮処理を行うことになる。

次に、圧縮処理の例を説明する。
対象全体の圧縮（再生スピードを上げる）として、例えば、１コマ（ここでは３秒）を、１．５秒、１秒、すなわち再生スピードを２倍、３倍とすることによって、さらに高速把握をし得るようにする。これには、全体を均等に圧縮再生する場合、Ｎ個の対象のうち、重要度が低いものだけを、圧縮再生する場合がある。
図８は、早送りの再生処理例（全体を均等に圧縮再生する処理）を示す説明図である。つまり、Ｄ１１、Ｄ２１、Ｄ３１、・・・、ＤＮ１、Ｄ１２、Ｄ２２、Ｄ３２、・・・、ＤＮ２の再生を行う場合、圧縮処理して倍速再生すると、圧縮処理していない普通再生の半分の時間（普通再生でＤ１１からＤＮ１までの再生時間）で全体を再生してしまう。

図９は、部分的な早送りの再生処理例（Ｎ個の対象のうち、重要度が低いものだけを、圧縮再生する処理）を示す説明図である。つまり、音声生成制御モジュール１１３は、図２の例に示したプロジェクトＡ（再生インタバルの長さ順）表２１０内の重要度欄２１２に記憶されている重要度に基づいて、重要度の低いドキュメントのコマに対して圧縮処理を行う。図９の例に示すものは、Ｄ２は重要度が高いので、圧縮処理を施さないが、その他のドキュメント（Ｄ１、Ｄ３等）のコマに対しては圧縮処理を施したものである。

また、圧縮処理として、サマリーする処理又は特定部分を圧縮する処理を説明する。
対象となるドキュメントを予め分析し、短縮した上で、音声情報群に変換する。短縮方法としては、例えば、（１）重要度の高いもの又は関心の強さを表すキーワードが含まれる文のみを抽出する、（２）各文を自立語のみで構成することで、全体を短縮する、などがある。全体での圧縮効果があれば、どのような方法でもよい。ただし、復習に用いられる場面であって、意味がある程度確認され得ることが前提となる。
また、再生時に圧縮する方法（早送り再生）、早送り再生したものを記録しておき、それを再生する方法、という２つ方法があるが、どちらでもよい。後者の場合は、事前の処理（前処理）で、前述の圧縮処理（分割後に圧縮、サマリー処理した短縮テキストを音声情報に変換した後に分割等）を選択できるようにしてもよい。

図１０は、サンプリングの再生処理例を示す説明図である。つまり、結合対象として、分割音声情報の一部を抽出して、再生する音声情報を生成する処理例を説明する。
図１０の例に示すように、サンプリング数Ｓ＝２の場合、１つおきに、１番目、３番目、５番目、というように奇数番目のサイクルを抽出する。つまり、最初のコマの後は、１コマスキップして、３つ目のコマ（１つのコマが３秒の場合は、７秒から９秒までの間）を２つ目のコマとして抽出するというサンプリングを行う。これによって、音声は途切れることとなるが、ドキュメントの内容やそれまでの復習の頻度によっては、人間の補完能力によって内容をほぼ復元し得るものである。また、Ｓ＝２の場合には、ほぼ２倍のスピードでの把握実現を目指すことになる。

また、抽出するコマの総数を予め定めておき、その数のコマをキーワードに基づいて抽出するようにしてもよい。具体的には、例えば、音声生成制御モジュール１１３は、図１１の例に示した含有キーワード欄１１０９内のキーワードの分布を利用して、図１０の例に示した巡回的な抽出順番ではなく、頻度順に沿った抽出をする。つまり、頻度が多いキーワードを含むコマを優先して抽出する。さらに、抽出したコマに隣接するコマも含めて、抽出するようにしてもよい。また、ドキュメント重要度欄１１０５、単位重要度欄１１０６等内のデータに基づいて、コマを抽出するようにしてもよい。
図１１は、音声コマ属性表１１００のデータ構造例を示す説明図である。音声コマ属性表１１００は、Ｎｏ．欄１１０１、長さ欄１１０２、音量欄１１０３、圧縮度欄１１０４、ドキュメント重要度欄１１０５、単位重要度欄１１０６、再生回数欄１１０７、最近再生日時欄１１０８、含有キーワード欄１１０９を有している。
Ｎｏ．欄１１０１は、そのコマを一意に識別する識別子を記憶する。長さ欄１１０２は、そのコマの再生時間を記憶する。音量欄１１０３は、そのコマを再生する場合の音量を記憶する。圧縮度欄１１０４は、そのコマの圧縮度（早送りの速度）を記憶する。ドキュメント重要度欄１１０５は、そのコマが属しているドキュメントの重要度を記憶する。単位重要度欄１１０６は、そのコマの重要度を記憶する。再生回数欄１１０７は、そのコマが過去に再生された回数を記憶する。最近再生日時欄１１０８は、そのコマが再生された最近の日時を記憶する。含有キーワード欄１１０９は、そのコマに含まれているキーワードを記憶する。音声コマ属性表１１００内のデータは、予め又は音声生成制御モジュール１１３によって記憶される。

図１２は、早送りの再生処理を行うための前処理例を示すフローチャートである。音声生成制御モジュール１１３が再生ドキュメント管理モジュール１１５を用いて、文字情報から要約を抽出し、その要約に基づいて音声情報を生成する等の処理に関するものである。例えば、ドキュメントの構成として最初に目次が存在する場合は、前半はタイトルのみ、後半は結論のみというものがある。特に、アブストラクト（要約）がある場合には、それのみを音声情報の再生対象としてもよい。また、特に会議を撮影したビデオなどでは、音量（音声ボリューム）が予め定められた閾値よりも小さいコマ（無音声のコマを含む）を削除するようにしてもよい。また、テキストの電子データの場合、段落のまとまりがある場合やタイトル的なものがある場合、その後には、若干の空白時間を挿入することで、聞き取りやすくなるので、例えば、空白コマを挿入するようにしてもよい。

以下、図１２の例に示すフローチャートに沿って説明する。
ステップＳ１２０２では、音声生成制御モジュール１１３が再生ドキュメント管理モジュール１１５に対して、対象とするドキュメントを指定する。
ステップＳ１２０４では、再生ドキュメント管理モジュール１１５が、そのドキュメントには要約があるか否かを判断する。かかる判断において、要約がある場合（Ｙ）はステップＳ１２１２へ進み、それ以外の場合（Ｎ）はステップＳ１２０６へ進む。
ステップＳ１２０６では、再生ドキュメント管理モジュール１１５が、そのドキュメントは、会議ビデオ又は音声ファイルを含んでいるか否かを判断する。かかる判断において、含んでいる場合（Ｙ）はステップＳ１２１４へ進み、それ以外の場合（Ｎ）はステップＳ１２０８へ進む。

ステップＳ１２０８では、再生ドキュメント管理モジュール１１５が、そのドキュメントには、テキストデータがあるか否かを判断する。かかる判断において、テキストデータがある場合（Ｙ）はステップＳ１２１０へ進み、それ以外の場合（Ｎ）は他のドキュメントを対象とするためにステップＳ１２０２へ戻る。
ステップＳ１２１０では、再生ドキュメント管理モジュール１１５が、そのテキストデータを音声情報に変換し、音声生成制御モジュール１１３が予め定められた再生間隔で分割する。なお、予め定められた再生間隔は、複数あってもよい。
ステップＳ１２１２では、再生ドキュメント管理モジュール１１５が、アブストラクト部分のテキストデータを音声情報に変換し、音声生成制御モジュール１１３が予め定められた再生間隔で分割する。
ステップＳ１２１４では、音声生成制御モジュール１１３が、会議ビデオ等のドキュメントを予め定められた再生間隔で分割して、音量が予め定められた閾値よりも小さいコマを削除する。
ステップＳ１２１６では、音声生成制御モジュール１１３が、コマ内に含まれているキーワード等のコマ毎の属性を抽出する。

図１３は、複数音声ライン生成モジュール１１２による処理例を示す説明図である。空間再生処理（図３の例に示すフローチャートのステップＳ３５８）について説明する。なお、図４から図１２を用いて説明した処理は、シリアル再生処理のみならず、空間再生処理でも利用されるものである。したがって、図１３は、図４から図１２を用いて説明した処理によって合成された結果（図１３（ａ））を、複数の音声出力モジュール１３１で再生するための処理例を示すものである。なお、図４から図１２を用いて説明した複数の処理は、そのうちの１つを採用してもよいし、複数の処理を組み合わせてもよい。

この空間再生処理では、複数の音声出力モジュール１３１への路線上の音声を順番に（つまり切り替え的に）再生する。ただし、音声は、その路線の出力順のときのみ実体があり、他のコマは空である。又は、小さいボリュームで他のドキュメントのコマを含ませてもよい。

ドキュメントのコマを順番に出力時間を変えるだけでは、人間の認知の負荷が大きすぎる。そこで、聞くべきドキュメントの音声情報が、同じ音声出力モジュール１３１ではなく空間的に配置された複数の異なる音声出力モジュール１３１から聞こえるようにする。つまり、聞こえてくる方向の違いにより聞き分けやすくするためのものである。８つの音声出力モジュール１３１を周囲に配置して、そこから再生されれば、あたかも、８人の話者に囲まれて、順番に少しずつ話してもらった状況と同等になる。また、聞き分けを容易にするために、左方向には高音域（女性声）、右方向には低音域（男性声）を割り当てるようにしてもよい。
複数の音声情報を、空間配置したスピーカから独立に聞けるようにすると、この音を聞きながら他の仕事をしやすくなるので、複数の仕事をこなす場合に利用し得るものである。

８つの音声出力モジュール１３１の配置は、利用者の前方及び後方の上下左右とする。
Ｎ＝２の場合は、前方右側と前方左側にある音声出力モジュール１３１での音量（片方が大でもう一方が小）を、Ｔ秒間隔で入れ替える。
Ｎ＝３の場合は、前方右側と前方左側と、前方上側又は前方下側のいずれか一方を用いる。この３つの間で、音量をＴ秒間隔で入れ替える。
Ｎ＝４の場合は、前方右側と前方左側と前方上側と前方下側を用いる。この４つの間で、音量をＴ秒間隔で入れ替える。
Ｎ＝５の場合は、Ｎ＝４の場合に加えて、後方右側又は後方左側のいずれか一方を用いる。この５つの間で、音量をＴ秒間隔で入れ替える。
Ｎ＝６の場合は、Ｎ＝４の場合に加えて、後方右側と後方左側を用いる。この６つの間で、音量をＴ秒間隔で入れ替える。
Ｎ＝７の場合は、Ｎ＝６の場合に加えて、後方上側又は後方下側のいずれか一方を用いる。この７つの間で、音量をＴ秒間隔で入れ替える。
Ｎ＝８の場合は、８つの音声出力モジュール１３１を用いる。この８つの間で、音量をＴ秒間隔で入れ替える。
もちろん、Ｎ（再生に利用する音声出力モジュール１３１の数）は８以上であってもよい。

聞いてみないと何が流れるかを把握しづらいということもある。もっと主体的・選択的に聞きたいという要求に対応するためには、次の２つの方法がある。
（１）図２の例に示した再生対象ドキュメント管理表を複数提示して、何が再生されるのかを見渡すことができるようにし、複数の再生対象ドキュメント管理表をまたがって、ドキュメントを選択し、それを再生対象群とする。
（２）仕事中心の番組表、趣味中心の番組表、コミュニティ活動中心の番組表のように、いくつかの区分で、番組表を編成し、予め定められた周期（例えば、毎日）毎に、変更した編成を行うようにする。例えば、一週間先の編成まで作成し、まるで新聞のラジオ番組欄を確認するように、再生するドキュメントをチェックして指定するようにしてもよい。
また、前記（１）と（２）とを組み合わせてもよい。

図１４は、（２）に示した番組表の例を示す説明図である。図２の例に示したプロジェクトＡ（再生インタバルの長さ順）表２１０等と対応するものである。つまり、ドキュメント番組表管理モジュール１１４が管理する番組表の例である。
仕事関係番組（チャンネルＡ）表１４１０は、放送時刻欄１４１１、ドキュメント名欄１４１２、最近再生欄１４１３を有している。放送時刻欄１４１１は、そのドキュメントを再生する時刻を記憶しており、ドキュメント名欄１４１２は、再生すべきドキュメントのリストを記憶しており、最近再生欄１４１３は、再生された時からの経過時間（分、秒等であってもよい）を記憶している。

次に、ドキュメント番組表管理モジュール１１４が行う番組表の生成処理例を説明する。
利用者にとってより適正な再生ドキュメントリスト（番組表）を作成する必要がある。そのためには、（Ａ）予め与えられた情報から利用者による操作なしで構築する方法と、（Ｂ）利用者の操作に応じて、任意のドキュメントを選択することで構築する方法との２つがある。ここでは、主に「仕事関係」の番組表の作成を主に説明する。

まず、（Ａ）の方法から説明する。
番組表１６００を番組表の基本的な枠組みとして予め用意する。図１６は、番組表１６００のデータ構造例を示す説明図である。番組表１６００は、時間帯欄１６０１、ドキュメントの軽重欄１６０２、ドキュメント欄１６０３を有している。
時間帯欄１６０１は、一日の時間帯を記憶している。ドキュメントの軽重欄１６０２は、利用者のドキュメントを理解するにあたっての、その時間帯における適切な理解の困難性（ドキュメントの軽重ともいう）を記憶している。ドキュメント欄１６０３は、その時間帯における再生されるべき具体的なドキュメントを記憶している。そのドキュメントは、ドキュメントの軽重欄１６０２の理解の困難性に適しているものである。
これは時間帯ごとに、個人のリズムがあることを前提としている。つまり、その時間帯に重い（理解の困難性が高い）内容のドキュメントを再生してもいいのか、それとも軽い（理解の困難性が低い）内容のドキュメントを再生した方がいいのかを示す「重」、「軽」の属性が付与されている。そして、ドキュメントにも「重」、「軽」の属性が付与されている。なお、メール又はニュースには「軽」の属性が付与されているとする。
図１６に示す例は、次のことを示している。朝の最初の頃は、調子を出すためにまず「軽」から再生し、次に昼休みまでは「重」を再生する。昼休みは、仕事のドキュメントではなく音楽を再生する。これも個人で指定してよい。午後の最初は利用者によって効率が落ちる時間帯でもあるので「軽」を再生し、その後は「重」とする。このような時間帯ごとの性質に合わせてドキュメントを配置する。

具体的には、各ドキュメントの持つ属性情報（図２の例に示す再生対象ドキュメント管理表）から、メールやニュース的なドキュメントであれば「軽」の時間帯に、それ以外は「重」の時間帯に割り振る。また、「重要」であるドキュメントを対象としてもよいし、さらにドキュメントの量が多い場合には、予め登録した利用者の関心・嗜好のキーワードで、ドキュメントを検索してヒットしたものを優先的に対象とするようにしてもよい。
さらに、もしドキュメントが仕事の納期に絡み、その納期が予め定めた日数（例えば、２日）以内に迫っている場合には、同じ「軽」「重」の性質の時間帯に、納期に関係するドキュメントを優先的に設定する。
最終的に再生によって時間帯が埋まらずに隙間の時間ができたら、「非重要」ドキュメントを、「軽」「重」の分類にしたがって挿入するようにしてもよい。さらに、まだ隙間の時間がある場合には、その時間帯のリストの最初の方から順番に再度設定するようにしてもよい。このようにして、利用者に合わせた番組表が構築される。

以下、この処理をフローチャートを用いて説明する。
図１５は、ドキュメント番組表管理モジュール１１４が行う番組表の生成処理例を示すフローチャートである。
ステップＳ１５０２では、利用者による時間帯毎の気分を配慮した基本方針を設定する。つまり、番組表１６００のドキュメントの軽重欄１６０２内を設定するものであり、利用者の操作に応じて予め行っておく。
ステップＳ１５０４では、重要なドキュメントであり、かつ利用者の関心・嗜好のキーワードで検索したドキュメントのリストを作成する。

ステップＳ１５０６では、ステップＳ１５０４で作成したリスト内の対象とするドキュメントはメール又はニュースであるか否か（つまり、ドキュメントの属性として「軽」が付与されているか否か）を判断する。かかる判断において、メール又はニュースである場合（Ｙ）はステップＳ１５０８に進み、それ以外の場合（Ｎ）はステップＳ１５１０へ進む。
ステップＳ１５０８では、軽い内容を配置したい時間帯「軽」に、そのドキュメントを配置する。つまり、番組表１６００の対応するドキュメント欄１６０３にそのドキュメントを記憶させる。
ステップＳ１５１０では、重い思考も可能である時間帯「重」に、そのドキュメントを配置する。つまり、番組表１６００の対応するドキュメント欄１６０３にそのドキュメントを記憶させる。

ステップＳ１５１２では、現在は、仕事の納期が予め定めた日数（例えば、２日）以内にあり、対象としているドキュメントはその仕事に関係するものであるか否かを判断する。かかる判断において、日数以内で関係するものである場合（Ｙ）はステップＳ１５１４へ進み、それ以外の場合（Ｎ）はステップＳ１５１６へ進む。
ステップＳ１５１４では、軽重が合致する時間帯に、そのドキュメントを優先的に配置する。
ステップＳ１５１６では、時間帯内で空いている時間がある場合（ドキュメントの再生時間の合計が各時間帯の時間より少ない場合）は、非重要ドキュメントを再生するように設定する。つまり、ステップＳ１５０４で検索されなかったドキュメントを対象とすることになる。
これによって、仕事関係の１日分の番組表が完成する（ステップＳ１５９９）。

次に、（Ｂ）の方法について説明する。
これは、例えば、図１４の例に示すような番組表をドキュメント番組指定・制御モジュール１１７がユーザインタフェース１３２を介して提示する。そして、利用者の選択指示をユーザインタフェース１３２が受け付けて、ドキュメントを選択し、図１６の例に示す番組表１６００のドキュメント欄１６０３中に記載していくものである。番組表の提示の仕方は、納期順、重要度順、関心度順、嗜好順など複数あってもよい。利用者による選択は、「仕事」「趣味」等のカテゴリーの指定であってもよく、さらにその組み合わせであってもよい。また、別の日にも同じリストを再生したいという要求に対応し得るように、お気に入りの番組表１６００として、それを登録しておき、その番組表１６００を別の日の番組表１６００として設定するようにしてもよい。

また、音声出力モジュール１３１を複数有している場合は、番組表を複数に選択することができる。番組表のカテゴリーはいくつ作ってもよいが（例えば図１４に示す例では、仕事、プライベート、コミュニティの３種）、番組表の設定数は原則として音声出力モジュール１３１の接続数を超えることはできない。
しかし、もし２倍速での再生を行う音声出力モジュール１３１等がある場合は、そこにはさらにもう１つのカテゴリーの番組表を設定するようにしてもよい。例えば、１つの音声出力モジュール１３１しか有効でなかった場合でも、２倍速の再生が行われることを条件に、時間帯ごとに２つの番組表にあるドキュメントを交互に再生するようにしてもよい。つまり、再生する場合の圧縮率に応じて、番組表の設定数を決定してもよい。
また、逆に、音声出力モジュール１３１の接続数よりも多い数の番組表を設定したいとする利用者からの指示がある場合は、例えば、１つ多い場合は、２倍速で再生するものを２つ選択するようにしてもよい。つまり、音声出力モジュール１３１の接続数を超えた数の番組表を設定する場合は、再生する場合の圧縮率に変更するようにしてもよい。

また、再生実績をレビュー（提示）してもよい。つまり、どのカテゴリー又はどのドキュメントを、どれだけの回数再生したか等の統計を提示するものである。これは、ドキュメント番組表管理モジュール１１４が音声生成制御モジュール１１３の処理の履歴を記憶し、ドキュメント番組指定・制御モジュール１１７がその履歴のグラフ表現等を作成して、ユーザインタフェース１３２を介して提示する。
そして、再生頻度が低いドキュメント群を再生したい場合には、利用者の操作によってその指定を行うようしてもよい。図１７は、再生頻度の提示例と選択処理例を示す説明図である。これは、ユーザインタフェース１３２を用いて、再生頻度が低かった領域１７０１を利用者が選択する例である。また、ドキュメント番組表管理モジュール１１４は、再生頻度が予め定められた回数以上になるまでは、再生頻度の低い項目を優先的に番組表に割り当てるようにしてもよい。

なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図１８に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部（演算部）としてＣＰＵ１８０１を用い、記憶装置としてＲＡＭ１８０２、ＲＯＭ１８０３、ＨＤ１８０４（例えばハードディスクを用いることができる）を用いている。キーワード管理モジュール１１１、複数音声ライン生成モジュール１１２、音声生成制御モジュール１１３、ドキュメント番組表管理モジュール１１４、再生ドキュメント管理モジュール１１５、シリアル合成モジュール１１６、ドキュメント番組指定・制御モジュール１１７等のプログラムを実行するＣＰＵ１８０１と、そのプログラムやデータを記憶するＲＡＭ１８０２と、本コンピュータを起動するためのプログラム等が格納されているＲＯＭ１８０３と、補助記憶装置であるＨＤ１８０４と、キーボード、マウス等のデータを入力する入力装置１８０６と、ＣＲＴや液晶ディスプレイ等の出力装置１８０５と、通信ネットワークと接続するための通信回線インタフェース１８０７（例えばネットワークインタフェースカードを用いることができる）、そして、それらをつないでデータのやりとりをするためのバス１８０８により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。

前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図１８に示すハードウェア構成は、１つの構成例を示すものであり、本実施の形態は、図１８に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア（例えばＡＳＩＣ等）で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図１８に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、情報家電、複写機、ファックス、スキャナ、プリンタ、複合機（スキャナ、プリンタ、複写機、ファックス等のいずれか２つ以上の機能を有している画像処理装置）などに組み込まれていてもよい。

前述した実施の形態では、ドキュメント音声生成システム１１０とドキュメント管理サーバー１２０とに分けているが、これらを組み合わせてもよく、また、ドキュメント音声生成システム１１０内のモジュールは他のサーバー等に分散していてもよい。
また、提示としたものについては、ディスプレイ等の出力装置に出力すること以外に、プリンタ等の印刷装置によって印刷すること、スピーカ等の音声出力装置による音声出力等、これらの組み合わせを含む。
また、前述した実施の形態では、音声情報の再生について説明したが、この再生のときに、映像を提示するようにしてもよい。

なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク（ＤＶＤ）であって、ＤＶＤフォーラムで策定された規格である「ＤＶＤ−Ｒ、ＤＶＤ−ＲＷ、ＤＶＤ−ＲＡＭ等」、ＤＶＤ＋ＲＷで策定された規格である「ＤＶＤ＋Ｒ、ＤＶＤ＋ＲＷ等」、コンパクトディスク（ＣＤ）であって、読出し専用メモリ（ＣＤ−ＲＯＭ）、ＣＤレコーダブル（ＣＤ−Ｒ）、ＣＤリライタブル（ＣＤ−ＲＷ）等、ブルーレイ・ディスク（Ｂｌｕｅ−ｒａｙＤｉｓｋ）、光磁気ディスク（ＭＯ）、フレキシブルディスク（ＦＤ）、磁気テープ、ハードディスク、読出し専用メモリ（ＲＯＭ）、電気的消去及び書換可能な読出し専用メモリ（ＥＥＰＲＯＭ）、フラッシュ・メモリ、ランダム・アクセス・メモリ（ＲＡＭ）等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク（ＬＡＮ）、メトロポリタン・エリア・ネットワーク（ＭＡＮ）、ワイド・エリア・ネットワーク（ＷＡＮ）、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。

本実施の形態の構成例についての概念的なモジュール構成図である。再生対象ドキュメント管理表の例を示す説明図である。音声生成制御モジュールによる処理例を示すフローチャートである。シリアル合成モジュールによる処理例を示す説明図である。分割音声情報の再生処理例を示す説明図である。分割音声情報の再生処理例を示す説明図である。分割音声情報の再生処理例を示す説明図である。早送りの再生処理例を示す説明図である。部分的な早送りの再生処理例を示す説明図である。サンプリングの再生処理例を示す説明図である。音声コマ属性表のデータ構造例を示す説明図である。早送りの再生処理を行うための前処理例を示すフローチャートである。複数音声ライン生成モジュールによる処理例を示す説明図である。番組表の例を示す説明図である。番組表の生成処理例を示すフローチャートである。番組表のデータ構造例を示す説明図である。再生頻度の提示例と選択処理例を示す説明図である。本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。

符号の説明

１１０…ドキュメント音声生成システム
１１１…キーワード管理モジュール
１１２…複数音声ライン生成モジュール
１１３…音声生成制御モジュール
１１４…ドキュメント番組表管理モジュール
１１５…再生ドキュメント管理モジュール
１１６…シリアル合成モジュール
１１７…ドキュメント番組指定・制御モジュール
１１８…通信モジュール
１２０…ドキュメント管理サーバー
１２１…通信モジュール
１２２…ドキュメント管理モジュール
１２３…ドキュメントＤＢ
１３１…音声出力モジュール
１３２…ユーザインタフェース

Claims

再生対象である第１の音声情報と第２の音声情報を受け付ける受付手段と、
予め定められた再生間隔に基づいて、前記受付手段によって受け付けられた音声情報を分割する分割手段と、
前記第１の音声情報を前記分割手段によって分割された第１の分割音声情報と前記第２の音声情報を前記分割手段によって分割された第２の分割音声情報を結合して、再生する音声情報を生成する生成手段と、
前記生成手段によって生成された音声情報を再生する再生手段
を具備することを特徴とする音声情報処理システム。
前記分割手段は、予め定められた分割数に基づいて、前記音声情報を分割する
ことを特徴とする請求項１に記載の音声情報処理システム。
前記再生手段は、前記生成手段によって生成された音声情報内の分割音声情報を早送りで再生する
ことを特徴とする請求項１又は２に記載の音声情報処理システム。
前記生成手段は、結合対象として、前記分割手段によって生成された分割音声情報の一部を抽出して、再生する音声情報を生成する
ことを特徴とする請求項１から３のいずれか一項に記載の音声情報処理システム。
文字情報から要約を抽出し、該要約に基づいて音声情報を生成する文字音声情報生成手段
をさらに具備し、
前記受付手段は、前記文字音声情報生成手段によって生成された音声情報を受け付ける
ことを特徴とする請求項１から４のいずれか一項に記載の音声情報処理システム。
前記分割手段は、分割音声情報のうち音量が予め定められた値よりも小さいものを削除する
ことを特徴とする請求項１から５のいずれか一項に記載の音声情報処理システム。
前記再生手段は、第１の音声出力部で前記第１の分割音声情報を再生し、第２の音声出力部で前記第２の音声情報を再生する
ことを特徴とする請求項１から６のいずれか一項に記載の音声情報処理システム。
前記再生手段によって、再生される音声情報の予定を提示する予定提示手段
をさらに具備することを特徴とする請求項１から７のいずれか一項に記載の音声情報処理システム。
前記音声情報には、理解の困難さに関する属性情報が付されており、
前記再生手段は、再生する時間帯によって、属性情報に対応した音声情報を再生する
ことを特徴とする請求項１から８のいずれか一項に記載の音声情報処理システム。
前記予定提示手段は、前記再生手段による再生の回数に基づいて、前記再生手段によって、再生される音声情報の予定を決定する
ことを特徴とする請求項８又は９に記載の音声情報処理システム。
コンピュータを、
再生対象である第１の音声情報と第２の音声情報を受け付ける受付手段と、
予め定められた再生間隔に基づいて、前記受付手段によって受け付けられた音声情報を分割する分割手段と、
前記第１の音声情報を前記分割手段によって分割された第１の分割音声情報と前記第２の音声情報を前記分割手段によって分割された第２の分割音声情報を結合して、再生する音声情報を生成する生成手段と、
前記生成手段によって生成された音声情報を再生する再生手段
として機能させることを特徴とする音声情報処理プログラム。