JP2010066675A - 音声情報処理システム及び音声情報処理プログラム - Google Patents

音声情報処理システム及び音声情報処理プログラム Download PDF

Info

Publication number
JP2010066675A
JP2010066675A JP2008234807A JP2008234807A JP2010066675A JP 2010066675 A JP2010066675 A JP 2010066675A JP 2008234807 A JP2008234807 A JP 2008234807A JP 2008234807 A JP2008234807 A JP 2008234807A JP 2010066675 A JP2010066675 A JP 2010066675A
Authority
JP
Japan
Prior art keywords
audio
information
audio information
document
reproduction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008234807A
Other languages
English (en)
Inventor
Yoshibumi Matsunaga
義文 松永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2008234807A priority Critical patent/JP2010066675A/ja
Publication of JP2010066675A publication Critical patent/JP2010066675A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】音声情報を再生する場合にあって、分割した複数の音声情報を出力して、利用者における音声情報の把握効率を上げるようにした音声情報処理システムを提供する。
【解決手段】音声情報処理システムの受付手段は、再生対象である第1の音声情報と第2の音声情報を受け付け、分割手段は、予め定められた再生間隔に基づいて、前記受付手段によって受け付けられた音声情報を分割し、生成手段は、前記第1の音声情報を前記分割手段によって分割された第1の分割音声情報と前記第2の音声情報を前記分割手段によって分割された第2の分割音声情報を結合して、再生する音声情報を生成し、再生手段は、前記生成手段によって生成された音声情報を再生する。
【選択図】図1

Description

本発明は、音声情報処理システム及び音声情報処理プログラムに関する。
従来、文字情報を音声情報として再生する方法は知られていた。読み上げソフトウェアとして商品として販売されているものもある。
これに関連する技術として、例えば、特許文献1には、見やすい情報の提供を目的に地名などの間に空白を入れているテキスト情報の音声変換の読み誤りを低減することを課題とし、テキスト音声変換回路は、地名などの間に空白文字を入れているテキスト情報からまだ処理を行っていない行を順次読み込み、読み込んだ行について連続する空白は1つの空白文字に置換し、行頭・行末の空白を削除し、行頭から1文字ずつ取り出し、文字が空白文字のときに2つ前と後の文字が空白又は記号又は行端であれば空白文字を除去し、それ以外は文の区切りの空白文字として扱って除去しないように処理して出力する空白除去回路と、空白除去処理を行った行のテキスト情報を解析し、辞書を参照し、文章の読みを決定して出力するテキスト解析回路と、文章の読みが決定された行のテキスト情報を音声信号に変換する波形生成回路とから構成されているものが開示されている。
また、例えば、特許文献2には、より多くの種類のタスクをより適した組合せで多重化して実行する多層ワークを支援することができる多層ワーク支援装置を提供することを課題とし、多重化プログラムの情報取得部は、Web上の情報等を所定の契機で検索して取得し、属性設定部の重要度設定部は、取得された情報の内容に応じて当該情報の重要度を設定し、認知度設定部は、単語の出現頻度等に基づいて当該情報に対する作業者の認知度を設定し、関心度設定部は、予め登録されているキーワードに基づいて当該情報に対する作業者の関心度を設定し、属性設定部は、これらの属性を設定された情報を情報記憶部に保存し、多重化制御部は、記憶されている情報及びその属性を参照して、情報を重要度順、認知度順、関心度順に配列して一覧を作成し、ディスプレイに表示することが開示されている。
また、例えば、特許文献3には、複数の声の音声を合成する音声合成装置及び音声合成プログラムを提供することを課題とし、全文選択モードで「一斉」,「復唱」,「輪唱」の指定、音声種類を指定し、又はアクセント句モードでアクセント句毎に音声種類を指定し、「一斉」では、複数の音声を同時に出力して、複数の人が同時にテキストを読み上げているような効果を出し、「復唱」ではアクセント句毎に、先導の音声種類で音声出力した後、復唱の音声種類で音声出力して、アクセント句毎に先導の音声で出力されたものを復唱の音声が復唱するような効果を出し、「輪唱」では、指定された音声種類を指定された順番に、1つ前の音声種類の1番目のアクセント句の出力終了後、音声出力が開始され、合唱での輪唱のように複数の人が前の人に続いて読み上げを行うような効果を出し、「アクセント句モード」ではアクセント句毎に音声種類や人数が変わるよう読み上げられることが開示されている。
また、例えば、非特許文献1には、メール文面に対して、より自然に聞き取れるように変換を施した音声合成用文書変換装置又は文書読み上げ装置が開示されている。
また、例えば、非特許文献2には、録画倍速再生機能を用いて、同時系列内の2つのプログラムを漏れなく視聴することを目指したシステムの研究であって、単純な蓄積情報に対してだけではなく、1周期分のストックを活用することで、リアルタイム情報にも擬似的に対応することを特徴としており、さらに、切替時に、若干のオーバーラップ時間を設けることで、より自然な切替を実現していることが開示されている。
特許第3663531号公報 特開2007−148654号公報 特開2006−337468号公報 発明協会公開技報公技番号96−009868号 栖関他、「短縮再生を利用した二重TV視聴支援手法」、情報処理学会研究報告2008−DBS−144/2008−GN−66、2008年1月25日、p.163−170
本発明は、音声情報を再生する場合にあって、分割した複数の音声情報を出力して、利用者における音声情報の把握効率を上げるようにした音声情報処理システム及び音声情報処理プログラムを提供することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、再生対象である第1の音声情報と第2の音声情報を受け付ける受付手段と、予め定められた再生間隔に基づいて、前記受付手段によって受け付けられた音声情報を分割する分割手段と、前記第1の音声情報を前記分割手段によって分割された第1の分割音声情報と前記第2の音声情報を前記分割手段によって分割された第2の分割音声情報を結合して、再生する音声情報を生成する生成手段と、前記生成手段によって生成された音声情報を再生する再生手段を具備することを特徴とする音声情報処理システムである。
請求項2の発明は、前記分割手段は、予め定められた分割数に基づいて、前記音声情報を分割することを特徴とする請求項1に記載の音声情報処理システムである。
請求項3の発明は、前記再生手段は、前記生成手段によって生成された音声情報内の分割音声情報を早送りで再生することを特徴とする請求項1又は2に記載の音声情報処理システムである。
請求項4の発明は、前記生成手段は、結合対象として、前記分割手段によって生成された分割音声情報の一部を抽出して、再生する音声情報を生成することを特徴とする請求項1から3のいずれか一項に記載の音声情報処理システムである。
請求項5の発明は、文字情報から要約を抽出し、該要約に基づいて音声情報を生成する文字音声情報生成手段をさらに具備し、前記受付手段は、前記文字音声情報生成手段によって生成された音声情報を受け付けることを特徴とする請求項1から4のいずれか一項に記載の音声情報処理システムである。
請求項6の発明は、前記分割手段は、分割音声情報のうち音量が予め定められた値よりも小さいものを削除することを特徴とする請求項1から5のいずれか一項に記載の音声情報処理システムである。
請求項7の発明は、前記再生手段は、第1の音声出力部で前記第1の分割音声情報を再生し、第2の音声出力部で前記第2の音声情報を再生することを特徴とする請求項1から6のいずれか一項に記載の音声情報処理システムである。
請求項8の発明は、前記再生手段によって、再生される音声情報の予定を提示する予定提示手段をさらに具備することを特徴とする請求項1から7のいずれか一項に記載の音声情報処理システムである。
請求項9の発明は、前記音声情報には、理解の困難さに関する属性情報が付されており、前記再生手段は、再生する時間帯によって、属性情報に対応した音声情報を再生することを特徴とする請求項1から8のいずれか一項に記載の音声情報処理システムである。
請求項10の発明は、前記予定提示手段は、前記再生手段による再生の回数に基づいて、前記再生手段によって、再生される音声情報の予定を決定することを特徴とする請求項8又は9に記載の音声情報処理システムである。
請求項11の発明は、コンピュータを、再生対象である第1の音声情報と第2の音声情報を受け付ける受付手段と、予め定められた再生間隔に基づいて、前記受付手段によって受け付けられた音声情報を分割する分割手段と、前記第1の音声情報を前記分割手段によって分割された第1の分割音声情報と前記第2の音声情報を前記分割手段によって分割された第2の分割音声情報を結合して、再生する音声情報を生成する生成手段と、前記生成手段によって生成された音声情報を再生する再生手段として機能させることを特徴とする音声情報処理プログラムである。
請求項1記載の音声情報処理システムによれば、音声情報を再生する場合にあって、本構成を有していない場合に比較して、分割した複数の音声情報を出力して、利用者における音声情報の把握効率を上げることができる。
請求項2記載の音声情報処理システムによれば、再生時間が異なる複数の音声情報であっても、予め定められた巡回の回数内でその複数の音声情報を再生することができる。
請求項3記載の音声情報処理システムによれば、音声情報の一般的な速度での再生の場合に比較して、高速にその内容を把握することができる。
請求項4記載の音声情報処理システムによれば、音声情報を全て再生する場合に比較して、高速にその内容を把握することができる。
請求項5記載の音声情報処理システムによれば、文字情報であるものを音声情報として再生する場合であって、文字情報の要約によってその内容を把握することができる。
請求項6記載の音声情報処理システムによれば、音声情報を全て再生する場合に比較して、高速にその内容を把握することができる。
請求項7記載の音声情報処理システムによれば、全ての音声情報を1つの音声出力部から再生する場合に比較して、異なる音声情報がそれぞれの音声出力部によって再生され、聞き分けることを容易にする。
請求項8記載の音声情報処理システムによれば、どのような音声情報が再生されるかについて、予め把握することができる。
請求項9記載の音声情報処理システムによれば、時間帯に分けて、音声情報の理解困難性に沿った再生を行うことができる。
請求項10記載の音声情報処理システムによれば、過去の音声情報の再生頻度によって、音声情報の再生の予定を決定することができる。
請求項11記載の音声情報処理プログラムによれば、音声情報を再生する場合にあって、本構成を有していない場合に比較して、分割した複数の音声情報を出力して、利用者における仕事の効率を上げることができる。
以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、コンピュータ・プログラム、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能にほぼ一対一に対応しているが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。「予め定められた」とは、対象としている処理の前であることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。また、管理という用語を用いるが、これは文脈に応じて、制御する、マネジメントする、制御又はマネジメントするためのデータを記憶するの意で用い、その役割又は動作をさす。ドキュメントとは、音声等の電子データであり、音声の電子データを含んでいる動画(ビデオ)、画像、テキスト等の電子データであってもよく、また、音声以外の電子データ(例えば、テキストの電子データ等)であるが、その電子データから音声データに変換できる(例えば、読み上げソフトウェア等)ものを含み、記憶、編集及び検索等ができ、システム又は利用者間で個別の単位として交換できるものをいい、これらに類似するものを含む。なお、ドキュメントは音声データと同義に用いる場合がある。
本実施の形態は、図1に示すように、ドキュメント音声生成システム110は、キーワード管理モジュール111、複数音声ライン生成モジュール112、音声生成制御モジュール113、ドキュメント番組表管理モジュール114、再生ドキュメント管理モジュール115、シリアル合成モジュール116、ドキュメント番組指定・制御モジュール117、通信モジュール118、音声出力モジュール131、ユーザインタフェース132を有している。ドキュメント管理サーバー120は、通信モジュール121、ドキュメント管理モジュール122、ドキュメントDB123を有している。そして、ドキュメント音声生成システム110とドキュメント管理サーバー120は通信回線を介して接続されている。ドキュメント管理サーバー120は、ドキュメントを記憶しているサーバーであり、ドキュメント音声生成システム110は、再生すべきドキュメントをドキュメント管理サーバー120から抽出して、複数の音声情報を時分割的に再生し、ドキュメントの把握をする場合に用いられるものである。
ドキュメント音声生成システム110内のキーワード管理モジュール111、複数音声ライン生成モジュール112、音声生成制御モジュール113、ドキュメント番組表管理モジュール114、再生ドキュメント管理モジュール115、シリアル合成モジュール116、ドキュメント番組指定・制御モジュール117、通信モジュール118は、それぞれ接続されている。
音声生成制御モジュール113は、音声出力モジュール131と接続されている。なお、音声出力モジュール131は、例えば、スピーカであり、複数が接続されていてもよい。
音声生成制御モジュール113は、再生対象である複数の音声情報、つまり第1の音声情報と第2の音声情報を受け付ける。例えば、ドキュメント番組表管理モジュール114によって管理されているドキュメント番組表にしたがって、再生ドキュメント管理モジュール115が管理しているドキュメントを複数抽出する。なお、第2の音声情報は、第1の音声情報とは異なる音声情報である。音声生成制御モジュール113が受け付ける音声情報は、3つ以上の音声情報であってもよい。
そして、音声生成制御モジュール113は、予め定められた再生間隔(再生する時間、インタバルともいう)に基づいて、受け付けられた音声情報を分割する。また、予め定められた分割数に基づいて、音声情報を分割するようにしてもよい。なお、分割された音声情報を分割音声情報ともいう。また、分割音声情報のうち音量(音声ボリューム)が予め定められた値よりも小さいものを削除する。音量が小さい部分には、無音を含む。
次に、音声生成制御モジュール113は、分割した音声情報(第1の音声情報を分割した第1の分割音声情報と第2の音声情報を分割した第2の分割音声情報)を複数音声ライン生成モジュール112又はシリアル合成モジュール116に渡して、その分割音声情報を結合させ、再生する音声情報を生成する。そして、複数の音声出力モジュール131に音声情報を再生させる場合には、各音声出力モジュール131に対応させて音声情報を再生させる。つまり、第1の音声出力モジュール131で前記第1の分割音声情報を再生し、第2の音声出力モジュール131で前記第2の音声情報を再生する。
そして、音声生成制御モジュール113は、複数音声ライン生成モジュール112又はシリアル合成モジュール116を用いて生成した音声情報を、音声出力モジュール131を用いて再生する。また、生成した音声情報内の分割音声情報を早送りで再生するようにしてもよい。なお、音声生成制御モジュール113が早送りで再生するとは、音声生成制御モジュール113自身が普通速度の分割音声情報を早送りで再生する場合と、早送り用の分割音声情報を音声生成制御モジュール113による再生処理の前に生成して(例えば、複数音声ライン生成モジュール112又はシリアル合成モジュール116による処理)、音声生成制御モジュール113は、その早送り用の分割音声情報を再生するようにしてもよい。
また、音声生成制御モジュール113は、結合対象として、分割音声情報の一部を抽出して、再生する音声情報を生成するようにしてもよい。つまり、抽出されなかった分割音声情報は省略(スキップ)されることになる。
また、音声生成制御モジュール113は、再生する時間帯によって、属性情報に対応した音声情報を再生するようにしてもよい。
キーワード管理モジュール111は、音声情報に付されている属性であるキーワード等を管理する。また、その属性情報として、理解の困難さに関する属性情報があってもよい。そして、音声生成制御モジュール113からの指示に応じて、その属性情報を音声生成制御モジュール113に渡す。
複数音声ライン生成モジュール112は、音声生成制御モジュール113から分割音声情報を受け取って、1つの音声出力モジュール131(音声出力モジュール131が1つだけ音声生成制御モジュール113に接続されている場合、又は複数の音声出力モジュール131が音声生成制御モジュール113に接続されているが、そのうちの1つの音声出力モジュール131)で再生する音声情報を生成する。
シリアル合成モジュール116は、音声生成制御モジュール113から分割音声情報を受け取って、複数の音声出力モジュール131で再生する音声情報を生成する。つまり、各音声出力モジュール131で再生する音声情報を生成する。
再生ドキュメント管理モジュール115は、再生対象であるドキュメントを管理する。また、音声生成制御モジュール113からの指示に基づいて、管理しているドキュメントを渡す。また、ドキュメントが音声情報以外の電子データである場合は、その電子データ(例えば、テキスト等の電子データ)を音声情報に変換する。例えば、読み上げソフトウェアを用いてもよい。また、テキストの電子データから要約(アブストラクト)を抽出し、その要約に基づいて音声情報を生成するようにしてもよい。要約抽出として、例えば、XML(eXtensible Markup Language)等のタグ付き言語で記述されている場合は、要約を示すタグに囲まれているテキストを抽出すること、言語解析技術を用いて要約を生成すること等がある。そして、音声生成制御モジュール113は、テキストの電子データの要約に対応する音声情報を受け付けることとなる。また、再生ドキュメント管理モジュール115が管理しているドキュメント内に、音声生成制御モジュール113の指示によるドキュメントがない場合は、通信モジュール118を介してドキュメント管理サーバー120からドキュメントを抽出する。
ドキュメント番組表管理モジュール114は、再生される音声情報の予定である番組表を作成する。その予定は、1日毎、1週間毎に作成するようにしてもよい。そして、その予定にしたがって、再生ドキュメント管理モジュール115によって管理されているドキュメントを音声生成制御モジュール113が再生する。また、音声生成制御モジュール113による過去の再生の回数に基づいて、音声生成制御モジュール113によって、再生される音声情報の予定を決定するようにしてもよい。
ドキュメント番組指定・制御モジュール117は、ドキュメント番組表管理モジュール114によって作成された予定をユーザインタフェース132を介して提示する。また、ユーザインタフェース132から利用者の操作を受け付けて、その操作に基づいて、音声生成制御モジュール113等を制御する。
ユーザインタフェース132は、ドキュメント番組指定・制御モジュール117と接続されている。例えば、マウス、キーボード等の入力装置から利用者の操作を受け付け、ドキュメント番組指定・制御モジュール117に渡す。又は、ドキュメント番組指定・制御モジュール117から受け付けた電子データをディスプレイ等の出力装置に出力する。
通信モジュール118は、ドキュメント管理サーバー120の通信モジュール121と通信回線を介して接続されている。再生ドキュメント管理モジュール115からの指示に基づいて、ドキュメント管理サーバー120と通信を行って、再生すべきドキュメントの受け取りを行う。
通信モジュール121は、ドキュメント管理モジュール122と接続されており、また、通信回線を介してドキュメント音声生成システム110の通信モジュール118と接続されている。ドキュメント音声生成システム110からの指示を受信し、ドキュメント管理モジュール122に渡す。また、ドキュメント管理モジュール122から渡されたドキュメントをドキュメント音声生成システム110に送信する。
ドキュメント管理モジュール122は、通信モジュール121、ドキュメントDB123と接続されている。通信モジュール121を介してドキュメント音声生成システム110からの指示を受け取って、ドキュメントDB123内に記憶されているドキュメントにアクセスして、その指示されているドキュメントを通信モジュール121を介してドキュメント音声生成システム110に渡す。
ドキュメントDB123は、ドキュメント管理モジュール122からアクセスされる。ドキュメントを記憶しており、ドキュメント管理モジュール122からのアクセスに応じて、そのドキュメントを渡す。
図2は、ドキュメント番組表管理モジュール114が管理する番組表である再生対象ドキュメント管理表の例を示す説明図である。つまり、この再生対象ドキュメント管理表にしたがって、音声生成制御モジュール113がドキュメントを音声情報として再生する。再生対象ドキュメント管理表は、区分毎(ドキュメントが一部重複分類されていてもよい)に作成されている。例えば、利用者の仕事としてのプロジェクト毎等がある。各区分は、さらに、必要に応じて、そのドキュメントが再生されてからの時間順に並べられたもの(つまり、再生されていない順に並べられたもの、プロジェクトA(再生インタバルの長さ順)表210、プロジェクトB(再生インタバルの長さ順)表230)、属性情報である重要度順に並べられもの(プロジェクトA(重要度順)表220)等がある。
例えば、プロジェクトA(再生インタバルの長さ順)表210は、ドキュメント名欄211、重要度欄212、所要見積欄213、最近再生欄214を有している。ドキュメント名欄211は、再生すべきドキュメントのリストを記憶しており、また、ドキュメントの種類として、例えば、電子メール、HTML(Hyper Text Mark‐up Language)、文書ファイル等があり、重要度欄212は、属性情報である重要度を記憶しており、所要見積欄213は、そのドキュメントを再生するにかかる時間を記憶しており、最近再生欄214は、再生された時からの経過時間(分、秒等であってもよい)を記憶している。そして、プロジェクトA(再生インタバルの長さ順)表210のドキュメント名欄211内の順で、分割されたドキュメントを音声生成制御モジュール113が再生することとなる。
図3は、音声生成制御モジュール113による処理例を示すフローチャートである。
ステップS302では、音声生成制御モジュール113が、変数Nに再生すべきドキュメントの対象総数を、変数Sに再生させる音声出力モジュール131であるスピーカ数を代入する。対象総数は、ドキュメント番組表管理モジュール114からの指示である番組表にしたがう。例えば、図2に示したプロジェクトA(再生インタバルの長さ順)表210内のドキュメント名欄211にあるドキュメントの数である。また、スピーカ数は、音声生成制御モジュール113に接続されている音声出力モジュール131の個数を検知してもよいし、利用者が指定する数(つまり、利用したい音声出力モジュール131の数)を用いてもよい。
ステップS304では、音声生成制御モジュール113が、スピーカ数からシリアル再生か空間再生かを判断する。かかる判断において、スピーカ数が1であるならば(Y)ステップS310へ進み、それ以外の場合(N)はステップS350へ進む。なお、ここで、空間再生とは、複数のスピーカを空間的(前方の左右上下、後方の左右上下等)に配置しておき、それらの配置されたスピーカから再生させるものである。
ステップS310では、複数のドキュメントに対して、指定されたインタバル(再生間隔)にしたがって、シリアル再生するための音声情報を生成する。音声生成制御モジュール113が、シリアル合成モジュール116を用いて、この処理を行う。なお、この処理の詳細については、図4から図12を用いて後述する。
ステップS312では、音声生成制御モジュール113が、ステップS310で生成された音声情報を音声出力モジュール131で再生する。
ステップS350では、音声生成制御モジュール113が、NとSとを比較する。つまり、NはS以下であるか否かを判断する。これは、各音声出力モジュール131に1つの対象(ドキュメント)が対応している状態であるか否かを判断するものである。かかる判断において、NはS以下である場合(Y)はステップS354へ進み、それ以外の場合はステップS352へ進む。
ステップS352では、音声生成制御モジュール113が、NをS以下になるように調整を要求する。この要求は、ドキュメント番組指定・制御モジュール117、ユーザインタフェース132を介して、利用者に要求するものであるが、音声生成制御モジュール113が、NをS以下の数に変更してもよい。つまり、再生するドキュメントを限定すること、又はドキュメントをS以下になるようにグループ分けすること等がある。グループ分けとは、そのグループ内にあるドキュメントを1つの対象とすることである。そして、ステップS304の処理に戻る。
ステップS354では、ステップS310と同様に、複数のドキュメントに対して、指定されたインタバル(再生間隔)にしたがって、シリアル再生するための音声情報を生成する。音声生成制御モジュール113が、シリアル合成モジュール116を用いて、この処理を行う。なお、この処理の詳細については、図4から図12を用いて後述する。
ステップS356では、複数音声ライン生成モジュール112が、ステップS354で生成された音声情報をN個の独立ライン(各音声出力モジュール131で再生する音声情報)に分割する。なお、この処理の詳細については、図13を用いて後述する。
ステップS358では、音声生成制御モジュール113が、ステップS356で分割されたそれぞれの音声情報を複数の音声出力モジュール131で再生する。
図4は、シリアル合成モジュール116による処理例を示す説明図である。つまり、シリアル再生の処理(ステップS310、ステップS354)について説明する。
再生対象ドキュメント(ファイル)数がNだった場合、これを上から順に1つずつ再生して完了したら次のドキュメントを再生する方式ではなく、指定の再生インタバルT(例えば、ここではT=3秒が指定されたとする)の時間で、分割し、N個の各3秒ずつを、順番に結合していく。N個の結合が終わったら、各4秒から6秒までを、次に同じように結合していく。このようにして、図4の例に示したように、N個の対象を1本の音声ラインにシリアライズ(複数のドキュメントを合成して1つの音声情報を生成)して、これを再生させる。
ステップS402はステップS302に対応し、音声生成制御モジュール113が、再生すべきドキュメントの対象総数を指定する。つまり、Nに対象総数を代入する。次にステップS310又はステップS354に対応するステップS404からステップS408を行う。
ステップS404では、音声生成制御モジュール113が、再生すべき対象となるドキュメントを特定する。そして、そのドキュメントを再生ドキュメント管理モジュール115から取得する。図4中のD1、D2、D3、・・・、DNは、対象となっているそれぞれのドキュメントを示す符号である。
ステップS406では、音声生成制御モジュール113が、再生インタバルTを指定する。この指定は、利用者による指定を、ユーザインタフェース132、ドキュメント番組指定・制御モジュール117を介して受け取る。そして、各ドキュメントを再生インタバルTで分割する。例えば、図4内のD1はT4分の長さがあり、D11、D12、D13、D14に分割される。同様に、D2はT5分の長さがあり、D21、D22、D23、D24、D25に分割される。他のドキュメントも同等である。
ステップS408では、シリアル合成モジュール116が、ステップS406で分割された音声情報を合成する。つまり、各ドキュメントの分割音声情報をドキュメントの順に沿って合成して、これを繰り返す。例えば、図4に示すように、D11、D21、D31、・・・、DN1を合成して、これを1サイクルとし、さらに、その後にD12、D22、D32、・・・、DN2を合成して最後まで繰り返す。
そして、音声生成制御モジュール113は、ステップS408で合成された音声情報を音声出力モジュール131で再生する。
例えば、再生途中で、インタラプトが入り、中止せざるを得なくなったとしても、N個の全体の最初の方を聞いたことになり、概要把握を促進する場合等に用いる。これは、全く初めてのドキュメントではなく、概ね一度は見たことのあるドキュメントの復習の場合は、冒頭のわずかでも全体を想起させることとなるからである。
図5は、分割音声情報の再生処理例を示す説明図である。
ドキュメントによっては、他のドキュメントより先に再生が終了してしまう場合ある。したがって、例えば、図5の場合(N=7を想定)では、7コマ(コマとは、分割された音声情報)存在するのは3サイクル目までで、4サイクル目は6コマ(D3のコマがない)、5サイクル目は4コマ(D2、D4、D6、D7)というように、減少していくことになる。再生するコマ数が予め定められた数(例えば、7コマ)になるように、再生が終了したドキュメントが発生した場合は、別のドキュメントの再生を開始するようにしてもよい。また、再生が終了したドキュメントが発生した場合は、未だ再生が終了していないドキュメントの分割音声情報を再生するようにしてもよい。つまり、ドキュメント数を減らしながら、空いたコマに再生しているドキュメントのコマを入れて、無くなるまで続けるものである。
図6は、分割音声情報の再生処理例を示す説明図である。
対象ドキュメント数N=7個、再生インタバルT=3秒で、音声生成制御モジュール113は、最も早く終了するドキュメントD3を特定する。そして、再生が終了するサイクル数(ここでは、3サイクルとなる)に合わせて、その他のドキュメント(D1、D2、D4からD7)を、分割(3分割)する。その後、その分割した1つのコマの再生時間を再生インタバルT(3秒)になるように、圧縮処理(例えば、再生時に早送り再生させるように指定する等)する。これによって、N個の全てのドキュメントが3巡目後に全て終了することになる。また、圧縮率の高い(高速再生される)コマを持つドキュメントは、そのドキュメント自体のサイズが大きいということが、利用者にとって感覚的に捉え得ることとなる。
また、過去に読んだことのあるドキュメントや聞いたことのあるビデオ等の復習が主たる狙いである場合、最初の出だしと最後の結論はとりわけ重要である場合が多い。最初と最後が認識できれば、脳裏での再現が十分期待できる。そこで、圧縮処理(サンプリング処理)として、ドキュメント内の最初の数コマと、最後の数コマだけを抽出し、真ん中は飛ばしてしまう方法もまた、所要時間の効率化という観点からは有効となる。
なお、ドキュメント再生時間の見積もりは、コンピュータが空いているとき又はバックグラウンド処理を使って、実際に再生して時間を計るようにしてもよい。また、オリジナルドキュメントとは別に、ドキュメントを複製した再生用のドキュメントで、再生、計測を行うようにしてもよい。
N(再生する対象の総数)の大きさについては、N=7までは巡回した実験の実績がある。また、短期記憶は7つまでという説もあるので、Nの値は2から10程度での運用が適している。
図7は、分割音声情報の再生処理例を示す説明図である。予め定められた分割数に基づいて、ドキュメントを分割する例を示す。
図7の例は、同じ対象ドキュメントに対して、再生時間の長さに関わらず、他の対象ドキュメントと同じ分割数(インタバル数)Kに揃えるケースを表したものである。この場合、1コマの長さは、全体の再生時間Pに対して、P/Kで表される。つまり、図7(a)は3分割の例、図7(b)は4分割の例、図7(c)は5分割の例、図7(d)は6分割の例、図7(e)は8分割の例を示している。
この分割音声情報を合成処理(シリアライズ処理)する際に、各ドキュメント間で再生間隔を揃えないでそのまま巡回的に結合する場合と、再生間隔を揃える場合がある。後者の場合、最も再生時間が短いドキュメントに合わせるために、その他のドキュメントではコマごとに圧縮処理を行うことになる。
次に、圧縮処理の例を説明する。
対象全体の圧縮(再生スピードを上げる)として、例えば、1コマ(ここでは3秒)を、1.5秒、1秒、すなわち再生スピードを2倍、3倍とすることによって、さらに高速把握をし得るようにする。これには、全体を均等に圧縮再生する場合、N個の対象のうち、重要度が低いものだけを、圧縮再生する場合がある。
図8は、早送りの再生処理例(全体を均等に圧縮再生する処理)を示す説明図である。つまり、D11、D21、D31、・・・、DN1、D12、D22、D32、・・・、DN2の再生を行う場合、圧縮処理して倍速再生すると、圧縮処理していない普通再生の半分の時間(普通再生でD11からDN1までの再生時間)で全体を再生してしまう。
図9は、部分的な早送りの再生処理例(N個の対象のうち、重要度が低いものだけを、圧縮再生する処理)を示す説明図である。つまり、音声生成制御モジュール113は、図2の例に示したプロジェクトA(再生インタバルの長さ順)表210内の重要度欄212に記憶されている重要度に基づいて、重要度の低いドキュメントのコマに対して圧縮処理を行う。図9の例に示すものは、D2は重要度が高いので、圧縮処理を施さないが、その他のドキュメント(D1、D3等)のコマに対しては圧縮処理を施したものである。
また、圧縮処理として、サマリーする処理又は特定部分を圧縮する処理を説明する。
対象となるドキュメントを予め分析し、短縮した上で、音声情報群に変換する。短縮方法としては、例えば、(1)重要度の高いもの又は関心の強さを表すキーワードが含まれる文のみを抽出する、(2)各文を自立語のみで構成することで、全体を短縮する、などがある。全体での圧縮効果があれば、どのような方法でもよい。ただし、復習に用いられる場面であって、意味がある程度確認され得ることが前提となる。
また、再生時に圧縮する方法(早送り再生)、早送り再生したものを記録しておき、それを再生する方法、という2つ方法があるが、どちらでもよい。後者の場合は、事前の処理(前処理)で、前述の圧縮処理(分割後に圧縮、サマリー処理した短縮テキストを音声情報に変換した後に分割等)を選択できるようにしてもよい。
図10は、サンプリングの再生処理例を示す説明図である。つまり、結合対象として、分割音声情報の一部を抽出して、再生する音声情報を生成する処理例を説明する。
図10の例に示すように、サンプリング数S=2の場合、1つおきに、1番目、3番目、5番目、というように奇数番目のサイクルを抽出する。つまり、最初のコマの後は、1コマスキップして、3つ目のコマ(1つのコマが3秒の場合は、7秒から9秒までの間)を2つ目のコマとして抽出するというサンプリングを行う。これによって、音声は途切れることとなるが、ドキュメントの内容やそれまでの復習の頻度によっては、人間の補完能力によって内容をほぼ復元し得るものである。また、S=2の場合には、ほぼ2倍のスピードでの把握実現を目指すことになる。
また、抽出するコマの総数を予め定めておき、その数のコマをキーワードに基づいて抽出するようにしてもよい。具体的には、例えば、音声生成制御モジュール113は、図11の例に示した含有キーワード欄1109内のキーワードの分布を利用して、図10の例に示した巡回的な抽出順番ではなく、頻度順に沿った抽出をする。つまり、頻度が多いキーワードを含むコマを優先して抽出する。さらに、抽出したコマに隣接するコマも含めて、抽出するようにしてもよい。また、ドキュメント重要度欄1105、単位重要度欄1106等内のデータに基づいて、コマを抽出するようにしてもよい。
図11は、音声コマ属性表1100のデータ構造例を示す説明図である。音声コマ属性表1100は、No.欄1101、長さ欄1102、音量欄1103、圧縮度欄1104、ドキュメント重要度欄1105、単位重要度欄1106、再生回数欄1107、最近再生日時欄1108、含有キーワード欄1109を有している。
No.欄1101は、そのコマを一意に識別する識別子を記憶する。長さ欄1102は、そのコマの再生時間を記憶する。音量欄1103は、そのコマを再生する場合の音量を記憶する。圧縮度欄1104は、そのコマの圧縮度(早送りの速度)を記憶する。ドキュメント重要度欄1105は、そのコマが属しているドキュメントの重要度を記憶する。単位重要度欄1106は、そのコマの重要度を記憶する。再生回数欄1107は、そのコマが過去に再生された回数を記憶する。最近再生日時欄1108は、そのコマが再生された最近の日時を記憶する。含有キーワード欄1109は、そのコマに含まれているキーワードを記憶する。音声コマ属性表1100内のデータは、予め又は音声生成制御モジュール113によって記憶される。
図12は、早送りの再生処理を行うための前処理例を示すフローチャートである。音声生成制御モジュール113が再生ドキュメント管理モジュール115を用いて、文字情報から要約を抽出し、その要約に基づいて音声情報を生成する等の処理に関するものである。例えば、ドキュメントの構成として最初に目次が存在する場合は、前半はタイトルのみ、後半は結論のみというものがある。特に、アブストラクト(要約)がある場合には、それのみを音声情報の再生対象としてもよい。また、特に会議を撮影したビデオなどでは、音量(音声ボリューム)が予め定められた閾値よりも小さいコマ(無音声のコマを含む)を削除するようにしてもよい。また、テキストの電子データの場合、段落のまとまりがある場合やタイトル的なものがある場合、その後には、若干の空白時間を挿入することで、聞き取りやすくなるので、例えば、空白コマを挿入するようにしてもよい。
以下、図12の例に示すフローチャートに沿って説明する。
ステップS1202では、音声生成制御モジュール113が再生ドキュメント管理モジュール115に対して、対象とするドキュメントを指定する。
ステップS1204では、再生ドキュメント管理モジュール115が、そのドキュメントには要約があるか否かを判断する。かかる判断において、要約がある場合(Y)はステップS1212へ進み、それ以外の場合(N)はステップS1206へ進む。
ステップS1206では、再生ドキュメント管理モジュール115が、そのドキュメントは、会議ビデオ又は音声ファイルを含んでいるか否かを判断する。かかる判断において、含んでいる場合(Y)はステップS1214へ進み、それ以外の場合(N)はステップS1208へ進む。
ステップS1208では、再生ドキュメント管理モジュール115が、そのドキュメントには、テキストデータがあるか否かを判断する。かかる判断において、テキストデータがある場合(Y)はステップS1210へ進み、それ以外の場合(N)は他のドキュメントを対象とするためにステップS1202へ戻る。
ステップS1210では、再生ドキュメント管理モジュール115が、そのテキストデータを音声情報に変換し、音声生成制御モジュール113が予め定められた再生間隔で分割する。なお、予め定められた再生間隔は、複数あってもよい。
ステップS1212では、再生ドキュメント管理モジュール115が、アブストラクト部分のテキストデータを音声情報に変換し、音声生成制御モジュール113が予め定められた再生間隔で分割する。
ステップS1214では、音声生成制御モジュール113が、会議ビデオ等のドキュメントを予め定められた再生間隔で分割して、音量が予め定められた閾値よりも小さいコマを削除する。
ステップS1216では、音声生成制御モジュール113が、コマ内に含まれているキーワード等のコマ毎の属性を抽出する。
図13は、複数音声ライン生成モジュール112による処理例を示す説明図である。空間再生処理(図3の例に示すフローチャートのステップS358)について説明する。なお、図4から図12を用いて説明した処理は、シリアル再生処理のみならず、空間再生処理でも利用されるものである。したがって、図13は、図4から図12を用いて説明した処理によって合成された結果(図13(a))を、複数の音声出力モジュール131で再生するための処理例を示すものである。なお、図4から図12を用いて説明した複数の処理は、そのうちの1つを採用してもよいし、複数の処理を組み合わせてもよい。
この空間再生処理では、複数の音声出力モジュール131への路線上の音声を順番に(つまり切り替え的に)再生する。ただし、音声は、その路線の出力順のときのみ実体があり、他のコマは空である。又は、小さいボリュームで他のドキュメントのコマを含ませてもよい。
ドキュメントのコマを順番に出力時間を変えるだけでは、人間の認知の負荷が大きすぎる。そこで、聞くべきドキュメントの音声情報が、同じ音声出力モジュール131ではなく空間的に配置された複数の異なる音声出力モジュール131から聞こえるようにする。つまり、聞こえてくる方向の違いにより聞き分けやすくするためのものである。8つの音声出力モジュール131を周囲に配置して、そこから再生されれば、あたかも、8人の話者に囲まれて、順番に少しずつ話してもらった状況と同等になる。また、聞き分けを容易にするために、左方向には高音域(女性声)、右方向には低音域(男性声)を割り当てるようにしてもよい。
複数の音声情報を、空間配置したスピーカから独立に聞けるようにすると、この音を聞きながら他の仕事をしやすくなるので、複数の仕事をこなす場合に利用し得るものである。
8つの音声出力モジュール131の配置は、利用者の前方及び後方の上下左右とする。
N=2の場合は、前方右側と前方左側にある音声出力モジュール131での音量(片方が大でもう一方が小)を、T秒間隔で入れ替える。
N=3の場合は、前方右側と前方左側と、前方上側又は前方下側のいずれか一方を用いる。この3つの間で、音量をT秒間隔で入れ替える。
N=4の場合は、前方右側と前方左側と前方上側と前方下側を用いる。この4つの間で、音量をT秒間隔で入れ替える。
N=5の場合は、N=4の場合に加えて、後方右側又は後方左側のいずれか一方を用いる。この5つの間で、音量をT秒間隔で入れ替える。
N=6の場合は、N=4の場合に加えて、後方右側と後方左側を用いる。この6つの間で、音量をT秒間隔で入れ替える。
N=7の場合は、N=6の場合に加えて、後方上側又は後方下側のいずれか一方を用いる。この7つの間で、音量をT秒間隔で入れ替える。
N=8の場合は、8つの音声出力モジュール131を用いる。この8つの間で、音量をT秒間隔で入れ替える。
もちろん、N(再生に利用する音声出力モジュール131の数)は8以上であってもよい。
聞いてみないと何が流れるかを把握しづらいということもある。もっと主体的・選択的に聞きたいという要求に対応するためには、次の2つの方法がある。
(1)図2の例に示した再生対象ドキュメント管理表を複数提示して、何が再生されるのかを見渡すことができるようにし、複数の再生対象ドキュメント管理表をまたがって、ドキュメントを選択し、それを再生対象群とする。
(2)仕事中心の番組表、趣味中心の番組表、コミュニティ活動中心の番組表のように、いくつかの区分で、番組表を編成し、予め定められた周期(例えば、毎日)毎に、変更した編成を行うようにする。例えば、一週間先の編成まで作成し、まるで新聞のラジオ番組欄を確認するように、再生するドキュメントをチェックして指定するようにしてもよい。
また、前記(1)と(2)とを組み合わせてもよい。
図14は、(2)に示した番組表の例を示す説明図である。図2の例に示したプロジェクトA(再生インタバルの長さ順)表210等と対応するものである。つまり、ドキュメント番組表管理モジュール114が管理する番組表の例である。
仕事関係番組(チャンネルA)表1410は、放送時刻欄1411、ドキュメント名欄1412、最近再生欄1413を有している。放送時刻欄1411は、そのドキュメントを再生する時刻を記憶しており、ドキュメント名欄1412は、再生すべきドキュメントのリストを記憶しており、最近再生欄1413は、再生された時からの経過時間(分、秒等であってもよい)を記憶している。
次に、ドキュメント番組表管理モジュール114が行う番組表の生成処理例を説明する。
利用者にとってより適正な再生ドキュメントリスト(番組表)を作成する必要がある。そのためには、(A)予め与えられた情報から利用者による操作なしで構築する方法と、(B)利用者の操作に応じて、任意のドキュメントを選択することで構築する方法との2つがある。ここでは、主に「仕事関係」の番組表の作成を主に説明する。
まず、(A)の方法から説明する。
番組表1600を番組表の基本的な枠組みとして予め用意する。図16は、番組表1600のデータ構造例を示す説明図である。番組表1600は、時間帯欄1601、ドキュメントの軽重欄1602、ドキュメント欄1603を有している。
時間帯欄1601は、一日の時間帯を記憶している。ドキュメントの軽重欄1602は、利用者のドキュメントを理解するにあたっての、その時間帯における適切な理解の困難性(ドキュメントの軽重ともいう)を記憶している。ドキュメント欄1603は、その時間帯における再生されるべき具体的なドキュメントを記憶している。そのドキュメントは、ドキュメントの軽重欄1602の理解の困難性に適しているものである。
これは時間帯ごとに、個人のリズムがあることを前提としている。つまり、その時間帯に重い(理解の困難性が高い)内容のドキュメントを再生してもいいのか、それとも軽い(理解の困難性が低い)内容のドキュメントを再生した方がいいのかを示す「重」、「軽」の属性が付与されている。そして、ドキュメントにも「重」、「軽」の属性が付与されている。なお、メール又はニュースには「軽」の属性が付与されているとする。
図16に示す例は、次のことを示している。朝の最初の頃は、調子を出すためにまず「軽」から再生し、次に昼休みまでは「重」を再生する。昼休みは、仕事のドキュメントではなく音楽を再生する。これも個人で指定してよい。午後の最初は利用者によって効率が落ちる時間帯でもあるので「軽」を再生し、その後は「重」とする。このような時間帯ごとの性質に合わせてドキュメントを配置する。
具体的には、各ドキュメントの持つ属性情報(図2の例に示す再生対象ドキュメント管理表)から、メールやニュース的なドキュメントであれば「軽」の時間帯に、それ以外は「重」の時間帯に割り振る。また、「重要」であるドキュメントを対象としてもよいし、さらにドキュメントの量が多い場合には、予め登録した利用者の関心・嗜好のキーワードで、ドキュメントを検索してヒットしたものを優先的に対象とするようにしてもよい。
さらに、もしドキュメントが仕事の納期に絡み、その納期が予め定めた日数(例えば、2日)以内に迫っている場合には、同じ「軽」「重」の性質の時間帯に、納期に関係するドキュメントを優先的に設定する。
最終的に再生によって時間帯が埋まらずに隙間の時間ができたら、「非重要」ドキュメントを、「軽」「重」の分類にしたがって挿入するようにしてもよい。さらに、まだ隙間の時間がある場合には、その時間帯のリストの最初の方から順番に再度設定するようにしてもよい。このようにして、利用者に合わせた番組表が構築される。
以下、この処理をフローチャートを用いて説明する。
図15は、ドキュメント番組表管理モジュール114が行う番組表の生成処理例を示すフローチャートである。
ステップS1502では、利用者による時間帯毎の気分を配慮した基本方針を設定する。つまり、番組表1600のドキュメントの軽重欄1602内を設定するものであり、利用者の操作に応じて予め行っておく。
ステップS1504では、重要なドキュメントであり、かつ利用者の関心・嗜好のキーワードで検索したドキュメントのリストを作成する。
ステップS1506では、ステップS1504で作成したリスト内の対象とするドキュメントはメール又はニュースであるか否か(つまり、ドキュメントの属性として「軽」が付与されているか否か)を判断する。かかる判断において、メール又はニュースである場合(Y)はステップS1508に進み、それ以外の場合(N)はステップS1510へ進む。
ステップS1508では、軽い内容を配置したい時間帯「軽」に、そのドキュメントを配置する。つまり、番組表1600の対応するドキュメント欄1603にそのドキュメントを記憶させる。
ステップS1510では、重い思考も可能である時間帯「重」に、そのドキュメントを配置する。つまり、番組表1600の対応するドキュメント欄1603にそのドキュメントを記憶させる。
ステップS1512では、現在は、仕事の納期が予め定めた日数(例えば、2日)以内にあり、対象としているドキュメントはその仕事に関係するものであるか否かを判断する。かかる判断において、日数以内で関係するものである場合(Y)はステップS1514へ進み、それ以外の場合(N)はステップS1516へ進む。
ステップS1514では、軽重が合致する時間帯に、そのドキュメントを優先的に配置する。
ステップS1516では、時間帯内で空いている時間がある場合(ドキュメントの再生時間の合計が各時間帯の時間より少ない場合)は、非重要ドキュメントを再生するように設定する。つまり、ステップS1504で検索されなかったドキュメントを対象とすることになる。
これによって、仕事関係の1日分の番組表が完成する(ステップS1599)。
次に、(B)の方法について説明する。
これは、例えば、図14の例に示すような番組表をドキュメント番組指定・制御モジュール117がユーザインタフェース132を介して提示する。そして、利用者の選択指示をユーザインタフェース132が受け付けて、ドキュメントを選択し、図16の例に示す番組表1600のドキュメント欄1603中に記載していくものである。番組表の提示の仕方は、納期順、重要度順、関心度順、嗜好順など複数あってもよい。利用者による選択は、「仕事」「趣味」等のカテゴリーの指定であってもよく、さらにその組み合わせであってもよい。また、別の日にも同じリストを再生したいという要求に対応し得るように、お気に入りの番組表1600として、それを登録しておき、その番組表1600を別の日の番組表1600として設定するようにしてもよい。
また、音声出力モジュール131を複数有している場合は、番組表を複数に選択することができる。番組表のカテゴリーはいくつ作ってもよいが(例えば図14に示す例では、仕事、プライベート、コミュニティの3種)、番組表の設定数は原則として音声出力モジュール131の接続数を超えることはできない。
しかし、もし2倍速での再生を行う音声出力モジュール131等がある場合は、そこにはさらにもう1つのカテゴリーの番組表を設定するようにしてもよい。例えば、1つの音声出力モジュール131しか有効でなかった場合でも、2倍速の再生が行われることを条件に、時間帯ごとに2つの番組表にあるドキュメントを交互に再生するようにしてもよい。つまり、再生する場合の圧縮率に応じて、番組表の設定数を決定してもよい。
また、逆に、音声出力モジュール131の接続数よりも多い数の番組表を設定したいとする利用者からの指示がある場合は、例えば、1つ多い場合は、2倍速で再生するものを2つ選択するようにしてもよい。つまり、音声出力モジュール131の接続数を超えた数の番組表を設定する場合は、再生する場合の圧縮率に変更するようにしてもよい。
また、再生実績をレビュー(提示)してもよい。つまり、どのカテゴリー又はどのドキュメントを、どれだけの回数再生したか等の統計を提示するものである。これは、ドキュメント番組表管理モジュール114が音声生成制御モジュール113の処理の履歴を記憶し、ドキュメント番組指定・制御モジュール117がその履歴のグラフ表現等を作成して、ユーザインタフェース132を介して提示する。
そして、再生頻度が低いドキュメント群を再生したい場合には、利用者の操作によってその指定を行うようしてもよい。図17は、再生頻度の提示例と選択処理例を示す説明図である。これは、ユーザインタフェース132を用いて、再生頻度が低かった領域1701を利用者が選択する例である。また、ドキュメント番組表管理モジュール114は、再生頻度が予め定められた回数以上になるまでは、再生頻度の低い項目を優先的に番組表に割り当てるようにしてもよい。
なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図18に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部(演算部)としてCPU1801を用い、記憶装置としてRAM1802、ROM1803、HD1804(例えばハードディスクを用いることができる)を用いている。キーワード管理モジュール111、複数音声ライン生成モジュール112、音声生成制御モジュール113、ドキュメント番組表管理モジュール114、再生ドキュメント管理モジュール115、シリアル合成モジュール116、ドキュメント番組指定・制御モジュール117等のプログラムを実行するCPU1801と、そのプログラムやデータを記憶するRAM1802と、本コンピュータを起動するためのプログラム等が格納されているROM1803と、補助記憶装置であるHD1804と、キーボード、マウス等のデータを入力する入力装置1806と、CRTや液晶ディスプレイ等の出力装置1805と、通信ネットワークと接続するための通信回線インタフェース1807(例えばネットワークインタフェースカードを用いることができる)、そして、それらをつないでデータのやりとりをするためのバス1808により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。
前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図18に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図18に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えばASIC等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図18に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、情報家電、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
前述した実施の形態では、ドキュメント音声生成システム110とドキュメント管理サーバー120とに分けているが、これらを組み合わせてもよく、また、ドキュメント音声生成システム110内のモジュールは他のサーバー等に分散していてもよい。
また、提示としたものについては、ディスプレイ等の出力装置に出力すること以外に、プリンタ等の印刷装置によって印刷すること、スピーカ等の音声出力装置による音声出力等、これらの組み合わせを含む。
また、前述した実施の形態では、音声情報の再生について説明したが、この再生のときに、映像を提示するようにしてもよい。
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blue−ray Disk)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
本実施の形態の構成例についての概念的なモジュール構成図である。 再生対象ドキュメント管理表の例を示す説明図である。 音声生成制御モジュールによる処理例を示すフローチャートである。 シリアル合成モジュールによる処理例を示す説明図である。 分割音声情報の再生処理例を示す説明図である。 分割音声情報の再生処理例を示す説明図である。 分割音声情報の再生処理例を示す説明図である。 早送りの再生処理例を示す説明図である。 部分的な早送りの再生処理例を示す説明図である。 サンプリングの再生処理例を示す説明図である。 音声コマ属性表のデータ構造例を示す説明図である。 早送りの再生処理を行うための前処理例を示すフローチャートである。 複数音声ライン生成モジュールによる処理例を示す説明図である。 番組表の例を示す説明図である。 番組表の生成処理例を示すフローチャートである。 番組表のデータ構造例を示す説明図である。 再生頻度の提示例と選択処理例を示す説明図である。 本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
符号の説明
110…ドキュメント音声生成システム
111…キーワード管理モジュール
112…複数音声ライン生成モジュール
113…音声生成制御モジュール
114…ドキュメント番組表管理モジュール
115…再生ドキュメント管理モジュール
116…シリアル合成モジュール
117…ドキュメント番組指定・制御モジュール
118…通信モジュール
120…ドキュメント管理サーバー
121…通信モジュール
122…ドキュメント管理モジュール
123…ドキュメントDB
131…音声出力モジュール
132…ユーザインタフェース

Claims (11)

  1. 再生対象である第1の音声情報と第2の音声情報を受け付ける受付手段と、
    予め定められた再生間隔に基づいて、前記受付手段によって受け付けられた音声情報を分割する分割手段と、
    前記第1の音声情報を前記分割手段によって分割された第1の分割音声情報と前記第2の音声情報を前記分割手段によって分割された第2の分割音声情報を結合して、再生する音声情報を生成する生成手段と、
    前記生成手段によって生成された音声情報を再生する再生手段
    を具備することを特徴とする音声情報処理システム。
  2. 前記分割手段は、予め定められた分割数に基づいて、前記音声情報を分割する
    ことを特徴とする請求項1に記載の音声情報処理システム。
  3. 前記再生手段は、前記生成手段によって生成された音声情報内の分割音声情報を早送りで再生する
    ことを特徴とする請求項1又は2に記載の音声情報処理システム。
  4. 前記生成手段は、結合対象として、前記分割手段によって生成された分割音声情報の一部を抽出して、再生する音声情報を生成する
    ことを特徴とする請求項1から3のいずれか一項に記載の音声情報処理システム。
  5. 文字情報から要約を抽出し、該要約に基づいて音声情報を生成する文字音声情報生成手段
    をさらに具備し、
    前記受付手段は、前記文字音声情報生成手段によって生成された音声情報を受け付ける
    ことを特徴とする請求項1から4のいずれか一項に記載の音声情報処理システム。
  6. 前記分割手段は、分割音声情報のうち音量が予め定められた値よりも小さいものを削除する
    ことを特徴とする請求項1から5のいずれか一項に記載の音声情報処理システム。
  7. 前記再生手段は、第1の音声出力部で前記第1の分割音声情報を再生し、第2の音声出力部で前記第2の音声情報を再生する
    ことを特徴とする請求項1から6のいずれか一項に記載の音声情報処理システム。
  8. 前記再生手段によって、再生される音声情報の予定を提示する予定提示手段
    をさらに具備することを特徴とする請求項1から7のいずれか一項に記載の音声情報処理システム。
  9. 前記音声情報には、理解の困難さに関する属性情報が付されており、
    前記再生手段は、再生する時間帯によって、属性情報に対応した音声情報を再生する
    ことを特徴とする請求項1から8のいずれか一項に記載の音声情報処理システム。
  10. 前記予定提示手段は、前記再生手段による再生の回数に基づいて、前記再生手段によって、再生される音声情報の予定を決定する
    ことを特徴とする請求項8又は9に記載の音声情報処理システム。
  11. コンピュータを、
    再生対象である第1の音声情報と第2の音声情報を受け付ける受付手段と、
    予め定められた再生間隔に基づいて、前記受付手段によって受け付けられた音声情報を分割する分割手段と、
    前記第1の音声情報を前記分割手段によって分割された第1の分割音声情報と前記第2の音声情報を前記分割手段によって分割された第2の分割音声情報を結合して、再生する音声情報を生成する生成手段と、
    前記生成手段によって生成された音声情報を再生する再生手段
    として機能させることを特徴とする音声情報処理プログラム。
JP2008234807A 2008-09-12 2008-09-12 音声情報処理システム及び音声情報処理プログラム Pending JP2010066675A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008234807A JP2010066675A (ja) 2008-09-12 2008-09-12 音声情報処理システム及び音声情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008234807A JP2010066675A (ja) 2008-09-12 2008-09-12 音声情報処理システム及び音声情報処理プログラム

Publications (1)

Publication Number Publication Date
JP2010066675A true JP2010066675A (ja) 2010-03-25

Family

ID=42192290

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008234807A Pending JP2010066675A (ja) 2008-09-12 2008-09-12 音声情報処理システム及び音声情報処理プログラム

Country Status (1)

Country Link
JP (1) JP2010066675A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014063054A (ja) * 2012-09-21 2014-04-10 Toshiba Corp 再生データ生成装置および再生データ生成方法
US9472181B2 (en) 2011-02-03 2016-10-18 Panasonic Intellectual Property Management Co., Ltd. Text-to-speech device, speech output device, speech output system, text-to-speech methods, and speech output method
CN112133279A (zh) * 2019-06-06 2020-12-25 Tcl集团股份有限公司 车载信息播报方法、装置及终端设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004104590A (ja) * 2002-09-11 2004-04-02 Matsushita Electric Ind Co Ltd 音声伝送システム及び音声伝送方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004104590A (ja) * 2002-09-11 2004-04-02 Matsushita Electric Ind Co Ltd 音声伝送システム及び音声伝送方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9472181B2 (en) 2011-02-03 2016-10-18 Panasonic Intellectual Property Management Co., Ltd. Text-to-speech device, speech output device, speech output system, text-to-speech methods, and speech output method
JP2014063054A (ja) * 2012-09-21 2014-04-10 Toshiba Corp 再生データ生成装置および再生データ生成方法
CN112133279A (zh) * 2019-06-06 2020-12-25 Tcl集团股份有限公司 车载信息播报方法、装置及终端设备

Similar Documents

Publication Publication Date Title
JP4127668B2 (ja) 情報処理装置、情報処理方法、およびプログラム
KR101513888B1 (ko) 멀티미디어 이메일 합성 장치 및 방법
US20090204399A1 (en) Speech data summarizing and reproducing apparatus, speech data summarizing and reproducing method, and speech data summarizing and reproducing program
JPWO2008001500A1 (ja) 音声コンテンツ生成システム、情報交換システム、プログラム、音声コンテンツ生成方法及び情報交換方法
KR20070093434A (ko) 휴대용 오디오 재생 장치 및 그 동작 방법
WO2016202176A1 (zh) 一种媒体文件合成方法、装置和设备
JP4320673B2 (ja) 情報処理装置および方法、並びにプログラム
US9666211B2 (en) Information processing apparatus, information processing method, display control apparatus, and display control method
KR20140132209A (ko) 멀티 트랙 미디어 파일이 기록된 기록 매체, 멀티 트랙 미디어 파일 편집 방법, 및 멀티 트랙 미디어 파일 편집 장치
JP6641045B1 (ja) コンテンツ生成システム、及びコンテンツ生成方法
JP2010066675A (ja) 音声情報処理システム及び音声情報処理プログラム
EP1649459A1 (en) Information storage medium storing scenario, apparatus and method of recording the scenario
KR20050012101A (ko) 시나리오를 기록한 정보저장매체, 기록장치 및 기록방법,그 정보저장매체의 재생장치 및 시나리오의 검색방법
JP2002008052A (ja) プレゼンテーションシステムおよび記録媒体
JP2008146057A (ja) 音楽・映像再生装置
JP2009069449A (ja) オーディオ装置及び曲再生プログラム
JP7179387B1 (ja) ハイライト動画生成システム、ハイライト動画生成方法、およびプログラム
JP2017033376A (ja) 情報処理装置、情報処理方法、および制御プログラム
JP2009152782A (ja) コンテンツ再生装置及びコンテンツ再生方法
JP4353084B2 (ja) 映像再生方法及び装置及びプログラム
JP2002304420A (ja) 視聴覚コンテンツ配信システム
JP7335175B2 (ja) カラオケ装置
JP6646172B1 (ja) 多言語コンテンツの教育用再生方法、そのためのデータ構造及びプログラム
JP2002197488A (ja) リップシンクデータ生成装置並びに方法、情報記憶媒体、及び情報記憶媒体の製造方法
JP4188138B2 (ja) 指定された楽曲の演奏期間中の指定された一部区間の映像を指定された映像に差し替えるカラオケ装置の映像システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110822

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120717

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120817

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130219