JPH11175517A

JPH11175517A - 情報処理装置およびその方法

Info

Publication number: JPH11175517A
Application number: JP34026197A
Authority: JP
Inventors: Kazuyuki Saito; 和之齋藤
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1997-12-10
Filing date: 1997-12-10
Publication date: 1999-07-02
Anticipated expiration: 2017-12-10
Also published as: US6349303B1; JP4154015B2

Abstract

(57)【要約】【課題】テレビ会議における議事録を生成する場合
に、各情報の発生場所および発生順を示すことができる
情報処理装置およびその方法を提供することを目的とす
る。【解決手段】ステップＳ２０１では、文書フォーマッ
トを選択する。ステップＳ２０２では、サウンドデータ
および画像データを入力する。ステップＳ２０３では、
サウンドデータおよび画像データを所定の時間間隔毎に
ブロック化する。ステップＳ２０４では、サウンドデー
タに基づいて作成されたテキストデータ、および、画像
データを１ブロック毎にＲＴＦ形式のフォーマットに変
換する。ステップＳ２０５では、ＲＴＦ形式に変換した
テキストデータおよび画像データを、記録紙などに印刷
する場合のレイアウトを設定する。ステップＳ２０６で
は、ステップＳ２０５で合成された文書データに対応す
る画像をプリンタ等から印刷する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、情報処理装置およ
びその方法に関し、例えば、入力情報に基づいて、会議
の議事録などを作成することができる情報処理装置およ
びその方法に関するものである。

【０００２】

【従来の技術】近年、ネットワークを利用して距離的に
離れた各会議室を結んで会議を行うという、いわゆるテ
レビ会議が一般化しつつある。このテレビ会議では、距
離的に離れた各会議室にいる相手の容姿や発言は、会議
室に設置されたビデオカメラなどを通して配信される。
また、音声認識および画像認識技術を応用すれば、記録
された画像および音声に基づいて、会議の内容が記録さ
れた議事録を作成することも考えられる。

【０００３】

【発明が解決しようとする課題】しかし、上述した技術
においては、次のような問題がある。

【０００４】音声認識および画像認識を用いて作成され
る議事録は、ある程度会議の流れにそった形で発言内容
をまとめることができる。しかし、その議事録からそれ
ぞれの発言がどの会議室で発言されたものかを判断する
ことは容易にできない。

【０００５】本発明は、上記の問題を解決するものであ
り、例えば、テレビ会議における議事録を生成する場合
に、各情報の発生場所および発生順を示すことができる
情報処理装置およびその方法を提供することを目的とす
る。

【０００６】

【課題を解決するための手段】本発明は、前記の目的を
達成する一手段として、以下の構成を備える。

【０００７】本発明にかかる情報処理装置は、異なる場
所から送られてくるそれぞれ異なる情報を入力する入力
手段と、前記入力情報に含まれる音声を認識してテキス
トを生成する生成手段と、生成されるテキストと前記入
力情報に含まれる画像とを、それらの情報の発生場所お
よび発生順に基づき合成する合成手段とを有することを
特徴とする。

【０００８】本発明にかかる情報処理方法は、異なる場
所から送られてくるそれぞれ異なる情報を入力し、前記
入力情報に含まれる音声を認識してテキストを生成し、
生成されるテキストと前記入力情報に含まれる画像と
を、それらの情報の発生場所および発生順に基づき合成
することを特徴とする。

【０００９】

【発明の実施の形態】以下、本発明にかかる一実施形態
の情報処理装置およびその方法について図を参照して詳
細に説明する。

【００１０】［第一実施形態］図１は、本発明にかかる
一実施形態の情報処理装置の構成例を示すブロック図で
ある。

【００１１】本発明の情報処理装置は画像入力部１０
１、画像入力インタフェイス部１０２、音声入力部１０
３、音声入力インタフェイス部１０４、ＣＰＵ１０５、
ＲＯＭ１０６、ＲＡＭ１０７、出力部１０８、出力イン
タフェイス部１０９、外部記憶部１１０、外部記憶イン
タフェイス部１１１、システムバス１１２を備える。

【００１２】画像入力部１０１は、外部機器などから画
像を入力するための画像入力部である。画像入力インタ
フェイス部１０２は、画像入力部１０１とシステムバス
１１２とをインタフェイスする。音声入力部１０３は、
外部機器などから音声等の音声を入力するための音声入
力部である。音声入力インタフェイス部１０４は、音声
入力部１０３とシステムバス１１２とをインタフェイス
する。ＣＰＵ１０５は、装置全体の制御および本発明の
アプリケーションプログラム等を実行するためのＣＰＵ
である。

【００１３】ＲＯＭ１０６は、装置全体を制御するため
のプログラムや本発明のアプリケーションプログラム等
を格納するためのＲＯＭである。ＲＡＭ１０７は、入力
された画像データや音声データの展開領域、ＣＰＵ１０
５の作業領域等として使用するためのＲＡＭである。出
力部１０８は、本発明の情報処理装置を使用して処理さ
れた文書データ等をモニタ等に出力するための出力部で
ある。出力インタフェイス部１０９は出力部１０８とシ
ステムバス１１２とをインタフェイスする。

【００１４】外部記憶部１１０は、各種データ等を記憶
するためのフロッピディスクやハードディスク等の外部
記憶部である。外部記憶インタフェイス部１１１は、外
部記憶部１１０とシステムバス１１２とをインタフェイ
スする。システムバス１１２は、画像入力インタフェイ
ス部１０２、音声入力インタフェイス部１０４、ＣＰＵ
１０５、ＲＯＭ１０６、ＲＡＭ１０７、出力インタフェ
イス部１０９、外部記憶インタフェイス部１１１にイン
タフェイスする。

【００１５】図２は、本発明にかかる第一実施形態の情
報処理装置の処理について説明するためのフローチャー
トである。

【００１６】なお、第一実施形態では、例えば、２地点
間で行われるテレビ会議に本発明を適用した場合につい
て説明を行う。

【００１７】ステップＳ２０１では、入力された音声お
よび動画像等を、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭ
ａｒｋｕｐＬａｎｇｕａｇｅ）形式、ＲＴＦ（Ｒｉｃ
ｈＴｅｘｔＦｏｒｍａｔ）形式、ＰＤＬ（Ｐａｇｅ
ＤｅｓｃｒｉｐｔｉｏｎＬａｎｇｕａｇｅ）形式等の文
書フォーマットに変換するために、ユーザが所望する文
書フォーマット（ファイル形式）を選択する。第一実施
形態では、例えば、ＲＴＦ形式の文書フォーマットがユ
ーザにより選択されたものとして、以下の説明を行う。

【００１８】ステップＳ２０２では、例えば、ネットワ
ーク等に接続された外部機器等から出力される音声およ
び動画像等を、音声入力部１０３および画像入力部１０
１を介して入力する。第一実施形態では、２地点間で行
われるテレビ会議を例としているので、このステップＳ
２０２では、例えば、地点Ａ側に備付けられた外部機器
から出力される音声および動画像等と、地点Ｂ側に備付
けられた外部機器から出力される音声および動画像等と
が入力される。

【００１９】ステップＳ２０３では、入力された音声デ
ータに基づき、音声データを有音ブロックおよび無音ブ
ロックに分割し、オーディオ・ビジュアル統合データ
（以後「ＡＶ統合データ」とする）として、ＡＶ統合デ
ータ格納部４１に記録する。また、入力された音声や動
画像データの発生場所を示す位置情報や時間情報などを
外部機器などから入力し、ＡＶ統合データ格納部４１に
含まれる位置情報および時間情報を記憶するためのエリ
アに記録する。このステップＳ２０３の詳細な処理につ
いては、図３のフローチャートに従って説明する。

【００２０】ステップＳ３０１では、入力された音声デ
ータに基づき、音声データを有音ブロックおよび無音ブ
ロックに分割する。上述したブロック化について、図５
を用いて説明すると次のようになる。つまり、音声デー
タの再生レベルが所定のレベルに達してから所定のレベ
ル未満になるまでの時間があらかじめ設定された所定の
時間以上の場合、その期間に対応する音声データを１ブ
ロックの有音ブロックとし、音声データの再生レベルが
所定のレベルに達してから所定のレベル未満になるまで
の時間があらかじめ設定された所定の時間未満の期間、
または、音声データの再生レベルが所定のレベル未満に
なってから所定のレベルに達するまでの期間に対応する
音声データを１ブロックの無音ブロックとする。

【００２１】ステップＳ３０２では、一ブロック単位に
音声データの有音ブロックに対する音声認識を行ない、
音声データからテキストコードへの変換を行なう。な
お、この音声認識処理は周知の技術により実行可能であ
る。ステップＳ３０３では、図４に示すように、コード
変換した一ブロック分のテキストデータをＡＶ統合デー
タ格納部４１に含まれるテキストデータを記憶するため
のエリアに記録する。

【００２２】ステップＳ３０４では、音声データの一ブ
ロック分の有音ブロックに対応する動画像データを所定
の時間間隔Ｔ毎で区切り、区切った時間に対応する動画
像データの一部をｎ個の静止画像データとして選択す
る。そして、そのｎ個の静止画像データを有効画像デー
タとし、音声データの１ブロック分の無音ブロックに対
応する動画像データを無効画像データとする。

【００２３】上述したように動画像データの一部をｎ個
の静止画像データとして選択する場合、例えば、システ
ムあるいはユーザなどにより、動画像データの最初のフ
レームに対応する静止画像データのみを選択するように
してもよい。このようにすれば、記憶域に余分なデータ
が記憶されないため、記憶域を有効に使用できるなどの
効果を得ることができる。

【００２４】ステップＳ３０５では、図４に示すよう
に、一ブロック分のｎ個の有効画像データを、ＡＶ統合
データ格納部４１に含まれる静止画像（有効画像）デー
タを記憶するためのエリアに記録する。

【００２５】ステップＳ３０６では、ＡＶ統合データ格
納部４１に格納された一ブロック分の静止画像データに
含まれる文字や表などを画像認識し、画像認識データに
変換する。なお、この画像認識処理は周知の技術により
実行可能である。ステップＳ３０７では、図４に示すよ
うに、変換した一ブロック分の画像認識データを、ＡＶ
統合データ格納部４１に含まれる画像認識データを記憶
するためのエリアに記録する。

【００２６】ステップＳ３０８では、全ブロックに対し
て、ステップＳ３０２〜ステップＳ３０７までの処理が
終了したか否か判断し、終了した場合ステップＳ２０４
へ進み、終了していない場合ステップＳ３０２へ戻る。

【００２７】以上のようにして、各々のブロックに対応
する音声データおよび動画像データに基づいて生成され
たテキストデータ、静止画像（有効画像）データ、画像
認識データは、ＡＶ統合データ格納部４１に含まれるそ
れぞれの記憶エリアに記録される。

【００２８】ステップＳ２０４では、ＡＶ統合データ格
納部４１に格納されたテキストデータを１ブロック毎に
ＲＴＦ形式のフォーマットに変換し、さらに、テキスト
データに対応するｎ個の静止画像データをＲＴＦ形式に
適した画像形式に変換する。このステップでは、ＲＴＦ
形式に適した画像形式に変換する静止画像データをｎ個
の静止画像データの中から任意に選択することもでき
る。

【００２９】ステップＳ２０５では、ユーザあるいは装
置により、例えば、ＲＴＦ形式に変換したテキストデー
タおよび静止画像データ（あるいは、画像認識データ）
を、プリンタ等を使用して記録媒体に記録する際のレイ
アウトが設定される。つまり、第一実施形態では、２地
点間で行われるテレビ会議を例としているので、このス
テップＳ２０５では、例えば、会議中に地点Ａ側で発言
された内容等を示す音声データおよび地点Ａ側の会議室
の様子等を示す動画像データに基づいて、ＲＴＦ形式に
変換したテキストデータおよび静止画像データ（あるい
は、画像認識データ）と、会議中に地点Ｂ側で発言され
た内容等を示す音声データおよび地点Ｂ側の会議室の様
子等を示す動画像データに基づいて、ＲＴＦ形式に変換
したテキストデータ、および、静止画像データ（あるい
は、画像認識データ）とを合成し文書データ化するとい
う処理を行う。なお、第一実施形態では、複数の静止画
像データ全てを文書データ化しているが、本発明はこれ
に限られたものではなく、例えば、複数の静止画像デー
タの中から任意に静止画像データを選択して、文書デー
タ化することも可能である。

【００３０】ステップＳ２０６では、ステップＳ２０５
で合成された文書データに対応する画像をプリンタ等か
ら印刷する。

【００３１】図６は、合成された文書データの印刷例を
示す図である。

【００３２】７００１は、地点Ａ側で発言された内容等
を示すの音声データに基づいて生成されたテキストデー
タである。７００２は、地点Ａ側の会議室の様子等を示
す動画像データに基づいて生成された静止画像データ、
あるいは、画像認識データである。７００３は、地点Ａ
側で発言された内容等を示す音声データに基づいて生成
されたテキストデータである。７００４は、地点Ｂ側の
会議室の様子等を示す動画像データに基づいて生成され
た静止画像データ、あるいは、画像認識データである。

【００３３】７００５に示すように、地点Ａ側の音声デ
ータおよび動画像データに基づいて生成されたテキスト
データおよび静止画像データと、地点Ｂ側の音声データ
および動画像データに基づいて生成されたテキストデー
タおよび静止画像データとを、時系列（直列）に配置す
ると会議の流れにそった形で会議の議事録などを作成す
ることができる。

【００３４】また、図７の６００１は、地点Ａ側で発言
された内容等を示すの音声データに基づいて生成された
テキストデータである。６００２は、地点Ａ側の会議室
の様子等を示す動画像データに基づいて生成された静止
画像データである。６００３は、地点Ａ側で発言された
内容等を示す音声データに基づいて生成されたテキスト
データである。６００４は、地点Ｂ側の会議室の様子等
を示す動画像データに基づいて生成された静止画像デー
タである。

【００３５】６００５に示すように、地点Ａ側の音声デ
ータおよび動画像データに基づいて生成されたテキスト
データおよび静止画像データを例えば記録紙等の左側に
配置し、また、地点Ｂ側の音声データおよび動画像デー
タに基づいて生成されたテキストデータおよび静止画像
データを例えば記録紙等の右側に配置する。さらに、発
言の順番に縦方向にテキストデータおよび画像データを
配置すれば、会議の流れにそった形で会議の議事録など
を作成することができる。

【００３６】［第二実施形態］第二実施形態では、ＡＶ
統合データ格納部４１に格納された静止画像データに含
まれる文字や表などを画像認識し、会議中に使用された
資料等をテキストコードや表データへ変換して、会議の
議事録などを作成することができる。

【００３７】この第二実施形態の情報処理装置の処理に
ついて、図２および図８のフローチャートに従って説明
する。

【００３８】図８は、図２のステップＳ２０３の詳細な
処理について説明するためのフローチャートである。な
お、第二実施形態では、図２のステップＳ２０３の処理
のみが第一実施形態の処理と異なるため、図２のステッ
プＳ２０１、ステップＳ２０２、ステップＳ２０４〜ス
テップＳ２０６については詳細な説明を省略する。

【００３９】ステップＳ８０１では、入力された音声デ
ータに基づき、音声データを有音ブロックおよび無音ブ
ロックに分割する。上述したブロック化について、図５
を用いて説明すると次のようになる。つまり、音声デー
タの再生レベルが所定のレベルに達してから所定のレベ
ル未満になるまでの時間があらかじめ設定された所定の
時間以上の場合、その期間に対応する音声データを１ブ
ロックの有音ブロックとし、音声データの再生レベルが
所定のレベルに達してから所定のレベル未満になるまで
の時間があらかじめ設定された所定の時間未満の期間、
または、音声データの再生レベルが所定のレベル未満に
なってから所定のレベルに達するまでの期間に対応する
音声データを１ブロックの無音ブロックとする。

【００４０】ステップＳ８０２では、一ブロック単位に
音声データの音声認識を行ない、音声データからテキス
トコードへの変換を行なう。なお、この音声認識処理は
周知の技術により実行可能である。ステップＳ８０３で
は、図９に示すように、コード変換した一ブロック分の
テキストデータを、ＡＶ統合データ格納部４１に含まれ
るテキストデータを記憶するためのエリアに記録する。

【００４１】ステップＳ８０４では、音声データの一ブ
ロック分の有音ブロックに対応する動画像データを所定
の時間間隔Ｔ毎に分割してｎ個の静止画像データを選択
する。そして、そのｎ個の静止画像データを有効画像デ
ータとし、音声データの１ブロック分の無音ブロックに
対応する動画像データを無効画像データとする。ステッ
プＳ８０５では、図９に示すように、一ブロック分のｎ
個の静止画像（有効画像）データを、ＡＶ統合データ格
納部４１に含まれる静止画像（有効画像）データを記憶
するためのエリアに記録する。

【００４２】ステップＳ８０６では、ＡＶ統合データ格
納部４１に格納された一ブロック分の静止画像データに
含まれる文字や表などを画像認識し、静止画像データに
文字領域が含まれている場合、文字認識処理によりテキ
ストコードに変換する。なお、この文字認識処理は周知
の技術により実行可能である。ステップＳ８０７では、
図９に示すように、変換した一ブロック分のテキストデ
ータを、ＡＶ統合データ格納部４１に含まれる文字認識
データを記憶するためのエリアに記録する。

【００４３】ステップＳ８０８では、ＡＶ統合データ格
納部４１に格納された一ブロック分の静止画像データに
含まれる文字や表などを画像認識し、静止画像データに
表領域が含まれている場合、例えば、表計算ソフトウェ
アなどで使用することができる表データ形式に変換す
る。なお、この画像認識処理は周知の技術により実行可
能である。ステップＳ８０９では、図９に示すように、
変換した一ブロック分の表データを、ＡＶ統合データ格
納部４１に含まれる表データを記憶するためのエリアに
記録する。

【００４４】ステップＳ８１０では、一ブロック分の文
字認識データｎ個の静止画像データのうち、ほぼ同じ内
容の画像データが存在する場合は１つを残し他を無効と
判断し廃棄する。例えば、２つの静止画像データの差分
をとり、その差分が所定の範囲内である場合、２つの静
止画像データはほぼ同じ静止画像データであると判断す
ることができる。

【００４５】ステップＳ８１１では、ＡＶ統合データ格
納部４１にテキストデータが格納されている場合、図９
のＡＶ統合データ格納部４１に含まれる有効フラグの内
容を記録するためのエリアに、例えば「１」を記録す
る。また、ＡＶ統合データ格納部４１にテキストデータ
が格納されていない場合、図９のＡＶ統合データ格納部
４１に含まれる有効フラグの内容を記録するためのエリ
アに、例えば「０」を記録する。ステップＳ８１２で
は、全ブロックに対して、ステップＳ８０２〜ステップ
Ｓ８１１までの処理が終了したか否か判断し、終了した
場合ステップＳ８１３へ進み、終了していない場合ステ
ップＳ８０２へ戻る。

【００４６】ステップＳ８１３では、全ブロックのＡＶ
統合データ格納部４１に含まれる有効フラグを参照し、
有効フラグの内容が「１」であるブロックを有効ブロッ
クとして選択する。そして、ステップＳ２０４へ進み、
選択された有効ブロックに含まれるテキストデータを１
ブロック毎にＲＴＦ形式のフォーマットに変換し、さら
に、テキストデータに対応するｎ個の静止画像データを
ＲＴＦ形式に適した画像形式に変換する。

【００４７】以上のようにして、各々のブロックに対応
する音声データおよび動画像データに基づいて生成され
たテキストデータ、静止画像（有効画像）データ、表デ
ータ、文字認識データ、ＡＶ統合データ格納部４１に含
まれるそれぞれの記憶エリアに記録される。

【００４８】図１０は、合成された文書データの印刷例
を示す図である。

【００４９】１０００１は、地点Ａ側で発言された内容
等を示すの音声データに基づいて生成されたテキストデ
ータである。１０００２は、地点Ａ側の会議室の様子等
を示す動画像データに基づいて生成された静止画像デー
タである。１０００３は、地点Ａ側で発言された内容等
を示す音声データに基づいて生成されたテキストデータ
である。１０００４は、地点Ｂ側の会議室の様子等を示
す動画像データに基づいて生成された静止画像データで
ある。１００６は、静止画像データ１０００２を画像認
識することにより生成された画像認識データである。

【００５０】１０００５に示すように、地点Ａ側の音声
データおよび動画像データに基づいて生成されたテキス
トデータおよび静止画像データを例えば記録紙等の左側
に配置し、また、地点Ｂ側の音声データおよび動画像デ
ータに基づいて生成されたテキストデータおよび静止画
像データを例えば記録紙等の右側に配置し、そして、画
像認識データ１０００６を記録紙の任意の位置に配置す
ると、会議の流れにそった形でさらに詳しい会議の議事
録などを作成することができる。

【００５１】［第三実施形態］第三実施形態では、ＨＴ
ＭＬ形式の文書フォーマットにより動画像データを取扱
う場合について説明する。

【００５２】図１１は、本発明にかかる第三実施形態の
情報処理装置の処理について説明するためのフローチャ
ートである。

【００５３】ステップＳ１０１では、例えば、ネットワ
ーク等に接続された外部機器等から出力される音声およ
び動画像を、音声入力部１０３および画像入力部１０１
を介して入力する。ステップＳ１０２では、入力された
音声データに基づき、音声データを有音ブロックおよび
無音ブロックに分割する。上述したブロック化につい
て、図１３を用いて説明すると次のようになる。つま
り、音声データの再生レベルが所定のレベルに達してか
ら所定のレベル未満になるまでの時間があらかじめ設定
された所定の時間以上の場合、その期間に対応する音声
データを１ブロックの有音ブロックとし、音声データの
再生レベルが所定のレベルに達してから所定のレベル未
満になるまでの時間があらかじめ設定された所定の時間
未満の期間、または音声データの再生レベルが所定のレ
ベル未満になってから所定のレベルに達するまでの期間
に対応する音声データを１ブロックの無音ブロックとす
る。

【００５４】ステップＳ１０３では、一ブロック単位に
音声データの有音ブロックに対する音声認識を行ない、
音声データからテキストコードへの変換を行なう。な
お、この音声認識処理は周知の技術により実行可能であ
る。ステップＳ１０４では、図１２に示すようにコード
変換した一ブロック分のテキストデータを、ＡＶ統合デ
ータ格納部１２１に含まれるテキストデータを記憶する
ためのエリアに記録する。

【００５５】ステップＳ１０５では、音声データの一ブ
ロック分の有音ブロックに対応する動画像データを有効
画像データとし、音声データの１ブロック分の無音ブロ
ックに対応する動画像データを無効画像データとする。
ステップＳ１０６では、図１２に示すように一ブロック
分の動画像（有効画像）データを、ＡＶ統合データ格納
部１２１に含まれる動画像（有効画像）データを記憶す
るためのエリアに記録する。

【００５６】ステップＳ１０７では、全ブロックに対し
て、ステップＳ１０３〜ステップＳ１０６までの処理が
終了したか否か判断し、終了した場合ステップＳ１０８
へ進み、終了していない場合ステップＳ１０３へ戻る。
ステップＳ１０８では、入力された音声および動画像等
を、ＨＴＭＬ形式、ＲＴＦ形式、ＰＤＬ形式等の文書フ
ォーマットに変換するために、ユーザが所望する文書フ
ォーマットが選択される。第三実施形態では、例えば、
ＨＴＭＬ形式の文書フォーマットがユーザにより選択さ
れたものとする。

【００５７】ステップＳ１０９では、ＡＶ統合データ格
納部１２１に格納されたテキストデータを１ブロック毎
にＨＴＭＬ形式のフォーマットに変換し、さらに、テキ
ストデータに対応する動画像データをＨＴＭＬ形式に適
した画像形式（例えば、ＡＶＩファイルなど）に変換し
てファイルとして保存する。このように、ＨＴＭＬ形式
の文書フォーマットを用いると、例えば、ブラウザなど
を利用してモニタ上に表示された文字列をマウスなどで
クリックすると、そのクリックした文字列に対応する動
画像がモニタ上に表示されるなどの効果を得ることがで
きる。

【００５８】また、ステップＳ１１０に示すように、ス
テップＳ１０９で作成されたＨＴＭＬ形式の文書データ
に対応する画像をプリンタ等から印刷することもでき
る。

【００５９】［第４実施形態］第四実施形態では、ＨＴ
ＭＬ形式の文書フォーマットにより音声データを取扱う
場合について説明する。

【００６０】図１４は、本発明にかかる第四実施形態の
情報処理装置の処理について説明するためのフローチャ
ートである。

【００６１】ステップＳ７０１では、例えば、ネットワ
ーク等に接続された外部機器等から出力される音声およ
び動画像を、音声入力部１０３および画像入力部１０１
を介して入力する。

【００６２】ステップＳ７０２では、入力された音声デ
ータに基づき、音声データを有音ブロックおよび無音ブ
ロックに分割する。上述したブロック化について、図１
３を用いて説明すると次のようになる。つまり、音声デ
ータの再生レベルが所定のレベルに達してから所定のレ
ベル未満になるまでの時間があらかじめ設定された所定
の時間以上の場合、その期間に対応する音声データを１
ブロックの有音ブロックとし、音声データの再生レベル
が所定のレベルに達してから所定のレベル未満になるま
での時間があらかじめ設定された所定の時間未満の期
間、または、音声データの再生レベルが所定のレベル未
満になってから所定のレベルに達するまでの期間に対応
する音声データを１ブロックの無音ブロックとする。

【００６３】ステップＳ７０３では、図１５に示すよう
に、音声データを、ＡＶ統合データ格納部１５１に含ま
れる音声データを記憶するためのエリアに記録する。ス
テップＳ７０４では、一ブロック単位に音声データの有
音ブロックに対する音声認識を行ない、音声データから
テキストコードへの変換を行なう。なお、この音声認識
処理は周知の技術により実行可能である。

【００６４】ステップＳ７０５では、図１５に示すよう
に、コード変換した一ブロック分のテキストデータを、
ＡＶ統合データ格納部１５１に含まれるテキストデータ
を記憶するためのエリアに記録する。ステップＳ７０６
では、音声データの一ブロック分の有音ブロックに対応
する動画像データを所定の時間間隔Ｔ毎に分割してｎ個
の静止画像データを選択する。そして、そのｎ個の静止
画像データを有効画像データとし、音声データの１ブロ
ック分の無音ブロックに対応する動画像データを無効画
像データとする。

【００６５】ステップＳ７０７では、図１５に示すよう
に、一ブロック分のｎ個の静止画像（有効画像）データ
を、ＡＶ統合データ格納部１５１に含まれる静止画像
（有効画像）データを記憶するためのエリアに記録す
る。ステップＳ７０８では、全ブロックに対して、ステ
ップＳ７０３〜ステップＳ７０７までの処理が終了した
か否か判断し、終了した場合ステップＳ７０９へ進み、
終了していない場合ステップＳ７０３へ戻る。

【００６６】ステップＳ７０９では、入力された音声お
よび動画像等を、ＨＴＭＬ形式、ＲＴＦ形式、ＰＤＬ形
式等の文書フォーマットに変換するために、ユーザが所
望する文書フォーマットが選択される。第四実施形態で
は、例えば、ＨＴＭＬ形式の文書フォーマットがユーザ
により選択されたものとする。

【００６７】ステップＳ７１０では、ＡＶ統合データ格
納部１２１に格納されたテキストデータを１ブロック毎
にＨＴＭＬ形式のフォーマットに変換し、さらに、テキ
ストデータに対応する音声データをＨＴＭＬ形式に適し
た音声形式（例えば、ＷＡＶファイルなど）に変換して
ファイルとして保存する。このように、ＨＴＭＬ形式の
文書フォーマットを用いると、例えば、ブラウザなどを
利用してモニタ上に表示された文字列をマウスなどでク
リックすると、そのクリックした文字列に対応する音声
がスピーカなどから出力されるという効果を得ることが
できる。

【００６８】また、ステップＳ７１１に示すように、ス
テップＳ７１０で作成されたＨＴＭＬ形式の文書データ
に対応する画像をプリンタ等から印刷することもでき
る。

【００６９】このように本発明によれば、例えば、ビデ
オカメラで撮影した映像や音声等に基づいて、音声認識
処理、画像認識処理等を行うことにより撮影した映像や
音声等を文書化することができる。また、同様にしてテ
レビなどから出力される音声や画像などを文書化するこ
ともできる。

【００７０】

【他の実施形態】なお、本発明は、複数の機器（例えば
ホストコンピュータ，インタフェイス機器，リーダ，プ
リンタなど）から構成されるシステムに適用しても、一
つの機器からなる装置（例えば、複写機，ファクシミリ
装置など）に適用してもよい。

【００７１】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ（またはＣＰＵ
やＭＰＵ）が記憶媒体に格納されたプログラムコードを
読出し実行することによっても、達成されることは言う
までもない。

【００７２】この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施形態の機能を実現するこ
とになり、そのプログラムコードを記憶した記憶媒体は
本発明を構成することになる。

【００７３】プログラムコードを供給するための記憶媒
体としては、例えば、フロッピディスク，ハードディス
ク，光ディスク，光磁気ディスク，ＣＤ−ＲＯＭ，ＣＤ
−Ｒ，磁気テープ，不揮発性のメモリカード，ＲＯＭな
どを用いることができる。

【００７４】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているＯＳ（オペレ
ーティングシステム）などが実際の処理の一部または全
部を行い、その処理によって前述した実施形態の機能が
実現される場合も含まれることは言うまでもない。

【００７５】さらに、記憶媒体から読出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るＣＰＵなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。

【００７６】

【発明の効果】以上説明したように、本発明によれば、
例えば、テレビ会議における議事録を生成する場合に、
各情報の発生場所および発生順を示すことができる情報
処理装置およびその方法を提供することができる。

【００７７】

【図面の簡単な説明】

【図１】本発明にかかる一実施形態の情報処理装置の
構成例を示すブロック図、

【図２】本発明にかかる一実施形態の情報処理装置の
処理について説明するためのフローチャート、

【図３】図２のステップＳ２０３の処理を詳細に説明
するためのフローチャート、

【図４】ＡＶ統合データ格納部の構造例を示す図、

【図５】入力される音声および動画像のブロック化を
説明するための図、

【図６】合成した文書の印刷例を示す図、

【図７】合成した文書の印刷例を示す図、

【図８】図２のステップＳ２０３の処理を詳細に説明
するためのフローチャート、

【図９】ＡＶ統合データ格納部の構造例を示す図、

【図１０】合成した文書の印刷例を示す図、

【図１１】本発明にかかる一実施形態の情報処理装置
の処理について説明するためのフローチャート、

【図１２】合成した文書の印刷例を示す図、

【図１３】入力される音声および動画像のブロック化
を説明するための図、

【図１４】本発明にかかる一実施形態の情報処理装置
の処理について説明するためのフローチャート、

【図１５】ＡＶ統合データ格納部の構造例を示す図で
ある。

Claims

【特許請求の範囲】

【請求項１】異なる場所から送られてくるそれぞれ異
なる情報を入力する入力手段と、前記入力情報に含まれる音声を認識してテキストを生成
する生成手段と、生成されるテキストと前記入力情報に含まれる画像と
を、それらの情報の発生場所および発生順に基づき合成
する合成手段とを有することを特徴とする情報処理装
置。
【請求項２】前記テキストおよび前記画像は、合成さ
れた情報に基づき記録媒体上に可視像が形成される場
合、情報の発生順に、発生場所の異なる情報が列方向に
配置されるように合成されることを特徴とする請求項１
に記載された情報処理装置。
【請求項３】前記生成手段は、前記入力情報に含まれ
る音声データを有音ブロックおよび無音ブロックに分割
し、前記有音ブロックに含まれる音声を認識することを
特徴とする請求項１または請求項２に記載された情報処
理装置。
【請求項４】前記合成手段による合成処理は、前記有
音ブロックに対応する動画像データから得られる静止画
像データが表す画像に基づき行われることを特徴とする
請求項３に記載された情報処理装置。
【請求項５】さらに、前記情報処理装置は、前記テキ
ストのファイル形式を所定のファイル形式に変換する変
換手段を備えることを特徴とする請求項１に記載された
情報処理装置。
【請求項６】前記所定のファイル形式は、少なくとも
ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎ
ｇｕａｇｅ）形式、ＲＴＦ（ＲｉｃｈＴｅｘｔＦｏ
ｒｍａｔ）形式、ＰＤＬ（ＰａｇｅＤｅｓｃｒｉｐｔ
ｉｏｎＬａｎｇｕａｇｅ）形式の何れか１つであるこ
とを特徴とする請求項５に記載された情報処理装置。
【請求項７】異なる場所から送られてくるそれぞれ異
なる情報を入力し、前記入力情報に含まれる音声を認識してテキストを生成
し、生成されるテキストと前記入力情報に含まれる画像と
を、それらの情報の発生場所および発生順に基づき合成
することを特徴とする情報処理方法。
【請求項８】情報処理のプログラムコードが記憶され
た記憶媒体であって、異なる場所から送られてくるそれぞれ異なる情報を入力
するステップのプログラムコードと、前記入力情報に含まれる音声を認識してテキストを生成
するステップのプログラムコードと、生成されるテキストと前記入力情報に含まれる画像と
を、それらの情報の発生場所および発生順に基づき合成
するステップのプログラムコードとを有することを特徴
とする記憶媒体。