JPH11175517A - 情報処理装置およびその方法 - Google Patents
情報処理装置およびその方法Info
- Publication number
- JPH11175517A JPH11175517A JP34026197A JP34026197A JPH11175517A JP H11175517 A JPH11175517 A JP H11175517A JP 34026197 A JP34026197 A JP 34026197A JP 34026197 A JP34026197 A JP 34026197A JP H11175517 A JPH11175517 A JP H11175517A
- Authority
- JP
- Japan
- Prior art keywords
- data
- information
- text
- format
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 24
- 230000010365 information processing Effects 0.000 claims description 28
- 230000002194 synthesizing effect Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000003672 processing method Methods 0.000 claims description 2
- 238000013500 data storage Methods 0.000 description 30
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 9
- 230000000903 blocking effect Effects 0.000 description 6
- 101000805601 Crotalus atrox Zinc metalloproteinase-disintegrin-like atrolysin-A Proteins 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 1
- 238000001454 recorded image Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99942—Manipulating data structure, e.g. compression, compaction, compilation
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Processing Or Creating Images (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Document Processing Apparatus (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
に、各情報の発生場所および発生順を示すことができる
情報処理装置およびその方法を提供することを目的とす
る。 【解決手段】 ステップS201では、文書フォーマッ
トを選択する。ステップS202では、サウンドデータ
および画像データを入力する。ステップS203では、
サウンドデータおよび画像データを所定の時間間隔毎に
ブロック化する。ステップS204では、サウンドデー
タに基づいて作成されたテキストデータ、および、画像
データを1ブロック毎にRTF形式のフォーマットに変
換する。ステップS205では、RTF形式に変換した
テキストデータおよび画像データを、記録紙などに印刷
する場合のレイアウトを設定する。ステップS206で
は、ステップS205で合成された文書データに対応す
る画像をプリンタ等から印刷する。
Description
びその方法に関し、例えば、入力情報に基づいて、会議
の議事録などを作成することができる情報処理装置およ
びその方法に関するものである。
離れた各会議室を結んで会議を行うという、いわゆるテ
レビ会議が一般化しつつある。このテレビ会議では、距
離的に離れた各会議室にいる相手の容姿や発言は、会議
室に設置されたビデオカメラなどを通して配信される。
また、音声認識および画像認識技術を応用すれば、記録
された画像および音声に基づいて、会議の内容が記録さ
れた議事録を作成することも考えられる。
においては、次のような問題がある。
る議事録は、ある程度会議の流れにそった形で発言内容
をまとめることができる。しかし、その議事録からそれ
ぞれの発言がどの会議室で発言されたものかを判断する
ことは容易にできない。
り、例えば、テレビ会議における議事録を生成する場合
に、各情報の発生場所および発生順を示すことができる
情報処理装置およびその方法を提供することを目的とす
る。
達成する一手段として、以下の構成を備える。
所から送られてくるそれぞれ異なる情報を入力する入力
手段と、前記入力情報に含まれる音声を認識してテキス
トを生成する生成手段と、生成されるテキストと前記入
力情報に含まれる画像とを、それらの情報の発生場所お
よび発生順に基づき合成する合成手段とを有することを
特徴とする。
所から送られてくるそれぞれ異なる情報を入力し、前記
入力情報に含まれる音声を認識してテキストを生成し、
生成されるテキストと前記入力情報に含まれる画像と
を、それらの情報の発生場所および発生順に基づき合成
することを特徴とする。
の情報処理装置およびその方法について図を参照して詳
細に説明する。
一実施形態の情報処理装置の構成例を示すブロック図で
ある。
1、画像入力インタフェイス部102、音声入力部10
3、音声入力インタフェイス部104、CPU105、
ROM106、RAM107、出力部108、出力イン
タフェイス部109、外部記憶部110、外部記憶イン
タフェイス部111、システムバス112を備える。
像を入力するための画像入力部である。画像入力インタ
フェイス部102は、画像入力部101とシステムバス
112とをインタフェイスする。音声入力部103は、
外部機器などから音声等の音声を入力するための音声入
力部である。音声入力インタフェイス部104は、音声
入力部103とシステムバス112とをインタフェイス
する。CPU105は、装置全体の制御および本発明の
アプリケーションプログラム等を実行するためのCPU
である。
のプログラムや本発明のアプリケーションプログラム等
を格納するためのROMである。RAM107は、入力
された画像データや音声データの展開領域、CPU10
5の作業領域等として使用するためのRAMである。出
力部108は、本発明の情報処理装置を使用して処理さ
れた文書データ等をモニタ等に出力するための出力部で
ある。出力インタフェイス部109は出力部108とシ
ステムバス112とをインタフェイスする。
するためのフロッピディスクやハードディスク等の外部
記憶部である。外部記憶インタフェイス部111は、外
部記憶部110とシステムバス112とをインタフェイ
スする。システムバス112は、画像入力インタフェイ
ス部102、音声入力インタフェイス部104、CPU
105、ROM106、RAM107、出力インタフェ
イス部109、外部記憶インタフェイス部111にイン
タフェイスする。
報処理装置の処理について説明するためのフローチャー
トである。
間で行われるテレビ会議に本発明を適用した場合につい
て説明を行う。
よび動画像等を、HTML(Hyper Text M
arkup Language)形式、RTF(Ric
hText Format)形式、PDL(Page
DescriptionLanguage)形式等の文
書フォーマットに変換するために、ユーザが所望する文
書フォーマット(ファイル形式)を選択する。第一実施
形態では、例えば、RTF形式の文書フォーマットがユ
ーザにより選択されたものとして、以下の説明を行う。
ーク等に接続された外部機器等から出力される音声およ
び動画像等を、音声入力部103および画像入力部10
1を介して入力する。第一実施形態では、2地点間で行
われるテレビ会議を例としているので、このステップS
202では、例えば、地点A側に備付けられた外部機器
から出力される音声および動画像等と、地点B側に備付
けられた外部機器から出力される音声および動画像等と
が入力される。
ータに基づき、音声データを有音ブロックおよび無音ブ
ロックに分割し、オーディオ・ビジュアル統合データ
(以後「AV統合データ」とする)として、AV統合デ
ータ格納部41に記録する。また、入力された音声や動
画像データの発生場所を示す位置情報や時間情報などを
外部機器などから入力し、AV統合データ格納部41に
含まれる位置情報および時間情報を記憶するためのエリ
アに記録する。このステップS203の詳細な処理につ
いては、図3のフローチャートに従って説明する。
ータに基づき、音声データを有音ブロックおよび無音ブ
ロックに分割する。上述したブロック化について、図5
を用いて説明すると次のようになる。つまり、音声デー
タの再生レベルが所定のレベルに達してから所定のレベ
ル未満になるまでの時間があらかじめ設定された所定の
時間以上の場合、その期間に対応する音声データを1ブ
ロックの有音ブロックとし、音声データの再生レベルが
所定のレベルに達してから所定のレベル未満になるまで
の時間があらかじめ設定された所定の時間未満の期間、
または、音声データの再生レベルが所定のレベル未満に
なってから所定のレベルに達するまでの期間に対応する
音声データを1ブロックの無音ブロックとする。
音声データの有音ブロックに対する音声認識を行ない、
音声データからテキストコードへの変換を行なう。な
お、この音声認識処理は周知の技術により実行可能であ
る。ステップS303では、図4に示すように、コード
変換した一ブロック分のテキストデータをAV統合デー
タ格納部41に含まれるテキストデータを記憶するため
のエリアに記録する。
ロック分の有音ブロックに対応する動画像データを所定
の時間間隔T毎で区切り、区切った時間に対応する動画
像データの一部をn個の静止画像データとして選択す
る。そして、そのn個の静止画像データを有効画像デー
タとし、音声データの1ブロック分の無音ブロックに対
応する動画像データを無効画像データとする。
の静止画像データとして選択する場合、例えば、システ
ムあるいはユーザなどにより、動画像データの最初のフ
レームに対応する静止画像データのみを選択するように
してもよい。このようにすれば、記憶域に余分なデータ
が記憶されないため、記憶域を有効に使用できるなどの
効果を得ることができる。
に、一ブロック分のn個の有効画像データを、AV統合
データ格納部41に含まれる静止画像(有効画像)デー
タを記憶するためのエリアに記録する。
納部41に格納された一ブロック分の静止画像データに
含まれる文字や表などを画像認識し、画像認識データに
変換する。なお、この画像認識処理は周知の技術により
実行可能である。ステップS307では、図4に示すよ
うに、変換した一ブロック分の画像認識データを、AV
統合データ格納部41に含まれる画像認識データを記憶
するためのエリアに記録する。
て、ステップS302〜ステップS307までの処理が
終了したか否か判断し、終了した場合ステップS204
へ進み、終了していない場合ステップS302へ戻る。
する音声データおよび動画像データに基づいて生成され
たテキストデータ、静止画像(有効画像)データ、画像
認識データは、AV統合データ格納部41に含まれるそ
れぞれの記憶エリアに記録される。
納部41に格納されたテキストデータを1ブロック毎に
RTF形式のフォーマットに変換し、さらに、テキスト
データに対応するn個の静止画像データをRTF形式に
適した画像形式に変換する。このステップでは、RTF
形式に適した画像形式に変換する静止画像データをn個
の静止画像データの中から任意に選択することもでき
る。
置により、例えば、RTF形式に変換したテキストデー
タおよび静止画像データ(あるいは、画像認識データ)
を、プリンタ等を使用して記録媒体に記録する際のレイ
アウトが設定される。つまり、第一実施形態では、2地
点間で行われるテレビ会議を例としているので、このス
テップS205では、例えば、会議中に地点A側で発言
された内容等を示す音声データおよび地点A側の会議室
の様子等を示す動画像データに基づいて、RTF形式に
変換したテキストデータおよび静止画像データ(あるい
は、画像認識データ)と、会議中に地点B側で発言され
た内容等を示す音声データおよび地点B側の会議室の様
子等を示す動画像データに基づいて、RTF形式に変換
したテキストデータ、および、静止画像データ(あるい
は、画像認識データ)とを合成し文書データ化するとい
う処理を行う。なお、第一実施形態では、複数の静止画
像データ全てを文書データ化しているが、本発明はこれ
に限られたものではなく、例えば、複数の静止画像デー
タの中から任意に静止画像データを選択して、文書デー
タ化することも可能である。
で合成された文書データに対応する画像をプリンタ等か
ら印刷する。
示す図である。
を示すの音声データに基づいて生成されたテキストデー
タである。7002は、地点A側の会議室の様子等を示
す動画像データに基づいて生成された静止画像データ、
あるいは、画像認識データである。7003は、地点A
側で発言された内容等を示す音声データに基づいて生成
されたテキストデータである。7004は、地点B側の
会議室の様子等を示す動画像データに基づいて生成され
た静止画像データ、あるいは、画像認識データである。
ータおよび動画像データに基づいて生成されたテキスト
データおよび静止画像データと、地点B側の音声データ
および動画像データに基づいて生成されたテキストデー
タおよび静止画像データとを、時系列(直列)に配置す
ると会議の流れにそった形で会議の議事録などを作成す
ることができる。
された内容等を示すの音声データに基づいて生成された
テキストデータである。6002は、地点A側の会議室
の様子等を示す動画像データに基づいて生成された静止
画像データである。6003は、地点A側で発言された
内容等を示す音声データに基づいて生成されたテキスト
データである。6004は、地点B側の会議室の様子等
を示す動画像データに基づいて生成された静止画像デー
タである。
ータおよび動画像データに基づいて生成されたテキスト
データおよび静止画像データを例えば記録紙等の左側に
配置し、また、地点B側の音声データおよび動画像デー
タに基づいて生成されたテキストデータおよび静止画像
データを例えば記録紙等の右側に配置する。さらに、発
言の順番に縦方向にテキストデータおよび画像データを
配置すれば、会議の流れにそった形で会議の議事録など
を作成することができる。
統合データ格納部41に格納された静止画像データに含
まれる文字や表などを画像認識し、会議中に使用された
資料等をテキストコードや表データへ変換して、会議の
議事録などを作成することができる。
ついて、図2および図8のフローチャートに従って説明
する。
処理について説明するためのフローチャートである。な
お、第二実施形態では、図2のステップS203の処理
のみが第一実施形態の処理と異なるため、図2のステッ
プS201、ステップS202、ステップS204〜ス
テップS206については詳細な説明を省略する。
ータに基づき、音声データを有音ブロックおよび無音ブ
ロックに分割する。上述したブロック化について、図5
を用いて説明すると次のようになる。つまり、音声デー
タの再生レベルが所定のレベルに達してから所定のレベ
ル未満になるまでの時間があらかじめ設定された所定の
時間以上の場合、その期間に対応する音声データを1ブ
ロックの有音ブロックとし、音声データの再生レベルが
所定のレベルに達してから所定のレベル未満になるまで
の時間があらかじめ設定された所定の時間未満の期間、
または、音声データの再生レベルが所定のレベル未満に
なってから所定のレベルに達するまでの期間に対応する
音声データを1ブロックの無音ブロックとする。
音声データの音声認識を行ない、音声データからテキス
トコードへの変換を行なう。なお、この音声認識処理は
周知の技術により実行可能である。ステップS803で
は、図9に示すように、コード変換した一ブロック分の
テキストデータを、AV統合データ格納部41に含まれ
るテキストデータを記憶するためのエリアに記録する。
ロック分の有音ブロックに対応する動画像データを所定
の時間間隔T毎に分割してn個の静止画像データを選択
する。そして、そのn個の静止画像データを有効画像デ
ータとし、音声データの1ブロック分の無音ブロックに
対応する動画像データを無効画像データとする。ステッ
プS805では、図9に示すように、一ブロック分のn
個の静止画像(有効画像)データを、AV統合データ格
納部41に含まれる静止画像(有効画像)データを記憶
するためのエリアに記録する。
納部41に格納された一ブロック分の静止画像データに
含まれる文字や表などを画像認識し、静止画像データに
文字領域が含まれている場合、文字認識処理によりテキ
ストコードに変換する。なお、この文字認識処理は周知
の技術により実行可能である。ステップS807では、
図9に示すように、変換した一ブロック分のテキストデ
ータを、AV統合データ格納部41に含まれる文字認識
データを記憶するためのエリアに記録する。
納部41に格納された一ブロック分の静止画像データに
含まれる文字や表などを画像認識し、静止画像データに
表領域が含まれている場合、例えば、表計算ソフトウェ
アなどで使用することができる表データ形式に変換す
る。なお、この画像認識処理は周知の技術により実行可
能である。ステップS809では、図9に示すように、
変換した一ブロック分の表データを、AV統合データ格
納部41に含まれる表データを記憶するためのエリアに
記録する。
字認識データn個の静止画像データのうち、ほぼ同じ内
容の画像データが存在する場合は1つを残し他を無効と
判断し廃棄する。例えば、2つの静止画像データの差分
をとり、その差分が所定の範囲内である場合、2つの静
止画像データはほぼ同じ静止画像データであると判断す
ることができる。
納部41にテキストデータが格納されている場合、図9
のAV統合データ格納部41に含まれる有効フラグの内
容を記録するためのエリアに、例えば「1」を記録す
る。また、AV統合データ格納部41にテキストデータ
が格納されていない場合、図9のAV統合データ格納部
41に含まれる有効フラグの内容を記録するためのエリ
アに、例えば「0」を記録する。ステップS812で
は、全ブロックに対して、ステップS802〜ステップ
S811までの処理が終了したか否か判断し、終了した
場合ステップS813へ進み、終了していない場合ステ
ップS802へ戻る。
統合データ格納部41に含まれる有効フラグを参照し、
有効フラグの内容が「1」であるブロックを有効ブロッ
クとして選択する。そして、ステップS204へ進み、
選択された有効ブロックに含まれるテキストデータを1
ブロック毎にRTF形式のフォーマットに変換し、さら
に、テキストデータに対応するn個の静止画像データを
RTF形式に適した画像形式に変換する。
する音声データおよび動画像データに基づいて生成され
たテキストデータ、静止画像(有効画像)データ、表デ
ータ、文字認識データ、AV統合データ格納部41に含
まれるそれぞれの記憶エリアに記録される。
を示す図である。
等を示すの音声データに基づいて生成されたテキストデ
ータである。10002は、地点A側の会議室の様子等
を示す動画像データに基づいて生成された静止画像デー
タである。10003は、地点A側で発言された内容等
を示す音声データに基づいて生成されたテキストデータ
である。10004は、地点B側の会議室の様子等を示
す動画像データに基づいて生成された静止画像データで
ある。1006は、静止画像データ10002を画像認
識することにより生成された画像認識データである。
データおよび動画像データに基づいて生成されたテキス
トデータおよび静止画像データを例えば記録紙等の左側
に配置し、また、地点B側の音声データおよび動画像デ
ータに基づいて生成されたテキストデータおよび静止画
像データを例えば記録紙等の右側に配置し、そして、画
像認識データ10006を記録紙の任意の位置に配置す
ると、会議の流れにそった形でさらに詳しい会議の議事
録などを作成することができる。
ML形式の文書フォーマットにより動画像データを取扱
う場合について説明する。
情報処理装置の処理について説明するためのフローチャ
ートである。
ーク等に接続された外部機器等から出力される音声およ
び動画像を、音声入力部103および画像入力部101
を介して入力する。ステップS102では、入力された
音声データに基づき、音声データを有音ブロックおよび
無音ブロックに分割する。上述したブロック化につい
て、図13を用いて説明すると次のようになる。つま
り、音声データの再生レベルが所定のレベルに達してか
ら所定のレベル未満になるまでの時間があらかじめ設定
された所定の時間以上の場合、その期間に対応する音声
データを1ブロックの有音ブロックとし、音声データの
再生レベルが所定のレベルに達してから所定のレベル未
満になるまでの時間があらかじめ設定された所定の時間
未満の期間、または音声データの再生レベルが所定のレ
ベル未満になってから所定のレベルに達するまでの期間
に対応する音声データを1ブロックの無音ブロックとす
る。
音声データの有音ブロックに対する音声認識を行ない、
音声データからテキストコードへの変換を行なう。な
お、この音声認識処理は周知の技術により実行可能であ
る。ステップS104では、図12に示すようにコード
変換した一ブロック分のテキストデータを、AV統合デ
ータ格納部121に含まれるテキストデータを記憶する
ためのエリアに記録する。
ロック分の有音ブロックに対応する動画像データを有効
画像データとし、音声データの1ブロック分の無音ブロ
ックに対応する動画像データを無効画像データとする。
ステップS106では、図12に示すように一ブロック
分の動画像(有効画像)データを、AV統合データ格納
部121に含まれる動画像(有効画像)データを記憶す
るためのエリアに記録する。
て、ステップS103〜ステップS106までの処理が
終了したか否か判断し、終了した場合ステップS108
へ進み、終了していない場合ステップS103へ戻る。
ステップS108では、入力された音声および動画像等
を、HTML形式、RTF形式、PDL形式等の文書フ
ォーマットに変換するために、ユーザが所望する文書フ
ォーマットが選択される。第三実施形態では、例えば、
HTML形式の文書フォーマットがユーザにより選択さ
れたものとする。
納部121に格納されたテキストデータを1ブロック毎
にHTML形式のフォーマットに変換し、さらに、テキ
ストデータに対応する動画像データをHTML形式に適
した画像形式(例えば、AVIファイルなど)に変換し
てファイルとして保存する。このように、HTML形式
の文書フォーマットを用いると、例えば、ブラウザなど
を利用してモニタ上に表示された文字列をマウスなどで
クリックすると、そのクリックした文字列に対応する動
画像がモニタ上に表示されるなどの効果を得ることがで
きる。
テップS109で作成されたHTML形式の文書データ
に対応する画像をプリンタ等から印刷することもでき
る。
ML形式の文書フォーマットにより音声データを取扱う
場合について説明する。
情報処理装置の処理について説明するためのフローチャ
ートである。
ーク等に接続された外部機器等から出力される音声およ
び動画像を、音声入力部103および画像入力部101
を介して入力する。
ータに基づき、音声データを有音ブロックおよび無音ブ
ロックに分割する。上述したブロック化について、図1
3を用いて説明すると次のようになる。つまり、音声デ
ータの再生レベルが所定のレベルに達してから所定のレ
ベル未満になるまでの時間があらかじめ設定された所定
の時間以上の場合、その期間に対応する音声データを1
ブロックの有音ブロックとし、音声データの再生レベル
が所定のレベルに達してから所定のレベル未満になるま
での時間があらかじめ設定された所定の時間未満の期
間、または、音声データの再生レベルが所定のレベル未
満になってから所定のレベルに達するまでの期間に対応
する音声データを1ブロックの無音ブロックとする。
に、音声データを、AV統合データ格納部151に含ま
れる音声データを記憶するためのエリアに記録する。ス
テップS704では、一ブロック単位に音声データの有
音ブロックに対する音声認識を行ない、音声データから
テキストコードへの変換を行なう。なお、この音声認識
処理は周知の技術により実行可能である。
に、コード変換した一ブロック分のテキストデータを、
AV統合データ格納部151に含まれるテキストデータ
を記憶するためのエリアに記録する。ステップS706
では、音声データの一ブロック分の有音ブロックに対応
する動画像データを所定の時間間隔T毎に分割してn個
の静止画像データを選択する。そして、そのn個の静止
画像データを有効画像データとし、音声データの1ブロ
ック分の無音ブロックに対応する動画像データを無効画
像データとする。
に、一ブロック分のn個の静止画像(有効画像)データ
を、AV統合データ格納部151に含まれる静止画像
(有効画像)データを記憶するためのエリアに記録す
る。ステップS708では、全ブロックに対して、ステ
ップS703〜ステップS707までの処理が終了した
か否か判断し、終了した場合ステップS709へ進み、
終了していない場合ステップS703へ戻る。
よび動画像等を、HTML形式、RTF形式、PDL形
式等の文書フォーマットに変換するために、ユーザが所
望する文書フォーマットが選択される。第四実施形態で
は、例えば、HTML形式の文書フォーマットがユーザ
により選択されたものとする。
納部121に格納されたテキストデータを1ブロック毎
にHTML形式のフォーマットに変換し、さらに、テキ
ストデータに対応する音声データをHTML形式に適し
た音声形式(例えば、WAVファイルなど)に変換して
ファイルとして保存する。このように、HTML形式の
文書フォーマットを用いると、例えば、ブラウザなどを
利用してモニタ上に表示された文字列をマウスなどでク
リックすると、そのクリックした文字列に対応する音声
がスピーカなどから出力されるという効果を得ることが
できる。
テップS710で作成されたHTML形式の文書データ
に対応する画像をプリンタ等から印刷することもでき
る。
オカメラで撮影した映像や音声等に基づいて、音声認識
処理、画像認識処理等を行うことにより撮影した映像や
音声等を文書化することができる。また、同様にしてテ
レビなどから出力される音声や画像などを文書化するこ
ともできる。
ホストコンピュータ,インタフェイス機器,リーダ,プ
リンタなど)から構成されるシステムに適用しても、一
つの機器からなる装置(例えば、複写機,ファクシミリ
装置など)に適用してもよい。
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ(またはCPU
やMPU)が記憶媒体に格納されたプログラムコードを
読出し実行することによっても、達成されることは言う
までもない。
ラムコード自体が前述した実施形態の機能を実現するこ
とになり、そのプログラムコードを記憶した記憶媒体は
本発明を構成することになる。
体としては、例えば、フロッピディスク,ハードディス
ク,光ディスク,光磁気ディスク,CD−ROM,CD
−R,磁気テープ,不揮発性のメモリカード,ROMな
どを用いることができる。
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているOS(オペレ
ーティングシステム)などが実際の処理の一部または全
部を行い、その処理によって前述した実施形態の機能が
実現される場合も含まれることは言うまでもない。
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。
例えば、テレビ会議における議事録を生成する場合に、
各情報の発生場所および発生順を示すことができる情報
処理装置およびその方法を提供することができる。
構成例を示すブロック図、
処理について説明するためのフローチャート、
するためのフローチャート、
説明するための図、
するためのフローチャート、
の処理について説明するためのフローチャート、
を説明するための図、
の処理について説明するためのフローチャート、
ある。
Claims (8)
- 【請求項1】 異なる場所から送られてくるそれぞれ異
なる情報を入力する入力手段と、 前記入力情報に含まれる音声を認識してテキストを生成
する生成手段と、 生成されるテキストと前記入力情報に含まれる画像と
を、それらの情報の発生場所および発生順に基づき合成
する合成手段とを有することを特徴とする情報処理装
置。 - 【請求項2】 前記テキストおよび前記画像は、合成さ
れた情報に基づき記録媒体上に可視像が形成される場
合、情報の発生順に、発生場所の異なる情報が列方向に
配置されるように合成されることを特徴とする請求項1
に記載された情報処理装置。 - 【請求項3】 前記生成手段は、前記入力情報に含まれ
る音声データを有音ブロックおよび無音ブロックに分割
し、前記有音ブロックに含まれる音声を認識することを
特徴とする請求項1または請求項2に記載された情報処
理装置。 - 【請求項4】 前記合成手段による合成処理は、前記有
音ブロックに対応する動画像データから得られる静止画
像データが表す画像に基づき行われることを特徴とする
請求項3に記載された情報処理装置。 - 【請求項5】 さらに、前記情報処理装置は、前記テキ
ストのファイル形式を所定のファイル形式に変換する変
換手段を備えることを特徴とする請求項1に記載された
情報処理装置。 - 【請求項6】 前記所定のファイル形式は、少なくとも
HTML(HyperText Markup Lan
guage)形式、RTF(Rich Text Fo
rmat)形式、PDL(Page Descript
ion Language)形式の何れか1つであるこ
とを特徴とする請求項5に記載された情報処理装置。 - 【請求項7】 異なる場所から送られてくるそれぞれ異
なる情報を入力し、 前記入力情報に含まれる音声を認識してテキストを生成
し、 生成されるテキストと前記入力情報に含まれる画像と
を、それらの情報の発生場所および発生順に基づき合成
することを特徴とする情報処理方法。 - 【請求項8】 情報処理のプログラムコードが記憶され
た記憶媒体であって、 異なる場所から送られてくるそれぞれ異なる情報を入力
するステップのプログラムコードと、 前記入力情報に含まれる音声を認識してテキストを生成
するステップのプログラムコードと、 生成されるテキストと前記入力情報に含まれる画像と
を、それらの情報の発生場所および発生順に基づき合成
するステップのプログラムコードとを有することを特徴
とする記憶媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP34026197A JP4154015B2 (ja) | 1997-12-10 | 1997-12-10 | 情報処理装置およびその方法 |
US09/204,271 US6349303B1 (en) | 1997-12-10 | 1998-12-03 | Information processing apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP34026197A JP4154015B2 (ja) | 1997-12-10 | 1997-12-10 | 情報処理装置およびその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11175517A true JPH11175517A (ja) | 1999-07-02 |
JP4154015B2 JP4154015B2 (ja) | 2008-09-24 |
Family
ID=18335255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP34026197A Expired - Fee Related JP4154015B2 (ja) | 1997-12-10 | 1997-12-10 | 情報処理装置およびその方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6349303B1 (ja) |
JP (1) | JP4154015B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003056459A1 (fr) * | 2001-12-27 | 2003-07-10 | Sony Corporation | Systeme de traitement d'information de reseau et procede de traitement d'information |
JP2003274345A (ja) * | 2002-03-14 | 2003-09-26 | Ricoh Co Ltd | マルチメディア記録装置、マルチメディア編集装置、およびこれらの記録媒体、マルチメディア再生装置、発言録作成装置 |
KR100588729B1 (ko) * | 1999-12-08 | 2006-06-13 | 주식회사 케이티 | 문자형 온라인 서비스에서 사용자 화면 제공장치 및 방법 |
US7898566B2 (en) | 2005-08-22 | 2011-03-01 | Canon Kabushiki Kaisha | Video processing apparatus and object identifying method |
JP2011164694A (ja) * | 2010-02-04 | 2011-08-25 | Nec Corp | 標準作業実行支援装置、および標準作業実行支援方法 |
US8611724B2 (en) | 2010-06-28 | 2013-12-17 | Brother Kogyo Kabushiki Kaisha | Computer readable medium, information processing apparatus and method for processing moving image and sound |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6850609B1 (en) * | 1997-10-28 | 2005-02-01 | Verizon Services Corp. | Methods and apparatus for providing speech recording and speech transcription services |
JP2003006555A (ja) * | 2001-06-25 | 2003-01-10 | Nova:Kk | コンテンツ配信方法、シナリオデータ、記録媒体およびシナリオデータ生成方法 |
JP4288879B2 (ja) * | 2001-09-14 | 2009-07-01 | ソニー株式会社 | ネットワーク情報処理システムおよび情報処理方法 |
US7224981B2 (en) * | 2002-06-20 | 2007-05-29 | Intel Corporation | Speech recognition of mobile devices |
US7466334B1 (en) | 2002-09-17 | 2008-12-16 | Commfore Corporation | Method and system for recording and indexing audio and video conference calls allowing topic-based notification and navigation of recordings |
US20050137867A1 (en) * | 2003-12-17 | 2005-06-23 | Miller Mark R. | Method for electronically generating a synchronized textual transcript of an audio recording |
JP2006268800A (ja) * | 2005-03-25 | 2006-10-05 | Fuji Xerox Co Ltd | 議事録作成支援装置、議事録作成支援方法及びプログラム |
KR100827802B1 (ko) * | 2006-10-24 | 2008-05-07 | 삼성전자주식회사 | 휴대 단말기의 화상 통화 장치 및 화상 통화 송수신방법 |
US8407609B2 (en) | 2008-08-21 | 2013-03-26 | Linqware Inc. | System and method for providing and tracking the provision of audio and visual presentations via a computer network |
US10673913B2 (en) * | 2018-03-14 | 2020-06-02 | 8eo, Inc. | Content management across a multi-party conference system by parsing a first and second user engagement stream and transmitting the parsed first and second user engagement stream to a conference engine and a data engine from a first and second receiver |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5187735A (en) * | 1990-05-01 | 1993-02-16 | Tele Guia Talking Yellow Pages, Inc. | Integrated voice-mail based voice and information processing system |
AU2868092A (en) * | 1991-09-30 | 1993-05-03 | Riverrun Technology | Method and apparatus for managing information |
GB2285895A (en) * | 1994-01-19 | 1995-07-26 | Ibm | Audio conferencing system which generates a set of minutes |
US5483588A (en) * | 1994-12-23 | 1996-01-09 | Latitute Communications | Voice processing interface for a teleconference system |
US5970418A (en) * | 1995-09-21 | 1999-10-19 | International Business Machines Corporation | Personal communicator including a handset phone with an integrated virtual image display |
US5790180A (en) * | 1995-12-28 | 1998-08-04 | At&T Corp. | Video telephone call handling system and method |
US6070167A (en) * | 1997-09-29 | 2000-05-30 | Sharp Laboratories Of America, Inc. | Hierarchical method and system for object-based audiovisual descriptive tagging of images for information retrieval, editing, and manipulation |
-
1997
- 1997-12-10 JP JP34026197A patent/JP4154015B2/ja not_active Expired - Fee Related
-
1998
- 1998-12-03 US US09/204,271 patent/US6349303B1/en not_active Expired - Lifetime
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100588729B1 (ko) * | 1999-12-08 | 2006-06-13 | 주식회사 케이티 | 문자형 온라인 서비스에서 사용자 화면 제공장치 및 방법 |
WO2003056459A1 (fr) * | 2001-12-27 | 2003-07-10 | Sony Corporation | Systeme de traitement d'information de reseau et procede de traitement d'information |
CN100388273C (zh) * | 2001-12-27 | 2008-05-14 | 索尼株式会社 | 网络信息处理系统和信息处理方法 |
JP2003274345A (ja) * | 2002-03-14 | 2003-09-26 | Ricoh Co Ltd | マルチメディア記録装置、マルチメディア編集装置、およびこれらの記録媒体、マルチメディア再生装置、発言録作成装置 |
US7898566B2 (en) | 2005-08-22 | 2011-03-01 | Canon Kabushiki Kaisha | Video processing apparatus and object identifying method |
JP2011164694A (ja) * | 2010-02-04 | 2011-08-25 | Nec Corp | 標準作業実行支援装置、および標準作業実行支援方法 |
US8611724B2 (en) | 2010-06-28 | 2013-12-17 | Brother Kogyo Kabushiki Kaisha | Computer readable medium, information processing apparatus and method for processing moving image and sound |
Also Published As
Publication number | Publication date |
---|---|
JP4154015B2 (ja) | 2008-09-24 |
US6349303B1 (en) | 2002-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH11175517A (ja) | 情報処理装置およびその方法 | |
JP4478939B2 (ja) | 音声処理装置およびそのためのコンピュータプログラム | |
US20090254826A1 (en) | Portable Communications Device | |
JP3864197B2 (ja) | 音声クライアント端末装置 | |
JP2002140085A (ja) | 文書読み上げ装置及び方法、コンピュータプログラム並びに記憶媒体 | |
JPH08339198A (ja) | プレゼンテーション装置 | |
JP3890326B2 (ja) | 情報処理装置、情報処理方法ならびに記録媒体、プログラム | |
JP2003308088A (ja) | 音声認識装置及びその方法、プログラム | |
JP3848181B2 (ja) | 音声合成装置及びその方法、プログラム | |
JP2000214874A (ja) | 音声合成装置及びその方法、コンピュ―タ可読メモリ | |
JP2001092712A (ja) | マルチメディアWebページとそのマルチメディア連携方法およびその処理プログラムを記録した記録媒体 | |
JP2006510086A (ja) | アプレットがリンクされたマークアップ文書のディスプレイ方法及びそのシステム | |
JPS58160993A (ja) | 文書編集装置の音声確認方法 | |
JP2001256131A (ja) | コンテンツ転送装置、コンテンツ転送方法およびコンテンツ転送プログラムを記録した記録媒体 | |
JP2002175176A (ja) | 情報提示装置および提示方法 | |
JP4319334B2 (ja) | 音声・画像処理装置 | |
JP2007080154A (ja) | 構造化文書描画装置、構造化文書描画方法及びプログラム | |
JP5528252B2 (ja) | タイムコード付与装置及びプログラム | |
JPH11331760A (ja) | 映像の要約方法および記憶媒体 | |
KR100585711B1 (ko) | 오디오 및 음성 합성 방법 | |
JP2000293187A (ja) | データ音声合成装置及びデータ音声合成方法 | |
JPH07146919A (ja) | 文書作成補助装置 | |
JP2007249022A (ja) | 音声合成装置および音声合成方法 | |
JPH10260814A (ja) | 情報処理装置及び情報処理方法 | |
JP2003195884A (ja) | 音声合成装置及びその方法と音声合成システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040616 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040621 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040819 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050829 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051028 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20051201 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20060106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080606 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080707 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110711 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120711 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120711 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130711 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |