JP2004185514A - Voice recording device, voice recording method, voice recording program and recording medium - Google Patents

Voice recording device, voice recording method, voice recording program and recording medium Download PDF

Info

Publication number
JP2004185514A
JP2004185514A JP2002354339A JP2002354339A JP2004185514A JP 2004185514 A JP2004185514 A JP 2004185514A JP 2002354339 A JP2002354339 A JP 2002354339A JP 2002354339 A JP2002354339 A JP 2002354339A JP 2004185514 A JP2004185514 A JP 2004185514A
Authority
JP
Japan
Prior art keywords
audio
data
recording
image
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002354339A
Other languages
Japanese (ja)
Other versions
JP4270854B2 (en
Inventor
Shin Aoki
青木  伸
Norihiko Murata
憲彦 村田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2002354339A priority Critical patent/JP4270854B2/en
Publication of JP2004185514A publication Critical patent/JP2004185514A/en
Application granted granted Critical
Publication of JP4270854B2 publication Critical patent/JP4270854B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a voice recording device with which a meeting progress situation is glanced over by participants during a meeting with an easy operation without obstructing the progress of the meeting, and which improves the efficiency of the meeting by producing an indicating material that becomes an exact record. <P>SOLUTION: This system is provided with a CPU1 controlling the whole system, a RAM2 playing the role as a workmemory, a hard disk 3 accumulating programs and data, a keyboard 6 and a mouse 7 playing the role as an input event, a monitor 4 comprised of CRT, LCD or the like that indicates an image, a voice inputting interface 8 inputting voice data from a microphone 9, an voice outputting interface 10 outputting voice data to a speaker 11, and a system bus 5 connecting each component. <P>COPYRIGHT: (C)2004,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、音声記録装置に関し、さらに詳しくは、動画、音声の記録及び検索技術に関するものである。
【0002】
【従来の技術】
従来から複数の人間が参加する会議などでは、記載内容、掲示内容等を複数人が同時に観視することが可能なホワイトボードなどが多く利用されている。そしてこのホワイトボードには、発表者等の説明、意見、報告内容、或いは議事進行等が記入、掲示され、ホワイトボード上の各種情報は、会議参加者の間で共有される。ホワイトボードは、口頭による発言は時間が経過すると参照できないため、会議中及び会議後にその内容を参照するために発言された内容を記録する機能と、これまで議論された内容や、これから議論する予定を一覧表示し、会議参加者間でこれを共有することにより議事の進行を促進する機能とを備えている。しかし、記録という目的からは、ボード上の記述内容は詳しいことが望ましいが、詳しい内容を筆記により転写するためには時間がかかるため、その間議事の進行を妨げることになる。また、一項目の記述内容が詳しくなるほどその量が増え、結果的に一覧性は低下する傾向にある。
そこで、口頭で行った議論を手間をかけずに正確に記録し、ボード上に整理して一覧表示する作業を支援することができれば、会議の効率向上に役立つと考えられる。そのようなことから特開平11−53385号公報には、音声などを記録し、会議後に記録を再生するためのシステムについて開示されている。それによると、発言構造を図形的に表示し、ユーザが指定した発言と同様の発言を図示することにより、検索漏れを減少させるとしている。
【0003】
また、一連の発言群から意味的な構造を抽出する作業は高度な知的活動であり、これこそ会議中に参加者の行うべき行動である。そこで構造抽出と表示内容記述は人間が担当し、一方、正確な記録と再生は機械が行うよう分担すれば、会議中のユーザ負荷を低減しながら、正確な記録と高度な構造表示を実現することができる。そのようなことから同一出願人から、長時間記録された動画、音声データのうち、一部分をユーザが指定して切り出すマルチメディア文書作成システム及び切り出し部分を再生するシステムが提案されている。それによれば、切り出し位置(時間範囲)を見付けるために、音源方向、加筆情報などの時間的変化を記録し、それを空間的に表示するとしている。また切り出したデータはクリップポードなどにコピーすることで、任意のアプリケーションに貼り付けることができるとしている。
また、特開2002−247489公報には、マイクアレイとビデオカメラを組みあわせた装置を使い、マイクにより音源方向を推定するとともに全体の画像を記録し、その画像上で音源方向に対応する位置と名前を入力し、発言と名前を関連付けする技術について開示されている。
【特許文献1】特開平11−53385号公報
【特許文献2】特開2002−247489公報
【0004】
【発明が解決しようとする課題】
しかし、特許文献1には、図形表示に使用する発言構造としては、発言者別、発言時刻順一覧が例として挙げられているが、複雑な意味的な構造を使用する方法は示されていない。
また、特許文献2は切り出しデータの利用法としてメールに添付する方法が示されているが、その他の利用方法は明らかにされていない。
本発明は、かかる課題に鑑み、会議の進行を妨げずに簡単な操作で、しかも会議中に参加者が共有して議事進行状態を一覧することができ、且つ正確な記録となる表示物を作成することにより、会議を効率化する音声記録装置を提供することを目的とする。
【0005】
【課題を解決するための手段】
本発明はかかる課題を解決するために、請求項1は、音声入力インターフェースを介して入力された音声データを記録する音声データ記録手段と、該音声データ記録手段により記録された音声データをモニタ上に図形表示する音声表示手段と、ユーザ入力インターフェースを介してポインティングデバイスによる操作若しくはキーボード操作により表示領域に画像を表示する画像表示手段と、を備え、前記ユーザ入力インターフェースにより入力された入力イベントに基づいて、ファイル記録処理、ファイル入力処理、音声データ貼り付け処理、図形描画処理若しくは音声再生処理の何れかの処理を行うことを特徴とする。
本発明の特徴は、ユーザ入力インターフェースにより入力された入力イベントに基づいて、各種の処理プログラムを実行することである。そして、それらの処理結果は表示画面の表示領域に表示され、その表示内容もホワイトボード領域には文字や画像が表示され、音声表示領域には音声データが画像として表示される。
かかる発明によれば、会議の進行を妨げずに簡単な操作で、会議中に参加者が共有して議事進行状態を一覧することができ、かつ正確な記録となる表示物を作成することにより、会議を効率的に進行することができる。
請求項2は、前記音声データ貼り付け処理は、前記音声表示手段によりモニタ上に表示された音声データに時間範囲が指定されているか否かを判断し、該時間範囲が指定されていた場合、該時間範囲に対応する音声データを切り出して音声データを生成してファイルに保存することを特徴とする。
会議中の議事録に対応するように、そのときの音声が参照できればより議事録が正確なものとなる。そこで本発明では、モニタ上に表示された音声データに時間範囲を指定し、その指定された時間範囲の音声データを切り出してファイルに保存する。
かかる発明によれば、指定された時間範囲の音声データを切り出してファイルに保存するので、後でそのときの音声データを再生して確認することができる。
【0006】
請求項3は、前記モニタ上に表示された音声データは、各時刻における音量データであり、該音量データは所定の時間毎に更新されることを特徴とする。
表示部に表示される音声データは各時刻における音量データである。従って、表示される時は一定の時間毎に新しい音量データと更新されるのが好ましい。
かかる発明によれば、表示される音量データは所定の時間毎に更新されるので、常に新しい音量データを表示することができる。
請求項4は、複数の音声入力インターフェースを介して入力された各音声データを記録する音声データ記録手段と、該音声データ記録手段により記録された音声データをモニタ上に図形表示する音声表示手段と、ユーザ入力インターフェースを介してポインティングデバイスによる操作若しくはキーボード操作により表示領域に画像を表示する画像表示手段と、を備え、前記ユーザ入力インターフェースにより入力された入力イベントに基づいて、ファイル記録処理、ファイル入力処理、音声データ貼り付け処理、図形描画処理若しくは音声再生処理の何れかの処理を行うことを特徴とする。
請求項1では、音声入力インターフェースを介して入力された音声データは、1つだけである。しかし、会議は一般に複数の人と行うので、本発明では音声入力インターフェースに複数のマイクを接続して複数の音声データを記録するものである。
かかる発明によれば、参加者個別のマイクを利用し、マイク毎の音量グラフを表示する。また個別の区間音声データを使用せず、全体音声データの一部へのポインタを利用するので、ファイル容量が節約でき、さらに、後から時間範囲を調整することも容易にできる。
請求項5は、前記複数の音声入力インターフェースを介して入力される音声データの音量を前記音声表示手段により計測表示し、且つ前記複数の音声データを加算して一つの音声データとして記録することを特徴とする。
各マイクからの音声データの音量は、音声表示手段により個別に同時に表示される。そして各音声データは加算されて一つの音声データとして記録される。
かかる発明によれば、音声データの音量は個別に表示され、音声データは一つに加算されて記憶されるので、表示内容を共有することができると共に、データの記憶容量を少なくすることができる。
【0007】
請求項6は、2つの音声入力インターフェースを介して入力された各音声データを記録する音声データ記録手段と、該音声データ記録手段により記録された音声データをモニタ上に図形表示する音声表示手段と、ユーザ入力インターフェースを介してポインティングデバイスによる操作若しくはキーボード操作により表示領域に画像を表示する画像表示手段と、画像入力インターフェースを介して入力された画像を記録する画像データ記録手段と、を備え、前記ユーザ入力インターフェースにより入力された入力イベントに基づいて、ファイル記録処理、ファイル入力処理、音声データ貼り付け処理、図形描画処理若しくは音声再生処理の何れかの処理を行うことを特徴とする。
会議中の発言者の位置、つまり音源方向がわかれば、より会議の内容を正確にしかも誰が発言したかを確認することが容易となる。そこで本発明では、音源方向を検出するために2つの音声データと、その発言者の画像を記録する手段を備える。
かかる発明によれば、音源方向を検出するために2つの音声データと、その発言者の画像を記録する手段を備えるので、発言者を正確に確認することができる。
請求項7は、前記2つの音声入力インターフェースを介して入力される音声データの位相差により該音声データの音源を計測する音源計測手段を更に備え、前記音源計測手段は、2チャンネルの音声データから音源方向を推定して結果を前記表示領域にグラフ表示すると共に、前記撮像装置により撮影した画像を同一画面に表示することを特徴とする。
本発明は2つのマイクアレイに入力する音声データの位相差から音源方向を計測し表示することで、区間を指定しやすくサポートするものである。また、撮影した画像を記録することにより、区間音声の再生時に同時に画像を再生し、より内容を理解しやすくする。さらに区間音声アイコンに、音源方向の画像を使用し、アイコンの内容を理解しやすくする。
かかる発明によれば、音源方向を検出し画像を同時に記録するので、音声データの区間を指定し易くなり、且つ内容を理解しやすくすることができる。
【0008】
請求項8は、前記音声データ貼り付け処理は、前記音声表示手段によりモニタ上に表示された音声データに時間範囲が指定されているか否かを判断し、該時間範囲が指定されていた場合、該時間範囲内の音源方向の平均値を求め、記録された画像データから前記時間範囲の開始時刻に対応する音源方向の部分画像を切り出して表示領域の所定の位置に表示することを特徴とする。
本発明では指定された区間の音源方向の画像が切り出されるので、コメント以外に発言者の顔も自動的に表示され、より理解しやすい表示が実現できる。また音声再生は、リンクデータに記録された指定区間の音声とともに、画像表示領域で動画データを再生する。
かかる発明によれば、ホワイトボード上の各項目の関連情報として、音声以外に画像も再生されるので、より内容が理解しやすくなる。
請求項9は、複数の音声入力インターフェースを介して入力された各音声データを記録する音声データ記録手段と、該音声データ記録手段により記録された音声データをモニタ上に図形表示する音声表示手段と、ユーザ入力インターフェースを介してポインティングデバイスによる操作若しくはキーボード操作により表示領域に画像を表示する画像表示手段と、複数の画像入力インターフェースを介して入力された画像を記録する画像データ記録手段と、を備え、前記ユーザ入力インターフェースにより入力された入力イベントに基づいて、ファイル記録処理、ファイル入力処理、音声データ貼り付け処理、図形描画処理若しくは音声再生処理の何れかの処理を行うことを特徴とする。
請求項6では、1つのカメラに2つのマイクを備えて、発言者の音源方向と画像を記録するものであった。しかし、その場合音源方向を演算しなければならず、煩わしかった。そこで本発明はカメラとマイクを一体にしたマイクカメラを複数用意し、各発言者に1対1で対応させる。
かかる発明によれば、マイクカメラを発言者に1対1で対応させるので、音源方向を演算する必要がなく、即座に音声データと画像を対応付けることができる。
請求項10は、前記音声表示手段は、前記各音声データの音量グラフと該音声データに対応する画像データを同一画面上に表示することを特徴とする。
本発明は音声表示領域には、複数のマイクの音量グラフの左端に、各マイクに付属したカメラの画像を表示する。また、アイコンには対応時刻の画像を表示するが、内容は切り出し画像ではなく、その区間内で音声レベルの平均値が最大となるマイクに付属するカメラの画像を選択する。
かかる発明によれば、複数のマイクの音量グラフと画像が対応付けられて表示されるので、画像から必要な音声データを検索することが容易となる。
【0009】
請求項11は、前記ファイル記録処理は、前記表示領域に描画された画像データ及び前記表示領域に貼り付けられたアイコンと前記音声データの関連を表すリンクデータを夫々与えられた名前のファイルに記録することを特徴とする。
データをファイルに記録する場合、各関連情報を関連付けて記録する必要がある。そのためには、これらの関連性を記録したリンクデータと共にファイル名と一緒に記録しておく。
かかる発明によれば、リンクデータがファイルと一緒に記録されているので、関連するファイルデータを迅速に検索することができる。
請求項12は、前記ファイル入力処理は、前記画像データ及びリンクデータを夫々決められた名前のファイルから読み込み、前記画像データの画像及びリンクデータから関連付けられたアイコンを前記表示領域に表示することを特徴とする。
ファイルを読み込む場合は、その読み込まれた画像のアイコンも同時に表示する必要がある。
かかる発明によれば、ファイル読み込み時に、画像データの画像及びリンクデータから関連付けられたアイコンを前記表示領域に表示するので、操作性と利便性が向上する。
請求項13は、前記図形描画処理は、前記表示領域で生じるマウスドラッグにより画面に折線分を描画することを特徴とする。
表示領域内で生じるマウスイベントに応答することにより、一般的なドローツールと同様にマウスドラッグによって画面に折線分を描画することができる。
かかる発明によれば、マウスドラッグにより画面に折線分を描画するので、通常のコンピュータ動作と互換性が生じて操作性が向上する。
【0010】
請求項14は、前記音声再生処理は、前記リンクデータから過去に貼り付けられた一連の音声アイコンの位置を読み込み、ポインタ位置と一致した音声アイコンのファイルを読み込んで音声を再生することを特徴とする。
記録された音声データを検索して再生するために、各音声データに対応したアイコンを読み込む。そしてそのアイコンの中からポインタで指定すると、そのアイコンに該当する音声データが再生される。
かかる発明によれば、再生する音声データのアイコンをポインタで指示するので、簡単な操作で所望の音声データを再生することができる。
請求項15は、音声入力インターフェースを介して入力された音声データを記録する音声データ記録ステップと、該音声データ記録ステップにより記録された音声データをモニタ上に図形表示する音声表示ステップと、ユーザ入力インターフェースを介してポインティングデバイスによる操作若しくはキーボード操作により表示領域に画像を表示する画像表示ステップと、を備え、前記ユーザ入力インターフェースにより入力された入力イベントに基づいて、ファイル記録処理、ファイル入力処理、音声データ貼り付け処理、図形描画処理若しくは音声再生処理の何れかの処理を行うことを特徴とする。
かかる発明によれば、請求項1と同様の作用効果を奏する。
請求項16は、前記ファイル記録処理は、前記表示領域に描画された画像データ及び前記表示領域に貼り付けられたアイコンと前記音声データの関連を表すリンクデータを夫々与えられた名前のファイルに記録することを特徴とする。
かかる発明によれば、請求項11と同様の作用効果を奏する。
【0011】
請求項17は、前記ファイル入力処理は、前記画像データ及びリンクデータを夫々決められた名前のファイルから読み込み、前記画像データの画像及びリンクデータから関連付けられたアイコンを前記表示領域に表示することを特徴とする。
かかる発明によれば、請求項12と同様の作用効果を奏する。
請求項18は、前記図形描画処理は、前記表示領域で生じるマウスドラッグにより画面に折線分を描画することを特徴とする。
かかる発明によれば、請求項13と同様の作用効果を奏する。
請求項19は、請求項15乃至18の何れか一項に記載の音声記録方法をコンピュータが制御可能にプログラミングしたことを特徴とする。
かかる発明によれば、本発明の音声記録方法をコンピュータが制御可能なOSに従ってプログラミングすることにより、そのOSを備えたコンピュータであれば同じ処理方法により制御することができる。
請求項20は、請求項19に記載の音声記録プログラムをコンピュータが読み取り可能な形式で記録したことを特徴とする。
かかる発明によれば、前記プログラムをコンピュータが読み取り可能な形式で記録媒体に記録することにより、この記録媒体を持ち運ぶことにより何処でもプログラムを稼動することができる。
【0012】
【発明の実施の形態】
以下、本発明を図に示した実施形態を用いて詳細に説明する。但し、この実施形態に記載される構成要素、種類、組み合わせ、形状、その相対配置などは特定的な記載がない限り、この発明の範囲をそれのみに限定する主旨ではなく単なる説明例に過ぎない。
図1は本発明の第1の実施形態に係るシステム構成を示す図である。このシステムは、システム全体を制御するCPU1と、ワークメモリとしての役割を担うRAM2と、プログラムやデータを蓄積するハードディスク3と、入力イベントとしての役割を担うキーボード6およびマウス7と、画像を表示するCRT、LCD等で構成されるモニタ4と、マイク9からの音声データを入力する音声入力インターフェース8と、スピーカ11に音声データを出力する音声出力インターフェース10と、各構成要素を接続するシステムバス5を備えて構成される。
尚、PCの表示を会議参加者が同時に閲覧するために、モニタ4にはプロジェクタなど大画面表示装置が有効である。ただしCRT、LCDなども利用することも可能であり、特に会議記録という目的に重点を置く場合、表示を共有せず記録者が個人的に使用することも可能である。
図2は本実施形態のプログラムの表示画面構成を示す。表示画面15はホワイトボード領域16と音声表示領域17の二つから構成されている。この構成ではホワイトボード領域16が上側に配置されているが、どちらでも構わない。
【0013】
図3は本実施形態のプログラムの構成を示す図である。同じ構成要素には同じ参照番号が付されているので、重複する説明は省略する。このプログラムはホワイトボード表示サブプログラム22と、音声記録サブプログラム25と、音声表示サブプログラム21の3つのサブプログラムから構成され、これらを時分割に同時に実行するように構成されている。またユーザ入力IF20は、一般的なオペレーディングシステムにより提供される機能ブロックで、キーボード6からの入力、及びマウス7によるボタンダウン、アップ、ドラッグの操作をイベントとしてアプリケーションに通知する。音声入力IF8は、計算機に接続されたマイクロホン9から入力する電気信号を、A/D変換したデジタル信号をアプリケーションへ入力する。音声出力IF10は、アプリケーションから出力するデジタル信号をD/A変換し、計算機に接続されたスピーカから音声を出力する。
以下、各サブプログラムの構成と動作を個別に説明する。
1.ホワイトボード表示サブプログラム22は、一般的なホワイトボードの機能を模し、ユーザによるマウス、またはタブレットなどポインティングデバイスによる操作やキーボード操作を入力して、ホワイトボード表示領域16にその結果を表示する。さらに音声表示サブプログラム21から音声データを入力し、その図形表示を音声表示領域17に表示する。
【0014】
図4は本サブプログラムのフローチャートである。プログラム開始後、まず表示画面のホワイトボード表示領域16を白色で塗り潰して初期化する(S1)。次にキーボードまたはマウスによるユーザ入力を読み込む(イベント待ち)(S2)。入力が「終了操作」のキー入力イベントであれば(S3のYESのルート)、後述のファイル記録処理を実行した後(S9)、プログラム全体を終了する。終了キーは“Q”キーとする。入力が「ファイル入力操作」のキー入力イベントであれば(S4のYESのルート)、ファイル入力処理を実行して(S10)プログラム全体を終了する。ファイル入力キーは“R”キーとする。入力が「貼り付け操作」のキー入力イベントであれば(S5のYESのルート)、後述の音声データの貼り付け処理を行い(S12)、再びユーザ入力を待つ。読み込んだ入力がマウスボタンの「クリック」イベントであれば(S6のYESのルート)、後述の図形描画処理を行い(S11)、再びユーザ入力を待つ。読み込んだ入力がマウスボタンの「ダブルクリック」イベントであれば(S7のYESのルート)、後述の音声再生処理を行い、再びユーザ入力を待つ。
【0015】
次に前記各処理について個別に説明する。
図形描画処理は(S11)、ホワイトボード表示領域16内で生じるマウスイベントに次のように応答することにより、一般的なドローツールと同様にマウスドラッグによって画面に折線分を描画する。
ボタンダウン…ポインタの位置を記憶する。
ドラッグ…前回のポインタ位置から 現在のポインタ位置まで直線を描画する。また記憶している位置を現在のポインタ位置に更新する。
ボタンアップ…前回のポインタ位置から現在のポインタ位置まで直線を描画する。
音声データ貼り付け処理(S12)は、後述の音声表示サブプログラムにおいて記録されたユーザの指定時間範囲の音声データと関連付けたマークをホワイトボード上に表示する。
▲1▼音声表示サブプログラムにおいて、時間範囲が指定されているか否かを確認する。指定されていなければ貼り付け処理を終了する。
▲2▼時間範囲が指定されていれば、記録された音声データから、対応する時間範囲のデータを切り出した音声データを生成し、一連の番号を名前としてファイルに保存する。音声記録データは後述のように非圧縮のPCM形式なので、切り出し処理は単なるシークで実現できる。
▲3▼ユーザへプロンプトを表示し、キーボードからその区間音声に対するコメントを入力する。
▲4▼後述の音声貼り付け指定位置として記録されている位置にコメントと並べてアイコンを表示する。
▲5▼記憶中の音声リンクデータへ新しいエントリを追加する。
【0016】
音声再生処理は(S8)、ダブルクリックされたポインタの位置を読み込む。
音声リンクデータから、これまでに貼り付けられた一連の音声アイコンの位置を読み込む。
ポインタ位置が、いずれかの音声アイコン上であれば、音声リンクデータに記録された対応する番号のファイルを読み込み、音声出力IFを通してスピーカから音声を再生する。
ポインタ位置がいずれの音声アイコン上でもなければ、次の音声貼り付け指定位置として、その位置を記憶する。
ファイル記録処理(S9)は、後述のホワイトボード画像データ、リンクデータをそれぞれ与えられた名前のファイルに記録する。
ファイル入力処理(S10)は、後述のホワイトボード画像データ、リンクデータをそれぞれ決められた名前のファイルから読み込み、ホワイトボード画像、および音声リンクアイコンをホワイトボード表示領域に表示する。
音声記録サブプログラムは、システムの音声入力IFから音声データを入力し、ハードディスクなど外部記憶装置上にそのデータを記録する。
【0017】
2.音声表示サブプログラムは、音声記録サブプログラムにより記録された音声データを、モニタ上に図形表示する。またユーザのマウス操作を入力し、ユーザの指定する時間範囲の音声データを、ホワイトボード表示サブプログラムへ出力する。本サブプログラムは、一定時間毎に画面表示を更新する波形表示部と、ユーザ操作により指定区間情報を入力する区間指定部のふたつの実行単位を同時に実行する。また波形表示は、図6のように一定時間毎に音声表示領域16の画面を更新する。音声表示領域16は、右向きの時間軸に沿って、つまり、右端が現在時刻を表し左へ進むほど過去さかのぼる、各時刻における音量グラフ35を表示する。表示は5秒毎に更新し、グラフは左へ移動する。さらに後述の指定区間表示36があれば、グラフと共に5秒毎に左へ移動する。また音声表示領域16の幅は640画素とし、時間縮尺、つまり1画素に対応する時間を1秒/画素とする。これにより画面内に過去640秒分の音声記録状況を表示することができる。
区間指定は音声表示領域16内へのマウス操作により、ユーザの指定する区間情報を読み取り、記憶し、それを音声表示上に重ねて表示する。音声表示領域で生じるマウスイベントに以下のように対応する。
ボタンダウン…ポインタ位置を読み取り記憶する。その位置に対応する時刻を第一の時間区間端として記憶する。画面上の位置に対応する時刻は、ポインタ位置と時間縮尺、および現在表示中の時間開始時刻、つまり音声表示領域の左端に対応する時刻から求めることができる。
ドラッグ…ボタンダウンポインタ位置と現在のポインタ位置を左および右の端とする矩形を描画し範囲を表示する。
ボタンアップ…ポインタ位置を読み取り、その位置に対応する時刻を第二の時間区間端として記憶する。先の第一の時間区間端と合わせ、ホワイトボード表示サブプログラムの音声データ貼り付け処理からの要求があれば、これを指定時間範囲として送信する。
【0018】
次に本発明の実施形態のプログラムのデータ構造について説明する。ホワイトボード画像データは、ホワイトボード表示領域に描画された図形を表す640x480画素モノクロ1ビットのラスタ画像データである。
音声リンクデータは、ホワイトボード表示領域に貼り付けられたアイコンと音声データの関連を表す。図5に音声リンクデータの構造を示す。ホワイトボード上のxy座標(画素単位、整数)30、31、区間音声データファイル名(番号)32、キーボードから入力されたコメントからなる行(テキスト)33の繰り返しである。音声データは、8kHz16bit/sのPCMデータとする。
【0019】
次に本実施形態の全体の動作を、ユーザからみた使用例として説明する。
1. 開始
2. 本発明の装置を操作する記録者が、会議の開始とともにアプリケーションを起動する。画面には図2のような画面15が表示される。
3. 発言
4. 通常の会議と同様に参加者はそれぞれ口頭の発言を行う。
5. 切り出し
6. 発言を、ボードに表示すべきだと記録者が判断した場合、記録者は音声表示領域17に表示された音量グラフ35を見ながら、その発言の時間区間36をマウスドラッグにより指定する。
7. コピー
8. 記録者はホワイトボード表示領域16の任意の位置をダブルクリックして貼り付け位置を指定した後、“V”キーを押して音声アイコンを貼り付ける。その後に表示されるプロンプトに従い、キーボード6から発言内容を要約したコメントを入力する。
9. 加筆 ホワイトボード上でマウス7をドラッグし、アイコン間を結ぶ線や、その他の文字、図形などを書き込む。
10. 再生 参加者は、議論が進む間、貼り付け、加筆を繰り返したホワイトボードを閲覧し、その内容を理解する。そのなかでコメントだけではその内容を正確に思いだせない項目があれば、記録者がアイコンをダブルクリックする。するとそのアイコンに関連付けられた時間区間の音声がスピーカ11から再生され、会議参加者は正確な内容を思い出すことができる。
11. 終了 会議が終了するとき、記録者は“Q”キーを押してアプリケーションを終了する。
12. 後再生 会議終了後、もう一度会議内容を見直したい場合、アプリケーションを起動して“R”キーを押し、記録されたファイルを読み込む。ホワイトボード表示領域16に前回の会議終了時と同様の表示が再現される。また、前回の続きの会議を開催する場合に、この状態から始めることもできる。
本実施形態では、音声切り出しデータのコピーアンドペースト操作にキーボード6を利用したが、マウスボタンを押下したままポインタを移動する「ドラッグアンドドロップ」や、右ボタンクリックでコンテキストメニューをポップアップ表示し、その中から「コピー」や「貼り付け」を選択するなど、一般的な「コピーアンドペースト」操作も利用できる構成にすることも好ましい。
また、本実施形態では音声リンクアイコンについて貼り付け処理だけを説明したが、一般的なドローツールと呼ばれる図形編集プログラムと同様に、貼り付けた後で、その位置やコメントを修正することも有効である。
【0020】
図7は本発明の第2の実施形態に係るシステム構成を示す図である。同じ構成要素には同じ参照番号が付されているので、重複する説明は省略する。図7が図1と異なる点は、参加者個別のマイクを複数(ここでは4個)音声入力インターフェース8に接続した点である。本実施形態は、参加者個別のマイク9a〜9dを利用し、マイク毎の音量グラフを表示する。また個別の区間音声データを使用せず、全体音声データの一部へのポインタを利用する。これにより、ファイル容量が節約でき、さらに、後から時間範囲を調整することも容易にできる。マイクから入力される音声データに対して、それぞれの音量を計測表示し、また、4つの音声データをすべて加算した結果をひとつの音声データとして記録する。
図8は本実施形態のプログラムの構成を示す図である。同じ構成要素には同じ参照番号が付されているので、重複する説明は省略する。
図9に本実施形態の表示画面例を示す図である。音声表示領域40が4つの領域に分割され、それぞれのマイクの音量9a〜9dがグラフ表示される。
以下、第1の実施形態との違いだけを説明する。
ホワイトボード表示サブプログラム42の音声データ貼り付け処理は、音声表示サブプログラムにおいて、時間範囲が指定されていれば、対応する時間範囲データを読み込む。
キーボードからコメントを入力しアイコンを表示する。
リンクデータを更新する。
音声再生処理は、ダブルクリック位置に対応するアイコンのリンクデータから、区間の開始時刻と継続時間を読み込む。
記録された全体音声データの指定区間部分だけを再生する。
次にデータ構造について説明する。音声リンクデータは、ホワイトボード表示領域に貼り付けられたアイコンと音声データの関連を表す。図10に音声リンクデータの構造を示す。ホワイトボード上のxy座標(画素単位、整数)50、51、区間の開始時刻(記録開始時刻からの相対時間、秒単位)52と継続時間(秒単位)53、キーボードから入力されたコメント54からなる行(テキスト)の繰り返しである。
本実施形態は第1の実施形態と比較して、区間音声データが存在しないため、記録されるデータ全体の容量を小さく抑えることができる。また音声リンクデータを編集することで、各発言に対応する時間区間を修正することも容易である。ただし、第1の実施形態では区間音声データだけ(全体音声データなし)でも各発言を再生することができる。
【0021】
図11は本発明の第3の実施形態に係るシステム構成を示す図である。本実施形態が第2の実施形態と異なる点は、画像入力IF57を介してカメラ58が接続されている点である。これは従来技術と同様にマイクアレイに入力する音声データの位相差から音源方向を計測し表示することで、区間を指定しやすくサポートする。また、撮影した画像を記録することにより、区間音声の再生時に同時に画像を再生し、より内容を理解しやすくする。さらに区間音声アイコンに、音源方向の画像を使用し、アイコンの内容を理解しやすくする。
図12は記録PCに接続するマイクロホンアレイとビデオカメラの外観を示す図である。マイクロホン9a、9bとカメラ58が固定されているため、マイクアレイから推定される音源方向と、カメラで撮影される画像上の横方向位置は、あらかじめ計測して対応づけておく。
【0022】
図13は本実施形態の表示画面の構成を示す図である。左側にホワイトボード領域60、右側の音声表示領域63の上側にビデオ表示領域61、下側に音源方向表示領域62が配置される。
図14は本実施形態の表示画面例を示す図である。音声表示領域63は、画面右側に縦方向になり、上のビデオ表示領域61、下の音源方向表示領域62の2つに分れる。そしてビデオ表示領域61、および音源方向表示領域62には、従来技術(特願2001−45838公報)と同様に、ビデオ画像61と、その画像に対応した音源方向62a、62b、62cが表示される。ただし、本発明では領域下端が現在時刻を示す。
図15は本実施形態のプログラムの構成を示す図である。同じ構成要素には同じ参照番号が付されているので、重複する説明は省略する。以下第2の実施形態との違いについて説明する。
動画記録サブプログラム70は、画像入力IF73から順次画像データを入力し、圧縮してハードディスク3へ記録する。圧縮方式は、周知のMotionJPEG方式とし、画像サイズ320x240画素、1frame/secとする。
音声表示サブプログラム71は、音声記録サブプログラム25から2チャンネルの音声データを入力して音源方向を推定し、その結果をグラフ表示する。また、画像記録サブプログラム70から画像データを入力し、画像表示領域61に表示する。
ホワイトボード表示サブプログラムの音声データ貼り付け処理は、音声表示領域に時間範囲が指定されていれば、時間範囲を読み込み、その範囲内の音源方向の平均値を求め、記録された画像データから、図16のように区間開始時刻の音源方向82の部分画像81(80x120画素、)を切り出し、切り出した画像をホワイトボード上の指定位置に表示する。
この処理により、その区間の音源方向の画像が切り出されるので、コメント以外に発言者の顔も自動的に表示され、より理解しやすい表示が実現できる。
また音声再生は、リンクデータに記録された指定区間の音声とともに、画像表示領域で動画データを再生する。ホワイトボード上の各項目の関連情報として、音声以外に画像も再生されるので、より内容が理解しやすくなる。
【0023】
図17は本発明の第4の実施形態に係るシステム構成を示す図である。同じ構成要素には同じ参照番号が付されているので、重複する説明は省略する。図17が図7と異なる点は、図19のようにマイク86とカメラ85を1個ずつ組み合わせた装置を複数ならべて、夫々音声入力インターフェース8と画像入力インターフェース57に接続した点である。
図18は本実施形態の表示画面例を示す図である。音声表示領域93には、各マイク9a〜9dの音量グラフ92a〜92dの左端に、各マイクに付属したカメラ58a〜58dの画像91a〜91dを表示する。また、アイコンには第3の実施形態と同様に対応時刻の画像を表示するが、内容は切り出し画像ではなく、その区間内で音声レベルの平均値が最大となるマイクに付属するカメラの画像を選択する。
【0024】
【発明の効果】
以上記載のごとく請求項1、15の発明によれば、会議の進行を妨げずに簡単な操作で、 会議中に参加者が共有して議事進行状態を一覧することができ、かつ正確な記録となる表示物を作成することにより、会議を効率的に進行することができる。
また請求項2、16では、指定された時間範囲の音声データを切り出してファイルに保存するので、後でそのときの音声データを再生して確認することができる。
また請求項3、17では、表示される音量データは所定の時間毎に更新されるので、常に新しい音量データを表示することができる。
また請求項4、18では、参加者個別のマイクを利用し、マイク毎の音量グラフを表示する。また個別の区間音声データを使用せず、全体音声データの一部へのポインタを利用するので、ファイル容量が節約でき、さらに、後から時間範囲を調整することも容易にできる。
また請求項5では、音声データの音量は個別に表示され、音声データは一つに加算されて記憶されるので、表示内容を共有することができると共に、データの記憶容量を少なくすることができる。
また請求項6では、音源方向を検出するために2つの音声データと、その発言者の画像を記録する手段を備えるので、発言者を正確に確認することができる。
また請求項7では、音源方向を検出し画像を同時に記録するので、音声データの区間を指定し易くなり、且つ内容を理解しやすくすることができる。
【0025】
また請求項8では、ホワイトボード上の各項目の関連情報として、音声以外に画像も再生されるので、より内容が理解しやすくなる。
また請求項9では、マイクカメラを発言者に1対1で対応させるので、音源方向を演算する必要がなく、即座に音声データと画像を対応付けることができる。
また請求項10では、複数のマイクの音量グラフと画像が対応付けられて表示されるので、画像から必要な音声データを検索することが容易となる。
また請求項11では、リンクデータがファイルと一緒に記録されているので、関連するファイルデータを迅速に検索することができる。
また請求項12では、ファイル読み込み時に、画像データの画像及びリンクデータから関連付けられたアイコンを前記表示領域に表示するので、操作性と利便性が向上する。
また請求項13では、マウスドラッグにより画面に折線分を描画するので、通常のコンピュータ動作と互換性が生じて操作性が向上する。
また請求項14では、再生する音声データのアイコンをポインタで指示するので、簡単な操作で所望の音声データを再生することができる。
また請求項19では、本発明の音声記録方法をコンピュータが制御可能なOSに従ってプログラミングすることにより、そのOSを備えたコンピュータであれば同じ処理方法により制御することができる。
また請求項20では、前記プログラムをコンピュータが読み取り可能な形式で記録媒体に記録することにより、この記録媒体を持ち運ぶことにより何処でもプログラムを稼動することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係るシステム構成を示す図である。
【図2】本発明の第1の実施形態のプログラムの表示画面構成を示す図である。
【図3】本発明の第1の実施形態のプログラムの構成を示す図である。
【図4】本発明のサブプログラムのフローチャートである。
【図5】本発明の音声リンクデータの構造を示す図である。
【図6】本発明の第1の実施形態の表示画面例を示す図である。
【図7】本発明の第2の実施形態に係るシステム構成を示す図である。
【図8】本発明の第2の実施形態のプログラムの構成を示す図である。
【図9】本発明の第2の実施形態の表示画面例を示す図である。
【図10】本発明の音声リンクデータの構造を示す図である。
【図11】本発明の第3の実施形態に係るシステム構成を示す図である。
【図12】本発明の記録PCに接続するマイクロホンアレイとビデオカメラの外観を示す図である。
【図13】本発明の第3の実施形態の表示画面の構成を示す図である。
【図14】本発明の第3の実施形態の表示画面例を示す図である。
【図15】本発明の第3の実施形態のプログラムの構成を示す図である。
【図16】本発明の切り出し画像を示す図である。
【図17】本発明の第4の実施形態に係るシステム構成を示す図である。
【図18】本発明の第4の実施形態の表示画面例を示す図である。
【図19】本発明のマイクカメラの外観図である。
【符号の説明】
1 CPU、2 RAM、3 ハードディスク、4 モニタ、5 システムバス、6 キーボード、7 マウス、8 音声入力インターフェース、9 マイク、10 音声出力インターフェース、11 スピーカ
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an audio recording device, and more particularly, to a moving image and audio recording and search technology.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, in a conference or the like in which a plurality of people participate, a whiteboard or the like that allows a plurality of people to simultaneously view the contents of descriptions, posted contents, and the like has been used. The explanation, opinions, report contents, proceedings of the proceedings, and the like of the presenter and the like are entered and posted on the whiteboard, and various information on the whiteboard is shared among the conference participants. The Whiteboard will not be able to refer to spoken remarks over time, so the function to record the remarks to refer to during and after the meeting, the content discussed so far, and will be discussed in the future Are displayed in a list, and a function of promoting the proceedings of the proceedings by sharing the list among the meeting participants is provided. However, for the purpose of recording, it is desirable that the written content on the board be detailed, but it takes time to transcribe the detailed content by writing, which hinders the proceedings of the proceedings. Further, as the description content of one item becomes more detailed, the amount increases, and as a result, the listability tends to decrease.
Therefore, it would be helpful to improve the efficiency of meetings by supporting the task of accurately recording verbal discussions without any hassle and organizing them on a board and displaying them in a list. For this reason, Japanese Unexamined Patent Application Publication No. 11-53385 discloses a system for recording audio and the like and reproducing the recording after a conference. According to the document, the statement structure is graphically displayed, and a statement similar to the statement designated by the user is illustrated to reduce search omission.
[0003]
Also, extracting a semantic structure from a series of remarks is a sophisticated intellectual activity, and this is exactly what participants should do during a conference. Therefore, humans are responsible for structure extraction and display content description, while machines are responsible for accurate recording and playback, realizing accurate recording and advanced structure display while reducing user load during meetings. be able to. In view of such circumstances, the same applicant has proposed a multimedia document creation system for extracting a part of moving image and audio data recorded for a long time by designating the part by a user, and a system for reproducing the extracted part. According to this, in order to find a cutout position (time range), a temporal change such as a sound source direction and retouched information is recorded and displayed spatially. It also states that the cut data can be pasted to any application by copying it to a clipboard or the like.
Japanese Patent Application Laid-Open No. 2002-247489 discloses an apparatus in which a microphone array and a video camera are combined, a sound source direction is estimated by a microphone, an entire image is recorded, and a position corresponding to the sound source direction on the image. A technology for inputting a name and associating a statement with the name is disclosed.
[Patent Document 1] JP-A-11-53385
[Patent Document 2] JP-A-2002-247489
[0004]
[Problems to be solved by the invention]
However, Patent Literature 1 discloses, as an example, a statement structure used for graphic display, in which a list of utterance times is listed for each speaker, but does not show a method of using a complicated semantic structure. .
Patent Document 2 discloses a method of attaching cut-out data to a mail as a method of using the cut-out data, but does not disclose other methods of using the data.
The present invention has been made in view of the above-described problems, and has a simple operation without hindering the progress of a conference, and furthermore, a participant can share and view a list of proceedings during a conference, and a display object that is an accurate record. It is an object of the present invention to provide a voice recording device that makes a meeting more efficient by creating it.
[0005]
[Means for Solving the Problems]
In order to solve the above-mentioned problem, the present invention provides a voice data recording unit for recording voice data input via a voice input interface, and a voice data recorded by the voice data recording unit on a monitor. And an image display means for displaying an image in a display area by a pointing device operation or a keyboard operation via a user input interface, based on an input event input by the user input interface. And performing any one of file recording processing, file input processing, audio data pasting processing, graphic drawing processing, and audio reproduction processing.
A feature of the present invention is to execute various processing programs based on an input event input by a user input interface. The processing results are displayed in the display area of the display screen, and the display contents are also displayed in the whiteboard area with characters and images, and in the audio display area with audio data as images.
According to this invention, by a simple operation without hindering the progress of the conference, the participants can share and view the progress of the proceedings during the conference, and by creating a display material that becomes an accurate record. , The conference can proceed efficiently.
The audio data pasting process may determine whether a time range is specified for the audio data displayed on the monitor by the audio display unit, and when the time range is specified, It is characterized in that audio data corresponding to the time range is cut out, audio data is generated, and stored in a file.
If the voice at that time can be referred to correspond to the minutes of the meeting, the minutes will be more accurate. Therefore, in the present invention, a time range is specified for the audio data displayed on the monitor, and the audio data in the specified time range is cut out and stored in a file.
According to this invention, since the audio data in the designated time range is cut out and saved in the file, the audio data at that time can be reproduced and confirmed later.
[0006]
A third aspect is characterized in that the audio data displayed on the monitor is volume data at each time, and the volume data is updated every predetermined time.
The audio data displayed on the display unit is volume data at each time. Therefore, when displayed, it is preferable to update with new volume data at regular intervals.
According to this invention, the displayed volume data is updated every predetermined time, so that new volume data can be always displayed.
Claim 4 is an audio data recording means for recording each audio data input through a plurality of audio input interfaces, and an audio display means for graphically displaying the audio data recorded by the audio data recording means on a monitor. Image display means for displaying an image in a display area by a pointing device operation or a keyboard operation via a user input interface, and a file recording process and a file input based on an input event input by the user input interface. It is characterized by performing any one of processing, audio data pasting processing, graphic drawing processing, and audio reproduction processing.
According to the first aspect, there is only one voice data input via the voice input interface. However, since a conference is generally held with a plurality of people, in the present invention, a plurality of microphones are connected to an audio input interface to record a plurality of audio data.
According to the invention, a microphone for each participant is used to display a volume graph for each microphone. In addition, since the pointer to a part of the entire audio data is used without using the individual section audio data, the file capacity can be saved, and the time range can be easily adjusted later.
According to a fifth aspect of the present invention, the volume of audio data input through the plurality of audio input interfaces is measured and displayed by the audio display means, and the plurality of audio data are added and recorded as one audio data. Features.
The volume of the audio data from each microphone is individually and simultaneously displayed by the audio display means. Each audio data is added and recorded as one audio data.
According to this invention, since the volume of the audio data is displayed individually and the audio data is added and stored, the display contents can be shared and the storage capacity of the data can be reduced. .
[0007]
Claim 6 is an audio data recording means for recording each audio data input via two audio input interfaces, and an audio display means for graphically displaying the audio data recorded by the audio data recording means on a monitor. Image display means for displaying an image in a display area by a pointing device operation or a keyboard operation via a user input interface, and image data recording means for recording an image input via the image input interface, Any one of file recording processing, file input processing, audio data pasting processing, graphic drawing processing, and audio reproduction processing is performed based on an input event input by a user input interface.
If the position of the speaker during the meeting, that is, the sound source direction is known, it becomes easier to confirm the contents of the meeting more accurately and who has spoken. Therefore, the present invention includes means for recording two pieces of audio data and an image of the speaker to detect the sound source direction.
According to this invention, since two voice data and a means for recording the image of the speaker are provided for detecting the sound source direction, the speaker can be confirmed accurately.
Claim 7 further comprises a sound source measuring means for measuring a sound source of the sound data based on a phase difference between the sound data input through the two sound input interfaces, and the sound source measuring means is configured to convert the sound data of two channels. The sound source direction is estimated, the result is displayed in a graph in the display area, and an image captured by the imaging device is displayed on the same screen.
The present invention measures and displays the direction of a sound source from the phase difference between audio data input to two microphone arrays, thereby supporting a section easily. Further, by recording the photographed image, the image is reproduced simultaneously with the reproduction of the section sound, so that the contents can be more easily understood. Further, an image in the direction of the sound source is used for the section sound icon, so that the contents of the icon can be easily understood.
According to this invention, since the direction of the sound source is detected and the image is recorded at the same time, the section of the audio data can be easily specified, and the content can be easily understood.
[0008]
The audio data pasting process may determine whether or not a time range is specified for the audio data displayed on the monitor by the audio display means, and when the time range is specified, An average value in the sound source direction within the time range is obtained, a partial image in the sound source direction corresponding to the start time of the time range is cut out from the recorded image data, and displayed at a predetermined position in the display area. .
In the present invention, since the image in the sound source direction in the designated section is cut out, the face of the speaker is automatically displayed in addition to the comment, so that a display that is easier to understand can be realized. In the sound reproduction, the moving image data is reproduced in the image display area together with the sound of the designated section recorded in the link data.
According to this invention, since the image is reproduced in addition to the sound as the related information of each item on the whiteboard, the contents can be more easily understood.
Claim 9 is an audio data recording means for recording each audio data input via a plurality of audio input interfaces, and an audio display means for graphically displaying the audio data recorded by the audio data recording means on a monitor. Image display means for displaying an image in a display area by a pointing device operation or a keyboard operation via a user input interface, and image data recording means for recording an image input through a plurality of image input interfaces. And performing any one of file recording processing, file input processing, audio data pasting processing, graphic drawing processing, and audio reproduction processing based on an input event input by the user input interface.
In claim 6, one camera is provided with two microphones to record the sound source direction and the image of the speaker. However, in that case, the direction of the sound source must be calculated, which is troublesome. Therefore, the present invention prepares a plurality of microphone cameras in which a camera and a microphone are integrated, and makes each speaker correspond one-to-one.
According to this invention, since the microphone camera is associated with the speaker on a one-to-one basis, it is not necessary to calculate the sound source direction, and the audio data can be immediately associated with the image.
A tenth aspect is characterized in that the audio display means displays a volume graph of each of the audio data and image data corresponding to the audio data on the same screen.
According to the present invention, an image of a camera attached to each microphone is displayed at the left end of the volume graph of the plurality of microphones in the audio display area. Also, the icon displays the image of the corresponding time, but the content is not a clipped image, but an image of the camera attached to the microphone having the maximum audio level in the section is selected.
According to this invention, since the volume graphs of the plurality of microphones and the images are displayed in association with each other, it is easy to search for necessary audio data from the images.
[0009]
12. The file recording process according to claim 11, wherein the image data drawn in the display area and the link data indicating the relationship between the icon pasted in the display area and the audio data are recorded in files having given names. It is characterized by doing.
When recording data in a file, it is necessary to associate and record each related information. For this purpose, these associations are recorded together with link data recording the file name together with the link data.
According to this invention, since the link data is recorded together with the file, the related file data can be quickly searched.
According to a twelfth aspect of the present invention, in the file input processing, the image data and the link data are read from a file having a predetermined name, and an icon associated with the image of the image data and the link data is displayed in the display area. Features.
When reading a file, the icon of the loaded image must be displayed at the same time.
According to this invention, at the time of reading the file, the icon associated with the image of the image data and the link data is displayed in the display area, so that operability and convenience are improved.
According to a thirteenth aspect of the present invention, in the graphic drawing process, a broken line segment is drawn on a screen by mouse dragging occurring in the display area.
By responding to a mouse event occurring in the display area, a polygonal line segment can be drawn on the screen by mouse dragging in the same manner as a general draw tool.
According to this invention, since the polygonal line segment is drawn on the screen by mouse dragging, compatibility with normal computer operation is generated, and operability is improved.
[0010]
According to another aspect of the present invention, in the audio reproducing process, a position of a series of audio icons pasted in the past is read from the link data, and a file of the audio icon corresponding to the pointer position is read to reproduce the audio. I do.
In order to search and reproduce the recorded audio data, an icon corresponding to each audio data is read. When the pointer is designated from among the icons, the audio data corresponding to the icon is reproduced.
According to this invention, since the icon of the audio data to be reproduced is indicated by the pointer, the desired audio data can be reproduced by a simple operation.
A voice data recording step of recording voice data input via a voice input interface, a voice display step of graphically displaying the voice data recorded by the voice data recording step on a monitor, An image display step of displaying an image in a display area by an operation with a pointing device or a keyboard via an interface, based on an input event input by the user input interface, a file recording process, a file input process, a voice It is characterized in that any one of a data pasting process, a graphic drawing process, and a sound reproducing process is performed.
According to this invention, the same operation and effect as those of the first aspect can be obtained.
17. The file recording process according to claim 16, wherein the image data drawn in the display area and the link data indicating the association between the icon pasted in the display area and the audio data are recorded in files having given names. It is characterized by doing.
According to this invention, the same operation and effect as those of the eleventh aspect are exhibited.
[0011]
The file input processing may read the image data and the link data from a file having a predetermined name, and display an icon associated with the image of the image data and the link data in the display area. Features.
According to this invention, the same operation and effect as those of the twelfth aspect are obtained.
According to a eighteenth aspect, in the graphic drawing processing, a broken line segment is drawn on a screen by mouse dragging occurring in the display area.
According to this invention, the same operation and effect as those of the thirteenth aspect can be obtained.
A nineteenth aspect is characterized in that the audio recording method according to any one of the fifteenth to eighteenth aspects is programmed to be controllable by a computer.
According to this invention, by programming the audio recording method of the present invention in accordance with an OS controllable by a computer, a computer having the OS can be controlled by the same processing method.
According to a twentieth aspect, the audio recording program according to the nineteenth aspect is recorded in a computer-readable format.
According to this invention, the program can be run anywhere by carrying the recording medium by recording the program on a recording medium in a computer-readable format.
[0012]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, the present invention will be described in detail using embodiments shown in the drawings. However, the components, types, combinations, shapes, relative arrangements, and the like described in this embodiment are not merely intended to limit the scope of the present invention but are merely illustrative examples unless otherwise specified. .
FIG. 1 is a diagram showing a system configuration according to the first embodiment of the present invention. In this system, a CPU 1 for controlling the entire system, a RAM 2 serving as a work memory, a hard disk 3 storing programs and data, a keyboard 6 and a mouse 7 serving as input events, and displaying images. A monitor 4 including a CRT, an LCD, etc., an audio input interface 8 for inputting audio data from a microphone 9, an audio output interface 10 for outputting audio data to a speaker 11, and a system bus 5 for connecting each component. It comprises.
Note that a large screen display device such as a projector is effective for the monitor 4 so that conference participants can simultaneously view the display on the PC. However, it is also possible to use a CRT, an LCD, or the like. In particular, when emphasis is placed on the purpose of recording a meeting, the recorder can use the personal information without sharing the display.
FIG. 2 shows a display screen configuration of the program of the present embodiment. The display screen 15 is composed of a whiteboard area 16 and a sound display area 17. In this configuration, the whiteboard region 16 is arranged on the upper side, but either may be used.
[0013]
FIG. 3 is a diagram showing the configuration of the program according to the present embodiment. The same components are denoted by the same reference numerals, and duplicate description will be omitted. This program is composed of three sub-programs: a whiteboard display sub-program 22, a voice recording sub-program 25, and a voice display sub-program 21, and these are simultaneously executed in a time-division manner. The user input IF 20 is a function block provided by a general operating system, and notifies an application of an input from the keyboard 6 and a button down, up, or drag operation by the mouse 7 as an event. The audio input IF 8 inputs a digital signal obtained by A / D converting an electric signal input from the microphone 9 connected to the computer to an application. The audio output IF 10 performs D / A conversion of a digital signal output from the application, and outputs audio from a speaker connected to the computer.
Hereinafter, the configuration and operation of each subprogram will be individually described.
1. The whiteboard display subprogram 22 imitates a general whiteboard function, inputs a user's operation using a pointing device such as a mouse or a tablet or a keyboard operation, and displays the result in the whiteboard display area 16. Further, voice data is input from the voice display subprogram 21 and its graphic display is displayed in the voice display area 17.
[0014]
FIG. 4 is a flowchart of this subprogram. After the start of the program, first, the whiteboard display area 16 of the display screen is filled with white and initialized (S1). Next, a user input by a keyboard or a mouse is read (waiting for an event) (S2). If the input is a key input event of “end operation” (YES route of S3), after executing a file recording process described later (S9), the entire program is ended. The end key is the “Q” key. If the input is a key input event of "file input operation" (YES route of S4), a file input process is executed (S10), and the entire program ends. The file input key is an “R” key. If the input is the key input event of the “pasting operation” (YES route of S5), the voice data pasting process described later is performed (S12), and the user input is waited again. If the read input is a mouse button “click” event (YES route of S6), a graphic drawing process described later is performed (S11), and the user input is waited again. If the read input is a “double-click” event of a mouse button (YES route of S7), an audio reproduction process described later is performed, and the process waits for a user input again.
[0015]
Next, each of the processes will be described individually.
In the graphic drawing process (S11), a line segment is drawn on the screen by dragging the mouse in the same manner as a general draw tool by responding to a mouse event generated in the whiteboard display area 16 as follows.
Button down: The position of the pointer is stored.
Drag… Draws a straight line from the previous pointer position to the current pointer position. The stored position is updated to the current pointer position.
Button up ... Draws a straight line from the previous pointer position to the current pointer position.
In the audio data pasting process (S12), a mark associated with audio data in a user-specified time range recorded in an audio display subprogram described later is displayed on a whiteboard.
(1) Check whether a time range is specified in the audio display subprogram. If not specified, the paste process ends.
{Circle over (2)} If a time range is designated, audio data is generated by cutting out data of the corresponding time range from the recorded audio data, and a series of numbers is saved as a name in a file. Since the audio recording data is in an uncompressed PCM format as described later, the cutout processing can be realized by a simple seek.
(3) A prompt is displayed to the user, and a comment for the section voice is input from the keyboard.
{Circle around (4)} An icon is displayed next to the comment at a position recorded as a voice pasting designation position described later.
(5) Add a new entry to the stored voice link data.
[0016]
In the sound reproduction process (S8), the position of the pointer double-clicked is read.
The position of a series of voice icons pasted is read from the voice link data.
If the pointer position is on any of the audio icons, the file of the corresponding number recorded in the audio link data is read, and the audio is reproduced from the speaker through the audio output IF.
If the pointer position is not on any of the sound icons, the position is stored as the next sound pasting designation position.
In the file recording process (S9), whiteboard image data and link data, which will be described later, are recorded in files with given names.
In the file input process (S10), whiteboard image data and link data, which will be described later, are read from a file having a predetermined name, and a whiteboard image and a voice link icon are displayed in the whiteboard display area.
The audio recording subprogram inputs audio data from the audio input IF of the system and records the data on an external storage device such as a hard disk.
[0017]
2. The audio display subprogram graphically displays the audio data recorded by the audio recording subprogram on a monitor. Further, a mouse operation of the user is input, and audio data in a time range designated by the user is output to the whiteboard display subprogram. This subprogram simultaneously executes two execution units, a waveform display unit that updates the screen display at regular intervals and a section designation unit that inputs designated section information by a user operation. In the waveform display, the screen of the audio display area 16 is updated at regular intervals as shown in FIG. The voice display area 16 displays a volume graph 35 at each time along the rightward time axis, that is, the right end represents the current time and goes back in the past as going to the left. The display updates every 5 seconds and the graph moves to the left. Further, if there is a designated section display 36 described later, it moves to the left every 5 seconds together with the graph. The width of the audio display area 16 is 640 pixels, and the time scale, that is, the time corresponding to one pixel is 1 second / pixel. Thus, the voice recording status for the past 640 seconds can be displayed on the screen.
In the section designation, the section information designated by the user is read and stored by a mouse operation in the voice display area 16, and the information is displayed over the voice display. Mouse events occurring in the voice display area are handled as follows.
Button down: Reads and stores the pointer position. The time corresponding to the position is stored as a first time section end. The time corresponding to the position on the screen can be obtained from the pointer position and the time scale, and the time start time currently being displayed, that is, the time corresponding to the left end of the audio display area.
Drag ... Draws a rectangle with the button-down pointer position and the current pointer position on the left and right ends, and displays the range.
Button up: The pointer position is read, and the time corresponding to the position is stored as a second time section end. If there is a request from the audio data pasting process of the whiteboard display subprogram together with the end of the first time section, this is transmitted as a specified time range.
[0018]
Next, the data structure of the program according to the embodiment of the present invention will be described. The whiteboard image data is raster image data of 640 × 480 pixels monochrome 1 bit representing a figure drawn in the whiteboard display area.
The voice link data indicates the relationship between the icon pasted in the whiteboard display area and the voice data. FIG. 5 shows the structure of the voice link data. It is a repetition of xy coordinates (pixel units, integers) 30, 31 on the whiteboard, section audio data file names (numbers) 32, and lines (texts) 33 composed of comments input from the keyboard. The audio data is 8 kHz 16 bit / s PCM data.
[0019]
Next, the overall operation of the present embodiment will be described as a usage example viewed from the user.
1. start
2. A recorder operating the apparatus of the present invention activates an application at the start of a conference. A screen 15 as shown in FIG. 2 is displayed on the screen.
3. Remark
4. Each participant makes a verbal statement as in a normal meeting.
5. Cut out
6. When the recorder determines that the statement should be displayed on the board, the recorder specifies the time section 36 of the statement by dragging the mouse while looking at the volume graph 35 displayed in the audio display area 17.
7. copy
8. The recorder double-clicks an arbitrary position in the whiteboard display area 16 to specify a paste position, and then presses a “V” key to paste a voice icon. According to the prompt displayed thereafter, a comment summarizing the contents of the remark is input from the keyboard 6.
9. Addition Drag the mouse 7 on the whiteboard to write lines connecting icons, other characters, figures, and the like.
10. Playback Participants view and understand the contents of the pasted and retouched whiteboard as the discussion progresses. If there is an item whose comment cannot be recalled exactly by the commenter alone, the recorder double-clicks the icon. Then, the sound of the time section associated with the icon is reproduced from the speaker 11, and the conference participant can remember the exact content.
11. Exit When the meeting ends, the recorder presses the "Q" key to exit the application.
12. After Playback If you want to review the contents of the meeting again after the meeting, start the application and press the "R" key to read the recorded file. The same display as that at the end of the previous conference is reproduced in the whiteboard display area 16. In addition, when a continuation of the previous conference is held, the user can start from this state.
In the present embodiment, the keyboard 6 is used for the copy and paste operation of the voice cutout data. It is also preferable to adopt a configuration in which a general "copy and paste" operation such as selecting "copy" or "paste" from among them can be used.
Also, in the present embodiment, only the paste processing for the voice link icon has been described, but it is also effective to correct the position and comment after pasting as in the case of a general drawing editing program called a draw tool. is there.
[0020]
FIG. 7 is a diagram showing a system configuration according to the second embodiment of the present invention. The same components are denoted by the same reference numerals, and duplicate description will be omitted. FIG. 7 differs from FIG. 1 in that a plurality of (in this case, four) microphones for each participant are connected to the audio input interface 8. In the present embodiment, the microphones 9a to 9d of the participants are used to display a volume graph for each microphone. Instead of using individual section voice data, a pointer to a part of the whole voice data is used. As a result, the file capacity can be saved, and the time range can be easily adjusted later. The sound volume of each of the audio data input from the microphone is measured and displayed, and the result of adding all four audio data is recorded as one audio data.
FIG. 8 is a diagram illustrating a configuration of a program according to the present embodiment. The same components are denoted by the same reference numerals, and duplicate description will be omitted.
FIG. 9 is a diagram illustrating an example of a display screen according to the present embodiment. The audio display area 40 is divided into four areas, and the sound volumes 9a to 9d of the respective microphones are graphically displayed.
Hereinafter, only differences from the first embodiment will be described.
In the audio data pasting process of the whiteboard display subprogram 42, if a time range is specified in the audio display subprogram, the corresponding time range data is read.
Enter a comment from the keyboard and display the icon.
Update link data.
The sound reproduction process reads the start time and duration of the section from the link data of the icon corresponding to the double-click position.
Only the specified section of the recorded whole audio data is reproduced.
Next, the data structure will be described. The voice link data indicates the relationship between the icon pasted in the whiteboard display area and the voice data. FIG. 10 shows the structure of the voice link data. From the xy coordinates (pixel units, integers) 50 and 51 on the whiteboard, the start time (relative time from the recording start time, in seconds) 52 and the duration (seconds) 53 of the section, and the comment 54 input from the keyboard Line (text).
In the present embodiment, compared to the first embodiment, since there is no section audio data, the total capacity of the recorded data can be reduced. Also, by editing the voice link data, it is easy to correct the time section corresponding to each utterance. However, in the first embodiment, each utterance can be reproduced only with the section voice data (without the entire voice data).
[0021]
FIG. 11 is a diagram showing a system configuration according to the third embodiment of the present invention. This embodiment is different from the second embodiment in that a camera 58 is connected via an image input IF 57. This supports the easy specification of the section by measuring and displaying the sound source direction from the phase difference of the audio data input to the microphone array, as in the prior art. Further, by recording the photographed image, the image is reproduced simultaneously with the reproduction of the section sound, so that the contents can be more easily understood. Further, an image in the direction of the sound source is used for the section sound icon, so that the contents of the icon can be easily understood.
FIG. 12 is a diagram showing the appearance of a microphone array and a video camera connected to a recording PC. Since the microphones 9a and 9b and the camera 58 are fixed, the direction of the sound source estimated from the microphone array and the lateral position on the image captured by the camera are measured in advance and corresponded.
[0022]
FIG. 13 is a diagram illustrating a configuration of a display screen according to the present embodiment. A whiteboard area 60 is arranged on the left side, a video display area 61 is arranged above the audio display area 63 on the right side, and a sound source direction display area 62 is arranged below the audio display area 63.
FIG. 14 is a diagram illustrating an example of a display screen according to the present embodiment. The audio display area 63 extends vertically on the right side of the screen, and is divided into an upper video display area 61 and a lower sound source direction display area 62. In the video display area 61 and the sound source direction display area 62, a video image 61 and sound source directions 62a, 62b, and 62c corresponding to the image are displayed as in the related art (Japanese Patent Application No. 2001-45838). . However, in the present invention, the lower end of the area indicates the current time.
FIG. 15 is a diagram illustrating a configuration of a program according to the present embodiment. The same components are denoted by the same reference numerals, and duplicate description will be omitted. Hereinafter, differences from the second embodiment will be described.
The moving image recording subprogram 70 sequentially receives image data from the image input IF 73, compresses the image data, and records the compressed image data on the hard disk 3. The compression method is the well-known Motion JPEG method, and the image size is 320 × 240 pixels, and 1 frame / sec.
The sound display subprogram 71 receives two channels of sound data from the sound recording subprogram 25, estimates the sound source direction, and displays the result in a graph. Further, image data is input from the image recording subprogram 70 and displayed in the image display area 61.
In the audio data pasting process of the whiteboard display subprogram, if a time range is specified in the audio display area, the time range is read, the average value of the sound source direction within that range is obtained, and from the recorded image data, As shown in FIG. 16, a partial image 81 (80 × 120 pixels) in the sound source direction 82 at the section start time is cut out, and the cut out image is displayed at a designated position on the whiteboard.
By this processing, an image in the sound source direction in that section is cut out, so that the speaker's face is automatically displayed in addition to the comment, and a display that is easier to understand can be realized.
In the sound reproduction, the moving image data is reproduced in the image display area together with the sound of the designated section recorded in the link data. An image is reproduced in addition to the sound as the related information of each item on the whiteboard, so that the contents can be more easily understood.
[0023]
FIG. 17 is a diagram showing a system configuration according to the fourth embodiment of the present invention. The same components are denoted by the same reference numerals, and duplicate description will be omitted. FIG. 17 differs from FIG. 7 in that a plurality of devices each having one microphone 86 and one camera 85 combined as shown in FIG. 19 are connected to the audio input interface 8 and the image input interface 57, respectively.
FIG. 18 is a diagram illustrating an example of a display screen according to the present embodiment. In the audio display area 93, images 91a to 91d of the cameras 58a to 58d attached to the microphones are displayed at the left ends of the volume graphs 92a to 92d of the microphones 9a to 9d. In addition, the icon displays the image of the corresponding time as in the third embodiment, but the content is not a clipped image, but an image of a camera attached to the microphone having the maximum audio level in the section. select.
[0024]
【The invention's effect】
As described above, according to the first and fifteenth aspects of the present invention, a participant can share and list the proceedings of the proceedings during the meeting with a simple operation without hindering the progress of the meeting, and can accurately record the proceedings. By creating such a display object as described above, the conference can proceed efficiently.
In the second and sixteenth aspects, audio data in a specified time range is cut out and saved in a file, so that the audio data at that time can be reproduced and confirmed later.
Further, since the displayed volume data is updated every predetermined time, new volume data can be always displayed.
In claims 4 and 18, a microphone for each participant is used, and a volume graph for each microphone is displayed. In addition, since the pointer to a part of the entire audio data is used without using the individual section audio data, the file capacity can be saved, and the time range can be easily adjusted later.
According to the fifth aspect, the volume of the audio data is displayed individually, and the audio data is added to one and stored, so that the display contents can be shared and the storage capacity of the data can be reduced. .
According to the sixth aspect, since two voice data for detecting the direction of the sound source and a means for recording an image of the speaker are provided, the speaker can be accurately confirmed.
According to the seventh aspect, since the direction of the sound source is detected and the image is recorded at the same time, the section of the audio data can be easily specified, and the content can be easily understood.
[0025]
According to the eighth aspect, an image is reproduced in addition to audio as related information of each item on the whiteboard, so that the contents can be more easily understood.
According to the ninth aspect, since the microphone camera is associated with the speaker in one-to-one correspondence, it is not necessary to calculate the sound source direction, and the audio data can be immediately associated with the image.
In the tenth aspect, since the volume graphs of the plurality of microphones and the images are displayed in association with each other, it is easy to search for necessary audio data from the images.
According to the eleventh aspect, since the link data is recorded together with the file, related file data can be quickly searched.
According to the twelfth aspect, at the time of reading the file, an icon associated with the image of the image data and the link data is displayed in the display area, so that operability and convenience are improved.
According to the thirteenth aspect, since a broken line is drawn on the screen by dragging the mouse, compatibility with normal computer operation is generated and operability is improved.
In the fourteenth aspect, since the icon of the audio data to be reproduced is indicated by the pointer, the desired audio data can be reproduced by a simple operation.
According to the nineteenth aspect, by programming the audio recording method of the present invention in accordance with an OS controllable by a computer, the computer having the OS can be controlled by the same processing method.
According to the twentieth aspect, by recording the program on a recording medium in a computer-readable format, the program can be operated anywhere by carrying the recording medium.
[Brief description of the drawings]
FIG. 1 is a diagram showing a system configuration according to a first embodiment of the present invention.
FIG. 2 is a diagram showing a display screen configuration of a program according to the first embodiment of the present invention.
FIG. 3 is a diagram showing a configuration of a program according to the first embodiment of the present invention.
FIG. 4 is a flowchart of a subprogram of the present invention.
FIG. 5 is a diagram showing a structure of voice link data of the present invention.
FIG. 6 is a diagram showing an example of a display screen according to the first embodiment of the present invention.
FIG. 7 is a diagram illustrating a system configuration according to a second embodiment of the present invention.
FIG. 8 is a diagram showing a configuration of a program according to a second embodiment of the present invention.
FIG. 9 is a diagram showing an example of a display screen according to the second embodiment of the present invention.
FIG. 10 is a diagram showing a structure of voice link data of the present invention.
FIG. 11 is a diagram showing a system configuration according to a third embodiment of the present invention.
FIG. 12 is a diagram showing the appearance of a microphone array and a video camera connected to a recording PC of the present invention.
FIG. 13 is a diagram illustrating a configuration of a display screen according to a third embodiment of the present invention.
FIG. 14 is a diagram showing an example of a display screen according to the third embodiment of the present invention.
FIG. 15 is a diagram showing a configuration of a program according to a third embodiment of the present invention.
FIG. 16 is a diagram showing a clipped image according to the present invention.
FIG. 17 is a diagram illustrating a system configuration according to a fourth embodiment of the present invention.
FIG. 18 is a diagram illustrating an example of a display screen according to the fourth embodiment of the present invention.
FIG. 19 is an external view of a microphone camera of the present invention.
[Explanation of symbols]
1 CPU, 2 RAM, 3 hard disk, 4 monitors, 5 system bus, 6 keyboard, 7 mouse, 8 audio input interface, 9 microphone, 10 audio output interface, 11 speakers

Claims (20)

音声入力インターフェースを介して入力された音声データを記録する音声データ記録手段と、該音声データ記録手段により記録された音声データをモニタ上に図形表示する音声表示手段と、ユーザ入力インターフェースを介してポインティングデバイスによる操作若しくはキーボード操作により表示領域に画像を表示する画像表示手段と、を備え、
前記ユーザ入力インターフェースにより入力された入力イベントに基づいて、ファイル記録処理、ファイル入力処理、音声データ貼り付け処理、図形描画処理若しくは音声再生処理の何れかの処理を行うことを特徴とする音声記録装置。
Voice data recording means for recording voice data input through a voice input interface; voice display means for graphically displaying voice data recorded by the voice data recording means on a monitor; and pointing via a user input interface Image display means for displaying an image in a display area by an operation by a device or a keyboard operation,
An audio recording apparatus for performing any one of file recording processing, file input processing, audio data pasting processing, graphic drawing processing, and audio reproduction processing based on an input event input by the user input interface. .
前記音声データ貼り付け処理は、前記音声表示手段によりモニタ上に表示された音声データに時間範囲が指定されているか否かを判断し、該時間範囲が指定されていた場合、該時間範囲に対応する音声データを切り出して音声データを生成してファイルに保存することを特徴とする請求項1に記載の音声記録装置。The audio data pasting process determines whether or not a time range is specified for the audio data displayed on the monitor by the audio display means. The audio recording apparatus according to claim 1, wherein audio data to be output is cut out, audio data is generated, and the generated audio data is stored in a file. 前記モニタ上に表示された音声データは、各時刻における音量データであり、該音量データは所定の時間毎に更新されることを特徴とする請求項2に記載の音声記録装置。3. The audio recording apparatus according to claim 2, wherein the audio data displayed on the monitor is volume data at each time, and the volume data is updated every predetermined time. 複数の音声入力インターフェースを介して入力された各音声データを記録する音声データ記録手段と、該音声データ記録手段により記録された音声データをモニタ上に図形表示する音声表示手段と、ユーザ入力インターフェースを介してポインティングデバイスによる操作若しくはキーボード操作により表示領域に画像を表示する画像表示手段と、を備え、
前記ユーザ入力インターフェースにより入力された入力イベントに基づいて、ファイル記録処理、ファイル入力処理、音声データ貼り付け処理、図形描画処理若しくは音声再生処理の何れかの処理を行うことを特徴とする音声記録装置。
Audio data recording means for recording each audio data input through a plurality of audio input interfaces; audio display means for graphically displaying the audio data recorded by the audio data recording means on a monitor; and a user input interface. Image display means for displaying an image in a display area by an operation with a pointing device or a keyboard operation via the
An audio recording apparatus for performing any one of file recording processing, file input processing, audio data pasting processing, graphic drawing processing, and audio reproduction processing based on an input event input by the user input interface. .
前記複数の音声入力インターフェースを介して入力される音声データの音量を前記音声表示手段により計測表示し、且つ前記複数の音声データを加算して一つの音声データとして記録することを特徴とする請求項4に記載の音声記録装置。The volume of audio data input through the plurality of audio input interfaces is measured and displayed by the audio display means, and the plurality of audio data are added and recorded as one audio data. 5. The voice recording device according to 4. 2つの音声入力インターフェースを介して入力された各音声データを記録する音声データ記録手段と、該音声データ記録手段により記録された音声データをモニタ上に図形表示する音声表示手段と、ユーザ入力インターフェースを介してポインティングデバイスによる操作若しくはキーボード操作により表示領域に画像を表示する画像表示手段と、画像入力インターフェースを介して入力された画像を記録する画像データ記録手段と、を備え、
前記ユーザ入力インターフェースにより入力された入力イベントに基づいて、ファイル記録処理、ファイル入力処理、音声データ貼り付け処理、図形描画処理若しくは音声再生処理の何れかの処理を行うことを特徴とする音声記録装置。
Audio data recording means for recording each audio data input via the two audio input interfaces; audio display means for graphically displaying the audio data recorded by the audio data recording means on a monitor; and a user input interface. Image display means for displaying an image in a display area by an operation of a pointing device or a keyboard operation through, and image data recording means for recording an image input via an image input interface,
An audio recording apparatus for performing any one of file recording processing, file input processing, audio data pasting processing, graphic drawing processing, and audio reproduction processing based on an input event input by the user input interface. .
前記2つの音声入力インターフェースを介して入力される音声データの位相差により該音声データの音源を計測する音源計測手段を更に備え、
前記音源計測手段は、2チャンネルの音声データから音源方向を推定して結果を前記表示領域にグラフ表示すると共に、前記撮像装置により撮影した画像を同一画面に表示することを特徴とする請求項6に記載の音声記録装置。
Sound source measuring means for measuring a sound source of the sound data based on a phase difference between the sound data input through the two sound input interfaces,
7. The sound source measuring unit estimates a sound source direction from two-channel audio data, displays the result in a graph on the display area, and displays an image captured by the imaging device on the same screen. The audio recording device according to claim 1.
前記音声データ貼り付け処理は、前記音声表示手段によりモニタ上に表示された音声データに時間範囲が指定されているか否かを判断し、該時間範囲が指定されていた場合、該時間範囲内の音源方向の平均値を求め、記録された画像データから前記時間範囲の開始時刻に対応する音源方向の部分画像を切り出して表示領域の所定の位置に表示することを特徴とする請求項6又は7に記載の音声記録装置。The audio data pasting process determines whether or not a time range has been specified for the audio data displayed on the monitor by the audio display means, and if the time range has been specified, 8. The method according to claim 6, wherein an average value in the sound source direction is obtained, a partial image in the sound source direction corresponding to the start time of the time range is cut out from the recorded image data, and displayed at a predetermined position in a display area. The audio recording device according to claim 1. 複数の音声入力インターフェースを介して入力された各音声データを記録する音声データ記録手段と、該音声データ記録手段により記録された音声データをモニタ上に図形表示する音声表示手段と、ユーザ入力インターフェースを介してポインティングデバイスによる操作若しくはキーボード操作により表示領域に画像を表示する画像表示手段と、複数の画像入力インターフェースを介して入力された画像を記録する画像データ記録手段と、を備え、
前記ユーザ入力インターフェースにより入力された入力イベントに基づいて、ファイル記録処理、ファイル入力処理、音声データ貼り付け処理、図形描画処理若しくは音声再生処理の何れかの処理を行うことを特徴とする音声記録装置。
Audio data recording means for recording each audio data input through a plurality of audio input interfaces; audio display means for graphically displaying the audio data recorded by the audio data recording means on a monitor; and a user input interface. Image display means for displaying an image in a display area by an operation with a pointing device or a keyboard operation through, and image data recording means for recording an image input through a plurality of image input interfaces,
An audio recording apparatus for performing any one of file recording processing, file input processing, audio data pasting processing, graphic drawing processing, and audio reproduction processing based on an input event input by the user input interface. .
前記音声表示手段は、前記各音声データの音量グラフと該音声データに対応する画像データを同一画面上に表示することを特徴とする請求項9に記載の音声記録装置。The audio recording apparatus according to claim 9, wherein the audio display means displays a volume graph of each of the audio data and image data corresponding to the audio data on the same screen. 前記ファイル記録処理は、前記表示領域に描画された画像データ及び前記表示領域に貼り付けられたアイコンと前記音声データの関連を表すリンクデータを夫々与えられた名前のファイルに記録することを特徴とする請求項1、4、6及び9に記載の音声記録装置。The file recording process is characterized in that image data drawn in the display area and link data representing an association between the icon pasted in the display area and the audio data are recorded in files with given names. 10. The audio recording device according to claim 1, 4, 6, or 9, wherein: 前記ファイル入力処理は、前記画像データ及びリンクデータを夫々決められた名前のファイルから読み込み、前記画像データの画像及びリンクデータから関連付けられたアイコンを前記表示領域に表示することを特徴とする請求項1、4、6及び9に記載の音声記録装置。The file input process reads the image data and the link data from a file having a predetermined name, and displays an icon associated with the image of the image data and the link data in the display area. 10. The audio recording device according to 1, 4, 6, or 9. 前記図形描画処理は、前記表示領域で生じるマウスドラッグにより画面に折線分を描画することを特徴とする請求項1、4、6及び9に記載の音声記録装置。10. The audio recording apparatus according to claim 1, wherein the graphic drawing process draws a broken line on a screen by dragging a mouse generated in the display area. 前記音声再生処理は、前記リンクデータから過去に貼り付けられた一連の音声アイコンの位置を読み込み、ポインタ位置と一致した音声アイコンのファイルを読み込んで音声を再生することを特徴とする請求項1、4、6及び9に記載の音声記録装置。2. The audio playback process according to claim 1, wherein the voice playback process reads a position of a series of voice icons pasted from the link data, reads a file of the voice icon corresponding to the pointer position, and plays back the voice. 10. The audio recording device according to 4, 6, and 9. 音声入力インターフェースを介して入力された音声データを記録する音声データ記録ステップと、該音声データ記録ステップにより記録された音声データをモニタ上に図形表示する音声表示ステップと、ユーザ入力インターフェースを介してポインティングデバイスによる操作若しくはキーボード操作により表示領域に画像を表示する画像表示ステップと、を備え、
前記ユーザ入力インターフェースにより入力された入力イベントに基づいて、ファイル記録処理、ファイル入力処理、音声データ貼り付け処理、図形描画処理若しくは音声再生処理の何れかの処理を行うことを特徴とする音声記録方法。
An audio data recording step of recording audio data input via an audio input interface, an audio display step of graphically displaying the audio data recorded by the audio data recording step on a monitor, and pointing via a user input interface Image display step of displaying an image in a display area by operation by a device or keyboard operation,
An audio recording method for performing any one of file recording processing, file input processing, audio data pasting processing, graphic drawing processing, and audio reproduction processing based on an input event input by the user input interface. .
前記ファイル記録処理は、前記表示領域に描画された画像データ及び前記表示領域に貼り付けられたアイコンと前記音声データの関連を表すリンクデータを夫々与えられた名前のファイルに記録することを特徴とする請求項15に記載の音声記録方法。The file recording process is characterized in that image data drawn in the display area and link data representing an association between the icon pasted in the display area and the audio data are recorded in files with given names. The audio recording method according to claim 15, wherein 前記ファイル入力処理は、前記画像データ及びリンクデータを夫々決められた名前のファイルから読み込み、前記画像データの画像及びリンクデータから関連付けられたアイコンを前記表示領域に表示することを特徴とする請求項15に記載の音声記録方法。The file input process reads the image data and the link data from a file having a predetermined name, and displays an icon associated with the image of the image data and the link data in the display area. 16. The audio recording method according to item 15. 前記図形描画処理は、前記表示領域で生じるマウスドラッグにより画面に折線分を描画することを特徴とする請求項15に記載の音声記録方法。16. The audio recording method according to claim 15, wherein the graphic drawing process draws a polygonal line on a screen by dragging a mouse generated in the display area. 請求項15乃至18の何れか一項に記載の音声記録方法をコンピュータが制御可能にプログラミングしたことを特徴とする音声記録プログラム。An audio recording program, wherein the audio recording method according to any one of claims 15 to 18 is programmed to be controllable by a computer. 請求項19に記載の音声記録プログラムをコンピュータが読み取り可能な形式で記録したことを特徴とする記録媒体。20. A recording medium, wherein the audio recording program according to claim 19 is recorded in a computer-readable format.
JP2002354339A 2002-12-05 2002-12-05 Audio recording apparatus, audio recording method, audio recording program, and recording medium Expired - Fee Related JP4270854B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002354339A JP4270854B2 (en) 2002-12-05 2002-12-05 Audio recording apparatus, audio recording method, audio recording program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002354339A JP4270854B2 (en) 2002-12-05 2002-12-05 Audio recording apparatus, audio recording method, audio recording program, and recording medium

Publications (2)

Publication Number Publication Date
JP2004185514A true JP2004185514A (en) 2004-07-02
JP4270854B2 JP4270854B2 (en) 2009-06-03

Family

ID=32755379

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002354339A Expired - Fee Related JP4270854B2 (en) 2002-12-05 2002-12-05 Audio recording apparatus, audio recording method, audio recording program, and recording medium

Country Status (1)

Country Link
JP (1) JP4270854B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008197650A (en) * 2007-02-14 2008-08-28 Honda Motor Co Ltd Sound data recording and reproducing device and sound data recording and reproducing method
US9542943B2 (en) 2013-09-26 2017-01-10 Nec Corporation Minutes making assistance device, electronic conference device, electronic conference system, minutes making assistance method, and storage medium storing minutes making assistance program
JP2020135725A (en) * 2019-02-25 2020-08-31 株式会社ベネッセコーポレーション Information terminal device and program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008197650A (en) * 2007-02-14 2008-08-28 Honda Motor Co Ltd Sound data recording and reproducing device and sound data recording and reproducing method
US9542943B2 (en) 2013-09-26 2017-01-10 Nec Corporation Minutes making assistance device, electronic conference device, electronic conference system, minutes making assistance method, and storage medium storing minutes making assistance program
JP2020135725A (en) * 2019-02-25 2020-08-31 株式会社ベネッセコーポレーション Information terminal device and program
JP7344649B2 (en) 2019-02-25 2023-09-14 株式会社ベネッセコーポレーション Information terminal equipment and programs

Also Published As

Publication number Publication date
JP4270854B2 (en) 2009-06-03

Similar Documents

Publication Publication Date Title
JP4439462B2 (en) Information presenting method, information presenting apparatus, and information presenting program
US5572728A (en) Conference multimedia summary support system and method
EP0774719B1 (en) A multimedia based reporting system with recording and playback of dynamic annotation
US5717879A (en) System for the capture and replay of temporal data representing collaborative activities
US6304283B1 (en) Conference apparatus and method for realistically reproducing image data and shared board data
US6332147B1 (en) Computer controlled display system using a graphical replay device to control playback of temporal data representing collaborative activities
US5786814A (en) Computer controlled display system activities using correlated graphical and timeline interfaces for controlling replay of temporal data representing collaborative activities
JP2008084110A (en) Information display device, information display method and information display program
US7970263B1 (en) Seamless integration of video capture in demonstration applications
JP3266959B2 (en) Electronic conference system
JP2003069938A (en) Presentation generation execution system and method
JP6852478B2 (en) Communication terminal, communication program and communication method
CN101334990B (en) Information display apparatus and information display method
JP2005252574A (en) Device and method for creating multimedia content, program for making computer execute method, and multimedia content creating system
JP4270854B2 (en) Audio recording apparatus, audio recording method, audio recording program, and recording medium
JP2007193426A (en) Information processor, operation log collection method, and operation log collection program
US20060184881A1 (en) Content-producing device, output device and computer-readable medium
JP2008090526A (en) Conference information storage device, system, conference information display device, and program
JP2953730B2 (en) Information equipment
JP4780128B2 (en) Slide playback device, slide playback system, and slide playback program
JP2880254B2 (en) Video and audio editing device
JP4967983B2 (en) Information recording apparatus and program
JPH11177928A (en) Information recording and reproducing device
JP3552338B2 (en) Complex information processing device
JP2005222431A (en) Cooperative work system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080916

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090210

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090224

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120306

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130306

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140306

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees