JP2011165056A

JP2011165056A - 情報処理装置及びプログラム

Info

Publication number: JP2011165056A
Application number: JP2010028968A
Authority: JP
Inventors: Takeyuki Tominaga; 武之冨永
Original assignee: NEC Casio Mobile Communications Ltd
Current assignee: NEC Casio Mobile Communications Ltd
Priority date: 2010-02-12
Filing date: 2010-02-12
Publication date: 2011-08-25
Anticipated expiration: 2030-02-12
Also published as: JP5534413B2

Abstract

【課題】使い勝手をより向上させることができる情報処理装置を提供する。
【解決手段】音声入力部１は、入力された音声に対応する音声信号に位相差が生じるように、その数及び配置が決定された複数のマイクロホンを用いて周囲の音声を入力する。音源定位分離部２は、複数のマイクロホンにそれぞれ入力された音声に対応する音声信号の位相差に基づいてその音声信号に対応する音声が発せられた音源の位置を特定し、特定された音源の位置に基づいて音声信号から音声情報を音源ごとに分離抽出する。音声解析部３は、音源定位分離部２によって分離抽出された音声情報を解析して、音声情報に対応する文章情報を作成し、作成された文章情報を音源に対応付ける。記憶部４は、音声解析部３によって作成された文章情報を蓄積する。
【選択図】図１

Description

本発明は、情報処理装置及びコンピュータに実行させるプログラムに関する。

会議中の音声を録音し、その音声を再生しながら議事録を作成することが一般的に行われている。しかしながら、この方法では、録音された音声を注意深く聞き取る必要があるため、議事録を作成する者の負担は大きい。音声認識により、収集された音声から発言内容を認識して議事録を自動的に作成することができれば、議事録を作成する者の負担は、大きく軽減される。

議事録には、発言と、その発言を行った発言者とを対応づけて記録するのが望ましい。そこで、複数の参加者各々の音声を含む発言者識別情報を予め保持していき、音声認識により、発言者識別情報に含まれる音声情報に基づいて認識された発言内容に対応する発言者を特定し、発言内容を発言者と対応付けた上で、議事録を作成する議事録情報生成システム等が提案されている（例えば、特許文献１参照）。

特開２００９−８６２０７号公報

しかしながら、上記特許文献１に開示された議事録情報生成システム等では、発言者を特定するために、音声データを含む発言者識別情報の事前登録が必要となる。このような事前登録は、ユーザにとっては非常に煩わしいものであり、このことが使い勝手の向上を妨げている。

本発明は、上記実情に鑑みてなされたものであり、使い勝手をさらに向上させることができる情報処理装置及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明の第１の観点に係る情報処理装置は、
入力された音声に対応する音声信号に位相差が生じるように、その数及び配置が決定された複数のマイクロホンを用いて周囲の音声を入力する音声入力部と、
前記複数のマイクロホンにそれぞれ入力された音声に対応する音声信号の位相差に基づいてその音声信号に対応する音声が発せられた音源の位置を特定し、特定された前記音源の位置に基づいて、前記音声信号から音声情報を前記音源ごとに分離抽出する音源定位分離部と、
前記音源定位分離部によって分離抽出された音声情報を解析して、前記音声情報を文章情報に変換し、変換された前記文章情報を前記音源に対応付ける音声解析部と、
前記音声解析部によって変換され、前記音源と対応付けされた前記文章情報を蓄積する文章情報記憶部と、
前記文章情報記憶部に蓄積された前記文章情報を表示する表示部と、
前記音声入力部、前記音源定位分離部、前記音声解析部、前記文章情報記憶部及び前記表示部を制御する制御部と、
を備える。

この場合、自機の周囲を区切ることにより規定される複数の領域各々の範囲に関するエリア情報を記憶するエリア情報記憶部をさらに備え、
前記制御部は、
前記音源定位分離部に、
特定された前記音源の位置が同一の前記領域に位置する前記音声情報を、同一の前記音源からのものとして、前記音声信号から分離抽出させ、
前記音声解析部に、
前記音声情報から変換された文章情報を、前記音源が位置する前記領域に対応付けさせ、
前記文章情報記憶部に、
前記領域と対応付けされた前記文章情報を蓄積させる、
こととしてもよい。

この場合、前記制御部は、
前記複数の領域の画像を前記表示部に表示させる、
こととしてもよい。

この場合、前記制御部は、
音声が発せられた前記音源の位置に、その音声が発せられた順番又は前記音声に対応する前記文章情報を、前記複数の領域の画像に重ね合わせて前記表示部に表示させる、
こととしてもよい。

この場合、前記制御部は、
前記表示部に表示される前記文章情報が重なり合う場合、古い方の前記文章情報の表示を削除又は移動させる、
こととしてもよい。

また、前記制御部は、
最新の前記文章情報に係る前記領域を前記表示部に強調表示させる、
こととしてもよい。

また、前記制御部は、
操作入力に従って、前記各領域の範囲を調整し、
前記エリア情報記憶部に格納される前記エリア情報を更新し、
前記表示部に、調整後の前記各領域の範囲を表示させる、
こととしてもよい。

また、前記複数の領域各々は、
自機を基準として、水平面内の全方位を任意の角度で区切ることにより規定されている、
こととしてもよい。

また、自機の位置情報を検出する位置情報検出部をさらに備え、
前記制御部は、
前記音声定位分離部に、
前記位置情報検出部によって検出された前記位置情報に基づいて、特定された前記音源の位置を補正させ、補正された前記音源の位置に基づいて前記音声信号から音声情報を前記音源ごとに分離抽出させる、
こととしてもよい。

また、計時を行い、日時情報を作成する時計部をさらに備え、
前記制御部は、
日時情報及び参加者情報を含むイベントのスケジュールに関する情報としてのスケジュール情報から、前記時計部で作成された前記日時情報に対応する前記参加者情報を抽出して前記表示部に表示させ、
操作入力に従って、表示された前記参加者情報に係る参加者と前記音源との対応付けを行い、
前記文章情報記憶部に蓄積された前記文章情報と前記参加者との対応付けを行い、
前記表示部に、前記参加者と対応付けされた前記文書情報を表示させる、
こととしてもよい。

この場合、前記スケジュール情報を記憶するスケジュール記憶部をさらに備え、
前記制御部は、
前記スケジュール記憶部に記憶された前記スケジュール情報から前記表示部に表示させる前記参加者情報を抽出する、
こととしてもよい。

また、外部機器とデータ通信可能な通信部をさらに備え、
前記制御部は、
前記通信部を介して、外部記憶媒体から取得した前記スケジュール情報から前記表示部に表示させる前記参加者情報を抽出する、
こととしてもよい。

また、前記制御部は、
操作入力に従って、前記参加者と前記音源との対応付けが行われず、前記時計部によってタイムアウト時間が計時されると、前記文章情報と前記参加者との対応付けを終了する、
こととしてもよい。

また、前記制御部は、
前記複数の領域の画像を前記表示部に表示させ、
音声が発せられた前記音源の位置に、前記音源に対応付けされた前記参加者の識別情報を、前記複数の領域の画像に重ね合わせて前記表示部に表示させる、
こととしてもよい。

また、前記スケジュール情報を記憶するスケジュール記憶部と、
外部機器とデータ通信可能な通信部と、
をさらに備え、
前記制御部は、
前記通信部を介して、外部記憶媒体から取得した前記スケジュール情報と、前記スケジュール記憶部に記憶された前記スケジュール情報とが同一となるように、
前記外部記憶媒体から取得した前記スケジュール情報が更新された場合に、更新された前記スケジュール情報を用いて前記スケジュール記憶部に記憶された前記スケジュール情報を更新し、
前記スケジュール記憶部に記憶された前記スケジュール情報が更新された場合に、更新された前記スケジュール情報を用いて前記外部記憶媒体の前記スケジュール情報を更新する、
こととしてもよい。

また、前記音源定位分離部によって分離抽出された前記音声情報を記憶する音声情報記憶部と、
前記音声情報記憶部に記憶された前記音声情報に基づく音声を再生する音声再生部と、
をさらに備え、
前記制御部は、
前記音声再生部による再生が行われる間、前記表示部に、前記文章情報記憶部に蓄積された前記文章情報を表示させるとともに、再生中の前記音声情報に係る前記文章情報を強調表示させる、
こととしてもよい。

この場合、前記制御部は、
前記表示部に、前記文章情報とともに、議事が行われた場所の見取り図を表示させ、表示された前記見取り図上の前記音源の位置に、前記音源に対応付けされた前記参加者の識別情報を表示させるとともに、
再生中の前記音声情報に係る参加者の識別情報を強調表示させる、
こととしてもよい。

本発明の第２の観点に係るプログラムは、
コンピュータを、
入力された音声に対応する音声信号に位相差が生じるように、その数及び配置が決定された複数のマイクロホン各々に入力された音声に対応する音声信号の位相差に基づいてその音声信号に対応する音声が発せられた音源の位置を特定し、特定された前記音源の位置に基づいて前記音声信号から音声情報を前記音源ごとに分離抽出する音源定位分離手段と、
前記音源定位分離手段によって分離抽出された音声情報を解析して、前記音声情報を文章情報に変換し、変換された前記文章情報を前記音源に対応付ける音声解析手段と、
前記音声解析手段によって変換され、前記音源と対応付けされた前記文章情報を蓄積する文章情報記憶手段と、
前記文章情報記憶手段に蓄積された前記文章情報を表示する表示手段と、
前記音源定位分離手段、前記音声解析手段、前記文章情報記憶手段及び前記表示手段を制御する制御手段と、
して機能させる。

本発明によれば、複数のマイクロホンにそれぞれ入力された音声に対応する音声信号の位相差に基づいて特定された音源の位置に基づいて、同じ位置から発生された音声を同一人物、すなわち同一の音源からの音声として扱う。このようにすれば、音声データを含む発言者識別情報を予め用意することなく、発言内容を発言者に対応づけた議事録を自動的に作成することができるので、使い勝手がさらに向上する。

本発明の実施形態１に係る情報処理装置の構成を示すブロック図である。図２（Ａ）は、情報処理装置の周囲のエリアの一例である。図２（Ｂ）は、記憶部に記憶されるエリア情報の一例である。解析文章情報の一例である。図１の情報処理装置における音源定位・音声分離処理のフローチャートである。図１の情報処理装置における解析・文章作成処理のフローチャートである。会議室で行われている会議の様子の一例である。音声記録中に表示部に表示される画像の一例である。表示される議事録の一例である。本発明の実施形態２に係る情報処理装置の構成を示すブロック図である。図９の情報処理装置における音源定位・音声分離処理のフローチャートである。録音中に情報処理装置が回転した様子を示す図である。情報処理装置の回転に伴って変化した表示部の画像の一例を示す図である。本発明の実施形態３に係る情報処理装置の構成を示すブロック図である。スケジュール情報の一例を示す図である。音源を発言者に対応させる場合の解析・文章作成処理のフローチャートである。音源を発言者に対応させる際の表示画像の一例を示す図である。録音された音声を再生する際の表示画像の一例を示す図である。

以下、本発明の実施形態について、図面を参照して詳細に説明する。なお、全図面において、同一の構成要素については同一の符号が用いられる。

（実施形態１）
まず、本発明の実施形態１について説明する。

本実施形態に係る情報処理装置１００は、携帯電話に組み込まれている。図１に示すように、情報処理装置１００は、音声入力部１、音源定位分離部２、音声解析部３、記憶部４、操作入力部５、表示部６及び制御部７を備える。

音声入力部１は、複数のマイクロホンを備える。音声入力部１には、複数のマイクロホンを用いて周囲の音声を入力する。各マイクロホンは、入力された音声に対応する音声信号をそれぞれ出力する。複数のマイクロホンは、それぞれに入力された音声信号に位相差が生じ、その位相差に基づいて、情報処理装置１００に対する音源の位置や方位を十分に特定できるように、その数と配置が決められている。

音源定位分離部２は、音声入力部１が備える複数のマイクロホンにそれぞれ入力された音声信号の位相差に基づいて、その音声信号に対応する音声が発せられた音源（すなわちその音声に係る発言を行った参加者）の位置を特定し、音源の位置を定める（定位する）。

音源定位分離部２は、特定された音源の位置に基づいて、複数のマイクロホン各々で入力された音声信号から、目的とする音（以下、「目的音」という）、すなわち音声情報を、音源ごとに分離抽出する。音源定位分離部２は、音源が移動した場合でも、その音源からの音声を分離抽出することができる。このような音源定位分離部２における音源の定位機能及び音声の分離抽出機能は、例えば、特開２００８−２７８４３３号公報にすでに開示されている。

音声解析部３は、音源定位分離部２によって分離抽出された音声情報を解析する。音声解析部３は、音声情報を文章情報に変換する。音声解析部３は、音声の周波数、速度、アクセントやイントネーションなどの特徴を解析し、予め記憶された単語辞書情報を参照しつつ、音声情報を文章情報に変換する。音声解析部３は、変換された文章情報を、音源に対応づける。

記憶部４は、各種情報を記憶する。記憶部４は、ＨＤＤ（ハードディスクドライブ）やＳＤメモリのような大容量のメモリである。記憶部４は、情報処理装置１００に内蔵されたメモリであってもよいし、外部メモリであってもよい。

記憶部４は、エリア情報８、音声情報９及び解析文章情報１０を記憶する。すなわち、記憶部４が、エリア情報記憶部、音声情報記憶部及び文章情報記憶部に対応する。

エリア情報８は、自機の周囲を区切ることにより規定される複数のエリア各々の範囲に関する情報である。本実施形態では、複数のエリアは、情報処理装置１００を基準として、水平面内の全方位を、任意の角度で区切ることにより規定されている。このようにすれば、音声の方位だけで音源を特定することができる。例えば、図２（Ａ）に示すように、情報処理装置（携帯電話）１００の全方位を４５度間隔の８つのエリアＡ乃至Ｈに区切る場合には、エリア情報８として、図２（Ｂ）に示すような情報が記憶される。図２（Ｂ）に示すように、エリア情報８では、各エリアを区切る角度によって規定される範囲１１と、そのエリアに対応するエリア名１２とが対応付けられて登録される。エリア情報８は、音源定位分離部２が、音声情報を分離抽出する際、音声解析部３が、文章情報を音源に対応づける際に参照される。

図１に戻り、音声情報９は、音源定位分離部２によって分離抽出された音声情報である。音源定位分離部２は、分離抽出した音声情報を、音源に対応付けて、音声情報９として、記憶部４に記憶する。

解析文章情報１０は、音声解析部３によって作成された文章情報を含む。解析文章情報１０には、文章情報だけでなく、その文章情報に係る音声を発した音源の情報が、付帯情報として含まれている。音声解析部３は、文章情報を作成した後、作成した文章情報に、音源の情報を対応付けして、解析文章情報１０として記憶部４に記憶する。

図３には、解析文章情報１０の一例を示すテーブルが示されている。図３に示すように、解析文章情報１０には、文章情報１３が時系列で（すなわち順番に）蓄積される。この文章情報１３には、音声が入力された順番を示す番号（音声Ｎｏ．）１４が付されている。その番号１４の順に文章情報１３が蓄積されている。さらに、各文章情報１３には、音源の定位情報として、音源定位１５及びエリア名１６が対応付けられて記憶されている。

図１に戻り、操作入力部５は、ボタンやタッチパネル等を有し、それらを介してユーザの操作入力を受け付ける。なお、操作入力部５は、ボタンやタッチパネルだけでなく、情報処理装置１００を手に持ったユーザにより情報処理装置１００に加えられた振動や情報処理装置１００の傾きや、ユーザの音声入力を受け付けるものであってもよい。

表示部６は、記憶部４に蓄積された解析文章情報１０の少なくとも一部を表示する。表示部６は、画像を表示する表示用パネルである。表示用パネルとしては、有機ＥＬ（Electro-Luminescence）や液晶パネルを用いることができる。表示部６が、タッチパネル機能を有するようにして、操作入力部５の一部を兼ねるようにしてもよい。

制御部７は、上記構成要素、すなわち音声入力部１、音源定位分離部２、音声解析部３、記憶部４及び表示部６を統括制御する。制御部７は、情報処理を行うプロセッサを備える。このプロセッサがプログラムを実行することにより、上記制御が実現される。なお、音源定位分離部２及び音声解析部３も、プロセッサを備え、このプロセッサがプログラムを実行することにより、上記機能を実現するように構成してもよい。

次に、本実施形態に係る情報処理装置１００の動作について説明する。図４及び図５のフローチャートには、情報処理装置１００の処理手順、すなわち制御部７のプロセッサによって実行されるプログラムが示されている。

図４のフローチャートには、入力された音声に基づいて、音源の位置を特定し、音声情報９を音源ごとに分離抽出する音源定位・音声分離処理が示されている。また、図５には、音源ごとに抽出分離された音声情報９を解析し、解析文章情報１０を作成する解析・文章作成処理が示されている。

（音源定位・音声分離処理）
まず、音源定位・音声分離処理について説明する。

操作入力部５が処理開始の操作入力を受け付けると、制御部７は、音源定位・音声分離処理を開始する。図４に示すように、まず、制御部７は、音声入力部１に音声が入力されているか否かを判定する（ステップＳ１）。

音声入力部１への音声の入力が有る場合（ステップＳ１；Ｙｅｓ）、制御部７は、音源定位分離部２に、音声入力部１から出力される音声信号（複数のマイクロホン各々から出力される音声信号）の位相差に基づいて、音源の位置を特定（定位）させ、音源ごとに音声情報を分離抽出させる（ステップＳ２）。ここで、音源定位分離部２は、特定された音源の位置が同一のエリア（図２（Ａ）及び図２（Ｂ）参照）に位置する音声情報を、同一の音源からのものとして、音声信号から分離抽出する。

続いて、制御部７は、音源定位分離部２によって分離抽出した音声情報を、音源ごとに、音声情報９として、記憶部４に記憶させる（ステップＳ３）。その後、制御部７は、ステップＳ１に戻る。

このように、制御部７は、音声入力部１への音声の入力が停止しない限り（ステップＳ１；Ｎｏ）、音声入力部１への音声の入力の有無の判定（ステップＳ１）、音源定位分離部２による音源定位・分離抽出（ステップＳ２）、分離抽出した音声情報９の記憶（ステップＳ３）を繰り返す。これにより、記憶部４に音声情報９が蓄積される。

音声入力部１への音声の入力がなくなると（ステップＳ１：Ｎｏ）、制御部７は、音源定位・音声分離処理を終了する。

（解析・文章作成処理）
続いて、解析・文章作成処理について説明する。操作入力部５が処理開始の操作入力を受け付けると、制御部７は、解析・文章作成処理を開始する。図５に示すように、まず、制御部７は、記憶部４に蓄積された音声情報９の中に、まだ解析していない（未解析の）音声情報９が有るか否かを判定する（ステップＳ１１）。

未解析の音声情報９が有る場合（ステップＳ１１；Ｙｅｓ）、制御部７は、音声解析部３に、記憶部４からその音声情報９を読み出させる（ステップＳ１２）。続いて、制御部７は、音声解析部３に、読み出した音声情報９を解析させ、音声情報９を文章情報１３に変換させる（ステップＳ１３）。続いて、制御部７は、音声解析部３に、文章情報１３を、エリア情報８と対応づけて解析文章情報１０を作成させる（ステップＳ１４）。これにより、文章情報１３は、音源が位置するエリアに対応付けられるようになる。

続いて、制御部７は、音声解析部３に、解析文章情報１０を記憶部４に記憶させる（ステップＳ１５）。これにより、エリアと対応付けられた文章情報１３を含む解析文章情報１０が、記憶部４に蓄積される。

続いて、制御部７は、解析文章情報１０の少なくとも一部（各エリアと対応付けされた文章情報１３を含む）を、記憶部４から読み出して、議事録として表示部６に表示させる（ステップＳ１６）。その後、制御部７は、ステップＳ１１に戻る。

このように、制御部７は、未解析の音声情報９が有る限り（ステップＳ１１；Ｙｅｓ）、音声解析部３による音声情報９の読み出し（ステップＳ１２）、音声解析部３による音声解析及び文章情報１３への変換（ステップＳ１３）、音声解析部３による解析文章情報１０の作成（ステップＳ１４）、解析文章情報１０の記憶（ステップＳ１５）、議事録（解析文章情報１０の少なくとも一部）の表示（ステップＳ１６）を繰り返す。

未解析の音声情報９がなくなると（ステップＳ１１；Ｎｏ）、制御部７は、解析・文章作成処理を終了する。

なお、図４に示す音源定位・音声分離処理と、図５に示す解析・文章作成処理とは、この順に行うようにしてもよいし、同時並列に行うようにしてもよい。

次に、図６乃至図９を参照して、本実施形態にかかる情報処理装置１００を用いた議事録の作成の具体例について説明する。

図６には、会議室２０で行われている会議の様子が示されている。この会議には、４人の参加者が参加している。図６に示すように、４人の参加者のうち、テーブル２１の周囲に参加者２２Ａ、２２Ｂ、２２Ｃが着席している。テーブル２１上には、情報処理装置１００としての携帯電話が置かれている。それぞれの参加者と情報処理装置１００との位置関係は、２２Ａが左前、２２Ｂが正面、２２Ｃが右側となっている。参加者２２Ｂの後ろには、ホワイトボード２３が設置されている。残る１人の参加者は、情報処理装置１００の所有者である。この参加者は、情報処理装置１００を操作すべく手前側に座っているため、図示されていない。

情報処理装置１００の所有者が、操作入力部５に議事録作成開始の操作入力を行うと、音声入力部１による音声入力が開始され、音源定位・音声分離処理（図４参照）と、解析・文章作成処理（図５参照）が実行され、議事録の作成が開始される。議事録が作成される間、表示部６には、図７又は図８に示す表示画像が表示される。これらの表示画像は、制御部７が、操作入力に従って、表示部６に表示させるものである。

図７に示すように、表示部６の画面の中心には、情報処理装置１００のアイコンが表示されている。また、その情報処理装置１００のアイコンの周囲に、８つのエリアＡ乃至Ｈを示す画像が表示されている。８つのエリアＡ乃至Ｈは、情報処理装置１００の周囲を区切ることにより規定される８つのエリアの表示画像である。

各エリアには、１から９までの番号のアイコンが表示されている。これは、エリアＥで、１番目、２番目、３番目、６番目の発言がなされ、エリアＡで、４番目、９番目の発言がなされ、エリアＣで、５番目、７番目の発言がなされ、エリアＦで、８番目の発言がなされたことを示すものである。すなわち、この表示画像は、音声が発せられた音源の位置に、その音声が発せられた順番を示すアイコンを表示して、それを８つのエリアの画像に重ね合わせたものである。制御部７は、表示部６に、このような表示画像を表示させる。

ところで、実際の会議では参加者（発言者）の頭の方向や角度は常に変化しているので、同じ発言者であってもその発言された位置（すなわち音源の位置）は１つに定まらず、ある程度のばらつきが生じる。そこで、本実施形態では、例えば情報処理装置１００を基準として会議室２０の水平面内の全方位を任意の角度範囲で区切ることにより規定されるエリア１つ１つを参加者１人１人に対応させる。このようにすれば、発言元、すなわち音源である発言者がある程度動いたとしても、同一エリアからの音声情報を同一人物の発言内容としてまとめることができる。

例えば、図７に示すように、エリアＡは、図６には図示されていない情報処理装置１００の所有者に対応している。また、エリアＣは、参加者２２Ａに対応し、エリアＥは参加者２２Ｂに対応し、エリアＦは参加者２２Ｃに対応している。

なお、制御部７は、発言ごとの音源の位置（音源定位）をリアルタイムで表示する場合、例えば、音声を検知したエリア、すなわち、最新の解析文章情報１０に係るエリアを明滅などで表示部６に強調表示させ、ユーザに議事の進行状況を確認しやすくするようにしてもよい。図７では、最新の９番目の発言に係るエリアＡが網掛け表示されている。

また、角度範囲は、すべてのエリアで同じでなくともよい。例えば、発言中に立ち上がるような、大きな動作を伴う発言者が位置するエリアに対しては、そのエリアの角度範囲を広めに設定するのが望ましい。このようにすれば、発言を別の発言者による発言と混同し難くなるからである。

そこで、本実施形態では、各エリアの角度範囲を個別に変更可能とする。例えば、タッチパネル等の操作入力部５による操作入力に従って、制御部７は、表示部６に、図２（Ａ）に示すような画像を表示させる。そして、操作入力部５の操作により（すなわちユーザがタッチパネルをさわって）エリアの境界を示す棒線をずらすことで表示部６に表示された各エリアの角度範囲を調整することができる。制御部７は、調整されたエリアの角度範囲に基づいて、エリア情報８を更新する。

なお、図２（Ｂ）に示す画像を表示し、操作入力部５を用いた数値入力によりテーブルの範囲１１の数値を変更するようにしてもよい。また、表示部６に表示されたメニュー画面（不図示）から変更したいエリアを指定し、角度を数値入力することで変更するようにしてもよい。いずれにしても、表示部６により表示されるエリアの画像には、操作入力により調整されたエリアの角度範囲が反映される。

また、図７では、発言位置に、表示部６に発言順を示す番号を表示しているが、発言順の番号ではなく、音声解析部３の音声解析により得られた発言に係る文章情報１３を、発言位置にそのまま直接表示するようにしてもよい。

このとき、発言位置が近接または重複し、表示部６に表示される文章情報１３の表示が重なり合う場合には、制御部７は、表示部６に、古い方の文章情報１３を削除し、最新の文章情報１３のみを表示させるようにしてもよい。また、制御部７は、表示部６に、古い文章情報１３を中央の情報処理装置（携帯電話）１００のアイコンを中心とする同心円外側に移動させ、元の位置に最新の文章情報１３のみを表示させるようにしてもよい。このようにすれば、表示部６の画面に同時に表示させる文章の数を減らすことができるので、発言内容を確認し易くなる。

いずれにしても、図７に示すように、エリアの画像を表示部６に表示するようにすれば、エリアがどのように分割されているのかを、把握するのが容易となる。また、そのエリアの画像に、音源の位置を重ね合わせて表示すれば、音源の位置を視覚的に把握するのが容易となる。

図８には、表示部６に表示された議事録の一例が示されている。図８に示すように、この議事録は、図３の解析文章情報１０の文章情報１３が表示されたものである。なお、この議事録では、音源定位の基準となるエリア名１６が表示されているが、各エリア名１６に参加者の名前が対応付けられて記憶部４に記憶されている場合には、エリア名１６の代わりに参加者名を表示するようにしてもよい。

また、図７及び図８の表示画像は、操作入力部５への操作入力により、制御部７が、随時切り替え可能とするのが望ましい。

また、制御部７は、音声入力部１から入力された複数のマイクロホン各々の音声信号を記憶部４に記憶しておき、会議終了後に、制御部７が、音源定位・音声分離処理と、解析・文章作成処理とを行うようにしてもよい。

以上詳細に説明したように、音声入力部１の複数のマイクロホンにそれぞれ入力された音声に対応する音声信号の位相差に基づいて、音源定位分離部２により特定された音源の位置に基づいて、同じ位置から発生された音声を同一人物、すなわち同一の音源からの音声として扱い、音声解析部３により音声解析を行って発言内容と発言者とが対応付けられた解析文章情報１０（議事録データ）を作成する。

このようにすれば、音声データを含む発言者識別情報を予め用意することなく、発言内容を発言者に対応づけた議事録を自動的に作成することができるので、使い勝手がより向上する。

また、本実施形態によれば、声色が類似した発言者が会議に参加したり、複数の発言者が同時に発言したりするような、聞き取りにくい状態であっても、発言者をその発言が行われた位置から判別して、議事録を作成することができる。

（実施形態２）
次に、本発明の実施形態２について説明する。

本実施形態に係る情報処理装置１００は、会議中に自機の位置が変更された場合にも、議事録の作成を不都合なく続行することができる。

図９には、本実施形態に係る情報処理装置１００の構成が示されている。図９に示すように、本実施形態に係る情報処理装置１００は、位置・回転検出部４０をさらに備え、記憶部４に、位置・回転情報４１が記憶される点が、上記実施形態１と異なる。

位置情報検出部としての位置・回転検出部４０は、自機の位置情報、すなわち位置及び回転（向き）を検出する。位置・回転検出部４０は、ジャイロセンサや地磁気センサ、加速度センサ、ＧＰＳ（Global Positioning System）装置、ＩＥＥＥ８０２．１１ａ／ｂ／ｇ／ｎなどに準拠した無線ＬＡＮのインターフェイス等を備えている。

位置・回転検出部４０は、タイマを備えている。位置・回転検出部４０は、自機の位置及び回転を取得し、取得された自機の位置及び回転の情報を、時間情報とともに位置・回転情報４１として記憶する。

図１０には、自機位置及び回転の変更を補正する音源定位・音声分離処理が示されている。操作入力部５が処理開始の操作入力を受け付けると、制御部７は、この音源定位・音声分離処理を開始する。図１０に示すように、まず、制御部７は、位置・回転検出部４０に、情報処理装置１００（自機）の位置及び回転を検出させる（ステップＳ５）。続いて、制御部７は、位置・回転検出部４０に、検出した情報処理装置１００の位置及び回転を、基準位置として記憶部４の位置・回転情報４１に記憶させる（ステップＳ６）。

続いて、制御部７は、音声入力部１への音声の入力が有るか否かを判定する（ステップＳ１）。音声入力部１への音声の入力が有る場合（ステップＳ１；Ｙｅｓ）、制御部７は、音源定位分離部２に、音源定位及び音声の分離抽出（ステップＳ２）を、上記実施形態１と同様に行わせる。

続いて、制御部７は、位置・回転検出部４０に、自機の位置及び回転を検出させる（ステップＳ７）。続いて、制御部７は、記憶部４から位置・回転情報４１を読み出し、ステップＳ７で検出された、自機の位置及び回転と、記憶部４に格納された基準位置との差分をとり、音源定位分離部２に、その差分を補正値として用いて音源定位１５（音源の位置、図３参照）を補正させる（ステップＳ８）。

続いて、制御部７は、音源定位分離部２に、補正された音源ごとに、分離抽出された音声情報９を、記憶部４に記憶させる（ステップＳ３）。その後、制御部７は、ステップＳ１に戻る。

このように、制御部７は、音声入力部１への音声の入力が停止しない限り（ステップＳ１；Ｎｏ）、音声入力部１への音声の入力の有無の判定（ステップＳ１；Ｎｏ）、音源定位及び分離抽出（ステップＳ２）、自機の位置・回転の検出（ステップＳ７）、音源定位の補正（ステップＳ８）、記憶部４への音声情報９の記憶（ステップＳ３）を繰り返す。これにより、記憶部４には、音声情報９が蓄積される。

例えば、図１１には、録音中に情報処理装置１００が回転した様子が示されている。図１１に示すように、情報処理装置１００が破線で示す位置で録音を開始してから録音中に矢印方向に回転したとする。この回転に伴って音源と情報処理装置１００との位置関係が変化する。本実施形態では、この変化が、位置・回転検出部４０により検出され、音源定位が補正される。

図１２には、情報処理装置１００の回転に伴って変化した表示部６の画面の一例が示されている。位置・回転検出部４０により検出された情報処理装置１００の回転（図１１参照）に伴って、図１２に示すように、情報処理装置１００のアイコン５０が回転する。この表示を見れば、情報処理装置１００の位置及び回転変化に伴う音源定位の補正が実施されていることを確認することができる。

以上詳細に説明したように、本実施形態によれば、録音中に情報処理装置１００の位置及び回転が変更された場合であっても、音源の位置の検出精度の低下を防止することができる。

（実施形態３）
次に、本発明の実施形態３について説明する。

本実施形態に係る情報処理装置１００は、スケジュール情報と連携して議事録を作成する。図１３には、本実施形態に係る情報処理装置１００の構成が示されている。図１３に示すように、本実施形態に係る情報処理装置１００は、時計部６０と、通信部６１とをさらに備え、記憶部４に、スケジュール情報６２が記憶されている点が、上記実施形態１と異なる。

時計部６０は、計時を行い、日時情報を作成する。また、時計部６０は、計時開始から一定時間が経過したこと（タイムアウト）を制御部７に通知する。なお、時計部６０では、日時情報を取得し補正する場合には、電波時計のように無線電波から時間情報を取得し補正する方法や、ＧＰＳを用いて位置情報を取得する際に衛星から時間情報を取得し補正する方法を採用することができる。

通信部６１は、外部と通信を行う。通信部６１の通信方式としては、例えばＰＨＳ（Personal Handy-phone System）、ＰＤＣ（Personal Digital Cellular）、ＧＳＭ（Global System for Mobile Communications）、ＣＤＭＡ（Code Division Multiple Access）、Ｗ−ＣＤＭＡ（登録商標、Wideband Code Division Multiple Access）、ＣＤＭＡ−２０００（登録商標）、ＤＳＲＣ（Dedicated Short Range Communication）、ＷｉＭａｘ（登録商標、Worldwide Interoperability for Microwave Access）、ＷｉＦｉ（登録商標、８０２．１１ａ／ｂ／ｇ／ｎ）やＢｌｕｅｔｏｏｔｈ（登録商標）等の通信方式の少なくとも１つを採用することができる。

スケジュール情報６２は、記憶部４に保持されている。スケジュール情報６２は、例えば会議が行われる日時、場所、会議に参加する参加者などのスケジュールに関する情報を含む。図１４には、記憶部４に保持されたスケジュール情報６２の一例が示されている。図１４に示すように、スケジュール情報６２には、スケジュールの番号（Ｎｏ．）８１、実施日及び開始・終了時刻などを示す日時情報（日時）８２、住所や部屋名を示す場所情報（場所）８３、参加者名等の参加者の識別情報を示す参加者情報（参加者）８４が登録されている。

なお、情報処理装置１００が携帯電話やパーソナルコンピュータなどのように電話番号を記載した電話帳情報や、Ｅメールアドレスを記載したアドレス帳情報などを保持する場合には、電話帳情報及びアドレス帳情報を参加者情報８４として用いてもよい。また、参加者情報８４として、実際に参加者の情報が記憶されている場所の参照が可能なリンク情報を登録するようにしてもよい。

本実施形態では、制御部７は、スケジュール情報６２に基づいて、時計部６０で作成された日時情報に対応するスケジュール情報６２から参加者情報８４を抽出して、表示部６に表示させる。また、制御部７は、操作入力部５への操作入力に従って、表示された参加者と音源との対応付けを行う。さらに、制御部７は、表示された参加者と音源との対応付けに基づいて、記憶部４に蓄積された解析文章情報１０と、音源と対応付けられた参加者との対応付けを行う。より具体的には、解析文章情報１０に、音源に対応する参加者の識別情報が付加される。そして、制御部７は、表示部６に、参加者と対応付けされた文書情報１３を表示させる。

外部記憶媒体７０は、各種データを記憶する。外部記憶媒体７０は、通信部６１とデータ送受信が可能である。外部記憶媒体７０としては、通信ネットワークに接続されたサーバ、ネットワークに接続されたハードディスク、通信機能を有する携帯型のハードディスクやシリコンメモリを採用することができる。

外部記憶媒体７０は、スケジュール情報７１を記憶する。スケジュール情報７１は、関係者によって共有される情報であり、関係者によって参照され得る。また、スケジュール情報７１には、会議室２０の予約情報や、会議室２０の見取り図などの情報が付加されていてもよい。

図１５には、スケジュール情報６２から会議へ参加する参加者情報を抽出し、分離・解析した音源を参加者に対応させる場合の解析・文章作成処理が示されている。図１５に示すように、この解析・文章作成処理では、ステップＳ１１乃至Ｓ１６の処理は、図５に示す上記実施形態１に係る解析・文章作成処理のそれらと同じである。

未解析の音声情報がない場合（ステップＳ１１；Ｎｏ）、制御部７は、時計部６０から日時情報を読み出す（ステップＳ１７）。続いて、制御部７は、スケジュール情報６２を読み出し、該日時情報に対応する日時に該当する会議があり、その会議に参加者情報８４が登録されているか否かを判定する（ステップＳ１８）。参加者情報８４が登録されていない場合（ステップＳ１８；Ｎｏ）、制御部７は、解析・文章作成処理を終了する。

参加者情報８４が有る場合（ステップＳ１８；Ｙｅｓ）、制御部７は、該当する参加者情報８４を、各エリアの音源の候補として表示部６に表示させる（ステップＳ１９）。この表示と同時に、制御部７は、時計部６０に計時を開始させる（ステップＳ２０）。時計部６０は、１０秒程度でタイムアウトし、この時点から１０秒経過すると、タイムアウトを制御部７に通知する。

続いて、制御部７は、タイムアウトしたか否かを判定する（ステップＳ２１）。ここでは、計時が開始されたばかりなので判定が否定される（ステップＳ２１；Ｎｏ）。続いて、制御部７は、操作入力部５への操作入力により、表示部６のエリアの画像上に表示された参加者の候補から、参加者が指定されたか否かを判定する（ステップＳ２２）。参加者が指定されていない場合（ステップＳ２２；Ｎｏ）、制御部７は、ステップＳ２１に戻る。

操作入力部５への操作入力により、参加者が指定されると（ステップＳ２２；Ｙｅｓ）、制御部７は、指定された参加者の名前をエリアの画像に重ね合わせて表示させ、各エリアに対応する参加者の名前を、記憶部４の解析文章情報１０に記憶する（ステップＳ２３）。

続いて、制御部７は、未選択の参加者の候補が有るか否かを判定する（ステップＳ２４）。未選択の参加者の候補が有る場合（ステップＳ２４；Ｙｅｓ）、制御部７は、時計部６０のタイマをリセットし（ステップＳ２５）、ステップＳ２１に戻る。

このようにして、タイムアウトするか（ステップＳ２１；Ｙｅｓ）、未選択の参加者の候補がなくなるまで（ステップＳ２４；Ｎｏ）、上記ステップＳ２１からステップＳ２４が繰り返される。

また、ユーザからの入力が無く、タイムアウトした場合（ステップＳ２１；Ｙｅｓ）、制御部７は、未選択の参加者の候補を表示部６の表示から消去する（ステップＳ２６）。その後、制御部７は、解析・文章作成処理を終了する。

図１６には、このときの表示画像の一例が示されている。この表示画像は、図７に示す表示画像に、スケジュール情報６２から読み出した参加者名をオーバーレイ表示したものである。図１６に示すように、この表示画像には、選択操作中の参加者の候補全体のリスト９１（○○部長、□□部長、△△課長）が表示される。さらに、この表示画像には、選択待ちの参加者の候補９２、９３（○○部長、□□部長）と、選択済みの参加者９４（××課長）とが表示されている。このように、そのエリアの画像に、参加者の名前を重ね合わせて表示すれば、参加者の位置を視覚的に把握するのが容易となる。

なお、制御部７は、タイムアウトでなく、ユーザの操作入力により、ステップＳ２６に進むようにしてもよい。いずれにしても、これにより、参加者と音源との対応づけのために、システムがフリーズするのを防止することができる。

なお、本実施形態では、制御部７は、上記ステップＳ１７からステップＳ２６までの、スケジュール情報６２に基づいて発言者（音源）と参加者を対応付ける処理を、解析・文章作成処理の中で行ったが、これには限られない。この処理を、操作入力部５からの操作を契機にして単独で行うようにしてもよい。このようにすれば、会議中だけでなく会議終了後においても、記憶部４に保持された解析文章情報１０に対して、スケジュール情報６２の参加者と発言者を対応付ける処理が可能となる。

また、タイムアウト時間は、１０秒には限られず、システムやユーザに適した長さに変更することができる。

また、記憶部４に記憶されたスケジュール情報６２だけでなく、通信部６１を介して外部記憶媒体７０に記憶されたスケジュール情報７１を取得して、発言者（音源）と参加者を対応付ける処理を行ってもよい。このように、本発明は、スケジュール情報が管理される場所には、限られない。

さらに、制御部７は、スケジュール情報６２とスケジュール情報７１とが、常に同一となるように、外部記憶媒体７０から取得したスケジュール情報７１が更新された場合に、更新されたスケジュール情報７１を用いて記憶部４に記憶されたスケジュール情報６２を更新し、記憶部４に記憶されたスケジュール情報６２が更新された場合に、更新されたスケジュール情報６２を用いて外部記憶媒体７０のスケジュール情報７１を更新するようにしてもよい。このようにすれば、情報処理装置１００において更新されたスケジュール情報６２により、外部記憶媒体７０のスケジュール情報７１を更新して、関係者に通知することができる。また、ネットワーク経由で他の関係者により更新されたスケジュール情報７１を、情報処理装置１００のスケジュール情報６２にて取得し、最新のスケジュールに従って、参加者を登録することができるようになる。

なお、情報処理装置１００は、記憶部４に記憶された音声情報に基づく音声を再生するスピーカ等を含む音声再生部を備えるようにしてもよい。

さらに、スケジュール情報６２又はスケジュール情報７１に、会議室２０の見取り図（テーブルや椅子の配置図）のデータが含まれている場合、制御部７は、表示部６に、会議室２０の見取り図に参加者の位置を重ね合わせて表示させ、議事録の作成に用いるようにしてもよい。

例えば、情報処理装置１００で録音された音声を音声再生部で再生する間、制御部７は、表示部６に、会議室２０の見取り図を用いて図１７に示すような表示画像を表示させるようにしてもよい。

図１７に示すように、この表示画像には、室内図表示部１０１と、文章表示部１０２とが設けられている。室内図表示部１０１には、会議室２０の見取り図が表示されている。会議室２０の見取り図上には、参加者アイコン１０３が表示されている。再生中の音声に係る参加者アイコン１０３は、分かり易くするために、強調表示されている（図１７では”本人”）。このようにすれば、録音された音声を聞く者の臨場感を増すことができるので、議事の内容をより理解しやすくなる。

文章表示部１０２には、文章情報１３が、表示されている。文章情報１３には、文章アイコン１０４が発言順に表示されている。再生中の音声に係る文章アイコン１０４は、分かりやすくするために、強調表示されている（図１７では、一番下の文章アイコン１０４）。このようにすれば、録音された音声を聞く者が、その音声に係る文章を視覚で把握することができるので、議事の内容をより理解しやすくなる。

なお、会議室２０の見取り図における参加者アイコン１０３の位置は、室内図表示部１０１の表示時に、操作入力部５への操作入力により、実際の参加者の位置と合わせておくのが望ましい。このようにすれば、他の参加者の画像中の位置と音源の位置とを正確に対応させることができる。

もっとも、会議室２０の見取り図は、議事録作成中に表示するようにしてもよい。例えば、図７に示すようなエリアの画像と重ね合わせて表示するようにしてもよい。

以上詳細に説明したように、本実施形態によれば、参加者に対応した議事録を作成することができるので、議事録作成の際の使い勝手をより向上させることができる。

なお、上記各実施形態では、情報処理装置１００の周囲のエリアを任意の角度で区切ったが、本発明はこれには限られず、エリアは、矩形状に区切られていてもよい。要は、本発明で適用されるエリアは、同一の音源からの音声であるとみなせるエリアであればよい。

また、上記各実施形態では、情報処理装置１００が、携帯電話等である場合について説明したが、マイクロホンを備えた携帯型音楽再生装置、ＩＣレコーダ、ＰＤＡ（Personal Digital Assistant）、ＰＮＤ（Personal Navigation Device）、ＰＨＳ（Personal Handy-phone System）、ＰＣ（Personal Computer）及びデジタルカメラなど他の情報処理装置であってもよい。なお、情報処理装置１００を、携帯端末とすれば、持ち運びが容易になる。

なお、上記実施の形態において、実行されるプログラムは、フレキシブルディスク、ＣＤ−ＲＯＭ（Compact Disk Read-Only Memory）、ＤＶＤ（Digital Versatile Disk）、ＭＯ（Magneto-Optical Disk）等のコンピュータ読み取り可能な記録媒体に格納して配布し、そのプログラムをインストールすることにより、上述の処理を実行するシステムを構成することとしてもよい。

また、プログラムをインターネット等の通信ネットワーク上の所定のサーバ装置が有するディスク装置等に格納しておき、例えば、搬送波に重畳させて、ダウンロード等するようにしてもよい。

また、上述の機能を、ＯＳ（Operating System）が分担して実現する場合又はＯＳとアプリケーションとの協働により実現する場合等には、ＯＳ以外の部分のみを媒体に格納して配布してもよく、また、ダウンロード等してもよい。

なお、本発明は、上記実施の形態及び図面によって限定されるものではない。本発明の要旨を変更しない範囲で実施の形態及び図面に変更を加えることができる。

本発明は、議事録の作成に好適である。

１…音声入力部、２…音源定位分離部、３…音声解析部、４…記憶部、５…操作入力部、６…表示部、７…制御部、８…エリア情報、９…音声情報、１０…解析文章情報、１１…範囲、１２…エリア名、１３…文章情報、１４…番号、１５…音源定位、１６…エリア名、２０…会議室、２１…テーブル、２２Ａ、２２Ｂ、２２Ｃ…参加者、２３…ホワイトボード、４０…位置・回転検出部、４１…位置・回転情報、５０…アイコン、６０…時計部、６１…通信部、６２…スケジュール情報、７０…外部記憶媒体、７１…スケジュール情報、８１…番号、８２…日時情報、８３…場所情報、８４…参加者情報、１００…情報処理装置、１０１…室内図表示部、１０２…文章表示部、１０３…参加者アイコン、１０４…文章アイコン

Claims

入力された音声に対応する音声信号に位相差が生じるように、その数及び配置が決定された複数のマイクロホンを用いて周囲の音声を入力する音声入力部と、
前記複数のマイクロホンにそれぞれ入力された音声に対応する音声信号の位相差に基づいてその音声信号に対応する音声が発せられた音源の位置を特定し、特定された前記音源の位置に基づいて、前記音声信号から音声情報を前記音源ごとに分離抽出する音源定位分離部と、
前記音源定位分離部によって分離抽出された音声情報を解析して、前記音声情報を文章情報に変換し、変換された前記文章情報を前記音源に対応付ける音声解析部と、
前記音声解析部によって変換され、前記音源と対応付けされた前記文章情報を蓄積する文章情報記憶部と、
前記文章情報記憶部に蓄積された前記文章情報を表示する表示部と、
前記音声入力部、前記音源定位分離部、前記音声解析部、前記文章情報記憶部及び前記表示部を制御する制御部と、
を備える情報処理装置。
自機の周囲を区切ることにより規定される複数の領域各々の範囲に関するエリア情報を記憶するエリア情報記憶部をさらに備え、
前記制御部は、
前記音源定位分離部に、
特定された前記音源の位置が同一の前記領域に位置する前記音声情報を、同一の前記音源からのものとして、前記音声信号から分離抽出させ、
前記音声解析部に、
前記音声情報から変換された文章情報を、前記音源が位置する前記領域に対応付けさせ、
前記文章情報記憶部に、
前記領域と対応付けされた前記文章情報を蓄積させる、
ことを特徴とする請求項１に記載の情報処理装置。
前記制御部は、
前記複数の領域の画像を前記表示部に表示させる、
ことを特徴とする請求項２に記載の情報処理装置。
前記制御部は、
音声が発せられた前記音源の位置に、その音声が発せられた順番又は前記音声に対応する前記文章情報を、前記複数の領域の画像に重ね合わせて前記表示部に表示させる、
ことを特徴とする請求項３に記載の情報処理装置。
前記制御部は、
前記表示部に表示される前記文章情報が重なり合う場合、古い方の前記文章情報の表示を削除又は移動させる、
ことを特徴とする請求項４に記載の情報処理装置。
前記制御部は、
最新の前記文章情報に係る前記領域を前記表示部に強調表示させる、
ことを特徴とする請求項２乃至５のいずれか一項に記載の情報処理装置。
前記制御部は、
操作入力に従って、前記各領域の範囲を調整し、
前記エリア情報記憶部に格納される前記エリア情報を更新し、
前記表示部に、調整後の前記各領域の範囲を表示させる、
ことを特徴とする請求項２乃至６のいずれか一項に記載の情報処理装置。
前記複数の領域各々は、
自機を基準として、水平面内の全方位を任意の角度で区切ることにより規定されている、
ことを特徴とする請求項２乃至７のいずれか一項に記載の情報処理装置。
自機の位置情報を検出する位置情報検出部をさらに備え、
前記制御部は、
前記音声定位分離部に、
前記位置情報検出部によって検出された前記位置情報に基づいて、特定された前記音源の位置を補正させ、補正された前記音源の位置に基づいて前記音声信号から音声情報を前記音源ごとに分離抽出させる
ことを特徴とする請求項１に記載の情報処理装置。
計時を行い、日時情報を作成する時計部をさらに備え、
前記制御部は、
日時情報及び参加者情報を含むイベントのスケジュールに関する情報としてのスケジュール情報から、前記時計部で作成された前記日時情報に対応する前記参加者情報を抽出して前記表示部に表示させ、
操作入力に従って、表示された前記参加者情報に係る参加者と前記音源との対応付けを行い、
前記文章情報記憶部に蓄積された前記文章情報と前記参加者との対応付けを行い、
前記表示部に、前記参加者と対応付けされた前記文書情報を表示させる、
ことを特徴とする請求項１に記載の情報処理装置。
前記スケジュール情報を記憶するスケジュール記憶部をさらに備え、
前記制御部は、
前記スケジュール記憶部に記憶された前記スケジュール情報から前記表示部に表示させる前記参加者情報を抽出する、
ことを特徴とする請求項１０に記載の情報処理装置。
外部機器とデータ通信可能な通信部をさらに備え、
前記制御部は、
前記通信部を介して、外部記憶媒体から取得した前記スケジュール情報から前記表示部に表示させる前記参加者情報を抽出する、
ことを特徴とする請求項１０に記載の情報処理装置。
前記制御部は、
操作入力に従って、前記参加者と前記音源との対応付けが行われず、前記時計部によってタイムアウト時間が計時されると、前記文章情報と前記参加者との対応付けを終了する、
ことを特徴とする請求項１０乃至１２のいずれか一項に記載の情報処理装置。
前記制御部は、
前記複数の領域の画像を前記表示部に表示させ、
音声が発せられた前記音源の位置に、前記音源に対応付けされた前記参加者の識別情報を、前記複数の領域の画像に重ね合わせて前記表示部に表示させる、
ことを特徴とする請求項１０乃至１３のいずれか一項に記載の情報処理装置。
前記スケジュール情報を記憶するスケジュール記憶部と、
外部機器とデータ通信可能な通信部と、
をさらに備え、
前記制御部は、
前記通信部を介して、外部記憶媒体から取得した前記スケジュール情報と、前記スケジュール記憶部に記憶された前記スケジュール情報とが同一となるように、
前記外部記憶媒体から取得した前記スケジュール情報が更新された場合に、更新された前記スケジュール情報を用いて前記スケジュール記憶部に記憶された前記スケジュール情報を更新し、
前記スケジュール記憶部に記憶された前記スケジュール情報が更新された場合に、更新された前記スケジュール情報を用いて前記外部記憶媒体の前記スケジュール情報を更新する、
ことを特徴とする請求項１０に記載の情報処理装置。
前記音源定位分離部によって分離抽出された前記音声情報を記憶する音声情報記憶部と、
前記音声情報記憶部に記憶された前記音声情報に基づく音声を再生する音声再生部と、
をさらに備え、
前記制御部は、
前記音声再生部による再生が行われる間、前記表示部に、前記文章情報記憶部に蓄積された前記文章情報を表示させるとともに、再生中の前記音声情報に係る前記文章情報を強調表示させる、
ことを特徴とする請求項１０乃至１５のいずれか一項に記載の情報処理装置。
前記制御部は、
前記表示部に、前記文章情報とともに、議事が行われた場所の見取り図を表示させ、表示された前記見取り図上の前記音源の位置に、前記音源に対応付けされた前記参加者の識別情報を表示させるとともに、
再生中の前記音声情報に係る参加者の識別情報を強調表示させる、
ことを特徴とする請求項１６に記載の情報処理装置。
コンピュータを、
入力された音声に対応する音声信号に位相差が生じるように、その数及び配置が決定された複数のマイクロホン各々に入力された音声に対応する音声信号の位相差に基づいてその音声信号に対応する音声が発せられた音源の位置を特定し、特定された前記音源の位置に基づいて前記音声信号から音声情報を前記音源ごとに分離抽出する音源定位分離手段と、
前記音源定位分離手段によって分離抽出された音声情報を解析して、前記音声情報を文章情報に変換し、変換された前記文章情報を前記音源に対応付ける音声解析手段と、
前記音声解析手段によって変換され、前記音源と対応付けされた前記文章情報を蓄積する文章情報記憶手段と、
前記文章情報記憶手段に蓄積された前記文章情報を表示する表示手段と、
前記音源定位分離手段、前記音声解析手段、前記文章情報記憶手段及び前記表示手段を制御する制御手段と、
して機能させるプログラム。