JP6509516B2

JP6509516B2 - 電子機器、方法及びプログラム

Info

Publication number: JP6509516B2
Application number: JP2014198199A
Authority: JP
Inventors: 裕作菊川
Original assignee: Dynabook Inc
Current assignee: Dynabook Inc
Priority date: 2014-09-29
Filing date: 2014-09-29
Publication date: 2019-05-08
Anticipated expiration: 2034-09-29
Also published as: US20160093315A1; JP2016071029A; EP3001421A1

Description

本発明の実施形態は音声を録音する電子機器に関する。

従来、電子機器で音声を録音する際、録音中の音声を可視化したい要求があった。一例として、入力音声を分析し、人間が音声を発生している音声区間と、それ以外の非音声区間（雑音区間と無音区間）とを区別して表示する電子機器がある。他の例として、発言内容の確認を簡単に行なうことができる電子機器がある。

特開２０１０−５４９９１号公報特開２０１１−１０２８６２号公報

従来の電子機器は録音音声を可視化する際、ユーザに有用な情報を提供していないという課題があった。

本発明の目的は録音音声を可視化する際、ユーザに有用な情報を提供する電子機器、方法及びプログラムを提供することである。

実施形態の電子機器によれば、マイクと、前記マイクを介して集音された音声データの録音中を示す画面が表示されるディスプレイと、前記音声データに対して、音声を発生している音声区間と、それ以外の非音声区間とを判定する区間判定手段と、前記画面の前記録音中の時間軸上に、前記集音された前記音声データのパワーを示す音声波形を表示すると共に、前記音声波形が前記時間軸上に進行していくのに伴い、前記区間判定手段により判定した前記音声区間を前記音声波形から発話を示す表示形態に変更して前記ディスプレイに表示する表示制御部と、前記音声データから発話した発話者を判定する話者判定手段と、を有する。前記発話を示す表示形態とは、前記話者判定手段で判定した発話者が識別可能に表示した発言バーであって、前記発言バーと前記音声波形とは同じ前記時間軸上に表示されるものである。

図１は、一実施形態の電子機器の一例を示す平面図である。図２は、一実施形態の電子機器のシステム構成の一例を示すブロック図である。図３は、一実施形態の電子機器の録音／再生プログラムの再生に関する部分の構成を示す図である。図４は、一実施形態の電子機器の録音／再生プログラムの録音に関する部分の構成を示す図である。図５は、一実施形態の電子機器の録音／再生プログラムにより録音した音声データの再生時の音声データ表示画面の例を示す図である。図６は、一実施形態の電子機器の録音／再生プログラムによる再生開始位置の自動調整の概念を示す図である。図７は、一実施形態の電子機器の録音／再生プログラムによる再生開始位置の自動調整の処理の流れを示すフローチャートである。図８は、図７に示した再生開始位置の自動調整を具体的に示す波形図である。図９は、一実施形態の電子機器の録音／再生プログラムによる「録音開始前」、「録音中」、「再生中」画面の一例を示す図である。図１０は、図９（ａ）に示す「録音開始前」画面例を拡大して示す図である。図１１は、図９（ｃ）に示す「再生中」画面例を拡大して示す図である。図１２は、表示切り替えにより画面が二分割された状態の一例を示す図である。図１３は、ファイル一覧表示の一例を示す図である。図１４は、「再生中」画面が表示するタイムバーの一例を示す図である。図１５は、図９（ｂ）に示す「録音中」画面例を拡大して示す図である。図１６は、スナップビュー画面の例を示す図である。図１７は、「録音中」画面の別の一例を示す。図１８は、録音した音声データの一部区間の削除の一例を示す。図１９は、音声データのうちの必要情報の切り出し（トリミング）の一例を示す。図２０は、「録音中」画面のさらに別の一例を示す。図２１は、図２０に示す「録音中」画面を表示する処理の一例を示すフローチャートである。図２２は、「録音中」画面のさらに他の一例を示す。図２３は、「録音中」画面のさらに他の一例を示す。図２４は、「録音中」画面のさらに他の一例を示す。

図１は実施の一形態である電子機器１の一例の平面図を示す。電子機器１は、例えばタブレット型パーソナルコンピュータ（携帯可能なＰＣ（Personal Computer））、スマートフォン（多機能携帯電話装置（Smart Phone））あるいはＰＤＡ（携帯端末装置（Personal Digital Assistant））等である。以下、タブレット型パーソナルコンピュータを、電子機器１として説明する。以下に説明する要素や構成は、ハードウェアを用いて実現できるが、マイクロコンピュータ（処理装置、ＣＰＵ（Central Processing Unit））を用いるソフトウェアによっても実現できる。

タブレット型パーソナルコンピュータ（以下、タブレット端末装置と略称する）１は、本体ユニット（ＰＣ本体）１０とタッチスクリーンディスプレイ２０と、を含む。

ＰＣ本体（本体ユニット）１０の前面の所定の位置、例えば上端中央部には、タッチスクリーンディスプレイ２０の前方に存在する撮影対象、例えばユーザやユーザとその背景あるいはユーザの周囲に位置に位置する物体、等の情報を映像（画像情報）として取り込むカメラユニット１１が位置する。ＰＣ本体１０の前面の他の所定の位置、例えばカメラユニット１１の左右には、ユーザあるいはユーザとその周囲に存在する任意数の人が発生する音声及び／または騒音、風等の周辺の音響（以下、音声と音響の両者を音声と称する場合もある）を取り込む第１及び第２のマイクロフォン１２Ｒ，１２Ｌが位置する。第１及び第２のマイクロフォン１２Ｒ，１２Ｌは、例えばカメラユニット１１を仮想的中心とし、カメラユニット１１から実質的に等距離に位置する。本実施形態ではマイクロフォンが２つ設けられた形態を例示するが、設けられるマイクロフォンは１つであってもよい。マイクロフォンが２つ設けられていれば、音声の入力方向を推定し、その結果に基づいて話者を特定することができる。

ＰＣ本体１０のさらに他の所定の位置、例えば下端の左右端部には、ＰＣ本体１０に録音されている音声を再生するスピーカ１３Ｒ，１３Ｌが位置する。ＰＣ本体１０のさらに他の所定の位置には、詳述しないが、電源オンスイッチ（パワーボタン）、ロック機構及び認証ユニット、等が位置する。パワーボタン（電源オンスイッチ）は、タブレット端末装置１の利用を可能とする（タブレット端末装置１を起動する）ための電源のオン／オフを制御する。ロック機構は、例えば持ち運び時のパワーボタン（電源オンスイッチ）の動作をロックする。認証ユニットは、例えばユーザを認証するために、ユーザの指や掌と関連付けられる（生体）情報を読み取る。

タッチスクリーンディスプレイ２０は、液晶表示ユニット（ＬＣＤ（Liquid Crystal Display）／表示ユニット）２１とタッチパネル（指示入力受けつけユニット）２２と、を含む。タッチパネル２２は、少なくともＬＣＤ２１の表示面（画面）を覆うように、ＰＣ本体１０の所定の位置に設けられている。

タッチスクリーンディスプレイ２０は、外部オブジェクト（タッチペンもしくはユーザの手の指等の体の一部）が接触する表示画面上の指示入力位置（タッチ位置もしくは接触位置）を検知する。タッチスクリーンディスプレイ２０は、同時に複数の指示入力位置を検知可能なマルチタッチ機能を有する（サポートしている）。外部オブジェクトは上述の通りタッチペンやユーザの指等の体の一部のいずれでもよいが、以降の説明ではユーザの指を例示して説明を行う。

タッチスクリーンディスプレイ２０は、タブレット端末装置１における各種アプリケーションプログラムの画面や画像表示（オブジェクト）を表示するメインディスプレイとして使用される。タッチスクリーンディスプレイ２０は、ＰＣ本体１０の起動時に、ユーザが起動しようとする任意のアプリケーションプログラムの実行開始（起動）を外部オブジェクトによる指示入力により受けつけ、任意数の起動されたアプリケーションプログラムについてのアイコンを表示する。タッチスクリーンディスプレイ２０の表示画面の向きは、横向き（ランドスケープ）と縦向き（ポートレート）との間で切り替えることができ、図１は、ランドスケープ時の起動完了画面の表示の一例を示している。

図２に、タブレット端末装置１のシステム構成の一例を示す。

タブレット端末装置１のＰＣ本体１０は、ＣＰＵ（Central Processing Unit）１０１、主メモリ１０３、グラフィクスコントローラ１０５、サウンドコントローラ１０６、ＢＩＯＳ−ＲＯＭ１０７、ＬＡＮコントローラ１０８、不揮発性メモリ１０９、バイブレータ１１０、加速度センサ１１１、オーディオキャプチャ（ボード）１１２、無線ＬＡＮコントローラ１１４、エンベデッドコントローラ（ＥＣ，Embedded Controller）１１６、等を備え、これらはシステムコントローラ１０２に接続される。

ＣＰＵ１０１は、ＰＣ本体１０とタッチスクリーンディスプレイ２０の各部の動作を制御する。すなわち、ＣＰＵ１０１は、不揮発性メモリ１０９から主メモリ１０３にロードされる、オペレーティングシステム（ＯＳ）２０１、および各種アプリケーションプログラムを実行する。アプリケーションプログラムの１つは、図３、図４に概略を示す録音／再生プログラム２０２を含む。録音／再生プログラム２０２は、ＯＳ（オペレーティングシステム）２０１上で実行されるソフトウェアである。録音／再生機能は、例えば１チップマイコン等により構成する録音／再生プロセッサ１２１を用いてソフトウェアではなく、ハードウェアにより実現することもできる。

ＣＰＵ１０１は、ＢＩＯＳ−ＲＯＭ１０７に格納されたＢＩＯＳも実行する。ＢＩＯＳは、ハードウェア制御のためのプログラムである。

システムコントローラ１０２には、主メモリ１０３をアクセス制御するメモリコントローラも内蔵されている。システムコントローラ１０２は、ＰＣＩＥＸＰＲＥＳＳ規格のシリアルバスなどを介してグラフィクスコントローラ１０５との通信を実行する機能も有している。

グラフィクスコントローラ１０５は、ＰＣ本体１０のタッチスクリーンディスプレイ２０のＬＣＤ２１を制御する表示コントローラである。グラフィクスコントローラ１０５が生成する表示信号がＬＣＤ２１に送られ、ＬＣＤ２１は、表示信号に基づいて映像を表示する。ＬＣＤ２１上に位置するタッチパネル２２は、ＬＣＤ２１の画面が表示する表示に対応する入力信号を入力するためのポインティングデバイス（ユーザ操作指示入力機構）である。ユーザは、ＬＣＤ２１の画面に表示されたグラフィカルユーザインタフェース（ＧＵＩ）等に、タッチパネル２２によりユーザ操作すなわち指示入力を入力することができ、これによりＰＣ本体１０を操作することができる。すなわちユーザは、ＬＣＤ２１が表示する起動アイコンやＬＣＤ２１が表示するボタンをタッチパネル２２を通じてタッチすることで、起動アイコンやボタンに対応する機能の実行を指示することができる。

システムコントローラ１０２は、各種ＵＳＢデバイスを制御するためのＵＳＢコントローラを内蔵している。システムコントローラ１０２は、サウンドコントローラ１０６及びオーディオキャプチャ１１２との通信を実行する機能も有している。カメラ１１が取得（撮影）する画像データ（動画／静止画）は、カメラ１１において所定のフォーマットに変換され、システムコントローラ１０２を通じて主メモリ１０３上で動作する画像処理プログラムに供給される。従って、カメラ１１からの画像データは、ユーザの要求に応じて起動する、カメラ１１からの画像データに対応するフォーマットの画像を再生可能な画像処理プログラムにおいて再生され、ＬＣＤ２１に表示される。カメラ１１からの画像データは、例えば不揮発性メモリ１０９に記憶される。

サウンドコントローラ１０６は、音源デバイスであり、再生対象の音声データをアナログ出力に変換した後、スピーカ１３Ｒ，１３Ｌに出力する。

ＬＡＮコントローラ１０８は、例えばＩＥＥＥ８０２．３規格の有線通信を実行する有線通信デバイスである。

バイブレータ１１０は、ＰＣ本体１０に対し、必要に応じて振動（バイブレーション）を与える。

加速度センサ１１１は、タッチスクリーンディスプレイ２０の表示画面のポートレートとランドスケープとの間の切り替えのためのＰＣ本体１０の回転や、ユーザの指の動きのうちの衝撃の強さ、等を検出する。

オーディオキャプチャ１１２は、マイク１２Ｒ（例えばカメラ１１の右側に位置する）及び１２Ｌ（カメラ１１の左側に位置する）のそれぞれが取得する音声や音響をアナログ−デジタル変換し、デジタル信号を出力する。オーディオキャプチャ１１２は、どちらのマイクへの入力信号のレベルが大きいかを示す情報を主メモリ１０３上で動作する録音／再生プログラム２０２へ、システムコントローラ１０２を通じて入力することもできる。録音／再生プログラム２０２はこの情報に基づき、話者の方向を推定することができる。オーディオキャプチャ１１２は、録音／再生プログラム２０２において利用可能な所定の前処理の一部あるいは全部を分担することも可能である。

無線ＬＡＮコントローラ１１４は、例えばＩＥＥＥ８０２．１１規格の無線通信を実行する無線通信デバイスである。

ＥＣ１１６は、電力管理のためのエンベデッドコントローラを含む、１チップマイクロコンピュータである。ＥＣ１１６は、ユーザによるパワーボタンの操作に応じたＰＣ本体１０の電源オン／電源オフを制御する。

次に、録音／再生プログラム２０２の構成例を説明する。録音／再生プログラム２０２は、音声の録音機能、保存された音声の再生機能、保存された音声の編集機能を有している。説明の便宜上、録音に関する部分と、再生・編集に関する部分とに分けて説明する。先ず、図３を参照して録音／再生プログラム２０２の再生、編集に関する部分２０２Ａを説明する。録音／再生プログラム２０２Ａは、再生・編集機能を実現するための機能モジュールとして、少なくともタッチ情報受信部３１０、制御部３２０、フィードバック処理部３３０及びタイムバー表示処理部３４０を備える。

タッチ情報受信部３１０は、ユーザの指示（ユーザの指の動作）毎に、第１の座標情報、第２の座標情報及びユーザの指の動きの情報を、タッチパネルドライバ２０１Ａを経由してタッチパネル２２から受け取り、制御部３２０に出力する。第１の座標情報は、ユーザの指がタッチパネル２２の表示面の任意の位置に触れた位置の座標情報（ｘ，ｙ）である。第２の座標情報は、ユーザの指がタッチパネル２２の表示面から離れた位置の座標情報（ｘ´，ｙ´）である、ユーザの指の動き情報は、第１の座標情報（ｘ，ｙ）と第２の座標情報（ｘ´，ｙ´）との間のユーザの指の動き、あるいは第２の座標情報に付属するユーザの指の動き、例えば指が離れる際の方向の情報、等を含む。

本実施形態でのユーザの操作入力（ユーザの指の動作）とその呼称は、以下のとおりとする。

［１］タッチ：ユーザの指が一定期間、タッチパネル２２の表示面上の所定の位置に位置する（第１の座標情報と第２の座標情報が実質的に同一であって、一定時間経過後、表示面とほぼ直交する方向に離される）。

［２］タップ：ユーザの指が、タッチパネル２２の表示面上に任意の位置に所定時間触れた後、表示面と直交する方向に離される（タッチと同義に扱われる場合もある）。

［３］スワイプ：ユーザの指がタッチパネル２２の表示面の任意の位置に触れた後、任意の方向に移動する（第１の座標情報と第２の座標情報との間に指の動き情報を含む、すなわち、表示面をなぞるようにユーザの指が表示面を移動する）。

［４］フリック：ユーザの指がタッチパネル２２の表示面の任意の位置に触れた後、任意の方向に向けて掃われるように移動し、表示面から離される（タップにおいてユーザの指が表示面から離れる際に、方向の情報をともなう）。

［５］ピンチ：ユーザの２本の指がタッチパネル２２の任意の位置に触れた後、表示面で指の間隔を変更する。特に、指の間隔を広げる（指を開く）場合をピンチアウト、指の間隔を狭める（指を閉じる）場合をピンチイン、と称する場合もある。

制御部３２０は、タッチ情報受信部３１０が出力する第１の座標情報、第２の座標情報及びユーザの指の動き情報に基づいて、上述の［１］〜［５］のユーザの指の動きの情報により特定されるユーザの動作（ユーザの指示入力）に対応するプログラム（アプリケーション）を起動する。制御部３２０は、以下に説明するキーボードモードあるいはマウスモードのどちらの動作モードにおいても、タッチ情報受信部３１０からの第１の座標情報、第２の座標情報及びユーザの指の動き情報に基づいて、ユーザからの指示入力（ユーザ入力）に対応するアプリケーション（プログラム）を実行する。タッチ［１］は、タップ［２］に準じた動作であってもよいが、実施形態では、制御部３２０は、実質的にタッチに引き続きタッチパネル２２の表示面上をユーザの指が移動することをスワイプ［３］と判定するものとする。制御部３２０は、ユーザの指がタッチパネル２２上の移動から離れる位置の座標情報（ｘ´，ｙ´）を受け取った場合、スワイプ［３］またはフリック［４］と判定するものとする。制御部３２０は、タッチパネル２２からの第１の座標情報、第２の座標情報及びユーザの指の動き情報に基づいて、タッチパネル２２の表示面をユーザの指がなぞった（スワイプした）スワイプ長さ（指示区間長）も、求めることができる。すなわち、指示区間長（スワイプ長さ）は、後段に説明する音声データの編集において、シーク位置を基点とする区間の長さを求めることができる。

キーボードモードは、一般には、ＬＣＤ２１が表示するキーボード配列の画像に対するタッチパネル２２からのタップに従って、対応する個々のキーに固有の文字コードを出力することで、タッチスクリーンディスプレイ２０を仮想キーボードとして利用することを可能とする。マウスモードは、タッチパネル２２上の（指の）接触位置の移動に応じて、その接触位置の移動の方向および距離を示す相対座標データを出力する動作モードである。

例えば、ユーザがタッチパネル２２の表示面が表示する所定のアイコン（またはボタン表示）のうちの録音／再生アイコン２９０（図１参照）をタッチすると、制御部３２０は、ユーザの指の表示面の位置の座標情報に対応する録音／再生アイコン２９０と関連付けられたアプリケーションを起動する。

制御部３２０は、録音／再生プログラム２０２の再生、編集を実行するための機能モジュールとして、例えばシーク位置（ユーザ指定位置）検出部３２１、再生開始位置調整部３２２、話者判定部３２３、等を含む。

シーク位置検出部３２１は、タッチ情報受信部３１０からの第１の座標情報、第２の座標情報及びユーザの指の動き情報に基づいて、シーク位置を特定する。

すなわち、シーク位置検出部３２１は、ＬＣＤ２１が表示するＸ−Ｙ平面において、時間軸をＸ軸に一致させたタイムバー表示上で、ユーザ指示に対応するシーク位置を特定する。

再生開始位置調整部３２２は、シーク位置検出部３２１が特定したシーク位置の近傍の音声データをバッファリングし、シーク位置近傍の音声区間の先頭である無音区間を検出し、再生開始位置として利用する自動調整位置を設定する。

話者判定部３２３は、再生開始位置調整部３２２が検出した無音区間を用いて区切られた前後の音声データについて、当該音声データに基づいて話者を特定する。

話者判別（特定）方法については、例えば特開２０１０−０５５１０３号公報（特許第５１７４０６８号公報）等に具体的な方法が詳細に説明されており、ここでは話者判定方法の詳細については説明を割愛する。

フィードバック処理部３３０は、ＯＳ２０１に組み込まれる（ＯＳ２０１のファームウェアである）表示ドライバ２０１Ｂ（図２ではグラフィックスコントローラ１０５）及びサウンドコントローラ１０６のそれぞれと、接続する。

フィードバック処理部３３０は、サウンドコントローラ１０６に対し、録音時の話者の位置を擬似的に再現できるように、例えば再生中の音声データに対応する話者の位置を基に、スピーカ１２Ｒ及びスピーカ１２Ｌが出力する再生音声の出力割合を変更する制御を行うことができる。

フィードバック処理部３３０は、図５、図８〜図１６に示す画面例を参照しながら後段に詳述するが、ＰＣ本体１０の画面２１０内にさまざまな情報を表示するための表示信号及び録音／再生プログラム２０２において再生する音声出力信号を処理する。

タイムバー表示処理部３４０は、ＯＳ２０１に組み込まれる（ＯＳ２０１のファームである）表示ドライバ２０１Ｂ（図１ではグラフィックスコントローラ１０５）に、タッチパネル２２の表示面に対応する画像表示にタイムバー２１１をＯＳＤ（On Screen Display）表示するための機能ジュールである。

図４は、録音／再生プログラム２０２の録音に関する部分２０２Ｂの構成の一例を示す。

録音／再生プログラム２０２Ｂは、音声の録音機能を実現するための機能モジュールとして、少なくともタッチ情報受信部３１０、フィードバック処理部３３０、パワー演算部３５２、区間判定部３５４、時間同期処理部３５６、話者判定部３５８、音声波形描画部３６０、音声区間描画部３６２を備える。

タッチ情報受信部３１０、フィードバック処理部３３０は、再生、編集機能のプログラム部分２０２Ａのそれと同様である。

オーディオキャプチャ１１２を介してマイク１２Ｒ、１２Ｌからの音声データがパワー演算部３５２、区間判定部３５４に入力される。パワー演算部３５２は、一定時間間隔の音声データに対して例えば二乗平均平方根を算出し、その結果をパワーとして利用する。パワー演算部３５２は、二乗平均平方根の代わりに一定時間間隔の音声データの振幅最大値をパワーとして利用してもよい。一定時間は数ミリ秒であるので、ほぼリアルタイムでパワーが演算される。区間判定部３５４は、音声データに対して音声区間判定(Voice Activity Detection：VAD)を行い、音声データを人間が音声を発生している音声区間と、それ以外の非音声区間（雑音区間と無音区間）とに区分する。区間判定の他の例は、単に音声区間、非音声区間の区別に限らず、音声区間の話者を特定し、話者毎の音声区間を求めても良い。話者特定は、２つ以上のマイクが搭載されていれば、２つのマイクの入力信号の差から音声の方向推定を行い、その推定結果に基づくことができる。１マイクの場合であっても、メル周波数ケプストラム係数（Mel Frequency Cepstral Coefficient：MFCC）等の特徴量を算出し、これをクラスタリング分析することにより、音声区間、非音声区間の判定に加えて話者情報を加味することが出来る。話者を特定することにより、より多い情報量をユーザに提示できる。区間判定部３５４は、数秒程演算時間がかかるので、区間判定結果はリアルタイムでは得られず、１秒程度遅れる。

パワー演算部３５２、区間判定部３５４の出力は、それぞれ音声波形描画部３６０、音声区間描画部３６２に供給されるとともに、時間同期処理部３５６にも供給される。上述したように、パワー演算はほぼリアルタイムで実行され、一定時間間隔で出力されるが、音声区間判定は１秒程演算時間を要する。そして、音声区間か非音声区間かの判別は、ある一定時間以上の音声データ毎になされる。このように両処理は処理時間が異なるので、パワー演算部３５２と区間判定部３５４の出力に遅延が生じる場合がある。パワー演算部３５２の出力はパワーレベルを表す波形表示され、区間判定部３５４の出力は区間を示すバーにより表示される。波形とバーを同じ行に表示する場合、両者の描画開始タイミングが異なるので、最初は波形が表示され、あるタイミングからバーが表示される。この表示の切り替えを一瞬にして行なうのではなく、徐々に波形表示からバー表示に切り替えるのが、時間同期処理部３５６である。具体的には、図２０で後述する波形表示とバー表示の切り替え領域に波形／バー遷移部２２６を設ける。

音声波形描画部３６０、音声区間描画部３６２は図３のタイムバー表示処理部３４０に対応し、それらの出力は表示ドライバ２０１Ｂに供給される。話者判定部３５８の出力も表示ドライバ２０１Ｂに供給される。

図５に、録音／再生プログラム２０２が起動している状態における音声データ表示画面の一例を示す。図５の画面例は、録音／再生プログラム２０２により録音した音声データの再生時の例である。

ＰＣ本体１０の画面２１０内に表示される録音／再生プログラム２０２の動作時の音声データ表示画面４１０は、画面の上下方向において大まかに３つに区切られた第１の表示領域４１１、第２の表示領域４１２及び第３の表示領域４１３を含む。第１の表示領域４１１は、表示するステータスや情報と関連して、例えば［レコード名、認識された話者／全体ビュー、ステータス］欄とも称される。第２の表示領域４１２は、表示するステータスや情報の内容から、例えば［拡大ビュー、ステータス］欄とも称される。第３の表示領域４１３は、表示するステータスや情報に関連づけられて、例えば［コントロール］欄とも称される。

第１の表示領域４１１は、再生中（再生対象）の音声コンテンツ（音声データ）の全体を示すタイムバー２１１と音声コンテンツのうちの現在の再生位置またはユーザが指示を行った音声の再生開始位置を示すロケーター２１１ａ（音声再生位置表示）を表示する。ロケーター２１１ａは、コンテンツ先頭からの再生時間（経過時間）を、タイムバー２１１が示す総時間に対して比例分配した位置に、位置する。

第１の表示領域４１１は、例えば特定できた話者を話者毎に表示する話者表示領域２１２、リスト表示を表示するためのリスト表示ボタン２１３、レコード名を表示するレコード欄２１４、戻るボタン２４０等を含む。

話者表示領域２１２は、再生時に、特定できた話者をアルファベット、例えば［Ａ］〜［Ｊ］により、最大１０人まで表示できる（図５は、［Ａ］〜［Ｄ］の４人を表示する例である）。話者表示領域２１２は、現在発話中の話者を、発話マーク２１５により表示できる。

第２の表示領域４１２は、音声コンテンツ（音声データ）の再生位置（時間）を表示する再生位置表示欄２２１、音声区間を示す発言バー２２２ａ，２２２ｂ，・・・，２２２ｎ（ｎは正の整数）、話者識別子２２３ａ，２２３ｂ，・・・，２２３ｎ（ｎは正の整数）、現在位置マーク（ライン）２２４、マーキングボタン（星印）２２５、等を含む。

再生位置表示欄２２１は、再生時において、現在位置マーク（ライン））の左側が、既に再生の終わった時間（音声データ）、現在位置マーク（ライン））の右側が、これから再生される時間（音声データ）を示す。

発言バー２２２ａ，２２２ｂ，・・・，２２２ｎは、再生位置表示欄２２１上に、話者毎の音声データの長さ（時間）と話者とを関連づけて表示する。従って、発言バー２２２ａ，２２２ｂ，・・・，２２２ｎには、話者識別子２２３ａ，２２３ｂ，・・・，２２３ｎ（ｎは正の整数）が一体的に付属する。現在位置マーク（ライン）２２４は、再生位置表示欄２２１上の現在の位置（時間）を示す。発言バー２２２ａ，２２２ｂ，・・・，２２２ｎは、再生対象の話者毎の音声データをスワイプ操作により、選択できる。その際、スワイプ時のスワイプ（指の移動）の強さ（速度／圧力の変化の程度、すなわちユーザの指が表示面を移動する際の速度や圧力の変化によって、スキップする話者区間（発言バー）の数を変更できる。

マーキングボタン２２５は、話者毎の発言バー２２３（２２３ａ〜２２３ｎ）の長さ方向（時間）の概ね中央近傍に表示され、マーキングボタン２２５付近をタップすることにより、発言単位にマーキングすることが可能である。例えば、マーキングボタン２２５が選択されると、そのボタン２２５の周囲の音声区間に対応する細長い領域２２５Ａの色が変化し、マーキングされたことを示す。一度マーキングされたマーキングボタン２２５付近を再度タップすると、マーキングが解除され、細長い領域２２５Ａが消え、星印のみとなる。マーキング情報は再生の際の頭出しに利用でき、再生の利便性が向上する。

第３の表示領域４１３は、一時停止ボタン２３１／再生ボタン２３２、停止ボタン２３３、スキップボタン（進む）２３４Ｆ、スキップボタン（戻る）２３４Ｒ、スロー再生ボタン２３５、高速再生ボタン２３６、マークスキップボタン（進む）２３７Ｆ、マークスキップボタン（戻る）２３７Ｒ、マーク一覧表示ボタン２３８、リピートボタン２３９等を含む。第３の表示領域４１３は、画面２１０内の表示形式を後段に説明するスナップビュー画面との間で切り替える表示切り替えを指示入力可能な表示切り替えボタン２４１を含む。

一時停止ボタン２３１／再生ボタン２３２は、再生ボタン２３２と一時停止ボタン２３１とが交互に表示されるトグル方式であり、再生ボタン２３２にタッチまたはタップすることで、選択されている音声データ（コンテンツ）の再生が開始される。再生ボタン２３２によりコンテンツが再生されている状態においては、一時停止ボタン２３１が表示される。従って、一時停止ボタン２３１にタッチまたはタップされた場合、コンテンツの再生が一時的に停止され、再生ボタン２３２が表示される。

停止ボタン２３３は、再生中または一時停止中のコンテンツの再生を停止する。

スキップボタン（進む）２３４Ｆ、スキップボタン（戻る）２３４Ｒは、タッチまたはタップすることにより、発言バー２２２ａ，２２２ｂ，・・・，２２２ｎを１つ分、スキップする。スキップボタン（進む）２３４Ｆがタッチまたはタップされた場合、発言バー２２２ａ，２２２ｂ，・・・，２２２ｎは、再生位置表示欄２２１において、画面２１０内の右方向、すなわちこれから再生される音声データ（発言バー）を１つ分、スキップする。スキップボタン（戻る）２３４Ｒがタッチまたはタップされた場合、発言バー２２２ａ，２２２ｂ，・・・，２２２ｎは、再生位置表示欄２２１において、画面２１０内の左方向、すなわち既に再生が終了した音声データ（発言バー）を１つ分、スキップする。スキップボタン表示をタップすると、発言単位のスキップを可能とする制御コマンドを入力可能である。スキップは、発言単位のみとする（スキップすると次の音声区間（発言バー）の先頭へジャンプする）。

スロー再生ボタン２３５は、再生中の音声データについて、例えば０．５倍速または０．７５倍速のスロー再生を実行する。スロー再生ボタンをタップすると、例えば０．７５（３／４）倍速再生、０．５（１／２）倍速再生、通常再生、が順番に繰り返される。

高速再生ボタン２３６は、再生中の音声データについて、例えば１．２５倍速，１．５倍速，１．７５倍速もしくは２．０倍速の高速再生を実行する。高速再生ボタンをタップすると、例えば１．２５（５／４）倍速再生、１．５（３／２）倍速再生、２倍速再生、通常再生、が順番に繰り返される。スロー再生／高速再生時のいずれにおいても、所定の表示領域に、ステータス（例えば、ｘ倍再生、等の表示）を表示することが好ましい。

マークスキップボタン（進む）２３７Ｆ、マークスキップボタン（戻る）２３７Ｒは、マーキングされたマーキングボタン２２５が付与されている発言バーまでスキップする。すなわち、マークスキップボタン（進む）２３７Ｆがタッチまたはタップされた場合、マーキングされたマーキングボタン２２５が付与されている発言バーのうちの再生位置表示欄２２１において画面２１０内の右方向、すなわちこれから再生される音声データ（発言バー）までスキップする。マークスキップボタン（戻る）２３７Ｒがタッチまたはタップされた場合、マーキングされたマーキングボタン２２５が付与されている発言バーのうちの再生位置表示欄２２１において画面２１０内の左方向、すなわち既に再生が終了した音声データ（発言バー）までスキップする。これにより、マーキングした発言に短時間でアクセスすることができる。

マーク一覧表示ボタン２３８は、図１３を参照して後程説明するが、マーキングボタン２２５が付与されている（マーキングの有無に関わらず）全ての発言バーをファイル一覧表示２５１としてポップアップ表示により表示する。

リピートボタン２３９は、現在再生中の発言バーに対応する音声データをリピート再生する。

戻るボタン２４０は、１つ前の動作状態に戻るための制御信号を、システムコントローラ１０２に、入力する。

表示切り替えボタン２４１は、画面２１０内の表示方式を、スナップビュー画面との間で切り替える表示切り替えを入力する。

以下、図５に表示する画面２１０において、ロケーター２１１ａにユーザが指を触れ、タイムバー２１１の時間軸方向に指をスワイプした任意の位置で指を離すことで、図３に説明した再生開始位置調整部３２２の制御の下で、以下に説明する自動調整位置を設定する。

図５に表示する上述のさまざまな表示は、図３に説明したフィードバック処理部３３０の制御の下で、ＬＣＤ２１に表示される。フィードバック処理部３３０が出力するさまざまな表示信号は、話者を表示する表示欄２１２に、現在再生中の話者を特定可能に、話者毎の識別子２２３ａ，２２３ｂ，・・・，２２３ｎを付して表示するための映像信号（表示信号）を出力してもよい。あるいは、フィードバック処理部３３０が出力する表示信号は、話者毎の識別を可視的に容易とするために、音声データの再生位置の表示欄２２１が示す再生中の話者に対応する話者毎の識別子２２３ａ，２２３ｂ，・・・，２２３ｎの表示の背景色を変えてもよい。もしくは、フィードバック処理部３３０は、その話者の識別子の表示の輝度を変える／点滅表示する、等の任意の表示が可能な映像信号（表示信号）を出力してもよい。さらに、フィードバック処理部３３０は、その話者の識別子に近傍に発話マーク２１５を表示してもよい。

フィードバック処理部３３０が出力する表示信号は、話者毎の識別子に関して、音声データの再生位置（時間）の表示欄２２１（第２の表示領域４１２）の表示及び話者表示領域２１２の表示のそれぞれにおいて、例えば表示色を共通にして表示するための映像信号（表示信号）を出力してもよい。

図５において、タイムバー２１１は、再生中コンテンツの先頭位置（００時間００分）から終端位置（ｈｈ時間ｍｍ分、例えば３時間００分）を、タッチスクリーンディスプレイ２０のＬＣＤ２１の表示領域内に、所定の長さで表示する。ロケーター２１１ａは、再生中コンテンツの先頭位置から現在の再生位置までの経過時間（経過状態）を、タイムバー２１１上において、タイムバー２１１の全長を比例分配したコンテンツの先頭位置からの位置に、表示する。従って、ロケーター２１１ａの移動量は、タイムバー２１１の全長、すなわち再生中コンテンツの総時間に依存する。このように、録音／再生プログラム２０２は、再生中コンテンツの再生位置をユーザがタイムバー２１１上のロケーター２１１ａをシークして再生する場合、音声の再生開始位置をユーザの指定位置近傍の所定の位置に、自動的に調整することができる。

図５に示す画面２１０においては、第１の表示領域４１１が表示する情報やステータスは、タッチおよびドラック操作のみ可能である、一方、第２の表示領域４１２が表示する情報やステータスは、スワイプ操作による指示入力が可能である。すなわち、録音／再生プログラム２０２は、音声データをスワイプで操作できる。その際、スワイプの強さによってスキップする話者区間の数を変更することができる。

次に、録音／再生プログラム２０２により音声データを再生する際の、再生開始位置の自動調整について説明する。図１に示す録音／再生アイコン２９０により録音／再生プログラム２０２が実行され、録音／再生プログラム２０２に起動指示が指示入力される、として制御部３２０の動作の一例を説明する。

図６は、音声再生において、再生開始位置を自動的に調整する自動調整の概念を示す。

ユーザが、図５に示したタイムバー２１１上で、ロケーター２１１ａを移動（スワイプ）して任意の位置で指をタッチパネル２２から離すことでシーク位置（図６の[i]）を特定する。シーク位置の特定は、図３に示した制御部３２０のシーク位置検出部３２１が受け持つことはいうまでもない。

次に、シーク位置の近傍（図６の[ii]）の音声データをバッファリングし、シーク位置近傍の音声区間の先頭である無音区間を検出する。これにより、再生開始位置として利用する自動調整位置（図６の[iii]）が設定される。すなわち、録音／再生プログラム２０２における再生開始位置を自動調整する。再生開始位置の自動調整は、制御部３２０の再生開始位置調整部３２２が受け持つことは、上述の通りである。

図７を用いて、図６に示した再生開始位置の自動調整のフローチャートを説明する。タイムバー２１１及びロケーター２１１ａは、図５に示した表示例に対応する。

ブロックＢ１で、ユーザによるタイムバー２１１上のロケーター２１１ａの移動後の位置を、シーク位置（ユーザ指定位置）として一時的に記憶する。

ブロックＢ２で、シーク位置の音声データの近傍の音声データをバッファリングする。

ブロックＢ３で、バッファリングした音声データについて、その振幅が閾値γの絶対値よりも小さい範囲を、無音区間（無音時間）と判定する。

ブロックＢ４で、無音区間と判定された音声データについて、どの無音区間のうちのいずれの位置より再生を開始するか、を決定（特定）する。

ブロックＢ５で、特定された無音区間（位置）を再生開始位置として、自動調整する。

図８は、図７に示した再生開始位置の自動調整を、より具体的に示す波形図である。

ユーザ操作により特定されたシーク位置から、少なくともシーク位置よりも時間軸上で前側になる（時間的に早い）音声データ（音声の一群）の先頭を検出する。音声の一群は、任意の話者の発言（発声）のうちの、以下で説明する無音区間として区切ることのできる一つの区切りを示す。音声の一群は、複数のユーザによる会話や会議、音楽の演奏、あるいはテレビ放送の番組（コンテンツ）中のシーンの切り替わり、等であってもよい。

音声データの先頭を検出するために、始めにシーク位置を概ね中心とするその前後の時間的な変化を含む所定時間分の音声データをバッファリングする。

次に、バッファリングした音声データについて、その振幅が閾値γの絶対値すなわち閾値γと閾値−γとの範囲内よりも小さい範囲を、無音区間（無音時間）Ｚとして検出する。

以下、無音区間として無音判定された音声データについて、連続数をカウントして無音区間Ｚｓ（ｓ＝１，２，３，…，ｎ、ｎは、正の整数）を推定する（一つ以上の区切りを特定する）。最後に、無音区間Ｚｓのいずれかの位置に、再生開始位置を自動調整する。

ここで、無音区間Ｚｓからのいずれを選出する（何番目の区間を再生する）かについては、最もシーク位置に近い区間であっても良いし、無音区間が最も長い区間であってもよい。それ以外にも、会話の切り替わりの最適値（無音区間の長さ）を事前に評価し、評価した無音区間の長さに最も近い無音区間を伴った区切りを、再生開始位置としてもよい。無音区間の長さは、例えば３〜４秒、あるいは２〜３秒、もしくは１〜２秒である。無音区間の中で、どの位置にシークさせるか（再生開始位置を無音区間のどの位置にするか）についても、無音区間の中間点、終点もしくは先頭、等、いずれでも構わない。

次に、録音／再生プログラム２０２による保存された音声の再生及び音声の録音、ならびに録音前の設定について、ＰＣ本体１０のタッチパネル２２の表示面の画像表示２１０の表示例とともに説明する。

図５で既に説明した再生中画面は、録音／再生プログラム２０２が含む「録音開始前」画面２１０−１（図９（ａ））、「録音中」画面２１０−２（図９（ｂ））及び「再生中」画面２１０−３（図９（ｃ））のそれぞれの画面のうちのユーザ操作（指示入力）に対応して表示された「再生中」画面２１０−３（図９（ｃ））に相当する。録音／再生プログラム２０２の動作時の画面について、図１０〜図１７、図２０、図２２〜図２４により、拡大表示あるいは説明のための模式的な表示を付属させて説明する。

図９に一例を示す録音／再生プログラム２０２が含む「録音開始前」画面２１０−１、「録音中」画面２１０−２及び「再生中」画面２１０−３のそれぞれは、ユーザ操作（指示入力）に対応して、その都度、遷移する。図９（ａ）、図９（ｂ）及び図９（ｃ）、ならびに図１０〜図１７、図２０、図２２〜図２４は、画面例を表示するが、タッチパネル２２は、ＬＣＤ２１が表示する画面に対応する制御入力が可能であることはいうまでもない。

図９（ａ）に示す「録音開始前」画面２１０−１は、例えばインデックス表示２２７を、画面２１０−１を左右２分割表示とした表示の左右の一方に含む。図１０は図９（ａ）を拡大した画面を示す。

図９（ａ）及び図１０における「録音開始前」画面２１０−１のインデックス表示２２７は、既に録音され、保存されている記録済みのレコード名を表示する。

図１１は図９（ｃ）を拡大した画面を示す。図９（ｃ）が示す「再生中」画面２１０−３及び図１１が示す画面１０１１は、図５により既に説明した表示例と実質的に同一であるから詳細な説明を省略するが、第１の表示領域４１１に、タイムバー２１１とロケーター２１１ａ、戻るボタン２４０等を含む。第２の表示領域４１２は、音声コンテンツ（音声データ）の再生位置（時間）を表示する再生位置表示欄２２１、発言バー２２２ａ，２２２ｂ，・・・，２２２ｎ、話者識別子２２３ａ，２２３ｂ，・・・，２２３ｎ、現在位置マーク（ライン）２２４、マーキングボタン２２５等を含む。第３の表示領域４１３は、一時停止ボタン２３１／再生ボタン２３２、停止ボタン２３３、スキップボタン（進む）２３４Ｆ、スキップボタン（戻る）２３４Ｒ、スロー再生ボタン２３５、高速再生ボタン２３６、マークスキップボタン（進む）２３７Ｆ、マークスキップボタン（戻る）２３７Ｒ、マーク一覧表示ボタン２３８、リピートボタン２３９等を含む。第３の表示領域４１３は、画面２１０内の表示形式を後段に説明するスナップビュー画面との間で切り替える表示切り替えを指示入力可能な表示切り替えボタン２４１も含む。

表示切り替えボタン２４１をタッチまたはタップすると、図１２に示すように、画面１１１１が左右に２分割され、一方（例えば、左）に第１の表示領域４１１、第２の表示領域４１２、第３の表示領域４１３が、他方（例えば、右）にスナップビュー画面２４５が表示される。スナップビュー画面２４５は、例えば特定された個々の話者の発言バー毎に、その開始時間と終了時間とを、順に表示する。

図９（ｃ）もしくは図１０〜図１２において、例えば第１の表示領域（［レコード名、認識された話者／全体ビュー、ステータス］欄）４１１内の任意の場所をタップすると、タップされた位置に対応する再生時間の近傍の音声データの再生を実行する制御コマンドを、ＰＣ本体１０のＣＰＵ１０１に入力可能である。

第２の表示領域（［拡大ビュー、ステータス］欄）４１２が表示する任意の場所の表示をドラッグした場合には、実質的にシーク操作と同様の表示制御及び再生位置の変更（設定）が可能である。話者識別の表示方法として、選択した話者の表示のみの表示色を変更することが可能である。発言が短い場合においても、最低ピクセル数にて話者を特定可能に、表示することができる、さらに、第２の表示領域４１２内の中央底部付近に、再生中の発言（音声の一群）の再生時間あるいは発言の総時間もしくは同一の話者の発言の時間を合計した話者別総時間、等の時間表示２４３を表示することが可能である。

拡大ビュー（第２の表示領域）４１２においては、拡大部分全体を左右にドラッグして、再生位置を微調整するための制御コマンドを入力可能である。

拡大ビュー時に、拡大表示部分を、例えばフリックあるいはスワイプによりスクロールした場合は、上述の録音／再生プログラム２０２の起動及び動作により、音声データの再生開始位置を発言（音声データ）の先頭の位置に自動調整（スナップ）する。スクロールは、慣性をつけた表示（動作）であることが好ましい。

図１２に示す画面１１１１においては、スナップビュー画面２４５を表示したことにより、第１の表示領域４１１、第２の表示領域４１２、第３の表示領域４１３のそれぞれの表示幅が狭くなる。このため、例えば話者表示領域２１２が表示する話者数が表示領域のサイズに収まりきらない場合に、スクロールを促すために一部を途切れさせた「見切れ表示（Ticker，特定範囲内に文字列を流して（都度、ある文字の表示位置を一方向に変化させて）表示する）」が可能である。

図１３は、マーク一覧表示ボタン２３８のタッチまたはタップにより、マーキングボタン２２５が付与されている全ての発言バーを、ファイル一覧表示２５１としてポップアップ表示により表示した表示例である。図１３に示すマーキングボタン２２５が付与されているファイル一覧表示２５１は、任意の話者の音声データの再生中に、マーキングボタン２２５をタッチまたはタップしてマーキングすることにより、マーキングされた話者の音声データの個数及び個々の音声データの録音された時間の総時間に対する概略の位置（総時間に対して、どのあたりの時間に録音されているか）を表示することも可能である。

図１４は、図９（ｃ）もしくは図１０〜図１２において例示した第１の表示領域４１１が表示する表示時間の全長を１／４時間（１５分）とした「再生中」画面が表示するタイムバーの表示例である。すなわち、図１４に示すように、図１１において現在再生位置２２４に差しかかって再生されている話者の発言（発言バー２２２ｄ及び話者識別表示［Ｄ］２２３ｄ）の発言についてタイムバー２１１の表示範囲を変更することにより、対応する１つの発言バーが表示する音声データの再生位置を、より詳細に表示することができる。拡大ビューにおいては、拡大部分全体の表示幅（横いっぱい）において、約３０秒とする。

図１５は図９（ｂ）を拡大した画面を示す。図９（ｂ）に示す「録音中」画面２１０−２及び図１５に示す「録音中」画面１４１０は、第１の表示領域１４１１に、タイムバー表示及びロケーター表示を持たず、録音時間表示部２１０−２１（図１５における２６１）に、録音時間（経過時間）を表示する。この例では、録音に際しては、話者判定部３２３による話者判定を行なわないとする。そのため、話者を表示する話者表示領域２１２には、フィードバック処理部３３０からの出力として、例えば「−」，・・・，［−］等の再生時とは異なる動作中であることを表示するための映像信号（表示信号）を出力し、表示してもよい。既に保存されている音声データすなわち録音済リストを表示可能な［リスト表示］欄２２７を表示するためのリスト表示ボタン２１３が、所定の位置に表示される。

第２の表示領域１４１２には、録音中であってもリアルタイムに解析可能な一部の情報、例えば音声区間の検出結果（発言バー）２２２ａ〜２２２ｎ、のみを表示する。現在の録音時間（位置）を表示する現在位置マーク（ライン）２２４は、再生中に比較して、表示欄２２１の右側の所定の位置に、移動されてもよい。

マーキングボタン２２５は、発言バー２２２ａ−２２３ｎの長さ方向（時間）の概ね中央近傍に表示され、マーキングボタン２２５付近をタップすることにより、録音中の発言単位に、マーキングすることが可能である。

第３の表示領域１４１３には、一時停止ボタン２３１／録音ボタン２６２、停止ボタン２３３、戻るボタン２４０、等を含む。第３の表示領域４１３は、画面２１０内の表示形式を図１５に一例を示すスナップビュー画面との間で切り替える表示切り替えを指示入力可能な表示切り替えボタン２４１を含む。なお、一時停止ボタン２３１と録音ボタン２６２とは、タッチまたはタップされる毎に、トグル方式により交互に表示される。従い、録音ボタン２６２にタッチまたはタップすることで、現在の話者の発言の録音が開始される。また、録音ボタン２６２により現在の話者の発言が録音されている状態においては、一時停止ボタン２３１が表示される。従い、一時停止ボタン２３１にタッチまたはタップされた場合、録音が一時的に停止され、録音ボタン２３２が表示される。

図１６に一例を示すスナップビュー画面においては、画面１５１１のように、第１の表示領域１４１１、第２の表示領域１４１２、第３の表示領域１４１３が、画面１７１１を左右２分割表示した左右の一方に、スナップビュー画面２７１が他方に表示される。スナップビュー画面２７１は、例えば特定された個々の音声区間毎に、その開始時間と終了時間とを、順に表示することができる。

スナップビュー画面においては、［全体ビュー／タイムライン、ガイド］欄（第１の表示領域）１４１１中の音声区間領域１４１２において、検出できた音声区間数が表示領域のサイズに収まりきらない場合に、スクロールを促すために一部を途切れさせた「見切れ表示（Ticker，特定範囲内に文字列を流して（都度、ある文字の表示位置を一方向に変化させて）表示する）」が可能である。これにより、録音された音声区間が音声区間領域１４１２における表示数よりも多いことをユーザに報知できる。

図１７は、録音中の画面の別の表示の一例を示す。例えば、画面２１０内に、音声／音響の入力のある方向すなわち話者の居る方向を推定した結果を示す話者方向マーク２１９を表示し、検出している音声の発話者の居る方向を表示してもよい。

図１５〜図１７に示す音声区間は、録音が終了した以降の所定のタイミングで、録音した全データについて統計解析（クラスタリング分析）され、話者特定される。特定された話者については、再生中表示に際して、話者表示に更新される。

上述した録音／再生プログラム２０２の再生開始位置調整部３２２が検出した無音区間を用いることにより、保存されている録音された音声データを、図１８もしくは図１９に示すように、編集できる。図１８は、例えば録音した音声データの一部区間の削除の一例を示す。図１９は、音声データのうちの必要情報の切り出し（トリミング）の一例を示す。すなわち、図１８あるいは図１９に示す編集においても、対象となる音声データの先頭を、容易に設定できる。

例えば、図１８に示すように、図５に２１１と示したタイムバーの所定の位置に位置するロケーター２１１ａ（図５参照）のユーザの指による移動による（指示入力）［ａ］、［ｂ］、［ｃ］により、録音した音声データの一部区間を削除することができる。

はじめに、タイムバー２１１のロケーター２１１ａに対するユーザの指の第１の動作［ａ］、例えばタイムバー２１１が延びる方向と直交する方向からタイムバー２１１へ向かう動作を検出する。

次に、ロケーター２１１のタイムバー２１１上のユーザの指による移動（第２の動作）［ｂ］を対象区間の設定動作と判断する。

次に、ユーザの指の移動方向（第３の動作）［ｃ］に基づいて、ユーザが指示入力する処理の内容を特定する。

例えば、ユーザの指の移動方向が［ｂ］による対象区間の設定のための指の移動方向と概ね直交する場合であって、その移動方向が、タッチパネル２２の表示面が表示する画像表示の基底部（正立表示した画面の底辺）に向かう方向である場合に、『削除』と定義する。

このとき、ユーザの指の第１の動作［ａ］及びユーザの指の第３の動作により特定するユーザの指の第２の動作の終端位置［ｂ］のそれぞれにおいて、上述の自動調整を、適用できる。

すなわち、ユーザは、時間軸上に表示された音声データの一部区間のデータを削除する場合、削除開始位置（音声区間の先端）及び削除終了位置（音声区間の後端）を、タッチパネル２２が表示するタイムバー２１１上で、おおまかに指示（入力）するのみで、削除する音声データの区間を、音声区間の先端の無音区間からその音声区間の後端の無音区間の範囲に、容易に設定できる。これにより、録音した音声データの一部区間を削除する場合に、直感的に削除区間を設定することができる。

図１９は、図５に２１１と示したタイムバーの所定の位置に位置するロケーター２１１ａ（図５参照）のユーザの指による移動による（指示入力）［ｄ］、［ｅ］、［ｆ］により、録音した音声データの一部区間（必要情報）の切り出し（トリミング）を行う例を示す。

はじめに、タイムバー２１１のロケーター２１１ａに対するユーザの指の第１の動作［ｄ］、例えばタイムバー２１１が延びる方向と直交する方向からタイムバー２１１へ向かう動作を検出する。

次に、ロケーター２１１のタイムバー２１１上のユーザの指による移動（第２の動作）［ｅ］を対象区間の設定動作と判断する。

次に、ユーザの指の移動方向（第３の動作）［ｆ］に基づいて、ユーザが指示入力する処理の内容を特定する。

例えば、ユーザの指の移動方向が［ｅ］による対象区間の設定のための指の移動方向と概ね直交する場合であって、その移動方向が、タッチパネル２２の表示面が表示する画像表示の上方（正立表示した画面の頂部）に向かう方向である場合に、『切り出し（トリミング）』と定義する。

このとき、ユーザの指の第１の動作［ｄ］及びユーザの指の第３の動作により特定するユーザの指の第２の動作の終端位置［ｄ］のそれぞれにおいて、上述の自動調整を、適用できる。

すなわち、ユーザは、時間軸上に表示された音声データの一部区間のデータを切り出す（トリミングする）場合、対象となる音声区間の先端（開始位置）及び後端（終了位置）を、タッチパネル２２が表示するタイムバー２１１上で、おおまかに指示（入力）するのみで、切り出す（トリミングする）音声データの区間を、音声区間の先端の無音区間からその音声区間の後端の無音区間の範囲に、容易に設定できる。

これにより、録音した音声データの必要情報の切り出し（トリミング）の対象となる区間を、直感的に設定することができる。

図１８または図１９に示す上述の処理例においては、以下に説明する話者特定と関連付けて、同一の話者の先話（判定された区間が異なる複数の同一の話者の音声データ）を全て切り出して保存することも可能である。この場合、例えばＵＩ（User Interface）画面を表示し、特定された区間のみの音声データの保存であるか、同一話者に関する全ての音声データの保存であるか、の指示入力を、ユーザに選択させるようにしてもよい。

上述した実施の形態においては、タイムバー上のロケーターの操作以外に、話者識別結果を表示する音声録音コンテンツの場合、タイムバーの表示範囲に応じて、話者識別された発話区間の先頭から再生するように、自動調整してもよい。

上述した実施の形態においては、タイムバー上のロケーターの操作以外に、話者識別結果を表示する音声録音コンテンツの場合、タイムバーの表示範囲に応じて、シーク位置近傍の音声データをバッファリングし、区間判定を行うことで、再生位置を自動調整してもよい。

上述した実施の形態においては、タイムバー上のロケーターの操作以外に、話者識別結果を表示する音声録音コンテンツの場合、タイムバーの表示範囲に応じて、あえて自動調整は行わないようにしてもよい。

上述した実施の形態においては、タイムバーの表示範囲は、ズームイン・ズームアウト操作で切り替えられるようにしてもよい。

上述した実施の形態においては、タッチパネルからユーザ指示を入力する場合、ズームイン・ズームアウト操作は、通常のボタン以外に加え、ピンチイン・ピンチアウトで操作してできるようにしてもよい。

上述した実施の形態においては、図１８及び図１９により説明した編集時のように、タイムバー上のロケーターの操作以外にも、音声ファイル切り出し、等の編集操作を行う場合の範囲指定において、指定近傍の音声データをバッファリングし、区間判定を行うように自動調整してもよい。その場合、タッチパネルからのユーザ指示入力に際して、編集操作時のトリミング（切り出し保存）、区間削除の指示入力として、フリックが利用可能であるようにしてもよい。

図２０は、録音中の画面のさらに別の表示の一例を示す。「録音中」画面１４１０は、第１の表示領域１４１１に、タイムバー及びロケーターを表示せず、録音時間表示部２１０−２１に、録音時間（絶対時間でもよいが、ここでは経過時間）（例えば、００時５０分０２秒）たとえば、を表示する。この例では、録音の最中に話者判定部３５８が話者判定を行なう。話者判定部３５８は、区間判定部３５４で音声区間が検出されると、マイク１２Ｒ、１２Ｌの入力信号の差から音声の方向推定を行い、その推定結果に基づき、話者の方向を特定することができる。ただし、複数の話者の位置を話者判定部３５８に予め与えておく必要がある。話者が特定されると、話者表示領域２１２は現在発話中の話者のアイコンの近傍に発話マーク２１５を表示する。

第２の表示領域１４１２には、録音の可視化情報として、音声区間の検出結果（発言バー）２２２ａ〜２２２ｎ、入力音声波形２２８を表示する。図の右端が現在で、左側にいく程、時間は過去になる時間軸に沿って録音データを可視化する。図２０には図示していないが、図５と同様に、発言バー２２２ａ〜２２２ｎの近傍に発話者を示す話者識別子２２３ａ〜２２３ｎを表示してもよい。あるいは、話者に応じて、発言バー２２２および／または話者識別子２２３の色を変えても良い。さらに、図２０には図示していないが、図５と同様に、所望の発言バー２２３ａ〜２２３ｎの近傍に表示されるマーキングボタン２２５付近をタップすることにより、発言単位にマーキングすることも可能である。第２の表示領域１４１２の下部には時刻を１０秒毎に表示する。

図４を参照して説明したように、パワー演算結果による波形表示と、区間判定演算によるバー表示とは処理時間に差があり、バー表示が遅れる。両者を同じ行で表示し、現在時刻を画面右端とし、左側になるにつれて時刻が過去になるとすると、右端でリアルタイムに波形２２８を表示し、波形２２８は時間の経過とともに画面の左側に流れる。波形２２８の表示とともに、区間判定部３５４が区間判定し、音声区間が検出されると、波形２２８がバー２２２に切り替わる。波形表示だけでは、音声によるパワーであるのか、雑音によるパワーであるのかが判別できないが、バー表示の併用により音声の録音が確認できる。リアルタイムの波形表示と、若干遅れるバー表示が同じ行で表示されることにより、ユーザの視線は同じ行に留まることができ、視線がバラけることなく、視認性良く有用な情報が得られる。

表示対象を波形２２８からバー２２２に切り替えるにあたり、切り替えを一瞬にして行なうのではなく、徐々に波形表示からバー表示に切り替えるために時間同期処理部３５６が設けられる。時間同期処理部３５６は波形２２８と一番右側のバー２２２ｄの間に波形／バー遷移部２２６を表示する。波形／バー遷移部２２６では一番右側では波形を表示し、一番左側ではバーを表示し、その中間は徐々に波形からバーに表示を変化する。これにより、右端に現在のパワーが波形として表示され、表示が右から左に流れ、表示が更新する過程において、波形が連続的あるいはシームレスに変化してバーに収束する。そのため、ユーザは表示を観察する際、不自然さを感じない。

図２１は図２０の表示を行なうための録音／再生プログラム２０２Ｂのフローチャートである。ブロックＢ１２で、オーディオキャプチャ１１２を介してマイク１２Ｒ、１２Ｌからの音声データがパワー演算部３５２、区間判定部３５４に入力される。パワー演算部３５２は、一定時間間隔の音声データに対して例えば二乗平均平方根を算出し、その結果をパワーとして出力する。区間判定部３５４は、音声データに対して音声区間判定(Voice Activity Detection：VAD)を行い、音声データを人間が音声を発生している音声区間と、それ以外の非音声区間（雑音区間と無音区間）とに区分する。ブロックＢ１２では、話者判定部３５８は、区間判定部３５４が判定した音声区間の話者を、マイク１２Ｒ、１２Ｌからの音声データの差に基づいて特定する。

ブロックＢ１４で、パワー演算部３５２、区間判定部３５４の出力は、時間同期処理部３５６に供給される。時間同期処理部３５６は、パワー演算部３５２と区間判定部３５４の出力の遅延時間に基づいてバー表示開始可能タイミング（例えば、００時４９分５８秒）を決定する。時間同期処理部３５６は、バー表示開始可能タイミングを含む音声区間の先頭タイミングとバー表示開始可能タイミングとの間の数秒の区間に波形／バー遷移部２２６を表示するように、音声波形描画部３６０、音声区間描画部３６２に対して制御信号を与える。

ブロックＢ１６で、音声波形描画部３６０、音声区間描画部３６２は図２０に示す第２の表示領域１４１２を更新する。すなわち、表示領域１４１２の表示を左にシフトするとともに、現在時刻の波形を右端に表示する。なお、第３の表示領域１４１３の表示、および第１の表示部１４１１の録音時間表示部２６１は図５の場合と同様にフィードバック処理部３３０が制御する。

ブロックＢ１８で、録音停止か否か判定し、録音停止するまで上述の処理を繰り返し、表示を更新し続ける。録音停止は、一時停止ボタン２３１あるいは停止ボタン２３３により指示される。

図４には示していないが、録音／再生プログラム２０２Ｂは音声認識部を含み、音声区間の最初の音声を認識して、認識結果を発言バー２２２の下にテキスト表示してもよい。こうすると、後の頭出しのために音声区間をマーキングする際に、利便性が向上する。

図２０の表示によれば、録音中にパワーの表示、音声区間の表示、音声区間の話者情報、音声区間の発言内容、必要な音声区間のマーキング等の音声の可視化が行なわれ、ユーザは有用な情報を得ることができる。例えば、録音内容の重要点をマーキングして、再生中に重要点のみを再生することができる。また、喋っているのに波形が表示されない場合、マイク（端末）の設置位置・角度の調整や、ゲインやノイズ抑圧レベル等のマイク設定の見直しを行ない、録音失敗を未然に防ぐことができる。同様に、波形が表示されているのに、発言バーが表示されない（音声区間が検出されない）場合も、マイク（端末）の設置位置・角度の調整や、ゲインやノイズ抑圧レベル等のマイク設定の見直しを行ない、録音失敗を未然に防ぐことができる。さらに、録音中に波形や発言バーが表示されると安心感がある。上記の録音失敗判定はユーザの画面の目視に基づくが、波形が所定時間以上入力されても音声区間を検出できない場合は、録音／再生プログラム２０２Ｂは録音失敗と判断し、アラームを表示、出力してもよい。

なお、上述の説明では、音声区間が検出されると、直ちに波形表示から区間表示に切り換えているが、区間表示開始をバー表示開始可能タイミングから遅延して、その分波形表示期間を長くしてもよい。さらに、波形表示からバー表示に徐々に切り替えているが、波形表示からバー表示に一気に切り替えでもよい。この画面例を図２２に示す。すなわち、区間判定部３５４が音声区間を検出するバー表示開始可能タイミング（００時４９分５６秒）で波形表示を終了し、それから前は区間表示とし、波形／バー遷移部２２６を省略してもよい。この場合でも、区間表示はバー表示開始可能タイミング以前であればどのタイミングで開始してもよい。

パワー表示と区間表示は必ずしも同一行で行なわなくてもよい。例えば、図２３に示すように波形とバーを２行に分けて表示してもよい。図２０の画面では、現在時刻は常に右端に固定であるが、図２３では、最初は現在時刻は左端で、時間の経過とともに現在時刻が右側に移動する。図２３の（ｂ）は（ａ）より時間的に後である。すなわち、現在の波形が順次右側に追加されていく。そして、現在時刻が右端まで達すると、図２０と同様に、表示が右から左に流れる。１行目に波形を、２行目にバーを表示すると、波形の表示に遅れてバーが表示される。

また、音声パワーの表示形態は波形表示に限らない。図２３において、パワーを波形ではなく、数値として一定の窓に表示してもよい。あるいは、この窓の位置は固定ではなく、図２３の波形表示の右端とし、時間の経過とともに右に移動してもよい。

図２４は波形／バー遷移部２２６の表示例の変形例を示す。図２４の（ａ）は図２０と同じであるが、波形がバー表示開始可能タイミングを含む音声区間の先頭タイミングのバーの高さまで収束するように表示を遷移させるが、図２４の（ｂ）に示すように、波形が０レベルまで収束するように表示を遷移させてもよい。また、連続的に波形からバーに表示形態を遷移させているが、多少は段階的でもよい。さらに、波形を一定間隔の振幅バー（垂直方向のバー）として表示しているが、パワーの包絡線として表示してもよい。

上述の説明はオーディオレコーダを想定したが、音声も記録するビデオカメラに応用することもできる。ビデオカメラから出力されたビデオ信号から音声データを抽出して上記と同様の可視化を行なってもよい。この場合、映像を解析して、話者の映像を取得し、発言バーの近傍に話者の顔を表示してもよい。

以下、録音／再生プログラム２０２の機能とタッチパネル２２の表示面に対応する画像表示について、さらに説明する。録音／再生プログラム２０２の動作時の画面例と、それぞれの表示に対応する機能は、以下の通りである。

［録音前］
［メイン画面］
［録音ファイルの一覧表示］
録音済みのファイルを一覧表示
−ファイル名（会議名）
−録音日時（ｙｙｙｙ／ｍｍ／ｄｄ）
（ｈｈ：ｍｍ：ｓｓ − ｈｈ：ｍｍ：ｓｓ）
−録音時間（ｈｈ：ｍｍ：ｓｓ）
−ファイルプロテクトマーク。
［録音済みファイルのシェア］
録音済みファイルをシェアできる。
［会議名の入力］
録音開始前に会議名を事前に入力できる。
［アプリバーの表示］
表示画面下部の所定の位置に「アプリバー」を表示する。
［新規録音ボタン］
録音を開始する。
［録音可能時間残量の表示］
ストレージ残量から録音可能時間を表示（ｈｈ：ｍｍ：ｓｓ）。
［ソート機能］
以下の項目で録音済みファイルのソートが可能
−作成日時が新しい順／古い順
−名前順
−参加人数が多い順／少ない順。
［使用方法説明の表示］
使用方法の説明を表示する。
［拡大ビューの表示］
リアルタイムに話者の切り替わりが分かるライン形式の表示バーを表示。

［アプリバー］
［（選択されたファイルの）削除］
（選択された）録音済みのファイルを削除。
［ファイルを選択］
録音済みファイル一覧を選択モードで表示する。
［エクスポート］
所定のフォルダに選択したファイルをエクスポートする。
［編集］
録音済みファイルの以下の項目を編集できる
−会議タイトル
−参加人数。
［選択解除］
選択済みのファイルの選択の解除。
［再生］
選択されたファイルの再生。
［全て選択］
録音済みのファイルを全て選択。

［その他］
［タブレット操作音キャンセルＯｎ／Ｏｆｆ］
ＯＮ／ＯＦＦが交互に切り替わるトグルボタン方式
ペン音やキーボードタイプ音を抑圧する。
［ノイズ除去Ｏｎ／Ｏｆｆ］
ＯＮ／ＯＦＦが交互に切り替わるトグルボタン方式
空調の音やＰＣのファンの音等を抑圧する。
［プリレコーディングＯｎ／Ｏｆｆ］
録音開始ボタンを押下する前のデータを遡って録音する。
［マイクゲインコントロールＡｕｔｏ／Ｍａｎｕａｌ］
ＡＵＴＯ／ＯＦＦが交互に切り替わるトグルボタン方式
マイクゲインの自動調整を設定できる。
［ヘルプ］
ヘルプファイルを表示。
［バージョン情報］
アプリケーションのバージョンを表示。

［録音中］
［メイン画面］
［会議名の表示］
録音前の画面で決定した会議名を表示する。
［会議名の追記・修正］
会議名を編集できる。
［会議参加者の表示］
参加者をアルファベットで表示する。
［マーキングボタンの表示］
マーキングボタンをタップすることで、該当発話区間に目印をつける。
［停止ボタンによる停止］
録音停止、録音停止後、録音前画面に遷移する。
［録音ボタンによる録音一時停止］
録音一時停止。
［録音ボタンによる録音再開］
録音再開。
［録音時間残量が少ない場合の自動停止］
録音可能時間の残量が少ない場合は自動停止する
−自動停止前にポップアップでユーザに録音停止する旨通知する。
［ユーザー通知（トースト）］
以下の動作においてユーザー通知する
−録音可能時間が少なくなった時
−バックグラウンド録音中での通知
（定期的に録音中というメッセージと録音時間を表示）。
［会議参加人数の確認・選択画面］
録音終了時にユーザに選択させる
−２〜３名が発言
−３〜５名が発言
−６名以上が発言。
［録音経過時間の表示］
録音経過時間を表示（ｈｈ：ｍｍ：ｓｓ）。
［拡大ビューの表示］
拡大ビュー時、アルファベットで話者を表示する。
［アプリバー］
［編集］
会議名及び参加人数を編集できる。

［スナップ表示］
［会議参加者の表示］
会議参加者をアルファベットで表現する。
［バックグランド］
［定期的にトーストで通知］
録音停止忘れ防止等の為に定期的に通知する。

［再生中］
［メイン画面］
［会議名の表示］
会議名を表示する。
［会議名の追記・編集］
会議名を追記・編集できる。
［会議参加者の表示］
会議参加者をアルファベットで表示する。
［再生ボタン］
再生開始。
［再生一時停止］
一時停止。
［停止ボタンによる停止］
停止、停止後ファイルを閉じることも設定により可能。
［スロー再生ボタン］
スロー再生を実行する
（０．５倍速／０．７５倍速）。
［高速再生ボタン］
高速再生を実行する
（１．２５倍速／１．５倍速／１．７５倍速／２．０倍速）。
［マーキング一覧から選ぶボタン］
マーキングファイルの一覧を表示する。
［マークスキップボタン］
マーキングボタンをスキップ再生する。
［再生位置の時間表示］
再生位置の時間を表示する。
［録音時間の表示］
録音時間を表示する。
［スキップボタンの表示］
ボタン操作で、前後の発話区間にジャンプする。
［リピートボタンの表示］
ボタン操作でリピート再生する。
［戻るボタン］
録音開始画面に戻る。
［特定話者のみ表示］
以下の条件で特定話者の発話を再生する
−拡大ビューの中から選択された参加者の発話のみ表示する
−特定話者（複数話者選択可能）の発話のみ再生する。
［時間目盛り］
実時間を表すスケールを表示する。
［再生中の発言に対するシークバー（ロケーター）の表示］
現在再生中の位置を表示する。
［再生中の発言に対するシークバー（ロケーター）のスクロール（移動）］
スクロール（移動）された再生位置をシークする。
［全体ビューの表示］
録音コンテンツの全体を表示する。
［再生位置微調整］
全体ビューの再生位置をスワイプ操作で調整する。
［再生箇所拡大表示枠］
現在再生している箇所付近を示す拡大枠を表示する。
［拡大ビューの表示］
拡大ビュー時、話者をアルファベットで表示する。
［マーキングボタンの表示］
マーキングボタンをタップすることで、該当発話区間に目印をつけることができる。
［マーキングボタンのエクスポート］
一覧表示されているマーキングボタンを選択して、エクスポートする。

［アプリバー］
［無音区間スキップＯＮ／ＯＦＦ］
無音区間のスキップＯＮ／ＯＦＦを設定する。
［特定話者のみ再生］
特定話者の発話のみ再生する。
［編集］
会議名及び参加人数を編集できる。
［スナップ表示］
［会議参加者の表示］
会議参加者をアルファベットで表現。

［全般（その他）］
［画面回転］
ランドスケープ／ポートレートに対応。
［バックグラウンド録音］
アプリケーションがバックグラウンドに遷移しても録音を継続する。
［スナップ画面のスケーリング］
アプリケーションをスナップ表示する。

なお、本実施形態の処理はコンピュータプログラムによっても実現することができるので、このコンピュータプログラムを格納したコンピュータ読み取り可能な記憶媒体を通じてこのコンピュータプログラムをコンピュータにインストールして実行するだけで、本実施形態と同様の効果を容易に実現することができる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

２０…タッチスクリーンディスプレイ、３１０…タッチ情報受信部、３３０…フィードバック処理部、３５２手…パワー演算部、３５４…区間判定部、３５６…時間同期処理部、３５８…話者判定部、３６０…音声波形描画部、３６２…音声区間描画部

Claims

マイクと、
前記マイクを介して集音された音声データの録音中を示す画面が表示されるディスプレイと、
前記音声データに対して、音声を発生している音声区間と、それ以外の非音声区間とを判定する区間判定手段と、
前記画面の前記録音中の時間軸上に、前記集音された前記音声データのパワーを示す音声波形を表示すると共に、前記音声波形が前記時間軸上に進行していくのに伴い、前記区間判定手段により判定した前記音声区間を前記音声波形から発話を示す表示形態に変更して前記ディスプレイに表示する表示制御部と、
前記音声データから発話した発話者を判定する話者判定手段と、
を有し、
前記発話を示す表示形態とは、前記話者判定手段で判定した発話者が識別可能に表示した発言バーであって、前記発言バーと前記音声波形とは同じ前記時間軸上に表示されるものである
電子機器。
前記音声波形から前記発言バーに切り替えるための同期処理手段を更に備え、
前記同期処理手段は、前記ディスプレイにリアルタイムに表示される前記音声波形と最新の前記発言バーとの間の表示を、前記音声波形から前記発言バーに徐々に変化させる請求項１記載の電子機器。
前記音声波形を表示するための前記パワーを算出する演算手段の出力と、前記区間判定手段の出力との遅延時間に基づいて、前記音声波形から前記発言バーに変化させる表示開始タイミングを決定する請求項２記載の電子機器。
マイクと、前記マイクを介して集音された音声データの録音中を示す画面が表示されるディスプレイと、を有する電子機器の方法であって、
前記画面の前記録音中の時間軸上に、前記集音された前記音声データのパワーを示す音声波形を表示し、
前記音声データに対し、音声を発生している音声区間と、それ以外の非音声区間とを判定し、
前記音声データから発話した発話者を判定し、
前記音声波形が前記時間軸上に進行していくのに伴い、前記判定した前記音声区間を前記音声波形から前記発話者が識別可能に表示した発言バーに変更し、
前記発言バーと前記音声波形とを同じ時間軸上にして前記ディスプレイに表示する
方法。
マイクと、前記マイクを介して集音された音声データの録音中を示す画面が表示されるディスプレイと、を有する電子機器のコンピュータにより実行されるプログラムであって、
前記画面の前記録音中の時間軸上に、前記集音された前記音声データのパワーを示す音声波形を表示する手順と、
前記音声データに対し、音声を発生している音声区間と、それ以外の非音声区間とを判定する手順と、
前記音声データから発話した発話者を判定する手順と、
前記音声波形が前記時間軸上に進行していくのに伴い、前記判定した前記音声区間を前記音声波形から前記発話者が識別可能に表示した発言バーに変更する手順と、
前記発言バーと前記音声波形とを同じ時間軸上にして前記ディスプレイに表示する手順と、
を前記コンピュータに実行させるプログラム。
前記ディスプレイにリアルタイムに表示される前記音声波形と最新の前記発言バーとの間の表示を、前記音声波形から前記発言バーに徐々に変化させる手順を更に実行させる請求項５記載のプログラム。
前記音声波形を表示するための前記パワーを算出する演算手段の出力と、前記音声区間を判定する手順の出力との遅延時間に基づいて、前記音声波形から前記発言バーに変化させる表示開始タイミングを決定する請求項６記載のプログラム。