JP6509516B2 - 電子機器、方法及びプログラム - Google Patents

電子機器、方法及びプログラム Download PDF

Info

Publication number
JP6509516B2
JP6509516B2 JP2014198199A JP2014198199A JP6509516B2 JP 6509516 B2 JP6509516 B2 JP 6509516B2 JP 2014198199 A JP2014198199 A JP 2014198199A JP 2014198199 A JP2014198199 A JP 2014198199A JP 6509516 B2 JP6509516 B2 JP 6509516B2
Authority
JP
Japan
Prior art keywords
display
voice
waveform
speech
recording
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014198199A
Other languages
English (en)
Other versions
JP2016071029A (ja
JP2016071029A5 (ja
Inventor
裕作 菊川
裕作 菊川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dynabook Inc
Original Assignee
Dynabook Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dynabook Inc filed Critical Dynabook Inc
Priority to JP2014198199A priority Critical patent/JP6509516B2/ja
Priority to EP15161837.8A priority patent/EP3001421A1/en
Priority to US14/688,877 priority patent/US20160093315A1/en
Publication of JP2016071029A publication Critical patent/JP2016071029A/ja
Publication of JP2016071029A5 publication Critical patent/JP2016071029A5/ja
Application granted granted Critical
Publication of JP6509516B2 publication Critical patent/JP6509516B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/44Browsing; Visualisation therefor
    • G06F16/447Temporal browsing, e.g. timeline
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L21/12Transforming into visible information by displaying time domain information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明の実施形態は音声を録音する電子機器に関する。
従来、電子機器で音声を録音する際、録音中の音声を可視化したい要求があった。一例として、入力音声を分析し、人間が音声を発生している音声区間と、それ以外の非音声区間(雑音区間と無音区間)とを区別して表示する電子機器がある。他の例として、発言内容の確認を簡単に行なうことができる電子機器がある。
特開2010−54991号公報 特開2011−102862号公報
従来の電子機器は録音音声を可視化する際、ユーザに有用な情報を提供していないという課題があった。
本発明の目的は録音音声を可視化する際、ユーザに有用な情報を提供する電子機器、方法及びプログラムを提供することである。
実施形態の電子機器によれば、マイクと、前記マイクを介して集音された音声データの録音中を示す画面が表示されるディスプレイと、前記音声データに対して音声を発生している音声区間と、それ以外の非音声区間とを判定する区間判定手段と、前記画面の前記録音中の時間軸上に、前記集音された前記音声データのパワーを示す音声波形を表示すると共に、前記音声波形が前記時間軸上に進行していくのに伴い、前記区間判定手段により判定した前記音声区間を前記音声波形から発話を示す表示形態に変更して前記ディスプレイに表示する表示制御部と、前記音声データから発話した発話者を判定する話者判定手段と、を有する。前記発話を示す表示形態とは、前記話者判定手段で判定した発話者が識別可能に表示した発言バーであって、前記発言バーと前記音声波形とは同じ前記時間軸上に表示されるものである
図1は、一実施形態の電子機器の一例を示す平面図である。 図2は、一実施形態の電子機器のシステム構成の一例を示すブロック図である。 図3は、一実施形態の電子機器の録音/再生プログラムの再生に関する部分の構成を示す図である。 図4は、一実施形態の電子機器の録音/再生プログラムの録音に関する部分の構成を示す図である。 図5は、一実施形態の電子機器の録音/再生プログラムにより録音した音声データの再生時の音声データ表示画面の例を示す図である。 図6は、一実施形態の電子機器の録音/再生プログラムによる再生開始位置の自動調整の概念を示す図である。 図7は、一実施形態の電子機器の録音/再生プログラムによる再生開始位置の自動調整の処理の流れを示すフローチャートである。 図8は、図7に示した再生開始位置の自動調整を具体的に示す波形図である。 図9は、一実施形態の電子機器の録音/再生プログラムによる「録音開始前」、「録音中」、「再生中」画面の一例を示す図である。 図10は、図9(a)に示す「録音開始前」画面例を拡大して示す図である。 図11は、図9(c)に示す「再生中」画面例を拡大して示す図である。 図12は、表示切り替えにより画面が二分割された状態の一例を示す図である。 図13は、ファイル一覧表示の一例を示す図である。 図14は、「再生中」画面が表示するタイムバーの一例を示す図である。 図15は、図9(b)に示す「録音中」画面例を拡大して示す図である。 図16は、スナップビュー画面の例を示す図である。 図17は、「録音中」画面の別の一例を示す。 図18は、録音した音声データの一部区間の削除の一例を示す。 図19は、音声データのうちの必要情報の切り出し(トリミング)の一例を示す。 図20は、「録音中」画面のさらに別の一例を示す。 図21は、図20に示す「録音中」画面を表示する処理の一例を示すフローチャートである。 図22は、「録音中」画面のさらに他の一例を示す。 図23は、「録音中」画面のさらに他の一例を示す。 図24は、「録音中」画面のさらに他の一例を示す。
図1は実施の一形態である電子機器1の一例の平面図を示す。電子機器1は、例えばタブレット型パーソナルコンピュータ(携帯可能なPC(Personal Computer))、スマートフォン(多機能携帯電話装置(Smart Phone))あるいはPDA(携帯端末装置(Personal Digital Assistant))等である。以下、タブレット型パーソナルコンピュータを、電子機器1として説明する。以下に説明する要素や構成は、ハードウェアを用いて実現できるが、マイクロコンピュータ(処理装置、CPU(Central Processing Unit))を用いるソフトウェアによっても実現できる。
タブレット型パーソナルコンピュータ(以下、タブレット端末装置と略称する)1は、本体ユニット(PC本体)10とタッチスクリーンディスプレイ20と、を含む。
PC本体(本体ユニット)10の前面の所定の位置、例えば上端中央部には、タッチスクリーンディスプレイ20の前方に存在する撮影対象、例えばユーザやユーザとその背景あるいはユーザの周囲に位置に位置する物体、等の情報を映像(画像情報)として取り込むカメラユニット11が位置する。PC本体10の前面の他の所定の位置、例えばカメラユニット11の左右には、ユーザあるいはユーザとその周囲に存在する任意数の人が発生する音声及び/または騒音、風等の周辺の音響(以下、音声と音響の両者を音声と称する場合もある)を取り込む第1及び第2のマイクロフォン12R,12Lが位置する。第1及び第2のマイクロフォン12R,12Lは、例えばカメラユニット11を仮想的中心とし、カメラユニット11から実質的に等距離に位置する。本実施形態ではマイクロフォンが2つ設けられた形態を例示するが、設けられるマイクロフォンは1つであってもよい。マイクロフォンが2つ設けられていれば、音声の入力方向を推定し、その結果に基づいて話者を特定することができる。
PC本体10のさらに他の所定の位置、例えば下端の左右端部には、PC本体10に録音されている音声を再生するスピーカ13R,13Lが位置する。PC本体10のさらに他の所定の位置には、詳述しないが、電源オンスイッチ(パワーボタン)、ロック機構及び認証ユニット、等が位置する。パワーボタン(電源オンスイッチ)は、タブレット端末装置1の利用を可能とする(タブレット端末装置1を起動する)ための電源のオン/オフを制御する。ロック機構は、例えば持ち運び時のパワーボタン(電源オンスイッチ)の動作をロックする。認証ユニットは、例えばユーザを認証するために、ユーザの指や掌と関連付けられる(生体)情報を読み取る。
タッチスクリーンディスプレイ20は、液晶表示ユニット(LCD(Liquid Crystal Display)/表示ユニット)21とタッチパネル(指示入力受けつけユニット)22と、を含む。タッチパネル22は、少なくともLCD21の表示面(画面)を覆うように、PC本体10の所定の位置に設けられている。
タッチスクリーンディスプレイ20は、外部オブジェクト(タッチペンもしくはユーザの手の指等の体の一部)が接触する表示画面上の指示入力位置(タッチ位置もしくは接触位置)を検知する。タッチスクリーンディスプレイ20は、同時に複数の指示入力位置を検知可能なマルチタッチ機能を有する(サポートしている)。外部オブジェクトは上述の通りタッチペンやユーザの指等の体の一部のいずれでもよいが、以降の説明ではユーザの指を例示して説明を行う。
タッチスクリーンディスプレイ20は、タブレット端末装置1における各種アプリケーションプログラムの画面や画像表示(オブジェクト)を表示するメインディスプレイとして使用される。タッチスクリーンディスプレイ20は、PC本体10の起動時に、ユーザが起動しようとする任意のアプリケーションプログラムの実行開始(起動)を外部オブジェクトによる指示入力により受けつけ、任意数の起動されたアプリケーションプログラムについてのアイコンを表示する。タッチスクリーンディスプレイ20の表示画面の向きは、横向き(ランドスケープ)と縦向き(ポートレート)との間で切り替えることができ、図1は、ランドスケープ時の起動完了画面の表示の一例を示している。
図2に、タブレット端末装置1のシステム構成の一例を示す。
タブレット端末装置1のPC本体10は、CPU(Central Processing Unit)101、主メモリ103、グラフィクスコントローラ105、サウンドコントローラ106、BIOS−ROM107、LANコントローラ108、不揮発性メモリ109、バイブレータ110、加速度センサ111、オーディオキャプチャ(ボード)112、無線LANコントローラ114、エンベデッドコントローラ(EC,Embedded Controller)116、等を備え、これらはシステムコントローラ102に接続される。
CPU101は、PC本体10とタッチスクリーンディスプレイ20の各部の動作を制御する。すなわち、CPU101は、不揮発性メモリ109から主メモリ103にロードされる、オペレーティングシステム(OS)201、および各種アプリケーションプログラムを実行する。アプリケーションプログラムの1つは、図3、図4に概略を示す録音/再生プログラム202を含む。録音/再生プログラム202は、OS(オペレーティングシステム)201上で実行されるソフトウェアである。録音/再生機能は、例えば1チップマイコン等により構成する録音/再生プロセッサ121を用いてソフトウェアではなく、ハードウェアにより実現することもできる。
CPU101は、BIOS−ROM107に格納されたBIOSも実行する。BIOSは、ハードウェア制御のためのプログラムである。
システムコントローラ102には、主メモリ103をアクセス制御するメモリコントローラも内蔵されている。システムコントローラ102は、PCI EXPRESS規格のシリアルバスなどを介してグラフィクスコントローラ105との通信を実行する機能も有している。
グラフィクスコントローラ105は、PC本体10のタッチスクリーンディスプレイ20のLCD21を制御する表示コントローラである。グラフィクスコントローラ105が生成する表示信号がLCD21に送られ、LCD21は、表示信号に基づいて映像を表示する。LCD21上に位置するタッチパネル22は、LCD21の画面が表示する表示に対応する入力信号を入力するためのポインティングデバイス(ユーザ操作指示入力機構)である。ユーザは、LCD21の画面に表示されたグラフィカルユーザインタフェース(GUI)等に、タッチパネル22によりユーザ操作すなわち指示入力を入力することができ、これによりPC本体10を操作することができる。すなわちユーザは、LCD21が表示する起動アイコンやLCD21が表示するボタンをタッチパネル22を通じてタッチすることで、起動アイコンやボタンに対応する機能の実行を指示することができる。
システムコントローラ102は、各種USBデバイスを制御するためのUSBコントローラを内蔵している。システムコントローラ102は、サウンドコントローラ106及びオーディオキャプチャ112との通信を実行する機能も有している。カメラ11が取得(撮影)する画像データ(動画/静止画)は、カメラ11において所定のフォーマットに変換され、システムコントローラ102を通じて主メモリ103上で動作する画像処理プログラムに供給される。従って、カメラ11からの画像データは、ユーザの要求に応じて起動する、カメラ11からの画像データに対応するフォーマットの画像を再生可能な画像処理プログラムにおいて再生され、LCD21に表示される。カメラ11からの画像データは、例えば不揮発性メモリ109に記憶される。
サウンドコントローラ106は、音源デバイスであり、再生対象の音声データをアナログ出力に変換した後、スピーカ13R,13Lに出力する。
LANコントローラ108は、例えばIEEE 802.3規格の有線通信を実行する有線通信デバイスである。
バイブレータ110は、PC本体10に対し、必要に応じて振動(バイブレーション)を与える。
加速度センサ111は、タッチスクリーンディスプレイ20の表示画面のポートレートとランドスケープとの間の切り替えのためのPC本体10の回転や、ユーザの指の動きのうちの衝撃の強さ、等を検出する。
オーディオキャプチャ112は、マイク12R(例えばカメラ11の右側に位置する)及び12L(カメラ11の左側に位置する)のそれぞれが取得する音声や音響をアナログ−デジタル変換し、デジタル信号を出力する。オーディオキャプチャ112は、どちらのマイクへの入力信号のレベルが大きいかを示す情報を主メモリ103上で動作する録音/再生プログラム202へ、システムコントローラ102を通じて入力することもできる。録音/再生プログラム202はこの情報に基づき、話者の方向を推定することができる。オーディオキャプチャ112は、録音/再生プログラム202において利用可能な所定の前処理の一部あるいは全部を分担することも可能である。
無線LANコントローラ114は、例えばIEEE 802.11規格の無線通信を実行する無線通信デバイスである。
EC116は、電力管理のためのエンベデッドコントローラを含む、1チップマイクロコンピュータである。EC116は、ユーザによるパワーボタンの操作に応じたPC本体10の電源オン/電源オフを制御する。
次に、録音/再生プログラム202の構成例を説明する。録音/再生プログラム202は、音声の録音機能、保存された音声の再生機能、保存された音声の編集機能を有している。説明の便宜上、録音に関する部分と、再生・編集に関する部分とに分けて説明する。先ず、図3を参照して録音/再生プログラム202の再生、編集に関する部分202Aを説明する。録音/再生プログラム202Aは、再生・編集機能を実現するための機能モジュールとして、少なくともタッチ情報受信部310、制御部320、フィードバック処理部330及びタイムバー表示処理部340を備える。
タッチ情報受信部310は、ユーザの指示(ユーザの指の動作)毎に、第1の座標情報、第2の座標情報及びユーザの指の動きの情報を、タッチパネルドライバ201Aを経由してタッチパネル22から受け取り、制御部320に出力する。第1の座標情報は、ユーザの指がタッチパネル22の表示面の任意の位置に触れた位置の座標情報(x,y)である。第2の座標情報は、ユーザの指がタッチパネル22の表示面から離れた位置の座標情報(x´,y´)である、ユーザの指の動き情報は、第1の座標情報(x,y)と第2の座標情報(x´,y´)との間のユーザの指の動き、あるいは第2の座標情報に付属するユーザの指の動き、例えば指が離れる際の方向の情報、等を含む。
本実施形態でのユーザの操作入力(ユーザの指の動作)とその呼称は、以下のとおりとする。
[1] タッチ:ユーザの指が一定期間、タッチパネル22の表示面上の所定の位置に位置する(第1の座標情報と第2の座標情報が実質的に同一であって、一定時間経過後、表示面とほぼ直交する方向に離される)。
[2] タップ:ユーザの指が、タッチパネル22の表示面上に任意の位置に所定時間触れた後、表示面と直交する方向に離される(タッチと同義に扱われる場合もある)。
[3] スワイプ:ユーザの指がタッチパネル22の表示面の任意の位置に触れた後、任意の方向に移動する(第1の座標情報と第2の座標情報との間に指の動き情報を含む、すなわち、表示面をなぞるようにユーザの指が表示面を移動する)。
[4] フリック:ユーザの指がタッチパネル22の表示面の任意の位置に触れた後、任意の方向に向けて掃われるように移動し、表示面から離される(タップにおいてユーザの指が表示面から離れる際に、方向の情報をともなう)。
[5] ピンチ:ユーザの2本の指がタッチパネル22の任意の位置に触れた後、表示面で指の間隔を変更する。特に、指の間隔を広げる(指を開く)場合をピンチアウト、指の間隔を狭める(指を閉じる)場合をピンチイン、と称する場合もある。
制御部320は、タッチ情報受信部310が出力する第1の座標情報、第2の座標情報及びユーザの指の動き情報に基づいて、上述の[1]〜[5]のユーザの指の動きの情報により特定されるユーザの動作(ユーザの指示入力)に対応するプログラム(アプリケーション)を起動する。制御部320は、以下に説明するキーボードモードあるいはマウスモードのどちらの動作モードにおいても、タッチ情報受信部310からの第1の座標情報、第2の座標情報及びユーザの指の動き情報に基づいて、ユーザからの指示入力(ユーザ入力)に対応するアプリケーション(プログラム)を実行する。タッチ[1]は、タップ[2]に準じた動作であってもよいが、実施形態では、制御部320は、実質的にタッチに引き続きタッチパネル22の表示面上をユーザの指が移動することをスワイプ[3]と判定するものとする。制御部320は、ユーザの指がタッチパネル22上の移動から離れる位置の座標情報(x´,y´)を受け取った場合、スワイプ[3]またはフリック[4]と判定するものとする。制御部320は、タッチパネル22からの第1の座標情報、第2の座標情報及びユーザの指の動き情報に基づいて、タッチパネル22の表示面をユーザの指がなぞった(スワイプした)スワイプ長さ(指示区間長)も、求めることができる。すなわち、指示区間長(スワイプ長さ)は、後段に説明する音声データの編集において、シーク位置を基点とする区間の長さを求めることができる。
キーボードモードは、一般には、LCD21が表示するキーボード配列の画像に対するタッチパネル22からのタップに従って、対応する個々のキーに固有の文字コードを出力することで、タッチスクリーンディスプレイ20を仮想キーボードとして利用することを可能とする。マウスモードは、タッチパネル22上の(指の)接触位置の移動に応じて、その接触位置の移動の方向および距離を示す相対座標データを出力する動作モードである。
例えば、ユーザがタッチパネル22の表示面が表示する所定のアイコン(またはボタン表示)のうちの録音/再生アイコン290(図1参照)をタッチすると、制御部320は、ユーザの指の表示面の位置の座標情報に対応する録音/再生アイコン290と関連付けられたアプリケーションを起動する。
制御部320は、録音/再生プログラム202の再生、編集を実行するための機能モジュールとして、例えばシーク位置(ユーザ指定位置)検出部321、再生開始位置調整部322、話者判定部323、等を含む。
シーク位置検出部321は、タッチ情報受信部310からの第1の座標情報、第2の座標情報及びユーザの指の動き情報に基づいて、シーク位置を特定する。
すなわち、シーク位置検出部321は、LCD21が表示するX−Y平面において、時間軸をX軸に一致させたタイムバー表示上で、ユーザ指示に対応するシーク位置を特定する。
再生開始位置調整部322は、シーク位置検出部321が特定したシーク位置の近傍の音声データをバッファリングし、シーク位置近傍の音声区間の先頭である無音区間を検出し、再生開始位置として利用する自動調整位置を設定する。
話者判定部323は、再生開始位置調整部322が検出した無音区間を用いて区切られた前後の音声データについて、当該音声データに基づいて話者を特定する。
話者判別(特定)方法については、例えば特開2010−055103号公報(特許第5174068号公報)等に具体的な方法が詳細に説明されており、ここでは話者判定方法の詳細については説明を割愛する。
フィードバック処理部330は、OS201に組み込まれる(OS201のファームウェアである)表示ドライバ201B(図2ではグラフィックスコントローラ105)及びサウンドコントローラ106のそれぞれと、接続する。
フィードバック処理部330は、サウンドコントローラ106に対し、録音時の話者の位置を擬似的に再現できるように、例えば再生中の音声データに対応する話者の位置を基に、スピーカ12R及びスピーカ12Lが出力する再生音声の出力割合を変更する制御を行うことができる。
フィードバック処理部330は、図5、図8〜図16に示す画面例を参照しながら後段に詳述するが、PC本体10の画面210内にさまざまな情報を表示するための表示信号及び録音/再生プログラム202において再生する音声出力信号を処理する。
フィードバック処理部330は、サウンドコントローラ106に対し、録音時の話者の位置を擬似的に再現できるように、例えば再生中の音声データに対応する話者の位置を基に、スピーカ12R及びスピーカ12Lが出力する再生音声の出力割合を変更する制御を行うことができる。
タイムバー表示処理部340は、OS201に組み込まれる(OS201のファームである)表示ドライバ201B(図1ではグラフィックスコントローラ105)に、タッチパネル22の表示面に対応する画像表示にタイムバー211をOSD(On Screen Display)表示するための機能ジュールである。
図4は、録音/再生プログラム202の録音に関する部分202Bの構成の一例を示す。
録音/再生プログラム202Bは、音声の録音機能を実現するための機能モジュールとして、少なくともタッチ情報受信部310、フィードバック処理部330、パワー演算部352、区間判定部354、時間同期処理部356、話者判定部358、音声波形描画部360、音声区間描画部362を備える。
タッチ情報受信部310、フィードバック処理部330は、再生、編集機能のプログラム部分202Aのそれと同様である。
オーディオキャプチャ112を介してマイク12R、12Lからの音声データがパワー演算部352、区間判定部354に入力される。パワー演算部352は、一定時間間隔の音声データに対して例えば二乗平均平方根を算出し、その結果をパワーとして利用する。パワー演算部352は、二乗平均平方根の代わりに一定時間間隔の音声データの振幅最大値をパワーとして利用してもよい。一定時間は数ミリ秒であるので、ほぼリアルタイムでパワーが演算される。区間判定部354は、音声データに対して音声区間判定(Voice Activity Detection:VAD)を行い、音声データを人間が音声を発生している音声区間と、それ以外の非音声区間(雑音区間と無音区間)とに区分する。区間判定の他の例は、単に音声区間、非音声区間の区別に限らず、音声区間の話者を特定し、話者毎の音声区間を求めても良い。話者特定は、2つ以上のマイクが搭載されていれば、2つのマイクの入力信号の差から音声の方向推定を行い、その推定結果に基づくことができる。1マイクの場合であっても、メル周波数ケプストラム係数(Mel Frequency Cepstral Coefficient:MFCC)等の特徴量を算出し、これをクラスタリング分析することにより、音声区間、非音声区間の判定に加えて話者情報を加味することが出来る。話者を特定することにより、より多い情報量をユーザに提示できる。区間判定部354は、数秒程演算時間がかかるので、区間判定結果はリアルタイムでは得られず、1秒程度遅れる。
パワー演算部352、区間判定部354の出力は、それぞれ音声波形描画部360、音声区間描画部362に供給されるとともに、時間同期処理部356にも供給される。上述したように、パワー演算はほぼリアルタイムで実行され、一定時間間隔で出力されるが、音声区間判定は1秒程演算時間を要する。そして、音声区間か非音声区間かの判別は、ある一定時間以上の音声データ毎になされる。このように両処理は処理時間が異なるので、パワー演算部352と区間判定部354の出力に遅延が生じる場合がある。パワー演算部352の出力はパワーレベルを表す波形表示され、区間判定部354の出力は区間を示すバーにより表示される。波形とバーを同じ行に表示する場合、両者の描画開始タイミングが異なるので、最初は波形が表示され、あるタイミングからバーが表示される。この表示の切り替えを一瞬にして行なうのではなく、徐々に波形表示からバー表示に切り替えるのが、時間同期処理部356である。具体的には、図20で後述する波形表示とバー表示の切り替え領域に波形/バー遷移部226を設ける。
音声波形描画部360、音声区間描画部362は図3のタイムバー表示処理部340に対応し、それらの出力は表示ドライバ201Bに供給される。話者判定部358の出力も表示ドライバ201Bに供給される。
図5に、録音/再生プログラム202が起動している状態における音声データ表示画面の一例を示す。図5の画面例は、録音/再生プログラム202により録音した音声データの再生時の例である。
PC本体10の画面210内に表示される録音/再生プログラム202の動作時の音声データ表示画面410は、画面の上下方向において大まかに3つに区切られた第1の表示領域411、第2の表示領域412及び第3の表示領域413を含む。第1の表示領域411は、表示するステータスや情報と関連して、例えば[レコード名、認識された話者/全体ビュー、ステータス]欄とも称される。第2の表示領域412は、表示するステータスや情報の内容から、例えば[拡大ビュー、ステータス]欄とも称される。第3の表示領域413は、表示するステータスや情報に関連づけられて、例えば[コントロール]欄とも称される。
第1の表示領域411は、再生中(再生対象)の音声コンテンツ(音声データ)の全体を示すタイムバー211と音声コンテンツのうちの現在の再生位置またはユーザが指示を行った音声の再生開始位置を示すロケーター211a(音声再生位置表示)を表示する。ロケーター211aは、コンテンツ先頭からの再生時間(経過時間)を、タイムバー211が示す総時間に対して比例分配した位置に、位置する。
第1の表示領域411は、例えば特定できた話者を話者毎に表示する話者表示領域212、リスト表示を表示するためのリスト表示ボタン213、レコード名を表示するレコード欄214、戻るボタン240等を含む。
話者表示領域212は、再生時に、特定できた話者をアルファベット、例えば[A]〜[J]により、最大10人まで表示できる(図5は、[A]〜[D]の4人を表示する例である)。話者表示領域212は、現在発話中の話者を、発話マーク215により表示できる。
第2の表示領域412は、音声コンテンツ(音声データ)の再生位置(時間)を表示する再生位置表示欄221、音声区間を示す発言バー222a,222b,・・・,222n(nは正の整数)、話者識別子223a,223b,・・・,223n(nは正の整数)、現在位置マーク(ライン)224、マーキングボタン(星印)225、等を含む。
再生位置表示欄221は、再生時において、現在位置マーク(ライン))の左側が、既に再生の終わった時間(音声データ)、現在位置マーク(ライン))の右側が、これから再生される時間(音声データ)を示す。
発言バー222a,222b,・・・,222nは、再生位置表示欄221上に、話者毎の音声データの長さ(時間)と話者とを関連づけて表示する。従って、発言バー222a,222b,・・・,222nには、話者識別子223a,223b,・・・,223n(nは正の整数)が一体的に付属する。現在位置マーク(ライン)224は、再生位置表示欄221上の現在の位置(時間)を示す。発言バー222a,222b,・・・,222nは、再生対象の話者毎の音声データをスワイプ操作により、選択できる。その際、スワイプ時のスワイプ(指の移動)の強さ(速度/圧力の変化の程度、すなわちユーザの指が表示面を移動する際の速度や圧力の変化によって、スキップする話者区間(発言バー)の数を変更できる。
マーキングボタン225は、話者毎の発言バー223(223a〜223n)の長さ方向(時間)の概ね中央近傍に表示され、マーキングボタン225付近をタップすることにより、発言単位にマーキングすることが可能である。例えば、マーキングボタン225が選択されると、そのボタン225の周囲の音声区間に対応する細長い領域225Aの色が変化し、マーキングされたことを示す。一度マーキングされたマーキングボタン225付近を再度タップすると、マーキングが解除され、細長い領域225Aが消え、星印のみとなる。マーキング情報は再生の際の頭出しに利用でき、再生の利便性が向上する。
第3の表示領域413は、一時停止ボタン231/再生ボタン232、停止ボタン233、スキップボタン(進む)234F、スキップボタン(戻る)234R、スロー再生ボタン235、高速再生ボタン236、マークスキップボタン(進む)237F、マークスキップボタン(戻る)237R、マーク一覧表示ボタン238、リピートボタン239等を含む。第3の表示領域413は、画面210内の表示形式を後段に説明するスナップビュー画面との間で切り替える表示切り替えを指示入力可能な表示切り替えボタン241を含む。
一時停止ボタン231/再生ボタン232は、再生ボタン232と一時停止ボタン231とが交互に表示されるトグル方式であり、再生ボタン232にタッチまたはタップすることで、選択されている音声データ(コンテンツ)の再生が開始される。再生ボタン232によりコンテンツが再生されている状態においては、一時停止ボタン231が表示される。従って、一時停止ボタン231にタッチまたはタップされた場合、コンテンツの再生が一時的に停止され、再生ボタン232が表示される。
停止ボタン233は、再生中または一時停止中のコンテンツの再生を停止する。
スキップボタン(進む)234F、スキップボタン(戻る)234Rは、タッチまたはタップすることにより、発言バー222a,222b,・・・,222nを1つ分、スキップする。スキップボタン(進む)234Fがタッチまたはタップされた場合、発言バー222a,222b,・・・,222nは、再生位置表示欄221において、画面210内の右方向、すなわちこれから再生される音声データ(発言バー)を1つ分、スキップする。スキップボタン(戻る)234Rがタッチまたはタップされた場合、発言バー222a,222b,・・・,222nは、再生位置表示欄221において、画面210内の左方向、すなわち既に再生が終了した音声データ(発言バー)を1つ分、スキップする。スキップボタン表示をタップすると、発言単位のスキップを可能とする制御コマンドを入力可能である。スキップは、発言単位のみとする(スキップすると次の音声区間(発言バー)の先頭へジャンプする)。
スロー再生ボタン235は、再生中の音声データについて、例えば0.5倍速または0.75倍速のスロー再生を実行する。スロー再生ボタンをタップすると、例えば0.75(3/4)倍速再生、0.5(1/2)倍速再生、通常再生、が順番に繰り返される。
高速再生ボタン236は、再生中の音声データについて、例えば1.25倍速,1.5倍速,1.75倍速もしくは2.0倍速の高速再生を実行する。高速再生ボタンをタップすると、例えば1.25(5/4)倍速再生、1.5(3/2)倍速再生、2倍速再生、通常再生、が順番に繰り返される。スロー再生/高速再生時のいずれにおいても、所定の表示領域に、ステータス(例えば、x倍再生、等の表示)を表示することが好ましい。
マークスキップボタン(進む)237F、マークスキップボタン(戻る)237Rは、マーキングされたマーキングボタン225が付与されている発言バーまでスキップする。すなわち、マークスキップボタン(進む)237Fがタッチまたはタップされた場合、マーキングされたマーキングボタン225が付与されている発言バーのうちの再生位置表示欄221において画面210内の右方向、すなわちこれから再生される音声データ(発言バー)までスキップする。マークスキップボタン(戻る)237Rがタッチまたはタップされた場合、マーキングされたマーキングボタン225が付与されている発言バーのうちの再生位置表示欄221において画面210内の左方向、すなわち既に再生が終了した音声データ(発言バー)までスキップする。これにより、マーキングした発言に短時間でアクセスすることができる。
マーク一覧表示ボタン238は、図13を参照して後程説明するが、マーキングボタン225が付与されている(マーキングの有無に関わらず)全ての発言バーをファイル一覧表示251としてポップアップ表示により表示する。
リピートボタン239は、現在再生中の発言バーに対応する音声データをリピート再生する。
戻るボタン240は、1つ前の動作状態に戻るための制御信号を、システムコントローラ102に、入力する。
表示切り替えボタン241は、画面210内の表示方式を、スナップビュー画面との間で切り替える表示切り替えを入力する。
以下、図5に表示する画面210において、ロケーター211aにユーザが指を触れ、タイムバー211の時間軸方向に指をスワイプした任意の位置で指を離すことで、図3に説明した再生開始位置調整部322の制御の下で、以下に説明する自動調整位置を設定する。
図5に表示する上述のさまざまな表示は、図3に説明したフィードバック処理部330の制御の下で、LCD21に表示される。フィードバック処理部330が出力するさまざまな表示信号は、話者を表示する表示欄212に、現在再生中の話者を特定可能に、話者毎の識別子223a,223b,・・・,223nを付して表示するための映像信号(表示信号)を出力してもよい。あるいは、フィードバック処理部330が出力する表示信号は、話者毎の識別を可視的に容易とするために、音声データの再生位置の表示欄221が示す再生中の話者に対応する話者毎の識別子223a,223b,・・・,223nの表示の背景色を変えてもよい。もしくは、フィードバック処理部330は、その話者の識別子の表示の輝度を変える/点滅表示する、等の任意の表示が可能な映像信号(表示信号)を出力してもよい。さらに、フィードバック処理部330は、その話者の識別子に近傍に発話マーク215を表示してもよい。
フィードバック処理部330が出力する表示信号は、話者毎の識別子に関して、音声データの再生位置(時間)の表示欄221(第2の表示領域412)の表示及び話者表示領域212の表示のそれぞれにおいて、例えば表示色を共通にして表示するための映像信号(表示信号)を出力してもよい。
図5において、タイムバー211は、再生中コンテンツの先頭位置(00時間00分)から終端位置(hh時間mm分、例えば3時間00分)を、タッチスクリーンディスプレイ20のLCD21の表示領域内に、所定の長さで表示する。ロケーター211aは、再生中コンテンツの先頭位置から現在の再生位置までの経過時間(経過状態)を、タイムバー211上において、タイムバー211の全長を比例分配したコンテンツの先頭位置からの位置に、表示する。従って、ロケーター211aの移動量は、タイムバー211の全長、すなわち再生中コンテンツの総時間に依存する。このように、録音/再生プログラム202は、再生中コンテンツの再生位置をユーザがタイムバー211上のロケーター211aをシークして再生する場合、音声の再生開始位置をユーザの指定位置近傍の所定の位置に、自動的に調整することができる。
図5に示す画面210においては、第1の表示領域411が表示する情報やステータスは、タッチおよびドラック操作のみ可能である、一方、第2の表示領域412が表示する情報やステータスは、スワイプ操作による指示入力が可能である。すなわち、録音/再生プログラム202は、音声データをスワイプで操作できる。その際、スワイプの強さによってスキップする話者区間の数を変更することができる。
次に、録音/再生プログラム202により音声データを再生する際の、再生開始位置の自動調整について説明する。図1に示す録音/再生アイコン290により録音/再生プログラム202が実行され、録音/再生プログラム202に起動指示が指示入力される、として制御部320の動作の一例を説明する。
図6は、音声再生において、再生開始位置を自動的に調整する自動調整の概念を示す。
ユーザが、図5に示したタイムバー211上で、ロケーター211aを移動(スワイプ)して任意の位置で指をタッチパネル22から離すことでシーク位置(図6の[i])を特定する。シーク位置の特定は、図3に示した制御部320のシーク位置検出部321が受け持つことはいうまでもない。
次に、シーク位置の近傍(図6の[ii])の音声データをバッファリングし、シーク位置近傍の音声区間の先頭である無音区間を検出する。これにより、再生開始位置として利用する自動調整位置(図6の[iii])が設定される。すなわち、録音/再生プログラム202における再生開始位置を自動調整する。再生開始位置の自動調整は、制御部320の再生開始位置調整部322が受け持つことは、上述の通りである。
図7を用いて、図6に示した再生開始位置の自動調整のフローチャートを説明する。タイムバー211及びロケーター211aは、図5に示した表示例に対応する。
ブロックB1で、ユーザによるタイムバー211上のロケーター211aの移動後の位置を、シーク位置(ユーザ指定位置)として一時的に記憶する。
ブロックB2で、シーク位置の音声データの近傍の音声データをバッファリングする。
ブロックB3で、バッファリングした音声データについて、その振幅が閾値γの絶対値よりも小さい範囲を、無音区間(無音時間)と判定する。
ブロックB4で、無音区間と判定された音声データについて、どの無音区間のうちのいずれの位置より再生を開始するか、を決定(特定)する。
ブロックB5で、特定された無音区間(位置)を再生開始位置として、自動調整する。
図8は、図7に示した再生開始位置の自動調整を、より具体的に示す波形図である。
ユーザ操作により特定されたシーク位置から、少なくともシーク位置よりも時間軸上で前側になる(時間的に早い)音声データ(音声の一群)の先頭を検出する。音声の一群は、任意の話者の発言(発声)のうちの、以下で説明する無音区間として区切ることのできる一つの区切りを示す。音声の一群は、複数のユーザによる会話や会議、音楽の演奏、あるいはテレビ放送の番組(コンテンツ)中のシーンの切り替わり、等であってもよい。
音声データの先頭を検出するために、始めにシーク位置を概ね中心とするその前後の時間的な変化を含む所定時間分の音声データをバッファリングする。
次に、バッファリングした音声データについて、その振幅が閾値γの絶対値すなわち閾値γと閾値−γとの範囲内よりも小さい範囲を、無音区間(無音時間)Zとして検出する。
以下、無音区間として無音判定された音声データについて、連続数をカウントして無音区間Zs(s=1,2,3,…,n、nは、正の整数)を推定する(一つ以上の区切りを特定する)。最後に、無音区間Zsのいずれかの位置に、再生開始位置を自動調整する。
ここで、無音区間Zsからのいずれを選出する(何番目の区間を再生する)かについては、最もシーク位置に近い区間であっても良いし、無音区間が最も長い区間であってもよい。それ以外にも、会話の切り替わりの最適値(無音区間の長さ)を事前に評価し、評価した無音区間の長さに最も近い無音区間を伴った区切りを、再生開始位置としてもよい。無音区間の長さは、例えば3〜4秒、あるいは2〜3秒、もしくは1〜2秒である。無音区間の中で、どの位置にシークさせるか(再生開始位置を無音区間のどの位置にするか)についても、無音区間の中間点、終点もしくは先頭、等、いずれでも構わない。
次に、録音/再生プログラム202による保存された音声の再生及び音声の録音、ならびに録音前の設定について、PC本体10のタッチパネル22の表示面の画像表示210の表示例とともに説明する。
図5で既に説明した再生中画面は、録音/再生プログラム202が含む「録音開始前」画面210−1(図9(a))、「録音中」画面210−2(図9(b))及び「再生中」画面210−3(図9(c))のそれぞれの画面のうちのユーザ操作(指示入力)に対応して表示された「再生中」画面210−3(図9(c))に相当する。録音/再生プログラム202の動作時の画面について、図10〜図17、図20、図22〜図24により、拡大表示あるいは説明のための模式的な表示を付属させて説明する。
図9に一例を示す録音/再生プログラム202が含む「録音開始前」画面210−1、「録音中」画面210−2及び「再生中」画面210−3のそれぞれは、ユーザ操作(指示入力)に対応して、その都度、遷移する。図9(a)、図9(b)及び図9(c)、ならびに図10〜図17、図20、図22〜図24は、画面例を表示するが、タッチパネル22は、LCD21が表示する画面に対応する制御入力が可能であることはいうまでもない。
図9(a)に示す「録音開始前」画面210−1は、例えばインデックス表示227を、画面210−1を左右2分割表示とした表示の左右の一方に含む。図10は図9(a)を拡大した画面を示す。
図9(a)及び図10における「録音開始前」画面210−1のインデックス表示227は、既に録音され、保存されている記録済みのレコード名を表示する。
図11は図9(c)を拡大した画面を示す。図9(c)が示す「再生中」画面210−3及び図11が示す画面1011は、図5により既に説明した表示例と実質的に同一であるから詳細な説明を省略するが、第1の表示領域411に、タイムバー211とロケーター211a、戻るボタン240等を含む。第2の表示領域412は、音声コンテンツ(音声データ)の再生位置(時間)を表示する再生位置表示欄221、発言バー222a,222b,・・・,222n、話者識別子223a,223b,・・・,223n、現在位置マーク(ライン)224、マーキングボタン225等を含む。第3の表示領域413は、一時停止ボタン231/再生ボタン232、停止ボタン233、スキップボタン(進む)234F、スキップボタン(戻る)234R、スロー再生ボタン235、高速再生ボタン236、マークスキップボタン(進む)237F、マークスキップボタン(戻る)237R、マーク一覧表示ボタン238、リピートボタン239等を含む。第3の表示領域413は、画面210内の表示形式を後段に説明するスナップビュー画面との間で切り替える表示切り替えを指示入力可能な表示切り替えボタン241も含む。
表示切り替えボタン241をタッチまたはタップすると、図12に示すように、画面1111が左右に2分割され、一方(例えば、左)に第1の表示領域411、第2の表示領域412、第3の表示領域413が、他方(例えば、右)にスナップビュー画面245が表示される。スナップビュー画面245は、例えば特定された個々の話者の発言バー毎に、その開始時間と終了時間とを、順に表示する。
図9(c)もしくは図10〜図12において、例えば第1の表示領域([レコード名、認識された話者/全体ビュー、ステータス]欄)411内の任意の場所をタップすると、タップされた位置に対応する再生時間の近傍の音声データの再生を実行する制御コマンドを、PC本体10のCPU101に入力可能である。
第2の表示領域([拡大ビュー、ステータス]欄)412が表示する任意の場所の表示をドラッグした場合には、実質的にシーク操作と同様の表示制御及び再生位置の変更(設定)が可能である。話者識別の表示方法として、選択した話者の表示のみの表示色を変更することが可能である。発言が短い場合においても、最低ピクセル数にて話者を特定可能に、表示することができる、さらに、第2の表示領域412内の中央底部付近に、再生中の発言(音声の一群)の再生時間あるいは発言の総時間もしくは同一の話者の発言の時間を合計した話者別総時間、等の時間表示243を表示することが可能である。
拡大ビュー(第2の表示領域)412においては、拡大部分全体を左右にドラッグして、再生位置を微調整するための制御コマンドを入力可能である。
拡大ビュー時に、拡大表示部分を、例えばフリックあるいはスワイプによりスクロールした場合は、上述の録音/再生プログラム202の起動及び動作により、音声データの再生開始位置を発言(音声データ)の先頭の位置に自動調整(スナップ)する。スクロールは、慣性をつけた表示(動作)であることが好ましい。
図12に示す画面1111においては、スナップビュー画面245を表示したことにより、第1の表示領域411、第2の表示領域412、第3の表示領域413のそれぞれの表示幅が狭くなる。このため、例えば話者表示領域212が表示する話者数が表示領域のサイズに収まりきらない場合に、スクロールを促すために一部を途切れさせた「見切れ表示(Ticker,特定範囲内に文字列を流して(都度、ある文字の表示位置を一方向に変化させて)表示する)」が可能である。
図13は、マーク一覧表示ボタン238のタッチまたはタップにより、マーキングボタン225が付与されている全ての発言バーを、ファイル一覧表示251としてポップアップ表示により表示した表示例である。図13に示すマーキングボタン225が付与されているファイル一覧表示251は、任意の話者の音声データの再生中に、マーキングボタン225をタッチまたはタップしてマーキングすることにより、マーキングされた話者の音声データの個数及び個々の音声データの録音された時間の総時間に対する概略の位置(総時間に対して、どのあたりの時間に録音されているか)を表示することも可能である。
図14は、図9(c)もしくは図10〜図12において例示した第1の表示領域411が表示する表示時間の全長を1/4時間(15分)とした「再生中」画面が表示するタイムバーの表示例である。すなわち、図14に示すように、図11において現在再生位置224に差しかかって再生されている話者の発言(発言バー222d及び話者識別表示[D]223d)の発言についてタイムバー211の表示範囲を変更することにより、対応する1つの発言バーが表示する音声データの再生位置を、より詳細に表示することができる。拡大ビューにおいては、拡大部分全体の表示幅(横いっぱい)において、約30秒とする。
図15は図9(b)を拡大した画面を示す。図9(b)に示す「録音中」画面210−2及び図15に示す「録音中」画面1410は、第1の表示領域1411に、タイムバー表示及びロケーター表示を持たず、録音時間表示部210−21(図15における261)に、録音時間(経過時間)を表示する。この例では、録音に際しては、話者判定部323による話者判定を行なわないとする。そのため、話者を表示する話者表示領域212には、フィードバック処理部330からの出力として、例えば「−」,・・・,[−]等の再生時とは異なる動作中であることを表示するための映像信号(表示信号)を出力し、表示してもよい。既に保存されている音声データすなわち録音済リストを表示可能な[リスト表示]欄227を表示するためのリスト表示ボタン213が、所定の位置に表示される。
第2の表示領域1412には、録音中であってもリアルタイムに解析可能な一部の情報、例えば音声区間の検出結果(発言バー)222a〜222n、のみを表示する。現在の録音時間(位置)を表示する現在位置マーク(ライン)224は、再生中に比較して、表示欄221の右側の所定の位置に、移動されてもよい。
マーキングボタン225は、発言バー222a−223nの長さ方向(時間)の概ね中央近傍に表示され、マーキングボタン225付近をタップすることにより、録音中の発言単位に、マーキングすることが可能である。
第3の表示領域1413には、一時停止ボタン231/録音ボタン262、停止ボタン233、戻るボタン240、等を含む。第3の表示領域413は、画面210内の表示形式を図15に一例を示すスナップビュー画面との間で切り替える表示切り替えを指示入力可能な表示切り替えボタン241を含む。なお、一時停止ボタン231と録音ボタン262とは、タッチまたはタップされる毎に、トグル方式により交互に表示される。従い、録音ボタン262にタッチまたはタップすることで、現在の話者の発言の録音が開始される。また、録音ボタン262により現在の話者の発言が録音されている状態においては、一時停止ボタン231が表示される。従い、一時停止ボタン231にタッチまたはタップされた場合、録音が一時的に停止され、録音ボタン232が表示される。
図16に一例を示すスナップビュー画面においては、画面1511のように、第1の表示領域1411、第2の表示領域1412、第3の表示領域1413が、画面1711を左右2分割表示した左右の一方に、スナップビュー画面271が他方に表示される。スナップビュー画面271は、例えば特定された個々の音声区間毎に、その開始時間と終了時間とを、順に表示することができる。
スナップビュー画面においては、[全体ビュー/タイムライン、ガイド]欄(第1の表示領域)1411中の音声区間領域1412において、検出できた音声区間数が表示領域のサイズに収まりきらない場合に、スクロールを促すために一部を途切れさせた「見切れ表示(Ticker,特定範囲内に文字列を流して(都度、ある文字の表示位置を一方向に変化させて)表示する)」が可能である。これにより、録音された音声区間が音声区間領域1412における表示数よりも多いことをユーザに報知できる。
図17は、録音中の画面の別の表示の一例を示す。例えば、画面210内に、音声/音響の入力のある方向すなわち話者の居る方向を推定した結果を示す話者方向マーク219を表示し、検出している音声の発話者の居る方向を表示してもよい。
図15〜図17に示す音声区間は、録音が終了した以降の所定のタイミングで、録音した全データについて統計解析(クラスタリング分析)され、話者特定される。特定された話者については、再生中表示に際して、話者表示に更新される。
上述した録音/再生プログラム202の再生開始位置調整部322が検出した無音区間を用いることにより、保存されている録音された音声データを、図18もしくは図19に示すように、編集できる。図18は、例えば録音した音声データの一部区間の削除の一例を示す。図19は、音声データのうちの必要情報の切り出し(トリミング)の一例を示す。すなわち、図18あるいは図19に示す編集においても、対象となる音声データの先頭を、容易に設定できる。
例えば、図18に示すように、図5に211と示したタイムバーの所定の位置に位置するロケーター211a(図5参照)のユーザの指による移動による(指示入力)[a]、[b]、[c]により、録音した音声データの一部区間を削除することができる。
はじめに、タイムバー211のロケーター211aに対するユーザの指の第1の動作[a]、例えばタイムバー211が延びる方向と直交する方向からタイムバー211へ向かう動作を検出する。
次に、ロケーター211のタイムバー211上のユーザの指による移動(第2の動作)[b]を対象区間の設定動作と判断する。
次に、ユーザの指の移動方向(第3の動作)[c]に基づいて、ユーザが指示入力する処理の内容を特定する。
例えば、ユーザの指の移動方向が[b]による対象区間の設定のための指の移動方向と概ね直交する場合であって、その移動方向が、タッチパネル22の表示面が表示する画像表示の基底部(正立表示した画面の底辺)に向かう方向である場合に、『削除』と定義する。
このとき、ユーザの指の第1の動作[a]及びユーザの指の第3の動作により特定するユーザの指の第2の動作の終端位置[b]のそれぞれにおいて、上述の自動調整を、適用できる。
すなわち、ユーザは、時間軸上に表示された音声データの一部区間のデータを削除する場合、削除開始位置(音声区間の先端)及び削除終了位置(音声区間の後端)を、タッチパネル22が表示するタイムバー211上で、おおまかに指示(入力)するのみで、削除する音声データの区間を、音声区間の先端の無音区間からその音声区間の後端の無音区間の範囲に、容易に設定できる。これにより、録音した音声データの一部区間を削除する場合に、直感的に削除区間を設定することができる。
図19は、図5に211と示したタイムバーの所定の位置に位置するロケーター211a(図5参照)のユーザの指による移動による(指示入力)[d]、[e]、[f]により、録音した音声データの一部区間(必要情報)の切り出し(トリミング)を行う例を示す。
はじめに、タイムバー211のロケーター211aに対するユーザの指の第1の動作[d]、例えばタイムバー211が延びる方向と直交する方向からタイムバー211へ向かう動作を検出する。
次に、ロケーター211のタイムバー211上のユーザの指による移動(第2の動作)[e]を対象区間の設定動作と判断する。
次に、ユーザの指の移動方向(第3の動作)[f]に基づいて、ユーザが指示入力する処理の内容を特定する。
例えば、ユーザの指の移動方向が[e]による対象区間の設定のための指の移動方向と概ね直交する場合であって、その移動方向が、タッチパネル22の表示面が表示する画像表示の上方(正立表示した画面の頂部)に向かう方向である場合に、『切り出し(トリミング)』と定義する。
このとき、ユーザの指の第1の動作[d]及びユーザの指の第3の動作により特定するユーザの指の第2の動作の終端位置[d]のそれぞれにおいて、上述の自動調整を、適用できる。
すなわち、ユーザは、時間軸上に表示された音声データの一部区間のデータを切り出す(トリミングする)場合、対象となる音声区間の先端(開始位置)及び後端(終了位置)を、タッチパネル22が表示するタイムバー211上で、おおまかに指示(入力)するのみで、切り出す(トリミングする)音声データの区間を、音声区間の先端の無音区間からその音声区間の後端の無音区間の範囲に、容易に設定できる。
これにより、録音した音声データの必要情報の切り出し(トリミング)の対象となる区間を、直感的に設定することができる。
図18または図19に示す上述の処理例においては、以下に説明する話者特定と関連付けて、同一の話者の先話(判定された区間が異なる複数の同一の話者の音声データ)を全て切り出して保存することも可能である。この場合、例えばUI(User Interface)画面を表示し、特定された区間のみの音声データの保存であるか、同一話者に関する全ての音声データの保存であるか、の指示入力を、ユーザに選択させるようにしてもよい。
上述した実施の形態においては、タイムバー上のロケーターの操作以外に、話者識別結果を表示する音声録音コンテンツの場合、タイムバーの表示範囲に応じて、話者識別された発話区間の先頭から再生するように、自動調整してもよい。
上述した実施の形態においては、タイムバー上のロケーターの操作以外に、話者識別結果を表示する音声録音コンテンツの場合、タイムバーの表示範囲に応じて、シーク位置近傍の音声データをバッファリングし、区間判定を行うことで、再生位置を自動調整してもよい。
上述した実施の形態においては、タイムバー上のロケーターの操作以外に、話者識別結果を表示する音声録音コンテンツの場合、タイムバーの表示範囲に応じて、あえて自動調整は行わないようにしてもよい。
上述した実施の形態においては、タイムバーの表示範囲は、ズームイン・ズームアウト操作で切り替えられるようにしてもよい。
上述した実施の形態においては、タッチパネルからユーザ指示を入力する場合、ズームイン・ズームアウト操作は、通常のボタン以外に加え、ピンチイン・ピンチアウトで操作してできるようにしてもよい。
上述した実施の形態においては、図18及び図19により説明した編集時のように、タイムバー上のロケーターの操作以外にも、音声ファイル切り出し、等の編集操作を行う場合の範囲指定において、指定近傍の音声データをバッファリングし、区間判定を行うように自動調整してもよい。その場合、タッチパネルからのユーザ指示入力に際して、編集操作時のトリミング(切り出し保存)、区間削除の指示入力として、フリックが利用可能であるようにしてもよい。
図20は、録音中の画面のさらに別の表示の一例を示す。「録音中」画面1410は、第1の表示領域1411に、タイムバー及びロケーターを表示せず、録音時間表示部210−21に、録音時間(絶対時間でもよいが、ここでは経過時間)(例えば、00時50分02秒)たとえば、を表示する。この例では、録音の最中に話者判定部358が話者判定を行なう。話者判定部358は、区間判定部354で音声区間が検出されると、マイク12R、12Lの入力信号の差から音声の方向推定を行い、その推定結果に基づき、話者の方向を特定することができる。ただし、複数の話者の位置を話者判定部358に予め与えておく必要がある。話者が特定されると、話者表示領域212は現在発話中の話者のアイコンの近傍に発話マーク215を表示する。
第2の表示領域1412には、録音の可視化情報として、音声区間の検出結果(発言バー)222a〜222n、入力音声波形228を表示する。図の右端が現在で、左側にいく程、時間は過去になる時間軸に沿って録音データを可視化する。図20には図示していないが、図5と同様に、発言バー222a〜222nの近傍に発話者を示す話者識別子223a〜223nを表示してもよい。あるいは、話者に応じて、発言バー222および/または話者識別子223の色を変えても良い。さらに、図20には図示していないが、図5と同様に、所望の発言バー223a〜223nの近傍に表示されるマーキングボタン225付近をタップすることにより、発言単位にマーキングすることも可能である。第2の表示領域1412の下部には時刻を10秒毎に表示する。
図4を参照して説明したように、パワー演算結果による波形表示と、区間判定演算によるバー表示とは処理時間に差があり、バー表示が遅れる。両者を同じ行で表示し、現在時刻を画面右端とし、左側になるにつれて時刻が過去になるとすると、右端でリアルタイムに波形228を表示し、波形228は時間の経過とともに画面の左側に流れる。波形228の表示とともに、区間判定部354が区間判定し、音声区間が検出されると、波形228がバー222に切り替わる。波形表示だけでは、音声によるパワーであるのか、雑音によるパワーであるのかが判別できないが、バー表示の併用により音声の録音が確認できる。リアルタイムの波形表示と、若干遅れるバー表示が同じ行で表示されることにより、ユーザの視線は同じ行に留まることができ、視線がバラけることなく、視認性良く有用な情報が得られる。
表示対象を波形228からバー222に切り替えるにあたり、切り替えを一瞬にして行なうのではなく、徐々に波形表示からバー表示に切り替えるために時間同期処理部356が設けられる。時間同期処理部356は波形228と一番右側のバー222dの間に波形/バー遷移部226を表示する。波形/バー遷移部226では一番右側では波形を表示し、一番左側ではバーを表示し、その中間は徐々に波形からバーに表示を変化する。これにより、右端に現在のパワーが波形として表示され、表示が右から左に流れ、表示が更新する過程において、波形が連続的あるいはシームレスに変化してバーに収束する。そのため、ユーザは表示を観察する際、不自然さを感じない。
第3の表示領域1413には、一時停止ボタン231/録音ボタン262、停止ボタン233、戻るボタン240、等を含む。第3の表示領域413は、画面210内の表示形式を図15に一例を示すスナップビュー画面との間で切り替える表示切り替えを指示入力可能な表示切り替えボタン241を含む。なお、一時停止ボタン231と録音ボタン262とは、タッチまたはタップされる毎に、トグル方式により交互に表示される。従い、録音ボタン262にタッチまたはタップすることで、現在の話者の発言の録音が開始される。また、録音ボタン262により現在の話者の発言が録音されている状態においては、一時停止ボタン231が表示される。従い、一時停止ボタン231にタッチまたはタップされた場合、録音が一時的に停止され、録音ボタン232が表示される。
図21は図20の表示を行なうための録音/再生プログラム202Bのフローチャートである。ブロックB12で、オーディオキャプチャ112を介してマイク12R、12Lからの音声データがパワー演算部352、区間判定部354に入力される。パワー演算部352は、一定時間間隔の音声データに対して例えば二乗平均平方根を算出し、その結果をパワーとして出力する。区間判定部354は、音声データに対して音声区間判定(Voice Activity Detection:VAD)を行い、音声データを人間が音声を発生している音声区間と、それ以外の非音声区間(雑音区間と無音区間)とに区分する。ブロックB12では、話者判定部358は、区間判定部354が判定した音声区間の話者を、マイク12R、12Lからの音声データの差に基づいて特定する。
ブロックB14で、パワー演算部352、区間判定部354の出力は、時間同期処理部356に供給される。時間同期処理部356は、パワー演算部352と区間判定部354の出力の遅延時間に基づいてバー表示開始可能タイミング(例えば、00時49分58秒)を決定する。時間同期処理部356は、バー表示開始可能タイミングを含む音声区間の先頭タイミングとバー表示開始可能タイミングとの間の数秒の区間に波形/バー遷移部226を表示するように、音声波形描画部360、音声区間描画部362に対して制御信号を与える。
ブロックB16で、音声波形描画部360、音声区間描画部362は図20に示す第2の表示領域1412を更新する。すなわち、表示領域1412の表示を左にシフトするとともに、現在時刻の波形を右端に表示する。なお、第3の表示領域1413の表示、および第1の表示部1411の録音時間表示部261は図5の場合と同様にフィードバック処理部330が制御する。
ブロックB18で、録音停止か否か判定し、録音停止するまで上述の処理を繰り返し、表示を更新し続ける。録音停止は、一時停止ボタン231あるいは停止ボタン233により指示される。
図4には示していないが、録音/再生プログラム202Bは音声認識部を含み、音声区間の最初の音声を認識して、認識結果を発言バー222の下にテキスト表示してもよい。こうすると、後の頭出しのために音声区間をマーキングする際に、利便性が向上する。
図20の表示によれば、録音中にパワーの表示、音声区間の表示、音声区間の話者情報、音声区間の発言内容、必要な音声区間のマーキング等の音声の可視化が行なわれ、ユーザは有用な情報を得ることができる。例えば、録音内容の重要点をマーキングして、再生中に重要点のみを再生することができる。また、喋っているのに波形が表示されない場合、マイク(端末)の設置位置・角度の調整や、ゲインやノイズ抑圧レベル等のマイク設定の見直しを行ない、録音失敗を未然に防ぐことができる。同様に、波形が表示されているのに、発言バーが表示されない(音声区間が検出されない)場合も、マイク(端末)の設置位置・角度の調整や、ゲインやノイズ抑圧レベル等のマイク設定の見直しを行ない、録音失敗を未然に防ぐことができる。さらに、録音中に波形や発言バーが表示されると安心感がある。上記の録音失敗判定はユーザの画面の目視に基づくが、波形が所定時間以上入力されても音声区間を検出できない場合は、録音/再生プログラム202Bは録音失敗と判断し、アラームを表示、出力してもよい。
なお、上述の説明では、音声区間が検出されると、直ちに波形表示から区間表示に切り換えているが、区間表示開始をバー表示開始可能タイミングから遅延して、その分波形表示期間を長くしてもよい。さらに、波形表示からバー表示に徐々に切り替えているが、波形表示からバー表示に一気に切り替えでもよい。この画面例を図22に示す。すなわち、区間判定部354が音声区間を検出するバー表示開始可能タイミング(00時49分56秒)で波形表示を終了し、それから前は区間表示とし、波形/バー遷移部226を省略してもよい。この場合でも、区間表示はバー表示開始可能タイミング以前であればどのタイミングで開始してもよい。
パワー表示と区間表示は必ずしも同一行で行なわなくてもよい。例えば、図23に示すように波形とバーを2行に分けて表示してもよい。図20の画面では、現在時刻は常に右端に固定であるが、図23では、最初は現在時刻は左端で、時間の経過とともに現在時刻が右側に移動する。図23の(b)は(a)より時間的に後である。すなわち、現在の波形が順次右側に追加されていく。そして、現在時刻が右端まで達すると、図20と同様に、表示が右から左に流れる。1行目に波形を、2行目にバーを表示すると、波形の表示に遅れてバーが表示される。
また、音声パワーの表示形態は波形表示に限らない。図23において、パワーを波形ではなく、数値として一定の窓に表示してもよい。あるいは、この窓の位置は固定ではなく、図23の波形表示の右端とし、時間の経過とともに右に移動してもよい。
図24は波形/バー遷移部226の表示例の変形例を示す。図24の(a)は図20と同じであるが、波形がバー表示開始可能タイミングを含む音声区間の先頭タイミングのバーの高さまで収束するように表示を遷移させるが、図24の(b)に示すように、波形が0レベルまで収束するように表示を遷移させてもよい。また、連続的に波形からバーに表示形態を遷移させているが、多少は段階的でもよい。さらに、波形を一定間隔の振幅バー(垂直方向のバー)として表示しているが、パワーの包絡線として表示してもよい。
上述の説明はオーディオレコーダを想定したが、音声も記録するビデオカメラに応用することもできる。ビデオカメラから出力されたビデオ信号から音声データを抽出して上記と同様の可視化を行なってもよい。この場合、映像を解析して、話者の映像を取得し、発言バーの近傍に話者の顔を表示してもよい。
以下、録音/再生プログラム202の機能とタッチパネル22の表示面に対応する画像表示について、さらに説明する。録音/再生プログラム202の動作時の画面例と、それぞれの表示に対応する機能は、以下の通りである。
[録音前]
[メイン画面]
[録音ファイルの一覧表示]
録音済みのファイルを一覧表示
−ファイル名(会議名)
−録音日時(yyyy/mm/dd)
(hh:mm:ss − hh:mm:ss)
−録音時間(hh:mm:ss)
−ファイルプロテクトマーク。
[録音済みファイルのシェア]
録音済みファイルをシェアできる。
[会議名の入力]
録音開始前に会議名を事前に入力できる。
[アプリバーの表示]
表示画面下部の所定の位置に「アプリバー」を表示する。
[新規録音ボタン]
録音を開始する。
[録音可能時間残量の表示]
ストレージ残量から録音可能時間を表示(hh:mm:ss)。
[ソート機能]
以下の項目で録音済みファイルのソートが可能
−作成日時が新しい順/古い順
−名前順
−参加人数が多い順/少ない順。
[使用方法説明の表示]
使用方法の説明を表示する。
[拡大ビューの表示]
リアルタイムに話者の切り替わりが分かるライン形式の表示バーを表示。
[アプリバー]
[(選択されたファイルの)削除]
(選択された)録音済みのファイルを削除。
[ファイルを選択]
録音済みファイル一覧を選択モードで表示する。
[エクスポート]
所定のフォルダに選択したファイルをエクスポートする。
[編集]
録音済みファイルの以下の項目を編集できる
−会議タイトル
−参加人数。
[選択解除]
選択済みのファイルの選択の解除。
[再生]
選択されたファイルの再生。
[全て選択]
録音済みのファイルを全て選択。
[その他]
[タブレット操作音キャンセル On/Off]
ON/OFFが交互に切り替わるトグルボタン方式
ペン音やキーボードタイプ音を抑圧する。
[ノイズ除去 On/Off]
ON/OFFが交互に切り替わるトグルボタン方式
空調の音やPCのファンの音等を抑圧する。
[プリレコーディング On/Off]
録音開始ボタンを押下する前のデータを遡って録音する。
[マイクゲインコントロール Auto/Manual]
AUTO/OFFが交互に切り替わるトグルボタン方式
マイクゲインの自動調整を設定できる。
[ヘルプ]
ヘルプファイルを表示。
[バージョン情報]
アプリケーションのバージョンを表示。
[録音中]
[メイン画面]
[会議名の表示]
録音前の画面で決定した会議名を表示する。
[会議名の追記・修正]
会議名を編集できる。
[会議参加者の表示]
参加者をアルファベットで表示する。
[マーキングボタンの表示]
マーキングボタンをタップすることで、該当発話区間に目印をつける。
[停止ボタンによる停止]
録音停止、録音停止後、録音前画面に遷移する。
[録音ボタンによる録音一時停止]
録音一時停止。
[録音ボタンによる録音再開]
録音再開。
[録音時間残量が少ない場合の自動停止]
録音可能時間の残量が少ない場合は自動停止する
−自動停止前にポップアップでユーザに録音停止する旨通知する。
[ユーザー通知(トースト)]
以下の動作においてユーザー通知する
−録音可能時間が少なくなった時
−バックグラウンド録音中での通知
(定期的に録音中というメッセージと録音時間を表示)。
[会議参加人数の確認・選択画面]
録音終了時にユーザに選択させる
−2〜3名が発言
−3〜5名が発言
−6名以上が発言。
[録音経過時間の表示]
録音経過時間を表示(hh:mm:ss)。
[拡大ビューの表示]
拡大ビュー時、アルファベットで話者を表示する。
[アプリバー]
[編集]
会議名及び参加人数を編集できる。
[スナップ表示]
[会議参加者の表示]
会議参加者をアルファベットで表現する。
[バックグランド]
[定期的にトーストで通知]
録音停止忘れ防止等の為に定期的に通知する。
[再生中]
[メイン画面]
[会議名の表示]
会議名を表示する。
[会議名の追記・編集]
会議名を追記・編集できる。
[会議参加者の表示]
会議参加者をアルファベットで表示する。
[再生ボタン]
再生開始。
[再生一時停止]
一時停止。
[停止ボタンによる停止]
停止、停止後ファイルを閉じることも設定により可能。
[スロー再生ボタン]
スロー再生を実行する
(0.5倍速/0.75倍速)。
[高速再生ボタン]
高速再生を実行する
(1.25倍速/1.5倍速/1.75倍速/2.0倍速)。
[マーキング一覧から選ぶボタン]
マーキングファイルの一覧を表示する。
[マークスキップボタン]
マーキングボタンをスキップ再生する。
[再生位置の時間表示]
再生位置の時間を表示する。
[録音時間の表示]
録音時間を表示する。
[スキップボタンの表示]
ボタン操作で、前後の発話区間にジャンプする。
[リピートボタンの表示]
ボタン操作でリピート再生する。
[戻るボタン]
録音開始画面に戻る。
[特定話者のみ表示]
以下の条件で特定話者の発話を再生する
−拡大ビューの中から選択された参加者の発話のみ表示する
−特定話者(複数話者選択可能)の発話のみ再生する。
[時間目盛り]
実時間を表すスケールを表示する。
[再生中の発言に対するシークバー(ロケーター)の表示]
現在再生中の位置を表示する。
[再生中の発言に対するシークバー(ロケーター)のスクロール(移動)]
スクロール(移動)された再生位置をシークする。
[全体ビューの表示]
録音コンテンツの全体を表示する。
[再生位置微調整]
全体ビューの再生位置をスワイプ操作で調整する。
[再生箇所拡大表示枠]
現在再生している箇所付近を示す拡大枠を表示する。
[拡大ビューの表示]
拡大ビュー時、話者をアルファベットで表示する。
[マーキングボタンの表示]
マーキングボタンをタップすることで、該当発話区間に目印をつけることができる。
[マーキングボタンのエクスポート]
一覧表示されているマーキングボタンを選択して、エクスポートする。
[アプリバー]
[無音区間スキップON/OFF]
無音区間のスキップON/OFFを設定する。
[特定話者のみ再生]
特定話者の発話のみ再生する。
[編集]
会議名及び参加人数を編集できる。
[スナップ表示]
[会議参加者の表示]
会議参加者をアルファベットで表現。
[全般(その他)]
[画面回転]
ランドスケープ/ポートレートに対応。
[バックグラウンド録音]
アプリケーションがバックグラウンドに遷移しても録音を継続する。
[スナップ画面のスケーリング]
アプリケーションをスナップ表示する。
なお、本実施形態の処理はコンピュータプログラムによっても実現することができるので、このコンピュータプログラムを格納したコンピュータ読み取り可能な記憶媒体を通じてこのコンピュータプログラムをコンピュータにインストールして実行するだけで、本実施形態と同様の効果を容易に実現することができる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
20…タッチスクリーンディスプレイ、310…タッチ情報受信部、330…フィードバック処理部、352手…パワー演算部、354…区間判定部、356…時間同期処理部、358…話者判定部、360…音声波形描画部、362…音声区間描画部

Claims (7)

  1. マイクと、
    前記マイクを介して集音された音声データの録音中を示す画面が表示されるディスプレイと、
    前記音声データに対して音声を発生している音声区間と、それ以外の非音声区間とを判定する区間判定手段と、
    前記画面の前記録音中の時間軸上に、前記集音された前記音声データのパワーを示す音声波形を表示すると共に、前記音声波形が前記時間軸上に進行していくのに伴い、前記区間判定手段により判定した前記音声区間を前記音声波形から発話を示す表示形態に変更して前記ディスプレイに表示する表示制御部と、
    前記音声データから発話した発話者を判定する話者判定手段と、
    を有し、
    前記発話を示す表示形態とは、前記話者判定手段で判定した発話者が識別可能に表示した発言バーであって、前記発言バーと前記音声波形とは同じ前記時間軸上に表示されるものである
    電子機器。
  2. 前記音声波形から前記発バーに切り替えるための同期処理手段を更に備え、
    前記同期処理手段は、前記ディスプレイにリアルタイムに表示される前記音声波形と最新の前記発バーとの間の表示を、前記音声波形から前記発言バーに徐々に変化させる請求項1記載の電子機器。
  3. 前記音声波形を表示するための前記パワーを算出する演算手段の出力と、前記区間判定手段の出力との遅延時間に基づいて、前記音声波形から前記発言バーに変化させる表示開始タイミングを決定する請求項記載の電子機器。
  4. マイクと、前記マイクを介して集音された音声データの録音中を示す画面が表示されるディスプレイと、を有する電子機器の方法であって、
    前記画面の前記録音中の時間軸上に、前記集音された前記音声データのパワーを示す音声波形を表示し、
    前記音声データに対し、音声を発生している音声区間と、それ以外の非音声区間とを判定し、
    前記音声データから発話した発話者を判定し、
    前記音声波形が前記時間軸上に進行していくのに伴い、前記判定した前記音声区間を前記音声波形から前記発話者が識別可能に表示した発言バーに変更し、
    前記発言バーと前記音声波形とを同じ時間軸上にして前記ディスプレイに表示する
    方法。
  5. マイクと、前記マイクを介して集音された音声データの録音中を示す画面が表示されるディスプレイと、を有する電子機器のコンピュータにより実行されるプログラムであって
    前記画面の前記録音中の時間軸上に、前記集音された前記音声データのパワーを示す音声波形を表示する手順と、
    前記音声データに対し、音声を発生している音声区間と、それ以外の非音声区間とを判定する手順と、
    前記音声データから発話した発話者を判定する手順と、
    前記音声波形が前記時間軸上に進行していくのに伴い、前記判定した前記音声区間を前記音声波形から前記発話者が識別可能に表示した発言バーに変更する手順と、
    前記発言バーと前記音声波形とを同じ時間軸上にして前記ディスプレイに表示する手順と、
    を前記コンピュータに実行させるプログラム。
  6. 記ディスプレイにリアルタイムに表示される前記音声波形と最新の前記発バーとの間の表示を、前記音声波形から前記発言バーに徐々に変化させる手順を更に実行させる請求項記載のプログラム。
  7. 前記音声波形を表示するための前記パワーを算出する演算手段の出力と、前記音声区間を判定する手順の出力との遅延時間に基づいて、前記音声波形から前記発言バーに変化させる表示開始タイミングを決定する請求項記載のプログラム。
JP2014198199A 2014-09-29 2014-09-29 電子機器、方法及びプログラム Active JP6509516B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014198199A JP6509516B2 (ja) 2014-09-29 2014-09-29 電子機器、方法及びプログラム
EP15161837.8A EP3001421A1 (en) 2014-09-29 2015-03-31 Electronic device, method and storage medium
US14/688,877 US20160093315A1 (en) 2014-09-29 2015-04-16 Electronic device, method and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014198199A JP6509516B2 (ja) 2014-09-29 2014-09-29 電子機器、方法及びプログラム

Publications (3)

Publication Number Publication Date
JP2016071029A JP2016071029A (ja) 2016-05-09
JP2016071029A5 JP2016071029A5 (ja) 2017-11-02
JP6509516B2 true JP6509516B2 (ja) 2019-05-08

Family

ID=53175252

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014198199A Active JP6509516B2 (ja) 2014-09-29 2014-09-29 電子機器、方法及びプログラム

Country Status (3)

Country Link
US (1) US20160093315A1 (ja)
EP (1) EP3001421A1 (ja)
JP (1) JP6509516B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6464411B6 (ja) * 2015-02-25 2019-03-13 Dynabook株式会社 電子機器、方法及びプログラム
US10133538B2 (en) * 2015-03-27 2018-11-20 Sri International Semi-supervised speaker diarization
US10089061B2 (en) 2015-08-28 2018-10-02 Kabushiki Kaisha Toshiba Electronic device and method
US20170075652A1 (en) 2015-09-14 2017-03-16 Kabushiki Kaisha Toshiba Electronic device and method
JP6072338B1 (ja) * 2016-07-29 2017-02-01 株式会社 ディー・エヌ・エー ゲームを提供するためのプログラム、システム、及び方法
WO2018042658A1 (ja) * 2016-09-05 2018-03-08 マクセル株式会社 携帯情報端末、頭部装着表示システム、及びその音声出力制御方法
US11024291B2 (en) 2018-11-21 2021-06-01 Sri International Real-time class recognition for an audio stream
CN110931019B (zh) * 2019-12-06 2022-06-21 广州国音智能科技有限公司 公安语音数据采集方法、装置、设备和计算机存储介质
CN114760274B (zh) * 2022-06-14 2022-09-02 北京新唐思创教育科技有限公司 在线课堂的语音交互方法、装置、设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7292986B1 (en) * 1999-10-20 2007-11-06 Microsoft Corporation Method and apparatus for displaying speech recognition progress
JP3534712B2 (ja) * 2001-03-30 2004-06-07 株式会社コナミコンピュータエンタテインメント東京 音声編集装置及び音声編集プログラム
US7047200B2 (en) * 2002-05-24 2006-05-16 Microsoft, Corporation Voice recognition status display
JP2005202014A (ja) * 2004-01-14 2005-07-28 Sony Corp 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
JP2010054991A (ja) * 2008-08-29 2010-03-11 Yamaha Corp 録音装置
JP5685702B2 (ja) * 2009-11-10 2015-03-18 株式会社アドバンスト・メディア 音声認識結果管理装置および音声認識結果表示方法
JP5174068B2 (ja) 2010-03-11 2013-04-03 株式会社東芝 信号分類装置
KR102196671B1 (ko) * 2013-01-11 2020-12-30 엘지전자 주식회사 전자 기기 및 전자 기기의 제어 방법

Also Published As

Publication number Publication date
US20160093315A1 (en) 2016-03-31
JP2016071029A (ja) 2016-05-09
EP3001421A1 (en) 2016-03-30

Similar Documents

Publication Publication Date Title
JP6509516B2 (ja) 電子機器、方法及びプログラム
JP5959771B2 (ja) 電子機器、方法およびプログラム
JP6464411B6 (ja) 電子機器、方法及びプログラム
US10089061B2 (en) Electronic device and method
JP5413673B2 (ja) 情報処理装置および方法、並びにプログラム
KR101992676B1 (ko) 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치
US20160163331A1 (en) Electronic device and method for visualizing audio data
WO2016103988A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP6217645B2 (ja) 情報処理装置、再生状態制御方法及びプログラム
US10622021B2 (en) Method and system for video editing
KR20090085777A (ko) Gui 제공방법 및 이를 적용한 멀티미디어 기기
EP3465405B1 (en) Slow motion video playback method for computing devices with touch interfaces
US10770077B2 (en) Electronic device and method
KR20140096573A (ko) 컨텐츠 재생을 제어하기 위한 방법 및 장치
US20100064061A1 (en) Providing substantially immediate action in response to input event
JP2015073198A (ja) 情報処理装置及びプログラム
JP2010061343A (ja) 音声記録方法、音声再生方法、音声記録プログラム、音声再生プログラム
JP2018073237A (ja) 会議情報表示システム、会議情報表示方法および会議情報表示プログラム
JP6432966B2 (ja) 楽譜表示・演奏プログラム及び楽譜表示・演奏装置
JP6392051B2 (ja) 電子機器、方法およびプログラム
JP2014109885A (ja) 表示装置及び通知方法
US20170092334A1 (en) Electronic device and method for visualizing audio data
US20240185481A1 (en) Lyrics and karaoke user interfaces, methods and systems
JP2018205765A (ja) 電子機器
JP2009175467A (ja) 記録再生装置、およびプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170920

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170920

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180813

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181019

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20181206

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20181207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190403

R150 Certificate of patent or registration of utility model

Ref document number: 6509516

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250