JP6392051B2

JP6392051B2 - 電子機器、方法およびプログラム

Info

Publication number: JP6392051B2
Application number: JP2014192588A
Authority: JP
Inventors: 隆一山口
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2014-09-22
Filing date: 2014-09-22
Publication date: 2018-09-19
Anticipated expiration: 2034-09-22
Also published as: US9536526B2; JP2016062071A; US20160086608A1

Description

本発明の実施形態は、電子機器、方法およびプログラムに関する。

近年、タブレットやスマートフォンなど、バッテリ駆動可能で携行容易な電子機器が広く普及している。この種の電子機器は、表示面に触れることで入力操作を可能とするタッチスクリーンディスプレイを備えていることが一般的である。また、この種の電子機器の多くは、マイクロフォンとスピーカとを備えており、例えば会議での会話を録音・再生するためのレコーダとして利用することができる。

特開２００７−２５６４９８号公報

現在、音声を解析して話者を識別する様々な手法が知られている。これらの手法で話者を識別することにより、例えば、会議の議事録を作成するために、その会議での会話を録音した音声を再生する場合等において、誰の発言なのかを視覚的に確認可能とする表示画面を提供することができる。つまり、会議の議事録の作成等を支援すべく、音声を可視化することができる。

しかしながら、話者の識別は、録音環境等の様々な影響により、１００％の精度で実行できるとはいえない。同一人物の音声が複数の人物の音声と識別されたり、逆に、複数の人物の音声が同一人物の音声と識別されたり等が発生し得る。

本発明が解決しようとする課題は、話者の識別の結果を簡単な操作で修正することを可能とする電子機器、方法およびプログラムを提供することである。

実施形態によれば、電子機器は、タッチパネルを有するディスプレイと、音声データを記憶する不揮発性メモリと、音声録音再生プログラムを実行するプロセッサと、を具備する。前記プロセッサは、前記ディスプレイ上に少なくとも音声を録音するための録音画面、前記音声を再生するための再生画面を表示し、前記録音画面を用いて録音した前記音声データを前記不揮発性メモリに記憶し、前記再生画面を用いて前記不揮発性メモリに記憶した前記音声データを再生し、前記再生画面には、発話区間を示す発話区間バーが発話した話者をそれぞれ識別可能に表示し、前記再生画面を用いて前記音声データを音声再生中に、前記再生画面の特定エリアを長押しした時、再生モードから編集モードに移行させ、前記編集モードにおいて、第１話者の第１発話区間と第２話者の第２発話区間を統合する操作が実行された時、前記第２話者として識別されている全ての前記第２発話区間を前記第１話者の前記第１発話区間に一括して修正する。

実施形態の電子機器の外観の一例を示す図。実施形態の電子機器のシステム構成の一例を示す図。実施形態の電子機器上で動作する音声録音再生プログラムの機能構成（機能ブロック）の一例を示す図。実施形態の電子機器上で動作する音声録音再生プログラムによって表示される表示画面の一覧を示す図。実施形態の電子機器上で動作する音声録音再生プログラムによって表示されるホーム画面の一例を示す図。実施形態の電子機器上で動作する音声録音再生プログラムによって表示される録音画面の一例を示す図。実施形態の電子機器上で動作する音声録音再生プログラムによって表示される再生画面の一例を示す図。実施形態の電子機器で動作する音声録音再生プログラムが話者統合用に提供するユーザインタフェースを説明するための第１の図。実施形態の電子機器で動作する音声録音再生プログラムが話者統合用に提供するユーザインタフェースを説明するための第２の図。実施形態の電子機器で動作する音声録音再生プログラムが話者統合用に提供するユーザインタフェースを説明するための第３の図。実施形態の電子機器で動作する音声録音再生プログラムが話者分割用に提供するユーザインタフェースを説明するための第１の図。実施形態の電子機器で動作する音声録音再生プログラムが話者分割用に提供するユーザインタフェースを説明するための第２の図。実施形態の電子機器で動作する音声録音再生プログラムが話者分割用に提供するユーザインタフェースを説明するための第３の図。実施形態の電子機器の話者統合または話者分割に関する動作手順を示すフローチャート。

以下、実施の形態について図面を参照して説明する。

本実施形態の電子機器は、例えば、タブレット、スマートフォン、ＰＤＡ（Personal Digital assistant）等として実現し得る。なお、ここでは、本電子機器が、タブレットとして実現される場合を想定する。また、以下に説明する要素や構成は、ハードウェアを用いて実現できるが、マイクロコンピュータ（処理装置、ＣＰＵ（Central Processing Unit））を用いるソフトウェアによっても実現できる。

図１は、タブレット１の外観の一例を示す図である。図１に示すように、タブレット１は、本体ユニット（ＰＣ本体）１０とタッチスクリーンディスプレイ２０とを含む。

ＰＣ本体１０の所定の位置には、タッチスクリーンディスプレイ２０に面する撮影の対象、例えばユーザやユーザとその背景またはユーザの周囲に位置に位置する物体等の情報を映像（画像情報）として取り込むカメラユニット１１が位置する。ＰＣ本体１０の所定の位置には、また、ユーザまたはユーザとその周囲に居る任意数の人の音声または周辺の音（音響）を取り込む第１および第２のマイクロフォン１２Ｒ，１２Ｌが位置する。第１および第２のマイクロフォン１２Ｒ，１２Ｌは、例えばカメラユニット１１を仮想的中心とし、カメラユニット１１から実質的に等距離に位置する。なお、本実施形態では、マイクロフォンが２つ設けられた形態を例示するが、設けられるマイクロフォンは１つであってもよい。

また、ＰＣ本体１０の所定の位置には、ＰＣ本体１０が保持する音声／音響データ（以下、音声データと称する）を再生するスピーカ１３Ｒ，１３Ｌが位置する。なお、ＰＣ本体１０の所定の位置には、詳述しないが、電源オンスイッチ（パワーボタン）、ロック機構および認証ユニット等が位置する。パワーボタンは、タブレット１の利用を可能とする（タブレット１を起動する）ための電源のオン／オフを制御する。ロック機構は、例えば持ち運び時のパワーボタンの動作をロックする。認証ユニットは、例えばユーザを認証するために、ユーザの指や手のひらと関連付けられる（生体）情報を読み取る。

タッチスクリーンディスプレイ２０は、液晶表示ユニット（ＬＣＤ（Liquid Crystal Display）／表示ユニット）２１と、タッチパネル（指示入力受けつけユニット）２２とを含む。タッチパネル２２は、少なくともＬＣＤ２１の表示面（画面）を覆うように、ＰＣ本体１０の所定の位置に位置する。

タッチスクリーンディスプレイ２０は、外部オブジェクト（タッチペンまたはユーザの手の指等）が接触する表示画面上の指示入力位置（タッチ位置または接触位置）を検知する。タッチスクリーンディスプレイ２０は、また、同時に複数の指示入力位置を検知可能なマルチタッチ機能を有する（サポートしている）。なお、外部オブジェクトは、前述の通り、タッチペンやユーザの指等、いずれでもよいが、以降の説明では、ユーザの指を例示して説明を行う。

タッチスクリーンディスプレイ２０は、また、タブレット１における各種アプリケーションプログラムの画面や画像（オブジェクト）を表示するメインディスプレイとして使用される。なお、タッチスクリーンディスプレイ２０は、ＰＣ本体１０の起動時に、ユーザが起動しようとする任意のアプリケーションプログラムの実行開始（起動）を外部オブジェクトによる指示入力にて受け付け、任意数の起動されたアプリケーションプログラムについてのアイコンを表示する。また、タッチスクリーンディスプレイ２０の表示画面の向きは、横向き（ランドスケープ）と縦向き（ポートレート）との間で切り替えることができ、図１は、ランドスケープ時の起動完了画面の表示の一例を示している。

図２に、タブレット１のシステム構成の一例を示す。

図２に示すように、タブレット１は、ＣＰＵ１０１、システムコントローラ１０２、主メモリ１０３、グラフィクスコントローラ１０４、サウンドコントローラ１０５、ＢＩＯＳ−ＲＯＭ１０６、不揮発性メモリ１０７、ＥＥＰＲＯＭ１０８、ＬＡＮコントローラ１０９、無線ＬＡＮコントローラ１１０、バイブレータ１１１、加速度センサ１１２、オーディオキャプチャ（ボード）１１３、エンベデッドコントローラ（ＥＣ：Embedded Contoller）１１４等を備える。

ＣＰＵ１０１は、ＰＣ本体１０とタッチスクリーンディスプレイ２０の各部の動作を制御する。すなわち、ＣＰＵ１０１は、不揮発性メモリ１０７から主メモリ１０３にロードされるオペレーティングシステム（ＯＳ）２０１および各種アプリケーションプログラムを実行する。各種アプリケーションプログラムの１つとして、後述する音声録音再生プログラム２０２が存在する。音声録音再生プログラム２０２は、ＯＳ２０１の制御下で実行されるソフトウェアである。音声録音再生プログラム２０２は、例えば１チップマイコン等により構成する音声録音再生プロセッサ１２１を用いてハードウェアにより実現することもできる。

ＣＰＵ１０１は、また、ＢＩＯＳ−ＲＯＭ１０６に格納されたＢＩＯＳも実行する。ＢＩＯＳは、ハードウェア制御のためのプログラムである。

システムコントローラ１０２は、ＣＰＵ１０１のローカルバスと各種コンポーネントとの間を接続するデバイスである。システムコントローラ１０２は、主メモリ１０３をアクセス制御するメモリコントローラも内蔵されている。また、システムコントローラ１０２は、ＰＣＩＥＸＰＲＥＳＳ規格のシリアルバスなどを介してグラフィクスコントローラ１０４との通信を実行する機能も有している。

システムコントローラ１０２は、また、不揮発性メモリ１０７を制御するためのＡＴＡコントローラを内蔵している。システムコントローラ１０２は、さらに、各種ＵＳＢデバイスを制御するためのＵＳＢコントローラを内蔵している。また、システムコントローラ１０２は、サウンドコントローラ１０５およびオーディオキャプチャ１１３との通信を実行する機能も有している。なお、カメラユニット１１が取得（撮影）する画像データ（動画／静止画）は、カメラユニット１１において所定のフォーマットに変換され、システムコントローラ１０２を通じて主メモリ１０３上で動作する画像処理プログラムに供給される。カメラユニット１１からの画像データは、ユーザの要求に応じて起動する、カメラユニット１１からの画像データに対応するフォーマットの画像を再生可能な画像処理プログラムにおいて再生され、ＬＣＤ２１に表示される。また、カメラユニット１１からの画像データは、例えば不揮発性メモリ１０７が保持できる。

グラフィクスコントローラ１０４は、ＰＣ本体１０のタッチスクリーンディスプレイ２０のＬＣＤ２１を制御する表示コントローラである。グラフィクスコントローラ１０４が生成する表示信号がＬＣＤ２１に送られ、ＬＣＤ２１は、表示信号に基づいて映像を表示する。ＬＣＤ２１上に位置するタッチパネル２２は、ＬＣＤ２１の画面上での表示に対応する入力信号を入力するためのポインティングデバイス（ユーザ操作指示入力機構）である。ユーザは、タッチパネル２２により、ＬＣＤ２１の画面に表示されたグラフィカルユーザインタフェース（ＧＵＩ）等にユーザ操作、即ち指示入力を入力することができ、これによりＰＣ本体１０を操作することができる。つまり、ユーザは、タッチパネル２２を通じてＬＣＤ２１が表示する起動アイコンやＬＣＤ２１が表示するボタンをタッチすることで、起動アイコンやボタンに対応する機能の実行を指示することができる。

サウンドコントローラ１０５は、音源デバイスであり、再生対象の音声データをアナログ出力に変換した後、スピーカ１３Ｒ，１３Ｌに出力する。

ＬＡＮコントローラ１０９は、例えばＩＥＥＥ８０２．３規格の有線通信を実行する有線通信デバイスである。無線ＬＡＮコントローラ１１０は、例えばＩＥＥＥ８０２．１１規格の無線通信を実行する無線通信デバイスである。

バイブレータ１１１は、ＰＣ本体１０に対し、必要に応じて振動（バイブレーション）を与える。

加速度センサ１１２は、タッチスクリーンディスプレイ２０の表示画面のポートレートとランドスケープとの間の切り換えのためのＰＣ本体１０の回転や、ユーザの指の動きのうちの衝撃の強さ等を検出する。

オーディオキャプチャ１１３は、マイクロフォン１２Ｒ（例えばカメラユニット１１の右側に位置する）および１２Ｌ（カメラユニット１１の左側に位置する）のそれぞれが取得する音声または音響（オーディオ）をアナログ−デジタル変換し、デジタル信号を出力する。オーディオキャプチャ１１３は、また、どちらのマイクロフォン１２Ｒ，１２Ｌへの入力信号のレベルが大きいかを示す情報を、主メモリ１０３上で動作する音声録音再生プログラム２０２へ、システムコントローラ１０２を通じて入力する。オーディオキャプチャ１１３は、音声録音再生プログラム２０２において利用可能な所定の前処理の一部または全部を担うことも可能である。

ＥＣ１１４は、電力管理のためのエンベデッドコントローラを含む１チップマイクロコンピュータである。ＥＣ１１４は、また、ユーザによるパワーボタンの操作に応じたＰＣ本体１０の電源のオン／電源オフを制御する。

図３は、このような構成を持つタブレット１上で動作する音声録音再生プログラム２０２の機能構成（機能ブロック）の一例を示す図である。

音声録音再生プログラム２０２は、音声の録音、保存された音声の再生および保存された音声の編集機能を有している。音声録音再生プログラム２０２は、同プログラムを実行するための機能モジュールとして、タッチ情報受信部３１０、制御部３２０、音声再生処理部３３０および表示処理部３４０を少なくとも備える。

タッチ情報受信部３１０は、ユーザの指示（ユーザの指の動作）のある毎に、第１の座標情報、第２の座標情報およびユーザの指の動きの情報を、タッチパネルドライバ２０１Ａを経由してタッチパネル２２から受け取り、制御部３２０に出力する。第１の座標情報は、ユーザの指がタッチパネル２２の表示面の任意の位置に触れた位置の座標情報（ｘ，ｙ）である。第２の座標情報は、ユーザの指がタッチパネル２２の表示面から離れた位置の座標情報（ｘ´，ｙ´）である。ユーザの指の動き情報は、第１の座標情報（ｘ，ｙ）と第２の座標情報（ｘ´，ｙ´）との間のユーザの指の動き、または、第２の座標情報に付属するユーザの指の動き、例えば指が離れる際の方向の情報等を含む。

なお、本実施形態でのユーザの操作入力（ユーザの指の動作）とその呼称は、以下の通りとする。

［１］タッチ：ユーザの指が一定期間、タッチパネル２２の表示面上の所定の位置に位置する（第１の座標情報と第２の座標情報が実質的に同一であって、一定時間経過後、表示面とほぼ直交する方向に離される）。

［２］タップ：ユーザの指がタッチパネル２２の表示面上に任意の位置に所定時間触れた後、表示面と直交する方向に離される（タッチと同義に扱われる場合もある）。

［３］スワイプ：ユーザの指がタッチパネル２２の表示面の任意の位置に触れた後、任意の方向に移動する（第１の座標情報と第２の座標情報との間に指の動き情報を含む、つまり表示面をなぞるようにユーザの指が表示面を移動する）。

［４］フリック：ユーザの指がタッチパネル２２の表示面の任意の位置に触れた後、任意の方向に向けて掃われるように移動し、表示面から離される（タップにおいてユーザの指が表示面から離れる際に、方向の情報を伴う）。

［５］ピンチ：ユーザの２本の指がタッチパネル２２の任意の位置に触れた後、表示面で指の間隔を変更する。特に、指の間隔を広げる（指を開く）場合をピンチアウト、指の間隔を狭める（指を閉じる）場合をピンチインと称する場合もある。

制御部３２０は、タッチ情報受信部３１０が出力する第１の座標情報、第２の座標情報およびユーザの指の動き情報に基づいて、前述の［１］−［５］のユーザの指の動きの情報により特定されるユーザの動作（ユーザの指示入力）に対応する動作を行う。制御部３２０は、以下に説明するキーボードモードまたはマウスモードのどちらの動作モードにおいても、タッチ情報受信部３１０からの第１の座標情報、第２の座標情報およびユーザの指の動き情報に基づいて、ユーザの指示入力に対応する動作を行う。なお、この場合、タッチ［１］は、タップ［２］に準じた動作であってもよいが、本実施形態では、制御部３２０は、実質的にタッチに引き続きタッチパネル２２の表示面上をユーザの指が移動することをスワイプ［３］と判定するものとする。また、制御部３２０は、ユーザの指がタッチパネル２２上の移動から離れる位置の座標情報（ｘ´，ｙ´）を受け取った場合、スワイプ［３］またはフリック［４］と判定するものとする。制御部３２０は、タッチパネル２２からの第１の座標情報、第２の座標情報およびユーザの指の動き情報に基づいて、タッチパネル２２の表示面をユーザの指がなぞった（スワイプした）スワイプ長さ（指示区間長）も求めることができる。

キーボードモードは、一般には、ＬＣＤ２１が表示するキーボード配列の画像に対するタッチパネル２２からのタップに従い対応する個々のキーに固有の文字コードを出力することで、タッチスクリーンディスプレイ２０を仮想キーボードとして利用することを可能とする。マウスモードは、タッチパネル２２上の（指の）接触位置の移動に応じて、その接触位置の移動の方向および距離を示す相対座標データを出力する動作モードである。

そして、ユーザがタッチパネル２２の表示面に表示される所定のアイコン（またはボタン表示）のうちの音声録音再生アイコン２９０（図１参照）をタッチすると、ユーザの指の表示面の位置の座標情報に対応する音声録音再生アイコン２９０と関連付けられたアプリケーション、つまり音声録音再生プログラム２０２が起動される。

制御部３２０は、音声録音再生プログラム２０２を実行するための機能モジュールとして、例えば話者識別部３２１、話者統合部３２２、話者分割部３２３等を含む。

話者識別部３２１は、音声を解析して話者を識別するモジュールである。話者を識別する手法については、例えば特開２０１０−０５５１０３号公報（特許第５１７４０６８号公報）等に具体的な手法が詳細に説明されており、ここでは、その詳細については説明を割愛するが、本タブレット１では、話者識別部３２１が、例えば音声の入力方向に基づいて話者を識別する簡易的な手法（第１手法）と、音声の特徴に基づいて話者を識別する本格的な手法（第２手法）との２種類の手法を併せ持つ。音声の録音時、話者識別部３２１は、第１に、オーディオキャプチャ１１３から出力されるデジタル信号（音声）に対し、発話区間毎に話者を識別する処理を第１手法により即時的に実行する。なお、話者識別部３２１は、一定時間長未満の無音区間を挟んで同一話者の発話区間が存在する場合、これらを１つの発話区間として処理する。また、話者識別部３２１は、ある話者の発言中に一定時間長未満の他の話者の発言があった場合も、他の話者の発話区間を介在させず、ある話者の１つの発話区間とすべく処理する。この話者の識別結果に基づいた表示処理が、音声の録音時にリアルタイムに行われる。

オーディオキャプチャ１１３から出力されるデジタル信号（音声）は、例えば不揮発性メモリ１０７に音声データ４０１として保存される。話者識別部３２１は、第２に、バックグラウンド処理として、この音声データ４０１に対し、発話区間毎に話者を識別する処理を第２手法により改めて実行する。この話者の識別結果は、例えば不揮発性メモリ１０７にインデックスデータ４０２として保存される。音声の再生時には、このインデックスデータ４０２として保存される話者の識別結果に基づいた表示処理が行われる。

話者統合部３２２は、同一人物の音声が複数の人物の音声と識別されている場合に、当該複数の人物の音声と識別されている音声を同一人物の音声として統合すべくインデックスデータ４０２を修正するためのモジュールである。また、話者分割部３２３は、複数の人物の音声が同一人物の音声と識別されている場合に、当該同一人物の音声と識別されている音声を複数の人物の音声として分割すべくインデックスデータ４０２を修正するためのモジュールである。本タブレット１は、話者統合部３２２および話者分割部３２３を備えて、ユーザが、話者識別部３２１による話者の識別の結果を簡単な操作で修正することのできるユーザインタフェースを提供する。

音声再生処理部３３０は、音声録音再生プログラム２０２において再生する音声出力信号を処理するモジュールである。音声再生処理部３３０は、サウンドコントローラ１０５に対して、録音時の話者の位置を擬似的に再現できるように、例えば再生中の音声データに対応する話者の位置を基に、スピーカ１３Ｒおよびスピーカ１３Ｌが出力する再生音声の出力割合を変更する制御を行うことができる。

そして、表示処理部３４０は、ＰＣ本体１０のタッチスクリーンディスプレイ２０に表示される表示画面２１０（図１参照）内に様々な情報を表示するための表示信号を処理するモジュールである。

次に、音声録音再生プログラム２０２の動作原理について、当該音声録音再生プログラム２０２によるＰＣ本体１０のタッチスクリーンディスプレイ２０への表示画面２１０の一表示例を示しながら説明する。

音声録音再生プログラム２０２は、図４に示すように、大きく分けて、ホーム画面２１０−１（図４の（ａ））、録音画面２１０−２（図４の（ｂ））および再生画面２１０−３（図４の（ｃ））の３種類の画面を表示する。

ホーム画面２１０−１は、音声録音再生プログラム２０２が起動時に表示する基本画面である。図５は、ホーム画面２１０−１（図４の（ａ））の拡大図である。

図５に示すように、ホーム画面２１０−１には、録音を開始するための録音ボタンａ１と、録音済みの音声データ４０１の再生を開始するためのボタンの役割を兼ねる、録音済みの音声データ４０１を選択肢として提示するリストａ２とが表示される。リストａ２内における録音済みの音声データ４０１それぞれの表示領域（ａ３）には、例えば、録音開始時刻、録音終了時刻、録音時間等、ユーザが目的の音声データ４０１を選び出すための様々な情報が表示される。なお、ここでは、リストａ２内に録音済みの音声データ４０１が１つのみ表示されているが、録画済みの音声データ４０１が複数存在する場合、それらすべてがリストａ２内に垂直方向に並べられて表示される。リストａ２の表示領域内に収まり切らない数の録音済みの音声データ４０１が存在する場合、その一部のみがリストａ２内に表示され、リストａ２の表示領域上での例えばスワイプまたはフリックにより、表示される録音済みの音声データ４０１が切り換わる（スクロール）。また、リストａ２内での録画済みの音声データ４０１の並び順は、録音開始時刻の新しい順と録音開始時刻の古い順との間で切り替えることができる。

このホーム画面２１０−１の録音ボタンａ１にタッチまたはタップすることで、ユーザは、録音を開始することができる。録音画面２１０−２（図４の（ｂ））は、音声録音再生プログラム２０２が録音中に表示する画面である。図６は、録音画面２１０−２（図４の（ｂ））の拡大図である。

図６中、符号ｂ１で示されるラインは、現在時点を示す。このラインを基点に、話者が識別されながら音声が録音される様子が示される。前述したように、音声録音再生プログラム２０２（話者識別部３２１）は、音声の録音時、簡易的な手法である第１手法により話者を識別する処理を実行する。話者が識別されるまでの期間（ｂ２）は、音声の入力レベルが示される。話者が識別されると、音声の入力レベルに代わって、各々の発話区間を示す発話区間バーｂ３が、話者を識別可能に表示される。

また、録音画面２１０−２には、識別された話者を示す、例えば識別された順にアルファベットが割り振られる話者マークｂ４が話者毎に表示される。話者マークｂ４は、最大１０人（Ａ〜Ｊ）まで表示できる。録音画面２１０−２には、発話マークｂ５も表示される。録音画面２１０−２における発話マークｂ５は、音声の入力有無を示し、音声が入力されている際に表示される。また、録音画面２１０−２には、録音を停止するための停止ボタンｂ６が表示される。この停止ボタンｂ６にタッチまたはタップすることで、ユーザは、録音を一時停止または停止することができる。録音を停止すると、図５に示したホーム画面２１０−１に復帰する。

ホーム画面２１０−１のリストａ２内に選択肢として提示される音声データ４０１をタッチまたはタップによって選択することにより、ユーザは、その音声データ４０１の再生を開始することができる。再生画面２１０−３（図４の（ｃ））は、音声録音再生プログラム２０２が音声の再生中に表示する画面である。図７は、再生画面２１０−３（図４の（ｃ））の拡大図である。

図７に示すように、再生画面２１０−３にも、各々の発話区間を示す発話区間バーｃ１が、話者を識別可能に表示される。符号ｃ２で示されるラインは、再生時点を示す。図７では、このラインが話者Ｆの発話区間を示す発話区間バーｃ１上に位置しているので、話者Ｆの音声が出力されていることになる。また、再生画面２１０−３にも、話者マークｃ３と発話マークｃ４が表示される。再生画面２１０−１における発話マークｃ４は、音声が出力されている際、その話者を示す話者マークｃ３の下に位置することで、発言者を示す（図７では、話者Ｆを示す話者マークｃ３の下に位置している）。

また、再生画面２１０−３には、再生されている音声データ４０１の総録音区間を示すタイムバーｃ５と、この音声データ４０１の総録音区間中の発話区間バーｃ１の表示範囲を示す表示範囲バーｃ６とが表示される。

このように、音声録音再生プログラム２０２は、音声を可視化して、例えば会議の議事録の作成等を支援することができる。

続いて、音声録音再生プログラム２０２が提供する、話者の識別の結果を簡単な操作で修正することのできるユーザインタフェースについて説明する。

いま、音声データ４０１が再生されており、図７に示した再生画面２１０−３がタッチスクリーンディスプレイ２０に表示されているものと想定する。また、話者Ｆと識別されている発話区間の音声は、正しくは話者Ｄと識別されるべきであるところ、誤って話者Ｆと識別されているものと想定する。つまり、話者Ｄの発話区間が、話者Ｄの発話区間と話者Ｆの発話区間とに過分割された状態にある場合を想定する。そして、ユーザは、再生中の音声を聞いて、この誤りに気づき、過分割された発話区間を統合しようと考えているものと想定する。

このような場合、ユーザは、まず、図８に示すように、話者Ｆを示す話者マークｃ３を長押しする。ここで、長押しとは、タッチの状態を一定時間以上継続させる操作入力である。話者マークｃ３が長押しされると、音声録音再生プログラム２０２（制御部３２０）は、再生モードから編集モードへと移行する。編集モードへの移行は、例えば、再生を一時停止の状態とすることにより、ユーザに通知する。この時、再生画面２１０−３の更新も停止される。なお、図８中、符号ｄ１で示される発話区間は、音声再生中の発話区間であって、話者Ｄを話者Ｆと誤って識別されている発話区間であり、符号ｄ２で示される発話区間は、音声再生中の発話区間ではないが、同じく、話者Ｄを話者Ｆと誤って識別されている発話区間である。

編集モードへ移行したら、ユーザは、続いて、図９に示すように、（長押しした）話者Ｆを示す話者マークｃ３を移動させて話者Ｄを示す話者マークｃ３に重ねるべく、タッチスクリーンディスプレイ２０上をなぞるような操作入力を行う。この操作を受けて、音声録音再生プログラム２０２（話者統合部）３２２は、話者Ｆの発話区間と話者Ｄの発話区間とを話者Ｄの発話区間に統合する。図１０に、話者Ｆの発話区間と話者Ｄの発話区間とが話者Ｄの発話区間に統合された後の再生画面２１０−３を示す。図１０に示すように、図８および図９における話者Ｆの発話区間ｄ１は、先行かつ隣接する話者Ｄの発話区間と１つに結合されて、話者Ｄの発話区間ｅ１として示されている。即ち、音声録音再生プログラム２０２（話者統合部）３２２は、発話区間単位で話者を修正するだけでなく、２以上の発話区間を１つの発話区間に統合することが可能である。また、図８および図９における（音声再生中の発話区間ではない）話者Ｆの発話区間ｄ２も、話者Ｄの発話区間ｅ２として示されている。つまり、１回の操作で、ユーザは、音声データ４０１中の話者Ｆとして識別される発話区間を話者Ｄの発話区間に一括して修正することができる。なお、図１０に示すように、この時、話者マークｃ３の表示も更新される。

発話区間の統合を完了すると、音声録音再生プログラム２０２（制御部３２０）は、編集モードから再生モードへ復帰し、音声の再生を再開する。なお、話者マークの表示領域および発話区間の表示領域以外の領域で、タッチスクリーンディスプレイ２０上でのタッチが行われた場合も、音声録音再生プログラム２０２（制御部３２０）は、編集モードから再生モードへ復帰する。

次に、複数の人物の音声が同一人物の音声と誤って識別されている場合であって、その一人の発話区間を複数の人物の発話区間に分割する場合について説明する。

このような状況が発生するケースとして、例えば、図１１に示すように、音声の特徴が似ている話者Ｆの音声と話者Ｇの音声とがほぼ同じ方向から入力されるケースが考えられる。換言すれば、音声の特徴に若干の違いはみられるものの、ほぼ同じ方向から入力されることから、同一の話者として纏められてしまっているようなケースが考えられる。

ここでも、音声データ４０１が再生されており、図７に示した再生画面２１０−３がタッチスクリーンディスプレイ２０に表示されているものと想定する。また、話者Ｆと識別されている音声再生中の発話区間の音声は、正しくは別の話者（話者Ｇとする）と識別されるべきであるところ、誤って話者Ｆと識別されているものと想定する。つまり、話者Ｆの発話区間と話者Ｇの発話区間とが、話者Ｆの発話区間として纏められた状態にある場合を想定する。そして、ユーザは、再生中の音声を聞いて、この誤りに気づき、誤って纏められた発話区間を分割しようと考えているものと想定する。

このような場合、ユーザは、まず、前述した統合の場合と同様、いずれかの話者マークを長押しして、再生モードから編集モードへの切り換えを実行する。編集モードへ移行したら、ユーザは、続いて、図１２に示すように、話者Ｆから話者Ｇへ分割したい発話区間を示す発話区間バーｆ１へのタッチを行う。なお、図１２中、符号ｆ２で示される発話区間は、（話者Ｇではなく）話者Ｆが発言した発話区間であるものとする。

この操作を受けて、音声録音再生プログラム２０２（話者分割部）３２３は、話者Ｆとして識別されている発話区間のうち、タッチされた発話区間バーｆ１で示される発話区間の音声と特徴が一致する発話区間を話者Ｇの発話区間として分割する。図１３に、話者Ｆの発話区間が話者Ｆの発話区間と話者Ｇの発話区間とに分割された後の再生画面２１０−３を示す。図１３に示すように、図１２における話者Ｆの発話区間ｆ１は、話者Ｇの発話区間ｇ１として示され、また、図１２における話者Ｆの発話区間ｆ２は、そのまま、話者Ｆの発話区間ｆ２として示されている。つまり、１回の操作で、ユーザは、音声データ４０１中の話者Ｆとして識別される発話区間のうち、話者Ｇとして識別されるべき発話区間のみを話者Ｇの発話区間に一括して修正することができる。また、この時、話者マークｃ３の表示も更新される。

なお、音声録音再生プログラム２０２（話者分割部）３２３は、発話区間単位で話者を修正するだけでなく、発話区間を２以上の発話区間に分割することも可能である。具体的には、例えば、話者Ｆが発言した直後に話者Ｇが発言した場合であって、これらの発言が話者Ｆの発言として１つの発話区間に纏められているような場合、音声録音再生プログラム２０２（話者分割部）３２３は、当該１つの発話区間を（話者Ｆおよび話者Ｇの）２つの発話区間に分割することができる。

図１４は、タブレット１の話者統合または話者分割に関する動作手順を示すフローチャートである。

音声の再生中、話者マークを長押しする操作が行われると（ブロックＡ１のＹＥＳ）、タブレット１は、再生モードから編集モードに移行する（ブロックＡ２）。編集モードへ移行した後、長押しされた話者マークを他の話者マークに被せる操作が行われると（ブロックＡ３のＹＥＳ）、タブレット１は、長押しされた話者マークで示される話者の音声データを、被せられた話者マークで示される話者の音声データと統合する統合処理を実行する（ブロックＡ４）。統合処理の実行後、タブレット１は、編集モードから再生モードに移行する（ブロックＡ５）。

また、編集モードへ移行した後、発話区間バーに触れる操作が行われると（ブロックＡ３のＮＯ，Ａ６のＹＥＳ）、タブレット１は、触れられた発話区間バーと同一話者の音声データのうち、触れられた発話区間バーの音声データと同一の特徴をもつ音声データを別の話者に分割する分割処理を実行する（ブロックＡ７）。分割処理の実行後、タブレット１は、編集モードから再生モードに移行する（ブロックＡ５）。

また、編集モードへ移行した後、話者マーク、発話区間バー以外に触れる操作が行われた場合も（ブロックＡ６のＮＯ，Ａ８のＹＥＳ）、タブレット１は、編集モードから再生モードに移行する（ブロックＡ５）。

このように、タブレット１は、同一人物の音声が複数の人物の音声と識別されたり、逆に、複数の人物の音声が同一人物の音声と識別されたり等、話者の識別に誤りが生じている場合に、その話者の識別の結果を簡単な操作で修正することを可能とする。

本実施形態に記載された様々な機能の各々は、処理回路によって実現されてもよい。処理回路の例には、中央処理装置（ＣＰＵ）のような、プログラムされたプロセッサが含まれる。このプロセッサは、メモリに格納されたプログラムを実行することによって、記載された機能それぞれを実行する。このプロセッサは、電気回路を含むマイクロプロセッサであってもよい。処理回路の例は、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、マイクロコントローラ、コントローラ、他の電気回路部品も含む。

本実施形態の各種処理はコンピュータプログラムによって実現することができるので、このコンピュータプログラムを格納したコンピュータ読み取り可能な記憶媒体を通じてこのコンピュータプログラムを通常のコンピュータにインストールして実行するだけで、本実施形態と同様の効果を容易に実現することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１…タブレット、１０…本体ユニット（ＰＣ本体）、１１…カメラユニット、１２Ｒ，１２Ｌ…マイクロフォン、１３Ｒ，１３Ｌ…スピーカ、２０…タッチスクリーンディスプレイ、２１…ＬＣＤ、２２…タッチパネル、１０１…ＣＰＵ、１０２…システムコントローラ、１０３…主メモリ、１０４…グラフィクスコントローラ、１０５…サウンドコントローラ、１０６…ＢＩＯＳ−ＲＯＭ、１０７…不揮発性メモリ、１０８…ＥＥＰＲＯＭ、１０９…ＬＡＮコントローラ、１１０…無線ＬＡＮコントローラ、１１１…バイブレータ、１１２…加速度センサ、１１３…オーディオキャプチャ、１１４…エンベデッドコントローラ（ＥＣ）、１２１…音声録音再生プロセッサ、２０１…オペレーティングシステム（ＯＳ）、２０１Ａ…タッチパネルドライバ、２０２…音声録音再生プログラム、３１０…タッチ情報受信部、３２０…制御部、３２１…話者識別部、３２２…話者統合部、３２３…話者分割部、３３０…音声再生処理部、３４０…表示処理部、４０１…音声データ、４０２…インデックスデータ

Claims

タッチパネルを有するディスプレイと、
音声データを記憶する不揮発性メモリと、
音声録音再生プログラムを実行するプロセッサと、
を具備し、
前記プロセッサは、
前記ディスプレイ上に少なくとも音声を録音するための録音画面、前記音声を再生するための再生画面を表示し、
前記録音画面を用いて録音した前記音声データを前記不揮発性メモリに記憶し、
前記再生画面を用いて前記不揮発性メモリに記憶した前記音声データを再生し、
前記再生画面には、発話区間を示す発話区間バーが発話した話者をそれぞれ識別可能に表示し、
前記再生画面を用いて前記音声データを音声再生中に、前記再生画面の特定エリアを長押しした時、再生モードから編集モードに移行させ、
前記編集モードにおいて、第１話者の第１発話区間と第２話者の第２発話区間を統合する操作が実行された時、前記第２話者として識別されている全ての前記第２発話区間を前記第１話者の前記第１発話区間に一括して修正する、
電子機器。
前記再生画面の特定エリアは、前記音声データの録音の際に識別した話者を話者毎に表示した話者マークであり、
前記プロセッサは、
前記話者マークの前記第１話者に対応する位置を長押しした時、再生モードから編集モードに移行させ、
前記第１話者に対応する前記話者マークから前記第２話者に対応する前記話者マークになぞる移動操作に応答して前記統合する操作を実行する、
請求項１に記載の電子機器。
前記プロセッサは、前記第１発話区間への統合が完了した場合、又は前記ディスプレイ上の前記発話区間を示す発話区間バーの表示領域、および前記特定エリアの表示領域以外をタッチすると、前記編集モードから前記再生モードに復帰する請求項１に記載の電子機器。
前記プロセッサは、前記編集モードにおいて、第３話者から第４話者に変更したい前記発話区間バーをタッチしたことを受けて、そのタッチされた発話区間を前記第３話者から前記第４話者に修正し、前記第３話者と識別されている他の話者区間は修正しない請求項１に記載の電子機器。
前記プロセッサは、前記音声データを録音する時、簡易的な第１手法により話者を識別して前記不揮発性メモリに記憶し、前記不揮発性メモリに記憶した前記音声データを本格的な第２手法により再度話者を識別して、その識別結果をインデックスデータとして前記不揮発性メモリに記憶し、前記インデックスデータに基づき前記発話区間を示す発話区間バーの話者を識別可能に表示する請求項１に記載の電子機器。
タッチパネルを有するディスプレイ上に、少なくとも音声を録音するための録音画面、前記音声を再生するための再生画面を表示し、
前記録音画面を用いて録音した音声データを不揮発性メモリに記憶し、
前記再生画面を用いて前記不揮発性メモリに記憶した前記音声データを再生し、
前記再生画面には、発話区間を示す発話区間バーが発話した話者をそれぞれ識別可能に表示し、
前記再生画面を用いて前記音声データを音声再生中に、前記再生画面の特定エリアを長押しした時、再生モードから編集モードに移行させ、
前記編集モードにおいて、第１話者の第１発話区間と第２話者の第２発話区間を統合する操作が実行された時、前記第２話者として識別されている全ての前記第２発話区間を前記第１話者の前記第１発話区間に一括して修正する、
電子機器の方法。
前記再生画面の特定エリアは、前記音声データの録音の際に識別した話者を話者毎に表示した話者マークであり、
前記話者マークの前記第１話者に対応する位置を長押しした時、再生モードから編集モードに移行させ、
前記第１話者に対応する前記話者マークから前記第２話者に対応する前記話者マークになぞる移動操作に応答して前記統合する操作を実行する、
請求項６に記載の方法。
コンピュータに、
タッチパネルを有するディスプレイ上に、少なくとも音声を録音するための録音画面、前記音声を再生するための再生画面を表示するステップと、
前記録音画面を用いて録音した音声データを不揮発性メモリに記憶するステップと、
前記再生画面を用いて前記不揮発性メモリに記憶した前記音声データを再生するステップと、
前記再生画面には、発話区間を示す発話区間バーが発話した話者をそれぞれ識別可能に表示するステップと、
前記再生画面を用いて前記音声データを音声再生中に、前記再生画面の特定エリアを長押しした時、再生モードから編集モードに移行させるステップと、
前記編集モードにおいて、第１話者の第１発話区間と第２話者の第２発話区間を統合する操作が実行された時、前記第２話者として識別されている全ての前記第２発話区間を前記第１話者の前記第１発話区間に一括して修正するステップと、
を実行させるためのプログラム。
前記再生画面の特定エリアは、前記音声データの録音の際に識別した話者を話者毎に表示した話者マークであり、
前記話者マークの前記第１話者に対応する位置を長押しした時、再生モードから編集モードに移行させるステップと、
前記第１話者に対応する前記話者マークから前記第２話者に対応する前記話者マークになぞる移動操作に応答して前記統合する操作を実行するステップと、
を実行させる請求項８に記載のプログラム。
前記第１発話区間への統合が完了した場合、又は前記ディスプレイ上の前記発話区間を示す発話区間バーの表示領域、および前記特定エリアの表示領域以外をタッチすると、前記編集モードから前記再生モードに復帰するステップを実行させる請求項８に記載のプログラム。
前記編集モードにおいて、第３話者から第４話者に変更したい前記発話区間バーをタッチしたことを受けて、そのタッチされた発話区間を前記第３話者から前記第４話者に修正し、前記第３話者と識別されている他の話者区間は修正しないステップを実行させる請求項８に記載のプログラム。
前記音声データを録音する時、簡易的な第１手法により話者を識別して前記不揮発性メモリに記憶し、前記不揮発性メモリに記憶した前記音声データを本格的な第２手法により再度話者を識別して、その識別結果をインデックスデータとして前記不揮発性メモリに記憶し、前記インデックスデータに基づき前記発話区間を示す発話区間バーの話者を識別可能に表示するステップを実行させる請求項８に記載のプログラム。