JP6464411B6 - 電子機器、方法及びプログラム - Google Patents

電子機器、方法及びプログラム Download PDF

Info

Publication number
JP6464411B6
JP6464411B6 JP2015035353A JP2015035353A JP6464411B6 JP 6464411 B6 JP6464411 B6 JP 6464411B6 JP 2015035353 A JP2015035353 A JP 2015035353A JP 2015035353 A JP2015035353 A JP 2015035353A JP 6464411 B6 JP6464411 B6 JP 6464411B6
Authority
JP
Japan
Prior art keywords
voice
screen
speech
recognition
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015035353A
Other languages
English (en)
Other versions
JP6464411B2 (ja
JP2016156996A (ja
JP2016156996A5 (ja
Inventor
裕作 菊川
裕作 菊川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dynabook Inc
Original Assignee
Dynabook Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dynabook Inc filed Critical Dynabook Inc
Priority to JP2015035353A priority Critical patent/JP6464411B6/ja
Priority to US14/919,662 priority patent/US20160247520A1/en
Publication of JP2016156996A publication Critical patent/JP2016156996A/ja
Publication of JP2016156996A5 publication Critical patent/JP2016156996A5/ja
Application granted granted Critical
Publication of JP6464411B2 publication Critical patent/JP6464411B2/ja
Publication of JP6464411B6 publication Critical patent/JP6464411B6/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Description

本発明の実施形態は録音中の音声の可視化に関する。
従来、電子機器で録音する際、録音中の音声を可視化したい要求があった。一例として、入力音を分析し、人間が音声を発生している音声区間と、それ以外の非音声区間(雑音区間と無音区間)とを区別して表示する電子機器がある。
特開2003-216179号公報 特開2000-112490号公報 特開2014-203031号公報
従来の電子機器は、話者が話している音声区間を表示することはできるが、音声の内容を可視化することはできないという課題があった。
本発明の目的は録音中の音声の内容を可視化する電子機器、方法及びプログラムを提供することである。
実施形態によれば、子機器は、マイクを介して音声信号を受ける入力部と、ディスプレイと、前記音声信号の録音、録音された前記音声信号の音声認識、および音声区間を前記ディスプレイの画面上に表示する処理を少なくとも実行する制御部と、を具備する。前記制御部は、前記音信号の録音中に、前記音信号に含まれる第1音声区間を示す第1オブジェクトと、前記第1音声区間の後の第2音声区間を示す第2オブジェクトを時系列に並べて前記画面上に表示し、前記第1音声区間の前記音声認識に対応する第1文字列を、前記第1音声区間の前記音声認識が完了したときに、前記第1オブジェクトに関連付けて前記画面上に表示し、前記第2音声区間の前記音声認識に対応する第2文字列を、前記第2音声区間の前記音声認識が完了したときに、前記第2オブジェクトに関連付けて前記画面上に表示し、前記第1オブジェクトが前記画面上から消える位置にあると判断した時は前記第1オブジェクトの音声認識をスキップして、後続する前記第2オブジェクトの少なくとも一部音声認識する
実施形態の外観の一例を示す平面図である。 実施形態のシステム構成の一例を示すブロック図である。 実施形態のボイスレコーダアプリケーションの機能構成の一例を示すブロック図である。 実施形態のホームビューの一例を示す図である。 実施形態の録音ビューの一例を示す図である。 実施形態の再生ビューの一例を示す図である。 実施形態の音声認識エンジンの機能構成の一例を示す図である。 実施形態の音声強調処理の一例を示す図である。 実施形態の音声判定処理の一例を示す図である。 実施形態のキューの動作の一例を示す図である。 実施形態の録音ビューの他の例を示す図である。 実施形態の動作の一例を示すフローチャートである。 図12のフローチャートの音声認識の部分の動作の一例を示すフローチャートである。
以下、図面を参照して種々の実施形態を説明する。
図1は一実施形態である電子機器1の一例の平面図を示す。電子機器1は、例えばタブレット型パーソナルコンピュータ(携帯可能なPC(Personal Computer))、スマートフォン(多機能携帯電話装置(Smart Phone))あるいはPDA(携帯端末装置(Personal Digital Assistant))等である。以下、電子機器1はタブレット型パーソナルコンピュータである場合を説明する。以下に説明する各要素や各構成は、ハードウェアを用いても実現できるし、マイクロコンピュータ(処理装置、CPU(Central Processing Unit))を用いるソフトウェアによっても実現できる。
タブレット型パーソナルコンピュータ(以下、タブレットPCと略称する)1は、本体10とタッチスクリーンディスプレイ20と、を含む。
本体10の所定の位置、例えば本体10の表面の上端の中央位置には、カメラ11が配置されている。さらに、本体10の2つの所定位置、例えば本体10の表面の上端において互いに離された2つの位置には、マイクロフォン12R,12Lが配置されている。これら2つのマイクロフォン12R,12Lの間にカメラ11が位置されていてもよい。なお、設けられるマイクロフォンは1つであってもよい。本体10の別の2つの所定位置、例えば本体10の左側面および右側面には、音響スピーカ13R,13Lが配置されている。本体10のさらに他の所定位置には、図示しないが、電源スイッチ(パワーボタン)、ロック機構及び認証ユニット等が位置する。電源スイッチは、タブレットPC1の利用を可能とする(タブレットPC1を起動する)ための電源のオン/オフを制御する。ロック機構は、例えば持ち運び時の電源スイッチの動作をロックする。認証ユニットは、例えばユーザを認証するために、ユーザの指や掌と関連付けられる(生体)情報を読み取る。
タッチスクリーンディスプレイ20は、LCD(Liquid Crystal Display)21と、タッチパネル22とを含む。タッチパネル22は、LCD21の画面を覆うように本体10の表面に取り付けられている。タッチスクリーンディスプレイ20は、表示画面上の外部オブジェクト(スタイラスまたは指)の接触位置を検知する。タッチスクリーンディスプレイ20は、同時に複数の接触位置を検知可能なマルチタッチ機能をサポートしていてもよい。タッチスクリーンディスプレイ20は、各種アプリケーションプログラムを起動するための幾つかのアイコンを画面上に表示できる。これらアイコンには、ボイスレコーダプログラムを起動するためのアイコン290が含まれていてもよい。ボイスレコーダプログラムは、会議のような録音の内容を可視化するための機能を有している。
図2は、タブレットPC1のシステム構成の一例を示す。タブレットPC1は、図1に示した要素以外に、CPU101、システムコントローラ102、主メモリ103、グラフィクスコントローラ104、サウンドコントローラ105、BIOS−ROM106、不揮発性メモリ107、EEPROM108、LANコントローラ109、無線LANコントローラ110、バイブレータ111、加速度センサ112、オーディオキャプチャ113、エンベデッドコントローラ(EC)114等を備える。
CPU101は、タブレットPC1内の各要素の動作を制御するように構成されたプロセッサ回路である。CPU101は、不揮発性メモリ107から主メモリ103にロードされる各種プログラムを実行する。これらプログラムは、オペレーティングシステム(OS)201および様々なアプリケーションプログラムを含む。これらアプリケーションプログラムには、ボイスレコーダアプリケーション202が含まれる。
ボイスレコーダアプリケーション202の幾つかの特徴を説明する。ボイスレコーダアプリケーション202は、マイクロフォン12R,12Lを介して入力される音に対応するオーディオデータを記録することができる。ボイスレコーダアプリケーション202は、オーディオデータから音声区間を抽出し、それぞれの音声区間を、このオーディオデータ内の複数の話者に対応する複数のクラスタに分類することができる。ボイスレコーダアプリケーション202は、クラスタ分類の結果を使用することによって、音声区間それぞれを話者別に表示する可視化機能を有している。この可視化機能により、何時、どの話者が発音したかをユーザに分かりやすく提示することができる。ボイスレコーダアプリケーション202は、選択された話者の音声区間のみを連続的に再生する話者選択再生機能をサポートする。さらに、入力される音を音声区間単位で音声認識処理することができ、音声区間の内容(テキスト)もユーザに分かりやすく提示することができる。
ボイスレコーダアプリケーション202のこれら機能の各々はプロセッサのような回路によって実現することもできる。あるいは、これら機能は、録音回路121、再生回路122のような専用の回路によって実現することもできる。
CPU101は、BIOS−ROM106に格納されたハードウェア制御のためのプログラムである基本入出力システム(BIOS)も実行する。
システムコントローラ102は、CPU101のローカルバスと各種コンポーネントとの間を接続するデバイスである。システムコントローラ102には、主メモリ103をアクセス制御するメモリコントローラも内蔵されている。システムコントローラ102は、PCI EXPRESS規格のシリアルバスなどを介してグラフィクスコントローラ104との通信を実行する機能も有している。システムコントローラ102は、不揮発性メモリ107を制御するためのATAコントローラも内蔵している。システムコントローラ102は、さらに、各種USBデバイスを制御するためのUSBコントローラを内蔵している。システムコントローラ102は、サウンドコントローラ105およびオーディオキャプチャ113との通信を実行する機能も有している。
グラフィクスコントローラ104は、タッチスクリーンディスプレイ20のLCD21を制御するように構成された表示コントローラである。グラフィクスコントローラ104によって生成される表示信号はLCD21に送られる。LCD21は、表示信号に基づいて画面イメージを表示する。LCD21を覆うタッチパネル22は、LCD21の画面上の外部オブジェクトの接触位置を検知するように構成されたセンサとして機能する。サウンドコントローラ105は音源デバイスである。サウンドコントローラ105は、再生対象のオーディオデータをアナログ信号に変換し、このアナログ信号を音響スピーカ13R,13Lに供給する。
LANコントローラ109は、例えばIEEE 802.3規格の有線通信を実行するように構成された有線通信デバイスである。LANコントローラ109は信号を送信するように構成された送信回路と、信号を受信するように構成された受信回路とを含む。無線LANコントローラ110は、例えばIEEE 802.11規格の無線通信を実行するように構成された無線通信デバイスであり、信号を無線送信するように構成された送信回路と、信号を無線受信するように構成された受信回路とを含む。無線LANコントローラ110は、図示しない無線LAN等を介してインターネット220に接続され、インターネット220に接続された音声認識サーバ230と協働して、マイク12R、12Lから入力される音に対して音声認識処理を施す。
バイブレータ111は、振動するデバイスである。加速度センサ112は、本体10の現在の向き(ポートレート向き/ランドスケープ向き)を検出するために使用される。オーディオキャプチャ113は、マイクロフォン12R、12Lを介して入力される音をアナログ/デジタル変換し、この音に対応するデジタル信号を出力する。オーディオキャプチャ113は、どちらのマイクロフォン12R,12Lからの音のレベルが大きいかを示す情報を、ボイスレコーダアプリケーション202へ送ることができる。EC114は、電力管理のための1チップマイクロコントローラである。EC114は、また、ユーザによる電源スイッチの操作に応じて、タブレットPC1をパワーオンまたはパワーオフする。
図3は、ボイスレコーダアプリケーション202の機能構成の一例を示す。ボイスレコーダアプリケーション202は、同プログラムの機能モジュールとして、入力インタフェースI/F部310、制御部320、再生処理部330および表示処理部340を含む。
入力インタフェースI/F部310は、タッチパネルドライバ201Aを介してタッチパネル22から様々なイベントを受信する。これらイベントは、タッチイベント、移動イベント、リリースイベントを含む。タッチイベントは、LCD21の画面に外部オブジェクトが接触したことを示すイベントである。このタッチイベントは、画面上の外部オブジェクトの接触位置を示す座標を含む。移動イベントは、外部オブジェクトが画面に接触されたまま、接触位置が移動されたことを示すイベントである。この移動イベントは、移動先の接触位置の座標を含む。リリースイベントは、外部オブジェクトと画面との間の接触がリリースされたことを示すイベントである。このリリースイベントは、接触がリリースされた接触位置を示す座標を含む。
これらのイベントに基づいて、次のような指ジェスチャが定義される。
タップ:ユーザの指が、画面の任意の位置に所定時間触れた後、画面と直交する方向に離される(タッチと同義に扱われる場合もある)。
スワイプ:ユーザの指が画面の任意の位置に触れた後、任意の方向に移動する。
フリック:ユーザの指が画面の任意の位置に触れた後、任意の方向に向けて掃われるように移動し、画面から離れる。
ピンチ:ユーザの2本の指が画面の任意の位置に触れた後、画面上で指の間隔を変更する。特に、指の間隔を広げる(指を開く)場合をピンチアウト、指の間隔を狭める(指を閉じる)場合をピンチイン、と称する場合もある。
制御部320は、入力インタフェースI/F部310から受信される様々イベントに基づいて、画面のどこで、どの指ジェスチャ(タップ、スワイプ、フリック、ピンチ等)が行われたかを、検出することができる。制御部320は、録音エンジン321、話者クラスタリングエンジン322、可視化エンジン323、音声認識エンジン324等を含む。
録音エンジン321は、マイクロフォン12L、12Rおよびオーディオキャプチャ113を介して入力される音に対応するオーディオデータ401を不揮発性メモリ107に録音する。録音エンジン321は、会議の録音、電話会話の録音、プレゼンテーションの録音のような、様々なシーンの録音を行うことができる。録音エンジン321は、また、放送、音楽のような、マイクロフォン12L、12Rおよびオーディオキャプチャ113以外を介して入力される、他の種類のオーディオソースの録音を行うこともできる。
話者クラスタリングエンジン322は、録音されたオーディオデータ401を解析して話者識別処理を実行する。話者識別処理は、何時、どの話者が発音したかを検出する。話者識別処理は、例えば、各々が0.5秒の時間長を有する音データサンプル毎に実行される。すなわち、オーディオデータ(録音データ)のシーケンス、つまりデジタルオーディオ信号の信号系列は、0.5秒の時間長を有する音データ単位(0.5秒分の音データサンプルの集合)毎に話者クラスタリングエンジン322に送られる。話者クラスタリングエンジン322は、音データ単位毎に、話者識別処理を実行する。このように、0.5秒の音データ単位は、話者を識別するための識別単位である。
話者識別処理は、音声区間検出と、話者クラスタリングとを含んでいてもよい。音声区間検出は、音データ単位が、音声区間であるか、音声区間以外の非音声区間(雑音区間、無音区間)であるかを判定する。この音声区間/非音声区間の判定には、公知のいずれの手法も利用できるが、例えば、Voice Activity Detection(VAD)によって判定されてもよい。この音声区間/非音声区間の判定は、録音中にリアルタイムに実行されてもよい。
話者クラスタリングは、オーディオデータの開始時点から終了時点までのシーケンス内に含まれる音声区間がどの話者の発音であるかを識別する。すなわち、話者クラスタリングは、音声区間それぞれをこのオーディオデータに含まれる複数の話者に対応する複数のクラスタに分類する。クラスタは、同一話者の音データ単位の集合である。話者クラスタリングを実行するための方法としては、既存の様々な方法を使用し得る。例えば、本実施形態では、話者位置を使用して話者クラスタリングを実行する方法と、音データの特徴量(音響特徴量)を使用して話者クラスタリングを実行する方法の双方が利用されてもよい。
話者位置は、タブレットPC1に対する個々の話者の位置を示す。話者位置は、2つのマイクロフォン12L、12Rを介して入力される2つの音信号の差に基づいて推定することができる。同じ話者位置から入力される音それぞれは、同一の話者の音であると推定される。
音データの特徴量を使用して話者クラスタリングを実行する方法においては、互いに類似する特徴量を有する音データ単位が、同一のクラスタ(同一の話者)に分類される。話者クラスタリングエンジン322は、音声区間であると判定された音データ単位から、メル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficient(MFCC))等の特徴量を抽出する。話者クラスタリングエンジン322は、音データ単位の話者位置のみならず、音データ単位の特徴量を加味して、話者クラスタリングを実行することができる。特徴量を使用した話者クラスタリングの方法としては、既存のいずれの手法も利用できるが、例えば、特開2011−191824号公報(特許第5174068号公報)に記載された方法を採用してもよい。話者クラスタリングの結果を示す情報は、不揮発性メモリ107にインデックスデータ402として保存される。
可視化エンジン323は、表示処理部340と協動して、オーディオデータ401のシーケンス全体の概要を可視化するための処理を実行する。より詳しくは、可視化エンジン323は、シーケンス全体を表す表示領域を表示する。そして、可視化エンジン323は、この表示領域上に、個々の音声区間を表示する。複数の話者が存在する場合は、これら個々の音声区間の話者を識別可能な形態で音声区間が表示される。可視化エンジン323は、インデックスデータ402を使用することによって、話者毎の音声区間を可視化することができる。
音声認識エンジン324は、音声区間のオーディオデータを前処理してから音声認識サーバ230に送信し、音声認識サーバ230から音声認識結果を受信する。音声認識エンジン324は、可視化エンジン323と協働して、表示領域上の音声区間の表示に関連づけて認識結果であるテキストを表示する。
再生処理部330は、オーディオデータ401を再生する。再生処理部330は、無音区間をスキップしながら音声区間のみを連続的に再生することができる。さらに、再生処理部330は、ユーザによって選択された特定の話者の音声区間のみを、他の話者の音声区間をスキップしながら連続的に再生する選択話者再生処理を実行することもできる。
次に、ボイスレコーダアプリケーション202によって画面上に表示される幾つかのビュー(ホームビュー、録音ビュー、再生ビュー)の一例を説明する。
図4は、ホームビュー210−1の一例を示す。ボイスレコーダアプリケーション202が起動された時、ボイスレコーダアプリケーション202は、ホームビュー210−1を表示する。ホームビュー210−1は、録音ボタン400と、一定時間(例えば、30秒)の音波形402と、レコード一覧403とを表示する。録音ボタン400は、録音の開始を指示するためのボタンである。
音波形402は、マイクロフォン12L、12Rを介して現在入力されている音信号の波形を示す。音信号の波形は、現在時刻を示す縦バー401の位置にリアルタイムで次々と現れる。そして、時間の経過に伴って、音信号の波形は、縦バー401から左方向に向けて移動する。音波形402において、連続する縦バーは、連続する音信号サンプルそれぞれのパワーに応じた長さを有する。音波形402の表示によって、ユーザは、録音を開始する前に、音が正常に入力されているか否かを確認することができる。
レコード一覧403は、オーディオデータ401として不揮発性メモリ107に格納されているレコードを含む。ここでは、タイトル「AAA会議」のレコードと、タイトル「BBB会議」のレコードと、タイトル「サンプル」のレコードとの3つのレコードが存在する場合が想定されている。レコード一覧403においては、レコードの録音日、レコードの録音時刻、レコードの録音終了時刻も表示される。レコード一覧403においては、作成日が新しい順に、あるいは作成日が古い順に、またはタイトルの順に、録音(レコード)をソートすることができる。
レコード一覧403内のあるレコードがユーザによるタップ操作によって選択されると、ボイスレコーダアプリケーション202は、その選択されたレコードの再生を開始する。ホームビュー210−1の録音ボタン400がユーザによってタップされた時、ボイスレコーダアプリケーション202は録音を開始する。
図5は、録音ビュー210−2の一例を示す。録音ボタン400がユーザによってタップされた時、ボイスレコーダアプリケーション202は録音を開始し、表示画面を、図4のホームビュー210−1から図5の録音ビュー210−2に切り替える。
録音ビュー210−2は、停止ボタン500A、一時停止ボタン500B、音声区間バー502、音波形503、話者アイコン512を表示する。停止ボタン500Aは現在の録音を停止するためのボタンである。一時停止ボタン500Bは、現在の録音を一時停止するためのボタンである。
音波形503は、マイクロフォン12L、12Rを介して現在入力されている音信号の波形を示す。音波形503は、ホームビュー210−1の音波形402と同様に、縦バー501の位置に次々と現れ、時間の経過に伴って左方向に向けて移動する。音波形503においても、連続する縦バーは、連続する音信号サンプルそれぞれのパワーに応じた長さを有する。
録音中においては、上述の音声区間検出が実行される。音信号内の1以上の音データ単位が音声区間(人の声)であると検出された時、それら1以上の音データ単位に対応する音声区間は、音声区間を示すオブジェクトとしての音声区間バー502によって可視化される。音声区間バー502の長さは、対応する音声区間の時間長によって変化する。
音声区間バー502は、話者クラスタリングエンジン322により入力音声が解析され、話者識別処理後に表示可能である。そのため、録音直後は音声区間バー502が表示不可能であるので、ホームビュー210−1と同様に、音波形503が表示される。右端でリアルタイムに音波形503が表示され、音波形503は時間の経過とともに画面の左側に流れ、ある程度経過すると、音声区間バー502に切り替わる。音波形503だけでは、音声によるパワーであるのか、雑音によるパワーであるのかが判別できないが、音声区間バー502により人の音声の録音が確認できる。リアルタイムの音波形503と、若干遅れたタイミングから始まる音声区間バー502が同じ行で表示されることにより、ユーザの視線は同じ行に留まることができ、視線がバラけることなく、視認性良く有用な情報が得られる。
音波形503から音声区間バー502に切り替わる際、一瞬にして切り替わるのではなく、波形表示からバー表示に徐々に切り替えられる。これにより、右端に現在のパワーが音波形503として表示され、表示が右から左に流れ、表示が更新する過程において、波形が連続的あるいはシームレスに変化してバーに収束するため、ユーザは表示を観察する際、不自然さを感じない。
画面の上部左側に、レコード名(初期状態では“新しいレコード”)と、日時が表示される。画面の上部中央に、録音時間(絶対時間でもよいが、ここでは録音開始からの経過時間)(例えば、00時50分02秒)が表示される。画面の上部右側に、話者アイコン512が表示される。現在発話中の話者が特定されると、当該話者のアイコンの下部に発話マーク514が表示される。音声区間バー502の下部には、10秒毎の目盛りを持つ時間軸が表示される。図5は現在時刻(右端)から一定時間、例えば、30秒前までの音声を可視化するものであり、左側にいく程、時間は過去になる。この30秒間は変更可能である。
ホームビュー210−1の時間軸のスケールは一定であるが、録音ビュー210−2の時間軸のスケールは可変で、時間軸を左右にスワイプ、あるいはピンチイン、ピンチアウトすることにより、スケールを可変し表示時間(図5の例では、30秒間)を可変することができる。また、時間軸を左右にフリックすることにより、時間軸が左右に移動し、表示時間は変わらないが、過去のある時刻から一定時間前に録音した音声の可視化も可能である。
音声区間バー502A、502B、502C、502Dの上にタグ504A、504B、504C、504Dが表示される。タグ504A、504B、504C、504Dは、音声区間を選択するためのものであり、選択されると、タグの表示形態が変化する。タグの表示形態が変化したことは、タグが選択されたことを意味する。例えば、選択されたタグの色、大きさ、コントラストが変化する。タグによる音声区間の選択は、例えば、再生時に優先的に再生する音声区間を指定するために行なわれる。さらに、タグによる音声区間の選択は、音声認識の処理順番を制御するためにも利用される。通常、音声認識は時間が古い音声区間から順に行なわれるが、タグが付された音声区間は優先的に音声認識される。音声区間バー502A、502B、502C、502Dに関連付けて、例えば、音声区間バーの下に音声認識結果を表示する吹き出し506A、506B、506C、506Dが表示される。
音声区間バー502は時間の経過とともに左側に移動し、左端から徐々に画面外へ消えていく。それに伴い、音声区間バー502の下の吹き出し506も一緒に左側に移動し、左端から画面外へ消えていく。左端の音声区間バー502Dは徐々に画面外へ消えるが、吹き出し506Dも音声区間バー502Dと同様に徐々に消えても良いし、左端からある距離範囲に入ると、吹き出し506Dは全部消えても良い。
吹き出し506のサイズは有限であるので、テキスト全部が表示できない場合があり、その場合はテキストの一部が表示省略される。例えば、認識結果の先頭の数文字のみが表示され、残りの部分は表示が省略され、省略された認識結果は“…”で表示される。この場合、吹き出し506をクリックすると、ホップアップウィンドウが表示され、その中に全部の認識結果が表示されるようにしてもよい。音声区間502Aの吹き出し506Aは全て“…”を表示するが、これは、音声認識ができなかったことを示す。また、画面全体に空間的な余裕がある場合、テキストの文字数に応じて吹き出し506のサイズが変わってもよい。あるいは、吹き出し506内に表示される文字数に応じてテキストのサイズが変わってもよい。さらに、音声認識結果の文字数、音声区間の長さ、あるいは表示位置に応じて吹き出し506のサイズを変えてもよい。例えば、文字数が多い場合や音声区間バーが長い場合、吹き出し506の横幅を大きくしてもよいし、表示位置が右側になる程、吹き出し506の横幅を大きくしてもよい。
吹き出し506は音声認識処理の完了後表示されるので、吹き出し506が表示されていないということは、音声認識処理中あるいは処理前(未処理)であることが分かる。さらに、処理前(未処理)と処理中とを区別するために、処理前は吹き出し506を表示せず、処理中は空白の吹き出し506を表示してもよい。処理中を示す空白の吹き出し506が点滅されてもよい。さらに、音声認識の処理前(未処理)と処理中のステータスは吹き出し506の表示形態の変化により表すのではなく、音声区間バー502の表示形態の変化で表してもよい。例えば、音声区間バー502の色、コントラスト等をステータスに応じて変化させても良い。
後述するが、本実施形態では、全ての音声区間が音声認識処理される訳ではなく、ある音声区間は音声認識処理に供されない。そのため、音声認識結果が得られない場合、認識処理したが結果が得られなかったのか、認識処理がなされなかったのかを識別したいことがある。これに対処するために、図5では図示しない(図11には図示)が、認識処理がなされない音声区間の吹き出しは全て“xxxx”を表示するようにしてもよい。上述した音声認識結果の表示に関するユーザインタフェースは設計事項であり、種々変更可能である。
図6は、タイトル「AAA会議」のレコードの再生中にその再生が一時停止された状態の再生ビュー210−3の一例を示す。再生ビュー210−3は、話者識別結果ビュー領域601、シークバー領域602、再生ビュー領域603、コントロールパネル604を表示する。
話者識別結果ビュー領域601は、タイトル「AAA会議」のレコードのシーケンス全体を表示する表示領域である。話者識別結果ビュー領域601は、このレコードのシーケンス内の複数の話者それぞれに対応する複数の時間軸701を表示してもよい。話者識別結果ビュー領域601においては、タイトル「AAA会議」のレコードのシーケンス全体内で発話の量が多い順に、5人の話者が順番に並べられる。シーケンス全体内で最も発話の量が多い話者は話者識別結果ビュー領域601の一番上に表示される。ユーザは、特定の話者の音声区間(音声区間マーク)を順番にタップすることによって、この特定の話者の音声区間それぞれを聞くこともできる。
時間軸701の左端はこのレコードのシーケンスの開始時刻に対応し、時間軸701の右端はこのレコードのシーケンスの終了時刻に対応する。つまり、このレコードのシーケンスの開始から終了までの総時間が時間軸701に割り当てられる。しかし、総時間が長い場合、総時間全部を時間軸701に割り当てると、時間軸の目盛りが細かくなり過ぎて表示が見づらい場合があるので、録音ビューと同様に、時間軸701のサイズを可変としてもよい。
ある話者の時間軸701においては、その話者の音声区間の位置および時間長を示す音声区間マークが表示される。複数の話者には異なる色が割り当てられていてもよい。この場合、話者毎に、異なる色の音声区間マークが表示されてもよい。例えば、話者「星野」の時間軸701においては、音声区間マーク702は、話者「星野」に割り当てられた色(例えば赤色)で表示されてもよい。
シークバー領域602は、シークバー711と、移動可能なスライダ(ロケーターとも云う)712とを表示する。シークバー711には、このレコードのシーケンスの開始から終了までの総時間が割り当てられる。シークバー711上のスライダ712の位置は、現在再生位置を示す。スライダ712からは縦バー713が上方向に延びている。縦バー713は話者識別結果ビュー領域601を横切るので、ユーザは、現在再生位置がどの話者(主要話者)の音声区間であるかを容易に理解することができる。
シークバー711上のスライダ712の位置は、再生の進行に伴って右方向に向けて移動する。ユーザは、ドラッグ操作によってスライダ712を右方向または左方向に移動することができる。これにより、ユーザは、現在再生位置を任意の位置に変更することができる。
再生ビュー領域603は、現在再生位置の近傍の期間(例えば20秒程度の期間)の拡大ビューである。再生ビュー領域603は、時間軸方向(ここでは横方向)に長い表示領域を含む。この再生ビュー領域603においては、現在再生位置の近傍の期間内に含まれる幾つかの音声区間(検出された実際の音声区間)が時系列順に表示される。縦バー720は、現在再生位置を示す。ユーザが再生ビュー領域603をフリックすると、縦バー720の位置が固定された状態で、再生ビュー領域603の表示内容が左または右にスクロールされる。この結果、現在再生位置も変更される。
図7は、図3の音声認識エンジン324の構成の一例を示す図である。音声認識エンジン324は、音声区間検出モジュール370、音声強調モジュール372、認識適合/不適合判定モジュール374、優先順位付きキュー376、優先順位コントロールモジュール380、音声認識クライアントモジュール378を含む。
オーディオキャプチャ113からのオーディオデータは音声区間検出モジュール370に入力される。音声区間検出モジュール370は、オーディオデータに対して音声区間検出(VAD)を行い、音声・非音声(非音声は、雑音と無音を含む)の判定結果に基づいて上限時間(例えば十数秒)単位の音声区間を抽出する。オーディオデータは、発言単位、あるいは息継ぎ毎に音声区間とされる。音声が無音から有音に変わるタイミングと、有音から再び無音に変わるタイミングとが検出され、この間が音声区間とされてもよい。この区間が10数秒以上ある場合、文字単位を考慮して10数秒程度まで短縮する。上限時間がある理由は、音声認識サーバ230の負荷の関係である。一般に、会議等の長時間の音声の認識には、下記の問題がある。
1)認識精度は辞書によるので、予め膨大な辞書データを登録する必要がある。
2)音声を取得する状況(例えば、話者が離れたところに居る等)によっては、認識精度が変化(低下)することがある。
3)長時間会議の場合では音声データ量が膨大となり、認識処理に時間を要することがある。
本実施形態では、所謂サーバ型音声認識システムを想定している。サーバ型音声認識システムは、不特定話者方式(学習不要)のため、予め膨大な辞書データを登録しないで良い。しかし、サーバ型音声認識システムでは、サーバに負荷が掛るため、十数秒程度以上の音声は認識できない場合がある。そのため、サーバ型音声認識システムは、検索キーワードを音声入力するような用途にしか使われておらず、会議音声のような長時間音声(例えば1〜3時間)を認識するような用途には不向きであった。
本実施形態では、音声区間検出モジュール370は長時間音声を十数秒程度の音声区間に分割する。これにより、長時間の会議音声が十数秒程度の多数の音声区間に分割されるので、サーバ型音声認識システムで音声認識が可能となる。
音声区間データは、さらに音声強調モジュール372、認識適合/不適合判定モジュール374による処理を受け、サーバ型音声認識システムに適した音声区間データとされる。音声強調モジュール372は、音声区間データに対して音声成分を強調する処理、例えば、ノイズサプレッサ処理とオートゲインコントロール処理を施す。これらの処理によって、図8に示すように音声特性(フォルマント)が強調され、後段の処理の音声認識の精度が向上する可能性が高くなる。図8は、横軸が時間、縦軸が周波数を示す。図8の(a)は強調前の音声区間データであり、(b)は強調後の音声区間データである。ノイズサプレッサ処理とオートゲインコントロール処理としては、既存の手法を利用することができる。また、ノイズサプレッサ処理、オートゲインコントロール処理以外の音声成分の強調処理、例えば、残響抑圧処理、マイクロホンアレイ処理、音源分離処理等を採用することも可能である。
録音条件が悪い場合(例えば、話者までの距離が遠い等)は、音声成分そのものが欠損しているので、いくら音声強調を行っても音声成分を復活させることはできず、音声認識できないことがある。このような音声区間データに対して音声認識しても、意図した認識結果が得られないので、処理時間が無駄になるとともに、サーバの処理が無駄になる。そこで、音声強調モジュール372の出力が認識適合/不適合判定モジュール374に供給され、音声認識に適さない音声区間データを除外する処理が行われる。例えば、低域(例えば、周波数約1200Hz以下)の音声成分と中域(例えば、周波数約1700Hz〜4500Hz)の音声成分とを観察し、図9の(a)に示すように、両方ともにフォルマント成分が存在する場合、音声認識に適する音声区間データであり、それ以外の場合、適しないと判断する。図9の(b)は低域に比べて中域のフォルマント成分が欠如している例(音声認識に適しない)を示す。認識適合/不適合の判定基準は、これに限らず、音声認識に不適合なデータを検出することが出来れば良い。
音声認識に適しないと判定された音声区間データは判定モジュール374から出力されず、音声認識に適すると判定された音声区間データのみが優先順位付きキュー376に蓄積される。音声区間データをキューに格納してから音声認識処理に供するのは、音声区間の検出処理に係る時間よりも音声認識の処理時間が長い(音声区間の先頭が検出されてから認識結果が出るまで10数秒かかる)ので、その時間差を吸収するためである。優先順位付きキュー376はファーストイン/ファーストアウトのレジスタであり、原則、入力された順番でデータを出力するが、優先順位コントロールモジュール380により優先順位が与えられた場合、その優先順位に応じた順番でデータを出力する。優先順位コントロールモジュール380は、タグ504(図5)が選択された音声区間が優先して取り出されるように優先順位付きキュー376を制御する。また、優先順位コントロールモジュール380は、音声区間の表示位置にも応じて音声区間の優先順位を制御してもよい。例えば、画面の左端の音声区間は最も早く画面から消えるので、左端付近の音声区間に対しては音声認識をスキップする、吹き出しを表示しないという判断をしても良い。このように認識を制御することは、キュー376にデータが溜まり過ぎることを防止するためである。
優先順位付きキュー376から取り出された音声区間データは、音声認識クライアントモジュール380により、無線LANコントローラ110、インターネット220を介して音声認識サーバ230に送信される。音声認識サーバ230は、不特定話者方式の音声認識エンジンを持ち、音声区間データの認識結果であるテキストデータを音声認識クライアントモジュール380に送信する。音声認識クライアントモジュール380は、サーバ230から送信されたテキストデータを図5の吹き出し506内に表示するよう表示処理部340を制御する。
図10は、優先順位付きキュー376から音声区間データが取り出される様子を示す図である。図10の(a)は、図5に示す4つの音声区間502A、502B、502C、502Dのいずれもタグ504A、504B、504C、504Dが選択されておらず、優先順位コントロールモジュール380は優先順位を全く制御しない場合の優先順位付きキュー376から音声区間データが取り出される様子を示す。優先順位付きキュー376には、音声区間502Dのデータ、音声区間502Cのデータ、音声区間502Bのデータ、音声区間502Aのデータが古い順に蓄積され、蓄積された順番が優先順位と等しい。即ち、音声区間502D、502C、502B、502Aがそれぞれ優先順位1、優先順位2、優先順位3、優先順位4であり、音声区間502Dのデータ、音声区間502Cのデータ、音声区間502Bのデータ、音声区間502Aのデータの順に取り出され、音声認識される。そのため、図5の録音ビュー210−2では、音声区間502D、502C、502B、502Aの順に吹き出し506D、506C、506B、506Aが表示される。
図10の(b)は、優先順位コントロールモジュール380が優先順位を調整する場合の優先順位付きキュー376から音声区間データが取り出される様子を示す。図5に示すように、音声区間502Bのタグ504Bが選択されたので、優先順位付きキュー376に順に蓄積された音声区間502Dのデータ、音声区間502Cのデータ、音声区間502Bのデータ、音声区間502Aのデータの中で、音声区間502Bのデータの優先順位が1位となる。また、音声区間502Dは最も古いので優先順位は自動的に高くなるが、左端付近にあるので、もう直に画面から消える。音声認識処理しても認識結果が出る頃には、既に画面から消えることが予想される。そのため、左端付近の音声区間に対しては音声認識をスキップするために、優先順位付きキュー376から当該音声区間のデータが取り出されないようになっている。
図11は、図10の(b)に示すように優先順位付きキュー376から音声区間データが取り出された場合の録音ビュー210−2の一例を示す。音声区間502Bのデータが一番早く音声認識され、次に音声区間502Cのデータ、音声区間502Aのデータ、音声区間502Dのデータの順で音声認識される。ここでは、音声区間502Cの吹き出し506Cは全て“xxxx”を表示するが、これは、音声認識に適しないデータであり、音声認識をしなかったことを示す。音声区間502Aの吹き出し506Aは全て“…”を表示するが、これは、音声認識処理はしたが、認識結果が得られなかったことを示す。音声区間502Dの優先順位は4であり、音声区間502Aのデータの次に読み出すが、読み出す際に、既に左端に近い領域に移動しているので、優先順位付きキュー376から当該音声区間のデータが取り出されない。このため、音声認識がスキップされ、吹き出し506Dは表示されない。
図12は、実施形態のボイスレコーダアプリケーション202による録音動作の一例を示すフローチャートである。ボイスレコーダアプリケーション202が起動されると、ブロック804で、図4に示すようなホームビュー210−1が表示される。ブロック806で、録音ボタン400が操作されたか否か判定される。録音ボタン400が操作された場合、ブロック814で、録音が開始される。ブロック806で、録音ボタン400が操作されない場合、ブロック808で、レコード一覧403内のレコードが選択されたか否か判定される。ブロック808で、レコードが選択されない場合、ブロック806の録音ボタン操作の判定が繰り返される。レコードが選択された場合、ブロック810で、選択されたレコードの再生が開始され、図6に示すような再生ビュー210−3が表示される。
ブロック814で録音が開始されると、ブロック816で、オーディオキャプチャ113からのオーディオデータがボイスレコーダアプリケーション202に入力される。ブロック818で、オーディオデータに対して音声区間検出(VAD)が行なわれ、音声区間が抽出され、オーディオデータの波形、音声区間が可視化され、図5に示すような録音ビュー210−2が表示される。
録音が開始されると、多数の音声区間が入力される。ブロック822で、最も古い音声区間が処理対象として選択される。ブロック824で、当該音声区間のデータが、音声強調モジュール372により音声特性(フォルマント)強調される。ブロック826で、強調後の音声区間のデータの低域の音声成分と中域の音声成分とが認識適合/不適合判定モジュール374により抽出される。
ブロック828で、音声区間データが優先順位付きキュー376に蓄積されているか否かが判定される。蓄積されている場合、ブロック836が実行される。蓄積されていない場合、ブロック826で低域の音声成分と中域の音声成分とが抽出された音声区間のデータが、音声認識に適するか否かがブロック830で判定される。一例として、低域(約1200Hz以下)と中域(約1700Hz〜4500Hz)の音声成分の両方ともにフォルマント成分が存在する場合、音声認識に適すると判定される。音声認識に不適合と判定された場合、ブロック822に戻り、次の音声区間が処理対象とされる。
音声認識に適すると判定された場合、ブロック832で、当該音声区間のデータが優先順位付きキュー376に蓄積される。ブロック834で、音声区間データが優先順位付きキュー376に蓄積されているか否かが判定される。蓄積されていない場合、ブロック844で録音終了か否か判定される。録音終了でない場合、ブロック822に戻り、次の音声区間が処理対象とされる。
ブロック834で蓄積されていると判断された場合、ブロック836で優先順位付きキュー376から1つの音声区間のデータが取り出され、音声認識サーバ230に送信される。音声認識サーバ230で音声区間データが音声認識され、ブロック838で、認識結果のテキストデータが音声認識サーバ230から返送される。ブロック840で、認識結果に基づいて、録音ビュー201−2の吹き出し506の表示内容が更新される。このため、キュー内に音声区間データが蓄積されている限りは、録音が終了しても音声認識は続く。
録音時に得られた認識結果は音声区間データとともに保存されるので、再生時に認識結果を表示してもよい。また、録音時に認識結果が得られなかった場合、再生時に認識しても良い。
図13は、ブロック836の「優先順位コントロールモジュール380からの音声区間データの取り出し」の一例を示すフローチャートである。ブロック904で、キュー376内にタグ付きの音声区間データが蓄積されているか否か判定される。蓄積されている場合、ブロック906で、タグ付きの音声区間の優先順位が1位とされ、各音声区間の優先順位が変更された後、ブロック908が実行される。ブロック904で蓄積されていないと判定された場合も、ブロック908が実行される。
ブロック908で、優先順位の最も高い音声区間が取り出し候補とされる。ブロック912で、取り出し候補の音声区間を示すバー502の画面内の位置が左端領域であるか否か判定される。音声区間バーの表示位置が左端領域であることは、音声区間バーが画面から直に消えることを意味するので、音声認識の必要性が低い音声区間であると判断できる。そのため、音声区間バーの表示領域が左端領域である場合、音声認識処理を省略して、ブロック908で、次の音声区間が取り出し候補とされる。
音声区間バーの表示領域が左端領域でない場合、ブロック914で、取り出し候補の音声区間のデータが優先順位付きキュー376から取り出され、音声認識サーバ230に送信される。その後、ブロック916で、音声区間データが優先順位付きキュー376に蓄積されているか否かが判定される。蓄積されている場合、ブロック908で、次の音声区間が取り出し候補とされる。蓄積されていない場合、図12のフローチャートに戻り、ブロック838(認識結果の受信)が実行される。
図13の処理によれば、音声認識しても表示時間が短いものは音声認識が省略される。また、反対に、重要度が高い音声区間は優先的に音声認識されるので、直ぐに音声認識結果が表示される。
以上説明したように、第1の実施形態によれば、会議音声等の長時間のオーディオデータの取得(録音)中に、必要な音声データのみが音声認識されるため、音声認識結果の待ち時間の大幅な削減が見込める。加えて、音声認識に適さない音声は音声認識処理から除かれるため、認識精度の改善も見込めるとともに、無駄な処理、処理時間が発生することがない。さらに、録音順番ではなく、ユーザが所望する音声区間から優先的に音声認識するので、例えばユーザが重要と思う発言内容を素早く確認でき、より効果的に会議を振返ることができる。また、音声区間とその認識結果をタイムライン順に表示する際、表示エリアから直に消える位置に表示されている音声区間は音声認識を省略することもでき、限られた画面に限られた時間内に認識結果を有効に表示することができる。
なお、本実施形態の処理はコンピュータプログラムによって実現することができるので、このコンピュータプログラムを格納したコンピュータ読み取り可能な記憶媒体を通じてこのコンピュータプログラムをコンピュータにインストールして実行するだけで、本実施形態と同様の効果を容易に実現することができる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
例えば、音声認識処理は、不特定話者方式の学習サーバ型の音声認識処理を説明したが、サーバを利用せず、タブレットPC10内の音声認識エンジン324がローカルに認識処理してもよいし、サーバを利用する場合でも、特定話者方式の認識処理を採用してもよい。
録音ビュー、再生ビューの表示形態は何ら限定されない。例えば、録音ビュー、再生ビューにおける音声区間を示す表示は、バーに限らず、ホームビューの場合のように波形を表示する形態でも、音声区間の波形と他の区間の波形を識別可能であればよい。さらには、ビューにおいては、音声区間と他の区間との波形が識別されなくても良い。即ち、音声区間は認識結果が付加的に表示されるので、どの区間も同じ表示であっても、認識結果の表示に基づいて音声区間が識別される。
音声区間データを優先順位付きキューに格納してから音声認識を行っているが、これに限らず、優先順位制御が不能な通常のファーストイン/ファーストアウトのレジスタに格納してから音声認識を行ってもよい。
画面の表示エリアの制限および/またはサーバの処理負荷に基づき、キューに蓄積された音声区間データのいくつかは音声認識処理がスキップされる。しかし、音声区間データ単位でスキップするのではなく、全ての音声区間データの先頭部分、あるいは吹き出しに表示される部分のみ音声認識してもよい。先頭部分のみを表示した後、時間があれば、現在時刻に近い音声区間から順に残りの部分を音声認識して、表示を更新してもよい。
12R,12L…マイク、20…タッチスクリーンディスプレイ、101…CPU、113…オーディオキャプチャ、202…ボイスレコーダアプリケーション、230…音声認識サーバ、321…録音エンジン、323…可視化エンジン、324…音声認識エンジン、502A,502B,502C,502D…音声区間バー、503…音波形、504A,504B,504C,504D…タグ、506A,506B,506C,506D…吹き出し、376…優先順位付きキュー。

Claims (15)

  1. マイクを介して音声信号を受ける入力部と、
    ディスプレイと、
    前記音声信号の録音、録音された前記音声信号の音声認識、および音声区間を前記ディスプレイの画面上に表示する処理を少なくとも実行する制御部と、
    を具備し、
    前記制御部は、
    前記音信号の録音中に、前記音信号に含まれる第1音声区間を示す第1オブジェクトと、前記第1音声区間の後の第2音声区間を示す第2オブジェクトを時系列に並べて前記画面上に表示し、
    前記第1音声区間の前記音声認識に対応する第1文字列を、前記第1音声区間の前記音声認識が完了したときに、前記第1オブジェクトに関連付けて前記画面上に表示し、
    前記第2音声区間の前記音声認識に対応する第2文字列を、前記第2音声区間の前記音声認識が完了したときに、前記第2オブジェクトに関連付けて前記画面上に表示し、
    前記第1オブジェクトが前記画面上から消える位置にあると判断した時は前記第1オブジェクトの音声認識をスキップして、後続する前記第2オブジェクトの少なくとも一部音声認識する電子機器。
  2. 前記画面上から前記第2音声区間が優先順位付け指定されると、前記第1オブジェクトと前記第2オブジェクトの前記画面上の表示位置に係わらず前記第2オブジェクトが先に音声認識される請求項1記載の電子機器。
  3. 前記制御部は、前記第1オブジェクトと前記第2オブジェクトの低域の音声成分と中域の音声成分とを観察し、両音声成分ともフォルマント成分が存在することを検出しない場合、当該オブジェクトの音声認識を行わない請求項1記載の電子機器。
  4. 前記制御部は、前記第1文字列を前記第1音声区間の長さに応じた態様で前記画面上に表示し、前記第2文字列を前記第2音声区間の長さに応じた態様で前記画面上に表示する請求項1記載の電子機器。
  5. 前記制御部は、前記第1オブジェクトまたは前記第1文字列と、前記第2オブジェクトまたは前記第2文字列を音声認識の未処理、処理中、処理完了に応じた態様で前記画面上に表示する請求項1記載の電子機器。
  6. マイクを介して音声信号を受ける入力部と、ディスプレイと、前記音声信号の録音、録音された前記音声信号の音声認識、および音声区間を前記ディスプレイの画面上に表示する処理を少なくとも実行する制御部と、を具備する電子機器の方法であって、
    前記信号の録音中に、前記音信号に含まれる第1音声区間を示す第1オブジェクトと、前記第1音声区間の後の第2音声区間を示す第2オブジェクトを時系列に並べて前記画面上に表示し、
    前記第1音声区間の前記音声認識に対応する第1文字列を、前記第1音声区間の前記音声認識が完了したときに、前記第1オブジェクトに関連付けて前記画面上に表示し、
    前記第2音声区間の前記音声認識に対応する第2文字列を、前記第2音声区間の前記音声認識が完了したときに、前記第2オブジェクトに関連付けて前記画面上に表示し、
    前記第1オブジェクトが前記画面上から消える位置にあると判断した時は前記第1オブジェクトの音声認識をスキップして、後続する前記第2オブジェクトの少なくとも一部を音声認識する方法。
  7. 前記画面上から前記第2音声区間が優先順位付け指定されると、前記第1オブジェクトと前記第2オブジェクトの前記画面上の表示位置に係わらず前記第2オブジェクトが先に音声認識される請求項6記載の方法。
  8. 前記第1オブジェクトと前記第2オブジェクトの低域の音声成分と中域の音声成分とを観察し、両音声成分ともフォルマント成分が存在することを検出しない場合、当該オブジェクトの音声認識を行わない請求項6記載の方法。
  9. 前記第1文字列を前記第1音声区間の長さに応じた態様で前記画面上に表示し、前記第2文字列を前記第2音声区間の長さに応じた態様で前記画面上に表示する請求項6記載の方法。
  10. 前記第1オブジェクトまたは前記第1文字列と、前記第2オブジェクトまたは前記第2文字列を音声認識の未処理、処理中、処理完了に応じた態様で前記画面上に表示する請求項6記載の方法。
  11. マイクを介して音声信号を受ける入力部と、ディスプレイと、前記音声信号の録音、録音された前記音声信号の音声認識、および音声区間を前記ディスプレイの画面上に表示する処理を少なくとも実行する制御部と、を具備するコンピュータにより実行されるプログラムであって、
    前記信号の録音中に、前記音信号に含まれる第1音声区間を示す第1オブジェクトと、前記第1音声区間の後の第2音声区間を示す第2オブジェクトを時系列に並べて前記画面上に表示する手順と
    前記第1音声区間の前記音声認識に対応する第1文字列を、前記第1音声区間の前記音声認識が完了したときに、前記第1オブジェクトに関連付けて前記画面上に表示する手順と
    前記第2音声区間の前記音声認識に対応する第2文字列を、前記第2音声区間の前記音声認識が完了したときに、前記第2オブジェクトに関連付けて前記画面上に表示する手順と、
    前記第1オブジェクトが前記画面上から消える位置にあると判断した時は前記第1オブジェクトの音声認識をスキップして、後続する前記第2オブジェクトの少なくとも一部を音声認識する手順と
    を前記コンピュータに実行させるプログラム。
  12. 前記画面上から前記第2音声区間が優先順位付け指定されると、前記第1オブジェクトと前記第2オブジェクトの前記画面上の表示位置に係わらず前記第2オブジェクトを先に音声認識する手順を更に具備する請求項11記載のプログラム。
  13. 前記第1オブジェクトと前記第2オブジェクトの低域の音声成分と中域の音声成分とを観察し、両音声成分ともフォルマント成分が存在することを検出しない場合、当該オブジェクトの音声認識を行わない請求項11記載のプログラム。
  14. 前記第1文字列を前記第1音声区間の長さに応じた態様で前記画面上に表示する手順と
    前記第2文字列を前記第2音声区間の長さに応じた態様で前記画面上に表示する手順を更に具備する請求項11記載のプログラム。
  15. 前記第1オブジェクトまたは前記第1文字列と、前記第2オブジェクトまたは前記第2文字列を音声認識の未処理、処理中、処理完了に応じた態様で前記画面上に表示する手順を更に具備する請求項11記載のプログラム。
JP2015035353A 2015-02-25 2015-02-25 電子機器、方法及びプログラム Active JP6464411B6 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015035353A JP6464411B6 (ja) 2015-02-25 2015-02-25 電子機器、方法及びプログラム
US14/919,662 US20160247520A1 (en) 2015-02-25 2015-10-21 Electronic apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015035353A JP6464411B6 (ja) 2015-02-25 2015-02-25 電子機器、方法及びプログラム

Publications (4)

Publication Number Publication Date
JP2016156996A JP2016156996A (ja) 2016-09-01
JP2016156996A5 JP2016156996A5 (ja) 2018-03-01
JP6464411B2 JP6464411B2 (ja) 2019-02-06
JP6464411B6 true JP6464411B6 (ja) 2019-03-13

Family

ID=56693678

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015035353A Active JP6464411B6 (ja) 2015-02-25 2015-02-25 電子機器、方法及びプログラム

Country Status (2)

Country Link
US (1) US20160247520A1 (ja)
JP (1) JP6464411B6 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10089061B2 (en) 2015-08-28 2018-10-02 Kabushiki Kaisha Toshiba Electronic device and method
US20170075652A1 (en) 2015-09-14 2017-03-16 Kabushiki Kaisha Toshiba Electronic device and method
JP6165913B1 (ja) * 2016-03-24 2017-07-19 株式会社東芝 情報処理装置、情報処理方法およびプログラム
WO2018144367A1 (en) * 2017-02-03 2018-08-09 iZotope, Inc. Audio control system and related methods
JP6646001B2 (ja) * 2017-03-22 2020-02-14 株式会社東芝 音声処理装置、音声処理方法およびプログラム
JP2018159759A (ja) * 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム
KR102068182B1 (ko) * 2017-04-21 2020-01-20 엘지전자 주식회사 음성 인식 장치, 및 음성 인식 시스템
JP7075797B2 (ja) * 2018-03-27 2022-05-26 株式会社日立情報通信エンジニアリング 通話録音システム、録音通話再生方法
CN108492347B (zh) * 2018-04-11 2022-02-15 广东数相智能科技有限公司 图像生成方法、装置与计算机可读存储介质
CN108696768A (zh) * 2018-05-08 2018-10-23 北京恒信彩虹信息技术有限公司 一种语音识别方法及系统
CN109039872B (zh) * 2018-09-04 2020-04-17 北京达佳互联信息技术有限公司 实时语音信息的交互方法、装置、电子设备及存储介质
CN110797043B (zh) * 2019-11-13 2022-04-12 思必驰科技股份有限公司 会议语音实时转写方法及系统
JP7042246B2 (ja) * 2019-11-25 2022-03-25 フジテック株式会社 昇降装置の遠隔制御システム
JP6946499B2 (ja) * 2020-03-06 2021-10-06 株式会社日立製作所 発話支援装置、発話支援方法、および発話支援プログラム
US11468900B2 (en) * 2020-10-15 2022-10-11 Google Llc Speaker identification accuracy
US11477042B2 (en) * 2021-02-19 2022-10-18 International Business Machines Corporation Ai (artificial intelligence) aware scrum tracking and optimization

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6490562B1 (en) * 1997-04-09 2002-12-03 Matsushita Electric Industrial Co., Ltd. Method and system for analyzing voices
US6477491B1 (en) * 1999-05-27 2002-11-05 Mark Chandler System and method for providing speaker-specific records of statements of speakers
JP3534712B2 (ja) * 2001-03-30 2004-06-07 株式会社コナミコンピュータエンタテインメント東京 音声編集装置及び音声編集プログラム
US20030050777A1 (en) * 2001-09-07 2003-03-13 Walker William Donald System and method for automatic transcription of conversations
US7047200B2 (en) * 2002-05-24 2006-05-16 Microsoft, Corporation Voice recognition status display
US20040204939A1 (en) * 2002-10-17 2004-10-14 Daben Liu Systems and methods for speaker change detection
US20040117186A1 (en) * 2002-12-13 2004-06-17 Bhiksha Ramakrishnan Multi-channel transcription-based speaker separation
US7567908B2 (en) * 2004-01-13 2009-07-28 International Business Machines Corporation Differential dynamic content delivery with text display in dependence upon simultaneous speech
JP2005202014A (ja) * 2004-01-14 2005-07-28 Sony Corp 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
US8102973B2 (en) * 2005-02-22 2012-01-24 Raytheon Bbn Technologies Corp. Systems and methods for presenting end to end calls and associated information
JP2010113438A (ja) * 2008-11-05 2010-05-20 Brother Ind Ltd 情報取得装置、情報取得プログラム、及び情報取得システム
US8606574B2 (en) * 2009-03-31 2013-12-10 Nec Corporation Speech recognition processing system and speech recognition processing method
US8370142B2 (en) * 2009-10-30 2013-02-05 Zipdx, Llc Real-time transcription of conference calls
JP5174068B2 (ja) * 2010-03-11 2013-04-03 株式会社東芝 信号分類装置
US9047878B2 (en) * 2010-11-24 2015-06-02 JVC Kenwood Corporation Speech determination apparatus and speech determination method
US9313335B2 (en) * 2012-09-14 2016-04-12 Google Inc. Handling concurrent speech
KR102196671B1 (ko) * 2013-01-11 2020-12-30 엘지전자 주식회사 전자 기기 및 전자 기기의 제어 방법
US9451048B2 (en) * 2013-03-12 2016-09-20 Shazam Investments Ltd. Methods and systems for identifying information of a broadcast station and information of broadcasted content
JP6198432B2 (ja) * 2013-04-09 2017-09-20 小島プレス工業株式会社 音声認識制御装置
KR102045281B1 (ko) * 2013-06-04 2019-11-15 삼성전자주식회사 데이터 처리 방법 및 그 전자 장치
JP6534926B2 (ja) * 2013-06-10 2019-06-26 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 話者識別方法、話者識別装置及び話者識別システム
US9349372B2 (en) * 2013-07-10 2016-05-24 Panasonic Intellectual Property Corporation Of America Speaker identification method, and speaker identification system
US9336781B2 (en) * 2013-10-17 2016-05-10 Sri International Content-aware speaker recognition
US20150142434A1 (en) * 2013-11-20 2015-05-21 David Wittich Illustrated Story Creation System and Device
US10141011B2 (en) * 2014-04-21 2018-11-27 Avaya Inc. Conversation quality analysis
US20150310863A1 (en) * 2014-04-24 2015-10-29 Nuance Communications, Inc. Method and apparatus for speaker diarization
US10354654B2 (en) * 2014-06-11 2019-07-16 Avaya Inc. Conversation structure analysis
JP6509516B2 (ja) * 2014-09-29 2019-05-08 Dynabook株式会社 電子機器、方法及びプログラム

Also Published As

Publication number Publication date
US20160247520A1 (en) 2016-08-25
JP6464411B2 (ja) 2019-02-06
JP2016156996A (ja) 2016-09-01

Similar Documents

Publication Publication Date Title
JP6464411B2 (ja) 電子機器、方法及びプログラム
US10592198B2 (en) Audio recording/playback device
US10089061B2 (en) Electronic device and method
JP6635049B2 (ja) 情報処理装置、情報処理方法およびプログラム
CN110275664B (zh) 用于提供视听反馈的设备、方法和图形用户界面
US9720644B2 (en) Information processing apparatus, information processing method, and computer program
US20160163331A1 (en) Electronic device and method for visualizing audio data
JP6509516B2 (ja) 電子機器、方法及びプログラム
US10770077B2 (en) Electronic device and method
US20110216075A1 (en) Information processing apparatus and method, and program
US20140304606A1 (en) Information processing apparatus, information processing method and computer program
US20140303975A1 (en) Information processing apparatus, information processing method and computer program
US9389755B2 (en) Input apparatus, input method, and input program
JPWO2014069114A1 (ja) 情報処理装置、再生状態制御方法及びプログラム
CN110211589A (zh) 车载系统的唤醒方法、装置以及车辆、机器可读介质
KR20140096573A (ko) 컨텐츠 재생을 제어하기 위한 방법 및 장치
US20210064327A1 (en) Audio highlighter
JPWO2016103809A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP6969576B2 (ja) 情報処理装置、および情報処理方法
US20150062036A1 (en) Information processing device, method, and computer program product
US20170092334A1 (en) Electronic device and method for visualizing audio data
WO2020116001A1 (ja) 情報処理装置および情報処理方法
JP6392051B2 (ja) 電子機器、方法およびプログラム
WO2012017525A1 (ja) 処理装置及びコマンド入力支援方法
CN110289010B (zh) 一种声音采集的方法、装置、设备和计算机存储介质

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180117

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181031

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181113

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20181206

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20181207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181213

R150 Certificate of patent or registration of utility model

Ref document number: 6464411

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150