JP6696878B2

JP6696878B2 - 音声処理装置、ウェアラブル端末、携帯端末、および音声処理方法

Info

Publication number: JP6696878B2
Application number: JP2016203690A
Authority: JP
Inventors: 武志水本; 一博中臺
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2016-10-17
Filing date: 2016-10-17
Publication date: 2020-05-20
Anticipated expiration: 2036-10-17
Also published as: US20180108356A1; JP2018067050A

Description

本発明は、音声処理装置、ウェアラブル端末、携帯端末、および音声処理方法に関する。

学会等の発表会において、発表者は準備した原稿を暗記しておくか、原稿を読み上げることで、発表を行っている。原稿を見ながら発表を行った場合、顔が原稿に向いてしまうので、聴衆に顔を向けて発表を行うことができなかった。このため、テレプロンプター（Ｔｅｌｅｐｒｏｍｐｔｅｒ）等に表示された原稿を発表者が読み上げることが行われている。

例えば、特許文献１には、アナウンサ等の話者が話した内容を音声認識して、発話内容をテキスト情報として取得し、字幕スーパーとして表示画像に重畳させる構成が開示されている。

特許第３１６２８３２号公報

しかしながら、特許文献１に記載の技術では、話者が発話した内容を音声認識により字幕として表示することができるが、予めシナリオが決まっている内容を字幕に表示させ、それを正しく話者に読ませることができるアシスト機能が備わっていなかった。

本発明は、上記の問題点に鑑みてなされたものであって、会議等の場におけるプレゼンテーションの効率や効果を向上することができる音声処理装置、ウェアラブル端末、携帯端末、および音声処理方法を提供することを目的とする。

（１）上記目的を達成するため、本発明の一態様に係る音声処理装置は、シナリオをテキスト情報として記憶するシナリオ記憶部と、話者が発話する音声を収音する収音部と、前記収音部が収音した前記音声に対して音声認識する音声認識部と、前記シナリオ記憶部から前記テキスト情報を読み出して字幕を生成し、前記音声認識部が音声認識した結果に基づいて、前記字幕の文字列のうち、話者が既に発話した部分の表示を知覚できないように変化させ、前記音声認識部での音声認識した結果に基づいて、前記字幕のうち前記話者による読み飛ばしが発生したか否かを検出し、前記字幕のうち前記話者による読み飛ばしがあった場合に、該当する箇所までの部分の表示を知覚できないように変化させる字幕生成部と、を備え、前記シナリオは、予め複数の項目で構成されており、動作指示を行うキーワードを、動作指示に対応付けて記憶する記憶部、を備え、前記音声認識部は、前記記憶部が記憶する前記キーワードを探索して、認識した結果に前記キーワードが含まれているか否かを判別し、認識した結果に前記キーワードが含まれていると判別した場合に前記キーワードに対応付けられている前記動作指示を前記字幕生成部に出力し、前記字幕生成部は、前記音声認識部が出力する前記キーワードに対応付けられている前記動作指示に応じて、前記テキスト情報における前記動作指示により指定された前記項目の字幕を表示させ、前記テキスト情報における前記キーワードに対応する前記項目が無い場合に、前記項目が無いことを示す情報を表示させる。

（２）また、本発明の一態様に係る音声処理装置において、前記音声認識部は、音声認識した音声から動作指示を取得し、前記字幕生成部は、前記動作指示に基づいて字幕の再生、一時停止、および終了のうち少なくとも１つを行うようにしてもよい。

（３）また、本発明の一態様に係る音声処理装置は、外部からの指示情報を取得する受信部、を備え、前記字幕生成部は、前記受信部が取得した前記指示情報を、前記字幕を表示する領域外に表示するようにしてもよい。

（４）上記目的を達成するため、本発明の一態様に係るウェアラブル端末は、シナリオをテキスト情報として記憶するシナリオ記憶部と、動作指示を行うキーワードを、動作指示に対応付けて記憶する記憶部と、話者が発話する音声を収音する収音部と、前記収音部が収音した前記音声に対して音声認識する音声認識部と、前記テキスト情報を表示する表示部と、前記シナリオ記憶部から前記テキスト情報を読み出して字幕を生成し、前記音声認識部が音声認識した結果に基づいて、字幕の文字列のうち、話者が既に発話した部分の表示を知覚できないように変化させて前記表示部に表示し、前記音声認識部での音声認識した結果に基づいて、前記字幕のうち前記話者による読み飛ばしが発生したか否かを検出し、前記字幕のうち前記話者による読み飛ばしがあった場合に、該当する箇所までの部分の表示を知覚できないように変化させて前記表示部に表示する字幕生成部と、を備え、前記シナリオは、予め複数の項目で構成されており、前記音声認識部は、前記記憶部が記憶する前記キーワードを探索して、認識した結果に前記キーワードが含まれているか否かを判別し、認識した結果に前記キーワードが含まれていると判別した場合に前記キーワードに対応付けられている前記動作指示を前記字幕生成部に出力し、前記字幕生成部は、前記音声認識部が出力する前記キーワードに対応付けられている前記動作指示に応じて、前記テキスト情報における前記動作指示により指定された前記項目の字幕を表示させ、前記テキスト情報における前記キーワードに対応する前記項目が無い場合に、前記項目が無いことを示す情報を表示させる。

（５）上記目的を達成するため、本発明の一態様に係る携帯端末は、シナリオをテキスト情報として記憶するシナリオ記憶部と、動作指示を行うキーワードを、動作指示に対応付けて記憶する記憶部と、話者が発話する音声を収音する収音部と、前記収音部が収音した前記音声に対して音声認識する音声認識部と、前記テキスト情報を表示する表示部と、前記シナリオ記憶部から前記テキスト情報を読み出して字幕を生成し、前記音声認識部が音声認識した結果に基づいて、字幕の文字列のうち、話者が既に発話した部分の表示を知覚できないように変化させて前記表示部に表示し、前記音声認識部での音声認識した結果に基づいて、前記字幕のうち前記話者による読み飛ばしが発生したか否かを検出し、前記字幕のうち前記話者による読み飛ばしがあった場合に、該当する箇所までの部分の表示を知覚できないように変化させて前記表示部に表示する字幕生成部と、を備え、前記シナリオは、予め複数の項目で構成されており、前記音声認識部は、前記記憶部が記憶する前記キーワードを探索して、認識した結果に前記キーワードが含まれているか否かを判別し、認識した結果に前記キーワードが含まれていると判別した場合に前記キーワードに対応付けられている前記動作指示を前記字幕生成部に出力し、前記字幕生成部は、前記音声認識部が出力する前記キーワードに対応付けられている前記動作指示に応じて、前記テキスト情報における前記動作指示により指定された前記項目の字幕を表示させ、前記テキスト情報における前記キーワードに対応する前記項目が無い場合に、前記項目が無いことを示す情報を表示させる。

（６）上記目的を達成するため、本発明の一態様に係る音声処理方法は、予め複数の項目で構成されているシナリオをテキスト情報として記憶するシナリオ記憶部と、動作指示を行うキーワードを、動作指示に対応付けて記憶する記憶部とを有する音声処理装置における音声処理方法であって、収音部が、話者が発話する音声を収音する収音手順と、音声認識部が、前記収音手順によって収音された前記音声に対して音声認識し、前記記憶部が記憶する前記キーワードを探索して、認識した結果に前記キーワードが含まれているか否かを判別し、認識した結果に前記キーワードが含まれていると判別した場合に前記キーワードに対応付けられている前記動作指示を字幕生成部に出力し、音声認識手順と、前記字幕生成部が、前記シナリオ記憶部から前記テキスト情報を読み出して字幕を生成し、前記音声認識手順によって音声認識した結果に基づいて、前記字幕の文字列のうち、話者が既に発話した部分の表示を知覚できないように変化させ、前記音声認識手順によって音声認識した結果に基づいて、前記字幕のうち前記話者による読み飛ばしが発生したか否かを検出し、前記字幕のうち前記話者による読み飛ばしがあった場合に、該当する箇所までの部分の表示を知覚できないように変化させ、記音声認識部が出力する前記キーワードに対応付けられている前記動作指示に応じて、前記テキスト情報における前記動作指示により指定された前記項目の字幕を表示させ、前記テキスト情報における前記キーワードに対応する前記項目が無い場合に、前記項目が無いことを示す情報を表示させる字幕生成手順と、を含む。

（１）、（４）、（５）および（６）によれば、話者により発声された字幕を隠蔽することにより、話者に対して予め定められたシナリオを話しやすくするように誘導することができる。
また、（１）によれば、読み飛ばしがあったとしても、話者がスムーズに話を続けることができる。
また、（２）によれば、話者による動作指示に基づいて所望のシナリオの字幕を再生、一時停止、停止等することができる。
また、（１）、（４）、（５）および（６）によれば、話者の所望するシナリオ、または章から字幕を再生することができる。
また、（３）によれば、外部からの指示を字幕の表示を妨げることなく表示することが
できる。

第１実施形態に係る音声処理装置の構成を示すブロック図である。第１実施形態に係るシナリオ記憶部が記憶する原稿ファイルの例を示す図である。第１実施形態に係る音声処理装置の外観の一例を示す図である。第１実施形態に係る表示部が表示する情報の一例を示す図である。第１実施形態に係る読み飛ばしが発生した場合の表示例を示す図である。第１実施形態に係る音声信号による動作指示の処理のフローチャートである。第１実施形態に係る発表中の処理のフローチャートである。第２実施形態に係る音声処理装置の構成を示すブロック図である。

以下、本発明の実施の形態について図面を参照しながら説明する。

＜第１実施形態＞
図１は、本実施形態に係る音声処理装置１の構成を示すブロック図である。
図１に示すように、音声処理装置１は、ＨＭＤ（ヘッドマウントディスプレイ）１０と、ヘッドセット２０を備える。
ＨＭＤ１０は、音声信号取得部１０１、音源分離部１０２、特徴量算出部１０３、モデル記憶部１０４、キーワード記憶部１０５、音声認識部１０６、シナリオ記憶部１０７、字幕生成部１０８、表示部１０９、操作部１１０、およびセンサー１１１を備える。
ヘッドセット２０は、収音部２０１、受信部２０２、および再生部２０３を備える。

音声処理装置１は、発表者である利用者の音声信号を収音して、収音した音声信号に対して音声認識を行う。音声処理装置１は、記憶しているシナリオである原稿ファイルのテキストのうち、利用者によって読み上げが終了した部分を知覚できないようにして、テキストを表示する。また、音声処理装置１は、利用者の発話を音声認識した結果に基づいて、読み飛ばしが発生したか否かを検出し、読み飛ばしが発生したとき、読み飛ばされた先の位置（節等）を検出して、その位置からテキストの表示を行う。音声処理装置１は、利用者の操作を検出し、検出した結果に応じて、テキストの表示を開始、一時停止、停止、項目毎の表示の開始等を行う。ここで、項目とは、例えば、段落や章などのテキストの集合である。また、音声処理装置１は、外部装置が出力した指示情報を受信し、受信した指示情報を音声信号で再生、またはテキストで表示する。外部装置は、例えばコンピュータ、スマートフォン、タブレット端末等である。また、指示情報には、発表者に対する指示が含まれている。ここで、発表者に対する指示とは、例えば「少し休止を入れて下さい」等である。

ＨＭＤ１０は、ヘッドセット２０が収音した音響信号を取得し、取得した音響信号に対して音声認識処理を行う。ＨＭＤ１０は、記憶している原稿ファイルのテキストのうち、利用者によって読み上げが終了した部分を知覚できないようにして、原稿ファイルのテキストを表示部１０９上に表示する。ＨＭＤ１０は、利用者の発話を音声認識した結果に基づいて、読み飛ばしが発生したか否かを検出し、読み飛ばしが発生したとき、読み飛ばされた先の位置（節等）を検出して、その位置からテキストの表示を行う。ＨＭＤ１０は、ヘッドセット２０が出力した指示情報を表示する。ＨＭＤ１０は、音声による操作と操作部１１０による操作とジェスチャーによる操作のうち少なくとも１つの利用者の操作を検出する。ＨＭＤ１０は、検出した結果に応じて、テキストの表示を開始、一時停止、停止、項目毎の表示の開始等を行う。なお、ジェスチャーとは、音声処理装置１のＨＭＤ１０を頭部に装着している利用者が、頭部を左右方向や縦方向に振ったりする動作である。また、ＨＭＤ１０が音声処理装置１全ての機能を有していてもよく、ＨＭＤは、ＨＵＤ（ヘッドアップディスプレイ）、ウェアブル端末、スマートフォン等の携帯端末、テレプロンプター（Ｔｅｌｅｐｒｏｍｐｔｅｒ）等であってもよい。

ヘッドセット２０は、利用者の発話を収音して、収音した音響信号をＨＭＤ１０へ出力する。ヘッドセット２０は、外部装置が出力した指示情報を受信し、受信した指示情報をスピーカーから再生、またはＨＭＤ１０へ出力する。

収音部２０１は、利用者が口元に配置するマイクロホンである。収音部２０１は、利用者の音声信号を収音して、収音した音声信号を音声信号取得部１０１へ出力する。なお、収音部２０１は、音声信号をアナログ信号からデジタル信号に変換して、変換したデジタル信号の音声信号を音声信号取得部１０１へ出力するようにしてもよい。

音声信号取得部１０１は、収音部２０１が出力した音声信号ｘ（ｋ）（ｋは、サンプル時刻を表す整数）に対して、例えば離散フーリエ変換（ＤＦＴ；ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を行って周波数領域信号ｘ（ω）（ωは、周波数）を生成し、生成した周波数領域信号ｘ（ω）を音源分離部１０２に出力する。

音源分離部１０２は、音声信号取得部１０１が出力した周波数領域の音響信号に対して、例えば所定の閾値以上の音声信号を抽出することで話者の音声信号を分離する。音源分離部１０２は、分離した音声信号を特徴量算出部１０３に出力する。なお、音源分離部１０２は、残響信号を抑圧するようにしてもよい。

特徴量算出部１０３は、音源分離部１０２が出力した音声信号から音響特徴量を算出し、算出した音響特徴量を音声認識部１０６に出力する。特徴量算出部１０３は、例えば、静的メル尺度対数スペクトル（ＭＳＬＳ：Ｍｅｌ−ＳｃａｌｅＬｏｇＳｐｅｃｔｒｕｍ）、デルタＭＳＬＳ及び１個のデルタパワーを、所定時間（例えば、１０ｍｓ）毎に算出することで音響特徴量を算出する。なお、ＭＳＬＳは、音響認識の特徴量としてスペクトル特徴量を用い、ＭＦＣＣ（メル周波数ケプストラム係数；ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）を逆離散コサイン変換することによって得られる。

モデル記憶部１０４は、音声認識モデルと言語モデルを記憶する。音声認識モデルは、例えば音素毎の音声信号の波形データで構成される。なお、音響モデルは、予め多数の人の音声信号から生成したものであってもよく、利用者の音声信号を用いて生成するようにしてもよい。また、言語モデルは、単語とその係り受け、並び方等の情報で構成される。

キーワード記憶部１０５は、動作指示を行うキーワードを、動作指示に対応付けて記憶する。ここで、動作指示とは、例えば字幕データの生成を開始する指示、字幕データの生成を一時停止する指示、字幕データの生成を終了する指示等である。また、動作指示を行うキーワードは、例えば、発表を開始する合図のキーワード、項目の説明を開始する合図のキーワード、発表を終了する合図のキーワード等である。

音声認識部１０６は、特徴量算出部１０３が出力する音声特徴量と、モデル記憶部１０４が記憶する音響モデルと言語モデルを用いて音声認識処理を行う。音声認識部１０６は、例えば、音声特徴量について音響モデルと言語モデルを用いて算出した尤度が最も高い語句を認識結果として定める。音声認識部１０６は、音声認識した結果である認識結果をテキスト形式で生成する。なお、音声認識部１０６は、例えば単語毎にテキストを生成する。また、音声認識部１０６は、音声認識処理後、キーワード記憶部１０５が記憶するキーワードを探索して、認識した結果にキーワードが含まれているか否かを判定する。音声認識部１０６は、認識した結果にキーワードが含まれていると判定した場合、そのキーワードに対応する動作指示を字幕生成部１０８に出力する。音声認識部１０６は、認識した結果にキーワードが含まれていないと判定した場合、認識結果を、例えば単語毎に字幕生成部１０８へ出力する。

シナリオ記憶部１０７は、発表で使用する原稿ファイルを、例えばテキスト形式で記憶する。なお、音声処理装置１は、原稿ファイルをコンピュータ等の外部装置から取得して、取得した原稿ファイルをシナリオ記憶部１０７に記憶する。この原稿ファイルは、項目を有している。また、シナリオ記憶部１０７は、センサー１１１の検出値の閾値と動作指示の関係を記憶する。

字幕生成部１０８は、音声認識部１０６が出力する認識結果を取得する。字幕生成部１０８は、シナリオ記憶部１０７が記憶する原稿ファイルを読み出す。字幕生成部１０８は、取得した認識結果が読み出した原稿ファイルに対応する箇所を探索する。字幕生成部１０８は、原稿の最初から対応する箇所までの、例えば表示色を変えて字幕データを生成し、生成した字幕データを表示部１０９に出力する。字幕生成部１０８は、操作画像を生成して、生成した操作画像を表示部１０９に出力する。ここで、操作画像とは、例えば、プレゼンテーションを開始するためのプレゼン開始のボタン画像、プレゼンテーションを停止するためのプレゼン停止のボタン画像、メインメニューを表示するボタン画像等である。また、字幕生成部１０８は、受信部２０２が出力する指示情報を、原稿ファイルを表示する提示部の外側に表示するように指示字幕データを生成して、生成した指示字幕データを表示部１０９に出力する。

また、字幕生成部１０８は、操作部１１０が出力した操作結果またはセンサー１１１が出力した検出値に基づいて、利用者によって操作が行われたことを検出する。字幕生成部１０８は、利用者によって操作が行われたことを検出したとき、操作部１１０が出力した操作結果またはセンサー１１１が出力した検出値に基づいて、字幕データの生成を開始または一時停止または終了する。例えば、字幕生成部１０８は、センサー１１１の検出値が第１の所定閾値以上かつ第２の所定閾値以下の場合、または操作部１１０の操作結果が一回の場合、字幕データの生成を開始する。字幕生成部１０８は、センサー１１１の検出値が第２の所定閾値以上かつ第３の所定閾値以下の場合、または操作部１１０の操作結果が二回の場合、字幕データの生成を一時停止する。字幕生成部１０８は、センサー１１１の検出値が第３の所定閾値以上の場合、または操作部１１０の操作結果が三回の場合、字幕データの生成を終了する。または、字幕生成部１０８は、操作部１１０が出力する操作結果が表示部１０９上の座標データの場合、座標データに基づいて、字幕データの生成を開始または一時停止または終了する。字幕生成部１０８は、センサー１１１の検出値に基づいて、例えば利用者が頭部を左右に振ったことを検出し、字幕データの生成を開始する動作指示であると判定する。なお、上述した操作結果の回数や検出値の閾値は一例であり、これに限られない。

さらに、字幕生成部１０８は、音声認識部１０６が動作指示を出力した場合、動作指示に応じて、シナリオの再生を開始、項目のシナリオの再生を開始、シナリオの再生の終了等を行う。

表示部１０９は、例えば液晶表示装置、有機ＥＬ（エレクトロルミネッセンス）表示装置であり、字幕生成部１０８が出力した字幕データおよび指示字幕データを表示する。

操作部１１０は、例えば、タッチセンサー、またはトラックボールやスティックなどのポインティングデバイスである。操作部１１０は、利用者が操作した結果を検出して、検出した操作結果を字幕生成部１０８へ出力する。

センサー１１１は、加速度センサー、地磁気センサー、および角速度センサーのうちの少なくとも１つである。センサー１１１は、検出した検出値を字幕生成部１０８へ出力する。字幕生成部１０８は、加速度センサーの検出値を、ＨＭＤ１０の傾き検出に用いる。加速度センサーは、例えば３軸センサーであり、重力加速度を検出する。字幕生成部１０８は、地磁気センサーの検出値を、ＨＭＤ１０の方角検出に用いる。字幕生成部１０８は、角速度センサー（ジャイロセンサー）の検出値を、ＨＭＤ１０の回転検出に用いる。

受信部２０２は、外部装置が送信した指示情報を受信する。受信部２０２は、受信した指示情報が音響信号の場合、再生部２０３へ出力する。また、受信部２０２は、受信した指示情報がテキストデータの場合、字幕生成部１０８へ出力する。

再生部２０３は、スピーカーまたはイヤホンであり、受信部２０２が出力した音響信号を再生する。

なお、収音部２０１が、利用者の口元に配置されず、例えばステージ上に複数設置されている場合、音声処理装置１は、音声信号取得部１０１と音源分離部１０２の間に音源定位部を備えていてもよい。この場合、複数の収音部２０１はＮ（Ｎは２以上の整数）本のマイクロホンであり、マイクロホンアレイであると見なせる。音源定位部は、音声信号取得部１０１が出力するＮチャネルの音声信号に対して、自部が記憶する伝達関数を用いて、空間スペクトルを算出する。音源定位部は、算出した空間スペクトルに基づいて音源の方位角の推定（音源定位を行うともいう）を行う。音源定位部は、推定した音源の方位角情報と、入力されたＮチャネルの音声信号を音源分離部１０２に出力する。音源定位部は、例えば、ＭＵＳＩＣ（ＭＵｌｔｉｐｌｅＳＩｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）法を用いて方位角を推定する。なお、方位角の推定には、ビームフォーミング（Ｂｅａｍｆｏｒｍｉｎｇ）法、ＷＤＳ−ＢＦ（ＷｅｉｇｈｔｅｄＤｅｌａｙａｎｄＳｕｍＢｅａｍＦｏｒｍｉｎｇ；重み付き遅延和ビームフォーミング）法、一般化特異値展開を用いたＭＵＳＩＣ（ＧＳＶＤ−ＭＵＳＩＣ；ＧｅｎｅｒａｌｉｚｅｄＳｉｎｇｕｌａｒＶａｌｕｅＤｅｃｏｍｐｏｓｉｔｉｏｎ−ＭＵｌｔｉｐｌｅＳＩｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）法等の他の音源方向推定方式を用いてもよい。この場合、音源分離部１０２は、音源定位部が出力したＮチャネルの音響信号および推定された音源の方位角情報を取得する。音源分離部１０２は、取得した方位角に対応する伝達関数を音源定位部から読み出す。音源分離部１０２は、読み出した伝達関数と、例えばブラインド分離とビームフォーミングのハイブリッドであるＧＨＤＳＳ−ＡＳ（ＧｅｏｍｅｔｒｉｃａｌｌｙｃｏｎｓｔｒａｉｎｅｄＨｉｇｈｏｒｄｅｒＤｅｃｏｒｒｅｌａｔｉｏｎｂａｓｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎｗｉｔｈＡｄａｐｔｉｖｅＳｔｅｐｓｉｚｅｃｏｎｔｒｏｌ）法を用いて、取得したＮチャネルの音響信号から音源毎の音声信号を分離する。なお、音源分離部１０２は、例えばビームフォーミング法等を用いて、音源分離処理を行ってもよい。

次に、シナリオ記憶部１０７が記憶する原稿ファイルの例を説明する。
図２は、本実施形態に係るシナリオ記憶部１０７が記憶する原稿ファイルの例を示す図である。図２に示す例の原稿ファイルは、学会等で発表されるときに使用する原稿ファイルの例である。図２に示しように、シナリオ記憶部１０７は、テキストを項目毎に記憶する。項目は、例えば、「はじめに」、「課題」、「本文」、「応用例」、および「まとめ」である。なお、図２に示した項目の名称は一例であり、これに限らず、例えば第１段落、第２段落、・・・、または１枚目、２枚目、・・・、あるいは１章、２章、・・・等であってもよい。

字幕生成部１０８は、音声認識部１０６が、例えば「はじめに」の項目の動作指示を出力した場合、「はじめに」の項目のテキストの字幕データの生成を開始する。「はじめに」の項目の動作指示の音声信号は、例えば「それでは発表を始めます。」である。また、「課題」の項目の動作指示の音声信号は、例えば「課題の項を説明します。」である。

なお、シナリオ記憶部１０７は、複数の原稿ファイルを記憶するようにしてもよい。この場合、利用者は、複数の原稿ファイルの中から発表に使用する原稿ファイルを音声による操作または操作部１１０の操作あるいはジェスチャーによる操作によって選択する。
このような場合、字幕生成部１０８は、シナリオ記憶部１０７が記憶する複数の原稿ファイルのタイトルを表示部１０９に表示する。利用者は、操作部１１０を操作して表示されたタイトルの中から発表に使用する原稿ファイルを選択する。または、利用者は、表示されたタイトルの中から発表に使用する原稿のタイトル等を読み上げる。音声認識部１０６は、取得した音声信号に発表する原稿のタイトル等のキーワードが含まれている場合、対応する原稿ファイルを選択する動作指示を字幕生成部１０８へ出力する。

次に、音声処理装置１の外観の一例を説明する。
図３は、本実施形態に係る音声処理装置１の外観の一例を示す図である。図３に示すように、音声処理装置１は、眼鏡型のＨＭＤ１０とヘッドセット２０を含む。ＨＭＤ１０は、左右に表示部１０９Ｒ及び１０９Ｌ、鼻あて１２１Ｒ及び１２１Ｌ、ブリッジ１２２、テンプル１２３Ｒおよび１２３Ｌを備えている。左のテンプル１２３Ｌは、音声信号取得部１０１、音源分離部１０２、特徴量算出部１０３、モデル記憶部１０４、キーワード記憶部１０５、音声認識部１０６、シナリオ記憶部１０７、および字幕生成部１０８を備える。また、右のテンプル１２３Ｒは、操作部１１０とセンサー１１１を備える。また、ヘッドセット２０は、利用者の口元に配置される収音部２０１と利用者の耳元に配置される再生部２０３を備えている。なお、図３に示した構成は一例であり、外観、各部が取り付けられている位置や形状は、これに限られない。

次に、表示部１０９が表示する情報の一例を説明する。
図４は、本実施形態に係る表示部１０９が表示する情報の一例を示す図である。図４において、ｇ１は、表示部１０９が表示する画像の一例である。ｇ１１は、字幕データの一例である。ｇ１２は、前述した操作画像の一例であり、プレゼン停止のボタン画像である。ｇ１３は、操作画像の一例であり、メインメニューを表示するボタン画像である。ｇ１４は、外部装置が送信した指示情報をテキストとして表示部１０９に表示した例である。

図４に示す例は、原稿ファイルのテキストの一部が「出生魚とは、日本において、子供の魚が、大人の魚まで、成長に応じて、異なる名前で呼ばれる、魚のことを指します。たとえばブリは、ツバス、ハマチ、メジロ、ブリの順で、名前が変わっていきます。」である。発表者である利用者は、表示部１０９が表示する字幕を見ながら発表を行う。利用者は、字幕の先頭から順に読み上げていく。なお、図４の例では、「出生魚とは、日本において、子供の魚が、大人の魚まで、成長に応じて、異なる名前で呼ばれる、魚のことを指します。」において、「出生魚とは」を第一音節、「日本において」を第二音節、「子供の魚が」を第三音節、「大人の魚まで」を第四音節、「成長に応じて」を第五音節、「異なる名前で呼ばれる」を第六音節、「魚のことを指します」を第七音節とする。

また、図４に示す例では、利用者が、「出生魚とは、日本において、子供の魚が、大人の魚まで、成長」まで読み上げたときに、表示部１０９が表示している字幕データの例である。このとき、字幕生成部１０８は、「成長」の認識結果を取得している。そして、字幕生成部１０８は、取得した認識結果が原稿ファイルの第五音節であると判定する。このため、字幕生成部１０８は、「出生魚とは、日本において、子供の魚が、大人の魚まで、成長に応じて、異なる名前で呼ばれる、魚のことを指します。」の文章うち、「出生魚とは、日本において、子供の魚が、大人の魚まで、成長」の表示色を変化させた字幕データを生成する。図４に示す例では、「出生魚とは、日本において、子供の魚が、大人の魚まで、成長」の表示色を白色から黒色に変化させた例である。すなわち、本実施形態では、利用者が読み上げ終わった箇所までを、利用者が知覚できないように変化させる。なお、上述した例では、字幕の表示色を変化させる例を説明したが、これに限られない。字幕生成部１０８は、「出生魚とは、日本において、子供の魚が、大人の魚まで、成長」の表示領域を、例えば黒色でマスクすることで「出生魚とは、日本において、子供の魚が、大人の魚まで、成長」を隠すように表示を変化させるようにしてもよい。

また、外部装置から指示情報として「少し休止を入れて下さい」を受信した場合、ｇ１４に示すように、字幕生成部１０８は、原稿ファイルを提示する提示部以外の領域に、この指示情報を表示する。例えば、共同発表者が外部装置を用いて、発表者に指示情報を送信する。これにより、本実施形態によれば、発表者に対して指示を文字情報で提示することができ、発表者は指示に応じて発表を進めることができる。この結果、本実施形態によれば、発表を効率よくスムーズに行うことができる。なお、図４に示した例では、指示情報を表示部１０９上に提示する例を示したが、これに限られない。例えば、指示情報が音響信号の場合、字幕生成部１０８は、音響信号をヘッドセット２０へ送信し、受信した音響信号を再生部２０３が再生するようにしてもよい。または、指示情報がテキスト情報であった場合でも、字幕生成部１０８は、テキスト情報を音響信号に変換して、変換した音響信号をヘッドセット２０へ送信するようにしてもよい。あるいは、指示情報が音響信号であった場合でも、字幕生成部１０８は、音響信号をテキスト情報に変換して、変換したテキスト情報を表示部１０９上に表示するようにしてもよい。

これにより、本実施形態によれば、利用者は、聴衆に顔を向けたまま表示部１０９が表示する原稿を読み上げながら発表を行うことができる。また、本実施形態によれば、表示部１０９が表示知る原稿は、読み終わった（発表が終わった）テキストを利用者が知覚できないようにしたので、利用者は、どこまで読み終わった（発表が終わった）のかを知ることができ、適切に次の節を読み上げることができる。また、本実施形態によれば、表示部１０９に表示する情報を、利用者が操作部１１０を操作する、ジェスチャーにより操作する、または音声により操作することで、字幕データの生成を開始または一時停止または終了等の操作を行うことができる。

次に、利用者が字幕データ中の一部を読み飛ばした場合の表示例を説明する。
図５は、本実施形態に係る読み飛ばしが発生した場合の表示例を示す図である。図５に示す例において、原稿ファイルのテキストは、「出生魚の名前は、日本において、子供の魚から・・・」であり、「出生魚の名前は」ｐｈ１を第一音節、「日本において」ｐｈ２を第二音節、「子供の魚から」ｐｈ３を第三音節とする。
利用者が、第一音節の「出生魚の名前は」ｐｈ１を読んだ後、第二音節の「日本において」ｐｈ２を読み飛ばしてｐｈ３の「子供」を読んだ場合、字幕生成部１０８は、ｇ１０１とｇ１１１に示すように、利用者が読み飛ばした第二音節の「日本において」ｐｈ２の表示色を黒色に変化させて知覚できないようにする。なお、図５では、説明のために、読み終わった箇所と、読み飛ばされた箇所を、グレーで示し、読み終わってない箇所を黒色で表している。

本実施形態では、矢印ｇ１０２のように利用者が読み飛ばした場合、矢印ｇ１１２のように読み飛ばした箇所を飛ばして、第三音節の「子供の魚から」ｐｈ３から読み上げるように字幕データを表示する。この場合、字幕生成部１０８は、第一音節の「出生魚の名前は」ｐｈ１を認識した後、例えば単語「日本」が音声認識部１０６によって認識できなかった場合、第二音節の「日本において」ｐｈ２を読み飛ばしたと判定する。そして、字幕生成部１０８は、音声認識部１０６の出力に基づいて、読み飛ばされて、現在読まれている箇所（以下、読み飛ばし先ともいう）を検出する。例えば、単語「子供」を認識した場合、字幕生成部１０８は、読み飛ばし先を第三音節の「子供の魚から」ｐｈ３であると検出する。

なお、字幕生成部１０８は、以下の順に読み飛ばし先を検出する。利用者が現在読み上げている文章を第１の文章｛第１音節、第２音節、・・・、第ｎ音節（ｎは２以上の整数）｝、次の文章を第２の文章｛第１音節、第２音節、・・・、第ｍ音節（ｍは２以上の整数）｝、その次の文章を第３の文章｛第１音節、第２音節、・・・、第ｏ音節（ｏは２以上の整数）｝とする。字幕生成部１０８は、例えば第１の文章の第１音節を認識した後、次の認識結果を、同じ文章内、すなわち第１の文章の第２音節、第３音節、・・・、第ｎ音節の順に検出する。字幕生成部１０８は、第１の文章内から認識結果を検出できない場合、続けて第２の文章の１音節、第２音節、・・・、第ｍ音節の順に検出する。字幕生成部１０８は、第１の文章および第２の文章内から認識結果を検出できない場合、続けて第３の文章の１音節、第２音節、・・・、第ｏ音節の順に検出する。なお、字幕生成部１０８が検出する文章の範囲（いくつ先まで探索するか）は、予め定め定められた範囲内であってもよく、原稿ファイル全体であってもよい。

次に、音声信号による動作指示の処理手順の一例を説明する
図６は、本実施形態に係る音声信号による動作指示の処理のフローチャートである。

（ステップＳ１）音声認識部１０６は、収音部２０１が収音した音響信号に対して音声認識を行い、動作指示のキーワードを認識する。音声認識部１０６は、認識した結果が「それでは発表を始めます。」の場合、ステップＳ２の処理に進める。音声認識部１０６は、認識した結果が「ＸＸについて説明します。」の場合、ステップＳ４の処理に進める。音声認識部１０６は、認識した結果が「ＹＹの項を説明します。」の場合、ステップＳ６の処理に進める。なお、音声認識部１０６は、音声認識を行った結果、開始を示すキーワード、例えば「開始」、「始めます」等が抽出された場合、ステップＳ２の処理に進めるようにしてもよい。また、音声認識部１０６は、音声認識を行った結果、原稿のタイトルを示すキーワー等が抽出された場合、ステップＳ４の処理に進めるようにしてもよい。また、音声認識部１０６は、音声認識を行った結果、項目を示すキーワー等が抽出された場合、ステップＳ６の処理に進めるようにしてもよい。

（ステップＳ２）音声認識部１０６は、「それでは発表を始めます。」を認識し、ステップＳ３の処理に進める。
（ステップＳ３）字幕生成部１０８は、音声認識部１０６が出力した動作指示に応じて、講演をスタートしたと判定する。例えば、字幕生成部１０８は、シナリオ記憶部１０７が複数のテキストファイルを記憶する場合、タイトルのリストを表示部１０９に表示する。字幕生成部１０８は、処理後、ステップＳ８の処理に進む。

（ステップＳ４）音声認識部１０６は、「ＸＸについて説明します。」を認識し、ステップＳ５の処理に進める。
（ステップＳ５）字幕生成部１０８は、音声認識部１０６が出力した動作指示に応じて、講演原稿をＸＸに設定する。字幕生成部１０８は、処理後、ステップＳ８の処理に進む。

（ステップＳ６）音声認識部１０６は、「ＹＹの項を説明します。」を認識し、ステップＳ７の処理に進める。
（ステップＳ７）字幕生成部１０８は、音声認識部１０６が出力した動作指示に応じて、講演原稿をＸＸの項目ＹＹを開始項目に設定する。なお、字幕生成部１０８は、講演原稿ＸＸに項目ＹＹがない場合、その項目がないことを表示部１０９に表示する。字幕生成部１０８は、処理後、ステップＳ８の処理に進む。
（ステップＳ８）音声処理装置１は、発表中の処理を行い、以上の音声信号による動作指示の処理を、発表の終了を示すキーワードまたは発話「以上で発表を終了します。」が認識されるまで繰り返す。

このように、本実施形態では、音声認識に基づいて音声処理装置１が処理を行う。なお、利用者が操作部１１０を操作して、発表を終了する動作指示を選択した場合も、音声処理装置１は、以上の音声信号による動作指示の処理を終了するようにしてもよい。

次に、図６のステップＳ８における発表中の処理手順の一例を説明する。
図７は、本実施形態に係る発表中の処理のフローチャートである。

（ステップＳ１１）字幕生成部１０８は、受信部２０２が利用者（発表者）への指示情報を出力したか否かを判定する。ここで、利用者への指示情報には、発表の休止の指示、発表者に対する動作（身振り、手振り、ポインター等を用いての説明動作等）の指示、質問者の存在を教える指示等が含まれる。字幕生成部１０８は、利用者への指示情報を出力したと判定した場合（ステップＳ１１；ＹＥＳ）、ステップＳ１２の処理に進め、利用者への指示情報を出力していないと判定した場合（ステップＳ１１；ＮＯ）、ステップＳ１３の処理に進める。

（ステップＳ１２）字幕生成部１０８は、受信部２０２が出力した指示情報を、原稿ファイルのテキストを提示する提示部以外の領域（例えば外側）に表示する。字幕生成部１０８は、処理後、ステップＳ１１に処理を戻す。

（ステップＳ１３）字幕生成部１０８は、音声認識部１０６の出力に基づいて、読み飛ばしが発生しているか否かを判定する。字幕生成部１０８は、読み飛ばしが発生していると判定した場合（ステップＳ１３；ＹＥＳ）、ステップＳ１４の処理に進み、読み飛ばしが発生していないと判定した場合（ステップＳ１３；ＮＯ）、ステップＳ１５の処理に進める。

（ステップＳ１４）字幕生成部１０８は、音声認識部１０６に基づいて、読み飛ばし先を検出し、図５に示したように正しい読み上げ箇所なるようにテキストの表示を変化させる。字幕生成部１０８は、処理後、ステップＳ１１に処理を戻す。

（ステップＳ１５）字幕生成部１０８は、操作部１１０を操作したか否かを検出、またはジェスチャーによって動作指示を行ったか否かの検出、すなわち利用者の操作が検知されたか否かを判定する。字幕生成部１０８は、利用者の操作が検知されたと判定した場合（ステップＳ１５；ＹＥＳ）、ステップＳ１６に処理を進め、発表者の操作が検知されていないと判定した場合（ステップＳ１５；ＮＯ）、ステップＳ１７に処理を進める。

（ステップＳ１６）字幕生成部１０８は、操作部１１０が検出した操作結果に基づいて動作指示を検出、またはセンサー１１１の検出値に基づいて動作指示を検出する。続けて、字幕生成部１０８は、動作指示に応じた処理を行う。ここで、動作指示は、例えば、表示部１０９上に表示されるテキストを垂直方向にスクロールする処理、読み飛ばし先の推定が誤っていたり発表を途中からやり直す場合等に強制復帰する処理等である。字幕生成部１０８は、処理後、ステップＳ１１に処理を戻す。

（ステップＳ１７）字幕生成部１０８は、音声認識部１０６に基づいて、発表を終了するフレーズまたはキーワードを検出する。発表を終了するフレーズは、例えば、「それでは発表を終わります。」である。字幕生成部１０８は、発表を終了するフレーズまたはキーワードを検出したと判定した場合（ステップＳ１７；ＹＥＳ）、講演（発表）が終了したと判定して処理を終了する。字幕生成部１０８は、発表を終了するフレーズまたはキーワードを検出していないと判定した場合（ステップＳ１７；ＮＯ）、ステップＳ１１に処理を戻す。

図７に示した処理手順は一例であり、これに限られない。音声処理装置１は、例えば、ステップＳ１３の処理後またはステップＳ１５の処理後に、ステップＳ１１の処理を行うようにしてもよい。

以上のように、本実施形態では、読み上げが終わった箇所（例えば単語、句、節等）までの表示を知覚できないように変化させるようにした。これにより、本実施形態によれば、利用者に対して予め定められたシナリオを話しやすくするように誘導することができるという効果を得ることができる。また、本実施形態によれば、表示部１０９が表示する音声認識された結果が反映されたテキストを見ながら発表を行うため、利用者は、聴衆に顔を向けたまま発表を行うことができる。なお、上述した例では、読み終わった箇所までの表示を知覚できないように変化させる例を説明したが、これに限られない。表示の仕方は、読み終わった箇所までの表示を変化させるようにすればよく、色を変化させる、輝度を変化させる、マスクをかける、マスクをかけることで透明度を変化させる等であってもよい。

また、本実施形態によれば、利用者が読み上げている箇所（節等）を音声認識するようにしたので、読み飛ばしがあった場合、利用者が読み飛ばした箇所の表示を知覚できないように変化させるようにした。これにより、利用者は、読み飛ばした先からテキストを読み上げることで、発表をスムーズに継続することができる、この結果、本実施形態によれば、会議等の場におけるプレゼンテーションの効率や効果を上げることができる。

また、本実施形態によれば、利用者は音声で音声処理装置１に対して操作指示を行うことができる。この結果、本実施形態によれば、利用者の操作指示に基づいて所望のコンテンツを再生や一時停止や停止等の処理を行うことができる。すなわち、本実施形態によれば、音声指示によってコンテンツ（原稿ファイル）の選択や、コンテンツ内の章等の項目の選択を行うことができる。また、本実施形態によれば、音声指示に応じて、テキストの表示を開始したり終了したりすることができる。
また、本実施形態によれば、利用者が操作部１１０を操作し、またはジェスチャーによる操作を行うことで、音声処理装置１に対して操作指示を行うことができる。

また、本実施形態では、シナリオ記憶部１０７が、原稿ファイルにおいて項目毎にテキストを記憶し、利用者が音声で項目を開始する指示を行ったことを音声認識によって検出するようにした。これにより、本実施形態によれば、利用者の所望するコンテンツ（項目、章等）からテキストの再生することができる。

＜第２実施形態＞
第１実施形態では、音声処理装置１が、ＨＭＤ１０の全ての構成要素、ヘッドセット２０の全ての構成要素を備える例を説明したが、構成要素の一部は、ネットワークを介してサーバー等が備えていてもよい。

図８は、本実施形態に係る音声処理装置１Ａの構成を示すブロック図である。なお、音声処理装置１（図１）と同じ機能を有する構成要素には同じ符号を用いる。
図８に示すように音声処理装置１Ａは、ＨＭＤ１０Ａ、ヘッドセット２０、および音声認識装置３０を備える。ＨＭＤ１０Ａと音声認識装置３０は、ネットワーク５０を介して接続される。ネットワーク５０は、電話通信回線、インターネット回線、無線回線、有線回線等のネットワークである。

ＨＭＤ１０Ａは、音声信号取得部１０１、シナリオ記憶部１０７、字幕生成部１０８、表示部１０９、操作部１１０、センサー１１１、送信部１１２、および受信部１１３を備える。
音声認識装置３０は、音源分離部１０２、特徴量算出部１０３、モデル記憶部１０４、キーワード記憶部１０５、音声認識部１０６、受信部３０１、および送信部３０２を備える。

ＨＭＤ１０Ａは、ヘッドセット２０が収音した音響信号を取得し、取得した音響信号を送信部１１２とネットワーク５０を介して、音声認識装置３０へ送信する。ＨＭＤ１０Ａは、自部が記憶するシナリオのテキストファイルを表示部１０９に表示することで利用者に提示する。ＨＭＤ１０Ａは、音声認識装置３０が認識した結果を、ネットワーク５０と受信部１１３を介して受信する。ＨＭＤ１０Ａは、音声認識装置３０が音声認識した結果に基づいて、利用者が読み終わった箇所（節、文章等）を知覚できないようにする。ＨＭＤ１０Ａは、音声認識装置３０が音声認識した結果に基づいて、シナリオの読み飛ばしが発生したか否かを検出し、読み飛ばしが発生したとき、読み飛ばされた先の位置（節等）を検出して、その位置からテキストの表示を行う。ＨＭＤ１０Ａは、利用者の操作を検出し、検出した結果に応じて、テキストの表示を開始、一時停止、停止、項目毎の表示の開始等を行う。

音声信号取得部１０１は、生成した周波数領域信号を送信部１１２に出力する。
送信部１１２は、音声信号取得部１０１が出力する周波数領域の音響信号を、ネットワーク５０を介して、音声認識装置３０へ送信する。
受信部１１３は、音声認識装置３０がネットワーク５０を介して送信したテキストデータまたは動作指示を受信し、受信したテキストデータまたは動作指示を字幕生成部１０８に出力する。

音声認識装置３０は、例えばサーバーである。音声認識装置３０は、ＨＭＤ１０Ａが送信した周波数領域の音響信号を、ネットワーク５０を介して受信し、受信した音響信号に対して音声認識処理を行う。音声認識装置３０は、認識した結果を、ネットワーク５０を介してＨＭＤ１０Ａへ送信する。

受信部３０１は、ＨＭＤ１０Ａが送信した周波数領域の音響信号を、ネットワーク５０を介して受信し、受信した周波数領域の音響信号を音源分離部１０２へ出力する。
音声認識部１０６は、認識した結果にキーワードが含まれていると判定した場合、そのキーワードに対応する動作指示を送信部３０２に出力する。音声認識部１０６は、認識した結果にキーワードが含まれていないと判定した場合、生成したテキストデータを、例えば節毎に送信部３０２へ出力する。
送信部３０２は、音声認識部１０６が出力したテキストデータまたは動作指示を、ネットワーク５０を介してＨＭＤ１０Ａへ送信する。

なお、図８に示した例では、音声認識装置３０が、音源分離部１０２、特徴量算出部１０３、モデル記憶部１０４、キーワード記憶部１０５、および音声認識部１０６を備える例を示したが、これに限られない。音声認識装置３０は、音源分離部１０２、特徴量算出部１０３、モデル記憶部１０４、キーワード記憶部１０５、および音声認識部１０６のうち少なくとも１つを備え、他の構成要素をＨＭＤ１０Ａが備えるようにしてもよい。

本実施形態においても、第１実施形態で説明した音声処理装置１と同様の効果を得ることができる。

なお、第１実施形態または第２実施形態で説明した音声処理装置１（または１Ａ）の機能の全てまたは一部を、ウェアブル端末、スマートフォン等の携帯端末が備えていてもよい。例えば、スマートフォンが、音声信号取得部１０１、字幕生成部１０８、操作部１１０、センサー１１１、送信部１１２、受信部１１３、収音部２０１、受信部２０２、および再生部２０３を備えていてもよい。この場合、再生部２０３は、スマートフォンに有線または無線で接続されるヘッドホンやイヤホンであってもよい。また、スマートフォンは、生成した字幕データを有線または無線で、表示部１０９を備えるＨＭＤへ送信するようにしてもよい。あるいは、表示部１０９もスマートフォンが備えていてもよい。

なお、本発明における音声処理装置１（または１Ａ）の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音声認識処理や字幕データの生成処理、読み飛ばし判定等を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバーやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

１，１Ａ…音声処理装置、１０，１０Ａ…ＨＭＤ、２０…ヘッドセット、３０…音声認識装置、５０…ネットワーク、１０１…音声信号取得部、１０２…音源分離部、１０３…特徴量算出部、１０４…モデル記憶部、１０５…キーワード記憶部、１０６…音声認識部、１０７…シナリオ記憶部、１０８…字幕生成部、１０９…表示部、１１０…操作部、１１１…センサー、１１２…送信部、１１３…受信部、２０１…収音部、２０２…受信部、２０３…再生部、３０１…受信部、３０２送信部

Claims

シナリオをテキスト情報として記憶するシナリオ記憶部と、
話者が発話する音声を収音する収音部と、
前記収音部が収音した前記音声に対して音声認識する音声認識部と、
前記シナリオ記憶部から前記テキスト情報を読み出して字幕を生成し、前記音声認識部が音声認識した結果に基づいて、前記字幕の文字列のうち、話者が既に発話した部分の表示を知覚できないように変化させ、前記音声認識部での音声認識した結果に基づいて、前記字幕のうち前記話者による読み飛ばしが発生したか否かを検出し、前記字幕のうち前記話者による読み飛ばしがあった場合に、該当する箇所までの部分の表示を知覚できないように変化させる字幕生成部と、
を備え、
前記シナリオは、予め複数の項目で構成されており、
動作指示を行うキーワードを、動作指示に対応付けて記憶する記憶部、を備え、
前記音声認識部は、
前記記憶部が記憶する前記キーワードを探索して、認識した結果に前記キーワードが含まれているか否かを判別し、認識した結果に前記キーワードが含まれていると判別した場合に前記キーワードに対応付けられている前記動作指示を前記字幕生成部に出力し、
前記字幕生成部は、
前記音声認識部が出力する前記キーワードに対応付けられている前記動作指示に応じて、前記テキスト情報における前記動作指示により指定された前記項目の字幕を表示させ、前記テキスト情報における前記キーワードに対応する前記項目が無い場合に、前記項目が無いことを示す情報を表示させる、
音声処理装置。
前記音声認識部は、音声認識した音声から動作指示を取得し、
前記字幕生成部は、前記動作指示に基づいて字幕の再生、一時停止、および終了のうち少なくとも１つを行う、請求項１に記載の音声処理装置。
外部からの指示情報を取得する受信部、を備え、
前記字幕生成部は、前記受信部が取得した前記指示情報を、前記字幕を表示する領域外に表示する、請求項１または請求項２に記載の音声処理装置。
シナリオをテキスト情報として記憶するシナリオ記憶部と、
動作指示を行うキーワードを、動作指示に対応付けて記憶する記憶部と、
話者が発話する音声を収音する収音部と、
前記収音部が収音した前記音声に対して音声認識する音声認識部と、
前記テキスト情報を表示する表示部と、
前記シナリオ記憶部から前記テキスト情報を読み出して字幕を生成し、前記音声認識部が音声認識した結果に基づいて、字幕の文字列のうち、話者が既に発話した部分の表示を知覚できないように変化させて前記表示部に表示し、前記音声認識部での音声認識した結果に基づいて、前記字幕のうち前記話者による読み飛ばしが発生したか否かを検出し、前記字幕のうち前記話者による読み飛ばしがあった場合に、該当する箇所までの部分の表示を知覚できないように変化させて前記表示部に表示する字幕生成部と、
を備え、
前記シナリオは、予め複数の項目で構成されており、
前記音声認識部は、
前記記憶部が記憶する前記キーワードを探索して、認識した結果に前記キーワードが含まれているか否かを判別し、認識した結果に前記キーワードが含まれていると判別した場合に前記キーワードに対応付けられている前記動作指示を前記字幕生成部に出力し、
前記字幕生成部は、
前記音声認識部が出力する前記キーワードに対応付けられている前記動作指示に応じて、前記テキスト情報における前記動作指示により指定された前記項目の字幕を表示させ、前記テキスト情報における前記キーワードに対応する前記項目が無い場合に、前記項目が無いことを示す情報を表示させる、
ウェアラブル端末。
シナリオをテキスト情報として記憶するシナリオ記憶部と、
動作指示を行うキーワードを、動作指示に対応付けて記憶する記憶部と、
話者が発話する音声を収音する収音部と、
前記収音部が収音した前記音声に対して音声認識する音声認識部と、
前記テキスト情報を表示する表示部と、
前記シナリオ記憶部から前記テキスト情報を読み出して字幕を生成し、前記音声認識部が音声認識した結果に基づいて、字幕の文字列のうち、話者が既に発話した部分の表示を知覚できないように変化させて前記表示部に表示し、前記音声認識部での音声認識した結果に基づいて、前記字幕のうち前記話者による読み飛ばしが発生したか否かを検出し、前記字幕のうち前記話者による読み飛ばしがあった場合に、該当する箇所までの部分の表示を知覚できないように変化させて前記表示部に表示する字幕生成部と、
を備え、
前記シナリオは、予め複数の項目で構成されており、
前記音声認識部は、
前記記憶部が記憶する前記キーワードを探索して、認識した結果に前記キーワードが含まれているか否かを判別し、認識した結果に前記キーワードが含まれていると判別した場合に前記キーワードに対応付けられている前記動作指示を前記字幕生成部に出力し、
前記字幕生成部は、
前記音声認識部が出力する前記キーワードに対応付けられている前記動作指示に応じて、前記テキスト情報における前記動作指示により指定された前記項目の字幕を表示させ、前記テキスト情報における前記キーワードに対応する前記項目が無い場合に、前記項目が無いことを示す情報を表示させる、
携帯端末。
予め複数の項目で構成されているシナリオをテキスト情報として記憶するシナリオ記憶部と、動作指示を行うキーワードを、動作指示に対応付けて記憶する記憶部とを有する音声処理装置における音声処理方法であって、
収音部が、話者が発話する音声を収音する収音手順と、
音声認識部が、前記収音手順によって収音された前記音声に対して音声認識し、
前記記憶部が記憶する前記キーワードを探索して、認識した結果に前記キーワードが含まれているか否かを判別し、認識した結果に前記キーワードが含まれていると判別した場合に前記キーワードに対応付けられている前記動作指示を字幕生成部に出力し、音声認識手順と、
前記字幕生成部が、前記シナリオ記憶部から前記テキスト情報を読み出して字幕を生成し、前記音声認識手順によって音声認識した結果に基づいて、前記字幕の文字列のうち、話者が既に発話した部分の表示を知覚できないように変化させ、前記音声認識手順によって音声認識した結果に基づいて、前記字幕のうち前記話者による読み飛ばしが発生したか否かを検出し、前記字幕のうち前記話者による読み飛ばしがあった場合に、該当する箇所までの部分の表示を知覚できないように変化させ、記音声認識部が出力する前記キーワードに対応付けられている前記動作指示に応じて、前記テキスト情報における前記動作指示により指定された前記項目の字幕を表示させ、前記テキスト情報における前記キーワードに対応する前記項目が無い場合に、前記項目が無いことを示す情報を表示させる字幕生成手順と、
を含む音声処理方法。