JP6696878B2 - 音声処理装置、ウェアラブル端末、携帯端末、および音声処理方法 - Google Patents

音声処理装置、ウェアラブル端末、携帯端末、および音声処理方法 Download PDF

Info

Publication number
JP6696878B2
JP6696878B2 JP2016203690A JP2016203690A JP6696878B2 JP 6696878 B2 JP6696878 B2 JP 6696878B2 JP 2016203690 A JP2016203690 A JP 2016203690A JP 2016203690 A JP2016203690 A JP 2016203690A JP 6696878 B2 JP6696878 B2 JP 6696878B2
Authority
JP
Japan
Prior art keywords
unit
voice recognition
keyword
subtitle
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016203690A
Other languages
English (en)
Other versions
JP2018067050A (ja
Inventor
武志 水本
武志 水本
一博 中臺
一博 中臺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2016203690A priority Critical patent/JP6696878B2/ja
Priority to US15/645,010 priority patent/US20180108356A1/en
Publication of JP2018067050A publication Critical patent/JP2018067050A/ja
Application granted granted Critical
Publication of JP6696878B2 publication Critical patent/JP6696878B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、音声処理装置、ウェアラブル端末、携帯端末、および音声処理方法に関する。
学会等の発表会において、発表者は準備した原稿を暗記しておくか、原稿を読み上げることで、発表を行っている。原稿を見ながら発表を行った場合、顔が原稿に向いてしまうので、聴衆に顔を向けて発表を行うことができなかった。このため、テレプロンプター(Teleprompter)等に表示された原稿を発表者が読み上げることが行われている。
例えば、特許文献1には、アナウンサ等の話者が話した内容を音声認識して、発話内容をテキスト情報として取得し、字幕スーパーとして表示画像に重畳させる構成が開示されている。
特許第3162832号公報
しかしながら、特許文献1に記載の技術では、話者が発話した内容を音声認識により字幕として表示することができるが、予めシナリオが決まっている内容を字幕に表示させ、それを正しく話者に読ませることができるアシスト機能が備わっていなかった。
本発明は、上記の問題点に鑑みてなされたものであって、会議等の場におけるプレゼンテーションの効率や効果を向上することができる音声処理装置、ウェアラブル端末、携帯端末、および音声処理方法を提供することを目的とする。
(1)上記目的を達成するため、本発明の一態様に係る音声処理装置は、シナリオをテキスト情報として記憶するシナリオ記憶部と、話者が発話する音声を収音する収音部と、前記収音部が収音した前記音声に対して音声認識する音声認識部と、前記シナリオ記憶部から前記テキスト情報を読み出して字幕を生成し、前記音声認識部が音声認識した結果に基づいて、前記字幕の文字列のうち、話者が既に発話した部分の表示を知覚できないように変化させ、前記音声認識部での音声認識した結果に基づいて、前記字幕のうち前記話者による読み飛ばしが発生したか否かを検出し、前記字幕のうち前記話者による読み飛ばしがあった場合に、該当する箇所までの部分の表示を知覚できないように変化させる字幕生成部と、を備え、前記シナリオは、予め複数の項目で構成されており、動作指示を行うキーワードを、動作指示に対応付けて記憶する記憶部、を備え、前記音声認識部は、前記記憶部が記憶する前記キーワードを探索して、認識した結果に前記キーワードが含まれているか否かを判別し、認識した結果に前記キーワードが含まれていると判別した場合に前記キーワードに対応付けられている前記動作指示を前記字幕生成部に出力し、前記字幕生成部は、前記音声認識部が出力する前記キーワードに対応付けられている前記動作指示に応じて、前記テキスト情報における前記動作指示により指定された前記項目の字幕を表示させ、前記テキスト情報における前記キーワードに対応する前記項目が無い場合に、前記項目が無いことを示す情報を表示させる
)また、本発明の一態様に係る音声処理装置において、前記音声認識部は、音声認識した音声から動作指示を取得し、前記字幕生成部は、前記動作指示に基づいて字幕の再生、一時停止、および終了のうち少なくとも1つを行うようにしてもよい。
)また、本発明の一態様に係る音声処理装置は、外部からの指示情報を取得する受信部、を備え、前記字幕生成部は、前記受信部が取得した前記指示情報を、前記字幕を表示する領域外に表示するようにしてもよい。
)上記目的を達成するため、本発明の一態様に係るウェアラブル端末は、シナリオをテキスト情報として記憶するシナリオ記憶部と、動作指示を行うキーワードを、動作指示に対応付けて記憶する記憶部と、話者が発話する音声を収音する収音部と、前記収音部が収音した前記音声に対して音声認識する音声認識部と、前記テキスト情報を表示する表示部と、前記シナリオ記憶部から前記テキスト情報を読み出して字幕を生成し、前記音声認識部が音声認識した結果に基づいて、字幕の文字列のうち、話者が既に発話した部分の表示を知覚できないように変化させて前記表示部に表示し、前記音声認識部での音声認識した結果に基づいて、前記字幕のうち前記話者による読み飛ばしが発生したか否かを検出し、前記字幕のうち前記話者による読み飛ばしがあった場合に、該当する箇所までの部分の表示を知覚できないように変化させて前記表示部に表示する字幕生成部と、を備え、前記シナリオは、予め複数の項目で構成されており、前記音声認識部は、前記記憶部が記憶する前記キーワードを探索して、認識した結果に前記キーワードが含まれているか否かを判別し、認識した結果に前記キーワードが含まれていると判別した場合に前記キーワードに対応付けられている前記動作指示を前記字幕生成部に出力し、前記字幕生成部は、前記音声認識部が出力する前記キーワードに対応付けられている前記動作指示に応じて、前記テキスト情報における前記動作指示により指定された前記項目の字幕を表示させ、前記テキスト情報における前記キーワードに対応する前記項目が無い場合に、前記項目が無いことを示す情報を表示させる
)上記目的を達成するため、本発明の一態様に係る携帯端末は、シナリオをテキスト情報として記憶するシナリオ記憶部と、動作指示を行うキーワードを、動作指示に対応付けて記憶する記憶部と、話者が発話する音声を収音する収音部と、前記収音部が収音した前記音声に対して音声認識する音声認識部と、前記テキスト情報を表示する表示部と、前記シナリオ記憶部から前記テキスト情報を読み出して字幕を生成し、前記音声認識部が音声認識した結果に基づいて、字幕の文字列のうち、話者が既に発話した部分の表示を知覚できないように変化させて前記表示部に表示し、前記音声認識部での音声認識した結果に基づいて、前記字幕のうち前記話者による読み飛ばしが発生したか否かを検出し、前記字幕のうち前記話者による読み飛ばしがあった場合に、該当する箇所までの部分の表示を知覚できないように変化させて前記表示部に表示する字幕生成部と、を備え、前記シナリオは、予め複数の項目で構成されており、前記音声認識部は、前記記憶部が記憶する前記キーワードを探索して、認識した結果に前記キーワードが含まれているか否かを判別し、認識した結果に前記キーワードが含まれていると判別した場合に前記キーワードに対応付けられている前記動作指示を前記字幕生成部に出力し、前記字幕生成部は、前記音声認識部が出力する前記キーワードに対応付けられている前記動作指示に応じて、前記テキスト情報における前記動作指示により指定された前記項目の字幕を表示させ、前記テキスト情報における前記キーワードに対応する前記項目が無い場合に、前記項目が無いことを示す情報を表示させる
)上記目的を達成するため、本発明の一態様に係る音声処理方法は、予め複数の項目で構成されているシナリオをテキスト情報として記憶するシナリオ記憶部と、動作指示を行うキーワードを、動作指示に対応付けて記憶する記憶部とを有する音声処理装置における音声処理方法であって、収音部が、話者が発話する音声を収音する収音手順と、音声認識部が、前記収音手順によって収音された前記音声に対して音声認識し、前記記憶部が記憶する前記キーワードを探索して、認識した結果に前記キーワードが含まれているか否かを判別し、認識した結果に前記キーワードが含まれていると判別した場合に前記キーワードに対応付けられている前記動作指示を字幕生成部に出力し、音声認識手順と、前記字幕生成部が、前記シナリオ記憶部から前記テキスト情報を読み出して字幕を生成し、前記音声認識手順によって音声認識した結果に基づいて、前記字幕の文字列のうち、話者が既に発話した部分の表示を知覚できないように変化させ、前記音声認識手順によって音声認識した結果に基づいて、前記字幕のうち前記話者による読み飛ばしが発生したか否かを検出し、前記字幕のうち前記話者による読み飛ばしがあった場合に、該当する箇所までの部分の表示を知覚できないように変化させ、記音声認識部が出力する前記キーワードに対応付けられている前記動作指示に応じて、前記テキスト情報における前記動作指示により指定された前記項目の字幕を表示させ、前記テキスト情報における前記キーワードに対応する前記項目が無い場合に、前記項目が無いことを示す情報を表示させる字幕生成手順と、を含む。
(1)、()、()および()によれば、話者により発声された字幕を隠蔽することにより、話者に対して予め定められたシナリオを話しやすくするように誘導することができる。
また、(1)によれば、読み飛ばしがあったとしても、話者がスムーズに話を続けることができる。
また、()によれば、話者による動作指示に基づいて所望のシナリオの字幕を再生、一時停止、停止等することができる。
また、(、(4)、(5)および(6)によれば、話者の所望するシナリオ、または章から字幕を再生することができる。
また、()によれば、外部からの指示を字幕の表示を妨げることなく表示することが
できる。
第1実施形態に係る音声処理装置の構成を示すブロック図である。 第1実施形態に係るシナリオ記憶部が記憶する原稿ファイルの例を示す図である。 第1実施形態に係る音声処理装置の外観の一例を示す図である。 第1実施形態に係る表示部が表示する情報の一例を示す図である。 第1実施形態に係る読み飛ばしが発生した場合の表示例を示す図である。 第1実施形態に係る音声信号による動作指示の処理のフローチャートである。 第1実施形態に係る発表中の処理のフローチャートである。 第2実施形態に係る音声処理装置の構成を示すブロック図である。
以下、本発明の実施の形態について図面を参照しながら説明する。
<第1実施形態>
図1は、本実施形態に係る音声処理装置1の構成を示すブロック図である。
図1に示すように、音声処理装置1は、HMD(ヘッドマウントディスプレイ)10と、ヘッドセット20を備える。
HMD10は、音声信号取得部101、音源分離部102、特徴量算出部103、モデル記憶部104、キーワード記憶部105、音声認識部106、シナリオ記憶部107、字幕生成部108、表示部109、操作部110、およびセンサー111を備える。
ヘッドセット20は、収音部201、受信部202、および再生部203を備える。
音声処理装置1は、発表者である利用者の音声信号を収音して、収音した音声信号に対して音声認識を行う。音声処理装置1は、記憶しているシナリオである原稿ファイルのテキストのうち、利用者によって読み上げが終了した部分を知覚できないようにして、テキストを表示する。また、音声処理装置1は、利用者の発話を音声認識した結果に基づいて、読み飛ばしが発生したか否かを検出し、読み飛ばしが発生したとき、読み飛ばされた先の位置(節等)を検出して、その位置からテキストの表示を行う。音声処理装置1は、利用者の操作を検出し、検出した結果に応じて、テキストの表示を開始、一時停止、停止、項目毎の表示の開始等を行う。ここで、項目とは、例えば、段落や章などのテキストの集合である。また、音声処理装置1は、外部装置が出力した指示情報を受信し、受信した指示情報を音声信号で再生、またはテキストで表示する。外部装置は、例えばコンピュータ、スマートフォン、タブレット端末等である。また、指示情報には、発表者に対する指示が含まれている。ここで、発表者に対する指示とは、例えば「少し休止を入れて下さい」等である。
HMD10は、ヘッドセット20が収音した音響信号を取得し、取得した音響信号に対して音声認識処理を行う。HMD10は、記憶している原稿ファイルのテキストのうち、利用者によって読み上げが終了した部分を知覚できないようにして、原稿ファイルのテキストを表示部109上に表示する。HMD10は、利用者の発話を音声認識した結果に基づいて、読み飛ばしが発生したか否かを検出し、読み飛ばしが発生したとき、読み飛ばされた先の位置(節等)を検出して、その位置からテキストの表示を行う。HMD10は、ヘッドセット20が出力した指示情報を表示する。HMD10は、音声による操作と操作部110による操作とジェスチャーによる操作のうち少なくとも1つの利用者の操作を検出する。HMD10は、検出した結果に応じて、テキストの表示を開始、一時停止、停止、項目毎の表示の開始等を行う。なお、ジェスチャーとは、音声処理装置1のHMD10を頭部に装着している利用者が、頭部を左右方向や縦方向に振ったりする動作である。また、HMD10が音声処理装置1全ての機能を有していてもよく、HMDは、HUD(ヘッドアップディスプレイ)、ウェアブル端末、スマートフォン等の携帯端末、テレプロンプター(Teleprompter)等であってもよい。
ヘッドセット20は、利用者の発話を収音して、収音した音響信号をHMD10へ出力する。ヘッドセット20は、外部装置が出力した指示情報を受信し、受信した指示情報をスピーカーから再生、またはHMD10へ出力する。
収音部201は、利用者が口元に配置するマイクロホンである。収音部201は、利用者の音声信号を収音して、収音した音声信号を音声信号取得部101へ出力する。なお、収音部201は、音声信号をアナログ信号からデジタル信号に変換して、変換したデジタル信号の音声信号を音声信号取得部101へ出力するようにしてもよい。
音声信号取得部101は、収音部201が出力した音声信号x(k)(kは、サンプル時刻を表す整数)に対して、例えば離散フーリエ変換(DFT;Discrete Fourier Transform)を行って周波数領域信号x(ω)(ωは、周波数)を生成し、生成した周波数領域信号x(ω)を音源分離部102に出力する。
音源分離部102は、音声信号取得部101が出力した周波数領域の音響信号に対して、例えば所定の閾値以上の音声信号を抽出することで話者の音声信号を分離する。音源分離部102は、分離した音声信号を特徴量算出部103に出力する。なお、音源分離部102は、残響信号を抑圧するようにしてもよい。
特徴量算出部103は、音源分離部102が出力した音声信号から音響特徴量を算出し、算出した音響特徴量を音声認識部106に出力する。特徴量算出部103は、例えば、静的メル尺度対数スペクトル(MSLS:Mel−Scale Log Spectrum)、デルタMSLS及び1個のデルタパワーを、所定時間(例えば、10ms)毎に算出することで音響特徴量を算出する。なお、MSLSは、音響認識の特徴量としてスペクトル特徴量を用い、MFCC(メル周波数ケプストラム係数;Mel Frequency Cepstrum Coefficient)を逆離散コサイン変換することによって得られる。
モデル記憶部104は、音声認識モデルと言語モデルを記憶する。音声認識モデルは、例えば音素毎の音声信号の波形データで構成される。なお、音響モデルは、予め多数の人の音声信号から生成したものであってもよく、利用者の音声信号を用いて生成するようにしてもよい。また、言語モデルは、単語とその係り受け、並び方等の情報で構成される。
キーワード記憶部105は、動作指示を行うキーワードを、動作指示に対応付けて記憶する。ここで、動作指示とは、例えば字幕データの生成を開始する指示、字幕データの生成を一時停止する指示、字幕データの生成を終了する指示等である。また、動作指示を行うキーワードは、例えば、発表を開始する合図のキーワード、項目の説明を開始する合図のキーワード、発表を終了する合図のキーワード等である。
音声認識部106は、特徴量算出部103が出力する音声特徴量と、モデル記憶部104が記憶する音響モデルと言語モデルを用いて音声認識処理を行う。音声認識部106は、例えば、音声特徴量について音響モデルと言語モデルを用いて算出した尤度が最も高い語句を認識結果として定める。音声認識部106は、音声認識した結果である認識結果をテキスト形式で生成する。なお、音声認識部106は、例えば単語毎にテキストを生成する。また、音声認識部106は、音声認識処理後、キーワード記憶部105が記憶するキーワードを探索して、認識した結果にキーワードが含まれているか否かを判定する。音声認識部106は、認識した結果にキーワードが含まれていると判定した場合、そのキーワードに対応する動作指示を字幕生成部108に出力する。音声認識部106は、認識した結果にキーワードが含まれていないと判定した場合、認識結果を、例えば単語毎に字幕生成部108へ出力する。
シナリオ記憶部107は、発表で使用する原稿ファイルを、例えばテキスト形式で記憶する。なお、音声処理装置1は、原稿ファイルをコンピュータ等の外部装置から取得して、取得した原稿ファイルをシナリオ記憶部107に記憶する。この原稿ファイルは、項目を有している。また、シナリオ記憶部107は、センサー111の検出値の閾値と動作指示の関係を記憶する。
字幕生成部108は、音声認識部106が出力する認識結果を取得する。字幕生成部108は、シナリオ記憶部107が記憶する原稿ファイルを読み出す。字幕生成部108は、取得した認識結果が読み出した原稿ファイルに対応する箇所を探索する。字幕生成部108は、原稿の最初から対応する箇所までの、例えば表示色を変えて字幕データを生成し、生成した字幕データを表示部109に出力する。字幕生成部108は、操作画像を生成して、生成した操作画像を表示部109に出力する。ここで、操作画像とは、例えば、プレゼンテーションを開始するためのプレゼン開始のボタン画像、プレゼンテーションを停止するためのプレゼン停止のボタン画像、メインメニューを表示するボタン画像等である。また、字幕生成部108は、受信部202が出力する指示情報を、原稿ファイルを表示する提示部の外側に表示するように指示字幕データを生成して、生成した指示字幕データを表示部109に出力する。
また、字幕生成部108は、操作部110が出力した操作結果またはセンサー111が出力した検出値に基づいて、利用者によって操作が行われたことを検出する。字幕生成部108は、利用者によって操作が行われたことを検出したとき、操作部110が出力した操作結果またはセンサー111が出力した検出値に基づいて、字幕データの生成を開始または一時停止または終了する。例えば、字幕生成部108は、センサー111の検出値が第1の所定閾値以上かつ第2の所定閾値以下の場合、または操作部110の操作結果が一回の場合、字幕データの生成を開始する。字幕生成部108は、センサー111の検出値が第2の所定閾値以上かつ第3の所定閾値以下の場合、または操作部110の操作結果が二回の場合、字幕データの生成を一時停止する。字幕生成部108は、センサー111の検出値が第3の所定閾値以上の場合、または操作部110の操作結果が三回の場合、字幕データの生成を終了する。または、字幕生成部108は、操作部110が出力する操作結果が表示部109上の座標データの場合、座標データに基づいて、字幕データの生成を開始または一時停止または終了する。字幕生成部108は、センサー111の検出値に基づいて、例えば利用者が頭部を左右に振ったことを検出し、字幕データの生成を開始する動作指示であると判定する。なお、上述した操作結果の回数や検出値の閾値は一例であり、これに限られない。
さらに、字幕生成部108は、音声認識部106が動作指示を出力した場合、動作指示に応じて、シナリオの再生を開始、項目のシナリオの再生を開始、シナリオの再生の終了等を行う。
表示部109は、例えば液晶表示装置、有機EL(エレクトロルミネッセンス)表示装置であり、字幕生成部108が出力した字幕データおよび指示字幕データを表示する。
操作部110は、例えば、タッチセンサー、またはトラックボールやスティックなどのポインティングデバイスである。操作部110は、利用者が操作した結果を検出して、検出した操作結果を字幕生成部108へ出力する。
センサー111は、加速度センサー、地磁気センサー、および角速度センサーのうちの少なくとも1つである。センサー111は、検出した検出値を字幕生成部108へ出力する。字幕生成部108は、加速度センサーの検出値を、HMD10の傾き検出に用いる。加速度センサーは、例えば3軸センサーであり、重力加速度を検出する。字幕生成部108は、地磁気センサーの検出値を、HMD10の方角検出に用いる。字幕生成部108は、角速度センサー(ジャイロセンサー)の検出値を、HMD10の回転検出に用いる。
受信部202は、外部装置が送信した指示情報を受信する。受信部202は、受信した指示情報が音響信号の場合、再生部203へ出力する。また、受信部202は、受信した指示情報がテキストデータの場合、字幕生成部108へ出力する。
再生部203は、スピーカーまたはイヤホンであり、受信部202が出力した音響信号を再生する。
なお、収音部201が、利用者の口元に配置されず、例えばステージ上に複数設置されている場合、音声処理装置1は、音声信号取得部101と音源分離部102の間に音源定位部を備えていてもよい。この場合、複数の収音部201はN(Nは2以上の整数)本のマイクロホンであり、マイクロホンアレイであると見なせる。音源定位部は、音声信号取得部101が出力するNチャネルの音声信号に対して、自部が記憶する伝達関数を用いて、空間スペクトルを算出する。音源定位部は、算出した空間スペクトルに基づいて音源の方位角の推定(音源定位を行うともいう)を行う。音源定位部は、推定した音源の方位角情報と、入力されたNチャネルの音声信号を音源分離部102に出力する。音源定位部は、例えば、MUSIC(MUltiple SIgnal Classification)法を用いて方位角を推定する。なお、方位角の推定には、ビームフォーミング(Beamforming)法、WDS−BF(Weighted Delay and Sum BeamForming;重み付き遅延和ビームフォーミング)法、一般化特異値展開を用いたMUSIC(GSVD−MUSIC;Generalized Singular Value Decomposition−MUltiple SIgnal Classification)法等の他の音源方向推定方式を用いてもよい。この場合、音源分離部102は、音源定位部が出力したNチャネルの音響信号および推定された音源の方位角情報を取得する。音源分離部102は、取得した方位角に対応する伝達関数を音源定位部から読み出す。音源分離部102は、読み出した伝達関数と、例えばブラインド分離とビームフォーミングのハイブリッドであるGHDSS−AS(Geometrically constrained Highorder Decorrelation based Source Separation with Adaptive Stepsize control)法を用いて、取得したNチャネルの音響信号から音源毎の音声信号を分離する。なお、音源分離部102は、例えばビームフォーミング法等を用いて、音源分離処理を行ってもよい。
次に、シナリオ記憶部107が記憶する原稿ファイルの例を説明する。
図2は、本実施形態に係るシナリオ記憶部107が記憶する原稿ファイルの例を示す図である。図2に示す例の原稿ファイルは、学会等で発表されるときに使用する原稿ファイルの例である。図2に示しように、シナリオ記憶部107は、テキストを項目毎に記憶する。項目は、例えば、「はじめに」、「課題」、「本文」、「応用例」、および「まとめ」である。なお、図2に示した項目の名称は一例であり、これに限らず、例えば第1段落、第2段落、・・・、または1枚目、2枚目、・・・、あるいは1章、2章、・・・等であってもよい。
字幕生成部108は、音声認識部106が、例えば「はじめに」の項目の動作指示を出力した場合、「はじめに」の項目のテキストの字幕データの生成を開始する。「はじめに」の項目の動作指示の音声信号は、例えば「それでは発表を始めます。」である。また、「課題」の項目の動作指示の音声信号は、例えば「課題の項を説明します。」である。
なお、シナリオ記憶部107は、複数の原稿ファイルを記憶するようにしてもよい。この場合、利用者は、複数の原稿ファイルの中から発表に使用する原稿ファイルを音声による操作または操作部110の操作あるいはジェスチャーによる操作によって選択する。
このような場合、字幕生成部108は、シナリオ記憶部107が記憶する複数の原稿ファイルのタイトルを表示部109に表示する。利用者は、操作部110を操作して表示されたタイトルの中から発表に使用する原稿ファイルを選択する。または、利用者は、表示されたタイトルの中から発表に使用する原稿のタイトル等を読み上げる。音声認識部106は、取得した音声信号に発表する原稿のタイトル等のキーワードが含まれている場合、対応する原稿ファイルを選択する動作指示を字幕生成部108へ出力する。
次に、音声処理装置1の外観の一例を説明する。
図3は、本実施形態に係る音声処理装置1の外観の一例を示す図である。図3に示すように、音声処理装置1は、眼鏡型のHMD10とヘッドセット20を含む。HMD10は、左右に表示部109R及び109L、鼻あて121R及び121L、ブリッジ122、テンプル123Rおよび123Lを備えている。左のテンプル123Lは、音声信号取得部101、音源分離部102、特徴量算出部103、モデル記憶部104、キーワード記憶部105、音声認識部106、シナリオ記憶部107、および字幕生成部108を備える。また、右のテンプル123Rは、操作部110とセンサー111を備える。また、ヘッドセット20は、利用者の口元に配置される収音部201と利用者の耳元に配置される再生部203を備えている。なお、図3に示した構成は一例であり、外観、各部が取り付けられている位置や形状は、これに限られない。
次に、表示部109が表示する情報の一例を説明する。
図4は、本実施形態に係る表示部109が表示する情報の一例を示す図である。図4において、g1は、表示部109が表示する画像の一例である。g11は、字幕データの一例である。g12は、前述した操作画像の一例であり、プレゼン停止のボタン画像である。g13は、操作画像の一例であり、メインメニューを表示するボタン画像である。g14は、外部装置が送信した指示情報をテキストとして表示部109に表示した例である。
図4に示す例は、原稿ファイルのテキストの一部が「出生魚とは、日本において、子供の魚が、大人の魚まで、成長に応じて、異なる名前で呼ばれる、魚のことを指します。たとえばブリは、ツバス、ハマチ、メジロ、ブリの順で、名前が変わっていきます。」である。発表者である利用者は、表示部109が表示する字幕を見ながら発表を行う。利用者は、字幕の先頭から順に読み上げていく。なお、図4の例では、「出生魚とは、日本において、子供の魚が、大人の魚まで、成長に応じて、異なる名前で呼ばれる、魚のことを指します。」において、「出生魚とは」を第一音節、「日本において」を第二音節、「子供の魚が」を第三音節、「大人の魚まで」を第四音節、「成長に応じて」を第五音節、「異なる名前で呼ばれる」を第六音節、「魚のことを指します」を第七音節とする。
また、図4に示す例では、利用者が、「出生魚とは、日本において、子供の魚が、大人の魚まで、成長」まで読み上げたときに、表示部109が表示している字幕データの例である。このとき、字幕生成部108は、「成長」の認識結果を取得している。そして、字幕生成部108は、取得した認識結果が原稿ファイルの第五音節であると判定する。このため、字幕生成部108は、「出生魚とは、日本において、子供の魚が、大人の魚まで、成長に応じて、異なる名前で呼ばれる、魚のことを指します。」の文章うち、「出生魚とは、日本において、子供の魚が、大人の魚まで、成長」の表示色を変化させた字幕データを生成する。図4に示す例では、「出生魚とは、日本において、子供の魚が、大人の魚まで、成長」の表示色を白色から黒色に変化させた例である。すなわち、本実施形態では、利用者が読み上げ終わった箇所までを、利用者が知覚できないように変化させる。なお、上述した例では、字幕の表示色を変化させる例を説明したが、これに限られない。字幕生成部108は、「出生魚とは、日本において、子供の魚が、大人の魚まで、成長」の表示領域を、例えば黒色でマスクすることで「出生魚とは、日本において、子供の魚が、大人の魚まで、成長」を隠すように表示を変化させるようにしてもよい。
また、外部装置から指示情報として「少し休止を入れて下さい」を受信した場合、g14に示すように、字幕生成部108は、原稿ファイルを提示する提示部以外の領域に、この指示情報を表示する。例えば、共同発表者が外部装置を用いて、発表者に指示情報を送信する。これにより、本実施形態によれば、発表者に対して指示を文字情報で提示することができ、発表者は指示に応じて発表を進めることができる。この結果、本実施形態によれば、発表を効率よくスムーズに行うことができる。なお、図4に示した例では、指示情報を表示部109上に提示する例を示したが、これに限られない。例えば、指示情報が音響信号の場合、字幕生成部108は、音響信号をヘッドセット20へ送信し、受信した音響信号を再生部203が再生するようにしてもよい。または、指示情報がテキスト情報であった場合でも、字幕生成部108は、テキスト情報を音響信号に変換して、変換した音響信号をヘッドセット20へ送信するようにしてもよい。あるいは、指示情報が音響信号であった場合でも、字幕生成部108は、音響信号をテキスト情報に変換して、変換したテキスト情報を表示部109上に表示するようにしてもよい。
これにより、本実施形態によれば、利用者は、聴衆に顔を向けたまま表示部109が表示する原稿を読み上げながら発表を行うことができる。また、本実施形態によれば、表示部109が表示知る原稿は、読み終わった(発表が終わった)テキストを利用者が知覚できないようにしたので、利用者は、どこまで読み終わった(発表が終わった)のかを知ることができ、適切に次の節を読み上げることができる。また、本実施形態によれば、表示部109に表示する情報を、利用者が操作部110を操作する、ジェスチャーにより操作する、または音声により操作することで、字幕データの生成を開始または一時停止または終了等の操作を行うことができる。
次に、利用者が字幕データ中の一部を読み飛ばした場合の表示例を説明する。
図5は、本実施形態に係る読み飛ばしが発生した場合の表示例を示す図である。図5に示す例において、原稿ファイルのテキストは、「出生魚の名前は、日本において、子供の魚から・・・」であり、「出生魚の名前は」ph1を第一音節、「日本において」ph2を第二音節、「子供の魚から」ph3を第三音節とする。
利用者が、第一音節の「出生魚の名前は」ph1を読んだ後、第二音節の「日本において」ph2を読み飛ばしてph3の「子供」を読んだ場合、字幕生成部108は、g101とg111に示すように、利用者が読み飛ばした第二音節の「日本において」ph2の表示色を黒色に変化させて知覚できないようにする。なお、図5では、説明のために、読み終わった箇所と、読み飛ばされた箇所を、グレーで示し、読み終わってない箇所を黒色で表している。
本実施形態では、矢印g102のように利用者が読み飛ばした場合、矢印g112のように読み飛ばした箇所を飛ばして、第三音節の「子供の魚から」ph3から読み上げるように字幕データを表示する。この場合、字幕生成部108は、第一音節の「出生魚の名前は」ph1を認識した後、例えば単語「日本」が音声認識部106によって認識できなかった場合、第二音節の「日本において」ph2を読み飛ばしたと判定する。そして、字幕生成部108は、音声認識部106の出力に基づいて、読み飛ばされて、現在読まれている箇所(以下、読み飛ばし先ともいう)を検出する。例えば、単語「子供」を認識した場合、字幕生成部108は、読み飛ばし先を第三音節の「子供の魚から」ph3であると検出する。
なお、字幕生成部108は、以下の順に読み飛ばし先を検出する。利用者が現在読み上げている文章を第1の文章{第1音節、第2音節、・・・、第n音節(nは2以上の整数)}、次の文章を第2の文章{第1音節、第2音節、・・・、第m音節(mは2以上の整数)}、その次の文章を第3の文章{第1音節、第2音節、・・・、第o音節(oは2以上の整数)}とする。字幕生成部108は、例えば第1の文章の第1音節を認識した後、次の認識結果を、同じ文章内、すなわち第1の文章の第2音節、第3音節、・・・、第n音節の順に検出する。字幕生成部108は、第1の文章内から認識結果を検出できない場合、続けて第2の文章の1音節、第2音節、・・・、第m音節の順に検出する。字幕生成部108は、第1の文章および第2の文章内から認識結果を検出できない場合、続けて第3の文章の1音節、第2音節、・・・、第o音節の順に検出する。なお、字幕生成部108が検出する文章の範囲(いくつ先まで探索するか)は、予め定め定められた範囲内であってもよく、原稿ファイル全体であってもよい。
次に、音声信号による動作指示の処理手順の一例を説明する
図6は、本実施形態に係る音声信号による動作指示の処理のフローチャートである。
(ステップS1)音声認識部106は、収音部201が収音した音響信号に対して音声認識を行い、動作指示のキーワードを認識する。音声認識部106は、認識した結果が「それでは発表を始めます。」の場合、ステップS2の処理に進める。音声認識部106は、認識した結果が「XXについて説明します。」の場合、ステップS4の処理に進める。音声認識部106は、認識した結果が「YYの項を説明します。」の場合、ステップS6の処理に進める。なお、音声認識部106は、音声認識を行った結果、開始を示すキーワード、例えば「開始」、「始めます」等が抽出された場合、ステップS2の処理に進めるようにしてもよい。また、音声認識部106は、音声認識を行った結果、原稿のタイトルを示すキーワー等が抽出された場合、ステップS4の処理に進めるようにしてもよい。また、音声認識部106は、音声認識を行った結果、項目を示すキーワー等が抽出された場合、ステップS6の処理に進めるようにしてもよい。
(ステップS2)音声認識部106は、「それでは発表を始めます。」を認識し、ステップS3の処理に進める。
(ステップS3)字幕生成部108は、音声認識部106が出力した動作指示に応じて、講演をスタートしたと判定する。例えば、字幕生成部108は、シナリオ記憶部107が複数のテキストファイルを記憶する場合、タイトルのリストを表示部109に表示する。字幕生成部108は、処理後、ステップS8の処理に進む。
(ステップS4)音声認識部106は、「XXについて説明します。」を認識し、ステップS5の処理に進める。
(ステップS5)字幕生成部108は、音声認識部106が出力した動作指示に応じて、講演原稿をXXに設定する。字幕生成部108は、処理後、ステップS8の処理に進む。
(ステップS6)音声認識部106は、「YYの項を説明します。」を認識し、ステップS7の処理に進める。
(ステップS7)字幕生成部108は、音声認識部106が出力した動作指示に応じて、講演原稿をXXの項目YYを開始項目に設定する。なお、字幕生成部108は、講演原稿XXに項目YYがない場合、その項目がないことを表示部109に表示する。字幕生成部108は、処理後、ステップS8の処理に進む。
(ステップS8)音声処理装置1は、発表中の処理を行い、以上の音声信号による動作指示の処理を、発表の終了を示すキーワードまたは発話「以上で発表を終了します。」が認識されるまで繰り返す。
このように、本実施形態では、音声認識に基づいて音声処理装置1が処理を行う。なお、利用者が操作部110を操作して、発表を終了する動作指示を選択した場合も、音声処理装置1は、以上の音声信号による動作指示の処理を終了するようにしてもよい。
次に、図6のステップS8における発表中の処理手順の一例を説明する。
図7は、本実施形態に係る発表中の処理のフローチャートである。
(ステップS11)字幕生成部108は、受信部202が利用者(発表者)への指示情報を出力したか否かを判定する。ここで、利用者への指示情報には、発表の休止の指示、発表者に対する動作(身振り、手振り、ポインター等を用いての説明動作等)の指示、質問者の存在を教える指示等が含まれる。字幕生成部108は、利用者への指示情報を出力したと判定した場合(ステップS11;YES)、ステップS12の処理に進め、利用者への指示情報を出力していないと判定した場合(ステップS11;NO)、ステップS13の処理に進める。
(ステップS12)字幕生成部108は、受信部202が出力した指示情報を、原稿ファイルのテキストを提示する提示部以外の領域(例えば外側)に表示する。字幕生成部108は、処理後、ステップS11に処理を戻す。
(ステップS13)字幕生成部108は、音声認識部106の出力に基づいて、読み飛ばしが発生しているか否かを判定する。字幕生成部108は、読み飛ばしが発生していると判定した場合(ステップS13;YES)、ステップS14の処理に進み、読み飛ばしが発生していないと判定した場合(ステップS13;NO)、ステップS15の処理に進める。
(ステップS14)字幕生成部108は、音声認識部106に基づいて、読み飛ばし先を検出し、図5に示したように正しい読み上げ箇所なるようにテキストの表示を変化させる。字幕生成部108は、処理後、ステップS11に処理を戻す。
(ステップS15)字幕生成部108は、操作部110を操作したか否かを検出、またはジェスチャーによって動作指示を行ったか否かの検出、すなわち利用者の操作が検知されたか否かを判定する。字幕生成部108は、利用者の操作が検知されたと判定した場合(ステップS15;YES)、ステップS16に処理を進め、発表者の操作が検知されていないと判定した場合(ステップS15;NO)、ステップS17に処理を進める。
(ステップS16)字幕生成部108は、操作部110が検出した操作結果に基づいて動作指示を検出、またはセンサー111の検出値に基づいて動作指示を検出する。続けて、字幕生成部108は、動作指示に応じた処理を行う。ここで、動作指示は、例えば、表示部109上に表示されるテキストを垂直方向にスクロールする処理、読み飛ばし先の推定が誤っていたり発表を途中からやり直す場合等に強制復帰する処理等である。字幕生成部108は、処理後、ステップS11に処理を戻す。
(ステップS17)字幕生成部108は、音声認識部106に基づいて、発表を終了するフレーズまたはキーワードを検出する。発表を終了するフレーズは、例えば、「それでは発表を終わります。」である。字幕生成部108は、発表を終了するフレーズまたはキーワードを検出したと判定した場合(ステップS17;YES)、講演(発表)が終了したと判定して処理を終了する。字幕生成部108は、発表を終了するフレーズまたはキーワードを検出していないと判定した場合(ステップS17;NO)、ステップS11に処理を戻す。
図7に示した処理手順は一例であり、これに限られない。音声処理装置1は、例えば、ステップS13の処理後またはステップS15の処理後に、ステップS11の処理を行うようにしてもよい。
以上のように、本実施形態では、読み上げが終わった箇所(例えば単語、句、節等)までの表示を知覚できないように変化させるようにした。これにより、本実施形態によれば、利用者に対して予め定められたシナリオを話しやすくするように誘導することができるという効果を得ることができる。また、本実施形態によれば、表示部109が表示する音声認識された結果が反映されたテキストを見ながら発表を行うため、利用者は、聴衆に顔を向けたまま発表を行うことができる。なお、上述した例では、読み終わった箇所までの表示を知覚できないように変化させる例を説明したが、これに限られない。表示の仕方は、読み終わった箇所までの表示を変化させるようにすればよく、色を変化させる、輝度を変化させる、マスクをかける、マスクをかけることで透明度を変化させる等であってもよい。
また、本実施形態によれば、利用者が読み上げている箇所(節等)を音声認識するようにしたので、読み飛ばしがあった場合、利用者が読み飛ばした箇所の表示を知覚できないように変化させるようにした。これにより、利用者は、読み飛ばした先からテキストを読み上げることで、発表をスムーズに継続することができる、この結果、本実施形態によれば、会議等の場におけるプレゼンテーションの効率や効果を上げることができる。
また、本実施形態によれば、利用者は音声で音声処理装置1に対して操作指示を行うことができる。この結果、本実施形態によれば、利用者の操作指示に基づいて所望のコンテンツを再生や一時停止や停止等の処理を行うことができる。すなわち、本実施形態によれば、音声指示によってコンテンツ(原稿ファイル)の選択や、コンテンツ内の章等の項目の選択を行うことができる。また、本実施形態によれば、音声指示に応じて、テキストの表示を開始したり終了したりすることができる。
また、本実施形態によれば、利用者が操作部110を操作し、またはジェスチャーによる操作を行うことで、音声処理装置1に対して操作指示を行うことができる。
また、本実施形態では、シナリオ記憶部107が、原稿ファイルにおいて項目毎にテキストを記憶し、利用者が音声で項目を開始する指示を行ったことを音声認識によって検出するようにした。これにより、本実施形態によれば、利用者の所望するコンテンツ(項目、章等)からテキストの再生することができる。
<第2実施形態>
第1実施形態では、音声処理装置1が、HMD10の全ての構成要素、ヘッドセット20の全ての構成要素を備える例を説明したが、構成要素の一部は、ネットワークを介してサーバー等が備えていてもよい。
図8は、本実施形態に係る音声処理装置1Aの構成を示すブロック図である。なお、音声処理装置1(図1)と同じ機能を有する構成要素には同じ符号を用いる。
図8に示すように音声処理装置1Aは、HMD10A、ヘッドセット20、および音声認識装置30を備える。HMD10Aと音声認識装置30は、ネットワーク50を介して接続される。ネットワーク50は、電話通信回線、インターネット回線、無線回線、有線回線等のネットワークである。
HMD10Aは、音声信号取得部101、シナリオ記憶部107、字幕生成部108、表示部109、操作部110、センサー111、送信部112、および受信部113を備える。
音声認識装置30は、音源分離部102、特徴量算出部103、モデル記憶部104、キーワード記憶部105、音声認識部106、受信部301、および送信部302を備える。
HMD10Aは、ヘッドセット20が収音した音響信号を取得し、取得した音響信号を送信部112とネットワーク50を介して、音声認識装置30へ送信する。HMD10Aは、自部が記憶するシナリオのテキストファイルを表示部109に表示することで利用者に提示する。HMD10Aは、音声認識装置30が認識した結果を、ネットワーク50と受信部113を介して受信する。HMD10Aは、音声認識装置30が音声認識した結果に基づいて、利用者が読み終わった箇所(節、文章等)を知覚できないようにする。HMD10Aは、音声認識装置30が音声認識した結果に基づいて、シナリオの読み飛ばしが発生したか否かを検出し、読み飛ばしが発生したとき、読み飛ばされた先の位置(節等)を検出して、その位置からテキストの表示を行う。HMD10Aは、利用者の操作を検出し、検出した結果に応じて、テキストの表示を開始、一時停止、停止、項目毎の表示の開始等を行う。
音声信号取得部101は、生成した周波数領域信号を送信部112に出力する。
送信部112は、音声信号取得部101が出力する周波数領域の音響信号を、ネットワーク50を介して、音声認識装置30へ送信する。
受信部113は、音声認識装置30がネットワーク50を介して送信したテキストデータまたは動作指示を受信し、受信したテキストデータまたは動作指示を字幕生成部108に出力する。
音声認識装置30は、例えばサーバーである。音声認識装置30は、HMD10Aが送信した周波数領域の音響信号を、ネットワーク50を介して受信し、受信した音響信号に対して音声認識処理を行う。音声認識装置30は、認識した結果を、ネットワーク50を介してHMD10Aへ送信する。
受信部301は、HMD10Aが送信した周波数領域の音響信号を、ネットワーク50を介して受信し、受信した周波数領域の音響信号を音源分離部102へ出力する。
音声認識部106は、認識した結果にキーワードが含まれていると判定した場合、そのキーワードに対応する動作指示を送信部302に出力する。音声認識部106は、認識した結果にキーワードが含まれていないと判定した場合、生成したテキストデータを、例えば節毎に送信部302へ出力する。
送信部302は、音声認識部106が出力したテキストデータまたは動作指示を、ネットワーク50を介してHMD10Aへ送信する。
なお、図8に示した例では、音声認識装置30が、音源分離部102、特徴量算出部103、モデル記憶部104、キーワード記憶部105、および音声認識部106を備える例を示したが、これに限られない。音声認識装置30は、音源分離部102、特徴量算出部103、モデル記憶部104、キーワード記憶部105、および音声認識部106のうち少なくとも1つを備え、他の構成要素をHMD10Aが備えるようにしてもよい。
本実施形態においても、第1実施形態で説明した音声処理装置1と同様の効果を得ることができる。
なお、第1実施形態または第2実施形態で説明した音声処理装置1(または1A)の機能の全てまたは一部を、ウェアブル端末、スマートフォン等の携帯端末が備えていてもよい。例えば、スマートフォンが、音声信号取得部101、字幕生成部108、操作部110、センサー111、送信部112、受信部113、収音部201、受信部202、および再生部203を備えていてもよい。この場合、再生部203は、スマートフォンに有線または無線で接続されるヘッドホンやイヤホンであってもよい。また、スマートフォンは、生成した字幕データを有線または無線で、表示部109を備えるHMDへ送信するようにしてもよい。あるいは、表示部109もスマートフォンが備えていてもよい。
なお、本発明における音声処理装置1(または1A)の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音声認識処理や字幕データの生成処理、読み飛ばし判定等を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバーやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
1,1A…音声処理装置、10,10A…HMD、20…ヘッドセット、30…音声認識装置、50…ネットワーク、101…音声信号取得部、102…音源分離部、103…特徴量算出部、104…モデル記憶部、105…キーワード記憶部、106…音声認識部、107…シナリオ記憶部、108…字幕生成部、109…表示部、110…操作部、111…センサー、112…送信部、113…受信部、201…収音部、202…受信部、203…再生部、301…受信部、302送信部

Claims (6)

  1. シナリオをテキスト情報として記憶するシナリオ記憶部と、
    話者が発話する音声を収音する収音部と、
    前記収音部が収音した前記音声に対して音声認識する音声認識部と、
    前記シナリオ記憶部から前記テキスト情報を読み出して字幕を生成し、前記音声認識部が音声認識した結果に基づいて、前記字幕の文字列のうち、話者が既に発話した部分の表示を知覚できないように変化させ、前記音声認識部での音声認識した結果に基づいて、前記字幕のうち前記話者による読み飛ばしが発生したか否かを検出し、前記字幕のうち前記話者による読み飛ばしがあった場合に、該当する箇所までの部分の表示を知覚できないように変化させる字幕生成部と、
    を備え、
    前記シナリオは、予め複数の項目で構成されており、
    動作指示を行うキーワードを、動作指示に対応付けて記憶する記憶部、を備え、
    前記音声認識部は、
    前記記憶部が記憶する前記キーワードを探索して、認識した結果に前記キーワードが含まれているか否かを判別し、認識した結果に前記キーワードが含まれていると判別した場合に前記キーワードに対応付けられている前記動作指示を前記字幕生成部に出力し、
    前記字幕生成部は、
    前記音声認識部が出力する前記キーワードに対応付けられている前記動作指示に応じて、前記テキスト情報における前記動作指示により指定された前記項目の字幕を表示させ、前記テキスト情報における前記キーワードに対応する前記項目が無い場合に、前記項目が無いことを示す情報を表示させる、
    音声処理装置。
  2. 前記音声認識部は、音声認識した音声から動作指示を取得し、
    前記字幕生成部は、前記動作指示に基づいて字幕の再生、一時停止、および終了のうち少なくとも1つを行う、請求項1に記載の音声処理装置。
  3. 外部からの指示情報を取得する受信部、を備え、
    前記字幕生成部は、前記受信部が取得した前記指示情報を、前記字幕を表示する領域外に表示する、請求項1または請求項2に記載の音声処理装置。
  4. シナリオをテキスト情報として記憶するシナリオ記憶部と、
    動作指示を行うキーワードを、動作指示に対応付けて記憶する記憶部と、
    話者が発話する音声を収音する収音部と、
    前記収音部が収音した前記音声に対して音声認識する音声認識部と、
    前記テキスト情報を表示する表示部と、
    前記シナリオ記憶部から前記テキスト情報を読み出して字幕を生成し、前記音声認識部が音声認識した結果に基づいて、字幕の文字列のうち、話者が既に発話した部分の表示を知覚できないように変化させて前記表示部に表示し、前記音声認識部での音声認識した結果に基づいて、前記字幕のうち前記話者による読み飛ばしが発生したか否かを検出し、前記字幕のうち前記話者による読み飛ばしがあった場合に、該当する箇所までの部分の表示を知覚できないように変化させて前記表示部に表示する字幕生成部と、
    を備え、
    前記シナリオは、予め複数の項目で構成されており、
    前記音声認識部は、
    前記記憶部が記憶する前記キーワードを探索して、認識した結果に前記キーワードが含まれているか否かを判別し、認識した結果に前記キーワードが含まれていると判別した場合に前記キーワードに対応付けられている前記動作指示を前記字幕生成部に出力し、
    前記字幕生成部は、
    前記音声認識部が出力する前記キーワードに対応付けられている前記動作指示に応じて、前記テキスト情報における前記動作指示により指定された前記項目の字幕を表示させ、前記テキスト情報における前記キーワードに対応する前記項目が無い場合に、前記項目が無いことを示す情報を表示させる、
    ウェアラブル端末。
  5. シナリオをテキスト情報として記憶するシナリオ記憶部と、
    動作指示を行うキーワードを、動作指示に対応付けて記憶する記憶部と、
    話者が発話する音声を収音する収音部と、
    前記収音部が収音した前記音声に対して音声認識する音声認識部と、
    前記テキスト情報を表示する表示部と、
    前記シナリオ記憶部から前記テキスト情報を読み出して字幕を生成し、前記音声認識部が音声認識した結果に基づいて、字幕の文字列のうち、話者が既に発話した部分の表示を知覚できないように変化させて前記表示部に表示し、前記音声認識部での音声認識した結果に基づいて、前記字幕のうち前記話者による読み飛ばしが発生したか否かを検出し、前記字幕のうち前記話者による読み飛ばしがあった場合に、該当する箇所までの部分の表示を知覚できないように変化させて前記表示部に表示する字幕生成部と、
    を備え、
    前記シナリオは、予め複数の項目で構成されており、
    前記音声認識部は、
    前記記憶部が記憶する前記キーワードを探索して、認識した結果に前記キーワードが含まれているか否かを判別し、認識した結果に前記キーワードが含まれていると判別した場合に前記キーワードに対応付けられている前記動作指示を前記字幕生成部に出力し、
    前記字幕生成部は、
    前記音声認識部が出力する前記キーワードに対応付けられている前記動作指示に応じて、前記テキスト情報における前記動作指示により指定された前記項目の字幕を表示させ、前記テキスト情報における前記キーワードに対応する前記項目が無い場合に、前記項目が無いことを示す情報を表示させる、
    携帯端末。
  6. 予め複数の項目で構成されているシナリオをテキスト情報として記憶するシナリオ記憶部と、動作指示を行うキーワードを、動作指示に対応付けて記憶する記憶部とを有する音声処理装置における音声処理方法であって、
    収音部が、話者が発話する音声を収音する収音手順と、
    音声認識部が、前記収音手順によって収音された前記音声に対して音声認識し、
    前記記憶部が記憶する前記キーワードを探索して、認識した結果に前記キーワードが含まれているか否かを判別し、認識した結果に前記キーワードが含まれていると判別した場合に前記キーワードに対応付けられている前記動作指示を字幕生成部に出力し、音声認識手順と、
    前記字幕生成部が、前記シナリオ記憶部から前記テキスト情報を読み出して字幕を生成し、前記音声認識手順によって音声認識した結果に基づいて、前記字幕の文字列のうち、話者が既に発話した部分の表示を知覚できないように変化させ、前記音声認識手順によって音声認識した結果に基づいて、前記字幕のうち前記話者による読み飛ばしが発生したか否かを検出し、前記字幕のうち前記話者による読み飛ばしがあった場合に、該当する箇所までの部分の表示を知覚できないように変化させ、記音声認識部が出力する前記キーワードに対応付けられている前記動作指示に応じて、前記テキスト情報における前記動作指示により指定された前記項目の字幕を表示させ、前記テキスト情報における前記キーワードに対応する前記項目が無い場合に、前記項目が無いことを示す情報を表示させる字幕生成手順と、
    を含む音声処理方法。
JP2016203690A 2016-10-17 2016-10-17 音声処理装置、ウェアラブル端末、携帯端末、および音声処理方法 Active JP6696878B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016203690A JP6696878B2 (ja) 2016-10-17 2016-10-17 音声処理装置、ウェアラブル端末、携帯端末、および音声処理方法
US15/645,010 US20180108356A1 (en) 2016-10-17 2017-07-10 Voice processing apparatus, wearable apparatus, mobile terminal, and voice processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016203690A JP6696878B2 (ja) 2016-10-17 2016-10-17 音声処理装置、ウェアラブル端末、携帯端末、および音声処理方法

Publications (2)

Publication Number Publication Date
JP2018067050A JP2018067050A (ja) 2018-04-26
JP6696878B2 true JP6696878B2 (ja) 2020-05-20

Family

ID=61902330

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016203690A Active JP6696878B2 (ja) 2016-10-17 2016-10-17 音声処理装置、ウェアラブル端末、携帯端末、および音声処理方法

Country Status (2)

Country Link
US (1) US20180108356A1 (ja)
JP (1) JP6696878B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109257659A (zh) * 2018-11-16 2019-01-22 北京微播视界科技有限公司 字幕添加方法、装置、电子设备及计算机可读存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6272461B1 (en) * 1999-03-22 2001-08-07 Siemens Information And Communication Networks, Inc. Method and apparatus for an enhanced presentation aid
JP4710331B2 (ja) * 2005-01-27 2011-06-29 ソニー株式会社 プレゼンテーション用アプリケーションをリモートコントロールするための装置,方法,プログラム及び記録媒体
JP2009271814A (ja) * 2008-05-09 2009-11-19 Seiko Epson Corp 表示装置、および、表示装置における表示方法
JP2011253225A (ja) * 2010-05-31 2011-12-15 Konica Minolta Business Technologies Inc プレゼンテーション支援システム、プレゼンテーション支援方法、およびコンピュータプログラム。
AU2011204946C1 (en) * 2011-07-22 2012-07-26 Microsoft Technology Licensing, Llc Automatic text scrolling on a head-mounted display
US9031493B2 (en) * 2011-11-18 2015-05-12 Google Inc. Custom narration of electronic books
US8731905B1 (en) * 2012-02-22 2014-05-20 Quillsoft Ltd. System and method for enhancing comprehension and readability of text
US10431116B2 (en) * 2015-12-10 2019-10-01 International Business Machines Corporation Orator effectiveness through real-time feedback system with automatic detection of human behavioral and emotional states of orator and audience

Also Published As

Publication number Publication date
US20180108356A1 (en) 2018-04-19
JP2018067050A (ja) 2018-04-26

Similar Documents

Publication Publication Date Title
JP6463825B2 (ja) 多重話者音声認識修正システム
KR101826714B1 (ko) 말하기 학습 기능을 구비한 외국어 학습 시스템 및 외국어 학습 방법
US20160055850A1 (en) Information processing device, information processing system, information processing method, and information processing program
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP6172417B1 (ja) 語学学習システム及び語学学習プログラム
US20180288109A1 (en) Conference support system, conference support method, program for conference support apparatus, and program for terminal
JP2023007405A (ja) 音声変換装置、音声変換方法、プログラム、および記録媒体
Shahriar et al. A communication platform between bangla and sign language
WO2020079918A1 (ja) 情報処理装置及び情報処理方法
US8553855B2 (en) Conference support apparatus and conference support method
JP2015041101A (ja) スマートメガネを用いた外国語学習システム及びその方法
JP6696878B2 (ja) 音声処理装置、ウェアラブル端末、携帯端末、および音声処理方法
WO2016157678A1 (ja) 情報処理装置、情報処理方法及びプログラム
JP6172770B2 (ja) 要約筆記支援システム、情報配信装置、要約筆記支援方法、及びプログラム
JP2021117371A (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP6889597B2 (ja) ロボット
KR20170051759A (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2015187738A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2016009133A (ja) 言語リハビリテーション支援装置及びその制御方法
WO2021255831A1 (ja) 送信装置、コミュニケーション方法、及びプログラム
JP5242856B1 (ja) 音楽再生プログラム及び音楽再生システム
KR20170090956A (ko) 청각 장애인을 위한 알림 시스템
JP6169526B2 (ja) 特定音声抑圧装置、特定音声抑圧方法及びプログラム
KR20230018641A (ko) 음성 처리 장치를 포함하는 다중 그룹 수업 시스템

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181005

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190702

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200326

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200414

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200423

R150 Certificate of patent or registration of utility model

Ref document number: 6696878

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150