JP2016194877A - Explanation support device, explanation support method, and explanation support program - Google Patents
Explanation support device, explanation support method, and explanation support program Download PDFInfo
- Publication number
- JP2016194877A JP2016194877A JP2015075475A JP2015075475A JP2016194877A JP 2016194877 A JP2016194877 A JP 2016194877A JP 2015075475 A JP2015075475 A JP 2015075475A JP 2015075475 A JP2015075475 A JP 2015075475A JP 2016194877 A JP2016194877 A JP 2016194877A
- Authority
- JP
- Japan
- Prior art keywords
- explanation
- state
- line
- unit
- sight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 37
- 238000001514 detection method Methods 0.000 claims abstract description 78
- 230000008569 process Effects 0.000 claims description 25
- 230000000007 visual effect Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 description 34
- 238000010586 diagram Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 210000005252 bulbus oculi Anatomy 0.000 description 3
- 210000001508 eye Anatomy 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 239000003990 capacitor Substances 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 210000001747 pupil Anatomy 0.000 description 2
- 238000001028 reflection method Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012946 outsourcing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Position Input By Displaying (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【課題】説明箇所の推定精度の低下を抑制すること。【解決手段】説明支援装置10は、表示部5に対する視線検出を実行し、音声認識を実行し、表示部5に表示された文書のページのうち音声認識の結果に対応する説明箇所を判定し、音声認識に対応する説明箇所と視線検出に対応する説明箇所とが一致する第1の状態、音声認識に対応する説明箇所と視線検出に対応する説明箇所とが一致しない第2の状態または視線検出による視線の位置が表示部5の画面内に検出されない第3の状態のうちいずれの説明状態であるのかを判定し、判定された説明状態に基づいて強調表示を実行する説明箇所を推定する。【選択図】図1An object of the present invention is to suppress a decrease in the estimation accuracy of an explanation location. An explanation support apparatus performs line-of-sight detection on a display unit, performs voice recognition, and determines an explanation portion corresponding to a result of voice recognition among pages of a document displayed on the display unit. The first state where the explanation location corresponding to the speech recognition and the explanation location corresponding to the line of sight detection match, the second state or the line of sight where the explanation location corresponding to the speech recognition and the description location corresponding to the line of sight detection do not match It is determined which of the third states in which the position of the line of sight by detection is not detected in the screen of the display unit 5, and an explanation location for performing highlighting is estimated based on the determined explanation state. . [Selection] Figure 1
Description
本発明は、説明支援装置、説明支援方法及び説明支援プログラムに関する。 The present invention relates to an explanation support apparatus, an explanation support method, and an explanation support program.
遠隔会議やプレゼンテーションにおける説明において、レーザーポインタやマウスカーソルなどのポインティングデバイスが使われてきた。このようなポインティングデバイスをプレゼンタ等の説明者に操作させる場合、説明以外に労力が割かれることになる。このことから、音声認識を活用して、プレゼンタが説明中である箇所をプレゼンタや聴講者に提示する技術も提案されている。 Pointing devices such as laser pointers and mouse cursors have been used in remote conferences and presentations. When such a pointing device is operated by a presenter such as a presenter, labor is devoted to other than the explanation. For this reason, a technique has also been proposed in which speech presenting is used to present to the presenter or the audience the location that the presenter is explaining.
ところが、説明箇所を提示するレスポンスを高めるためには、十分な数の単語が認識されていない場合でも、音声認識の結果と説明箇所との対応付けを行わねばならない場合があるが、音声認識には、その精度に自ずから限界がある。それ故、音声認識の結果に誤りが含まれると、説明箇所が正しく推定されない場合がある。 However, in order to increase the response to present the explanation location, it may be necessary to associate the speech recognition result with the explanation location even when a sufficient number of words are not recognized. Are inherently limited in their accuracy. Therefore, if an error is included in the result of speech recognition, the explanation location may not be estimated correctly.
このことから、説明箇所の推定精度が低下するのを抑制するために、音声認識と視線検出を併用することが考えられる。例えば、音声認識の結果から推定される説明箇所と視線検出の結果から推定される説明箇所が一致する場合に、当該説明箇所を強調表示することが考えられる。 For this reason, it is conceivable to use both speech recognition and line-of-sight detection in order to suppress a decrease in the estimation accuracy of the explanation location. For example, when the explanation location estimated from the speech recognition result matches the explanation location estimated from the line-of-sight detection result, the explanation location may be highlighted.
しかしながら、音声認識と視線検出を併用する場合にも、説明箇所の推定精度が低下するのを抑制できない場合がある。なぜなら、説明者は、必ずしも説明する箇所を注視しながら読み上げるとは限らないからである。 However, even when voice recognition and line-of-sight detection are used together, it may not be possible to suppress a decrease in the estimation accuracy of the explanation location. This is because the presenter does not always read out while watching the portion to be explained.
例えば、説明者が次に説明する箇所を目視により先行して確認しながら、それよりも前の箇所を読み上げて説明する場合もある。このような場合、音声認識の結果から推定される説明箇所と視線検出の結果から推定される説明箇所が一致する状態から一致しない状態に変わった場合、依然として説明が継続されているにもかかわらず、誤って説明箇所の強調表示が解除される。 For example, there may be a case where the presenter reads and explains the previous part while visually confirming the part to be described next in advance. In such a case, when the explanation location estimated from the result of speech recognition and the explanation location estimated from the result of line-of-sight detection change from a matching state to a mismatching state, the explanation is still continued. The highlighting of the explanation part is canceled by mistake.
また、音声認識の結果から推定される説明箇所と視線検出の結果から推定される説明箇所が一致しない状態で、先行的に動いた視線の先に、現在の説明箇所と同じ単語が偶然に存在する場合に、現在の説明箇所の説明が継続されているにもかかわらず、先行的に動いた視線の先を誤って説明箇所として強調表示されてしまう場合がある。 In addition, when the explanation location estimated from the result of speech recognition does not match the explanation location estimated from the result of eye gaze detection, the same word as the current explanation location accidentally exists ahead of the line of sight that moved in advance. In this case, there is a case where the point of the line of sight that has moved in advance is erroneously highlighted as the explanation part, even though the explanation of the current explanation part is continued.
1つの側面では、本発明は、説明箇所の推定精度の低下を抑制できる説明支援装置、説明支援方法及び説明支援プログラムを提供することを目的とする。 In one aspect, an object of the present invention is to provide an explanation support device, an explanation support method, and an explanation support program that can suppress a decrease in estimation accuracy of an explanation location.
一態様の説明支援装置は、所定の表示部に対する視線検出を実行する視線検出部と、音声認識を実行する音声認識部と、前記表示部に表示された文書のページのうち前記音声認識の結果に対応する説明箇所を判定する認識結果判定部と、前記音声認識に対応する説明箇所と前記視線検出に対応する説明箇所とが一致する第1の状態、前記音声認識に対応する説明箇所と前記視線検出に対応する説明箇所とが一致しない第2の状態または前記視線検出による視線の位置が前記表示部の画面内に検出されない第3の状態のうちいずれの説明状態であるのかを判定する説明状態判定部と、判定された説明状態に基づいて強調表示を実行する説明箇所を推定する推定部とを有する。 An explanation support apparatus according to an aspect includes a line-of-sight detection unit that performs line-of-sight detection on a predetermined display unit, a voice recognition unit that executes voice recognition, and a result of the voice recognition among document pages displayed on the display unit A recognition result determination unit for determining an explanation location corresponding to the first state where the explanation location corresponding to the speech recognition and the explanation location corresponding to the line-of-sight detection match, the explanation location corresponding to the speech recognition, and the Explanation for determining which explanation state is in a second state where the explanation location corresponding to the gaze detection does not match or a third state where the position of the gaze by the gaze detection is not detected in the screen of the display unit It has a state determination part and an estimation part which estimates the description location which performs highlighting based on the determined description state.
説明箇所の推定精度の低下を抑制できる。 It is possible to suppress a decrease in estimation accuracy of the explanation location.
以下に添付図面を参照して本願に係る説明支援装置、説明支援方法及び説明支援プログラムについて説明する。なお、この実施例は開示の技術を限定するものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。 Hereinafter, an explanation support apparatus, an explanation support method, and an explanation support program according to the present application will be described with reference to the accompanying drawings. Note that this embodiment does not limit the disclosed technology. Each embodiment can be appropriately combined within a range in which processing contents are not contradictory.
図1は、実施例1に係る説明支援装置の機能的構成を示す図である。図1に示す説明支援装置10は、音声認識と視線検出を併用することにより、文書に含まれるページのうち表示部5に表示されたページ内の説明箇所の強調表示を行う説明支援サービスを提供するものである。 FIG. 1 is a diagram illustrating a functional configuration of the explanation support apparatus according to the first embodiment. The explanation support apparatus 10 shown in FIG. 1 provides an explanation support service that highlights explanation parts in a page displayed on the display unit 5 among pages included in a document by using both voice recognition and line-of-sight detection. To do.
この説明支援装置10には、図1に示す通り、カメラ1と、マイク3と、表示部5とが接続される。なお、以下では、一例として、プレゼンタ及び聴講者がプレゼンテーションソフトにより作成されたスライドが表示された表示部5を閲覧することにより文書が共有される場合を例示するが、電話会議システム等により互いのコンピュータが同一の文書を表示することにより文書が共有される場合にもその適用範囲が及ぶのは言うまでもない。
As illustrated in FIG. 1, a camera 1, a
カメラ1は、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子を搭載する撮像装置である。 The camera 1 is an imaging device that includes an imaging device such as a charge coupled device (CCD) or a complementary metal oxide semiconductor (CMOS).
例えば、カメラ1は、表示部5のスクリーンと共に、プレゼンタと正対する位置に配置される。このカメラ1は、一例として、プレゼンタの顔がカメラ1の画角に含まれるように、表示部5のスクリーン及びプレゼンタとの間で互いの位置がキャリブレーションされた位置に配置することにより、プレゼンタの視線検出に用いることができる。このような配置によって、カメラ1は、カメラ1の近傍に配置された図示しない光源を制御することによって被写体に赤外線を照射させ、被写体からの反射光を受光した上でデジタル信号に変換された被写体の画像を視線検出部11へ出力する。このとき、被写体にプレゼンタの眼球が含まれる場合には、網膜上の光の反射がカメラ1によって捉えられ、眼球の瞳孔部分が他の部分よりも明るく写った画像を視線検出部11へ出力できる。
For example, the camera 1 is disposed at a position facing the presenter together with the screen of the display unit 5. As an example, the camera 1 is arranged so that the presenter's face is included in the angle of view of the camera 1 by arranging the positions of the presenter and the presenter at positions calibrated between the screen and the presenter. Can be used for detecting the line of sight. With such an arrangement, the camera 1 controls a light source (not shown) arranged in the vicinity of the camera 1 to irradiate the subject with infrared rays, receives reflected light from the subject, and then converts the subject into a digital signal. Are output to the line-of-
マイク3は、音声を電気信号に変換する装置であり、マイクロフォンと呼ばれることもある。例えば、マイク3は、プレゼンテーションを実施するプレゼンタに装着させることができる。この場合、ヘッドセット型やタイピン型のマイクをプレゼンタの身体や衣服の所定位置に装着させたり、ハンド型のマイクをプレゼンタに携帯させたりすることができる。また、マイク3は、プレゼンタの発話が集音できる範囲の所定位置に設置することもできる。この場合、マイク3には、取付け型や据置き型のマイクを採用することもできる。これらいずれの場合においても、マイク3には、任意のタイプの指向性を持つマイクを採用できるが、プレゼンタの発話以外の音声、例えば聴講者等の発話や騒音などの雑音が集音されるのを抑制するために、マイクの感度をプレゼンタの発声方向に限定することもできる。なお、マイク3には、ダイナミック型、エレクトレットコンデンサ型、コンデンサ型などの任意の変換方式を採用することができる。
The
このマイク3に音声を採取することにより得られたアナログ信号は、デジタル信号へ変換された上で説明支援装置10へ入力される。
The analog signal obtained by collecting the sound in the
表示部5は、各種の情報を表示する装置である。例えば、表示部5には、発光により表示を実現する液晶ディスプレイや有機EL(electroluminescence)ディスプレイなどを採用することもできるし、投影により表示を実現するプロジェクタを採用することもできる。 The display unit 5 is a device that displays various types of information. For example, the display unit 5 may be a liquid crystal display or an organic EL (electroluminescence) display that realizes display by light emission, or a projector that realizes display by projection.
例えば、表示部5は、説明支援装置10からの指示にしたがってプレゼンテーション画面を表示する。具体的には、表示部5は、説明支援装置10上で動作するプレゼンテーションソフトが開く文書のスライドを表示する。この場合、表示部5は、文書が含むスライドのうちプレゼンタが図示しない入力デバイス、例えばレーザーポインタやマウスカーソルなどのポインティングデバイスを介して指定する任意のスライドを表示させることもできるし、プレゼンテーションソフトが有するスライドショーの機能がON状態に設定された場合、各スライドが作成されたページ順に文書ファイルが含むスライドを切り替えて表示させることもできる。 For example, the display unit 5 displays a presentation screen according to an instruction from the explanation support apparatus 10. Specifically, the display unit 5 displays a slide of a document opened by presentation software that operates on the explanation support apparatus 10. In this case, the display unit 5 can display any slide specified by the presenter via a pointing device such as a laser pointer or a mouse cursor, which is not shown by the presenter, among slides included in the document. When the slide show function is set to ON, the slides included in the document file can be switched and displayed in the order in which the slides are created.
図1に示すように、説明支援装置10は、視線検出部11と、視線判定部12と、音声認識部13と、文書取得部14と、認識結果判定部15と、説明状態判定部16と、履歴記憶部16aと、説明箇所推定部17と、強調表示制御部18とを有する。なお、説明支援装置10は、図1に示した機能部以外にも既知のコンピュータが有する各種の機能部、例えば各種の入出力デバイスや音声出力デバイスなどの機能部を有することとしてもかまわない。
As illustrated in FIG. 1, the explanation support device 10 includes a
視線検出部11は、視線検出を実行する処理部である。
The line-of-
一実施形態として、視線検出部11は、カメラ1から出力された被写体の画像に角膜反射法などのアルゴリズムを適用し、眼球の瞳孔の中心位置から視線の方向が指す視点の位置、いわゆる注視点を検出する。このように角膜反射法を用いて視線の位置を検出する以外にも、他の方法を用いて視線の位置を検出することもできる。例えば、表示部5の画面を分割し、分割した領域を見る眼の形状を学習しておき、カメラ1から入力される被写体の画像から検出した眼の形状とテンプレートマッチングを実行することによって視線検出を行うこともできる。また、利用者に視線の位置を検出するヘッドセットを装着させ、ヘッドセットによって検出された視線の位置を取得することとしてもかまわない。
As one embodiment, the line-of-
このように視線検出が行われた結果、表示部5のスクリーンの内または外に位置する注視点の座標データが視線検出部11から停留点検出部12aへ出力されることになる。
As a result of the line-of-sight detection, coordinate data of the gazing point located inside or outside the screen of the display unit 5 is output from the line-of-
視線判定部12は、視線検出部11による視線検出の結果を用いて、視線の状態を判定する処理部である。図1に示す通り、視線判定部12は、停留点検出部12aと、画面内判定部12bとを有する。
The line-of-
停留点検出部12aは、視線検出部11による視線検出の結果から停留点を検出する処理部である。
The stop
一実施形態として、停留点検出部12aは、視線検出部11により検出される注視点が所定の期間、例えば30msec〜300msecにわたって所定の範囲内に停留しているか否かを監視する。そして、停留点検出部12aは、注視点が所定の期間にわたって所定の範囲内に停留している場合、当該期間にわたって検出された注視点の座標データに所定の統計処理、例えば平均処理を行うことにより、注視点の座標データの代表値を算出する。このようにして得られた注視点の座標データの代表値が停留点として画面内判定部12bへ出力される。
As one embodiment, the stop
画面内判定部12bは、注視点または停留点が表示部5のスクリーンの内部に存在するか否かを判定する処理部である。
The in-
一実施形態として、画面内判定部12bは、停留点検出部12aにより停留点が検出された場合、当該停留点が表示部5のスクリーンの内部に対応する座標の範囲内に存在するか否かを判定する。その後、画面内判定部12bは、停留点の座標データと共に、停留点が表示部5のスクリーンの内部または外部のいずれに存在するのかを示す判定結果を説明状態判定部16へ出力する。
As one embodiment, when the stop point is detected by the stop
音声認識部13は、音声認識を実行する処理部である。
The
一実施形態として、音声認識部13は、プレゼンテーションソフトが文書を開いた状態でプレゼンテーションの開始指示を受け付けた場合に起動し、マイク3から所定時間長の音声信号が入力されるまで待機する。例えば、少なくとも1フレーム分の時間長、例えば10msecの音声信号が入力されるのを待機する。そして、音声認識部13は、マイク3から所定時間長の音声信号が入力される度に、図示しない認識辞書を参照して、当該音声信号にワードスポッティングなどの音声認識を実行する。その後、音声認識部13は、音声認識の結果として得られた単語を始め、その単語が認識された時刻などの情報を対応付け部15bへ出力する。
As an embodiment, the
文書取得部14は、プレゼンテーションに用いられる文書を取得する処理部である。
The
一実施形態として、文書取得部14は、プレゼンテーションの開始指示を受け付けた場合に、プレゼンテーションソフトを始めとするアプリケーションプログラムにより表示部5に表示される文書を取得する。例えば、文書取得部14は、プレゼンテーションソフトを始め、ワープロソフト、表計算ソフトや画像編集ソフトなどの任意のアプリケーションプログラムによりメモリ上に展開される文書を取得できる。
As one embodiment, when receiving a presentation start instruction, the
認識結果判定部15は、表示部5に表示中のスライドのうち音声認識の結果に対応する説明箇所を判定する処理部である。図1に示す通り、認識結果判定部15は、説明単位抽出部15aと、対応付け部15bとを有する。
The recognition
説明単位抽出部15aは、文書に含まれるスライドを分割することにより得られた区間を説明単位として抽出する処理部である。
The explanation
一実施形態として、説明単位抽出部15aは、文書取得部14により取得された文書に含まれる各スライドを当該スライドが含むインデント情報などを用いて段落、行や一文などの単位で分割する。例えば、説明単位抽出部15aは、スライドが含む文字列を走査して、スペース、句点または改行に対応する区切り文字を検出し、当該区切り文字を境界に設定する。かかる境界を前後に、説明単位抽出部15aは、スライドが含む文字列を区切る。これによって、スライドが複数の区間へ区切り文字ごとに分割される。このようにしてスライドが複数の区間へ分割された後に、説明単位抽出部15aは、区間ごとに当該区間がスライド上で形成する座標の範囲、例えば区間の左上及び右下の頂点の座標と当該区間に含まれる単語とを説明単位として対応付け部15bへ出力する。なお、ここでは、スライドを自動的に分割する場合を例示したが、入力デバイス等を介して区間の境界を指定させることによってスライドを手動設定で分割することとしてもかまわない。
As an embodiment, the explanation
対応付け部15bは、音声認識の結果と文書中の説明箇所との対応付けを行う処理部である。
The associating
一実施形態として、対応付け部15bは、音声認識部13により認識される単語と、説明単位抽出部15aにより抽出された説明単位のうち表示部5に表示中のスライド内の説明単位に含まれる単語とを比較する。その上で、対応付け部15bは、音声認識部13により認識される単語と一致する単語が最も多く含まれる説明単位を、音声認識に対応する説明箇所として説明状態判定部16へ出力する。
As an embodiment, the
説明状態判定部16は、視線判定部12による判定結果及び認識結果判定部15による判定結果に基づいて、音声認識に対応する説明箇所と視線検出に対応する説明箇所とが一致する一致状態、これらの説明箇所が一致しない不一致状態または視線が画面内に検出されない非目視状態のうちいずれの状態に説明状態が該当するのかを判定する処理部である。
Based on the determination result by the line-of-
一実施形態として、説明状態判定部16は、画面内判定部12bにより停留点が表示部5のスクリーンの外部に存在すると判定された場合、説明状態が「非目視状態」であると判定する。一方、説明状態判定部16は、画面内判定部12bにより停留点が表示部5のスクリーンの内部に存在すると判定された場合、停留点検出部12aにより検出された停留点の座標位置が対応付け部15bにより音声認識の結果と対応付けられた説明単位の座標範囲内にあるか否かを判定する。このとき、説明状態判定部16は、説明単位よりもサイズが大きく、かつ説明単位の座標範囲を包含する許容座標範囲を設定し、当該許容座標範囲内に停留点検出部12aにより検出された停留点の座標位置が存在するか否かを判定することにより、視線の誤差を吸収することができる。このように許容座標範囲を設定する場合、説明単位の座標範囲の幅方向及び高さ方向の両方を拡張することとしてもよいし、いずれか一方を拡張することとしてもかまわない。そして、説明状態判定部16は、停留点の座標位置が上記の許容座標範囲内に存在する場合に説明状態が「一致状態」であると判定する一方で、停留点の座標位置が上記の許容座標範囲外に存在する場合に説明状態が「不一致状態」であると判定する。その後、説明状態判定部16は、判定結果として得られた説明状態を履歴記憶部16a及び説明箇所推定部17へ出力する。これによって、履歴記憶部16aには、説明状態が判定される度に説明状態の履歴が記憶されることになる。
As one embodiment, the explanatory
説明箇所推定部17は、説明状態判定部16により判定された説明状態に基づいて説明箇所を推定する処理部である。
The explanation location estimation unit 17 is a processing unit that estimates the explanation location based on the explanation state determined by the explanation
図2は、説明状態の一例を示す図である。図2に示すように、説明状態は、「一致状態」、「不一致状態」及び「非目視状態」の間を遷移する。これら「一致状態」、「不一致状態」及び「非目視状態」は、コンピュータが音声認識の結果および視線検出の結果から推定できる状態であるが、現実の状況とは次のように対応する。 FIG. 2 is a diagram illustrating an example of an explanation state. As shown in FIG. 2, the explanation state transitions between “matching state”, “mismatching state”, and “non-viewing state”. These “coincidence state”, “non-coincidence state”, and “non-viewing state” are states that the computer can estimate from the result of speech recognition and the result of line-of-sight detection, and correspond to the actual situation as follows.
すなわち、「一致状態」は、現在の説明箇所を目で追いながら音声で説明している同期状態に対応する一方で、「不一致状態」は、音声は現在の説明箇所を説明しながら、視線は次の説明箇所を確認するために現在の説明箇所にはない非同期状態に対応すると推定できる。また、「非目視状態」は、資料は見ずに、聴衆に向いて説明している状態に対応する。ただし、「一致状態」には、上記の非同期状態でたまたま、視線の先に現在の説明箇所に含まれる言葉と同じ言葉が含まれる場合、非同期状態でも、一時的に同期状態と推定されるケースが含まれる。また、「不一致状態」には、上記の同期状態に、音声誤認識が生じると一時的に非同期状態と推定されるケースが含まれる。 That is, the “matching state” corresponds to the synchronization state explained by voice while following the current explanation part, while the “mismatching state” means that the voice explains the current explanation part and the line of sight is In order to confirm the next explanation part, it can be estimated that it corresponds to the asynchronous state which is not in the present explanation part. The “non-viewing state” corresponds to a state that is explained to the audience without looking at the material. However, if the “matching state” happens to be in the asynchronous state as described above, and the same words as the words included in the current explanation part are included at the end of the line of sight, the asynchronous state is temporarily estimated even in the asynchronous state. Is included. In addition, the “mismatch state” includes a case where when the voice misrecognition occurs in the above synchronization state, it is temporarily assumed to be an asynchronous state.
このように、「一致状態」は、原則、同期状態に対応するが、例外として、一部の非同期状態を含む一方で、「不一致状態」は、原則、非同期状態に対応するが、例外として、一部の同期状態を含む。 In this way, the “matching state” basically corresponds to the synchronous state, but includes some asynchronous states as an exception, while the “mismatched state” basically corresponds to the asynchronous state, but as an exception, Includes some synchronization states.
ここで、上記の例外は、いずれも一時的な状態として現れるため、図3に示すように、説明箇所推定部17は、説明状態判定部16により判定された説明状態と、履歴記憶部16aに記憶された説明状態の過去の履歴とから説明箇所を推定することで、例外を除外でき、一致状態から同期状態、不一致状態から非同期状態を正確に判定できる。
Here, since all of the above exceptions appear as a temporary state, as shown in FIG. 3, the explanation location estimation unit 17 stores the explanation state determined by the explanation
図3は、説明状態の継続性と説明箇所の対応関係の一例を示す図である。図3に示すように、説明状態判定部16により「一致状態」と判定された場合、説明箇所推定部17は、一致状態が所定の時間以上にわたって継続しているか否かを判定する。このとき、一致状態が所定の時間以上にわたって継続している場合、説明箇所推定部17は、音声認識の結果および視線検出の結果が一致する説明単位を説明箇所として推定する。一方、一致状態が所定の時間以上にわたって継続していない場合、説明箇所推定部17は、現在の説明単位、すなわち1時刻前の前回に説明箇所として推定していた説明単位を説明箇所として引き継いで推定する。
FIG. 3 is a diagram illustrating an example of the correspondence between the continuity of the explanation state and the explanation location. As illustrated in FIG. 3, when the description
また、説明状態判定部16により「不一致状態」と判定された場合、説明箇所推定部17は、不一致状態が所定の時間以上にわたって継続しているか否かを判定する。このとき、不一致状態が所定の時間以上にわたって継続している場合、説明箇所推定部17は、音声認識に対応する説明単位を説明箇所として推定する。一方、不一致状態が所定の時間以上にわたって継続していない場合、説明箇所推定部17は、現在の説明単位、すなわち1時刻前の前回に説明箇所として推定していた説明単位を説明箇所として引き継いで推定する。
When the explanation
また、説明状態判定部16により「非目視状態」と判定された場合、説明箇所推定部17は、音声認識に対応する説明単位を説明箇所として推定する。これは、「一致状態」や「不一致状態」のような例外がないと見做すことができるので、継続性を問わず、「非目視状態」と判定された時点で、資料は見ずに、聴衆に向いて説明している状態と推定できるからである。
When the explanation
なお、ここでは、継続性を判定するために同一の説明状態が所定の時間以上にわたって継続しているかどうかを判定する場合を例示したが、所定の回数にわたって継続しているかどうかを判定することとしてもかまわない。 Here, the case where it is determined whether or not the same explanation state continues for a predetermined time or more in order to determine the continuity is illustrated, but it is determined that it is determined whether or not it continues for a predetermined number of times. It doesn't matter.
強調表示制御部18は、説明箇所推定部17により推定された説明箇所の強調表示を実行する処理部である。ここで言う「強調表示」は、狭義のハイライト表示、すなわち背景色を明るくしたり、反転したりする表示制御に留まらず、広義のハイライト表示を意味する。例えば、説明箇所の囲み表示、説明箇所の塗りつぶしの強調、フォント(フォントサイズ、下線や斜体)の強調などのように、強調表示の全般を任意に実行することができる。
The highlight
なお、上記の視線検出部11、視線判定部12、音声認識部13、文書取得部14、認識結果判定部15、説明状態判定部16、説明箇所推定部17及び強調表示制御部18などの機能部は、次のようにして実装できる。例えば、中央処理装置、いわゆるCPU(Central Processing Unit)などに、上記の各処理部と同様の機能を発揮するプロセスをメモリ上に展開して実行させることにより実現できる。これらの処理部は、必ずしも中央処理装置で実行されずともよく、MPU(Micro Processing Unit)に実行させることとしてもよい。また、上記の各処理部は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジックによっても実現できる。
Note that the functions of the line-of-
また、上記の履歴記憶部16aには、一例として、各種の半導体メモリ素子、例えばRAM(Random Access Memory)やフラッシュメモリを採用できる。また、上記の履歴記憶部16aは、必ずしも主記憶装置でなくともよく、補助記憶装置であってもかまわない。この場合、HDD(Hard Disk Drive)、光ディスクやSSD(Solid State Drive)などを採用できる。
The
図4は、実施例1に係る説明支援処理の手順を示すフローチャートである。この処理は、プレゼンテーションソフトが文書を開いた状態でプレゼンテーションの開始指示を受け付けた場合に起動し、プレゼンテーションの終了指示を受け付けるまで繰返し実行される。 FIG. 4 is a flowchart illustrating the procedure of the explanation support process according to the first embodiment. This process is started when the presentation software receives a presentation start instruction with the document open, and is repeatedly executed until a presentation end instruction is received.
図4に示すように、視線検出部11は、カメラ1から出力された画像に視線検出を実行することにより注視点を検出する(ステップS101)。続いて、停留点検出部12aは、ステップS101で検出された注視点が所定の期間、例えば30msec〜300msecにわたって所定の範囲内に停留しているか否かを監視することにより、停留点を検出する(ステップS102)。
As illustrated in FIG. 4, the line-of-
その後、画面内判定部12bは、ステップS102で検出された停留点が表示部5のスクリーンの内部に対応する座標の範囲内に存在するか否かを判定する(ステップS103)。
Thereafter, the in-
また、音声認識部13は、図示しない認識辞書を参照して、マイク3から入力された音声信号にワードスポッティングなどの音声認識を実行する(ステップS104)。そして、説明単位抽出部15aは、表示部5に表示中であるスライドを当該スライドが含むインデント情報などを用いて段落、行や一文などの単位で分割することにより、スライドが分割された区間の座標範囲と当該区間に含まれる単語とを説明単位として抽出する(ステップS105)。
Further, the
その後、対応付け部15bは、ステップS104による音声認識の結果と、ステップS105で抽出された説明単位とを対応付ける(ステップS106)。すなわち、対応付け部15bは、ステップS105で抽出された説明単位のうち、ステップS104で認識された単語と一致する単語が最も多く含まれる説明単位を、音声認識に対応する説明箇所として出力する。
Thereafter, the associating
その上で、説明状態判定部16は、ステップS102〜ステップS103による視線の判定結果及びステップS106による音声認識の対応付けの結果に基づいて、説明状態が「一致状態」、「不一致状態」または「非目視状態」のうちいずれの状態に該当するのかを判定する(ステップS107)。
In addition, the explanation
そして、説明箇所推定部17は、ステップS107で判定された説明状態と、履歴記憶部16aに記憶された説明状態の履歴とから説明状態の継続性があるか否かにより、説明箇所を推定する(ステップS108)。その上で、強調表示制御部18は、ステップS108で推定された説明箇所の強調表示を実行し(ステップS109)、処理を終了する。
Then, the explanation location estimation unit 17 estimates the explanation location based on whether or not there is continuity of the explanation state from the explanation state determined in step S107 and the explanation state history stored in the
[効果の一側面]
上述してきたように、本実施例に係る説明支援装置10は、音声認識及び視線検出の説明箇所が一致する一致状態、これらが一致しない不一致状態、視線が画面内にない非目視状態のいずれの説明状態であるかにより、音声、視線又は前回の推定結果に基づく説明箇所を強調表示する。したがって、本実施例に係る説明支援装置10によれば、説明箇所の推定精度の低下を抑制できる。
[One aspect of effect]
As described above, the explanation support apparatus 10 according to the present embodiment has any of the coincidence state in which the explanation portions of the voice recognition and the line-of-sight detection coincide, the disagreement state in which they do not coincide, and the non-visual state in which the line of sight is not in the screen. Depending on whether the state is the explanation state, the explanation portion based on the voice, the line of sight or the previous estimation result is highlighted. Therefore, according to the explanation support apparatus 10 according to the present embodiment, it is possible to suppress a decrease in the estimation accuracy of the explanation location.
上記の実施例1では、説明状態の継続性の有無により一致状態から同期状態、不一致状態から非同期状態を判定する場合を例示したが、かかる判定を他の方法により実現することもできる。そこで、本実施例では、視線の移動方向および視線の移動速度により、一致状態から同期状態、不一致状態から非同期状態を判定する場合を判定する場合を例示する。 In the first embodiment, the case where the synchronous state is determined from the coincidence state and the asynchronous state is determined from the disagreement state based on the presence or absence of the continuity of the explanation state has been exemplified. Therefore, in the present embodiment, a case in which the case where the synchronous state is determined from the coincidence state and the asynchronous state is determined from the disagreement state is illustrated based on the moving direction of the visual line and the moving speed of the visual line.
図5は、実施例2に係る説明支援装置の機能的構成を示す図である。図5に示す説明支援装置20は、図1に示した説明支援装置10と比べて、視線判定部21内に移動方向検出部21a、移動速度算出部21b及び音読状態判定部21cを有する点、説明箇所推定部22の判定ロジックが相違する点、さらには、履歴記憶部16aが不要である点が異なる。なお、ここでは、図1に示した説明支援装置10と同一の機能を発揮する処理部には同一の符号を付し、その説明を省略することとする。
FIG. 5 is a diagram illustrating a functional configuration of the explanation support apparatus according to the second embodiment. Compared to the explanation support apparatus 10 shown in FIG. 1, the
移動方向検出部21aは、視線の移動方向を検出する処理部である。 The movement direction detection unit 21a is a processing unit that detects the movement direction of the line of sight.
一実施形態として、移動方向検出部21aは、停留点検出部12aにより検出された停留点が水平方向または垂直方向のいずれに移動しているか否かを判定する。例えば、移動方向検出部21aは、過去の所定時間、例えば数秒にわたって検出された停留点を結ぶ近似直線を求める。その上で、移動方向検出部21aは、当該近似直線が水平方向から所定の範囲、例えば30度以外である場合には移動方向を「水平方向」と検出し、当該近似直線が垂直方向から所定の範囲、例えば30度以外である場合には移動方向を「垂直方向」と検出する。
As one embodiment, the movement direction detection unit 21a determines whether the stationary point detected by the stationary
移動速度算出部21bは、視線の移動速度を算出する処理部である。 The movement speed calculation unit 21b is a processing unit that calculates the movement speed of the line of sight.
一実施形態として、移動速度算出部21bは、一定時間における停留点の移動範囲を特定した上で当該移動範囲内に存在する文字を探索することにより、移動範囲に含まれる文字を抽出する。続いて、移動速度算出部21bは、当該移動範囲内に含まれる文字を形態素解析で読み情報、すなわち表音文字列に変換し、モーラ数を求める。その上で、移動速度算出部21bは、当該モーラ数を一定時間で割ることで、平均移動速度(モーラ/sec)を算出する。 As one embodiment, the movement speed calculation unit 21b specifies a movement range of a stop point at a certain time, and then searches for characters existing in the movement range, thereby extracting characters included in the movement range. Subsequently, the movement speed calculation unit 21b converts the characters included in the movement range into reading information, that is, a phonetic character string by morphological analysis, and obtains the number of mora. Then, the moving speed calculation unit 21b calculates the average moving speed (mora / sec) by dividing the number of mora by a certain time.
音読状態判定部21cは、音読状態であるか否かを判定する処理部である。音読状態にない場合は黙読状態と判定する。
The reading aloud
一実施形態として、音読状態判定部21cは、下記図6に示す知見にしたがって音読状態であるか否かを判定する。図6は、停留点の動きの一例を示す図である。図6には、スライドが横書きである場合の例が図示されているが、縦書きの場合には水平を垂直へ、垂直を水平に読み替えることにより、同様のことが言える。図6に示すように、音読状態は、文字を継続して発声するという活動の特性から、眼球運動の自由度は黙読時よりも低下することが考えられ、読み飛ばしや読み戻りが生起しにくくなると考えられる。さらに、音読状態では、文中に注視点が出現した後、視線は文章を辿っていき、黙読に比し読み戻りは少ない。一方、黙読状態の場合には、注視点がランダムに動いたり、縦方向に動いたりする傾向にある。
As one embodiment, the reading aloud
これらのことから、音読状態判定部21cは、視線の移動方向が水平方向であり、かつ視線の移動速度が所定の速度以内、例えば7または8モーラ/sec以内である場合に、音読状態と判定する。音読状態にない場合は黙読状態と判定する。なお、ここでは、音読状態または黙読状態の判定に移動方向及び移動速度の両方を用いる場合を例示したが、必ずしも移動方向及び移動速度の2つともを用いずともよく、いずれか一方だけを用いることもできる。
For these reasons, the reading aloud
説明箇所推定部22は、図1に示した説明箇所推定部17と同様、説明状態判定部16により判定された説明状態に基づいて説明箇所を推定するが、音読状態であるか否かにより、一致状態及び不一致状態の原則と例外を弁別する点が異なる。
The explanation location estimation unit 22 estimates the explanation location based on the explanation state determined by the explanation
図7は、説明状態及び音読状態と説明箇所との対応関係の一例を示す図である。図7に示すように、説明箇所推定部22は、説明状態判定部16により「一致状態」と判定された場合、かつ音読状態判定部21cにより「音読状態」と判定された場合には、同期状態であると推定する。この場合、説明箇所推定部22は、音声認識の結果および視線検出の結果が一致する説明単位を説明箇所として推定する。一方、説明箇所推定部22は、説明状態判定部16により「一致状態」と判定された場合、かつ音読状態判定部21cにより「黙読状態」と判定された場合には、非同期状態の例外であると推定する。この場合、説明箇所推定部22は、音声認識に対応する説明単位を説明箇所として推定する。
FIG. 7 is a diagram illustrating an example of a correspondence relationship between the explanation state and the reading aloud state and the explanation portion. As illustrated in FIG. 7, the explanation location estimation unit 22 is synchronized when the explanation
また、説明箇所推定部22は、説明状態判定部16により「不一致状態」と判定された場合、かつ音読状態判定部21cにより「音読状態」と判定された場合には、同期状態の例外であると推定する。この場合、説明箇所推定部22は、視線検出に対応する説明単位を説明箇所として推定する。一方、説明箇所推定部22は、説明状態判定部16により「不一致状態」と判定された場合、かつ音読状態判定部21cにより「黙読状態」と判定された場合には、非同期状態であると推定する。この場合、説明箇所推定部22は、音声認識に対応する説明単位を説明箇所として推定する。
The explanation location estimation unit 22 is an exception to the synchronization state when the explanation
なお、説明箇所推定部22は、説明状態判定部16により「非目視状態」と判定された場合、音声認識に対応する説明単位を説明箇所として推定する。これは、「一致状態」や「不一致状態」のような例外がないと見做すことができるので、「非目視状態」と判定された時点で、資料は見ずに、聴衆に向いて説明している状態と推定できるからである。
In addition, the description location estimation part 22 estimates the description unit corresponding to speech recognition as an explanation location, when the description
図8は、実施例2に係る説明支援処理の手順を示すフローチャートである。この処理は、図4に示した説明支援処理と同様、プレゼンテーションソフトが文書を開いた状態でプレゼンテーションの開始指示を受け付けた場合に起動し、プレゼンテーションの終了指示を受け付けるまで繰返し実行される。 FIG. 8 is a flowchart illustrating the procedure of the explanation support process according to the second embodiment. Similar to the explanation support process shown in FIG. 4, this process is started when the presentation software receives a presentation start instruction with the document open, and is repeatedly executed until a presentation end instruction is received.
図8に示すように、視線検出部11は、カメラ1から出力された画像に視線検出を実行することにより注視点を検出する(ステップS101)。続いて、停留点検出部12aは、ステップS101で検出された注視点が所定の期間、例えば30msec〜300msecにわたって所定の範囲内に停留しているか否かを監視することにより、停留点を検出する(ステップS102)。
As illustrated in FIG. 8, the line-of-
その後、画面内判定部12bは、ステップS102で検出された停留点が表示部5のスクリーンの内部に対応する座標の範囲内に存在するか否かを判定する(ステップS103)。
Thereafter, the in-
ここで、停留点が表示部5のスクリーンの内部に対応する座標の範囲内に存在する場合(ステップS201Yes)、音読状態判定部21cは、視線の移動方向が水平方向であり、かつ視線の移動速度が所定の速度以内であるか否かにより、音読状態または黙読状態のいずれに該当するかを判定する(ステップS202)。なお、停留点が表示部5のスクリーンの内部に対応する座標の範囲内に存在しない場合(ステップS201No)、ステップS202の処理をとばし、ステップS104の処理へ移行する。
Here, when the stop point exists within the coordinate range corresponding to the inside of the screen of the display unit 5 (Yes in step S201), the reading
また、音声認識部13は、図示しない認識辞書を参照して、マイク3から入力された音声信号にワードスポッティングなどの音声認識を実行する(ステップS104)。そして、説明単位抽出部15aは、表示部5に表示中であるスライドを当該スライドが含むインデント情報などを用いて段落、行や一文などの単位で分割することにより、スライドが分割された区間の座標範囲と当該区間に含まれる単語とを説明単位として抽出する(ステップS105)。
Further, the
その後、対応付け部15bは、ステップS104による音声認識の結果と、ステップS105で抽出された説明単位とを対応付ける(ステップS106)。すなわち、対応付け部15bは、ステップS105で抽出された説明単位のうち、ステップS104で認識された単語と一致する単語が最も多く含まれる説明単位を、音声認識に対応する説明箇所として出力する。
Thereafter, the associating
その上で、説明状態判定部16は、ステップS102〜ステップS103による視線の判定結果及びステップS106による音声認識の対応付けの結果に基づいて、説明状態が「一致状態」、「不一致状態」または「非目視状態」のうちいずれの状態に該当するのかを判定する(ステップS107)。
In addition, the explanation
そして、説明箇所推定部22は、ステップS107で判定された説明状態と、ステップS202で判定された音読状態の判定結果とから説明箇所を推定する(ステップS203)。その上で、強調表示制御部18は、ステップS203で推定された説明箇所の強調表示を実行し(ステップS109)、処理を終了する。
And the description location estimation part 22 estimates an explanation location from the description state determined by step S107, and the determination result of the reading aloud state determined by step S202 (step S203). After that, the highlighting
[効果の一側面]
上述してきたように、本実施例に係る説明支援装置20は、視線の移動方向および視線の移動速度から音読状態または黙読状態であるかを判定し、音読状態または黙読状態のいずれであるかにより、一致状態及び不一致状態の原則と例外を弁別する。したがって、本実施例に係る説明支援装置20によれば、上記の実施例1と同様、説明箇所の推定精度の低下を抑制できる。
[One aspect of effect]
As described above, the
さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。 Although the embodiments related to the disclosed apparatus have been described above, the present invention may be implemented in various different forms other than the above-described embodiments. Therefore, another embodiment included in the present invention will be described below.
[文書ファイルの応用例]
上記の実施例1では、プレゼンテーションソフトによって作成された文書を用いる場合を例示したが、他のアプリケーションプログラムによって作成された文書を用いることもできる。すなわち、表示時に画面単位で表示されるページを含む文書ファイルであれば、ワープロソフトの文書ファイルが有するページをスライドに読み替えたり、表計算ソフトの文書ファイルが有するシートをスライドに読み替えることによって図4や図8に示した処理を同様に適用できる。
[Application examples of document files]
In the first embodiment, the case where a document created by presentation software is used has been exemplified. However, a document created by another application program can also be used. In other words, if the document file includes a page that is displayed on a screen-by-screen basis, the page of the word processing software document file is replaced with a slide, or the sheet of the spreadsheet software document file is replaced with a slide. The process shown in FIG. 8 can be applied in the same manner.
[他の実装例]
上記の実施例1では、説明支援装置10が上記のプレゼンテーションソフトを外部のリソースに依存せずに単独で実行するスタンドアローンで上記の説明支援処理を実行する場合を例示したが、他の実装形態を採用することもできる。例えば、プレゼンテーションソフトを実行するクライアントに対し、上記の説明支援処理に対応する説明支援サービスを提供するサーバを設けることによってクライアントサーバシステムとして構築することもできる。この場合、パッケージソフトウェアやオンラインソフトウェアとして上記の説明支援サービスを実現する説明支援プログラムをインストールさせることによってサーバ装置を実装できる。例えば、サーバ装置は、上記の説明支援サービスを提供するWebサーバとして実装することとしてもよいし、アウトソーシングによって上記の説明支援サービスを提供するクラウドとして実装することとしてもかまわない。この場合、クライアントは、サーバ装置に対し、プレゼンテーションに用いる文書及びプレゼンテーションを実施する会場の識別情報をアップロードした後に、プレゼンテーションが開始される。プレゼンテーションが開始されると、クライアントは、マイク3から採取された音声信号をリアルタイムでアップロードし、表示部5に表示中のスライドのページが切り替わる度にスライドのページ情報をアップロードする。これによって、サーバ装置は、図4や図8に示した処理が実行可能となる。さらに、クライアントは、図示しない入力デバイスに関する操作情報をサーバへ伝送し、サーバから伝送される処理結果だけを表示部5に表示させることにより、シンクライアントシステムとして構築することもできる。この場合には、各種のリソース、例えば文書データもサーバにより保持されると共に、プレゼンテーションソフトもサーバで仮想マシンとして実装されることになる。なお、上記の実施例1では、説明支援プログラムがプレゼンテーションソフトにアドオンされる場合を想定したが、ライセンス権限を有するクライアントから説明支援プログラムをライブラリとして参照する要求を受け付けた場合に、説明支援プログラムをプラグインさせることもできる。
[Other implementation examples]
In the first embodiment, the explanation support apparatus 10 exemplifies the case where the explanation support processing is executed in a stand-alone manner in which the presentation software is independently executed without depending on an external resource. Can also be adopted. For example, a client server system can be constructed by providing a server that provides an explanation support service corresponding to the explanation support process described above for a client that executes presentation software. In this case, the server device can be implemented by installing an explanation support program for realizing the explanation support service as package software or online software. For example, the server device may be implemented as a Web server that provides the above explanation support service, or may be implemented as a cloud that provides the above explanation support service by outsourcing. In this case, the client starts the presentation after uploading the document used for the presentation and the identification information of the venue where the presentation is performed to the server device. When the presentation is started, the client uploads the audio signal collected from the
[分散及び統合]
また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されておらずともよい。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、視線検出部11、視線判定部12、音声認識部13、文書取得部14、認識結果判定部15、説明状態判定部16、説明箇所推定部17または強調表示制御部18を説明支援装置10の外部装置としてネットワーク経由で接続するようにしてもよい。また、視線検出部11、視線判定部12、音声認識部13、文書取得部14、認識結果判定部15、説明状態判定部16、説明箇所推定部17または強調表示制御部18を別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記の説明支援装置10の機能を実現するようにしてもよい。
[Distribution and integration]
In addition, each component of each illustrated apparatus does not necessarily have to be physically configured as illustrated. In other words, the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions. Can be integrated and configured. For example, the explanation support apparatus 10 includes the
[説明支援プログラム]
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図9を用いて、上記の実施例と同様の機能を有する説明支援プログラムを実行するコンピュータの一例について説明する。
[Explanation support program]
The various processes described in the above embodiments can be realized by executing a prepared program on a computer such as a personal computer or a workstation. Therefore, in the following, an example of a computer that executes an explanation support program having the same function as in the above embodiment will be described with reference to FIG.
図9は、実施例1及び実施例2に係る説明支援プログラムを実行するコンピュータのハードウェア構成例を示す図である。図9に示すように、コンピュータ100は、操作部110aと、スピーカ110bと、カメラ110cと、ディスプレイ120と、通信部130とを有する。さらに、このコンピュータ100は、CPU150と、ROM160と、HDD170と、RAM180とを有する。これら110〜180の各部はバス140を介して接続される。
FIG. 9 is a diagram illustrating a hardware configuration example of a computer that executes the explanation support program according to the first embodiment and the second embodiment. As illustrated in FIG. 9, the
HDD170には、図9に示すように、上記の実施例1や実施例2で示した各処理部と同様の機能を発揮する説明支援プログラム170aが記憶される。この説明支援プログラム170aは、図1や図5に示した各処理部の各構成要素と同様、統合又は分離してもかまわない。すなわち、HDD170には、必ずしも上記の実施例1で示した全てのデータが格納されずともよく、処理に用いるデータがHDD170に格納されればよい。 As shown in FIG. 9, the HDD 170 stores an explanation support program 170 a that exhibits the same function as each processing unit shown in the first and second embodiments. This explanation support program 170a may be integrated or separated, like each component of each processing unit shown in FIG. 1 or FIG. That is, the HDD 170 does not necessarily have to store all the data shown in the first embodiment, and data used for processing may be stored in the HDD 170.
このような環境の下、CPU150は、HDD170から説明支援プログラム170aを読み出した上でRAM180へ展開する。この結果、説明支援プログラム170aは、図9に示すように、説明支援プロセス180aとして機能する。この説明支援プロセス180aは、RAM180が有する記憶領域のうち説明支援プロセス180aに割り当てられた領域にHDD170から読み出した各種データを展開し、この展開した各種データを用いて各種の処理を実行する。例えば、説明支援プロセス180aが実行する処理の一例として、図4や図8に示す処理などが含まれる。なお、CPU150では、必ずしも上記の実施例1で示した全ての処理部が動作せずともよく、実行対象とする処理に対応する処理部が仮想的に実現されればよい。
Under such an environment, the
なお、上記の説明支援プログラム170aは、必ずしも最初からHDD170やROM160に記憶されておらずともかまわない。例えば、コンピュータ100に挿入されるフレキシブルディスク、いわゆるFD、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させる。そして、コンピュータ100がこれらの可搬用の物理媒体から各プログラムを取得して実行するようにしてもよい。また、公衆回線、インターネット、LAN、WANなどを介してコンピュータ100に接続される他のコンピュータまたはサーバ装置などに各プログラムを記憶させておき、コンピュータ100がこれらから各プログラムを取得して実行するようにしてもよい。
Note that the explanation support program 170a is not necessarily stored in the HDD 170 or the
1 カメラ
3 マイク
5 表示部
10 説明支援装置
11 視線検出部
12 視線判定部
12a 停留点検出部
12b 画面内判定部
13 音声認識部
14 文書取得部
15 認識結果判定部
15a 説明単位抽出部
15b 対応付け部
16 説明状態判定部
16a 履歴記憶部
17 説明箇所推定部
18 強調表示制御部
DESCRIPTION OF SYMBOLS 1
Claims (5)
音声認識を実行する音声認識部と、
前記表示部に表示された文書のページのうち前記音声認識の結果に対応する説明箇所を判定する認識結果判定部と、
前記音声認識に対応する説明箇所と前記視線検出に対応する説明箇所とが一致する第1の状態、前記音声認識に対応する説明箇所と前記視線検出に対応する説明箇所とが一致しない第2の状態または前記視線検出による視線の位置が前記表示部の画面内に検出されない第3の状態のうちいずれの説明状態であるのかを判定する説明状態判定部と、
判定された説明状態に基づいて強調表示を実行する説明箇所を推定する推定部と
を有することを特徴とする説明支援装置。 A line-of-sight detection unit that performs line-of-sight detection on a predetermined display unit;
A voice recognition unit for performing voice recognition;
A recognition result determination unit for determining an explanation location corresponding to the result of the voice recognition among the pages of the document displayed on the display unit;
The first state where the explanation location corresponding to the speech recognition and the explanation location corresponding to the line-of-sight detection match, the second state where the explanation location corresponding to the speech recognition and the description location corresponding to the line-of-sight detection do not match An explanation state determination unit that determines which one of the third states in which the state or the position of the line of sight by the detection of the line of sight is not detected within the screen of the display unit;
An explanation support device comprising: an estimation unit that estimates an explanation location for executing highlighting based on the determined explanation state.
前記推定部は、前記説明状態判定部により判定された説明状態と、前記履歴記憶部に記憶された説明状態の履歴とから説明状態に継続性があるか否かにより、前記音声認識および前記視線検出の結果が一致する説明箇所を前記強調表示を実行する説明箇所として推定するのか、前記音声認識に対応する説明箇所を前記強調表示を実行する説明箇所として推定するのか、または、前回に推定された説明箇所を前記強調表示を実行する説明箇所として引き続くのかを決定することを特徴とする請求項1に記載の説明支援装置。 A history storage unit for storing the history of the explanation state;
The estimation unit determines whether the speech recognition and the line of sight depend on whether or not the explanation state has continuity from the explanation state determined by the explanation state determination unit and the history of the explanation state stored in the history storage unit. Whether the explanation location where the detection results match is estimated as the explanation location where the highlighting is performed, the explanation location corresponding to the speech recognition is estimated as the explanation location where the highlighting is performed, or estimated last time The explanation support apparatus according to claim 1, wherein it is determined whether to continue the explanation part as the explanation part for executing the highlighting.
前記推定部は、前記説明状態判定部により判定された説明状態及び前記音読状態判定部により判定された音読状態または黙読状態により、前記音声認識および前記視線検出の結果が一致する説明箇所、前記音声認識に対応する説明箇所または前記視線検出に対応する説明箇所のいずれを前記強調表示を実行する説明箇所として推定するのかを決定することを特徴とする請求項1に記載の説明支援装置。 A reading state determination unit that determines whether the reading state or the silent reading state is based on at least one of the moving direction of the line of sight obtained from the result of the line of sight detection and the moving direction of the line of sight obtained from the result of the line of sight detection. Further comprising
The estimation unit includes an explanation location where the speech recognition result and the line-of-sight detection result match according to the explanation state determined by the explanation state determination unit and the reading state or silent reading state determined by the reading state determination unit, the sound The explanation support apparatus according to claim 1, wherein an explanation location corresponding to recognition or an explanation location corresponding to the visual line detection is to be estimated as an explanation location for executing the highlighting.
所定の表示部に対する視線検出を実行し、
音声認識を実行し、
前記表示部に表示された文書のページのうち前記音声認識の結果に対応する説明箇所を判定し、
前記音声認識に対応する説明箇所と前記視線検出に対応する説明箇所とが一致する第1の状態、前記音声認識に対応する説明箇所と前記視線検出に対応する説明箇所とが一致しない第2の状態または前記視線検出による視線の位置が前記表示部の画面内に検出されない第3の状態のうちいずれの説明状態であるのかを判定し、
判定された説明状態に基づいて強調表示を実行する説明箇所を推定する
処理を実行することを特徴とする説明支援方法。 Computer
Execute line of sight detection for a given display,
Perform speech recognition,
Determining an explanation location corresponding to the result of the voice recognition among the pages of the document displayed on the display unit;
The first state where the explanation location corresponding to the speech recognition and the explanation location corresponding to the line-of-sight detection match, the second state where the explanation location corresponding to the speech recognition and the description location corresponding to the line-of-sight detection do not match A state or a position of the line of sight by the line-of-sight detection is determined in which of the third states that are not detected in the screen of the display unit,
An explanation support method, comprising: executing a process of estimating an explanation location for executing highlighting based on a determined explanation state.
所定の表示部に対する視線検出を実行し、
音声認識を実行し、
前記表示部に表示された文書のページのうち前記音声認識の結果に対応する説明箇所を判定し、
前記音声認識に対応する説明箇所と前記視線検出に対応する説明箇所とが一致する第1の状態、前記音声認識に対応する説明箇所と前記視線検出に対応する説明箇所とが一致しない第2の状態または前記視線検出による視線の位置が前記表示部の画面内に検出されない第3の状態のうちいずれの説明状態であるのかを判定し、
判定された説明状態に基づいて強調表示を実行する説明箇所を推定する
処理を実行させることを特徴とする説明支援プログラム。 On the computer,
Execute line of sight detection for a given display,
Perform speech recognition,
Determining an explanation location corresponding to the result of the voice recognition among the pages of the document displayed on the display unit;
The first state where the explanation location corresponding to the speech recognition and the explanation location corresponding to the line-of-sight detection match, the second state where the explanation location corresponding to the speech recognition and the description location corresponding to the line-of-sight detection do not match A state or a position of the line of sight by the line-of-sight detection is determined in which of the third states that are not detected in the screen of the display unit,
An explanation support program characterized by causing a process of estimating an explanation location for executing highlighting based on a determined explanation state to be executed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015075475A JP6471589B2 (en) | 2015-04-01 | 2015-04-01 | Explanation support apparatus, explanation support method, and explanation support program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015075475A JP6471589B2 (en) | 2015-04-01 | 2015-04-01 | Explanation support apparatus, explanation support method, and explanation support program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016194877A true JP2016194877A (en) | 2016-11-17 |
JP6471589B2 JP6471589B2 (en) | 2019-02-20 |
Family
ID=57323966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015075475A Expired - Fee Related JP6471589B2 (en) | 2015-04-01 | 2015-04-01 | Explanation support apparatus, explanation support method, and explanation support program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6471589B2 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002023716A (en) * | 2000-07-05 | 2002-01-25 | Pfu Ltd | Presentation system and recording medium |
JP2003150306A (en) * | 2002-11-14 | 2003-05-23 | Toshiba Corp | Information display device and method thereof |
JP2008058409A (en) * | 2006-08-29 | 2008-03-13 | Aisin Aw Co Ltd | Speech recognizing method and speech recognizing device |
JP2008287517A (en) * | 2007-05-17 | 2008-11-27 | National Institute Of Information & Communication Technology | Highlight display device and program |
US20140337740A1 (en) * | 2013-05-07 | 2014-11-13 | Samsung Electronics Co., Ltd. | Method and apparatus for selecting object |
-
2015
- 2015-04-01 JP JP2015075475A patent/JP6471589B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002023716A (en) * | 2000-07-05 | 2002-01-25 | Pfu Ltd | Presentation system and recording medium |
JP2003150306A (en) * | 2002-11-14 | 2003-05-23 | Toshiba Corp | Information display device and method thereof |
JP2008058409A (en) * | 2006-08-29 | 2008-03-13 | Aisin Aw Co Ltd | Speech recognizing method and speech recognizing device |
JP2008287517A (en) * | 2007-05-17 | 2008-11-27 | National Institute Of Information & Communication Technology | Highlight display device and program |
US20140337740A1 (en) * | 2013-05-07 | 2014-11-13 | Samsung Electronics Co., Ltd. | Method and apparatus for selecting object |
Also Published As
Publication number | Publication date |
---|---|
JP6471589B2 (en) | 2019-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11709653B1 (en) | Contextual assistant using mouse pointing or touch cues | |
KR102193029B1 (en) | Display apparatus and method for performing videotelephony using the same | |
JP2019535059A5 (en) | ||
JP2018534649A (en) | Method and apparatus for automatically capturing an object, and storage medium | |
JP6432405B2 (en) | Presentation support device, presentation support method, and presentation support program | |
US20150179173A1 (en) | Communication support apparatus, communication support method, and computer program product | |
CN106463119B (en) | Modification of visual content to support improved speech recognition | |
US10699712B2 (en) | Processing method and electronic device for determining logic boundaries between speech information using information input in a different collection manner | |
US11281707B2 (en) | System, summarization apparatus, summarization system, and method of controlling summarization apparatus, for acquiring summary information | |
US10304439B2 (en) | Image processing device, animation display method and computer readable medium | |
TW201510774A (en) | Apparatus and method for selecting a control object by voice recognition | |
US20190213998A1 (en) | Method and device for processing data visualization information | |
WO2018105373A1 (en) | Information processing device, information processing method, and information processing system | |
JP2017146672A (en) | Image display device, image display method, image display program, and image display system | |
US11900931B2 (en) | Information processing apparatus and information processing method | |
US9870197B2 (en) | Input information support apparatus, method for supporting input information, and computer-readable recording medium | |
US20130179165A1 (en) | Dynamic presentation aid | |
JP6471589B2 (en) | Explanation support apparatus, explanation support method, and explanation support program | |
JP6372577B2 (en) | Presentation support method, presentation support program, and presentation support apparatus | |
JP7468360B2 (en) | Information processing device and information processing method | |
JP6304396B2 (en) | Presentation support method, presentation support program, and presentation support apparatus | |
JP6886663B2 (en) | Operation instruction generation system, method and program | |
JP2012018544A (en) | Audio output device, audio output method and program | |
US20240362752A1 (en) | Information processing apparatus, control method for information processing apparatus, and storage medium | |
US10380460B2 (en) | Description of content image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180928 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181016 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181225 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190107 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6471589 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |