JP2924717B2 - Presentation device - Google Patents

Presentation device

Info

Publication number
JP2924717B2
JP2924717B2 JP7167896A JP16789695A JP2924717B2 JP 2924717 B2 JP2924717 B2 JP 2924717B2 JP 7167896 A JP7167896 A JP 7167896A JP 16789695 A JP16789695 A JP 16789695A JP 2924717 B2 JP2924717 B2 JP 2924717B2
Authority
JP
Japan
Prior art keywords
presentation
unit
recognition
command
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP7167896A
Other languages
Japanese (ja)
Other versions
JPH08339198A (en
Inventor
浩一 篠田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP7167896A priority Critical patent/JP2924717B2/en
Publication of JPH08339198A publication Critical patent/JPH08339198A/en
Application granted granted Critical
Publication of JP2924717B2 publication Critical patent/JP2924717B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、発表・講演・宣伝等の
プレゼンテーションに使用するプレゼンテーション装置
に関する。特に、音声に含まれるキーワードを認識し
て、これに対応してスライド画像等の送り動作あるいは
その一部の拡大等の操作を自動的に行うプレゼンテーシ
ョン装置に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a presentation device used for presentations such as presentations, lectures, and advertisements. In particular, the present invention relates to a presentation device that recognizes a keyword included in a voice and automatically performs an operation of feeding a slide image or the like or magnifying a part of the operation in response to the keyword.

【0002】[0002]

【従来の技術】近年、コンピュータの小型化,高速化,
高性能化が進み、発表,講演,宣伝等において、コンピ
ュータを用いたプレゼンテーションが盛んになってきて
いる。
2. Description of the Related Art In recent years, computers have become smaller and faster,
2. Description of the Related Art With the advancement of performance, presentations using computers are becoming popular in presentations, lectures, advertisements, and the like.

【0003】具体的には、従来から使用されていたOH
P・スライド等を用いずに、フロッピィーディスク等に
プレゼンテーションの内容を示すプレゼンテーションデ
ータ(以下、題材という)を記憶させておく。
[0003] Specifically, OH which has been conventionally used has been used.
Instead of using P slides, presentation data (hereinafter referred to as subject matter) indicating the contents of the presentation is stored in a floppy disk or the like.

【0004】そして、プレゼンテーションを行う会場や
部屋等で、コンピュータに搭載されたプレゼンテーショ
ン用のソフトウェア(たとえばマイクロソフト社の製品
「パワーポイント バージョン4.0」)を起動させ、
適宜フロッピィーディスク等から題材を読み出して、プ
レゼンテーションの補助を行うようにしている。
Then, at a venue or a room where a presentation is made, presentation software (for example, Microsoft's product “PowerPoint version 4.0”) mounted on a computer is started,
The subject material is read from a floppy disk or the like as appropriate to assist the presentation.

【0005】このようなコンピュータを用いたプレゼン
テーションシステムは、OHP・スライド等に比べて題
材の携帯がより容易であり、しかも、題材が動画、音声
等の静止画以外の情報も含んで構成されている場合であ
っても、同じコンピュータでプレゼンテーションを行え
るとともに、同期をとる操作も容易であるという利点が
ある。
In a presentation system using such a computer, it is easier to carry a subject than an OHP / slide or the like, and the subject includes information other than a still image such as a moving image and a sound. In this case, there is an advantage that the presentation can be performed on the same computer and the operation for synchronizing is easy.

【0006】[0006]

【発明が解決しようとする課題】ところで、上記従来の
プレゼンテーションシステムでは、画像,音声等の切り
替え,起動等の操作を指示するために、マウス,キーボ
ード等を用いている。
By the way, in the above-mentioned conventional presentation system, a mouse, a keyboard, and the like are used to instruct operations such as switching and activation of images and sounds.

【0007】しかしながら、効果的なプレゼンテーショ
ンを行うには、これらマウス,キーボードは望ましいも
のではない。
However, these mice and keyboards are not desirable for an effective presentation.

【0008】すなわち、マウスは釦の数が少ないため
に、可能な操作数が限られる。また、キーボードは大き
すぎるために携帯に不便であり、さらに、どちらも操作
を行う際に、プレゼンテーションが止まってしまうとい
う欠点がある。
That is, since the number of buttons of a mouse is small, the number of possible operations is limited. In addition, the keyboard is too large, which is inconvenient to carry, and furthermore, there is a drawback that the presentation stops when both are operated.

【0009】そこで本発明は、マイクロフォンに入力さ
れた音声に含まれるキーワードを認識できるとともに、
この認識したキーワードに基づいて画像,音声等のプレ
ゼンテーションデータの操作を自動的に行うことができ
るプレゼンテーション装置の提供を目的とする。
Therefore, the present invention is capable of recognizing a keyword contained in voice input to a microphone,
It is an object of the present invention to provide a presentation device that can automatically operate presentation data such as images and sounds based on the recognized keywords.

【0010】[0010]

【課題を解決するための手段】本発明のプレゼンテーシ
ョン装置は、マイクロフォン1と、音声認識用辞書を参
照して、マイクロフォン1から入力された音声に含まれ
るプレゼンテーション操作用のキーワードを認識する音
声認識部3と、単語モデルと操作コマンドとの対応付け
を記述した上記音声認識用辞書2aの対応テーブルを参
照して、上記認識したキーワードに対応する操作コマン
ドを生成するコマンド生成部4と、プレゼンテーション
に使用する画像,音声等のプレゼンテーションデータを
記憶したプレゼンテーション記憶部6と、この記憶され
たプレゼンテーションデータに対して上記操作コマンド
に対応する操作を行うプレゼンテーション操作部5と、
この操作に係るプレゼンテーションデータを出力するプ
レゼンテーション出力部7とを有している。
A presentation apparatus of the present invention refers to a microphone 1 and a voice recognition dictionary, and a voice recognition unit for recognizing a keyword for a presentation operation contained in voice input from the microphone 1. 3, a command generation unit 4 that generates an operation command corresponding to the recognized keyword by referring to a correspondence table of the voice recognition dictionary 2a describing the correspondence between the word model and the operation command, and is used for presentation. A presentation storage unit 6 that stores presentation data such as images and sounds to be played, a presentation operation unit 5 that performs an operation corresponding to the operation command on the stored presentation data,
It has a presentation output unit 7 for outputting presentation data relating to this operation.

【0011】上記に、プレゼンテーション記憶部6か
ら、キーワードを自動的に抽出し、該キーワードに対応
する単語モデルと操作コマンドとを対応付けて音声認識
用辞書に登録する自動辞書作成部11を加えた構成にし
てもよい。
An automatic dictionary creating unit 11 for automatically extracting a keyword from the presentation storage unit 6 and associating a word model corresponding to the keyword with an operation command and registering it in a speech recognition dictionary is added. It may be configured.

【0012】上記音声認識用辞書には、認識候補となる
単語モデルが登録されており、該単語モデルをプレゼン
テーション出力部7に表示させる認識候補単語出力部1
2を設けてもよい。さらに、プレゼンテーション出力部
7を複数設けるとともに、そのうちの1つに認識候補単
語出力部12を設けるようにしてもよい。
A word model as a recognition candidate is registered in the speech recognition dictionary, and a recognition candidate word output unit 1 for displaying the word model on a presentation output unit 7.
2 may be provided. Further, a plurality of presentation output units 7 may be provided, and a recognition candidate word output unit 12 may be provided in one of them.

【0013】[0013]

【作用】マイクロフォンから音声を入力すると、音声認
識部は、単語モデルを参照して、入力された音声に含ま
れるプレゼンテーションデータ操作用のキーワードを認
識し、この認識結果をコマンド生成部に出力する。コマ
ンド生成部では、単語モデルと操作コマンドとの対応付
けを記述した音声認識用辞書の対応テーブルを参照し
て、認識したキーワードに対応する操作コマンドを生成
し、これをプレゼンテーション操作部に出力する。
When a voice is input from the microphone, the voice recognition unit refers to the word model to recognize the keyword for operating the presentation data included in the input voice, and outputs the recognition result to the command generation unit. The command generation unit generates an operation command corresponding to the recognized keyword by referring to a correspondence table of the dictionary for speech recognition that describes the correspondence between the word model and the operation command, and outputs this to the presentation operation unit.

【0014】プレゼンテーション操作部は、プレゼンテ
ーション記憶部に記憶されているプレゼンテーションデ
ータに対し操作コマンドに対応する操作を行う。そし
て、この操作に係るプレゼンテーションデータは、プレ
ゼンテーション出力部によって出力される。
The presentation operation unit performs an operation corresponding to an operation command on the presentation data stored in the presentation storage unit. Then, presentation data relating to this operation is output by the presentation output unit.

【0015】自動辞書作成部を設けた場合には、プレゼ
ンテーション記憶部に記憶されているプレゼンテーショ
ンデータからキーワードを自動的に抽出し、これに対応
する単語モデルと操作コマンドとを対応付けて音声認識
用辞書に登録できる。
When an automatic dictionary creation unit is provided, a keyword is automatically extracted from presentation data stored in a presentation storage unit, and a corresponding word model and an operation command are associated with each other for speech recognition. Can be registered in the dictionary.

【0016】認識候補単語出力部を設けた場合には、音
声認識用辞書から抽出された認識候補となる単語モデル
が、プレゼンテーション出力部に出力される。
When a recognition candidate word output unit is provided, a word model serving as a recognition candidate extracted from the speech recognition dictionary is output to the presentation output unit.

【0017】プレゼンテーション出力部を複数設けた場
合には、そのうちの1つだけに認識候補となる単語モデ
ルを表示できる。
When a plurality of presentation output units are provided, only one of them can display a word model that is a recognition candidate.

【0018】[0018]

【実施例】本発明の実施例について図面を参照して説明
する。図1(A)は本発明のプレゼンテーション装置の
第1実施例を示すブロック図、(B)は辞書管理部の詳
細を示すブロック図である。
Embodiments of the present invention will be described with reference to the drawings. FIG. 1A is a block diagram showing a first embodiment of a presentation device of the present invention, and FIG. 1B is a block diagram showing details of a dictionary management unit.

【0019】本装置は、音声を入力するマイクロフォン
1、辞書管理部2、音声認識部3、コマンド生成部4、
プレゼンテーション操作部5、資料記憶部6、プレゼン
テーション出力部7を有している。
This apparatus comprises a microphone 1 for inputting voice, a dictionary management unit 2, a voice recognition unit 3, a command generation unit 4,
It has a presentation operation unit 5, a material storage unit 6, and a presentation output unit 7.

【0020】辞書管理部2には認識候補となる単語モデ
ルとともに、音声認識用辞書2aが記憶されている(図
1(B))。このうち、音声認識用辞書2aは単語モデ
ルとプレゼンテーションデータの操作コマンドとの対応
付けを記述した対応テーブル等を辞書として格納したも
のである。
The dictionary management unit 2 stores a speech recognition dictionary 2a together with a word model as a recognition candidate (FIG. 1B). Among them, the speech recognition dictionary 2a stores, as a dictionary, a correspondence table or the like in which a correspondence between a word model and an operation command of presentation data is described.

【0021】上記音声認識用辞書2aは、プレゼンテー
ションを行う前に予め作成されるもので、プレゼンテー
ションの途中で想定される場面で必要と考えられる操作
に対し、単語が割り当てられる。たとえば、プレゼンテ
ーションにおいて使用される単語としては、「次のスラ
イド」「図からグラフ」「数式の拡大」「ビデオ開始」
「(スライドの題名)」「(スライド中のキーワー
ド)」等が考えられる。
The speech recognition dictionary 2a is created in advance before giving a presentation, and a word is assigned to an operation considered necessary in a scene assumed during the presentation. For example, words used in presentations include “next slide”, “figure to graph”, “expansion of mathematical formulas”, “video start”
“(Title of slide)”, “(keyword in slide)” and the like are conceivable.

【0022】これらの単語に対し、上記単語モデルが作
成される。すなわち、音声のモデルがたとえば音節等を
1単位として作成されていれば、それらのモデルを連結
することにより単語モデルが作成される。また、使用者
が事前に単語を発声した音声データから単語モデルを作
成することも可能である。
The above word model is created for these words. That is, if a speech model is created with, for example, syllables or the like as one unit, a word model is created by connecting those models. Further, it is also possible to create a word model from voice data in which a user uttered a word in advance.

【0023】音声認識部3は、入力された音声をある一
定時間間隔の特徴ベクトルの時系列として解析し、さら
にこれらの特徴ベクトル列と、辞書管理部2から出力さ
れた認識候補となる各々の単語モデルとのパターンマッ
チングを行うことで、入力された音声の分析を行う機能
を有している。そして、その認識結果をコマンド生成部
4に出力するものである。
The speech recognition unit 3 analyzes the input speech as a time series of feature vectors at certain time intervals, and further analyzes these feature vector sequences and each of the recognition candidates output from the dictionary management unit 2 as recognition candidates. It has a function of analyzing input speech by performing pattern matching with a word model. Then, the recognition result is output to the command generation unit 4.

【0024】パターンマッチングの方法としては、たと
えば「デジダル音声処理」(古井貞煕著、1985年、
東海大学出版会)、「確率モデルによる音声認識」(中
川聖一著、1988年、電子情報通信学会)に詳述され
ている。
As a method of pattern matching, for example, "Digidal voice processing" (Tadahiro Furui, 1985,
Tokai University Press), "Speech Recognition by Stochastic Model" (Seiichi Nakagawa, 1988, IEICE).

【0025】また、音声認識の手法としては、上記パタ
ーンマッチィングの他、入力音声中の全ての音声の中か
ら、予め登録しておいた認識候補単語に良く適合する部
分を探し出し、その適合度がある閾値を越えた場合に、
その単語を認識するキーワードスポッティングを用いて
もよい。
As a method of speech recognition, in addition to the pattern matching described above, a part that matches well with a previously registered recognition candidate word is searched for from all the speeches in the input speech, and the degree of matching is determined. If a certain threshold is exceeded,
Keyword spotting that recognizes the word may be used.

【0026】この手法としては、たとえば「拡張連続D
P法による連続音声アルゴリズム」(中川聖一、電子情
報通信学会論文誌、1984/10、Vol.J67−
DNo.10)を挙げることができる。
As this method, for example, “extended continuous D
P-Method Continuous Speech Algorithm "(Seiichi Nakagawa, IEICE Transactions, 1984/10, Vol. J67-
DNo. 10).

【0027】コマンド生成部4は、辞書管理部2に格納
されている音声認識用辞書2aの単語モデルと操作コマ
ンドとの対応テーブルから対応関係を獲得し、これを参
照して操作コマンドを生成して出力するものである。
The command generation unit 4 obtains the correspondence from the correspondence table between the word model of the speech recognition dictionary 2a stored in the dictionary management unit 2 and the operation command, and generates the operation command by referring to this. Output.

【0028】資料記憶部6は、たとえば磁気ディスク,
光ディスク等の各種の情報記録媒体と、これを駆動する
ドライバ等から構成されており、上記磁気ディスク等に
は操作の対象となるプレゼンテーションデータが記憶さ
れている。
The material storage unit 6 includes, for example, a magnetic disk,
It is composed of various information recording media such as an optical disk and a driver for driving the information recording media, and the magnetic disk or the like stores presentation data to be operated.

【0029】このプレゼンテーションデータは、プレゼ
ンテーションに使用するスライド画像等の静止画像デー
タ,動画像データ,音声データ等であり、これらには、
それぞれを識別するタイトルや、たとえばスライド画像
データの全部又は一部を拡大/縮小するマクロ等が関連
付けされて記録してある。
The presentation data includes still image data such as a slide image used for a presentation, moving image data, audio data, and the like.
A title for identifying each of them, and a macro for enlarging / reducing all or part of the slide image data, for example, are recorded in association with each other.

【0030】プレゼンテーション操作部5は、入力され
た操作コマンドに対応した操作を資料記憶部6に記憶さ
れているプレゼンテーションデータに対して行うもので
ある。
The presentation operation unit 5 performs an operation corresponding to the input operation command on the presentation data stored in the material storage unit 6.

【0031】プレゼンテーション出力部7は、マイクロ
フォン1から入力された音声とともに、プレゼンテーシ
ョン操作部5の操作に係るプレゼンテーションデータを
出力するものであり、たとえばディスプレイ,スピー
カ,アンプ等から構成されている。
The presentation output section 7 outputs presentation data relating to the operation of the presentation operation section 5 together with the voice input from the microphone 1, and is composed of, for example, a display, a speaker, an amplifier and the like.

【0032】上記の構成を有するプレゼンテーション装
置の動作について説明する。マイクロフォン1から入力
された講演者の音声は、プレゼンテーション出力部7及
び音声認識部3に出力される。
The operation of the presentation device having the above configuration will be described. The speaker's voice input from the microphone 1 is output to the presentation output unit 7 and the voice recognition unit 3.

【0033】音声認識部3では、辞書管理部2から出力
された単語モデルを用いて入力音声の認識を行い、その
認識結果をコマンド生成部4に出力する。
The speech recognition section 3 recognizes the input speech using the word model output from the dictionary management section 2 and outputs the recognition result to the command generation section 4.

【0034】コマンド生成部4では、音声認識結果に対
応する操作コマンド、すなわち、入力音声に最も適合度
の高い単語モデルに対応する操作コマンドを生成し、こ
れをプレゼンテーション操作部5に出力する。
The command generation unit 4 generates an operation command corresponding to the speech recognition result, that is, an operation command corresponding to a word model having the highest matching degree to the input voice, and outputs this to the presentation operation unit 5.

【0035】プレゼンテーション操作部5では、資料記
憶部6に記憶されているプレゼンテーションデータに対
して操作コマンドに対応する操作を行う。たとえば操作
コマンドがスライド画像の送り動作という内容のもので
あれば、これに対応する操作をプレゼンテーションデー
タに対して行う。
The presentation operation section 5 performs an operation corresponding to an operation command on the presentation data stored in the material storage section 6. For example, if the operation command is a slide image feed operation, an operation corresponding to the operation is performed on the presentation data.

【0036】これにより次のスライド画像データが資料
記憶部6から読み出され、これがプレゼンテーション出
力部7のディスプレイに表示される。
As a result, the next slide image data is read from the material storage unit 6 and displayed on the display of the presentation output unit 7.

【0037】次に、本発明の第2実施例について図2を
参照して説明する。なお、図1において説明したものと
同等のものについては、同一の符号を付して、それらの
説明を省略する。
Next, a second embodiment of the present invention will be described with reference to FIG. Note that the same components as those described in FIG. 1 are denoted by the same reference numerals, and description thereof is omitted.

【0038】図2に示すプレゼンテーション装置は、図
1に示す回路に音声認識スイッチ部8を加えた構成とし
ている。
The presentation device shown in FIG. 2 has a configuration in which a voice recognition switch unit 8 is added to the circuit shown in FIG.

【0039】音声認識スイッチ部8はたとえばトグルス
イッチを有しており、このトグルスイッチのオン/オフ
操作によって、音声認識部3における音声認識の開始命
令及び終了命令を出力するようになっている。トグルス
イッチは、たとえばマイクロフォンに付属させることが
好ましく、この場合には、講演者が簡単な操作で音声認
識の開始/終了操作を行える。
The voice recognition switch unit 8 has, for example, a toggle switch. By turning on / off the toggle switch, a command to start and end voice recognition in the voice recognition unit 3 is output. The toggle switch is preferably attached to, for example, a microphone. In this case, the speaker can start / end the voice recognition with a simple operation.

【0040】なお、このような音声認識スイッチ部8を
設けた場合、音声認識部3においてはワードスポッティ
ングの代わりに通常の単語認識を行うことも可能であ
る。
When such a voice recognition switch unit 8 is provided, the voice recognition unit 3 can perform normal word recognition instead of word spotting.

【0041】上記音声認識スイッチ部8を設けた場合の
音声認識部3の動作は、次のようになる。
The operation of the voice recognition unit 3 when the voice recognition switch unit 8 is provided is as follows.

【0042】音声認識部3は、音声認識スイッチ部8か
ら音声認識の開始命令が出力されない間は、マイクロフ
ォン1から入力された音声の認識動作を行わない。そし
て、トグルスイッチがオン操作されると、音声認識スイ
ッチ部3から音声認識の開始命令が音声認識部3に出力
される。これにより、音声認識部3は入力音声の認識を
開始し、そのオン操作の間中その認識動作を続行する。
The voice recognition unit 3 does not recognize the voice input from the microphone 1 while the voice recognition switch unit 8 does not output a voice recognition start command. When the toggle switch is turned on, a voice recognition start command is output from the voice recognition switch unit 3 to the voice recognition unit 3. As a result, the voice recognition unit 3 starts recognizing the input voice, and continues the recognition operation during the ON operation.

【0043】次に、トグルスイッチをオフ操作すると、
音声認識部3に音声認識の終了命令が出力される。これ
により、音声認識部3は入力音声の認識を終了する。
Next, when the toggle switch is turned off,
The voice recognition unit 3 outputs a voice recognition end command. Thereby, the voice recognition unit 3 ends the recognition of the input voice.

【0044】図3に示すプレゼンテーション装置は、図
2に示す回路にデータ記憶部9を加えた構成としたもの
である。データ記憶部9は、マイクロフォン1から入力
された音声を、順次所要時間分だけ記憶しておく記憶容
量のRAM(Random Access Memory)等を有するもので
あり、このデータ記憶部9に記憶されている音声データ
は、音声認識部3に出力されるようになっている。
The presentation device shown in FIG. 3 has a configuration in which a data storage unit 9 is added to the circuit shown in FIG. The data storage unit 9 includes a RAM (Random Access Memory) having a storage capacity for sequentially storing voices input from the microphone 1 for a required time, and is stored in the data storage unit 9. The voice data is output to the voice recognition unit 3.

【0045】このようなデータ記憶部9を設けた場合
の、音声認識部の動作は次のようになる。講演を行って
いる最中の任意の時点で音声認識スイッチ部8のトグル
スイッチをオン操作すると、データ記憶部9に記憶され
ている所要時間分の音声データが音声認識部3に出力さ
れる。
The operation of the voice recognition unit when such a data storage unit 9 is provided is as follows. When the toggle switch of the voice recognition switch unit 8 is turned on at any time during the lecture, voice data for the required time stored in the data storage unit 9 is output to the voice recognition unit 3.

【0046】音声認識部3は、データ記憶部9に記憶さ
れている所要時間分の音声データと、トグルスイッチを
オン操作した以降、マイクロフォン1から入力される音
声とに基づいて入力音声の認識を実行する。そして、ト
グルスイッチがオフ操作されると、音声認識部3は認識
動作を停止し、その後、認識結果をコマンド生成部4に
出力する。
The voice recognition unit 3 recognizes the input voice based on the voice data for the required time stored in the data storage unit 9 and the voice input from the microphone 1 after turning on the toggle switch. Execute. Then, when the toggle switch is turned off, the voice recognition unit 3 stops the recognition operation, and thereafter outputs the recognition result to the command generation unit 4.

【0047】図4に示すプレゼンテーション装置は、図
2に示す回路に終了命令遅延部10を加えた構成とした
ものである。終了命令遅延部10は、音声認識スイッチ
部8のトグルスイッチのオフ操作に伴う終了命令の、音
声認識部3への伝達を所要時間遅延させるものである。
The presentation device shown in FIG. 4 has a configuration in which an end command delay unit 10 is added to the circuit shown in FIG. The end command delay unit 10 delays the transmission of the end command accompanying the OFF operation of the toggle switch of the voice recognition switch unit 8 to the voice recognition unit 3 by a required time.

【0048】このような終了命令遅延部10を設けた場
合の、音声認識部3の動作は次のようになる。音声認識
スイッチ部8から出力された終了命令は、終了命令遅延
部10に入力される。そして、ある一定時間が経過した
後に音声認識部3に伝達される。所要時間後に終了命令
を受けた音声認識部3は認識動作を終了し、その認識結
果をコマンド生成部4に出力する。
The operation of the voice recognition unit 3 in the case where such an end command delay unit 10 is provided is as follows. The end command output from the voice recognition switch unit 8 is input to the end command delay unit 10. Then, the information is transmitted to the voice recognition unit 3 after a certain time has elapsed. After receiving the end command after the required time, the voice recognition unit 3 ends the recognition operation, and outputs the recognition result to the command generation unit 4.

【0049】図5に示すプレゼンテーション装置は、図
1に示す構成に、上述した音声認識スイッチ部8、デー
タ記憶部9及び終了命令遅延部10を設けたものであ
る。
The presentation apparatus shown in FIG. 5 has the same configuration as that shown in FIG. 1 except that the above-described speech recognition switch section 8, data storage section 9, and end command delay section 10 are provided.

【0050】このような構成とした場合の、音声認識部
3の動作は次のようになる。音声認識部3は、データ記
憶部9に記憶されている所要時間分の音声データと、ト
グルスイッチをオン操作した以降、マイクロフォン1か
ら入力される音声とに基づいて入力音声の認識を実行す
る。
The operation of the speech recognition section 3 in such a configuration is as follows. The voice recognition unit 3 performs input voice recognition based on voice data for a required time stored in the data storage unit 9 and voice input from the microphone 1 after turning on the toggle switch.

【0051】そして、音声認識スイッチ部8のトグルス
イッチがオフ操作されると、該音声認識スイッチ部8か
らの終了命令が終了命令遅延部10に出力される。そし
て、終了命令が終了命令遅延部10に出力されから所定
時間が経過すると、入力された終了命令が音声認識部3
に出力される。所要時間後に終了命令を受けた音声認識
部3は認識動作を終了し、その認識結果をコマンド生成
部4に出力する。
When the toggle switch of the voice recognition switch unit 8 is turned off, a termination command from the voice recognition switch unit 8 is output to the termination command delay unit 10. When a predetermined time has elapsed since the end command was output to the end command delay unit 10, the input end command is output to the speech recognition unit 3.
Is output to After receiving the end command after the required time, the voice recognition unit 3 ends the recognition operation, and outputs the recognition result to the command generation unit 4.

【0052】図6に示すプレゼンテーション装置は、図
2に示す回路に自動辞書作成部11を加えた構成とした
ものである。自動辞書作成部11は、資料記憶部6に記
憶されているプレゼンテーションデータからキーワード
を自動的に抽出し、音声認識用辞書を作成する機能を有
するものである。
The presentation device shown in FIG. 6 has a configuration in which an automatic dictionary creation unit 11 is added to the circuit shown in FIG. The automatic dictionary creation unit 11 has a function of automatically extracting a keyword from the presentation data stored in the material storage unit 6 and creating a speech recognition dictionary.

【0053】具体的には、どの場面でも有効な「次のス
ライド」「前のスライド」等のキーワードは、予め登録
しておく。そして、「(各スライドの題名)」「(図の
名前)」等のキーワードを、自動的にプレゼンテーショ
ンデータから抽出し、該キーワードに対応する単語モデ
ルを作成してこれに操作コマンドを対応付けして、音声
認識用辞書に登録する。
Specifically, keywords such as “next slide” and “previous slide” that are effective in any scene are registered in advance. Then, keywords such as “(title of each slide)” and “(name of figure)” are automatically extracted from the presentation data, a word model corresponding to the keyword is created, and an operation command is associated with the word model. And register it in the voice recognition dictionary.

【0054】このような構成とした場合には、単語モデ
ルと操作コマンドとの対応関係を示す対応テーブルをプ
レゼンテーション毎に音声認識用辞書に登録する作業を
必要としない。
With such a configuration, it is not necessary to register a correspondence table indicating the correspondence between the word model and the operation command in the speech recognition dictionary for each presentation.

【0055】図7に示すプレゼンテーション装置は、図
2に示す回路に認識候補単語出力部12を加えた構成と
したものである。
The presentation device shown in FIG. 7 has a configuration in which a recognition candidate word output unit 12 is added to the circuit shown in FIG.

【0056】認識候補単語出力部12は、辞書管理部2
から出力された認識候補となる単語モデルを、プレゼン
テーション出力部7に出力する機能を有するものであ
る。具体的には、プレゼンテーション出力部7を複数設
け、このうちの1つに認識候補単語出力部12を接続す
る構成が好ましい。
The recognition candidate word output unit 12 includes the dictionary management unit 2
Has the function of outputting the word model that is a recognition candidate output from the presentation output unit 7. Specifically, a configuration is preferable in which a plurality of presentation output units 7 are provided, and the recognition candidate word output unit 12 is connected to one of them.

【0057】この認識候補単語出力部12は、プレゼン
テーションが始まると、当該プレゼンテーションで使用
する単語モデルを、辞書管理部2から読み出して、これ
をプレゼンテーション出力部7に出力する。プレゼンテ
ーション出力部7は、入力した単語モデルをディスプレ
イ上の講演者の見える位置に表示する。
When the presentation starts, the recognition candidate word output unit 12 reads a word model used in the presentation from the dictionary management unit 2 and outputs it to the presentation output unit 7. The presentation output unit 7 displays the input word model at a position on the display where the speaker can see.

【0058】また、プレゼンテーション出力部7に複数
のディスプレイを設けた場合には、そのうちの1つのデ
ィスプレイを講演者の方に向けておき、このディスプレ
イだけに単語モデルを表示する。
When a plurality of displays are provided in the presentation output unit 7, one of the displays is directed to the speaker, and the word model is displayed only on this display.

【0059】図8に示すプレゼンテーション装置は、図
2に示す回路に複数の副コマンド生成部131 〜13n
と、メディア選択部14とを設けた構成のものである。
各コマンド生成部131 等は、たとえばキーボード,マ
ウスあるいは他の音声等、外部からの入力データに基づ
いて操作コマンドを生成する機能を有するものである。
The presentation device shown in FIG. 8 includes a plurality of subcommand generators 13 1 to 13 n in the circuit shown in FIG.
And a media selection unit 14.
Each command generation unit 13 1 and the like, for example, those having a keyboard, a mouse or other voice, etc., the function of generating an operation command based on the input data from the outside.

【0060】メディア選択部14は、副コマンド生成部
131 及びコマンド生成部4から出力された操作コマン
ドを選択して、これらのうちの1つをプレゼンテーショ
ン出力部7に出力する機能を有している。この選択は、
たとえばあるタイミングで該メディア選択部14に最初
に入力された操作コマンドのみをプレゼンテーション出
力部7に出力する等、様々な基準のものを採用できる。
[0060] The media selection section 14 selects an operation command outputted from the sub command generation unit 13 1 and the command generating unit 4, and outputting one of these in the presentation output section 7 I have. This choice is
For example, various criteria can be adopted, such as outputting only the operation command first input to the media selection unit 14 to the presentation output unit 7 at a certain timing.

【0061】なお、本発明は前述した実施例に限るもの
ではなく、その要旨の範囲内で様々に変形実施が可能で
ある。
The present invention is not limited to the above-described embodiment, but can be variously modified within the scope of the invention.

【0062】[0062]

【発明の効果】請求項1〜4に記載した発明によれば、
マイクロフォンに入力された音声に含まれるキーワード
を自動的に認識し、この認識したキーワードに基づいて
画像,音声等のプレゼンテーションデータの操作を自動
的に行うことができる。
According to the invention described in claims 1 to 4,
A keyword included in the voice input to the microphone is automatically recognized, and the operation of presentation data such as an image and a voice can be automatically performed based on the recognized keyword.

【0063】具体的には、たとえば項目の強調、図から
表への変換、図の拡大、任意のスライドへの移動等のプ
レゼンテーションデータの操作を、音声によって容易に
行うことができる。また、講演者自身の音声によって操
作できるため、講演者はマウスやキーボード等の操作に
煩わされることなく、途切れない自然なプレゼンテーシ
ョンを行うことができる。
Specifically, for example, the operation of presentation data such as emphasis of items, conversion from a diagram to a table, enlargement of a diagram, and movement to an arbitrary slide can be easily performed by voice. In addition, since the operation can be performed by the speaker's own voice, the speaker can make a natural presentation without interruption without being bothered by the operation of the mouse and the keyboard.

【0064】請求項2に記載した発明によれば、単語モ
デルと操作コマンドとの対応関係を示す対応テーブル
を、プレゼンテーション毎に音声認識用辞書に登録する
作業を必要とせず、事前の登録作業を軽減することがで
きる。
According to the second aspect of the present invention, it is not necessary to register the correspondence table indicating the correspondence between the word model and the operation command in the speech recognition dictionary for each presentation, and it is possible to perform the prior registration work. Can be reduced.

【0065】請求項3に記載した発明によれば、プレゼ
ンテーションを行う者は、ディスプレイに表示されてい
るキーワードを参照しながらプレゼンテーションを行え
るので、予めキーワードを記憶することや、暗記した場
合の記憶違いを防止することができる。
According to the third aspect of the present invention, the person giving the presentation can perform the presentation while referring to the keyword displayed on the display. Can be prevented.

【0066】請求項4に記載した発明によれば、複数の
ディスプレイのうちの1台をプレゼンテーションを行う
者に向けておき、このディスプレイだけにキーワードを
表示させられる。このため、観衆にはプレゼンテーショ
ンデータのみを見せることができ、キーワードが表示さ
れることによる注意力の低下を防止することができる。
According to the fourth aspect of the present invention, one of the plurality of displays is directed to the person who makes the presentation, and the keyword can be displayed only on this display. Therefore, only the presentation data can be shown to the audience, and a decrease in attention due to the display of the keyword can be prevented.

【図面の簡単な説明】[Brief description of the drawings]

【図1】(A)は本発明のプレゼンテーション装置の第
1実施例を示すブロック図、(B)は辞書管理部の詳細
を示すブロック図である。
FIG. 1A is a block diagram illustrating a first embodiment of a presentation device according to the present invention, and FIG. 1B is a block diagram illustrating details of a dictionary management unit.

【図2】本発明プレゼンテーション装置の第2実施例を
示すブロック図である。
FIG. 2 is a block diagram showing a second embodiment of the presentation device of the present invention.

【図3】本発明プレゼンテーション装置の第3実施例を
示すブロック図である。
FIG. 3 is a block diagram showing a third embodiment of the presentation device of the present invention.

【図4】本発明プレゼンテーション装置の第4実施例を
示すブロック図である。
FIG. 4 is a block diagram showing a fourth embodiment of the presentation device of the present invention.

【図5】本発明プレゼンテーション装置の第5実施例を
示すブロック図である。
FIG. 5 is a block diagram showing a fifth embodiment of the presentation device of the present invention.

【図6】本発明プレゼンテーション装置の第6実施例を
示すブロック図である。
FIG. 6 is a block diagram showing a sixth embodiment of the presentation device of the present invention.

【図7】本発明プレゼンテーション装置の第7実施例を
示すブロック図である。
FIG. 7 is a block diagram showing a seventh embodiment of the presentation device of the present invention.

【図8】本発明プレゼンテーション装置の第8実施例を
示すブロック図である。
FIG. 8 is a block diagram showing an eighth embodiment of the presentation device of the present invention.

【符号の説明】[Explanation of symbols]

1 マイクロフォン 2 辞書管理部 2a 音声認識用辞書 3 音声認識部 4 コマンド生成部 5 プレゼンテーション操作部 6 資料記憶部(プレゼンテーション記憶
部) 7 プレゼンテーション出力部 11 自動辞書作成部 12 認識候補単語出力部
DESCRIPTION OF SYMBOLS 1 Microphone 2 Dictionary management part 2a Speech recognition dictionary 3 Speech recognition part 4 Command generation part 5 Presentation operation part 6 Material storage part (presentation storage part) 7 Presentation output part 11 Automatic dictionary creation part 12 Recognition candidate word output part

Claims (3)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 マイクロフォンと、音声認識用辞書を参
照して、マイクロフォンから入力された音声に含まれる
プレゼンテーション操作用のキーワードを認識する音声
認識部と、単語モデルと操作コマンドとの対応付けを記
述した上記音声認識用辞書の対応テーブルを参照して、
上記認識したキーワードに対応する操作コマンドを生成
するコマンド生成部と、プレゼンテーションに使用する
画像,音声等のプレゼンテーションデータを記憶したプ
レゼンテーション記憶部と、この記憶されたプレゼンテ
ーションデータに対して上記操作コマンドに対応する操
作を行うプレゼンテーション操作部と、この操作に係る
プレゼンテーションデータを出力するプレゼンテーショ
ン出力部とを有するプレゼンテーション装置において、
プレゼンテーション記憶部から、キーワードを自動的に
抽出し、該キーワードに対応する単語モデルと操作コマ
ンドとを対応付けて音声認識用辞書に登録する自動辞書
作成部を設けたことを特徴とするプレゼンテーション装
置。
1. A microphone, a voice recognition unit for recognizing a keyword for a presentation operation included in voice input from a microphone with reference to a voice recognition dictionary, and a correspondence between a word model and an operation command are described. Referring to the correspondence table of the speech recognition dictionary described above,
A command generation unit that generates an operation command corresponding to the recognized keyword; a presentation storage unit that stores presentation data such as images and sounds to be used for a presentation; and a storage unit that corresponds to the operation command with respect to the stored presentation data. A presentation device having a presentation operation unit for performing an operation of performing a presentation operation and a presentation output unit for outputting presentation data relating to the operation .
Keyword automatically from presentation storage
Extract the word model and operation frame corresponding to the keyword.
An automatic dictionary that associates a command with a command and registers it in the dictionary for speech recognition.
Presentation equipment characterized by having a creation unit
Place.
【請求項2】 音声認識用辞書には、認識候補となる単
語モデルが登録されており、これをプレゼンテーション
出力部に表示させる認識候補単語出力部を設けたことを
特徴とする請求項1記載のプレゼンテーション装置。
The 2. A dictionary for speech recognition, word models to be recognized candidate is registered, in that a recognition candidate word output unit for displaying it to the presentation output unit
The presentation device according to claim 1, wherein
【請求項3】 プレゼンテーション出力部を複数設ける
とともに、そのうちの1つに認識候補単語出力部を設け
ことを特徴とする請求項2記載のプレゼンテーション
装置。
3. The presentation device according to claim 2 , wherein a plurality of presentation output units are provided, and one of the presentation output units is provided with a recognition candidate word output unit.
JP7167896A 1995-06-12 1995-06-12 Presentation device Expired - Fee Related JP2924717B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7167896A JP2924717B2 (en) 1995-06-12 1995-06-12 Presentation device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7167896A JP2924717B2 (en) 1995-06-12 1995-06-12 Presentation device

Publications (2)

Publication Number Publication Date
JPH08339198A JPH08339198A (en) 1996-12-24
JP2924717B2 true JP2924717B2 (en) 1999-07-26

Family

ID=15858075

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7167896A Expired - Fee Related JP2924717B2 (en) 1995-06-12 1995-06-12 Presentation device

Country Status (1)

Country Link
JP (1) JP2924717B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003216174A (en) * 2002-01-22 2003-07-30 Seiko Epson Corp Remote control device of projector
JP2003215707A (en) * 2002-01-22 2003-07-30 Seiko Epson Corp Presentation system

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE254327T1 (en) * 1997-12-30 2003-11-15 Koninkl Philips Electronics Nv VOICE RECOGNITION APPARATUS USING A COMMAND LEXICO
JPH11355747A (en) * 1998-06-10 1999-12-24 Nec Corp Video/sound communication equipment and video conference equipment using the same equipment
JP4248636B2 (en) * 1998-10-30 2009-04-02 オリンパス株式会社 Voice recording device
JP2000250392A (en) * 1999-03-02 2000-09-14 Kansai Tlo Kk Remote lecture device
JP2001014135A (en) * 1999-06-29 2001-01-19 Seiko Epson Corp Presentation system, presentation method and information storage medium
JP4137399B2 (en) * 2001-03-30 2008-08-20 アルパイン株式会社 Voice search device
JP4789227B2 (en) * 2001-04-04 2011-10-12 Necディスプレイソリューションズ株式会社 Video display device with built-in voice recognition function
FR2823585B1 (en) * 2001-04-13 2003-09-12 Cantoche Production METHOD AND SYSTEM FOR ANIMATING A THREE-DIMENSIONAL CHARACTER
JP4088131B2 (en) * 2002-03-28 2008-05-21 富士通株式会社 Synchronous content information generation program, synchronous content information generation device, and synchronous content information generation method
JP2004234604A (en) * 2003-01-29 2004-08-19 Mitac Technology Corp Computer device having radio sound signal receiving module
JP2004265329A (en) * 2003-03-04 2004-09-24 Toshiba Corp Information processing device and program
JP2004343232A (en) * 2003-05-13 2004-12-02 Nec Corp Communication apparatus and communication method
JP4710331B2 (en) * 2005-01-27 2011-06-29 ソニー株式会社 Apparatus, method, program and recording medium for remote control of presentation application
JP4557919B2 (en) * 2006-03-29 2010-10-06 株式会社東芝 Audio processing apparatus, audio processing method, and audio processing program
JP5114578B2 (en) * 2011-02-10 2013-01-09 Necディスプレイソリューションズ株式会社 Video display device with built-in voice recognition function
JP5242856B1 (en) * 2012-07-06 2013-07-24 株式会社メディアシーク Music playback program and music playback system
JP6886663B2 (en) * 2018-02-19 2021-06-16 日本電信電話株式会社 Operation instruction generation system, method and program

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6045960A (en) * 1984-04-18 1985-03-12 Sanyo Electric Co Ltd Tape recorder for recognizing voice
JP2829014B2 (en) * 1989-01-12 1998-11-25 株式会社東芝 Speech recognition device and method
JPH04308923A (en) * 1991-04-05 1992-10-30 Seiko Epson Corp Voice inputting device
JPH06119140A (en) * 1992-10-09 1994-04-28 Ricoh Co Ltd Sale assisting device

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003216174A (en) * 2002-01-22 2003-07-30 Seiko Epson Corp Remote control device of projector
JP2003215707A (en) * 2002-01-22 2003-07-30 Seiko Epson Corp Presentation system

Also Published As

Publication number Publication date
JPH08339198A (en) 1996-12-24

Similar Documents

Publication Publication Date Title
JP2924717B2 (en) Presentation device
US6377925B1 (en) Electronic translator for assisting communications
KR101826714B1 (en) Foreign language learning system and foreign language learning method
Christel et al. Informedia digital video library
US7636662B2 (en) System and method for audio-visual content synthesis
JP4088131B2 (en) Synchronous content information generation program, synchronous content information generation device, and synchronous content information generation method
JP2005215689A5 (en)
JPWO2008114811A1 (en) Information search system, information search method, and information search program
JPH10507554A (en) Method and apparatus for creating searchable digital video libraries and systems and methods utilizing such libraries
JP2000081892A (en) Device and method of adding sound effect
WO2005094437A2 (en) System and method for automatically cataloguing data by utilizing speech recognition procedures
JP2005196134A (en) System, method, and program for voice interaction
JP2007018290A (en) Handwritten character input display supporting device and method and program
JP4649082B2 (en) Method and system for automatically controlling functions during speech
JPH11259269A (en) Information processor and method therefor and storage medium
JPH08249343A (en) Device and method for speech information acquisition
JP3548900B2 (en) Multimedia information processing device
JP2003271532A (en) Communication system, data transfer method of the system, server of the system, processing program for the system and record medium
KR101987644B1 (en) System for providing effect based on a reading
JP2007293602A (en) System and method for retrieving image and program
JP2001006295A (en) Information reproducing device and method therefor, as well as information providing medium
KR102479023B1 (en) Apparatus, method and program for providing foreign language learning service
JP3344527B2 (en) Translation apparatus and translation method
US6026407A (en) Language data storage and reproduction apparatus
KR101576683B1 (en) Method and apparatus for playing audio file comprising history storage

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 19981023

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19990406

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090507

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100507

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110507

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110507

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120507

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120507

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130507

Year of fee payment: 14

LAPS Cancellation because of no payment of annual fees