JP2003263308A - Screen control device and method - Google Patents

Screen control device and method

Info

Publication number
JP2003263308A
JP2003263308A JP2002382216A JP2002382216A JP2003263308A JP 2003263308 A JP2003263308 A JP 2003263308A JP 2002382216 A JP2002382216 A JP 2002382216A JP 2002382216 A JP2002382216 A JP 2002382216A JP 2003263308 A JP2003263308 A JP 2003263308A
Authority
JP
Japan
Prior art keywords
phoneme
screen
voice
input
screen control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002382216A
Other languages
Japanese (ja)
Inventor
Keiji Fukuzawa
圭二 福沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Platforms Ltd
Original Assignee
NEC Infrontia Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Infrontia Corp filed Critical NEC Infrontia Corp
Priority to JP2002382216A priority Critical patent/JP2003263308A/en
Publication of JP2003263308A publication Critical patent/JP2003263308A/en
Pending legal-status Critical Current

Links

Abstract

<P>PROBLEM TO BE SOLVED: To provide a screen control device making it possible to provide instructions on processes for a display screen and a processing amount by means of voice and a more intuitive and easier method. <P>SOLUTION: Input voice has its features extracted as it is analyzed by the acoustic feature extracting part 11 of the screen control device 10, with the features being inputted to the neural network of a phoneme distinguishing part 12 for each one frame. Phonemes are distinguished by the phoneme distinguishing part 12 in real time and results for five frames are output as a line of phoneme distinction patterns G. A phoneme continuation detecting part 13 determines the average value of output levels among five frames for each phoneme according to the line of phoneme distinction patterns G, and if the output level of the average is greater than a predetermined value H, a determination is made that the phoneme was input in continuation. Only for the period during which the signal of the phoneme continues, a screen control part 14 performs a predetermined screen operation that is allocated to that phoneme. <P>COPYRIGHT: (C)2003,JPO

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、音声により画面の表示
画像に対する操作を指示する画面制御装置に関し、さら
に、その音声の所定の音の継続する長さにより、前記操
作の量を指示することが可能な画面制御装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a screen control device for instructing an operation for a display image on a screen by voice, and further for instructing the amount of the operation by the duration of a predetermined sound of the voice. The present invention relates to a screen control device capable of performing.

【0002】[0002]

【従来の技術】音声により各種の機器の操作を直接指示
することができれば、その機器の操作が容易に効率よく
行え、ヒューマンインターフェイスが著しく向上する。
そして、近年の音声認識技術の進展により、実際に音声
により各種の機器の制御を行う方法が提案されている。
たとえば、ワークステーションやパーソナルコンピュー
タの画面上において、表示されている種々のオブジェク
トに対する移動/拡大/縮小/回転などの処理を、音声
入力により行う方法も提案されている。
2. Description of the Related Art If it is possible to directly instruct the operation of various equipment by voice, the operation of the equipment can be performed easily and efficiently, and the human interface is remarkably improved.
Then, with the recent development of voice recognition technology, a method of actually controlling various devices by voice has been proposed.
For example, on the screen of a workstation or a personal computer, a method of moving, enlarging, reducing, or rotating the various displayed objects by voice input has been proposed.

【0003】その方法は、たとえば、ワークステーショ
ンなどに外付けされたマイクロフォンなどの音声入力手
段に対して、操作者が所定の処理を示す言葉を発声する
と、その音声を認識し、予め定められた言葉と処理との
対応付けを参照してその認識された言葉に対応する処理
を決定し、画面を制御してその処理を実行するというも
のであった。すなわち、入力された音声を1つのコマン
ドとして認識し、通常のキーボードなどからのコマンド
入力と同じ処理を行って画面の制御を行うものであっ
た。
In this method, for example, when an operator utters a word indicating a predetermined process to a voice input means such as a microphone externally attached to a workstation or the like, the voice is recognized and predetermined. The process corresponding to the recognized word is determined by referring to the correspondence between the word and the process, and the screen is controlled to execute the process. That is, the input voice is recognized as one command, and the same processing as command input from a normal keyboard or the like is performed to control the screen.

【0004】[0004]

【発明が解決しようとする課題】しかし、前述したこれ
までの音声による画面制御の指示は、一度のコマンド入
力(音声入力)により、予め定められた所定量の移動/
拡大/縮小/回転を行うものであり、任意の距離だけ移
動させたり、任意の倍率で拡大/縮小させたり、あるい
は任意の角度で回転させたりすることができなかった。
そのように、任意の量だけ前記処理を行おうとすると、
別途キーボードより数値を指定したり、別途数字を発声
して認識させたり、あるいは処理の開始と終了の指示を
別個に入力したりする操作が必要であった。このような
処理は、キーボードなどにより通常に画面操作を行うの
に匹敵する操作であり、音声によるコマンド入力という
利便性を十分生かしたヒューマンインターフェイスのよ
い装置とは言い難かった。
However, the above-mentioned instruction of screen control by voice so far is performed by a command input (voice input) once by a predetermined amount of movement / movement.
Enlargement / reduction / rotation is performed, and it is impossible to move it by an arbitrary distance, enlarge / reduce it at an arbitrary magnification, or rotate it at an arbitrary angle.
In that way, if you try to perform the above process by any amount,
It was necessary to separately specify a numerical value from the keyboard, to separately utter a numerical value for recognition, or to separately input instructions for starting and ending the processing. Such processing is an operation comparable to a normal screen operation using a keyboard or the like, and it is hard to say that it is a device with a good human interface that takes full advantage of the convenience of command input by voice.

【0005】したがって、本発明の目的は、任意の画像
を表示する表示装置に対して、表示画面に対する処理お
よびその処理量を、音声により直感的で容易な方法によ
り指示することが可能な画面制御装置を提供することに
ある。また、本発明の他の目的は、表示装置に対して、
音声により処理の種類と処理量の両方を指示する画面制
御方法を提供することにある。
Therefore, it is an object of the present invention to provide a screen control capable of instructing a display device for displaying an arbitrary image a process for a display screen and its processing amount by voice in an intuitive and easy method. To provide a device. Another object of the present invention is to provide a display device,
It is to provide a screen control method for instructing both the type and the amount of processing by voice.

【0006】[0006]

【課題を解決するための手段】本願発明者は、音声によ
るコマンド入力によりその処理とともに処理量を指定す
るために、アナログ的に容易に調節可能である発声期間
を用いることを検討した。特に画面の制御においては、
処理結果を実時間で観察することが可能なので、画面を
見ながらその発声の連続/終了を行えば、その画面を所
望の結果に至らせる処理を直接的・直感的に指定するこ
とができる。
The inventor of the present application has studied the use of a utterance period that can be easily adjusted in an analog manner in order to specify the amount of processing together with the processing by command input by voice. Especially when controlling the screen,
Since it is possible to observe the processing result in real time, it is possible to directly and intuitively specify the processing that brings the screen to a desired result if the utterance is continued / finished while watching the screen.

【0007】本発明の第1の観点によれば、画面に表示
された画像について、事前に登録された音声の単語の内
容に応じて拡大もしくは縮小を、該音声の語尾の継続時
間に応じて拡大もしくは縮小させる画面制御装置であっ
て、入力された音声の単語の内容を認識して前記画面に
表示された画像の拡大もしくは縮小を決定する音声認識
手段と、前記入力された音声の語尾の継続時間を検出す
る継続時間検出手段と、前記画面に表示された画像を、
前記検出された語尾の継続時間に応じて拡大もしくは縮
小を行なう、画面制御手段とを有する画面制御装置が提
供される。
According to the first aspect of the present invention, the image displayed on the screen is enlarged or reduced in accordance with the content of the word of the voice registered in advance, and is enlarged or reduced according to the duration of the ending of the voice. A screen control device for enlarging or reducing, a voice recognition means for recognizing the content of a word of an input voice and determining whether to enlarge or reduce the image displayed on the screen, and the ending of the input voice. A duration detection means for detecting the duration and an image displayed on the screen,
There is provided a screen control device having screen control means for enlarging or reducing according to the detected duration of the ending.

【0008】本発明の第2の観点によれば、画面に表示
された画像について、事前に登録された音声の単語の内
容に応じて、拡大もしくは縮小を、該音声の語尾の継続
時間に応じて拡大もしくは縮小させる画面制御方法であ
って、入力された音声の単語の内容を認識して前記画面
に表示された画像の拡大もしくは縮小を決定する音声認
識工程と、前記入力された音声の語尾の継続時間を検出
する継続時間検出工程と、前記画面に表示された画像
を、前記検出された語尾の継続時間に応じて拡大もしく
は縮小を行なう、画面制御工程とを有する画面制御方法
が提供される。
According to the second aspect of the present invention, the image displayed on the screen is enlarged or reduced according to the content of the word of the voice registered in advance, according to the duration of the ending of the voice. A voice control step of recognizing the content of a word of an input voice to determine enlargement or reduction of an image displayed on the screen, and a ending of the input voice. A screen control method is provided, which includes a duration detection step of detecting the duration of time, and a screen control step of enlarging or reducing the image displayed on the screen according to the detected duration of the ending. It

【0009】[0009]

【作用】本発明によれば、制御される表示装置に対して
音声が入力されると、その入力音声を分析し、特徴抽出
を行い、その特徴に基づいて入力音を識別する。そし
て、その識別された音声信号が、表示装置に対する所定
の処理に対応する音声信号か否かを判定し、対応する音
声信号だった場合には、前記所定の処理を表示装置に対
して実行する。一方で、その処理を指定した入力音声信
号より所定の音の連続を検出しておき、前記所定の処理
が開始された時には、前記その所定の音の連続が続いて
いる間、その処理を継続する。
According to the present invention, when a voice is input to the controlled display device, the input voice is analyzed, feature extraction is performed, and the input sound is identified based on the feature. Then, it is determined whether or not the identified audio signal is an audio signal corresponding to a predetermined process for the display device, and if it is a corresponding audio signal, the predetermined process is executed for the display device. . On the other hand, when a predetermined sound sequence is detected from the input audio signal that specified the process, and when the predetermined process is started, the process is continued while the predetermined sound sequence continues. To do.

【0010】[0010]

【実施例】第1実施例 本発明の画面制御装置の第1実施例を図1〜図4を参照
して説明する。図1は、第1実施例の画面制御装置の構
成を示すブロック図である。画面制御装置10は、音響
特徴抽出部11、音素識別部12、音素継続検出部1
3、および、画面制御部14を有する。以下、各部の構
成および動作について説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS First Embodiment A first embodiment of the screen control device of the present invention will be described with reference to FIGS. FIG. 1 is a block diagram showing the configuration of the screen control device of the first embodiment. The screen control device 10 includes an acoustic feature extraction unit 11, a phoneme identification unit 12, and a phoneme continuation detection unit 1.
3 and a screen control unit 14. The configuration and operation of each unit will be described below.

【0011】音響特徴抽出部11は、入力された音声信
号より音響特徴量を抽出し、音素識別部12に出力す
る。音響特徴抽出部11で行う分析の条件を表1に示
す。またこの分析により、メルスケール16チャネル高
速フーリエ変換(mel-scale 16-channel FFT)の出力の
5フレーム(50ms)を特徴量として音素識別部12
に出力する。
The acoustic feature extraction unit 11 extracts an acoustic feature amount from the input voice signal and outputs it to the phoneme identification unit 12. Table 1 shows the conditions of the analysis performed by the acoustic feature extraction unit 11. Also, by this analysis, the phoneme identification unit 12 uses 5 frames (50 ms) of the output of the mel-scale 16-channel FFT as a feature amount.
Output to.

【0012】[0012]

【表1】 [Table 1]

【0013】音素識別部12は、音響特徴抽出部11よ
り入力された音響特徴量に基づいて音素の識別を行い、
その識別結果を音素継続検出部13に出力する音素認識
手段である。音素識別部12は、図2に示すような4層
のフィードフォワード型ニューラルネットワークにより
構成される。このニューラルネットワークは、入力層、
隠れ層1、隠れ層2および出力層として、各々80個、
100個、50個、6個のユニットを有する。音素識別
部12は、このニューラルネットワークにより、表2に
示す5個の母音と/sh/の6個の音素を識別する。
The phoneme identification unit 12 identifies phonemes based on the acoustic feature quantity input from the acoustic feature extraction unit 11,
It is a phoneme recognition unit that outputs the identification result to the phoneme continuation detection unit 13. The phoneme identification unit 12 is composed of a four-layer feedforward neural network as shown in FIG. This neural network has an input layer,
80 hidden layers, 1 hidden layer 2, and 80 hidden layers,
It has 100, 50, and 6 units. The phoneme identification unit 12 identifies the five vowels and the six phonemes of / sh / shown in Table 2 by this neural network.

【0014】[0014]

【表2】 [Table 2]

【0015】なお、このニューラルネットワークにおい
ては、予め学習をさせて、音素の識別が可能な回路網を
構成する必要がある。本実施例については、特定の男性
話者1名の発声により2620単語を用いて表2に示す
6個の音素の学習を行うことにより、前記6音素の識別
が十分可能な回路網を構成することができた。また、音
素識別部12の出力は、音素識別パタン列G=(g1
2 ,・・・,gt ・・・,gT )として出力される。
この音素識別パタン列Gの要素gt は時刻tの出力ベク
トルを表し、要素数Tは音声フレーム長を表す。また、
出力ベクトルgt のベクトル次元数はニューラルネット
ワークの出力ユニット数で、本実施例においては6であ
る。
In this neural network, it is necessary to perform learning in advance to construct a circuit network capable of identifying phonemes. In the present embodiment, by learning the 6 phonemes shown in Table 2 using 2620 words by one specific male speaker, a circuit network capable of sufficiently identifying the 6 phonemes is constructed. I was able to. The output of the phoneme identification unit 12 is the phoneme identification pattern sequence G = (g 1 ,
g 2 , ..., G t ..., G T ).
The element g t of the phoneme identification pattern string G represents the output vector at time t, and the element number T represents the voice frame length. Also,
The number of vector dimensions of the output vector g t is the number of output units of the neural network, which is 6 in this embodiment.

【0016】音素継続検出部13は、音素識別部12の
出力である音素識別パタン列Gに基づいて同一の音素の
継続を検出し、その継続している間、その旨を示す信号
を画面制御部14に出力する。具体的には、音素識別部
12のニューラルネットワークの出力層の各ユニットの
出力レベルを観測し、そのnフレームの平均が一定レベ
ルHを維持している時間を計測し、その時間が最小継続
時間Lmin 以上継続している場合にその音素の音声信号
が継続して入力されていると判定する。そしてその継続
が検出されている間、その音素の継続を示す信号を画面
制御部14に出力する。
The phoneme continuation detection unit 13 detects continuation of the same phoneme based on the phoneme identification pattern string G which is the output of the phoneme identification unit 12, and during that continuation, a signal indicating that is detected is screen-controlled. It is output to the unit 14. Specifically, the output level of each unit of the output layer of the neural network of the phoneme identification unit 12 is observed, the time during which the average of the n frames maintains a constant level H is measured, and the time is the minimum duration time. When L min or more continues, it is determined that the voice signal of the phoneme is continuously input. Then, while the continuation is detected, a signal indicating the continuation of the phoneme is output to the screen control unit 14.

【0017】音素継続検出部13の動作を図3を参照し
て具体的に説明する。図3は、音素の継続の検出を説明
する図であり、音素識別部12のニューラルネットワー
クの出力ユニットに対応した6次元のベクトルgt の1
0msごとの出力値を示す図である。また、本実施例に
おいては、最小継続時間Lmin は5フレームとする。
The operation of the phoneme continuation detecting unit 13 will be specifically described with reference to FIG. FIG. 3 is a diagram for explaining the detection of phoneme continuation, in which one of the six-dimensional vector g t corresponding to the output unit of the neural network of the phoneme identification unit 12 is used.
It is a figure which shows the output value for every 0 ms. Further, in this embodiment, the minimum duration L min is 5 frames.

【0018】図3に示す例においては、フレーム4から
音素/u/の出力が開始され、フレーム6からフレーム
30の間でそのレベルが大きくなっている。また、フレ
ーム31およびフレーム32においては、レベルの小さ
い出力が観測されている。したがって、フレーム5から
フレーム9までの出力レベルの平均値が前記所定値Hよ
り大きいとすれば、そのフレーム9において音素/u/
の継続が検出され、その継続している旨の信号が出力さ
れる。また、フレーム31およびフレーム32と出力レ
ベルが小さいフレームが連続して、その出力レベルの平
均値が前記所定値Hより小さくなると、直ちに前記継続
している旨の信号が終了される。その結果、その音素/
u/の継続を示す信号はフレーム9からフレーム31の
間で出力される。
In the example shown in FIG. 3, the output of the phoneme / u / is started from the frame 4 and the level is increased between the frame 6 and the frame 30. Further, in the frame 31 and the frame 32, low-level output is observed. Therefore, if the average value of the output levels from the frame 5 to the frame 9 is larger than the predetermined value H, the phoneme / u /
Is detected, and a signal indicating that it is continuing is output. Further, when the frame 31 and the frame 32 are continuously connected to frames having a low output level, and the average value of the output levels becomes smaller than the predetermined value H, the signal indicating the continuation is immediately terminated. As a result, the phoneme /
The signal indicating the continuation of u / is output between the frame 9 and the frame 31.

【0019】画面制御部14は、音素継続検出部13よ
り特定の音素が継続して入力されている旨の信号が入力
されたら、その信号が入力されている期間、その音素に
対応した所定の処理を表示装置の画面に対して行う。検
出された音素に対応する画面の処理を表3に示す。
When a signal indicating that a specific phoneme is continuously input is input from the phoneme continuation detection unit 13, the screen control unit 14 receives a predetermined signal corresponding to the phoneme during the input period. The process is performed on the screen of the display device. Table 3 shows the processing of the screen corresponding to the detected phonemes.

【0020】[0020]

【表3】 [Table 3]

【0021】この表示画面に対する処理を図4を参照し
て具体的に説明する。図4は、表示画面の操作を説明す
る図であり、表示画面40に、ポインタ41、第1のウ
ィンドウ42、第2のウィンドウ43、および、クロッ
クツール44が表示されている状態を示す。この表示画
面40は、ワークステーション、パソコンなどでウィン
ドウシステムを起動した場合などに通常見られる画面で
ある。
The process for this display screen will be described in detail with reference to FIG. FIG. 4 is a diagram for explaining the operation of the display screen, and shows a state in which the pointer 41, the first window 42, the second window 43, and the clock tool 44 are displayed on the display screen 40. The display screen 40 is a screen normally seen when the window system is started on a workstation or a personal computer.

【0022】画面制御部14は、音素継続検出部13よ
り/a/の音素の継続を示す信号が入力されたらその信
号が入力されている間ポインタ41を所定の速度で右方
向に移動させる。同様に、/i/の音素の継続を示す信
号が入力されたらその信号が入力されている間ポインタ
41を左方向に、/u/の音素の継続を示す信号が入力
されたらポインタ41を上方向に、各々所定速度で移動
させる。また、/o/の音素の継続を示す信号が入力さ
れたら、ポインタ41が存在するウィンドウ、すなわち
図4の表示画面40においては第1のウィンドウ42を
所定速度で徐々に拡大し、/sh/の音素の継続を示す
信号が入力されたら、ポインタ41が存在する第1のウ
ィンドウ42を同じく所定速度で縮小する。
When the phoneme continuation detector 13 inputs a signal indicating continuation of a phoneme of / a /, the screen controller 14 moves the pointer 41 to the right at a predetermined speed while the signal is being input. Similarly, when a signal indicating continuation of a phoneme of / i / is input, the pointer 41 is moved to the left while the signal is input, and when a signal indicating continuation of a phoneme of / u / is input, the pointer 41 is moved up. In each direction at a predetermined speed. When a signal indicating the continuation of the phoneme of / o / is input, the window in which the pointer 41 exists, that is, the first window 42 in the display screen 40 of FIG. 4, is gradually expanded at a predetermined speed, and / sh / When the signal indicating the continuation of the phoneme is input, the first window 42 in which the pointer 41 exists is also reduced at a predetermined speed.

【0023】このような構成の画面制御装置10の動作
について、具体的に説明する。画面制御装置10により
制御される表示装置に対して音声が入力されると、音響
特徴抽出部11により分析され特徴が抽出されて、1フ
レーム(10ms)ごとに音素識別部12のニューラル
ネットワークに入力される。音素識別部12において
は、ニューラルネットワークによりリアルタイムで音素
の識別が行われ、それまでのフレームの識別結果と合わ
せて5フレーム分の識別結果が音素識別パタン列Gとし
て出力される。そして、音素継続検出部13において、
その音素識別パタン列Gより各音素ごとのその5フレー
ム間の出力レベルの平均値が求められる。求められた平
均の出力レベルが所定の値Hよりも大きい場合に、その
音素が継続して入力されていると判定し、その旨の信号
を画面制御部14に出力する。画面制御部14において
は、その信号に基づいて、各音素ごとに予め定めた所定
の画面操作を行う。
The operation of the screen control device 10 having such a configuration will be specifically described. When a voice is input to the display device controlled by the screen control device 10, the acoustic feature extraction unit 11 analyzes and extracts the feature, and inputs the feature to the neural network of the phoneme identification unit 12 for each frame (10 ms). To be done. In the phoneme identification unit 12, the phoneme is identified in real time by the neural network, and the identification result for five frames is output as the phoneme identification pattern string G together with the identification results of the frames so far. Then, in the phoneme continuation detection unit 13,
From the phoneme identification pattern sequence G, the average value of the output levels for the respective 5 frames for each phoneme is obtained. When the calculated average output level is higher than the predetermined value H, it is determined that the phoneme is continuously input, and a signal to that effect is output to the screen control unit 14. The screen control unit 14 performs a predetermined screen operation for each phoneme based on the signal.

【0024】このように、第1実施例の画面制御装置に
よれば、所定の単音を発声するだけで画面の表示に所定
の処理を行うことができ、さらに、その処理の量は、連
続して発声する長さに応じて調整することができる。し
たがって、画面を見ながら発声を継続したり止めたりす
ることにより、画面に対して所定の処理を適切な量だけ
行うことができる。また、第1実施例の画面制御装置
は、簡単な音素を認識しその連続性を検出しているので
装置の構成が簡単である。特に、本実施例のように音素
識別手段としてニューラルネットワークを用いたとして
も、比較的簡単なニューラルネットワークにより構成す
ることができる。
As described above, according to the screen control device of the first embodiment, it is possible to perform a predetermined process on the screen display only by uttering a predetermined single tone, and further, the amount of the process is continuous. Can be adjusted according to the length of utterance. Therefore, by continuing or stopping uttering while watching the screen, it is possible to perform a predetermined amount of processing on the screen. Further, the screen control device of the first embodiment recognizes simple phonemes and detects their continuity, so that the structure of the device is simple. In particular, even if a neural network is used as the phoneme identifying means as in this embodiment, it can be constructed by a relatively simple neural network.

【0025】第2実施例 本発明の画面制御装置の第2実施例を図5〜図7を参照
して説明する。図5は、第2実施例の画面制御装置の構
成を示すブロック図である。画面制御装置50は、音響
特徴抽出部51、音素識別部52、単語識別部53、画
面制御部54および音声入力検出部55を有する。以
下、各部の構成および動作について説明する。
Second Embodiment A second embodiment of the screen control device of the present invention will be described with reference to FIGS. FIG. 5 is a block diagram showing the configuration of the screen control device of the second embodiment. The screen control device 50 includes an acoustic feature extraction unit 51, a phoneme identification unit 52, a word identification unit 53, a screen control unit 54, and a voice input detection unit 55. The configuration and operation of each unit will be described below.

【0026】音響特徴抽出部51の構成は、前述した第
1実施例の音響特徴抽出部11の構成と基本的に同じで
あり、入力された音声信号を表1に示した条件で分析
し、特徴量を抽出して音素識別部52に出力する。ただ
し、第2実施例においては、特徴量として、前記FFT
出力の7フレーム(70ms)分を特徴量として出力す
るものとする。
The configuration of the acoustic feature extraction unit 51 is basically the same as the configuration of the acoustic feature extraction unit 11 of the first embodiment described above, and the input voice signal is analyzed under the conditions shown in Table 1, The feature amount is extracted and output to the phoneme identification unit 52. However, in the second embodiment, the FFT is used as the feature amount.
It is assumed that 7 frames (70 ms) of output are output as the feature amount.

【0027】音素識別部52は、音響特徴抽出部51よ
り入力された音響特徴量に基づいて音素の識別を行い、
その識別結果を音素継続検出部53に出力する音素認識
手段であり、第1実施例と同様に4層のフィードフォワ
ード型ニューラルネットワークにより構成される。ただ
し、第2実施例の音素識別部52を構成するニューラル
ネットワークは、入力層、隠れ層1、隠れ層2および出
力層に、各々112個、1250個、100個、25個
のユニットを有する。そして、このニューラルネットワ
ークにより、表4に示す25個の音素を識別する。
The phoneme identifying section 52 identifies phonemes based on the acoustic feature quantity input from the acoustic feature extracting section 51,
It is a phoneme recognition means that outputs the identification result to the phoneme continuation detection unit 53, and is composed of a four-layer feedforward neural network as in the first embodiment. However, the neural network forming the phoneme identification unit 52 of the second embodiment has 112 units, 1250 units, 100 units, and 25 units in the input layer, the hidden layer 1, the hidden layer 2, and the output layer, respectively. Then, the 25 phonemes shown in Table 4 are identified by this neural network.

【0028】[0028]

【表4】 [Table 4]

【0029】また、音素識別部52のニューラルネット
ワークにおいても、特定の男性話者1名の発声により2
620単語を用いて学習を行い、表4に示す25個の音
素が識別可能な回路網を構成する。なお、音素識別部1
2の出力は、第1実施例と同じく音素識別パタン列G=
(g1 ,g2 ,・・・,gt ・・・,gT )として出力
される。なお、出力ベクトルgt の次元数はニューラル
ネットワークの出力ユニット数なので、第2実施例にお
いては25である。
Also, in the neural network of the phoneme identification unit 52, 2 voices are produced by one specific male speaker.
Learning is performed using 620 words to form a circuit network in which 25 phonemes shown in Table 4 can be identified. The phoneme identification unit 1
The output of 2 is the phoneme identification pattern sequence G = as in the first embodiment.
(G 1 , g 2 , ..., G t ..., G T ) are output. Since the number of dimensions of the output vector g t is the number of output units of the neural network, it is 25 in the second embodiment.

【0030】単語識別部53は、音素識別部52の出力
である音素識別パタン列Gに基づいて、予め定めた所定
の単語を検出し、その旨を示す信号を画面制御部54に
出力する。具体的には、音素識別部52のニューラルネ
ットワークの出力層の各ユニットの出力レベルを観測
し、そのnフレームの平均が一定レベルHを維持してい
る時間を計測し、その時間が最小継続時間Lmin 以上継
続している場合にその音素の音声信号が入力されている
と検出する。そして順次検出される音素の列を、単語識
別部53内の図示せぬ記憶部に予め記憶されている識別
対象の単語の文字列と比較し、前記音素の列が前記文字
列のいずれかと一致したらその単語が音声信号として入
力されたとの判定を行い、その旨の信号を画面制御部1
4に出力する。
The word identifying section 53 detects a predetermined word based on the phoneme identifying pattern string G output from the phoneme identifying section 52, and outputs a signal to that effect to the screen control section 54. Specifically, the output level of each unit of the output layer of the neural network of the phoneme identification unit 52 is observed, the time during which the average of the n frames maintains a constant level H is measured, and the time is the minimum duration time. When L min or more continues, it is detected that the voice signal of the phoneme is input. Then, the sequence of phonemes that is sequentially detected is compared with the character string of the word to be identified, which is stored in advance in a storage unit (not shown) in the word identifying unit 53, and the sequence of phonemes matches any of the character strings. Then, it is determined that the word is input as a voice signal, and a signal to that effect is sent to the screen control unit 1.
Output to 4.

【0031】音声入力検出部55は、音声入力が検出さ
れている間、音声検出信号を画面制御部54に出力す
る。すなわち、入力される音声信号のエネルギーレベル
を測定し、その測定結果を予め定めた所定のしきい値レ
ベルと比較し、入力された音声信号のレベルが前記しき
い値より大きい時に音声検出信号を検出する。
The voice input detector 55 outputs a voice detection signal to the screen controller 54 while the voice input is detected. That is, the energy level of the input voice signal is measured, the measurement result is compared with a predetermined threshold level, and the voice detection signal is detected when the level of the input voice signal is higher than the threshold value. To detect.

【0032】画面制御部54は、単語識別部53より入
力された単語識別結果と、音声入力検出部55より入力
された音声検出信号に基づいて、表示装置に対して所定
の処理を所定の期間行う。画面制御部54は、単語識別
部53より入力された単語に応じて実行する処理を決定
し、音声入力検出部55より音声検出信号が入力されて
いる期間、前記処理を表示装置の画面に対して実行す
る。すなわち、画面制御部54は、所定の単語が入力さ
れた後、その語尾の音素が継続して発せられている間、
その単語により決定された画面操作を実行し続ける。識
別された単語に対応する画面の処理を表5に示す。
The screen control unit 54 performs a predetermined process on the display device for a predetermined period based on the word identification result input from the word identification unit 53 and the voice detection signal input from the voice input detection unit 55. To do. The screen control unit 54 determines a process to be executed according to the word input from the word identifying unit 53, and performs the process on the screen of the display device while the voice detection signal is input from the voice input detection unit 55. To execute. That is, the screen control unit 54, after a predetermined word is input, while the phoneme at the end of the word is continuously emitted,
Continue executing the screen operation determined by the word. Table 5 shows the processing of the screen corresponding to the identified word.

【0033】[0033]

【表5】 [Table 5]

【0034】第2実施例の画面制御装置50の動作につ
いて、図6および図7を参照して具体的に説明する。図
6は、音素の検出、単語の識別、および、語尾の継続を
説明する図である。画面制御装置50において、入力さ
れた音声信号は音響特徴抽出部51において分析され各
フレームごとの出力ベクトルが得られると、音素識別部
52においてその7フレームごとを単位として音素の識
別が行われる。図6に示す例においては、フレーム5か
らフレーム11の間の7フレームの間、音素/u/に相
当の出力レベルが観測され、フレーム12からフレーム
32までの間、音素/e/に相当の出力レベルが観測さ
れる。したがって、音素識別部52はフレーム11で音
素/u/を認識し、フレーム18で音素/e/を認識
し、その結果、単語識別部53は、フレーム18で単語
「うえ」を認識する。一方、音声入力検出部55は入力
される音声信号のエネルギーレベルを観測しており、フ
レーム5からフレーム32の間で予め定めたしきい値以
上のエネルギーレベルが検出され、この期間、音声信号
の入力が有る旨の信号を画面制御部54に出力する。
The operation of the screen control device 50 of the second embodiment will be specifically described with reference to FIGS. 6 and 7. FIG. 6 is a diagram for explaining phoneme detection, word identification, and word ending continuation. In the screen control device 50, the input voice signal is analyzed by the acoustic feature extraction unit 51, and when the output vector for each frame is obtained, the phoneme identification unit 52 identifies the phoneme in units of every seven frames. In the example shown in FIG. 6, the output level corresponding to the phoneme / u / is observed during 7 frames between the frame 5 and the frame 11, and the output level corresponding to the phoneme / e / is observed between the frame 12 and the frame 32. Output level is observed. Therefore, the phoneme identification unit 52 recognizes the phoneme / u / in the frame 11 and the phoneme / e / in the frame 18, and as a result, the word identification unit 53 recognizes the word “up” in the frame 18. On the other hand, the voice input detection unit 55 observes the energy level of the input voice signal, detects an energy level equal to or higher than a predetermined threshold value between the frame 5 and the frame 32, and detects the voice signal of the voice signal during this period. A signal indicating that there is an input is output to the screen control unit 54.

【0035】画面制御部54においては、単語識別部5
3より単語「うえ」の検出信号が入力されたら、まず、
その単語「うえ」に対応する画面操作を実行する信号を
出力する。そして、さらにその単語「うえ」の検出信号
が入力された時点から音声入力検出部55からの信号を
チェックし、音声入力が前記単語に引き続き存在してい
るか否かをチェックする。すなわち、単語「うえ」の語
尾がそのまま延ばされて入力されているか否かをチェッ
クする。そして、画面制御部54は音声入力検出部55
からの信号が前記単語検出の信号に引き続いて入力され
ている間、前記画面操作を実行する信号を出力し続け
る。図6の例においてはフレーム19からフレーム32
までは語尾の継続している期間として画面操作を続け
る。フレーム33において、音声入力検出部55からの
音声入力有りの信号が終了すると、画面制御部54は、
画面操作の信号の送出を終了する。
In the screen control section 54, the word identifying section 5
When the detection signal of the word "Ue" is input from 3, first,
A signal for executing the screen operation corresponding to the word "Ue" is output. Then, the signal from the voice input detection unit 55 is checked from the time when the detection signal of the word "Ue" is input, and it is checked whether or not the voice input continues to exist in the word. That is, it is checked whether or not the ending of the word "Ue" has been extended and entered. Then, the screen control unit 54 uses the voice input detection unit 55.
The signal for executing the screen operation continues to be output while the signal from is input following the signal for detecting the word. In the example of FIG. 6, the frame 19 to the frame 32
Until, the screen operation is continued as the period of ending words. In the frame 33, when the signal indicating that there is a voice input from the voice input detection unit 55 ends, the screen control unit 54
The transmission of the screen operation signal is terminated.

【0036】その画面操作について図7を参照して説明
する。図7は、表示画面の操作を説明する図であり、表
示画面70に、ポインタ71、第1のウィンドウ72、
第2のウィンドウ73、および、クロックツール74が
表示されている状態を示す。画面制御部54は、単語識
別部53より単語「みぎ」を識別した旨の信号が入力さ
れたらポインタ71を所定の速度で右方向に移動させ
る。同様に、単語「ひだり」を示す信号が入力されたら
ポインタ71を左方向に、単語「うえ」を示す信号が入
力されたらポインタ71を上方向に、単語「した」を示
す信号が入力されたらポインタ71を下方向に各々所定
速度で移動させる。
The screen operation will be described with reference to FIG. FIG. 7 is a diagram for explaining the operation of the display screen. The display screen 70 includes a pointer 71, a first window 72,
The state where the second window 73 and the clock tool 74 are displayed is shown. The screen control unit 54 moves the pointer 71 to the right at a predetermined speed when a signal indicating that the word “Migi” is identified is input from the word identifying unit 53. Similarly, when a signal indicating the word "hidari" is input, the pointer 71 is moved to the left, when a signal indicating the word "up" is input, the pointer 71 is moved upward, and a signal indicating the word "do" is input. The pointer 71 is moved downward at a predetermined speed.

【0037】また、単語「かくだい」の識別を示す信号
が入力されたら、ポインタ71が存在するウィンドウ、
すなわち図7の表示画面70においては第1のウィンド
ウ72を所定速度で徐々に拡大し、単語「しゅくしょ
う」の識別を示す信号が入力されたら、ポインタ71が
存在する第1のウィンドウ72を同じく所定速度で縮小
する。これらの、ポインタの移動、ウィンドウの拡大/
縮小の処理は、音声入力検出部55からの信号に基づい
て、各単語の語尾が延ばされて入力されている間連続的
に行われる。すなわち「うえー」と語尾が伸ばされて入
力されている期間中、ポインタ71は上方向に移動し続
け、「かくだいー」と語尾が伸ばされて入力されている
期間中、ウィンドウ72は拡大を続ける。
When a signal indicating the identification of the word "Kakudai" is input, the window in which the pointer 71 exists,
That is, in the display screen 70 of FIG. 7, the first window 72 is gradually expanded at a predetermined speed, and when a signal indicating the identification of the word “shushusho” is input, the first window 72 in which the pointer 71 exists is also changed. Reduce at a predetermined speed. Move these pointers, expand windows /
The reduction process is continuously performed based on the signal from the voice input detection unit 55 while the ending of each word is extended and input. That is, the pointer 71 continues to move in the upward direction during the period in which the ending is extended and input, and the window 72 is expanded during the period in which the ending is extended and input. Continue.

【0038】このように、第2実施例の画面制御装置に
よれば、第1実施例同様に音声により、画面の表示に所
定の処理を所定の量だけ行うことができる。また、第2
実施例の画面制御装置においては、処理の指示を単語で
行い、処理量の指定を語尾を伸ばす長さにより指定して
いるため、処理の指示は伸ばす音素に関わらない任意の
単語により指定できる。すなわち、指示可能な処理の数
は無限に設定可能であり、複雑な処理や多種類の処理に
対応することができる。さらに、第2実施例の画面制御
装置においては、単語を発声することにより処理を指定
できるので、その処理の内容を示す単語を用いて処理を
指示することができ、通常の言語表現による指示に近
く、ヒューマンインターフェイスの優れた画面制御装置
が実現できる。
As described above, according to the screen control device of the second embodiment, it is possible to perform a predetermined process for displaying the screen by a predetermined amount by voice, as in the first embodiment. Also, the second
In the screen control device of the embodiment, the processing instruction is given by a word and the processing amount is designated by the length of the word ending. Therefore, the processing instruction can be designated by an arbitrary word irrespective of the phoneme to be extended. That is, the number of processes that can be instructed can be set infinitely, and it is possible to handle complicated processes and various types of processes. Further, in the screen control device of the second embodiment, since the process can be designated by uttering a word, the process can be instructed using the word indicating the content of the process, and the instruction in the ordinary language expression can be given. Nearly, a screen control device with an excellent human interface can be realized.

【0039】なお、本発明の画面制御装置は、この第1
実施例および第2実施例にのみ限定されるものではな
く、種々の改変が可能である。たとえば、前述した実施
例において入力音声を分析して特徴を抽出し、音素を識
別する方法は、メルスケール16チャネルの入力に基づ
いて256標本点の高速フーリエ変換(FFT)を行
い、その結果をニューラルネットワークに入力して音素
を識別するものであった。しかし、これに限られるもの
ではなく、広く知られている種々の解析方法、信号処理
方法を適用してよい。たとえば、音声認識においてしば
しば行われるマルチテンプレートを用いたDTW(Dy
namicTime Warping)や、統計的手法
であるHMM(Hidden Markovモデル)、
さらに、そのほか種々の音韻解析の手法などを任意に用
いてよい。
The screen control device of the present invention is the first
The present invention is not limited to the embodiment and the second embodiment, and various modifications can be made. For example, in the above-described embodiment, the method of analyzing the input speech to extract the features and identify the phoneme is to perform a fast Fourier transform (FFT) of 256 sample points based on the input of 16 channels of mel scale, and obtain the result. It was input to a neural network to identify phonemes. However, the present invention is not limited to this, and various widely known analysis methods and signal processing methods may be applied. For example, DTW (Dy (Dy) using multi-template which is often used in speech recognition.
native Time Warping), HMM (Hidden Markov model) which is a statistical method,
Furthermore, various other phoneme analysis techniques may be used.

【0040】また、前記第2実施例において語尾の継続
を検出する方法は、入力された音声信号のエネルギーレ
ベルを音声入力検出部で測定し、その測定結果に基づい
て単語が識別された時点以降の音声入力の有無を検出
し、これにより語尾の継続を検出していた。しかし、単
語識別部の後段に第1実施例の音素継続検出部と同等の
手段を設け、これにより、単語の語尾の継続を検出する
ようにしてもよい。その場合の音素の検出、単語の識
別、および、語尾の継続の状態を図8に示す。図8に示
すように、このような方法においては、単語識別部がフ
レーム18で単語「うえ」を認識すると、19フレーム
以降についても引き続き識別された音素を比較し、フレ
ーム32まで語尾「え」の音素が継続していることを検
出する。そして、フレーム33において、入力された音
声信号のエネルギーレベルが維持されたまま音素が変化
した場合に、この方法であれば、その音素の変化を検出
し、単語「うえ」による処理をフレーム32で終了させ
ることができる。
Further, in the method of detecting the continuation of endings in the second embodiment, the energy level of the input voice signal is measured by the voice input detection unit, and after the time when the word is identified based on the measurement result. The presence or absence of the voice input of was detected, and the continuation of the ending was detected by this. However, a means equivalent to the phoneme continuation detection unit of the first embodiment may be provided in the subsequent stage of the word identification unit to detect the continuation of the ending of a word. FIG. 8 shows states of phoneme detection, word identification, and word ending in that case. As shown in FIG. 8, in such a method, when the word identifying unit recognizes the word "up" in the frame 18, the phonemes identified in the 19th frame and thereafter are compared, and the ending "e" is continued up to the frame 32. It is detected that the phoneme of continues. Then, in the frame 33, when the phoneme is changed while the energy level of the input voice signal is maintained, this method detects the change in the phoneme, and the processing by the word “up” is performed in the frame 32. Can be terminated.

【0041】また、本発明の画面制御装置が適用される
表示装置として、ワークステーションやパソコンなどの
通常の表示装置を図4および図7に例示したが、これに
限られるものではなく、たとえば、車載テレビや、カー
ナビゲーションシステムのような表示装置でもよい。そ
のような、手入力の不便な環境下においては、本発明の
画面制御装置はより好適である。
Further, as the display device to which the screen control device of the present invention is applied, a normal display device such as a workstation or a personal computer is illustrated in FIGS. 4 and 7, but the present invention is not limited to this and, for example, It may be a display device such as an in-vehicle television or a car navigation system. In such an environment where manual input is inconvenient, the screen control device of the present invention is more suitable.

【0042】また、認識された音声信号に対応する処理
は、前述した第1および第2の実施例においては、ポイ
ンタの上下左右方向への移動と、ウィンドウの拡大/縮
小を行うものであった。しかし、これ以外の種々の画面
操作をするようにしてよい。たとえば、表示画面上の特
定のオブジェクトを回転移動するような処理にしてもよ
いし、画面全体の上下左右へのスクロール、画面全体の
拡大/縮小などを行わせるようにしてもよい。
Further, in the processing corresponding to the recognized voice signal, in the above-mentioned first and second embodiments, the pointer is moved in the vertical and horizontal directions and the window is enlarged / reduced. . However, various screen operations other than this may be performed. For example, the processing may be such that a specific object on the display screen is rotationally moved, or the entire screen may be scrolled vertically and horizontally, and the entire screen may be enlarged / reduced.

【0043】[0043]

【発明の効果】本発明の画面制御装置によれば、画面を
見ながらその表示画面が所望の状態になるように、音声
により直接的・直感的にその処理および処理量を指示す
ることができる、ヒューマンインターフェイスの良い画
面制御装置を提供できる。また、本発明の画面制御方法
によれば、表示装置に対して、音声により処理の種類と
処理量の両方を指示する画面制御方法を提供することが
できる。
According to the screen control device of the present invention, it is possible to directly and intuitively instruct the processing and the processing amount by voice so that the display screen is in a desired state while watching the screen. A screen control device with a good human interface can be provided. Further, according to the screen control method of the present invention, it is possible to provide a screen control method for instructing both the type of processing and the processing amount by voice to the display device.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の第1実施例の画面制御装置の構成を示
すブロック図である。
FIG. 1 is a block diagram showing a configuration of a screen control device according to a first embodiment of the present invention.

【図2】図1に示した画面制御装置の音素識別部である
ニューラルネットワークの構成を示す図である。
FIG. 2 is a diagram showing a configuration of a neural network which is a phoneme identification unit of the screen control device shown in FIG.

【図3】図1に示した画面制御装置の音素継続検出部に
おける音素の継続の検出を説明する図である。
FIG. 3 is a diagram for explaining detection of phoneme continuation in a phoneme continuation detection unit of the screen control device shown in FIG. 1.

【図4】図1に示した画面制御装置により制御される表
示装置の、表示画面の操作を説明する図である。
FIG. 4 is a diagram illustrating an operation of a display screen of a display device controlled by the screen control device shown in FIG.

【図5】本発明の第2実施例の画面制御装置の構成を示
すブロック図である。
FIG. 5 is a block diagram showing a configuration of a screen control device according to a second embodiment of the present invention.

【図6】図5に示した画面制御装置における音素の検
出、単語の識別、および、語尾の継続を説明する図であ
る。
6 is a diagram illustrating phoneme detection, word identification, and word ending continuation in the screen control device illustrated in FIG. 5.

【図7】図5に示した画面制御装置により制御される表
示装置の、表示画面の操作を説明する図である。
FIG. 7 is a diagram illustrating an operation of a display screen of a display device controlled by the screen control device shown in FIG.

【図8】第2実施例の画面制御装置の変形例における音
声信号の検出を説明する図である。
FIG. 8 is a diagram illustrating detection of an audio signal in a modified example of the screen control device of the second embodiment.

【符号の説明】[Explanation of symbols]

10…画面制御装置 11…音響特徴抽出部 12…音素識別部 13…音素継続検出部 14…画面制御部 50…画面制御装置 51…音響特徴抽出部 52…音素識別部 53…単語識別部 54…画面制御部 55…音声入力検出部 10 ... Screen control device 11 ... Acoustic feature extraction unit 12 ... Phoneme identification unit 13 ... Phoneme continuation detection unit 14 ... Screen control unit 50 ... Screen control device 51 ... Acoustic feature extraction unit 52 ... Phoneme identification unit 53 ... Word identification unit 54 ... Screen control unit 55 ... Voice input detector

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/18 G10L 3/00 537H 15/28 551P 551Q Fターム(参考) 5B050 CA07 EA12 FA02 FA10 5D015 BB02 KK01 KK02 5E501 AA01 AA22 AA23 BA20 CA01 CB01 FA06 ─────────────────────────────────────────────────── ─── Continuation of front page (51) Int.Cl. 7 Identification code FI theme code (reference) G10L 15/18 G10L 3/00 537H 15/28 551P 551Q F term (reference) 5B050 CA07 EA12 FA02 FA10 5D015 BB02 KK01 KK02 5E501 AA01 AA22 AA23 BA20 CA01 CB01 FA06

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】画面に表示された画像について、事前に登
録された音声の単語の内容に応じて拡大もしくは縮小
を、該音声の語尾の継続時間に応じて拡大もしくは縮小
させる画面制御装置であって、 入力された音声の単語の内容を認識して前記画面に表示
された画像の拡大もしくは縮小を決定する音声認識手段
と、 前記入力された音声の語尾の継続時間を検出する継続時
間検出手段と、 前記画面に表示された画像を、前記検出された語尾の継
続時間に応じて拡大もしくは縮小を行なう、画面制御手
段とを有する画面制御装置。
1. A screen control device for enlarging or reducing an image displayed on a screen according to the contents of a word of a voice registered in advance, and enlarging or reducing it according to the duration of the ending of the voice. A voice recognition means for recognizing the content of the word of the input voice and determining whether to enlarge or reduce the image displayed on the screen, and a duration detecting means for detecting the duration of the ending of the input voice. And a screen control device for enlarging or reducing the image displayed on the screen according to the detected duration of the ending.
【請求項2】画面に表示された画像について、事前に登
録された音声の単語の内容に応じて、拡大もしくは縮小
を、該音声の語尾の継続時間に応じて拡大もしくは縮小
させる画面制御方法であって、 入力された音声の単語の内容を認識して前記画面に表示
された画像の拡大もしくは縮小を決定する音声認識工程
と、 前記入力された音声の語尾の継続時間を検出する継続時
間検出工程と、 前記画面に表示された画像を、前記検出された語尾の継
続時間に応じて拡大もしくは縮小を行なう、画面制御工
程とを有する画面制御方法。
2. A screen control method for enlarging or reducing an image displayed on a screen according to the content of a voice word registered in advance, according to the duration of the ending of the voice. And a voice recognition step of recognizing the content of a word of the input voice to determine enlargement or reduction of the image displayed on the screen, and a duration detection for detecting the duration of the ending of the input voice. A screen control method comprising: a step; and a screen control step of enlarging or reducing an image displayed on the screen according to the detected duration of the ending.
JP2002382216A 2002-12-27 2002-12-27 Screen control device and method Pending JP2003263308A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002382216A JP2003263308A (en) 2002-12-27 2002-12-27 Screen control device and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002382216A JP2003263308A (en) 2002-12-27 2002-12-27 Screen control device and method

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP31523794A Division JP3399674B2 (en) 1994-12-19 1994-12-19 Screen control device and method

Publications (1)

Publication Number Publication Date
JP2003263308A true JP2003263308A (en) 2003-09-19

Family

ID=29208315

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002382216A Pending JP2003263308A (en) 2002-12-27 2002-12-27 Screen control device and method

Country Status (1)

Country Link
JP (1) JP2003263308A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005328963A (en) * 2004-05-19 2005-12-02 Toshiba Corp Image viewer
JP2008003474A (en) * 2006-06-26 2008-01-10 Funai Electric Co Ltd Electronic apparatus
JP2009282645A (en) * 2008-05-20 2009-12-03 National Institute Of Advanced Industrial & Technology Information processor
JP2010157192A (en) * 2009-01-05 2010-07-15 Nintendo Co Ltd Drawing processing program and information processor
JP2012215673A (en) * 2011-03-31 2012-11-08 Toshiba Corp Speech processing device and speech processing method
CN110136718A (en) * 2019-05-31 2019-08-16 深圳市语芯维电子有限公司 The method and apparatus of voice control

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005328963A (en) * 2004-05-19 2005-12-02 Toshiba Corp Image viewer
JP4515818B2 (en) * 2004-05-19 2010-08-04 株式会社東芝 Image viewer
JP2008003474A (en) * 2006-06-26 2008-01-10 Funai Electric Co Ltd Electronic apparatus
JP2009282645A (en) * 2008-05-20 2009-12-03 National Institute Of Advanced Industrial & Technology Information processor
JP2010157192A (en) * 2009-01-05 2010-07-15 Nintendo Co Ltd Drawing processing program and information processor
JP2012215673A (en) * 2011-03-31 2012-11-08 Toshiba Corp Speech processing device and speech processing method
CN110136718A (en) * 2019-05-31 2019-08-16 深圳市语芯维电子有限公司 The method and apparatus of voice control

Similar Documents

Publication Publication Date Title
US9754580B2 (en) System and method for extracting and using prosody features
US10074363B2 (en) Method and apparatus for keyword speech recognition
JP3399674B2 (en) Screen control device and method
US6308157B1 (en) Method and apparatus for providing an event-based “What-Can-I-Say?” window
US6795806B1 (en) Method for enhancing dictation and command discrimination
US5799279A (en) Continuous speech recognition of text and commands
EP0840288B1 (en) Method and system for editing phrases during continuous speech recognition
US20020123894A1 (en) Processing speech recognition errors in an embedded speech recognition system
US7634401B2 (en) Speech recognition method for determining missing speech
EP0840286A2 (en) Method and system for displaying a variable number of alternative words during speech recognition
JP2000035795A (en) Enrollment of noninteractive system in voice recognition
JPH06259090A (en) Voice interactive system
JPWO2020105349A1 (en) Information processing device and information processing method
JP2003263308A (en) Screen control device and method
WO2016013685A1 (en) Method and system for recognizing speech including sequence of words
WO2014167570A1 (en) System and method for extracting and using prosody features
JP2016157097A (en) Reading-aloud evaluation device, reading-aloud evaluation method, and program
EP0840287A2 (en) Method and system for selecting recognized words when correcting recognized speech
JP3633254B2 (en) Voice recognition system and recording medium recording the program
JP3906327B2 (en) Voice input mode conversion system
JP3254977B2 (en) Voice recognition method and voice recognition device
Gorniak et al. Augmenting user interfaces with adaptive speech commands
US20240112682A1 (en) Speaker identification method, speaker identification device, and non-transitory computer readable recording medium
JPH06250689A (en) Voice recognition device
JPH02297598A (en) Voice recognizing device

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050328

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060710

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20060718

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20070629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080710