JP3536524B2 - Voice recognition method and voice recognition device - Google Patents

Voice recognition method and voice recognition device

Info

Publication number
JP3536524B2
JP3536524B2 JP10094396A JP10094396A JP3536524B2 JP 3536524 B2 JP3536524 B2 JP 3536524B2 JP 10094396 A JP10094396 A JP 10094396A JP 10094396 A JP10094396 A JP 10094396A JP 3536524 B2 JP3536524 B2 JP 3536524B2
Authority
JP
Japan
Prior art keywords
character string
speech recognition
word
recognition
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP10094396A
Other languages
Japanese (ja)
Other versions
JPH09288493A (en
Inventor
活樹 南野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP10094396A priority Critical patent/JP3536524B2/en
Publication of JPH09288493A publication Critical patent/JPH09288493A/en
Application granted granted Critical
Publication of JP3536524B2 publication Critical patent/JP3536524B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、音声認識方法およ
び音声認識装置に関し、特に、例えば、スケジュールや
住所録(名簿)などの管理を行う電子手帳装置などに用
いて好適な音声認識方法および音声認識装置に関する。
The present invention relates to a speech recognition method and a speech recognition method.
More particularly, the present invention relates to a voice recognition method and a voice recognition device suitable for use in, for example, an electronic organizer for managing a schedule or an address book (name list).

【0002】[0002]

【従来の技術】従来の、例えば電子手帳装置などの情報
を記憶、管理する装置においては、キーボードや、ポイ
ンティングデバイス(例えば、マウスや、ペン、タッチ
パネルなど)、OCR(Optical Character Reader)な
どの入力装置を用いて、情報の入力が行われて記憶され
る。そして、ユーザの要求に応じて、記憶された情報が
検索され、その検索結果が、ディスプレイや、プリン
タ、音声合成装置などの出力装置から出力されるように
なされている。
2. Description of the Related Art In a conventional device for storing and managing information such as an electronic organizer, an input device such as a keyboard, a pointing device (for example, a mouse, a pen, a touch panel, etc.) and an OCR (Optical Character Reader) is used. Information is input and stored using the device. Then, the stored information is searched in response to a request from the user, and the search result is output from an output device such as a display, a printer, or a speech synthesizer.

【0003】このような電子手帳装置においては、主と
して、スケジュールや住所録などの管理を行うことがで
きる。即ち、例えばキーボードを操作することにより日
時を入力したり、あるいはポインティングデバイスによ
って、画面に表示されたカレンダにおける日時を指示す
ることで、あらかじめ登録(記憶)された、その日時に
おけるスケジュールが検索されて表示される(あるい
は、合成音で出力される)。さらに、電子手帳装置の中
には、スケジュールが記憶されている日時となると、そ
の旨を自動的に報知するようなものもある。
Such an electronic organizer can mainly manage a schedule, an address book, and the like. That is, for example, by inputting the date and time by operating the keyboard, or by pointing the date and time in the calendar displayed on the screen by the pointing device, the schedule registered and stored in advance and stored at that date and time is searched. It is displayed (or output as a synthesized sound). Furthermore, some electronic organizers automatically notify that date and time when a schedule is stored.

【0004】また、例えば、キーボードを操作すること
により名字などを入力すると、あらかじめ登録された住
所録の中から、その名字を有する人物の住所や電話番号
などが検索されて表示される。同姓の人物についての情
報が複数記憶されており、画面に表示しきれない場合に
は、例えば、そのような同姓の人物についての情報がリ
スト化されて表示されるようになされており、これによ
り、ユーザは、そのリストをスクロールさせることで、
所望する人物の情報を得ることができるようになされて
いる。
For example, when a last name or the like is input by operating a keyboard, an address or a telephone number of a person having the last name is searched from a pre-registered address book and displayed. If a plurality of pieces of information about a person with the same surname are stored and cannot be displayed on the screen, for example, information about such a person with the same surname is listed and displayed. , The user can scroll through the list,
Information of a desired person can be obtained.

【0005】ところで、このような電子手帳装置を、多
数のキーからなるキーボードや、大きなディスプレイな
どを用いて構成した場合においては、キーボードによる
入力や、ディスプレイをポインティングデバイスによっ
て指示することによる入力などは行い易くなるが、その
反面、装置を小型に構成するのが困難となる。
When such an electronic organizer is configured using a keyboard having a large number of keys, a large display, or the like, an input by a keyboard, an input by instructing a display with a pointing device, and the like are not performed. Although it is easy to perform, it is difficult to make the device compact.

【0006】しかしながら、電子手帳装置は、通常、携
帯して使用される場合が多いことから、小型に構成する
ことが要求される。そこで、キーボードを構成するキー
の数を少なくしたり、ディスプレイを小型にする方法が
あるが、これでは、情報その他の入力を行うのが困難と
なる。
[0006] However, since the electronic organizer is usually used in a portable manner, it is required to have a small size. Therefore, there are methods of reducing the number of keys constituting the keyboard and reducing the size of the display, but this makes it difficult to input information and other information.

【0007】即ち、例えば、カーソルを上下左右に移動
させるための4つのカーソルキーと、選択の確定を指示
する確定キーの5つのキーからキーボードを構成すると
ともに、ディスプレイに、仮名や、アルファベット、数
字などの他、カーソルも表示するようにし、カーソル
を、カーソルキーを操作することにより、所望する文字
の位置に移動して、確定キーを操作することにより、そ
の文字の入力を確定するようにした場合においては、入
力可能な文字の数に対して、キーの数が非常に少ないた
めに、1つの文字を入力するのに、カーソルキーおよび
確定キーの操作を行う必要があり、操作が繁雑になる。
また、情報入力を、1文字ずつ行うのは煩わしく、さ
らに、入力可能な文字のすべてをディスプレイに一度に
表示することができない場合に、その表示されていない
文字を入力しようとするときには、画面をスクロールさ
せ、その文字が表示されるようにしなければならない。
That is, for example, a keyboard is composed of four cursor keys for moving a cursor up, down, left, and right, and five keys of a decision key for instructing decision of a selection. In addition, the cursor is also displayed, the cursor is moved to a desired character position by operating a cursor key, and the input of the character is determined by operating a determination key. In some cases, the number of keys is very small compared to the number of characters that can be input, so it is necessary to operate the cursor key and the enter key to input one character, which makes the operation complicated. Become.
Further, an input of information, 1 perform each character is cumbersome, further, when it is not possible to display all the characters that can be input at one time on the display, when trying to enter the display that is not a character, the screen Must scroll so that the character is displayed.

【0008】また、例えば、ディスプレイに表示された
文字を、ポインティングデバイスで指示する場合にも同
様の問題がある。
[0008] Further, for example, there is a similar problem when a character displayed on a display is pointed by a pointing device.

【0009】以上のような問題は、登録、管理すべき情
報を入力する場合だけでなく、登録された情報を検索す
る場合にも生じる。即ち、例えば住所録を検索する場合
において、例えば姓や名だけでなく、郵便番号や、市外
局番、住所の中の都道府県名、市町村名などの多くの検
索項目を対象に検索を可能としたときには、そのような
多くの検索項目を、ディスプレイに表示し、ユーザに、
その中から検索の対象とする検索項目を、上述のような
少ないキーで入力してもらわなければならない。
The above problems occur not only when inputting information to be registered and managed, but also when searching for registered information. That is, for example, when searching the address book, it is possible to search not only the first and last names but also many search items such as postal codes, area codes, prefecture names in cities, and municipal names. When you do, many such search items are displayed on the display,
It is necessary to input a search item to be searched from among them with a small number of keys as described above.

【0010】そこで、情報その他の入力を容易に行うこ
とができるように、情報を、音声により入力することが
可能な、音声認識装置を内蔵した装置(電子辞書)が、
例えば特開平4−10166号公報や、特開平4−40
557号公報、特開平4−42363号公報などに開示
されている。
[0010] Therefore, a device (electronic dictionary) having a built-in voice recognition device capable of inputting information by voice so that information and other data can be easily input is provided.
For example, JP-A-4-10166 and JP-A-4-40
557 and JP-A-4-42363.

【0011】このような装置によれば、ユーザは、音声
により種々の情報を入力することが可能となり、この場
合、繁雑な操作を行わずに済むようになる。
According to such a device, the user can input various information by voice, and in this case, it is not necessary to perform complicated operations.

【0012】[0012]

【発明が解決しようとする課題】ところで、上述のよう
に、音声により、情報を入力し、これを音声認識する場
合においては、入力されることが予想されるすべての、
例えば単語などを、音声認識の対象として辞書(以下、
適宜、このような音声認識の対象とする語が登録された
辞書を、認識辞書という)に登録しておかなければなら
ない。
By the way, as described above, when information is input by voice and the voice is recognized, all the information expected to be input are used.
For example, a dictionary (hereinafter referred to as a word)
If necessary, a dictionary in which such words to be subjected to speech recognition are registered must be registered in a recognition dictionary).

【0013】即ち、例えば、スケジュールを入力するに
あたっては、待ち合わせ場所などを入力することが予想
される。従って、これを音声認識することができるよう
にするためには、入力される可能性のある場所を表す地
名(例えば、東京都、神奈川県、埼玉県、・・・、品川
区、渋谷区、横浜市、川崎市、・・・など)や、駅名
(例えば、品川駅、渋谷駅、横浜駅、・・・など)、施
設名(例えば、東京タワー、東京都庁、国立競技場、・
・・など)その他のあらゆるものを認識辞書に登録して
おかなければならない。
That is, for example, when inputting a schedule, it is expected that a meeting place or the like is input. Therefore, in order to be able to perform voice recognition, a place name indicating a place that may be input (for example, Tokyo, Kanagawa, Saitama, ..., Shinagawa, Shibuya, Yokohama City, Kawasaki City, etc.), station names (eg, Shinagawa Station, Shibuya Station, Yokohama Station, etc.), facility names (eg, Tokyo Tower, Tokyo Metropolitan Government, National Stadium, ...)
・ ・ Etc.) Everything else must be registered in the recognition dictionary.

【0014】しかしながら、認識辞書に、多くの音声認
識対象語を登録した場合には、認識性能が劣化し、ま
た、音声を入力してから、その音声認識結果が得られる
までに時間を要することとなり、却って、ユーザに煩わ
しさを感じさせることになる。
However, if many speech recognition target words are registered in the recognition dictionary, the recognition performance is degraded, and it takes time from when a speech is input to when the speech recognition result is obtained. Instead, the user feels troublesome.

【0015】一方、例えば所定の日時のスケジュールの
検索を行うために、その日時を入力する場合において
は、例えば西暦と月日による日時や、平成×年○○月△
△日などの元号を用いた日時などの、いわば絶対的な日
時(以下、適宜、絶対日時という)による指定の他、例
えば、明日や、明後日、来週の月曜日などの現在の日時
を基準とした日時(以下、適宜、相対日時という)の指
定を行いたいときもあるが、従来においては、このよう
な相対日時による指定は困難であった。
On the other hand, for example, in order to search for a schedule at a predetermined date and time, when the date and time are input, for example, the date and time based on the Christian era and the month or the year and year XX month
△ In addition to the designation by absolute date and time (hereinafter referred to as absolute date and time as appropriate) such as the date and time using the era such as the day, for example, based on the current date and time such as tomorrow, the day after tomorrow, next Monday, etc. In some cases, it is desired to specify the date and time (hereinafter, appropriately referred to as a relative date and time), but conventionally, it has been difficult to specify the relative date and time.

【0016】本発明は、このような状況に鑑みてなされ
たものであり、情報その他の入力を、装置を大型化する
ことなく、容易かつ柔軟に行うことができるようにする
ものである。
The present invention has been made in view of such a situation, and it is an object of the present invention to enable information and other inputs to be made easily and flexibly without increasing the size of the apparatus.

【0017】[0017]

【課題を解決するための手段】本発明の第1の音声認識
方法は、一文字語からなる文字列を入力する入力ステッ
プと、一文字語からなる文字列から連続する複数の文字
を配置して連続文字列を作成する作成ステップと、連続
文字列を対象に、音声認識する音声認識ステップとを備
えることを特徴とする。
According to a first speech recognition method of the present invention, an input step for inputting a character string consisting of one-letter words is performed.
And flop, a creation step of creating a continuous string by arranging a plurality of consecutive characters from string of character words, to consider a continuous string, characterized in that it comprises a speech recognizing speech recognition step .

【0018】本発明の第2の音声認識方法は、一文字語
からなる文字列を入力する入力ステップと、一文字語か
らなる文字列の中の、連続する複数の文字を配置して連
続文字列を作成する作成ステップと、連続文字列を、認
識辞書に登録することにより、音声認識対象語とする登
録ステップとを備えることを特徴とする。
The second speech recognition method according to the present invention uses a one-letter word
Input step to input a character string consisting of
In Ranaru string, a creation step of creating a continuous string by arranging a plurality of consecutive characters, a continuous string, by registering in the recognition dictionary, and a registration step of the speech recognition terms It is characterized by having.

【0019】本発明の音声認識装置は、音声認識の対象
とされた音声認識対象語が登録されている認識辞書を記
憶している記憶手段と、一文字語からなる文字列を入力
する入力手段と、一文字語からなる文字列の中の、連続
する複数の文字を配置して連続文字列を作成し、その連
続文字列を、音声認識対象語として、認識辞書に登録す
る登録手段とを備えることを特徴とする。
The speech recognition apparatus according to the present invention provides a speech recognition target.
Record the recognition dictionary in which the speech recognition target words
Input the character string consisting of one-word words
Input means, and a continuous character string
Create a continuous character string by placing multiple characters
Register the continuation character string in the recognition dictionary as a speech recognition target word.
And a registration means.

【0020】本発明の第1の音声認識方法においては、
一文字語からなる文字列を入力し、一文字語からなる文
字列から連続する複数の文字を配置して連続文字列を作
成し、連続文字列を対象に、音声認識する。
In the first speech recognition method of the present invention,
Enter a character string consisting of one-letter words and send a sentence consisting of one-letter words
A continuous character string is created by arranging multiple consecutive characters from a character string.
Then, speech recognition is performed on the continuous character string.

【0021】本発明の第2の音声認識方法においては、
一文字語からなる文字列を入力し、一文字語からなる文
字列の中の、連続する複数の文字を配置して連続文字列
を作成し、連続文字列を、認識辞書に登録することによ
り、音声認識対象語とする。
In the second speech recognition method of the present invention,
Enter a character string consisting of one-letter words and send a sentence consisting of one-letter words
Consecutive character string by arranging multiple consecutive characters in the character string
Is created, and the continuous character string is registered in the recognition dictionary.
In this case, the word is used as a speech recognition target word.

【0022】本発明の音声認識装置においては、一文字
語からなる文字列を入力し、一文字語からなる文字列の
中の、連続する複数の文字を配置して連続文字列を作成
し、その連続文字列を、音声認識対象語として、認識辞
書に登録する。
In the speech recognition apparatus of the present invention, one character
Enter a character string consisting of words, and
Create a continuous character string by arranging multiple consecutive characters in
Then, the continuous character string is used as a recognition
To register.

【0023】[0023]

【0024】[0024]

【0025】[0025]

【0026】[0026]

【0027】[0027]

【0028】[0028]

【0029】[0029]

【発明の実施の形態】以下に本発明の実施の形態を説明
するが、請求項に記載の構成要件と、発明の実施の形態
における具体例との対応関係を例示すると、次のように
なる。この記載は、請求項に記載されている発明をサポ
ートする具体例が、発明の実施の形態に記載されている
ことを確認するためのものである。従って、発明の実施
の形態中には記載されているが、構成要件に対応するも
のとして、ここには記載されていない具体例があったと
しても、そのことは、その具体例が、その構成要件に対
応するものではないことを意味するものではない。逆
に、具体例が構成要件に対応するものとしてここに記載
されていたとしても、そのことは、その具体例が、その
構成要件以外の構成要件には対応しないものであること
を意味するものでもない。
Embodiments of the present invention will be described below.
However, the components described in the claims and the embodiments of the invention
To illustrate the corresponding relationship with the specific example in
Become. This statement supports the invention described in the claims.
Specific examples to be described are described in the embodiments of the invention.
It is to confirm that. Therefore, the implementation of the invention
Although it is described in the form of
As there was a specific example not described here
However, that does not mean that the specific example
It does not mean that it will not respond. Reverse
Here, specific examples are listed here as corresponding to the configuration requirements.
Even if it had been
Does not correspond to configuration requirements other than configuration requirements
It does not mean.

【0030】さらに、この記載は、発明の実施の形態に
記載されている具体例に対応する発明が、請求項に全て
記載されていることを意味するものではない。換言すれ
ば、この記載は、発明の実施の形態に記載されている具
体例に対応する発明であって、この出願の請求項には記
載されていない発明の存在、すなわち、将来、分割出願
されたり、補正により追加される発明の存在を否定する
ものではない。
Further, this description is based on the embodiments of the invention.
The invention corresponding to the described specific example is all described in the claims.
It does not mean that it is described. Paraphrase
For example, this description may include the components described in the embodiment of the invention.
It is an invention corresponding to a constitutional example and is described in the claims of this application.
Existence of invention not listed, that is, future divisional application
Denies the existence of inventions that have been added or amended
Not something.

【0031】請求項1に記載の音声認識方法において
は、入力された音声を音声認識する音声認識方法であっ
て、一文字語からなる文字列を入力する入力ステップ
(例えば、図11のプログラムの処理ステップS41)
と、一文字語からなる文字列から連続する複数の文字を
配置して連続文字列を作成する作成ステップ(例えば、
図11のプログラムの処理ステップS46)と、連続文
字列を対象に、音声認識する音声認識ステップ(例え
ば、図11のプログラムの処理ステップS42)とを備
えることを特徴とする。
In the voice recognition method according to claim 1,
Is a voice recognition method that recognizes the input voice.
Inputting a character string consisting of one-letter words
(For example, processing step S41 of the program in FIG. 11)
And multiple consecutive characters from a string of one-letter words
A creation step that creates a continuous string by placing (for example,
The processing step S46 of the program in FIG.
Speech recognition step (for example,
For example, processing step S42) of the program in FIG.
It is characterized by

【0032】請求項2に記載の音声認識方法において
は、入力された音声を、音声認識の対象とされた音声認
識対象語が登録されている認識辞書を参照しながら音声
認識する音声認識方法であって、一文字語からなる文字
列を入力する入力ステップ(例えば、図12のプログラ
ムの処理ステップS61)と、一文字語からなる文字列
の中の、連続する複数の文字を配置して連続文字列を作
成する作成ステップ(例えば、図12のプログラムの処
理ステップS62)と、連続文字列を、認識辞書に登録
することにより、音声認識対象語とする登録ステップ
(例えば、図12のプログラムの処理ステップS69)
とを備えることを特徴とする。
In the voice recognition method according to the second aspect,
Recognizes the input speech as a speech recognition target.
Speech while referring to the recognition dictionary where the target words are registered
A speech recognition method that recognizes one-letter words.
An input step of inputting a column (for example, the program of FIG. 12)
Processing step S61) and a character string composed of one-letter words
A continuous character string is created by arranging multiple consecutive characters in
Creating step (for example, processing of the program of FIG. 12)
Management step S62) and register the continuous character string in the recognition dictionary.
Registration step as a speech recognition target word
(For example, processing step S69 of the program in FIG. 12)
And characterized in that:

【0033】請求項3に記載の音声認識方法において
は、一文字語からなる文字列を表示する表示ステップ
(例えば、図3のディスプレイ3)と、音声が、認識辞
書に登録された連続文字列に音声認識されたとき、表示
された文字列の中の音声認識された連続文字列を仮名漢
字変換する仮名漢字変換ステップ(例えば、図11のプ
ログラムの処理ステップS49)とをさらに備えること
を特徴とする。
[0033] In the voice recognition method according to claim 3,
Is a display step that displays a character string consisting of one-letter words
(For example, the display 3 in FIG. 3) and the speech
Displayed when a continuous character string registered in the
Of the continuous character string recognized by speech in the
Kana-Kanji conversion step for converting characters (for example,
Program processing step S49).
It is characterized by.

【0034】請求項5に記載の音声認識装置において
は、入力された音声を音声認識する音声認識装置であっ
て、音声認識の対象とされた音声認識対象語が登録され
ている認識辞書を記憶している記憶手段(例えば、図3
の記憶部13)と、一文字語からなる文字列を入力する
入力手段(例えば、図3のマイク2)と、一文字語から
なる文字列の中の、連続する複数の文字を配置して連続
文字列を作成し、その連続文字列を、音声認識対象語と
して、認識辞書に登録する登録手段(例えば、図3のシ
ステム制御部12)とを備えることを特徴とする。
[0034] In the speech recognition apparatus according to claim 5,
Is a speech recognition device that recognizes input speech.
The speech recognition target words targeted for speech recognition are registered.
Storage means (for example, FIG. 3
Storage unit 13) and a character string composed of one-letter words
From input means (for example, microphone 2 in FIG. 3) and one-letter words
Arrange multiple consecutive characters in a character string
Create a character string and convert the continuous character string
Then, the registration means for registering in the recognition dictionary (for example, the system shown in FIG. 3)
And a stem control unit 12).

【0035】[0035]

【0036】図1は、本発明を適用した電子手帳装置の
一実施例の外観構成を示している。この電子手帳装置
は、持ち運びに便利なように携帯型とされており、その
向かって右側面には、ボタン1が、また、正面パネルに
は、マイク2、ディスプレイ3、スピーカ4、およびカ
ーソルキー5が設けられている。
FIG. 1 shows an external configuration of an embodiment of an electronic organizer to which the present invention is applied. This electronic organizer is portable so that it can be easily carried. A button 1 is provided on the right side thereof, and a microphone 2, a display 3, a speaker 4, and a cursor key are provided on a front panel. 5 are provided.

【0037】ボタン1は、図示せぬバネなどの弾性体に
より保持されており、装置の内部方向に力を加えること
で押下することができるようになされている。なお、ボ
タン1は、そこに力を加えることを停止すると、上述の
バネの弾力により、元の状態に戻るようになされてい
る。また、ボタン1は、電子手帳装置を右手で持った場
合に、その親指で、容易に操作することができるような
位置に設けられている。
The button 1 is held by an elastic body such as a spring (not shown), and can be pressed by applying a force in the direction inside the apparatus. When the button 1 stops applying a force thereto, the button 1 returns to the original state by the elasticity of the spring. The button 1 is provided at a position where the electronic organizer can be easily operated with the thumb when the electronic organizer is held with the right hand.

【0038】マイク2は、そこに入力された音声を、電
気信号としての音声信号に変換するようになされてい
る。この音声信号は、電子手帳装置において音声認識さ
れ、その音声認識結果は、必要に応じて、ディスプレイ
3に表示されたり、あるいは、また、スピーカ4より、
合成音で出力されるようになされている。
The microphone 2 converts the sound inputted thereto into a sound signal as an electric signal. This voice signal is voice-recognized in the electronic organizer, and the voice recognition result is displayed on the display 3 or, if necessary, from the speaker 4.
It is designed to be output as a synthesized sound.

【0039】なお、電子手帳装置においては、ボタン1
が押されている間に、マイク2に入力された音声が音声
認識されるようになされている。即ち、この実施例で
は、マイク2の出力信号に基づいて音声区間が検出され
るのではなく、ボタン1が押されている期間が音声区間
とされるようになされている。但し、音声区間は、例え
ば、マイク2の出力信号のゼロクロスやパワーなどに基
づいて、電子手帳装置において検出するようにし、これ
により、ボタン1を操作しなくても、音声を入力するこ
とができるようにすることが可能である。
In the electronic organizer, button 1
While the button is pressed, the voice input to the microphone 2 is recognized. That is, in this embodiment, the voice section is not detected based on the output signal of the microphone 2 but the period during which the button 1 is pressed is set as the voice section. However, the voice section is detected by the electronic organizer based on, for example, the zero crossing or power of the output signal of the microphone 2, so that voice can be input without operating the button 1. It is possible to do so.

【0040】ディスプレイ3は、例えばLCD(液晶デ
ィスプレイ)やCRT(Cathod RayTube)などで構成さ
れ、所定の情報を表示するようになされている。スピー
カ4は、所定の情報を合成音で出力したり、また、ユー
ザに注意を促すための警告音(例えば、いわゆるビープ
音など)を出力するようになされている。
The display 3 is composed of, for example, an LCD (Liquid Crystal Display), a CRT (Cathod Ray Tube), or the like, and displays predetermined information. The speaker 4 is configured to output predetermined information as a synthesized sound, or to output a warning sound (for example, a so-called beep sound) for calling a user's attention.

【0041】カーソルキー5は、上キー5a、下キー5
b、左キー5c、および右キー5dで構成されている。
上キー5a、下キー5b、左キー5c、または右キー5
dは、ディスプレイ3に表示されたカーソルを、上、
下、左、または右にそれぞれ移動させるときに操作され
るようになされている。この電子手帳装置においては、
ディスプレイ3に、幾つかの選択可能な項目とともに、
カーソルが表示されている場合において、そのカーソル
を、カーソルキー5を操作することにより、所望する項
目の位置に移動し、ボタン1を1度押して離す(以下、
適宜、クリックするという)と、その項目の選択が確定
されるようになされている。
The cursor keys 5 include an up key 5a and a down key 5
b, a left key 5c, and a right key 5d.
Up key 5a, down key 5b, left key 5c, or right key 5
d moves the cursor displayed on the display 3 up,
It is designed to be operated when moving down, left, or right, respectively. In this electronic organizer,
On display 3, along with some selectable items,
When the cursor is displayed, the cursor is moved to a position of a desired item by operating the cursor key 5, and the button 1 is pressed once and released (hereinafter, referred to as a button).
Clicking as appropriate) will confirm the selection of that item.

【0042】なお、ディスプレイ3は、例えば透明なタ
ブレットなどと一体に構成するようにすることができ、
このようにした場合には、ディスプレイ3に表示された
項目の選択は、その項目の表示部分を、指先やペンなど
で指示することにより行うことが可能である。
The display 3 can be integrally formed with, for example, a transparent tablet or the like.
In such a case, an item displayed on the display 3 can be selected by designating a display portion of the item with a fingertip, a pen, or the like.

【0043】以上のように構成される電子手帳装置にお
いては、ボタン1が押された状態の間に、マイク2に音
声が入力されると、その音声が音声認識される。そし
て、その音声認識の結果は、ディスプレイ3に表示(出
力)され、また、スピーカ4から合成音で出力される。
In the electronic organizer configured as described above, when a voice is input to the microphone 2 while the button 1 is pressed, the voice is recognized. Then, the result of the voice recognition is displayed (output) on the display 3 and is output from the speaker 4 as a synthesized sound.

【0044】ユーザは、ディスプレイ3の表示を見て、
あるいはスピーカ4の出力を聴いて、音声認識結果が誤
っている場合には、再び、ボタン1を操作しながら、例
えば「キャンセル」などと発話する。この「キャンセ
ル」は、電子手帳装置において、ある処理が行われた場
合に、装置の状態を、その処理を開始する前の状態に戻
すように指令するコマンドとして登録されており、電子
手帳装置は、ある処理を行った後に、コマンド「キャン
セル」を受信すると、その処理を行う前の状態に戻るよ
うになされている(電子手帳装置におけるこのような処
理を、以下、適宜、キャンセル処理という)。
The user looks at the display on the display 3 and
Alternatively, if the user recognizes the output of the speaker 4 and the speech recognition result is incorrect, the user operates the button 1 again and speaks, for example, “cancel”. This "cancel" is registered as a command for instructing the state of the apparatus to return to the state before starting the processing when a certain process is performed in the electronic organizer. When a command “cancel” is received after performing a certain process, the process returns to a state before the process is performed (hereinafter, such a process in the electronic organizer is appropriately referred to as a cancel process).

【0045】従って、例えば、上述したように、ディス
プレイ3に表示された音声認識結果が誤っている場合
に、ユーザが、コマンド「キャンセル」を発話すると、
ディスプレイ3に表示された音声認識結果は消去され、
装置の内部状態も、音声認識を行う前の状態に戻る。
Therefore, for example, as described above, when the speech recognition result displayed on the display 3 is incorrect, when the user speaks the command “cancel”,
The voice recognition result displayed on the display 3 is deleted,
The internal state of the device also returns to the state before performing voice recognition.

【0046】なお、キャンセル処理は、例えば、ボタン
1を2回連続してクリック(ダブルクリック)すること
によっても行われるようになされている。従って、電子
手帳装置では、コマンド「キャンセル」が音声で入力さ
れるか、またはボタン1がダブルクリックされると、キ
ャンセル処理が行われる。
The canceling process is also performed by, for example, clicking (double-clicking) the button 1 twice consecutively. Therefore, in the electronic organizer, when the command “cancel” is input by voice or when the button 1 is double-clicked, the cancel process is performed.

【0047】また、キャンセル処理は、複数回連続して
行うこともできるようになされている。従って、コマン
ド「キャンセル」の入力が連続して行われた場合、また
はボタン1のダブルクリックが連続して行われた場合、
装置の状態は、順次、前の状態に戻っていく。
The canceling process can be performed a plurality of times in succession. Therefore, if the command “cancel” is continuously input, or if the double click of the button 1 is continuously performed,
The state of the device sequentially returns to the previous state.

【0048】図2は、図1の電子手帳装置の主な機能を
表している。この実施例では、電子手帳装置は、スケジ
ュール管理機能および名簿管理機能(住所録)機能を、
主なアプリケーションとして有しており、スケジュール
管理機能によれば、入力された日時およびスケジュール
を対応付けて記憶し、また、ユーザからの要求に応じ
て、記憶したスケジュールを検索して出力(ディスプレ
イ3に表示、またはスピーカ4から出力)することがで
きるようになされている。また、名簿管理機能によれ
ば、入力された顧客その他の氏名と、電話番号、住所と
を対応付けて記憶し、ユーザからの要求に応じて、記憶
した情報を検索して出力することができるようになされ
ている。
FIG. 2 shows the main functions of the electronic organizer of FIG. In this embodiment, the electronic organizer has a schedule management function and a directory management function (address book) function.
According to the schedule management function, the schedule management function stores the input date and time and the schedule in association with each other, and searches and outputs the stored schedule in response to a request from the user (display 3). Or output from the speaker 4). Further, according to the name list management function, the input customer and other names, the telephone number, and the address can be stored in association with each other, and the stored information can be searched and output in response to a request from the user. It has been done.

【0049】電子手帳装置は、さらに、スケジュール管
理機能や名簿管理機能において記憶、管理すべき情報
や、コマンドその他の入力を可能とする入力機能も有し
ている。この入力機能には、主として、音声認識機能、
日時相対指定機能、および仮名漢字変換機能があり、音
声認識機能によれば、マイク2に入力された音声を音声
認識することで、音声による情報その他の入力を行うこ
とができるようになされている。日時相対指定機能によ
れば、相対日時が、音声により入力され、これが、音声
認識機能により音声認識された場合に、その相対日時
を、絶対日時に変換することができるようになされてお
り、これにより、スケジュールの入力、または検索をす
るときに、その入力または検索を行うスケジュールの日
時を、相対日時で指定することができるようになされて
いる。仮名漢字変換機能によれば、マイク2に入力され
た音声が音声認識された場合に、その音声認識結果とし
ての文字列を仮名漢字変換することができるようになさ
れている。
The electronic organizer further has an input function for inputting information to be stored and managed in the schedule management function and the name list management function, commands and the like. This input function mainly includes a voice recognition function,
There is a date / time relative designation function and a kana-kanji conversion function. According to the voice recognition function, voice recognition of the voice input to the microphone 2 enables input of information and other information by voice. . According to the date / time relative designation function, the relative date / time is input by voice, and when this is recognized by the voice recognition function, the relative date / time can be converted into an absolute date / time. Thus, when inputting or searching for a schedule, the date and time of the schedule for performing the input or search can be specified by a relative date and time. According to the kana-kanji conversion function, when the voice input to the microphone 2 is recognized, the character string as a result of the voice recognition can be converted to kana-kanji.

【0050】図3は、図1の電子手帳装置の内部構成例
を示している。入力部1は、ボタン1、マイク2、およ
びカーソルキー5の他、例えばA/D変換器2Aなどで
構成されている。入力部1では、ボタン1やカーソルキ
ー5が操作されると、その操作に対応する信号が、シス
テム制御部12に供給されるようになされている。ま
た、入力部1では、マイク2より出力されるアナログの
音声信号が、A/D変換器2AにおいてA/D変換され
ることにより、ディジタルの音声信号とされるようにな
されており、このA/D変換器2Aから出力される音声
信号は、ボタン1が操作されている間だけ、システム制
御部12に供給されるようになされている。
FIG. 3 shows an example of the internal configuration of the electronic organizer of FIG. The input unit 1 includes, for example, an A / D converter 2A in addition to the button 1, the microphone 2, and the cursor key 5. In the input unit 1, when the button 1 or the cursor key 5 is operated, a signal corresponding to the operation is supplied to the system control unit 12. In the input unit 1, an analog audio signal output from the microphone 2 is converted into a digital audio signal by A / D conversion in an A / D converter 2A. The audio signal output from the / D converter 2A is supplied to the system control unit 12 only while the button 1 is operated.

【0051】なお、入力部1には、その他、従来と同様
に、種々のキーを有するキーボードや、ポインティング
デバイス、OCRなどを、オプションで設けることが可
能である。
The input unit 1 can optionally include a keyboard having various keys, a pointing device, an OCR, and the like, as in the related art.

【0052】システム制御部12は、例えばDSP(Di
gital Signal Processor)やCPU(Central Processo
r Unit)などで構成され、装置全体の制御を行うように
なされている。即ち、システム制御部12は、例えば、
入力部12からの信号を受信して、その信号に対応する
処理を行い、また、記憶部13に対するデータ(情報)
その他の書き込みおよび読み出しを行うようになされて
いる。さらに、システム制御部12は、例えば、出力部
14にデータを供給して出力させ、時計部15から供給
される現在の日時(日付、時刻)に基づいて所定の処理
を行うようにもなされている。また、システム制御部1
2は、例えば、音声認識部16または音声合成装置17
とのデータの送受を行うことにより、それぞれに音声認
識または音声合成を行わせるようにもなされている。
The system control unit 12 is, for example, a DSP (Di-
gital Signal Processor) and CPU (Central Processo)
r Unit) for controlling the entire apparatus. That is, for example, the system control unit 12
A signal from the input unit 12 is received, a process corresponding to the signal is performed, and data (information) for the storage unit 13 is stored.
Other writing and reading are performed. Further, the system control unit 12 supplies and outputs data to the output unit 14, for example, and performs a predetermined process based on the current date and time (date and time) supplied from the clock unit 15. I have. Also, the system control unit 1
2 is, for example, a voice recognition unit 16 or a voice synthesizer 17
By transmitting and receiving data to and from the respective devices, voice recognition or voice synthesis is performed respectively.

【0053】記憶部13は、例えばROM(Read Only
Memory)や、RAM(Random Access Memory)、磁気デ
ィスク、光ディスク、ICカードその他などで構成さ
れ、例えば、システムプログラムやアプリケーションプ
ログラムを記憶している。システム制御部12は、この
記憶部13に記憶されているシステムプログラムおよび
アプリケーションプログラムを実行することで、種々の
処理、制御を行うようになされている。また、記憶部1
3は、仮名漢字変換を行うための辞書(以下、適宜、仮
名漢字変換用辞書という)も記憶しており、システム制
御部12は、これを参照して、仮名漢字変換を行うよう
になされている。さらに、記憶部13は、システム制御
部12が処理を行う上で必要なデータも記憶するように
なされている。また、記憶部13は、ユーザが入力した
スケジュールや、住所録などの情報(入力データ)も記
憶するようになされている。
The storage unit 13 is, for example, a ROM (Read Only)
Memory), a RAM (Random Access Memory), a magnetic disk, an optical disk, an IC card, and the like, and stores, for example, a system program and an application program. The system control unit 12 performs various processes and controls by executing the system program and the application program stored in the storage unit 13. Also, the storage unit 1
Reference numeral 3 also stores a dictionary for performing kana-kanji conversion (hereinafter, appropriately referred to as a kana-kanji conversion dictionary), and the system control unit 12 refers to this and performs kana-kanji conversion. I have. Further, the storage unit 13 stores data necessary for the system control unit 12 to perform processing. The storage unit 13 also stores information (input data) such as a schedule input by the user and an address book.

【0054】出力部14は、ディスプレイ3やスピーカ
4の他、アンプ4Aなどで構成されている。出力部14
では、システム制御部12からの信号(情報)が、ディ
スプレイ3で表示され、あるいは、アンプ4Aで適正な
レベルに調整された後、スピーカ4から出力されるよう
になされている。時計部15は、所定のクロックをカウ
ントすることにより、現在の年月日(日付)および時刻
(以下、適宜、現在日時という)を発生し、システム制
御部12に供給するようになされている。
The output unit 14 includes the display 3 and the speaker 4, an amplifier 4A and the like. Output unit 14
In this configuration, a signal (information) from the system control unit 12 is displayed on the display 3 or adjusted to an appropriate level by the amplifier 4A and then output from the speaker 4. The clock unit 15 generates a current date (date) and time (hereinafter, appropriately referred to as the current date and time) by counting a predetermined clock, and supplies the current date and time to the system control unit 12.

【0055】音声認識部16は、音声認識処理を行うよ
うになされている。即ち、入力部1からシステム制御部
12に対し、音声信号が供給されると、システム制御部
12は、その音声信号を、音声認識部16に供給するよ
うになされており、音声認識部16は、システム制御部
12からの音声信号を音響分析し、その分析結果に基づ
いて、音声認識を行うようになされている。この音声認
識結果は、対応する文字列に変換され、音声認識部16
からシステム制御部12に供給されるようになされてい
る。
The voice recognition section 16 performs a voice recognition process. That is, when a voice signal is supplied from the input unit 1 to the system control unit 12, the system control unit 12 supplies the voice signal to the voice recognition unit 16, and the voice recognition unit 16 The audio signal from the system control unit 12 is acoustically analyzed, and speech recognition is performed based on the analysis result. This speech recognition result is converted into a corresponding character string, and the speech recognition unit 16
From the system controller 12.

【0056】音声合成部17は、音声合成処理を行うよ
うになされている。即ち、システム制御部12は合成音
とすべき、例えば文字列(テキスト)を音声合成部17
に供給するようになされており、音声合成部17は、シ
ステム制御部12から文字列を受信すると、その文字列
に対応する合成音(音声信号)を生成し、システム制御
部12に供給するようになされている。
The voice synthesizing section 17 performs a voice synthesizing process. That is, the system control unit 12 converts a character string (text) to be a synthesized sound, for example,
When the voice synthesizer 17 receives a character string from the system controller 12, the voice synthesizer 17 generates a synthesized sound (voice signal) corresponding to the character string and supplies it to the system controller 12. It has been made.

【0057】なお、システム制御部12から音声合成部
17に対しては、文字列とともに、その読みや、アクセ
ントの位置、フレーズ(イントネーション)などを表す
情報(以下、適宜、音韻情報という)も供給されるよう
になされており、音声合成部17では、この音韻情報に
基づいて、合成音の韻律を制御するための韻律情報を生
成し、さらに、この音韻情報および韻律情報に基づい
て、システム制御部12からの文字列に対応する合成音
を生成するようになされている。但し、システム制御部
12から音声合成部17に対しては、文字列だけを供給
するようにすることもでき、この場合には、音声合成部
17において、文字列が言語解析され、その言語解析結
果に基づいて、音韻情報が生成される。
The system control unit 12 supplies the character synthesizing unit 17 with not only the character string but also information indicating the reading, accent position, phrase (intonation), etc. (hereinafter referred to as phoneme information as appropriate). The speech synthesizer 17 generates prosody information for controlling the prosody of the synthesized speech based on the phoneme information, and further performs system control based on the phoneme information and the prosody information. A synthetic sound corresponding to the character string from the unit 12 is generated. However, it is also possible to supply only a character string from the system control unit 12 to the speech synthesizing unit 17. In this case, the speech synthesizing unit 17 linguistically analyzes the character string, Phonetic information is generated based on the result.

【0058】次に、図4は、図3の音声認識部16の構
成例を示している。システム制御部12から供給される
音声信号は、音響分析部21に供給されるようになされ
ている。音響分析部21は、システム制御部12からの
音声信号が、所定の微小区間であるフレーム単位で音響
分析され、これにより、その特徴量が抽出される。即
ち、音響分析部21では、例えば音声信号のパワー(エ
ネルギ)や、ゼロ交差数、ピッチ周波数、周波数特性、
さらには、必要に応じて、これらの変化量(差分値)な
どが抽出される。
Next, FIG. 4 shows an example of the configuration of the speech recognition section 16 of FIG. The audio signal supplied from the system control unit 12 is supplied to the acoustic analysis unit 21. The sound analysis unit 21 performs sound analysis of the sound signal from the system control unit 12 in units of a frame, which is a predetermined minute section, and thereby extracts the feature amount. That is, in the acoustic analysis unit 21, for example, the power (energy) of the audio signal, the number of zero crossings, the pitch frequency, the frequency characteristics,
Further, the amount of change (difference value) and the like are extracted as needed.

【0059】なお、音声信号の周波数特性を得るにあた
っては、例えばLPC分析(線形予測分析)や、FFT
(高速フーリエ変換)、バンドパスフィルタにより構成
されるフィルタバンクによるフィルタリングなどが行わ
れる。
In order to obtain the frequency characteristics of the audio signal, for example, LPC analysis (linear prediction analysis), FFT
(Fast Fourier transform), filtering by a filter bank constituted by a band-pass filter, and the like are performed.

【0060】音響分析部21は、音声の特徴量を抽出す
ると、例えば、これをベクトルとし、そのまま、あるい
は、そのベクトルをベクトル量子化することによりスカ
ラ量にして、認識部22に出力する。
When the acoustic analysis unit 21 extracts the feature amount of the voice, it outputs this to the recognition unit 22, for example, as a vector, or as a scalar amount by vector quantization of the vector.

【0061】以上のようにして、認識部22には、音声
の特徴量(フレーム単位の特徴量)が、時系列として供
給される。
As described above, the speech feature amount (frame-based feature amount) is supplied to the recognition unit 22 as a time series.

【0062】認識部22は、認識パラメータ記憶部23
および認識辞書記憶部24、さらには必要に応じて、認
識文法記憶部25を参照しながら、音響分析部21から
の特徴量に基づいて、マイク2に入力された音声を音声
認識し、その音声認識結果を表す文字列を出力するよう
になされている。
The recognition unit 22 includes a recognition parameter storage unit 23
The voice input to the microphone 2 is recognized based on the feature amount from the acoustic analysis unit 21 while referring to the recognition dictionary storage unit 24 and, if necessary, the recognition grammar storage unit 25. A character string representing the recognition result is output.

【0063】ここで、認識部22において音声認識を行
うための音声認識アルゴリズムとしては、例えばDP
(Dynamic Programming)マッチング法や、ニューラル
ネットワークを用いる方法、HMM(Hidden Markov Mo
del)法などがある。
Here, as a speech recognition algorithm for performing speech recognition in the recognition unit 22, for example, DP
(Dynamic Programming) matching method, method using neural network, HMM (Hidden Markov Mo
del) method.

【0064】DPマッチング法は、音声の特徴量を入力
パターンとし、この入力パターンと、テンプレートと呼
ばれる標準パターンとを、時間軸伸縮を行いながらマッ
チングすることによって音声認識を行うものであり、例
えば、入力パターンとの距離を最も短くする標準パター
ンに対応する文字(文字列)が音声認識結果とされる。
In the DP matching method, a speech feature is used as an input pattern, and speech recognition is performed by matching the input pattern with a standard pattern called a template while performing expansion and contraction on the time axis. The character (character string) corresponding to the standard pattern that minimizes the distance from the input pattern is the speech recognition result.

【0065】ニューラルネットワークを用いる方法は、
人間の脳を模倣するネットワークモデルによって音声認
識を行うものであり、例えば、ネットワークモデルに対
して音声の特徴量を与えたときに、そこから出力される
データに基づいて、音声認識結果が決定される。
A method using a neural network is as follows.
Speech recognition is performed using a network model that imitates the human brain.For example, when speech features are given to a network model, the speech recognition result is determined based on data output from the feature model. You.

【0066】HMM法は、幾つかの状態からなる確率モ
デル(HMM)によって音声認識を行うものであり、例
えば、音声の特徴量の系列が観測される確率が最も高い
確率モデルに対応する文字(文字列)が音声認識結果と
される。
The HMM method performs speech recognition using a probabilistic model (HMM) composed of several states. For example, a character (corresponding to a probabilistic model having the highest probability of observing a sequence of speech feature values) is used. (Character string) is the speech recognition result.

【0067】認識パラメータ記憶部23には、例えばテ
ンプレートを規定するパラメータや、ネットワークモデ
ルを規定する重み係数、確率モデルを規定する確率など
の認識パラメータが、学習により求められて記憶されて
いる。認識辞書記憶部24には、認識部22における音
声認識の対象とする音声認識対象語が登録された認識辞
書が記憶されている。認識文法記憶部25には、音声認
識の対象とする言語の文法や、認識辞書に登録された音
声認識対象語の意味的な接続関係などが記述された認識
文法が記憶されている。
The recognition parameter storage unit 23 stores, for example, recognition parameters such as parameters defining a template, weight coefficients defining a network model, and probabilities defining a probability model. The recognition dictionary storage unit 24 stores a recognition dictionary in which speech recognition target words to be subjected to speech recognition in the recognition unit 22 are registered. The recognition grammar storage unit 25 stores a recognition grammar describing a grammar of a language to be subjected to speech recognition and a semantic connection relationship of a speech recognition target word registered in a recognition dictionary.

【0068】認識部22では、1つの音声区間における
音声の特徴量の系列に対する、認識辞書に登録された音
声認識対象語の尤度(スコア)が、認識パラメータ記憶
部23に記憶された認識パラメータを用い、必要に応じ
て認識文法記憶部25に記憶された認識文法による制限
を行いながら求められ、そのスコア(尤度)の最も高い
音声認識対象語(あるいは、上位数個でも良い)が、音
声認識結果として出力される。
The recognition unit 22 calculates the likelihood (score) of the speech recognition target word registered in the recognition dictionary with respect to the sequence of the speech feature amount in one speech section, and the recognition parameter stored in the recognition parameter storage unit 23. The speech recognition target word having the highest score (likelihood) (or the top several words) may be obtained while restricting the recognition grammar stored in the recognition grammar storage unit 25 as necessary. Output as a speech recognition result.

【0069】ここで、本実施例では、例えば、HMM法
を用いるものとし、このHMM法にしたがって、音声認
識部16において行われる音声認識処理ついて説明す
る。なお、音声認識部16においては、HMM法以外の
音声認識アルゴリズムを用いることも可能である。ま
た、ここでは、例えば日本語を対象として音声認識を行
うものとする。
Here, in the present embodiment, for example, the HMM method is used, and the speech recognition processing performed by the speech recognition unit 16 according to the HMM method will be described. Note that the speech recognition unit 16 can use a speech recognition algorithm other than the HMM method. Here, it is assumed that speech recognition is performed for Japanese, for example.

【0070】この場合、まず最初に、学習により、例え
ば仮名に対応する確率モデルが求められる。即ち、HM
M(確率モデル)は、複数の状態がパスで接続されて構
成され、状態が、ある状態から他の状態(元の状態も含
む)に遷移する確率(状態遷移確率)と、状態が遷移す
るときに各シンボルが出力される確率(シンボル出力確
率)とによって規定される。学習においては、各仮名に
対応する確率モデルの状態遷移確率およびシンボル出力
確率が、その仮名の音声の学習用のデータに対する所定
の評価値が最大化するように決定される。
In this case, first, a probability model corresponding to, for example, a pseudonym is obtained by learning. That is, HM
M (probability model) is configured by connecting a plurality of states by paths, and the state transitions from one state to another state (including the original state) (state transition probability) and the state transitions. And the probability that each symbol is output (symbol output probability). In the learning, the state transition probability and the symbol output probability of the probability model corresponding to each kana are determined so that a predetermined evaluation value for the learning data of the voice of the kana is maximized.

【0071】具体的には、状態遷移確率およびシンボル
出力確率は、例えば、ある仮名に対応する確率モデルに
おいて、その仮名の音声の学習用のデータから得られる
特徴量の系列(シンボル系列)が観測される確率(生起
確率)が高くなるように決定される。このようにして決
定された各仮名に対応する確率モデルの状態遷移確率お
よびシンボル出力確率が、認識パラメータとして認識パ
ラメータ記憶部23に記憶される。
More specifically, the state transition probability and the symbol output probability are obtained, for example, by observing a sequence of features (symbol sequence) obtained from data for learning the speech of the pseudonym in a probabilistic model corresponding to the pseudonym. Is determined so that the probability of occurrence (occurrence probability) is increased. The state transition probability and the symbol output probability of the probability model corresponding to each kana determined in this way are stored in the recognition parameter storage unit 23 as recognition parameters.

【0072】そして、認識時においては、音響分析部2
1において、入力された音声信号が音響分析されること
により、音声の特徴量とされ、さらに、その特徴量がベ
クトル量子化されることで、時系列のシンボルとされ
て、認識部22に供給される。
At the time of recognition, the sound analysis unit 2
In step 1, the input speech signal is subjected to acoustic analysis to be a feature amount of the speech, and the feature amount is vector-quantized to be a time-series symbol, which is supplied to the recognition unit 22. Is done.

【0073】認識部22は、シンボルを受信すると、認
識辞書に登録された音声認識対象語を構成する仮名それ
ぞれに対応する確率モデルを連結することで、その音声
認識対象語に対応する確率モデルを生成する。即ち、音
声認識対象語が、例えば「きょう(今日)」である場
合、仮名「き」、「ょ」、「う」それぞれに対応する確
率モデルが連結され、「きょう」に対応する確率モデル
が生成される。また、音声認識対象語が、例えば「あす
(明日)」である場合、仮名「あ」、「す」それぞれに
対応する確率モデルが連結され、「あす」に対応する確
率モデルが生成される。さらに、音声認識対象語が、例
えば「いち(1)」である場合、仮名「い」、「ち」そ
れぞれに対応する確率モデルが連結され、「いち」に対
応する確率モデルが生成される。また、音声認識対象語
が、例えば「に(2)」である場合、仮名「に」の確率
モデルが、そのまま「に」の確率モデルとされる。さら
に、音声認識対象語が、例えば「さん(3)」である場
合、仮名「さ」、「ん」それぞれに対応する確率モデル
が連結され、「さん」に対応する確率モデルが生成され
る。
Upon receiving the symbol, the recognizing unit 22 connects the probability models corresponding to the kana constituting the target words for speech recognition registered in the recognition dictionary, thereby forming a probability model corresponding to the target words for speech recognition. Generate. That is, when the speech recognition target word is, for example, “today (today)”, the probability models corresponding to the pseudonyms “to”, “to”, and “to” are connected, and the probability model corresponding to “today” is obtained. Generated. Further, when the speech recognition target word is, for example, “Asu (tomorrow)”, the probability models corresponding to the pseudonyms “A” and “SU” are connected to generate a probability model corresponding to “Asu”. Further, when the speech recognition target word is, for example, “ichi (1)”, the probability models corresponding to the pseudonyms “i” and “chi” are connected, and a probability model corresponding to “ichi” is generated. Further, when the speech recognition target word is, for example, “ni (2)”, the probability model of the pseudonym “ni” is used as the probability model of “ni” as it is. Furthermore, when the speech recognition target word is, for example, “san (3)”, the probability models corresponding to the pseudonyms “sa” and “n” are connected to generate a probability model corresponding to “san”.

【0074】認識部22では、このようにして、認識辞
書に登録された音声認識対象語すべてに対応する確率モ
デルが生成され、認識パラメータ記憶部23に記憶され
た状態遷移確率およびシンボル出力確率に基づいて、各
音声認識対象語に対応する確率モデルから、音響分析部
21より供給される音声の特徴量の系列が観測(生起)
される生起確率が計算される。そして、認識部22は、
最も高いスコア、即ち、ここでは生起確率を与える確率
モデルに対応する音声認識対象語を表す文字列を、その
スコアとともに、音声認識結果として出力する。
The recognition unit 22 generates the probability models corresponding to all of the speech recognition target words registered in the recognition dictionary in this manner, and generates the probability transition models and the symbol output probabilities stored in the recognition parameter storage unit 23. Based on the probability model corresponding to each speech recognition target word, a sequence of speech feature amounts supplied from the acoustic analysis unit 21 is observed (occurred).
Is calculated. And the recognition unit 22
The highest score, that is, the character string representing the speech recognition target word corresponding to the probability model giving the occurrence probability is output as the speech recognition result together with the score.

【0075】本実施例では、仮名に対応する確率モデル
を用意し、その各仮名に対応する確率モデルを、認識辞
書に登録された音声認識対象語にしたがって連結するこ
とで、その音声認識対象語の確率モデルを生成するよう
にしているので、例えば、認識辞書記憶部24に記憶さ
せる認識辞書を他のものと入れ替えたり、また、認識辞
書に、新たに音声認識対象語とするものを追加、削除す
るだけで、音声認識の対象とする語を変更することがで
きる。
In the present embodiment, a probabilistic model corresponding to a kana is prepared, and the probabilistic models corresponding to each kana are connected in accordance with a target word for speech recognition registered in a recognition dictionary, whereby the target word for speech recognition is obtained. Since the probability model is generated, for example, the recognition dictionary stored in the recognition dictionary storage unit 24 is replaced with another one, or a new recognition target word is added to the recognition dictionary. By simply deleting the words, the words to be recognized can be changed.

【0076】また、例えば、数字の4などは、「よん」
と発話されたり、また、「し」と発話されたりする場合
があるが、両者を、認識辞書に登録しておくことで、い
ずれの発話がなされても、数字の4を音声認識すること
が可能となる。
Further, for example, the numeral 4 or the like means “Yon”
May be uttered, or may be uttered as "shi". By registering both in the recognition dictionary, the voice 4 can be recognized regardless of which utterance is made. It becomes possible.

【0077】さらに、認識辞書には、一般的には、例え
ば単語を、音声認識対象語として登録しておくことが多
いが、単語以外に、例えば「くじからじゅうじまで(9
時から10時まで)」のような任意の文字列も、音声認
識対象語として登録しておくことが可能である。この場
合、単語の他、上述のような任意の文字列も音声認識す
ることが可能となる。
Further, generally, for example, words are often registered in the recognition dictionary as words to be subjected to speech recognition.
An arbitrary character string such as "from time to 10:00)" can be registered as a speech recognition target word. In this case, it is possible to perform voice recognition of any character string as described above in addition to words.

【0078】但し、認識辞書に、あまり多くの音声認識
対象語を登録しておくと、前述したように、認識性能が
劣化し、また、音声認識処理に時間を要することとな
る。そこで、本実施例では、認識部22は、必要に応じ
て、認識文法記憶部25に記憶された認識文法を参照
し、その認識文法により、音声認識対象語の並びを制限
しながら、スコア(ここでは、上述したように生起確
率)の計算を行うようになされている。
However, if too many words for speech recognition are registered in the recognition dictionary, as described above, the recognition performance is degraded, and the time required for the speech recognition processing is increased. Therefore, in the present embodiment, the recognition unit 22 refers to the recognition grammar stored in the recognition grammar storage unit 25 as necessary, and restricts the arrangement of the speech recognition target words based on the score ( Here, the occurrence probability is calculated as described above.

【0079】即ち、例えば、「くじからじゅうじまで
(9時から10時まで)」などのような、時刻、「か
ら」、時刻、「まで」という並びの音声を音声認識する
場合には、時刻を表すのに用いる数字「0」乃至「2
4」、「じ(時)」、「から」、「まで」を、音声認識
対象語として認識辞書に登録しておくとともに、上述の
ような並びを表現する認識文法「(数字)」+「じ」+
「から」+「(数字)」+「じ」+「まで」を、認識文
法記憶部25に登録しておく。
That is, for example, in the case of recognizing a voice having a sequence of time, “from”, time, and “to”, such as “from lottery to 100 (from 9:00 to 10:00)”, Numbers "0" to "2" used to represent time
4 ”,“ Ji (hour) ”,“ from ”and“ to ”are registered in the recognition dictionary as speech recognition target words, and the recognition grammar“ (number) ”+“ "+
"From" + "(number)" + "ji" + "to" are registered in the recognition grammar storage unit 25.

【0080】この場合、認識部22では、認識辞書に登
録された音声認識対象語それぞれの単独のスコアだけで
なく、認識文法を参照することで、上述したような音声
認識対象語の並びのスコアも計算される。そして、その
結果、最もスコアの高いものに対応する文字列が、音声
認識結果として出力される。従って、認識部22は、認
識辞書に登録された音声認識対象語それぞれを単独で発
した音声だけでなく、それらを連続発話した音声も音声
認識することができるようになされている。即ち、認識
部22は、孤立単語認識だけでなく、連続音声認識も行
うようになされている。
In this case, the recognizing unit 22 refers to not only the individual score of the speech recognition target words registered in the recognition dictionary but also the recognition grammar to obtain the score of the sequence of the speech recognition target words as described above. Is also calculated. Then, as a result, a character string corresponding to the highest score is output as a speech recognition result. Accordingly, the recognizing unit 22 is capable of performing voice recognition not only of the voices individually uttered for the voice recognition target words registered in the recognition dictionary, but also of the voices continuously uttering them. That is, the recognition unit 22 performs not only the isolated word recognition but also the continuous speech recognition.

【0081】なお、認識部22が充分な認識性能を発揮
することができる範囲で扱うことのできる音声認識対象
語や、認識文法の数には制限があるため、音声認識すべ
き音声が入力されたときに、その音声を音声認識するの
に用いる音声認識対象語および認識文法の数は、適応的
に制限するようにするのが望ましい。
Since the number of speech recognition target words and the number of recognition grammars that can be handled in a range where the recognition unit 22 can exhibit sufficient recognition performance are limited, the speech to be recognized is input. In this case, it is desirable that the number of speech recognition target words and the number of recognition grammars used for speech recognition of the speech be adaptively limited.

【0082】また、上述の場合においては、認識パラメ
ータ記憶部23に、仮名に対応する確率モデル(状態遷
移確率およびシンボル出力確率)を記憶させておくよう
にしたが、確率モデルは、その他、例えば、音素や、音
節、単語などのものを用いるようにすることも可能であ
る。
In the above case, the probability model (state transition probability and symbol output probability) corresponding to the pseudonym is stored in the recognition parameter storage unit 23. It is also possible to use phonemes, syllables, words, and the like.

【0083】次に、図5は、図4の認識辞書記憶部24
に記憶された認識辞書の構成例を示している。この実施
例では、認識辞書は、コマンド辞書、1文字語辞書、連
続文字列辞書、基本辞書、および新規語辞書で構成され
ており、音声認識対象語は、これらの辞書に分類されて
登録されている(登録される)。
Next, FIG. 5 shows the recognition dictionary storage unit 24 of FIG.
2 shows a configuration example of the recognition dictionary stored in the storage device. In this embodiment, the recognition dictionary is composed of a command dictionary, a one-letter word dictionary, a continuous character string dictionary, a basic dictionary, and a new word dictionary, and speech recognition target words are classified and registered in these dictionaries. (Registered).

【0084】コマンド辞書には、上述したような「キャ
ンセル」などのコマンドが登録されている。さらに、コ
マンド辞書には、記憶部13に記憶されたスケジュール
や住所録の検索の際に、その検索の対象となる検索項目
(例えば、スケジュールや、電話番号、住所など)を指
示する語としての指示語も記憶されている。
In the command dictionary, commands such as "cancel" described above are registered. Further, in the command dictionary, when searching the schedule or the address book stored in the storage unit 13, the command dictionary includes words that indicate search items (for example, schedules, telephone numbers, addresses, and the like) to be searched. The instruction word is also stored.

【0085】即ち、図1の電子手帳装置においては、例
えばある日時のスケジュールの検索は、音声「(日時)
のスケジュールは?」などを入力することによって行わ
れるようになされている。また、例えばある人物の住所
や電話番号の検索は、音声「(人物の氏名)の住所は
?」や「(人物の氏名)の電話番号は?」などを入力す
ることによって行われるようになされている。この場
合、「のスケジュールは」や、「の住所は」、「の電話
番号は」の中の「スケジュール」や、「住所」、「電話
番号」は、検索の対象が、スケジュールや、住所、電話
番号であることを表している。コマンド辞書には、コマ
ンドの他、このような検索項目(検索の対象)を指示す
る指示語(例えば、「のスケジュールは」や、「の住所
は」、「の電話番号は」など)も登録されている。
That is, in the electronic organizer shown in FIG. 1, for example, a search for a schedule at a certain date and time is performed by the voice "(date and time)".
What is your schedule? "And the like. For example, the search for the address or telephone number of a certain person is performed by inputting a voice such as "What is the address of (person's name)?" Or "What is the telephone number of (person's name)?" ing. In this case, “schedule”, “address of”, and “phone number” in “schedule”, “address” and “phone number” are searched for schedule, address, Indicates a phone number. In the command dictionary, in addition to the commands, descriptive words (for example, "schedule is", "address is", "phone number is") indicating such a search item (search target) are also registered. Have been.

【0086】1文字語辞書には、1音節を表す文字(文
字列)および1文字で表される文字(両方含めて、以
下、適宜、1文字語という)が登録されている。即ち、
具体的には、例えば図6に示すように、1音節を表す文
字として「あ」、「い」、「う」、・・・(これらは1
音節でもあるが、1文字でもある)、「きゃ」、「き
ゅ」、「きょ」、・・・などが登録されている。また、
1文字で表される文字として、アルファベットや、数
字、記号などが登録されている。
In the one-character word dictionary, a character (character string) representing one syllable and a character represented by one character (both are referred to as a one-character word, as appropriate) are registered. That is,
Specifically, as shown in FIG. 6, for example, as a character representing one syllable, “A”, “I”, “U”,.
, But also one character), “Kyu”, “Kyu”, “Kyo”,... Also,
As characters represented by one character, alphabets, numbers, symbols, and the like are registered.

【0087】連続文字列辞書には、連続文字列が登録さ
れる。なお、連続文字列については、後述する。
A continuous character string is registered in the continuous character string dictionary. The continuous character string will be described later.

【0088】基本辞書には、例えばスケジュールや住所
録の入力などに用いるための単語(システム登録語)が
登録されている。即ち、例えば、スケジュールの入力
(あるいは検索)を行う際には、そのスケジュールの日
時を指定する必要があるが、基本辞書には、そのような
日時を指定するための単語(以下、適宜、日時指定語と
いう)などが登録されている。ここで、日時指定語の例
を、図7に示す。なお、図7(A)は、日時指定語のう
ち、日付を指定するための単語(日付指定語)を表し、
図7(B)は、時刻を指定するための単語(時刻指定
語)を表している。
In the basic dictionary, words (system registration words) to be used for inputting, for example, a schedule or an address book are registered. That is, for example, when inputting (or searching for) a schedule, it is necessary to specify the date and time of the schedule. In the basic dictionary, a word for specifying such date and time (hereinafter, appropriately referred to as date and time) Etc.) are registered. Here, an example of the date designation word is shown in FIG. FIG. 7A shows a word (date designation word) for designating a date among date designation words.
FIG. 7B shows a word (time designation word) for designating time.

【0089】新規語辞書には、基本辞書には登録されて
いない単語を、ユーザが音声認識対象語とする場合に、
その単語が登録される。即ち、ユーザが、例えば営業を
行っているものなどである場合には、「会議」や、「出
張、「商談」、「待ち合わせ」、「出発」などの単語
が、スケジュールを入力するときに頻繁に用いられる。
また、ユーザが、例えば学生などである場合には、「授
業」や、「英会話」、「ピアノ」などの単語が、やはり
スケジュールを入力するときに頻繁に用いられる。この
ような単語が、基本辞書に登録されていない場合におい
ては、装置のモードを、後述する仮名漢字変換モードと
することにより、音声で入力することができるが、頻繁
に用いる単語を、毎回、仮名漢字変換モードによって入
力するのは効率的とはいえない。そこで、そのような単
語(以下、適宜、新規語という)は、新規語辞書に登録
することができるようになされており、これにより、基
本辞書には登録されていない単語の入力を、音声により
効率的に行うことができるようになされている。
When the user sets words not registered in the basic dictionary as words to be subjected to speech recognition,
The word is registered. That is, when the user is, for example, a business person, words such as “meeting”, “business trip,“ negotiation ”,“ meeting ”, and“ departure ”frequently appear when entering a schedule. Used for
When the user is, for example, a student, words such as “class”, “English conversation”, and “piano” are frequently used when inputting a schedule. When such a word is not registered in the basic dictionary, the mode of the device can be input by voice by setting the mode of a kana-kanji conversion mode described later. Inputting in the kana-kanji conversion mode is not efficient. Therefore, such a word (hereinafter, appropriately referred to as a new word) can be registered in a new word dictionary, whereby the input of a word not registered in the basic dictionary can be performed by voice. It has been made so that it can be performed efficiently.

【0090】なお、音声認識部16では、以上のような
コマンド辞書、1文字語辞書、連続文字列辞書、基本辞
書、および新規語辞書のすべてに登録された音声認識対
象語を対象として音声認識が行われるが、これらの辞書
のうちの、例えば基本辞書および新規語辞書について
は、そこに登録されている語を、例えば、日時や、場
所、用件などを入力するために用いるものに分類すると
ともに、装置に、情報(データ)を入力する際に、どの
ような情報(日時、場所、用件などの情報)を入力する
のかを、ユーザに指定してもらうようにし、その指定に
したがって、上述のように分類された語を、音声認識の
対象とするように切り換えるようにしても良い。
The speech recognition unit 16 performs speech recognition on the speech recognition target words registered in all of the command dictionary, the one-character word dictionary, the continuous character string dictionary, the basic dictionary, and the new word dictionary. Of these dictionaries, for example, for basic dictionaries and new word dictionaries, the words registered in them are classified into, for example, those used for inputting the date and time, location, business requirements, etc. At the same time, when inputting information (data) to the device, the user is required to specify what kind of information (information such as date and time, place, and business) to be input. Alternatively, the words classified as described above may be switched so as to be subjected to speech recognition.

【0091】次に、システム制御部12(図3)は、入
力部11からの音声信号を、音声認識部16に供給する
ことにより音声認識させ、音声認識部16から出力され
る音声認識結果を、そのスコアとともに受信するが、ユ
ーザが発した音声の最終的な音声認識結果は、このシス
テム制御部12において決定されるようになされてい
る。そこで、図8のフローチャートを参照して、システ
ム制御部12において行われる、その決定処理について
説明する。
Next, the system control unit 12 (FIG. 3) supplies the voice signal from the input unit 11 to the voice recognition unit 16 to perform voice recognition, and outputs the voice recognition result output from the voice recognition unit 16. The final speech recognition result of the speech uttered by the user is determined by the system control unit 12. Therefore, the determination process performed by the system control unit 12 will be described with reference to the flowchart of FIG.

【0092】システム制御部12は、音声認識部16よ
り出力される音声認識結果およびスコアを受信すると、
ステップS1において、そのスコアが所定値以上かどう
かを判定する。ステップS1において、スコアが所定値
以上でないと判定された場合、ステップS2に進み、シ
ステム制御部12は、出力部14を制御することによ
り、警告を行い、処理を終了する。
When the system control unit 12 receives the speech recognition result and the score output from the speech recognition unit 16, the system control unit 12
In step S1, it is determined whether the score is equal to or greater than a predetermined value. If it is determined in step S1 that the score is not equal to or greater than the predetermined value, the process proceeds to step S2, where the system control unit 12 issues a warning by controlling the output unit 14, and ends the process.

【0093】即ち、音声認識結果のスコアが所定値以上
でない場合は、認識辞書に登録されていない語の音声が
入力されたと考えられる。そこで、システム制御部12
は、ディスプレイ3またはスピーカ4から、警告のメッ
セージを出力させ、これにより、ユーザに、入力した音
声が音声認識の対象とされていないことを報知する。
That is, when the score of the speech recognition result is not equal to or more than the predetermined value, it is considered that the speech of a word not registered in the recognition dictionary has been input. Therefore, the system control unit 12
Causes the display 3 or the speaker 4 to output a warning message, thereby notifying the user that the input voice is not targeted for voice recognition.

【0094】一方、ステップS1において、スコアが所
定値以上であると判定された場合、ステップS3に進
み、音声認識部16から出力された音声認識結果が複数
あるかどうかが判定される。即ち、音声認識部16は、
最もスコアの高い文字列が複数得られた場合(例えば、
認識辞書を構成する辞書の中の複数に、同一の語が登録
されている場合などに、その語が発話されたときには、
複数の辞書それぞれに登録されている、その語に対応す
る文字(文字列)が、最もスコアの高い音声認識結果と
して得られる)、その複数の音声認識結果を、スコアと
ともに出力するようになされており、この場合、ステッ
プS3では、音声認識結果が複数あると判定される。
On the other hand, if it is determined in step S1 that the score is equal to or greater than the predetermined value, the flow advances to step S3 to determine whether there are a plurality of voice recognition results output from the voice recognition unit 16. That is, the voice recognition unit 16
When multiple strings with the highest score are obtained (for example,
When the word is spoken, for example, when the same word is registered in a plurality of dictionaries constituting the recognition dictionary,
A character (character string) corresponding to the word registered in each of the plurality of dictionaries is obtained as a speech recognition result with the highest score), and the speech recognition results are output together with the score. In this case, in step S3, it is determined that there are a plurality of speech recognition results.

【0095】ステップS3において、音声認識結果が複
数存在しないと判定された場合、即ち、音声認識結果が
1つの文字列である場合、ステップS11に進み、その
文字列が最終的な音声認識結果として決定され、処理を
終了する。
If it is determined in step S3 that a plurality of speech recognition results do not exist, that is, if the speech recognition result is one character string, the process proceeds to step S11, and the character string is determined as the final speech recognition result. It is determined, and the process ends.

【0096】また、ステップS3において、音声認識結
果が複数あると判定された場合、ステップS4に進み、
その複数の音声認識結果のいずれかの中に、コマンド辞
書に登録されているコマンドまたは指示語を有している
ものがあるかどうかが判定される。ステップS4におい
て、複数の音声認識結果のいずれかの中に、コマンド辞
書に登録されているコマンドまたは指示語を有している
ものがあると判定された場合、ステップS5に進み、そ
のコマンドまたは指示語を有している音声認識結果が選
択され、ステップS11に進む。ステップS11では、
その選択された音声認識結果が、最終的な音声認識結果
として決定され、処理を終了する。
If it is determined in step S3 that there are a plurality of speech recognition results, the process proceeds to step S4.
It is determined whether or not any of the plurality of speech recognition results has a command or instruction word registered in the command dictionary. If it is determined in step S4 that any of the plurality of speech recognition results has a command or instruction word registered in the command dictionary, the process proceeds to step S5, and the command or instruction A speech recognition result having a word is selected, and the process proceeds to step S11. In step S11,
The selected speech recognition result is determined as the final speech recognition result, and the process ends.

【0097】一方、ステップS4において、複数の音声
認識結果のいずれかの中に、コマンドまたは指示語を有
しているものがないと判定された場合、ステップS6に
進み、その複数の音声認識結果のいずれかの中に、1文
字語辞書に登録されている1文字語があるかどうかが判
定される。ステップS6において、複数の音声認識結果
のいずれかの中に、1文字語があると判定された場合、
ステップS7に進み、その1文字語が選択され、ステッ
プS11に進む。ステップS11では、その選択された
1文字語が、最終的な音声認識結果として決定され、処
理を終了する。
On the other hand, if it is determined in step S4 that none of the plurality of speech recognition results has a command or instruction word, the process proceeds to step S6, and the plurality of speech recognition results are determined. It is determined whether there is a one-letter word registered in the one-letter word dictionary. In step S6, when it is determined that one of the plurality of speech recognition results includes a one-letter word,
The process proceeds to step S7, the one-letter word is selected, and the process proceeds to step S11. In step S11, the selected one-letter word is determined as the final speech recognition result, and the process ends.

【0098】また、ステップS6において、複数の音声
認識結果のいずれかの中に、1文字語がないと判定され
た場合、ステップS8に進み、その複数の音声認識結果
のいずれかの中に、連続文字列辞書に登録された連続文
字列があるかどうかが判定される。ステップS8におい
て、複数の音声認識結果のいずれかの中に、連続文字列
があると判定された場合、ステップS9に進み、その連
続文字列が選択され、ステップS11に進む。ステップ
S11では、その選択された連続文字列が、最終的な音
声認識結果として決定され、処理を終了する。
If it is determined in step S6 that there is no one-character word in any of the plurality of speech recognition results, the process proceeds to step S8, in which any of the plurality of speech recognition results includes It is determined whether there is a continuous character string registered in the continuous character string dictionary. If it is determined in step S8 that there is a continuous character string in any of the plurality of speech recognition results, the process proceeds to step S9, the continuous character string is selected, and the process proceeds to step S11. In step S11, the selected continuous character string is determined as the final speech recognition result, and the process ends.

【0099】一方、ステップS8において、複数の音声
認識結果のいずれかの中に、連続文字列がないと判定さ
れた場合、即ち、複数の音声認識結果が、コマンド、指
示語、1文字語、および連続文字列のいずれでもなく、
従って、基本辞書に登録されているシステム登録語、若
しくは新規語辞書に登録された新規語(以下、適宜、両
方含めて、通常語という)(または通常語で構成される
文字列)である場合、ステップS10に進み、その複数
の通常語の中のいずれかが選択される。
On the other hand, if it is determined in step S8 that there is no continuous character string in any of the plurality of speech recognition results, that is, if the plurality of speech recognition results indicate a command, a descriptive word, a one-letter word, And neither a contiguous string,
Therefore, when the word is a system registered word registered in the basic dictionary, or a new word registered in the new word dictionary (hereinafter, referred to as a normal word, including both as appropriate) (or a character string composed of a normal word) , The process proceeds to step S10, and one of the plurality of ordinary words is selected.

【0100】即ち、この場合、システム制御部12は、
複数の通常語を、ディスプレイ3に、カーソルとともに
表示させる。さらに、システム制御部12は、ディスプ
レイ3に、通常語の選択を要求するメッセージも表示さ
せる。ユーザは、このメッセージを見て、カーソルキー
5を操作し、これにより、正しい音声認識結果としての
通常語の位置にカーソルを移動させ、さらに、その位置
で、ボタン1をクリックすることにより、通常語の選択
を確定する。ステップS10では、このようにして確定
された通常語が選択される。
That is, in this case, the system control unit 12
A plurality of ordinary words are displayed on the display 3 together with the cursor. Further, the system control unit 12 also causes the display 3 to display a message requesting selection of a normal word. The user sees this message and operates the cursor key 5 to move the cursor to the position of the normal word as a correct speech recognition result. Confirm word selection. In step S10, the normal word thus determined is selected.

【0101】ステップS10において、通常語が選択さ
れると、ステップS11に進み、その選択された通常語
が、最終的な音声認識結果として決定され、処理を終了
する。
When a normal word is selected in step S10, the process proceeds to step S11, where the selected normal word is determined as a final speech recognition result, and the process ends.

【0102】以上のように、複数の音声認識結果が得ら
れた場合においては、システム制御部12では、コマン
ドまたは指示語、1文字語、連続文字列、通常語の順の
優先順位で、最終的な音声認識結果が決定される。
As described above, when a plurality of speech recognition results are obtained, the system control unit 12 sets the last priority in the order of the command or instruction word, one character word, continuous character string, and ordinary word. A typical speech recognition result is determined.

【0103】なお、コマンド(および指示語)の優先順
位を最も高くしたのは、ユーザがコマンドを発声したと
きに、その音声が、1文字語、連続文字列、または通常
語に音声認識されてしまうと、そのコマンドに対応する
処理が実行されなくなってしまうからである。
Note that the command (and descriptive word) is given the highest priority because when the user utters the command, the voice is recognized as a one-letter word, a continuous character string, or a normal word. If this happens, processing corresponding to the command will not be executed.

【0104】また、本実施例では、コマンド辞書に登録
されているものが、装置に対するコマンドと認識される
が、上述したようなコマンド「キャンセル」が、例え
ば、通常語などとしても登録されている場合において、
音声「キャンセル」が入力されたときには、その音声
は、上述の優先順位により、常に、コマンドの「キャン
セル」として認識され、通常語としては認識されない。
従って、この場合、「キャンセル」という語を用いて、
スケジュールを記述することが困難となる。そこで、こ
のようなことを防止するために、コマンドを入力する場
合には、例えば「コマンド」その他の通常は発せられな
い音声に続いて、処理を指示するコマンドを入力するよ
うにし、装置には、音声「コマンド」に続いて入力され
る音声を、コマンドを表すものとして認識させるように
することが可能である。
In this embodiment, the command registered in the command dictionary is recognized as a command for the apparatus. However, the command "cancel" as described above is registered as, for example, a normal word. In some cases,
When the voice “cancel” is input, the voice is always recognized as “cancel” of the command according to the above-described priority, and is not recognized as a normal word.
Therefore, in this case, using the word "cancel"
It becomes difficult to describe the schedule. Therefore, in order to prevent such a situation, when a command is input, for example, a command for instructing a process is input following a "command" or other voice that is not normally emitted. The voice input following the voice "command" can be recognized as representing the command.

【0105】さらに、ここでは、コマンドおよび指示
語、1文字語、連続文字列、通常語の順に、優先順位を
つけるようにしたが、優先順位は、その他の順番でつけ
ることも可能である。
Further, here, the priorities are given in the order of the command and the instruction word, the one-letter word, the continuous character string, and the ordinary word. However, the priorities can be given in another order.

【0106】また、複数の音声認識結果の中には、複数
のコマンド、指示語、1文字語、または連続文字列があ
る場合があるが、このような場合には、ステップS5,
S7,S9において、例えば、ステップS10における
場合と同様にして、その中のいずれか1つのコマンド、
指示語、1文字語、または連続文字列が選択される。
Further, among the plurality of speech recognition results, there may be a plurality of commands, instruction words, one-letter words, or continuous character strings. In such a case, step S5
In S7 and S9, for example, as in the case of step S10, any one of the commands,
A descriptive word, a one-letter word, or a continuous character string is selected.

【0107】さらに、最終的な音声認識結果として通常
語が得られた場合には、システム制御部12は、その通
常語を、例えば、(仮名漢字変換することができるなら
ば)記憶部13を参照することにより漢字に変換し、漢
字の状態で取り扱うようになされている(例えば、ディ
スプレイ3に、その通常語を漢字で表示させるようにな
されている)。
Further, when a normal word is obtained as the final speech recognition result, the system control unit 12 stores the normal word in the storage unit 13 (for example, if the kana-kanji conversion is possible). It is converted into a kanji by referring to it and handled in a kanji state (for example, the normal word is displayed in the kanji on the display 3).

【0108】次に、図9のフローチャートを参照し、マ
イク2に入力された音声に対応して、図3のシステム制
御部12が行う処理について説明する。システム制御部
12では、まず最初に、ステップS21において、マイ
ク2に音声が入力されたか否かが判定される。ここで、
システム制御部12では、マイク2に音声が入力された
かどうかは、ボタン1の操作がなされているかどうかが
によって判定される。即ち、システム制御部12は、ボ
タン1が操作されている状態にある場合には、マイク2
に音声が入力されていると判定する。
Next, the processing performed by the system control unit 12 shown in FIG. 3 in response to the sound input to the microphone 2 will be described with reference to the flowchart shown in FIG. First, in step S21, the system control unit 12 determines whether or not sound has been input to the microphone 2. here,
The system control unit 12 determines whether or not a voice is input to the microphone 2 depending on whether or not the button 1 is operated. That is, when the button 1 is being operated, the system control unit 12
It is determined that a voice has been input to.

【0109】ステップS21において、マイク2に音声
が入力されていないと判定された場合、ステップS21
に戻る。また、ステップS21において、マイク2に音
声が入力されたと判定された場合、ステップS22に進
み、システム制御部12は、その音声信号を、音声認識
部16に供給することにより音声認識させる。その後、
システム制御部12は、音声認識部16から音声認識結
果を受信すると、図8で説明したように最終的な音声認
識結果を決定する。そして、ステップS23に進み、シ
ステム制御部12は、その音声認識結果がコマンドであ
るかどうかを判定する。ステップS23において、音声
認識結果がコマンドでないと判定された場合、ステップ
S24に進み、システム制御部12は、コマンドの入力
を要求するメッセージを生成し、これを、音声合成部1
7に供給することにより、そのメッセージに対応する合
成音を生成させる。さらに、システム制御部12は、ス
テップS24において、そのメッセージとともに、対応
する合成音を出力部14に供給して出力させる。即ち、
これにより、ディスプレイ3には、コマンドの入力を要
求するメッセージが表示され、また、スピーカ4から
は、そのメッセージに対応する合成音が出力される。
If it is determined in step S21 that no sound has been input to the microphone 2, the process proceeds to step S21.
Return to When it is determined in step S21 that a voice has been input to the microphone 2, the process proceeds to step S22, in which the system control unit 12 supplies the voice signal to the voice recognition unit 16 to perform voice recognition. afterwards,
When receiving the speech recognition result from the speech recognition unit 16, the system control unit 12 determines the final speech recognition result as described with reference to FIG. Then, proceeding to step S23, the system control unit 12 determines whether or not the speech recognition result is a command. If it is determined in step S23 that the voice recognition result is not a command, the process proceeds to step S24, where the system control unit 12 generates a message requesting the input of the command, and transmits the message to the voice synthesis unit 1.
7 to generate a synthesized sound corresponding to the message. Further, in step S24, the system control unit 12 supplies the corresponding synthesized sound to the output unit 14 together with the message and causes the output unit 14 to output the synthesized sound. That is,
As a result, a message requesting input of a command is displayed on the display 3, and the speaker 4 outputs a synthesized sound corresponding to the message.

【0110】その後、ステップS21に戻り、音声の入
力を待って、再び、ステップS22以降の処理が行われ
る。
After that, the process returns to step S21, and waits for the input of a voice, and the processes after step S22 are performed again.

【0111】一方、ステップS23において、音声認識
結果がコマンドであると判定された場合、ステップS2
5に進み、装置の動作モードが、そのコマンドに対応し
た処理を行うためのモードに設定され、ステップS26
に進む。ステップS26では、ステップS25で設定さ
れたモードに対応する処理が行われ、その後、ステップ
S25に戻り、以下、ステップS25およびS26の処
理が繰り返される。
On the other hand, if it is determined in step S23 that the speech recognition result is a command, the process proceeds to step S2.
Proceeding to step S5, the operation mode of the apparatus is set to a mode for performing a process corresponding to the command, and step S26 is performed.
Proceed to. In step S26, a process corresponding to the mode set in step S25 is performed, and thereafter, the process returns to step S25, and the processes in steps S25 and S26 are repeated.

【0112】図10のフローチャートは、装置のモード
が、スケジュールを入力するためのスケジュール入力モ
ードとされた場合のステップS26の処理の詳細を示し
ている。装置のモードがスケジュール入力モードとされ
ると、ステップS31乃至S33において、図9のステ
ップS21乃至S23それぞれにおける場合と同様の処
理が行われる。
The flowchart of FIG. 10 shows the details of the processing in step S26 when the mode of the apparatus is set to the schedule input mode for inputting a schedule. When the mode of the apparatus is set to the schedule input mode, in steps S31 to S33, the same processes as those in steps S21 to S23 in FIG. 9 are performed.

【0113】そして、ステップS33において、音声認
識結果がコマンドであると判定された場合、スケジュー
ル入力モードを終了し、即ち、図9のステップS26の
処理を終了し、ステップS25にリターンする。従っ
て、ステップS33で、入力された音声がコマンドであ
ると判定された場合、ステップS25において、そのコ
マンドに対応して、装置の動作モードが設定され、ステ
ップS26において、その設定されたモードに対応する
処理が行われる。
If it is determined in step S33 that the voice recognition result is a command, the schedule input mode is ended, that is, the process of step S26 in FIG. 9 is ended, and the process returns to step S25. Therefore, when it is determined in step S33 that the input voice is a command, in step S25, the operation mode of the apparatus is set in accordance with the command, and in step S26, the operation mode corresponding to the set mode is set. Is performed.

【0114】ここで、装置のモードを、キーなどを操作
して設定する場合においては、装置のモードを変更する
ために、通常は、現在のモードから、一旦、上位(ある
いは最上位)のモードに戻り、希望するモードの選択を
行う必要がある。これに対し、図1(図3)の電子手帳
装置では、音声によりモードの選択が可能とされている
ので、装置のモードの変更は、現在のモードから直接行
うことができる。即ち、ユーザは、装置のモードを、所
望するモードに切り換えるにあたって、一旦、上位のモ
ードに戻るためのコマンドを発声し、さらに、所望する
モードに対応するコマンドを発声する必要はなく、現在
のモードにおいて、所望するモードに対応するコマンド
を発声するだけで良い。
Here, when the mode of the apparatus is set by operating a key or the like, the mode of the apparatus is usually changed from the current mode to the upper (or highest) mode once. It is necessary to return to and select a desired mode. On the other hand, in the electronic organizer shown in FIG. 1 (FIG. 3), since the mode can be selected by voice, the mode of the apparatus can be changed directly from the current mode. That is, when the user switches the mode of the apparatus to the desired mode, the user does not need to once issue a command for returning to the higher mode, and further does not need to issue a command corresponding to the desired mode. , It is only necessary to say a command corresponding to a desired mode.

【0115】一方、ステップS33において、音声認識
結果がコマンドでないと判定された場合、ステップS3
4に進み、その音声認識結果が日時を表すものであるか
どうかが判定される。ステップS34において、音声認
識結果が日時を表すものでないと判定された場合、ステ
ップS35に進み、図9のステップS24における場合
と同様にして、ユーザに対し、日時の入力が要求され、
ステップS31に戻る。
On the other hand, if it is determined in step S33 that the voice recognition result is not a command, the process proceeds to step S3
Proceeding to No. 4, it is determined whether or not the result of the voice recognition indicates the date and time. If it is determined in step S34 that the speech recognition result does not indicate the date and time, the process proceeds to step S35, and the user is requested to input the date and time in the same manner as in step S24 of FIG.
It returns to step S31.

【0116】即ち、スケジュールを入力するにあたって
は、いつのスケジュールかがわからないと、その管理を
することができない。このため、システム制御部12に
おいては、スケジュールの入力に先だって、そのスケジ
ュールの日時の入力を要求するようになされている。
That is, when a schedule is input, it cannot be managed unless the schedule is known. Therefore, the system control unit 12 requests input of the date and time of the schedule before inputting the schedule.

【0117】ここで、スケジュールの日時の入力は、図
7に示したような日時指定語を用いて行うことができる
ようになされている。また、これらの日時指定語は、単
独でも、また組み合わせても用いることができるように
なされている。即ち、日時の入力は、例えば「今日」
や、「明日」、「13時」、さらには、「来週月曜
日」、「来月1日」、「午前1時」などの音声によって
行うことができるようになされている。また、日時の入
力は、例えば「来週」と「月曜日」との間や、「来月」
と「1日」との間などに「の」を挿入した「来週の月曜
日」や、「来月の1日」などの音声によっても行うこと
ができるようになされている。
Here, the date and time of the schedule can be input by using a date and time designation word as shown in FIG. These date designation words can be used alone or in combination. That is, the input of the date and time is, for example, “today”
And "Tomorrow", "13:00", and further, such as "Next Monday", "1st of next month", and "1 am". The date and time can be input, for example, between “next week” and “Monday” or “next month”
It can also be performed by voice such as "Next Monday" with "no" inserted between "1" and "1st" or "1st of next month".

【0118】日時指定語は、図7に示したように種々存
在し、これに日付、時刻を表す数字や、上述したような
「の」を挿入した場合なども考慮すると、日時の表現方
法は、莫大な数になる。仮に、このような莫大な数のう
ちのいずれかの表現を選択し、その表現による日時の入
力を、キーボードやポインティングデバイスによって入
力を行おうとする場合には、その操作は、かなり繁雑な
ものとなる。
As shown in FIG. 7, there are various date and time designating words. Considering the case where a numeral representing the date and time or the case where the above "no" is inserted into the word, the method of expressing the date and time is as follows. , A huge number. If one of these huge numbers of expressions is selected and the date and time are to be input using the keyboard or a pointing device, the operation is rather complicated. Become.

【0119】一方、音声により日時を入力する場合にお
いては、図7に示したような日時指定語を、認識辞書に
登録し、さらに、日時指定語や、数字などの接続のルー
ルを、認識文法として記述しておけば、上述のような莫
大な数のうちのいずれかの表現により日時が発話されて
も、その音声を認識することができ、その結果、日時の
入力を、容易に行うことができる。即ち、ユーザは、ボ
タン1を操作しながら、例えば「1995年1月1日」
や、「来週月曜日」、「午後1時」、「9時から10時
まで」のように発話を行うだけで、日時の入力を行うこ
とができる。
On the other hand, in the case of inputting the date and time by voice, the date and time designation word as shown in FIG. 7 is registered in the recognition dictionary, and the connection rules such as the date and time designation word and the number are recognized by the recognition grammar. If it is described as, even if the date and time is uttered by any of the huge numbers described above, the voice can be recognized, and as a result, the input of the date and time can be easily performed. Can be. In other words, the user operates the button 1 while, for example, “January 1, 1995”
Alternatively, the user can input the date and time only by making an utterance such as “Next Monday”, “1:00 pm”, and “from 9:00 to 10:00”.

【0120】なお、日時指定語のうちの時刻指定語(図
7(B))の中には、例えば「〜時頃」や、「朝」、
「昼」、「晩」などの、あいまいな表現があるが、例え
ば「〜時頃」については、その時刻の前後どのくらいを
意味するのか、また、例えば「朝」、「昼」、「晩」に
ついては、何時から何時までをいうのかがあらかじめ設
定されている。
The time designation words (FIG. 7B) of the date / time designation words include, for example, “about hour”, “morning”,
There are vague expressions such as "day" and "night". For example, "about" means how much before and after the time, and "morning", "day", "night" Is set in advance from what time to what time.

【0121】以上のような日時指定語を用いた音声の入
力があった場合、即ち、音声による日時の入力があった
場合、ステップS34においては、音声認識結果が日時
を表すものであると判定され、ステップS36に進む。
ステップS36では、その音声認識結果としての日時が
相対日時を表すものであるかどうかが判定される。ステ
ップS36において、日時が相対日時を表すものでない
と判定された場合、即ち、日時が絶対日時を表すもので
ある場合、ステップS37をスキップして、ステップS
38に進む。
If there is a voice input using the above-mentioned date and time designation word, that is, if there is a voice input of a date and time, it is determined in step S34 that the voice recognition result indicates the date and time. Then, the process proceeds to step S36.
In step S36, it is determined whether or not the date and time as the speech recognition result indicates a relative date and time. If it is determined in step S36 that the date and time do not represent a relative date and time, that is, if the date and time represents an absolute date and time, step S37 is skipped and step S37 is skipped.
Proceed to 38.

【0122】また、ステップS36において、日時が相
対日時を表すものであると判定された場合、ステップS
37に進み、その相対日時が絶対日時に変換される。即
ち、システム制御部12は、時計部15から供給される
現在日時を参照して、相対日時を絶対日時に変換する。
具体的には、例えば、相対日時で表現された日時が、
「来週月曜日」である場合において、現在の日付が19
95年3月1日金曜日であれば、相対日時「来週月曜
日」は、絶対日時「1995年3月4日」に変換され
る。
If it is determined in step S36 that the date and time represent a relative date and time, the process proceeds to step S36.
Proceeding to 37, the relative date and time is converted to an absolute date and time. That is, the system control unit 12 refers to the current date and time supplied from the clock unit 15 and converts the relative date and time into an absolute date and time.
Specifically, for example, when the date and time represented by the relative date and time are
If "Next Monday", the current date is 19
If it is Friday, March 1, 1995, the relative date and time “Next Monday” is converted to the absolute date and time “March 4, 1995”.

【0123】ステップS37において、相対日時が絶対
日時に変換されると、ステップS38に進み、スケジュ
ール入力処理が行われる。即ち、ユーザに対して、ステ
ップS35における場合と同様にして、スケジュールの
入力が要求され、それに対応して、スケジュールが、音
声により入力されると、その音声が音声認識され、絶対
日時と対応付けられる。この絶対日時と対応付けられた
音声認識結果、即ち、スケジュールは、システム制御部
12から記憶部13に供給されて記憶される。以上のス
ケジュール入力処理が終了すると、ステップS31に戻
り、再び、ステップS31からの処理を繰り返す。
When the relative date and time are converted to the absolute date and time in step S37, the process proceeds to step S38, and a schedule input process is performed. That is, as in the case of step S35, the user is requested to input a schedule. In response to this, when the schedule is input by voice, the voice is recognized by voice and is associated with the absolute date and time. Can be The speech recognition result associated with the absolute date and time, that is, the schedule is supplied from the system control unit 12 to the storage unit 13 and stored. When the above-described schedule input processing is completed, the process returns to step S31, and the processing from step S31 is repeated again.

【0124】なお、ユーザから入力された日時が、時刻
のみであって、日付を含まないものである場合には、シ
ステム制御部12では、その時刻は、例えば、現在の日
付における時刻であると認識される。
If the date and time entered by the user is only the time and does not include the date, the system control unit 12 determines that the time is, for example, the time on the current date. Be recognized.

【0125】ところで、スケジュールなどを音声により
入力し、その後、そのスケジュールを検索して表示させ
る場合に、そのスケジュールの表示が仮名だけなされる
と、それは、非常に見にくいものとなる。従って、スケ
ジュールの入力の際には、そのスケジュールを表す文字
列を仮名漢字変換しておくことが望ましい。
By the way, when a schedule or the like is input by voice, and then the schedule is searched and displayed, if the display of the schedule is made only by a pseudonym, it becomes very difficult to see. Therefore, when inputting a schedule, it is desirable to convert a character string representing the schedule into kana-kanji characters.

【0126】いま、スケジュールとして、例えば待ち合
わせ場所を表す「品川駅の西口改札前」などを入力する
ことを考えると、これを入力するのに、「しながわえき
のにしぐちかいさつまえ」と発話し、これを音声認識し
て仮名漢字変換を行うためには、例えば単語「しなが
わ」、「えき」、「の」、「にしぐち」、「かいさ
つ」、「まえ」が、音声認識対象語として認識辞書に登
録されており、また、これらが接続されることが、認識
文法として認識文法記憶部25に登録されている必要が
ある。
Now, assuming that a schedule, for example, “in front of the west exit ticket gate of Shinagawa Station”, which represents a meeting place, is to be entered, to enter this, say “Shinagawa Eki no Nishiguchi Saisatsu”. In order to perform Kana-Kanji conversion by speech recognition, for example, the words “Shinagawa”, “Eki”, “No”, “Nishiguchi”, “Kai Satsu”, and “Mae” are used as speech recognition target words. It must be registered in the recognition dictionary and the fact that they are connected is registered in the recognition grammar storage unit 25 as a recognition grammar.

【0127】しかしながら、すべてのユーザに対応する
ことができるように、このような単語や認識文法を登録
しておくことは、前述したように、認識性能の劣化およ
び認識処理速度の低下を招くことになる。
However, registering such words and recognition grammars so as to be able to handle all users leads to deterioration in recognition performance and reduction in recognition processing speed, as described above. become.

【0128】そこで、ここでは、例えば、次のようにし
て、音声認識の対象となっていない単語の仮名漢字変換
を行うことができるようになされている。
Therefore, here, for example, the kana-kanji conversion of a word that is not the target of speech recognition can be performed as follows.

【0129】即ち、例えば、いま、「品川駅の」という
文字列を入力しようとする場合、これを、「し」、
「な」、「が」、「わ」、「え」、「き」、「の」とい
うように、1文字ずつ発声する(以下、適宜、このよう
な発話を、1文字発話という)。このような1文字は、
上述したように、1文字語として、認識辞書を構成する
1文字語辞書(図6)に登録されているから、1文字発
話は、音声認識部16において音声認識することができ
る。
That is, for example, when the character string “Shinagawa Station” is to be entered, this is entered as “shi”,
Speak one character at a time, such as "na", "ga", "wa", "e", "ki", "no" (hereinafter, such an utterance is appropriately referred to as one character utterance). One such character is
As described above, since the one-character word is registered in the one-character word dictionary (FIG. 6) constituting the recognition dictionary, the one-character utterance can be recognized by the voice recognition unit 16.

【0130】そして、1文字発話を音声認識した後は、
その音声認識の結果得られる文字列の中の、連続する複
数の文字を配置して連続文字列を作成する。即ち、例え
ば、上述のような「し」、「な」、「が」、「わ」、
「え」、「き」、「の」については、連続する2文字を
配列した連続文字列「しな」、「なが」、「がわ」、
「わえ」、「えき」、「きの」を作成し、さらに、連続
する3文字を配列した連続文字列「しなが」、「なが
わ」、「がわえ」、「わえき」、「えきの」を作成す
る。同様にして、連続する4文字を配列した連続文字列
「しながわ」、「ながわえ」、「がわえき」、「わえき
の」、連続する5文字を配列した連続文字列「しながわ
え」、「ながわえき」、「がわえきの」、連続する6文
字を配列した連続文字列「しながわえき」、「ながわえ
きの」、連続する7文字を配列した連続文字列「しなが
わえきの」を作成する。
After the speech recognition of the one-character utterance,
A continuous character string is created by arranging a plurality of continuous characters in a character string obtained as a result of the speech recognition. That is, for example, “shi”, “na”, “ga”, “wa”,
For "e", "ki", and "no", a continuous character string "shina", "naga", "gawa", in which two consecutive characters are arranged,
"Waye", "Eki", "Kino" are created, and a continuous character string "Shinaga", "Nagawa", "Gawae", "Waeki""," Ekino "is created. Similarly, a continuous character string "Shinagawa", "Nagawae", "Gawaeki", "Waekino", which is a sequence of four consecutive characters, and a continuous character string "Shinagawae" in which five consecutive characters are arranged "," Nagawa Eki "," Gawa Ekino ", a continuous character string with six consecutive characters" Shinagawa Eki "," Nagawa Eki ", a continuous character string with seven consecutive characters" Create Shinagawa Eki no.

【0131】以上のようにして連続文字列(ここでは、
「しな」、「なが」、「がわ」、「わえ」、「えき」、
「きの」、「しなが」、「ながわ」、「がわえ」、「わ
えき」、「えきの」、「しながわ」、「ながわえ」、
「がわえき」、「わえきの」、「しながわえ」、「なが
わえき」、「がわえきの」、「しながわえき」、「なが
わえきの」、および「しながわえきの」の21の連続文
字列)を作成した後は、その連続文字列を、音声認識対
象語とし、これにより、その後に、連続文字列に対応す
る音声が入力された場合には、その音声を音声認識する
ことができるようにする。
As described above, a continuous character string (here,
“Shina”, “Naga”, “Gawa”, “Way”, “Eki”,
"Kino", "Shinaga", "Nagawa", "Gawae", "Waeki", "Ekino", "Shinagawa", "Nagaue",
“Gawaeki”, “Wakino”, “Shinagawa”, “Nagaiwaki”, “Gawaeki”, “Shinagawaeki”, “Nagaiwaki”, and “Shinagawaeki” After the creation of 21 consecutive character strings), the continuous character string is used as a speech recognition target word, so that when a voice corresponding to the continuous character string is subsequently input, the voice is Be able to recognize.

【0132】その結果、例えば「えき」が音声認識対象
語とされていない場合において、上述したような
「し」、「な」、「が」、「わ」、「え」、「き」、
「の」という音声が入力された後、さらに、音声「え
き」が入力されたときには、連続文字列「えき」が音声
認識対象語とされているので、その音声「えき」は、連
続文字列「えき」に音声認識されることになる。そし
て、音声認識結果が連続文字列である場合には、その連
続文字列を対象に仮名漢字変換を行う。
As a result, for example, when “Eki” is not a speech recognition target word, “Shi”, “Na”, “Ga”, “Wa”, “E”, “K”,
When the voice "Eki" is input after the voice "No" is input, the continuous character string "Eki" is regarded as a target word for voice recognition. The voice is recognized by "Eki". If the speech recognition result is a continuous character string, the kana-kanji conversion is performed on the continuous character string.

【0133】これにより、例えば、音声「し」、
「な」、「が」、「わ」、「え」、「き」、「の」が入
力された後、さらに、音声「えき」が入力されたときに
は、仮名だけでなる文字列「しながわえきの」のうちの
「えき」が仮名漢字変換され、「しながわ駅の」とされ
る。
As a result, for example, the voice “shi”,
When "na", "ga", "wa", "e", "ki", and "no" are input and then the voice "eki" is input, the character string consisting only of the kana "Shinagawa Eki""Eki" in "No" is converted to Kana-Kanji characters and becomes "Shinagawa Station".

【0134】以上のように、連続文字列を作成し、それ
を、新たに音声認識対象語とすることで、仮名漢字変換
すべき文字列を、音声で指定することが可能となる。即
ち、この場合、上述したような1文字語を認識辞書に登
録しておくだけで、一度入力された文字から作成された
連続文字列であれば、その音声認識が可能となり、その
結果、仮名漢字変換すべき文字列を、音声で指定するこ
とができるようになる。
As described above, by creating a continuous character string and using it as a new speech recognition target word, it is possible to specify a character string to be converted to kana-kanji by voice. That is, in this case, by simply registering the one-letter word in the recognition dictionary as described above, if it is a continuous character string created from characters that have been input once, its speech can be recognized. A character string to be converted into kanji can be specified by voice.

【0135】さらに、この場合、連続文字列を発話する
と、その仮名漢字変換が行われるので、この連続文字列
の発話は、仮名漢字変換すべき文字列の指定を行うとい
う意味の他に、その連続文字列の仮名漢字変換を行わせ
る、いわばトリガとしての意味も有する。
Further, in this case, when a continuous character string is uttered, the kana-kanji conversion is performed. Therefore, the utterance of the continuous character string means not only that the character string to be converted to kana-kanji is specified, but also that It also has the meaning as a trigger, which causes the kana-kanji conversion of a continuous character string.

【0136】次に、以上のような仮名漢字変換を行う場
合のシステム制御部12の動作について、図11のフロ
ーチャートを参照して説明する。音声により、仮名漢字
変換を行うコマンドが発せられると、システム制御部1
2は、装置のモードを仮名漢字変換モードとし、図11
に示すフローチャートにしたがった処理を行う。即ち、
まず最初に、ステップS41乃至S43において、図1
0のステップS31乃至S33それぞれにおける場合と
同様の処理が行われる。
Next, the operation of the system control unit 12 when performing the above-described kana-kanji conversion will be described with reference to the flowchart of FIG. When a command to perform kana-kanji conversion is issued by voice, the system control unit 1
2 indicates that the mode of the device is the kana-kanji conversion mode, and FIG.
The processing according to the flowchart shown in FIG. That is,
First, in steps S41 to S43, FIG.
0, the same processing as in each of steps S31 to S33 is performed.

【0137】そして、ステップS43において、音声認
識結果がコマンドでないと判定された場合、ステップS
44に進み、音声認識結果が1文字語であるかどうかが
判定される。ステップS44において、音声認識結果が
1文字語であると判定された場合、システム制御部12
は、その1文字語を、ディスプレイ3に表示させ、さら
に、ステップS45において、その1文字語を追加した
形の未処理文字列が作成される。なお、未処理文字列に
ついては後述する。
If it is determined in step S43 that the voice recognition result is not a command, the process proceeds to step S43.
Proceeding to 44, it is determined whether the speech recognition result is a one-letter word. If it is determined in step S44 that the speech recognition result is a one-letter word, the system control unit 12
Causes the one-letter word to be displayed on the display 3, and in step S45, an unprocessed character string in which the one-letter word is added is created. The unprocessed character string will be described later.

【0138】その後、ステップS46において、ステッ
プS45で作成された未処理文字列を対象に、上述した
ような連続文字列が作成される。即ち、ステップS46
では、未処理文字列がN文字でなる場合、その未処理文
字列の中の、連続する2文字でなる連続文字列、連続す
る3文字でなる連続文字列、・・・、連続するN文字で
なる連続文字列が作成される。
Thereafter, in step S46, a continuous character string as described above is created for the unprocessed character string created in step S45. That is, step S46
In the case where the unprocessed character string consists of N characters, a continuous character string consisting of two consecutive characters, a continuous character string consisting of three consecutive characters in the unprocessed character string, ..., N consecutive characters Is created.

【0139】連続文字列が作成された後は、ステップS
47に進み、その連続文字列が、連続文字列辞書に登録
され、これにより、連続文字列が、音声認識対象語とさ
れる。
After the continuous character string is created, step S
Proceeding to 47, the continuous character string is registered in the continuous character string dictionary, whereby the continuous character string is set as a speech recognition target word.

【0140】ここで、連続文字列辞書に、ステップS4
6で作成された連続文字列を順次追加して行くようにし
た場合には、音声認識対象語が増加し、認識性能および
認識処理速度に影響を与えることになる。そこで、ここ
では、ステップS46で作成された連続文字列の、連続
文字列辞書への登録は、既に登録されている連続文字列
を削除して行われるようになされている。このようにす
ることで、連続文字列辞書に登録される連続文字列が無
制限に増加していくのを防止することができる。
Here, in the continuous character string dictionary, step S4
When the continuous character strings created in step 6 are sequentially added, the number of words for speech recognition increases, which affects the recognition performance and the recognition processing speed. Therefore, here, registration of the continuous character string created in step S46 in the continuous character string dictionary is performed by deleting the already registered continuous character string. By doing so, it is possible to prevent the continuous character strings registered in the continuous character string dictionary from increasing without limit.

【0141】なお、連続文字列辞書に登録された連続文
字列の削除は、ステップS47において、新たな連続文
字列を登録するときの他、例えば、仮名漢字変換モード
を終了するときや、あるいは、ユーザから所定のコマン
ドが入力されたときなどに行うようにすることも可能で
ある。
The deletion of the continuous character string registered in the continuous character string dictionary is performed in step S47 in addition to the registration of a new continuous character string, for example, when ending the kana-kanji conversion mode, or It is also possible to execute the command when a predetermined command is input from the user.

【0142】以上のようにして、連続文字列が連続文字
列辞書に登録された後は、ステップS47からS41に
戻り、ステップS41において、新たな音声の入力を待
って、再び、ステップS42以降の処理が行われる。
After the continuous character string has been registered in the continuous character string dictionary as described above, the process returns from step S47 to S41. In step S41, after inputting a new voice, the process returns to step S42 and subsequent steps. Processing is performed.

【0143】一方、ステップS44において、音声認識
結果が1文字語ではないと判定された場合、ステップS
48に進み、その音声認識結果が、連続文字列辞書に登
録された連続文字列であるかどうかが判定される。ステ
ップS48において、音声認識結果が連続文字列である
と判定された場合、ステップS49に進み、その連続文
字列が、記憶部13に記憶された仮名漢字変換用辞書を
参照することで漢字に変換される。さらに、ステップS
49では、ディスプレイ3に表示された、その連続文字
列を構成する文字の部分が、対応する漢字に変換され、
ステップS45に進む。
On the other hand, if it is determined in step S44 that the speech recognition result is not a one-letter word, the process proceeds to step S44.
Proceeding to 48, it is determined whether the speech recognition result is a continuous character string registered in the continuous character string dictionary. If it is determined in step S48 that the speech recognition result is a continuous character string, the process proceeds to step S49, where the continuous character string is converted into kanji by referring to the kana-kanji conversion dictionary stored in the storage unit 13. Is done. Further, step S
At 49, the character portion constituting the continuous character string displayed on the display 3 is converted into the corresponding kanji,
Proceed to step S45.

【0144】ステップS45では、ステップS49で漢
字に変換された文字列(連続文字列)の後に続く文字列
が未処理文字列とされ、以下、ステップS46以降の処
理が行われる。
In step S45, the character string following the character string (continuous character string) converted to kanji in step S49 is regarded as an unprocessed character string, and the processing in step S46 and thereafter is performed.

【0145】即ち、例えば、いま、上述したように、
「し」、「な」、「が」、「わ」、「え」、「き」、
「の」が入力されて連続文字列が作成され、連続文字列
「しながわ」が発話された場合には、それが漢字「品
川」に変換される。この場合、ステップS45では、
「品川」の後に続く文字列「えきの」が未処理文字列と
される。そして、この状態において、連続文字列「え
き」が発話された場合には、それが「駅」に変換され、
この場合、ステップS45では、「駅」の後に続く文字
「の」が未処理文字列とされる。
That is, for example, as described above,
"Shi", "na", "ga", "wa", "e", "ki",
When "no" is input to create a continuous character string and the continuous character string "Shinagawa" is uttered, it is converted to the kanji character "Shinagawa". In this case, in step S45,
The character string "ekino" following "Shinagawa" is regarded as an unprocessed character string. Then, in this state, when the continuous character string “Eki” is uttered, it is converted into “Station”,
In this case, in step S45, the character "no" following "station" is set as an unprocessed character string.

【0146】さらに、その後、例えば、1文字語
「に」、「し」、「ぐ」、「ち」、「か」、「い」、
「さ」、「つ」、「ま」、「え」が順次発話された場合
には、ステップS45において、未処理文字列「の」
に、その発話された1文字語が順次追加されていき、未
処理文字列「のにしぐちかいさつまえ」が作成される。
Thereafter, for example, the one-letter words "ni", "shi", "gu", "chi", "ka", "i",
If “sa”, “tsu”, “ma”, and “e” are sequentially uttered, in step S45, the unprocessed character string “no”
Then, the uttered one-letter word is sequentially added, and an unprocessed character string “Nishi-Nishiguchi-kaisatsu-mae” is created.

【0147】この状態において、例えば「にし」を発話
した場合においては、「にし」は連続文字列となってい
るから、未処理文字列「のにしぐちかいさつまえ」のう
ちの「にし」が漢字「西」に変換され、これにより、未
処理文字列は、「ぐちかいさつまえ」とされる。以下、
連続文字列「ぐち」、「かいさつ」、「まえ」が順次発
話されることにより、これらが漢字に変換され、最終的
には、「品川駅の西口改札前」という漢字かな混じり文
が得られる。
In this state, for example, when "Nishi" is uttered, "Nishi" is a continuous character string. The kanji is converted to the kanji “west”, and the unprocessed character string is changed to “guchikaisatsumae”. Less than,
The continuous character strings "Guchi", "Kai-satsu", and "Mae" are sequentially uttered, and these are converted to Kanji, and finally, a mixed sentence of Kanji kana "Shinagawa station west exit ticket gate" is obtained. Can be

【0148】また、このように、1文字語「し」、
「な」、「が」、「わ」、「え」、「き」、「の」が発
話され、さらに連続文字列「しながわ」、「えき」が発
話された後、1文字語「に」、「し」、「ぐ」、
「ち」、「か」、「い」、「さ」、「つ」、「ま」、
「え」が発話され、さらに連続文字列「にし」、「ぐ
ち」、「かいさつ」、「まえ」が発話された場合には、
ディスプレイ3の表示は、「しながわえきの」、「品川
えきの」、「品川駅の」、「品川駅のにしぐちかいさつ
まえ」、「品川駅の西ぐちかいさつまえ」、「品川駅の
西口かいさつまえ」、「品川駅の西口改札まえ」、「品
川駅の西口改札前」と変化していく。なお、ディスプレ
イ3には、未処理文字列の部分を、例えば反転して表示
させるようにすることが可能である。この場合、ユーザ
は、いま現在、未処理文字列となっている部分を、明確
に認識することができる。
In addition, as described above, the one-letter word "shi",
After uttering "na", "ga", "wa", "e", "ki", "no", and further uttering the continuous character strings "shinagawa" and "eki", the one-letter word "ni" , "Shi", "gu",
"Chi", "ka", "i", "sa", "tsu", "ma",
If "e" is spoken and the continuous character strings "nishi", "guchi", "kaisatsu", and "mae" are spoken,
The display on the display 3 is "Shinagawa Ekino", "Shinagawa Ekino", "Shinagawa Station's", "Shinagawa Station's Nishiguchi Satsumasae", "Shinagawa Station Nishi Gachikai Satsuma", "Shinagawa Station's It changes to "West exit ticket gate", "Shinagawa station west gate ticket gate", "Shinagawa station west gate ticket gate". The display 3 can display the unprocessed character string portion, for example, in an inverted manner. In this case, the user can clearly recognize the portion that is currently the unprocessed character string.

【0149】一方、ステップS48において、音声認識
結果が連続文字列でないと判定された場合、ステップS
50に進み、ユーザに対し、1文字語または連続文字列
を発話するように要求がなされ、ステップS41に戻
る。
On the other hand, if it is determined in step S48 that the speech recognition result is not a continuous character string, the process proceeds to step S48.
Proceeding to 50, a request is made to the user to speak a one-character word or a continuous character string, and the process returns to step S41.

【0150】以上のように、未処理文字列から連続文字
列を作成し、これを音声認識対象語とすることで、音声
認識対象語としてあらかじめ登録されていない単語であ
っても、音声認識を行うことが可能となり、さらに、そ
の仮名漢字変換を行うことが可能となる。
As described above, a continuous character string is created from an unprocessed character string, and is used as a speech recognition target word. Thus, even if a word is not registered in advance as a speech recognition target word, speech recognition can be performed. It is possible to perform the kana-kanji conversion.

【0151】なお、仮名漢字変換を行うための仮名漢字
変換用辞書としては、既に大語彙のものが実現されてお
り、ここでの仮名漢字変換には、そのようなものを利用
することができる。その結果、音声によって、そのよう
な大規模の仮名漢字変換用辞書を、そこに登録されてい
る単語すべてをあらかじめ音声認識対象語としておかな
くても扱うことが可能となる。
As a kana-kanji conversion dictionary for performing kana-kanji conversion, a dictionary with a large vocabulary has already been realized, and such a kana-kanji conversion can be used here. . As a result, it is possible to handle such a large-scale kana-kanji conversion dictionary by voice without using all words registered therein as speech recognition target words in advance.

【0152】次に、図12のフローチャートは、装置の
動作モードが、新規語を登録する新規語モードとされた
場合の、図9のステップS26における処理の詳細を示
している。基本辞書に登録されていない新規語は、上述
したような1文字発話を行うことで入力し、さらにその
仮名漢字変換を行うことができるが、新規語が頻繁に用
いられるものである場合に、そのような新規語を入力す
るたびに、1文字発話を行わなければならないのは面倒
である。
Next, the flowchart of FIG. 12 shows the details of the processing in step S26 in FIG. 9 when the operation mode of the apparatus is set to the new word mode for registering a new word. A new word that is not registered in the basic dictionary can be input by performing one-character utterance as described above, and can further perform its kana-kanji conversion. However, if the new word is frequently used, It is troublesome to have to utter one character each time such a new word is input.

【0153】そこで、本実施例では、そのような新規語
の、新規語辞書への登録を、上述の仮名漢字変換を利用
して行うことができるようになされている。
Therefore, in the present embodiment, such a new word can be registered in the new word dictionary by using the above-described kana-kanji conversion.

【0154】ユーザは、新規語の登録を行う場合、音声
により、新規語の登録を行うコマンドを入力する。この
場合、システム制御部12は、装置のモードを新規語登
録モードとし、図12に示すフローチャートにしたがっ
た処理を行う。即ち、システム制御部12では、ステッ
プS61乃至S70において、図11のステップS41
乃至S50における場合とそれぞれ同様の処理を行う。
When registering a new word, the user inputs a command for registering a new word by voice. In this case, the system control unit 12 sets the mode of the apparatus to the new word registration mode, and performs processing according to the flowchart shown in FIG. That is, in steps S61 to S70, the system control unit 12 executes step S41 in FIG.
The same processing as in steps S50 to S50 is performed.

【0155】但し、図11のステップS49に対応する
ステップS69では、発話された連続文字列が、新規語
として、新規語辞書に登録される。
However, in step S69 corresponding to step S49 in FIG. 11, the uttered continuous character string is registered as a new word in the new word dictionary.

【0156】従って、ユーザは、登録しようとする新規
語を、1文字発話により入力し、さらに、その新規語を
発話することで、その登録を行うことができる。
Therefore, the user can register a new word to be registered by inputting the new word by one-character utterance and further uttering the new word.

【0157】なお、ステップS69では、発話された連
続文字列(新規語)だけを新規語辞書に登録するだけで
なく、その連続文字列の仮名漢字変換も行うようにし、
これを、新規語としての連続文字列と対応付けて新規語
辞書に登録するようにすることが可能である。
In step S69, not only the uttered continuous character string (new word) is registered in the new word dictionary, but also the kana-kanji conversion of the continuous character string is performed.
This can be registered in the new word dictionary in association with a continuous character string as a new word.

【0158】この場合、ユーザにより、その新規語の発
話がなされたとき、その音声認識結果に対応付けられて
いる漢字を、即座に表示するようにすることができる。
In this case, when the user utters the new word, the kanji associated with the speech recognition result can be immediately displayed.

【0159】即ち、新規語として、例えば「かていきょ
うし」と、それを漢字に変換した「家庭教師」とを対応
付けて新規語辞書に登録するようにすることで、その
後、音声「かていきょうし」が入力された場合には、そ
の音声の認識結果に対応付けられている漢字「家庭教
師」を、即座に表示することが可能となる。
That is, as a new word, for example, “Kaite Kyoshi” is associated with “Katekyo”, which is converted into a kanji, and registered in the new word dictionary. When “Kyoshi” is input, the kanji “tutor” associated with the recognition result of the voice can be displayed immediately.

【0160】また、新規語の登録を無制限に認めると、
音声の認識性能および認識処理速度が低下することにな
るので、登録された新規語が、所定数となったときに
は、ユーザにその旨を報知するようにするのが好まし
い。
Also, if new words are allowed to be registered without restriction,
Since the voice recognition performance and the recognition processing speed are reduced, it is preferable to notify the user when the number of registered new words reaches a predetermined number.

【0161】次に、図13のフローチャートを参照し
て、装置のモードが、スケジュールや住所録の検索を行
う検索モードとされた場合の、図9のステップS26の
処理について説明する。なお、ここでは、コマンド辞書
に、指示語として、例えば、上述した「のスケジュール
は」や、「の住所は」、「の電話番号は」などが登録さ
れているものとする。但し、指示語は、これらに限定さ
れるものではない。
Next, the processing in step S26 in FIG. 9 when the mode of the apparatus is set to the search mode for searching the schedule and the address book will be described with reference to the flowchart in FIG. Here, it is assumed that, for example, the above-mentioned "schedule of", "address of", and "phone number of" are registered as command words in the command dictionary. However, the designation word is not limited to these.

【0162】この場合、まず、ステップS81乃至S8
3において、図10のステップS31乃至S33におけ
る場合とそれぞれ同様に処理が行われる。
In this case, first, steps S81 to S8
3, the processing is performed in the same manner as in steps S31 to S33 in FIG.

【0163】そして、ステップS83において、音声認
識結果がコマンドでないと判定された場合、ステップS
84に進み、その音声認識結果が指示語を含むものであ
るかどうかが判定される。ステップS84において、音
声認識結果が指示語を含むものでないと判定された場
合、ステップS85に進み、図9のステップS24にお
ける場合と同様にして、ユーザに対し、検索項目を特定
するための指示語の入力が要求され、ステップS81に
戻る。
If it is determined in step S83 that the voice recognition result is not a command, the process proceeds to step S83.
Proceeding to 84, it is determined whether the speech recognition result includes the instruction word. If it is determined in step S84 that the speech recognition result does not include the instruction word, the process proceeds to step S85, and the user is instructed to specify the search item in the same manner as in step S24 of FIG. Is requested, and the process returns to step S81.

【0164】一方、ステップS84において、音声認識
結果が指示語を含むものであると判定された場合、ステ
ップS86に進み、その指示語の前に配置された語(以
下、適宜、前置語という)についての情報の検索が、指
示語が表す検索項目を対象に行われる。
On the other hand, if it is determined in step S84 that the speech recognition result includes the descriptive word, the flow advances to step S86 to determine the word placed before the descriptive word (hereinafter, appropriately referred to as a prefix). Is searched for the search item represented by the descriptive word.

【0165】即ち、例えば、音声「1995年1月1日
のスケジュールは?」が入力された場合には、指示語
「のスケジュールは」の前に配置された前置語「199
5年1月1日」についての情報の検索が、指示語「のス
ケジュールは」が表す検索項目「スケジュール」を対象
に行われる。従って、この場合、ステップS86では、
1995年1月1日のスケジュールが、記憶部13から
検索される。
That is, for example, when the voice “What is the schedule for January 1, 1995?” Is input, the prefix “199” arranged before the instructive word “schedule of” is input.
A search for information on "January 1, 5" is performed on a search item "schedule" represented by the directive word "schedule." Therefore, in this case, in step S86,
The schedule of January 1, 1995 is retrieved from the storage unit 13.

【0166】また、例えば、音声「(人名)の電話番号
は?」が入力された場合には、前置語「(人名)」につ
いての情報の検索が、指示語「の電話番号は」が表す検
索項目「電話番号」を対象に行われる。従って、この場
合、ステップS86では、(人名)の電話番号が、記憶
部13から検索される。さらに、例えば、音声「(人
名)の住所は?」が入力された場合には、前置語「(人
名)」についての情報の検索が、指示語「の住所は」が
表す検索項目「住所」を対象に行われる。従って、この
場合、ステップS86では、(人名)の住所が、記憶部
13から検索される。
For example, when the voice “(person name) is the telephone number?” Is inputted, the information search for the prefix “(person name)” is performed, The search item "telephone number" is searched. Therefore, in this case, in step S86, the telephone number of (person name) is retrieved from the storage unit 13. Further, for example, when the voice “address of (person name)” is input, the search for information about the prefix “(person name)” is performed, and the search item “address of Is performed on the subject. Therefore, in this case, in step S86, the address of (person name) is retrieved from the storage unit 13.

【0167】ステップS86において情報の検索が行わ
れた後は、ステップS87に進み、ステップS86にお
ける検索結果が、出力部14から出力され(ディスプレ
イ3に表示され、またはスピーカ4から出力され)、ス
テップS81に戻る。
After the information search is performed in step S86, the process proceeds to step S87, in which the search result in step S86 is output from the output unit 14 (displayed on the display 3 or output from the speaker 4). It returns to S81.

【0168】なお、以上のような情報の検索を行う場合
においては、日時の音声認識は、図10で説明したよう
に可能であるが、人名の音声認識については、必ずしも
可能であるとは限らないため、人名については、図12
で説明したようにして、新規語として登録しておくのが
望ましい。
In the above-described information search, speech recognition of the date and time is possible as described with reference to FIG. 10, but speech recognition of a personal name is not always possible. Since there is no personal name,
It is desirable to register as a new word as described in.

【0169】以上のように、図1の電子手帳装置によれ
ば、情報その他の入力を、音声により行うようにしたの
で、装置を大型化することなく、その入力を容易に行う
ことができる。さらに、情報その他の柔軟な入力、即
ち、例えば相対日時や、あらかじめ音声認識の対象とさ
れていない単語などの入力が可能となる。
As described above, according to the electronic organizer of FIG. 1, information and other inputs are made by voice, so that the input can be made easily without increasing the size of the apparatus. Furthermore, it is possible to input information and other flexible inputs, for example, relative dates and times, and words that are not previously subjected to voice recognition.

【0170】以上、本発明を電子手帳装置に適用した場
合について説明したが、本発明は、音声によりデータの
入力を行うあらゆる装置に適用可能である。
The case where the present invention is applied to an electronic organizer has been described above. However, the present invention is applicable to any device that inputs data by voice.

【0171】なお、本実施例では、1文字語辞書に、1
文字語だけを登録しておくようにしたが、1文字語辞書
には、任意の単語を登録するようにすることができる。
In this embodiment, 1-letter word dictionary contains 1
Although only the character words are registered, an arbitrary word can be registered in the one-character word dictionary.

【0172】また、本実施例では、1文字発話の音声認
識結果から連続文字列を作成して、これを、新たに音声
認識対象語とするようにしたが、その他、例えば、ディ
スプレイ3またはスピーカ4から出力される、音声認識
結果以外の情報を表す文字列から連続文字列を作成し、
これを、新たに音声認識対象語とするようにすることも
可能である。即ち、例えば、本発明を、電子辞書装置な
どに適用した場合において、入力された音声に対応する
単語の検索結果として、その単語を解説する文章が表示
されているときに、その文章から連続文字列を作成する
ようにすることが可能である。この場合、文章を構成す
る単語が、あらかじめ音声認識対象語とされていなくて
も、その単語を音声認識することが可能となり、従っ
て、その単語が発話された場合に、その単語を検索する
ことが可能となる。
Further, in this embodiment, a continuous character string is created from the speech recognition result of one-character utterance, and this is used as a new speech recognition target word. A continuous character string is created from a character string output from 4 and representing information other than the speech recognition result,
This can be newly set as a speech recognition target word. That is, for example, in a case where the present invention is applied to an electronic dictionary device or the like, when a sentence describing the word is displayed as a search result of a word corresponding to the input voice, continuous characters from the sentence are displayed. It is possible to create a column. In this case, even if a word constituting a sentence is not previously set as a speech recognition target word, the word can be speech-recognized. Therefore, when the word is uttered, it is necessary to search for the word. Becomes possible.

【0173】さらに、本実施例では、音声認識の対象と
する言語を日本語としたが、音声認識の対象とする言語
は、日本語に限定されるものではない。
Further, in this embodiment, the language to be subjected to speech recognition is Japanese, but the language to be subjected to speech recognition is not limited to Japanese.

【0174】[0174]

【発明の効果】本発明の音声認識方法および音声認識装
によれば、あらかじめ音声認識の対象とされていない
語であっても、音声認識することができる
The speech recognition method and the speech recognition apparatus according to the present invention.
According to the location , it was not previously targeted for speech recognition
Even a word can be recognized by speech .

【0175】[0175]

【0176】[0176]

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明を適用した電子手帳装置の一実施例の構
成を示す斜視図である。
FIG. 1 is a perspective view showing a configuration of an embodiment of an electronic organizer to which the present invention is applied.

【図2】図1の電子手帳装置の主な機能を示す図であ
る。
FIG. 2 is a diagram showing main functions of the electronic organizer of FIG. 1;

【図3】図1の電子手帳装置の電気的構成例を示すブロ
ック図である。
FIG. 3 is a block diagram showing an example of an electrical configuration of the electronic organizer of FIG. 1;

【図4】図3の音声認識部16の構成例を示すブロック
図である。
FIG. 4 is a block diagram illustrating a configuration example of a speech recognition unit 16 in FIG. 3;

【図5】図4の認識辞書に記憶されている認識辞書の構
成を示す図である。
FIG. 5 is a diagram illustrating a configuration of a recognition dictionary stored in the recognition dictionary of FIG. 4;

【図6】図5の1文字語辞書の登録内容を示す図であ
る。
FIG. 6 is a diagram showing registered contents of the one-letter word dictionary of FIG. 5;

【図7】図5の基本辞書の登録内容を示す図である。FIG. 7 is a diagram showing registered contents of a basic dictionary of FIG. 5;

【図8】最終的な音声認識結果を決定する方法を説明す
るフローチャートである。
FIG. 8 is a flowchart illustrating a method for determining a final speech recognition result.

【図9】図3のシステム制御部12の処理を説明するフ
ローチャートである。
FIG. 9 is a flowchart illustrating a process of the system control unit 12 of FIG. 3;

【図10】図9のステップS26の処理の詳細を説明す
るフローチャートである。
FIG. 10 is a flowchart illustrating details of a process in step S26 in FIG. 9;

【図11】かな漢字変換処理の詳細を説明するフローチ
ャートである。
FIG. 11 is a flowchart illustrating details of a kana-kanji conversion process.

【図12】図9のステップS26の処理の詳細を説明す
るフローチャートである。
FIG. 12 is a flowchart illustrating details of a process in step S26 in FIG. 9;

【図13】図9のステップS26の処理の詳細を説明す
るフローチャートである。
FIG. 13 is a flowchart illustrating details of a process in step S26 in FIG. 9;

【符号の説明】[Explanation of symbols]

1 ボタン, 2 マイク, 3 ディスプレイ, 4
スピーカ, 11入力部, 12 システム制御部,
13 記憶部, 14 出力部, 15時計部, 1
6 音声認識部, 17 音声合成部, 21 音響分
析部, 22 認識部, 23 認識パラメータ記憶
部, 24 認識辞書記憶部, 25認識文法記憶部
1 button, 2 microphones, 3 display, 4
Speaker, 11 input section, 12 system control section,
13 memory unit, 14 output unit, 15 clock unit, 1
6 speech recognition unit, 17 speech synthesis unit, 21 sound analysis unit, 22 recognition unit, 23 recognition parameter storage unit, 24 recognition dictionary storage unit, 25 recognition grammar storage unit

フロントページの続き (51)Int.Cl.7 識別記号 FI G10L 3/00 561E (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 15/28 G06F 17/22 Continued on the front page (51) Int.Cl. 7 identification code FI G10L 3/00 561E (58) Fields investigated (Int.Cl. 7 , DB name) G10L 15/00-15/28 G06F 17/22

Claims (5)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 入力された音声を音声認識する音声認識
方法であって、一文字語からなる文字列を入力する入力ステップと、 前記一文字語からなる文字列から 連続する複数の文字を
配置して連続文字列を作成する作成ステップと、 前記連続文字列を対象に、音声認識する音声認識ステッ
プとを備えることを特徴とする音声認識方法。
1. A speech recognition method for recognizing an inputted speech by inputting a character string consisting of one character word, and arranging a plurality of characters continuous from the character string consisting of one character word. a creation step of creating a continuous string, targeting the continuous string, the speech recognition method characterized by comprising a speech recognizing speech recognition step.
【請求項2】 入力された音声を、音声認識の対象とさ
れた音声認識対象語が登録されている認識辞書を参照し
ながら音声認識する音声認識方法であって、一文字語からなる文字列を入力する入力ステップと、 前記一文字語からなる文字列の中の、連続する複数の文
字を配置して連続文字列を作成する作成ステップと、 前記連続文字列を、前記認識辞書に登録することによ
り、前記音声認識対象語とする登録ステップとを備える
ことを特徴とする音声認識方法。
The speech wherein inputted, a speech recognizing method for recognizing speech with reference to the recognition dictionary speech recognition terms that are the object of speech recognition is registered, the string of character words An inputting step of inputting, a creating step of arranging a plurality of continuous characters in the character string composed of the one-letter word to create a continuous character string, and registering the continuous character string in the recognition dictionary. And a registration step as the speech recognition target word.
【請求項3】 前記一文字語からなる文字列を表示する
表示ステップと、 前記音声が、前記認識辞書に登録された前記連続文字列
に音声認識されたとき、表示された前記文字列の中の音
声認識された連続文字列を仮名漢字変換する仮名漢字変
換ステップとをさらに備えることを特徴とする請求項
に記載の音声認識方法。
3. A display step of displaying a character string composed of the one-letter word, and when the voice is recognized by the continuous character string registered in the recognition dictionary, the displayed character string includes sound
3. A kana-kanji conversion step of converting a kana-kanji conversion of a voice-recognized continuous character string.
Voice recognition method described in.
【請求項4】 前記認識辞書には、少なくとも1文字で
表記される文字が、前記音声認識対象語として、あらか
じめ登録され、前記一文字語からなる文字列は、一文字
語を音声認識することにより取得されることを特徴とす
る請求項3に記載の音声認識方法。
4. In the recognition dictionary, a character represented by at least one character is registered in advance as the speech recognition target word, and a character string composed of the one-character word is one character.
4. The speech recognition method according to claim 3, wherein the speech recognition is performed by speech recognition of a word .
【請求項5】 入力された音声を音声認識する音声認識
装置であって、 音声認識の対象とされた音声認識対象語が登録されてい
る認識辞書を記憶している記憶手段と、一文字語からなる文字列を入力する入力手段と、 前記一文字語からなる文字列の中の、連続する複数の文
字を配置して連続文字列を作成し、その連続文字列を、
前記音声認識対象語として、前記認識辞書に登録する登
録手段とを備えることを特徴とする音声認識装置。
5. A speech recognition apparatus for recognizing an input speech, comprising: a storage unit for storing a recognition dictionary in which speech recognition target words targeted for speech recognition are registered ; Input means for inputting a character string consisting of, in the character string consisting of the one- letter word, to create a continuous character string by arranging a plurality of consecutive characters, the continuous character string,
A speech recognition apparatus, comprising: a registration unit that registers the speech recognition target word in the recognition dictionary.
JP10094396A 1996-04-23 1996-04-23 Voice recognition method and voice recognition device Expired - Fee Related JP3536524B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10094396A JP3536524B2 (en) 1996-04-23 1996-04-23 Voice recognition method and voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10094396A JP3536524B2 (en) 1996-04-23 1996-04-23 Voice recognition method and voice recognition device

Publications (2)

Publication Number Publication Date
JPH09288493A JPH09288493A (en) 1997-11-04
JP3536524B2 true JP3536524B2 (en) 2004-06-14

Family

ID=14287443

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10094396A Expired - Fee Related JP3536524B2 (en) 1996-04-23 1996-04-23 Voice recognition method and voice recognition device

Country Status (1)

Country Link
JP (1) JP3536524B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4997796B2 (en) * 2006-03-13 2012-08-08 株式会社デンソー Voice recognition device and navigation system
JP4850640B2 (en) * 2006-09-06 2012-01-11 公益財団法人鉄道総合技術研究所 Railway equipment maintenance inspection support system and program
JP5353346B2 (en) * 2009-03-19 2013-11-27 カシオ計算機株式会社 Schedule management apparatus and schedule management program
JP5546396B2 (en) * 2010-09-08 2014-07-09 株式会社ゼンリンデータコム Information search device, information search system, and information search program
KR102161439B1 (en) * 2013-07-16 2020-10-05 삼성전자 주식회사 Method and apparatus for recognizing voice in portable devices

Also Published As

Publication number Publication date
JPH09288493A (en) 1997-11-04

Similar Documents

Publication Publication Date Title
US20230058658A1 (en) Text-to-speech (tts) processing
Zue et al. Conversational interfaces: Advances and challenges
Rudnicky et al. Survey of current speech technology
US8170866B2 (en) System and method for increasing accuracy of searches based on communication network
EP1267326B1 (en) Artificial language generation
Peckham Speech Understanding and Dialogue over the telephone: an overview of the ESPRIT SUNDIAL project.
Delgado et al. Spoken, multilingual and multimodal dialogue systems: development and assessment
Fellbaum et al. Principles of electronic speech processing with applications for people with disabilities
Pieraccini AI assistants
KR100467590B1 (en) Apparatus and method for updating a lexicon
JP3536524B2 (en) Voice recognition method and voice recognition device
Ronzhin et al. Survey of russian speech recognition systems
Thennattil et al. Phonetic engine for continuous speech in Malayalam
KR100848148B1 (en) Apparatus and method for syllabled speech recognition and inputting characters using syllabled speech recognition and recording medium thereof
Di Fabbrizio et al. AT&t help desk.
Gilbert et al. Intelligent virtual agents for contact center automation
Lin et al. The design of a multi-domain mandarin Chinese spoken dialogue system
Philip et al. Man machine interaction by voice: Developments in speech technology: Part I: the state-of-the-art
Ngugi et al. Swahili text-to-speech system
Gardner-Bonneau et al. Spoken language interfaces for embedded applications
Georgila et al. A speech-based human-computer interaction system for automating directory assistance services
Zitouni et al. OrienTel: speech-based interactive communication applications for the mediterranean and the Middle East
Fellbaum Speech input and output technology-state of the art and selected applications
JPH02238494A (en) Voice synthesizing device
Tachbelie Application of amharic speech recognition system to command and control computer: An experiment with microsoft word

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040308

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080326

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090326

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100326

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees