JP2002169585A - Device and method for voice browser and storage medium with program stored therein - Google Patents

Device and method for voice browser and storage medium with program stored therein

Info

Publication number
JP2002169585A
JP2002169585A JP2000370347A JP2000370347A JP2002169585A JP 2002169585 A JP2002169585 A JP 2002169585A JP 2000370347 A JP2000370347 A JP 2000370347A JP 2000370347 A JP2000370347 A JP 2000370347A JP 2002169585 A JP2002169585 A JP 2002169585A
Authority
JP
Japan
Prior art keywords
dictionary
voice
content
user
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000370347A
Other languages
Japanese (ja)
Inventor
Takanari Ueda
隆也 上田
Yuji Ikeda
裕治 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000370347A priority Critical patent/JP2002169585A/en
Publication of JP2002169585A publication Critical patent/JP2002169585A/en
Withdrawn legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To enable voice input even when a grammar dictionary for voice recognition is not prepared on the contents side. SOLUTION: The voice browser which is capable of voice input is equipped with a voice input part 107 which inputs a voice, a voice recognition part 108 which recognizes the inputted voice, a contents dictionary holding part 103 which holds a contents dictionary for voice recognition described in contents, a user dictionary holding part 105 which holds user dictionaries for voice recognition prepared by users, and a dictionary switching part 104 which switches a dictionary used by the voice recognition means to a user dictionary when a contents dictionary corresponding to an input field as an object of data input among input fields provided to the contents is absent.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、ボイスブラウザに
好適な音声認識方法及び装置に関する。
The present invention relates to a speech recognition method and apparatus suitable for a voice browser.

【0002】[0002]

【従来の技術】インターネットの普及により、Web情
報アクセスが一般に行われるようになっている。更に音
声認識・合成技術の進展により、電話等を通してWeb
ページに音声によってアクセスする、いわゆるボイスブ
ラウザも用いられるようになってきている(例えば、特
開平11−249867)。
2. Description of the Related Art With the spread of the Internet, Web information access has been generally performed. Furthermore, with the development of speech recognition / synthesis technology, Web
A so-called voice browser for accessing a page by voice has also been used (for example, Japanese Patent Application Laid-Open No. H11-249867).

【0003】上記は音声のみを用いてWebページにア
クセスするものであるが、Webページへのアクセスの
際にGUIと音声を併用する形態も考えられる(ここで
は複合型ブラウザと称する)。例えば特開平10−12
4293では、Webページ中のリンクを音声入力によ
って選択したり、Webページの内容を合成音声によっ
て読み上げたりすることができる。この従来例では、ア
ンカーを付されている語句を解析して読みを付与するこ
とにより、その語句の音声認識が可能となっている。読
みが付与できなかった場合には、利用者が読みを登録す
ることによって音声入力を可能としている。
[0003] Although the above describes accessing a Web page using only audio, a form in which a GUI and audio are used together when accessing a Web page is also considered (herein referred to as a composite browser). For example, JP-A-10-12
In 4293, a link in the Web page can be selected by voice input, and the contents of the Web page can be read out by synthesized voice. In this conventional example, by analyzing a word to which an anchor is attached and adding a reading, speech recognition of the word is possible. If the reading cannot be given, the user registers the reading to enable voice input.

【0004】上記の特開平10−124293では、音
声入力によって可能なのはリンクの選択のみであり、入
力フィールド等への入力はGUIを用いて行なう。ここ
で、一般のボイスブラウザで行なわれているようにコン
テンツ提供者がコンテンツ中に音声認識用の文法・辞書
を記述するようにすれば、複合型ブラウザにおいても入
力フィールド等への入力を音声によって行なうことが可
能であることは容易に想到しえる。例えば、図6に示す
ような仮想的なコンテンツ記述においては、input
要素のgrammar属性によって文法・辞書を指示し
ている。ここで"chimei"の表す文法・辞書は例え
ば図4に示すように、表記と読みを記述した内容を有し
ている。これにより、入力フィールド603に入力され
た音声を認識することができる。
In Japanese Patent Laid-Open No. Hei 10-124293, only a link can be selected by voice input, and input to an input field or the like is performed using a GUI. Here, if the content provider writes a grammar / dictionary for speech recognition in the content as is done in a general voice browser, the input to the input field and the like can be input by voice even in the complex type browser. It is easy to imagine what can be done. For example, in a virtual content description as shown in FIG.
The grammar / dictionary is indicated by the grammar attribute of the element. Here, the grammar / dictionary represented by “chimei” has, for example, as shown in FIG. Thus, the voice input to the input field 603 can be recognized.

【0005】[0005]

【発明が解決しようとする課題】しかしながら、従来例
の複合型ブラウザでは、コンテンツにおいて文法・辞書
が記述されていない場合は、音声を認識することができ
ず、したがって入力フィールドへの入力を音声によって
行なうことができなかった。このため、コンテンツ提供
者が音声入力を想定して作成したコンテンツしか音声に
よってアクセスすることができなかった。例えば、図7
に示すコンテンツでは、文法・辞書が記述されていない
ので、入力フィールド703に音声を入力することがで
きなかった。
However, in the conventional complex type browser, if the grammar / dictionary is not described in the content, the voice cannot be recognized, and therefore, the input to the input field is performed by the voice. I couldn't do it. For this reason, only contents created by the content provider assuming voice input could be accessed by voice. For example, FIG.
Since no grammar / dictionary is described in the content shown in (1), no voice could be input to the input field 703.

【0006】本発明は、音声認識用のユーザ辞書を用意
し、コンテンツ側で音声認識用の文法・辞書が用意され
ていない場合でも、ユーザ辞書を用いて音声認識をする
ことにより、音声入力を可能にするものである。
The present invention provides a user dictionary for speech recognition, and performs speech recognition using the user dictionary even when a grammar / dictionary for speech recognition is not prepared on the content side. Is what makes it possible.

【0007】[0007]

【課題を解決するための手段】かかる課題を解決するた
め、例えば本発明のボイスブラウザ装置は以下の構成を
備える。すなわち、音声による入力が可能なボイスブラ
ウザ装置であって、音声を入力する音声入力手段と、前
記入力された音声を認識する音声認識手段と、コンテン
ツ内に記述された音声認識用のコンテンツ辞書を保持す
るコンテンツ辞書保持手段と、ユーザごとに用意した音
声認識用のユーザ辞書を保持するユーザ辞書保持手段
と、前記コンテンツに設けられた入力フィールドのう
ち、データの入力対象となっている入力フィールドに対
応するコンテンツ辞書が存在しない場合、前記音声認識
手段で使用する辞書をユーザ辞書に切り替える辞書切替
手段とを備える。
In order to solve such a problem, for example, a voice browser device of the present invention has the following configuration. That is, a voice browser device capable of inputting by voice, comprising voice input means for inputting voice, voice recognition means for recognizing the input voice, and a content dictionary for voice recognition described in the content. A content dictionary holding means for holding, a user dictionary holding means for holding a user dictionary for voice recognition prepared for each user, and an input field which is a data input target among input fields provided in the content. A dictionary switching unit that switches a dictionary used by the voice recognition unit to a user dictionary when a corresponding content dictionary does not exist.

【0008】[0008]

【発明の実施の形態】[実施形態1]以下、図面を参照
して本発明の実施形態を詳細に説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS [Embodiment 1] Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

【0009】図1は、本発明の一実施形態に係る装置の
基本構成を示すブロック図である。
FIG. 1 is a block diagram showing a basic configuration of an apparatus according to an embodiment of the present invention.

【0010】101はブラウザによって表示すべき内容
を含むコンテンツを保持するコンテンツ保持部である。
102はコンテンツ保持部101に保持されたコンテン
ツを解析するコンテンツ解析部である。103はコンテ
ンツ中に音声認識用辞書が記述されていた場合にその辞
書を保持するコンテンツ辞書保持部である。コンテンツ
辞書保持部103には例えば図4に示すようなデータ4
01が保持される。104は音声認識部108で使用す
る音声認識用辞書を切り替える辞書切替部である。10
5はユーザ辞書を保持するユーザ辞書保持部である。ユ
ーザ辞書保持部105には例えば図5に示すようなデー
タ501が保持される。ユーザ辞書保持部105には事
前にこうしたデータが登録されているものとする。10
6は音声入力部107からの音声入力や入力部109か
らのGUI入力を解析する入力解析部である。107は
音声入力を行なう音声入力部である。108は音声認識
を行なう音声認識部である。109はGUI入力を行な
う入力部である。110はコンテンツの内容を表示する
表示部である。111はコンテンツ辞書の有無を判定す
るコンテンツ辞書有無判定部である。
Reference numeral 101 denotes a content holding unit for holding content including content to be displayed by a browser.
Reference numeral 102 denotes a content analysis unit that analyzes the content held in the content holding unit 101. Reference numeral 103 denotes a content dictionary holding unit that holds a dictionary for speech recognition when the dictionary is described in the content. For example, data 4 as shown in FIG.
01 is retained. Reference numeral 104 denotes a dictionary switching unit that switches a dictionary for speech recognition used by the speech recognition unit 108. 10
Reference numeral 5 denotes a user dictionary holding unit that holds a user dictionary. The user dictionary holding unit 105 holds, for example, data 501 as shown in FIG. It is assumed that such data is registered in the user dictionary holding unit 105 in advance. 10
Reference numeral 6 denotes an input analysis unit that analyzes a voice input from the voice input unit 107 and a GUI input from the input unit 109. Reference numeral 107 denotes a voice input unit for performing voice input. Reference numeral 108 denotes a voice recognition unit that performs voice recognition. An input unit 109 performs a GUI input. A display unit 110 displays the content of the content. Reference numeral 111 denotes a content dictionary presence / absence determination unit that determines the presence / absence of a content dictionary.

【0011】図2は、本実施形態の装置の具体的構成を
示す図である。
FIG. 2 is a diagram showing a specific configuration of the apparatus of the present embodiment.

【0012】201はCPUであり、後述する手順を実
現するプログラムに従って動作する。202はメモリで
あり、コンテンツ保持部101、コンテンツ辞書保持部
103、ユーザ辞書保持部105と上記プログラムの動
作に必要な記憶領域とを提供する。203は制御メモリ
であり、後述する手順を実現するプログラムを保持す
る。204はポインティングデバイスであり、入力部1
09を実現する。205はディスプレイであり、表示部
110を実現する。206はマイクであり、音声入力部
107を実現する。207は各構成要素を結合するバス
である。
Reference numeral 201 denotes a CPU, which operates according to a program for realizing a procedure described later. Reference numeral 202 denotes a memory, which provides the content holding unit 101, the content dictionary holding unit 103, the user dictionary holding unit 105, and a storage area necessary for the operation of the program. Reference numeral 203 denotes a control memory, which stores a program that implements a procedure described later. Reference numeral 204 denotes a pointing device, and the input unit 1
09 is realized. Reference numeral 205 denotes a display, which implements the display unit 110. Reference numeral 206 denotes a microphone, which implements the voice input unit 107. A bus 207 connects the components.

【0013】次に、図3に示すフローチャートを参照し
て、本実施形態の装置の動作を説明する。本実施形態で
は一つのコンテンツ中に一つ入力フィールドが存在する
場合を扱う。
Next, the operation of the apparatus of this embodiment will be described with reference to the flowchart shown in FIG. In the present embodiment, a case where one input field exists in one content is handled.

【0014】まず、ステップS301ではネットワーク
(不図示)等からコンテンツを取得し、コンテンツ保持部
101に保持する。
First, in step S301, the network
The content is acquired from a device (not shown) or the like, and is stored in the content storage unit 101.

【0015】ステップS302では、コンテンツ保持部
101に保持されたコンテンツの内容を、コンテンツ解
析部102で解析する。コンテンツ中に音声認識用文法
・辞書の記述があれば、それに基づいて文法・辞書を取
り出す。なお、文法・辞書はコンテンツ記述言語のタグ
や属性によってコンテンツ中に記述されているものとす
る。例えば、図6の仮想的なコンテンツ記述において
は、input要素のgrammar属性によってファ
イル名を記述しているので、そのファイルを取得する。
In step S302, the contents of the contents held in the contents holding unit 101 are analyzed by the contents analyzing unit 102. If the grammar / dictionary for speech recognition is described in the content, the grammar / dictionary is extracted based on the description. It is assumed that the grammar / dictionary is described in the content by tags and attributes of the content description language. For example, in the virtual content description of FIG. 6, since the file name is described by the grammar attribute of the input element, the file is acquired.

【0016】ステップS303では、ステップS302
で取り出した音声認識用文法・辞書をコンテンツ辞書保
持部103に保持する。
In step S303, step S302
The grammar / dictionary for speech recognition extracted in step (1) is stored in the content dictionary storage unit 103.

【0017】ステップS304では、入力があったかど
うかを入力解析部106で調べる。本ステップは実際の
入力があるまで繰り返す。
In step S304, the input analysis unit 106 checks whether an input has been made. This step is repeated until there is an actual input.

【0018】ステップS305では、ステップS304
での入力が、入力フィールドへの音声入力かどうかを調
べる。入力フィールドへの音声入力の場合はステップS
306に進む。そうでない場合は処理を終了する。
In step S305, step S304
Check if the input in is a voice input into the input field. Step S for voice input into the input field
Proceed to 306. If not, the process ends.

【0019】ステップS306では、音声認識部で使用
する辞書を選択する際のモードで、自動モードが選択さ
れている場合には、ステップS307へ進む。
In step S306, if the automatic mode is selected in the mode for selecting a dictionary to be used in the voice recognition unit, the flow advances to step S307.

【0020】ステップS307では、コンテンツ辞書が
保持されているかどうかをコンテンツ辞書有無判定部1
11で調べる。コンテンツ辞書が保持されている場合は
ステップS308に進み、コンテンツ辞書が保持されて
いない場合はステップS309に進む。
In step S307, it is determined whether the content dictionary is held or not by the content dictionary presence / absence determining unit 1.
Check at 11. If the content dictionary is stored, the process proceeds to step S308. If the content dictionary is not stored, the process proceeds to step S309.

【0021】ステップS308では、辞書切替部104
において、音声認識部108で使用する辞書を、ユーザ
辞書保持部105に保持されているユーザ辞書に切り替
える。
In step S308, the dictionary switching unit 104
In, the dictionary used by the voice recognition unit is switched to the user dictionary stored in the user dictionary storage unit 105.

【0022】ステップS309では、辞書切替部104
において、音声認識部108で使用する辞書を、コンテ
ンツ辞書保持部101に保持されているコンテンツ辞書
に切り替える。
In step S309, dictionary switching unit 104
, The dictionary used by the voice recognition unit 108 is switched to the content dictionary stored in the content dictionary storage unit 101.

【0023】ステップS310では、ステップS304
で入力された音声入力の音声認識処理を行なう。コンテ
ンツ辞書があった場合はコンテンツ辞書保持部103に
保持されたコンテンツ辞書を用い、コンテンツ辞書がな
かった場合はユーザ辞書保持部105に保持されたユー
ザ辞書を用いる。
In step S310, step S304
Performs voice recognition processing of the voice input input by. If there is a content dictionary, the content dictionary stored in the content dictionary storage unit 103 is used. If there is no content dictionary, the user dictionary stored in the user dictionary storage unit 105 is used.

【0024】ステップS311では、ステップS308
で音声認識した結果を表示部110に表示する。そして
処理を終了する。
In step S311, step S308
The result of the voice recognition is displayed on the display unit 110. Then, the process ends.

【0025】次に具体的な例を用いて、本実施形態の処
理手順について更に説明する。
Next, the processing procedure of this embodiment will be further described using a specific example.

【0026】コンテンツの一部が図6に示すものであっ
た場合、文法・辞書がコンテンツ中に指定されている
(input要素のgrammar属性)ので、これを取
得し、コンテンツ辞書保持部103に保持する。そし
て、入力フィールド603に音声が入力された場合は、
この辞書(例えば401)を用いて音声認識を行なう。一
方、コンテンツの一部が図7に示すものであった場合、
文法・辞書がコンテンツ中に指定されていない。よって
従来例では、入力フィールド703に音声で入力するこ
とができない。本実施形態では、このような場合、ユー
ザ辞書保持部105に保持されたユーザ辞書(例えば5
01)を用いて音声認識を行なうので、入力フィールド
703に音声で入力することができる。
If a part of the content is as shown in FIG. 6, a grammar / dictionary is specified in the content.
(grammar attribute of the input element), so that it is acquired and stored in the content dictionary storage unit 103. Then, when a voice is input in the input field 603,
Voice recognition is performed using this dictionary (for example, 401). On the other hand, if a part of the content is as shown in FIG.
The grammar / dictionary is not specified in the content. Therefore, in the conventional example, it is not possible to input voice into the input field 703. In this embodiment, in this case, in such a case, the user dictionary (for example, 5
01), the voice can be input to the input field 703 by voice.

【0027】[実施形態2]上記実施形態ではコンテンツ
中に文法・辞書が記述されていない場合にユーザ辞書に
自動モード時のステップS307にて自動的に切り替え
たが、自動的に切り替えるのでなく、ユーザが明示的に
指定したときにユーザ辞書を使用するようにしてもよ
い。図1の構成に加えて、ユーザ辞書の使用を指定する
ための手段を設け、この手段によってユーザが指定をし
たときに辞書を切り替えるようにすればよい。すなわ
ち、ステップS306にてマニュアル(ユーザ)モード
が選択された場合には、ステップS308に進み、常に
ユーザ辞書を使用する。
[Embodiment 2] In the above embodiment, when the grammar / dictionary is not described in the content, the user dictionary is automatically switched to the user dictionary in step S307 in the automatic mode. The user dictionary may be used when explicitly specified by the user. In addition to the configuration of FIG. 1, means for designating the use of the user dictionary may be provided, and the dictionary may be switched when the user designates the dictionary. That is, when the manual (user) mode is selected in step S306, the process proceeds to step S308, and the user dictionary is always used.

【0028】[実施形態3]また、前記他の実施形態と同
様の構成によって、コンテンツ中に辞書が記述されてい
る場合であっても、ユーザの指定によりユーザ辞書を使
用するようにすることが可能である。例えば、コンテン
ツの一部が図6に示すものであった場合、文法・辞書が
コンテンツ中に指定されている(例えば図4の辞書)。こ
こで、ユーザがユーザ辞書の使用を明示的に指定した場
合には、入力フィールド603に音声が入力された際
に、コンテンツ辞書ではなく、ユーザ辞書(例えば図5
の辞書)を用いて音声認識を行なう。すなわち、ステッ
プS306にてマニュアル(ユーザ)モードが選択され
た場合には、ステップS308に進み、常にユーザ辞書
を使用する。なお、ステップS306にてマニュアル
(コンテンツ)モードが選択された場合には、ステップ
S309に進み、常にコンテンツ辞書を使用するように
設定することも可能である。
[Embodiment 3] In addition, according to the same configuration as the above-mentioned other embodiments, even when a dictionary is described in the content, a user dictionary can be used according to a user's designation. It is possible. For example, when a part of the content is as shown in FIG. 6, a grammar / dictionary is specified in the content (for example, the dictionary in FIG. 4). Here, when the user explicitly specifies the use of the user dictionary, when a voice is input to the input field 603, the user does not use the content dictionary but the user dictionary (for example, FIG. 5).
Speech recognition is performed using the That is, when the manual (user) mode is selected in step S306, the process proceeds to step S308, and the user dictionary is always used. When the manual (content) mode is selected in step S306, the process proceeds to step S309, and it is possible to set so that the content dictionary is always used.

【0029】[実施形態4]上記実施形態ではユーザ辞書
が一つの場合について説明したが、複数のユーザ辞書が
あってもよい。複数の辞書のうちどれを使用するかにつ
いては、ユーザが明示的に指定する、自動的に判別す
る、という方法がある。
[Embodiment 4] In the above embodiment, the case where there is one user dictionary has been described, but there may be a plurality of user dictionaries. As to which one of the plurality of dictionaries to use, there is a method of explicitly specifying the dictionary or a method of automatically determining the dictionary.

【0030】前者は前記他の実施形態と同様に実施でき
る。
The former can be carried out in the same manner as the other embodiments.

【0031】後者は例えば以下のように実施できる。各
ユーザ辞書に分類カテゴリ(どういった分野に関する辞
書かを表すもの)を予め付与しておく。コンテンツがど
の分類カテゴリに属するかを判定し(これは既知の文書
分類の手法によればよい)、該当する分類カテゴリのユ
ーザ辞書を採用する。該当する分類カテゴリのユーザ辞
書が存在しない場合に用いるユーザ辞書を決めておいて
もよい。
The latter can be implemented, for example, as follows. A classification category (representing a field related to which field) is assigned to each user dictionary in advance. It is determined which classification category the content belongs to (this may be done by a known document classification method), and a user dictionary of the corresponding classification category is adopted. A user dictionary to be used when a user dictionary of the corresponding category does not exist may be determined.

【0032】[実施形態5]上記実施形態では、入力フィ
ールドが一つ存在する場合を例にとったが、複数の入力
フィールドが存在してもよい。この場合は、個々の入力
フィールドに関して上記実施形態と同様の処理を行なう
ことによって対応できる。
[Fifth Embodiment] In the above embodiment, the case where one input field is present is taken as an example, but a plurality of input fields may exist. This case can be dealt with by performing the same processing as in the above embodiment for each input field.

【0033】[実施形態6]上記実施形態では、コンテン
ツ辞書、ユーザ辞書の内容が図4、5に示すような簡単
な辞書である場合を例にとったが、これらの内容は一般
的な音声認識用文法であっても同様に実施することがで
きる。
[Embodiment 6] In the above-described embodiment, the case where the contents of the content dictionary and the user dictionary are simple dictionaries as shown in FIGS. 4 and 5 is taken as an example. The recognition grammar can be similarly implemented.

【0034】[実施形態7]上記実施形態では、コンテン
ツの音声出力を行なっていないが、コンテンツを音声出
力させる場合であっても同様に実施することができる。
[Embodiment 7] In the above embodiment, the audio output of the content is not performed. However, the same can be applied to the case where the audio output of the content is performed.

【0035】[実施形態8]上記実施形態においては、各
部を同一の計算機上で構成する場合について説明した
が、これに限定されるものではなく、複数の計算機上で
実現してもよい。
[Embodiment 8] In the above embodiment, the case where each unit is configured on the same computer has been described. However, the present invention is not limited to this, and may be realized on a plurality of computers.

【0036】[実施形態9]なお、本発明は、複数の機器
から構成されるシステムに適用しても、1つの機器から
なる装置に適用してもよい。前述した実施形態の機能を
実現するソフトウェアのプログラムコードを記録した記
録媒体を、システムあるいは装置に供給し、そのシステ
ムあるいは装置のコンピュータ(またはCPUやMP
U)が記録媒体に格納されたプログラムコードを読み出
し実行することによっても、達成されることは言うまで
もない。
[Embodiment 9] The present invention may be applied to a system composed of a plurality of devices or an apparatus composed of one device. A recording medium storing software program codes for realizing the functions of the above-described embodiments is supplied to a system or an apparatus, and a computer (or CPU or MP) of the system or the apparatus is provided.
Needless to say, this can also be achieved by U) reading and executing the program code stored in the recording medium.

【0037】この場合、記録媒体から読み出されたプロ
グラムコード自体が前述した実施形態の機能を実現する
ことになり、そのプログラムコード自体が前述した実施
形態の機能を実現することになり、そのプログラムコー
ドを記録した記録媒体は本発明を構成することになる。
In this case, the program code itself read from the recording medium implements the functions of the above-described embodiment, and the program code itself implements the functions of the above-described embodiment. The recording medium on which the code is recorded constitutes the present invention.

【0038】[実施形態10]プログラムコードを供給す
るための記録媒体としては、例えば、フロッピー(登録
商標)ディスク、ハードディスク、光ディスク、CD−
ROM、CD−R、DVD−ROM、磁気テープ、不揮
発性のメモリカード、ROMなどを用いることができ
る。 [実施形態11]また、コンピュータが読み出したプログ
ラムコードを実行することにより、前述した実施形態の
機能が実現されるだけでなく、そのプログラムコードの
指示に基づき、コンピュータ上で稼動しているOSなど
が実際の処理の一部または全部を行い、その処理によっ
て前述した実施形態の機能が実現される場合も含まれる
ことは言うまでもない。
[Embodiment 10] As a recording medium for supplying a program code, for example, a floppy (registered trademark) disk, hard disk, optical disk, CD-
A ROM, a CD-R, a DVD-ROM, a magnetic tape, a nonvolatile memory card, a ROM, and the like can be used. [Embodiment 11] When the computer executes the readout program code, not only the functions of the above-described embodiment are realized, but also an OS running on the computer based on the instruction of the program code. Performs part or all of the actual processing, and the processing realizes the functions of the above-described embodiments.

【0039】[実施形態12]さらに、記録媒体から読み
出されたプログラムコードが、コンピュータに挿入され
た機能拡張ボードやコンピュータに接続された機能拡張
ユニットに備わるメモリに書き込まれた後、そのプログ
ラムコードの指示に基づき、その機能拡張ボードや機能
拡張ユニットに備わるCPUなどが実際の処理の一部ま
たは全部を行い、その処理によって前述した実施形態の
機能が実現される場合も含まれることは言うまでもな
い。
[Twelfth Embodiment] Further, after the program code read from the recording medium is written into a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, the program code is read. It is needless to say that a CPU or the like provided in the function expansion board or the function expansion unit performs part or all of the actual processing based on the instruction, and the function of the above-described embodiment is realized by the processing. .

【0040】[0040]

【発明の効果】以上説明したように、本発明によれば、
音声認識用の文法・辞書がコンテンツ中に記述されてい
ないようなコンテンツにおいても、音声によって入力す
ることができる。
As described above, according to the present invention,
Even in a content in which a grammar / dictionary for voice recognition is not described in the content, the content can be input by voice.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明に係るボイスブラウザ装置の実施形態の
基本構成を示すブロック図である。
FIG. 1 is a block diagram showing a basic configuration of an embodiment of a voice browser device according to the present invention.

【図2】本発明の実施形態の具体的構成を示す図であ
る。
FIG. 2 is a diagram showing a specific configuration of an embodiment of the present invention.

【図3】本発明に係るボイスブラウザ装置の実施形態に
おける処理の概要を示すフローチャートである。
FIG. 3 is a flowchart showing an outline of processing in the embodiment of the voice browser device according to the present invention.

【図4】本発明の実施形態におけるコンテンツ辞書の内
容の例を示す図である。
FIG. 4 is a diagram showing an example of contents of a content dictionary according to the embodiment of the present invention.

【図5】本発明の実施形態におけるユーザ辞書の内容の
例を示す図である。
FIG. 5 is a diagram illustrating an example of contents of a user dictionary according to the embodiment of the present invention.

【図6】本発明の実施形態の具体的説明をするための図
である。
FIG. 6 is a diagram for specifically describing an embodiment of the present invention.

【図7】本発明の実施形態の具体的説明をするための図
である。
FIG. 7 is a diagram for specifically describing an embodiment of the present invention.

【符号の説明】[Explanation of symbols]

101・・・コンテンツ保持部 102・・・コンテンツ解析部 103・・・コンテンツ辞書保持部 104・・・辞書切替部 105・・・ユーザ辞書保持部 106・・・入力解析部 107・・・音声入力部 108・・・音声認識部 109・・・入力部 110・・・表示部 111・・・コンテンツ辞書有無判定部 201・・・CPU 202・・・メモリ 203・・・制御メモリ 204・・・ポインティングデバイス 205・・・ディスプレイ 206・・・マイク 207・・・バス 101: Content holding unit 102: Content analyzing unit 103: Content dictionary holding unit 104: Dictionary switching unit 105: User dictionary holding unit 106: Input analyzing unit 107: Voice input Unit 108: Voice recognition unit 109: Input unit 110: Display unit 111: Content dictionary presence / absence determination unit 201: CPU 202: Memory 203: Control memory 204: Pointing Device 205 ・ ・ ・ Display 206 ・ ・ ・ Microphone 207 ・ ・ ・ Bus

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/00 G10L 3/00 551P 15/28 Fターム(参考) 5B075 KK07 KK13 KK33 KK37 ND03 ND14 ND20 ND23 ND36 NK34 PP07 PP12 PP30 PQ02 PQ04 PQ42 UU40 5D015 KK01 LL10 ──────────────────────────────────────────────────続 き Continued on the front page (51) Int.Cl. 7 Identification code FI Theme coat ゛ (Reference) G10L 15/00 G10L 3/00 551P 15/28 F term (Reference) 5B075 KK07 KK13 KK33 KK37 ND03 ND14 ND20 ND23 ND36 NK34 PP07 PP12 PP30 PQ02 PQ04 PQ42 UU40 5D015 KK01 LL10

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 音声による入力が可能なボイスブラウザ
装置であって、 音声を入力する音声入力手段と、 前記入力された音声を認識する音声認識手段と、 コンテンツ内に記述された音声認識用のコンテンツ辞書
を保持するコンテンツ辞書保持手段と、 ユーザごとに用意した音声認識用のユーザ辞書を保持す
るユーザ辞書保持手段と、 前記コンテンツに設けられた入力フィールドのうち、デ
ータの入力対象となっている入力フィールドに対応する
コンテンツ辞書が存在しない場合、前記音声認識手段で
使用する辞書をユーザ辞書に切り替える辞書切替手段と
を備えることを特徴とするボイスブラウザ装置。
1. A voice browser device capable of inputting by voice, comprising: voice input means for inputting voice; voice recognition means for recognizing the input voice; and voice recognition means for voice recognition described in the content. Content dictionary holding means for holding a content dictionary, user dictionary holding means for holding a speech recognition user dictionary prepared for each user, and data input targets among input fields provided in the content A voice browser device comprising: a dictionary switching unit that switches a dictionary used by the voice recognition unit to a user dictionary when a content dictionary corresponding to the input field does not exist.
【請求項2】 コンテンツ辞書の有無を判定するコンテ
ンツ有無判定手段を更に備え、コンテンツ辞書が存在し
ない場合に、自動的にユーザ辞書に切り替えることを特
徴とする請求項1に記載のボイスブラウザ装置。
2. The voice browser device according to claim 1, further comprising a content presence / absence determining means for determining the presence / absence of a content dictionary, and automatically switching to a user dictionary when the content dictionary does not exist.
【請求項3】 ユーザがユーザ辞書の使用を明示的に指
示するユーザ辞書指定手段を更に備え、ユーザの指示に
よってユーザ辞書に切り替えることを特徴とする請求項
1に記載のボイスブラウザ装置。
3. The voice browser device according to claim 1, further comprising a user dictionary designating means for explicitly instructing the user to use the user dictionary, and switching to the user dictionary according to the user's instruction.
【請求項4】 音声による入力が可能なボイスブラウザ
方法であって、 音声を入力する音声入力工程と、 前記入力された音声を認識する音声認識工程と、 コンテンツ内に記述された音声認識用のコンテンツ辞書
を保持するコンテンツ辞書保持工程と、 ユーザごとに用意した音声認識用のユーザ辞書を保持す
るユーザ辞書保持工程と、 前記コンテンツに設けられた入力フィールドのうち、デ
ータの入力対象となっている入力フィールドに対応する
コンテンツ辞書が存在しない場合、前記音声認識工程で
使用する辞書をユーザ辞書に切り替える辞書切替工程と
を備えることを特徴とするボイスブラウザ方法。
4. A voice browser method capable of inputting by voice, comprising: a voice inputting step of inputting a voice; a voice recognizing step of recognizing the input voice; A content dictionary holding step of holding a content dictionary, a user dictionary holding step of holding a voice recognition user dictionary prepared for each user, and data input targets among input fields provided in the content. A dictionary switching step of switching a dictionary used in the voice recognition step to a user dictionary when there is no content dictionary corresponding to the input field.
【請求項5】 コンテンツ辞書の有無を判定するコンテ
ンツ有無判定工程を更に備え、コンテンツ辞書が存在し
ない場合に、自動的にユーザ辞書に切り替えることを特
徴とする請求項4に記載のボイスブラウザ方法。
5. The voice browser method according to claim 4, further comprising a content presence / absence determination step of determining presence / absence of a content dictionary, and automatically switching to a user dictionary when the content dictionary does not exist.
【請求項6】 ユーザがユーザ辞書の使用を明示的に指
示するユーザ辞書指定工程を更に備え、ユーザの指示に
よってユーザ辞書に切り替えることを特徴とする請求項
4に記載のボイスブラウザ方法。
6. The voice browser method according to claim 4, further comprising a user dictionary specifying step in which the user explicitly instructs use of the user dictionary, and switching to the user dictionary according to the user's instruction.
【請求項7】 前記請求項4乃至6のいずれか1に記載
のボイスブラウザ方法に含まれる各工程を、コンピュー
タに実行させるためのプログラムとして記憶したことを
特徴とするコンピュータ読み取り可能な記憶媒体。
7. A computer-readable storage medium storing the steps included in the voice browser method according to claim 4 as a program for causing a computer to execute the steps.
JP2000370347A 2000-12-05 2000-12-05 Device and method for voice browser and storage medium with program stored therein Withdrawn JP2002169585A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000370347A JP2002169585A (en) 2000-12-05 2000-12-05 Device and method for voice browser and storage medium with program stored therein

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000370347A JP2002169585A (en) 2000-12-05 2000-12-05 Device and method for voice browser and storage medium with program stored therein

Publications (1)

Publication Number Publication Date
JP2002169585A true JP2002169585A (en) 2002-06-14

Family

ID=18840254

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000370347A Withdrawn JP2002169585A (en) 2000-12-05 2000-12-05 Device and method for voice browser and storage medium with program stored therein

Country Status (1)

Country Link
JP (1) JP2002169585A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8768711B2 (en) 2004-06-17 2014-07-01 Nuance Communications, Inc. Method and apparatus for voice-enabling an application

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8768711B2 (en) 2004-06-17 2014-07-01 Nuance Communications, Inc. Method and apparatus for voice-enabling an application

Similar Documents

Publication Publication Date Title
JP3610083B2 (en) Multimedia presentation apparatus and method
US7526423B2 (en) Apparatus and method for selecting a translation word of an original word by using a target language document database
CA1259410A (en) Apparatus for making and editing dictionary entries in a text-to-speech conversion system
WO1999060474A1 (en) Document read-aloud device, read-aloud control method, and recording medium
JP2002116796A (en) Voice processor and method for voice processing and storage medium
KR101015149B1 (en) Talking e-book
JPH11175517A (en) Information processor and method therefor
JPH07200312A (en) Digital data processing system and error processing method
JP2002116797A (en) Voice processor and method for voice recognition and storage medium
US20020010586A1 (en) Voice browser apparatus and voice browsing method
JP2002169585A (en) Device and method for voice browser and storage medium with program stored therein
JP2006236037A (en) Voice interaction content creation method, device, program and recording medium
JP2000112610A (en) Contents display selecting system and contents recording medium
JP2002351652A (en) System, method and program for supporting voice recognizing operation
JP2002268667A (en) Presentation system and control method therefor
JPH10133848A (en) Personal computer, and method for controlling command
JP3061880B2 (en) Text input device
JP3537260B2 (en) Linked document search and display system
JP3734101B2 (en) Hypermedia construction support device
JPH1185457A (en) Data processor, its data processing method, and storage medium storing computer-readable program
JP3732563B2 (en) Language processor
JP2878159B2 (en) Transaction processing system
JP2001343995A (en) Method and device for voice input processing and recording medium with voice input processing program recorded
JP2835320B2 (en) Voice document creation device
JP2005316830A (en) Natural language processing apparatus, natural language processing method therefor, and natural language processing program

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080205