JPH06208389A - Method and device for information processing - Google Patents

Method and device for information processing

Info

Publication number
JPH06208389A
JPH06208389A JP5004212A JP421293A JPH06208389A JP H06208389 A JPH06208389 A JP H06208389A JP 5004212 A JP5004212 A JP 5004212A JP 421293 A JP421293 A JP 421293A JP H06208389 A JPH06208389 A JP H06208389A
Authority
JP
Japan
Prior art keywords
information
voice
recognition
dictionary
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5004212A
Other languages
Japanese (ja)
Other versions
JP3278222B2 (en
Inventor
Yasuhiro Komori
康弘 小森
Masaaki Yamada
雅章 山田
Shiro Ito
史朗 伊藤
Keiichi Sakai
桂一 酒井
Minoru Fujita
稔 藤田
Takanari Ueda
隆也 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP00421293A priority Critical patent/JP3278222B2/en
Publication of JPH06208389A publication Critical patent/JPH06208389A/en
Application granted granted Critical
Publication of JP3278222B2 publication Critical patent/JP3278222B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PURPOSE:To realize natural interaction between a device and a user in the device which retrieves information performing voice conversation, predicts a next step conversation by a user, and selects an object to be recognized. CONSTITUTION:This processing method is performed as shown in the flow chart. That is, input information is sent to a voice recognizing section and voice recognition is performed 202. The recognized result is sent to a conversation control section 203, it is judged whether the recognized result satisfies retrieving conditions or not 204, if the result satisfies the conditions, indication for retrieving is issued 206, and if not, indication for continuing conversation is issued 205. when retrieving conditions are arranged, information is retrieved from a data base in an information retrieving section 207, answering of conversation is generated based on an output information from the conversation control section and the information retrieving section in a conversation answering generation section 208, and it is outputted to the voice output section or a display device. A next step conversation is predicted considering conditions of retrieving information and conversation 209, when the voice is outputted, after a predicted object to be recognized is generated in a generation section for the object to be recognized 210, procedure is turned to the original and the voice input of a next conversation is expected.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は音声による言語入力によ
り利用者と対話を行う情報処理方法及び装置に関するも
のである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an information processing method and apparatus for interacting with a user by inputting a language by voice.

【0002】[0002]

【従来の技術】人間と人間の間で行われる情報交換手段
の中で最も自然に使われるのが音声である。一方、計算
機の飛躍的な進歩により、計算機は数値計算のみならず
様々な情報を扱えるように進歩してきている。そこで、
音声を人間と計算機の情報交換手段として用いたいとい
う要求がある。
2. Description of the Related Art Voice is the most naturally used of information exchange means between humans. On the other hand, due to the dramatic progress of computers, computers have advanced to handle various information as well as numerical calculation. Therefore,
There is a demand to use voice as a means of exchanging information between humans and computers.

【0003】従来の音声情報検索装置は、検索項目に対
して音声認識を行うための情報が動的に変更されること
がない、または、変更があっても予め、ある対話の流れ
に従った変更のみが行われており、予め登録した単語や
文を用いてしか用いることができず、自然な音声による
検索ができなかった。
The conventional voice information search apparatus does not dynamically change the information for performing voice recognition on the search item, or even if there is a change, it follows a certain flow of dialogue in advance. Only the changes were made, and it was possible to use only the words and sentences registered in advance, and it was not possible to perform a natural voice search.

【0004】従来、利用者の言語入力は全て音声入力に
より行われていた。
Conventionally, all user language input has been performed by voice input.

【0005】[0005]

【発明が解決しようとしている課題】従来の音声情報検
索装置には、予め登録した単語や文を用いてしか、音声
による検索ができないという問題点があった。また、あ
る対話の状態においては、ある決められた予め登録した
対話内容しか認識できないため、自然な対話を順次行う
ことができないという問題点も生じていた。このため、
データベース上のあらゆる検索項目が自然に検索できな
かった問題が生じていた。
The conventional voice information retrieval apparatus has a problem that the voice retrieval can be performed only by using the words or sentences registered in advance. Further, in a state of a certain dialogue, since only predetermined certain pre-registered dialogue contents can be recognized, there is a problem that natural dialogue cannot be sequentially performed. For this reason,
There was a problem that all search items on the database could not be searched naturally.

【0006】さらに、一般に対話を自然に行う時には、
対話のどこでも発生できる入力が存在する。例えば、旅
の情報検索の対話においては、「どんな項目が聞けます
か?」等のメタ質問や、「東京にあるゴルフ場を知りた
い。」等の非常にグローバルな質問がある。一方、対話
が進むに連れて、詳細な内容に関わる質問、例えば、
「箱根の湯本温泉の電話番号を知りたい。」とか「群馬
県吉井町の温泉の住所は?」である。この対話のどこで
も発声できる入力を受け付け音声認識するための静的な
音声認識情報と、対話が進むに連れて動的に変わってい
く入力を受け付け音声認識情報を一度に扱うことによ
り、認識装置の巨大化や認識性能の低化、制御の複雑化
が問題となっている。
[0006] Further, in general, when a dialogue is conducted naturally,
There are inputs that can occur anywhere in the dialogue. For example, in a dialog for searching travel information, there are meta questions such as "What kind of items can you ask?" And very global questions such as "I want to know a golf course in Tokyo." On the other hand, as the dialogue progresses, questions related to detailed contents, such as
"I would like to know the telephone number of Yumoto Hot Spring in Hakone." Or "What is the address of the hot spring in Yoshii Town, Gunma Prefecture?" By recognizing static speech recognition information for accepting input that can be uttered anywhere in this dialogue and voice recognition, and input that changes dynamically as the dialogue progresses Enlargement, low recognition performance, and complicated control are problems.

【0007】利用者の言語入力が音声のみの場合、音声
認識ができなかった言語がある場合、対話が進行しない
という問題があった。
If the user's language input is only voice, or if there is a language in which voice recognition is not possible, there is a problem that the dialogue does not proceed.

【0008】[0008]

【課題を解決するための手段】上記課題を解決するため
に、本発明は音声を入力し、音声を認識する辞書を有
し、前記辞書を用いて前記入力音声を認識し、前記認識
の結果に従って情報を検索し、前記検索結果に従って前
記辞書を変更することを特徴とする情報処理方法及び装
置を提供する。
In order to solve the above problems, the present invention has a dictionary for inputting voice and recognizing voice, recognizing the input voice using the dictionary, and the result of the recognition. And an information processing method and apparatus for changing the dictionary according to the search result.

【0009】上記課題を解決するために、好ましくは前
記辞書の変更は、更新とする。
In order to solve the above problems, preferably, the change of the dictionary is updating.

【0010】上記課題を解決するために、好ましくは前
記辞書の変更は、追加とする。
In order to solve the above-mentioned problems, preferably the change of the dictionary is addition.

【0011】上記課題を解決するために、好ましくは前
記辞書の変更は、削除とする。
In order to solve the above problems, preferably, the change of the dictionary is deletion.

【0012】上記課題を解決するために、好ましくは前
記検索結果に読み情報が付いているか否かを判断し、つ
いていない場合は読み情報を付加する。
In order to solve the above-mentioned problems, it is preferable to judge whether or not reading information is attached to the search result, and if not, the reading information is added.

【0013】上記課題を解決するために、好ましくは前
記検索結果を該検索結果の読み情報とともに表示する。
In order to solve the above problems, preferably, the search result is displayed together with reading information of the search result.

【0014】上記課題を解決するために、好ましくは前
記検索結果に応じた文法を選択し、この文法に従って次
発話を予測する。
In order to solve the above problem, preferably, a grammar according to the search result is selected, and the next utterance is predicted according to this grammar.

【0015】上記課題を解決するために、好ましくは文
字情報を受理し、該文字情報を前記入力音声の認識結果
とあわせて処理するよう制御する。
In order to solve the above problems, preferably, character information is received, and the character information is controlled so as to be processed together with the recognition result of the input voice.

【0016】[0016]

【実施例】【Example】

(実施例1)図1は本実施例における音声対話情報検索
装置の構成を示すブロック図である。
(Embodiment 1) FIG. 1 is a block diagram showing the configuration of a voice conversation information retrieval apparatus in this embodiment.

【0017】図1において、101は音声を入力するマ
イク、102は音声を出力するスピーカ、103はマイ
ク101及びスピーカ102から入出力される信号を変
換するA/D、D/A変換器、104は例えばCRT等
の画像を表示し得る表示装置、105はデータベース、
また、後述するフローチャートの制御プログラムを格納
するROM、(リードオンリーメモリ)、106は各種
データを格納し、ワーキングメモリとして用いられるR
AM(ランダムアクセスメモリ)、107はROM10
5に格納された制御プログラムに基づいて装置全体の制
御を行うCPU(中央処理装置)である。
In FIG. 1, 101 is a microphone for inputting voice, 102 is a speaker for outputting voice, 103 is an A / D, D / A converter for converting signals input / output from the microphone 101 and the speaker 102, 104. Is a display device capable of displaying images such as a CRT, 105 is a database,
Further, a ROM for storing a control program of a flow chart described later, (read only memory), 106 stores various data and is used as a working memory.
AM (random access memory), 107 is the ROM 10
5 is a CPU (central processing unit) that controls the entire apparatus based on the control program stored in FIG.

【0018】図2は本実施例における音声認識、対話処
理のフローチャートを示す。
FIG. 2 shows a flowchart of voice recognition and dialogue processing in this embodiment.

【0019】図3は本実施例における音声対話情報検索
装置の機能構成図である。図2のフローチャート及び図
3の機能構成図を用いて本実施例の全体的な処理の流れ
を説明する。
FIG. 3 is a functional block diagram of the voice interactive information retrieval apparatus in this embodiment. The overall processing flow of this embodiment will be described with reference to the flowchart of FIG. 2 and the functional configuration diagram of FIG.

【0020】まず、処理を説明するための対話の例を示
す。(Usr:ユーザーの発生、Sys:本実施例にお
ける音声対話システムの発声) Usr:「東京にある公園を知りたい。」 Sys:「千代田区に10件、世田谷区に5件、…、で
す。」 Usr:「世田谷区では。」 Sys:「砧公園、芦花公園、…、です。」 Usr:「砧公園の電話番号を教えて。」 Sys:「03−×××−××××です。」 Usr:「世田谷区にある神社を教えて下さい。」…
(1) Sys:「八幡神社、烏山神社、…、です。」 Usr:「烏山神社の住所は。」 Sys:「世田谷区、南烏山△−△−△です。」 このような、自然な対話を可能とする処理を説明する。
First, an example of dialogue for explaining the processing will be shown. (Usr: Generation of user, Sys: Speaking of voice dialogue system in this embodiment) Usr: "I want to know the park in Tokyo." Sys: "10 in Chiyoda Ward, 5 in Setagaya Ward, and so on." Usr: "In Setagaya-ku." Sys: "Kinuta Park, Ashihana Park, ...." Usr: "Tell me the phone number of Kinuta Park." Sys: "03- ×××-×××××" Usr: "Please tell us about the shrines in Setagaya Ward." ...
(1) Sys: “Yawata Shrine, Karasuyama Shrine, ...” Usr: “The address of Karasuyama Shrine is.” Sys: “Setagaya-ku, Minamikarasuyama △ - △ - △.” Such a natural dialogue The possible processing will be described.

【0021】マイク101を用いて、音声入力を行い
(201)、入力情報を音声認識部312に送り、音声
認識を行う(202)。認識結果を対話管理部302に
送り(203)、認識結果が検索条件を満たすか否かの
判断を行い(204)、条件を満たせば検索の指示を出
す(206)。そうでなければ、不足情報を得るために
対話を続ける指示を出す(205)。検索条件が整って
いれば、検索指示に従って情報検索部303においてデ
ータベースより情報の検索を行う(207)。対話管理
部302や情報検索部303より出力される情報をもと
に対話応答生成部320では、対話の応答を生成し(2
08)、生成された応答を、音声出力部102や表示装
置104に出力する。検索された情報や対話の状況をも
とに、次発話を予測し(209)、次発話に発声される
と予測される認識対象を認識対象生成部320にて生成
する(210)。認識対象が生成されたら(210)、
201へ戻り、次発話の音声入力を待つ。
Voice input is performed using the microphone 101 (201), input information is sent to the voice recognition unit 312, and voice recognition is performed (202). The recognition result is sent to the dialogue management unit 302 (203), it is judged whether or not the recognition result satisfies the search condition (204), and if the condition is satisfied, a search instruction is issued (206). If not, an instruction is given to continue the dialogue to obtain the missing information (205). If the search conditions are satisfied, the information search unit 303 searches the database for information according to the search instruction (207). Based on the information output from the dialogue management unit 302 and the information retrieval unit 303, the dialogue response generation unit 320 generates a dialogue response (2
08), and outputs the generated response to the audio output unit 102 and the display device 104. The next utterance is predicted based on the retrieved information and the state of the dialogue (209), and the recognition target generation unit 320 generates a recognition target predicted to be uttered in the next utterance (210). When the recognition target is generated (210),
The process returns to 201 and waits for the next speech input.

【0022】ここで、ステップ207で検索するデータ
ベースの検索項目には予め読みを添付してROM105
に格納しておく。ステップ207で検索された項目に読
みが添付されているか否か判断し、添付されていない場
合はROM105内の辞書から読みを取り出し、検索項
目に添付する。また、ステップ210で生成される認識
対象にも読みを添付し、読み付き情報として表示装置1
04に表示する。
Here, reading is previously attached to the search item of the database searched in step 207, and the ROM 105 is attached.
Stored in. In step 207, it is determined whether or not the reading is attached to the item retrieved, and if not, the reading is taken out from the dictionary in the ROM 105 and attached to the retrieval item. Also, the reading is attached to the recognition target generated in step 210, and the reading device 1 displays the reading information.
It is displayed on 04.

【0023】図3は、認識対象生成部を詳細に説明す
る。本図の点線で囲まれた304から311が認識対象
生成部である。一般に、対話を自然に行う時には、対話
のどこでも発声できる入力が存在する。例えば、旅の情
報検索の対話においては、「どんな項目が聞けますか
?」等のメタ質問や、「東京にあるゴルフ場を知りた
い。」等の非常にグローバルな質問がある。一方、対話
が進むに連れて、詳細な内容に関わる質問、例えば、
「箱根の湯本温泉の電話番号を知りたい。」とか「群馬
県吉井町の温泉の住所は?」がでてくる。この対話のど
こでも発声できる入力を受け付け音声認識するための単
語辞書と文法を304の静的単語辞書部、305の静的
文法部とし、対話が進むに連れて動的に変わっていく入
力を受け付け音声認識するための単語辞書を306の次
発話単語辞書生成部で、307の検索内容単語辞書生成
部で生成し、文法は生成される単語辞書の内容に応じ
て、309の動的文法部より310の動的文法選択部を
用いて、304の静的単語辞書部305の静的文法部の
情報とともに311の認識対象生成部にて、作成する。
FIG. 3 illustrates the recognition object generator in detail. The recognition target generation units 304 to 311 surrounded by the dotted line in the figure. In general, when a dialogue is conducted naturally, there are inputs that can be spoken anywhere in the dialogue. For example, in a dialog for searching travel information, there are meta questions such as "What kind of items can you ask?" And very global questions such as "I want to know a golf course in Tokyo." On the other hand, as the dialogue progresses, questions related to detailed contents, such as
"I would like to know the telephone number of Yumoto Hot Spring in Hakone." Or "What is the address of the hot spring in Yoshii Town, Gunma Prefecture?" Accept input that can be spoken anywhere in this dialogue. Use the word dictionary and grammar for voice recognition as the static word dictionary unit 304 and the static grammar unit 305, and accept the input that dynamically changes as the dialogue progresses. A word dictionary for speech recognition is generated by the next utterance word dictionary generation unit 306 by the search content word dictionary generation unit 307, and the grammar is generated by the dynamic grammar unit 309 according to the content of the generated word dictionary. Using the dynamic grammar selection unit 310, the recognition target generation unit 311 creates the information together with the static grammar information of the static word dictionary unit 305 304.

【0024】つまり、本実施例において、次発話に発声
されると予測される認識対象となり得る情報を以下の2
つの認識情報として保持する手段を有する。
That is, in this embodiment, information that can be a recognition target predicted to be uttered in the next utterance is given in the following 2
It has a means for holding it as one piece of recognition information.

【0025】(1)対話状況によらない、いつでも入力
できる文を認識する静的な認識情報(単語辞書と文
法)。
(1) Static recognition information (word dictionary and grammar) for recognizing a sentence that can be input at any time regardless of the dialogue situation.

【0026】(2)対話状況に応じて、認識対象語彙や
文法が動的に変わる動的な認識情報(単語辞書と文
法)。
(2) Dynamic recognition information (word dictionary and grammar) in which the vocabulary and grammar to be recognized dynamically change according to the conversation situation.

【0027】また、この保持情報を書き換えるタイミン
グは、以下の3つの場合が考えられる。
The timing of rewriting the held information can be the following three cases.

【0028】(a)直ちに同項目の保持内容を更新す
る。
(A) Immediately update the contents held in the same item.

【0029】(b)変更が行われても同項目の保持内容
を更新するのではなく、新たにその情報を追加し保持す
る。
(B) Even if a change is made, the contents held in the same item are not updated, but the information is newly added and held.

【0030】(c)(b)のように、対話において一度
現れた情報を保持しながらも、対話が進むに連れ、保持
している認識のための情報を順次、対話の条件に応じて
消去する。
As shown in (c) and (b), while holding information that has once appeared in the dialogue, as the dialogue progresses, the held information for recognition is sequentially erased according to the conditions of the dialogue. To do.

【0031】以上の(a)、(b)、(c)のいずれか
を用いることにより、前出の自然な対話を可能とするた
めの処理を説明する。例えば、前回の発話が、「東京に
ある公園を知りたい。」であり、これに対するS207
における検索結果が「井の頭公園、…、芝公園、代々木
公園」であれば、この結果を用いて、まず、S210で
作成するための認識対象語彙にこの検索結果の公園名を
用い、さらに、これら語彙にあった文法を選択し、動的
な文法を作成する。この動的な文法を展開し、音声認識
部内に動的なネットワークを構成し、次対話において、
「芝公園の電話番号を示せ。」という文を認識できるよ
うにする。
A process for enabling the natural dialogue described above by using any of the above (a), (b), and (c) will be described. For example, the last utterance was "I want to know a park in Tokyo."
If the search result in “Inokashira Park, ..., Shiba Park, Yoyogi Park” is used, first, using this result, the park name of this search result is used as the recognition target vocabulary to be created in S210. Select a grammar that suits your vocabulary and create a dynamic grammar. By developing this dynamic grammar and constructing a dynamic network in the speech recognition unit, in the next dialogue,
Be able to recognize the sentence “Please give me the telephone number of Shiba Koen”.

【0032】また、検索指令に対して、検索結果が非常
に多いときには、対話管理部は検索結果を出力せず、
「千代田区に10件、世田谷区に5件、…」を出力し、
この市町村名を次対話の認識対象語とし、これら語彙に
あった文法を選択し、動的な文法を作成する。この動的
な文法を展開し、音声認識部内に動的なネットワークを
構成し、次対話において、「世田谷区では。」という市
町村名を用いた文の認識を可能とする。
When there are a large number of search results in response to the search command, the dialogue management unit does not output the search results,
Output "10 in Chiyoda-ku, 5 in Setagaya-ku, ...",
This city name is used as a recognition target word in the next dialogue, and a grammar suitable for these vocabularies is selected to create a dynamic grammar. By developing this dynamic grammar and constructing a dynamic network in the speech recognition unit, it becomes possible to recognize a sentence using the municipality name "In Setagaya Ward." In the next dialogue.

【0033】つまり、一番目の例では検索結果をそのま
ま次発話予測単語としているのに対して、二番目の例で
は検索の結果、検索項目が非常に多いため、対話の認識
を用いてよりうまい絞り込みを行える様に、次発話を誘
導する地名を次発話予測単語としている。
In other words, in the first example, the retrieval result is directly used as the next utterance prediction word, whereas in the second example, the retrieval result is so large that there are many retrieval items. The place name that guides the next utterance is used as the next utterance prediction word so that the narrowing down can be performed.

【0034】また、検索結果が「公園」や「地名」であ
り、それぞれに適した文法を選択し、次発話に備える。
公園の場合には、場所、広さ、行き方、…を入力できる
ように、地名の場合には、その地名にある公園、施設、
…を入力できる文法を選択する。
Further, the retrieval result is "park" or "place name", and a grammar suitable for each is selected to prepare for the next utterance.
In the case of a park, you can enter the location, size, direction, etc .. In the case of a place name, the park, facility,
Select a grammar that allows you to enter….

【0035】これらの検索結果から決定される認識対象
語彙と文法、及び知識により絞り込むための市町村名の
認識対象語彙と文法は、両方同時もしくはいずれか一方
のみでも、認識するための動的なネットワークは作成さ
れる。また、(a)、(b)、(c)のいずれの保持情
報の変更方法を用いても、対話の中で明示的に認識対象
の地域や項目の変更がないかぎり、これらの語に関する
認識が行える特徴を持つ。
A dynamic network for recognizing the recognition target vocabulary and grammar determined from these search results, and the recognition target vocabulary and grammar of the municipality name for narrowing down by knowledge, both at the same time or only one of them. Is created. In addition, even if any of the holding information changing methods (a), (b), and (c) is used, recognition of these words is performed unless the area or item to be recognized is explicitly changed in the dialogue. It has a feature that can do.

【0036】つまり、地名に関する情報は、公園に関す
る新たな情報では書き変わらないため、対話の中心が公
園にあっても、前の対話に関わりのあった地名の認識が
可能となる。全ての情報を記憶しておくと、認識部が巨
大になるので、(c)の消去を行うことにより、ある程
度過去の対話の情報も認識でき、かつ、認識部の巨大化
の問題を避けることが可能となる。
In other words, since the information about the place name is not rewritten by the new information about the park, even if the center of the dialogue is the park, it becomes possible to recognize the place name that was involved in the previous dialogue. If all the information is stored, the recognition unit becomes huge. Therefore, by deleting (c), it is possible to recognize the information of past dialogue to some extent and avoid the problem of the recognition unit becoming huge. Is possible.

【0037】図4は、音声認識部の図であり、本図の4
04(405から412)は図1の105、図2では、
202に当たる。403は認識を行う認識モデル(標準
パタン)であり、これらを用いて、405や411の文
字情報をもとに、406や412の認識用のネットワー
クを計算機内部に実現する。このネットワークは、予め
認識をはじめる前に、作成されている必要はなく、音声
の入力に従って動的に作成することも可能である。40
1より入力された音声波形は、402で音響分析が行わ
れ、音響パラメータに変換される。この音響パラメータ
と406、407のネットワーク上でもっとも入力の音
声らしい経路を決定し(408)、これを第1位の認識
結果とする。全ネットワーク上の2番目に入力の音声ら
しい経路を第2位の候補、3番目を第3位、…、とす
る。本例では、認識ネットワークは3つ存在し、それぞ
れ、静的ネットワーク406と、動的なネットワーク4
12は温泉関係と公園関係の2つからなる。従って、第
1位の認識結果は各ネットワークの第1位(413、4
14、415)中でもっとも入力の音声らしい結果を選
ぶことになる。
FIG. 4 is a diagram of the voice recognition unit, which is shown in FIG.
04 (405 to 412) is 105 in FIG. 1, and in FIG.
It hits 202. Reference numeral 403 is a recognition model (standard pattern) for recognition, and by using these, a network for recognition of 406 and 412 is realized inside the computer based on the character information of 405 and 411. This network does not have to be created in advance before starting recognition, and can be dynamically created according to voice input. 40
The voice waveform input from 1 is subjected to acoustic analysis in 402 and converted into acoustic parameters. This acoustic parameter and the route of 406 and 407 which is most likely to be the input voice on the network is determined (408) and is set as the first recognition result. The second input voice-like route on all networks is the second candidate, the third is the third candidate, .... In this example, there are three recognition networks, a static network 406 and a dynamic network 4 respectively.
12 consists of two things, hot spring related and park related. Therefore, the recognition result of the first place is the first place (413, 4) of each network.
14, 415), the result which seems to be the most input voice will be selected.

【0038】静的な文法405は、対話のどこでも発生
できる入力を可能にするもので、この例では、静的ネッ
トワーク406を作成する。動的なネットワーク412
は、動的な文法411より作成される。その文法は、前
回の発話である407「東京にある公園を教えて。」の
入力に応じて408の対話検索管理部(図1の103、
107に当たる。)の検索結果、「井の頭公園、芝公
園、…、代々木公園、」409より文法生成部410に
て作成される。
The static grammar 405 allows input that can occur anywhere in the interaction, in this example creating a static network 406. Dynamic network 412
Is created from the dynamic grammar 411. The grammar is in accordance with the input of the previous utterance 407 “Tell me about the park in Tokyo.” The dialogue search management unit 408 (103 in FIG. 1,
Hit 107. ), “Inokashira Park, Shiba Park, ..., Yoyogi Park,” 409, and is created by the grammar generation unit 410.

【0039】図5は、検索項目と予測項目が出力された
例である。501は「厚木市にあるゴルフ場を示せ。」
の検索結果である。また、。502は「神奈川にあるゴ
ルフ場を示せ。」という入力に対して検索項目数が多い
ため、さらに、検索項目数を減らす条件として、次発話
として要求している市町村名の出力である。本発明で
は、検索するデータベースの検索項目と次発話項目の情
報を基にそれぞれの項目に適した文法を選択し、これら
情報を各項目別で独立に管理することにより、より自然
な対話を実現することを特徴としている。
FIG. 5 shows an example in which search items and prediction items are output. 501: "Show me the golf course in Atsugi."
Is the search result of. Also,. 502 is the output of the name of the municipality requested as the next utterance as a condition for further reducing the number of search items because the number of search items is large in response to the input "Show me the golf course in Kanagawa." In the present invention, a more natural dialogue is realized by selecting a grammar suitable for each item based on the information of the search item of the database to be searched and the information of the next utterance item, and managing the information independently for each item. It is characterized by doing.

【0040】図6は、次の対話を行った後に出力され
た、新たな検索項目と予測項目の出力された例である。
511は「箱根町にある温泉を示せ。」の検索結果で、
また、512は「神奈川県にある温泉を示せ。」という
入力に対して検索項目数が多いため、さらに、検索項目
数を減らす条件として、次発話として要求している市町
村名の出力である。
FIG. 6 shows an example in which new search items and predicted items are output after the next dialogue.
511 is the search result for "Show me the hot springs in Hakone."
Further, reference numeral 512 is the output of the name of the municipality requested as the next utterance as a condition for further reducing the number of search items because the number of search items is large in response to the input “Show hot springs in Kanagawa prefecture”.

【0041】本発明の認識対象の切替え(a)を用いた
場合には、512が出力されると、同一の地名である5
02は直ちに書き換えられ、「厚木市、横須賀市、…」
は、次発話において認識できなくなる。つまり、(a)
の方法では、次発話において501、511、512に
関する認識が可能となる。一方(b)、(c)を用いれ
ば、502に512が加わり501、502、511、
512に関する認識が可能となる。(c)の方法によれ
ば、しばらく対話が進むと502の情報が消去される。
When the recognition target switching (a) of the present invention is used, when 512 is output, the same place name 5 is output.
02 was rewritten immediately and read "Atsugi City, Yokosuka City, ..."
Becomes unrecognizable in the next utterance. That is, (a)
According to the method, it becomes possible to recognize 501, 511 and 512 in the next utterance. On the other hand, if (b) and (c) are used, 512 is added to 502, 501, 502, 511,
Recognition regarding 512 becomes possible. According to the method of (c), the information of 502 is deleted after the dialogue progresses for a while.

【0042】図7は、検索項目がゴルフ場の場合に作成
される動的な文法の例である。検索結果が図5の501
のとき、単語辞書602を作成し、ゴルフ場にあった文
法602を選ぶ、結果として、601に示す認識ネット
ワークを作成する単語文法情報を得る。
FIG. 7 is an example of a dynamic grammar created when the search item is a golf course. The search result is 501 in FIG.
At this time, the word dictionary 602 is created, and the grammar 602 suitable for the golf course is selected. As a result, the word grammar information for creating the recognition network 601 is obtained.

【0043】図8は、次発話予測項目が地名の場合に作
成される動的な文法の例である。次発話予測項目が図5
の502のとき、単語辞書702を作成し、次発話予測
項目が地名にあった文法702を選ぶ、結果として、7
01に示す認識ネットワークを作成する単語文法情報を
得る。
FIG. 8 is an example of a dynamic grammar created when the next speech prediction item is a place name. Figure 5 shows the next utterance prediction item
No. 502, the word dictionary 702 is created, and the grammar 702 whose next utterance prediction item is the place name is selected. As a result, 7
The word grammar information for creating the recognition network indicated by 01 is obtained.

【0044】図9は、この対話のどこでも発生できる入
力を受け付け音声認識するための単語辞書と文法の例を
示す。図3の304の静的単語辞書部には802のよう
な情報が格納されており、305の静的文法部には80
3のような文法が格納されている。認識の際は、801
のような認識ネットワークを作成する単語文法情報を作
成し認識を行う。
FIG. 9 shows an example of a word dictionary and grammar for accepting input and voice recognition that can occur anywhere in this dialogue. Information such as 802 is stored in the static word dictionary portion 304 of FIG. 3, and 80 is stored in the static grammar portion 305.
The grammar like 3 is stored. At the time of recognition, 801
The recognition network is created and recognition is performed.

【0045】図10の901には図7の認識ネットワー
クを作成する単語文法情報で認識できる文の例を、90
2には図8の認識ネットワークを作成する単語文法情報
で認識できる文の例を、903には図9の認識ネットワ
ークを作成する単語文法情報で認識できる文の例を示
す。
In 901 of FIG. 10, an example of a sentence that can be recognized by the word grammar information for creating the recognition network of FIG.
2 shows an example of a sentence that can be recognized by the word grammar information that creates the recognition network of FIG. 8, and 903 shows an example of a sentence that can be recognized by the word grammar information that creates the recognition network of FIG.

【0046】以上のように本実施例によれば、自然でし
かも使い易い形で音声入力による情報検索が実現できる
ことが保証される。
As described above, according to this embodiment, it is guaranteed that the information retrieval by voice input can be realized in a natural and easy-to-use form.

【0047】尚、本実施例では、認識項目の情報の保持
を単語辞書のレベルで記載されているが、この他に、第
4に示す認識ネットワーク406や412の状態で保持
し、各項目別に保持・管理を行うことも可能である。
(2)また、認識項目の情報の保持を記載されている方
法を用いれば、認識ネットワーク406や412は、動
的に全ての保持情報を用いることにより、1つの大きな
認識ネットワークにすることも可能であり、また、管理
する項目数とは、無関係な数を認識装置の演算素子に合
わせた方法で選択することも可能である。
In the present embodiment, the holding of the information of the recognition item is described at the level of the word dictionary. However, in addition to this, the information is held in the state of the recognition network 406 or 412 shown in the fourth, and each item is held. It is also possible to hold and manage.
(2) Further, if the method described for holding information of recognition items is used, the recognition networks 406 and 412 can be made into one large recognition network by dynamically using all the held information. Further, it is also possible to select a number that is irrelevant to the number of items to be managed by a method suited to the arithmetic element of the recognition device.

【0048】(実施例2)以下、図面を参照して本発明
を詳細に説明する。
(Embodiment 2) The present invention will be described in detail below with reference to the drawings.

【0049】図11は、本発明の一実施例に係る装置の
基本構成を示すブロック図である。本実施例は、対話に
伴って文書の検索を行う音声対話装置の実施例である。
図11において1は利用者の音声入力を受理する音声入
力部、2は利用者の音声入力を言語情報に変換する音声
認識部、3は利用者の文字入力を受理する文字入力部、
4は利用者の音声入力があれば音声認識部2の認識結果
である言語情報を、利用者の文字入力があれば文字入力
部3が受理した文字情報を、いずれも同じ言語情報の入
力として対話を行う対話処理部、5は音声認識部2が変
換する言語の範囲を利用者に提示する認識範囲提示部、
6は対話処理部4が利用者に出力する情報を出力する対
話出力部7は対話処理部4の要求に応じて文書の検索を
行う検索処理部である。
FIG. 11 is a block diagram showing the basic configuration of an apparatus according to an embodiment of the present invention. The present embodiment is an embodiment of a voice dialog device that searches for a document along with a dialog.
In FIG. 11, 1 is a voice input unit that accepts the voice input of the user, 2 is a voice recognition unit that converts the voice input of the user into language information, and 3 is a character input unit that accepts the character input of the user.
Reference numeral 4 indicates the language information which is the recognition result of the voice recognition unit 2 if there is a user's voice input, and the character information accepted by the character input unit 3 if there is a user's character input, as input of the same language information. A dialogue processing unit 5 for performing a dialogue, a recognition range presenting unit 5 for presenting a range of languages converted by the voice recognition unit 2 to a user,
Reference numeral 6 denotes a dialogue output unit 7 for outputting information output from the dialogue processing unit 4 to the user, and a dialogue processing unit 7 for searching a document in response to a request from the dialogue processing unit 4.

【0050】図12は本発明の実施例の具体的なシステ
ム構成を示す図である。ここで、21は制御メモリであ
り、図3のフローチャートに示すような制御手順に従っ
た制御プログラムを記憶する。22は制御メモリ21に
保持されている制御手順に従って判断・演算などを行う
中央処理装置である。23はマイクロホンであり図1に
示した音声入力部1を実現する。24は音声認識装置で
あり図1に示した音声認識部2を実現する。25はキー
ボードであり図1に示した文字入力部3を実現する。2
6はCD−ROMドライブであり検索の対象となる文書
を入れたCD−ROMを保持する。27はディスプレイ
であり図1に示した認識範囲提示部5と対話出力部6を
実現する。28はバスである。
FIG. 12 is a diagram showing a concrete system configuration of the embodiment of the present invention. Here, 21 is a control memory, which stores a control program according to a control procedure as shown in the flowchart of FIG. Reference numeral 22 is a central processing unit for making judgments / calculations and the like according to the control procedure stored in the control memory 21. A microphone 23 realizes the voice input unit 1 shown in FIG. A voice recognition device 24 realizes the voice recognition unit 2 shown in FIG. A keyboard 25 realizes the character input unit 3 shown in FIG. Two
A CD-ROM drive 6 holds a CD-ROM containing a document to be searched. Reference numeral 27 denotes a display, which realizes the recognition range presenting unit 5 and the dialogue output unit 6 shown in FIG. 28 is a bus.

【0051】以下、図13に示すフローチャートを参照
して、本装置の処理を説明する。尚、本実施例では、対
話処理部3の行う処理の例として、データベース検索処
理を用いる。
The processing of this apparatus will be described below with reference to the flowchart shown in FIG. In this embodiment, a database search process is used as an example of the process performed by the dialogue processing unit 3.

【0052】まず、S1では、音声認識部2と対話処理
部4の初期化を行う。そして、音声認識部2が変換する
言語の範囲を認識範囲提示部に渡して利用者に提示す
る。また、本装置から利用者の入力を促すメッセージを
対話出力部6に出力する。そして、S2に移る。S2で
は、音声入力部1への音声入力の結果として音声認識部
2による音声認識が行われたか否かを調べ、認識結果が
あった場合は、S4に移る。なかった場合はS3に移
る。S3では、文字入力部3に文字入力があったか否か
を調べ、入力があった場合はS5に移る。なかった場合
はS2の先頭に帰る。S4では、音声認識結果を文字情
報として対話処理部4に取り込む。S5では、文字入力
部に入力された文字入力を対話処理部4に取り込む。S
6では、取り込んだ文字情報を利用者の入力として、対
話処理を行う。対話処理では、入力文の文解析を行い、
利用者の意図を抽出してそれに応じた処理を行う。ここ
では、文書の検索を行う。そして、検索結果を基に利用
者への出力を作成し、対話出力部6に送る。S7では、
対話処理の結果に基づき対話を終了させるか否かを判定
し、終了させる場合は全ての処理を終了する。終了させ
ない場合はS2の先頭に帰る。
First, in S1, the voice recognition unit 2 and the dialogue processing unit 4 are initialized. Then, the range of languages converted by the voice recognition unit 2 is passed to the recognition range presenting unit and presented to the user. In addition, a message prompting the user to input from this device is output to the dialogue output unit 6. Then, the process proceeds to S2. In S2, it is checked whether or not voice recognition by the voice recognition unit 2 is performed as a result of voice input to the voice input unit 1, and if there is a recognition result, the process proceeds to S4. If not, go to S3. In S3, it is checked whether or not there is a character input in the character input unit 3, and if there is an input, the process proceeds to S5. If not, the process returns to the beginning of S2. In S4, the speech recognition result is fetched into the dialogue processing unit 4 as character information. In step S5, the character input input to the character input unit is fetched into the dialogue processing unit 4. S
In 6, the dialog processing is performed by using the captured character information as the input of the user. In interactive processing, sentence analysis of the input sentence is performed,
Extract the user's intention and perform the corresponding processing. Here, the document is searched. Then, based on the search result, an output to the user is created and sent to the dialogue output unit 6. In S7,
Based on the result of the dialogue processing, it is determined whether or not the dialogue is to be ended. If the dialogue is to be ended, all processing is ended. When not ending, the process returns to the beginning of S2.

【0053】次に、本実施例における認識範囲の例を図
14に示す。また利用者と装置との対話の例を図15に
示す。尚、この対話例で、利用者1の入力は音声入力で
行われ、利用者2の入力は文字入力で行われている。
FIG. 14 shows an example of the recognition range in this embodiment. FIG. 15 shows an example of the dialogue between the user and the device. In this dialog example, the input of the user 1 is performed by voice input, and the input of the user 2 is performed by character input.

【0054】尚、本実施例では、音声認識手段が変換す
る言語を特定の範囲に制限し、その範囲を利用者に提示
する認識範囲提示手段を持つ実施例であったが、図11
のブロック図の認識範囲提示部5をなくし、図13のフ
ローチャートのステップS1において、認識範囲の提示
を行わないようにすること、また、変換する言語を特定
しない音声認識装置も可能である。
In the present embodiment, the language to be converted by the voice recognition means is limited to a specific range, and the recognition range presenting means for presenting the range to the user is provided.
It is also possible to eliminate the recognition range presenting unit 5 of the block diagram of FIG. 13 so that the recognition range is not presented in step S1 of the flowchart of FIG. 13, and a speech recognition apparatus that does not specify the language to be converted.

【0055】また、音声入力部を別に設ける場合につい
て説明したが、これに限定されるものでなく、音声入力
部を設けずに直接音声入力可能な音声認識部を用いても
よい。
Further, the case where the voice input unit is separately provided has been described, but the present invention is not limited to this, and a voice recognition unit capable of direct voice input may be used without providing the voice input unit.

【0056】また、対話出力部を設ける場合について説
明したが、これに限定されるものでなく、対話出力がな
い場合には対話出力部を設けなくてもよい。
Although the case where the dialogue output section is provided has been described, the present invention is not limited to this, and the dialogue output section may not be provided when there is no dialogue output.

【0057】また、対話処理への入力と対話処理からの
出力を全て言語で行う場合について説明したが、これに
限定されるものでなく、コマンド入力やテーブル出力な
どで行ってもよい。
Further, although the case where the input to the interactive process and the output from the interactive process are all performed in the language has been described, the present invention is not limited to this, and command input or table output may be performed.

【0058】また、対話処理に伴って文書の検索を行う
場合について説明したが、これに限定されるものでな
く、ガイダンスや教育や計算の実行など対話を通して行
う任意の処理でよい。また、特に他の処理を行わずに対
話だけを行ってもよい。
Further, although the case where the document is retrieved along with the interactive processing has been described, the present invention is not limited to this, and any processing carried out through the interactive such as guidance, education, and calculation may be performed. Further, only the dialogue may be performed without performing other processing.

【0059】また、認識範囲の提示と対話出力を同じデ
ィスプレイに出力する場合について説明したが、これに
限定されるものでなく、異なるディスプレイに出力して
もよい。
Further, the case where the presentation of the recognition range and the interactive output are output to the same display has been described, but the present invention is not limited to this and may be output to different displays.

【0060】また、音声入力があったかどうかの判定を
音声認識の結果の有無で行う場合について説明したが、
これに限定されるものでなく、音声入力部へ入力があっ
たかどうかで判定してもよい。
Also, the case has been described in which whether or not there is a voice input is determined based on the presence or absence of the result of voice recognition.
The present invention is not limited to this, and it may be determined whether or not there is an input to the voice input unit.

【0061】また、対話の開始を装置から利用者へのメ
ッセージの出力で開始する場合について説明したが、こ
れに限定されるものでなく、利用者から装置への入力か
ら開始してもよい。
Further, although the case where the dialogue is started by the output of the message from the device to the user has been described, the present invention is not limited to this, and may be started by the input from the user to the device.

【0062】また、音声認識手段を音声認識装置で実現
する場合について説明したが、これに限定されるもので
なく、計算機上のソフトウェアで実現するなど任意の音
声認識手段でよい。
Further, although the case where the voice recognition means is realized by the voice recognition device has been described, the present invention is not limited to this, and any voice recognition means such as a software implemented on a computer may be used.

【0063】また、文字入力手段をキーボードで実現す
る場合について説明したが、これに限定されるものでな
く、ペン入力装置やタッチパネルなど文字コードを入力
できる任意の手段でよい。
Although the case where the character input means is realized by the keyboard has been described, the present invention is not limited to this, and any means that can input a character code such as a pen input device or a touch panel may be used.

【0064】また、認識範囲提示手段をディスプレイで
実現する場合について説明したが、これに限定されるも
のでなく、プリンタで出力したり、音声合成装置などで
音声出力したりするなど任意の認識範囲提示手段でよ
い。
Further, the case where the recognition range presenting means is realized by a display has been described, but the present invention is not limited to this, and an arbitrary recognition range such as output by a printer or voice output by a voice synthesizer is possible. A presentation means is sufficient.

【0065】また、検索対象の文書をCD−ROMドラ
イブ中のCD−ROM文書とする場合について説明した
が、これに限定されるものでなく、ハードディスク上の
文書などの任意の文書でよい。
Although the case has been described where the document to be searched is a CD-ROM document in a CD-ROM drive, the present invention is not limited to this, and any document such as a document on a hard disk may be used.

【0066】また、汎用計算機を用いて本発明の音声対
話装置を実現する場合について説明したが、これに限定
されるものでなく、本発明に係る処理の一部または全部
を専用ハードウェアを用いて実現してもよい。
Also, the case where the voice dialogue apparatus of the present invention is realized by using a general-purpose computer has been described, but the present invention is not limited to this, and a part or all of the processing according to the present invention uses dedicated hardware. May be realized.

【0067】また、一つの汎用計算機上で本発明の音声
対話装置を実現する場合について説明したが、これに限
定されるものでなく、複数の汎用計算機や専用のハード
ウェアの間で通信を行って実現してもよい。
Further, the case where the voice dialogue apparatus of the present invention is realized on one general-purpose computer has been described, but the present invention is not limited to this, and communication is performed between a plurality of general-purpose computers and dedicated hardware. May be realized.

【0068】[0068]

【発明の効果】本発明は、2つ以上の認識情報を静的な
情報と動的な情報に切り分けて保持し、また動的な情報
は認識対象の項目別に単語辞書や文法または認識ネット
ワークとして管理することにより、前述の問題点を解決
し、自然で使い易い音声対話情報検索装置が実現でき
る。
The present invention divides and holds two or more pieces of recognition information into static information and dynamic information, and the dynamic information is used as a word dictionary, grammar, or recognition network for each item to be recognized. By managing, the above-mentioned problems can be solved and a natural and easy-to-use spoken dialogue information retrieval device can be realized.

【0069】本発明は、データベースの検索項目や予測
次発話情報の項目に、全て予め読み情報を添付したデー
タベース、データベースの検索項目や予測次発話情報の
項目に、動的かつ自動的に読み情報を添付しする手段、
予測次発話の誘導のためにデータベースの検索項目や次
発話情報の項目を読みが添付された情報として、表示装
置に出力する手段、を用いることにより、従来の音声情
報検索装置で問題となっていた、検索項目に対して音声
認識を行うための情報が添付されないため、予め登録し
た単語や文を用いてしか、音声による検索ができず、こ
のため、データベース上のあらゆる検索項目が検索でき
なかった問題や、データベース上のあらゆる検索項目が
検索擦るためには、データベース上のあらゆる検索項目
に対して、全て予め、その読みを付けておく必要があ
り、データベースが変更されれば、読み付けを全て行
い、この情報を音声認識装置に予め組み込まなければな
らない問題や、音声認識に予め読み情報を組み込んだと
しても、例えば、固有名詞などの難しい漢字などはどの
ように発声すれば良いか判からないため、結局、音声入
力できないため、情報検索が行えないという問題点など
を解決し、自然で使い易い音声対話情報検索装置が実現
できる。
The present invention is a database in which reading information is preliminarily attached to search items of a database and items of predicted next utterance information, and dynamic and automatic reading information is added to search items of a database and items of predicted next utterance information. Means to attach,
This is a problem in the conventional voice information retrieval device by using the means for outputting the retrieval item of the database and the item of the next utterance information to the display device as the information with the reading attached to guide the predicted next utterance. Also, since the information for voice recognition is not attached to the search items, only the words or sentences registered in advance can be used to search by voice, and therefore all the search items in the database cannot be searched. It is necessary to pre-read all the search items in the database in advance in order to solve the problems and the search items in the database. If the database is changed, read the data. There is a problem that this information has to be incorporated into the voice recognition device in advance, and even if read information is incorporated into voice recognition in advance, for example, Since I do not know how to say difficult Kanji such as words, I can not input information after all, so I solved the problem that information search could not be done, and a natural and easy-to-use spoken dialogue information search device realizable.

【0070】本発明は、音声対話情報検索装置におい
て、対話の状況及び検査結果に応じて、次発話において
発声されると思われる単語、または、発声して欲しい単
語を選択する手段、及び予測単語にあった文法を選択す
る選択手段を用いることにより、自然な音声対話により
情報検索を可能とする。
According to the present invention, in the voice dialogue information retrieval apparatus, a word which is likely to be uttered in the next utterance or a means for selecting a word which is desired to be uttered, and a prediction word are selected in accordance with the situation of the dialogue and the inspection result. By using the selection means to select the appropriate grammar, it is possible to retrieve information by natural spoken dialogue.

【0071】以上説明したように、本発明の音声対話装
置は、利用者の音声入力があれば音声入力の音声認識結
果である言語情報を、利用者の文字入力があれば文字入
力手段により受理される文字情報を、いずれも同じ言語
情報の入力として対話処理を行うようにしたので、音声
認識に失敗するような入力でも文字入力を行うことで対
話を正常に進行させることができるという効果がある。
また、音声認識の精度を上げるため認識させる言語入力
の範囲を制限した場合でも、制限された範囲を越える入
力を文字入力により行うことができるので、利用者の入
力が制限されずに任意の言語入力ができるという効果が
ある。さらに、認識させる言語の範囲を利用者に提示す
るようにしたので、利用者が入力しようとしている内容
に応じて、音声入力にするか文字入力にするかを判断で
きるようになるという効果がある。
As described above, the voice interactive apparatus of the present invention accepts the language information which is the voice recognition result of the voice input when the user inputs the voice, and the character input means when the user inputs the character. Since the dialogue information is processed by inputting the same character information as the input of the same language information, the effect that the dialogue can proceed normally by inputting the character even if the voice recognition fails is there.
In addition, even if the range of language input to be recognized is limited in order to improve the accuracy of voice recognition, input exceeding the limited range can be performed by character input, so the user's input is not limited and any language The effect is that you can enter. Further, since the range of languages to be recognized is presented to the user, there is an effect that it is possible to determine whether to use voice input or character input depending on the content that the user is trying to input. .

【図面の簡単な説明】[Brief description of drawings]

【図1】本実施例の構成図。FIG. 1 is a configuration diagram of this embodiment.

【図2】本実施例の処理の流れ図。FIG. 2 is a flow chart of processing of this embodiment.

【図3】本実施例の認識対象生成部の図。FIG. 3 is a diagram of a recognition target generation unit according to the present embodiment.

【図4】本実施例の音声認識部の図。FIG. 4 is a diagram of a voice recognition unit according to the present embodiment.

【図5】本実施例の検索項目と予測項目の情報の例。FIG. 5 is an example of information on search items and prediction items according to the present embodiment.

【図6】本実施例の新しく提示された検索項目と予測項
目の情報の例。
FIG. 6 is an example of information of a newly presented search item and prediction item of the present embodiment.

【図7】本実施例の検索項目がゴルフの場合の作成され
る動的な文法の例。
FIG. 7 is an example of a dynamic grammar created when the search item of this embodiment is golf.

【図8】本実施例の予測項目が地名の場合の作成される
動的な文法の例。
FIG. 8 is an example of a dynamic grammar created when the prediction item of this embodiment is a place name.

【図9】本実施例のどの対話状況でも音声入力可能なる
静的な文法の例。
FIG. 9 is an example of a static grammar that enables voice input in any of the conversation situations of this embodiment.

【図10】本実施例の各文法で認識できる文の例。FIG. 10 is an example of a sentence that can be recognized by each grammar of this embodiment.

【図11】実施例2に係る音声対話装置の基本構成を示
すブロック図。
FIG. 11 is a block diagram showing a basic configuration of a voice interaction device according to a second embodiment.

【図12】実施例2の具体的なシステム構成を示す図。FIG. 12 is a diagram showing a specific system configuration of the second embodiment.

【図13】実施例2の処理手順の概要を示すフローチャ
ート。
FIG. 13 is a flowchart showing the outline of the processing procedure of the second embodiment.

【図14】実施例2における認識範囲の例を示す図。FIG. 14 is a diagram showing an example of a recognition range in the second embodiment.

【図15】実施例2における対話の例を示す図。FIG. 15 is a diagram showing an example of a dialogue in the second embodiment.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 酒井 桂一 東京都大田区下丸子3丁目30番2号キヤノ ン株式会社内 (72)発明者 藤田 稔 東京都大田区下丸子3丁目30番2号キヤノ ン株式会社内 (72)発明者 上田 隆也 東京都大田区下丸子3丁目30番2号キヤノ ン株式会社内 ─────────────────────────────────────────────────── ─── Continuation of front page (72) Keiichi Sakai, 3-30-2 Shimomaruko, Ota-ku, Tokyo Canon Inc. (72) Minor Fujita, 3-30-2 Shimomaruko, Ota-ku, Tokyo (72) Inventor Takaya Ueda 3-30-2 Shimomaruko, Ota-ku, Tokyo Canon Inc.

Claims (16)

【特許請求の範囲】[Claims] 【請求項1】 音声を入力し、 音声を認識する辞書を有し、 前記辞書を用いて前記入力音声を認識し、 前記認識の結果に従って情報を検索し、 前記検索結果に従って前記辞書を変更することを特徴と
する情報処理方法。
1. A voice input and a voice recognition dictionary are provided, the input voice is recognized using the dictionary, information is searched according to the recognition result, and the dictionary is changed according to the search result. An information processing method characterized by the above.
【請求項2】 前記辞書の変更は、更新であることを特
徴とする請求項1に記載の情報処理方法。
2. The information processing method according to claim 1, wherein the change of the dictionary is an update.
【請求項3】 前記辞書の変更は、追加であることを特
徴とする請求項1に記載の情報処理方法。
3. The information processing method according to claim 1, wherein the change of the dictionary is addition.
【請求項4】 前記辞書の変更は、削除であることを特
徴とする請求項1に記載の情報処理方法。
4. The information processing method according to claim 1, wherein the change of the dictionary is deletion.
【請求項5】 前記検索結果に読み情報が付いているか
否かを判断し、ついていない場合は読み情報を付加する
ことを特徴とする請求項1に記載の情報処理方法。
5. The information processing method according to claim 1, wherein it is determined whether or not reading information is attached to the search result, and if not, the reading information is added.
【請求項6】 前記検索結果を該検索結果の読み情報と
ともに表示することを特徴とする請求項1に記載の情報
処理方法。
6. The information processing method according to claim 1, wherein the search result is displayed together with reading information of the search result.
【請求項7】 前記検索結果に応じた文法を選択し、こ
の文法に従って次発話を予測することを特徴とする請求
項1に記載の情報処理方法。
7. The information processing method according to claim 1, wherein a grammar according to the search result is selected, and the next utterance is predicted according to the grammar.
【請求項8】 文字情報を受理し、該文字情報を前記入
力音声の認識結果とあわせて処理するよう制御すること
を特徴とする請求項1に記載の情報処理方法。
8. The information processing method according to claim 1, wherein the character information is received, and the character information is controlled so as to be processed together with the recognition result of the input voice.
【請求項9】 音声を入力する入力手段と、 音声を認識する辞書と、 前記辞書を用いて前記入力音声を認識する認識手段と、 前記認識の結果に従って情報を検索する情報検索手段
と、 前記検索結果に従って前記辞書を変更する変更手段とを
有することを特徴とする情報処理装置。
9. An input unit for inputting voice, a dictionary for recognizing voice, a recognizing unit for recognizing the input voice using the dictionary, an information retrieving unit for retrieving information according to a result of the recognition, An information processing apparatus comprising: a changing unit that changes the dictionary according to a search result.
【請求項10】 前記辞書の変更は、更新であることを
特徴とする請求項9に記載の情報処理装置。
10. The information processing apparatus according to claim 9, wherein the change of the dictionary is an update.
【請求項11】 前記辞書の変更は、追加であることを
特徴とする請求項9に記載の情報処理装置。
11. The information processing apparatus according to claim 9, wherein the change of the dictionary is addition.
【請求項12】 前記辞書の変更は、削除であることを
特徴とする請求項9に記載の情報処理装置。
12. The information processing apparatus according to claim 9, wherein the change of the dictionary is deletion.
【請求項13】 前記検索結果に読み情報が付いている
か否かを判断する判断手段と、ついていない場合は読み
情報を付加する付加手段とを有することを特徴とする請
求項9に記載の情報処理装置。
13. The information according to claim 9, further comprising: a determining unit that determines whether or not the reading result has reading information, and an adding unit that adds reading information if the reading result does not have reading information. Processing equipment.
【請求項14】 前記検索結果を該検索結果の読み情報
とともに表示する表示手段を有することを特徴とする請
求項9に記載の情報処理装置。
14. The information processing apparatus according to claim 9, further comprising display means for displaying the search result together with reading information of the search result.
【請求項15】 前記検索結果に応じた文法を選択する
選択手段と、この文法に従って次発話を予測する予測手
段とを有することを特徴とする請求項9に記載の情報処
理装置。
15. The information processing apparatus according to claim 9, further comprising a selection unit that selects a grammar according to the search result and a prediction unit that predicts a next utterance according to the grammar.
【請求項16】 文字情報を受理し、該文字情報を前記
入力音声の認識結果とあわせて処理するよう制御する制
御手段を有することを特徴とする請求項9に記載の情報
処理装置。
16. The information processing apparatus according to claim 9, further comprising control means for receiving character information and controlling the character information to be processed together with the recognition result of the input voice.
JP00421293A 1993-01-13 1993-01-13 Information processing method and apparatus Expired - Fee Related JP3278222B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP00421293A JP3278222B2 (en) 1993-01-13 1993-01-13 Information processing method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP00421293A JP3278222B2 (en) 1993-01-13 1993-01-13 Information processing method and apparatus

Publications (2)

Publication Number Publication Date
JPH06208389A true JPH06208389A (en) 1994-07-26
JP3278222B2 JP3278222B2 (en) 2002-04-30

Family

ID=11578324

Family Applications (1)

Application Number Title Priority Date Filing Date
JP00421293A Expired - Fee Related JP3278222B2 (en) 1993-01-13 1993-01-13 Information processing method and apparatus

Country Status (1)

Country Link
JP (1) JP3278222B2 (en)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08146989A (en) * 1994-11-17 1996-06-07 Canon Inc Information processor and its control method
JPH0916800A (en) * 1995-07-04 1997-01-17 Fuji Electric Co Ltd Voice interactive system with face image
JP2000056792A (en) * 1998-05-25 2000-02-25 Nokia Mobile Phones Ltd Method and device for recognizing user's utterance
US6324513B1 (en) 1999-06-18 2001-11-27 Mitsubishi Denki Kabushiki Kaisha Spoken dialog system capable of performing natural interactive access
JP2003005786A (en) * 2001-06-18 2003-01-08 Oki Electric Ind Co Ltd Voice conversation interface apparatus
WO2003010754A1 (en) * 2001-07-23 2003-02-06 Japan Science And Technology Agency Speech input search system
JP2007065206A (en) * 2005-08-30 2007-03-15 Denso Corp Institution retrieval system
JP2009151314A (en) * 2008-12-25 2009-07-09 Sony Corp Information processing device and information processing method
WO2011121649A1 (en) * 2010-03-30 2011-10-06 三菱電機株式会社 Voice recognition apparatus
US9865248B2 (en) 2008-04-05 2018-01-09 Apple Inc. Intelligent text-to-speech conversion
US9966060B2 (en) 2013-06-07 2018-05-08 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
US10049675B2 (en) 2010-02-25 2018-08-14 Apple Inc. User profiling for voice input processing
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10706841B2 (en) 2010-01-18 2020-07-07 Apple Inc. Task flow identification based on user intent
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10904611B2 (en) 2014-06-30 2021-01-26 Apple Inc. Intelligent automated assistant for TV user interactions
US11080012B2 (en) 2009-06-05 2021-08-03 Apple Inc. Interface for a virtual digital assistant

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08146989A (en) * 1994-11-17 1996-06-07 Canon Inc Information processor and its control method
JPH0916800A (en) * 1995-07-04 1997-01-17 Fuji Electric Co Ltd Voice interactive system with face image
JP2015018276A (en) * 1998-05-25 2015-01-29 ノキア コーポレイション Method and device for recognizing utterance of user
JP2011175265A (en) * 1998-05-25 2011-09-08 Nokia Corp Method and device for recognizing speech of user
JP2000056792A (en) * 1998-05-25 2000-02-25 Nokia Mobile Phones Ltd Method and device for recognizing user's utterance
US6324513B1 (en) 1999-06-18 2001-11-27 Mitsubishi Denki Kabushiki Kaisha Spoken dialog system capable of performing natural interactive access
JP2003005786A (en) * 2001-06-18 2003-01-08 Oki Electric Ind Co Ltd Voice conversation interface apparatus
WO2003010754A1 (en) * 2001-07-23 2003-02-06 Japan Science And Technology Agency Speech input search system
JP2007065206A (en) * 2005-08-30 2007-03-15 Denso Corp Institution retrieval system
US9865248B2 (en) 2008-04-05 2018-01-09 Apple Inc. Intelligent text-to-speech conversion
JP2009151314A (en) * 2008-12-25 2009-07-09 Sony Corp Information processing device and information processing method
US11080012B2 (en) 2009-06-05 2021-08-03 Apple Inc. Interface for a virtual digital assistant
US10741185B2 (en) 2010-01-18 2020-08-11 Apple Inc. Intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10706841B2 (en) 2010-01-18 2020-07-07 Apple Inc. Task flow identification based on user intent
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US10049675B2 (en) 2010-02-25 2018-08-14 Apple Inc. User profiling for voice input processing
CN102770910A (en) * 2010-03-30 2012-11-07 三菱电机株式会社 Voice recognition apparatus
JP5274711B2 (en) * 2010-03-30 2013-08-28 三菱電機株式会社 Voice recognition device
WO2011121649A1 (en) * 2010-03-30 2011-10-06 三菱電機株式会社 Voice recognition apparatus
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US9966060B2 (en) 2013-06-07 2018-05-08 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US10904611B2 (en) 2014-06-30 2021-01-26 Apple Inc. Intelligent automated assistant for TV user interactions
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback

Also Published As

Publication number Publication date
JP3278222B2 (en) 2002-04-30

Similar Documents

Publication Publication Date Title
JP3278222B2 (en) Information processing method and apparatus
JP3962767B2 (en) Dialogue support device
US7742924B2 (en) System and method for updating information for various dialog modalities in a dialog scenario according to a semantic context
JPH11175568A (en) Input system
CN102549652A (en) Information retrieving apparatus, information retrieving method and navigation system
JP3476007B2 (en) Recognition word registration method, speech recognition method, speech recognition device, storage medium storing software product for registration of recognition word, storage medium storing software product for speech recognition
JPH06332493A (en) Device and method for voice interactive information retrieval
JP4642953B2 (en) Voice search device and voice recognition navigation device
JP3634863B2 (en) Speech recognition system
JPH08339288A (en) Information processor and control method therefor
JP2007505365A (en) Voice control navigation system operation method
JPH07219590A (en) Speech information retrieval device and method
KR20040001594A (en) Apparatus and method for updating a lexicon
JP3645104B2 (en) Dictionary search apparatus and recording medium storing dictionary search program
JPH0778183A (en) Data base retrieving system
JPH07219587A (en) Processor and method for speech processing
JPH07319383A (en) Map display device
JP3762191B2 (en) Information input method, information input device, and storage medium
JP3615309B2 (en) Data retrieval apparatus and method, information storage medium
JPH07168691A (en) Selecting system for display graphic area
JP3296783B2 (en) In-vehicle navigation device and voice recognition method
JP2003005783A (en) Navigation system and its destination input method
JP3758241B2 (en) Voice information retrieval device
JP4012228B2 (en) Information input method, information input device, and storage medium
JP3576511B2 (en) Voice interaction device

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020122

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080215

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090215

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100215

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100215

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110215

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120215

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees