JP3194719B2 - Dialogue system - Google Patents

Dialogue system

Info

Publication number
JP3194719B2
JP3194719B2 JP20310998A JP20310998A JP3194719B2 JP 3194719 B2 JP3194719 B2 JP 3194719B2 JP 20310998 A JP20310998 A JP 20310998A JP 20310998 A JP20310998 A JP 20310998A JP 3194719 B2 JP3194719 B2 JP 3194719B2
Authority
JP
Japan
Prior art keywords
information
utterance
internal state
dialogue
intermediate language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP20310998A
Other languages
Japanese (ja)
Other versions
JP2000035798A (en
Inventor
和子 高橋
Original Assignee
株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エイ・ティ・アール音声翻訳通信研究所 filed Critical 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority to JP20310998A priority Critical patent/JP3194719B2/en
Publication of JP2000035798A publication Critical patent/JP2000035798A/en
Application granted granted Critical
Publication of JP3194719B2 publication Critical patent/JP3194719B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、人間と対話を行う
対話システムに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a dialog system for interacting with a human.

【0002】[0002]

【従来の技術】対話理解については、これまで様々なモ
デルが提案されてきており、その多くは雑談ではなく目
的のある対話を対象としている。これまでに提案されて
いるモデルでは対話をプランとしてとらえ、各発話はゴ
ールを達成するための行為と結び付けて考えているもの
が多い。
2. Description of the Related Art Various models for dialogue understanding have been proposed so far, and most of them are intended not for chat but for purposeful dialogue. In the models proposed so far, dialogue is often considered as a plan, and each utterance is associated with an action to achieve a goal.

【0003】例えば、従来技術文献「山田耕一ほか,”
質問応答システムにおけるユーザ発話モデルと協調的応
答の生成」,情報処理学会論文誌,Vol.35,N
o.11,pp.2265−2275,1994年11
月」においては、ユーザの質問の意図を推論し、意図に
応じて応答を生成することによって様々な協調的応答を
可能にすることができることを特徴としている。この従
来技術文献において、ユーザの発話とその意図の関係を
表すユーザ発話モデルを導入し、日常会話でよく見られ
る協調的応答の分類を行い、応答の種類毎に、ユーザの
意図と応答の関係を開示し、そして、ユーザ発話モデル
に基づいてユーザの発話からその意図を推論する方法に
ついて開示している。この方法では、ドメインで独立な
意図推論ルールと話題となる対象物に関する知識を用
い、推論された意図を用いて先に分類された協調的な応
答を生成する方法について開示している。
[0003] For example, the prior art document "Koichi Yamada et al.,"
Generation of User Utterance Model and Collaborative Response in Question Answering System ", Transactions of Information Processing Society of Japan, Vol. 35, N
o. 11, pp. 2265-2275, 1994 11
The month is characterized in that various cooperative responses can be enabled by inferring the intention of the user's question and generating a response according to the intention. In this prior art document, a user utterance model representing a relationship between a user's utterance and its intention is introduced, a cooperative response often seen in daily conversation is classified, and a relationship between the user's intention and the response is classified for each type of response. And a method of inferring the intention from the user's utterance based on the user's utterance model is disclosed. This method discloses a method of generating a cooperative response that has been classified using the inferred intentions, using independent intention inference rules in the domain and knowledge of the topic object.

【0004】[0004]

【発明が解決しようとする課題】しかしながら、上述の
従来技術文献の質問応答システムでは、ユーザ側とシス
テム側との役割によってモデルが異なるために、適用す
る対話の範囲が狭いという問題点があった。また、シス
テム側が予めスロットを用意し、発話によりそのスロッ
トを充填してゆく、いわゆるスロットはめ込み方式を用
いることも考えられるが、用意するスロットは限定さ
れ、規格外の処理は行うことはできず、柔軟性を欠くと
いう問題点があった。
However, in the question answering system of the above-mentioned prior art document, there is a problem that the range of dialogue to be applied is narrow because models differ depending on the roles of the user and the system. . Also, it is conceivable to use a so-called slot insertion method in which the system side prepares a slot in advance and fills the slot by utterance, but the prepared slot is limited, and processing outside the standard can not be performed, There was a problem of lack of flexibility.

【0005】本発明の目的は以上の問題点を解決し、従
来技術に比較して適用する対話の範囲を広くすることが
でき、しかも柔軟性がある対話システムを提供すること
にある。
[0005] An object of the present invention is to solve the above problems and to provide a flexible dialog system capable of expanding a range of dialogs to be applied as compared with the prior art, and of being flexible.

【0006】[0006]

【課題を解決するための手段】本発明に係る対話システ
ムは、発声される発声音声文の音声を文字列に音声認識
して、音声認識された文字列に応答して情報収集のため
の対話における応答の発語内容の文字列を生成した後、
発語内容の文字列を音声合成して出力する対話システム
であって、対話の進行とともに変化する対話の状況を示
す内部状態を、 (a)αがφを知っていることを表す第1の様相演算子
K(α,φ)と、 (b)αがφを信じていることを表す第2の様相演算子
B(α,φ)と、 (c)αがφを知る必要があることを表す第3の様相演
算子N(α,φ)とを用いて表して格納する内部状態記
述記憶装置と、 (A)標準命題様相論理の性質を様相演算子を用いて表
した一般の公理と、 (B)必然性の規則を表す推論規則と、 (C)複数の事実が論理積で成立するならば、ある事実
が成立するということを表す背景知識と、発話の順序に
関する制約を示す発話生成規則とを有するタスク依存の
知識とを格納する知識記述記憶装置と、発話の順序に関
する制約を示す発話生成規則を格納する発話生成規則記
憶装置と、発声される発声音声文の音声を文字列に音声
認識して出力する音声認識手段と、文字列を情報要求又
は情報提供の内容を表す中間言語に変換するための変換
パターンモデルを参照して、上記音声認識手段によって
音声認識された文字列を、情報要求又は情報提供の内容
を表す中間言語に変換して出力する前処理手段と、上記
前処理手段から出力される情報要求又は情報提供の内容
を表す中間言語から、上記内部状態記述記憶装置内の内
部状態を参照して、内部状態を遷移させてその内部状態
を更新するとともに、遷移後の内部状態を出力する状態
遷移処理手段と、上記状態遷移処理手段から出力される
内部状態から、上記知識記述記憶装置内の知識と、上記
発話生成規則記憶装置内の発話生成規則とを参照して、
現在の状態における当該対話において応答して発話すべ
き内容を推論してその中間言語を生成して出力する推論
処理手段と、上記内部状態記述記憶装置内の内部状態を
参照して、上記推論処理手段から出力される応答して発
話すべき内容の中間言語を、情報要求又は情報提供の中
間言語の出力データに変換して出力するデータ出力処理
手段と、情報要求又は情報提供の内容を表す中間言語を
文字列に逆変換するための逆変換パターンモデルを参照
して、上記データ出力処理手段から出力される情報要求
又は情報提供の内容を表す中間言語の出力データを、当
該中間言語に対応する文字列に逆変換して出力する後処
理手段と、上記後処理手段から出力される文字列を音声
合成してそれに対応する音声を出力する音声合成手段と
を備えたことを特徴とする。
A dialogue system according to the present invention recognizes a voice of an uttered voice sentence as a character string, and responds to the voice-recognized character string to collect information. After generating a string of the utterance content of the response in,
A dialogue system for synthesizing and outputting a character string of utterance content, wherein an internal state indicating a dialogue state that changes with the progress of the dialogue is represented by: (a) a first state indicating that α knows φ Modal operator K (α, φ); (b) a second modal operator B (α, φ) indicating that α believes φ; and (c) α needs to know φ. And an internal state description storage device that expresses and stores a third propositional operator N (α, φ) using a modal operator, and (A) a general axiom expressing the properties of standard propositional modal logic using a modality operator And (B) inference rules representing the rules of necessity; and (C) background knowledge representing that if a plurality of facts are ANDed, certain facts are established; and utterances indicating restrictions on the order of utterances. A knowledge description storage device for storing task-dependent knowledge having a generation rule; An utterance generation rule storage device for storing an utterance generation rule indicating a utterance, a voice recognition unit for recognizing and outputting a voice of an uttered voice sentence as a character string, and displaying the character string as an information request or information provision content With reference to a conversion pattern model for converting to an intermediate language, a pre-processing means for converting the character string recognized by the voice recognition means to an intermediate language representing the content of the information request or information provision and outputting the same, From the intermediate language representing the content of the information request or information provision output from the preprocessing means, referring to the internal state in the internal state description storage device, and transitioning the internal state to update the internal state, State transition processing means for outputting the internal state after the transition; and internal state output from the state transition processing means, the knowledge in the knowledge description storage device and the utterance generation rule storage device Referring to the speech generation rule,
Inference processing means for inferring the content to be uttered in response to the dialogue in the current state, generating and outputting the intermediate language, and the inference processing with reference to the internal state in the internal state description storage device Data output processing means for converting the intermediate language of the content to be spoken in response to the information output from the means into output data of an intermediate language for requesting or providing information, and outputting the data; and an intermediate representing the content of the information request or providing information. With reference to an inverse conversion pattern model for inversely converting a language into a character string, the output data of the intermediate language representing the content of the information request or information provision output from the data output processing means corresponds to the intermediate language. Post-processing means for inverting the character string and outputting the same, and voice synthesizing means for synthesizing the character string output from the post-processing means and outputting the corresponding voice. To.

【0007】[0007]

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
Embodiments of the present invention will be described below with reference to the drawings.

【0008】図1は、本発明に係る一実施形態である対
話システムの構成を示すブロック図である。本実施形態
の対話システムは、発声される発声音声文の音声を文字
列に音声認識して、音声認識された文字列に応答して情
報収集のための対話における応答の発語内容の文字列を
生成した後、発語内容の文字列を音声合成して出力する
対話システムであって、(a)対話の進行とともに変化
する対話の状況を示す内部状態を格納する内部状態記述
メモリ31と、(b)一般の公理、推論規則及び、タス
ク依存の知識を含む知識を格納する知識記述メモリ33
と、(c)発話の順序に関する制約を示す発話生成規則
を格納する発話生成規則メモリ32と、(d)発声され
る発声音声文のデジタル音声信号を文字列に音声認識し
て出力する音声認識部3と、(e)上記音声認識部3に
よって音声認識された文字列を、パターンモデルメモリ
11内の所定の変換パターンモデルを参照して、情報要
求又は情報提供の内容を表す中間言語に変換して出力す
る前処理部4と、(f)上記前処理部4から出力される
情報要求又は情報提供の中間言語に基づいて、上記内部
状態記述メモリ31内の内部状態を参照して、内部状態
を遷移させてその内部状態を更新するとともに、遷移後
の内部状態を出力する状態遷移処理部21と、(g)上
記状態遷移処理部21から出力される内部状態に基づい
て、上記知識記述メモリ33内の知識と、上記発話生成
規則メモリ32内の発話生成規則とを参照して、現在の
状態に鑑みて当該対話において応答して発話すべき内容
を推論してその中間言語を生成して出力する推論処理部
22と、(h)上記推論処理部22から出力される応答
して発話すべき内容の中間言語に基づいて、上記内部状
態記述メモリ31内の内部状態を参照して、情報要求又
は情報提供の中間言語の出力データに変換して出力する
データ出力処理部23と、(i)上記データ出力処理部
23から出力される情報要求又は情報提供の中間言語の
出力データに基づいて、パターンモデルメモリ12内の
所定の逆変換パターンモデルを参照して、当該中間言語
に対応する文字列に逆変換して出力する後処理部6と、
(j)上記後処理部6から出力される文字列を音声合成
してそれに対応する音声を出力する音声合成部7とを備
えたことを特徴としている。
FIG. 1 is a block diagram showing the configuration of a dialogue system according to an embodiment of the present invention. The dialogue system of the present embodiment recognizes the voice of the uttered voice sentence to be uttered into a character string, and responds to the voice-recognized character string in response to the utterance content in the dialogue for information collection. Is generated, and then a speech string of the utterance content is synthesized and output, and (a) an internal state description memory 31 for storing an internal state indicating the state of the dialogue that changes as the dialogue progresses; (B) Knowledge description memory 33 for storing knowledge including general axioms, inference rules, and task-dependent knowledge
(C) an utterance generation rule memory 32 for storing utterance generation rules indicating restrictions on the order of utterances, and (d) voice recognition for recognizing and outputting a digital voice signal of an uttered voice sentence to be uttered as a character string. Unit 3 and (e) converting the character string speech-recognized by the speech recognition unit 3 into an intermediate language representing the contents of the information request or information provision with reference to a predetermined conversion pattern model in the pattern model memory 11. (F) referring to the internal state in the internal state description memory 31 based on the information request or the intermediate language of information provision output from the preprocessing section 4 and A state transition processing unit 21 that changes the state to update the internal state and outputs the internal state after the transition, and (g) the knowledge description based on the internal state output from the state transition processing unit 21 With reference to the knowledge in the memory 33 and the utterance generation rules in the utterance generation rule memory 32, in consideration of the current state, the contents to be uttered in response to the dialogue are inferred to generate the intermediate language. (H) referring to the internal state in the internal state description memory 31 based on the intermediate language of the content to be uttered in response to the content output from the inference processing section 22; A data output processing unit 23 that converts the data into output data of an information request or information provision intermediate language and outputs the converted data; and (i) based on the information request or information provision intermediate language output data output from the data output processing unit 23 A post-processing unit 6 that refers to a predetermined inverse conversion pattern model in the pattern model memory 12 and inversely converts the character string corresponding to the intermediate language and outputs the character string;
(J) a voice synthesizing unit 7 for voice synthesizing the character string output from the post-processing unit 6 and outputting a voice corresponding thereto.

【0009】本実施形態では、情報収集を目的とする対
話に対して、情報の授受に焦点をあてた対話モデルを開
示し、対話によってどのような情報が伝わり、何に影響
されどのようにして発話が生起するのかに注目して対話
システムを構築する。ここで、発話の生起を説明するた
めに「知らねばならない」という様相オペレータを導入
し、これを使って発話生成規則を記述する。発話は相手
の要求に対する情報提供として生起されるか、又は得ら
れた情報をもとに発話生成規則によって生起されるかの
いずれかである。この枠組みによって、情報要求側の発
話も情報提供側の発話も統一的に説明を与えることがで
きる。
In this embodiment, a dialogue model focusing on information exchange is disclosed for a dialogue for information collection, and what kind of information is conveyed by the dialogue, how it is influenced by what, and how it is influenced A dialogue system is constructed focusing on whether utterances occur. Here, in order to explain the occurrence of the utterance, a modal operator of "must know" is introduced, and the utterance generation rule is described using the operator. The utterance is either generated as information provision to the request of the other party, or is generated by an utterance generation rule based on the obtained information. With this framework, the utterance of the information requesting side and the utterance of the information providing side can be uniformly explained.

【0010】本実施形態では、内部状態を表現するため
に、次の3つの様相演算子を導入する。 (a)K(α,φ)−αがφを知っている (b)B(α,φ)−αがφを信じている (c)N(α,φ)−αがφを知る必要がある ここで、K、Bは心的状況を示すのに一般によく使われ
る演算子であり、公理系としてはそれぞれ様相論理の公
理系S4、KD45を持つことが知られている。これら
に加えて本実施形態ではNという演算子を導入する。N
は発話を引き起こす原因を記述するものであり、公理系
としては、KDに相当し、以下に詳述する。本実施形態
では、様相演算子を含まない式を事実(fact)と呼び、
様相演算子を含む心的状態を表す式と区別する。
In this embodiment, the following three modal operators are introduced to represent the internal state. (A) K (α, φ) -α knows φ. (B) B (α, φ) -α believes φ. (C) N (α, φ) -α needs to know φ. Here, K and B are operators commonly used to indicate a mental situation, and it is known that axiomatic systems have modal logic axiomatic systems S4 and KD45, respectively. In addition, in this embodiment, an operator N is introduced. N
Describes the cause of the utterance, and corresponds to KD as an axiomatic system, and will be described in detail below. In the present embodiment, an expression that does not include the modality operator is called a fact.
Distinguish from mental expressions that include modal operators.

【0011】標準命題様相論理の性質には以下のものが
あり、どの性質を公理として持つかによって体系が異な
る。ただし、Oは様相演算子を表す。
There are the following properties of the standard propositional modal logic, and the system differs depending on which property has an axiom. Here, O represents a modal operator.

【数1】Kc:O(α,φ→ψ)→(O(α,φ)→O
(α,ψ))
Kc: O (α, φ → ψ) → (O (α, φ) → O
(Α, ψ))

【数2】Tc:O(α,φ)→φTc: O (α, φ) → φ

【数3】Dc:O(α,φ)→¬O(α,¬φ)Dc: O (α, φ) → ¬O (α, ¬φ)

【数4】4:O(α,φ)→O(α,O(α,φ))## EQU4 ## 4: O (α, φ) → O (α, O (α, φ))

【数5】 5:¬O(α,¬φ)→O(α,¬O(α,¬φ))5: ¬O (α, ¬φ) → O (α, ¬O (α, ¬φ))

【0012】ここで、¬は否定を表し、以下同様であ
る。上記性質Kcは、Oが含意(→)のもとに閉じている
ことを表している。また、上記性質Tcは、反射律を表
している。さらに、上記性質Dcは、連鎖律を表してい
る。また、上記性質4は、推移律を表している。さら
に、上記性質5は、ユークリッド律を表している。性質
Kc、Dc、4を公理として持つ体系をS4、性質K
c、Dc、4、5の場合はKD45又はweak−S
5、性質Kc、Dcの場合はKDと呼ぶ。さらに、推論
規則は以下のように表すことができる。
Here, ¬ indicates negation, and so on. The property Kc indicates that O is closed under the implication (→). Further, the property Tc represents the reflection rule. Further, the property Dc represents a chain rule. In addition, the property 4 represents a transition law. Further, the property 5 represents the Euclidean rule. A system having properties Kc, Dc, and 4 as axioms is S4, property K
KD45 or weak-S for c, Dc, 4, 5
5. Properties Kc and Dc are called KD. Further, the inference rules can be expressed as:

【0013】[0013]

【数6】NEC:If|=φ then O(α,φ)NEC: If | = φ then O (α, φ)

【0014】上記推論規則(NEC)は、必然性の規則
を表しており、推論規則(NEC)はどの体系にも共通
である。
The above inference rules (NEC) represent inevitable rules, and the inference rules (NEC) are common to all systems.

【0015】次いで、対話モデルの記述言語について説
明する。発話は要求(request)と告知(inform)の2
種類で記述する。まず、発話はすべて相手に(少なくと
も文字上は)正しく伝わるものと仮定する。以下では、
対話は対話参加者αとβの二者の間で行なわれているも
のとする。ただし、本実施形態の対話システムでは、一
方の対話参加者は、デジタル計算機などの機械である。
Next, a description language of the conversation model will be described. Utterances are two types: request and inform.
Describe by type. First, it is assumed that all utterances are correctly (at least literally) transmitted to the other party. Below,
It is assumed that the dialogue is being conducted between the dialog participants α and β. However, in the dialogue system of the present embodiment, one of the dialogue participants is a machine such as a digital computer.

【0016】(1)情報要求−request(α,
β,P) (a)前条件:B(α,N(α,P))∧¬K(α,
P) (b)後条件:K(β,N(α,P)) この情報要求−request(α,β,P)は、もし
対話参加者αが事実Pを知る必要があるにもかかわらず
現在知らないのならば、αは相手の対話参加者βにPに
関する情報を要求し、その結果、βはαがPを知る必要
があることを知ることを表している。
(1) Information request—request (α,
β, P) (a) Precondition: B (α, N (α, P)) ∧¬K (α,
P) (b) Post-condition: K (β, N (α, P)) This information request—request (α, β, P) is used even if the dialog participant α needs to know the fact P. If not currently known, α requests information about P from the other conversation participant β, so that β indicates that α knows that P needs to know P.

【0017】(2)情報提供−inform(α,β,
P) (a)前条件:B(α,N(β,P))∧K(α,P) (b)後条件:K(β,K(α,P)) この情報提供−inform(α,β,P)は、もし対
話参加者βが事実Pを知る必要があると対話参加者αが
思っており、自分がその情報を知っていれば、αはβに
Pに関する情報を告知し、その結果、βはαがPを知っ
ていることを知ることを表している。このとき、公理に
より、K(β,P)も成り立つことに注意する。
(2) Information provision-inform (α, β,
P) (a) Precondition: B (α, N (β, P)) ∧K (α, P) (b) Postcondition: K (β, K (α, P)) Provide this information—inform (α) , Β, P), the dialogue participant α thinks that the dialogue participant β needs to know the fact P, and if he knows the information, α informs β of information about P. , And consequently, β indicates that α knows P. At this time, note that K (β, P) also holds according to the axiom.

【0018】次いで、タスク依存の知識について説明す
る。各対話参加者は一般の公理や推論規則に加えて、タ
スク依存の知識として背景知識及び発話生成規則を持
つ。
Next, the task-dependent knowledge will be described. Each participant has background knowledge and utterance generation rules as task-dependent knowledge in addition to general axioms and inference rules.

【0019】背景知識は次式で表される。The background knowledge is expressed by the following equation.

【数7】P1∧…∧Pn→Q1∧…∧Qm ただし、P1,…,Pn,Q1…Qmは事実である。例え
ば、ホテルの予約において、人数、日程、部屋のタイプ
が決まり、かつ条件を満たす部屋があいていれば予約は
達成されるという背景知識は、以下のように表される。
例1:背景知識
[Equation 7] P 1 ∧ ... ∧P n → Q 1 ∧ ... ∧Q m However, P 1, ..., P n , Q 1 ... Q m is a fact. For example, in a hotel reservation, the background knowledge that the number of people, the schedule, and the type of room are determined, and if there is a room that satisfies the conditions, the reservation is achieved is expressed as follows.
Example 1: Background knowledge

【数8】number∧dates∧roomtype
∧available→reserved
[Equation 8] number @ datas @ roomtype
∧available → reserved

【0020】次いで、発話生成規則について説明する。
一般に、対話者は相手に与える情報を最初から持ってい
たとしても、その情報をいつ与えてもよいわけではな
い。例えば、ホテル予約の場面において、客はまず予約
の意志を伝えてから部屋のタイプや日程に関する情報を
与えるだろうし、ホテル側は希望の部屋がとれて初めて
支払い方法や到着時間についての問いを発するのが普通
だろう。このような発話の順序に対する制約を、発話生
成規則として以下のように記述する。
Next, the utterance generation rules will be described.
In general, even if the interlocutor has the information to be given to the other party from the beginning, it does not mean that the information can be given at any time. For example, in the case of a hotel reservation, the customer would first tell the will of the reservation and then give information about the room type and schedule, and the hotel would only ask about the payment method and arrival time when the desired room was taken. That would be normal. Such restrictions on the order of utterances are described as utterance generation rules as follows.

【0021】[0021]

【数9】K(α,P1)∧…∧K(α,Pn)→B(α,
N(α1,Q1))∧…∧B(α,N(αm,Qm)) ただし、P1,…,Pn,Q1,…,Qmは事実、αi(i
=1,…,m)はα又はβである。
K (α, P 1 ) ∧... ∧K (α, P n ) → B (α,
N (α 1, Q 1) ) ∧ ... ∧B (α, N (α m, Q m)) However, P 1, ..., P n , Q 1, ..., Q m fact, α i (i
= 1,..., M) is α or β.

【0022】この式は、対話参加者αがP1,…,Pn
知れば、今度は対話参加者αi(i=1,…,m)がQi
を知る必要があることを示す。各発話生成規則は一つの
対話に対し高々1回適用される。
If the dialog participant α knows P 1 ,..., P n , then the dialog participant α i (i = 1 ,.
Indicates that you need to know Each utterance generation rule is applied at most once for one dialog.

【0023】例えば、ホテルフロント(cで表す)は、
宿泊の要求(DesRes)を知れば、希望の人数、日
程、部屋のタイプを知る必要がある、という知識は以下
のように表される。
For example, a hotel front (represented by c)
The knowledge that it is necessary to know the desired number of people, the schedule, and the type of room if the accommodation request (DesRes) is known is expressed as follows.

【0024】例2:発話生成規則Example 2: Utterance generation rule

【数10】K(c,DesRes)→B(c,N(c,
number))∧B(c,N(c,dates))∧
B(c,N(c,roomType))
## EQU10 ## K (c, DesRes) → B (c, N (c,
number)) {B (c, N (c, dates))}
B (c, N (c, roomType))

【0025】さらに、状態遷移における内部状態につい
て説明する。各対話参加者は対話の進行とともに変化す
る内部状態を持つ。内部状態はその時点における知識と
信念の集合になっており、各要素はK(α,φ)、B
(α,φ)のいずれかの形で表現される。ただし、αは
対話参加者、φは事実又は様相演算子を含む式である。
発話ui(i=1,…,n)によって内部状態はSi-1
らSiへ遷移する。すると、対話は以下のような内部状
態の有限列に相当する。
Further, the internal state in the state transition will be described. Each conversation participant has an internal state that changes as the conversation progresses. The internal state is a set of knowledge and beliefs at that time, and each element is K (α, φ), B
(Α, φ). Here, α is a dialog participant, and φ is an expression including a fact or modality operator.
The internal state transits from S i -1 to S i according to the utterance u i (i = 1,..., N). Then, the dialogue is equivalent to the following finite sequence of internal states.

【0026】[0026]

【数11】u12n0⇒S1⇒…⇒Sn [Number 11] u 1 u 2 u n S 0 ⇒S 1 ⇒ ... ⇒S n

【0027】初期状態は次式で表される。The initial state is represented by the following equation.

【数12】 S0={K(a,P1),…,K(a,Pn), K(b,Q1),…,K(b,Qm), K(a,N(α,P))}S 0 = {K (a, P 1 ), ..., K (a, P n ), K (b, Q 1 ), ..., K (b, Q m ), K (a, N ( α, P))}

【0028】ここで、aは情報収集意図を持つ対話参加
者、bはその相手であり、P1,…,Pn,Q1,…,
m,Pは事実である。αはa又はbである。すなわ
ち、a、bの知識をすべて記述し、さらにαがPを知る
必要があることをaが知っているということを記述した
内部状態から対話が始まる。最初の発話はinform
(a,b,P)又はrequest(a,b,P)にな
る。
Here, a is a participant in the dialogue with the intention of collecting information, b is its partner, and P 1 ,..., P n , Q 1 ,.
Q m and P are facts. α is a or b. That is, the dialogue starts from an internal state that describes all the knowledge of a and b, and further describes that a knows that α needs to know P. The first utterance is inform
(A, b, P) or request (a, b, P).

【0029】対話におけるゴール(すなわち、情報収集
意図により最終状態で成り立つべき式をいう。)はK
(a,P)と表される。ただし、aは情報収集意図を持
つ対話参加者、Pは獲得したい情報である。本実施形態
において、あるα1,…,αm∈Snに対して、 1.¬(α1,…,αm→false) 2.α1∧…∧αm→K(a,P) ならば、「対話は成功した」と定義する
The goal in the dialogue (that is, the expression that should be satisfied in the final state due to the purpose of collecting information) is K
(A, P). Here, a is a dialogue participant having an information collection intention, and P is information to be acquired. In the present embodiment, for certain α 1 ,..., Α m ∈S n , ¬ (α 1 ,..., Α m → false) If α 1 ∧… ∧α m → K (a, P), define the dialogue as “successful”

【0030】さらに、状態遷移の仕組みについて説明す
る。発話はinform(α,β,P)又はreque
st(α,β,P)の形をしている。状態Si-1で各対
話参加者がある発話を入力として受け取ると、以下の操
作に従ってSiへの状態遷移が起こる。 (a)request(α,β,P)による遷移
Further, the mechanism of the state transition will be described. Utterance is inform (α, β, P) or request
It has the form st (α, β, P). Upon receiving the utterance in the state S i-1 is the interactive participants as an input, state transition to S i occurs according to the following procedure. (A) Transition by request (α, β, P)

【数13】 (b)inform(α,β,P)による遷移(Equation 13) (B) Transition by inform (α, β, P)

【数14】 if B(α,N(β,P)),K(α,P)∈Si-1 then Si=Si-1−{B(α,N(β,P))}∪{K(β,
K(α,P))}∪{K(β,P)}
Equation 14] if B (α, N (β , P)), K (α, P) ∈S i-1 then S i = S i-1 - {B (α, N (β, P))} ∪ {K (β,
K (α, P)) {K (β, P)}

【0031】Siでは、背景知識に基づく推論、発話生
成規則による推論が続いて行われ、次発話として出力さ
れる。以上が本実施形態における応答すべき発話生成処
理の枠組みである。
In S i , the inference based on the background knowledge and the inference based on the utterance generation rule are subsequently performed, and are output as the next utterance. The above is the framework of the utterance generation process to be responded in the present embodiment.

【0032】次いで、図1を参照して、本実施形態の対
話システムの構成及び動作について説明する。図1にお
いて、対話参加者(人間)100が発声する音声はマイ
クロホン1に入力されてアナログ音声信号(電気信号)
に変換された後、A/D変換器2によりデジタル音声信
号にA/D変換されて音声認識部3に入力される。音声
認識部3は、入力されるデジタル音声信号を例えばLP
C法により音声分析して、音響的特徴パラメータを抽出
した後、上記抽出した音響的特徴パラメータに基づい
て、隠れマルコフモデル(HMM)や統計的言語モデル
を参照して、公知の音声認識方法を用いて、上記音声を
音声認識して、文字列のテキストデータに変換し、前処
理部4に出力する。
Next, the configuration and operation of the interactive system according to the present embodiment will be described with reference to FIG. In FIG. 1, a voice uttered by a dialog participant (human) 100 is input to a microphone 1 and is converted into an analog voice signal (electric signal).
After that, the digital audio signal is A / D converted by the A / D converter 2 and input to the voice recognition unit 3. The voice recognition unit 3 converts the input digital voice signal into, for example, LP
After performing speech analysis by the C method and extracting acoustic feature parameters, a known speech recognition method is performed by referring to a hidden Markov model (HMM) or a statistical language model based on the extracted acoustic feature parameters. Then, the speech is recognized, converted into text data of a character string, and output to the preprocessing unit 4.

【0033】前処理部4には、文字列を情報要求又は情
報提供の中間言語に変換するためのパターンモデルを予
め記憶するパターンモデルメモリ11が接続され、前処
理部4は、入力される文字列に基づいて、パターンモデ
ルメモリ11に記憶されたパターンモデルを参照して、
上記記述言語で記述された情報要求又は情報提供の中間
言語に変換して発話生成処理部5に出力する。次の表
に、前処理部4のためのパターンモデルメモリ11にお
けるパターンモデル例を示す。このパターンモデル例で
は、変換元の文字列、変換後の中間言語、及び本実施形
態で説明する一例の番号(例がある場合のみ)を示して
いる。
The pre-processing unit 4 is connected to a pattern model memory 11 for storing in advance a pattern model for converting a character string into an intermediate language for requesting information or providing information. Referring to the pattern model stored in the pattern model memory 11 based on the column,
It is converted into an information request or an information provision intermediate language described in the above description language and output to the utterance generation processing unit 5. The following table shows an example of a pattern model in the pattern model memory 11 for the preprocessing unit 4. In this example of the pattern model, the character string of the conversion source, the intermediate language after the conversion, and the example number described in the present embodiment (only when there is an example) are shown.

【0034】[0034]

【表1】 前処理部4のためのパターンモデルメモリ11における パターンモデル例 ―――――――――――――――――――――――――――――――――― (a)はい、何名様でございますでしょうか。; request(c,g,nbr);(例3) ―――――――――――――――――――――――――――――――――― (b)かしこまりました。では、お名前をちょうだいできますか。; request(c,g,name) ―――――――――――――――――――――――――――――――――― (c)九月の十一日の日曜日、一泊お願いします。;inform(g,c,d ates) ―――――――――――――――――――――――――――――――――― (d)はい、それで結構です。; inform(g,c,fix);(例4) ―――――――――――――――――――――――――――――――――― (e)八月の十三日の土曜日から、十五日までの三日間でお願いします。 ;inform(g,c,dates);(例5) ―――――――――――――――――――――――――――――――――― (f)滞在先はホテルニューオータニロサンゼルス602号室。電話番号は、2 13,443,1700。; inform(g,c,ad),inform(g,c,tel);(例6) ――――――――――――――――――――――――――――――――――[Table 1] Example of a pattern model in the pattern model memory 11 for the preprocessing unit 4 ――――――――――――――――――――――――――――― ――― (a) Yes, how many people are there? Request (c, g, nbr); (Example 3) ―――――――――――――――――――――――――――――――――― (b )Understood. So can you give me your name? Request (c, g, name) ―――――――――――――――――――――――――――――――――― (c) September of September I would like one night on one Sunday. ; Inform (g, c, dates) ―――――――――――――――――――――――――――――――――― (d) Yes, so No thank you. ; Inform (g, c, fix); (Example 4) ―――――――――――――――――――――――――――――――― (e ) Please take three days from Saturday, August 13, to the 15th. ; Form (g, c, dates); (Example 5) ―――――――――――――――――――――――――――――――――― (f ) I am staying at Hotel New Otani Los Angeles Room 602. The telephone number is 213,443,1700. Inform (g, c, ad), inform (g, c, tel); (Example 6) ――――――――――――――――――――――――――― ―――――――

【0035】発話生成処理部5は、状態遷移処理部21
と、推論処理部22と、データ出力処理部23とから構
成され、状態遷移処理部21及びデータ出力処理部23
には、内部状態記述メモリ31が接続され、推論処理部
22には発話生成規則メモリ32及び知識記述メモリ3
3が接続される。
The utterance generation processing unit 5 includes a state transition processing unit 21
, An inference processing unit 22, and a data output processing unit 23, and the state transition processing unit 21 and the data output processing unit 23.
Is connected to an internal state description memory 31, and the inference processing unit 22 includes an utterance generation rule memory 32 and a knowledge description memory 3.
3 are connected.

【0036】ここで、内部状態記述メモリ31は、その
時点における知識と信念の集合を記憶しており、各対話
参加者に対して、対話の進行とともに変化する対話の状
況を示す内部状態を格納する。次の表に、内部状態記述
メモリ31における内部状態の記述例を示す。この内部
状態の記述例では、上述の演算子K,Bを用いて記述し
ており、各例の最後に本実施形態で説明する一例の番号
を示している。
Here, the internal state description memory 31 stores a set of knowledge and beliefs at that time, and stores, for each dialogue participant, an internal state indicating the state of the dialogue that changes as the dialogue progresses. I do. The following table shows a description example of the internal state in the internal state description memory 31. In the description example of the internal state, the above-described operators K and B are used, and the numbers of the examples described in the present embodiment are shown at the end of each example.

【0037】[0037]

【表2】 内部状態記述メモリ31における内部状態の記述例 ―――――――――――――――――――――――――――――――――― (a)B(c,N(c,nbr)) (例3) ―――――――――――――――――――――――――――――――――― (b)K(g,N(c,nbr)) (例3) ―――――――――――――――――――――――――――――――――― (c)K(c,K(g,nbr)) (例3) ―――――――――――――――――――――――――――――――――― (d)B(g,N(c,fix)),K(g,fix) (例4) ―――――――――――――――――――――――――――――――――― (e)K(c,K(g,fix)),K(c,fix),B(c,N(c,na me)),B(c,N(c,pay)),K(g,fix) (例4) ―――――――――――――――――――――――――――――――――― (f)B(g,N(c,ad)),B(g,ad),B(g,N(c,tel) ),B(g,tel) (例6) ―――――――――――――――――――――――――――――――――― (g)B(c,B(g,ad)),B(c,ad),B(c,B(g,tel’ )),B(c,tel’), B(c,N(g,ad)),B(g,ad),B(c,N(g,tel’)), B(g,tel) (例6) ―――――――――――――――――――――――――――――――――― (h)B(g,B(c,ad)),B(g,ad),B(c,ad),B(g, B(c,tel”)),B(g,tel),B(g,tel”) (例6) ――――――――――――――――――――――――――――――――――[Table 2] Description example of internal state in internal state description memory 31 ―――――――――――――――――――――――――――――――――― a) B (c, N (c, nbr)) (Example 3) ――――――――――――――――――――――――――――――― ― (B) K (g, N (c, nbr)) (Example 3) ――――――――――――――――――――――――――――――― ――― (c) K (c, K (g, nbr)) (Example 3) ――――――――――――――――――――――――――― ――――― (d) B (g, N (c, fix)), K (g, fix) (Example 4) ――――――――――――――――――― ―――――――――――――― (e) K (c, K (g, fix)), K (c, fix), B (c, N (c, name)), B (C, N (c, pay)), K (g, fix) (Example 4) ――――――――――――――――――――――――――――― ――――― (f) B (g, N (c, ad)), B (g, ad), B (g, N (c, tel)), B (g, tel) (Example 6) ― ――――――――――――――――――――――――――――――― (g) B (c, B (g, ad)), B ( c, ad), B (c, B (g, tel ')), B (c, tel'), B (c, N (g, ad)), B (g, ad), B (c, N) (G, tel ')), B (g, tel) (Example 6) ―――――――――――――――――――――――――――――――― -(H) B (g, B (c, ad)), B (g, ad), B (c, ad), B (g, B (c, tel ")), B (g, tel) , B (g, tel ") (Example 6) ----------------------------------

【0038】また、知識記述メモリ33は、一般の公
理、推論規則に加え、タスク依存の知識を記述して記憶
している。次の表に、知識記述メモリ33における知識
記述例を示す。ここでは、各例毎に、説明を加える。
The knowledge description memory 33 describes and stores task-dependent knowledge in addition to general axioms and inference rules. The following table shows an example of knowledge description in the knowledge description memory 33. Here, an explanation will be added for each example.

【0039】[0039]

【表3】 知識記述メモリ33における知識記述例 ―――――――――――――――――――――――――――――――――― (a)B(α,φ→ψ)→(B(α,φ)→B(α,ψ)) (Bの公理) (説明)Bは含意のもとに閉じている。 ―――――――――――――――――――――――――――――――――― (b)N(α,φ→ψ)→(N(α,φ)→N(α,ψ))(Nの公理) (説明)Nは含意のもとに閉じている。 ―――――――――――――――――――――――――――――――――― (c)K(α,φ)→φ(Kの公理) (説明)αは真であることのみ知っている。 ―――――――――――――――――――――――――――――――――― (d)number∧dates∧roomtype∧available →reserved(例1) (説明)上述の背景知識を参照。 ホテルの予約において、人数、日程、部屋のタイプが決まり、かつ条件を満たす 部屋があいていれば予約は達成される。 ―――――――――――――――――――――――――――――――――― (e)three∧cheep→extraBed (説明)3人で安い部屋ならばエクストラベッドをいれる。 ―――――――――――――――――――――――――――――――――― (f)single∧double→false (説明)部屋のタイプはシングルかつダブルになることはない。 ――――――――――――――――――――――――――――――――――[Table 3] Example of knowledge description in knowledge description memory 33 ―――――――――――――――――――――――――――――――― (a) B (Α, φ → ψ) → (B (α, φ) → B (α, ψ)) (Axiom of B) (Explanation) B is closed under implication. ―――――――――――――――――――――――――――――――――― (b) N (α, φ → ψ) → (N (α , Φ) → N (α, ψ)) (Axiom of N) (Explanation) N is closed under implication. ―――――――――――――――――――――――――――――――――― (c) K (α, φ) → φ (K axiom) (Explanation) We only know that α is true. ―――――――――――――――――――――――――――――――――― (d) number∧datas∧roomtype∧available → reserved (Example 1) (Description) See Background Knowledge above. When booking a hotel, the reservation is achieved if the number of people, the schedule, the type of room are determined, and there are rooms that meet the conditions. ―――――――――――――――――――――――――――――――――― (e) tree @ check → extraBed (Explanation) Cheap room with 3 people Then put in an extra bed. ―――――――――――――――――――――――――――――――――― (f) single → double → false (Description) Room type is single And never double. ――――――――――――――――――――――――――――――――――

【0040】また、発話生成規則メモリ32は、発話の
順序に関する制約を示す発話生成規則を予め記憶する。
ここでは、「ある(複数の)事実を知れば、自分は特定
の(複数の)事実を知らねばならない」、あるいは、
「ある(複数の)事実を知れば、相手は特定の(複数
の)事実を知らねばならない」という形で記述される。
ただし、弱いモデルの場合は「知っている」が「信じて
いる」になる。以下で(f)は弱いモデルにおける例で
ある。ここで、弱いモデルとは発話が正しく伝わらない
可能性のある対話に対するモデルのことである。次の表
に、発話生成規則メモリ32における発話生成規則例を
示す。ここでは、各例毎に説明を加える。
The utterance generation rule memory 32 stores in advance utterance generation rules indicating restrictions on the order of utterances.
Here, "if you know a fact (s), you must know a particular fact (s)", or
It is described in the form of "if one knows one or more facts, the other party has to know a particular fact (s)".
However, in the case of a weak model, "know" becomes "believe". Hereinafter, (f) is an example in a weak model. Here, the weak model is a model for a dialogue in which the utterance may not be transmitted correctly. The following table shows an example of an utterance generation rule in the utterance generation rule memory 32. Here, an explanation will be added for each example.

【0041】[0041]

【表4】 発話生成規則メモリ32における発話生成規則例 ―――――――――――――――――――――――――――――――――― (a)K(c,DesRes)→B(c,N(c,number))∧ B(c,N(c,dates))∧B(c,N(c,roomType)) (説明)(例2) ホテルフロント(cで表す)は、宿泊の要求(DesRes)を知れば、希望の 人数、日程、部屋のタイプを知る必要がある。 ―――――――――――――――――――――――――――――――――― (b)K(c,fix)→B(c,N(c,name))∧B(c,N(c,p ay)) (説明)(例4) 予約が確定するとホテル側は相手の名前や支払い方法を尋ねる。 ―――――――――――――――――――――――――――――――――― (c)K(g,breakfast)→B(g,N(c,bfType)) (説明)客(gで表す)は朝食がついていることを知れば、ホテル側は朝食の希 望のタイプを知らねばならないと思う。 ―――――――――――――――――――――――――――――――――― (d)K(c,roomType)∧K(c,notAvailable) →B(c,N(g,notAvailable)) ∧B(c,N(g,roomType’)) (説明)ホテル側は希望の部屋のタイプを知りかつそのタイプに空室がなければ 、客はそのことを知るとともに別のタイプの部屋のあることを知らねばならない と思う。 ―――――――――――――――――――――――――――――――――― (e)K(c,dates)→B(c,N(g,dates)) (説明)(例4) ホテル側は日程を知れば、客は(確認の為)それを知るべきだと思う。 ―――――――――――――――――――――――――――――――――― (f)B(c,ad)→B(c,N(g,ad)) (説明)(例6) ホテル側は連絡先を知れば(信じれば)、客は(確認の為)それを知るべきだと 思う。 ――――――――――――――――――――――――――――――――――[Table 4] Example of utterance generation rules in utterance generation rule memory 32 ―――――――――――――――――――――――――――――――― ) K (c, DesRes) → B (c, N (c, number)) ∧B (c, N (c, dates)) ∧B (c, N (c, roomType)) (Explanation) (Example 2) The hotel front desk (represented by c) needs to know the desired number of people, the schedule, and the type of room once the accommodation request (DesRes) is known. ―――――――――――――――――――――――――――――――― (b) K (c, fix) → B (c, N ( (c, name)) @ B (c, N (c, pay)) (Explanation) (Example 4) When the reservation is confirmed, the hotel asks for the name and payment method of the partner. ―――――――――――――――――――――――――――――――――― (c) K (g, breakfast) → B (g, N ( c, bfType)) (Explanation) If the guest (represented by g) knows that breakfast is included, I think that the hotel should know the type of breakfast desired. ―――――――――――――――――――――――――――――――――― (d) K (c, roomType) ∧K (c, notAvailable) → B (c, N (g, notAvailable)) ∧B (c, N (g, roomType ')) (Description) If the hotel knows the type of room desired and there is no vacancy in that type, the customer I need to know that and know that there is another type of room. ―――――――――――――――――――――――――――――――――― (e) K (c, dates) → B (c, N ( g, dates)) (Explanation) (Example 4) If the hotel knows the schedule, the guest should know it (for confirmation). ―――――――――――――――――――――――――――――――――― (f) B (c, ad) → B (c, N ( g, ad)) (Explanation) (Example 6) If the hotel side knows the contact information (if they believe it), the guest should know it (for confirmation). ――――――――――――――――――――――――――――――――――

【0042】従って、発話生成処理部5では、状態遷移
処理部21は、まず、前処理部4から入力される情報要
求又は情報提供の中間言語に基づいて、内部状態記述メ
モリ31内の内部状態を参照して、内部状態を遷移させ
て内部状態記述メモリ31内の内部状態を更新するとと
もに、遷移後の内部状態を推論処理部22に出力する。
次いで、推論処理部22は、入力される内部状態に基づ
いて、知識記述メモリ33内の知識と、発話生成規則メ
モリ32内の発話生成規則とを参照して、現在の状態に
鑑みて当該対話において応答して発話すべき内容を推論
してその中間言語を生成してデータ出力処理部23に出
力する。さらに、これに応答して、データ出力処理部2
3は、入力される発話すべき内容の中間言語に基づい
て、内部状態記述メモリ31内の内部状態を参照して、
情報要求又は情報提供の中間言語の出力データに変換し
て後処理部6に出力する。
Accordingly, in the utterance generation processing unit 5, the state transition processing unit 21 firstly determines the internal state in the internal state description memory 31 based on the information request or the intermediate language of information provision input from the preprocessing unit 4. , The internal state is transited to update the internal state in the internal state description memory 31, and the internal state after the transition is output to the inference processing unit 22.
Next, the inference processing unit 22 refers to the knowledge in the knowledge description memory 33 and the utterance generation rule in the utterance generation rule memory 32 based on the input internal state, and considers the dialogue in consideration of the current state. In response, the contents to be uttered are inferred, the intermediate language is generated, and output to the data output processing unit 23. Further, in response to this, the data output processing unit 2
3 refers to the internal state in the internal state description memory 31 based on the intermediate language of the content to be uttered,
The data is converted into output data in an intermediate language for information request or information provision and output to the post-processing unit 6.

【0043】後処理部6には、発話生成処理部5のデー
タ出力処理部23から入力される、情報要求又は情報提
供の中間言語を文字列のテキストデータに逆変換するた
めのパターンモデルを予め記憶するパターンモデルメモ
リ12が接続され、後処理部6は、入力される情報要求
又は情報提供の中間言語に基づいて、パターンモデルメ
モリ12に記憶されたパターンモデルを参照して、上記
記述言語で記述された情報要求又は情報提供の中間言語
からそれに対応する文字列のテキストデータに逆変換し
て音声合成部7に出力する。次の表に、後処理部6のた
めのパターンモデルメモリ12におけるパターンモデル
例を示す。このパターンモデル例では、変換元の中間言
語、変換後の文字列、及び本実施形態で説明する一例の
番号(例がある場合)を示している。
The post-processing unit 6 stores in advance a pattern model for inversely converting an intermediate language for information request or information provision, which is input from the data output processing unit 23 of the utterance generation processing unit 5, into text data of a character string. The pattern model memory 12 to be stored is connected, and the post-processing unit 6 refers to the pattern model stored in the pattern model memory 12 based on an input information request or an intermediate language for providing information, and The described information request or the intermediate language of information provision is inversely converted into text data of a character string corresponding thereto and output to the speech synthesis unit 7. The following table shows an example of a pattern model in the pattern model memory 12 for the post-processing unit 6. In this example of the pattern model, a conversion source intermediate language, a character string after conversion, and an example number (if any) described in the present embodiment are shown.

【0044】[0044]

【表5】 後処理部6のためのパターンモデルメモリ12における パターンモデル例 ―――――――――――――――――――――――――――――――――― (a)大人二名でお願いします。; inform(g,c,nbr);(例3) ―――――――――――――――――――――――――――――――――― (b)はい、エイミー・ハリスと申します。; inform(g,c,name) ―――――――――――――――――――――――――――――――――― (c)はい、何名様でございますでしょうか。; request(c,g,nbr) ―――――――――――――――――――――――――――――――――― (d)かしこまりました。では、お名前をちょうだいできますか。; request(c,g,name)(例4) ―――――――――――――――――――――――――――――――――― (e)はい、八月十三日にチェックインされて、二泊お泊まりになられるという ことですね。; inform(c,g,dates)(例5) ―――――――――――――――――――――――――――――――――― (f)はい、鈴木様、ニューオータニホテルの602号室に御滞在中ですね。そ して、そちらのお電話番号が、714,443,1700でございますね。; inform(c,g,ad’),inform(c,g,tel’)(例6) ――――――――――――――――――――――――――――――――――[Table 5] Example of pattern model in pattern model memory 12 for post-processing unit 6 ――――――――――――――――――――――――――――― --- (a) I would like two adults. Inform (g, c, nbr); (Example 3) ―――――――――――――――――――――――――――――――― (b Yes, my name is Amy Harris. Inform (g, c, name) ―――――――――――――――――――――――――――――――――― (c) Yes, how many people Is it? Request (c, g, nbr) ―――――――――――――――――――――――――――――――― (d) I was smart. So can you give me your name? Request (c, g, name) (Example 4) ―――――――――――――――――――――――――――――――――― (e) Yes, you will be checked in on August 13 and staying for two nights. ; Inform (c, g, dates) (Example 5) ―――――――――――――――――――――――――――――――― (f) Yes, Mr. Suzuki is staying in Room 602 of the New Otani Hotel. And your phone number is 714,443,1700. ; Inform (c, g, ad '), inform (c, g, tel') (Example 6) ―――――――――――――――――――――――――― ――――――――

【0045】音声合成部7は、パルス発生器と雑音発生
器と利得可変型増幅器とフィルタとを備えて、有声と無
声とに基づいて、パルス発生器からのパルス信号と、雑
音発生器からの雑音とを切り換えた後、合成音声の振幅
に応じて増幅器の利得を変化するとともに、合成音声に
応じてフィルタ係数を変化するという公知の音声合成方
法を用いて、入力された文字列のテキストデータをデジ
タル音声信号に変換して、D/A変換器8に出力する。
これに応答して、D/A変換器8は、入力されたデジタ
ル音声信号をアナログ音声信号にD/A変換してスピー
カ9を介して合成音声として出力する。
The speech synthesizer 7 includes a pulse generator, a noise generator, a variable gain amplifier, and a filter, and based on voiced and unvoiced, a pulse signal from the pulse generator and a signal from the noise generator. After switching between the noise and the noise, the text data of the input character string is changed using a known speech synthesis method in which the gain of the amplifier is changed according to the amplitude of the synthesized speech and the filter coefficient is changed according to the synthesized speech. Is converted into a digital audio signal and output to the D / A converter 8.
In response, the D / A converter 8 D / A converts the input digital audio signal into an analog audio signal and outputs it as a synthesized audio via the speaker 9.

【0046】以上のように構成された対話システムにお
いて、A/D変換器2、音声認識部3、前処理部4、状
態遷移処理部21と推論処理部22とデータ出力処理部
23とを備えた発話生成処理部5、後処理部6、音声合
成部7及びD/A変換器8は、例えばデジタル計算機で
構成され、パターンモデルメモリ11,12、内部状態
記述メモリ31、発話生成規則メモリ32、及び知識記
述メモリ33は、例えば、ハードディスクメモリなどの
記憶装置で構成される。
The interactive system configured as described above includes an A / D converter 2, a speech recognition unit 3, a preprocessing unit 4, a state transition processing unit 21, an inference processing unit 22, and a data output processing unit 23. The utterance generation processing unit 5, the post-processing unit 6, the speech synthesis unit 7, and the D / A converter 8 are constituted by, for example, digital computers, and include pattern model memories 11, 12, an internal state description memory 31, and an utterance generation rule memory 32. , And the knowledge description memory 33 are configured by a storage device such as a hard disk memory.

【0047】本実施形態で用いるシステム動作例を次の
表に示す。以下の例で(f)は弱いモデルに対する動作
例である。各例における入出力はそれぞれ、上述の前処
理及び後処理の例に対応する。
The following table shows an example of the system operation used in this embodiment. In the following example, (f) is an operation example for a weak model. The inputs and outputs in each example correspond to the examples of the pre-processing and post-processing described above, respectively.

【0048】[0048]

【表6】 システム動作例 ―――――――――――――――――――――――――――――――――― (a)質疑応答(例3) request(c,g,nbr) ↓状態遷移 K(g,N(c,nbr)) ↓推論 B(g,N(c,nbr))∧K(g,nbr) ↓出力 inform(g,c,nbr) ―――――――――――――――――――――――――――――――――― (b)質疑応答(例4の直後の対話) request(c,g,name) ↓状態遷移 K(g,N(c,name)) ↓推論 B(g,N(c,name))∧K(g,name) ↓出力 inform(g,c,name) ―――――――――――――――――――――――――――――――――― (c)話題の遷移(例3の直前の対話) inform(g,c,dates) ↓状態遷移 K(c,K(g,dates)) ↓発話生成 B(c,N(c,nbr)) ↓推論 B(c,N(c,nbr))∧¬K(c,nbr) ↓出力 request(c,g,nbr) ―――――――――――――――――――――――――――――――――― (d)話題の遷移(例4) inform(g,c,fix) ↓状態遷移 K(c,K(g,fix)) ↓推論 K(c,fix) ↓発話生成 B(c,N(c,name))∧B(c,N(c,pay)) ↓推論 B(c,N(c,name))∧B(c,N(c,pay))∧ ¬K(c,name)∧¬K(c,pay) ↓出力 request(c,g,name) ―――――――――――――――――――――――――――――――――― (e)確認(例5) inform(g,c,dates) ↓状態遷移 K(c,K(g,dates)) ↓推論 K(g,dates)∧K(c,dates) ↓発話生成 B(c,N(g,dates))∧K(c,dates) ↓出力 inform(c,g,dates) ―――――――――――――――――――――――――――――――――― (f)確認(例6) inform(g,c,ad),inform(g,c,tel) ↓状態遷移 B(c,B(g,ad))∧B(c,ad)∧B(c,B(g,tel’))∧ B(c,tel’) ↓発話生成 B(c,N(g,ad))∧B(c,ad)∧B(c,N(g,tel’))∧ B(c,tel’) ↓出力 inform(c,g,ad),inform(c,g,tel’) ――――――――――――――――――――――――――――――――――[Table 6] System operation example ―――――――――――――――――――――――――――――――― (a) Q & A (Example 3) request (c, g, nbr) ↓ State transition K (g, N (c, nbr)) ↓ Inference B (g, N (c, nbr)) ∧ K (g, nbr) ↓ Output inform (g, c, (nbr) ―――――――――――――――――――――――――――――――― (b) Q & A (dialogue immediately after Example 4) request (C, g, name) ↓ State transition K (g, N (c, name)) ↓ Inference B (g, N (c, name)) ∧ K (g, name) ↓ Output inform (g, c, name) ) ―――――――――――――――――――――――――――――――――― (c) Topic transition (dialogue just before Example 3) (G , C, data) ↓ State transition K (c, K (g, data)) ↓ Utterance generation B (c, N (c, nbr)) ↓ Inference B (c, N (c, nbr)) ∧¬ K ( c, nbr) ↓ Output request (c, g, nbr) ―――――――――――――――――――――――――――――― (d ) Topic transition (Example 4) inform (g, c, fix) ↓ State transition K (c, K (g, fix)) ↓ Inference K (c, fix) ↓ Utterance generation B (c, N (c, name) )) ∧B (c, N (c, pay)) ↓ Inference B (c, N (c, pay)) ∧B (c, N (c, pay)) ∧ ¬K (c, name) ∧¬K (C, pay) ↓ Output request (c, g, name) ―――――――――――――――――――――――――――――――― ( e) Confirmation Example 5) inform (g, c, data) ↓ state transition K (c, K (g, data)) ↓ inference K (g, data) ∧ K (c, data) ↓ utterance generation B (c, N (g) , Dates)) ∧K (c, dates) ↓ Output inform (c, g, dates) ――――――――――――――――――――――――――――― ――――― (f) Confirmation (Example 6) inform (g, c, ad), inform (g, c, tel) ↓ state transition B (c, B (g, ad)) ∧ B (c, ad) ) ∧B (c, B (g, tel ′)) ∧B (c, tel ′) ↓ Utterance generation B (c, N (g, ad)) ∧B (c, ad) ∧B (c, N ( g, tel ')) ∧ B (c, tel') ↓ Output inform (c, g, ad), inform (c, g, tel ') ――― ------------------------------

【0049】さらに、以上のように構成された対話シス
テムの発話生成処理部5における動作例について詳述す
る。発話生成処理部5では、入力される情報要求又は情
報提供の中間言語に基づいて、発話生成処理部5の処理
フローに沿って、状態遷移、推論、出力データの3つの
処理が実行されて、対話において発話すべきことばに対
応する情報要求又は情報提供の中間言語を生成する。
Further, an example of the operation of the utterance generation processing section 5 of the interactive system configured as described above will be described in detail. In the utterance generation processing unit 5, three processes of state transition, inference, and output data are executed along the processing flow of the utterance generation processing unit 5 based on the input information request or the intermediate language of information provision. An intermediate language for requesting or providing information corresponding to words to be spoken in a dialog is generated.

【0050】まず、典型的な質疑応答について説明す
る。request(α,β,P)によってK(β,N
(α,P))が生じる。推論によりB(β,N(α,
P))が導かれる。その時点で内部状態にK(β,P)
があれば情報提供の前条件が成立し、inform
(β,α,P)が引き起こされる。次の例は、ホテルの
予約場面でのホテルフロントと客の対話であり(本実施
形態で使った例はすべて、本特許出願人が所有する旅行
対話のためのコーパスからとったものである。)、客
(guest)をg,ホテルフロント(clerk)をcで表す。
ホテル予約対話では通常客は宿泊日程や希望する部屋の
タイプ、料金などを知識として持っており、フロントと
の対話でそれらを順に伝え、最終的に「希望条件で予約
された」ということを知る。
First, a typical question and answer will be described. request (α, β, P) gives K (β, N
(Α, P)) occurs. By inference, B (β, N (α,
P)) is derived. At that time the internal state becomes K (β, P)
If there is, the precondition of information provision is satisfied, and
(Β, α, P) is caused. The following example is a dialogue between a hotel front desk and a customer in a hotel reservation scene (all the examples used in this embodiment are taken from a corpus for travel dialogue owned by the present applicant. ), G represents a guest, and c represents a hotel front (clerk).
In hotel reservation dialogue, customers usually have knowledge of accommodation schedule, desired room type, price, etc., communicate them in turn with the front desk, and finally know that "booking was done under desired conditions" .

【0051】例3:質疑応答 c:はい、何名様でございますでしょうか。 g:大人二名でお願いします。最初の発話はreque
st(c,g,nbr)、次の発話はinform
(g,c,nbr)と記述される。この対話の直前の内
部状態をS1、各発話によって遷移した状態を順にS2
3とすると、この対話による内部状態の遷移は以下の
ようになる。
Example 3: Q & A c: Yes, how many people are there? g: I would like two adults. The first utterance is request
st (c, g, nbr), next utterance is inform
(G, c, nbr). The internal state immediately before this dialogue is S 1 , the state transited by each utterance is S 2 ,
When S 3, the transition of the internal state of this interaction is as follows.

【0052】[0052]

【数15】 S1:B(c,N(c,nbr))∧¬K(c,nbr) ↓request(c,g,nbr) S2:K(g,N(c,nbr)) →B(g,N(c,nbr))∧K(g,nbr) ↓inform(g,c,nbr) S3:K(c,K(g,nbr)) →K(c,nbr)S 1 : B (c, N (c, nbr)) ∧¬K (c, nbr) ↓ request (c, g, nbr) S 2 : K (g, N (c, nbr)) → B (g, N (c, nbr)) ∧K (g, nbr) ↓ inform (g, c, nbr) S 3 : K (c, K (g, nbr)) → K (c, nbr)

【0053】客は最初から人数がわかっているので、初
期状態はK(g,nbr)を含む。さらに、これまでの
対話から状態S1はB(g,N(c,nbr))を含み
K(c,nbr)を含まないと仮定する。すると、情報
要求の前条件が満たされてrequest(c,g,n
br)が発せられる。これにより状態S2への状態遷移
が起こりK(g,N(c,nbr))が生起する。次
に、推論規則によってK(g,N(c,nbr))から
B(g,N(c,nbr))が導かれる。一方、K
(g,nbr)は状態S2にも保存されるので、情報提
供の前条件が成り立ちinform(g,c,nbr)
が発せられる。その結果、S3への状態遷移が起こりK
(c,K(g,nbr))が生起する。Kの公理からK
(c,nbr)が成り立つ。従って、最終的にホテルフ
ロントは人数に関する情報を得る。
Since the number of customers is known from the beginning, the initial state includes K (g, nbr). Assume further from the previous dialog that state S 1 contains B (g, N (c, nbr)) and does not contain K (c, nbr). Then, the precondition of the information request is satisfied and request (c, g, n
br) is issued. Thus occurs a state transition to state S 2 K (g, N ( c, nbr)) is occurring. Next, B (g, N (c, nbr)) is derived from K (g, N (c, nbr)) by the inference rule. On the other hand, K
(G, nbr) so is also stored in the state S 2, it holds the previous condition of providing information inform (g, c, nbr)
Is issued. As a result, it occurs state transition to S 3 K
(C, K (g, nbr)) occurs. From the axiom of K to K
(C, nbr) holds. Therefore, the hotel reception finally obtains information on the number of people.

【0054】次いで、発話の順序の例において、ある情
報を得た後、新たな情報に関する要求や告知が起こる過
程について説明する。inform(α,β,P)によ
ってK(β,K(α,P))が生じる。推論によりK
(β,P))が導かれる。ここで適応可能な発話生成規
則があり、その結果、B(β,N(α,Q))が生起さ
れるとする。その時点で内部状態にK(β,Q)がなけ
れば情報要求の前条件が成立しrequest(β,
α,Q)が引き起こされる。適用する発話生成規則によ
ってinform(β,α,Q)になる場合もある。
Next, in the example of the utterance order, a process in which a request or notification regarding new information occurs after obtaining certain information will be described. K (β, K (α, P)) is generated by inform (α, β, P). K by inference
(Β, P)). Here, it is assumed that there is an applicable utterance generation rule, and as a result, B (β, N (α, Q)) is generated. If there is no K (β, Q) in the internal state at that time, the precondition for the information request is satisfied and request (β, Q)
α, Q). The result may be inform (β, α, Q) depending on the utterance generation rule to be applied.

【0055】例4:発話の順序 g:はい、それで結構です。 c:かしこまりました。では、お名前をちょうだいでき
ますか。
Example 4: Order of utterance g: Yes, that is fine. c: I was smart. So can you give me your name?

【0056】最初の発話は客のホテルの予約意志を伝え
るものであり、inform(g,c,fix)と、次
の発話はrequest(c,g,name)と記述さ
れる。この対話の直前の内部状態をS1、各発話によっ
て遷移した状態を順にS2、S3とすると、この対話によ
る内部状態の遷移は以下のようになる。
The first utterance conveys the intention of the guest to make a reservation at the hotel, and is described as inform (g, c, fix) and the next utterance is request (c, g, name). Assuming that the internal state immediately before the dialogue is S 1 , and the states transited by each utterance are S 2 and S 3 , the internal state transitions due to the dialogue are as follows.

【0057】[0057]

【数16】 S1:B(g,N(c,fix))∧K(g,fix) ↓inform(g,c,fix) S2:K(c,K(g,fix)) →K(c,fix) →B(c,N(c,name))∧B(c,N(c,pay)) ¬K(c,name)∧¬K(c,pay) ↓request(c,g,name) S3:K(g,N(c,name))S 1 : B (g, N (c, fix)) ∧K (g, fix) ↓ inform (g, c, fix) S 2 : K (c, K (g, fix)) → K (C, fix) → B (c, N (c, name)) ∧B (c, N (c, pay)) ¬K (c, name) ∧¬K (c, pay) ↓ request (c, g) , Name) S 3 : K (g, N (c, name))

【0058】予約が確定するとホテル側は相手の名前や
支払い方法を尋ねる。この順序を発話生成規則として以
下のように記述する。
When the reservation is confirmed, the hotel asks for the name of the partner and the payment method. This order is described as an utterance generation rule as follows.

【0059】[0059]

【数17】K(c,fix)→B(c,N(c,nam
e))∧B(c,N(c,pay))
K (c, fix) → B (c, N (c, nam
e)) ∧B (c, N (c, pay))

【0060】これまでの対話からS1はB(g,N
(c,fix))及びK(g,fix)を含むと仮定す
る。すると、情報提供の前条件が満たされて、info
rm(g,c,fix)が発せられる。これにより状態
2への状態遷移が起こりK(c,K(g,fix))
が生起する。次に、推論規則によってK(c,fix)
が導かれる。すると上述の発話生成規則によって
From the conversation so far, S 1 is B (g, N
(C, fix)) and K (g, fix). Then, the pre-conditions for providing information are satisfied,
rm (g, c, fix) is emitted. As a result, a state transition to the state S 2 occurs, and K (c, K (g, fix))
Occurs. Next, according to the inference rule, K (c, fix)
Is led. Then, according to the above utterance generation rules,

【数18】B(α,N(c,name))∧B(α,N
(c,pay)) が生起する。一方、状態S2はK(c,name)もK
(c,pay)も含まないことから情報要求の前条件が
成り立ち、request(c,g,name)又はr
equest(c,g,pay)が発せられる。どちら
が先に生じるかは非決定的である。この発話の結果、状
態S3への状態遷移が起こりK(c,N(g,nam
e))が生起する。この後、推論を続けるとinfor
m(c,g,name)が引き起こされ情報提供が行わ
れる。以上から、情報要求、情報提供いずれもこの枠組
みで説明できることがわかる。
B (α, N (c, name)) ∧B (α, N
(C, pay)) occurs. On the other hand, in the state S 2 , K (c, name) is also K
Since (c, pay) is not included, the precondition of the information request is satisfied, and request (c, g, name) or r
request (c, g, pay) is issued. Which occurs first is non-deterministic. The result of this speech, takes place the state transition to state S 3 K (c, N ( g, nam
e)) occurs. After this, if you continue inference,
m (c, g, name) is triggered to provide information. From the above, it can be understood that both the information request and the information provision can be explained by this framework.

【0061】次いで、確認の過程の一例について説明す
る。inform(α,β,P)のあとにinform
(β,α、P)が起こる場合、後者は単なる情報の提供
ではなく確認(confirmation)に相当する。以下ではこ
の過程を説明する。確認の発話を生じさせる規則は発話
生成規則の一つとして以下のように記述できる。
Next, an example of the confirmation process will be described. inform (α, β, P) followed by inform
When (β, α, P) occurs, the latter corresponds to a confirmation rather than a mere provision of information. Hereinafter, this process will be described. The rule that causes the confirmation utterance can be described as one of the utterance generation rules as follows.

【0062】[0062]

【数19】K(α,P1)∧…∧K(α,Pn)→B
(α,N(β,P))
[Equation 19] K (α, P 1 ) ∧ ... ∧K (α, P n ) → B
(Α, N (β, P))

【0063】この規則はαが特定の事実(P1,…,
n)を知った場合、事実Pをβに確認する必要がある
ことを表す。
This rule states that α is a specific fact (P 1 ,...,
If P n ) is known, it means that P needs to be confirmed to β.

【0064】[0064]

【数20】B(α,N(β,P))∧K(α,P)∧B
(α,K(β,P)) の状態でinform(α,β,P)が起これば、それ
は確認になる。この条件は、βがPを知る必要があると
αが思っており、自分がその情報を知っていてかつβが
Pを知っているとαが思っていることを表している。確
認の結果遷移した内部状態では、
B (α, N (β, P)) ∧K (α, P) ∧B
If inform (α, β, P) occurs in the state of (α, K (β, P)), it is confirmed. This condition indicates that α believes that β needs to know P, and that α knows that he knows the information and β knows P. In the internal state that has transitioned as a result of confirmation,

【数21】 K(α,K(β,P))∧K(β,K(α,P)) が成り立ち、Pは対話参加者α,β間における相互知識
になる。
The following holds: K (α, K (β, P)) ∧K (β, K (α, P)), and P is mutual knowledge between the dialog participants α and β.

【0065】例5:確認 g:八月の十三日の土曜日から、十五日までの三日間で
お願いします。 c:はい、八月十三日にチェックインされて、二泊お泊
まりになられるということですね。
Example 5: Confirmation g: I would like three days from Saturday, the 13th of August to the 15th. c: Yes, you check-in on August 13th and you will stay for two nights.

【0066】最初の発話はinform(g,c,da
tes)、次の発話はinform(c,g,date
s)と記述される。K(g,dates)は初期状態で
与えられ、B(g,N(c,dates))はこの直前
の発話によって生じたとする。単純化のため、発話生成
規則は次式で表されるものとする。
The first utterance is inform (g, c, da
tes), the next utterance is inform (c, g, date)
s). It is assumed that K (g, dates) is given in an initial state, and B (g, N (c, dates)) is generated by the immediately preceding utterance. For simplicity, the utterance generation rule is represented by the following expression.

【0067】[0067]

【数22】K(c,dates)→B(c,N(g,d
ates))とする。
## EQU22 ## K (c, dates) → B (c, N (g, d
ates)).

【0068】この場合の状態遷移は以下のようになる。The state transition in this case is as follows.

【数23】 B(g,N(c,dates))∧K(g,dates) ↓inform(g,c,dates)K(c,K(g,dates)) →K(g,dates)∧K(c,dates) →B(c,N(g,dates))∧K(c,dates) ↓inform(c,g,dates)K(g,K(c,dates)) B (g, N (c, dates)) , K (g, dates) ↓ inform (g, c, dates) K (c, K (g, dates)) → K (g, dates) ∧ K (c, dates) → B (c, N (g, dates)) ∧K (c, dates) ↓ inform (c, g, dates) K (g, K (c, dates))

【0069】ここで、下線をひいた2式からホテルと客
の間で日程(dates)に関する相互知識ができたことが
わかる。
Here, it can be seen from the two underlined equations that mutual knowledge about dates was obtained between the hotel and the guest.

【0070】次いで、聞き間違いの場合の一例について
説明する。これまでは情報が正しく伝わるものと仮定し
ていたため、確認による失敗はなかった。しかし、実際
の対話では聞き間違いにより情報が正しく伝わらない場
合もあり、確認や訂正行為がしばしば行なわれる。この
過程を記述するために、request、inform
の条件を弱める。
Next, an example in the case of a wrong listening will be described. Until now, it was assumed that information was transmitted correctly, so there was no failure due to confirmation. However, in an actual dialogue, information may not be transmitted correctly due to a mistake in listening, and confirmation and correction are often performed. In order to describe this process, request, inform
Weaken the condition.

【0071】(1)情報要求−request(α,
β,P) (a)前条件:B(α,N(α,P))∧¬B(α,
P) (b)後条件:B(β,N(α,P’)) P’は事実だがPと一致するとは限らない。
(1) Information request—request (α,
β, P) (a) Precondition: B (α, N (α, P)) ∧¬B (α,
P) (b) Post-condition: B (β, N (α, P ′)) P ′ is true but does not always coincide with P.

【0072】(2)情報提供−inform(α,β,
P) (a)前条件:B(α,N(β,P))∧B(α,P) (b)後条件:B(β,B(α,P’))∧B(β,
P’)
(2) Information provision-inform (α, β,
P) (a) Precondition: B (α, N (β, P)) ∧B (α, P) (b) Postcondition: B (β, B (α, P ′)) ∧B (β,
P ')

【0073】このモデルでは、発話の結果相手は正確な
情報を得るとは限らず、発話者の内部状態についての信
念を得るに過ぎない。
In this model, the other party does not always obtain accurate information as a result of the utterance, but merely obtains the belief about the internal state of the utterer.

【数24】B(α,N(β,P))∧B(α,P)∧B
(α,B(β,P)) の状態でinform(α,β,P)が起これば、それ
は確認になる。
(24) B (α, N (β, P)) PB (α, P) ∧B
If inform (α, β, P) occurs in the state of (α, B (β, P)), it is confirmed.

【0074】また、発話生成規則は以下のようにすべて
KがBに置き換えられた形になる。
Further, the utterance generation rule has a form in which K is replaced with B as follows.

【数25】B(α,P1)∧…∧B(α,Pn)→B
(α,N(α1,Q1))∧…∧B(α,N(αm
m)) 確認の結果遷移した内部状態では、
## EQU25 ## B (α, P 1 ) ∧... B (α, P n ) → B
(Α, N (α 1 , Q 1 )) ∧ ... ∧B (α, N (α m ,
Q m )) In the internal state that transits as a result of the confirmation,

【数26】B(α,P)∧B(β,P’)∧B(α,B
(β,P))∧B(β,B(α,P’))が成り立つ。
ここで、
(26) B (α, P) ∧B (β, P ′) 'B (α, B
(Β, P)) ∧B (β, B (α, P ′)) holds.
here,

【数27】P=P’ ならば、Pはα,β間における相互信念に相当する。If P = P ', then P corresponds to the mutual belief between α and β.

【数28】P≠P’ ならば聞き間違いになる。## EQU28 ## If P ≠ P ’, it is a misunderstanding.

【0075】例6:聞き間違いの発見 g:滞在先はホテルニューオータニロサンゼルス602
号室。電話番号は、213、443、1700。 c:はい、鈴木様、ニューオータニホテルの602号室
に御滞在中ですね。そして、そちらのお電話番号が、7
14、443、1700でございますね。
Example 6: Finding Mistakes in Listening g: Stay at Hotel New Otani Los Angeles 602
Issue room. The telephone numbers are 213, 443 and 1700. c: Yes, Mr. Suzuki is staying at room 602 of the New Otani Hotel. And your phone number is 7
14,443,1700.

【0076】この対話はinform(g,c,a
d)、inform(g,c,tel)、次の発話はi
nform(c,g,ad)、inform(c,g,
tel’)と記述される。B(g,ad)、B(g,t
el)は初期状態で与えられ、B(g,N(c,a
d))、B(g,N(c,tel))は直前の発話によ
って生じたものとする。単純化のため、発話生成規則は
This conversation is performed in the form (g, c, a
d), inform (g, c, tel), the next utterance is i
nform (c, g, ad), inform (c, g,
tel ′). B (g, ad), B (g, t
el) is given in the initial state, and B (g, N (c, a
d)) and B (g, N (c, tel)) are assumed to have been generated by the immediately preceding utterance. For simplicity, the utterance generation rule is

【数29】B(c,ad)→B(c,N(c,ad))## EQU29 ## B (c, ad) → B (c, N (c, ad))

【数30】B(c,tel)→B(c,N(c,te
l)) とする。すると、内部状態の遷移は以下のようになる。
## EQU30 ## B (c, tel) → B (c, N (c, te)
l)) Then, the transition of the internal state is as follows.

【0077】[0077]

【数31】 B(g,N(c,ad))∧B(g,ad)∧ B(g,N(c,tel))∧[B(g,tel)] ↓inform(g,c,ad),inform(g,c,tel)B(c,B(g,ad))B(c,ad)∧ B(c,B(g,tel’))∧B(c,tel’) →B(c,N(g,ad))∧B(c,ad)∧ B(c,N(g,tel’))∧B(c,tel’) ↓inform(c,g,ad’),inform(c,g,tel’)B(g,B(c,ad)) ∧B(g,ad)∧ B(g,B(c,tel”))∧[B(g,tel”)]B (g, N (c, ad)) ∧B (g, ad) ∧B (g, N (c, tel)) ∧ [B (g, tel)] ↓ inform (g, c, ad), inform (g, c, tel) B (c, B (g, ad))B (c, ad) B B (c, B (g, tel ')) ∧ B (c, tel') → B (c, N (g, ad ')) ∧B (c, ad) ∧B (c, N (g, tel')) ∧B (c, tel ') ↓ inform (c, g, ad') , Inform (c, g, tel ') B (g, B (c, ad)) {B (g, ad)} B (g, B (c, tel "))} [B (g, tel") ]

【0078】この例では、下線部で示したように、cは
adを信じるとともにgがadを信じていると信じてお
り、gの信念に関しても同様のことがいえる。従って、
住所に関しては相互信念が成り立つ。一方、[]の囲み
で示したように、gはtelを信じかつtel”も信じ
ている。¬(tel∧tel”)なので電話番号につい
ては相互信念にならず聞き間違いが発見された。
In this example, as shown by the underlined part, c believes in ad and g believes in ad. The same can be said for g's belief. Therefore,
Mutual beliefs hold for addresses. On the other hand, as shown in the box of [], g believes in tel and also believes in tel. ”(Tel @ tel”), so that the telephone number was not a mutual belief and a misunderstanding was found.

【0079】本実施形態によれば、情報収集を目的とす
る対話に対する情報の授受に基づく対話のモデルを用い
た対話システムを開示した。このモデルでは「知る必要
がある」という様相オペレータの導入により、情報収集
側の要求と情報提供側の告知の双方が統一的な説明を与
えることができる。また、実際の対話に現れる確認や聞
き間違いの発見など動的に生じる現象も同一の枠組みに
よって説明できる。
According to the present embodiment, a dialogue system using a dialogue model based on information exchange for a dialogue for information collection has been disclosed. In this model, both the request of the information collecting side and the notification of the information providing side can provide a unified explanation by introducing the modality operator who needs to know. Also, dynamically occurring phenomena, such as confirmations in actual conversations and discovery of listening mistakes, can be explained by the same framework.

【0080】以上説明したように、本発明に係る実施形
態によれば、以下の効果を有する。 (a)タスクに依存しない情報収集を目的とする対話に
対する情報の授受に基づく対話システムを提供すること
ができる。 (b)発話生成規則や知識を追加することで、応答機能
の拡張や学習機能の組み込みが容易であり、種々の規格
外の対応が可能である。従って、従来技術に比較して適
用する対話の範囲を広くすることができ、しかも柔軟性
がある協調型の対話システムを提供することができる。
As described above, the embodiment according to the present invention has the following effects. (A) It is possible to provide a dialogue system based on the exchange of information for a dialogue for information collection independent of tasks. (B) By adding utterance generation rules and knowledge, it is easy to extend the response function and incorporate the learning function, and it is possible to cope with various nonstandard specifications. Therefore, it is possible to broaden the range of dialogue to be applied as compared with the related art, and it is possible to provide a flexible cooperative dialogue system.

【0081】[0081]

【発明の効果】以上詳述したように本発明によれば、発
声される発声音声文の音声を文字列に音声認識して、音
声認識された文字列に応答して情報収集のための対話に
おける応答の発語内容の文字列を生成した後、発語内容
の文字列を音声合成して出力する対話システムであっ
て、対話の進行とともに変化する対話の状況を示す内部
状態を、 (a)αがφを知っていることを表す第1の様相演算子
K(α,φ)と、 (b)αがφを信じていることを表す第2の様相演算子
B(α,φ)と、 (c)αがφを知る必要があることを表す第3の様相演
算子N(α,φ)とを用いて表して格納する内部状態記
述記憶装置と、 (A)標準命題様相論理の性質を様相演算子を用いて表
した一般の公理と、 (B)必然性の規則を表す推論規則と、 (C)複数の事実が論理積で成立するならば、ある事実
が成立するということを表す背景知識と、発話の順序に
関する制約を示す発話生成規則とを有するタスク依存の
知識とを格納する知識記述記憶装置と、発話の順序に関
する制約を示す発話生成規則を格納する発話生成規則記
憶装置と、発声される発声音声文の音声を文字列に音声
認識して出力する音声認識手段と、文字列を情報要求又
は情報提供の内容を表す中間言語に変換するための変換
パターンモデルを参照して、上記音声認識手段によって
音声認識された文字列を、情報要求又は情報提供の内容
を表す中間言語に変換して出力する前処理手段と、上記
前処理手段から出力される情報要求又は情報提供の内容
を表す中間言語から、上記内部状態記述記憶装置内の内
部状態を参照して、内部状態を遷移させてその内部状態
を更新するとともに、遷移後の内部状態を出力する状態
遷移処理手段と、上記状態遷移処理手段から出力される
内部状態から、上記知識記述記憶装置内の知識と、上記
発話生成規則記憶装置内の発話生成規則とを参照して、
現在の状態における当該対話において応答して発話すべ
き内容を推論してその中間言語を生成して出力する推論
処理手段と、上記内部状態記述記憶装置内の内部状態を
参照して、上記推論処理手段から出力される応答して発
話すべき内容の中間言語を、情報要求又は情報提供の中
間言語の出力データに変換して出力するデータ出力処理
手段と、情報要求又は情報提供の内容を表す中間言語を
文字列に逆変換するための逆変換パターンモデルを参照
して、上記データ出力処理手段から出力される情報要求
又は情報提供の内容を表す中間言語の出力データを、当
該中間言語に対応する文字列に逆変換して出力する後処
理手段と、上記後処理手段から出力される文字列を音声
合成してそれに対応する音声を出力する音声合成手段と
を備える。
As described above in detail, according to the present invention, the voice of an uttered voice sentence to be uttered is recognized as a character string, and the dialogue for collecting information is performed in response to the recognized character string. A dialogue system that generates a character string of the utterance content of the response in and then synthesizes and outputs the character string of the utterance content, wherein the internal state indicating the status of the dialogue that changes with the progress of the dialogue is represented by (a) ) A first modal operator K (α, φ) indicating that α knows φ, and (b) a second modal operator B (α, φ) indicating that α believes φ. (C) an internal state description storage device which is represented and stored using a third modality operator N (α, φ) indicating that α needs to know φ, and (A) standard propositional modal logic. General axioms that express the properties of, using modal operators; (B) inference rules that represent the rules of necessity; and (C) multiple things. A knowledge description storage device for storing background knowledge indicating that a certain fact is satisfied if AND is established, and task-dependent knowledge having utterance generation rules indicating constraints on the order of utterances; An utterance generation rule storage device for storing utterance generation rules indicating restrictions on the order of speech, a voice recognition means for recognizing and outputting a voice of an uttered voice sentence as a character string, and requesting or providing information on the character string Before converting the character string recognized by the voice recognition unit into an intermediate language representing the content of the information request or information provision with reference to a conversion pattern model for converting the content into an intermediate language representing the content of The internal state is transited by referring to the internal state in the internal state description storage device from the processing means and the intermediate language representing the content of the information request or information provision output from the preprocessing means. State update processing means for updating the internal state and outputting the internal state after the transition, knowledge from the knowledge description storage device based on the internal state output from the state transition processing means, and generation of the utterance With reference to the utterance generation rule in the rule storage device,
Inference processing means for inferring the content to be uttered in response to the dialogue in the current state, generating and outputting the intermediate language, and the inference processing with reference to the internal state in the internal state description storage device Data output processing means for converting the intermediate language of the content to be spoken in response to the information output from the means into output data of an intermediate language for requesting or providing information, and outputting the data; and an intermediate representing the content of the information request or providing information. With reference to an inverse conversion pattern model for inversely converting a language into a character string, the output data of the intermediate language representing the content of the information request or information provision output from the data output processing means corresponds to the intermediate language. Post-processing means for inverting and outputting the character string, and voice synthesizing means for synthesizing the character string output from the post-processing means and outputting the corresponding voice.

【0082】従って、本発明によれば、以下の効果を有
する。 (a)タスクに依存しない情報収集を目的とする対話に
対する情報の授受に基づく対話システムを提供すること
ができる。 (b)発話生成規則や知識を追加することで、応答機能
の拡張や学習機能の組み込みが容易であり、種々の規格
外の対応が可能である。従って、従来技術に比較して適
用する対話の範囲を広くすることができ、しかも柔軟性
がある協調型の対話システムを提供することができる。
Accordingly, the present invention has the following effects. (A) It is possible to provide a dialogue system based on the exchange of information for a dialogue for information collection independent of tasks. (B) By adding utterance generation rules and knowledge, it is easy to extend the response function and incorporate the learning function, and it is possible to cope with various nonstandard specifications. Therefore, it is possible to broaden the range of dialogue to be applied as compared with the related art, and it is possible to provide a flexible cooperative dialogue system.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明に係る一実施形態である対話システム
の構成を示すブロック図である。
FIG. 1 is a block diagram showing a configuration of a dialogue system according to an embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1…マイクロホン、 2…A/D変換器、 3…音声認識部、 4…前処理部、 5…発話生成処理部、 6…後処理部、 7…音声合成部、 8…D/A変換器、 9…スピーカ、 11…パターンモデルメモリ、 12…パターンモデルメモリ、 21…状態遷移処理部、 22…推論処理部、 23…データ出力処理部、 31…内部状態記述メモリ、 32…発話生成規則メモリ、 33…知識記述メモリ、 100…対話参加者。 DESCRIPTION OF SYMBOLS 1 ... Microphone, 2 ... A / D converter, 3 ... Voice recognition part, 4 ... Pre-processing part, 5 ... Speech generation processing part, 6 ... Post-processing part, 7 ... Voice synthesis part, 8 ... D / A converter Reference numeral 9: Speaker, 11: Pattern model memory, 12: Pattern model memory, 21: State transition processing unit, 22: Inference processing unit, 23: Data output processing unit, 31: Internal state description memory, 32: Utterance generation rule memory 33: knowledge description memory; 100: dialog participants.

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平7−239694(JP,A) 特開 平7−210391(JP,A) ”Belief,Awarenes s,and Limited Reas oning”Artifical In telligence,Vol.34,N o.1,December 1987,p. 39 (58)調査した分野(Int.Cl.7,DB名) G06F 17/27 - 17/30 G10L 3/00 - 9/20 G10L 13/00 - 15/00 JICSTファイル(JOIS)──────────────────────────────────────────────────続 き Continuation of the front page (56) References JP-A-7-239694 (JP, A) JP-A-7-210391 (JP, A) "Belief, Awarenes, and Limited Reasoning" Artificial Intelligence, Vol. . 34, No. 1, December 1987, p. 39 (58) Fields investigated (Int. Cl. 7 , DB name) G06F 17/27-17/30 G10L 3/00-9/20 G10L 13/00-15/00 JICST file (JOIS)

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 発声される発声音声文の音声を文字列に
音声認識して、音声認識された文字列に応答して情報収
集のための対話における応答の発語内容の文字列を生成
した後、発語内容の文字列を音声合成して出力する対話
システムであって、 対話の進行とともに変化する対話の状況を示す内部状態
を、(a)αがφを知っていることを表す第1の様相演算子
K(α,φ)と、 (b)αがφを信じていることを表す第2の様相演算子
B(α,φ)と、 (c)αがφを知る必要があることを表す第3の様相演
算子N(α,φ)とを用いて表して 格納する内部状態記
述記憶装置と、(A)標準命題様相論理の性質を様相演算子を用いて表
した一般の公理と、 (B)必然性の規則を表す推論規則と、 (C)複数の事実が論理積で成立するならば、ある事実
が成立するということを表す背景知識と、発話の順序に
関する制約を示す発話生成規則とを有するタスク依存の
知識と を格納する知識記述記憶装置と、 発話の順序に関する制約を示す発話生成規則を格納する
発話生成規則記憶装置と、 発声される発声音声文の音声を文字列に音声認識して出
力する音声認識手段と、文字列を情報要求又は情報提供の内容を表す中間言語に
変換するための変換パターンモデルを参照して、上記音
声認識手段によって音声認識された文字列を、 情報要求
又は情報提供の内容を表す中間言語に変換して出力する
前処理手段と、 上記前処理手段から出力される情報要求又は情報提供の
内容を表す中間言語から、上記内部状態記述記憶装置内
の内部状態を参照して、内部状態を遷移させてその内部
状態を更新するとともに、遷移後の内部状態を出力する
状態遷移処理手段と、 上記状態遷移処理手段から出力される内部状態から、上
記知識記述記憶装置内の知識と、上記発話生成規則記憶
装置内の発話生成規則とを参照して、現在の状態におけ
当該対話において応答して発話すべき内容を推論して
その中間言語を生成して出力する推論処理手段と、上記内部状態記述記憶装置内の内部状態を参照して、上
記推論処理手段から出力される応答して発話すべき内容
の中間言語を 、情報要求又は情報提供の中間言語の出力
データに変換して出力するデータ出力処理手段と、情報要求又は情報提供の内容を表す中間言語を文字列に
逆変換するための逆変換パターンモデルを参照して、上
記データ出力処理手段から出力される情報要求又は情報
提供の内容を表す中間言語の出力データを 、当該中間言
語に対応する文字列に逆変換して出力する後処理手段
と、 上記後処理手段から出力される文字列を音声合成してそ
れに対応する音声を出力する音声合成手段とを備えたこ
とを特徴とする対話システム。
1. A speech recognition system comprising: a speech recognition unit that recognizes a voice of an uttered voice sentence to be uttered into a character string and generates a character string of an utterance content of a response in a dialogue for information collection in response to the character recognition string; A dialogue system for speech-synthesizing and outputting a character string of the utterance content, wherein an internal state indicating the state of the dialogue changing with the progress of the dialogue is represented by: (a) a state indicating that α knows φ. Modal operator of 1
K (α, φ) and (b) a second modal operator indicating that α believes φ.
B (α, φ) and (c) the third aspect that α needs to know φ
An internal state description storage device that expresses and stores using an operator N (α, φ); and (A) expresses the properties of standard propositional modal logic using modal operators.
General axioms that, (B) if the inference rules that represent the necessity of regulations, (C) a plurality of facts is established in logical, facts
And the order of utterance
Task-dependent with utterance generation rules indicating constraints on
And knowledge description storage device that stores the knowledge, and the speech generation rule storage unit for storing a speech production rule indicating the constraints on the order of speech, speech to be output by the speech recognition speech utterance voice statement string uttered Recognition means and convert character strings into intermediate language to express information request or information provision
Refer to the conversion pattern model for conversion and
A pre-processing unit that converts the character string recognized by the voice recognition unit into an intermediate language representing the contents of the information request or information provision and outputs the intermediate request; and an information request or information provision output from the pre-processing unit.
State transition processing means for referring to the internal state in the internal state description storage device from the intermediate language representing the content, transiting the internal state and updating the internal state, and outputting the internal state after the transition; from the internal state is outputted from the state transition processing means, with reference and knowledge in the knowledge description storage unit, and a speech generation rule in the utterance generation rule storage unit, put the current state
That in response in the dialogue to infer the contents to be uttered and inference processing means for generating and outputting an intermediate language, with reference to the internal states within the internal state description storage device, upper
Content to be uttered in response to output from the inference processing means
Of the intermediate language, and a data output processing means for converting the output data of the intermediate language information request or information providing, the intermediate language into a character string representing the content of the information request or information providing
Refer to the inverse transformation pattern model for inverse transformation, and
Information request or information output from the data output processing means
Post-processing means for inverting the output data of the intermediate language representing the content of the provision into a character string corresponding to the intermediate language and outputting the converted character string; A dialogue system, comprising: voice synthesis means for outputting voice.
JP20310998A 1998-07-17 1998-07-17 Dialogue system Expired - Fee Related JP3194719B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20310998A JP3194719B2 (en) 1998-07-17 1998-07-17 Dialogue system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20310998A JP3194719B2 (en) 1998-07-17 1998-07-17 Dialogue system

Publications (2)

Publication Number Publication Date
JP2000035798A JP2000035798A (en) 2000-02-02
JP3194719B2 true JP3194719B2 (en) 2001-08-06

Family

ID=16468555

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20310998A Expired - Fee Related JP3194719B2 (en) 1998-07-17 1998-07-17 Dialogue system

Country Status (1)

Country Link
JP (1) JP3194719B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002086781A1 (en) * 2001-04-17 2002-10-31 Nishimori, Koji Life environment automating method and system
KR101699720B1 (en) 2010-08-03 2017-01-26 삼성전자주식회사 Apparatus for voice command recognition and method thereof
KR102331242B1 (en) * 2019-05-20 2021-11-25 에스케이텔레콤 주식회사 Memory network apparatus and deducing method using the same

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Belief,Awareness,and Limited Reasoning"Artifical Intelligence,Vol.34,No.1,December 1987,p.39

Also Published As

Publication number Publication date
JP2000035798A (en) 2000-02-02

Similar Documents

Publication Publication Date Title
Varile et al. Survey of the state of the art in human language technology
Juang et al. Automatic speech recognition–a brief history of the technology development
Pietquin A framework for unsupervised learning of dialogue strategies
KR101066741B1 (en) Semantic object synchronous understanding for highly interactive interface
Möller Quality of telephone-based spoken dialogue systems
KR102097710B1 (en) Apparatus and method for separating of dialogue
Gustafson et al. Speech technology on trial: Experiences from the August system
Samuel et al. Development of a voice chatbot for payment using amazon lex service with eyowo as the payment platform
Pieraccini AI assistants
Li Divination engines: A media history of text prediction
Rouillard Web services and speech-based applications around VoiceXML.
Maskeliunas et al. Voice-based human-machine interaction modeling for automated information services
JP3194719B2 (en) Dialogue system
Turunen Jaspis-a spoken dialogue architecture and its applications
Bell et al. Child and adult speaker adaptation during error resolution in a publicly available spoken dialogue system.
Lai et al. Conversational speech interfaces and technologies
Venkatagiri Speech recognition technology applications in communication disorders
Junqua et al. Robustness in language and speech technology
Burke Speech processing for ip networks: Media resource control protocol (MRCP)
KR102474690B1 (en) Apparatus for taking minutes and method thereof
Reddy et al. Speech-to-Text and Text-to-Speech Recognition Using Deep Learning
Zue et al. Spoken language input
Wilpon Voice-processing technologies--their application in telecommunications.
Wilpon Applications of voice-processing technology in telecommunications
Rajole et al. Voice Based E-Mail System for Visually Impaired Peoples Using Computer Vision Techniques: An Overview

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees