JP2008293098A - Answer score information generation device and interactive processor - Google Patents
Answer score information generation device and interactive processor Download PDFInfo
- Publication number
- JP2008293098A JP2008293098A JP2007135469A JP2007135469A JP2008293098A JP 2008293098 A JP2008293098 A JP 2008293098A JP 2007135469 A JP2007135469 A JP 2007135469A JP 2007135469 A JP2007135469 A JP 2007135469A JP 2008293098 A JP2008293098 A JP 2008293098A
- Authority
- JP
- Japan
- Prior art keywords
- response
- information
- utterance
- answer
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、応答スコア情報生成装置及び対話処理装置に関し、特にユーザとの対話を長続きすることを可能とするための応答スコア情報生成装置、及び対話処理装置に関する。 The present invention relates to a response score information generation device and a dialogue processing device, and more particularly to a response score information generation device and a dialogue processing device for enabling a long-lasting dialogue with a user.
近年の音声認識技術の向上に伴い、種々の対話処理装置が提案されている。例えば特許文献1には、事象と事象、事象と評価、評価と評価の組み合わせからなる形式に帰着できる応答知識を用いて、発話を生成する対話処理装置が提案されている。
With recent improvements in speech recognition technology, various interactive processing devices have been proposed. For example,
この対話処理装置では、ユーザから入力された発話から、発話に含まれる単語集合の類似度に基づいて、応答知識中の発話とのマッチングを行い、装置が応答すべき発話の候補を選択する。 In this dialogue processing apparatus, matching is performed with utterances in response knowledge based on the similarity of word sets included in utterances from utterances input by a user, and utterance candidates to which the apparatus should respond are selected.
選択された候補が複数あった場合、上記対話処理装置は、発話候補の中からランダムに一つの発話を選択するか、対話履歴中に出現した発話をマスキングするなどの処理を行って、一つの発話を決定するようになっている。 When there are a plurality of selected candidates, the dialogue processing device selects one utterance at random from the utterance candidates or performs processing such as masking the utterance that appears in the dialogue history, The utterance is decided.
しかしながら、特許文献1に開示された技術では、ランダムに一つの発話を選択する処理を行っているため、適切な応答が選択されずに、対話が長続きしないという問題点があった。
However, the technique disclosed in
本発明は上記問題点に鑑み、適切な応答を選択することにより対話を長続きさせることを可能とする対話処理装置、及び対話処理装置に供される応答スコア情報生成装置を提供することを目的とする。 In view of the above problems, an object of the present invention is to provide a dialogue processing device that enables a dialogue to last long by selecting an appropriate response, and a response score information generation device provided for the dialogue processing device. To do.
上記目的を達成するために請求項1の発明は、発話を示す複数の発話情報、及び前記発話の各々に対応する応答を示す応答情報を含む応答知識情報が記憶された応答知識情報記憶手段と、前記応答知識情報記憶手段により記憶された前記応答知識情報を、前記発話情報と前記応答情報との対応を示す発話推移行列に変換する変換手段と、前記変換手段により変換された前記発話推移行列の最大固有ベクトルを算出する算出手段と、前記算出手段により算出された前記最大固有ベクトルの各要素と前記応答情報に示される各応答とが対応づけられた応答スコア情報を生成する応答スコア情報生成手段と、前記応答スコア情報生成手段により生成された前記応答スコア情報が記憶される応答スコア情報記憶手段と、を有する。
In order to achieve the above object, the invention of
請求項1に発明によれば、応答知識情報記憶手段には、発話を示す複数の発話情報、及び前記発話の各々に対応する応答を示す応答情報を含む応答知識情報が記憶され、変換手段が前記応答知識情報記憶手段により記憶された前記応答知識情報を、前記発話情報と前記応答情報との対応を示す発話推移行列に変換し、算出手段が前記変換手段により変換された前記発話推移行列の最大固有ベクトルを算出し、応答スコア情報生成手段が前記算出手段により算出された前記最大固有ベクトルの各要素と前記応答情報に示される各応答とが対応づけられた応答スコア情報を生成し、応答スコア情報記憶手段には前記応答スコア情報生成手段により生成された前記応答スコア情報が記憶される。上記最大固有ベクトルの各要素は、対応する応答が適切な応答であることの度合いを示すものであるため、対話を長続きさせるための応答スコア情報生成装置を提供することができる。 According to the first aspect of the present invention, the response knowledge information storage means stores a plurality of utterance information indicating utterances, and response knowledge information including response information indicating a response corresponding to each of the utterances. The response knowledge information stored by the response knowledge information storage means is converted into an utterance transition matrix indicating a correspondence between the utterance information and the response information, and a calculation means converts the utterance transition matrix converted by the conversion means. A response eigenvector is calculated, and response score information generating means generates response score information in which each element of the maximum eigenvector calculated by the calculating means is associated with each response shown in the response information, and response score information The storage means stores the response score information generated by the response score information generation means. Since each element of the maximum eigenvector indicates the degree to which the corresponding response is an appropriate response, it is possible to provide a response score information generating device for making the dialogue last longer.
また、上記課題を解決するために、請求項2の発明は、請求項1に記載の応答スコア情報生成装置を有し、入力手段がユーザによる発話を音声認識し、該ユーザの発話を前記発話情報として入力し、応答情報抽出手段が前記応答知識情報記憶手段により記憶された前記応答知識情報から、前記入力手段により入力された前記発話情報が示す発話に対応する応答を示す応答情報を抽出し、要素取得手段が前記応答スコア情報記憶手段により記憶された前記応答スコア情報から、前記応答情報抽出手段により抽出された応答情報が示す応答に対応する前記最大固有ベクトルの要素を取得し、応答情報選択手段が前記要素取得手段により取得された要素のうちで最も大きい要素に対応する応答を示す応答情報を選択し、音声出力手段が前記応答情報選択手段により選択された応答情報を、音声に変換して出力する。上記最大固有ベクトルの各要素は、対応する応答が適切な応答であることの度合いを示すものであるため、ユーザによる発話に対して適切な応答を選択し、その応答を出力することにより、対話を長続きさせることを可能とする対話処理装置を提供することができる。
In order to solve the above-mentioned problem, the invention of
また、請求項2の発明は、請求項3の発明のように、前記ユーザに次の発話を促す予め定められた応答を示す発話促進応答情報が記憶された発話促進応答情報記憶手段を更に有し、前記応答情報選択手段は、前記応答情報抽出手段により前記応答情報が抽出されなかった場合には、前記発話促進応答情報記憶手段により記憶された発話促進応答情報を選択する。
Further, the invention of
請求項3の発明によれば、抽出されなかった場合には、ユーザに次の発話を促す予め定められた応答を示す発話促進応答情報を選択するので、対話を長続きさせることができる。 According to the third aspect of the present invention, when it is not extracted, utterance promotion response information indicating a predetermined response that prompts the user to utter the next utterance is selected, so that the dialogue can be continued for a long time.
本発明によれば、適切な応答を選択することにより対話を長続きさせることを可能とする対話処理装置、及び対話処理装置に供される応答スコア情報生成装置を提供することができるという効果が得られる。 Advantageous Effects of Invention According to the present invention, there is an effect that it is possible to provide a dialog processing device that enables a dialog to last long by selecting an appropriate response, and a response score information generation device provided for the dialog processing device. It is done.
以下、図面を参照して、本発明の実施の形態について詳細に説明する。なお、本実施の形態では、応答スコア情報生成装置、及び対話処理装置をパソコンに適用した例について説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In the present embodiment, an example in which the response score information generation device and the dialogue processing device are applied to a personal computer will be described.
まず、図1を用いて、パソコン12の構成について説明する。パソコン12は、各々バスBにより接続されたCPU(Central Processing Unit)60と、ROM(Read Only Memory)61と、RAM(Random Access Memory)62と、HDD(Hard Disk Drive)63と、表示部64と、操作入力部65と、マイク66と、スピーカ67とを含む。
First, the configuration of the personal computer 12 will be described with reference to FIG. The personal computer 12 includes a CPU (Central Processing Unit) 60, a ROM (Read Only Memory) 61, a RAM (Random Access Memory) 62, a HDD (Hard Disk Drive) 63, and a
CPU60は、パソコン12の全体的な動作を司るものであり、後述するプログラムは、CPU60により実行される。ROM61は、パソコン12の起動時に動作するブートプログラムなどが記憶されている不揮発性の記憶装置である。RAM62は、OS(Operating System)、プログラム、及びデータが展開される揮発性の記憶装置である。HDD63は、後述する応答知識データベース(以下、応答知識DBと記す)、応答スコアデータベース(以下、応答スコアDBと記す)、発話促進応答データベース(以下、発話促進応答DBと記す)、OS、及びプログラム等が記憶された不揮発性の記憶装置であり、応答知識情報記憶手段、応答スコア情報記憶手段、及び発話促進応答情報記憶手段に対応する。
The CPU 60 controls the overall operation of the personal computer 12, and a program to be described later is executed by the CPU 60. The
表示部64は、各種情報を表示するものである。操作入力部65は、ユーザがパソコン12の操作をする場合や、パソコン12に情報を入力する際に用いられるものである。マイク66は、アナログ/デジタル変換部を含み、ユーザによる発話をデジタル信号に変換してバスBに出力するものである。また、スピーカ67は、デジタル/アナログ変換部を含み、バスBから入力されたデジタル信号をアナログ信号に変換して音を出力するものである。
The
次に、上記応答知識DBを、図2を用いて説明する。応答知識DBは、発話を示す複数の発話情報、及び前記発話の各々に対応する応答を示す応答情報を含むDBである。 Next, the response knowledge DB will be described with reference to FIG. The response knowledge DB is a DB including a plurality of utterance information indicating utterances and response information indicating responses corresponding to the utterances.
具体的には、同図に示されるように、発話情報として、「犬小屋を作る」、「犬が大きくなった」などの発話を示す情報がテキスト情報として複数含まれている。また、応答情報には、「犬小屋を作る」に対応する応答を示す「犬が喜ぶ」や、「犬が大きくなった」に対応する応答を示す「犬小屋を作る」などの応答を示す情報がテキスト情報として複数含まれている。 Specifically, as shown in the figure, as the utterance information, a plurality of pieces of information indicating utterances such as “make a dog house”, “the dog has grown”, and the like are included as text information. In addition, the response information indicates a response such as “Dog is pleased” indicating a response corresponding to “Create a doghouse” or “Create a doghouse” indicating a response corresponding to “The dog has grown” Multiple pieces of information are included as text information.
なお、上記応答知識DBに含まれる発話情報及びそれに対応した応答情報は各7つしか示されていないが、7つに限られるものではない。 Note that although only seven utterance information and corresponding response information are included in the response knowledge DB, the number is not limited to seven.
次に、応答スコアDBについて説明するが、その説明に先立ち、発話ネットワーク及び発話推移行列について説明する。 Next, the response score DB will be described. Prior to the description, the utterance network and the utterance transition matrix will be described.
図3は、上記応答知識DBに示される発話情報と応答情報との対応を示す発話ネットワークを示す。応答知識DBにおける発話の一つである「犬が大きくなった」に対応する応答は、「犬小屋を作る」のみである。この「犬が大きくなった」をn1とし、「犬小屋を作る」をn2とすれば、図3に示されるように、ノードn1とノードn2とを結ぶネットワークとして表現できる。 FIG. 3 shows an utterance network showing correspondence between utterance information and response information shown in the response knowledge DB. The response corresponding to “Dog has grown”, which is one of the utterances in the response knowledge DB, is only “Create dog house”. Assuming that “the dog has grown” is n1 and “make the doghouse” is n2, it can be expressed as a network connecting the nodes n1 and n2, as shown in FIG.
更に、上記「犬小屋を作る」に対応する応答は、「犬が喜ぶ」及び「金槌がいる」の2つある。先ほどと同様に、「犬が喜ぶ」をn3とし、「金槌がいる」をn4とすれば、図3に示されるように、ノードn2とノードn3及びノードn2とノードn4とを結ぶネットワークとして表現できる。 Furthermore, there are two responses corresponding to the above-mentioned “create a dog house”: “the dog is pleased” and “there is a hammer”. Similarly to the previous case, if “the dog is pleased” is n3 and “the gold hammer is” is n4, as shown in FIG. 3, it is expressed as a network connecting the nodes n2 and n3 and the nodes n2 and n4. it can.
このようにすることで、応答知識DBから図3に示される発話ネットワークが得られるが、この発話ネットワークにおける始ノードを行とし、終ノードを列とした行列で表現したものが図4(A)に示される行列である。 By doing so, the utterance network shown in FIG. 3 can be obtained from the response knowledge DB. The utterance network represented by a matrix having the start node in the utterance network as a row and the end node as a column is shown in FIG. It is a matrix shown in
図4(A)に示される行列において、例えば1行2列目(n1行n2列目)は「1」となっている。これは、始ノードをn1とし、終ノードをn2としたネットワークが存在することを示しており、この場合は上述した「犬が大きくなった」(n1)、「犬小屋を作る」(n2)を結ぶネットワークに対応している。 In the matrix shown in FIG. 4A, for example, the first row and second column (n1 row and n2 column) is “1”. This indicates that there is a network in which the start node is n1 and the end node is n2. In this case, the above-mentioned “dog has grown” (n1), “make a doghouse” (n2) It corresponds to the network that connects
また、2行5列目(n2行n5列目)のように、「0」である場合は、始ノードをn2とし、終ノードをn5としたネットワークが存在しないことを示している。 Further, as in the second row and fifth column (n2 row and n5 column), “0” indicates that there is no network in which the start node is n2 and the end node is n5.
この行列(図4(A))の要素のうち、同じ行に存在する各要素を、同じ行に存在する要素の総和で割ったものが、図4(B)に示される発話推移行列である。例えば、図4(A)において、2行目に属する要素は、「1」が2つ、「0」が5つのため、同一の行に存在する要素の和は2であるので、2行目に属する各要素を2で割ったものが、図4(B)に示される2行目となる。 Of the elements of this matrix (FIG. 4 (A)), the utterance transition matrix shown in FIG. 4 (B) is obtained by dividing each element present in the same row by the sum of the elements present in the same row. . For example, in FIG. 4A, since the elements belonging to the second line are two “1” and five “0”, the sum of the elements existing in the same line is 2, so the second line Dividing each element belonging to 2 by 2 is the second line shown in FIG.
すなわち、図4(B)に示される行列は、ある始ノードから各終ノードに推移する確率を示す確率ネットワークを示している。この確率ネットワークをランダムウォークした際に得られるノードの滞在確率の極限は、上記発話推移行列を固有値分解して算出された最大固有ベクトルを正規化した値として得ることができる。 That is, the matrix shown in FIG. 4B shows a probability network indicating the probability of transition from a certain start node to each end node. The limit of the stay probability of a node obtained when the probability network is randomly walked can be obtained as a value obtained by normalizing the maximum eigenvector calculated by eigenvalue decomposition of the utterance transition matrix.
従って、あるノードが複数のノードに接続している(ある発話に対応する応答候補が複数ある)場合には、それら複数のノードの中から、滞在確率が最も高い(最大固有ベクトルの要素のうちで最も大きい)ノードが、適切な応答を示すノードと考えられる。よって、最大固有ベクトルの各要素は、対応する応答が適切な応答であることの度合いを示すものである。 Therefore, when a certain node is connected to a plurality of nodes (there are a plurality of response candidates corresponding to a certain utterance), the stay probability is the highest among the plurality of nodes (among the elements of the maximum eigenvector). The node that is the largest) is considered the node that gives the appropriate response. Therefore, each element of the maximum eigenvector indicates the degree to which the corresponding response is an appropriate response.
なお、最大固有ベクトルの正規化とは、最大固有ベクトルに属する要素の総和で、各要素を割ったベクトルを求めることである。 The normalization of the maximum eigenvector is to obtain a vector obtained by dividing each element by the sum of the elements belonging to the maximum eigenvector.
なお、上述した図4(B)に示される発話推移行列の強連結性を保証するために、発話推移行列に属する各要素が0にならないようにスムーシングを行うようにしても良い。このスムーシングとは、発話推移行列の1行の要素の個数をnとし、λを1より小さい正の実数とし、発話推移行列のi行j列目の要素をaijとしたとき、各aijを、
(aij+λ)/(1+nλ)
に置き換えることである。
In addition, in order to guarantee the strong connectivity of the utterance transition matrix shown in FIG. 4B, smoothing may be performed so that each element belonging to the utterance transition matrix does not become zero. This smoothing means that when the number of elements in one row of the utterance transition matrix is n, λ is a positive real number smaller than 1, and the element in the i-th row and j-th column of the utterance transition matrix is aij,
(Aij + λ) / (1 + nλ)
Is to replace
このように置き換えても、(aij+λ)/(1+nλ)は1より小さく、また、Σをj(1からnまで)に関する和としたとき、Σaij=1であるので、
Σ(aij+λ)/(1+nλ)=1
となる。
Even if replaced in this way, (aij + λ) / (1 + nλ) is smaller than 1, and Σaij = 1 when Σ is the sum of j (from 1 to n).
Σ (aij + λ) / (1 + nλ) = 1
It becomes.
以上説明した発話推移行列を固有値分解により算出された最大固有ベクトルを図5に示す。同図に示される最大固有ベクトルの横に記載されたn1〜n7は、図3の各ノードに示される「犬が大きくなった」などの文言に対応する。なお、同図に示される最大固有ベクトルは正規化されていない。 FIG. 5 shows the maximum eigenvector calculated by eigenvalue decomposition of the utterance transition matrix described above. N1 to n7 written beside the maximum eigenvector shown in the figure correspond to the words such as “the dog has grown” shown in each node in FIG. The maximum eigenvector shown in the figure is not normalized.
そして、同図に示される応答スコアDBは、発話推移行列の最大固有ベクトルの各要素と応答情報に示される各応答とが対応づけられた情報である。この応答スコアDBでは、同図に示されるように、最大固有ベクトルの各要素をスコアと表現している。 The response score DB shown in the figure is information in which each element of the maximum eigenvector of the utterance transition matrix is associated with each response shown in the response information. In this response score DB, as shown in the figure, each element of the maximum eigenvector is expressed as a score.
上述した図4(A)に示した行列では、ネットワークが存在する場合に要素に「1」が格納されているが、「1」以外の値を格納する方法もある。この方法について説明する。まず、上述した応答知識DBの内容は、ネットワークで公開されているドキュメントから自動的に獲得することができる(例えば、乾他、”接続標識「ため」に基づく文書集合からの因果関係知識の自動獲得”、情報処理学会論文集、vol1,45, No. 3,pp. 919-933, 2004を参照のこと)。 In the matrix shown in FIG. 4A described above, “1” is stored as an element when a network exists, but there is a method of storing a value other than “1”. This method will be described. First, the contents of the response knowledge DB described above can be automatically acquired from documents published on the network (for example, dryness, automatic causal relationship knowledge from a document set based on “connection indicator“ for ”). Acquired ", IPSJ Proceedings, vol1,45, No. 3, pp. 919-933, 2004).
このとき、獲得元の文書集合には重複した応答知識が含まれている場合があるため、この出現カウントを応答知識DBに記憶し、要素にその出現カウントを格納する。 At this time, since there are cases where duplicate response knowledge is included in the document set of the acquisition source, this appearance count is stored in the response knowledge DB, and the appearance count is stored in the element.
上記出現カウントは、発話の結びつきの強さを代表する値と考えられるため、より自然で適切な応答を選択することが可能となる。 Since the appearance count is considered to be a value representative of the strength of utterance connection, a more natural and appropriate response can be selected.
次に、図6を用いて、発話促進応答DBについて説明する。この発話促進応答DBは、応答情報が抽出されなかった場合に、ユーザに次の発話を促す予め定められた応答を示す情報である。ここで、「応答情報が抽出されなかった」とは、応答知識DBにユーザの発話に対応する応答が存在しなかったことを意味する。その場合、対話が終了するため、ユーザに次の発話を促すために発話促進応答DBが用いられる。 Next, the speech promotion response DB will be described with reference to FIG. This utterance promotion response DB is information indicating a predetermined response that prompts the user to utter the next utterance when response information is not extracted. Here, “response information was not extracted” means that there was no response corresponding to the user's utterance in the response knowledge DB. In that case, since the dialogue is ended, the speech promotion response DB is used to prompt the user for the next speech.
同図に示されるように、発話促進応答DBには、「それで?」、「それから?」など、ユーザに次の発話を促す応答が記憶されている。 As shown in the figure, in the utterance promotion response DB, responses that prompt the user to utter the next utterance such as “So?” And “And then?” Are stored.
次に、図7を用いて、応答スコア情報生成装置、及び対話処理装置の機能ブロックについて説明する。同図には、推移行列変換部70、最大固有ベクトル算出部71、発話入力部72、応答選択部73、応答出力部74、応答知識DB80、発話推移行列81、応答スコアDB82、及び発話促進応答DB83が示されている。
Next, functional blocks of the response score information generation device and the dialogue processing device will be described with reference to FIG. In the figure, a transition
このうち、推移行列変換部70は、応答知識DBを、発話情報と応答情報との対応を示す発話推移行列に変換するものである。最大固有ベクトル算出部71は、推移行列変換部70により変換された発話推移行列の最大固有ベクトルを算出するものである。
Among these, the transition
発話入力部72は、ユーザによる発話を音声認識し、ユーザの発話を発話情報として入力するものである。なお、発話入力部72は、例えばユーザが「犬小屋を作ったんだ」と発話した場合にも、発話情報を「犬小屋を作る」として入力する。すなわち、発話入力部72は、名詞と動詞とをマッチングするようになっている。 The utterance input unit 72 recognizes utterances by the user and inputs the utterances of the user as utterance information. Note that the utterance input unit 72 also inputs the utterance information as “create kennel” even when the user utters “I made a kennel”, for example. That is, the utterance input unit 72 is adapted to match a noun and a verb.
応答選択部73は、応答知識DB80から、発話入力部72により入力された発話情報が示す発話に対応する応答を示す応答情報を抽出し、応答スコアDB82から、抽出された応答情報が示す応答に対応する最大固有ベクトルの要素を取得し、取得された要素のうちで最も大きい要素に対応する応答を示す応答情報を選択するものである。
The
また、応答選択部73は、応答情報が抽出されなかった場合には、発話促進応答DB83により記憶された発話促進応答情報を選択するものでもある。
Moreover, the
応答出力部74は、応答選択部73により選択された応答情報を、音声に変換して出力するものである。
The response output unit 74 converts the response information selected by the
また、応答知識DB80、発話推移行列81、応答スコアDB82、及び発話促進応答DB83は上述した通りである。
The
以上説明した機能ブロックにおいて、応答スコア情報生成装置としての機能ブロックは、推移行列変換部70、最大固有ベクトル算出部71、応答知識DB80、発話推移行列81、及び応答スコアDB82を含むものとなる。
In the functional blocks described above, the functional blocks as the response score information generation device include the transition
また、対話処理装置としての機能ブロックは、上記応答スコア情報生成装置としての機能ブロックに加え、発話入力部72、応答選択部73、応答出力部74、及び発話促進応答DB83を含むものとなる。
In addition to the functional block as the response score information generation device, the functional block as the dialogue processing device includes an utterance input unit 72, a
以下、フローチャートを用いてパソコン12で実行される処理について説明する。なお、この処理は上記CPU60により実行されるものである。 Hereinafter, processing executed by the personal computer 12 will be described using a flowchart. This process is executed by the CPU 60.
まず、図8のフローチャートを用いてパソコン12が応答スコア情報生成装置として実行する応答スコア情報生成処理について説明する。なお、このフローチャートでは、図2に示した応答知識DB80における発話とその発話に対応する応答とが発話対と表現されている。
First, a response score information generation process executed by the personal computer 12 as a response score information generation device will be described using the flowchart of FIG. In this flowchart, the utterance in the
まず、ステップ101で、応答知識DB80に記憶された発話対に対応する行列要素を1にする(図4(A)参照)。ステップ102で、応答知識DB80に含まれる全ての発話対に対する上記ステップ101の処理が終了したか否か判断し、終了していない場合には、ステップ101の処理を行い、終了した場合にはステップ103に処理を移行する。
First, in
ステップ103で、1つの同じ行に存在する各要素を、同じ行に存在する要素の総和で割る(図4(B)参照)。その行の要素に対して、ステップ104で上述したスムーシングを行う。次のステップ105で、全ての行に対するステップ103、104の処理が終了したか否か判断し、終了していない場合には、ステップ103の処理を行い、終了した場合にはステップ106に処理を移行する。以上の処理により、応答知識DB80が、発話情報と応答情報との対応を示す発話推移行列に変換される。
In step 103, each element present in one same row is divided by the sum of the elements present in the same row (see FIG. 4B). The smoothing described above is performed in step 104 on the elements in the row. In the
次のステップ106で、上記発話推移行列を固有値分解することにより、最大固有ベクトルを算出する。次のステップ107で、最大固有ベクトルを用いて応答スコアDBを生成し(図5参照)、処理を終了する。
In the
以上説明した応答スコア情報生成処理における上記最大固有ベクトルの各要素は、対応する応答が適切な応答であることの度合いを示すものであるため、対話を長続きさせるための応答スコア情報生成装置を提供することができる。 Since each element of the maximum eigenvector in the response score information generation process described above indicates the degree to which the corresponding response is an appropriate response, a response score information generation device for continuing the dialogue is provided. be able to.
次に、図9のフローチャートを用いてパソコン12が対話処理装置として実行する対話処理について説明する。まず、ステップ201で、ユーザの発話を音声認識し、発話情報を入力する。次のステップ202で、応答知識DB80に記憶されている発話情報のうち、入力された発話情報と比較して、一致するものがあるか否か判断する。ステップ202で、否定判断した場合には、ステップ204に処理が移行する。
Next, dialogue processing executed by the personal computer 12 as the dialogue processing device will be described using the flowchart of FIG. First, in
一方、ステップ202で肯定判断した場合には、ステップ203で、ユーザによる発話情報と一致した応答知識DB80に記憶されている発話に対応する応答を応答候補とし、ステップ204に処理が移行する。
On the other hand, if an affirmative determination is made in
次のステップ204で、応答知識DB80に記憶されている全ての発話情報と、ユーザによる発話情報とを比較したか否か判断し、否定判断した場合には、再びステップ202の処理を行い、肯定判断した場合には、ステップ205に処理が移行する。
In the
上記ステップ202からステップ204の処理により、入力された発話情報が示す発話に対応する応答を示す応答情報(応答候補)が抽出される。
Through the processing from
次のステップ205で、応答候補が0か否か判断する。応答候補が0、すなわち応答情報が抽出されなかった場合には、ステップ206で、発話促進応答DB83から発話促進応答を応答情報として選択し、ステップ209に処理が移行する。
In the
このように、応答候補が抽出されなかった場合には、ユーザに次の発話を促す予め定められた応答を示す発話促進応答情報を選択するので、対話を長続きさせることができる。 As described above, when no response candidate is extracted, utterance promotion response information indicating a predetermined response that prompts the user to utter the next utterance is selected, so that the conversation can be continued for a long time.
一方、ステップ205で、否定判断した場合には、ステップ207で、応答スコアDB82から、応答候補に対応する要素(スコア)を取得し、ステップ208で、最も大きい要素に対応する応答候補を応答情報として選択する。
On the other hand, if a negative determination is made in
次のステップ209で、応答情報を音声に変換して出力し、再びステップ201の処理行う。
In the
この対話処理によれば、例えばユーザが「犬小屋を作る」と発話した場合、「犬が喜ぶ」又は「金槌がいる」が応答候補となる。「犬が喜ぶ」に対応する要素は、0.569であり、「金槌がいる」に対応する要素は、0.012である。従って、「犬が喜ぶ」が応答として選択される。このような言明文には、文末に「ね」を加えて音声出力するような処理にしても良い。 According to this dialogue processing, for example, when the user speaks “make a doghouse”, “the dog is pleased” or “there is a hammer” is a response candidate. The element corresponding to “the dog is pleased” is 0.569, and the element corresponding to “has a hammer” is 0.012. Therefore, “the dog is pleased” is selected as the response. Such a statement may be processed by adding “ne” to the end of the sentence and outputting the sound.
以上説明した対話処理における最大固有ベクトルの各要素は、対応する応答が適切な応答であることの度合いを示すものであるため、ユーザによる発話に対して適切な応答を選択し、その応答を出力することで対話を長続きさせることを可能とする対話処理装置を提供することができる。 Since each element of the maximum eigenvector in the dialog processing described above indicates the degree to which the corresponding response is an appropriate response, an appropriate response is selected for the user's utterance and the response is output. Thus, it is possible to provide a dialogue processing apparatus that makes it possible to continue the dialogue.
12 パソコン
60 CPU
63 HDD
66 マイク
67 スピーカ
70 推移行列変換部
71 最大固有ベクトル算出部
72 発話入力部
73 応答選択部
74 応答出力部
80 応答知識DB
81 発話推移行列
82 応答スコアDB
83 発話促進応答DB
12 PC 60 CPU
63 HDD
66
81
83 Utterance promotion response DB
Claims (3)
前記応答知識情報記憶手段により記憶された前記応答知識情報を、前記発話情報と前記応答情報との対応を示す発話推移行列に変換する変換手段と、
前記変換手段により変換された前記発話推移行列の最大固有ベクトルを算出する算出手段と、
前記算出手段により算出された前記最大固有ベクトルの各要素と前記応答情報に示される各応答とが対応づけられた応答スコア情報を生成する応答スコア情報生成手段と、
前記応答スコア情報生成手段により生成された前記応答スコア情報が記憶される応答スコア情報記憶手段と、
を有する応答スコア情報生成装置。 Response knowledge information storage means storing response knowledge information including a plurality of utterance information indicating utterances, and response information indicating responses corresponding to each of the utterances;
Conversion means for converting the response knowledge information stored by the response knowledge information storage means into an utterance transition matrix indicating correspondence between the utterance information and the response information;
Calculating means for calculating a maximum eigenvector of the utterance transition matrix converted by the converting means;
Response score information generation means for generating response score information in which each element of the maximum eigenvector calculated by the calculation means is associated with each response indicated in the response information;
Response score information storage means for storing the response score information generated by the response score information generation means;
A response score information generation device having
ユーザによる発話を音声認識し、該ユーザの発話を前記発話情報として入力する入力手段と、
前記応答知識情報記憶手段により記憶された前記応答知識情報から、前記入力手段により入力された前記発話情報が示す発話に対応する応答を示す応答情報を抽出する応答情報抽出手段と、
前記応答スコア情報記憶手段により記憶された前記応答スコア情報から、前記応答情報抽出手段により抽出された応答情報が示す応答に対応する前記最大固有ベクトルの要素を取得する要素取得手段と、
前記要素取得手段により取得された要素のうちで最も大きい要素に対応する応答を示す応答情報を選択する応答情報選択手段と、
前記応答情報選択手段により選択された応答情報を、音声に変換して出力する音声出力手段と、
を有する対話処理装置。 A response score information generating device according to claim 1;
Input means for recognizing speech by a user and inputting the user's speech as the speech information;
Response information extraction means for extracting response information indicating a response corresponding to the utterance indicated by the utterance information input by the input means from the response knowledge information stored by the response knowledge information storage means;
Element acquisition means for acquiring the element of the maximum eigenvector corresponding to the response indicated by the response information extracted by the response information extraction means from the response score information stored by the response score information storage means;
Response information selection means for selecting response information indicating a response corresponding to the largest element among the elements acquired by the element acquisition means;
Voice output means for converting the response information selected by the response information selection means into voice and outputting the voice;
A dialogue processing apparatus.
前記応答情報選択手段は、前記応答情報抽出手段により前記応答情報が抽出されなかった場合には、前記発話促進応答情報記憶手段により記憶された発話促進応答情報を選択する請求項2に記載の対話処理装置。 Utterance promotion response information storage means for storing utterance promotion response information indicating a predetermined response that prompts the user for the next utterance;
3. The dialogue according to claim 2, wherein the response information selection unit selects the utterance promotion response information stored in the utterance promotion response information storage unit when the response information is not extracted by the response information extraction unit. Processing equipment.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007135469A JP2008293098A (en) | 2007-05-22 | 2007-05-22 | Answer score information generation device and interactive processor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007135469A JP2008293098A (en) | 2007-05-22 | 2007-05-22 | Answer score information generation device and interactive processor |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008293098A true JP2008293098A (en) | 2008-12-04 |
Family
ID=40167783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007135469A Pending JP2008293098A (en) | 2007-05-22 | 2007-05-22 | Answer score information generation device and interactive processor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008293098A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015075952A (en) * | 2013-10-09 | 2015-04-20 | 日本電信電話株式会社 | Speech generation device, method, and program |
JP2015153261A (en) * | 2014-02-17 | 2015-08-24 | 株式会社デンソーアイティーラボラトリ | Dialogue sentence generating device, dialogue sentence generating method, and program |
CN110704597A (en) * | 2019-09-29 | 2020-01-17 | 北京金山安全软件有限公司 | Dialogue system reliability verification method, model generation method and device |
CN113095165A (en) * | 2021-03-23 | 2021-07-09 | 北京理工大学深圳研究院 | Simulation interview method and device for perfecting interview performance |
-
2007
- 2007-05-22 JP JP2007135469A patent/JP2008293098A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015075952A (en) * | 2013-10-09 | 2015-04-20 | 日本電信電話株式会社 | Speech generation device, method, and program |
JP2015153261A (en) * | 2014-02-17 | 2015-08-24 | 株式会社デンソーアイティーラボラトリ | Dialogue sentence generating device, dialogue sentence generating method, and program |
CN110704597A (en) * | 2019-09-29 | 2020-01-17 | 北京金山安全软件有限公司 | Dialogue system reliability verification method, model generation method and device |
CN110704597B (en) * | 2019-09-29 | 2022-07-29 | 北京金山安全软件有限公司 | Dialogue system reliability verification method, model generation method and device |
CN113095165A (en) * | 2021-03-23 | 2021-07-09 | 北京理工大学深圳研究院 | Simulation interview method and device for perfecting interview performance |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11037553B2 (en) | Learning-type interactive device | |
JP6493866B2 (en) | Information processing apparatus, information processing method, and program | |
JP4267385B2 (en) | Statistical language model generation device, speech recognition device, statistical language model generation method, speech recognition method, and program | |
JP6794921B2 (en) | Interest determination device, interest determination method, and program | |
JP6832501B2 (en) | Meaning generation method, meaning generation device and program | |
TWI610294B (en) | Speech recognition system and method thereof, vocabulary establishing method and computer program product | |
JP2004246368A (en) | Method and device for predicting word error rate from text | |
JP6580882B2 (en) | Speech recognition result output device, speech recognition result output method, and speech recognition result output program | |
JP5753769B2 (en) | Voice data retrieval system and program therefor | |
JP6552999B2 (en) | Text correction device, text correction method, and program | |
JP5180800B2 (en) | Recording medium for storing statistical pronunciation variation model, automatic speech recognition system, and computer program | |
KR102167157B1 (en) | Voice recognition considering utterance variation | |
KR102186641B1 (en) | Method for examining applicant through automated scoring of spoken answer based on artificial intelligence | |
JP6556381B2 (en) | Model learning apparatus and model learning method | |
JP6810580B2 (en) | Language model learning device and its program | |
WO2020110815A1 (en) | Keyword extraction device, keyword extraction method, and program | |
JP2004094257A (en) | Method and apparatus for generating question of decision tree for speech processing | |
JP2008293098A (en) | Answer score information generation device and interactive processor | |
JP2020118929A (en) | Summary generation device, method, program, and storage medium | |
JP2000172294A (en) | Method of speech recognition, device thereof, and program recording medium thereof | |
JP4826719B2 (en) | Speech recognition system, speech recognition method, and speech recognition program | |
JP6546070B2 (en) | Acoustic model learning device, speech recognition device, acoustic model learning method, speech recognition method, and program | |
JP3950957B2 (en) | Language processing apparatus and method | |
JP5381211B2 (en) | Spoken dialogue apparatus and program | |
JP2966002B2 (en) | Voice recognition device |