JP2013016151A - Language processing apparatus - Google Patents
Language processing apparatus Download PDFInfo
- Publication number
- JP2013016151A JP2013016151A JP2012110061A JP2012110061A JP2013016151A JP 2013016151 A JP2013016151 A JP 2013016151A JP 2012110061 A JP2012110061 A JP 2012110061A JP 2012110061 A JP2012110061 A JP 2012110061A JP 2013016151 A JP2013016151 A JP 2013016151A
- Authority
- JP
- Japan
- Prior art keywords
- reference expression
- expression
- domain
- bayesian network
- processing apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、参照表現を処理する参照表現処理装置、該参照表現処理装置を含む言語処理装置及び参照表現処理方法に関する。 The present invention relates to a reference expression processing apparatus that processes a reference expression, a language processing apparatus including the reference expression processing apparatus, and a reference expression processing method.
たとえば、音声対話システムなどを使用して人間とロボットとがコミュニケーションを行う場合を考える。部屋の中に複数の机やいすがあり、人間が「赤い脚の白い机」という参照表現によって一つの机を指定したとする。ここで、参照表現とは話し手が関心を持つ特定の事物を聞き手に対して指し示す言語表現である。ロボットの言語処理装置が、この参照表現から人間の指定した机を特定する作業が参照表現の理解である。また、ロボットの言語処理装置が、ロボットが指定した机を人間に特定させるために、その机を表す、人間に理解しやすい表現を生成することが参照表現の生成である。人間による参照表現は、当然ながら人間の知識に依存するので、ロボットの言語処理装置は、参照表現の理解及び生成に際して、人間の知識に関する情報を利用する必要がある。 For example, consider a case where a human and a robot communicate using a voice dialogue system. Suppose that there are multiple desks and chairs in a room, and that a person has designated one desk by the reference expression “a white table with red legs”. Here, the reference expression is a linguistic expression that indicates a specific thing that the speaker is interested in to the listener. The task of the robot language processing device to specify a desk designated by a person from the reference expression is understanding of the reference expression. In addition, in order for the language processing device of the robot to make the person specified by the robot a human, a reference expression is generated by generating a human-readable expression that represents the desk. Since human reference expressions naturally depend on human knowledge, the robot language processing apparatus needs to use information related to human knowledge in understanding and generating the reference expressions.
言語処理装置が、参照表現の理解及び生成に際して、人間の知識に関する情報を利用するために確率モデルを使用することが考えられる。 It is conceivable that the language processing device uses a probabilistic model to use information about human knowledge in understanding and generating the reference expression.
本出願の出願人と同一の出願人による特許文献1は、参照表現の物体の部分への言及を取り扱う言語処理装置及び該言語処理装置による言語処理において使用される確率演算方法を開示している。
しかし、特許文献1は、対話の進行状況に応じて、記述表現、照応表現及び直示表現を含む参照表現を理解し、生成する仕組みについては開示していない。
However,
したがって、対話の進行状況に応じて、記述表現、照応表現及び直示表現を含む参照表現を理解し、生成する確率モデルを使用した参照表現処理装置、言語処理装置及び参照表現処理方法に対するニーズがある。 Therefore, there is a need for a reference expression processing device, a language processing device, and a reference expression processing method using a probability model that understands and generates a reference expression including a description expression, an anaphoric expression, and a direct expression according to the progress of the dialogue. is there.
本発明の第1の態様による参照表現処理装置は、考えられる指示対象の集合である参照ドメイン(D)、参照ドメイン中の指示対象(X)、指示対象に関する概念(C)及び概念を表現する語(W)の間の関係を表す参照表現ベイジアンネットワークから構成された確率モデルによって、参照表現の理解及び生成の少なくとも一方を行う参照表現処理部と、前記参照表現ベイジアンネットワークを形成するのに必要なデータを記憶する記憶部と、を備えている。 The reference expression processing apparatus according to the first aspect of the present invention expresses a reference domain (D) that is a set of possible instruction objects, an instruction object (X) in the reference domain, a concept (C) and an object related to the instruction object. Necessary for forming the reference expression Bayesian network, and a reference expression processing unit for understanding and generating the reference expression by a probability model composed of the reference expression Bayesian network representing the relationship between the words (W) And a storage unit for storing various data.
本態様による参照表現処理装置は、指示対象(X)、指示対象に関する概念(C)及び概念を表現する語(W)の間の関係を表す参照表現ベイジアンネットワークから構成された確率モデルを使用するので、記述表現、照応表現及び直示表現を含む参照表現を理解し、生成することができる。また、表現ベイジアンネットワークは、考えられる指示対象の集合である参照ドメイン(D)を含むので、該参照表現処理装置は、状況に応じて参照表現を処理することができる。 The reference expression processing apparatus according to this aspect uses a probability model composed of a reference expression Bayesian network that represents a relationship between an instruction object (X), a concept (C) related to the instruction object, and a word (W) expressing the concept. Therefore, it is possible to understand and generate reference expressions including descriptive expressions, anaphoric expressions, and direct expressions. Further, since the expression Bayesian network includes a reference domain (D) that is a set of possible instruction targets, the reference expression processing apparatus can process the reference expression according to the situation.
本発明の一つの実施形態による参照表現処理装置は、前記参照表現ベイジアンネットワークが対話の進行中に参照表現の処理ごとに形成されるように構成されている。 A reference expression processing apparatus according to an embodiment of the present invention is configured such that the reference expression Bayesian network is formed for each processing of a reference expression while a dialog is in progress.
本実施形態の参照表現処理装置によれば、対話の進行状況に合わせて参照表現を処理することができる。 According to the reference expression processing apparatus of the present embodiment, it is possible to process the reference expression in accordance with the progress of the dialogue.
本発明の一つの実施形態による参照表現処理装置は、参照表現の種類によって、前記参照ドメインの定め方を変えるように構成されている。 A reference expression processing device according to an embodiment of the present invention is configured to change the way of determining the reference domain according to the type of reference expression.
本実施形態の参照表現処理装置によれば、参照表現の種類を考慮することにより、より高い精度で参照表現を処理することができる。 According to the reference expression processing apparatus of this embodiment, the reference expression can be processed with higher accuracy by considering the type of the reference expression.
本発明の一つの実施形態による参照表現処理装置は、参照表現が指示詞を含む場合に前記参照ドメインが全ての要素(指示可能な対象)を含むように構成されている。 A reference expression processing device according to an embodiment of the present invention is configured such that, when a reference expression includes an indicator, the reference domain includes all elements (objects that can be specified).
本実施形態の参照表現処理装置によれば、参照表現が指示詞を含む場合に、参照ドメインとして全ての要素を含む単一の参照ドメインだけを考慮することにより、より高い精度で参照表現を処理することができる。 According to the reference expression processing apparatus of the present embodiment, when the reference expression includes a directive, the reference expression is processed with higher accuracy by considering only a single reference domain including all elements as the reference domain. can do.
本発明の一つの実施形態による参照表現処理装置は、参照ドメインの顕現性をパラメータとする、参照ドメインの複数の推定モデルを形成し、参照表現の指示対象が単一物か集合かによって、前記複数の推定モデルのうちの一つを選択して使用するように構成されている。 A reference expression processing device according to an embodiment of the present invention forms a plurality of estimation models of a reference domain using the manifestation of the reference domain as a parameter, and determines whether the reference expression instruction target is a single object or a set. One of the plurality of estimation models is selected and used.
本実施形態の参照表現処理装置によれば、参照表現の指示対象が単一物か集合かによって、複数の推定モデルのうちの一つを選択して使用することにより、より高い精度で参照表現を処理することができる。 According to the reference expression processing apparatus of the present embodiment, a reference expression can be obtained with higher accuracy by selecting and using one of a plurality of estimation models depending on whether the target object of the reference expression is a single object or a set. Can be processed.
本発明の第2の態様の言語処理装置は、本発明による参照表現処理装置を備えている。 The language processing apparatus according to the second aspect of the present invention includes the reference expression processing apparatus according to the present invention.
本態様の言語処理装置は、本発明による参照表現処理装置を備えているので、上述のように参照表現を高い精度で処理することができる。 Since the language processing apparatus of this aspect includes the reference expression processing apparatus according to the present invention, the reference expression can be processed with high accuracy as described above.
本発明の第3の態様による参照表現処理方法は、言語処理装置の参照表現処理部が、記憶部に記憶されたデータを使用して、参照表現に対して、参照ドメイン(D)、参照ドメイン中の指示対象(X)、指示対象に関する概念(C)及び概念を表現する語(W)の間の関係を表す参照表現ベイジアンネットワークを形成するステップと、前記参照表現処理部が、前記ベイジアンネットワークを周辺化して、確率P(X|W)を求めるステップと、前記参照表現処理部が、確率P(X|W)を最大とするx’を求め、前記参照表現の指示対象とするステップと、を含む。 In the reference expression processing method according to the third aspect of the present invention, the reference expression processing unit of the language processing device uses the data stored in the storage unit to perform the reference domain (D) and the reference domain on the reference expression. Forming a reference expression Bayesian network representing a relationship between a pointing object (X), a concept (C) related to the pointing object, and a word (W) expressing the concept, and the reference expression processing unit includes the Bayesian network And obtaining the probability P (X | W), and the reference expression processing unit obtaining x ′ that maximizes the probability P (X | W), and setting the reference expression as an instruction target; ,including.
本態様による参照表現処理方法は、指示対象(X)、指示対象に関する概念(C)及び概念を表現する語(W)の間の関係を表す参照表現ベイジアンネットワークから構成される確率モデルを使用するので、記述表現、照応表現及び直示表現を含む参照表現を理解し、生成することができる。また、表現ベイジアンネットワークは、考えられる指示対象の集合である参照ドメイン(D)を含むので、該参照表現処理方法によれば、状況に応じて参照表現を処理することができる。 The reference expression processing method according to this aspect uses a probability model composed of a reference expression Bayesian network that represents a relationship between an instruction object (X), a concept (C) related to the instruction object, and a word (W) expressing the concept. Therefore, it is possible to understand and generate reference expressions including descriptive expressions, anaphoric expressions, and direct expressions. Further, since the expression Bayesian network includes a reference domain (D) that is a set of possible instruction targets, according to the reference expression processing method, it is possible to process the reference expression according to the situation.
図1は、本発明の一実施形態による言語処理装置100の構成を示す図である。言語処理装置100は、単一または複数のプロセッサ及び単一または複数のメモリによって構成してもよい。 FIG. 1 is a diagram showing a configuration of a language processing apparatus 100 according to an embodiment of the present invention. The language processing apparatus 100 may be configured by a single or a plurality of processors and a single or a plurality of memories.
言語処理装置100は、特徴的な構成要素として、参照表現処理部101及び記憶部105を備える。
The language processing apparatus 100 includes a reference
参照表現処理部101は、ある参照表現が候補の指示対象を表す確率を演算するための確率モデルを備える。記憶部101は、該確率モデルが使用するデータを記憶する。参照表現処理部101は、対話の進行の状況に応じて該確率モデルを更新する。参照表現処理部101は、参照表現の理解の際に、すなわち、参照表現が表す指示対象を特定する際に、確率モデルに基づいて参照表現が候補の指示対象を表す確率を演算し、確率が最大となる候補の指示対象を、該参照表現が表す指示対象として特定する。また、参照表現選択部107は、参照表現の生成の際に、すなわち、指示対象を表す参照表現を選択する際に、候補の参照表現が該指示対象を表す確率を演算し、確率が最大となる参照表現を、該指示対象を表す参照表現として選択する。参照表現処理部101及び記憶部105は、参照表現処理装置を構成する。参照表現処理装置の構成要素の詳細については後で説明する。
The reference
音声認識部115は、たとえば、人間の音声を認識し、言語の最小単位である形態素に分けて、辞書によりそれぞれの形態素の品詞を定める。構造解析部111は、音声認識部115によって得られた形態素の情報から文章の構造を解析する。
For example, the
表層実現部113は、参照表現処理部101が生成した参照表現を含む自然言語の表現を生成する。音声合成/表示部117は、自然言語の表現を音声合成し、または表示する。
The surface
言語処理装置100は、他に言語理解処理部103、言語生成処理部107及び対話管理部109を備える。言語理解処理部103は、構造解析部111から構造解析の結果を受け取り、参照表現処理部101が行う参照表現の処理以外の言語処理を行い、その結果を対話管理部109へ送る。言語生成処理部107は、参照表現処理部101が行なう参照表現の生成以外の言語生成を行ない、その結果を表層実現部113へ送る。対話管理部109は、参照表現処理部101から参照表現が表す指示対象を受け取り、言語理解処理部121から、参照表現処理部101が行う参照表現の処理以外の言語処理の結果を受け取り、受け取った入力の処理を行う。対話管理部109は、入力または他の条件に基づいて出力を作成し、参照表現処理部101及び言語生成処理部107へ送る。参照表現処理部101は、対話管理部109の出力を受け取って適切な参照表現を生成する。また、言語生成処理部107は、対話管理部109の出力を受け取って参照表現の選択以外の言語生成を行なう。
The language processing apparatus 100 further includes a language
ここで、参照表現処理部101が使用する確率モデルについて説明する。確率モデルは、参照表現ベイジアンネットワークを使用する。
Here, the probability model used by the reference
図2は、参照ベイジアンネットワークの基本ネットワーク構造を示す図である。図2において、4個のノードW、C、X及びDは、観測される語、該語によって指示される概念、参照表現の指示対象、及び想定される参照ドメインをそれぞれ表す。語は、後で説明する概念辞書の項目である。 FIG. 2 is a diagram illustrating a basic network structure of a reference Bayesian network. In FIG. 2, four nodes W, C, X, and D represent an observed word, a concept indicated by the word, an indication target of a reference expression, and an assumed reference domain, respectively. A word is an item of a concept dictionary described later.
ここで、参照ドメイン(Susan Salmon-Art and Laurent Romary. 2000. Generating referring expressions in multimodal context. In Proceedings of the INLG 2000 workshop on Conference in Generated Multimedia, Mitzpe Ramon, Israel, June; Susan Salmon-Art and Laurent Romary. 2001. Reference resolution within the framework of cognitive grammar. In Proceedings of the International Colloquium on Cognitive Science, San Sabastian, Spain, May; and Alexandre Dennis. 2010. Generating referring expressions with reference domain theory. In Proceedings of the 6th International Natural Language Generating Conference (INLG), pages 27-35)について説明する。参照ドメインは、指示対象を含む集合である。参照ドメインに含まれる要素は、個々の具体物であっても他の参照ドメインであってもよい。各参照ドメインdは、焦点及び顕現性の程度(負でない実数)を有する。焦点及び顕現性の程度は、それぞれ、foc(d)及びsal(d)で表される。参照ドメインは、顕現性にしたがって降順にソートされる。 Here, the reference domain (Susan Salmon-Art and Laurent Romary. 2000. Generating referring expressions in multimodal context. In Proceedings of the INLG 2000 workshop on Conference in Generated Multimedia, Mitzpe Ramon, Israel, June; Susan Salmon-Art and Laurent Romary 2001. Reference resolution within the framework of cognitive grammar.In Proceedings of the International Colloquium on Cognitive Science, San Sabastian, Spain, May; and Alexandre Dennis. 2010. Generating referring expressions with reference domain theory.In Proceedings of the 6 th International Natural Language Generating Conference (INLG), pages 27-35). The reference domain is a set including the instruction target. The elements included in the reference domain may be individual specific objects or other reference domains. Each reference domain d has a focus and a degree of manifestation (a non-negative real number). The degree of focus and manifestation is expressed as foc (d) and sal (d), respectively. Reference domains are sorted in descending order according to manifestation.
図5は、7個のピースからなるタングラム・パズルを解いている場面を示す図である。タングラム・パズルについては後で説明する。参照ドメインは、参照表現を聴くことによって言語によって、あるいは、物理的な状況を観察することによって視覚によって、対話参加者の知的な空間に導入される。図5に示す状況で「2個の大きな三角形」と言われた場合には、ピース1及び2から構成される参照ドメインが認識される。もし、ピース1を動かしてピース2に付けた場合には、近接度からピース1、2及び6から構成される参照ドメインが感覚的に認識される(Kristinn R. Thorisson. 1994. Simulated perceptual grouping: An application to human-computer interaction. In Proceedings of the 16th annual Conference of the Cognitive Science Society, pages 876-881, Atlanta, GA, USA)。同様にして、ピース5及び7から構成される参照ドメインも認識される。以下において、参照ドメインを、インデクスを付した@で示し、その要素を[]で囲んで示す。たとえば、@1=[1,2]、@2=[1,2,6]、@3=[5,7]などである。焦点の要素には、*印をつける。たとえば、foc([1*,2])=1である。
FIG. 5 is a diagram showing a scene in which a tangram puzzle consisting of seven pieces is being solved. The tangram puzzle will be explained later. The reference domain is introduced into the intellectual space of the dialog participant either by language by listening to the reference expression or visually by observing the physical situation. In the situation shown in FIG. 5, when “two large triangles” are referred to, a reference domain composed of
参照ドメインの指示対象は、どの参照ドメインが想定されるかによって異なる。すなわち、@1=[1,2]または@2=[1,2,6]が想定されれば、「右のピース」の指示対象は、ピース1である。@3=[5,7]が想定されれば、「右のピース」の指示対象は、ピース5である。
The reference target of the reference domain differs depending on which reference domain is assumed. That is, if @ 1 = [1,2] or @ 2 = [1,2,6] is assumed, the instruction target of “right piece” is
参照ドメインに関する上記の文献は、確率的なアプローチではなく論理記号演算に基づくアプローチを採用している。 The above literature on the reference domain adopts an approach based on logical symbolic operation rather than a probabilistic approach.
図3は、「そのテーブル」のような1個の指示対象を示す参照表現の参照ベイジアンネットワークを示す図である。このように、人間が1つのまとまりとして認識する指示対象への参照表現を単位参照表現と呼称する。上記の例の他に、「赤いボール」、「あの夫婦」、「隣の部屋」、「昨日」といった参照表現は単位参照表現である。 FIG. 3 is a diagram illustrating a reference Bayesian network of a reference expression indicating one indication target such as “the table”. In this way, a reference expression to an instruction target that a human recognizes as one unit is called a unit reference expression. In addition to the above example, reference expressions such as “red ball”, “that couple”, “next room”, and “yesterday” are unit reference expressions.
図4は、「彼のテーブル」のような2個の指示対象を示す参照表現の参照ベイジアンネットワークを示す図である。このように、2以上の単位参照表現を含む参照表現を複合参照表現と呼称する。上記の例の他に、「僕のボール」、「机の上」、「去年の12月」といった参照表現は複合参照表現である。 FIG. 4 is a diagram illustrating a reference Bayesian network of a reference expression indicating two target objects such as “his table”. As described above, a reference expression including two or more unit reference expressions is referred to as a composite reference expression. In addition to the above example, reference expressions such as “my ball”, “on the desk”, and “December last year” are compound reference expressions.
参照ベイジアンネットワークは、複合参照表現を処理することもできるが、以下においては、簡単のため、単位参照表現を処理する場合について説明する。 Although the reference Bayesian network can process a composite reference expression, a case where a unit reference expression is processed will be described below for the sake of simplicity.
N語の単位参照表現インスタンス用の参照ベイジアンネットワークは、2N+2個の個別のランダム変数W1,・・・,Wn,C1・・・,Cn,X及びDを有する。各変数の領域は、その時点におけるコンテキスト及び対応する参照ドメインによって定まる。ここで、
参照ベイジアンネットワークを使用した指示対象の求め方は、
参照ベイジアンネットワークで使用されるすべてのランダム変数は離散的であるので、確率分布は、確率表として与えられる。参照ベイジアンネットワークで使用される4個の確率表について以下に説明する。
ほとんどの場合に、WiはXに依存しない。すなわち、
確率の割り当てにはいくつかの方法が考えられる。一つの簡単な方法は以下のとおりである。各々の
たとえば、図5に示すような状況において、位置的概念「左」の適合度関数は、以下のように実装される。
一様モデル
このモデルは顕現性を無視する。このモデルは、顕現性の重要度を理解するために導入する。
このモデルは、顕現性に比例するように確率を分配する。
このモデルは、最近の参照ドメインを強調する。この関数は、いわゆるソフト・マックスである。
Uniform model This model ignores the manifestation. This model is introduced to understand the importance of manifestation.
図6は、参照表現処理部101による参照表現の理解の処理を示す流れ図である。
FIG. 6 is a flowchart showing a reference expression understanding process performed by the reference
図6のステップS1010において、参照表現処理部101がすべての考えられる指示対象xについて、参照表現ベイジアンネットワーク(REBN)を作成し、確率
図6のステップS1020において、参照表現処理部101は、確率
図7は、図6のステップS1010の詳細な処理を説明するための流れ図である。 FIG. 7 is a flowchart for explaining detailed processing of step S1010 of FIG.
図7のステップS2010において、参照表現処理部101がP(D)を求める。P(D)の求め方は上述のとおりである。
In step S2010 in FIG. 7, the reference
図7のステップS2020において、参照表現処理部101が
図7のステップS2030において、参照表現処理部101が
図7のステップS2040において、参照表現処理部101が
図7のステップS2050において、参照表現処理部101が
図7のステップS2060において、参照表現処理部101が
図8は、参照表現処理部101による参照表現の生成の処理を示す流れ図である。
FIG. 8 is a flowchart showing a process of generating a reference expression by the reference
図8のステップS3010において、参照表現処理部101は、指示対象xを受け取り、Wの候補を定める。
In step S3010 of FIG. 8, the reference
図8のステップS3020において、参照表現処理部101は、参照表現ベイジアンネットワークを使用して、図7の流れ図に示した手順により
図8のステップS3030において、参照表現処理部101は、全てのWについて処理を行ったかどうか判断する。全てのWについて処理を行っていれば、ステップS3040に進む。全てのWについて処理を行っていなければ、ステップS3020に戻る。
In step S3030 of FIG. 8, the reference
図8のステップS3040において、参照表現処理部101は、指示対象xに対して、
このように、本実施形態による参照表現部は、参照表現ベイジアンネットワークを使用した単一の確率モデルにより、参照表現の理解と生成の処理を行うことができる。 As described above, the reference expression unit according to the present embodiment can perform the process of understanding and generating the reference expression using a single probability model using the reference expression Bayesian network.
本実施形態による参照表現処理の評価を行うための実験について説明する。 An experiment for evaluating reference expression processing according to the present embodiment will be described.
評価用データとしてREX−Jコーパス(Phlipp Spanger, Masaaki Yasuhara, Ryu Iida, Takenobu Tokunaga, Asuka Terai, and Naoko Kuriyama. 2010. REX-J: Japanese referring expression corpus of situated dialog. Language Resources and Evaluation. Online First, DOI: 10.1007/s10579-010-9134-8)を使用した。REX−Jコーパスは、24個の人間−人間対話から構成され、それぞれの対話において、二人の参加者が、図5に示す7個のピースのタングラム・パズルを解く。パズルのゴールは、指定された形状を形成するように7個のピースを組み合わせることである。二人の被験者のうちの一人は、操作する人(OP)の役割を果たし、他の一人は解く人(SV)の役割を果たす。OPは、マウスを操作することによってパソコンのモニター上に表示された仮想パズルピースを操作することができるがゴールの形状は知らない。SVは、ゴールの形状を知っているが、ピースを操作することはできない。ピース及びOPによって操作されるマウスカーソルの状態は、リアルタイムに二人の被験者によって共有される。このようにして二人の参加者は、ピースへの多数の参照表現を含む協力的な対話を進める。参照表現に加えて、ピースの位置及び方向、マウスカーソルの位置、及びOPによる操作が、タイムスタンプ及び指示対象ピースのIDとともに記録された。 REX-J Corpus (Phlipp Spanger, Masaaki Yasuhara, Ryu Iida, Takenobu Tokunaga, Asuka Terai, and Naoko Kuriyama. 2010. REX-J: Japanese referring expression corpus of located dialog. Language Resources and Evaluation. Online First, DOI: 10.1007 / s10579-010-9134-8) was used. The REX-J corpus is composed of 24 human-human dialogues, in which two participants solve the seven piece tangram puzzle shown in FIG. The goal of the puzzle is to combine seven pieces to form a specified shape. One of the two subjects plays the role of the operator (OP) and the other one plays the role of the solver (SV). The OP can operate the virtual puzzle piece displayed on the monitor of the personal computer by operating the mouse, but does not know the shape of the goal. The SV knows the shape of the goal but cannot manipulate the pieces. The state of the mouse cursor operated by the piece and the OP is shared by the two subjects in real time. In this way, the two participants advance a collaborative dialogue involving multiple reference expressions to the piece. In addition to the reference expression, the position and direction of the piece, the position of the mouse cursor, and the operation by the OP were recorded together with the time stamp and the ID of the pointing target piece.
表1は、指示対象を付記したそれぞれの参照表現を示す表である。表1の1番目の参照表現「おっきい三角形」はあいまいであり、ピース1または2を指す。7番目及び8番目の参照表現はピース1及び2の集合を指す。その他の参照表現は、個別のピースを指す。
参照表現の構造解析のエラーによる問題を避けるために、参照ベイジアンネットワークが構成されるもとになる中間構造(REX-graph)も付記した。中間構造は、カッコ内の分離された単語のリストである。 In order to avoid problems due to errors in structural analysis of reference expressions, an intermediate structure (REX-graph) from which the reference Bayesian network is constructed is also added. The intermediate structure is a list of separated words in parentheses.
確率計算には、BNJ(http://bnj.sourceforge.net/)を使用する。以下において、多かれ少なかれREX−Jコーパスのタスク領域に特有の具体化について説明する。 BNJ (http://bnj.sourceforge.net/) is used for the probability calculation. In the following, more or less specific implementations specific to the task area of the REX-J corpus will be described.
図9は、REX−Jコーパスに対して定義された概念辞書の抜粋を示す図である。対話を観察することにより40個の概念を定義した。 FIG. 9 is a diagram showing an excerpt of the concept dictionary defined for the REX-J corpus. Forty concepts were defined by observing the dialogue.
図10は、図5に示す7個のピースに対して定義された静的適合度表の抜粋を示す図である。40個の概念のうち13個に対して適合度の値を定めた。OBJは、全てのピースに対して、一様にかつ完全に適合する。FIGは、全てのピースに対して、一様ではあるが、それほど適合しない。TRIは、ピース1乃至5に対してのみ適合する。SQRは、ピース6及び7に対してのみ適合するが、ピース7は厳密な意味では、”square”ではないので、完全には適合しない。
FIG. 10 is a diagram showing an excerpt of the static fitness table defined for the seven pieces shown in FIG. Goodness-of-fit values were determined for 13 out of 40 concepts. The OBJ fits uniformly and perfectly for all pieces. FIG is uniform for all pieces, but not very well suited. TRI fits only for pieces 1-5. SQR only fits for
残りの27個の概念に適合度関数を実装した。その一部について以下に説明する。 The fitness function was implemented in the remaining 27 concepts. Some of these will be described below.
「もう一つの」(ANOTHER)
参照ドメインdの要素の中で焦点となっているものをfocus(d)で表す。
xが群でその要素が2個であるとき1とする。
この表現は組み上がっているピースの群を参照する。そこで、xが単一ピースの場合(single(x)=true)は静的適合表から得た数値rとし、xが群であり互いに接続して形をなしている場合(shape(x)=true)は1とする。
すべての参照ドメインは、自分自身への特殊な参照(自己参照)をその要素に含むと考える。つまり、
The focus element among the elements of the reference domain d is represented by focus (d).
Set to 1 when x is a group and there are two elements.
This representation refers to a group of assembled pieces. Therefore, when x is a single piece (single (x) = true), the numerical value r obtained from the static fit table is used, and when x is a group and connected to each other (shape (x) = true) is 1.
Every reference domain considers its element to contain a special reference to itself (self-reference). In other words,
つぎに、参照ドメインのリストについて説明する。参照解決(参照表現の理解)の進行に応じて、参照ドメインはリストに追加され、以下の手順で更新される。リストにおいて参照ドメインは、顕現性にしたがって降順でソートされる。 Next, a list of reference domains will be described. As the reference resolution (understands the reference expression) progresses, the reference domain is added to the list and updated as follows. The reference domains in the list are sorted in descending order according to the manifestation.
参照解決ごとに、全ての従前の参照表現は、正しく解決されると仮定する。したがって、それぞれの参照解決時点後に、最後の参照表現の正しい指示対象が集合であれば、該集合と同じ新たな参照ドメインが、参照ドメインのリストに含まれない限り、参照ドメインのリストに追加する。いずれの場合にも、該集合と同じ参照表現が既に参照ドメインのリストの先頭でない限り、該集合と同じ参照表現の顕現性をσ+1とする。ここで、シグマは、その時点における参照ドメインのリスト内の最大の顕現性の値、すなわち、先頭の参照ドメインの顕現性の値である。 For each reference resolution, assume that all previous reference expressions are resolved correctly. Therefore, after each reference resolution time point, if the correct reference target of the last reference expression is a set, a new reference domain that is the same as the set is added to the list of reference domains unless it is included in the list of reference domains. . In any case, unless the same reference expression as the set is already at the top of the list of reference domains, the manifestation of the same reference expression as the set is set to σ + 1. Here, sigma is the maximum visibility value in the list of reference domains at that time, that is, the visibility value of the leading reference domain.
それぞれの参照解決時点前に、先行する参照表現の後に一番最近に操作されたピースが、知覚的な群を構成するかどうかを、後で説明する知覚的群化によって目標参照表現の開始時に確認する。群が認識されれば、認識された群と同じ新たな参照ドメインが、参照ドメインのリストに含まれていない限り、参照ドメインのリストに追加する。いずれの場合にも、該集合と同じ参照ドメインが既に参照ドメインのリストの先頭でない限り、該集合と同じ参照ドメインの顕現性をσ+1とし、該集合と同じ参照ドメインの焦点は一番最近に操作されたピースに設定される。 Before each reference resolution point, whether the most recently manipulated piece after the preceding reference expression constitutes a perceptual group is determined at the start of the target reference expression by a perceptual grouping described later. Check. If the group is recognized, the same new reference domain as the recognized group is added to the list of reference domains unless it is included in the list of reference domains. In any case, unless the same reference domain as the set is already at the top of the list of reference domains, the manifestation of the same reference domain as the set is set to σ + 1, and the focus of the same reference domain as the set is operated most recently. Set to a piece.
新しい参照ドメイン@mがリストに追加されたとき、その補集合の参照ドメイン@n及び包括参照ドメイン@lも、リストの@mの後に挿入される。ここで、
知覚的群化について説明する。ここでは、2個のピース間の最短距離が所定値以下である時に該2個のピースは接触しているとみなし、接触しているピースの集合だけを群として認識する。この方法は、汎用的ではないが、タングラム・パズルの性質によりREX−Jコーパスの領域では満足に機能する。 Describe perceptual grouping. Here, when the shortest distance between two pieces is less than or equal to a predetermined value, the two pieces are considered to be in contact with each other, and only a set of the pieces in contact is recognized as a group. Although this method is not universal, it works satisfactorily in the REX-J corpus domain due to the nature of the tangram puzzle.
図11は、参照ドメインのリストを使用して
図11のステップS4010において、対話管理部109は、参照表現処理部101による参照解決の直前に、知覚的群化の結果に基づき、参照ドメインのリストを更新する。
In step S4010 of FIG. 11, the
図11のステップS4020において、参照表現処理部101は、参照ドメインのリストから求めた顕現性を、上述の顕現性のモデルに入力して
図11のステップS4030において、対話管理部109は、参照表現処理部101による参照解決の直後に、その結果に応じて、参照ドメインのリストを更新する。
In step S4030 of FIG. 11, the
上述のように、予測モデル
目標が集合、すなわち参照ドメインである場合には、集合に対する談話素性は、ピースの場合のように計算される。一方、マウスカーソル素性は異なる仕方で処理される。すなわち、グループのメンバーの一つがマウスカーソル素性の基準を満たせば、そのグループは基準を満たすと判断される。 If the goal is a set, ie a reference domain, the discourse features for the set are calculated as in the case of pieces. On the other hand, mouse cursor features are handled differently. That is, if one of the group members satisfies the mouse cursor feature criterion, the group is determined to satisfy the criterion.
ランクは、
d内にxがなければ、
評価には24個の対話を使用した。24個の対話は、1474個の単位参照表現と28個の複合参照表現を含む。複合参照表現の他に、適合度関数を短時間で具体化するのが困難な複雑な概念に言及する参照表現を除外した。これらの参照表現を除外した後、1310個の参照表現が利用可能であった。1310個の参照表現のうち、182個の(13.9%)は集合を指し、612個(46.7%)は、「それ」などの指示代名詞である。 24 dialogues were used for evaluation. The 24 interactions include 1474 unit reference expressions and 28 compound reference expressions. In addition to compound reference expressions, we excluded reference expressions that refer to complex concepts that are difficult to instantiate the fitness function in a short time. After excluding these reference expressions, 1310 reference expressions were available. Of the 1310 reference expressions, 182 (13.9%) refer to the set, and 612 (46.7%) are pronouns such as “it”.
実験において以下の条件を前提とする。
話者の役割の独立性
参照表現は、話者の役割、すなわち、「解く人」及び「操作する人」から独立しているとする。すべての参照表現は、混合され連続的に処理される。
完全な処理および過去の情報
音声認識、形態素解析および構文解析を含む前処理から誤りは生じないとする。さらに、過去の参照表現の全ての正しい指示対象は既知であるとする。
未来情報なし
人間間の対話において、しばしば、参照表現の解決に役立つ情報が参照表現が発せられた後に与えられる。このような未来の情報は考慮しない。
数の情報
英語を含む多数の言語は、冠詞、名詞の単数形・複数形及び連辞などを使用して数の区別を示すことを要求する。日本語はそのような文法的な仕組みを有さないが、言語的情報及び身振りの情報を用いる機械学習技術を使用してそのような区別を予測することができる。そこで、そのような数の情報を与える効果を観察した。以下の実験において、正しい指示対象の注釈を事前に見ることによって、単数・複数の区別の情報を参照ベイジアンネットワークに与える。このことは、特別の証拠ノードC0を追加することによって達成される。ここで、
Suppose that the speaker role independence reference expression is independent of the speaker role, ie, the "solver" and the "manipulator". All reference expressions are mixed and processed sequentially.
It is assumed that no errors arise from the complete processing and preprocessing including past information speech recognition, morphological analysis and syntax analysis. Furthermore, it is assumed that all correct instruction targets of past reference expressions are known.
No future information In human-to-human dialogue, information that is useful for resolving reference expressions is often given after the reference expression is issued. Such future information is not considered.
Numerous information Many languages, including English, require the use of articles, noun singular / plural forms and collocations to indicate the distinction of numbers. Japanese does not have such a grammatical mechanism, but such distinctions can be predicted using machine learning techniques using linguistic information and gesture information. Therefore, the effect of giving such a number of information was observed. In the following experiment, the reference Bayesian network is provided with information for distinguishing the singular and plural by looking at the annotation of the correct pointing object in advance. This is achieved by adding a special evidence node C0. here,
実験のベースラインとして、単一ドメインと呼ばれる
本実験において、参照表現が指示詞を含む場合には、上述のモデルによる参照ドメインを使用するよりも単一ドメインを使用する方が、性能が向上した。以下の結果において、参照表現が指示詞を含む場合には、常に単一ドメインを使用した。 In this experiment, when the reference expression includes a directive, performance is improved by using a single domain rather than using a reference domain according to the above model. In the following results, a single domain was always used when the reference expression included a directive.
表2は、実験結果を示す表である。参照解決の性能は、カテゴリーごと及び条件ごとに正確さで表される。ここで、正確さは、正しく解決された参照表現の数を参照表現の数で割った値である。
評価に当たり、「単数」、「複数」及び「全体」の3個のカテゴリーを設定した。「単数」カテゴリーは、単一のピースを指す参照表現の集まりである。「複数」は、ピースの集合を指す参照表現の集まりである。「全体」は、それらの和である。表1の一番目のようなあいまいな参照表現は、「単一」として数え、解決された結果が考えられる指示対象のうちの一つであれば、そのような参照表現の解決は正しいと考える。 For the evaluation, three categories of “single”, “plural” and “whole” were set. The “single” category is a collection of reference expressions that point to a single piece. “Plural” is a collection of reference expressions indicating a collection of pieces. “Whole” is the sum of them. The ambiguous reference expression such as the first in Table 1 is counted as “single”, and if the resolved result is one of the possible target objects, the resolution of such a reference expression is considered correct. .
「単複情報なし」は、単数・複数の区別の情報なしの実験結果を示し、「単複情報あり」は、単数・複数の区別の情報ありの実験結果を示す。単数・複数の情報は、明らかに強い影響力を有する。 “No single / multiple information” indicates an experimental result without single / multiple distinction information, and “with single / multiple information” indicates an experimental result with single / multiple distinction information. The singular / plural information clearly has a strong influence.
「単数」カテゴリーに対する最良の性能は、線形モデルによって達成されたが、「複数」に対する最良の性能は「指数モデル」によって達成された。参照表現が「単数」のものであるか「複数」のものであるか知ることができれば、すなわち、単数・複数の情報が利用できれば、適切な
参照ドメインを導入することによって、「複数」カテゴリーにおける解決は、顕著に向上した。最大の性能の増加は、9.3ポイントである(符号検定、p<0.005)。 By introducing a reference domain, the resolution in the “multiple” category was significantly improved. The maximum performance increase is 9.3 points (sign test, p <0.005).
さらに、LEFT及びRIGHTなどの位置概念を含むより多くの参照表現が、一様、線形及び指数モデルの場合に正しく解決された。 In addition, more reference representations, including location concepts such as LEFT and RIGHT, were solved correctly for uniform, linear and exponential models.
表3は、単数・複数の情報を使用した4個の位置概念の解決結果をまとめた表である。表3の数値は、全体の数または正解の数である。ベースラインである単一モデルは65%を解決したが、線形モデルは75%を正しく解決した(符号検定、p<0.05)。
解決ごとに、問題の参照表現に対して専用のベイジアンネットワークが構築される。構築された参照表現ベイジアンネットワークは、記述、直示または照応の参照表現を統一的な仕方で処理する。参照表現ベイジアンネットワークは、コンテキスト依存の属性を使用して参照表現を解決し、集合に応じて参照表現を処理することを可能とする参照ドメインの考えを組み込んでいる。参照表現ベイジアンネットワークは、スマートフォン、自動車システム、サービス用ロボットなどのパーソナル・エイジェントのような任意かつ全てのタスク指向の応用に対して使用することのできる標準的なアプローチとなりうる。 For each solution, a dedicated Bayesian network is built for the reference representation of the problem. The constructed reference expression Bayesian network handles description, direct or anaphoric reference expressions in a unified way. Reference expression Bayesian networks incorporate the idea of a reference domain that allows contextual attributes to be used to resolve a reference expression and to process the reference expression according to a set. Reference representation Bayesian networks can be a standard approach that can be used for any and all task-oriented applications such as personal agents such as smartphones, automotive systems, service robots, and the like.
100…言語処理装置、101…参照表現処理部、103…言語理解処理部、105…記憶部、107…言語生成処理択部、109…対話管理部 DESCRIPTION OF SYMBOLS 100 ... Language processing apparatus, 101 ... Reference expression process part, 103 ... Language understanding process part, 105 ... Memory | storage part, 107 ... Language generation process selection part, 109 ... Dialog management part
Claims (7)
前記参照表現ベイジアンネットワークを形成するのに必要なデータを記憶する記憶部と、を備えた参照表現処理装置。 A reference expression Bayesian network representing a relationship between a reference domain (D) that is a set of possible instruction objects, an instruction object (X) in the reference domain, a concept (C) about the instruction object, and a word (W) that expresses the concept A reference expression processing unit that performs at least one of understanding and generation of the reference expression using a probability model composed of
A reference expression processing apparatus comprising: a storage unit that stores data necessary to form the reference expression Bayesian network.
前記参照表現処理部が、前記ベイジアンネットワークを周辺化して、確率P(X|W)を求めるステップと、
前記参照表現処理部が、確率P(X|W)を最大とするx’を求め、前記参照表現の指示対象とするステップと、を含む参照表現処理方法。 The reference expression processing unit of the language processing device uses the data stored in the storage unit to perform a reference domain (D), a target object (X) in the reference domain, and a concept (C) And a reference expression Bayesian network representing the relationship between the words (W) representing the concept and
The reference expression processing unit peripheralizing the Bayesian network to obtain a probability P (X | W);
A reference expression processing method including: a step of obtaining x ′ that maximizes the probability P (X | W) and making the reference expression instruction target.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/531,682 US8868407B2 (en) | 2011-07-06 | 2012-06-25 | Language processor |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161504825P | 2011-07-06 | 2011-07-06 | |
US61/504825 | 2011-07-06 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013016151A true JP2013016151A (en) | 2013-01-24 |
Family
ID=47688756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012110061A Pending JP2013016151A (en) | 2011-07-06 | 2012-05-11 | Language processing apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013016151A (en) |
-
2012
- 2012-05-11 JP JP2012110061A patent/JP2013016151A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Panchenko et al. | Russe: The first workshop on russian semantic similarity | |
Mohammad | Sentiment analysis: Automatically detecting valence, emotions, and other affectual states from text | |
US8930176B2 (en) | Interactive multilingual word-alignment techniques | |
US8868407B2 (en) | Language processor | |
JP6649124B2 (en) | Machine translation method, machine translation device and program | |
JP7108675B2 (en) | Semantic matching method, device, electronic device, storage medium and computer program | |
Avramidis | Quality estimation for machine translation output using linguistic analysis and decoding features | |
US11080073B2 (en) | Computerized task guidance across devices and applications | |
Abdallah et al. | Automated question-answer medical model based on deep learning technology | |
Funakoshi et al. | A unified probabilistic approach to referring expressions | |
Spiekermann et al. | VAnnotatoR: a gesture-driven annotation framework for linguistic and multimodal annotation | |
Wiegers et al. | Shape language: How people describe shapes and shape operations | |
CN111428490A (en) | Reference resolution weak supervised learning method using language model | |
Seipel et al. | Speak to your software visualization—exploring component-based software architectures in augmented reality with a conversational interface | |
Prinz et al. | A systematic literature review of virtual reality locomotion taxonomies | |
Nguyen et al. | Building a chatbot for supporting the admission of universities | |
CN112559711A (en) | Synonymous text prompting method and device and electronic equipment | |
Kennington et al. | Incrementally tracking reference in human/human dialogue using linguistic and extra-linguistic information | |
Malviya et al. | HDRS: Hindi dialogue restaurant search corpus for dialogue state tracking in task-oriented environment | |
Zanwar et al. | What to fuse and how to fuse: Exploring emotion and personality fusion strategies for explainable mental disorder detection | |
JP2013016151A (en) | Language processing apparatus | |
Aunimo | Enhancing reliability and user experience in conversational agents | |
Wachtel et al. | Natural language user interface for software engineering tasks | |
Lippolis et al. | Enhancing Entity Alignment Between Wikidata and ArtGraph Using LLMs. | |
Mughal et al. | Comparative Analysis of Deep Natural Networks and Large Language Models for Aspect-Based Sentiment Analysis |