JP2015045833A - Speech sentence generation device, and method and program for the same - Google Patents

Speech sentence generation device, and method and program for the same Download PDF

Info

Publication number
JP2015045833A
JP2015045833A JP2013254771A JP2013254771A JP2015045833A JP 2015045833 A JP2015045833 A JP 2015045833A JP 2013254771 A JP2013254771 A JP 2013254771A JP 2013254771 A JP2013254771 A JP 2013254771A JP 2015045833 A JP2015045833 A JP 2015045833A
Authority
JP
Japan
Prior art keywords
word
dependency
utterance sentence
utterance
generation device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013254771A
Other languages
Japanese (ja)
Other versions
JP6225012B2 (en
Inventor
弘晃 杉山
Hiroaki Sugiyama
弘晃 杉山
東中 竜一郎
Ryuichiro Higashinaka
竜一郎 東中
豊美 目黒
Toyomi Meguro
豊美 目黒
南 泰浩
Yasuhiro Minami
泰浩 南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013254771A priority Critical patent/JP6225012B2/en
Publication of JP2015045833A publication Critical patent/JP2015045833A/en
Application granted granted Critical
Publication of JP6225012B2 publication Critical patent/JP6225012B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a speech sentence generation device that generates a great variety of dialogue speech sentences by sampling a word meaning a subject of the speech sentence and a modification structure from a morpheme string of the speech sentence in a dialogue system.SOLUTION: The speech sentence generation device comprises a focus word sampling part and a speech sentence generation part. The focus word sampling part samples a word meaning a subject of a speech sentence, or the word and a modification structure, using a morpheme string of the speech sentence as an input, and the speech sentence generation part assigns the word and the modification structure to a template to generate a plurality of dialogue speech sentences for a dialogue system.

Description

本発明は、ユーザ(利用者)と自然言語を用いて対話するシステム(以下、対話システム)における発話文生成装置とその方法と、プログラムに関する。   The present invention relates to an utterance sentence generation apparatus, a method thereof, and a program in a system (hereinafter referred to as a dialogue system) that interacts with a user (user) using a natural language.

近年、特定のタスクを持たないオープンドメインな雑談を行う雑談対話システムへのニーズが高まっている。こうした雑談対話は、それ自体がセラピー的な性質を持つ可能性があるとともに、タスク指向対話システムにおいても、ユーザ自身が気づいていない要求の顕在化に応用できる可能性があり、非常に重要である。しかし、オープンドメインな雑談対話システムでは、ユーザ発話のバリエーションが格段に広がるため、適切に応答するための知識源を予め人手で構築し切ることは極めて困難である。   In recent years, there is an increasing need for a chat dialogue system that performs open domain chat without specific tasks. These chat conversations are very important because they may have therapeutic properties and can be applied to the manifestation of requests that users themselves are not aware of in task-oriented dialog systems. . However, in the open domain chat dialogue system, since the variation of user utterances is greatly spread, it is extremely difficult to manually construct a knowledge source for appropriately responding in advance.

この問題に対する従来からのアプローチとして、人が興味を持ちそうな話題について予めルールで応答パターンを記述しておく方法や、どのようなユーザ発話にも合致する無難な発話や質問を繰り返す方法(非特許文献1)などが知られている。   Conventional approaches to this problem include a method of describing response patterns in advance for topics that people might be interested in, or a method of repeating safe utterances and questions that match any user utterance (non- Patent document 1) etc. are known.

しかし、ルールで記述する方法では新語への対応が困難である。また、テープレコーダのように一定の条件で再生するのみであるため、対話が一問一答で終わり易く発展性がないことなどが問題である。非特許文献1に記載されたような文脈非依存アプローチでは、ユーザの発話をやり過ごすような発話になりがちなため、すぐに飽きられてしまう。   However, it is difficult to deal with new words using the rules. Another problem is that since the playback is only performed under certain conditions as in a tape recorder, the dialogue is easy to end with a single question and there is no development. In the context-independent approach described in Non-Patent Document 1, the user's utterance tends to be overtaken, and the user is quickly bored.

このような新語対応の困難さや単調さを克服するため、近年、Web上の大規模な文章を利用する動きが広まっている。例えば、非特許文献2又は3では、Web上の記事やマイクロブログ中のユーザ発話と類似した文を選択して発話文とする方法が開示されている。   In order to overcome the difficulty and monotony of dealing with such new words, in recent years, there has been a widespread movement to use large-scale sentences on the Web. For example, Non-Patent Document 2 or 3 discloses a method of selecting a sentence similar to a user utterance in an article on the Web or a microblog and making it an utterance sentence.

しかし、類似文が出現した文脈は、ユーザ発話が現れた文脈とは異なるため、不要な発話文を含む課題があった。この課題を解決する目的で、ユーザ発話中に含まれる単語から話題の焦点を表す焦点語を推定し、焦点語をテンプレートに代入することで発話文を生成する方法が検討されている(非特許文献4)。   However, since the context in which the similar sentence appears is different from the context in which the user utterance appears, there is a problem including an unnecessary utterance sentence. In order to solve this problem, a method of generating a spoken sentence by estimating a focal word representing a focal point of a topic from words included in a user's utterance and substituting the focal word into a template has been studied (non-patent document). Reference 4).

J. Weizenbaum, “ELIZA-A Computer Program For the Study of Natural Language Communication Between Man and Machine”, Communications of the ACM. ACM 9[1] 36-45(1966).J. Weizenbaum, “ELIZA-A Computer Program For the Study of Natural Language Communication Between Man and Machine”, Communications of the ACM. ACM 9 [1] 36-45 (1966). 柴田雅博ほか、「雑談自由対話を実現するためのWWW上の文書からの妥当な候補文選択手法」、人工知能学会論文誌,vol.24,no.6,pp.507-519,2009.Masahiro Shibata et al., “Method for selecting appropriate candidate sentences from WWW documents for realizing free chat conversation”, Journal of the Japanese Society for Artificial Intelligence, vol.24, no.6, pp.507-519, 2009. Alan Ritter, Colin Cherry, and William.B. Dolan. 2011. Data-Driven Response Generation in Social Media. In Proceedings of the 20111 Conference on Empirical Methods in Natural Language Processing, pages 588-593.Alan Ritter, Colin Cherry, and William.B. Dolan. 2011.Data-Driven Response Generation in Social Media.In Proceedings of the 20111 Conference on Empirical Methods in Natural Language Processing, pages 588-593. 小林優佳ほか、「高齢者対話インターフェース−ユーザの聴き手になる音声対話インターフェース−」、情報処理学会インタラクション2011.Yuka Kobayashi et al., “Aged Dialogue Interface-Voice Dialogue Interface for User Listeners”, Information Processing Society of Japan Interaction 2011.

しかし、従来の焦点語を用いる技術では焦点語を名詞に限定しており、その数も1個としていたことから、バリエーションの豊富な発話文を生成できない課題があった。   However, in the conventional technique using the focal word, the focal word is limited to nouns, and the number of the focal words is one, and there is a problem that it is not possible to generate a utterance sentence with abundant variations.

本発明は、この課題に鑑みてなされたものであり、バリエーション豊富な発話文の生成を可能にした発話文生成装置とその方法と、プログラムを提供することを目的とする。   The present invention has been made in view of this problem, and it is an object of the present invention to provide an utterance sentence generation apparatus, a method thereof, and a program that enable generation of an abundance of utterance sentences.

本発明の発話文生成装置は、話題抽出部と、発話文生成部と、を具備する。話題抽出部は、発話文の形態素列を入力として、当該発話文の内容を表す単語又は当該単語と係り受け構造を抽出する。発話文生成部は、話題抽出部で抽出された単語又は係り受け構造をテンプレートに代入することで対話発話文を生成する。   The utterance sentence generation device of the present invention includes a topic extraction unit and an utterance sentence generation unit. The topic extraction unit receives a morpheme string of an utterance sentence as an input and extracts a word representing the content of the utterance sentence or the word and a dependency structure. The utterance sentence generation unit generates a dialog utterance sentence by substituting the word or dependency structure extracted by the topic extraction unit into a template.

本発明の発話文生成装置によれば、ユーザ発話の話題を利用した適切な発話文生成が可能になる。大量の自然文から話題に関連する係り受け構造を収集するため、幅広い話題のユーザ発話に対する発話文を生成することが可能になる。   According to the utterance sentence generation device of the present invention, it is possible to generate an appropriate utterance sentence using the topic of the user utterance. Since dependency structures related to topics are collected from a large amount of natural sentences, it becomes possible to generate utterance sentences for user utterances of a wide range of topics.

本発明の発話文生成装置100の機能構成例を示す図。The figure which shows the function structural example of the utterance sentence production | generation apparatus 100 of this invention. 発話文生成装置100の動作フローを示す図。The figure which shows the operation | movement flow of the utterance sentence production | generation apparatus 100. FIG. 本発明の発話文生成装置200の機能構成例を示す図。The figure which shows the function structural example of the utterance sentence production | generation apparatus 200 of this invention. 発話文生成装置200の動作フローを示す図。The figure which shows the operation | movement flow of the utterance sentence production | generation apparatus 200. FIG. 本発明の発話文生成装置300の機能構成例を示す図。The figure which shows the function structural example of the utterance sentence production | generation apparatus 300 of this invention. 発話文生成装置300の動作フローを示す図。The figure which shows the operation | movement flow of the utterance sentence production | generation apparatus 300. FIG. ユーザ発話文の形態素列と係り受けの関係を示す図。The figure which shows the relationship between the morpheme sequence of a user speech sentence, and a dependency. 本発明の発話文生成装置400の機能構成例を示す図。The figure which shows the function structural example of the utterance sentence production | generation apparatus 400 of this invention. 本発明の発話文生成装置500の機能構成例を示す図。The figure which shows the function structural example of the utterance sentence production | generation apparatus 500 of this invention. 本発明の発話文生成装置600の機能構成例を示す図。The figure which shows the function structural example of the utterance sentence production | generation apparatus 600 of this invention. 本発明の発話文生成装置700の機能構成例を示す図。The figure which shows the function structural example of the utterance sentence production | generation apparatus 700 of this invention. 発話文を形態素解析した結果の一例を示す図。The figure which shows an example of the result of having performed the morphological analysis of the speech sentence. 係り受け構造中の文節のうち少なくとも1つが他の係り受け構造中の文節と係り受け関係にある状態を例示する図。The figure which illustrates the state in which at least 1 of the clauses in a dependency structure has a dependency relationship with the clause in another dependency structure. 本発明の発話文生成装置800の機能構成例を示す図。The figure which shows the function structural example of the utterance sentence production | generation apparatus 800 of this invention. 係り受け関係データベース890を検索することで得られる係り受け構造を例示する図。The figure which illustrates the dependency structure obtained by searching the dependency relationship database 890. 関連単語と関連係り受け構造の例を示す図。The figure which shows the example of a related word and a related dependency structure. 対話発話文の例を示す図。The figure which shows the example of a dialog utterance sentence. 関連係り受け構造を検索する概要を示す図。The figure which shows the outline | summary which searches a related dependency structure. 本発明の発話文生成装置900の機能構成例を示す図。The figure which shows the function structural example of the utterance sentence production | generation apparatus 900 of this invention.

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。   Embodiments of the present invention will be described below with reference to the drawings. The same reference numerals are given to the same components in a plurality of drawings, and the description will not be repeated.

図1に、この発明の発話文生成装置100の機能構成例を示す。その動作フローを図2に示す。発話文生成装置100は、話題抽出部110と、発話文生成部120と、制御部130と、を具備する。発話文生成装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。以下説明する各装置についても同じである。   FIG. 1 shows a functional configuration example of an utterance sentence generation apparatus 100 of the present invention. The operation flow is shown in FIG. The utterance sentence generation device 100 includes a topic extraction unit 110, an utterance sentence generation unit 120, and a control unit 130. The utterance sentence generation device 100 is realized by reading a predetermined program into a computer composed of, for example, a ROM, a RAM, a CPU, and the like, and executing the program by the CPU. The same applies to each device described below.

発話文生成装置100は、ユーザ発話を音声認識した結果の形態素列、若しくはユーザ発話のテキスト文を、形態素解析部140で形態素解析した形態素列を入力とする。図1に破線で示す形態素解析部140、若しくは図示しない音声認識部を、発話文生成装置100に含めても良い。   The utterance sentence generation apparatus 100 receives a morpheme string obtained by voice recognition of a user utterance or a morpheme string obtained by morphological analysis of a text sentence of a user utterance by a morpheme analysis unit 140. A morphological analysis unit 140 indicated by a broken line in FIG. 1 or a speech recognition unit (not shown) may be included in the utterance generation unit 100.

話題抽出部110は、発話文の形態素列を入力として、当該発話文の内容を表す単語又は当該単語と係り受け構造を抽出する(ステップS110)。つまり、話題とは、発話文の内容を表す単語と係り受け構造のことである。発話文とは、対話システムにおけるユーザ発話であり、ユーザの発話音声そのものであっても良いし、ユーザ発話を音声認識した結果のテキスト文であっても良い。発話文は、1〜3文程度で構成される比較的短い文章である。   The topic extraction unit 110 receives a morpheme string of an utterance sentence as an input, and extracts a word representing the content of the utterance sentence or a dependency structure with the word (step S110). That is, the topic is a word that represents the content of an utterance and a dependency structure. The utterance sentence is a user utterance in the dialogue system, and may be a user's utterance voice itself or a text sentence obtained as a result of voice recognition of the user utterance. The utterance sentence is a relatively short sentence composed of about 1 to 3 sentences.

以降の説明において、発話文の内容を表す単語を焦点語と定義して説明を行う。焦点語の抽出には、例えば参考文献1(Barbara J. Grosz, Scott Weinstein, and Aravind K. Joshi. 1995. Centering: A Framework for Modeling the Local Coherence of Discourse. Computational linguistics,21(2):203-225.)や参考文献2(Marilyn A. Walker, 1998. Centering, Anaphora Resolution, and Discourse Structure Oxford University Press on Demand.)に記載された従来技術を用いる。なお、発話文の内容を表す単語と係り受け構造を抽出して対話発話文を生成する実施例については、実施例5以降において説明する。   In the following description, a word representing the content of an utterance will be defined as a focal word. For example, Reference 1 (Barbara J. Grosz, Scott Weinstein, and Aravind K. Joshi. 1995. Centering: A Framework for Modeling the Local Coherence of Discourse. Computational linguistics, 21 (2): 203- 225.) and Reference 2 (Marilyn A. Walker, 1998. Centering, Anaphora Resolution, and Discourse Structure Oxford University Press on Demand.). In addition, the Example which extracts the word showing the content of the utterance sentence, and a dependency structure, and produces | generates a dialog utterance sentence is demonstrated in Example 5 or later.

発話文生成部120は、話題抽出部110で抽出した焦点語を入力として、当該焦点語をテンプレートに代入することで対話発話文を生成する(ステップS120)。テンプレートとは、焦点語が組み込まれる(代入される)定型文のことである。具体例は後述する。   The utterance sentence generation unit 120 generates the dialog utterance sentence by substituting the focus word into the template with the focus word extracted by the topic extraction unit 110 as an input (step S120). A template is a fixed phrase in which a focus word is incorporated (assigned). Specific examples will be described later.

ユーザ発話文を例えば「今日は豊洲の映画館で映画Aを見ました。」とした場合、話題の焦点を表す単語は、固有名詞の「豊洲の映画館」と「映画A」の2つの単語である。「豊洲の映画館」は、「豊洲」という地名を表す固有名詞と、助詞の「の」と、一般名詞の「映画館」と、から成る文節であるが、この実施例では固有名詞として扱う。   For example, if the user's utterance is “I watched movie A in Toyosu movie theater today”, the words representing the focus of the topic are two proper nouns “Toyosu movie theater” and “Movie A”. Is a word. “Toyosu movie theater” is a phrase consisting of a proper noun representing the place name “Toyosu”, the particle “no”, and the general noun “movie theater”, but in this example it is treated as a proper noun. .

テンプレートとしては、例えば、「いいですね。」や「好きですか。」等が用意されていると仮定する。テンプレートは、各焦点語について、発話意図ごとに複数種類分類して用意しておく。発話意図とは、「質問」、「自己開示」、「相槌」、などである。上記した「いいですね。」は相槌に、「好きですか」は質問に、それぞれ分類される。このように発話意図ごとにテンプレートを分類しておくことで、テンプレート間の関係性の見通しが良くなる。つまり、テンプレートの不要な重複を防止することができる。   For example, it is assumed that “I like you” or “Do you like it” is prepared as a template. A template is prepared by classifying a plurality of types for each utterance intention for each focal word. The utterance intention includes “question”, “self-disclosure”, “consideration”, and the like. The above “Like” is classified as a companion, and “Do you like it” as a question. By classifying the templates for each utterance intention in this way, the prospect of the relationship between the templates is improved. That is, unnecessary duplication of templates can be prevented.

発話文生成部120は、その前提において、固有名詞数×テンプレート数の数の「豊洲の映画館」+「いいですね。」、「豊洲の映画館」+「好きですか。」、「映画A」+「いいですね。」、「映画A」+「好きですか。」、の4つの対話発話文を生成する。この対話発話文の生成を繰り返す処理の制御は、制御部130が行う。制御部130は、発話文生成装置100の各部の時系列動作を制御する一般的なものであり、特別な処理を行うものではない。他の実施例についても同様であり、以降、制御部の説明は省略する。対話システムでは、この複数の対話発話文の内、ユーザ発話に対応する1つが、図示しない発話文選択装置によって選択されて用いられる。   Based on the premise, the utterance sentence generation unit 120 has “the number of proper nouns × the number of templates” “Toyosu movie theater” + “I like it”, “Toyosu movie theater” + “Do you like it?”, “Movies” Four dialogue utterances of “A” + “Like”, “Movie A” + “Do you like it” are generated. The control unit 130 controls the process of repeating the generation of the dialog utterance. The control unit 130 is a general unit that controls the time-series operation of each unit of the utterance sentence generation device 100 and does not perform a special process. The same applies to other embodiments, and the description of the control unit will be omitted hereinafter. In the dialogue system, one of the plurality of dialogue utterances corresponding to the user utterance is selected and used by an utterance sentence selection device (not shown).

このように発話文生成装置100によれば、ユーザ発話文の形態素列中に含まれる単語から話題の焦点を表す複数の焦点語を抽出し、その焦点語をテンプレートに代入することで対話発話文を生成するので、バリエーション豊富な対話発話文を生成することができる。   As described above, according to the utterance sentence generation device 100, a plurality of focal words representing the focal point of a topic are extracted from words included in a morpheme sequence of a user utterance sentence, and the conversation utterance sentence is obtained by substituting the focal word into a template. Therefore, it is possible to generate dialogue utterances rich in variations.

図3に、この発明の発話生成装置200の機能構成例を示す。その動作フローを図4に示す。発話生成装置200は、関連語推定部250を備える点と、発話文生成部220の作用が、発話生成装置100(図1)と異なる。   FIG. 3 shows a functional configuration example of the utterance generation device 200 of the present invention. The operation flow is shown in FIG. The utterance generation device 200 is different from the utterance generation device 100 (FIG. 1) in that it includes a related word estimation unit 250 and the operation of the utterance sentence generation unit 220.

関連語推定部250は、焦点語抽出部110で抽出した焦点語を入力として、当該焦点語の類義語を関連語として推定する(ステップS250)。焦点語の類義語を推定する方法としては、シソーラス辞書を用いる方法や、LDA(参考文献3:「David M. Blei, et al., Latent Dirichlet Allocation, the Journal of Machine Learning Research, vol. 3, pp. 993-1022, 2003)などの単語間の共起関係によって類義語を推定するトピックモデル(Topic Model)を用いる方法が知られている。シソーラス辞書やトピックモデルは周知である。   The related word estimation unit 250 receives the focal word extracted by the focal word extraction unit 110 as an input, and estimates a synonym of the focal word as a related word (step S250). As a method for estimating a synonym of a focal word, a method using a thesaurus dictionary or LDA (Reference 3: David M. Blei, et al., Latent Dirichlet Allocation, the Journal of Machine Learning Research, vol. 3, pp. 993-1022, 2003), etc., a method using a topic model (Topic Model) that estimates synonyms by co-occurrence relationships between words is well known.

関連語推定部250は、焦点語の「映画A」を入力として、例えばトピックモデルを用いて「○○○○」や「△△△△」など映画Aに関連する単語や、「映画B」のような類似したジャンルの映画や、「○○」などの略語・表記ゆれを関連語として抽出する。   The related word estimation unit 250 receives the focal word “movie A” as an input, and uses a topic model, for example, a word related to movie A such as “XXXXX” or “ΔΔΔΔ”, or “movie B”. A similar genre movie such as, and abbreviations and notations such as “OO” are extracted as related words.

発話文生成部220は、焦点語抽出部110で抽出した焦点語と関連語推定部250で推定した関連語を入力として、当該焦点語と当該関連語をテンプレートに代入することで対話発話文を生成する(ステップS220)。この例では、「○○○○」+「いいですね。」や、「△△△△」+「いいですね。」や、「○○」+「いいですね。」などが対話発話文として追加される。   The spoken sentence generation unit 220 receives the focused word extracted by the focused word extraction unit 110 and the related word estimated by the related word estimation unit 250 as input, and substitutes the focused word and the related word into a template to generate a dialogue uttered sentence. Generate (step S220). In this example, “○○○○” + “I like you”, “△△△△” + “I like you”, “○○” + “I like you” etc. Added as.

発話生成装置200は、発話生成装置100に対して、関連語推定部250で推定した関連語が追加されるので、対話発話文のバリエーションを更に豊富にすることができる。   Since the related words estimated by the related word estimation unit 250 are added to the utterance generation device 100, the utterance generation device 200 can further enrich the variation of the dialog utterance sentence.

図5に、この発明の発話文生成装置300の機能構成例を示す。その動作フローを図6に示す。発話文生成装置300は、係り受け関係解析部360を備える点と、焦点語抽出部310の作用が、発話文生成装置200(図3)と異なる。関連語推定部250と発話文生成部220は、参照符号から明らかなように発話文生成装置200(図3)と同じものである。   FIG. 5 shows a functional configuration example of the utterance sentence generation apparatus 300 of the present invention. The operation flow is shown in FIG. The utterance sentence generation device 300 is different from the utterance sentence generation device 200 (FIG. 3) in that it includes a dependency relationship analysis unit 360 and the operation of the focal word extraction unit 310. The related word estimation unit 250 and the utterance sentence generation unit 220 are the same as the utterance sentence generation device 200 (FIG. 3) as apparent from the reference numerals.

係り受け関係解析部360は、形態素列を入力として、当該形態素列の係り受け解析を行って、文節の係り受け関係を出力する(ステップS360)。係り受け解析は、一般的な日本語係り受け解析手法を用いる。   The dependency relationship analysis unit 360 receives a morpheme sequence, performs dependency analysis on the morpheme sequence, and outputs a dependency relationship of phrases (step S360). For dependency analysis, a general Japanese dependency analysis method is used.

例えば、ユーザ発話文を「今日は豊洲の映画館で映画Aを見ました。」とした場合の形態素列と係り受けの関係を、図7に示す。図7の1行目は形態素列、2行目は文節の係り受け関係である。表1に、その係り受け関係を示す。   For example, FIG. 7 shows the relationship between the morpheme sequence and the dependency when the user utterance is “I watched movie A in Toyosu movie theater today”. The first line in FIG. 7 is a morpheme string, and the second line is a dependency relation between phrases. Table 1 shows the dependency relationship.

Figure 2015045833
焦点語抽出部310は、ユーザ発話文の形態素列と係り受け関係解析部360で解析した係り受け関係を入力として、当該形態素列中に含まれる話題の焦点を表す固有名詞、一般名詞、述語、の複数の焦点語を抽出する(ステップS310)。述語とは、事態性名詞、動詞、形容詞、形容動詞、のことである。なお、事態性名詞とは特定の事態を喚起する名詞であり、少なくとも以下の4タイプがある(参考文献4:「黒田航、「事態性名詞の項構造と動詞の項構造の統合・PMAを使った日本語の支援動詞構文の分析とその合意」、言語処理学会年次大会,2008」)。A:動詞の連用形、B:サ変名詞、C:非連用形/非サ変の抽象名詞(支援動詞を要求)、D:非連用形/非サ変の具象名詞(特定の動詞と組み合わされて事態名詞化する)。
Figure 2015045833
The focal word extraction unit 310 receives, as input, the morpheme sequence of the user utterance and the dependency relationship analyzed by the dependency relationship analysis unit 360, a proper noun, a general noun, a predicate representing the focus of the topic included in the morpheme sequence, Are extracted (step S310). A predicate is a situational noun, verb, adjective, adjective verb. Situation nouns are nouns that evoke a specific situation, and there are at least the following four types (Reference 4: “Kuroda Kou,“ Integration of Situation Noun Term Structure and Verb Term Structure Analysis and consensus of Japanese supportive verb syntax used, "Annual Conference of the Language Processing Society of Japan, 2008"). A: Verb associative form, B: Sa-variant noun, C: Non-conjunctive / non-abstract abstract noun (requires support verb), D: Non-consecutive / non-sainous concrete noun (combined with a specific verb to make a situation noun ).

例えば、ユーザ発話文を「今日は映画の○△□○を見ました。」とした場合、焦点語抽出部310は、ユーザ発話文に含まれる固有名詞の「○△□○」を焦点語として抽出する。固有名詞が複数含まれるユーザ発話文の場合、焦点語抽出部310は、最も発話末尾に近いものから任意のN個(Nは自然数)の固有名詞を焦点語として抽出する。   For example, when the user utterance sentence is “I watched a movie today,” the focal word extraction unit 310 selects the proper noun “◯ △ □ ○” included in the user utterance sentence as the focal word. Extract as In the case of a user utterance sentence including a plurality of proper nouns, the focal word extraction unit 310 extracts any N proper nouns (N is a natural number) from the words closest to the end of the utterance as focal words.

また、焦点語抽出部310は、ユーザ発話文に含まれる一般名詞の内、出現数が少ないものを焦点語として抽出する。出現数がすくないものを焦点語にする理由は、一般的で話題を表現しない例えば「こと」などの名詞を抽出しないようにするためである。この例では、「映画」を抽出する。   Further, the focused word extraction unit 310 extracts, as a focused word, common nouns included in the user uttered sentence with a small number of appearances. The reason why the focus words are those that do not appear frequently is to prevent extraction of nouns such as “ko” that are general and do not express the topic. In this example, “movie” is extracted.

また、焦点語抽出部310は、最も上位で係られている述語を焦点語として抽出する。なお、日本語では、前から後ろの単語に係る場合が多いため、文末に最も近い述語を焦点語として抽出するようにしても良い。   In addition, the focal word extraction unit 310 extracts the predicate that is associated with the highest rank as the focal word. Note that in Japanese, there are many cases related to words from the front to the back, so the predicate closest to the end of the sentence may be extracted as the focus word.

発話文生成部220は、焦点語が固有名詞の場合、固有名詞は関連する形容詞・動詞は、対話発話文として適切に当てはまる事が多いため、テンプレートを、「[固有名詞]は[形容詞]らしいですねー」とした場合、「○△□○は面白いらしいですねー」を対話発話文として生成する。ここで用いる形容詞・動詞は、関連語推定部250において例えばトピックモデルを用いて推定した関連語に含まれるものである。   When the focus word is a proper noun, the utterance sentence generation unit 220 often uses a proper noun as a related adjective / verb as a dialogue utterance, so the template is “[proprietary noun] seems to be [adjective]”. If it is "Neah", it will generate "Sounds are interesting" as a dialogue utterance. The adjectives / verbs used here are included in the related words estimated by the related word estimation unit 250 using, for example, a topic model.

また、焦点語が一般名詞の場合、一般名詞に関連する形容詞・動詞は、文脈に依存したものが出現する場合が多い。そのため、発話文生成部220は、関連する形容詞・動詞をそのまま用いて対話発話文を生成する。例えば、関連する形容詞・動詞を、「面白い」、「楽しい」等と仮定し、テンプレートを「どんな[一般名詞]が[形容詞・動詞]ですか?」とした場合、「どんな映画が面白いですか?」を発話文として生成する。このように1つのテンプレートに2つの異なる単語を代入して対話発話文を生成する場合は、焦点語と関連語の全ての組み合わせの対話発話文が生成される(図6:ステップS330)。   When the focus word is a general noun, adjectives and verbs related to the general noun often appear depending on the context. Therefore, the utterance sentence generation unit 220 generates a dialog utterance sentence using the related adjectives / verbs as they are. For example, if the related adjectives / verbs are assumed to be "interesting", "fun", etc., and the template is "what [general noun] is [adjective / verb]?" ? "As an utterance sentence. In this way, when two different words are substituted into one template to generate a dialog utterance, dialog utterances of all combinations of the focus word and the related word are generated (FIG. 6: Step S330).

なお、関連する形容詞・動詞をそのまま用いると対話の文脈に合わない不適切な対話発話文になる場合も考えられる。その場合は、形容詞のポジティブ/ネガティブを日本語評価表現辞書を用いて推定し、それに合わせて「好き」、「苦手」のように話題によらずに適用可能な評価表現を付与して対話発話文を生成するようにしても良い。例えば、テンプレートとして「どんな[一般名詞]が好きですか?」や「どんな[一般名詞]が苦手ですか?」などを用意しておいて、一般名詞を当てはめても良い。   Note that using relevant adjectives and verbs as they are may result in inappropriate dialogue utterances that do not match the conversation context. In that case, the positive / negative adjectives are estimated using the Japanese evaluation expression dictionary, and the corresponding evaluation expressions can be applied regardless of the topic, such as “Like” and “I do n’t like”. A sentence may be generated. For example, “what [general noun] do you like?” Or “what [general noun] do you like?” May be prepared as a template, and the general noun may be applied.

また、焦点語が述語の場合、発話文生成部220は、述語(事態性名詞・動詞)に係る名詞と表層格を利用して対話発話文を生成する。係り受け関係にある名詞をそのまま用いるとYes/Noで答える対話発話文となり話題が広がらないため、名詞の語義をワードネット(Wordnet)のような語彙体系から推定して、ロケーションに対応するどこで(Where)、何時(Time)に対応する5W1H型の質問を生成する。ただし、時制の一致は扱いが難しいため、特に「ロケーション」を尋ねるWhereを優先的に生成する。例えば、テンプレートを「どこ[表層格][述語]んですか?」とした場合、「どこで見たんですか?」を対話発話文として生成する。   When the focal word is a predicate, the utterance sentence generation unit 220 generates a dialog utterance sentence using a noun and a surface case related to the predicate (situation noun / verb). If you use a noun that has a dependency relationship as it is, it will be a dialogue utterance that you answer with Yes / No, and the topic will not spread, so you can estimate the meaning of the noun from a vocabulary system like Wordnet (Wordnet) A 5W1H type question corresponding to “Where” and “Time” is generated. However, tense matching is difficult to handle, so we specifically generate Where to ask for "location". For example, if the template is “Where [surface class] [predicate]?”, “Where did you see it?” Is generated as a dialog utterance.

発話文生成装置300によれば、係り受け関係にある単語群をテンプレートに代入するので、幅広い話題に対応可能で、且つ、意味の通った対話発話文を生成することができる。なお、係り受け関係解析部360の構成を発話文生成装置200に追加する形で説明したが、係り受け関係解析部360を発話文生成装置100に追加した構成、つまり関連語推定部250を省略した構成の発話文生成装置も考えられる。   According to the utterance sentence generation device 300, a group of words having a dependency relationship is substituted into a template, so that it is possible to generate a conversation utterance sentence that can deal with a wide range of topics and has a meaningful meaning. The configuration of the dependency relationship analysis unit 360 has been described as being added to the utterance sentence generation device 200, but the configuration in which the dependency relationship analysis unit 360 is added to the utterance sentence generation device 100, that is, the related word estimation unit 250 is omitted. An utterance sentence generation device having the above-described configuration is also conceivable.

図8に、この発明の発話文生成装置400の機能構成例を示す。発話文生成装置400は、係り受け関係辞書470を備える点と、関連語推定部450の作用が、発話文生成装置200(図3)と異なる。話題抽出部110と発話文生成部220は、参照符号から明らかなように発話文生成装置200(図3)と同じものである。発話文生成装置400の動作フローは、発話文生成装置200の動作フロー(図4)と同じである。   FIG. 8 shows a functional configuration example of the utterance sentence generation apparatus 400 of the present invention. The utterance sentence generation device 400 is different from the utterance sentence generation device 200 (FIG. 3) in that it includes a dependency relation dictionary 470 and the operation of the related word estimation unit 450. The topic extraction unit 110 and the utterance sentence generation unit 220 are the same as the utterance sentence generation device 200 (FIG. 3) as apparent from the reference numerals. The operation flow of the utterance sentence generation device 400 is the same as the operation flow (FIG. 4) of the utterance sentence generation device 200.

係り受け関係辞書470は、大量の自然文から所定の単語に対する係り受け関係として出現した単語群をその回数と共に記録したものである。係り受け関係辞書470は、例えば参考文献3(竹内孔一他、「意味の包含関係に基づく動詞項構造の細分類」、言語処理学会年次大会,2008.)に記載されているものであり、別途構築されたものである。   The dependency relationship dictionary 470 records a word group that appears as a dependency relationship with respect to a predetermined word from a large amount of natural sentences together with the number of times. The dependency relationship dictionary 470 is described in, for example, Reference 3 (Kouichi Takeuchi et al., “Subclassification of Verb Term Structure Based on Inclusive Relationship of Meaning”, Annual Conference of the Language Processing Society of Japan, 2008.) It was constructed separately.

係り受け関係辞書470は、口語調の表現が大量に含まれるマイクロブログ等の記事から自然文を収集し単語間の関係性を抽出して構築したものとする。マイクロブログは、主観的な文章を大量に含むことから、ある単語に対する主観的な表現が抽出されることが期待される。新聞記事などの書き言葉の文章から単語間の関係性を抽出するよりも対話システムに好適な係り受け関係辞書とすることができる。例えば、「映画A」を含むマイクロブログからは「面白い」や「好き」、「恐ろしい」などの形容詞を、関連語として抽出できる可能性が高いと仮定する。   The dependency relation dictionary 470 is constructed by collecting natural sentences from articles such as microblogs that contain a large amount of colloquial expressions and extracting relationships between words. Since microblogs contain a large amount of subjective sentences, it is expected that subjective expressions for certain words will be extracted. It is possible to provide a dependency relation dictionary that is more suitable for a dialogue system than extracting relations between words from written sentences such as newspaper articles. For example, it is assumed that an adjective such as “interesting”, “like”, or “terrible” can be extracted as a related word from a microblog including “movie A”.

関連語推定部450は、話題抽出部110が抽出した焦点語を入力として、係り受け関係辞書470を参照して当該焦点語の関連語を抽出する。焦点語を、例えば「映画A」とした場合、関連語推定部450は「面白い」や「好き」、「恐ろしい」などの形容詞を関連語として、係り受け関係辞書470から抽出する。   The related word estimation unit 450 receives the focal word extracted by the topic extraction unit 110 as an input and extracts a related word of the focal word with reference to the dependency relation dictionary 470. For example, when the focus word is “movie A”, the related word estimation unit 450 extracts adjectives such as “interesting”, “like”, and “terrible” from the dependency relation dictionary 470 as related words.

発話文生成部220は、話題抽出部110で抽出した焦点語と関連語推定部250で抽出した関連語を入力として、当該焦点語と当該関連語をテンプレートに代入することで対話発話文を生成する(ステップS220)。テンプレートを例えば、「[固有名詞]は[形容詞]らしいですねー」としておけば、発話文生成部220は、「映画Aは面白いらしいですねー」の対話発話文を生成する。   The utterance sentence generation unit 220 generates a dialog utterance sentence by substituting the focus word and the related word into a template, using the focus word extracted by the topic extraction unit 110 and the related word extracted by the related word estimation unit 250 as inputs. (Step S220). For example, if the template is “[proprietary noun] seems to be [adjective]?”, The utterance sentence generation unit 220 generates a dialog utterance sentence “movie A seems to be interesting”.

発話文生成装置400は、発話文生成装置200(図3)に係り受け関係辞書470を加えた構成で説明したが、発話文生成装置300(図5)に係り受け関係辞書470を加えて発話文生成装置を構成しても良い。   The utterance sentence generation device 400 has been described with the configuration in which the dependency relation dictionary 470 is added to the utterance sentence generation apparatus 200 (FIG. 3). However, the utterance sentence generation device 400 adds the dependency relation dictionary 470 to the utterance sentence generation device 300 (FIG. 5). A sentence generation device may be configured.

また、係り受け関係辞書470は、別途構築されたものを用いる例で説明を行ったが、係り受け関係辞書の内容を逐次更新するように構成しても良い。図9に、話題抽出部110に入力される形態素列を用いて逐次、係り受け関係辞書を更新するように構成した発話文生成装置500の機能構成例を示す。   Further, although the dependency relationship dictionary 470 has been described as an example using a separately constructed one, the content of the dependency relationship dictionary may be sequentially updated. FIG. 9 shows a functional configuration example of the utterance sentence generation device 500 configured to sequentially update the dependency relation dictionary using the morpheme string input to the topic extraction unit 110.

発話文生成装置500の係り受け関係辞書570は、係り受け関係解析部360が出力する文節の係り受け関係と表層格を記録し、同一種類の係り受け関係と表層格についてその出現回数を更新して記録する。このように、係り受け関係辞書670を、逐次入力される形態素列で更新するように構成しても良い。   The dependency relationship dictionary 570 of the utterance sentence generation device 500 records the dependency relationship and the surface case of the phrase output by the dependency relationship analysis unit 360, and updates the number of appearances of the dependency relationship and the surface case of the same type. Record. In this manner, the dependency relationship dictionary 670 may be configured to be updated with morpheme strings that are sequentially input.

また、発話文生成装置内部で係り受け関係辞書を作成するようにしても良い。図10に、発話文生成装置内部で係り受け関係辞書を構築するように構成した発話文生成装置600の機能構成例を示す。   In addition, a dependency relation dictionary may be created in the utterance sentence generation device. FIG. 10 shows a functional configuration example of an utterance sentence generation device 600 configured to construct a dependency relation dictionary inside the utterance sentence generation device.

発話文生成装置600の係り受け関係辞書670は、自然文一時記憶部671と、形態素解析部672と、係り受け関係解析部673と、係り受け関係記録部674と、で構成される。自然文一時記憶部671は、外部から収集した自然文を記憶する。外部とは、例えばインターネット等のネットワーク環境であり、Web上のブログ記事などを定期的に受信して記憶する。   The dependency relationship dictionary 670 of the utterance sentence generation device 600 includes a natural sentence temporary storage unit 671, a morpheme analysis unit 672, a dependency relationship analysis unit 673, and a dependency relationship recording unit 674. The natural sentence temporary storage unit 671 stores natural sentences collected from the outside. The outside is a network environment such as the Internet, and regularly receives and stores blog articles on the Web.

形態素解析部672は、自然文一時記憶部671に記憶されたテキスト情報を形態素解析して形態素列を出力する。係り受け関係解析部673は、形態素解析部672が出力する形態素列から単語間の係り受け関係を推定し、係り受け関係と表層格を抽出する。例えば、図7に示す係り受け関係の「今日」は「は」格と共に「動詞」「見ました。」に接続されているとしてその関係を出力する。   The morpheme analyzer 672 analyzes the text information stored in the natural sentence temporary storage 671 and outputs a morpheme string. The dependency relationship analysis unit 673 estimates the dependency relationship between words from the morpheme string output by the morpheme analysis unit 672, and extracts the dependency relationship and the surface case. For example, “today” of the dependency relationship shown in FIG. 7 is output together with “ha” case and “verb” “saw”.

係り受け関係記録部674は、係り受け関係解析部673が出力する係り受け関係と表層格を記録する。この時、同じ係り受け関係と表層格は、その出現回数を更新して記録する。このように、係り受け関係辞書670を自動的に構築するように構成しても良い。   The dependency relationship recording unit 674 records the dependency relationship and the surface case output by the dependency relationship analysis unit 673. At this time, the same dependency relationship and surface case are updated and recorded. In this manner, the dependency relationship dictionary 670 may be automatically constructed.

図11に、この発明の発話文生成装置700の機能構成例を示す。発話文生成装置700は、話題抽出部710と、係り受け関係解析部360と、関連話題抽出部780と、発話文生成部720と、を備える。係り受け関係解析部360は、参照符号から明らかなように発話文生成装置300(図5)と同じものである。   FIG. 11 shows a functional configuration example of the utterance sentence generation apparatus 700 of the present invention. The utterance sentence generation apparatus 700 includes a topic extraction unit 710, a dependency relationship analysis unit 360, a related topic extraction unit 780, and an utterance sentence generation unit 720. The dependency relationship analysis unit 360 is the same as the utterance sentence generation device 300 (FIG. 5), as is clear from the reference numerals.

話題抽出部710は、形態素列と、係り受け関係解析部360が出力する係り受け関係を入力として、形態素列中に含まれる発話文の話題を表す単語と係り受け構造を抽出する。ここで、係り受け構造とは、係り受け関係を持つ2つの文節からなる組のことである。   The topic extraction unit 710 uses the morpheme string and the dependency relationship output by the dependency relationship analysis unit 360 as inputs, and extracts a word representing the topic of the utterance sentence included in the morpheme sequence and the dependency structure. Here, the dependency structure is a set of two phrases having a dependency relationship.

発話文を例えば「かなりお腹が空きました。」とした場合、その発話文を形態素解析した結果を図12に示す。1行目は発話文、2行目は形態素解析結果、3行目は係り受け解析結果、4行目以降に係り受け構造、を示す。   For example, when the utterance sentence is “I am very hungry”, the result of morphological analysis of the utterance sentence is shown in FIG. The first line shows the utterance sentence, the second line shows the morphological analysis result, the third line shows the dependency analysis result, and the dependency structure after the fourth line.

係り受け関係解析部360が出力する係り受け関係のうち、ストップワードを含まないものを全て話題とする。単語は固有名詞のみを話題として用いる。ストップワードには、代名詞と、「する、いう、なる、ある、いる」などの特定の意味を伴わず使われる補助的な動詞と、「こと、の」などの抽象名詞と、時間に関する単語である例えば「今日」、「先日」、「○時○分」などの単語を用いる。ストップワードは、使用頻度が高く特定の意味を持たない単語である。例えば、「〜みたいな」等の話事が特有の語尾などもストップワードに含まれる。   Of the dependency relationships output by the dependency relationship analysis unit 360, all of the dependency relationships that do not include a stop word are used as topics. Words use only proper nouns as topics. Stop words include pronouns, auxiliary verbs that are used without specific meanings such as “do, say, become, is,”, abstract nouns such as “koto, no”, and words related to time. For example, words such as “today”, “the other day”, and “○ hour ○ minute” are used. Stop words are words that are frequently used and have no specific meaning. For example, endings that are unique to stories such as “I like” are also included in the stop word.

つまり、発話文抽出部710は、ストップワードを含む係り受け構造及び単語を発話文の話題から除外する処理を行う。ただし、このように単語の意味で決める方法以外に、出現数でフィルタする方法も有用である。フィルタとは、例えばTFIDFのような考えを導入することである。   That is, the utterance sentence extraction unit 710 performs a process of excluding a dependency structure including a stop word and a word from the topic of the utterance sentence. However, in addition to the method of determining by the meaning of the word as described above, a method of filtering by the number of appearances is also useful. A filter is to introduce an idea such as TFIDF.

なお、単語と係り受け構造(話題)を抽出する際、文節の先頭単語の標準形、POSタグ、文節の一意性を表す文節ID、簡単な意味属性(場所、動作、質問、…)、文節の内容語句の表記、内容語句の標準形、格情報、を同時に抽出するようにしても良い。   When extracting words and dependency structures (topics), the standard form of the first word of a phrase, a POS tag, a phrase ID indicating the uniqueness of the phrase, a simple semantic attribute (location, action, question, ...), phrase The content word / phrase notation, the standard form of the content word / phrase, and the case information may be extracted simultaneously.

関連話題抽出部780は、発話文の話題を表す単語及び係り受け構造を入力として当該単語と係り受け構造と関連の深い関連単語と関連係り受け構造を出力する。ここで、関連の深いとは、文節間で同一若しくは類義の単語が共起すること、文節間で係り受け関係が存在すること、コーパス中で強い共起関係がある単語の組が、対となる2文節内に1つずつ含まれることを意味する。なお、文節間での係り受け関係とは、係り受け構造A中の文節のうち少なくとも1つが係り受け構造B中の文節と係り受け関係にある状態である。図13にその状態を例示する。「お腹・空いた」の「空いた」に係る「空いて・きつい」の「きつい」に係る文節である「だいぶ・きつい」が、当該単語と係り受け構造に係る係り受け構造となる。   The related topic extraction unit 780 receives the word representing the topic of the utterance and the dependency structure, and outputs a related word and a related dependency structure that are closely related to the word and the dependency structure. Here, deeply related means that the same or similar words co-occur between clauses, that there is a dependency relationship between clauses, and a pair of words that have a strong co-occurrence relationship in the corpus. It means that it is included one by one in two phrases. The dependency relationship between clauses is a state in which at least one of the clauses in the dependency structure A is in a dependency relationship with the clauses in the dependency structure B. FIG. 13 illustrates the state. “Daibu / Tight”, which is a phrase related to “Tight” of “Hidden / Tight” related to “Hungry” of “Hungry / Hungry”, is a dependency structure related to the word and the dependency structure.

ここで、関連単語と関連係り受け構造は、関連話題ということになる。この「だいぶ・きつい」の関連係り受け構造は、発話文の話題を表す単語及び係り受け構造に、上記した定義を参考に予め決めたルールを適用することで生成される。最も単純な方法としては、「お腹・空いた」の係り受け構造に対応する「だいぶ・きつい」の文節を、関連話題抽出部780に用意しておく。なお、ルール以外に関連係り受け構造を生成する方法として、単語の共起関係のある文節や、類義語を含む文節、係り受け関係のある文節、コーパス中で共起関係が強い単語を持つ文節を関連話題としてもよい。   Here, the related word and the related dependency structure are related topics. The related dependency structure of “Daibu / Tight” is generated by applying a predetermined rule with reference to the above-described definition to a word representing a topic of an utterance and a dependency structure. As the simplest method, a phrase “big” or “tight” corresponding to the dependency structure of “hungry / hungry” is prepared in the related topic extraction unit 780. In addition to the rules, as a method of generating a related dependency structure, a clause having a co-occurrence relationship of words, a clause including a synonym, a clause having a dependency relationship, and a clause having a word having a strong co-occurrence relationship in the corpus are used. It may be a related topic.

発話文生成部720は、話題抽出部710が出力する発話文の話題を表す単語及び係り受け構造と、関連話題抽出部780が出力する関連単語と関連係り受け構造を入力として、それらの単語と係り受け構造をテンプレートに入力することで対話発話文を生成する。テンプレートは、上記したものと同じである。例えば、テンプレートとして「ですよね」や「ですか?」を用意しておき、抽出した係り受け構造を代入することで、「だいぶきついですよね」や「だいぶきついですか?」等の対話発話文を生成する。   The utterance sentence generation unit 720 receives words and dependency structures representing the topic of the utterance sentence output from the topic extraction unit 710, and related words and association dependency structures output from the related topic extraction unit 780, and inputs those words. A dialogue utterance is generated by inputting a dependency structure into a template. The template is the same as described above. For example, by preparing “Is it?” Or “Is?” As a template and substituting the extracted dependency structure, dialogue utterances such as “Is it pretty?” Or “Is it pretty?” Is generated.

発話文生成装置700によれば、入力された発話文の話題を表す単語と係り受け構造(話題)と、その係り受け構造と係り受け関係にある関連単語と関連係り受け構造(関連話題)と、に対応する対話発話文を生成するので、発話文生成装置300よりも更に幅広い話題に対応した意味の通った対話発話文を生成することができる。   According to the utterance sentence generation device 700, a word representing a topic of an inputted utterance sentence, a dependency structure (topic), a related word having a dependency relation with the dependency structure, and a related dependency structure (related topic), Therefore, it is possible to generate a meaningful dialog utterance corresponding to a wider topic than the utterance generation device 300.

図14に、この発明の発話文生成装置800の機能構成例を示す。発話文生成装置800は、発話文生成装置700に対して、係り受け関係データベース890を備える点と、関連話題抽出部880の機能の点で、異なる。   FIG. 14 shows a functional configuration example of the utterance sentence generation apparatus 800 of the present invention. The utterance sentence generation device 800 differs from the utterance sentence generation device 700 in that it includes a dependency relation database 890 and the function of the related topic extraction unit 880.

係り受け関係データベース890は、或る係り受け構造が与えられた場合に、その係り受け構造に係る係り受け構造を検索することのできるデータベースである。例えば、「お腹・が・空く」という構造から、この構造に係る係り受け構造を検索すると、図15に示す結果が得られるデータベースである。また、この検索を多段に行えるようにすると、「お腹が空く」に係る「飯・食う」を検索し、更に「飯・食う」に係る係り受け構造、というように検索することも可能である。この実施例では、大量の自然文から出現した係り受け構造を、その係り受け構造が出現した自然文を表す一意な番号(文番号)と共に記憶することで、係り受け関係データベース890を構築する。その構築方法の具体例は後述する。   The dependency relationship database 890 is a database that can search for a dependency structure related to a dependency structure when a certain dependency structure is given. For example, the database shown in FIG. 15 is obtained when a dependency structure related to this structure is searched from the structure of “hungry / empty”. Also, if this search can be performed in multiple stages, it is possible to search for “rice / eat” related to “hungry” and further to a dependency structure related to “rice / eat”. . In this embodiment, the dependency relationship database 890 is constructed by storing the dependency structure that appears from a large amount of natural sentences together with a unique number (sentence number) representing the natural sentence in which the dependency structure appears. A specific example of the construction method will be described later.

関連話題抽出部880は、発話文の話題を表す単語及び係り受け構造を入力とし、係り受け関係データベース890を参照して関連単語と関連係り受け構造を抽出して出力する。抽出に当たって、発話文の話題を表す単語及び係り受け構造(話題)がどのような品詞を持つか分からないと、関連する単語と関連する係り受け構造が何を表すか分からないうえに、テンプレートに上手く合致しない関連単語と関連係り受け構造が抽出され得る。そのため、抽出したい話題の種類ごとに入力される話題の品詞と抽出対象の話題の品詞によって制約される条件を設定する。条件を設定することで話題の種類が明確で、且つテンプレートに合致し易い話題を抽出することができる。   The related topic extraction unit 880 receives a word representing a topic of an utterance and a dependency structure, and extracts and outputs the related word and the related dependency structure with reference to the dependency relationship database 890. When extracting, if you do not know what part of speech the word and dependency structure (topic) that represents the topic of the spoken sentence has, you will not know what the dependency structure related to the related word represents, and Related words that do not match well and related dependency structures can be extracted. Therefore, a condition restricted by the topic part of speech input for each type of topic to be extracted and the part of speech of the topic to be extracted is set. By setting conditions, it is possible to extract a topic whose type of topic is clear and easily matches the template.

条件例として、入力される係り受け構造が(単語A・格F・単語B)で構成され、抽出対象の関連する係り受け構造が(単語C・格G・単語D)で構成されるものとして説明する。更に、動詞、形容詞、動名詞、形容動詞のような述語になり易い品詞を指して「述語」、動詞・動名詞のような動作を表現する品詞を指して「動作詞」、形容詞・形容動詞のような評価表現になり易い品詞を指して「評価詞」と定義する。   As a condition example, it is assumed that the input dependency structure is composed of (word A / case F / word B) and the related dependency structure to be extracted is composed of (word C / case G / word D). explain. Furthermore, “predicate” refers to a part of speech that is likely to be a predicate, such as a verb, adjective, verb noun, and adjective verb, and “verb” refers to a part of speech that expresses a motion such as a verb / verb, “adjective / adjective verb” A part of speech that is likely to be an evaluation expression such as is defined as an “evaluation word”.

評価表現を含む関連単語と関連係り受け構造を抽出するためには、単語A:一般・固有名詞、単語B:動作詞、単語D:評価詞、単語B→単語Dへの係り受け、の制約条件の元で係り受け関係データベース890を検索する。以降において大文字のアルファベットは単語を意味するが、「単語」の文言を省略する場合もある。例えば、入力される係り受け構造を、単語A:「お腹」→B:「空いて」とすると、図16(a)に示す関連単語と関連係り受け構造を抽出することができる。このように入力される係り受け構造中の文節のうち少なくとも1つと係り受け関係(B:空いて→D:きつい)を持つ関連単語と関連係り受け構造(C:だいぶ→Dきつい)を抽出することができる。   In order to extract a related word including an evaluation expression and a related dependency structure, restrictions on the word A: general / proprietary noun, word B: verb, word D: evaluation word, dependency on word B → word D, The dependency relationship database 890 is searched under the condition. In the following, capital letters mean words, but the word “word” may be omitted. For example, if the input dependency structure is word A: “abdomen” → B: “free”, the related word and the related dependency structure shown in FIG. 16A can be extracted. The related words having the dependency relationship (B: free → D: tight) and the related dependency structure (C: considerable → D tight) are extracted with at least one of the clauses in the dependency structure input in this way. be able to.

(名詞・F・動作詞)で構成される係り受け構造は、いわゆる述語項構造に似た構造を持ち、何らかの出来事を表現される構造と想定される。この制約条件によって、その出来事に対する評価表現を含む話題(関連単語と関連係り受け構造)を抽出できる。   A dependency structure composed of (noun, F, verb) is assumed to have a structure similar to a so-called predicate term structure and express some event. With this constraint condition, topics (related words and related dependency structures) including evaluation expressions for the event can be extracted.

原因表現を含む関連単語と関連係り受け構造を抽出するためには、単語A:一般・固有名詞、単語B:動作詞、単語D→Bに(D・H=「ので・から」・B)の構造を持つ係り受け、単語D:動作詞、の制約条件で係り受け関係データベース890を検索する。入力される係り受け構造を、上記した例とすると、図16(b)に示すように(C・G・D)+「から」+(A・F・B)という関連係り受け構造を取り出すことができ、(A・F・B)が発生した理由を抽出できる。   To extract a related word including a cause expression and a related dependency structure, the word A: general / proprietary noun, the word B: verb, the word D → B (D · H = “so de kara” · B) The dependency relationship database 890 is searched with the constraint condition of the dependency having the following structure: word D: verb. Assuming that the input dependency structure is the above-described example, as shown in FIG. 16B, a related dependency structure of (C · G · D) + “from” + (A · F · B) is taken out. The reason why (A · F · B) occurs can be extracted.

疑問詞表現を含む関連単語と関連係り受け構造を抽出するためには、単語A:一般・固有名詞、単語B:動作詞、単語D=単語B、単語C:疑問詞、の制約条件とする。入力される係り受け構造を、上記した例とすると、図16(c)に示すように疑問詞+(A・F・B)という関係係り受け構造を取り出すことができ、(A・F・B)について問う際に用いる疑問詞を抽出できる。   In order to extract a related word including an interrogative expression and a related dependency structure, a constraint condition of word A: general / proprietary noun, word B: verb, word D = word B, word C: interrogative . Assuming that the input dependency structure is the above-described example, as shown in FIG. 16C, the relationship dependency structure of interrogative + (A · F · B) can be extracted, and (A · F · B ) Can be extracted.

自己開示表現を含む関連単語と関連係り受け構造を抽出するためには、単語A:一般・固有名詞、格F:「は」、単語B:名詞、「自分・の」→単語Aの係り受け数大、単語C=単語A,格G:「は」、単語D:名詞、単語D≠単語B、の制約条件とする。ここで係り受け数大は、例えば上位3つくらいに絞る数である。入力される係り受け構造を、上記した例とすると、図16(d)に示すように、相手の(A・はB)に対して、対応する「自分・の」+(A・は・D)の関連係り受け構造を抽出できる。   In order to extract related words and related dependency structures including self-disclosure expressions, word A: general / proprietary noun, case F: “ha”, word B: noun, “self”, → dependency on word A It is assumed that the constraint condition is large, word C = word A, case G: “ha”, word D: noun, word D ≠ word B. Here, the large number of dependency is a number narrowed down to the top three, for example. If the dependency structure to be inputted is the above example, as shown in FIG. 16 (d), the corresponding “own” + (A · ha · D) with respect to the opponent (A · has B). ) Related dependency structure can be extracted.

上記したように制約条件を設けて抽出した関連係り受け構造を用いて対話発話文を生成する場合の発話文生成部720の好ましいテンプレートの用意の仕方について説明する。   A description will be given of how to prepare a preferable template of the utterance sentence generation unit 720 in the case of generating a dialog utterance sentence using the related dependency structure extracted by providing the constraint condition as described above.

上記した発話文生成部720のテンプレートを、係り受け関係データベース890から関連単語と関連係り受け構造を抽出する際の制約条件ごとに作成することで、テンプレート間の関係性の見通しを良くすることができる。 評価表現を抽出した場合は、例えば、「単語C+格G+単語Dですよね」や「単語C+格G+単語Dですか?」のテンプレートを用意して、単語C+格G+単語Dですよね、や、単語C+格G+単語Dですか?の対話発話文を生成する。図17(a)にその例を示す。発話意図(自己開示_評価)の対話発話文「だいぶきついですよね」、(質問_評価)の対話発話文「だいぶきついですか?」を生成することができる。   By creating the template of the above-mentioned spoken sentence generation unit 720 for each constraint condition when extracting the related words and the related dependency structure from the dependency relationship database 890, it is possible to improve the prospect of the relationship between the templates. it can. When the evaluation expression is extracted, for example, a template of “word C + case G + word D” or “word C + case G + word D?” Is prepared, and it is word C + case G + word D. Is it word C + case G + word D? Generate a dialogue utterance. An example is shown in FIG. It is possible to generate a dialogue utterance sentence “Self-disclosure_evaluation” dialogue utterance “It's quite tight” and a (question_evaluation) dialogue utterance sentence “Is it pretty tight?”

原因表現を抽出した場合は、例えば、「単語C+格G+単語Dの?」のテンプレートを用意して、図17(b)に示すように発話意図(質問_事実)の「もしや何も食べていないの?」や「何も食べていないの?」の対話発話文を生成することができる。   When the cause expression is extracted, for example, a template of “word C + case G + word D?” Is prepared, and an utterance intention (question_facts) “If you eat anything” as shown in FIG. You can generate dialogue utterances such as "Isn't there?" Or "Did you eat anything?"

疑問詞表現を抽出した場合は、例えば、「単語C+格G?」や「単語C+格G+単語B?」のテンプレートを用意して、図17(c)に示すように発話意図(質問_事実)の対話発話文「どうして?」や「どうして空く?」の対話発話文を生成することができる。ただし、単語Cが「どうして」など理由を問う疑問詞の場合には、対話発話文が不適切になる恐れがあるので、テンプレートを例えば次のように変更する。「単語C+格G+こうも単語A+単語Bかなあ」、とテンプレートを用意すると「どうしてこうもお腹がすくかな」といった対話発話文を生成することができる。   When the interrogative expression is extracted, for example, a template of “word C + case G?” Or “word C + case G + word B?” Is prepared, and the intention of utterance (question_fact is shown in FIG. 17C). ) Dialogue utterances “Why?” And “Why are you free?” Dialogue utterances can be generated. However, if the word C is an interrogative questioning the reason such as “why”, the dialogue utterance may become inappropriate, so the template is changed as follows, for example. If a template such as “word C + case G + komo word A + word B kana” is prepared, a dialogue utterance sentence such as “why I am hungry like this” can be generated.

自己開示表現を抽出した場合は、例えば、「私の(単語C)は(単語D)です」や{自分は(単語D)が(単語A)です}のテンプレートを用意して、図17(d)に示すように発話意図(自己開示_事実)の「私のお腹はブラックホールです」の対話発話文を生成することができる。   When the self-disclosure expression is extracted, for example, a template of “My (word C) is (word D)” or {I am (word D) is (word A)} is prepared as shown in FIG. As shown in d), it is possible to generate a dialogue utterance sentence “My stomach is a black hole” with an utterance intention (self-disclosure_facts).

制約条件なしに抽出した関連係り受け構造の出現数が上位のものをテンプレートに代入することで対話発話文を生成するようにしても良い。もちろん、抽出するための入力係り受け構造もテンプレートに代入する。   You may make it generate | occur | produce a dialog speech sentence by substituting the thing with the higher appearance number of the related dependency structure extracted without the constraint conditions to a template. Of course, the input dependency structure for extraction is also substituted into the template.

これらの係り受け構造に含まれる単語のみを用いて発話を生成する場合、各単語をどのような表現と共に用いれば良いかを適切に定める必要がある。そこで、検索された関連係り受け構造が属する文で使われている用例を、そのまま利用して対話発話文を生成する。例えば、後ろ方向の係り受け関係から対話発話文を生成する場合、入力係り受け構造から直接検索された係り受け構造xの表記(例えば「お腹空いたから」)の後段に関連係り受け構造zの表記(例えば「ご飯食べる」)を並べたものを単位として出現数を調べ、出現数が上位のものについて最後の部分のみ「○○ですね」のような簡易なテンプレートに合致するように変換して接続することで、「お腹すいたからご飯たべるんですね」のように対話発話文を生成する。   When an utterance is generated using only words included in these dependency structures, it is necessary to appropriately determine what expression should be used for each word. Therefore, a dialog utterance sentence is generated using the example used in the sentence to which the retrieved related dependency structure belongs. For example, when generating a dialogue utterance sentence from the dependency relation in the backward direction, the notation of the related dependency structure z in the subsequent stage of the dependency structure x retrieved directly from the input dependency structure (for example, “I was hungry”) (For example, “eat rice”) The number of occurrences is examined as a unit, and the highest number of occurrences are converted so that only the last part matches a simple template such as “It ’s OO” By connecting, a dialogue utterance is generated like "I'm hungry because I'm hungry".

出現数が1回の場合は、その文脈固有の表現であることが多いので除外する。以上の方法により、入力係り受け構造と関連係り受け構造の接続や、それぞれが含む機能表現などを活かし、文法的に不自然になり難い対話発話文を得ることができる。   If the number of occurrences is one, it is often excluded because it is often a context-specific expression. By the above method, it is possible to obtain a dialogue utterance that is difficult to become grammatically unnatural by making use of the connection between the input dependency structure and the related dependency structure and the function expressions included in each.

上記した係り受け関係データベース890の作成方法について図18を参照して説明する。図18に示す方法では、一つの係り元と係り先とから成るフラットな係り受け構造を記録したデータベースから、先ず、入力された係り受け構造i中の2つの文節s ,s から、各文節の先頭単語の標準形を取りだし、入力係り受け構造に含まれる順で出現する係り受け構造群Xを検索する。 A method of creating the dependency relationship database 890 described above will be described with reference to FIG. In the method shown in FIG. 18, from a database in which a flat dependency structure consisting of one dependency source and a dependency destination is recorded, first, from two clauses s 1 i and s 2 i in the input dependency structure i. Then, the standard form of the first word of each phrase is taken out, and a dependency structure group X that appears in the order included in the input dependency structure is searched.

次に、得られた係り受け構造x∈Xごとに、構成する文節s ,s ∈sの何れかを含む係り受け構造yを、文IDと文節IDを利用して検索する。係り受け構造yはx中の文節s ,s の何れかを含むため、yはxと一部の文節が重複した関連係り受け構造と考えることができる。 Next, for each of the obtained dependency structures xεX, a dependency structure y including any one of the constituent clauses s 1 x and s 2 x εs x is searched using the sentence ID and the clause ID. . Since the dependency structure y includes any of the clauses s 1 x and s 2 x in x , y can be considered as a related dependency structure in which x and some clauses overlap.

更に、yを構成する文節s ,s ∈sを含みsを含まないものを同様に検索しzとすると「お腹→空いた」に対する「ごはん→食べる」のような文節が重複しない関連係り受け構造を得ることができる。このようにして得られた関連係り受け構造は、入力された係り受け構造に対して理由や結果、限定など特定の関連する性質を持っている。入力される係り受け構造に対する出現位置と係る格によって、その性質が異なると考えられる。
このようにして得られた関連係り受け構造をデータベース化したものが係り受け関係データベース890である。係り受け関係データベース890を備えた発話文生成装置800は、フラットな係り受け構造から、当該係り受け構造に係る関連係り受け構造をシステマチックに抽出したデータベースを用いるので、発話文生成装置700に対して更に幅広い対話発話文を生成することができる。フラットな係り受け構造とは、一つの係り元と係り先とから成る係り受け構造のことである。
Further, if a phrase that includes y including s 1 y , s 2 y ∈ s y and does not include s x is searched in the same manner, z becomes a phrase such as “rice → eat” for “hungry → empty”. It is possible to obtain a related dependency structure that does not overlap. The related dependency structure thus obtained has specific related properties such as reasons, results, and limitations with respect to the input dependency structure. It is considered that the nature differs depending on the appearance position and the case with respect to the input dependency structure.
A dependency relationship database 890 is a database of the related dependency structures thus obtained. The utterance sentence generation apparatus 800 provided with the dependency relation database 890 uses a database in which the related dependency structure related to the dependency structure is systematically extracted from the flat dependency structure. Can generate a wider range of dialogue utterances. The flat dependency structure is a dependency structure composed of one dependency source and a dependency destination.

また、係り受け関係データベース890は、図18に示した方法で一つの係り元と係り先とから成るフラットな係り受け構造を記録した係り受け関係データベース890′から作成する関係にあるが、関連係り受け構造を検索する処理を、その都度行う構成も考えられる。つまり、関連係り受け構造を予めデータベース化しておくのではなく、関連係り受け構造を毎回検索するようにしても良い。   The dependency relationship database 890 is created from the dependency relationship database 890 'in which a flat dependency structure composed of one dependency source and a dependency destination is recorded by the method shown in FIG. A configuration is also conceivable in which the processing for retrieving the receiving structure is performed each time. In other words, the related dependency structure may be searched every time, instead of creating the database in advance.

その場合の関連話題抽出部880′は、図18で説明した方法で関連単語と関連係り受け構造を検索する。検索には、品詞情報や格、単語情報などを用いても良い。この関連係り受け構造を毎回検索方法は、計算量は増加するが、係り受けの深さを自由に変えることができるので、多様な対話発話文を生成するのに有利な方法である。   In this case, the related topic extraction unit 880 ′ searches for related words and related dependency structures by the method described with reference to FIG. Part of speech information, case, word information, etc. may be used for the search. This method of searching for the related dependency structure every time increases the amount of calculation, but the depth of the dependency can be freely changed, and thus is an advantageous method for generating various dialogue utterances.

図19に、この発明の発話文生成装置900の機能構成例を示す。発話文生成装置900は、発話文生成装置800に対して、自然文記憶部995を備える点と、発話文生成部920の機能の点で、異なる。   FIG. 19 shows a functional configuration example of the utterance sentence generation apparatus 900 of the present invention. The utterance sentence generation device 900 differs from the utterance sentence generation device 800 in that it includes a natural sentence storage unit 995 and the function of the utterance sentence generation unit 920.

自然文記憶部995は、係り受け関係データベース890に記憶された係り受け構造と格に対応する文番号に対応した自然文を記憶したものである。発話文生成部920は、話題抽出部310から入力される単語と係り受け構造を表す文番号と、関連話題抽出部880から入力される関連単語と関連係り受け構造を表す文番号とに、文番号で対応する自然文を、自然文記憶部995から読み出して対話発話文を生成する。対話発話文は、自然文記憶部995から読み出した自然文そのままでも良いし、その文末を「です」「ます」に変える等の変更を行っても良い。   The natural sentence storage unit 995 stores a natural sentence corresponding to a sentence number corresponding to the dependency structure and case stored in the dependency relation database 890. The utterance sentence generation unit 920 includes a sentence number indicating a word input from the topic extraction unit 310 and a dependency number, and a sentence number indicating a related word input from the related topic extraction unit 880 and a related dependency structure. A natural sentence corresponding to the number is read from the natural sentence storage unit 995 to generate a dialog utterance sentence. The dialogue utterance sentence may be a natural sentence read out from the natural sentence storage unit 995 or may be changed such that the end of the sentence is changed to “Da” or “Masara”.

発話文生成装置900によれば、テンプレートを用いずに大量の自然文から対話発話文を生成するので、幅広い話題の発話文に対する対話発話文を生成することが可能である。自然文記憶部995に記憶する自然文は、上記した係り受け関係辞書470と同様に、口語調の対話発話文を生成する目的では、主観的な発言を大量に含むマイクロブログから収集すると好ましい。   According to the utterance sentence generation device 900, since a dialog utterance sentence is generated from a large amount of natural sentences without using a template, it is possible to generate a conversation utterance sentence for utterance sentences of a wide range of topics. The natural sentences stored in the natural sentence storage unit 995 are preferably collected from a microblog containing a large amount of subjective utterances for the purpose of generating spoken dialogue conversation sentences as in the case of the dependency relation dictionary 470 described above.

なお、自然文記憶部995は、上記した実施例の全てに設けても良い。例えば、自然文記憶部995を備えた発話文生成装置100′は、話題抽出部110が出力する焦点語をクエリとして、自然文記憶部995から類義語を検索して対話発話文を生成するようにしても良い。   The natural sentence storage unit 995 may be provided in all of the above-described embodiments. For example, the utterance sentence generation device 100 ′ provided with the natural sentence storage unit 995 generates a dialogue utterance sentence by searching for a synonym from the natural sentence storage unit 995 using the focus word output from the topic extraction unit 110 as a query. May be.

以上説明した発話文生成装置100によれば、ユーザ発話文から話題の焦点を表す複数の焦点語を抽出し、その複数の焦点語をテンプレートに代入して対話発話文を生成するので、バリエーション豊富な対話発話文の生成が可能である。また、発話文生成装置200によれば、焦点語の類義語である関連語を推定し、焦点語と関連語とを用いて発話文を生成するので、より幅広い話題に対応できる対話発話文を生成することが可能である。   According to the utterance sentence generation device 100 described above, a plurality of focal words representing the focal point of a topic are extracted from the user utterance sentence, and the conversation utterance sentence is generated by substituting the plural focal words into a template. A simple dialogue utterance can be generated. Moreover, according to the utterance sentence generation device 200, the related words that are synonyms of the focus word are estimated, and the utterance sentence is generated using the focus word and the related word, so that the dialog utterance sentence that can deal with a wider range of topics is generated. Is possible.

また、発話文生成装置300によれば、係り受け関係にある単語群をテンプレートに代入するので、幅広い話題に対応可能で、且つ、意味の通った対話発話文を生成することができる。また、発話文生成装置300,400,500,600は、焦点語と関連語との関連性の推定に、マイクロブログ等の大量の自然文に含まれる係り受け関係を利用するので、ユーザ発話文に対する対話発話文のバリエーションを豊富にすることができる。   Furthermore, according to the utterance sentence generation device 300, a group of words having a dependency relationship is substituted into the template, so that it is possible to generate a conversation utterance sentence that can deal with a wide range of topics and has meaning. Moreover, since the utterance sentence generators 300, 400, 500, and 600 use dependency relations included in a large amount of natural sentences such as microblogs for estimating the relation between the focus word and the related word, the user utterance sentence You can enrich the variety of dialogue utterances.

また、発話文生成装置700は、発話文の内容を表す単語と係り受け構造と当該単語と係り受け構造に係る関連単語と関連係り受け構造を、テンプレートに代入するので更に幅広い話題に対応可能で、意味の通った対話発話文を生成することができる。また、発話文生成装置800は、係り受け関係データベース890を用いるので、より幅の広い対話発話文を生成することができる。また、発話文生成装置900は、テンプレートを用いずに大量の自然文から対話発話文を生成するので、幅広い話題に対応した自然な表現の対話発話文を生成することができる。   In addition, the utterance sentence generation device 700 substitutes a word representing the content of the utterance sentence, a dependency structure, a related word related to the word and the dependency structure, and a related dependency structure into the template, so that it can deal with a wider range of topics. A meaningful dialogue utterance can be generated. Further, since the utterance sentence generation device 800 uses the dependency relation database 890, it is possible to generate a wider conversation utterance sentence. Further, since the utterance sentence generation device 900 generates a dialog utterance sentence from a large amount of natural sentences without using a template, it is possible to generate a dialog utterance sentence with a natural expression corresponding to a wide range of topics.

上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。   When the processing means in the above apparatus is realized by a computer, the processing contents of the functions that each apparatus should have are described by a program. Then, by executing this program on the computer, the processing means in each apparatus is realized on the computer.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a recording device of a server computer and transferring the program from the server computer to another computer via a network.

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   Each means may be configured by executing a predetermined program on a computer, or at least a part of these processing contents may be realized by hardware.

Claims (12)

発話文の形態素列を入力として、当該発話文の内容を表す単語又は当該単語と係り受け構造を抽出する話題抽出部と、
上記話題抽出部で抽出された単語又は係り受け構造をテンプレートに代入することで対話発話文を生成する発話文生成部と、
を具備する発話文生成装置。
A topic extraction unit that extracts a morpheme string of an utterance sentence as an input and extracts a word representing the content of the utterance sentence or a dependency structure of the word,
An utterance sentence generation section that generates a dialog utterance sentence by substituting the word or dependency structure extracted by the topic extraction section into a template;
An utterance sentence generation device comprising:
請求項1に記載した発話文生成装置において、
更に、関連語推定部を備え、
上記関連語推定部は、上記発話文の内容を表す単語を焦点語として、当該焦点語の類義語を関連語として推定するものであり、
上記発話文生成部は、上記焦点語と上記関連語を入力として、当該焦点語と当該関連語をテンプレートに代入することで対話発話文を生成するものである、
ことを特徴とする発話文生成装置。
In the utterance sentence generation device according to claim 1,
Furthermore, a related word estimation unit is provided,
The related word estimation unit estimates a word representing the content of the spoken sentence as a focal word, and a synonym of the focal word as a related word,
The utterance sentence generation unit is configured to generate a dialogue utterance sentence by substituting the focal word and the related word into a template with the focal word and the related word as inputs.
An utterance sentence generation device characterized by the above.
請求項2に記載した発話文生成装置において、
更に、係り受け関係辞書を備え、
上記係り受け関係辞書は、大量の自然文から所定の単語に対する係り受け関係として出現した単語群をその回数と共に記録したものであり、
上記関連語推定部は、上記焦点語を入力として、上記係り受け関係辞書を参照して当該焦点語の関連語を抽出するものである、
ことを特徴とする発話文生成装置。
In the utterance sentence generation device according to claim 2,
In addition, there is a dependency relationship dictionary,
The dependency relationship dictionary records a group of words that appear as dependency relationships with respect to a predetermined word from a large amount of natural sentences together with the number of times.
The related word estimation unit extracts the related word of the focal word with reference to the dependency relation dictionary with the focal word as an input.
An utterance sentence generation device characterized by the above.
請求項1乃至3の何れかに記載した発話文生成装置において、
更に、係り受け関係解析部を備え、
上記係り受け関係解析部は、上記形態素列を入力として、当該形態素列の係り受け解析を行って、文節の係り受け関係を出力するものであり、
上記話題抽出部は、上記形態素列と上記係り受け関係を入力として、当該形態素列中に含まれる話題の焦点を表す固有名詞、一般名詞、述語、の複数の焦点語を抽出するものである、
ことを特徴とする発話文生成装置。
In the utterance sentence generation device according to any one of claims 1 to 3,
In addition, there is a dependency relationship analysis unit,
The dependency relationship analysis unit receives the morpheme sequence as input, performs dependency analysis of the morpheme sequence, and outputs a dependency relationship of clauses.
The topic extraction unit is configured to extract a plurality of focused words such as proper nouns, general nouns, and predicates representing the focus of a topic included in the morpheme string, using the morpheme string and the dependency relationship as inputs.
An utterance sentence generation device characterized by the above.
請求項3に記載した発話文生成装置において、
上記係り受け関係辞書は、
上記係り受け関係解析部が出力する係り受け関係を入力として、当該係り受け関係とその出現回数を更新して記録するものである、
ことを特徴とする発話文生成装置。
In the utterance sentence generation device according to claim 3,
The dependency relationship dictionary is
With the dependency relationship output by the dependency relationship analysis unit as an input, the dependency relationship and the number of appearances are updated and recorded.
An utterance sentence generation device characterized by the above.
請求項3に記載した発話文生成装置において、
上記係り受け関係辞書は、
外部から収集した自然文を記憶する自然文一時記憶部と、
自然文一時記憶部に記憶されたテキスト情報を形態素解析して形態素列を出力する形態素解析部と、
形態素解析部が出力する形態素列から単語間の係り受け関係を推定し、係り受け関係と表層格を抽出する係り受け関係解析部と、
係り受け関係解析部が出力する係り受け関係と表層格を記録する係り受け関係記録部と、
で構成されることを特徴とする発話文生成装置。
In the utterance sentence generation device according to claim 3,
The dependency relationship dictionary is
A natural sentence temporary storage unit for storing natural sentences collected from the outside;
A morpheme analysis unit that outputs morpheme strings by performing morphological analysis on text information stored in the natural sentence temporary storage unit;
A dependency relationship analysis unit that estimates a dependency relationship between words from a morpheme sequence output by the morpheme analysis unit, and extracts a dependency relationship and a surface case;
A dependency relationship recording unit that records the dependency relationship and surface case output by the dependency relationship analysis unit;
An utterance sentence generation device characterized by comprising.
請求項1に記載した発話文生成装置において、
更に、係り受け関係解析部と関連話題抽出部とを備え、
上記係り受け関係解析部は、上記形態素列を入力として、当該形態素列の係り受け解析を行って、文節の係り受け関係を出力するものであり、
上記話題抽出部は、上記形態素列と上記係り受け関係を入力として、当該形態素列中に含まれる上記発話文の話題を表す単語及び係り受け構造を抽出するものであり、
上記関連話題抽出部は、上記発話文の話題を表す単語及び係り受け構造を入力として当該単語と係り受け構造と関連の深い関連単語と関連係り受け構造を出力するものであり、
上記発話文生成部は、上記発話文の話題を表す単語及び係り受け構造と上記関連単語と上記関連係り受け構造を入力として、上記発話文の話題を表す単語及び係り受け構造と上記関連単語と上記関連係り受け構造をテンプレートに代入することで対話発話文を生成するものである、
ことを特徴とする発話文生成装置。
In the utterance sentence generation device according to claim 1,
Furthermore, a dependency relationship analysis unit and a related topic extraction unit are provided,
The dependency relationship analysis unit receives the morpheme sequence as input, performs dependency analysis of the morpheme sequence, and outputs a dependency relationship of clauses.
The topic extraction unit is configured to extract a word and a dependency structure representing a topic of the utterance sentence included in the morpheme sequence, using the morpheme sequence and the dependency relationship as inputs.
The related topic extraction unit outputs a related word and a related dependency structure that are closely related to the word and the dependency structure, with the word representing the topic of the spoken sentence and the dependency structure as inputs.
The utterance sentence generation unit receives a word representing a topic of the utterance sentence, a dependency structure, the related word, and the related dependency structure, and inputs a word representing the topic of the utterance sentence, a dependency structure, and the related word, The dialogue utterance is generated by substituting the related dependency structure into the template.
An utterance sentence generation device characterized by the above.
請求項7に記載した発話文生成装置において、
更に、係り受け関係データベースを備え、
上記係り受け関係データベースは、ある係り受け構造が与えられた場合に、当該係り受け構造に係る係り受け構造を検索することができるデータベースであり、
上記関連話題抽出部は、上記発話文の話題を表す単語及び係り受け構造を入力とし、上記係り受け関係データベースを参照して上記関連単語と上記関連係り受け関係を出力するものである、
ことを特徴とする発話文生成装置。
In the utterance sentence generation device according to claim 7,
In addition, there is a dependency relationship database,
The dependency relationship database is a database that can search for a dependency structure related to the dependency structure when a certain dependency structure is given.
The related topic extraction unit inputs a word representing a topic of the utterance and a dependency structure, and outputs the related word and the related dependency relationship with reference to the dependency relationship database.
An utterance sentence generation device characterized by the above.
請求項7又は8に記載した発話文生成装置において、
更に、自然文記憶部を備え、
上記発話文生成部は、上記発話文の話題を表す単語及び係り受け構造と上記関連単語と上記関連係り受け関係を含む自然文を、上記自然文記憶部から読み出して上記対話発話とするものである、
ことを特徴とする発話文生成装置。
In the utterance sentence generation device according to claim 7 or 8,
Furthermore, a natural sentence storage unit is provided,
The spoken sentence generation unit reads a natural sentence including a word representing a topic of the spoken sentence, a dependency structure, the related word, and the related dependency relation from the natural sentence storage unit, and sets the dialogue utterance. is there,
An utterance sentence generation device characterized by the above.
請求項9に記載した発話文生成装置において、
上記自然文記憶部は、上記係り受け関係データベースに記憶された係り受け構造に対応する文番号に対応した自然文を記憶したものである、
ことを特徴とする発話文生成装置。
In the utterance sentence generation device according to claim 9,
The natural sentence storage unit stores a natural sentence corresponding to a sentence number corresponding to the dependency structure stored in the dependency relation database.
An utterance sentence generation device characterized by the above.
話題抽出部が、発話文の形態素列を入力として、当該発話文の内容を表す単語又は当該単語と係り受け構造を抽出する話題抽出過程と、
発話文生成部が、上記話題抽出部で抽出された単語又は係り受け構造をテンプレートに代入することで対話発話文を生成する発話文生成過程と、
を備える発話文生成方法。
A topic extraction process in which a topic extraction unit extracts a morpheme string of an utterance sentence and extracts a word representing the content of the utterance sentence or a dependency structure of the word and
An utterance sentence generation unit generates an interactive utterance sentence by substituting the word or dependency structure extracted by the topic extraction part into a template,
An utterance sentence generation method comprising:
請求項1乃至10の何れかに記載した発話文生成装置としてコンピュータを機能させるためのプログラム。   A program for causing a computer to function as the utterance sentence generation device according to any one of claims 1 to 10.
JP2013254771A 2013-07-31 2013-12-10 Utterance sentence generation apparatus, method and program thereof Active JP6225012B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013254771A JP6225012B2 (en) 2013-07-31 2013-12-10 Utterance sentence generation apparatus, method and program thereof

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013159507 2013-07-31
JP2013159507 2013-07-31
JP2013254771A JP6225012B2 (en) 2013-07-31 2013-12-10 Utterance sentence generation apparatus, method and program thereof

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2017085934A Division JP2017174443A (en) 2013-07-31 2017-04-25 Utterance sentence generation device, method and program thereof

Publications (2)

Publication Number Publication Date
JP2015045833A true JP2015045833A (en) 2015-03-12
JP6225012B2 JP6225012B2 (en) 2017-11-01

Family

ID=52671367

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2013254771A Active JP6225012B2 (en) 2013-07-31 2013-12-10 Utterance sentence generation apparatus, method and program thereof
JP2017085934A Pending JP2017174443A (en) 2013-07-31 2017-04-25 Utterance sentence generation device, method and program thereof
JP2018136789A Active JP6676109B2 (en) 2013-07-31 2018-07-20 Utterance sentence generation apparatus, method and program
JP2018136790A Active JP6676110B2 (en) 2013-07-31 2018-07-20 Utterance sentence generation apparatus, method and program

Family Applications After (3)

Application Number Title Priority Date Filing Date
JP2017085934A Pending JP2017174443A (en) 2013-07-31 2017-04-25 Utterance sentence generation device, method and program thereof
JP2018136789A Active JP6676109B2 (en) 2013-07-31 2018-07-20 Utterance sentence generation apparatus, method and program
JP2018136790A Active JP6676110B2 (en) 2013-07-31 2018-07-20 Utterance sentence generation apparatus, method and program

Country Status (1)

Country Link
JP (4) JP6225012B2 (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153802A (en) * 2016-12-06 2018-06-12 卡西欧计算机株式会社 Session proxy, response sentence generation method and computer-readable non-volatile memory medium
JP2018097201A (en) * 2016-12-14 2018-06-21 トヨタ自動車株式会社 Voice dialog device and voice dialog method
WO2018163647A1 (en) * 2017-03-10 2018-09-13 日本電信電話株式会社 Dialogue method, dialogue system, dialogue device, and program
JP2018147411A (en) * 2017-03-08 2018-09-20 株式会社Spectee Data processing device, data processing method, data processing system, and program
JP2018198097A (en) * 2018-09-20 2018-12-13 カシオ計算機株式会社 Sentence generation device, sentence generation method, and program
CN109522541A (en) * 2017-09-18 2019-03-26 三星电子株式会社 Service outer sentence generation method and apparatus
CN111666405A (en) * 2019-03-06 2020-09-15 百度在线网络技术(北京)有限公司 Method and device for recognizing text implication relation
JP2020537223A (en) * 2017-09-28 2020-12-17 オラクル・インターナショナル・コーポレイション Allowing autonomous agents to distinguish between questions and requests
WO2024154505A1 (en) * 2023-01-18 2024-07-25 富士通株式会社 Machine learning program, information processing device, and machine learning method

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7096172B2 (en) * 2019-01-16 2022-07-05 Kddi株式会社 Devices, programs and methods for generating dialogue scenarios, including utterances according to character.

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0683809A (en) * 1992-08-31 1994-03-25 Fuji Xerox Co Ltd Document processor
JP2003256419A (en) * 2001-12-28 2003-09-12 Fujitsu Ltd Dialogue method, dialogue system, dialogue program and computer-readable recording medium recording the same
JP2007219149A (en) * 2006-02-16 2007-08-30 Toyota Central Res & Dev Lab Inc Response generation device, method and program
JP2008152637A (en) * 2006-12-19 2008-07-03 Toyota Central R&D Labs Inc Response generation apparatus and response generation program
JPWO2013080406A1 (en) * 2011-11-28 2015-04-27 Necソリューションイノベータ株式会社 Dialog system, redundant message elimination method, and redundant message elimination program

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009134701A (en) * 2007-10-30 2009-06-18 Atsushi Yaginuma Natural language processor and natural language processing program
JP5974444B2 (en) * 2011-10-05 2016-08-23 富士通株式会社 Information processing system, information processing method, information processing program, and recording medium

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0683809A (en) * 1992-08-31 1994-03-25 Fuji Xerox Co Ltd Document processor
JP2003256419A (en) * 2001-12-28 2003-09-12 Fujitsu Ltd Dialogue method, dialogue system, dialogue program and computer-readable recording medium recording the same
JP2007219149A (en) * 2006-02-16 2007-08-30 Toyota Central Res & Dev Lab Inc Response generation device, method and program
JP2008152637A (en) * 2006-12-19 2008-07-03 Toyota Central R&D Labs Inc Response generation apparatus and response generation program
JPWO2013080406A1 (en) * 2011-11-28 2015-04-27 Necソリューションイノベータ株式会社 Dialog system, redundant message elimination method, and redundant message elimination program

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153802B (en) * 2016-12-06 2021-11-12 卡西欧计算机株式会社 Dialogue agent, response sentence generation method, and computer-readable nonvolatile storage medium
JP2018092485A (en) * 2016-12-06 2018-06-14 カシオ計算機株式会社 Sentence generation device, sentence generation method, and program
US10770068B2 (en) 2016-12-06 2020-09-08 Casio Computer Co., Ltd. Dialog agent, reply sentence generation method, and non-transitory computer-readable recording medium
CN108153802A (en) * 2016-12-06 2018-06-12 卡西欧计算机株式会社 Session proxy, response sentence generation method and computer-readable non-volatile memory medium
JP2018097201A (en) * 2016-12-14 2018-06-21 トヨタ自動車株式会社 Voice dialog device and voice dialog method
JP2018147411A (en) * 2017-03-08 2018-09-20 株式会社Spectee Data processing device, data processing method, data processing system, and program
JP7078244B2 (en) 2017-03-08 2022-05-31 株式会社Spectee Data processing equipment, data processing methods, data processing systems and programs
WO2018163647A1 (en) * 2017-03-10 2018-09-13 日本電信電話株式会社 Dialogue method, dialogue system, dialogue device, and program
CN109522541B (en) * 2017-09-18 2023-09-15 三星电子株式会社 Out-of-service sentence generation method and device
CN109522541A (en) * 2017-09-18 2019-03-26 三星电子株式会社 Service outer sentence generation method and apparatus
JP7214719B2 (en) 2017-09-28 2023-01-30 オラクル・インターナショナル・コーポレイション Allow autonomous agents to distinguish between questions and requests
JP2020537223A (en) * 2017-09-28 2020-12-17 オラクル・インターナショナル・コーポレイション Allowing autonomous agents to distinguish between questions and requests
JP2018198097A (en) * 2018-09-20 2018-12-13 カシオ計算機株式会社 Sentence generation device, sentence generation method, and program
CN111666405A (en) * 2019-03-06 2020-09-15 百度在线网络技术(北京)有限公司 Method and device for recognizing text implication relation
CN111666405B (en) * 2019-03-06 2023-07-07 百度在线网络技术(北京)有限公司 Method and device for identifying text implication relationship
WO2024154505A1 (en) * 2023-01-18 2024-07-25 富士通株式会社 Machine learning program, information processing device, and machine learning method

Also Published As

Publication number Publication date
JP6676109B2 (en) 2020-04-08
JP2018195330A (en) 2018-12-06
JP6225012B2 (en) 2017-11-01
JP6676110B2 (en) 2020-04-08
JP2017174443A (en) 2017-09-28
JP2018195331A (en) 2018-12-06

Similar Documents

Publication Publication Date Title
JP6225012B2 (en) Utterance sentence generation apparatus, method and program thereof
Malandrakis et al. Distributional semantic models for affective text analysis
Colin et al. The webnlg challenge: Generating text from dbpedia data
WO2018034118A1 (en) Dialog system and computer program therefor
KR101136007B1 (en) System and method for anaylyzing document sentiment
KR20110009205A (en) Systems and methods for natural language communication with a computer
MXPA04010820A (en) System for identifying paraphrases using machine translation techniques.
JP2011118689A (en) Retrieval method and system
Tiwari et al. Ensemble approach for twitter sentiment analysis
Matsuyama et al. Automatic expressive opinion sentence generation for enjoyable conversational systems
Malandrakis et al. Sail: Sentiment analysis using semantic similarity and contrast features
Lee et al. Speech2Mindmap: testing the accuracy of unsupervised automatic mindmapping technology with speech recognition
JP6126965B2 (en) Utterance generation apparatus, method, and program
Shiang et al. Spoken question answering using tree-structured conditional random fields and two-layer random walk
Malandrakis et al. Affective language model adaptation via corpus selection
JP5744150B2 (en) Utterance generation apparatus, method, and program
Shao et al. An efficient expansion word extraction algorithm for educational video
Song et al. Overview of natural language processing technologies and rationales in application
Shaier et al. Mind the knowledge gap: A survey of knowledge-enhanced dialogue systems
CN116226677B (en) Parallel corpus construction method and device, storage medium and electronic equipment
Day et al. Confet: An english sentence to emojis translation algorithm
Mezghanni et al. Information retrieval from unstructured Arabic legal data
Edmond et al. Digitising Cultural Complexity: Representing Rich Cultural Data in a Big Data environment
Pan et al. Type-II dialogue systems for information access from unstructured knowledge sources
Al Etaiwi et al. Arabic Text Semantic Graph Representation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171006

R150 Certificate of patent or registration of utility model

Ref document number: 6225012

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150