JP2015079383A - Speech generation device, method, and program - Google Patents

Speech generation device, method, and program Download PDF

Info

Publication number
JP2015079383A
JP2015079383A JP2013216631A JP2013216631A JP2015079383A JP 2015079383 A JP2015079383 A JP 2015079383A JP 2013216631 A JP2013216631 A JP 2013216631A JP 2013216631 A JP2013216631 A JP 2013216631A JP 2015079383 A JP2015079383 A JP 2015079383A
Authority
JP
Japan
Prior art keywords
utterance
term structure
predicate
previous description
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013216631A
Other languages
Japanese (ja)
Other versions
JP5744150B2 (en
Inventor
東中 竜一郎
Ryuichiro Higashinaka
竜一郎 東中
牧野 俊朗
Toshiaki Makino
俊朗 牧野
松尾 義博
Yoshihiro Matsuo
義博 松尾
克人 別所
Katsuto Bessho
克人 別所
今村 賢治
Kenji Imamura
賢治 今村
のぞみ 小林
Nozomi Kobayashi
のぞみ 小林
平野 徹
Toru Hirano
徹 平野
千明 宮崎
Chiaki Miyazaki
千明 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013216631A priority Critical patent/JP5744150B2/en
Publication of JP2015079383A publication Critical patent/JP2015079383A/en
Application granted granted Critical
Publication of JP5744150B2 publication Critical patent/JP5744150B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To stably generate a natural speech candidate for a user's speech.SOLUTION: An input part 4 accepts a speech intention and a word showing a topic of dialogue. An extraction part 60 extracts respective predicate term structures including case elements corresponding to words showing topics of dialogue from a predicate argument structure database 5 on the basis of the accepted word showing the topic of dialogue. An additional information imparting part 62 imparts additional information about expressions included in the predicate term structures with respect to the respective extracted predicate argument structures. A restriction determination part 64 extracts respective predicate argument structures that satisfy a restriction condition with respect to the speech intention accepted by the input part 4 on the basis of the restriction condition from the respective extracted predicate argument structures. With respect to the respective predicate argument structures extracted by the restriction determination part 64, a sentence generation part 65 generates a sentence following the speech intention accepted by the input part 4 and outputs, as a speech candidate, the generated sentence with respect to the predicate argument structure.

Description

本発明は、発話生成装置、方法、及びプログラムに関する。   The present invention relates to an utterance generation device, method, and program.

対話システムは大きく分けて二種類あり、タスク指向型対話システムと非タスク指向型対話システムに分けられる。前者は特定のタスクをシステムとの対話により達成するものであり、たとえば、フライトの予約システムや天気情報検索システムに用いられている。これらのシステムでは、予め話される内容が想定できるため、手作業で作り込んだ発話のデータベースを保持したり、データベースから抽出される天気情報などを手作業によるテンプレートに当てはめて、システムは発話を生成する(非特許文献1)。   There are roughly two types of dialogue systems: task-oriented dialogue systems and non-task-oriented dialogue systems. The former achieves a specific task by interaction with the system, and is used, for example, in a flight reservation system or a weather information retrieval system. Since these systems can assume what is spoken in advance, the system maintains a database of utterances created manually, or applies weather information extracted from the database to manual templates, and the system utters utterances. (Non-Patent Document 1).

非タスク指向型対話システムでは、目的のない対話を扱い、対話の内容はいわゆる雑談である。雑談はさまざまな話題が話されるため、予め話される内容は想定できない。そのため発話生成は非常に難しい課題である。ユーザの幅広い入力に対応するために、近年の従来技術では、ウェブやツイッター(登録商標)などの文章をデータベース化しておき、ユーザ発話に類似するものを選択することでシステム発話とするものがある(非特許文献2)。   A non-task-oriented dialogue system handles a dialogue with no purpose, and the content of the dialogue is a so-called chat. Since various topics are spoken in the chat, it is impossible to assume the content that is spoken in advance. Therefore, utterance generation is a very difficult task. In order to deal with a wide range of user input, recent conventional techniques include a database of texts such as the web and Twitter (registered trademark) and a system utterance selected by selecting something similar to the user utterance. (Non-patent document 2).

Ryuichiro Higashinaka、Katsuhito Sudoh、Mikio Nakano、「Incorporating Discourse Features into Confidence Scoring of Intention Recognition Results in Spoken Dialogue Systems」、Speech Communication、2006、Volume 48、Issues 3-4、p.417-436Ryuichiro Higashinaka, Katsuhito Sudoh, Mikio Nakano, `` Incorporating Discourse Features into Confidence Scoring of Intention Recognition Results in Spoken Dialogue Systems '', Speech Communication, 2006, Volume 48, Issues 3-4, p.417-436 Shibata, M.、Nishiguchi, T.、and Tomiura, Y、「Dialog system for open-ended conversation using web documents.」、Infomatica、 (2009)、33 (3)、p.277-284Shibata, M., Nishiguchi, T., and Tomiura, Y, "Dialog system for open-ended conversation using web documents.", Infomatica, (2009), 33 (3), p.277-284

しかし、雑談対話において、ウェブやツイッター(登録商標)などから発話を選択する方式で発話生成を行うと、システムの発話意図に沿った発話が行えない可能性がある。たとえば、ある話題についてシステムがユーザに質問すべきと判断される状況において、ウェブやツイッター(登録商標)にその話題の質問文がなければ質問はできない。システムは状況に応じて質問をしたり相槌を打ったりする必要があることから、状況に応じた発話を生成できないことは対話の質を低くする。   However, if the utterance is generated by selecting the utterance from the web or Twitter (registered trademark) in the chat conversation, there is a possibility that the utterance according to the utterance intention of the system cannot be performed. For example, in a situation where the system determines that a user should ask a question about a certain topic, a question cannot be made unless there is a question sentence on the topic on the Web or Twitter (registered trademark). Since the system needs to ask questions and ask questions according to the situation, the inability to generate utterances according to the situation lowers the quality of the dialogue.

本発明は、上記の事情に鑑みてなされたものであり、ユーザの発話に対する自然な発話候補を生成することができる発話生成装置、方法、及びプログラムを提供することを目的とする。   The present invention has been made in view of the above circumstances, and an object thereof is to provide an utterance generation apparatus, method, and program capable of generating natural utterance candidates for a user's utterance.

上記の目的を達成するために本発明に係る発話生成装置は、発話の意図と、対話の話題を示す単語とを受け付ける入力部と、前記入力部によって受け付けた前記対話の話題を示す単語に基づいて、述語と前記述語に対応する格の要素である格要素との組み合わせである述語項構造を複数記憶したデータベースから、前記対話の話題を示す単語に対応する前記格要素を含む前記述語項構造の各々を抽出する抽出部と、前記抽出部によって抽出された前記述語項構造の各々について、前記述語項構造に含まれる表現に関する付加情報を付与する付加情報付与部と、前記抽出部によって抽出された前記述語項構造の各々から、前記付加情報と前記発話の意図とに関する予め定められた制約条件に基づいて、前記入力部によって受け付けた前記発話の意図に対して前記制約条件を満たす前記述語項構造の各々を抽出する制約判定部と、前記制約判定部によって抽出された前記述語項構造の各々について、前記述語項構造を用いて、前記入力部によって受け付けた発話の意図に従った文を生成し、前記述語項構造について生成した前記文を発話候補として出力する文生成部と、を含んで構成されている。   In order to achieve the above object, an utterance generation device according to the present invention is based on an input unit that receives an intention of an utterance and a word indicating a topic of dialogue, and a word indicating the topic of dialogue received by the input unit. A predescript word including the case element corresponding to the word indicating the topic of dialogue from a database storing a plurality of predicate term structures that are combinations of case elements corresponding to the predicate and the case element corresponding to the predescription word An extraction unit for extracting each of the term structures, an additional information adding unit for adding additional information related to an expression included in the previous description word term structure, for each of the previous description term term structures extracted by the extraction unit, and the extraction From each of the preceding description term structure extracted by the part, based on a predetermined restriction condition regarding the additional information and the intention of the utterance, the utterance of the utterance accepted by the input part A constraint determination unit that extracts each of the preceding description term structure satisfying the constraint condition with respect to the diagram, and each of the previous description word term structure extracted by the constraint determination unit, using the previous description word term structure, A sentence generation unit that generates a sentence according to the intention of the utterance accepted by the input unit and outputs the sentence generated for the previous description term structure as an utterance candidate.

本発明に係る発話生成方法は、入力部、抽出部、付加情報付与部、制約判定部、及び文生成部を含む発話生成装置における発話生成方法であって、前記入力部によって、発話の意図と、対話の話題を示す単語とを受け付けるステップと、前記抽出部によって、前記入力部によって受け付けた前記対話の話題を示す単語に基づいて、述語と前記述語に対応する格の要素である格要素との組み合わせである述語項構造を複数記憶したデータベースから、前記対話の話題を示す単語に対応する前記格要素を含む前記述語項構造の各々を抽出するステップと、前記付加情報付与部によって、前記抽出部によって抽出された前記述語項構造の各々について、前記述語項構造に含まれる表現に関する付加情報を付与するステップと、前記制約判定部によって、前記抽出部によって抽出された前記述語項構造の各々から、前記付加情報と前記発話の意図とに関する予め定められた制約条件に基づいて、前記入力部によって受け付けた前記発話の意図に対して前記制約条件を満たす前記述語項構造の各々を抽出するステップと、前記文生成部によって、前記制約判定部によって抽出された前記述語項構造の各々について、前記述語項構造を用いて、前記入力部によって受け付けた発話の意図に従った文を生成し、前記述語項構造について生成した前記文を発話候補として出力するステップと、を含む。   An utterance generation method according to the present invention is an utterance generation method in an utterance generation apparatus including an input unit, an extraction unit, an additional information adding unit, a constraint determination unit, and a sentence generation unit, and the input unit A case element that is a case element corresponding to a predicate and a predescription word based on the word indicating the topic of conversation received by the input unit by the extracting unit; From the database storing a plurality of predicate term structures that are combinations of the above, the step of extracting each predescription term term structure including the case element corresponding to the word indicating the conversation topic, and the additional information adding unit, For each of the preceding description term structures extracted by the extraction unit, a step of adding additional information related to an expression included in the preceding description term structure, and the constraint determination unit , For each utterance intention received by the input unit, based on a predetermined restriction condition regarding the additional information and the intention of the utterance, from each of the preceding description term structure extracted by the extraction unit Extracting each of the preceding description term structure satisfying the constraint condition, and using the preceding description term structure for each of the preceding description term structure extracted by the constraint determination unit by the sentence generation unit, Generating a sentence according to the intention of the utterance received by the input unit, and outputting the sentence generated for the previous description term structure as an utterance candidate.

前記文生成部は、前記制約判定部によって抽出された前記述語項構造の各々について、前記述語、前記格要素、及び前記格要素の格について予め定められた順番に従って、前記述語項構造の述語、前記格要素、及び前記格要素の格を並べた平叙文を生成し、前記入力部によって受け付けた発話の意図と、前記発話の意図を表す文末表現に変換するための予め定められた文末表現変換ルールとに基づいて、前記述語項構造について生成された前記平叙文の文末表現を変換して、前記発話の意図に従った文を生成し、前記述語項構造について生成した前記文を発話候補として出力するようにすることができる。   The sentence generation unit, for each of the previous description term structure extracted by the constraint determination unit, according to a predetermined order for the previous description word, the case element, and the case of the case element, Is generated in advance and is converted to a sentence end expression representing the intention of the utterance and the intention of the utterance received by the input unit. Based on the sentence end expression conversion rule, the sentence end expression of the plain text generated for the previous description term structure is converted to generate a sentence according to the intention of the utterance, and the previous description term structure generated A sentence can be output as an utterance candidate.

また、前記抽出部は、前記対話の話題を示す単語に基づいて、前記データベースから、前記対話の話題を示す単語に対応する格要素を含む前記述語項構造の各々を抽出すると共に、抽出した前記述語項構造の各々に対し、テキストデータにおける前記述語項構造の出現頻度に応じた優先度を付与するようにすることができる。   Further, the extraction unit extracts and extracts each predescription term structure including case elements corresponding to the word indicating the topic of conversation from the database based on the word indicating the topic of conversation. Priorities according to the appearance frequency of the previous description term structure in the text data can be given to each of the previous description term structure.

また、前記抽出部は、前記対話の話題を示す単語に基づいて、前記データベースから、前記対話の話題を示す単語に対応する格要素を含む前記述語項構造の各々を抽出すると共に、前記抽出された前記述語項構造の各々のうちの、述語とハ格の格要素とからなる前記述語項構造の各々について、テキストデータにおける前記述語項構造の出現頻度に応じた優先度を付与し、前記抽出された前記述語項構造から得られる前記述語項構造の集合について、前記述語項構造の集合全体を表すルートノードから順に各ノードに対し、述語又は格要素の有無を条件として前記ノードが表す前記述語項構造の集合を分割したときの前記条件のうち、前記分割した前記述語項構造の集合のエントロピーの期待値が最小となる前記条件で分割することにより構築される木構造を構築し、前記木構造の各ノードについて、前記ノードから前記ルートノードまで辿ったときに得られる前記述語項構造に対し、前記木構造内での前記ノードの位置に応じた優先度を付与するようにすることができる。   In addition, the extraction unit extracts, from the database, each predescription term structure including a case element corresponding to the word indicating the conversation topic from the database based on the word indicating the topic of the conversation and the extraction. In each of the predescriptor term structure, the priority is given to the predescription term structure consisting of predicate and C case element according to the appearance frequency of the predescription term structure in the text data. For the set of previous description term structure obtained from the extracted previous description term structure, the presence or absence of a predicate or case element is specified for each node in order from the root node representing the entire set of previous description term structure. Among the above conditions when the set of preceding description term structure represented by the node is divided, the division is performed according to the condition that minimizes the expected entropy of the set of preceding description term structure. The tree structure is constructed, and for each node of the tree structure, the predescription term structure obtained when tracing from the node to the root node corresponds to the position of the node in the tree structure. It is possible to give priority.

また、前記文生成部は、前記制約判定部によって抽出された前記述語項構造の各々について、前記平叙文を生成し、前記述語項構造と前記述語項構造について生成された前記平叙文とのペアの各々に対し、入力された発話履歴に基づいて算出される文脈情報と前記ペアの平叙文との類似度、及び前記ペアの前記述語項構造に付与された前記優先度の少なくとも一方に基づくスコアを付与し、前記付与されたスコアの上位M個のペアの各々について、前記ペアの前記平叙文の文末表現を変換して、前記発話の意図に従った文を生成し、前記ペアについて生成した前記文を発話候補として出力するようにすることができる。   In addition, the sentence generation unit generates the plaintext for each of the previous description word term structures extracted by the constraint determination unit, and the plaintext generated for the previous description word term structure and the previous description word term structure. For each of the pairs, the similarity between the context information calculated based on the input utterance history and the plaintext of the pair, and at least the priority assigned to the previous descriptive term structure of the pair Assigning a score based on one, transforming the sentence end expression of the plain text of the pair for each of the top M pairs of the given score, generating a sentence according to the intention of the utterance, The sentence generated for the pair can be output as an utterance candidate.

また、前記付加情報付与部は、前記抽出部によって抽出された前記述語項構造の各々について、前記付加情報として、前記述語項構造に含まれる、用言に関する評価表現の種類を示す情報、前記述語構造に含まれる、名詞に関する評価表現の種類を示す情報、及び質問であるか否かを示す情報の少なくとも1つを付与するようにすることができる。   Further, the additional information giving unit includes, as the additional information, information indicating the type of evaluation expression related to the predicate included in the previous description term structure, for each of the previous description terms structure extracted by the extraction unit, At least one of information indicating the type of evaluation expression relating to the noun and information indicating whether or not the question is included in the previous description word structure may be given.

また、前記制約判定部は、前記抽出部によって抽出された前記述語項構造の各々から、前記発話の意図が質問でない場合に、前記付加情報として質問であることを示す情報が付与された前記述語項構造を用いないこと、前記発話の意図がポジティブな評価である場合に、前記付加情報としてポジティブな評価であることを示す情報が付与された前記述語項構造を用いること、及び前記発話の意図がネガティブな評価である場合に、前記付加情報としてネガティブな評価であることを示す情報が付与された前記述語項構造を用いることの少なくとも一つを前記制約条件として、前記抽出部によって抽出された前記述語項構造の各々から、前記入力部によって受け付けた前記発話の意図に対して前記制約条件を満たす前記述語項構造の各々を抽出するようにすることができる。   In addition, the constraint determination unit may be configured to add information indicating that the additional information is a question from each of the previous description term structure extracted by the extraction unit when the intention of the utterance is not a question. Not using a description term structure, if the intention of the utterance is a positive evaluation, using a previous description term structure to which information indicating a positive evaluation is given as the additional information, and When the intention of the utterance is a negative evaluation, the extraction unit uses, as the constraint condition, at least one of using a predescription term structure to which information indicating a negative evaluation is added as the additional information Each of the previous description term structure that satisfies the constraint condition with respect to the intention of the utterance received by the input unit is extracted from each of the previous description term structure extracted by It is possible to so that.

本発明に係るプログラムは、コンピュータを、本発明に係る発話生成装置の各部として機能させるためのプログラムである。   The program according to the present invention is a program for causing a computer to function as each unit of the utterance generation device according to the present invention.

以上説明したように、本発明の発話生成装置、方法、及びプログラムによれば、述語項構造を複数記憶したデータベースから、対話の話題を示す単語に対応する格要素を含む述語項構造の各々を抽出し、抽出された述語項構造の各々について、当該述語項構造に含まれる表現に関する付加情報を付与し、付加情報と発話の意図とに関する予め定められた制約条件に基づいて、発話の意図に対して当該制約条件を満たす述語項構造の各々を抽出し、抽出された述語項構造の各々について、当該述語項構造を用いて、発話の意図に従った文を生成し、生成された文を発話候補として出力することにより、ユーザ発話に対する自然な発話候補を生成することができる、という効果が得られる。   As described above, according to the utterance generation device, method, and program of the present invention, each predicate term structure including a case element corresponding to a word indicating a topic of dialogue is stored in a database storing a plurality of predicate term structures. For each extracted predicate term structure, additional information related to the expression included in the predicate term structure is added, and the intention of the utterance is determined based on the predetermined constraints regarding the additional information and the intention of the utterance. On the other hand, each predicate term structure that satisfies the constraint condition is extracted, and for each extracted predicate term structure, a sentence according to the intention of the utterance is generated using the predicate term structure, and the generated sentence is By outputting as an utterance candidate, an effect that a natural utterance candidate for a user utterance can be generated is obtained.

本発明の実施の形態に係る述語項構造データベース構築装置の一構成例を示すブロック図である。It is a block diagram which shows one structural example of the predicate term structure database construction apparatus which concerns on embodiment of this invention. Entityデータの一例を示す説明図である。It is explanatory drawing which shows an example of Entity data. Attributeデータの一例を示す説明図である。It is explanatory drawing which shows an example of Attribute data. Eventデータの一例を示す説明図である。It is explanatory drawing which shows an example of Event data. 本発明の実施の形態に係る発話生成装置の一構成例を示すブロック図である。It is a block diagram which shows one structural example of the speech production | generation apparatus which concerns on embodiment of this invention. Entityフレームの一例を示す説明図である。It is explanatory drawing which shows an example of an Entity frame. 焦点「ミスチル」について生成された木構造の一例を示す図である。It is a figure which shows an example of the tree structure produced | generated about focus "mystill". 焦点「ラーメン」について生成された木構造の一例を示す図である。It is a figure which shows an example of the tree structure produced | generated about focus "ramen". Attributeフレームの一例を示す図である。It is a figure which shows an example of an Attribute frame. Eventフレームの一例を示す図である。It is a figure which shows an example of an Event frame. 付加情報が付与されたEntityフレームの一例を示す説明図である。It is explanatory drawing which shows an example of the Entity frame to which the additional information was given. 付加情報が付与されたAttributeフレームの一例を示す説明図である。It is explanatory drawing which shows an example of the Attribute frame to which additional information was given. 付加情報が付与されたEventフレームの一例を示す説明図である。It is explanatory drawing which shows an example of the Event frame to which additional information was given. 本発明の実施の形態に係る述語項構造データベース構築処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the predicate term structure database construction process routine which concerns on embodiment of this invention. 本発明の実施の形態に係る発話生成処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the speech production | generation process routine which concerns on embodiment of this invention.

<概要>
まず、本発明の実施の形態の概要について説明する。
<Overview>
First, an outline of an embodiment of the present invention will be described.

本発明の実施の形態では、まず、大規模なテキストデータを述語項構造解析し、述語項構造データベースを作成する。述語項構造データベースの各レコードには、文の要素となる、述語とその格要素(述語項構造)が保持されている。対話システムは述語項構造データベースの中から、現在の対話の話題を示す単語(以下、焦点と称する。)が含まれるレコードを抽出し、当該レコードの述語項構造から対話システムの発話の意図に沿った発話文を生成し、発話候補とすることで発話を行う。   In the embodiment of the present invention, first, predicate term structure analysis is performed on large-scale text data to create a predicate term structure database. Each record of the predicate term structure database holds a predicate and its case element (predicate term structure) that are statements elements. The dialogue system extracts a record including a word indicating the topic of the current dialogue (hereinafter referred to as a focus) from the predicate term structure database and follows the intention of the dialogue system from the predicate term structure of the record. The utterance is generated by generating an utterance sentence and making it as an utterance candidate.

雑談対話システムの発話生成部を装置として構成した発話生成装置に、本発明を適用した場合を例にとって、以下に説明する。   An example in which the present invention is applied to an utterance generation apparatus configured with the utterance generation unit of the chat dialogue system as an apparatus will be described below.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<述語項構造データベース構築装置のシステム構成>
図1は、本発明の実施の形態に係る述語項構造データベース構築装置100を示すブロック図である。この述語項構造データベース構築装置100は、CPUと、RAMと、後述する述語項構造データベース構築処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
<System configuration of predicate term structure database construction device>
FIG. 1 is a block diagram showing a predicate term structure database construction device 100 according to an embodiment of the present invention. The predicate term structure database construction device 100 is composed of a computer including a CPU, a RAM, and a ROM storing a program for executing a predicate term structure database construction processing routine to be described later. It is configured as shown.

本実施の形態に係る述語項構造データベース構築装置100は、図1に示すように、テキストデータ入力部1と、述語項構造データベース構築部2と、述語項構造データベース3とを備えている。   As shown in FIG. 1, the predicate term structure database construction apparatus 100 according to the present embodiment includes a text data input unit 1, a predicate term structure database construction unit 2, and a predicate term structure database 3.

テキストデータ入力部1は、大量のテキストデータを含むテキスト集合の入力を受け付ける。なお、テキスト集合に含まれるテキストデータは、テキストデータであれば何でもよい。   The text data input unit 1 accepts input of a text set including a large amount of text data. The text data included in the text set may be any text data.

述語項構造データベース構築部2は、テキストデータ入力部1によって受け付けたテキスト集合に含まれる複数のテキストデータの各々について、当該テキストデータから述語項構造を抽出し、述語項構造データベース3に格納する。なお、述語項構造データベース構築部2は、テキストデータベース20と、形態素解析部22と、係り受け解析部24と、初期データ生成部26と、Entityデータ生成部28と、Attributeデータ生成部30と、Eventデータ生成部32とを備えている。   The predicate term structure database construction unit 2 extracts a predicate term structure from the text data for each of a plurality of text data included in the text set received by the text data input unit 1 and stores it in the predicate term structure database 3. The predicate term structure database construction unit 2 includes a text database 20, a morpheme analysis unit 22, a dependency analysis unit 24, an initial data generation unit 26, an entity data generation unit 28, an Attribute data generation unit 30, And an event data generation unit 32.

テキストデータベース20には、テキストデータ入力部1によって受け付けたテキスト集合が格納される。   The text database 20 stores a text set received by the text data input unit 1.

形態素解析部22は、テキストデータベース20に格納されたテキスト集合に含まれる複数のテキストデータの各文について、形態素解析を行う。   The morpheme analysis unit 22 performs morpheme analysis on each sentence of the plurality of text data included in the text set stored in the text database 20.

係り受け解析部24は、テキスト集合に含まれる複数のテキストデータの各文について、形態素解析部22によって解析された形態素解析結果に基づいて、係り受け解析を行い、文節の同定、および、文節間の係り受け構造を決定する。   The dependency analysis unit 24 performs dependency analysis on each sentence of the plurality of text data included in the text set based on the morpheme analysis result analyzed by the morpheme analysis unit 22 to identify the phrase and Determine the dependency structure.

なお、形態素解析部22による形態素解析や、係り受け解析部24による係り受け解析には、フリーで用いられているものを用いればよい。例えば、ChaSenやCaboChaである。本実施の形態では、出願人が開発したJTAGとJDEPとをそれぞれ形態素解析と係り受け解析に用いる。   In addition, what is used free may be used for the morphological analysis by the morphological analysis part 22 and the dependency analysis by the dependency analysis part 24. For example, ChaSen or CaboCha. In this embodiment, JTAG and JDEP developed by the applicant are used for morphological analysis and dependency analysis, respectively.

初期データ生成部26は、テキスト集合に含まれる複数のテキストデータの各文について、係り受け解析部24によって決定された係り受け構造に基づいて、当該文の述語と当該述語に対応する格の要素である格要素とを同定し、述語項構造として抽出する。なお、述語項構造とは、述語と当該述語に対応する格要素との組み合わせである。そして、初期データ生成部26は、複数のテキストデータの各文について抽出された述語項構造を、初期データとしてメモリ(図示省略)に一時的に格納する。   The initial data generation unit 26, for each sentence of the plurality of text data included in the text set, based on the dependency structure determined by the dependency analysis unit 24, and a case element corresponding to the predicate Is identified and extracted as a predicate term structure. The predicate term structure is a combination of a predicate and a case element corresponding to the predicate. Then, the initial data generation unit 26 temporarily stores the predicate term structure extracted for each sentence of the plurality of text data as initial data in a memory (not shown).

なお、本実施の形態では、初期データ生成部26は、文中の述語の各々について、当該述語の格要素としてハ格、ガ格、ヲ格、ニ格、デ格、ト格、カラ格、及びマデ格の各々を抽出し、述語と1つ以上の格要素との組み合わせをひとまとまりとして抽出する。そして、初期データ生成部26は、抽出された同じ述語項構造についてはひとまとめにし、頻度と共に初期データとしてメモリ(図示省略)に登録する。   In the present embodiment, the initial data generation unit 26, for each predicate in the sentence, as a case element of the predicate, C, G, W, D, De, G, C, and Each made case is extracted, and a combination of a predicate and one or more case elements is extracted as a group. Then, the initial data generation unit 26 collects the same predicate term structure extracted and registers the initial data together with the frequency in a memory (not shown).

上記の初期データ生成部26について、具体例を挙げて説明する。例えば、文が「太郎が花子に会う」であれば、「会う」が述語であり、当該述語の文節に係っている文節から、ガ格の格要素が「太郎」、ニ格の格要素が「花子」だと分かる。そして、ここから「述語:会う ガ格:太郎 ニ格:花子」という述語項構造が抽出される。このような述語項構造を、テキスト集合に含まれるテキストデータのすべての文から抽出する。   The initial data generation unit 26 will be described with a specific example. For example, if the sentence is “Taro meets Hanako”, “Meet” is a predicate, and from the clauses related to the clause of the predicate, the case element of the ga case is “Taro”, the case element of the two cases Is "Hanako". Then, the predicate term structure “predicate: meet ga case: Taro ni case: hanako” is extracted from here. Such a predicate term structure is extracted from all sentences of text data included in the text set.

Entityデータ生成部28は、初期データ生成部26によって生成された初期データから、ハ格の格要素と述語とからなる述語項構造と、当該述語構造の頻度とのペアを抽出し、抽出された各ペアのデータから構成されるEntityデータを生成する。そして、Entityデータ生成部28は、生成されたEntityデータを述語項構造データベース3に格納する。   The entity data generation unit 28 extracts, from the initial data generated by the initial data generation unit 26, a pair of a predicate term structure composed of a case element and a predicate and a frequency of the predicate structure. Entity data composed of each pair of data is generated. Then, the Entity data generation unit 28 stores the generated Entity data in the predicate term structure database 3.

例えば、Entityデータは、「京都は暑い」、「ミスチルはいい」などの文に対応する述語項構造と頻度とのペアのデータから構成される。また、焦点「ミスチル」に関するEntityデータの抜粋の一例を図2に示す。図2のEntityデータの最後のカラムは述語項構造の頻度である。   For example, Entity data is composed of data of a pair of predicate term structure and frequency corresponding to sentences such as “Kyoto is hot” and “Mystil is good”. Further, FIG. 2 shows an example of Entity data excerpt relating to the focus “mystil”. The last column of the entity data in FIG. 2 is the frequency of the predicate term structure.

Attributeデータ生成部30は、初期データ生成部26によって生成された初期データから、述語と、ハ格、及びガ格の格要素とからなる述語項構造と、当該述語項構造の頻度とのペアを抽出し、抽出された各ペアのデータから構成されるAttributeデータを生成する。そして、Attributeデータ生成部30は、生成されたAttributeデータを述語項構造データベース3に格納する。   The Attribute data generation unit 30 determines, from the initial data generated by the initial data generation unit 26, a pair of a predicate term structure including a predicate, a C case, and a case element of the case and a frequency of the predicate term structure. Extraction is performed, and Attribute data composed of the extracted data of each pair is generated. Then, the Attribute data generation unit 30 stores the generated Attribute data in the predicate term structure database 3.

例えば、Attributeデータは、「京都は冬が寒い」や「ミスチルは歌がいい」といった文に対応する述語項構造と頻度とのペアのデータから構成される。図3に、Attributeデータの一例を示す。   For example, Attribute data is composed of predicate term structure and frequency pair data corresponding to sentences such as “Kyoto is cold in winter” and “Mystil is good”. FIG. 3 shows an example of Attribute data.

Eventデータ生成部32は、初期データ生成部26によって生成された初期データから、述語と、ハ格と、ガ格、ヲ格、ニ格、デ格、ト格、カラ格、及びマデ格の少なくとも1つの格要素とを含む述語項構造と、当該述語項構造の頻度とのペアを抽出し、抽出された各ペアのデータから構成されるEventデータを生成する。そして、Eventデータ生成部32は、生成されたEventデータを述語項構造データベース3に格納する。
図4に、Eventデータの一例を示す。なお、上記図4は、ハ格の表示を省略した場合のEventデータの一例である。
The event data generation unit 32 uses at least one of a predicate, a case, a case, a case, a case, a case, a case, a case, and a case from the initial data generated by the initial data generation unit 26. A pair of a predicate term structure including one case element and a frequency of the predicate term structure is extracted, and event data composed of the extracted data of each pair is generated. Then, the event data generation unit 32 stores the generated event data in the predicate term structure database 3.
FIG. 4 shows an example of Event data. Note that FIG. 4 is an example of Event data when the display of C is omitted.

述語項構造データベース3には、Entityデータ生成部28によって生成されたEntityデータと、Attributeデータ生成部30によって生成されたAttributeデータと、Eventデータ生成部32によって生成されたEventデータとが格納される。すなわち、述語項構造データベース3には、複数の述語項構造が記憶されている。なお、述語項構造データベース3は、Entityデータ、Attributeデータ、Eventデータについて検索可能とするため、RDB(Relational database)として構成される。   The predicate term structure database 3 stores Entity data generated by the Entity data generation unit 28, Attribute data generated by the Attribute data generation unit 30, and Event data generated by the Event data generation unit 32. . That is, the predicate term structure database 3 stores a plurality of predicate term structures. The predicate term structure database 3 is configured as an RDB (Relational database) so as to be able to search for Entity data, Attribute data, and Event data.

<発話生成装置のシステム構成>
図5は、本発明の実施の形態に係る発話生成装置200を示すブロック図である。この発話生成装置200は、CPUと、RAMと、後述する発話生成処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
<System configuration of utterance generation device>
FIG. 5 is a block diagram showing the utterance generation device 200 according to the embodiment of the present invention. This utterance generation device 200 is composed of a computer including a CPU, a RAM, and a ROM storing a program for executing an utterance generation processing routine described later, and is functionally configured as follows. Yes.

本実施の形態に係る発話生成装置200は、図5に示すように、入力部4と、述語項構造データベース5と、演算部6と、出力部7とを備えている。なお、述語項構造データベース5は、データベースの一例である。   As shown in FIG. 5, the utterance generation device 200 according to the present embodiment includes an input unit 4, a predicate term structure database 5, a calculation unit 6, and an output unit 7. The predicate term structure database 5 is an example of a database.

入力部4は、発話の意図と、焦点と、発話履歴とを受け付ける。発話履歴とは、現時点までの対話システムとユーザの発話文字列の集合である。   The input unit 4 receives the intention of speech, the focus, and the speech history. The utterance history is a set of dialogue systems and user utterance character strings up to the present time.

また、本実施の形態では、発話の意図として、「質問」、「ポジティブな評価」、「ネガティブな評価」、及び「その他」の4種類がある。上記の発話の意図は、それぞれ、ユーザに質問するという意図、焦点についてのポジティブな意見を表出するという意図(例:○○は大好きです)、焦点についてのネガティブな意見を表出するという意図(例:○○は嫌いです)、その他一般の意図を表す。発話の意図は上記だけに限られるわけではなく、対話システムの設計によって発話の意図の種類を追加してもよい。例えば、参考文献(目黒豊美、東中竜一郎、堂坂浩二、南泰浩、「聞き役対話の分析および分析に基づいた対話制御部の構築」、情報処理学会論文誌、2012、Vol.53 No.12、pp.2787-2801)内の表6として記載されているような対話行為タグのセットを、発話の意図として用いてもよい。   Further, in the present embodiment, there are four types of utterance intentions: “question”, “positive evaluation”, “negative evaluation”, and “other”. The intentions of the above utterances are the intention to ask the user a question, the intention to express a positive opinion about the focus (e.g. I love XX), and the intention to express a negative opinion about the focus, respectively. (Example: I don't like XX) and express other general intentions. The intention of the utterance is not limited to the above, and the kind of intention of the utterance may be added depending on the design of the dialogue system. For example, references (Toyomi Meguro, Ryuichiro Higashinaka, Koji Dosaka, Yasuhiro Minami, “Analysis of Listening Conversation and Construction of Dialogue Control Unit Based on Analysis”, IPSJ Journal, 2012, Vol. A set of dialogue action tags as described in Table 6 in pp. 2787-2801) may be used as the intention of the utterance.

述語項構造データベース5には、上記述語項構造データベース構築装置100の述語項構造データベース3に格納されている、Entityデータ、Attributeデータ、Eventデータと同じEntityデータ、Attributeデータ、Eventデータが格納されている。   The predicate term structure database 5 stores the same entity data, attribute data, and event data as the entity data, attribute data, and event data stored in the predicate term structure database 3 of the above-described predicate term structure database construction device 100. Yes.

演算部6は、抽出部60と、付加情報付与部62と、制約判定部64と、文生成部65とを備えている。文生成部65は、平叙文生成部66と、スコアリング部68と、文末表現変換部70とを備えている。   The computing unit 6 includes an extracting unit 60, an additional information adding unit 62, a constraint determining unit 64, and a sentence generating unit 65. The sentence generation unit 65 includes a plain text generation unit 66, a scoring unit 68, and a sentence end expression conversion unit 70.

抽出部60は、入力部4によって受け付けた焦点に基づいて、述語項構造データベース5に格納されている、Entityデータ、Attributeデータ、及びEventデータから、焦点と一致する格要素を含む述語項構造の各々を抽出すると共に、抽出した述語項構造の各々に対し、テキストデータにおける当該述語項構造の出現頻度に応じた優先度を付与して、Entityフレーム、Attributeフレーム、及びEventフレームを作成する。なお、各フレームは、述語項構造と優先度とのペアの集合である。   Based on the focus received by the input unit 4, the extraction unit 60 uses the entity data, attribute data, and event data stored in the predicate term structure database 5 to generate a predicate term structure including a case element that matches the focus. Each of the extracted predicate term structures is extracted and given a priority according to the appearance frequency of the predicate term structure in the text data, and an Entity frame, an Attribute frame, and an Event frame are created. Each frame is a set of predicate term structure and priority pairs.

Entityフレーム、Attributeフレーム、及びEventフレームは、以下に説明するように作成される。   The Entity frame, Attribute frame, and Event frame are created as described below.

まず、抽出部60は、入力部4によって受け付けた焦点に基づいて、述語項構造データベース5に格納されているEntityデータから、焦点と一致する格要素を含む述語項構造の各々を抽出し、抽出された述語項構造の各々について、テキストデータにおける当該述語項構造の出現頻度に応じた優先度を付与して、Entityフレームを作成する。ここで、抽出部60は、出現頻度が上位N件の述語項構造の各々を取得して、Entityフレームを作成する。例えば、Nは500である。図6は、焦点「ミスチル」についてのEntityフレームの一例である。   First, the extraction unit 60 extracts each predicate term structure including case elements matching the focus from the entity data stored in the predicate term structure database 5 based on the focus received by the input unit 4. For each of the predicate term structures, a priority according to the appearance frequency of the predicate term structure in the text data is given, and an Entity frame is created. Here, the extraction unit 60 acquires each of the predicate term structures having the top N appearance frequencies, and creates an Entity frame. For example, N is 500. FIG. 6 is an example of an Entity frame for the focus “Mystil”.

上記図6のEntityフレームでは、述語や格要素に0や1という番号を付与している。これは本実施の形態で用いる述語項構造の簡易な記法であり、述語は0番、ハ格、ガ格、ヲ格、ニ格、デ格、ト格、カラ格、マデ格の格要素はそれぞれ1番〜7番の番号で表す。なお、ハ格はガ格と同様に主語に用いられることが多い為、ガ格と同様1番を付与することとする。上記図6のEntityフレーム内のデータでは、「0_いい」は述語が「いい」であること、「1_ミスチル」はガ格が「ミスチル」であることを表している。上記図6の例を見ても分かるとおり、Entityフレームは焦点となるEntity自体についての属性を表す述語項構造を含む。ここで、優先度は小さな数の方が優先されることを指す。優先度は、出現頻度順で優先されるように設定されている。   In the Entity frame shown in FIG. 6, numbers 0 and 1 are assigned to predicates and case elements. This is a simple notation of the predicate term structure used in this embodiment. The predicates are number 0, C, G, W, D, De, To, Kara, and Made. Represented by numbers 1 to 7, respectively. Since the C case is often used as the subject in the same way as the ga case, the number 1 is assigned as in the case of the ga case. In the data in the Entity frame of FIG. 6, “0_good” indicates that the predicate is “good”, and “1_mystil” indicates that the case is “mistil”. As can be seen from the example of FIG. 6 above, the Entity frame includes a predicate term structure that represents an attribute of the Entity itself as a focus. Here, the priority indicates that a smaller number is prioritized. The priority is set so that priority is given in the order of appearance frequency.

次に、抽出部60は、入力部4によって受け付けた焦点に基づいて、述語項構造データベース5に格納されているAttributeデータから、焦点と一致する格要素を含む述語項構造の各々を抽出し、抽出された述語項構造の集合に基づいて、述語項構造の集合を表す木構造を構築する。そして、抽出部60は、構築された木構造の各ノードについて、当該ノードからルートノードまで辿った時に得られる述語項構造に対し、木構造内での当該ノードの位置に応じた優先度を付与して、Attributeフレームを作成する。なお、抽出部60は、Attributeデータのハ格の格要素に焦点が含まれる述語項構造を、Attributeデータから抽出する。   Next, based on the focus received by the input unit 4, the extraction unit 60 extracts each predicate term structure including case elements that match the focus from the Attribute data stored in the predicate term structure database 5. Based on the extracted set of predicate term structures, a tree structure representing the set of predicate term structures is constructed. Then, for each node of the constructed tree structure, the extraction unit 60 gives a priority according to the position of the node in the tree structure to the predicate term structure obtained when tracing from the node to the root node. Then, an Attribute frame is created. The extraction unit 60 extracts a predicate term structure including a focus on the case element of the attribute data from the Attribute data from the Attribute data.

述語項構造の集合を表す木構造は、述語項構造の集合全体を表すルートノードから順に各ノードについて、述語又は格要素の有無を条件としてノードが表す述語項構造の集合を分割したときの条件のうち、分割した述語項構造の集合のエントロピーの期待値が最小となる条件で分割することにより構築される。   The tree structure that represents the set of predicate term structures is the condition when the set of predicate term structures represented by the nodes is divided for each node in order from the root node that represents the entire set of predicate term structures. Of these, it is constructed by dividing under a condition that the expected value of entropy of the set of divided predicate term structures is minimum.

以下、上記の述語項構造の集合を表す木構造の構築手続きについて説明する。   Hereinafter, a procedure for constructing a tree structure representing the set of predicate term structures will be described.

本実施の形態では、述語項構造の集合の木構造化の手続きに、ID3という決定木を学習するアルゴリズムを用いる。これは、述語項構造の集合を、ある述語、又はある格要素の有無(Attributeフレームを作成する場合は、述語又はガ格の格要素の有無)を条件として2つに分割したとき、エントロピーの期待値が最も下がる条件(情報利得が大きい条件)で分割することを繰り返すものである。   In the present embodiment, an algorithm for learning a decision tree called ID3 is used for a tree structuring procedure of a set of predicate term structures. This is because when the set of predicate term structures is divided into two parts on the condition of the presence of a predicate or a case element (in the case of creating an Attribute frame, the presence of a predicate or a case element) The division is repeated under the condition that the expected value is the lowest (condition in which the information gain is large).

具体的な手続きは以下の(1)〜(4)の処理で実現される。   A specific procedure is realized by the following processes (1) to (4).

(1)抽出された述語項構造の集合PAから、すべての述語P(Predicates)、格要素A(Arguments)を抽出する。 (1) All predicates P (Predicates) and case elements A (Argents) are extracted from the extracted predicate term structure set PA.

(2)x∈(P∪A)について、PAをxの有無により2つの部分集合に分割する。分割された2つの部分集合をYESとNOとし、以下の(1)式、(2)式に従って、それぞれの部分集合についてエントロピーH(YES)、H(NO)を計算する。 (2) For x∈ (P∪A), PA is divided into two subsets depending on the presence or absence of x. The two divided subsets are set as YES x and NO x, and entropy H (YES x ) and H (NO x ) are calculated for each subset according to the following equations (1) and (2).

ここで、p(y)はYESにおけるyの出現確率である。これはテキストデータにおける出現頻度から簡単に計算できる。 Here, p (y) is the appearance probability of y in YES x . This can be easily calculated from the appearance frequency in the text data.

そして、以下の(4)式に従って、PA全体のエントロピー、すなわち And according to the following formula (4), the entropy of the entire PA, that is,

から、分割した場合のエントロピーの期待値を引くと、情報利得(Information Gain)が得られる。 If the expected value of entropy in the case of division is subtracted from the information gain, an information gain is obtained.

ここで、p(YES)とp(NO)はPAにおけるxを含む述語項構造の出現確率、及びxを含まない述語項構造の出現確率である。 Here, p (YES x ) and p (NO x ) are the appearance probability of the predicate term structure including x and the appearance probability of the predicate term structure not including x in PA.

(3)IG(x)を最大にするxを求め、YESとNOのそれぞれをPA’として、この(2)〜(3)の処理を再帰的に繰り返す。 (3) x which maximizes IG (x) is obtained, and the processing of (2) to (3) is recursively repeated with YES x and NO x as PA ′.

(4)分割できなくなるまで上記(2)〜(3)の処理を繰り返すと、述語項構造の集合PAを各時点で最も整理することができる要素の有無によって木構造に変換されたデータができる。 (4) When the processes (2) to (3) are repeated until it cannot be divided, the predicate term structure set PA is converted into a tree structure depending on the presence or absence of elements that can be arranged most at each time point. .

たとえば、焦点「ミスチル」の場合、述語に「いい」を持つかどうかで述語項構造の集合を分割すると最も情報利得が大きい。そのため、まず「いいが述語に含まれる」「いいが述語に含まれない」という条件で2つの部分集合に分割する。以降、「趣味」や「名曲」などを条件に述語項構造の集合の分割を繰り返していく。図7は、焦点「ミスチル」について作成された木構造の例である。また、図8は、焦点「ラーメン」について作成された木構造の例である。   For example, in the case of the focus “mystil”, dividing the set of predicate term structures depending on whether the predicate has “good” has the largest information gain. Therefore, it is first divided into two subsets on the condition that “good is included in the predicate” or “good is not included in the predicate”. Thereafter, the division of the set of predicate term structures is repeated on the condition of “hobby” or “famous music”. FIG. 7 is an example of a tree structure created for the focal point “Mystil”. FIG. 8 is an example of a tree structure created for the focal point “ramen”.

ルートに近い条件に含まれる要素は、述語項構造全体を整理するために有用な、情報量の多いものだと考えることができるため、ルートまでの距離が近い順に述語項構造を並べる。そして、並べられた述語項構造に優先度を付与したものをAttributeフレームとする。具体的には、あるノードからルートまでたどった時、そのパス上に述語(ある述語Pがあるという意味のノード)があり、さらに、格要素(ある格要素Aがあるという意味のノード)が一つ以上あればそれらを述語項構造としてまとめ、当該ノードの深さを、当該述語項構造の優先度とする。   The elements included in the condition close to the root can be considered to be a large amount of information useful for organizing the entire predicate term structure, so the predicate term structures are arranged in order of the distance to the root. Then, what is given priority to the arranged predicate term structures is referred to as an Attribute frame. Specifically, when tracing from a certain node to the root, there is a predicate (a node meaning that there is a predicate P) on the path, and a case element (a node meaning that there is a certain case element A) If there is one or more, they are collected as a predicate term structure, and the depth of the node is set as the priority of the predicate term structure.

または、木構造を最左優先で順にたどっていき、行き当たったノードの順番を優先度としてもよい。上記図8の例であれば、「0_分かれる 1_好み」、「0_別れる 1_好み」、「0_わかれる 1_好み」、「0_命 1_スープ」、「0_煮立つ 1_スープ」、「0_濃い 1_味」という順に優先度が1から付けられる。本実施の形態では、ID3による木構造の導出は最左優先の再帰処理で行っていることから、この優先度の付け方によると、先に処理された、つまり重要であるものから優先度が高い扱いになる。また、ノードが近く、内容が類似するものが近い優先度を持つようにすることができる。   Alternatively, the tree structure may be traced in order with the leftmost priority, and the order of the nodes that have been encountered may be set as the priority. In the example of FIG. 8 above, “0_divided 1_preference”, “0_parting 1_preference”, “0_wowed 1_preference”, “0_life 1_soup”, “0_cooking 1_soup”, “0_dense 1_taste” The priority is assigned from 1 in this order. In the present embodiment, the tree structure is derived from the ID3 by the leftmost priority recursive process. Therefore, according to this priority setting method, the priority is higher from the first processed, that is, the important one. Be treated. Also, nodes that are close and similar in content can have close priority.

焦点「ミスチル」についての木構造から、本処理によって得られるAttributeフレームの例は、図9に示す通りである。ここでは深さを優先度としている。「0_いい 1_歌詞」のルートからの深さは実際には2であるが、本手法で得られる述語項構造の深さの最低値は2であることから、優先度は深さから1を引いたものとしている。   An example of an Attribute frame obtained by the present process from the tree structure for the focal point “mystil” is as shown in FIG. Here, depth is a priority. The depth from the root of “0_Good 1_Lyrics” is actually 2, but the minimum value of the predicate term structure depth obtained by this method is 2, so the priority is 1 from the depth. It has been drawn.

Attributeフレームは、焦点の属性(Attribute)に関する情報を表すデータとなっている。「歌詞がいい」が最も優先度の高い述語項となっているが、当該述語項は、この述語項が最もルート付近にあるものであり、「歌詞がいい」か「そうでないか」が、ミスチルについての述語項構造全体を大きく分けることができる情報量の大きい述語項であることを表している。   The Attribute frame is data representing information related to a focus attribute (Attribute). “Lyric is good” is the predicate term with the highest priority, but the predicate term is the one with the predicate term closest to the root, and “whether the lyrics are good” or “not so” This represents a predicate term having a large amount of information that can largely divide the entire predicate term structure of the mystyl.

なお、Attributeフレームの作成については、Entityフレームと同様に、テキストデータにおける出現頻度上位N件(例えば、Nは500)の述語項構造の各々を取得し、当該N件の述語項構造に、出現頻度順で優先順位を付与して、Attributeフレームを作成してもよい。   As for the creation of the Attribute frame, as with the Entity frame, each of the top N occurrences of predicate term structures (for example, N is 500) in the text data is acquired and appears in the N predicate term structures. Attribute frames may be created by assigning priorities in order of frequency.

次に、抽出部60は、入力部4によって受け付けた焦点に基づいて、述語項構造データベース5に格納されているEventデータから、焦点と一致する格要素を含む述語項構造の各々を抽出し、上記Attributeフレームの作成と同様に、抽出された述語項構造の集合について、述語項構造の集合を表す木構造を構築する。そして、抽出部60は、当該述語項構造の集合に含まれる述語項構造の各々に対し、木構造内での述語項構造の位置に応じた優先度を付与して、Eventフレームを作成する。抽出部60は、Eventデータのハ格〜マデ格の何れかの格要素に焦点が含まれる述語項構造を、Eventデータから抽出する。   Next, based on the focus received by the input unit 4, the extraction unit 60 extracts each predicate term structure including a case element that matches the focus from the event data stored in the predicate term structure database 5. Similar to the creation of the Attribute frame, a tree structure representing a set of predicate term structures is constructed for the set of extracted predicate term structures. Then, the extraction unit 60 assigns a priority according to the position of the predicate term structure in the tree structure to each predicate term structure included in the set of predicate term structures, and creates an Event frame. The extraction unit 60 extracts a predicate term structure in which the focus is included in any case element of the event data from the case case to the made case from the Event data.

図10は、焦点「ミスチル」についてのEventフレームの例である。Eventフレームは、焦点に関する事態(Event)一般を表すデータとなっている。また、上記図10は、焦点が含まれる格の表示を省略した場合のEventフレームの一例である。   FIG. 10 is an example of an Event frame for the focal point “Mystil”. The Event frame is data representing a general situation related to the focus (Event). FIG. 10 is an example of an event frame when the display of the case including the focus is omitted.

なお、Eventフレームの作成については、Entityフレームと同様に、テキストデータにおける出現頻度上位N件(例えば、Nは500)の述語項構造の各々を取得し、当該N件の述語項構造に、出現頻度順で優先順位を付与して、Eventフレームを作成してもよい。   As for the creation of the event frame, each of the top N occurrences (for example, N is 500) of the predicate term structures in the text data is acquired, and the occurrence of the event frame appears in the N predicate term structures. An event frame may be created by assigning priorities in order of frequency.

なお、Attributeデータ、及びEventデータは、述語とハ格の格要素とからなる述語項構造とは異なる述語項構造の集合の一例である。また、Entityフレーム、Attributeフレーム、及びEventフレームに含まれる各述語項構造は、焦点と一致する格要素を含む述語項構造の各々の一例である。   Note that Attribute data and Event data are an example of a set of predicate term structures different from the predicate term structure composed of predicates and C case elements. Further, each predicate term structure included in the Entity frame, the Attribute frame, and the Event frame is an example of each predicate term structure including a case element that matches the focus.

付加情報付与部62は、抽出部60によって作成された、Entityフレーム、Attributeフレーム、及びEventフレームに含まれる述語項構造の各々について、当該述語項構造に含まれる表現に関する付加情報を付与する。
付加情報は、述語項構造に含まれる、用言に関する評価表現の種類を示す情報、述語構造に含まれる、名詞に関する評価表現の種類を示す情報、及び質問であるか否かを示す情報の3種類である。以下、3種類の付加情報について説明する。
The additional information adding unit 62 adds additional information related to the expression included in the predicate term structure to each of the predicate term structures included in the Entity frame, Attribute frame, and Event frame created by the extraction unit 60.
The additional information includes information indicating the type of evaluation expression relating to the predicate included in the predicate term structure, information indicating the type of evaluation expression relating to the noun, and information indicating whether or not it is a question. It is a kind. Hereinafter, three types of additional information will be described.

(1)用言に関する評価表現の種類を示す情報(PN)
用言に関する評価表現の種類を示す情報は、「いい」「悪い」といった用言に代表されるような評価表現が述語項構造に含まれているか、そして、もし含まれているならどの種類かという情報である。正の極性の評価表現であればP、負の極性の評価表現であればN、どちらとも取れるものであればPN、それ以外であればO(Other)が付与される。ここで用いられる評価表現のリストとしては事前に用意した単語リストを用いる。含まれているかの判定は単語の照合が行える手法であれば何でもよい。例えば、正規表現によるマッチングを用いればよい。
(1) Information (PN) indicating the type of evaluation expression related to the predicate
The information indicating the type of evaluation expression related to the predicate includes the evaluation expression represented by the predicate such as “good” and “bad” in the predicate term structure, and if it is included, what type It is information that. P for positive polarity evaluation expressions, N for negative polarity evaluation expressions, PN for any expression, O (Other) for any other expression. As a list of evaluation expressions used here, a word list prepared in advance is used. Any method can be used to determine whether it is included as long as it can match words. For example, regular expression matching may be used.

(2)名詞に関する評価表現の種類を示す情報(PNE)
名詞に関する評価表現の種類を示す情報として、増加すれば増加するほどよいとされる名詞の評価表現(例えば、「金」「愛」「幸せ」など)が含まれていればP、増加するほど良くないとされる名詞の評価表現(例えば、病気、不幸など)が含まれていればN、どちらとも取れるものであればE、それ以外にはOが付与される。これらの名詞のリストとしては事前に用意したものを用いる。
(2) Information indicating the type of evaluation expression related to nouns (PNE)
As information indicating the type of evaluation expression related to a noun, P includes a noun evaluation expression (for example, “gold”, “love”, “happiness”, etc.) that is preferably increased as it increases. N is given if an evaluation expression of a noun that is not good (for example, illness, misfortune, etc.) is included, E is given if both can be taken, and O is given otherwise. A list prepared in advance is used as a list of these nouns.

(3)質問であるか否かを示す情報(Q)
述語項構造の格要素として「誰」や「何」から始まるものがあればそれは質問であるため、「誰」、「何」、「いつ」、「どこ」などの単語リストを予め用意しておき、述語項構造の格要素と当該単語リスト内の単語とのマッチングを行い、質問であるか否かを示す情報として、当該単語リスト内の単語を含む格要素を持つレコードにはQ、そうでなければOを付与する。
(3) Information indicating whether it is a question (Q)
Any case element of the predicate term structure that begins with “who” or “what” is a question, so prepare word lists such as “who”, “what”, “when”, and “where” in advance. In addition, the case element of the predicate term structure is matched with the word in the word list, and as information indicating whether or not it is a question, Q for records having case elements including the word in the word list, and so on Otherwise, O is given.

図11は、上記(1)〜(3)の付加情報が付加された、「事故」を焦点とするEntityフレームの例である。「事故」という単語は、名詞に関する評価表現の種類としてNであるため、PNEのカラムはNとなっている。また、「怖い」などは負の極性の評価表現であるためNとなっている。   FIG. 11 is an example of an Entity frame that focuses on “accident”, to which the additional information (1) to (3) is added. Since the word “accident” is N as the type of evaluation expression regarding nouns, the column of PNE is N. “Scared” or the like is N because it is a negative polarity evaluation expression.

また、図12は、上記の(1)〜(3)の付加情報が付加された、「事故」を焦点とするAttributeフレームの例である。5番目の「0_悪い 1_誰」は「誰」という疑問詞が入っているため、Qが付与されている。なお、上記図12は、焦点が含まれる格の表示を省略した場合のAttributeフレームの一例である。   FIG. 12 is an example of an Attribute frame that focuses on “accident”, to which the additional information (1) to (3) is added. The fifth “0_bad 1_who” contains the question word “who”, and is assigned Q. Note that FIG. 12 is an example of an Attribute frame when the display of the case including the focus is omitted.

また、図13は、上記の(1)〜(3)の付加情報が付加された、「事故」を焦点とするEventフレームの例である。なお、上記図13は、ハ格の表示を省略した場合のEventフレームの一例である。   FIG. 13 is an example of an event frame focusing on “accident” to which the additional information (1) to (3) is added. Note that FIG. 13 is an example of an Event frame when the display of the case is omitted.

制約判定部64は、抽出部60によって作成された、Entityフレーム、Attributeフレーム、及びEventフレームに含まれる述語項構造の各々から、付加情報と発話の意図とに関する予め定められた制約条件に基づいて、入力部4によって受け付けた発話の意図に対して制約条件を満たす述語項構造の各々を抽出し、抽出した述語項構造の各々を平叙文生成部66へ出力する。   The constraint determination unit 64 is based on a predetermined constraint condition regarding the additional information and the intention of the utterance from each of the predicate term structures included in the Entity frame, the Attribute frame, and the Event frame created by the extraction unit 60. Then, each predicate term structure that satisfies the constraint condition for the intention of the utterance accepted by the input unit 4 is extracted, and each extracted predicate term structure is output to the plaintext generation unit 66.

ここで、予め定められた制約条件とは、発話の意図が質問でない場合に、付加情報として質問であることを示す情報が付与された述語項構造を用いないこと、発話の意図がポジティブな評価である場合に、付加情報としてポジティブな評価であることを示す情報が付与された述語項構造を用いること、及び発話の意図がネガティブな評価である場合に、付加情報としてネガティブな評価であることを示す情報が付与された述語項構造を用いることである。   Here, the predetermined constraint condition is that, when the intention of the utterance is not a question, the predicate term structure to which the information indicating the question is added is not used as additional information, and the intention of the utterance is positively evaluated. , Use predicate term structure with information indicating positive evaluation as additional information, and negative evaluation as additional information when intention of utterance is negative evaluation This is to use a predicate term structure to which information indicating is given.

具体的には、制約判定部64は、入力部4によって受け付けた発話の意図が、「質問」の発話の意図でない場合、各フレームに含まれる述語項構造の各々のうち、フレーム中のQのカラムにQが付与された述語項構造を抽出しない。   Specifically, when the intention of the utterance received by the input unit 4 is not the intention of the “question” utterance, the constraint determination unit 64 determines the Q of the frame in each of the predicate term structures included in each frame. Do not extract the predicate term structure with Q added to the column.

また、制約判定部64は、入力部4によって受け付けた発話の意図が、「ポジティブな評価に関する発話」である場合には、各フレームに含まれる述語項構造の各々のうち、フレーム中の、PN又はPNEのカラムにPが付与された述語項構造のみを抽出する。   In addition, when the intention of the utterance received by the input unit 4 is “an utterance relating to positive evaluation”, the constraint determination unit 64 includes the PN in the frame among the predicate term structures included in each frame. Alternatively, only the predicate term structure in which P is added to the PNE column is extracted.

また、制約判定部64は、入力部4によって受け付けた発話の意図が、「ネガティブな評価に関する発話」である場合には、各フレームに含まれる述語項構造の各々のうち、フレーム中の、PN、又はPNEのカラムにNが付与された述語項構造のみを抽出する。   Further, when the intention of the utterance received by the input unit 4 is “an utterance regarding negative evaluation”, the constraint determination unit 64 includes the PN in the frame among the predicate term structures included in each frame. Or only the predicate term structure with N added to the PNE column.

上記の制約によって意味の不整合が生じる発話をしないことが担保できる。例えば、疑問詞を含む平叙文「誰が悪いです」、ポジティブな評価として負の極性を含む発話「病気になるっていいですね」、及びネガティブな評価として正の極性を含む発話「幸せになるってよくないですね」などを排除することができる。   It can be ensured that utterances that cause inconsistencies in meaning due to the above restrictions are not made. For example, a plain text with a question word “who is bad”, an utterance with negative polarity as a positive evaluation “Is it OK to be sick”, and an utterance with a positive polarity as negative evaluation “be happy” It ’s not good ”.

平叙文生成部66は、制約判定部64によって出力された述語項構造の各々について、述語、格要素、及び格要素の格について予め定められた順番に従って、当該述語項構造の述語、格要素、及び格要素の格を並べた平叙文を生成する。   For each predicate term structure output by the constraint determination unit 64, the plaintext generation unit 66 follows the predetermined order, the predicate, the case element, and the case element in accordance with the order of the predicate term structure, And a plain text in which the case elements are arranged is generated.

述語項構造の述語をpred、格をcase、格要素をargとすると、Entityフレーム、及びAttributeフレームから抽出された述語項構造であれば、「argはpred」という平叙文を生成する。それ以外のフレームであれば、「arg case pred」という平叙文を生成する。例えば、Entityフレームから抽出された述語項構造「0_いい 1_京都」であれば、「京都はいい」となる。Eventフレームから抽出された述語項構造「0_歌う 2_曲」であれば、「曲を歌う」となる。なお、日本語の特性から、ヲ格、ニ格、ガ格、デ格、ト格、マデ格、カラ格の順で述語に近くなるように格要素を配置する。そして、平叙文生成部66は、述語項構造と当該述語項構造について生成された平叙文とのペアのリストをスコアリング部68へ出力する。   If the predicate of the predicate term structure is pred, the case is case, and the case element is arg, a prescriptive sentence “arg is pred” is generated if the predicate term structure is extracted from the Entity frame and the Attribute frame. For frames other than that, a plain text “arg case pred” is generated. For example, if the predicate term structure “0_good 1_Kyoto” extracted from the Entity frame is “Kyoto is good”. If the predicate term structure “0_sing 2_music” extracted from the event frame is “singing music”. In addition, from the Japanese characteristics, case elements are arranged so as to be closer to predicates in the order of wo case, ni case, ga case, de case, to case, made case, and empty case. Then, the plain text generation unit 66 outputs a list of pairs of the predicate term structure and the plain text generated for the predicate term structure to the scoring unit 68.

スコアリング部68は、平叙文生成部66によって出力された述語項構造と当該述語項構造について生成された平叙文とのペアの各々に対し、入力部4によって受け付けた発話履歴に基づいて算出される文脈情報と当該ペアの平叙文との類似度、及び当該ペアの述語項構造に付与された優先度に基づくスコアを付与する。
具体的には、スコアリング部68は、述語項構造と平叙文とのペアの各々について、下記の式に従いスコアを算出する。
The scoring unit 68 is calculated based on the utterance history received by the input unit 4 for each pair of the predicate term structure output by the plaintext generation unit 66 and the plaintext generated for the predicate term structure. A score based on the similarity between the context information and the plaintext of the pair, and the priority assigned to the predicate term structure of the pair.
Specifically, the scoring unit 68 calculates a score according to the following formula for each pair of predicate term structure and plain text.

上記(5)式では、述語項構造がFであり、SがFに対応する平叙文である。Cは発話履歴を表し、Lは発話履歴においていくつ前までの発話を参照するかを規定する固定値である。Lは例えば3である。dist関数は、発話履歴(文脈)と平叙文の意味的なまとまり返す関数である。   In the above equation (5), the predicate term structure is F, and S is a plain text corresponding to F. C represents an utterance history, and L is a fixed value that defines how many previous utterances are referred to in the utterance history. L is, for example, 3. The dist function is a function that returns a meaningful collection of utterance history (context) and plain text.

dist関数では、概念ベースを用いた計算を行う。具体的には、まず発話履歴から直近のL発話を抽出する。そして、L発話の各々について概念ベースを参照し、L個の概念ベクトル(1000次元)を作成する。   In the dist function, calculation using a concept base is performed. Specifically, first, the latest L utterance is extracted from the utterance history. Then, the concept base is referenced for each of the L utterances, and L concept vectors (1000 dimensions) are created.

ここで、発話から概念ベクトルを以下のように作成する。まず、発話を形態素解析し単語に分割する。そして、各々の単語について概念ベースを検索し、検索の結果、見つかった単語に対応する概念ベクトルの和を算出する。そして、概念ベクトルの和の大きさが1となるように正規化し、当該発話の概念ベクトルとする。   Here, a concept vector is created from the utterance as follows. First, utterances are morphologically analyzed and divided into words. Then, the concept base is searched for each word, and the sum of concept vectors corresponding to the found word is calculated as a result of the search. Then, the concept vector is normalized so that the sum of the concept vectors becomes 1, and is used as the concept vector of the utterance.

平叙文Sについても、発話の概念ベクトルと同様に、概念ベクトルを一つ作成する。   For the plain text S, one concept vector is created in the same manner as the utterance concept vector.

そして、L発話の各々の概念ベクトルと、平叙文Sの概念ベクトルとを合わせたL+1個のベクトルから、重心となるベクトルを求める。当該重心となるベクトルを、セントロイドと呼ぶ。   Then, a vector serving as the center of gravity is obtained from L + 1 vectors obtained by combining each concept vector of L utterances and the concept vector of the plain text S. The vector serving as the center of gravity is called a centroid.

最後に、L+1個のベクトルの各々について、当該ベクトルとセントロイドとの誤差(ユークリッド距離の二乗)を計算し、計算された誤差の平均値をdist関数の返り値とする。当該返り値が小さいほど、複数のベクトルがまとまっていることを表す。   Finally, for each of L + 1 vectors, an error (square of Euclidean distance) between the vector and the centroid is calculated, and the average value of the calculated errors is used as a return value of the dist function. A smaller return value indicates that a plurality of vectors are collected.

dist関数の返り値を用いて、平叙文Sがこれまでの文脈(L個の発話履歴)と意味的なまとまりをなすかどうかを確かめることができる。   By using the return value of the dist function, it is possible to confirm whether or not the plaintext S is semantically organized with the previous context (L utterance histories).

なお、概念ベースの詳細については参考文献(別所克人、内山俊郎、内山匡、片岡良治、奥雅博、「単語・意味属性間共起に基づくコーパス概念ベースの生成方式」、情報処理学会論文誌、2008、Vol.49, No.12, pp.3997-4006)に詳述されている。   For details on the concept base, refer to the references (Katsuhito Bessho, Toshiro Uchiyama, Atsushi Uchiyama, Ryoji Kataoka, Masahiro Oku, “Corpus concept base generation method based on co-occurrence between words and semantic attributes”, Transactions of Information Processing Society of Japan. 2008, Vol. 49, No. 12, pp. 3997-4006).

概念ベースについて簡単に説明すると、単語を、周辺単語の出現頻度からなるベクトルで表現したものが概念ベースである。単語そのものの分布ではベクトル空間は疎であるため、次元圧縮の手法を用いて、同様の意味を持つ単語をまとめ上げ、ベクトルを1000次元までに抑えている。単語の距離を1000次元のベクトル上で計算することで、単語間の意味的な距離を計算することが可能である。   Briefly describing the concept base, the concept base is a word represented by a vector composed of the appearance frequencies of neighboring words. Since the vector space is sparse in the distribution of the words themselves, the dimensional compression method is used to collect words having the same meaning and suppress the vectors to 1000 dimensions. By calculating the distance between words on a 1000-dimensional vector, it is possible to calculate a semantic distance between words.

上記(5)式のpriority関数は各フレームが持つ優先度に基づくスコアである。αとβとは係数であり、dist関数とpriority関数のどちらに重きを置くかを設定する為に用いる。また、どちらかを0に設定することで、片方の関数のみを用いたスコアリングを行うことが可能である。スコアリングによって、重要かつ対話の文脈に即したものを上位にランキングすることができる。   The priority function in the above equation (5) is a score based on the priority of each frame. α and β are coefficients, and are used to set which of the dist function and the priority function should be emphasized. Further, by setting either one to 0, it is possible to perform scoring using only one function. Scoring allows you to rank important things that are relevant to the context of the dialogue.

なお、dist関数の上位K件をまず取得し、その中でpriority関数に基づいてソートをしたものをランキング結果としてもよい。また、priority関数の上位J件をまず取得し、その中でdist関数に基づいてソートをしたものをランキング結果としてもよい。   Note that the top K items of the dist function may be acquired first, and the result sorted according to the priority function may be used as the ranking result. Alternatively, the top J items of the priority function may be acquired first, and the result sorted according to the dist function may be used as the ranking result.

スコアリング部68は、上記(5)式に従って算出されたスコアによって、述語項構造と平叙文とのペアをソートし、ソート結果の上位M件を、文末表現変換部70へ出力する。   The scoring unit 68 sorts the pairs of predicate term structures and plain texts according to the score calculated according to the above equation (5), and outputs the top M sort results to the sentence end expression conversion unit 70.

文末表現変換部70は、入力部4によって受け付けた発話の意図と、当該発話の意図を表す文末表現に変換するための文末表現変換ルールとに基づいて、スコアリング部68によって出力された、スコアの上位M個のペアの各々について、当該ペアの平叙文の文末表現を変換して、発話の意図に従った文を生成し、当該ペアについて生成した文を発話候補として出力する。   The sentence end expression conversion unit 70 outputs the score output by the scoring unit 68 based on the intention of the utterance received by the input unit 4 and the sentence end expression conversion rule for converting to the sentence end expression representing the intention of the utterance. For each of the top M pairs, the sentence end expression of the plain text of the pair is converted to generate a sentence according to the intention of the utterance, and the sentence generated for the pair is output as an utterance candidate.

具体的には、文末表現変換部70は、述語項構造と平叙文とのペアの平叙文の文末表現を、文末表現変換ルールによって変換し、発話の意図に即した文に書き換え、発話候補とする。文末表現変換ルールは事前に準備されたルールによって実装される。文末表現変換ルールは、平叙文の最後の単語の品詞に基づく書き換えルールである。   Specifically, the sentence end expression conversion unit 70 converts the sentence end expression of the pretext of the pair of the predicate term structure and the plain sentence according to the sentence end expression conversion rule, rewrites the sentence according to the intention of the utterance, To do. The sentence ending expression conversion rule is implemented by a rule prepared in advance. The sentence end expression conversion rule is a rewrite rule based on the part of speech of the last word of the plain text.

例えば、平叙文「ミスチルが好き」のように形容動詞が最後の単語であれば、発話の意図が「質問」の場合、文「ミスチルが好きですか?」のように「ですか」を付与する。平叙文「ミスチルが歌う」のように最後の単語が動詞であれば「のですか?」を追加し、文「ミスチルは歌うのですか?」とする。または、所与の活用辞書を参照し最後の動詞を連用形(「歌い」)にし、「ますか?」を付与することで「ミスチルは歌いますか?」という文を生成し、発話候補とする。また、1つの平叙文に対し複数の文が生成された場合は、ランダムに何れかの文を発話候補として選択する。   For example, if the adjective verb is the last word, such as a plain text “I like mystil”, if the intention of the utterance is “question”, “do you like” like the sentence “do you like mystil?” To do. If the last word is a verb, such as a plain text “Mystil sings”, a “no?” Is added and a sentence “Does mystil sing?”. Or, by referring to the given dictionary and using the last verb as a continuous form (“singing”) and adding “do you want?” To generate the sentence “Would you like to sing?” . Further, when a plurality of sentences are generated for one plain text, any sentence is randomly selected as an utterance candidate.

その他の発話の意図の場合は、平叙文をそのまま発話候補とするか、又は最後の単語の品詞に従った文末表現候補を準備しておき、当該文末表現を付与する。例えば、最後の品詞が名詞の場合は「だよ」「だね」「だよね」など複数の文末表現候補があり、複数の文末表現候補の何れかを文末に付与して発話候補とする。なお、文末表現変換ルールとして、発話の意図に応じた、より複雑なルールを用いてもよい。   In the case of other utterance intentions, the plain text is used as an utterance candidate as it is, or a sentence end expression candidate according to the part of speech of the last word is prepared and the sentence end expression is given. For example, when the last part of speech is a noun, there are a plurality of sentence end expression candidates such as “dayo”, “dane”, and “dayone”, and any one of the plurality of sentence end expression candidates is assigned to the sentence end to make a speech candidate. Note that a more complicated rule corresponding to the intention of the utterance may be used as the sentence ending expression conversion rule.

そして、文末表現変換部70は、上位M個のペアの各々の平叙文について文末表現を変換した結果得られるK個の発話候補を出力する。ここで、文末表現変換ルールが適用できない平叙文などは変換されないため、KはM以下の数である。   Then, the sentence ending expression conversion unit 70 outputs K utterance candidates obtained as a result of converting the sentence ending expression for each plain text of the top M pairs. Here, since a plain text or the like to which the sentence end expression conversion rule cannot be applied is not converted, K is a number of M or less.

出力部7は、文末表現変換部70によって出力されたK個の発話候補を、結果として出力する。出力部7による出力は、上位モジュールの対話システムにおける発話候補となり、最終的に何れかがシステム発話として用いられる。   The output unit 7 outputs the K utterance candidates output by the sentence end expression conversion unit 70 as a result. The output from the output unit 7 becomes an utterance candidate in the dialogue system of the upper module, and finally any one is used as the system utterance.

<述語項構造データベース構築装置の作用>
次に、本実施の形態に係る述語項構造データベース構築装置100の作用について説明する。まず、複数のテキストデータを含むテキスト集合が述語項構造データベース構築装置100に入力されると、述語項構造データベース構築装置100によって、図14に示す述語項構造データベース構築処理ルーチンが実行される。
<Operation of predicate term structure database construction device>
Next, the operation of the predicate term structure database construction device 100 according to the present embodiment will be described. First, when a text set including a plurality of text data is input to the predicate term structure database construction device 100, the predicate term structure database construction device 100 executes a predicate term structure database construction processing routine shown in FIG.

まず、ステップS100において、テキストデータ入力部1によって、テキスト集合の入力を受け付け、テキストデータベース20に格納する。   First, in step S100, the text data input unit 1 accepts input of a text set and stores it in the text database 20.

ステップS102において、述語項構造データベース構築部2によって、上記ステップS100でテキストデータベース20に格納されたテキスト集合に含まれる複数のテキストデータのうち、1つのテキストデータを設定する。   In step S102, the predicate term structure database construction unit 2 sets one text data among a plurality of text data included in the text set stored in the text database 20 in step S100.

ステップS104において、上記ステップS102で設定されたテキストデータに含まれる文のうち、1つの文を設定する。   In step S104, one sentence is set out of the sentences included in the text data set in step S102.

ステップS106において、形態素解析部22によって、上記ステップS104で設定された文について、形態素解析を行う。   In step S106, the morpheme analysis unit 22 performs morpheme analysis on the sentence set in step S104.

ステップS108において、係り受け解析部24によって、上記ステップS104で設定された文について、上記ステップS106で解析された形態素解析結果に基づいて、係り受け解析を行い、文節の同定、および、文節間の係り受け構造を決定する。   In step S108, the dependency analysis unit 24 performs dependency analysis on the sentence set in step S104 based on the morphological analysis result analyzed in step S106. Determine the dependency structure.

ステップS110において、初期データ生成部26によって、上記ステップS104で設定された文について、上記ステップS108で決定された係り受け構造に基づいて、上記ステップS104で設定された文の述語と当該述語に対応する格の要素である格要素とを同定し、述語項構造として抽出する。そして、ステップS110において、抽出された述語項構造を、初期データとしてメモリ(図示省略)に一時的に格納する。   In step S110, the initial data generation unit 26 corresponds to the predicate of the sentence set in step S104 and the predicate for the sentence set in step S104 based on the dependency structure determined in step S108. The case element that is the element of the case to be identified is identified and extracted as a predicate term structure. In step S110, the extracted predicate term structure is temporarily stored in a memory (not shown) as initial data.

ステップS112において、上記ステップS102で設定されたテキストデータに含まれる全ての文について、上記ステップS104〜S110の処理を実行したか否かを判定する。上記ステップS104〜S110の処理を実行していない文が存在する場合には、ステップS104へ戻る。一方、上記ステップS102で設定されたテキストデータに含まれる全ての文について、上記ステップS104〜S110の処理を実行した場合には、ステップS114へ進む。   In step S112, it is determined whether or not the processing in steps S104 to S110 has been executed for all sentences included in the text data set in step S102. If there is a sentence that does not execute the processes in steps S104 to S110, the process returns to step S104. On the other hand, if the processes in steps S104 to S110 have been executed for all sentences included in the text data set in step S102, the process proceeds to step S114.

ステップS114において、テキストデータベース20に格納された全てのテキストデータについて、上記ステップS102〜S112の処理を実行したか否かを判定する。上記ステップS102〜S112の処理を実行していないテキストデータが存在する場合には、ステップS102へ戻る。一方、テキストデータベース20に格納された全てのテキストデータについて、上記ステップS102〜S112の処理を実行した場合には、ステップS116へ進む。   In step S114, it is determined whether or not the processes in steps S102 to S112 have been executed for all text data stored in the text database 20. If there is text data that has not been subjected to the processes in steps S102 to S112, the process returns to step S102. On the other hand, when the processes in steps S102 to S112 are executed for all text data stored in the text database 20, the process proceeds to step S116.

ステップS116において、Entityデータ生成部28によって、上記ステップS110でメモリ(図示省略)に格納された初期データから、ハ格の格要素と述語とからなる述語項構造と、当該述語構造の頻度とのペアを抽出し、抽出された各ペアのデータから構成されるEntityデータを生成する。そして、Entityデータ生成部28によって、Entityデータを述語項構造データベース3に格納する。   In step S116, the entity data generation unit 28 uses the initial data stored in the memory (not shown) in step S110 to calculate a predicate term structure including a case element and a predicate and a frequency of the predicate structure. Pairs are extracted, and entity data composed of the extracted data of each pair is generated. Then, the entity data is stored in the predicate term structure database 3 by the entity data generation unit 28.

ステップS118において、Attributeデータ生成部30によって、上記ステップS110でメモリ(図示省略)に格納された初期データから、述語と、ハ格、及びガ格とからなる述語項構造と、当該述語項構造の頻度とのペアを抽出し、抽出された各ペアのデータから構成されるAttributeデータを生成する。そして、Attributeデータ生成部30によって、Attributeデータを述語項構造データベース3に格納する。   In step S118, the Attribute data generation unit 30 creates a predicate term structure consisting of a predicate, a case, and a case from the initial data stored in the memory (not shown) in step S110, and the predicate term structure. A pair with the frequency is extracted, and Attribute data composed of the extracted data of each pair is generated. Then, Attribute data is stored in the predicate term structure database 3 by the Attribute data generation unit 30.

ステップS120において、Eventデータ生成部32によって、上記ステップS110でメモリ(図示省略)に格納された初期データから、述語と、ハ格と、ガ格、ヲ格、ニ格、デ格、ト格、カラ格、及びマデ格の少なくとも1つとを含む述語項構造と、当該述語項構造の頻度とのペアを抽出し、抽出された各ペアのデータから構成されるEventデータを生成する。そして、Eventデータ生成部32によって、Eventデータを述語項構造データベース3に格納して、述語項構造データベース構築処理ルーチンを終了する。   In step S120, from the initial data stored in the memory (not shown) in step S110 by the event data generation unit 32, a predicate, a case, a case, a case, a case, a case, a case, A pair of a predicate term structure including at least one of a color case and a made case and a frequency of the predicate term structure is extracted, and event data composed of the extracted data of each pair is generated. Then, the event data is stored in the predicate term structure database 3 by the event data generation unit 32, and the predicate term structure database construction processing routine is terminated.

<発話生成装置の作用>
次に、本実施の形態に係る発話生成装置200の作用について説明する。まず、述語項構造データベース構築装置100の述語項構造データベース3に記憶されている、Entityデータ、Attributeデータ、及びEventデータが、発話生成装置200に入力されると、述語項構造データベース5に格納される。そして、対話システム等の上位モジュールから、発話の意図と、焦点と、発話履歴とが発話生成装置200に入力されると、発話生成装置200によって、図15に示す発話生成処理ルーチンが実行される。
<Operation of utterance generator>
Next, the operation of the utterance generation device 200 according to the present embodiment will be described. First, when Entity data, Attribute data, and Event data stored in the predicate term structure database 3 of the predicate term structure database construction device 100 are input to the utterance generation device 200, they are stored in the predicate term structure database 5. The When an utterance intention, focus, and utterance history are input to the utterance generation device 200 from a higher-level module such as a dialogue system, the utterance generation device 200 executes an utterance generation processing routine shown in FIG. .

まず、ステップS200において、入力部4によって、発話の意図と、焦点と、発話履歴とを受け付ける。   First, in step S200, the input unit 4 accepts an utterance intention, focus, and utterance history.

ステップS202において、抽出部60によって、上記ステップS200で受け付けた焦点に基づいて、述語項構造データベース5に格納されているEntityデータから、焦点と一致する格要素を含む述語項構造の各々を抽出し、抽出された述語項構造の各々について、テキストデータにおける当該述語項構造の出現頻度に応じた優先度を付与して、Entityフレームを作成する。   In step S202, based on the focus received in step S200, the extraction unit 60 extracts each predicate term structure including case elements that match the focus from the entity data stored in the predicate term structure database 5. A priority according to the appearance frequency of the predicate term structure in the text data is assigned to each extracted predicate term structure, and an Entity frame is created.

ステップS204において、抽出部60によって、上記ステップS200で受け付けた焦点に基づいて、述語項構造データベース5に格納されているAttributeデータから、焦点と一致する格要素を含む述語項構造の各々を抽出し、抽出された述語項構造の集合に基づいて、述語項構造の集合を表す木構造を構築する。そして、抽出部60によって、構築した木構造の各ノードについて、当該ノードに対応して得られる述語項構造に対し、木構造内での当該ノードの位置に応じた優先度を付与して、Eventフレームを作成する。   In step S204, the extraction unit 60 extracts each predicate term structure including case elements matching the focus from the Attribute data stored in the predicate term structure database 5, based on the focus received in step S200. Based on the extracted set of predicate term structures, a tree structure representing the set of predicate term structures is constructed. Then, with respect to each node of the constructed tree structure by the extraction unit 60, a priority according to the position of the node in the tree structure is given to the predicate term structure obtained corresponding to the node, and Event Create a frame.

ステップS206において、抽出部60によって、上記ステップS200で受け付けた焦点に基づいて、述語項構造データベース5に格納されているEventデータから、焦点と一致する格要素を含む述語項構造の各々を抽出し、上記ステップS204と同様に、抽出された述語項構造の集合に基づいて、述語項構造の集合を表す木構造を構築する。そして、抽出部60によって、構築した木構造の各ノードについて、当該ノードに対応して得られる述語項構造に対し、木構造内での当該ノードの位置に応じた優先度を付与して、Eventフレームを作成する。   In step S206, based on the focus received in step S200, the extraction unit 60 extracts each predicate term structure including case elements that match the focus from the event data stored in the predicate term structure database 5. As in step S204, a tree structure representing a set of predicate term structures is constructed based on the set of extracted predicate term structures. Then, with respect to each node of the constructed tree structure by the extraction unit 60, a priority according to the position of the node in the tree structure is given to the predicate term structure obtained corresponding to the node, and Event Create a frame.

ステップS208において、付加情報付与部62によって、上記ステップS202で作成されたEntityフレーム、上記ステップS204で作成されたAttributeフレーム、及び上記ステップS206で作成されたEventフレームに含まれる述語項構造の各々について、当該述語項構造に含まれる表現に関する付加情報を付与する。   In step S208, each of the predicate term structure included in the Entity frame created in step S202, the Attribute frame created in step S204, and the Event frame created in step S206 by the additional information adding unit 62. , Additional information regarding expressions included in the predicate term structure is given.

ステップS210において、制約判定部64によって、上記ステップS202で作成されたEntityフレーム、上記ステップS204で作成されたAttributeフレーム、及び上記ステップS206で作成されたEventフレームに含まれる述語項構造の各々から、上記ステップS200で受け付けた発話の意図に対して制約条件を満たす述語項構造の各々を抽出し、抽出した述語項構造の各々を出力する。   In step S210, the constraint determination unit 64 uses the Entity frame created in step S202, the Attribute frame created in step S204, and the predicate term structure included in the event frame created in step S206. Each predicate term structure that satisfies the constraint condition with respect to the intention of the utterance accepted in step S200 is extracted, and each extracted predicate term structure is output.

ステップS212において、平叙文生成部66によって、上記ステップS210で出力された述語項構造の各々について、予め定められた順番に従って、当該述語項構造の述語、格要素、及び格要素の格を並べた平叙文を生成する。   In step S212, the prescription generation unit 66 arranges the predicates, case elements, and case elements of the predicate term structure in accordance with a predetermined order for each of the predicate term structures output in step S210. Generate a plain text.

ステップS214において、スコアリング部68によって、上記ステップS212で生成された述語項構造と当該述語項構造について生成された平叙文とのペアの各々に対し、上記ステップS200で受け付けた発話履歴、及び述語項構造に付与された優先度に基づいて、上記(5)式に従って、スコアを算出して付与する。   In step S214, the utterance history received in step S200 and the predicate for each pair of the predicate term structure generated in step S212 and the plaintext generated for the predicate term structure by the scoring unit 68 Based on the priority given to the term structure, the score is calculated and given according to the above equation (5).

ステップS216において、文末表現変換部70によって、上記ステップS200で受け付けた発話の意図と、当該発話の意図を表す文末表現に変換するための文末表現変換ルールとに基づいて、上記ステップS214で付与された、スコアの上位M個のペアの各々について、当該ペアの平叙文の文末表現を変換して、発話の意図に従ったK個の文を生成し、当該ペアについて生成したK個の文を発話候補として出力する。   In step S216, the sentence ending expression conversion unit 70 assigns the utterance intention accepted in step S200 and the sentence ending expression conversion rule for converting into the sentence ending expression expressing the intention of the utterance in step S214. In addition, for each of the top M pairs of scores, the sentence end expression of the plain text of the pair is converted to generate K sentences according to the intention of the utterance, and the K sentences generated for the pair are Output as utterance candidate.

ステップS218において、出力部7は、文末表現変換部70によって出力されたK個の発話候補を結果として出力して、発話生成処理ルーチンを終了する。   In step S218, the output unit 7 outputs the K utterance candidates output by the sentence end expression conversion unit 70 as a result, and ends the utterance generation processing routine.

なお、ステップS218において出力された発話候補は、対話システム等の上位モジュールによって発話に使用される。上位モジュールでは、例えば、複数発話候補があればその中からランダムに一つを発話する。   Note that the utterance candidate output in step S218 is used for utterance by a higher-level module such as a dialogue system. In the upper module, for example, if there are a plurality of utterance candidates, one of them is uttered at random.

以上説明したように、本実施の形態に係る発話生成装置によれば、述語項構造を複数記憶した述語項構造データベースから、焦点と一致する格要素を含む述語項構造の各々を抽出し、抽出された述語項構造の各々について、当該述語項構造に含まれる表現に関する付加情報を付与し、付加情報と発話の意図とに関する予め定められた制約条件に基づいて、当該制約条件を満たす述語項構造の各々を抽出し、抽出された述語項構造の各々について、当該述語項構造を用いて、発話の意図に従った文を生成し、生成された文を発話候補として出力することにより、ユーザ発話に対する自然な発話候補を生成することができる。   As described above, according to the utterance generation device according to the present embodiment, each predicate term structure including case elements matching the focus is extracted from the predicate term structure database storing a plurality of predicate term structures. For each of the predicate term structures, the predicate term structure that gives the additional information related to the expression included in the predicate term structure and satisfies the constraint conditions based on the predetermined constraint conditions regarding the additional information and the intention of the utterance For each of the extracted predicate term structures, a sentence according to the intention of the utterance is generated using each of the extracted predicate term structures, and the generated sentence is output as an utterance candidate. Natural utterance candidates for can be generated.

また、発話候補を生成する際、テキストデータ内で高頻度に出現する述語項構造を優先して用いることで、発話候補の質を高めることができる。   Further, when generating utterance candidates, the quality of the utterance candidates can be improved by preferentially using predicate term structures that appear frequently in the text data.

また、テキストデータにおける述語項構造の出現頻度ではなく、情報利得に応じて述語項構造の集合を表す木構造を構築することで、最も重要な格要素を含む述語項構造から優先して用いて、発話候補を生成することができる。   In addition, by constructing a tree structure that represents a set of predicate term structures according to information gain rather than the frequency of appearance of the predicate term structure in text data, it is used in preference to the predicate term structure containing the most important case elements. , Utterance candidates can be generated.

また、発話履歴と述語項構造から生成される平叙文との間の意味的な類似度を考慮して、平叙文を選択することで、より文脈に即した発話候補を生成することができる。   In addition, it is possible to generate an utterance candidate more suited to the context by selecting a plain text in consideration of the semantic similarity between the utterance history and the plain text generated from the predicate term structure.

また、述語項構造に含まれる単語の極性と疑問詞の有無を考慮することで、より対話システムの発話の意図に沿った発話候補を生成することができる。   Furthermore, by considering the polarity of words included in the predicate term structure and the presence or absence of interrogative words, it is possible to generate utterance candidates more in line with the utterance intention of the dialogue system.

また、対話システムが現在の話題について状況に即した発話候補を生成することができるようになる。それにより、ユーザと対話システムの対話が円滑になり、ユーザと対話システムが協業しやすくなる。   In addition, the dialogue system can generate utterance candidates in accordance with the situation on the current topic. Thereby, the dialogue between the user and the dialogue system becomes smooth, and the user and the dialogue system can easily cooperate.

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.

例えば、上記実施の形態では、述語項構造データベース構築装置100と発話生成装置200とを別々の装置として構成する場合を例に説明したが、述語項構造データベース構築装置100と発話生成装置200とを1つの装置として構成してもよい。   For example, in the above embodiment, the case where the predicate term structure database construction device 100 and the utterance generation device 200 are configured as separate devices has been described as an example. However, the predicate term structure database construction device 100 and the utterance generation device 200 are You may comprise as one apparatus.

また、上記実施の形態の発話生成装置200におけるスコアリング部68は、述語項構造と当該述語項構造について生成された平叙文とのペアの各々に対し、文脈情報と当該ペアの平叙文との類似度、及び当該ペアの述語項構造に付与された優先度に基づくスコアを付与する場合を例に説明したが、これに限定されるものではなく、文脈情報と当該ペアの平叙文との類似度、及び当該ペアの述語項構造に付与された優先度の何れか一方に基づくスコアを付与してもよい。   In addition, the scoring unit 68 in the utterance generation device 200 of the above embodiment, for each pair of the predicate term structure and the plaintext generated for the predicate term structure, the context information and the plaintext of the pair The case where the score based on the similarity and the priority given to the predicate term structure of the pair is given has been described as an example, but the present invention is not limited to this, and the similarity between the context information and the plaintext of the pair You may give the score based on either one of the degree and the priority given to the predicate term structure of the said pair.

また、発話生成装置200では、スコアリング部68において、上記(5)式に従い算出されたスコアによって、述語項構造と平叙文とのペアをソートし、ソート結果の上位M件を文末表現変換部70へ出力する場合を例に説明したが、これに限定されるものではなく、スコアを算出せずに、述語項構造と平叙文とのペアの全てを文末表現変換部70へ出力し、全ての平叙文の文末表現を変換して発話の意図に従った文を生成し、生成した文を発話候補として出力してもよい。   Further, in the utterance generation device 200, the scoring unit 68 sorts the pairs of predicate term structures and plain texts according to the score calculated according to the above equation (5), and converts the top M items of the sorting results to the sentence end expression conversion unit. The case of outputting to 70 has been described as an example, but the present invention is not limited to this, and all the pairs of the predicate term structure and the plaintext are output to the sentence end expression conversion unit 70 without calculating the score. The sentence end expression of the plain text may be converted to generate a sentence according to the intention of the utterance, and the generated sentence may be output as the utterance candidate.

また、Eventデータとして、述語と、ハ格と、ガ格、ヲ格、ニ格、デ格、ト格、カラ格、及びマデ格の少なくとも1つとを含む述語項構造を抽出する場合を例に説明したが、これに限定されるものではない。例えば、Eventデータとして、述語と、ガ格、ヲ格、ニ格、デ格、ト格、カラ格、及びマデ格の少なくとも1つとを含む述語項構造を抽出するようにしてもよい。   In addition, as an example, a case where a predicate item structure including at least one of predicate, C case, ga case, wo case, d case, de case, to case, color case, and made case is extracted as event data is taken as an example. Although described, the present invention is not limited to this. For example, as the event data, a predicate term structure including a predicate and at least one of a case, a case, a case, a case, a case, a case, and a case may be extracted.

また、上述の述語項構造データベース構築装置100は、テキストデータベース20、及び述語項構造データベース3を備えている場合について説明したが、例えばテキストデータベース20、及び述語項構造データベース3の少なくとも1つが述語項構造データベース構築装置100の外部装置に設けられ、述語項構造データベース構築装置100は、外部装置と通信手段を用いて通信することにより、テキストデータベース20、及び述語項構造データベース3の少なくとも1つを参照するようにしてもよい。   Moreover, although the above-mentioned predicate term structure database construction apparatus 100 demonstrated the case where the text database 20 and the predicate term structure database 3 were provided, for example, at least 1 of the text database 20 and the predicate term structure database 3 is a predicate term. The predicate term structure database construction device 100 provided in the external device of the structure database construction device 100 refers to at least one of the text database 20 and the predicate term structure database 3 by communicating with the external device using communication means. You may make it do.

また、上述の発話生成装置200は、述語項構造データベース5を備えている場合について説明したが、例えば述語項構造データベース5が発話生成装置200の外部装置に設けられ、発話生成装置200は、外部装置と通信手段を用いて通信することにより、述語項構造データベース5を参照するようにしてもよい。   Moreover, although the above-mentioned utterance production | generation apparatus 200 demonstrated the case where the predicate term structure database 5 was provided, for example, the predicate term structure database 5 is provided in the external device of the utterance production | generation apparatus 200, and the utterance production | generation apparatus 200 is external. The predicate term structure database 5 may be referred to by communicating with the apparatus using the communication means.

上述の述語項構造データベース構築装置100、及び発話生成装置200は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。   The predicate term structure database construction device 100 and the utterance generation device 200 described above have a computer system inside. If the “computer system” uses a WWW system, a homepage providing environment ( Or a display environment).

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。   In the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium.

1 テキストデータ入力部
2 述語項構造データベース構築部
3、5 述語項構造データベース
4 入力部
6 演算部
7 出力部
20 テキストデータベース
22 形態素解析部
24 係り受け解析部
26 初期データ生成部
28 Entityデータ生成部
30 Attributeデータ生成部
32 Eventデータ生成部
60 抽出部
62 付加情報付与部
64 制約判定部
65 文生成部
66 平叙文生成部
68 スコアリング部
70 文末表現変換部
100 述語項構造データベース構築装置
200 発話生成装置
DESCRIPTION OF SYMBOLS 1 Text data input part 2 Predicate term structure database construction part 3, 5 Predicate term structure database 4 Input part 6 Operation part 7 Output part 20 Text database 22 Morphological analysis part 24 Dependency analysis part 26 Initial data generation part 28 Entity data generation part 30 Attribute data generation unit 32 Event data generation unit 60 Extraction unit 62 Additional information addition unit 64 Constraint determination unit 65 Sentence generation unit 66 Plain text generation unit 68 Scoring unit 70 Sentence expression conversion unit 100 Predicate term structure database construction device 200 Utterance generation apparatus

Claims (9)

発話の意図と、対話の話題を示す単語とを受け付ける入力部と、
前記入力部によって受け付けた前記対話の話題を示す単語に基づいて、述語と前記述語に対応する格の要素である格要素との組み合わせである述語項構造を複数記憶したデータベースから、前記対話の話題を示す単語に対応する前記格要素を含む前記述語項構造の各々を抽出する抽出部と、
前記抽出部によって抽出された前記述語項構造の各々について、前記述語項構造に含まれる表現に関する付加情報を付与する付加情報付与部と、
前記抽出部によって抽出された前記述語項構造の各々から、前記付加情報と前記発話の意図とに関する予め定められた制約条件に基づいて、前記入力部によって受け付けた前記発話の意図に対して前記制約条件を満たす前記述語項構造の各々を抽出する制約判定部と、
前記制約判定部によって抽出された前記述語項構造の各々について、前記述語項構造を用いて、前記入力部によって受け付けた発話の意図に従った文を生成し、前記述語項構造について生成した前記文を発話候補として出力する文生成部と、
を含む発話生成装置。
An input unit that accepts an intention of utterance and a word indicating a topic of dialogue;
Based on a word indicating the topic of the dialogue received by the input unit, from a database storing a plurality of predicate term structures that are combinations of a predicate and a case element that is a case element corresponding to the previous descriptive word, An extractor for extracting each of the preceding description term structure including the case element corresponding to a word indicating a topic;
For each of the previous description term structure extracted by the extraction unit, an additional information giving unit for giving additional information related to the expression included in the previous description term term structure;
From each of the preceding description term structure extracted by the extraction unit, the intention of the utterance received by the input unit based on a predetermined restriction condition regarding the additional information and the intention of the utterance A constraint determination unit that extracts each of the preceding description term structure satisfying the constraint condition;
For each of the previous description term structure extracted by the constraint determination unit, a sentence according to the intention of the utterance accepted by the input unit is generated using the previous description term structure, and the previous description term structure is generated. A sentence generator that outputs the sentence as an utterance candidate;
An utterance generating device including
前記文生成部は、前記制約判定部によって抽出された前記述語項構造の各々について、前記述語、前記格要素、及び前記格要素の格について予め定められた順番に従って、前記述語項構造の述語、前記格要素、及び前記格要素の格を並べた平叙文を生成し、前記入力部によって受け付けた発話の意図と、前記発話の意図を表す文末表現に変換するための予め定められた文末表現変換ルールとに基づいて、前記述語項構造について生成された前記平叙文の文末表現を変換して、前記発話の意図に従った文を生成し、前記述語項構造について生成した前記文を発話候補として出力する
請求項1に記載の発話生成装置。
The sentence generation unit, for each of the previous description term structure extracted by the constraint determination unit, according to a predetermined order for the previous description word, the case element, and the case of the case element, Is generated in advance and is converted to a sentence end expression representing the intention of the utterance and the intention of the utterance received by the input unit. Based on the sentence end expression conversion rule, the sentence end expression of the plain text generated for the previous description term structure is converted to generate a sentence according to the intention of the utterance, and the previous description term structure generated The utterance generation device according to claim 1, wherein the sentence is output as an utterance candidate.
前記抽出部は、前記対話の話題を示す単語に基づいて、前記データベースから、前記対話の話題を示す単語に対応する格要素を含む前記述語項構造の各々を抽出すると共に、抽出した前記述語項構造の各々に対し、テキストデータにおける前記述語項構造の出現頻度に応じた優先度を付与する請求項2に記載の発話生成装置。   The extraction unit extracts each predescription term structure including case elements corresponding to the word indicating the topic of conversation from the database based on the word indicating the topic of conversation, and extracts the previous description The utterance generation device according to claim 2, wherein each word term structure is given a priority according to the appearance frequency of the previous description word term structure in the text data. 前記抽出部は、前記対話の話題を示す単語に基づいて、前記データベースから、前記対話の話題を示す単語に対応する格要素を含む前記述語項構造の各々を抽出すると共に、前記抽出された前記述語項構造の各々のうちの、述語とハ格の格要素とからなる前記述語項構造の各々について、テキストデータにおける前記述語項構造の出現頻度に応じた優先度を付与し、前記抽出された前記述語項構造から得られる前記述語項構造の集合について、前記述語項構造の集合全体を表すルートノードから順に各ノードに対し、述語又は格要素の有無を条件として前記ノードが表す前記述語項構造の集合を分割したときの前記条件のうち、前記分割した前記述語項構造の集合のエントロピーの期待値が最小となる前記条件で分割することにより構築される木構造を構築し、前記木構造の各ノードについて、前記ノードから前記ルートノードまで辿ったときに得られる前記述語項構造に対し、前記木構造内での前記ノードの位置に応じた優先度を付与する請求項2に記載の発話生成装置。   The extraction unit extracts, from the database, each predescription term structure including a case element corresponding to the word indicating the topic of conversation, based on the word indicating the topic of conversation, and the extracted For each of the previous description term structure consisting of a predicate and a case element of each of the previous description term structure, a priority is given according to the appearance frequency of the previous description term structure in the text data, With respect to a set of previous description term structure obtained from the extracted previous description term structure, for each node in order from the root node representing the entire set of previous description term structure, the presence or absence of a predicate or case element is used as a condition. Of the above conditions when the set of predescription term structure represented by the node is divided, it is constructed by dividing under the condition that the expected value of entropy of the divided set of predescription term structure is minimum. Priorities according to the position of the node in the tree structure with respect to the predescription term structure obtained when the tree structure is constructed and each node of the tree structure is traced from the node to the root node The utterance generation device according to claim 2, wherein 前記文生成部は、
前記制約判定部によって抽出された前記述語項構造の各々について、前記平叙文を生成し、前記述語項構造と前記述語項構造について生成された前記平叙文とのペアの各々に対し、入力された発話履歴に基づいて算出される文脈情報と前記ペアの平叙文との類似度、及び前記ペアの前記述語項構造に付与された前記優先度の少なくとも一方に基づくスコアを付与し、
前記付与されたスコアの上位M個のペアの各々について、前記ペアの前記平叙文の文末表現を変換して、前記発話の意図に従った文を生成し、前記ペアについて生成した前記文を発話候補として出力する
請求項3又は4に記載の発話生成装置。
The sentence generator
For each of the previous description term structure extracted by the constraint determination unit, the plain text is generated, and for each of the pair of the previous description term structure and the previous description term structure generated for the previous description term structure, Giving a score based on at least one of the similarity between the context information calculated based on the input utterance history and the plaintext of the pair, and the priority assigned to the previous descriptive term structure of the pair;
For each of the top M pairs of the given scores, the sentence end expression of the plain text of the pair is converted to generate a sentence according to the intention of the utterance, and the sentence generated for the pair is uttered The utterance generation device according to claim 3, which is output as a candidate.
前記付加情報付与部は、前記抽出部によって抽出された前記述語項構造の各々について、前記付加情報として、前記述語項構造に含まれる、用言に関する評価表現の種類を示す情報、前記述語構造に含まれる、名詞に関する評価表現の種類を示す情報、及び質問であるか否かを示す情報の少なくとも1つを付与する
請求項1〜請求項5の何れか1項に記載の発話生成装置。
The additional information adding unit includes, as the additional information, information indicating the type of evaluation expression relating to the predicate included in the previous description term structure, and the previous description for each of the previous description term structure extracted by the extraction unit The utterance generation according to any one of claims 1 to 5, wherein at least one of information indicating a type of evaluation expression related to a noun and information indicating whether or not the question is included in the word structure is given. apparatus.
前記制約判定部は、前記抽出部によって抽出された前記述語項構造の各々から、前記発話の意図が質問でない場合に、前記付加情報として質問であることを示す情報が付与された前記述語項構造を用いないこと、前記発話の意図がポジティブな評価である場合に、前記付加情報としてポジティブな評価であることを示す情報が付与された前記述語項構造を用いること、及び前記発話の意図がネガティブな評価である場合に、前記付加情報としてネガティブな評価であることを示す情報が付与された前記述語項構造を用いることの少なくとも一つを前記制約条件として、前記抽出部によって抽出された前記述語項構造の各々から、前記入力部によって受け付けた前記発話の意図に対して前記制約条件を満たす前記述語項構造の各々を抽出する
請求項1〜請求項6の何れか1項に記載の発話生成装置。
The restriction determination unit includes a predescription word to which information indicating a question is added as the additional information when the intention of the utterance is not a question, from each of the predescription term structure extracted by the extraction unit When no intention structure is used, when the intention of the utterance is positive evaluation, a predescription term structure to which information indicating positive evaluation is added as the additional information is used, and the utterance When the intention is a negative evaluation, the extraction unit extracts at least one of using the predescription term structure to which information indicating negative evaluation is added as the additional information as the constraint condition Each of the predescript term structure that satisfies the constraint condition with respect to the intention of the utterance received by the input unit The utterance generation device according to any one of claims 1 to 6.
入力部、抽出部、付加情報付与部、制約判定部、及び文生成部を含む発話生成装置における発話生成方法であって、
前記入力部によって、発話の意図と、対話の話題を示す単語とを受け付けるステップと、
前記抽出部によって、前記入力部によって受け付けた前記対話の話題を示す単語に基づいて、述語と前記述語に対応する格の要素である格要素との組み合わせである述語項構造を複数記憶したデータベースから、前記対話の話題を示す単語に対応する前記格要素を含む前記述語項構造の各々を抽出するステップと、
前記付加情報付与部によって、前記抽出部によって抽出された前記述語項構造の各々について、前記述語項構造に含まれる表現に関する付加情報を付与するステップと、
前記制約判定部によって、前記抽出部によって抽出された前記述語項構造の各々から、前記付加情報と前記発話の意図とに関する予め定められた制約条件に基づいて、前記入力部によって受け付けた前記発話の意図に対して前記制約条件を満たす前記述語項構造の各々を抽出するステップと、
前記文生成部によって、前記制約判定部によって抽出された前記述語項構造の各々について、前記述語項構造を用いて、前記入力部によって受け付けた発話の意図に従った文を生成し、前記述語項構造について生成した前記文を発話候補として出力するステップと、
を含む発話生成方法。
An utterance generation method in an utterance generation device including an input unit, an extraction unit, an additional information addition unit, a constraint determination unit, and a sentence generation unit,
Receiving the intention of the utterance and the word indicating the topic of dialogue by the input unit;
A database that stores a plurality of predicate term structures that are combinations of predicates and case elements that are case elements corresponding to previous descriptive words, based on words indicating the topic of conversation received by the input unit by the extracting unit. Extracting each of the predescription term structure including the case element corresponding to the word indicating the topic of the dialogue;
A step of adding additional information related to an expression included in the previous description term term structure to each of the previous description term term structures extracted by the extraction unit by the additional information giving unit;
The utterance received by the input unit based on a predetermined restriction condition regarding the additional information and the intention of the utterance from each of the preceding description term structures extracted by the extraction unit by the constraint determination unit Extracting each predescription term structure that satisfies the constraint condition for the intention of
For each of the previous description term structure extracted by the constraint determination unit, the sentence generation unit generates a sentence according to the intention of the utterance accepted by the input unit using the previous description term structure. Outputting the sentence generated for the description term structure as an utterance candidate;
Utterance generation method including
コンピュータを、請求項1〜請求項7の何れか1項に記載の発話生成装置の各部として機能させるためのプログラム。   The program for functioning a computer as each part of the speech production | generation apparatus of any one of Claims 1-7.
JP2013216631A 2013-10-17 2013-10-17 Utterance generation apparatus, method, and program Active JP5744150B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013216631A JP5744150B2 (en) 2013-10-17 2013-10-17 Utterance generation apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013216631A JP5744150B2 (en) 2013-10-17 2013-10-17 Utterance generation apparatus, method, and program

Publications (2)

Publication Number Publication Date
JP2015079383A true JP2015079383A (en) 2015-04-23
JP5744150B2 JP5744150B2 (en) 2015-07-01

Family

ID=53010752

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013216631A Active JP5744150B2 (en) 2013-10-17 2013-10-17 Utterance generation apparatus, method, and program

Country Status (1)

Country Link
JP (1) JP5744150B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210018553A (en) * 2016-05-17 2021-02-17 구글 엘엘씨 Automatically augmenting message exchange threads based on message classfication

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008204133A (en) * 2007-02-20 2008-09-04 National Institute Of Information & Communication Technology Answer search apparatus and computer program

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008204133A (en) * 2007-02-20 2008-09-04 National Institute Of Information & Communication Technology Answer search apparatus and computer program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6015012116; 吉野 幸一郎 外2名: '述語項の類似度に基づく情報抽出・推薦を行う音声対話システム' 情報処理学会論文誌 論文誌ジャーナル Vol.52 No.12 [CD-ROM] 第52巻第12号, 20111215, p.3386-3397, 一般社団法人情報処理学会 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210018553A (en) * 2016-05-17 2021-02-17 구글 엘엘씨 Automatically augmenting message exchange threads based on message classfication
KR102249437B1 (en) 2016-05-17 2021-05-07 구글 엘엘씨 Automatically augmenting message exchange threads based on message classfication
US11222030B2 (en) 2016-05-17 2022-01-11 Google Llc Automatically augmenting message exchange threads based on tone of message
US11762865B2 (en) 2016-05-17 2023-09-19 Google Llc Automatically augmenting message exchange threads based on tone of message

Also Published As

Publication number Publication date
JP5744150B2 (en) 2015-07-01

Similar Documents

Publication Publication Date Title
JP6466952B2 (en) Sentence generation system
KR101136007B1 (en) System and method for anaylyzing document sentiment
JP5403696B2 (en) Language model generation apparatus, method and program thereof
JP5710581B2 (en) Question answering apparatus, method, and program
JP6225012B2 (en) Utterance sentence generation apparatus, method and program thereof
Atmadja et al. Comparison on the rule based method and statistical based method on emotion classification for Indonesian Twitter text
JP4333318B2 (en) Topic structure extraction apparatus, topic structure extraction program, and computer-readable storage medium storing topic structure extraction program
CN114491062B (en) Short text classification method integrating knowledge graph and topic model
JP2017027233A (en) Query generating device, method, and program
JP6126965B2 (en) Utterance generation apparatus, method, and program
JP4005343B2 (en) Information retrieval system
JP6232358B2 (en) Next utterance candidate ranking apparatus, method, and program
JP5744150B2 (en) Utterance generation apparatus, method, and program
US11842152B2 (en) Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program
JP4478042B2 (en) Word set generation method with frequency information, program and program storage medium, word set generation device with frequency information, text index word creation device, full-text search device, and text classification device
CN109298796B (en) Word association method and device
Alorini et al. Machine learning enabled sentiment index estimation using social media big data
JP6574469B2 (en) Next utterance candidate ranking apparatus, method, and program
JP5718406B2 (en) Utterance sentence generation device, dialogue apparatus, utterance sentence generation method, dialogue method, utterance sentence generation program, and dialogue program
JP5506482B2 (en) Named entity extraction apparatus, string-named expression class pair database creation apparatus, numbered entity extraction method, string-named expression class pair database creation method, program
JP2008165718A (en) Intention determination device, intention determination method, and program
El Kah et al. Arabic authorship attribution on Twitter: what is really matters?
JP5860861B2 (en) Focus estimation device, model learning device, method, and program
KR101620078B1 (en) System for classifying emotion strengthen to orthographical error and method thereof
JP2015225414A (en) Interactive device, dictionary generation device, method, and program

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150331

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150428

R150 Certificate of patent or registration of utility model

Ref document number: 5744150

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150