JP6409071B2 - Sentence sorting method and calculator - Google Patents

Sentence sorting method and calculator Download PDF

Info

Publication number
JP6409071B2
JP6409071B2 JP2016556108A JP2016556108A JP6409071B2 JP 6409071 B2 JP6409071 B2 JP 6409071B2 JP 2016556108 A JP2016556108 A JP 2016556108A JP 2016556108 A JP2016556108 A JP 2016556108A JP 6409071 B2 JP6409071 B2 JP 6409071B2
Authority
JP
Japan
Prior art keywords
sentence
expression
issue
sentences
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016556108A
Other languages
Japanese (ja)
Other versions
JPWO2016067396A1 (en
Inventor
利彦 柳瀬
利彦 柳瀬
利昇 三好
利昇 三好
孝介 柳井
孝介 柳井
佐藤 美沙
美沙 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPWO2016067396A1 publication Critical patent/JPWO2016067396A1/en
Application granted granted Critical
Publication of JP6409071B2 publication Critical patent/JP6409071B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Description

本発明は、複数の文を並び替える文の並び替え方法および計算機に関する。   The present invention relates to a sentence rearranging method and a computer for rearranging a plurality of sentences.

近年、大量のテキストデータを分析することで有用な知見を発見する情報サービスが実用化されている。たとえば、商品レビュー記事やソーシャルネットワークのテキストを用いて、商品の評判を自動的に推定する取り組みや、ニュース記事を分析することで要点のみを特定し、自動的に文書を要約する取り組みが行われている。これらの取り組みが行われた理由としては、たとえば、インターネットを通じて、大量のテキストデータにアクセスできるようになったこと、全文検索やデータベースなど大量情報に対する情報アクセス技術が普及したこと、さらに、機械学習やパターン認識の技術を応用した分析の自動化・半自動化が進展したことが挙げられる。   In recent years, information services for finding useful knowledge by analyzing a large amount of text data have been put into practical use. For example, there are efforts to automatically estimate the reputation of products using product review articles and social network texts, and to identify only the main points by analyzing news articles and automatically summarize documents. ing. The reasons for these efforts include, for example, the fact that a large amount of text data can be accessed via the Internet, information access technologies for large amounts of information such as full-text search and databases, and machine learning and The progress of automation and semi-automation of analysis that applies pattern recognition technology.

たとえば、評判分析の場合には、肯定表現、否定表現が辞書として整備される。当該辞書を用いて、過去、人間が商品の肯定・否定を評価した結果から肯定・否定の判定パターンを機械学習手法により計算機に学習させることで、自動的な評判分析が実現されている。   For example, in the case of reputation analysis, positive expressions and negative expressions are maintained as a dictionary. Using the dictionary, automatic reputation analysis is realized by causing a computer to learn affirmation / denial determination patterns from a result of a person's evaluation of affirmation / denial in the past using a machine learning technique.

こうしたテキスト分析では、分析結果をユーザが解釈して初めて有用な行動につながる。解釈の際には、分析結果だけでなく、判断の理由や根拠、判断に沿った事例などの付加情報があれば、ユーザの解釈を助けることができる。たとえば、評判分析では『商品Aは70%のユーザに肯定的に受け止められている。』という結果だけでなく、実際に肯定的に判断したユーザの意見が列挙された方が、どのような観点で評価されたのかが分かり、商品の改善に生かしやすい。   In such text analysis, the user interprets the analysis result before it becomes useful. At the time of interpretation, not only the analysis result but also additional information such as the reason and basis of the judgment, and a case in accordance with the judgment can help the user's interpretation. For example, in the reputation analysis, “Product A is positively received by 70% of users. ”As well as the opinions of users who have actually made positive judgments are listed, it is easy to make use of it for product improvement, because it is understood from what viewpoints are evaluated.

この技術分野の背景技術として、特許文献1には、テキストからユーザの感情を分析して、その代表意見を列挙する方法が開示されている。   As background art of this technical field, Patent Document 1 discloses a method of analyzing user emotions from text and enumerating representative opinions thereof.

また、複数の文を列挙するだけでなく、意味の通る順に並べるという取り組みとしては、文書自動要約が挙げられる。文書自動要約には、単一のニュース記事を短い文字数に短縮する単一文書要約のほか、複数のニュース記事を、一つの短い文書として要約する複数文書要約がある。文書自動要約の観点としては、元のニュース記事の内容をできるだけ網羅するように要約するタスクや、クエリ指向要約として、与えられたクエリに関係する文を重点的に特定して要約を生成するタスクがある。   In addition, not only enumerating a plurality of sentences but also arranging them in the order in which the meanings pass is automatic document summarization. The automatic document summarization includes a single document summary that shortens a single news article to a short number of characters, and a multi-document summary that summarizes a plurality of news articles as one short document. From the viewpoint of automatic document summarization, a task that summarizes the contents of the original news article as much as possible, or a task that generates a summary by focusing on sentences related to a given query as a query-oriented summary. There is.

文書自動要約で重要になるのは、話題の一貫性である。このための取り組みとして、Lexical Chainやトピックモデルの活用が行われている.たとえば、Lexical Chainは、WordNetを使って語と語の類似性を求め、類似した語を鎖のようにつなぐモデルである。類似した意味の語が用いられるという過程に基づいて、Lexical Chainでつながっている語が含まれる文が優先して並べられる。   What is important in automatic document summarization is topic consistency. For this purpose, Lexical Chain and topic models are being used. For example, Lexical Chain is a model that uses WordNet to find similarities between words and connects similar words like a chain. Based on the process of using words having similar meanings, sentences including words connected by Lexical Chain are preferentially arranged.

特開2012−256282号公報JP 2012-256282 A

自動的なテキスト分析の結果に加えて、その判断の理由となる文、その判断の具体的な事例となっている文を集め、内容に一貫性のある順序でユーザに提示することができれば、分析後のデータの解釈がより容易になり、また、解釈の信頼性も向上する。そのためには、複数の文書から得られた複数の文を、適切に並び変えることが必要になる。   In addition to the results of automatic text analysis, if you can gather the sentences that are the reason for the decision and the sentences that are specific examples of the decision and present them to the user in a consistent order, Interpretation of data after analysis becomes easier and reliability of interpretation is improved. For this purpose, it is necessary to appropriately rearrange a plurality of sentences obtained from a plurality of documents.

その際に、文と文の間で、話題の転換を考慮に入れないで全ての文を並べることは難しい。現実では、一つの主張をする際でも関連する事柄を説明する、アナロジーを使うなどで話題の転換がみられる。Lexical Chainのような語義的な類似性だけのつながりでは、話題の転換をモデル化することが十分にできないため、文の並び替えの失敗の原因になる。   At that time, it is difficult to arrange all sentences between sentences without taking into account the topic change. In reality, even when making a claim, the topic is changed by explaining related matters or using analogies. A connection based only on semantic similarity, such as Lexical Chain, is not enough to model the change of topic, which causes sentence rearrangement failure.

そのため、語義的な関係やトピックによる話題の類似性、話題が転換することを前提に、内容のつながりを考える必要がある。また、システムの実用面を考えると、幅広いテーマに関して話題を網羅することも求められる。   For this reason, it is necessary to consider the connection of contents on the premise that the semantic relationship, topic similarity by topic, and topic change. Moreover, considering the practical aspects of the system, it is also necessary to cover topics on a wide range of themes.

このように、上述した従来技術では、関連する別の話題への話の転換を含めて、一貫した主張を構築することが困難であるという問題がある。また、ユーザから指定される任意のテーマに対して、網羅的に、また、適切な抽象度で文を選択して、文を並び替えることが困難であるという問題がある。   As described above, in the above-described conventional technology, there is a problem that it is difficult to construct a consistent claim including a change of a story to another related topic. In addition, there is a problem that it is difficult to rearrange sentences by selecting sentences comprehensively and with an appropriate abstraction level for an arbitrary theme designated by the user.

本発明は、論理に一貫性のある出力文を生成することを目的とする。   An object of the present invention is to generate an output statement that is logically consistent.

本願において開示される発明の一側面となる文の並び替え方法および計算機は、プログラムを実行するプロセッサと、前記プログラムを記憶するメモリと、を有し、文の集合と、文の種類を特定する複数の文種と当該複数の文種の並び順序とを規定したテンプレートと、語句に関するルールまたは学習モデルと、を記憶する記憶装置にアクセス可能であり、前記プロセッサは、任意のテーマ文を構成する語句または当該語句に関連する語句であるテーマ表現を規定する単語に関するルールまたは学習モデルに基づいて、前記文の集合内の複数の文の各文から、前記テーマ表現を特定するテーマ表現特定処理と、前記テーマ表現と前記文種との関連性に関するルールまたは学習モデルに基づいて、前記テーマ表現特定処理によって特定されたテーマ表現を含む文ごとに文種を判定する文種判定処理と、前記文種判定処理によって文種が判定された前記複数の文の中から、前記テンプレートに規定された前記複数の文種に該当する文の集合を選択し、当該選択した前記文の集合を前記並び順序にしたがって並び替える並び替え処理と、前記並び替え処理による並び替え後の文の集合を出力する出力処理と、を実行することを特徴とする。 A sentence rearranging method and a computer according to an aspect of the invention disclosed in the present application include a processor that executes a program and a memory that stores the program, and specifies a set of sentences and a kind of sentence. It is possible to access a storage device that stores a template that defines a plurality of sentence types and the order of arrangement of the plurality of sentence types, and a rule or learning model relating to a phrase, and the processor constitutes an arbitrary theme sentence A theme expression specifying process for specifying the theme expression from each sentence of a plurality of sentences in the set of sentences based on a rule or learning model relating to a word or a word that defines a theme expression that is a word related to the phrase; , The text specified by the theme expression specifying process based on a rule or learning model relating to the relationship between the theme expression and the sentence type. A sentence type determination process for determining a sentence type for each sentence including a macro expression, and the plurality of sentence types specified in the template from the plurality of sentences for which the sentence type is determined by the sentence type determination process. Select a corresponding sentence set, and execute a rearrangement process for rearranging the selected sentence set according to the rearrangement order, and an output process for outputting the rearranged sentence set by the rearrangement process It is characterized by doing.

本発明の代表的な実施の形態によれば、論理に一貫性のある出力文を生成することができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。   According to an exemplary embodiment of the present invention, a logically consistent output statement can be generated. Problems, configurations, and effects other than those described above will become apparent from the description of the following embodiments.

知能処理システムの一例を示す説明図である。It is explanatory drawing which shows an example of an intelligent processing system. 図1に示した文抽出部および文並び替え部の具体例を示す説明図である。It is explanatory drawing which shows the specific example of the sentence extraction part and sentence rearrangement part which were shown in FIG. 文書処理システムのシステム構成例を示す説明図である。It is explanatory drawing which shows the system configuration example of a document processing system. 図3に示した計算機のハードウェア構成例を示すブロック図である。FIG. 4 is a block diagram illustrating a hardware configuration example of the computer illustrated in FIG. 3. 図4に示した文書DBの記憶内容例を示す説明図である。It is explanatory drawing which shows the example of a memory content of document DB shown in FIG. 文集合の記憶内容例を示す説明図である。It is explanatory drawing which shows the example of the memory content of a sentence set. 文書処理システムの機能的構成例を示すブロック図である。It is a block diagram which shows the functional structural example of a document processing system. 争点オントロジ情報のデータ構造例を示す説明図である。It is explanatory drawing which shows the example of a data structure of dispute point ontology information. 文分析結果の例1を示す説明図である。It is explanatory drawing which shows Example 1 of a sentence analysis result. 文分析結果の例2を示す説明図である。It is explanatory drawing which shows Example 2 of a sentence analysis result. テンプレートのデータ構造例を示す説明図である。It is explanatory drawing which shows the data structure example of a template. 争点連鎖モデルのデータ構造例を示す説明図である。It is explanatory drawing which shows the example of a data structure of an issue chain model. 争点の連鎖状況を示す説明図である。It is explanatory drawing which shows the chain condition of a dispute point. 争点連鎖モデルの利用例を示す説明図である。It is explanatory drawing which shows the usage example of an issue chain model. 出力部からの出力情報の一例を示す説明図である。It is explanatory drawing which shows an example of the output information from an output part. 生成部の詳細な機能的構成例を示すブロック図である。It is a block diagram which shows the detailed functional structural example of a production | generation part. 文書処理システムの計算機による並び替え処理手順例を示すフローチャートである。It is a flowchart which shows the example of a rearrangement process procedure by the computer of a document processing system.

<用語の説明>
まず、本実施例で用いられる用語について説明する。「テーマ文(または、単に、テーマ)」とは、創作や議論の中心課題、主題または論題を意味する。ディベートなどでは、一例として『消費税は増税すべきである。』といった論題がテーマとして与えられる。
<Explanation of terms>
First, terms used in this embodiment will be described. “Theme sentence (or simply, theme)” means a central issue, subject or topic of creation or discussion. In debates, for example, “The consumption tax should be increased. ”Is given as a theme.

「テーマ表現」とは、本実施例の文書処理システムを利用するユーザが行いたい調査の調査観点を表す語句及びその関連語句である。ユーザが行いたい調査は、テーマとして文書処理システムに与えられる。たとえば、テーマが『消費税は増税すべきである。』の場合、「消費税」や「増税」がテーマ表現である。また、テーマ表現の関連語である「税金」、「付加価値税」、「VAT(Value Added Tax)」などもテーマ表現として扱われる。   The “theme expression” is a phrase that represents a survey viewpoint of a survey that a user who uses the document processing system of this embodiment wants to perform and related phrases. The survey that the user wants to perform is given to the document processing system as a theme. For example, the theme is “Consumption tax should be increased. "Consumption tax" and "tax increase" are themes. In addition, “tax”, “value added tax”, “VAT (Value Added Tax)” and the like, which are related words of the theme expression, are also handled as theme expressions.

「争点」とは、過去の文書での議論の対象や、観点、焦点であり、「争点表現」とは、争点の具体的な例を示す語句である。たとえば、争点が「ニュース」である場合、「経済」、「景気」、「製品」、「税制」、「内政」、「外交」などが争点表現となる。ただし、これらの語は意味の幅が広すぎるため、その下位概念の語句も争点表現としてもよい。たとえば、「税制」の場合、「国税」、「地方税」、「直接税」、「間接税」、「所得税」「住民税」などの下位概念も、争点表現となる。争点および争点表現は、後述する争点オントロジ情報701(図8を参照)により定義される。   “Issues” is the object, viewpoint, and focus of discussion in past documents, and “Issues” is a phrase indicating a specific example of an issue. For example, when the issue is “News”, “Economy”, “Economy”, “Product”, “Tax”, “Domestic policy”, “Diplomacy”, and the like are expressed as issue points. However, since these words have a wide range of meanings, the words of the subordinate concepts may also be used as the dispute expression. For example, in the case of “tax system”, subordinate concepts such as “national tax”, “local tax”, “direct tax”, “indirect tax”, “income tax”, and “resident tax” are also expressed as issues. The issue point and issue point expression are defined by issue point ontology information 701 (see FIG. 8) described later.

「肯定・否定表現」とは、争点について肯定的または否定的な語句である。一般的な評判分析、感情分析と同様、肯定・否定表現は、争点との関係で規定される。たとえば、『ジャンクフードは健康に悪い。』という文の場合、「健康」が争点であり、「悪い」が争点を否定する否定表現となる。   “Positive / negative expression” is a phrase that is positive or negative about the issue. Like general reputation analysis and sentiment analysis, positive and negative expressions are defined in relation to the issue. For example, “Junk food is bad for your health. "Health" is the issue, and "bad" is a negative expression that denies the issue.

促進・抑制表現は、テーマ表現を促進または抑制する表現である。促進・抑制表現は、テーマ表現と述語の組で規定される。具体的には、促進表現の場合では、あるテーマ表現と、そのテーマ表現を促進する述語の組であり、抑制表現の場合は、テーマ表現と抑制を表現する述語の組である。たとえば、『適度な運動は健康に良い。』という文の場合、テーマ表現である「適度な運動」が「健康」を促進するという関係である。また『運賃の値上げによって、乗客数は減少した。』という文の場合、テーマ表現である「運賃の値上げ」が「乗客数」を抑制したという関係になる。   The promotion / suppression expression is an expression that promotes or suppresses the theme expression. Promotion / suppression expressions are defined by a combination of theme expression and predicate. Specifically, in the case of promotion expression, it is a set of a certain theme expression and a predicate that promotes the theme expression, and in the case of suppression expression, it is a set of predicate that expresses the theme expression and suppression. For example, “Moderate exercise is good for your health. In the case of the sentence, “moderate exercise”, which is the theme expression, promotes “health”. “The number of passengers has decreased due to the increase in fares. In the case of the sentence “”, the theme expression “raise in fare” has the relationship that “the number of passengers” is suppressed.

なお、テーマ、テーマ表現、争点、争点表現、肯定・否定表現、および促進・抑制表現は、文書処理システムにおいて、辞書テーブルによりあらかじめ規定しておいてもよい。また、文書処理システムは、機械学習により生成した学習モデルを適用して、テーマ、テーマ表現、争点、争点表現、肯定・否定表現、および促進・抑制表現を特定することとしてもよい。   The theme, theme expression, issue point, issue expression, positive / negative expression, and promotion / suppression expression may be defined in advance by a dictionary table in the document processing system. Further, the document processing system may apply a learning model generated by machine learning to specify a theme, a theme expression, an issue point, an issue expression, an affirmation / negative expression, and a promotion / suppression expression.

<語句の特定例>
つぎに、本実施例における上述した語句の特定例について説明する。語句の特定方法としては、たとえば、ルールに基づく方法と機械学習に基づく方法の2種類がある。ルールに基づく方法は、特定方法を決定的なルールとして表現した方法であり、たとえば、語句を格納した辞書テーブルである。したがって、入力文と一致する語句が辞書テーブルにある場合、当該語句が入力文から特定される。入力文中の特定語句には、該当するアノテーションが付与される。
<Specific examples of phrases>
Next, a specific example of the above phrase in the present embodiment will be described. For example, there are two types of phrase specifying methods: a rule-based method and a machine learning-based method. The rule-based method is a method in which a specific method is expressed as a definitive rule, and is, for example, a dictionary table storing words. Therefore, when a phrase that matches the input sentence is found in the dictionary table, the phrase is specified from the input sentence. Appropriate annotations are given to specific words in the input sentence.

また、機械学習に基づく方法は、過去の事例を数値ベクトルに変換することで学習モデルを生成しておき、過去の事例の学習と同様の方法で、入力文を数値ベクトルに変換して学習モデルを適用し、入力文のうち学習モデルにより特定された語句には、該当するアノテーションが付与される。   The method based on machine learning generates learning models by converting past cases into numerical vectors, and converts input sentences into numerical vectors in the same way as learning past cases. And the corresponding annotation is given to the phrase specified by the learning model in the input sentence.

ここで、機械学習に基づく方法について具体的に説明する。機械学習に基づく方法としては、系列ラベリング問題としてSupport Vector Machine(SVM)や条件付き確率場(Conditional Random Field,CRF)を用いることができる。系列ラベリング問題とは、固有表現特定や形態素解析などで用いられる機械学習の問題の定式化の一種である。具体的には、ノードの系列として与えられるデータに対して、各ノードに対応するタグを付与する問題(系列ラベリング問題)である。文へのアノテーションの場合、形態素や文字をノードとする場合が多い。   Here, a method based on machine learning will be specifically described. As a method based on machine learning, a support vector machine (SVM) or a conditional random field (CRF) can be used as a sequence labeling problem. A sequence labeling problem is a kind of formulation of a machine learning problem used in specific expression identification, morphological analysis, and the like. Specifically, it is a problem of assigning a tag corresponding to each node to data given as a sequence of nodes (sequence labeling problem). In the case of annotations on sentences, morphemes and characters are often used as nodes.

ここで、系列ラベリング問題では、人手で付与した訓練文書から学習モデルを生成する学習フェーズと、生成した学習モデル用いて未知のデータにタグを付与する適用フェーズの二つがある。   Here, in the sequence labeling problem, there are two learning phases: a learning phase in which a learning model is generated from a manually provided training document, and an application phase in which a tag is added to unknown data using the generated learning model.

まず、学習フェーズについて説明する。学習フェーズでは、計算機は、訓練文書として人手によりある特徴(たとえば、テーマ、テーマ表現、争点、争点表現、肯定・否定表現、および促進・抑制表現)を特定し、特定した特徴を示すアノテーションを付与した訓練文書を作成する。以下では、特徴の一例として争点を挙げる。   First, the learning phase will be described. In the learning phase, the computer manually identifies certain features (eg, themes, theme expressions, issues, issues, positive / negative expressions, and promotion / suppression expressions) as training documents and adds annotations that indicate the specified features. Prepare training documents. In the following, issues are cited as an example of features.

次に、計算機は、訓練文書内の文の文字列を数値ベクトルの系列に変換する。具体的には、計算機は、まず、訓練文書内の文に対して形態素解析し、各形態素を系列のノードとする。次に、計算機は、各形態素の表層文字列や品詞などをリストアップする。そして、訓練文書中に表層文字列が合計Vs種類、品詞の種類が合計Vp種類あったとする。計算機は、これらの各表層文字列と各品詞を順に辞書のキーとして辞書テーブルに追加し、その値として辞書テーブルへの登録順に自然数を一つずつ重複のないように割り当てる。   Next, the computer converts the character string of the sentence in the training document into a series of numerical vectors. Specifically, the computer first performs a morphological analysis on the sentence in the training document, and sets each morpheme as a series node. Next, the computer lists the surface character strings and parts of speech of each morpheme. Assume that there are a total of Vs types of surface character strings and a total of Vp types of parts of speech in the training document. The computer sequentially adds each surface character string and each part of speech to the dictionary table as a dictionary key, and assigns natural numbers one by one so as not to overlap each other in the order of registration in the dictionary table.

計算機は、この辞書テーブルを用いて、各ノードの表層文字列と品詞を数値に変換する。すると、各ノードは、表層文字列と品詞に相当する次元を1として、それ以外の次元を0とする数値ベクトルとして表現できる。この数値ベクトルに対して、争点であるかどうかを表すタグを組にする。ノードが争点に該当すれば、issueタグが、争点に該当しなければO(other)タグが付与される。   The computer uses the dictionary table to convert the surface character string and part of speech of each node into numerical values. Then, each node can be expressed as a numerical vector in which the dimension corresponding to the surface character string and the part of speech is set to 1, and the other dimensions are set to 0. For this numerical vector, a tag indicating whether or not it is an issue is paired. If the node corresponds to the issue, an issue tag is assigned. If the node does not correspond to the issue, an O (other) tag is assigned.

また、別のタグの与え方としては、複合語の争点を仮定したとき、争点の開始位置であるノードにB−issueを、中間位置であるノードにI−issueというように、issueタグを区別する方法もある。この変種としては、さらに終了位置をE−issue、単一ノードの争点をU−issueとして区別する方法もある。計算機は、この数値ベクトル列とタグの組を、SVMやCRFに入力し、学習モデルを生成する。   As another tag assignment method, when a compound word issue is assumed, the issue tag is distinguished such as B-issue to the node that is the start position of the issue and I-issue to the node that is the intermediate position. There is also a way to do it. As a variant, there is a method of further distinguishing the end position as E-issue and the issue of a single node as U-issue. The computer inputs the combination of the numerical vector sequence and the tag to the SVM or CRF, and generates a learning model.

入力文に学習モデルを適用する場合は、計算機は、訓練文書内の文と同様の方法で入力文を数値ベクトル列に変換して学習モデルを適用し、入力文の該当語句にアノテーションを付与する。   When applying a learning model to an input sentence, the computer applies the learning model by converting the input sentence to a numeric vector sequence in the same way as the sentence in the training document, and annotates the corresponding phrase of the input sentence. .

このように、以下の実施例で語句を特定する場合、ルールに基づく方法と機械学習に基づく方法のいずれかが適用される。なお、上述した機械学習では、争点を例に挙げて説明したため、タグの表記は「issue」としたが、他の特徴の場合はその特徴に応じたタグ表記となる。たとえば、テーマ表現のタグはthemeタグ、肯定表現の場合はpositiveタグ、否定表現の場合はnegativeタグ、促進表現の場合はpromoteタグ、抑制表現の場合はsuppressタグとなる。   As described above, when a phrase is specified in the following embodiment, either a rule-based method or a machine learning-based method is applied. In the above-described machine learning, the issue has been described by taking the issue as an example, so that the tag notation is “issue”, but in the case of other features, the tag notation is in accordance with the feature. For example, the theme expression tag is the theme tag, the positive expression is the positive tag, the negative expression is the negative tag, the promotion expression is the promote tag, and the suppression expression is the suppress tag.

<知能処理システムの一例>
図1は、知能処理システムの一例を示す説明図である。知能処理システム1は、生成システム100と、データ管理システム101と、を有する。知能処理システム1では、生成システム100がデータ管理システム101と連携することで知能処理を実行する。
<Example of intelligent processing system>
FIG. 1 is an explanatory diagram illustrating an example of an intelligent processing system. The intelligent processing system 1 has a generation system 100 and a data management system 101. In the intelligent processing system 1, the generation system 100 executes intelligent processing in cooperation with the data management system 101.

まず、本発明の知能処理システム1の全体像について説明する。本発明の知能処理システム1は、9つのモジュールが結合された生成システム100と、データ管理システム101と、からなる。   First, an overview of the intelligent processing system 1 of the present invention will be described. The intelligent processing system 1 of the present invention includes a generation system 100 in which nine modules are combined, and a data management system 101.

生成システム100は、議題が入力されると、その議題に対する意見を述べた論述文を出力する。データ管理システム101には、あらかじめデータ処理されたデータが保存され、生成システム100からアクセス可能になっている。以下では、まず生成システム100を説明してから、データ管理システム101を説明する。   When the agenda is input, the generation system 100 outputs a descriptive sentence that describes an opinion on the agenda. The data management system 101 stores data processed in advance and is accessible from the generation system 100. In the following, the generation system 100 will be described first, and then the data management system 101 will be described.

生成システム100では、9つのモジュール102〜110を順に実行する。これらのモジュール102〜110は、それぞれ独立したアルゴリズムにより構成されている。   In the generation system 100, the nine modules 102 to 110 are executed in order. These modules 102 to 110 are configured by independent algorithms.

生成システム100は、まず入力部102で、ユーザから議題の入力を受け取付ける。生成システム100は、さらに、議題に対して肯定的な意見を生成したいか、否定的な意見を生成したいかについての入力を受け付けても良い。このように、生成する文章の立場を明確にすることで、知能処理システム1をディベートのような議論の場で用いることも可能になる。   In the generation system 100, the input unit 102 first receives an agenda input from a user. The generation system 100 may further accept an input regarding whether to generate a positive opinion for the agenda item or to generate a negative opinion. In this way, by clarifying the position of the sentence to be generated, the intelligent processing system 1 can be used in a discussion such as a debate.

生成システム100は、次に議題解析部103で、議題を解析し、議題の極性と検索に用いるキーワードを判定する。続いて、検索部104で、キーワードと、ディベートにおける争点を示す争点語とを用いて記事を検索する。例えば、議題が「カジノを禁止すべき」というものだった場合、キーワードとしては名詞句である「カジノ」があげられる。さらに、生成システム100は、極性を判定することで、「カジノ」に対して肯定的な争点語を用いるべきか、否定的な争点語を用いるべきかを決定することができる。ここでいう争点語とは、たとえば、議論における論点となる価値観をあらわした単語をいう。また、ここでいう「促進語」とは、「争点を促進する事象」を言う。一方、ここでいう「抑制語」とは、「争点を抑制する事象」を言う。   Next, the agenda analysis unit 103 analyzes the agenda, and the generation system 100 determines the polarity of the agenda and the keyword used for the search. Subsequently, the search unit 104 searches for an article using the keyword and the dispute word indicating the issue in the debate. For example, if the agenda is “Casino should be banned”, the keyword is “casino” which is a noun phrase. Further, the generation system 100 can determine whether to use a positive or negative issue word for “Casino” by determining the polarity. The issue word here is, for example, a word that expresses a value that becomes an issue point in the discussion. Further, the “promotional word” here means “an event that promotes the issue”. On the other hand, the “suppression word” here refers to “an event that suppresses the issue”.

生成システム100は、上記の議題に対し、肯定的な意見を出力したい場合には、検索部104で、キーワードとして「カジノ」を、争点語としてはカジノを抑制する「抑制語」を選択して検索を行う。ここでは、議題が「カジノ」に対して否定的であるため、争点語としては「抑制語」を用いる処理としている。検索においては、「カジノ」のような争点語とキーワードとを合わせ検索することにより、「カジノ」に対する是否を述べている記事を検索することができる。議題から抽出したキーワードのみでは、例えば「カジノ」についての宣伝記事や、「カジノ」に行った感想のみを述べているブログ記事のように、ディベートにおいて考慮する必要のない記事等も多く検索結果に含まれてしまい、適切に検索することができない。   When the generation system 100 wants to output an affirmative opinion on the above agenda, the search unit 104 selects “casino” as the keyword and “suppression word” that suppresses the casino as the issue word. Perform a search. Here, since the agenda is negative with respect to “Casino”, the processing using “suppression word” as the issue word is performed. In the search, an article that states whether or not “casino” is right or wrong can be searched by searching for a question word such as “casino” and a keyword. Only keywords extracted from the agenda include many articles that do not need to be considered in the debate, such as advertised articles about "Casino" or blog articles that describe only impressions about "Casino". It is included and cannot be searched properly.

生成システム100は、続いて、争点決定部105で、出力された記事を分類し、意見を生成する際に用いる争点を決定する。生成システム100は、続いて、文抽出部106で、出力した記事から争点について述べている文を抽出する。生成システム100は、続いて、文並び替え部107で、抽出された文を並び替えることにより文章を生成する。生成システム100は、続いて、評価部108で、生成された文を評価する。生成システム100は、続いて、言い換え部109で、適切な接続詞を挿入し、不要な表現を削除する。生成システム100は、続いて、出力部110で、最も評価の高い文章を、意見を述べた論述文として出力する。   Subsequently, in the issue system 100, the issue determination unit 105 classifies the output articles and determines an issue to be used when generating an opinion. Next, in the generation system 100, the sentence extraction unit 106 extracts a sentence describing the issue from the output article. Subsequently, the generation system 100 generates a sentence by rearranging the extracted sentences in the sentence rearrangement unit 107. Subsequently, in the generation system 100, the evaluation unit 108 evaluates the generated sentence. Subsequently, in the paraphrase unit 109, the generation system 100 inserts an appropriate conjunction and deletes unnecessary expressions. Next, the generation system 100 outputs the sentence with the highest evaluation as an essay statement that expresses the opinion at the output unit 110.

データ管理システム101は、インターフェース/構造化部111と4つのデータベース(Database、DB)112〜115とから構成される。   The data management system 101 includes an interface / structure unit 111 and four databases (databases) 112 to 115.

インターフェース/構造化部111は、DB112〜115に管理されているデータに対するアクセス手段を提供する。インターフェース/構造化部111は、テキストデータDB112、テキストアノテーションデータDB113、検索用インデックスDB114、争点オントロジDB115へのアクセス手段を提供するインターフェースであり、RESTなどの技術で実装される。   The interface / structure unit 111 provides an access unit for data managed in the DBs 112 to 115. The interface / structuring unit 111 is an interface that provides an access means to the text data DB 112, the text annotation data DB 113, the search index DB 114, and the dispute point ontology DB 115, and is implemented by a technique such as REST.

テキストデータDB112は、ニュース記事などのテキストデータである。テキストアノテーションデータDB113は、テキストデータDB112に付与されたデータである。検索用インデックスDB114は、テキストデータDB112とアノテーションデータDB113を検索可能にするためのインデックスである。争点オントロジDB115は、ディベートでよく議論になる争点と、その関連語を紐づけたデータベースである。また、争点オントロジDB115は、争点オントロジ情報701(図8を参照)を含む。   The text data DB 112 is text data such as news articles. The text annotation data DB 113 is data assigned to the text data DB 112. The search index DB 114 is an index for enabling the text data DB 112 and the annotation data DB 113 to be searched. The issue ontology DB 115 is a database in which issues that are frequently discussed in debates and related words are linked. In addition, the issue point ontology DB 115 includes issue point ontology information 701 (see FIG. 8).

以下ではまず次に、データ管理システム101を説明した後、生成システム100の各部を説明する。   In the following, first, the data management system 101 will be described first, and then each part of the generation system 100 will be described.

テキストデータDB112に蓄積されているデータは、ニュース記事などのテキストデータである。生成システム100は、このテキストデータの中から意見文を構成するために適切なセンテンスを抜き出し、抜き出したセンテンスを並べることで論述文を生成する。従ってテキストデータDB112は、出力される論述文を構成するセンテンスのデータソースとなる。英語と日本語のニュース記事をインターネットからクローリングすることにより、テキストデータDB112が構築される。それぞれのデータには、例えばユニークな識別子としてdoc_idを振って管理される。   Data stored in the text data DB 112 is text data such as news articles. The generation system 100 extracts an appropriate sentence for composing an opinion sentence from the text data, and generates an argument sentence by arranging the extracted sentences. Therefore, the text data DB 112 is a data source of sentences that constitute the output statement. The text data DB 112 is constructed by crawling English and Japanese news articles from the Internet. Each data is managed by assigning doc_id as a unique identifier, for example.

テキストアノテーションデータDB113は、テキストデータDB112に付与されたデータを蓄積したDBである。テキストアノテーションデータDB113は、上述したpositive、negativeやpromote、suppressのようなアノテーションを格納する。   The text annotation data DB 113 is a DB in which data assigned to the text data DB 112 is accumulated. The text annotation data DB 113 stores annotations such as positive, negative, promote, and suppress described above.

検索用インデックスDB114は、テキストデータDB112およびテキストアノテーションデータDB113を検索できるようにするためのインデックスデータである。キーワード検索用のインデックスデータとしては、類似検索用に各テキストデータの特徴的な語の統計量(例えばTF−IDFによる計算結果)のベクトル値を、類似検索用のインデックスとして格納しておく。あるいは、Solrなどのソフトウェアを使い、Solrのインデックス生成用APIに、テキストデータ112やテキストアノテーションデータ113を渡す入力をすることで、自動的に検索用インデックス114を生成することもできる。   The search index DB 114 is index data for enabling the text data DB 112 and the text annotation data DB 113 to be searched. As index data for keyword search, a vector value of a characteristic word statistic (for example, a calculation result by TF-IDF) of each text data for similarity search is stored as an index for similarity search. Alternatively, the search index 114 can be automatically generated by inputting the text data 112 and the text annotation data 113 to the Solr index generation API using software such as Solr.

また、類似検索用に各テキストデータの特徴的な語の統計量を表すTF−IDFによる計算結果のベクトル値を、類似検索用のインデックスとして格納してもよい。   Further, a vector value of a calculation result by TF-IDF representing a statistic of a characteristic word of each text data for similar search may be stored as an index for similar search.

争点オントロジDB115は、ディベートでよく議論になる争点と、その関連語を紐づけたデータベースである。ここでの争点オントロジの例として、ディベートでよく議論になる争点の価値と、その価値を促進する表現と、その価値を抑制する表現と、が関連付けられる。例えば、争点の価値例としてhealthがある。これは時折、ディベートでは健康という価値が増すか減るかの観点で争点として意見を戦わせることを意味する。ここでは、たとえば、healthの価値を促進する表現として、exercise、doctor、organ donation、medicineなどがある。またhealthの価値を抑制する表現として、junk food、tabacco、alchohol、smokingなどがある。争点オントロジは、たとえば、過去のディベートなどを参考に、人手で作成される。争点オントロジDB115は、このほか、争点オントロジ情報701(図8を参照)を保持する。   The issue ontology DB 115 is a database in which issues that are frequently discussed in debates and related words are linked. As an example of the issue ontology here, the value of an issue that is often discussed in debates, an expression that promotes the value, and an expression that suppresses the value are associated. For example, there is health as an example of the value of an issue. This means that at times debates let you fight as an issue in terms of whether the value of health increases or decreases. Here, for example, there are excise, doctor, organ donation, and medicine as expressions that promote the value of health. Examples of expressions that suppress the value of health include junk food, tabacco, alchohol, and smoke. The issue ontology is manually created with reference to past debates, for example. In addition, the issue point ontology DB 115 holds issue point ontology information 701 (see FIG. 8).

<文抽出部106および文並び替え部107の具体例>
図2は、図1に示した文抽出部106および文並び替え部107の具体例を示す説明図である。文抽出部106は、検索部104で検索された関連記事であるテキストデータ13a〜13dから、争点決定部105で認識された争点に関わる文200a〜200dを特定する。文200a〜200dにおいて、「健康」、「課税」など下線で示した語句は争点決定部105で認識された争点であり、「ジャンクフード」など太字で示した語句はテーマ表現である。
<Specific Examples of Sentence Extracting Unit 106 and Sentence Rearranging Unit 107>
FIG. 2 is an explanatory diagram showing a specific example of the sentence extraction unit 106 and the sentence rearrangement unit 107 shown in FIG. The sentence extraction unit 106 identifies the sentences 200 a to 200 d related to the dispute recognized by the dispute determination unit 105 from the text data 13 a to 13 d that are related articles searched by the search unit 104. In the sentences 200a to 200d, underlined phrases such as “health” and “taxation” are issues recognized by the issue determination unit 105, and a bolded phrase such as “junk food” is a theme expression.

文並び替え部107は、文抽出部106で特定された複数の文200a〜200dを並び替えることにより、論述文201を生成する。文並び替え部107は、文200a〜200dの文種(主張、理由、事例)を特定する。本例では、文200aが事例、文200bが文種なし、文200cが主張、文200dが理由と特定されたものとする。主張→理由→事例の順序で並び替えると一貫性のある文章となるため、文並び替え部107は、文200a〜200dの文種が主張→理由→事例の順序となるように並べ替えて、論述文201を生成する。   The sentence rearrangement unit 107 generates the statement statement 201 by rearranging the plurality of sentences 200 a to 200 d specified by the sentence extraction unit 106. The sentence rearrangement unit 107 identifies sentence types (claims, reasons, and examples) of the sentences 200a to 200d. In this example, it is assumed that the sentence 200a is identified as a case, the sentence 200b is identified as a sentence type, the sentence 200c is asserted, and the sentence 200d is identified as a reason. Since rearrangement in the order of assertion → reason → examples results in a consistent sentence, the sentence rearrangement unit 107 rearranges the sentence types of the sentences 200a to 200d in the order of claim → reason → example, A statement statement 201 is generated.

これにより、生成システム100は、内容に一貫性のある順序で論述文201をユーザに提示することができ、その後のデータの解釈がより容易になり、また、解釈の信頼性の向上も図ることができる。   As a result, the generation system 100 can present the statement statements 201 to the user in an order in which the contents are consistent, and the subsequent interpretation of the data becomes easier, and the reliability of the interpretation is improved. Can do.

<システム構成例>
図3は、文書処理システムのシステム構成例を示す説明図である。文書処理システム300は、図1に示した知能処理システム1の一部を構成するシステムである。文書処理システム300は、1台以上の計算機301と端末14とを有する。計算機301と端末14とは、不図示のネットワークによって接続される。ネットワークは、LAN(Local Area Network)またはWAN(Wide Area Network)、インターネットなどである。また、計算機301は、文書DB302にアクセス可能である。文書DB302は、図1に示したテキストデータDB112に相当する。計算機301は、文書DB302内の複数の文を分類して複数の文集合303−1〜303−nにまとめる。端末14は、いずれかの文集合303−iを選択して、計算機301に与える。
<System configuration example>
FIG. 3 is an explanatory diagram showing a system configuration example of the document processing system. The document processing system 300 is a system that constitutes a part of the intelligent processing system 1 shown in FIG. The document processing system 300 includes one or more computers 301 and a terminal 14. The computer 301 and the terminal 14 are connected by a network (not shown). The network is a LAN (Local Area Network) or a WAN (Wide Area Network), the Internet, or the like. Further, the computer 301 can access the document DB 302. The document DB 302 corresponds to the text data DB 112 shown in FIG. The computer 301 classifies a plurality of sentences in the document DB 302 and collects them into a plurality of sentence sets 303-1 to 303-n. The terminal 14 selects any sentence set 303-i and gives it to the computer 301.

<計算機301のハードウェア構成例>
図4は、図3に示した計算機301のハードウェア構成例を示すブロック図である。計算機301は、プロセッサ410とメモリ420とローカルファイルシステム430と入力装置440と出力装置450とネットワークデバイス460とバス470を有する。プロセッサ410〜ネットワークデバイス460は、バス470によって接続される。また、ローカルファイルシステム430とは、計算機301に内蔵ないし外部に接続された書き換え可能な記憶領域を指し、具体的にはハードディスクドライブ(HDD)やソリッドステートドライブ(SSD)、RAMディスクなどの記憶装置である。
<Example of Hardware Configuration of Computer 301>
FIG. 4 is a block diagram illustrating a hardware configuration example of the computer 301 illustrated in FIG. The computer 301 includes a processor 410, a memory 420, a local file system 430, an input device 440, an output device 450, a network device 460, and a bus 470. The processor 410 to the network device 460 are connected by a bus 470. The local file system 430 refers to a rewritable storage area that is built in or externally connected to the computer 301. Specifically, a storage device such as a hard disk drive (HDD), a solid state drive (SSD), or a RAM disk. It is.

入力装置440は、キーボード及びマウス、ないしは音声入力装置など、ユーザからの入力を受け付けるインターフェースである。出力装置450は、ディスプレイ装置及びプリンタないしは音声合成装置などのプログラムの実行結果をユーザが読んだり、聞いたりできる形で出力するインターフェースである。ネットワークを介してリモートから操作する場合、入力装置440と出力装置450は省略可能である。   The input device 440 is an interface that receives input from the user, such as a keyboard and mouse, or a voice input device. The output device 450 is an interface that outputs the execution results of programs such as a display device and a printer or a speech synthesizer in a form that the user can read or hear. When operating remotely via a network, the input device 440 and the output device 450 can be omitted.

図5は、図4に示した文書DB302の記憶内容例を示す説明図である。文書DB302は、文書を文に分割して記憶するデータベースである。文書は、例えば、図1に示したテキストデータ13である。文書DB302は、文書IDフィールド501と、文IDフィールド502と、本文フィールド503と、を有し、文ごとに、各フィールド501〜503の値を有する。   FIG. 5 is an explanatory diagram showing an example of the contents stored in the document DB 302 shown in FIG. The document DB 302 is a database that stores a document divided into sentences. The document is, for example, the text data 13 shown in FIG. The document DB 302 includes a document ID field 501, a sentence ID field 502, and a body text field 503, and each field has a value in each field 501 to 503.

文書IDフィールド501は、値として文書IDを格納する領域である。文書IDとは、文書を一意に特定する識別情報である。本例では、新聞名と日付と紙面番号を連結した文字列を文書IDとする。   A document ID field 501 is an area for storing a document ID as a value. The document ID is identification information that uniquely identifies a document. In this example, the document ID is a character string obtained by concatenating the newspaper name, date, and page number.

文IDフィールド502は、文IDを格納する領域である。文IDとは、文書IDで特定される文書中の文の位置を一意に特定する識別情報である。本例では、文書の先頭位置からの出現順を文IDとする。   The sentence ID field 502 is an area for storing a sentence ID. The sentence ID is identification information that uniquely identifies the position of the sentence in the document identified by the document ID. In this example, the order of appearance from the top position of the document is a sentence ID.

本文フィールド503は、文IDで特定される位置に存在する文を格納する領域である。文書DB302は、文書IDおよび文IDを指定されることで、対応する文を読み出す。なお、文書IDのみが指定され、文IDが指定されなかった場合、同じ文書IDを持つ全ての文が読み出される。また、このような文または文書の取得方法が実現可能であれば、他のデータ構造で文書が保存されてもよい。   The text field 503 is an area for storing a sentence existing at the position specified by the sentence ID. The document DB 302 reads a corresponding sentence by specifying a document ID and a sentence ID. When only the document ID is specified and no sentence ID is specified, all sentences having the same document ID are read. Further, if such a sentence or document acquisition method can be realized, the document may be stored in another data structure.

図6は、文集合303−iの記憶内容例を示す説明図である。文集合303−iも、文書DB302と同様、文書IDフィールド501と、文IDフィールド502と、本文フィールド503と、を有し、文ごとに、各フィールド501〜503の値を有する。   FIG. 6 is an explanatory diagram of an example of the contents stored in the sentence set 303-i. Similarly to the document DB 302, the sentence set 303-i has a document ID field 501, a sentence ID field 502, and a body field 503, and each sentence has a value in each of the fields 501 to 503.

<文書処理システム300の機能的構成例>
図7は、文書処理システム300の機能的構成例を示すブロック図である。計算機301は、入力部710と、検索部711と、分類部712と、を有する。また、計算機301は、取得部720と、分析部721と、文種判定部722と、テンプレート選択部723と、並び替え処理部724と、算出部725と、妥当性判定部726と、出力部727と、生成部728と、を有する。これらは、具体的には、たとえば、メモリ420に記憶されたプログラムをプロセッサ410に実行させることでその機能を実現する。また、計算機301は、争点オントロジ情報701と、テンプレートDB702と、争点連鎖モデル703と、訓練文書DB704と、を格納する。これらは、具体的には、たとえば、KVS(Key Value Store)やリレーショナルデータベース、または図4に示したローカルファイルシステム430により実現する。
<Example of Functional Configuration of Document Processing System 300>
FIG. 7 is a block diagram illustrating a functional configuration example of the document processing system 300. The computer 301 includes an input unit 710, a search unit 711, and a classification unit 712. The computer 301 also includes an acquisition unit 720, an analysis unit 721, a sentence type determination unit 722, a template selection unit 723, a rearrangement processing unit 724, a calculation unit 725, a validity determination unit 726, and an output unit. 727 and a generation unit 728. Specifically, these functions are realized by causing the processor 410 to execute a program stored in the memory 420, for example. Further, the computer 301 stores issue ontology information 701, a template DB 702, an issue chain model 703, and a training document DB 704. Specifically, these are realized by, for example, KVS (Key Value Store), a relational database, or the local file system 430 shown in FIG.

(事前処理)
まず、事前処理について説明する。事前処理とは、文書DB302内の文書に存在する文を複数の文集合303−1〜303−nに分類しておく処理である。事前処理は、具体的には、たとえば、図1に示した入力部102、議題解析部103および検索部104に相当する。入力部102、議題解析部103および検索部104は、データ管理システム101と連携して実行される。事前処理では、入力部710と、検索部711と、分類部712と、が用いられる。
(Pre-processing)
First, pre-processing will be described. The pre-processing is processing for classifying sentences existing in a document in the document DB 302 into a plurality of sentence sets 303-1 to 303-n. Specifically, the pre-processing corresponds to, for example, the input unit 102, the agenda analysis unit 103, and the search unit 104 illustrated in FIG. The input unit 102, the agenda analysis unit 103, and the search unit 104 are executed in cooperation with the data management system 101. In the pre-processing, an input unit 710, a search unit 711, and a classification unit 712 are used.

入力部710は、端末14からテーマ表現となる単語の入力を受け付ける。たとえば、入力部710は、「ジャンクフード」といったテーマ表現を示す単語の入力を受け付ける。   The input unit 710 receives an input of a word that is a theme expression from the terminal 14. For example, the input unit 710 receives an input of a word indicating a theme expression such as “junk food”.

検索部711は、入力部710からのクエリの入力を受け付ける。クエリは、たとえば、上述した「ジャンクフード」などのテーマ表現である。検索部711は、文書DB302からクエリに関連する文を検索する。クエリに関連する文とは、クエリであるテーマ表現の文字列を含む文である。   The search unit 711 accepts a query input from the input unit 710. The query is a theme expression such as “junk food” described above. The search unit 711 searches the document DB 302 for a sentence related to the query. A sentence related to a query is a sentence including a character string of a theme expression that is a query.

分類部712は、検索結果であるさまざまな話題や文脈を含む文を、似た話題の文としてまとめなおす。これにより、話題に対応する文集合303−iが生成される。検索結果の話題が複数あった場合には、話題の数n分の文集合303−1〜303−nが得られる。   The classification unit 712 regroups sentences including various topics and contexts as search results into sentences of similar topics. Thereby, a sentence set 303-i corresponding to the topic is generated. When there are a plurality of topics as search results, sentence sets 303-1 to 303-n corresponding to the number n of topics are obtained.

分類部712は、たとえば、機械学習を用いて文を分類する。機械学習の例としては、Bag−of−words表現を用いたk−means法がある。Bag−of−words表現とは、テキストに単語がいくつ含まれるか、という情報だけでテキストを数値的に表現する方法である。Bag−of−words表現では、辞書の語彙数だけの次元をもつベクトルが生成される。各次元には対応する単語の出現頻度が記録される。   The classification unit 712 classifies sentences using machine learning, for example. As an example of machine learning, there is a k-means method using a Bag-of-words expression. The Bag-of-words expression is a method for numerically expressing a text only by information on how many words are included in the text. In the Bag-of-words expression, a vector having dimensions corresponding to the number of words in the dictionary is generated. In each dimension, the appearance frequency of the corresponding word is recorded.

k−means法は、bag−of−wordsの数値ベクトルを用いてテキスト間の類似性を比較することで、あらかじめ決められた個数のクラスタにテキストをクラスタリングする。また、別の機械学習の例としては、潜在意味解析や確率的潜在意味解析、潜在的ディリクレ配分法などのトピックモデルと呼ばれる方法によっても文を分類することができる。   In the k-means method, texts are clustered into a predetermined number of clusters by comparing similarities between texts using a numerical vector of bag-of-words. As another example of machine learning, sentences can be classified by a method called a topic model such as latent semantic analysis, probabilistic latent semantic analysis, and latent Dirichlet distribution method.

(並び替え処理)
つぎに、並び替え処理について説明する。並び替え処理とは、複数の文を並び替えることにより、一貫性のある論述文として出力する処理である。並び替え処理は、具体的には、たとえば、図1に示した争点決定部105〜文並び替え部107に相当する。争点決定部105〜107は、データ管理システム101と連携して実行される。並び替え処理では、取得部720と、分析部721と、文種判定部722と、テンプレート選択部723と、並び替え処理部724と、算出部725と、妥当性判定部726と、出力部727と、生成部728と、争点オントロジ情報701と、テンプレートDB702と、争点連鎖モデル703と、訓練文書DB704と、が用いられる。
(Sort process)
Next, the rearrangement process will be described. The rearrangement process is a process for outputting a consistent statement statement by rearranging a plurality of sentences. Specifically, the rearrangement process corresponds to, for example, the dispute determination unit 105 to the sentence rearrangement unit 107 shown in FIG. The issue determination units 105 to 107 are executed in cooperation with the data management system 101. In the rearrangement process, the acquisition unit 720, the analysis unit 721, the sentence type determination unit 722, the template selection unit 723, the rearrangement processing unit 724, the calculation unit 725, the validity determination unit 726, and the output unit 727. The generation unit 728, the issue point ontology information 701, the template DB 702, the issue chain model 703, and the training document DB 704 are used.

取得部720は、端末14からテーマとなる文字列の入力を受け付ける。ここで入力されるテーマは、たとえば、『ジャンクフードは健康に悪い。』といったテーマを示す文である。また、取得部720は、端末14から文集合303−i群のいずれかの文集合303−iを取得する。   The acquisition unit 720 receives an input of a character string as a theme from the terminal 14. The theme entered here is, for example, “Junk food is bad for your health. It is a sentence indicating a theme such as. Further, the acquisition unit 720 acquires any sentence set 303-i of the sentence set 303-i from the terminal 14.

分析部721は、テーマ表現特定部731により、入力されたテーマからテーマ表現を特定する。テーマ表現特定部731は、具体的には、たとえば、上述したルールに基づく方法または機械学習に基づく方法により、テーマからテーマ表現を特定する。たとえば、テーマが『ジャンクフードは健康に悪い。』の場合、「ジャンクフード」がテーマ表現として特定される。ルールに基づく方法の場合、テーマ表現用の辞書テーブルが用いられる。当該辞書テーブルには、テーマ表現を示す単語が格納されている。テーマ表現を示す単語は、文集合303−iの分類単位である話題ごとに格納されてもよい。この場合、取得部720によって取得された文集合303−iの話題に対応する単語がテーマ表現の特定対象となる。   The analysis unit 721 uses the theme expression specifying unit 731 to specify the theme expression from the input theme. Specifically, the theme expression specifying unit 731 specifies the theme expression from the theme, for example, by a method based on the above-described rules or a method based on machine learning. For example, the theme is “Junk food is bad for your health. ], “Junk food” is specified as the theme expression. In the case of the rule-based method, a dictionary table for theme expression is used. The dictionary table stores words indicating theme expressions. A word indicating the theme expression may be stored for each topic that is a classification unit of the sentence set 303-i. In this case, the word corresponding to the topic of the sentence set 303-i acquired by the acquisition unit 720 is the target of the theme expression.

また、並び替え処理では、テーマ表現特定部731は、取得部720によって取得された文集合303−iの各文において、テーマから特定したテーマ表現に一致する単語がある場合には、文集合303−iの文中の当該単語にアノテーションとしてタグを付与する。具体的には、たとえば、テーマ表現が「ジャンクフード」の場合において、『ジャンクフードは、栄養バランスを著しく欠いた食品である。』という文のうち「ジャンクフード」がテーマ表現に一致する。したがって、『<theme theme−id“健康”>ジャンクフード</theme>は、栄養バランスを著しく欠く。』のように、テーマ表現特定部731は、「ジャンクフード」にthemeタグを示すタグをアノテーションとして付与する。theme−id“健康”は属性値であり、テーマ表現に対応する話題である。   In the rearrangement process, the theme expression specifying unit 731 causes the sentence set 303 when there is a word that matches the theme expression specified from the theme in each sentence of the sentence set 303-i acquired by the acquiring unit 720. A tag is added as an annotation to the word in the sentence i. Specifically, for example, in the case where the theme expression is “junk food”, “junk food is a food that lacks nutritional balance significantly. "Junk food" matches the theme expression. Thus, “<theme-meid“ health ”> junk food </ theme> is significantly lacking in nutritional balance. The theme expression identification unit 731 adds a tag indicating the theme tag to “junk food” as an annotation. The theme-id “health” is an attribute value and is a topic corresponding to the theme expression.

また、機械学習の場合は、テーマ表現特定部731は、上位概念や下位概念などテーマ表現に関連する具体的な語句も特定する。たとえば、テーマ表現が「ジャンクフード」の場合、上位概念として「食品」、下位概念として「ファーストフード」や「ソフトドリンク」が文集合303−iの各文から特定される。   In the case of machine learning, the theme expression specifying unit 731 also specifies specific words and phrases related to the theme expression such as a higher concept and a lower concept. For example, when the theme expression is “junk food”, “food” as a higher concept and “fast food” and “soft drink” as lower concepts are specified from each sentence in the sentence set 303-i.

分析部721は、争点表現特定部732により、取得された文集合303−iの各文から争点表現を特定する。争点表現特定部732は、具体的には、たとえば、上述したルールに基づく方法または機械学習に基づく方法により、文集合303−iの各文から争点表現を特定する。争点表現特定部732は、あらかじめ用意された辞書テーブルを用いる。辞書テーブルには、争点表現である単語が格納されている。辞書テーブルとしては、たとえば、争点オントロジ情報701が用いられる。   The analysis unit 721 uses the issue expression specifying unit 732 to specify the issue expression from each sentence of the acquired sentence set 303-i. Specifically, the issue expression specifying unit 732 specifies an issue expression from each sentence of the sentence set 303-i by, for example, the above-described rule-based method or machine learning-based method. The issue expression specifying unit 732 uses a dictionary table prepared in advance. The dictionary table stores words that are points of dispute. As the dictionary table, for example, dispute point ontology information 701 is used.

図8は、争点オントロジ情報701のデータ構造例を示す説明図である。争点オントロジ情報701は、争点フィールド801と争点表現フィールド802とを有し、エントリごとに争点と争点表現との対応関係を示す。争点フィールド801は、争点を格納する領域である。争点表現フィールド802は、争点の下位概念である争点表現を格納する領域である。争点表現特定部732は、争点オントロジ情報701の争点表現に一致する単語を争点表現として、文集合303−iの各文から特定する。   FIG. 8 is an explanatory diagram showing an example of the data structure of the dispute point ontology information 701. The issue ontology information 701 includes an issue field 801 and an issue expression field 802, and indicates a correspondence between an issue and an issue expression for each entry. The issue field 801 is an area for storing issues. The issue expression field 802 stores an issue expression that is a subordinate concept of the issue. The issue expression specifying unit 732 specifies a word that matches the issue expression of the issue ontology information 701 as an issue expression from each sentence of the sentence set 303-i.

また、機械学習に基づく方法が適用される場合、争点表現特定部732は、たとえば、学習モデルにより、文集合303−iの各文の中から争点表現に該当する語句を特定する。   When a method based on machine learning is applied, the point-of-interest specifying unit 732 specifies, for example, a word / phrase corresponding to the point-of-interest expression from each sentence of the sentence set 303-i using a learning model.

また、争点表現特定部732は、取得部720によって取得された文集合303−iの各文において、特定した争点表現に一致する単語がある場合には、当該単語にアノテーションとしてタグを付与する。具体的には、たとえば、「危険ドラッグ」が争点表現である場合、『日本は、危険ドラッグを禁止した。』という文について、『日本は、<issue issue−id“健康”>危険ドラッグ</issue>を禁止した。』のように、争点表現特定部732は、「危険ドラッグ」にissueタグを、アノテーションとして付与する。issue−id“健康”は属性値であり、争点表現に対応する争点である。   In addition, when there is a word that matches the specified issue expression in each sentence of the sentence set 303-i acquired by the acquisition unit 720, the issue expression specifying unit 732 adds a tag as an annotation to the word. Specifically, for example, when “dangerous drug” is a disputed expression, “Japan prohibited dangerous drugs. "Japan has banned <issue issue-id" health "> dangerous drug </ issue>. ], The issue expression specifying unit 732 assigns the issue tag to “dangerous drug” as an annotation. The issue-id “health” is an attribute value and is an issue corresponding to the issue expression.

なお、後述するが、issueタグについては、生成部728が争点連鎖モデル703を生成する際に付与される場合がある。したがって、この場合、争点表現特定部732は、単に付与済みのissueタグに挟まれている文字列を争点表現として特定すればよい。   As will be described later, the issue tag may be assigned when the generation unit 728 generates the issue chain model 703. Therefore, in this case, the issue expression specifying unit 732 may simply specify the character string sandwiched between the assigned issue tags as the issue expression.

分析部721は、肯定・否定表現特定部733により、テーマ表現や争点表現を肯定する肯定表現またはテーマ表現や争点表現を否定する否定表現を、テーマや文集合303−iの各文から特定する。肯定・否定表現特定部733は、具体的には、たとえば、上述したルールに基づく方法または機械学習に基づく方法により、テーマや文集合303−iの各文から肯定・否定表現を特定する。肯定・否定表現特定部733は、あらかじめ用意された辞書テーブルを用いる。辞書テーブルには、肯定表現および否定表現を示す単語が肯定または否定という属性と関連付けられて格納されている。具体的には、たとえば、肯定・否定表現特定部733は、ある文に争点表現が存在する場合、当該争点表現の係り受け先となる語句を特定し、特定した語句を辞書テーブルで検索する。肯定・否定表現特定部733は、一致する語句が辞書テーブルにある場合、当該語句の属性(肯定または否定)を特定する。   The analysis unit 721 uses the affirmation / negative expression specifying unit 733 to specify, from each sentence of the theme or sentence set 303-i, an affirmative expression that affirms the theme expression or issue expression or a negative expression that denies the theme expression or issue expression. . Specifically, the affirmation / negative expression specifying unit 733 specifies affirmation / negative expression from each sentence of the theme or sentence set 303-i, for example, by a method based on the above-described rules or a method based on machine learning. The positive / negative expression specifying unit 733 uses a dictionary table prepared in advance. In the dictionary table, words indicating positive expressions and negative expressions are stored in association with attributes of positive or negative. Specifically, for example, when there is a disputed expression in a certain sentence, the affirmation / negative expression specifying unit 733 specifies a word / phrase that is a destination of the disputed expression and searches the dictionary table for the specified word / phrase. The positive / negative expression specifying unit 733 specifies the attribute (positive or negative) of the word / phrase when the matching word / phrase exists in the dictionary table.

たとえば、『ジャンクフードは<issue issue−id“健康”>健康</issue>に悪い。』という文の場合、「健康」が争点である。そして、「健康」の係り受け先となる「悪い」が否定の属性付きで辞書テーブルに格納されている場合、肯定・否定表現特定部733は、「悪い」を否定表現として特定する。   For example, “Junk food is bad for <issue issue-id“ health ”> health </ issue>. In the case of the sentence, “health” is the issue. If “bad”, which is a “health” dependency, is stored in the dictionary table with a negative attribute, the affirmative / negative expression specifying unit 733 specifies “bad” as a negative expression.

また、機械学習に基づく方法が適用される場合、肯定・否定表現特定部733は、たとえば、学習モデルにより、争点が存在する文の中から、肯定表現または否定表現に分類された語句(たとえば、「禁止」)を特定する。   In addition, when a method based on machine learning is applied, the affirmation / negative expression specifying unit 733, for example, by using a learning model, a phrase (for example, Identify “prohibited”).

そして、肯定・否定表現特定部733は、『ジャンクフードは<issue issue−id“健康”>健康</issue>に悪い。』という文に、アノテーションを付与して、『ジャンクフードは<issue issue−id“健康”>健康</issue>に<negative>悪い</negative>。』とする。   The affirmative / negative expression specifying unit 733 says, “Junk food is bad for <issue issue-id“ health ”> health </ issue>. To the sentence, "Junk food is <issue issue-id" health "> health </ issue> <negative> bad </ negative>. "

分析部721は、促進・抑制表現特定部734により、文集合303−iの各文のテーマ表現が促進表現または抑制表現のいずれに該当するかを特定する。促進・抑制表現特定部734は、具体的には、たとえば、上述したルールに基づく方法または機械学習に基づく方法により、テーマや文集合303−iの各文からテーマ表現に対する促進・抑制表現を特定する。促進・抑制表現特定部734は、あらかじめ用意された辞書テーブルを用いる。辞書テーブルには、促進表現および抑制表現を示す単語が促進または抑制という属性と関連付けられて格納されている。具体的には、たとえば、促進・抑制表現特定部734は、ある文にテーマ表現が存在する場合、当該テーマ表現の述部を特定し、当該述部に含まれる語句が促進表現であるか抑制表現であるかを、辞書テーブルを参照して判断する。   The analysis unit 721 uses the promotion / suppression expression specifying unit 734 to specify whether the theme expression of each sentence in the sentence set 303-i corresponds to the promotion expression or the suppression expression. Specifically, the promotion / suppression expression specifying unit 734 specifies the promotion / suppression expression for the theme expression from each sentence of the theme or sentence set 303-i by, for example, the above-described rule-based method or machine learning-based method. To do. The promotion / suppression expression specifying unit 734 uses a dictionary table prepared in advance. In the dictionary table, words indicating the promotion expression and the suppression expression are stored in association with the attribute of promotion or suppression. Specifically, for example, when a theme expression exists in a certain sentence, the promotion / suppression expression specifying unit 734 specifies a predicate of the theme expression, and suppresses whether the phrase included in the predicate is a promotion expression. Whether it is an expression is determined by referring to the dictionary table.

たとえば、『<theme theme−id“健康”>ジャンクフード</theme>は栄養バランスを著しく欠く。』という文の場合、テーマ表現「ジャンクフード」の述部は、「栄養バランスを著しく欠く」である。この場合、辞書テーブルに抑制表現として「欠く」が格納されていれば、テーマ表現「ジャンクフード」が「栄養バランス」を抑制するという関係を特定することができる。   For example, “<the theme-id“ health ”> junk food </ theme> is significantly lacking in nutritional balance. In the case of the sentence, the predicate of the theme expression “junk food” is “significantly lacking nutritional balance”. In this case, if “missing” is stored as the suppression expression in the dictionary table, the relationship that the theme expression “junk food” suppresses “nutrition balance” can be specified.

そして、促進・抑制表現特定部734は、『<theme theme−id“健康”>ジャンクフード</theme>は栄養バランスを著しく欠く。』という文に、アノテーションを付与して、『<theme theme−id“健康”>ジャンクフード</theme>は栄養バランスを著しく<suppress>欠く</suppress>。』とする。   Then, the promotion / suppression expression specifying unit 734 indicates that “<theme-me-id“ health ”> junk food </ theme> significantly lacks nutritional balance. ”And annotated,“ <theme-meid ”health> junk food </ theme> has a marked nutritional balance <suppress> </ suppress>. "

分析部721は、権威特定部735により、文集合303−iの各文から権威を示す語句を特定する。権威を示す語句は、文の発言主体を示し、たとえば、組織名や人名である。権威特定部735は、組織名および人名(または人名の末尾につく「議員」や「氏」といった敬称などの接尾語でもよい)と権威を示す属性とを関連付けた辞書テーブルを用いる。権威特定部735は、この辞書テーブルを参照して、文集合303−iの各文から権威を示す語句を特定する。   The analysis unit 721 uses the authority specifying unit 735 to specify a word indicating authority from each sentence in the sentence set 303-i. The word indicating authority indicates the subject of the sentence, such as an organization name or a person name. The authority specifying unit 735 uses a dictionary table in which an organization name and a person's name (or a suffix such as “Meeting” or “Mr.” attached to the end of the person's name) and an attribute indicating authority are associated with each other. The authority specifying unit 735 specifies a word indicating authority from each sentence in the sentence set 303-i with reference to the dictionary table.

たとえば、『「ファーストフードやソフトドリンクに新たに課税することを検討している」とA議員は述べた。』という文の場合、権威特定部735は、人名である「A議員」を権威として特定する。より具体的には、単に組織名や人名を特定するのではなく、組織名や人名の述語が「述べた」や「示した」といった発言したことを示す動詞である場合に、権威として特定することとしてもよい。この場合、権威特定部735は、権威を示す語句にアノテーションを付与する。たとえば、『「ファーストフードやソフトドリンクに新たに課税することを検討している」とA議員は述べた。』という文の場合、『「ファーストフードやソフトドリンクに新たに課税することを検討している」と<authority>A議員</authority>は述べた。』となる。   For example, “We are considering a new tax on fast food and soft drinks,” said Congressman A. ], The authority specifying unit 735 specifies “person A” as the authority. More specifically, instead of simply specifying an organization name or person name, if the predicate of the organization name or person name is a verb indicating that he / she has stated, such as “stated” or “shown”, it is specified as an authority. It is good as well. In this case, the authority specifying unit 735 adds an annotation to a word indicating authority. For example, “We are considering a new tax on fast food and soft drinks,” said Congressman A. "" I am considering a new tax on fast food and soft drinks, "said <authority> A legislator </ authority>. It becomes.

図9は、文分析結果の例1を示す説明図である。文分析結果900は、一例としてテーブル形式で表現される。文分析結果900は、項番フィールド901と、文フィールド902と、争点フィールド903と、肯定・否定フィールド904と、促進・抑制フィールド905と、権威フィールド906と、文種フィールド907と、を有し、各フィールド901〜907の値の組み合わせが、1つの文のエントリを構成する。なお、文には、分析部721でアノテーションとしてタグが付与されているため、文内の争点、肯定表現、否定表現、促進表現、抑制表現、権威が特定可能である。   FIG. 9 is an explanatory diagram illustrating Example 1 of the sentence analysis result. The sentence analysis result 900 is expressed in a table format as an example. The sentence analysis result 900 includes an item number field 901, a sentence field 902, an issue field 903, an affirmation / denial field 904, a promotion / suppression field 905, an authority field 906, and a sentence type field 907. The combination of the values of the fields 901 to 907 constitutes one sentence entry. Since the sentence is given a tag as an annotation in the analysis unit 721, the issue point, the positive expression, the negative expression, the promotion expression, the suppression expression, and the authority in the sentence can be specified.

項番フィールド901は、項番を格納する領域である。項番は、分析部721により分析された文を一意に特定する識別情報である。文フィールド902は、分析部721により分析された文を格納する領域である。争点フィールド903は、文フィールド902の文に含まれる争点を格納するシールドである。文に争点ではなく争点表現が記載されている場合には、issueタグの属性(issue−id)である争点が格納される。   The item number field 901 is an area for storing an item number. The item number is identification information that uniquely identifies the sentence analyzed by the analysis unit 721. A sentence field 902 is an area for storing a sentence analyzed by the analysis unit 721. The issue field 903 is a shield for storing an issue included in the sentence in the sentence field 902. In the case where the issue expression is described instead of the issue in the sentence, the issue that is the attribute (issue-id) of the issue tag is stored.

肯定・否定フィールド904は、文フィールド902の文における争点に対する肯定表現または否定表現の存否を示す情報を格納する領域である。肯定表現(positiveタグ)が存在する場合は「肯定」、否定表現(negativeタグ)が存在する場合は「否定」、いずれも存在しない場合は、「なし」が格納される。   The affirmation / denial field 904 is an area for storing information indicating the presence or absence of an affirmative expression or a negative expression for the issue in the sentence of the sentence field 902. “Yes” is stored when a positive expression (positive tag) is present, “Negative” is stored when a negative expression (negative tag) is present, and “None” is stored when neither is present.

促進・抑制フィールド905は、文フィールド902の文におけるテーマ表現に対する促進表現、抑制表現の存否を示す情報を格納する領域である。テーマ表現が、ある対象を「促進している」場合には「促進」、テーマ表現がある対象に「促進されている」場合には「被促進」が格納される。抑制・被抑制についても同様である。   The promotion / suppression field 905 is an area for storing information indicating the presence / absence of the promotion expression and the suppression expression for the theme expression in the sentence in the sentence field 902. When the theme expression is “promoting” a certain object, “promotion” is stored, and when the theme expression is “promoted” by a target object, “promoted” is stored. The same applies to suppression and suppression.

文種フィールド907は、文フィールド902の文の文種を格納する領域である。文種フィールド907の値である文種は、文種判定部722によって格納される。   The sentence type field 907 is an area for storing the sentence type of the sentence in the sentence field 902. The sentence type that is the value of the sentence type field 907 is stored by the sentence type determination unit 722.

図7に戻り、文種判定部722は、分析部721によって分析された各文の文種を判定する。文種とは、たとえば、主張、理由、事例、現状説明、主張の重要性、引用などの文の種類である。文種は、文の修辞的な特徴に基づいて定められる。たとえば、並べ替え後の文がどの順番で配置されるか、という観点で設定される。文種は、後述するテンプレートで利用される。このような特徴を持つため、文種の設定は、生成したい論述文に依存する。   Returning to FIG. 7, the sentence type determination unit 722 determines the sentence type of each sentence analyzed by the analysis unit 721. Sentence types are, for example, types of sentences such as claims, reasons, examples, current explanations, importance of claims, and quotations. The sentence type is determined based on the rhetorical characteristics of the sentence. For example, it is set from the viewpoint of in which order the rearranged sentences are arranged. The sentence type is used in a template described later. Because of this characteristic, the setting of the sentence type depends on the statement sentence to be generated.

文種判定部722は、ルールに基づく方法または機械学習に基づく方法を用いて文種を判定する。ルールに基づく方法の場合、文種判定部722は、辞書テーブルを用いる。辞書テーブルには、文種ごとに適切なルールが関連付けられる。たとえば、主張という文種の場合、テーマ表現に対する肯定または否定の判断を述べている文が主張文として利用できる。したがって、『テーマ表現が肯定または否定の対象になっている文を文種:主張とする』というルールが設定される。また、たとえば、『争点に対する否定表現を促進する内容である文を文種:理由とする』というルールが設定されてもよい。また、『争点に対する肯定表現や否定表現がなく、テーマ表現に対する促進表現や抑制表現もなく、権威を示す語句が存在する文を文種:事例とする』というルールが設定されてもよい。   The sentence type determination unit 722 determines a sentence type using a rule-based method or a machine learning-based method. In the case of a rule-based method, the sentence type determination unit 722 uses a dictionary table. Appropriate rules are associated with each dictionary type in the dictionary table. For example, in the case of the sentence type of assertion, a sentence that states affirmation or denial of the theme expression can be used as the assertion sentence. Therefore, the rule “sentence is asserted as a sentence whose theme expression is affirmative or negative” is set. In addition, for example, a rule may be set that “a sentence that is a content that promotes a negative expression for a dispute point is a sentence type: a reason”. In addition, a rule may be set that “a sentence type: example is a sentence in which there is no positive expression or negative expression for an issue, no promotion expression or suppression expression for a theme expression, and there is a word indicating authority”.

機械学習に基づく方法の場合、事前に各文種に人手で振り分けた文を訓練データとして用意し、計算機301が文種判定モデルを作成する。具体的には、文種判定部722は、訓練データを分析部721に与えて、訓練データについてテーマ表現、争点、肯定・否定表現、促進・抑制関係を特徴として数値ベクトルを生成する。計算機301は、この数値ベクトルをSVMやロジスティック回帰に与えることにより、数値ベクトルに対応する文種を推定する文種判定モデルを作成する。   In the case of a method based on machine learning, a sentence that is manually distributed to each sentence type in advance is prepared as training data, and the computer 301 creates a sentence type determination model. Specifically, the sentence type determination unit 722 gives the training data to the analysis unit 721, and generates a numerical vector with the theme expression, the dispute point, the positive / negative expression, and the promotion / suppression relationship for the training data. The computer 301 creates a sentence type determination model for estimating the sentence type corresponding to the numerical vector by giving this numerical vector to SVM or logistic regression.

文種判定部722は、文集合303−iの各文について、訓練データと同様、分析部721によって特定されたテーマ表現、争点、肯定・否定表現、促進・抑制関係を特徴として数値ベクトルを生成する。文種判定部722は、生成した数値ベクトルを文種判定モデルに与えて、該当する文種を判定する。   The sentence type determination unit 722 generates, for each sentence in the sentence set 303-i, a numeric vector characterized by the theme expression, issue, affirmation / negative expression, and promotion / suppression relation identified by the analysis unit 721, as in the training data. To do. The sentence type determination unit 722 gives the generated numerical vector to the sentence type determination model, and determines the corresponding sentence type.

図10は、文分析結果900の例2を示す説明図である。図10は、図9の文分析結果900において文種フィールド907の値である文種が格納された状態を示す。   FIG. 10 is an explanatory diagram illustrating Example 2 of the sentence analysis result 900. FIG. 10 shows a state in which the sentence type that is the value of the sentence type field 907 is stored in the sentence analysis result 900 of FIG.

図7に戻り、テンプレート選択部723は、テンプレートDB702からいずれかのテンプレートを選択する。テンプレートは、文の修辞的な並べ方を指定する情報である。たとえば、まず主張を述べ、次にその理由を述べ、最後に事例を紹介する、という多くの場合に共通する形式的な順序がテンプレートに規定される。テンプレートは複数のスロットを持つ。スロットとは、文を入れるべき空欄のことを意味する。一つのスロットには、一つの文種が指定される。文を入れる際には、文種にあった文のみが入力可能である。   Returning to FIG. 7, the template selection unit 723 selects one of the templates from the template DB 702. The template is information that specifies the rhetorical arrangement of sentences. For example, the template defines a formal order that is common in many cases: first assertion, then reason, and finally introduce the case. The template has multiple slots. A slot means a blank in which a sentence should be placed. One sentence type is designated in one slot. When entering a sentence, only the sentence that matches the sentence type can be input.

また、各スロットは、重要度と必須かどうかというプロパティを持つ。重要度は、スロット間の相対的な重要性を表す。主張や理由のようにその文を変更する論旨が大きく変わってしまう主要なスロットに対しては大きな重要度を指定し、2番目ないしは3番目の事例のようにその文がなくても論旨が大きく変わらないスロットに対しては、重要度を低く設定する。また、必須かどうかを示すプロパティでは、そのスロットが埋まっていない場合には、意味のない出力文書であることを設定することができる。   Each slot has properties of importance and necessity. The importance indicates the relative importance between slots. For major slots that change the meaning of the sentence significantly, such as an assertion or reason, specify a high importance level, and even if there is no sentence like the second or third case, the argument is large. For slots that do not change, the importance is set low. In addition, in the property indicating whether it is essential, when the slot is not filled, it can be set that the output document is meaningless.

図11は、テンプレートのデータ構造例を示す説明図である。図11では、例として2種類のテンプレートT1、T2(以下、総称してテンプレートT)を示す。テンプレートTは一例としてテーブル形式で表現される。テンプレートTは、あらかじめ人手で設定される情報である。   FIG. 11 is an explanatory diagram illustrating an example of a data structure of a template. In FIG. 11, two types of templates T1 and T2 (hereinafter collectively referred to as templates T) are shown as an example. The template T is expressed in a table format as an example. The template T is information that is manually set in advance.

テンプレートTは、順序フィールド1101と、文種フィールド1102と、重要度フィールド1103と、必須フィールド1104と、スロット1105と、を有する。順序フィールド1101は、適用される文の順序を示す値を昇順に格納する領域である。文は、順序の値で示される順番で並び替えられる。   The template T includes an order field 1101, a sentence type field 1102, an importance field 1103, a required field 1104, and a slot 1105. The order field 1101 is an area for storing values indicating the order of applied sentences in ascending order. The sentences are rearranged in the order indicated by the order value.

文種フィールド1102は、適用される文の文種を格納する領域である。重要度フィールド1103は、文種の重要度を格納する領域である。重要度は、後述する算出部725において、評価値の計算に用いられる。必須フィールド1104は、文種が必須か否かを示す情報を格納する領域である。文種が必須である場合は「True」、必須でない場合は「False」が格納される。スロット1105は、各エントリに対応する文を埋め込む領域である。   The sentence type field 1102 is an area for storing the sentence type of the sentence to be applied. The importance field 1103 is an area for storing the importance of sentence types. The importance is used for calculation of an evaluation value in a calculation unit 725 described later. The mandatory field 1104 is an area for storing information indicating whether or not a sentence type is essential. When the sentence type is essential, “True” is stored, and when it is not essential, “False” is stored. A slot 1105 is an area in which a sentence corresponding to each entry is embedded.

テンプレートT1は、最大で3個の文を並べるためのテンプレートTであり、最初の文の文種が「主張」、2番目の文の文種が「理由」、最後の文の文種が「事例」となるように並び替えられる。なお、最後の文の文種「事例」の必須フィールド1104の値が「False」であるため、最後の文は欠落されてもよい。   The template T1 is a template T for arranging a maximum of three sentences. The sentence type of the first sentence is “claim”, the sentence type of the second sentence is “reason”, and the sentence type of the last sentence is “ It is rearranged to become “example”. Since the value of the required field 1104 of the sentence type “example” of the last sentence is “False”, the last sentence may be omitted.

テンプレートT2は、最大で5個の文を並べるためのテンプレートTであり、最初の文の文種が「主張」、2番目の文の文種が「現状説明」、3番目の文の文種が「主張の重要性」、4番目および5番目の文の文種が「引用」となるように並び替えられる。なお、2番目〜5番目の文必須フィールド1104の値が「False」であるため、欠落されてもよい。   The template T2 is a template T for arranging a maximum of five sentences. The first sentence sentence type is “Claim”, the second sentence sentence type is “Current Status Description”, and the third sentence sentence type. Are rearranged so that the sentence type of the fourth and fifth sentences becomes “quote”. Since the value of the second to fifth sentence required fields 1104 is “False”, it may be omitted.

なお、テンプレート選択部723は、あらかじめ選択したいテンプレートTの特徴がユーザにより設定されている場合には、当該特徴に該当するテンプレートTのみを選択する。たとえば、文種の主張、理由および事例がすべて「True」に設定されているテンプレートTのみなど、自由に設定することができる。   In addition, when the feature of the template T to be selected in advance is set by the user, the template selection unit 723 selects only the template T corresponding to the feature. For example, it is possible to freely set only the template T in which all sentence type claims, reasons, and examples are set to “True”.

並び替え処理部724は、組み合わせ処理部741と争点選択部742とを含む。組み合わせ処理部741は、選択したテンプレートTの各スロット1105に文を埋め込む。組み合わせ処理部741は、スロット1105を埋める際に、争点選択部742を呼び出す。   The rearrangement processing unit 724 includes a combination processing unit 741 and a dispute point selection unit 742. The combination processing unit 741 embeds a sentence in each slot 1105 of the selected template T. The combination processing unit 741 calls the issue selection unit 742 when filling the slot 1105.

争点選択部742は、現在までにスロット1105に埋め込まれた文の並びとテンプレートTと文集合303−iとを用いて、争点を含む文を文集合303−iから選択する。争点選択部742は、争点連鎖モデル703を参照して、争点を含む文を文集合303−iから選択する。   The dispute point selection unit 742 selects a sentence including the dispute point from the sentence set 303-i using the sentence sequence embedded in the slot 1105, the template T, and the sentence set 303-i. The issue selection unit 742 refers to the issue chain model 703 and selects a sentence including the issue from the sentence set 303-i.

図12は、争点連鎖モデル703のデータ構造例を示す説明図である。争点連鎖モデル703は、文の内容についての連続性を整理した構造化データである。争点連鎖モデル703は、内容的な連続状況を整理した構造化データである。争点連鎖モデル703は、ある文で、Aという争点が取り上げられていたとき、次の文で取り上げられやすい争点は何かということを推測するために用いられる。争点連鎖モデル703は、生成部728により生成される。生成部728による生成処理の詳細は後述する。   FIG. 12 is an explanatory diagram showing an example of the data structure of the issue chain model 703. The issue chain model 703 is structured data in which continuity about the contents of a sentence is arranged. The issue chain model 703 is structured data in which the content continuous state is organized. The issue chain model 703 is used to infer what is likely to be taken up in the next sentence when the issue A is taken up in one sentence. The issue chain model 703 is generated by the generation unit 728. Details of the generation processing by the generation unit 728 will be described later.

争点連鎖モデル703は、先行文の争点フィールド1201と、後続文の争点フィールド1202と、所在情報フィールド1203と、頻度フィールド1204と、を有し、各フィールド1201〜1204の値の組み合わせにより争点の連鎖のエントリを規定する。ここで、先行文と後続文は、連続する2つの文であり、先行文の次に後続文が出現する。   The issue chain model 703 has an issue field 1201 of the preceding sentence, an issue field 1202 of the succeeding sentence, a location information field 1203, and a frequency field 1204. The issue chain is formed by combining the values of the fields 1201 to 1204. Specify the entry. Here, the preceding sentence and the succeeding sentence are two consecutive sentences, and the succeeding sentence appears after the preceding sentence.

先行文の争点フィールド1201は、先行文の争点を格納する領域である。先行文の争点とは、先行文に含まれる争点である。   The preceding sentence issue field 1201 is an area for storing the issue of the preceding sentence. The issue of the preceding sentence is an issue included in the preceding sentence.

後続文の争点フィールド1202は、後続文の争点を格納する領域である。後続文の争点は、後続文に含まれている争点である。   The subsequent sentence issue field 1202 is an area for storing the subsequent sentence issue. The issue of the succeeding sentence is the issue included in the succeeding sentence.

所在情報フィールド1203は、先行文の争点および後続文の争点の所在情報を格納する領域である。所在情報は、文書IDと文IDとの組み合わせで構成される。文書IDは、先行文および後続文が存在する文書を一意に特定する識別情報である。文IDは、当該文書内で当該先行文および後続文を一意に特定する識別情報である。文IDは、たとえば、文書IDにおける文書での先行文(後続文でもよい)の出現順である。先行文の争点および後続文の争点の同一の組み合わせが複数存在する場合には、組み合わせごとに所在情報が格納される。   The location information field 1203 is an area for storing location information of issues in the preceding sentence and issues in the subsequent sentence. The location information is composed of a combination of a document ID and a sentence ID. The document ID is identification information that uniquely identifies a document in which a preceding sentence and a succeeding sentence exist. The sentence ID is identification information that uniquely identifies the preceding sentence and the succeeding sentence in the document. The sentence ID is, for example, the order of appearance of the preceding sentence (or succeeding sentence) in the document with the document ID. When there are a plurality of identical combinations of issues in the preceding sentence and issues in the subsequent sentence, location information is stored for each combination.

頻度フィールド1204は、頻度を格納する領域である。頻度は、先行文の争点および後続文の争点の組み合わせが出現する回数である。具体的には、たとえば、所在情報に格納された組み合わせの数となる。なお、頻度は、確率で表現されてもよい。確率で表現する場合は、争点連鎖モデル703の頻度フィールド1204の値の総和を分母とし、各エントリの所在情報の数を分子とした値が、各エントリの確率となる。   The frequency field 1204 is an area for storing the frequency. The frequency is the number of times a combination of the previous sentence issue and the subsequent sentence issue appears. Specifically, for example, it is the number of combinations stored in the location information. The frequency may be expressed as a probability. When expressed as a probability, the value of the sum of the values in the frequency field 1204 of the issue chain model 703 as the denominator and the number of location information of each entry as the numerator is the probability of each entry.

争点連鎖モデル703の一行目のエントリは、母集団となる文書の集合において、先行文の争点「健康」および後続文の争点「税金」が、N新聞X年Y月Z日1面の10番目の文(先行文)に出現しており、また、N新聞P年Q月R日8面の42番目の文(先行文)に出現していることを示す。また、出現回数が2であるため、頻度は「2」となる。   The entry on the first line of the issue chain model 703 shows that the issue “Health” of the preceding sentence and the issue “Tax” of the succeeding sentence are the 10th page of the 1st page of the Y newspaper, year Y, month Z, in the population. It appears in the 42nd sentence (preceding sentence) of the 8th page of the N newspaper P year Q month R day. Further, since the number of appearances is 2, the frequency is “2”.

図13は、争点の連鎖状況を示す説明図である。図13では、例として2つの文を挙げる。文1301,1302は、同一の文書の連続する文である。文1301は「ジャンクフードは、健康に害を及ぼす可能性がある。」という文であり、文1302は「政府は健康増進施策のため、ジャンクフードに課税することを検討している。」という文である。   FIG. 13 is an explanatory diagram showing a chain of dispute points. In FIG. 13, two sentences are given as examples. Sentences 1301 and 1302 are successive sentences of the same document. Sentence 1301 is a sentence “Junk food may be harmful to health.” Sentence 1302 is “The government is considering taxing junk food for health promotion measures”. It is a sentence.

文1301の争点表現は「健康」であり、文2の争点表現は「健康」と「課税」である。これを争点にマッピングすると、文1301の争点は「健康」であり、文1302の争点は「健康」と「税金」となる。この例では、「健康」を増進するための手段として「税金」を用いたため話題も「健康」から健康に関する「税金」の話題に転換したことが分かる。「健康」と「税金」は、語義的には遠い関係にあるため、こうした話題の転換は、語義の類似性ではモデル化することは難しい。争点連鎖モデル703では、話題の転換を直接文の並び替えに利用するためのモデルである。   The issue expression of sentence 1301 is “health”, and the issue expression of sentence 2 is “health” and “taxation”. If this is mapped to the issue, the issue of the sentence 1301 is “health”, and the issue of the sentence 1302 is “health” and “tax”. In this example, since “tax” is used as a means for promoting “health”, it can be seen that the topic has changed from “health” to “tax” related to health. Since “health” and “tax” are far from each other in terms of meaning, it is difficult to model this change of topic in terms of similarity in meaning. The issue chain model 703 is a model for directly using topic change to rearrange sentences.

図14は、争点連鎖モデル703の利用例を示す説明図である。図14では、争点連鎖モデル703の利用例を、状態遷移図を用いて説明する。状態遷移図の円図形はノードであり、争点を示す。状態遷移図の矢印はエッジであり、ノード間の遷移とその重みを示す。重みは、図12に示した頻度である。文1〜文Nは、文集合303−iから選択される文であり、組み合わせ処理部741は、開始端から終了端に向かって文1、文2、…、文Nの順に選択し、選択テンプレートTのスロット1105に追加する。なお、Nは選択テンプレートTのスロット1105数である。   FIG. 14 is an explanatory diagram illustrating an example of use of the issue chain model 703. In FIG. 14, a usage example of the issue chain model 703 will be described using a state transition diagram. The circle in the state transition diagram is a node and indicates a point of issue. The arrows in the state transition diagram are edges, which indicate transitions between nodes and their weights. The weight is the frequency shown in FIG. Sentence 1 to sentence N are sentences selected from the sentence set 303-i, and the combination processing unit 741 selects and selects sentence 1, sentence 2,..., Sentence N in this order from the start end to the end end. It is added to the slot 1105 of the template T. N is the number of slots 1105 of the selected template T.

たとえば、文1では、「健康」を争点とする文が選択されたとする。なお、文1を選択する場合、争点選択部742は、文集合303−iから順次文を文1として選択してもよく、特定の争点を含む文に限定して選択してもよい。特定の争点とは、あらかじめユーザに指定された争点であってもよく、文集合303−iで出現回数が所定回数以上の争点であってもよい。争点選択部742は、文1の「健康」を選択した場合に、争点連鎖モデル703において先行文の争点フィールド801の値が「健康」であるエントリを特定する。   For example, in sentence 1, it is assumed that a sentence having “health” as an issue is selected. In addition, when selecting the sentence 1, the dispute point selection unit 742 may sequentially select the sentence as the sentence 1 from the sentence set 303-i, or may select only the sentence including a specific issue point. The specific issue may be an issue designated in advance by the user, or may be an issue whose number of occurrences is a predetermined number or more in the sentence set 303-i. When the “health” of the sentence 1 is selected, the issue selection unit 742 identifies an entry whose value of the issue field 801 of the preceding sentence is “healthy” in the issue chain model 703.

文2を選択する場合、争点選択部742は、文1の「健康」のノードから出るエッジをたどって次の争点を選択する。具体的には、争点選択部742は、先行文の争点フィールド1201の値が「健康」であるエントリを参照して、後続文の争点フィールド1202の値を特定する。総当たりで探索する場合は、争点選択部742は、遷移先となる後続文の争点フィールド1202の値をそれぞれ特定して、終了端まで探索する。   When selecting sentence 2, issue point selection unit 742 selects the next issue point by following the edge from the “healthy” node of statement 1. Specifically, the issue selection unit 742 identifies the value of the issue field 1202 of the subsequent sentence with reference to the entry whose value of the issue field 1201 of the preceding sentence is “healthy”. When searching with brute force, the issue point selection unit 742 specifies the value of the issue field 1202 of the subsequent sentence that is the transition destination, and searches to the end point.

また、争点選択部742は、頻度フィールド1204の値を参照して、特定の頻度となる後続文の争点を選択してもよい。特定の頻度とは、遷移元となる先行文の争点から遷移先となる後続文の争点への頻度のうち最大値でもよく、所定値以上の頻度でもよい。最大値を選択する場合は、たとえば、動的計画法が用いられる。また、所定値は、頻度フィールド1204の値の平均値や中央値でもよく、管理者が任意に設定した値でもよい。これにより、争点の遷移の起こりやすい文の組み合わせが優先されるようになる。   Further, the issue selection unit 742 may select the issue of the subsequent sentence having a specific frequency with reference to the value of the frequency field 1204. The specific frequency may be a maximum value or a frequency equal to or higher than a predetermined value among the frequencies from the issue point of the preceding sentence as the transition source to the issue point of the subsequent sentence as the transition destination. When selecting the maximum value, for example, dynamic programming is used. The predetermined value may be an average value or a median value of the values in the frequency field 1204, or may be a value arbitrarily set by an administrator. As a result, priority is given to combinations of sentences that are likely to cause transition of dispute points.

このようにして、争点選択部742は、i(i=1〜N−1)番目の文の争点とi+1番目の争点を選択する。なお、文の数が限られているため、途中で合致する遷移先ノードがなくなってしまう場合も考えられる。その場合には、争点選択部742は、当該遷移先ノードを通行禁止ノードに設定し、バックトラックして再度探索を続けることができる。   In this way, the issue selection unit 742 selects the issue of the i (i = 1 to N−1) th sentence and the i + 1th issue. In addition, since the number of sentences is limited, there may be a case where there are no transition destination nodes that match on the way. In that case, the dispute point selection unit 742 can set the transition destination node as a passage prohibition node, backtrack, and continue the search again.

算出部725は、組み合わせ処理部741によって選択テンプレートTのスロット1105に埋められた文の組み合わせの並びを評価する評価値を算出する。評価の観点としては、たとえば、選択テンプレートTの充足状況が挙げられる。選択テンプレートTの充足状況に関する評価値は、選択テンプレートTのスロット1105が何個中何個埋められているかを示す値である。たとえば、3個中2個埋められている場合は、2/3となる。また、各スロット1105には重要度が対応付けられているため、算出部は、重要度を重みとして分子の値を重み付き線形和で求めてもよい。たとえば、テンプレートT1のすべてのスロット1105が埋められている場合、選択テンプレートT1の充足状況に関する評価値は、3/3ではなく、(1×1+1×1+1×0.8)/3=2.8/3となる。   The calculation unit 725 calculates an evaluation value for evaluating the sequence of sentence combinations embedded in the slot 1105 of the selected template T by the combination processing unit 741. As a viewpoint of evaluation, for example, the satisfaction status of the selection template T can be cited. The evaluation value regarding the satisfaction status of the selected template T is a value indicating how many slots 1105 of the selected template T are filled. For example, when 2 out of 3 are filled, it becomes 2/3. In addition, since importance is associated with each slot 1105, the calculation unit may obtain a numerator value by a weighted linear sum with the importance as a weight. For example, when all the slots 1105 of the template T1 are filled, the evaluation value regarding the satisfaction status of the selected template T1 is not 3/3 but (1 × 1 + 1 × 1 + 1 × 0.8) /3=2.8. / 3.

また、選択テンプレートTの必須フィールド1104のスロット1105が空の場合には、算出部725は、当該文の組み合わせに対し不十分フラグを設定する。算出部725は、選択テンプレートTの充足状況に関する評価値を算出せずに、不十分フラグの設定を行うこととしてもよい。   If the slot 1105 of the required field 1104 of the selection template T is empty, the calculation unit 725 sets an insufficient flag for the sentence combination. The calculation unit 725 may set the insufficient flag without calculating the evaluation value related to the satisfaction status of the selected template T.

また、評価の観点として、選択テンプレートTに埋め込まれた隣り合う文の関連性を示す評価値が挙げられる。関連性を示す評価値とは、遷移元となる先行文の争点から遷移先となる後続文の争点への頻度の総和である。   Further, as an evaluation viewpoint, an evaluation value indicating the relevance between adjacent sentences embedded in the selected template T can be cited. The evaluation value indicating relevance is the sum of the frequencies from the issue of the preceding sentence that is the transition source to the issue of the subsequent sentence that is the transition destination.

また、算出部725は、不十分フラグが設定されなかった場合、充足状況に関する評価値と関連性を示す評価値との重み付き線形和を評価値として算出してもよい。なお、重みは管理者が任意に設定することができる。   Further, when the insufficient flag is not set, the calculation unit 725 may calculate a weighted linear sum of the evaluation value regarding the satisfaction status and the evaluation value indicating the relevance as the evaluation value. The weight can be arbitrarily set by the administrator.

妥当性判定部726は、算出部725によって算出された評価値に基づいて、並び替え処理を終了するか否かを判定する。すなわち、妥当性判定部726は、判定対象となる選択テンプレートTに埋め込まれた文の組み合わせの妥当性を判定する。具体的には、たとえば、妥当性判定部726は、判定対象となる選択テンプレートTに埋め込まれた文の組み合わせについて、不十分フラグが設定されているか否かを判定する。不十分フラグが設定されている場合は、テンプレートTを再選択する必要があるため、並び替え処理を終了しないと判定する。   The validity determination unit 726 determines whether to end the rearrangement process based on the evaluation value calculated by the calculation unit 725. That is, the validity determination unit 726 determines the validity of the combination of sentences embedded in the selection template T to be determined. Specifically, for example, the validity determination unit 726 determines whether or not an insufficient flag is set for a combination of sentences embedded in the selection template T to be determined. If the insufficient flag is set, it is necessary to reselect the template T, and it is determined that the rearrangement process is not terminated.

また、妥当性判定部726は、判定対象となる選択テンプレートTに埋め込まれた文の組み合わせについて、不十分フラグが設定されていない場合には、評価値を基準にして、並び替え処理を終了するか否かを判定する。具体的には、たとえば、妥当性判定部726は、選択テンプレートTの充足状況に関する評価値がしきい値以上である場合は、争点の連鎖に一貫性があるとして、並び替え処理の終了と判定する。   In addition, the validity determination unit 726 ends the rearrangement process based on the evaluation value when the insufficient flag is not set for the combination of sentences embedded in the selection template T to be determined. It is determined whether or not. Specifically, for example, if the evaluation value related to the satisfaction status of the selected template T is equal to or greater than the threshold value, the validity determination unit 726 determines that the rearrangement process has ended, assuming that the chain of issues is consistent. To do.

また、妥当性判定部726は、関連性を示す評価値がしきい値以上である場合は、争点の連鎖に一貫性があるとして、並び替え処理の終了と判定する。なお、妥当性判定部726は、充足状況に関する評価値と関連性を示す評価値とのうち、少なくともいずれか一方の評価値を用いて、終了判定をおこなう。   In addition, when the evaluation value indicating the relevance is equal to or greater than the threshold value, the validity determination unit 726 determines that the rearrangement process is finished, assuming that the chain of issues is consistent. The validity determination unit 726 performs the end determination using at least one of the evaluation value regarding the satisfaction status and the evaluation value indicating the relevance.

妥当性判定部726は、判定対象となる評価値がしきい値以上である場合は、争点の連鎖に一貫性があるとして、並び替え処理の終了と判定してもよい。また、両評価値を用いる場合は、両評価値のうち少なくとも一方で終了すべきでないと判定された場合は、妥当性判定部726は、争点の連鎖に一貫性がないとして、並び替え処理を終了しないと判定してもよい。また、妥当性判定部726は、両評価値の重みづけ線形和がしきい値以上である場合は、争点の連鎖に一貫性があるとして、並び替え処理の終了と判定してもよい。いずれの場合でも、終了しないと判定された場合、テンプレート選択部723は、未選択のテンプレートTを選択することになる。   When the evaluation value to be determined is equal to or greater than the threshold value, the validity determination unit 726 may determine that the rearrangement process has ended, assuming that the chain of issues is consistent. When both evaluation values are used, if it is determined that at least one of the two evaluation values should not be terminated, the validity determination unit 726 determines that the chain of issues is inconsistent and performs the reordering process. You may determine not to complete | finish. In addition, the validity determination unit 726 may determine that the rearrangement process is finished, assuming that the chain of issues is consistent when the weighted linear sum of both evaluation values is equal to or greater than the threshold value. In any case, if it is determined not to end, the template selection unit 723 selects an unselected template T.

出力部727は、妥当性判定部726による判定結果を出力する。具体的には、たとえば、選択テンプレートTに埋め込まれた文の組み合わせ、すなわち、論述文を出力する。出力方式としては、たとえば、出力装置への出力(ディスプレイでの表示やプリンタでの印刷出力、音声合成による音声出力)、ネットワークデバイスを介して他の装置(たとえば、端末14)への送信、ローカルファイルシステムへの格納が含まれる。   The output unit 727 outputs the determination result by the validity determination unit 726. Specifically, for example, a combination of sentences embedded in the selection template T, that is, a statement sentence is output. As an output method, for example, output to an output device (display on a display, print output on a printer, voice output by voice synthesis), transmission to another device (for example, the terminal 14) via a network device, local Includes storage in the file system.

テンプレート選択部723において、選択すべきテンプレートTがない場合、たとえば、未選択のテンプレートTがテンプレートDB702にない場合や、選択回数が所定回数を超過した場合には、該当する論述文がないこととなり、その旨の出力がされる。   In the template selection unit 723, when there is no template T to be selected, for example, when there is no unselected template T in the template DB 702, or when the number of selections exceeds a predetermined number, there is no corresponding statement. , Output to that effect.

図15は、出力部727からの出力情報の一例を示す説明図である。出力情報1500は、図10の分析結果を組み合わせ処理部741によって並び替えた結果を示す情報である。図15の出力情報1500は、図10の分析結果について、図11のテンプレートT1を適用した例である。   FIG. 15 is an explanatory diagram illustrating an example of output information from the output unit 727. The output information 1500 is information indicating the result of rearranging the analysis result of FIG. 10 by the combination processing unit 741. Output information 1500 in FIG. 15 is an example in which the template T1 in FIG. 11 is applied to the analysis result in FIG.

図7に戻り、生成部728は、訓練文書DB704を用いて争点連鎖モデル703を生成する。生成部728の具体的構成例について図を用いて説明する。   Returning to FIG. 7, the generation unit 728 generates the issue chain model 703 using the training document DB 704. A specific configuration example of the generation unit 728 will be described with reference to the drawings.

図16は、生成部728の詳細な機能的構成例を示すブロック図である。生成部728は、争点抽出モデル生成部1601と、争点同定モデル生成部1602と、争点アノテーション付与部1603と、争点連鎖解析部1604と、を有する。   FIG. 16 is a block diagram illustrating a detailed functional configuration example of the generation unit 728. The generation unit 728 includes an issue extraction model generation unit 1601, an issue identification model generation unit 1602, an issue annotation assignment unit 1603, and an issue chain analysis unit 1604.

訓練文書DB703は、訓練文書を格納するデータベースである。訓練文書は、人手で文書内の争点表現にアノテーションが付与された文書である。ここで、アノテーション付与とは、争点表現に相当する部分の開始文字位置と終了文字位置を記録する作業を意味する。たとえば、アノテーション付与は、たとえば、XML(Extensible Markup Language)の記法を用いて、争点表現を<issue>〜</issue>というissueタグで囲む作業である。   The training document DB 703 is a database that stores training documents. The training document is a document in which an annotation is added to the issue expression in the document manually. Here, “annotation” means an operation of recording a start character position and an end character position of a portion corresponding to the point expression. For example, annotating is an operation of enclosing the issue expression with issue tags such as <issue> to </ issue> using, for example, an XML (Extensible Markup Language) notation.

アノテーションの属性は、<issue issue−id=“健康”>〜</issue>というように、issueタグの属性として争点表現が属する争点を記録する。なお、属性値”健康”は争点間で一意に区別できるようにする必要があるため、実際にはURI(Uniform Resource Identifier)等の識別子の形式に従って一意な名称が付けられる。   As the annotation attribute, the issue point to which the issue expression belongs is recorded as the attribute of the issue tag, such as <issue issue-id = “health”> to </ issue>. Note that the attribute value “health” needs to be uniquely distinguishable between issues, and in practice, a unique name is given according to an identifier format such as a URI (Uniform Resource Identifier).

争点抽出モデル生成部1601は、争点抽出モデル1610を生成する。争点抽出モデル1610は、訓練文書内の文中の部分文字列が争点表現であれば、その部分を争点表現として抽出するルールまたはパターンである。具体的には、たとえば、争点抽出モデル生成部1601は、争点オントロジ情報701を参照し、争点オントロジ情報701の争点表現に一致する文字列がある場合、issueタグをアノテーションとして付与する。この場合、issueタグの属性は、争点オントロジ情報701の争点が設定される。   The issue extraction model generation unit 1601 generates an issue extraction model 1610. The issue extraction model 1610 is a rule or pattern for extracting a part as an issue expression if the partial character string in the sentence in the training document is an issue issue expression. Specifically, for example, the dispute point extraction model generation unit 1601 refers to the dispute point ontology information 701, and if there is a character string that matches the dispute point expression of the dispute point ontology information 701, adds the issue tag as an annotation. In this case, the issue tag attribute is set to the issue point of the issue point ontology information 701.

たとえば、訓練文書内の文に「ジャンクフード」という文字列が出現した場合、争点抽出モデル生成部1601は、「ジャンクフード」にアノテーションを付与して、<issue issue−id=“健康”>ジャンクフード</issue>」とする。issue−idの「健康」は、争点オントロジ情報701において、争点表現「ジャンクフード」の争点である。争点連鎖モデル703をルールに基づく方法で生成する場合、争点抽出モデル1610は、アノテーション付きの争点表現を含む訓練文書の集合となる。なお、図示しないが、争点抽出モデル生成部1601は、アノテーション付きの争点表現に、当該争点表現の所在情報(訓練文書の文書IDおよび争点表現を含む文の文ID)を関連付けておく。   For example, when a character string “Junk food” appears in a sentence in the training document, the issue extraction model generation unit 1601 adds an annotation to “Junk food” and sets <issue issue-id = “health”> junk. “Food </ issue>”. The issue-id “health” is the issue of the issue expression “junk food” in the issue ontology information 701. When the issue chain model 703 is generated by a rule-based method, the issue extraction model 1610 is a set of training documents including annotated issue expressions. Although not shown, the issue extraction model generation unit 1601 associates the location information of the issue expression (the document ID of the training document and the sentence ID of the sentence including the issue expression) with the issue expression with the annotation.

また、機械学習に基づく方法の場合、争点抽出モデル生成部1601は、上述したアノテーション付きの争点表現を含む訓練文書内の文字列を、特徴抽出により数値ベクトルの系列に変換する。まず、争点抽出モデル生成部1601は、文に対して形態素解析する。そして、各形態素を系列のノードとする。次に、争点抽出モデル生成部1601は、各形態素の表層文字列や品詞などをリストアップする。たとえば、訓練文書中に表層文字列が合計Vs種類、品詞の種類が合計Vp種類あったとする。   In the case of a method based on machine learning, the dispute point extraction model generation unit 1601 converts a character string in the training document including the above-described annotation expression with an annotation to a series of numerical vectors by feature extraction. First, the issue extraction model generation unit 1601 performs morphological analysis on the sentence. Each morpheme is set as a series node. Next, the point extraction model generation unit 1601 lists the surface layer character strings and parts of speech of each morpheme. For example, suppose that there are a total of Vs types of surface character strings and a total of Vp types of parts of speech in the training document.

争点抽出モデル生成部1601は、これらの各表層文字列と各品詞を順に辞書テーブルのキーとして追加し、その値として辞書テーブルへの登録順に自然数を一つずつ重複のないように割り当てる。争点抽出モデル生成部1601は、この辞書テーブルを用いて、各ノードの表層文字列と品詞を数値に変換する。すると、各ノードは、表層文字列と品詞に相当する次元を「1」として、それ以外の次元を「0」とする数値ベクトルとして表現される。   The dispute point extraction model generation unit 1601 adds each surface layer character string and each part of speech as a dictionary table key in order, and assigns natural numbers one by one so as not to overlap each other in the order of registration in the dictionary table. The dispute point extraction model generation unit 1601 converts the surface character string and part of speech of each node into numerical values using the dictionary table. Then, each node is expressed as a numeric vector in which the dimension corresponding to the surface character string and the part of speech is “1” and the other dimensions are “0”.

この数値ベクトルに対して、争点であるかどうかを表すラベルを組にする。争点抽出モデル生成部1601は、ノードが争点であれば(アノテーションが付与されていれば)、issueラベルを、争点でなければO(other)ラベルを与える。また、別のラベルの与え方としては、複合語の争点を仮定したとき、争点の開始位置であるノードにB−issueラベルを、中間位置であるノードにI−issueラベルを、というように、issueラベルを区別する方法もある。この変種としては、さらに終了位置をE−issueラベル、単一ノードの争点をU−issueラベルとして区別する方法もある。争点抽出モデル生成部1601は、この数値ベクトル列とラベルの組を、SVMやCRFに入力して学習させる。この機械学習の結果出力されるモデルが、争点抽出モデル1610である。争点抽出モデル1610を適用することにより、与えられる文字列がどの争点に属する争点表現であるかを特定することができる。   This numeric vector is paired with a label indicating whether or not it is an issue. The issue extraction model generation unit 1601 gives an issue label if the node is an issue (if an annotation is given), and an O (other) label if the node is not an issue. As another way of giving a label, assuming a compound word issue, a B-issue label is assigned to the node at the start of the issue, an I-issue label is assigned to the node at the intermediate location, and so on. There is also a method for distinguishing issue labels. As a variant, there is also a method of distinguishing the end position as an E-issue label and the issue of a single node as a U-issue label. The dispute point extraction model generation unit 1601 inputs this numerical vector string and label set to SVM or CRF to learn. The model output as a result of this machine learning is the issue extraction model 1610. By applying the issue extraction model 1610, it is possible to specify the issue expression to which the given character string belongs.

争点同定モデル生成部1602は、争点同定モデル1620を生成する。争点同定モデル1620は、対象とする争点表現が争点オントロジ情報701のどのエントリに相当するかを関連付けるモデルである。具体的な方法としては、まず、単純な場合として、争点同定モデル生成部1602は、対象とする争点表現が、争点オントロジ情報701の中で1つのエントリにだけ出現する場合には、そのエントリと関連付けるルールを生成する。次に、争点同定モデル生成部1602は、対象とする争点表現が、争点オントロジ情報701の複数のエントリに出現する場合には、周囲の文脈から曖昧性を解消して、いずれかのエントリに関連付けるルールを生成する。具体的には、たとえば、自然言語処理の語義曖昧性解消やエンティティ同定、書誌同定と同様の問題であり、公知のそれらの手法を利用することで曖昧性を解消することができる。これらのルールの集合が争点同定モデル1620である。   The issue identification model generation unit 1602 generates an issue identification model 1620. The issue identification model 1620 is a model for associating which entry in the issue ontology information 701 the target issue expression corresponds to. As a specific method, first, as a simple case, the issue identification model generation unit 1602 determines that a target issue expression appears only in one entry in the issue ontology information 701, Generate a rule to associate. Next, when the target issue expression appears in a plurality of entries in the issue ontology information 701, the issue identification model generation unit 1602 resolves the ambiguity from the surrounding context and associates it with one of the entries. Generate rules. Specifically, for example, it is a problem similar to the ambiguity resolution of natural language processing, entity identification, and bibliographic identification, and ambiguity can be resolved by using these known methods. A set of these rules is the issue identification model 1620.

争点アノテーション付与部1603は、争点抽出モデル1610を用いて、文書DB302に蓄積された文書内の文から争点表現を抽出する。具体的には、たとえば、争点アノテーション付与部1603は、争点抽出モデル1610を適用して、文書内の文に含まれる文字列がどの争点に属する争点表現であるかを特定する。次に、争点アノテーション付与部1603は、争点同定モデル1620を用いて、特定された争点表現を争点オントロジ情報701の争点に関連付ける。そして、争点アノテーション付与部1603は、争点表現に該当する文字列にissueタグを付与する。このとき、争点アノテーション付与部1603は、争点オントロジ情報701を参照して、issue−IDとして、争点同定モデル1620を用いて争点表現に関連付けられた争点を設定する。これにより、文書DB302内の文書にアノテーションが付与され、争点アノテーション付き文書群1630が生成される。   The issue annotation assigning unit 1603 uses the issue extraction model 1610 to extract the issue expression from the sentences in the document stored in the document DB 302. Specifically, for example, the issue annotation assigning unit 1603 applies the issue extraction model 1610 to identify the issue expression to which the character string included in the sentence in the document belongs. Next, the issue annotation assigning unit 1603 uses the issue identification model 1620 to associate the specified issue expression with the issue in the issue ontology information 701. Then, the issue annotation assignment unit 1603 assigns an issue tag to the character string corresponding to the issue expression. At this time, the issue annotation giving unit 1603 refers to the issue ontology information 701 and sets the issue associated with the issue expression using the issue identification model 1620 as the issue-ID. As a result, an annotation is added to the document in the document DB 302, and a document group 1630 with a dispute annotation is generated.

争点連鎖解析部1604は、争点アノテーション付き文書群1630の各文書内に連続的に出現する2つの文(先行文と後続文)を組として先行文に出現する争点と後続文に出現する争点との組み合わせとその所在情報を特定する。なお、争点連鎖解析部1604は、文中から争点表現が特定された場合は、争点オントロジ情報701を参照して、争点同定モデル1620を用いて関連付けられた争点に変換する。争点連鎖解析部1604は、同一の組み合わせの出現回数を計数する。そして、争点連鎖解析部1604は、先行文の争点と後続文の争点との組み合わせごとに、その所在情報と頻度である出現回数とを有するエントリを争点連鎖モデル703に追加することにより、図12に示したような争点連鎖モデル703を生成する。   The dispute chain analysis unit 1604 includes a problem that appears in the preceding sentence and a problem that appears in the subsequent sentence as a pair of two sentences (preceding sentence and succeeding sentence) that appear consecutively in each document of the document group 1630 with the annotated point. And the location information is identified. When the dispute point expression is specified from the sentence, the issue chain analysis unit 1604 refers to the issue point ontology information 701 and converts it into an associated issue point using the issue point identification model 1620. The issue chain analysis unit 1604 counts the number of appearances of the same combination. Then, the issue chain analysis unit 1604 adds, to the issue chain model 703, an entry having the location information and the frequency of appearance for each combination of the issue of the preceding sentence and the issue of the subsequent sentence. The issue chain model 703 as shown in FIG.

なお、争点連鎖解析部1604は、争点表現を争点としてまとめ上げずに、先行文に出現する争点表現と後続文に出現する争点表現との組み合わせとその所在情報を特定することとしてもよい。   Note that the issue chain analysis unit 1604 may identify the combination of the issue expression appearing in the preceding sentence and the issue expression appearing in the subsequent sentence and the location information thereof without collecting the issue expressions as issue points.

また、争点連鎖解析部1604は、後続文に出現する争点表現を争点に変換するのではなく、後続文と後続文に出現する争点表現との組を、先行文の争点(または争点表現)に関連付けたエントリを保持してもよい。この場合、先行文に出現する争点から後続文のに出現する争点を探索する方法が異なる。この場合の争点連鎖モデル703では先行文に出現する争点が与えられると、後続文と後続文に出現する争点表現との組のリストが返される。当該リストを用いて後続文に出現する争点を決定する場合、争点連鎖解析部1604は、リストからある確率分布に従って争点表現と文の組をサンプリングする。   Also, the issue chain analysis unit 1604 does not convert the issue expression that appears in the subsequent sentence into an issue, but uses the combination of the issue sentence and the issue expression that appears in the subsequent sentence as the issue (or issue expression) of the preceding sentence. The associated entry may be retained. In this case, the method of searching for the issue point appearing in the subsequent sentence differs from the issue point appearing in the preceding sentence. In this case, when the issues appearing in the preceding sentence are given in the issue chain model 703, a list of pairs of the succeeding sentence and the issue expression appearing in the following sentence is returned. When determining the issue point appearing in the subsequent sentence using the list, the issue chain analysis unit 1604 samples the combination of the issue expression and the sentence according to a certain probability distribution from the list.

たとえば、争点連鎖解析部1604は、一様分布に従って事例をサンプリングする際には、リストのエントリを互いに等しい確率でサンプリングし、選ばれた後続文に出現する争点表現を返す。この場合、後続文で多く登場する争点表現が選ばれやすくなるため、頻度でまとめあげたときと同様の効果がある。一方、争点連鎖解析部1604は、各後続文に出現する争点表現とテーマ表現との類似度を計算し、類似度の大きさに比例する確率分布で事例をサンプリングしてもよい。この場合、争点連鎖解析部1604は、テーマ表現との類似度が高い争点表現(争点でもよい)を選択する。これにより、テーマ表現とのつながりを加味して争点表現(争点でもよい)を選択することができる。   For example, when sampling the cases according to the uniform distribution, the dispute chain analysis unit 1604 samples the list entries with a probability equal to each other, and returns the issue expression appearing in the selected subsequent sentence. In this case, the issue expression that appears frequently in the succeeding sentence can be easily selected, and therefore, the same effect as when the frequency is summarized. On the other hand, the issue chain analysis unit 1604 may calculate the similarity between the issue expression and the theme expression that appear in each subsequent sentence, and may sample the cases with a probability distribution proportional to the magnitude of the similarity. In this case, the issue chain analysis unit 1604 selects an issue expression (or issue issue) having a high degree of similarity to the theme expression. Thereby, the issue expression (or issue issue) can be selected in consideration of the connection with the theme expression.

<並び替え処理手順例>
図17は、文書処理システム300の計算機301による並び替え処理手順例を示すフローチャートである。なお、並び替え処理前に、人手により、または入力部710、検索部711および分類部712の処理により、文書DB302内の文書群が複数の文集合303−iに分類されており、並び替え処理対象として、任意の文集合303−iが選択されているものとする。
<Example of sorting process>
FIG. 17 is a flowchart illustrating an example of a reordering process procedure performed by the computer 301 of the document processing system 300. Prior to the sorting process, the document group in the document DB 302 is classified into a plurality of sentence sets 303-i manually or by the processing of the input unit 710, the search unit 711, and the classification unit 712. It is assumed that an arbitrary sentence set 303-i is selected as a target.

まず、取得部720が、並び替え処理対象の文集合303−iとテーマとを取得する(ステップS1701)。つぎに、分析部721が、取得された文集合303−i内の文ごとに、テーマ表現、争点表現、肯定表現、否定表現、促進表現、抑制表現、および、権威を特定する(ステップS1702)。これにより、図9に示したような文分析結果900が得られる。   First, the acquisition unit 720 acquires a sentence set 303-i and a theme to be rearranged (step S1701). Next, the analysis unit 721 specifies the theme expression, issue expression, positive expression, negative expression, promotion expression, suppression expression, and authority for each sentence in the acquired sentence set 303-i (step S1702). . Thereby, the sentence analysis result 900 as shown in FIG. 9 is obtained.

そして、文種判定部722が、取得された文集合303−i内の文ごとに、文種を判定する(ステップS1703)。これにより、図10に示したような文分析結果900が得られる。   Then, the sentence type determination unit 722 determines a sentence type for each sentence in the acquired sentence set 303-i (step S1703). Thereby, the sentence analysis result 900 as shown in FIG. 10 is obtained.

このあと、テンプレート選択部723が、テンプレートDB702から未選択のテンプレートTを選択する(ステップS1704)。テンプレート選択部723がテンプレートTを選択できない場合(ステップS1705:No)、エラー出力をして終了する(ステップS1706)。たとえば、未選択のテンプレートTがテンプレートDB702にない場合や、選択回数が所定回数を超過した場合には、テンプレート選択部723がテンプレートTを選択できないため、エラー出力をする。   Thereafter, the template selection unit 723 selects an unselected template T from the template DB 702 (step S1704). If the template selection unit 723 cannot select the template T (step S1705: No), an error is output and the process ends (step S1706). For example, when there is no unselected template T in the template DB 702, or when the number of selections exceeds a predetermined number, the template selection unit 723 cannot select the template T and outputs an error.

一方、テンプレート選択部723がテンプレートTを選択できた場合(ステップS1705:Yes)、組み合わせ処理部741は、争点選択部742により争点を選択して、選択した争点を含む文を選択テンプレートTのスロット1105に埋め込む(ステップS1707)。   On the other hand, when the template selection unit 723 can select the template T (step S1705: Yes), the combination processing unit 741 selects a point of dispute by using the point-of-interest selection unit 742, and selects a sentence including the selected point as a slot of the selected template T. It is embedded in 1105 (step S1707).

そして、算出部725は、文が埋め込まれた選択テンプレートTについて評価値を算出する(ステップS1708)。このあと、妥当性判定部726が、算出部725によって算出された選択テンプレートTについての評価値に基づいて、並び替え処理を終了するか否かを判定する(ステップS1709)。終了しないと判定した場合(ステップS1709:No)、ステップS1704に戻り、テンプレート選択部723が、テンプレートTの選択を再試行する(ステップS1704)。一方、終了すると判定された場合(ステップS1709:Yes)、出力部727は、妥当性判定部726による判定結果である選択テンプレートTに埋め込まれた文の組み合わせ、すなわち、論述文である出力情報1500を出力する(ステップS1710)。これにより、一連の並び替え処理を終了する。   Then, the calculation unit 725 calculates an evaluation value for the selected template T in which the sentence is embedded (step S1708). Thereafter, the validity determination unit 726 determines whether or not to end the rearrangement process based on the evaluation value for the selected template T calculated by the calculation unit 725 (step S1709). When it determines with not complete | finishing (step S1709: No), it returns to step S1704 and the template selection part 723 tries selection of the template T again (step S1704). On the other hand, if it is determined to end (step S1709: Yes), the output unit 727 outputs a combination of sentences embedded in the selected template T that is a determination result by the validity determination unit 726, that is, output information 1500 that is a statement sentence. Is output (step S1710). Thereby, a series of rearrangement processes are completed.

<並び替え処理の適用例>
ここで、上述した並び替え処理の適用例について説明する。並び替え処理は、たとえば、ディベートの立論システムに実装することができる。
<Application example of rearrangement processing>
Here, an application example of the rearrangement process described above will be described. The rearrangement process can be implemented, for example, in a debate argument system.

ディベートでのテーマは、いわゆる論題である。たとえば、「ジャンクフードを禁止すべきである。」という論題が挙げられたとする。また、ディベートでのテーマ表現とは、論題の文中に登場する語、及びその関連語を示す。なお、ディベートにおいては、肯定側、否定側の二つの立場があるため、テーマ表現が論題において肯定されているのか、否定されているのかは重要な情報である。そのため、テーマ表現とその肯定・否定の属性の両方がテーマ表現として扱われる。   The theme at the debate is a so-called topic. For example, the topic “Junk food should be banned” is cited. The theme expression in the debate indicates a word appearing in the sentence of the topic and its related word. In debate, since there are two positions, the positive side and the negative side, it is important information whether the theme expression is positive or negative in the topic. Therefore, both the theme expression and the positive / negative attribute are treated as theme expressions.

また、ディベートにおいては、肯定側、否定側の二つの立場があるため、文の中で発言者が明示されている場合に、その発言者を抽出する必要がある。発言者の特定は、たとえば、上述した権威特定部735が実行する。   In addition, since there are two positions in the debate, the positive side and the negative side, it is necessary to extract the speaker when the speaker is specified in the sentence. The speaker is specified by, for example, the authority specifying unit 735 described above.

以下では、ディベートの肯定側立論に適用した場合を例に挙げる。本来、ディベートの立論の場合には、文種として、プラン、用語の定義、現状説明、重要性の説明、解決性の説明などが求められる。肯定側の立場の場合で、それぞれの文種を説明する。   In the following, the case where it is applied to the positive argument of debate is given as an example. Originally, in the case of debate argument, a plan, definition of terms, explanation of the current situation, explanation of importance, explanation of resolution, etc. are required as sentence types. In the case of an affirmative position, explain each sentence type.

プランとは、論題を実現する具体的な施策を表す文である。たとえば、「所得に上限を設定すべきである。」という論題に対して「年間の所得の上限を1000万円に設定する。」というように具体的に実行可能な施策を示したものがプランである。   A plan is a sentence that represents a specific measure for realizing the topic. For example, a plan that shows specific measures that can be implemented, such as “set the upper limit of annual income to 10 million yen” for the topic “should set an upper limit on income”. It is.

用語の定義とは、論題中に現れる語や、立論の際に使用する語の定義文である。前記の例では、「所得」とは「日本に居住する人の所得」を表す、などのように議論の範囲が指定される。   A term definition is a definition sentence of a word that appears in a topic or a word that is used in an argument. In the above example, the scope of discussion is designated such that “income” represents “income of a person living in Japan”.

現状説明とは、プランを採用していない現在の状況を表す。たとえば、前記の例の場合では、所得の上限がないために「所得の偏りが大きい」などのデメリットを記述した文である。   The current situation description represents the current situation where the plan is not adopted. For example, in the case of the above example, there is no upper limit of income, so the sentence describes a demerit such as “a large income bias”.

並び替え処理をディベートの肯定側立論に適用した場合、計算機301は、肯定側立論のすべてを生成するのではなく、最低限の要素として立場の表明(主張)、その理由、事例となる文を選択し、順に並べることになる。   When the reordering process is applied to debate affirmative arguments, the computer 301 does not generate all of the affirmative arguments. Select and arrange them in order.

論題「ジャンクフードを禁止すべきである」が与えられた場合、テーマ表現特定部731は、論題からテーマ表現である「ジャンクフード」を特定する。また、肯定・否定表現特定部733は、論題から肯定表現または否定表現を特定する。この場合、論題に「禁止」が含まれているため、肯定・否定表現特定部733は、否定表現として「禁止」を特定する。したがって、テーマ表現「ジャンクフード」の肯定・否定属性は、「否定」となる。   When the topic “should ban junk food” is given, the theme expression specifying unit 731 specifies “junk food” as the theme expression from the topic. The affirmation / negative expression specifying unit 733 specifies a positive expression or a negative expression from the topic. In this case, since “prohibited” is included in the topic, the affirmative / negative expression specifying unit 733 specifies “prohibited” as the negative expression. Therefore, the positive / negative attribute of the theme expression “junk food” is “negative”.

また、論題に関連する文集合303−iが分析対象としてユーザに選択される。ここでは、トピックが「健康」に分類された文集合303−iが選択されたものとする。   In addition, a sentence set 303-i related to the topic is selected by the user as an analysis target. Here, it is assumed that the sentence set 303-i in which the topic is classified as “health” is selected.

計算機301は、取得部720により、文集合303−iおよびテーマ表現としてジャンクフードの否定を取得する。そのため、並び替え処理では、「ジャンクフード」を「否定」する、主張、理由、例示を示す文を集め、集めた文を主張、理由、例示の順に並べることになる。   The computer 301 uses the obtaining unit 720 to obtain the sentence set 303-i and junk food denial as the theme expression. Therefore, in the rearrangement process, sentences indicating claims, reasons, and examples that “deny” “junk food” are collected, and the collected sentences are arranged in the order of claims, reasons, and examples.

分析部721は、文集合303−iの各文に対して、文分析を実行し、図9に示した文分析結果900を得る。図9では、4つの文が列挙される。文の太字の文字列がテーマ表現、下線を引いてある文字列が争点表現である。テーマ表現は、論題中に登場する語だけではなく、その上位、下位語、具体的な語彙も含むため、テーマ表現「ジャンクフード」に対して「ファーストフード」や「ソフトドリンク」もテーマ表現として扱ってもよい。このような類義語については、分析部721が、図示しない類義語の辞書テーブルを参照して特定することになる。また、類義語の辞書テーブルのかわりに、争点オントロジ情報701を用いてもよい。   The analysis unit 721 performs sentence analysis on each sentence in the sentence set 303-i, and obtains a sentence analysis result 900 illustrated in FIG. In FIG. 9, four sentences are listed. The bold text in the sentence is the theme expression, and the underlined text is the issue expression. The theme expression includes not only the words that appear in the thesis, but also the upper and lower terms, and specific vocabulary. Therefore, “Fast Food” and “Soft Drink” are the theme expressions for the theme expression “Junk Food”. May be handled. Such a synonym is identified by the analysis unit 721 with reference to a synonym dictionary table (not shown). Also, the dispute point ontology information 701 may be used instead of the synonym dictionary table.

また、図9において、争点フィールド903では、文中に登場する争点の抽象度が揃えられる。たとえば、争点表現「課税」は上位概念である争点「税金」に、争点表現「肥満」は上位概念である争点「健康」揃えられる。分析部721は、この変換処理を、争点オントロジ情報701を用いて実行する。   In FIG. 9, in the issue field 903, the abstraction levels of issues appearing in the sentence are aligned. For example, the issue expression “tax” is aligned with the issue “tax” as a general concept, and the issue expression “obesity” is aligned with the issue “health” as a general concept. The analysis unit 721 executes this conversion process using the issue point ontology information 701.

肯定・否定フィールド904において、項番3と項番4のエントリに否定が挙げられている。項番3では争点である「健康」の「リスク」について述べている。したがって、肯定・否定表現特定部733は、争点「健康」の係り受け先である「リスク」は、争点「健康」を抑制するため、「リスク」を争点「健康」の否定表現と判定する。一方、争点「健康」の係り受け先が「メリット」など争点「健康」を促進する場合は、「メリット」を争点「健康」の肯定表現と判定する。   In the affirmation / denial field 904, the entry of item number 3 and item number 4 is negated. Item No. 3 describes the “risk” of “health” that is the issue. Therefore, the affirmation / negative expression specifying unit 733 determines that “risk”, which is the destination of the issue “health”, is “negative” for the issue “health” in order to suppress the issue “health”. On the other hand, when the subject of the issue “Health” promotes the issue “Health” such as “Merit”, the “Merit” is determined as an affirmative expression of the issue “Health”.

促進・抑制フィールド905において、項番2と項番4のエントリにそれぞれ被抑制と促進が挙げられている。ここで、項番2の文では、テーマ表現「ジャンクフード」は、「規制」という抑制表現の受動態での主語、つまり抑制の対象として記述されている。したがって、項番2のエントリにおける促進・抑制フィールド905の値は、「被抑制」となる。また、項番4の文では、テーマ表現「ジャンクフード」が「助長」という促進表現の能動態の主語、つまり促進の動作主体として記述されている。したがって、項番4のエントリにおける促進・抑制フィールド905の値は、「促進」となる。   In the promotion / suppression field 905, the entries of item number 2 and item number 4 respectively indicate suppression and promotion. Here, in the sentence of item number 2, the theme expression “junk food” is described as the subject in the passive state of the suppression expression “regulation”, that is, the object of suppression. Therefore, the value of the promotion / suppression field 905 in the entry of item number 2 is “suppressed”. In the sentence No. 4, the theme expression “junk food” is described as the subject of the active expression of the promotion expression “encouragement”, that is, the action subject of promotion. Therefore, the value of the promotion / suppression field 905 in the entry of item number 4 is “promotion”.

また、文種判定部722の文種判定処理が実行されることにより、図9の文種フィールド907に文種が登録されて、図10に示した文分析結果900が得られる。ここでは、項番1および項番2のエントリは「事例」、項番3のエントリは「主張」、項番4のエントリは「理由」と判定されたものとする。   Also, by executing the sentence type determination process of the sentence type determination unit 722, the sentence type is registered in the sentence type field 907 of FIG. 9, and the sentence analysis result 900 shown in FIG. 10 is obtained. Here, it is assumed that the entries of item number 1 and item number 2 are determined to be “example”, the item number 3 is determined to be “claim”, and the entry of item number 4 is determined to be “reason”.

項番3の文はテーマ表現の否定という意見を述べているため、「主張」となる。項番4の文は、テーマ表現「ジャンクフード」が争点表現「肥満」という否定表現を促進している、つまり、テーマ表現「ジャンクフード」の悪影響を説明しているため、理由となった。最後に項番1および項番2の文は、テーマ表現「ジャンクフード」に関する肯定・否定表現がなく、テーマ表現「ジャンクフード」が促進・抑制する影響も述べられていない。しかし、項番1および項番2の文から、権威特定部735により「議員」や「政府」という権威の語句が特定される。したがって、文種判定部722は、項番1および項番2の文の文種を「事例」として特定する。   The sentence in No. 3 is an “assertion” because it expresses the opinion that the theme expression is denied. The sentence of No. 4 is the reason why the theme expression “junk food” promotes the negative expression of the issue expression “obesity”, that is, explains the adverse effects of the theme expression “junk food”. Lastly, the sentences of No. 1 and No. 2 have no positive / negative expressions concerning the theme expression “junk food”, and the influence of the theme expression “junk food” is neither promoted nor suppressed. However, from the sentences of No. 1 and No. 2, the authority specifying unit 735 specifies the words of authority such as “Member” and “Government”. Therefore, the sentence type determination unit 722 identifies the sentence types of the sentences of item number 1 and item number 2 as “examples”.

また、テンプレート選択部723は、テンプレートDB702のテンプレートTを選択するが、本例の場合、主張、理由、事例を文種に含むテンプレートT1が選択されると他のテンプレートT(たとえば、「現状説明」や「主張の重要性」が「True」)よりも高い評価値が算出部725により算出されることになる。   In addition, the template selection unit 723 selects the template T in the template DB 702. In this example, when the template T1 including the assertion, reason, and example in the sentence type is selected, another template T (for example, “Current Status Description”) is selected. ”Or“ importance of claim ”is higher than“ True ”), the calculation unit 725 calculates an evaluation value.

また、組み合わせ処理部741は、選択テンプレートTに文を埋め込む。組み合わせ処理部741は、争点連鎖モデル703を参照し、過去に見られた内容の並びを優先して、各文種の中から文を選択し、文を並び変える。並び変えられた文のリストが出力候補となる。   In addition, the combination processing unit 741 embeds a sentence in the selected template T. The combination processing unit 741 refers to the disputed chain model 703, gives priority to the arrangement of contents seen in the past, selects sentences from each sentence type, and rearranges the sentences. The rearranged sentence list becomes an output candidate.

算出部725は、選択テンプレートTの充足状況や関連性を確認する。たとえば、選択テンプレートTがT1である場合、選択テンプレートT1の順序1から順序3のスロット1105が埋まっていること、特に、必須フィールド1104が必須である順序1および順序2のスロット1105が埋まっていることを確認する。算出部725は、各スロット1105の争点の連鎖が争点連鎖モデル703に存在し、かつ、争点の連鎖が「健康」から「健康」、または「健康」から「税金」という頻度の高い関係であることを確認し、評価値を返す。   The calculation unit 725 confirms the satisfaction status and relevance of the selected template T. For example, when the selected template T is T1, the slots 1105 of the order 1 to the order 3 of the selection template T1 are filled, in particular, the slots 1105 of the order 1 and the order 2 where the mandatory field 1104 is mandatory are filled. Make sure. The calculation unit 725 has a relationship in which the chain of issues of each slot 1105 exists in the issue chain model 703 and the chain of issues is frequently “health” to “health” or “health” to “tax”. Confirm that the evaluation value is returned.

妥当性判定部726は、たとえば、算出した評価値としきい値とを比較し、閾値以上であれば、終了と判定する。出力部727は、終了と判定された場合に、図15に示したような判定結果である出力情報1500を出力する。これにより、ディベートにおける立論が生成される。   The validity determination unit 726 compares, for example, the calculated evaluation value with a threshold value, and determines that the process is finished if it is equal to or greater than the threshold value. The output unit 727 outputs the output information 1500, which is the determination result as shown in FIG. This generates arguments in the debate.

このように、本実施例によれば、論理に一貫性のある出力文を生成することができる。また、対象となる文に、テーマ表現と、争点表現を肯定または否定する肯定・否定表現との間に関係性がある場合は、当該文を「主張」という文種に判定することができる。また、テーマ表現が、肯定・否定表現を促進または抑制する場合や、テーマ表現によって肯定・否定表現が促進または抑制される場合は、当該文を「理由」という文種に判定することができる。また、テーマ表現について肯定・否定表現がなく、かつ、権威が特定される場合は、当該文を「事例」という文種に判定することができる。   Thus, according to the present embodiment, it is possible to generate an output statement that is logically consistent. Further, when the target sentence has a relationship between the theme expression and the affirmative / negative expression that affirms or denies the issue expression, the sentence can be determined as a sentence type “claim”. When the theme expression promotes or suppresses positive / negative expressions, or when the positive / negative expression is promoted or suppressed by theme expressions, the sentence can be determined as a sentence type of “reason”. Further, when there is no affirmative / negative expression for the theme expression and the authority is specified, the sentence can be determined as a sentence type “example”.

また、テンプレートTの各文種に重要度が設定されている場合には、当該文種のスロット1105に埋め込まれた文の組み合わせについて、重要度に基づく評価値を算出することができる。したがって、文の組み合わせがテンプレートTにどの程度従っているかを客観的に判断することができる。   When the importance level is set for each sentence type of the template T, an evaluation value based on the importance degree can be calculated for a sentence combination embedded in the slot 1105 of the sentence type. Therefore, it is possible to objectively determine how much the sentence combination follows the template T.

また、争点連鎖モデル703を適用することにより、過去の話題の転換に基づいて文を並べるため、話題が転換する際にも一貫性をもって文を並び変えることができる。また、争点連鎖モデル703の各エントリには連鎖の出現回数である頻度が設定されているため、争点連鎖モデル703の頻度を適用することにより、争点の連鎖が起こりやすい文の組み合わせを選択することができる。したがって、論理に一貫性のある出力文を高精度に生成することができる。また、争点オントロジ情報701を適用することにより、文中の具体的な争点表現を抽象度の高い争点にまとめ上げることができ、文の組み合わせの自由度の向上を図ることができる。   In addition, by applying the issue chain model 703, sentences are arranged based on the change of the past topic, so that the sentences can be rearranged consistently even when the topic changes. In addition, since the frequency that is the number of occurrences of the chain is set in each entry of the issue chain model 703, by selecting the frequency of the issue chain model 703, a combination of sentences that are likely to cause chain of issues is selected. Can do. Therefore, it is possible to generate an output sentence that is logically consistent with high accuracy. Also, by applying the issue point ontology information 701, specific issue points in the sentence can be summarized into issues with a high degree of abstraction, and the degree of freedom of combination of sentences can be improved.

以上、本発明を添付の図面を参照して詳細に説明したが、本発明はこのような具体的構成に限定されるものではなく、添付した請求の範囲の趣旨内における様々な変更及び同等の構成を含むものである。   Although the present invention has been described in detail with reference to the accompanying drawings, the present invention is not limited to such specific configurations, and various modifications and equivalents within the spirit of the appended claims Includes configuration.

なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加・削除・置換をしてもよい。   The present invention is not limited to the above-described embodiments, and includes various modifications and equivalent configurations within the scope of the appended claims. For example, the above-described embodiments have been described in detail for easy understanding of the present invention, and the present invention is not necessarily limited to those having all the configurations described. A part of the configuration of one embodiment may be replaced with the configuration of another embodiment. Moreover, you may add the structure of another Example to the structure of a certain Example. In addition, for a part of the configuration of each embodiment, another configuration may be added, deleted, or replaced.

また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。   In addition, each of the above-described configurations, functions, processing units, processing means, etc. may be realized in hardware by designing a part or all of them, for example, with an integrated circuit, and the processor realizes each function. It may be realized by software by interpreting and executing the program to be executed.

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、ICカード、SDカード、DVD等の記録媒体に格納することができる。   Information such as programs, tables, and files that realize each function can be stored in a storage device such as a memory, a hard disk, and an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, and a DVD.

また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。   Further, the control lines and the information lines are those that are considered necessary for the explanation, and not all the control lines and the information lines that are necessary for the mounting are shown. In practice, it can be considered that almost all the components are connected to each other.

Claims (9)

プログラムを実行するプロセッサと、前記プログラムを記憶するメモリと、を有する計算機が実行する文の並び替え方法であって、
前記プロセッサは、文の集合と、文の種類を特定する複数の文種と当該複数の文種の並び順序とを規定したテンプレートと、語句に関するルールまたは学習モデルと、を記憶する記憶装置にアクセス可能であり、
前記プロセッサは、
任意のテーマ文を構成する語句または当該語句に関連する語句であるテーマ表現を規定する単語に関するルールまたは学習モデルに基づいて、前記文の集合内の複数の文の各文から、前記テーマ表現を特定するテーマ表現特定処理と、
前記テーマ表現と前記文種との関連性に関するルールまたは学習モデルに基づいて、前記テーマ表現特定処理によって特定されたテーマ表現を含む文ごとに文種を判定する文種判定処理と、
前記文種判定処理によって文種が判定された前記複数の文の中から、前記テンプレートに規定された前記複数の文種に該当する文の集合を選択し、当該選択した前記文の集合を前記並び順序にしたがって並び替える並び替え処理と、
前記並び替え処理による並び替え後の文の集合を出力する出力処理と、
を実行することを特徴とする文の並び替え方法。
A statement rearrangement method executed by a computer having a processor for executing a program and a memory for storing the program,
The processor accesses a storage device that stores a template that defines a set of sentences, a plurality of sentence types that specify a sentence type, and an arrangement order of the plurality of sentence types, and a rule or learning model related to a phrase. Is possible,
The processor is
Based on a rule or a learning model for a word that defines a theme expression that is a word constituting an arbitrary theme sentence or a phrase related to the phrase, the theme expression is obtained from each sentence of a plurality of sentences in the sentence set. A theme expression identification process to be identified;
A sentence type determination process for determining a sentence type for each sentence including the theme expression specified by the theme expression specifying process based on a rule or learning model relating to the relationship between the theme expression and the sentence type ;
From the plurality of sentences whose sentence types have been determined by the sentence type determination process, a set of sentences corresponding to the plurality of sentence types specified in the template is selected, and the selected set of sentences is A sorting process for sorting according to the sorting order;
An output process for outputting a set of sentences after sorting by the sorting process;
A method for rearranging sentences, characterized in that
前記プロセッサは、
前記各文から、争点を例示する語句である争点表現を規定する単語に関するルールまたは学習モデルに基づいて、前記争点表現を特定する争点表現特定処理と、
肯定または否定する語句である肯定・否定表現に関するルールまたは学習モデルに基づいて、前記各文から、前記争点表現特定処理によって特定された争点表現を肯定または否定する肯定・否定表現を特定する肯定・否定表現特定処理と、を実行し、
前記文種判定処理では、前記プロセッサは、前記テーマ表現と前記肯定・否定表現と前記文種との関連性についてのルールまたは学習モデルに基づいて、前記各文に含まれるテーマ表現、前記肯定・否定表現特定処理によって特定された前記各文に含まれる前記争点表現に対する肯定・否定表現の対象になっている文の文種を前記文ごとに判定することを特徴とする請求項1に記載の文の並び替え方法。
The processor is
From each sentence , based on a rule or a learning model relating to a word that defines a dispute expression that is a word that exemplifies a dispute, a dispute expression specifying process for specifying the dispute expression;
Based on rules or learning models for positive-negative expression is a word that positive or negative, from said each statement, identifying the positive or to that affirmative constant-negation denied issue expressions identified by the issue representation specifying process A positive / negative expression specifying process,
In the sentence type determination process, the processor determines that the theme expression included in each sentence is the affirmation based on a rule or a learning model regarding the relationship between the theme expression, the positive / negative expression and the sentence type. 2. The sentence type of a sentence that is a target of an affirmative / negative expression for the point expression included in each sentence specified by the negative expression specifying process is determined for each sentence. How to rearrange sentences.
前記プロセッサは、
前記肯定・否定表現を促進する語句、前記テーマ表現が促進される語句、前記テーマ表現を抑制する語句、または、前記テーマ表現が抑制される語句である促進・抑制表現を規定する単語に関するルールまたは学習モデルに基づいて、前記各文に含まれるテーマ表現について、前記文ごとに、前記促進・抑制表現を特定する促進・抑制表現特定処理を実行し、
前記文種判定処理では、前記プロセッサは、前記テーマ表現と前記促進・抑制表現と前記文種との関連性についてのルールまたは学習モデルに基づいて、前記各文に含まれるテーマ表現、前記促進・抑制表現特定処理によって特定された前記各文に含まれる促進・抑制表現の対象になっている文の文種を前記文ごとに判定することを特徴とする請求項2に記載の文の並び替え方法。
The processor is
Rules for promoting a positive / negative expression, a phrase that promotes the theme expression, a phrase that suppresses the theme expression, or a word that defines a promotion / suppression expression that is a phrase that suppresses the theme expression, or Based on the learning model, for the theme expression included in each sentence, for each sentence, execute a promotion / suppression expression specifying process for specifying the promotion / suppression expression,
In the sentence type determination process, the processor determines whether the theme expression included in each sentence is the promotion based on a rule or a learning model regarding the relationship between the theme expression, the promotion / suppression expression, and the sentence type. The sentence sequence according to claim 2, wherein a sentence type of a sentence that is a target of a promotion / suppression expression included in each sentence specified by the suppression expression specifying process is determined for each sentence. Replacement method.
前記プロセッサは、
前記各文から、発言主体を示す語句である権威を特定する権威特定処理を実行し、
前記文種判定処理では、前記プロセッサは、前記権威を規定する単語に関するルールまたは学習モデルに基づいて、前記権威特定処理によって特定された権威を含む文ごとに文種を判定することを特徴とする請求項1に記載の文の並び替え方法。
The processor is
From each of the sentences, execute an authority specifying process that specifies an authority that is a word indicating a speaking subject,
In the sentence type determination process, the processor determines a sentence type for each sentence including an authority specified by the authority specifying process based on a rule or a learning model relating to a word defining the authority. The sentence rearrangement method according to claim 1.
前記テンプレートには、文種に関する重要度が規定されており、
前記プロセッサは、
前記並び替え処理による並び替え後の文の集合についての前記テンプレートの充足状況と、前記テンプレートによって与えられた、前記並び順序により特定される文の文種に関する重要度と、に基づいて、前記充足状況に関する評価値を算出する算出処理と、
前記算出処理によって算出された評価値に基づいて、前記並び替え後の文の集合の妥当性を判定する妥当性判定処理と、を実行し、
前記出力処理では、前記プロセッサは、前記妥当性判定処理によって妥当であると判定された場合、前記並び替え後の文の集合である論述文を出力することを特徴とする請求項1に記載の文の並び替え方法。
The template defines the importance of sentence types,
The processor is
Satisfaction based on the satisfaction status of the template with respect to the set of sentences after rearrangement by the rearrangement processing and the importance regarding the sentence type of the sentence specified by the arrangement order given by the template. A calculation process for calculating an evaluation value for the situation ;
A validity determination process for determining the validity of the set of sentences after the rearrangement based on the evaluation value calculated by the calculation process;
2. The output process according to claim 1, wherein in the output process, the processor outputs a statement sentence that is a set of the rearranged sentences when the validity determination process determines that the process is valid. How to sort sentences.
前記記憶装置は、複数の争点が連鎖する状態を規定し、かつ、連鎖する争点間に連鎖の頻度が設定された争点連鎖モデルを記憶し、
前記並び替え処理では、前記プロセッサは、前記文種が判定された前記複数の文の中から、前記テンプレートに規定された前記複数の文種に該当する文の集合を、前記争点連鎖モデルに従って、先行文の争点から連鎖する争点を含む後続文を選択して並び替え、
前記プロセッサは、
前記並び替え処理による並び替え後の文の集合について、前記争点連鎖モデルによって与えられた、前記並び順序により特定される前記先行と前記後続文との間の連鎖の頻度の総和に基づいて、前記先行文と前記後続文との関連性を示す評価値を算出する算出処理と、
前記算出処理によって算出された評価値に基づいて、前記並び替え後の文の集合の妥当性を判定する妥当性判定処理と、を実行し、
前記出力処理では、前記プロセッサは、前記妥当性判定処理によって妥当であると判定された場合、前記並び替え後の文の集合を出力することを特徴とする請求項1に記載の文の並び替え方法。
The storage device stores a dispute chain model in which a plurality of issues are chained and a chain frequency is set between the chained issues.
In the rearrangement process, the processor selects a set of sentences corresponding to the plurality of sentence types defined in the template from the plurality of sentences for which the sentence type is determined according to the issue chain model . Select and rearrange subsequent sentences that contain issues linked to the issues of the previous sentence ,
The processor is
For a set of statements of the rearranged by the rearrangement processing, the issue given by chaining model, based on the sum of the frequencies of the chain between the preceding sentence and the subsequent statements specified by the arrangement order , A calculation process for calculating an evaluation value indicating a relationship between the preceding sentence and the succeeding sentence ;
A validity determination process for determining the validity of the set of sentences after the rearrangement based on the evaluation value calculated by the calculation process;
2. The sentence rearrangement according to claim 1, wherein, in the output process, the processor outputs the set of rearranged sentences when it is determined to be valid by the validity determination process. 3. Method.
前記記憶装置は、複数の争点が連鎖する状態を規定した争点連鎖モデルを記憶し、
前記並び替え処理では、前記プロセッサは、前記文種が判定された前記複数の文の中から、前記テンプレートに規定された前記複数の文種に該当する文の集合を、前記争点連鎖モデルに従って、先行文の争点から連鎖する争点を含む後続文を選択して並び替えることを特徴とする請求項1に記載の文の並び替え方法。
The storage device stores an issue chain model that defines a state in which multiple issues are chained,
In the rearrangement process, the processor selects a set of sentences corresponding to the plurality of sentence types defined in the template from the plurality of sentences for which the sentence type is determined according to the issue chain model . 2. The method of rearranging sentences according to claim 1, wherein a subsequent sentence including an issue chained from an issue of the preceding sentence is selected and rearranged.
前記記憶装置は、争点と争点表現との対応関係を規定した争点オントロジ情報を記憶し、
前記並び替え処理では、前記プロセッサは、前記文種が判定された前記複数の文の各文に含まれる争点表現を、前記争点オントロジ情報を参照して対応する争点に変換し、前記テンプレートに規定された前記複数の文種に該当する文の集合を、前記各文に含まれる争点表現から変換された争点を用いて前記争点連鎖モデルに従って選択して並び替えることを特徴とする請求項6または7に記載の文の並び替え方法。
The storage device stores issue ontology information that defines the correspondence between issue and issue expression,
In the rearrangement process, the processor converts a point expression included in each sentence of the plurality of sentences for which the sentence type has been determined into a corresponding point by referring to the point ontology information, and is defined in the template. The set of sentences corresponding to the plurality of sentence types is selected and rearranged according to the issue chain model using issues converted from issue expressions included in each sentence, or rearranged. The sentence rearrangement method according to 7.
プログラムを実行するプロセッサと、前記プログラムを記憶するメモリと、を有する計算機であって、
前記プロセッサは、文の集合と、文の種類を特定する複数の文種と当該複数の文種の並び順序とを規定したテンプレートと、語句に関するルールまたは学習モデルと、を記憶する記憶装置にアクセス可能であり、
前記プロセッサは、
任意のテーマ文を構成する語句または当該語句に関連する語句であるテーマ表現を規定する単語に関するルールまたは学習モデルに基づいて、前記文の集合内の複数の文の各文から、前記テーマ表現を特定するテーマ表現特定処理と、
前記テーマ表現と前記文種との関連性についてのルールまたは学習モデルに基づいて、前記テーマ表現特定処理によって特定されたテーマ表現を含む文ごとに文種を判定する文種判定処理と、
前記文種判定処理によって文種が判定された前記複数の文の中から、前記テンプレートに規定された前記複数の文種に該当する文の集合を選択し、当該選択した前記文の集合を前記並び順序にしたがって並び替える並び替え処理と、
前記並び替え処理による並び替え後の文の集合を出力する出力処理と、
を実行することを特徴とする計算機。
A computer having a processor for executing a program and a memory for storing the program,
The processor accesses a storage device that stores a template that defines a set of sentences, a plurality of sentence types that specify a sentence type, and an arrangement order of the plurality of sentence types, and a rule or learning model related to a phrase. Is possible,
The processor is
Based on a rule or a learning model for a word that defines a theme expression that is a word constituting an arbitrary theme sentence or a phrase related to the phrase, the theme expression is obtained from each sentence of a plurality of sentences in the sentence set. A theme expression identification process to be identified;
A sentence type determination process for determining a sentence type for each sentence including the theme expression specified by the theme expression specifying process , based on a rule or a learning model regarding the relationship between the theme expression and the sentence type ;
From the plurality of sentences whose sentence types have been determined by the sentence type determination process, a set of sentences corresponding to the plurality of sentence types specified in the template is selected, and the selected set of sentences is A sorting process for sorting according to the sorting order;
An output process for outputting a set of sentences after sorting by the sorting process;
A computer characterized by executing.
JP2016556108A 2014-10-29 2014-10-29 Sentence sorting method and calculator Active JP6409071B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/078801 WO2016067396A1 (en) 2014-10-29 2014-10-29 Sentence sorting method and computer

Publications (2)

Publication Number Publication Date
JPWO2016067396A1 JPWO2016067396A1 (en) 2017-05-25
JP6409071B2 true JP6409071B2 (en) 2018-10-17

Family

ID=55856782

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016556108A Active JP6409071B2 (en) 2014-10-29 2014-10-29 Sentence sorting method and calculator

Country Status (2)

Country Link
JP (1) JP6409071B2 (en)
WO (1) WO2016067396A1 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748748B (en) * 2017-07-06 2023-05-12 北京川流科技开发中心 Full text retrieval system for water conservancy and hydropower technology standard
JP7117168B2 (en) * 2018-06-14 2022-08-12 株式会社日立製作所 Information processing device and information processing method
CN111782812A (en) * 2020-07-06 2020-10-16 河北工程大学 K-Means text clustering method and device and terminal equipment
WO2023162129A1 (en) * 2022-02-25 2023-08-31 日本電気株式会社 Learning data generation device, risk detection device, learning data generation method, risk detection method, learning data generation program, and risk detection program

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020103876A1 (en) * 2001-01-29 2002-08-01 Masayuki Chatani System and computer-based method for providing transformed information in response to a client search request
JP5273735B2 (en) * 2009-10-13 2013-08-28 日本電信電話株式会社 Text summarization method, apparatus and program
JP2012133619A (en) * 2010-12-22 2012-07-12 Konica Minolta Business Technologies Inc Document edition device, document edition method and document edition program

Also Published As

Publication number Publication date
WO2016067396A1 (en) 2016-05-06
JPWO2016067396A1 (en) 2017-05-25

Similar Documents

Publication Publication Date Title
Zucco et al. Sentiment analysis for mining texts and social networks data: Methods and tools
US11720572B2 (en) Method and system for content recommendation
Talib et al. Text mining: techniques, applications and issues
US8983963B2 (en) Techniques for comparing and clustering documents
RU2686000C1 (en) Retrieval of information objects using a combination of classifiers analyzing local and non-local signs
JP5512489B2 (en) File management apparatus and file management method
Azmi et al. Computational and natural language processing based studies of hadith literature: a survey
JPWO2005096182A1 (en) Information extraction system
Avasthi et al. Techniques, applications, and issues in mining large-scale text databases
Rodrigues et al. Advanced applications of natural language processing for performing information extraction
JP6409071B2 (en) Sentence sorting method and calculator
Alyami et al. Systematic literature review of Arabic aspect-based sentiment analysis
Zhang et al. Event-based summarization method for scientific literature
Bryl et al. Interlinking and knowledge fusion
Brek et al. Enhancing information extraction process in job recommendation using semantic technology
McGillivray et al. Applying language technology in humanities research: Design, application, and the underlying logic
Žitnik et al. SkipCor: Skip-mention coreference resolution using linear-chain conditional random fields
Sariki et al. A book recommendation system based on named entities
JP7227705B2 (en) Natural language processing device, search device, natural language processing method, search method and program
KR101088483B1 (en) Method and apparatus for mapping the heterogeneous classification systems
Dash et al. Enhanced Entity Extraction Using Big Data Mechanics
US20180349358A1 (en) Non-transitory computer-readable storage medium, information processing device, and information generation method
Izo et al. Named entities as a metadata resource for indexing and searching information
DeVille et al. Text as Data: Computational Methods of Understanding Written Expression Using SAS
Martinez-Rodriguez et al. NLP and the Representation of Data on the Semantic Web

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180220

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180417

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180911

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180921

R150 Certificate of patent or registration of utility model

Ref document number: 6409071

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150