JP2021179673A - Sentence generation device, sentence generation method and sentence generation program - Google Patents
Sentence generation device, sentence generation method and sentence generation program Download PDFInfo
- Publication number
- JP2021179673A JP2021179673A JP2020083255A JP2020083255A JP2021179673A JP 2021179673 A JP2021179673 A JP 2021179673A JP 2020083255 A JP2020083255 A JP 2020083255A JP 2020083255 A JP2020083255 A JP 2020083255A JP 2021179673 A JP2021179673 A JP 2021179673A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- predicate
- input
- processor
- word string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 57
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims description 160
- 150000001875 compounds Chemical class 0.000 claims description 25
- 239000000284 extract Substances 0.000 claims description 23
- 238000006243 chemical reaction Methods 0.000 claims description 17
- 238000012937 correction Methods 0.000 claims description 15
- 238000012986 modification Methods 0.000 claims description 13
- 230000004048 modification Effects 0.000 claims description 13
- 230000021615 conjugation Effects 0.000 claims description 7
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 47
- 239000002245 particle Substances 0.000 description 17
- 241000282414 Homo sapiens Species 0.000 description 15
- 238000013138 pruning Methods 0.000 description 13
- 239000000463 material Substances 0.000 description 10
- 230000000877 morphologic effect Effects 0.000 description 10
- 238000001514 detection method Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 238000004904 shortening Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 101100452784 Caenorhabditis elegans ire-1 gene Proteins 0.000 description 1
- 241001142635 Lema Species 0.000 description 1
- 241000950638 Symphysodon discus Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- HOQADATXFBOEGG-UHFFFAOYSA-N isofenphos Chemical compound CCOP(=S)(NC(C)C)OC1=CC=CC=C1C(=O)OC(C)C HOQADATXFBOEGG-UHFFFAOYSA-N 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、文を生成する文生成装置、文生成方法および文生成プログラムに関する。 The present invention relates to a sentence generator, a sentence generation method, and a sentence generation program for generating a sentence.
文を要約したり、文から質問文を生成したりするなど、文を適切な形に変換したいニーズがある。文を観点ごとに要約する技術として、たとえば、下記特許文献1のテキスト要約装置がある。
There is a need to transform a sentence into an appropriate form, such as summarizing a sentence or generating a question from a sentence. As a technique for summarizing sentences for each viewpoint, for example, there is a text summarizing device of
このテキスト要約装置では、部分木保持ZDD作成部がZDDを構築する。観点情報抽出部が、複数の観点の各々について、文書に含まれる単語毎に、観点との関連度を算出し、単語毎に観点の各々について算出された関連度に基づいて、文書における複数の観点の比率を算出する。観点部分木保持ZDD生成部が、観点の比率に応じた長さ上限と、ノードの各々に対応する単語の観点との関連度と、単語の長さとに基づいて、構築されたZDDが表す部分木の集合のうちの部分木の部分集合を表すZDDを、観点に対応する観点ZDDとして生成する。最適部分木算出部が、観点ZDDが表す部分木の部分集合に共通する部分木を表す共通ZDDのパスのうち、要約の長さ上限を満たす最適なパスを探索し、探索されたパスが表す前記部分木を出力する。要約出力部が、部分木に基づいて、入力テキストの要約を出力する。 In this text summarizing device, the subtree holding ZDD creation unit constructs the ZDD. The viewpoint information extraction unit calculates the degree of relevance to the viewpoint for each word contained in the document for each of the plurality of viewpoints, and based on the degree of relevance calculated for each of the viewpoints for each word, a plurality of viewpoints in the document. Calculate the ratio of viewpoints. The part represented by the ZDD constructed by the viewpoint subtree holding ZDD generation unit based on the upper limit of the length according to the ratio of the viewpoints, the relevance of the viewpoints of the words corresponding to each of the nodes, and the length of the words. A ZDD representing a subset of a subtree of a set of trees is generated as a viewpoint ZDD corresponding to the viewpoint. The optimal subtree calculation unit searches for the optimal path that satisfies the upper limit of the length of the summary among the paths of the common ZDD that represent the subset common to the subset of the subset represented by the viewpoint ZDD, and the searched path represents the path. Output the subtree. The summary output section outputs a summary of the input text based on the subtree.
また、文から要約語を抽出する技術として、たとえば、下記特許文献2の情報処理装置がある。この情報処理装置は、1又は複数の文からなる文書を取得する取得部と、文章に含まれる各語に、その格要素に応じて重み付けをする基礎スコア付与部と、文における述語に応じて当該文に含まれる各語の重みを更新するスコア更新部と、各語の重みに基づいて文書の要約語を選択する要約語選択部と、選択した要約語を出力する出力部と、を備える。 Further, as a technique for extracting a summary word from a sentence, for example, there is an information processing apparatus of Patent Document 2 below. This information processing device has an acquisition unit that acquires a document consisting of one or more sentences, a basic score assigning unit that weights each word contained in the sentence according to its case element, and a predicate in the sentence. It includes a score update unit that updates the weight of each word included in the sentence, a summary word selection unit that selects the summary word of the document based on the weight of each word, and an output unit that outputs the selected summary word. ..
特許文献1のテキスト要約装置のように文を観点ごとに要約する場合、文の長さや文内の単語数により制限されるが、実際の文では、名詞の長さにばらつきがあるなど、文の長さと文に含まれる情報量とは一致しないため適切でない。また、特許文献1のテキスト要約装置は、要約の長さ上限に基づき、観点の比率で按分して各部分木の長さを決めているため、観点ごとの情報量を文法的な条件で制御することができない。加えて、議事録の要約や対話資材の生成では、実用上、文の長さについて数値的な制約はない。また、特許文献2の情報処理装置は、文の主題を一言で表す要約語を生成するため、文を生成したり、出力したりすることができない。このようなことは、要約などの文短縮に限らず、質問文や回答文の生成、見出しの生成などについても同様である。
When a sentence is summarized for each viewpoint as in the text summarizing device of
本発明は、文を適切な形に変換することを目的とする。 An object of the present invention is to convert a sentence into an appropriate form.
本願において開示される発明の一側面となる文生成装置は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する文生成装置であって、前記プロセッサは、入力文を構成する単語列である1以上の要約要素を取得する取得処理と、単語列の少なくとも一部を指定する1以上の指定要素によって文のひな型を構成する文生成テンプレートを参照して、前記取得処理によって取得された要約要素の単語列の少なくとも一部を指定可能な前記文生成テンプレート内の前記指定要素で指定することにより、出力文を生成する生成処理と、を実行することを特徴とする。 The sentence generator which is one aspect of the invention disclosed in the present application is a sentence generator including a processor for executing a program and a storage device for storing the program, and the processor constitutes an input sentence. Acquired by the acquisition process with reference to the acquisition process for acquiring one or more summary elements that are word strings and the sentence generation template that constitutes a sentence template with one or more specified elements that specify at least a part of the word string. It is characterized in that the generation process of generating an output sentence is executed by designating at least a part of the word string of the summarized element with the designated element in the sentence generation template that can be specified.
本発明の代表的な実施の形態によれば、文を適切な形に変換することができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。 According to a typical embodiment of the present invention, a sentence can be transformed into an appropriate form. Issues, configurations and effects other than those described above will be clarified by the description of the following examples.
本明細書では、一例として、会議における発言の書き起こしからの議事録を自動作成する場合の文短縮について説明する。ここで、議事録とは、会議での決定事項や会議で出た意見、質問等をコンパクトにまとめた文書であり、情報共有や認識合わせのために必須である。 In this specification, as an example, sentence shortening in the case of automatically creating minutes from transcribing remarks at a meeting will be described. Here, the minutes are documents that compactly summarize the decisions made at the meeting, the opinions and questions raised at the meeting, etc., and are indispensable for information sharing and recognition.
議事録の要約では、会議で話された内容をまんべんなく記録するよりも、決定事項などの会議として重要な種類の情報を読みやすい形でまとめることが求められる。また、短時間で会議の内容を把握可能であることが重視されるため、議事録の要約では、不要な語が可能な限り少ないことが重要である。 The minutes summary requires that the important types of information, such as decisions, be summarized in an easy-to-read format, rather than a thorough record of what was said at the meeting. In addition, since it is important to be able to grasp the contents of the meeting in a short time, it is important to use as few unnecessary words as possible in the summary of the minutes.
また、文書要約の手法として、重要な文を特定しその文をそのまま使うことが考えられるが、発話文は長くなることが多く、1つの文に複数の情報が含まれることもある。このため、重要な種類の情報に該当する箇所だけを用いた短い文を作成する必要がある。 Further, as a method of document summarization, it is conceivable to identify an important sentence and use the sentence as it is, but the spoken sentence is often long, and one sentence may contain a plurality of information. For this reason, it is necessary to create a short sentence using only the parts that correspond to important types of information.
このことから、以下に示す各実施例にかかる文生成装置は、まず議事録に残したい種類の情報を抽出し、その結果を結合することにより議事録に適した文を生成する。これにより、議事録作成を可能な限り自動化して人的作業の低減を図る。なお、以下に示す各実施例では、議事録の作成を例に挙げて説明するが、要約などの文短縮のほか、質問文や回答文の生成、見出しの生成など、文の平易化に有用であれば、議事録に限られない。以下、添付図面を用いて各実施例にかかる文生成装置について説明する。 From this, the sentence generation device according to each of the following embodiments first extracts the kind of information to be recorded in the minutes, and combines the results to generate a sentence suitable for the minutes. This will automate the preparation of minutes as much as possible and reduce human work. In each of the examples shown below, the creation of minutes will be taken as an example, but it is useful for shortening sentences such as summaries, as well as for simplifying sentences such as generating question sentences and answer sentences, and generating headings. If so, it is not limited to the minutes. Hereinafter, the sentence generator according to each embodiment will be described with reference to the attached drawings.
<文生成例>
図1は、実施例1にかかる文生成装置による文生成例を示す説明図である。図1は、会議の音声から平易化された文を生成し、議事録を作成する例である。(1)まず、議事録の作成担当者が、会議の音声を手作業により書き起こす。この書き起こしは、既存の音声テキスト変換装置が会議の録音音声を文に変換してもよい。
<Sentence generation example>
FIG. 1 is an explanatory diagram showing an example of sentence generation by the sentence generation device according to the first embodiment. FIG. 1 is an example of generating a simplified sentence from the voice of a meeting and creating minutes. (1) First, the person in charge of preparing the minutes manually transcribe the audio of the meeting. This transcription may be done by an existing speech-to-text converter that converts the recorded speech of the conference into sentences.
(2)文生成装置は、(1)で得られた文から抽出ルールを適用して、関係抽出を実行する。関係抽出とは、事物間の特定の関係について、その要素を文から抽出することである。たとえば、情報の種類ごとに必須の要素があるため、決定の内容に関する要素を文から抽出したい場合には、決定事項の抽出に特化した抽出ルールが適用される。 (2) The sentence generation device applies an extraction rule from the sentence obtained in (1) to execute relation extraction. Relationship extraction is the extraction of the elements of a particular relationship between things from a sentence. For example, since there are essential elements for each type of information, if you want to extract the elements related to the content of the decision from the sentence, an extraction rule specialized for extracting the decision is applied.
関係抽出を実行する場合、文生成装置は、議事録生成元の文を木構造解析(形態素解析および係り受け解析により文の木構造を生成する処理)し、木構造パターンである抽出ルールに該当する要素を、木構造解析結果から抽出する。たとえば、議事録生成元となる入力文100は、『運用については今後ということで、当事者の方の御意見なども明日聞いてやっていただきたいと思います。』という文字列とする。入力文100は、指示を含む文である。
When executing relation extraction, the sentence generator analyzes the sentence of the minutes generation source by tree structure analysis (processing to generate the tree structure of the sentence by morphological analysis and dependency analysis), and corresponds to the extraction rule which is a tree structure pattern. The element to be used is extracted from the tree structure analysis result. For example, the
文生成装置は、要約要素を抽出する抽出ルールを適用する。要約要素とは、入力文100を構成する単語列を抽出ルールによって要約した単語列である。単語列とは、1以上の単語が連続する文字列である。入力文100の内容が指示を示す場合に適用可能な指示抽出ルールの1つとして、文生成装置は、たとえば、指示抽出ルールir1を適用する。これにより、「運用については」を要約要素#a1として、「当事者の方の御意見なども」を要約要素#a2として、「明日聞いてやっていただきたい」を要約要素#a0として、が抽出される(図1中、点線矩形で表記)。
The statement generator applies an extraction rule that extracts summary elements. The summary element is a word string that summarizes the word strings constituting the
(3)文生成装置は、文生成テンプレートにより平化された文を生成する。具体的には、たとえば、文生成装置は、(2)で抽出された要約要素#a1,#a2,#a0を文生成テンプレートtp1に適用する。文生成テンプレートtp1は、「♯a1は♯a2♯a2.case♯a0.lemma」である。文生成テンプレートtp1で指定する要約要素♯a1,♯a2,♯a2.case,♯a0.lemmaを、(2)で抽出された要約要素と区別するため、指定要素と称す。 (3) The sentence generation device generates a sentence flattened by the sentence generation template. Specifically, for example, the sentence generator applies the summary elements # a1, # a2, # a0 extracted in (2) to the sentence generation template tp1. The sentence generation template tp1 is "# a1 is # a2 # a2. Case # a0.lemma". Summary elements # a1, # a2, # a2 specified in the sentence generation template tp1. case, # a0. Lema is referred to as a designated element in order to distinguish it from the summary element extracted in (2).
文生成装置は、要約要素#a1の「運用については」から指定要素#a1として「運用」を抽出し、要約要素#a2の「当事者の方の御意見なども」から指定要素#a2として「当事者の方の御意見」を抽出し、要約要素#a2の「当事者の方の御意見なども」から指定要素#a2.caseとして助詞(case)の「も」を抽出し、指定要素#a0の「聞いてやっていただきたい」から要約要素a0.lemmaとして要約要素#a0の内容語(動詞)を示す「聞い」の基本形「聞く」を抽出する。 The statement generator extracts "operation" as the designated element # a1 from "about the operation" of the summary element # a1, and "also the opinions of the parties" of the summary element # a2 as the designated element # a2. Extract the "opinions of the parties" and specify the designated element # a2 from the "opinions of the parties" of the summary element # a2. The particle "mo" is extracted as a case, and the summary element a0. Extract the basic form "listening" of "listening" indicating the content word (verb) of the summary element # a0 as lemma.
そして、文生成装置は、抽出した指定要素♯a1,♯a2,♯a2.case,♯a0.lemmaを文生成テンプレートtp1に適用して、入力文100を短縮した文(以下、出力文)101として『運用は当事者の方の御意見を聞く』を生成する。出力文101は、入力文100ごとに生成される。ただし、入力文100が抽出ルールに該当しなければ要約要素が抽出されず、文生成テンプレートに適用できないため、出力文101は生成されない場合もある。また、該当する抽出ルールや文生成テンプレートが異なれば、出力文101の内容も異なる。なお、出力文101は、どの抽出ルールや文生成テンプレートtpで作成されたかが関連付けられた状態で出力される。この例では、出力文101は、指示抽出ルールから作られていることから、「指示」ラベルが付加された状態で出力される。
Then, the sentence generation device uses the extracted designated elements # a1, # a2, # a2. case, # a0. Applying lemma to the sentence generation template tp1, the
(4)議事録の作成担当者は、(3)で得られた複数の出力文101を、出力文101に関連付けられたラベルも参考にして選択したり、並び替えたりして、議事録102を作成する。これにより、会議における発言から議事録に残すべき情報を特定し、読みやすい文にまとめる作業労力の軽減を図ることができる。
(4) The person in charge of creating the minutes selects or rearranges the plurality of
<文生成装置のハードウェア構成例>
図2は、文生成装置のハードウェア構成例を示すブロック図である。文生成装置200は、プロセッサ201と、記憶デバイス202と、入力デバイス203と、出力デバイス204と、通信インターフェース(通信IF)205と、を有する。プロセッサ201、記憶デバイス202、入力デバイス203、出力デバイス204、および通信IF205は、バス206により接続される。プロセッサ201は、文生成装置200を制御する。記憶デバイス202は、プロセッサ201の作業エリアとなる。また、記憶デバイス202は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス202としては、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリがある。入力デバイス203は、データを入力する。入力デバイス203としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナがある。出力デバイス204は、データを出力する。出力デバイス204としては、たとえば、ディスプレイ、プリンタ、スピーカがある。通信IF205は、ネットワークと接続し、データを送受信する。
<Hardware configuration example of sentence generator>
FIG. 2 is a block diagram showing a hardware configuration example of the sentence generator. The
なお、文生成装置200は、クライアントサーバシステムのサーバでもよい。この場合、クライアントが入力文100を文生成装置200に送信し、文生成装置200が出力文101をクライアントに送信する。また、文生成装置200は、スタンドアロン型でもよい。たとえば、文生成装置200は、文生成プログラムがインストールされたスマートフォンやパーソナルコンピュータでもよい。クライアントサーバシステムまたはスタンドアロン型のいずれであっても、文生成装置200は、たとえば、入力音声から入力文100を生成(入力文100のテキスト入力でもよい)し、出力文101を音声出力(画面表示でもよい)するチャットボットに利用可能である。また、文生成装置200にインストールされる文生成プログラムは、外部装置の記憶媒体からネットワーク経由で、および/または、可搬型記憶媒体経由で導入されてもよい。
The
<データベース>
図3は、抽出ルールDB(データベース)の一例を示す説明図である。抽出ルールDB300は、各種抽出ルールを記憶するデータベースである。抽出ルールDB300は、文生成装置200の記憶デバイス202に記憶される。また、抽出ルールDB300は、文生成装置200と通信可能なコンピュータに記憶されていてもよい。
<Database>
FIG. 3 is an explanatory diagram showing an example of an extraction rule DB (database). The
抽出ルールDB300は、たとえば、指示抽出ルールir1,ir2,…(ir1,ir2,…を区別しない場合は、単にirと表記)と、決定抽出ルールdr1,…(dr1,…を区別しない場合は、単にdrと表記)と、意見抽出ルールor1,…(or1,…を区別しない場合は、単にorと表記)と、質問抽出ルールqr1,…(qr1,…を区別しない場合は、単にqrと表記)と、共通抽出ルールcr1,…(cr1,…を区別しない場合は、単にcrと表記)とを記憶する。
The
決定抽出ルールdrは、入力文100の内容が決定を示す場合に適用可能な抽出ルールである。意見抽出ルールorは、入力文100の内容が意見を示す場合に適用可能な抽出ルールである。質問抽出ルールqrは、入力文100の内容が意見を示す場合に適用可能な抽出ルールである。共通抽出ルールcrは、入力文100の内容にかかわらず適用可能な抽出ルールである。
The decision extraction rule dr is an extraction rule that can be applied when the content of the
入力文100自体には、入力文100がどのような内容を示すかというインデックスは付与されていない。たとえば、指示抽出ルールir1が入力文100に適用されれば、指示に関する要約要素が入力文100から抽出され、決定抽出ルールdr1が入力文100に適用されれば、決定に関する要約要素が入力文100から抽出される。意見抽出ルールor1や質問抽出ルールqr1についても同様である。
The
ここで、指示抽出ルールir1の詳細について具体的に説明する。1行目の「((id.instruction_01))」は、指示抽出ルールir1のインデックスを示す。 Here, the details of the instruction extraction rule ir1 will be specifically described. The "((id. Instruction_01))" in the first line indicates the index of the instruction extraction rule ir1.
2行目および6行目の「(♯a0.suf=たい&.POS=動詞 *…*)」は、動詞と、助動詞「たい」と、を含む文節を、要約要素a0として入力文100から抽出する抽出条件C1である。「*」は、その親の文節を係り受け先とする文節がどのようなものでも存在してもよいことを示す。入力文100の場合、要約要素#a0として、「明日聞いてやっていただきたい」が抽出される。
The second and sixth lines "(# a0.Suf = tai & .POS = verb * ... *)" are from the
3行目の「.lemma=こと&.POS=名詞&.POS2=非自立*」は、2行目の抽出条件の子ノードとなる条件であるが、抽出条件ではない。具体的には、たとえば、内容語(lemma)である非自立な名詞「こと」が、#a0のノードを係り先とする子ノードとして存在することを検出するための検出条件Dである。入力文100の場合、「こと」の存在が検出される。
The third line ".lemma = koto & .POS = noun & .POS2 = non-independent *" is a condition that becomes a child node of the extraction condition in the second line, but is not an extraction condition. Specifically, for example, it is a detection condition D for detecting that a non-independent noun "koto", which is a content word (lemma), exists as a child node having a node of # a0 as a dependency. In the case of the
4行目の「♯a1.case=については&.POS=名詞*」は、3行目の検出条件Dの子ノードとなる抽出条件C2であり、具体的には、たとえば、名詞と、助詞等の「については」と、を含む文節を、要約要素#a1として入力文100から抽出する。入力文100の場合、要約要素#a1として、「運用については」が抽出される。
“About # a1.case = & .POS = noun *” on the 4th line is the extraction condition C2 that is a child node of the detection condition D on the 3rd line. Specifically, for example, a noun and a particle. A phrase containing "about" such as "about" is extracted from the
6行目の「♯a2.case=も&.POS=名詞*」は、名詞と、助詞「も」と、を含む文節を、要約要素a2として入力文100から抽出する抽出条件C3である。入力文100の場合、要約要素#a2として、「当事者の方の御意見なども」が抽出される。
The sixth line "# a2.case = mo & .POS = noun *" is an extraction condition C3 for extracting a phrase including a noun and a particle "mo" from the
また、共通抽出ルールcr1は、対象となる要約要素#a0から削除対象の単語列を特定して削除、いわゆる枝刈りをおこなうための削除ルール(枝刈り条件)である。共通抽出ルールcr1となる文節は、形態素解析で副詞可能に分類された語を先頭に持つ文節である。この文節を根に持つ部分木が枝刈りされる。要約要素#a0の「明日聞いてやっていただきたい」の場合、「明日」が削除、すなわち、枝刈りされて、要約要素#a0は「聞いてやっていただきたい」になる。 Further, the common extraction rule cr1 is a deletion rule (pruning condition) for specifying a word string to be deleted from the target summary element # a0 and deleting it, so-called pruning. The phrase that becomes the common extraction rule cr1 is a phrase that has a word classified as an adverb in the morphological analysis at the beginning. Subtrees with this phrase as their roots are pruned. In the case of "I want you to hear tomorrow" of the summary element # a0, "Tomorrow" is deleted, that is, the branch is pruned, and the summary element # a0 becomes "I want you to hear".
このように、文生成装置200は、抽出ルールを適用することにより、入力文100の文節間の修飾関係(係り受け解析結果)と形態素解析結果とを手掛かりとして要約要素を抽出することが可能になる。
In this way, by applying the extraction rule, the
図4は、文生成テンプレートDBの一例を示す説明図である。文生成テンプレートDB400は、文生成テンプレートtp1,tp2,tp3,tp4,tp5,…(tp1,tp2,tp3,tp4,tp5,…を区別しない場合は、単にtp)を記憶するデータベースである。文生成テンプレートDB400は、文生成装置200の記憶デバイス202に記憶される。また、文生成テンプレートDB400は、文生成装置200と通信可能なコンピュータに記憶されていてもよい。
FIG. 4 is an explanatory diagram showing an example of the sentence generation template DB. The sentence
文生成テンプレートtpは、抽出した要約要素から指定要素の単語列を抽出して文生成テンプレートtp内の当該構成要素の位置に設定することにより、出力文101を生成するためのテンプレートである。文生成テンプレートtp1の場合、指定要素#a1,#a2,#a2.caseおよび#a0.lemmaが適用される。
The sentence generation template tp is a template for generating an
なお、図示はしないが、文生成装置200は、単語辞書を参照する。単語辞書は、単語ごとに、品詞、基本形、活用形、読みなど、形態素解析に必要な情報を記憶する。単語辞書は、文生成装置200の記憶デバイス202に記憶される。また、単語辞書は、文生成装置200と通信可能なコンピュータに記憶されていてもよい。
Although not shown, the
<文生成処理手順>
図5は、実施例1にかかる文生成装置200による文生成処理手順例を示すフローチャートである。文生成装置200は、木構造解析(ステップS501)、要約要素の取得(ステップS502)、要約要素の修正(ステップS503)、要約要素からの単語列の抽出(ステップS504)、文生成テンプレートによる連結(ステップS505)、および活用語尾の変換(ステップS506)を実行して、一連の処理を終了する。木構造解析(ステップS501)〜活用語尾の変換(ステップS506)の処理は、具体的には、たとえば、記憶デバイス202に記憶された文生成プログラムにしたがって、プロセッサが実行する。以下、ステップS501〜S506について順に説明する。
<Sentence generation processing procedure>
FIG. 5 is a flowchart showing an example of a sentence generation processing procedure by the
図6は、実施例1にかかる木構造解析(ステップS501)による入力文100の木構造解析結果の一例を示す説明図である。木構造解析結果600は、抽出ルールの抽出対象となるデータである。木構造解析(ステップS501)では、文生成装置200は、入力文100を木構造解析する。具体的には、たとえば、文生成装置200は、入力文100に対して文節単位で形態素解析および係り受け解析を実行する。これにより、木構造解析結果600が得られる。
FIG. 6 is an explanatory diagram showing an example of the tree structure analysis result of the
図7は、実施例1にかかる要約要素の取得(ステップS502)による要約要素の取得結果を示す説明図である。要約要素の取得(ステップS502)では、文生成装置200は、たとえば、抽出ルールDB300のすべての抽出ルールを木構造解析結果600に適用して、要約要素を抽出する。具体的には、たとえば、文生成装置200は、指示抽出ルールir1の2行目の抽出条件C1を木構造解析結果600から特定し、抽出条件C1に該当する要約要素#a0として「明日聞いてやっていただきたい」を抽出する。
FIG. 7 is an explanatory diagram showing the acquisition result of the summary element by the acquisition of the summary element according to the first embodiment (step S502). In the acquisition of the summary element (step S502), the
また、文生成装置200は、指示抽出ルールir1の3行目の抽出条件C2を木構造解析結果600から特定し、抽出条件C2に該当する要約要素#a1として「運用については」を抽出する。また、文生成装置200は、指示抽出ルールir1の4行目の抽出条件C3を木構造解析結果600から特定し、抽出条件C3に該当する要約要素#a2として「当事者の方の御意見なども」を抽出する。また、文生成装置200は、入力文100が検出条件Dを充足することを検出する。
Further, the
また、要約要素の取得(ステップS502)では、文生成装置200は、抽出した要約要素について共通抽出ルールcr1に該当する場合には、枝刈りを実行する。なお、文生成装置200は、要約要素#a0〜#a2を、文生成装置200と通信可能な他のコンピュータから取得してもよい。
Further, in the acquisition of the summary element (step S502), the
図8は、実施例1にかかる要約要素の修正(ステップS503)による枝刈り結果を示す説明図である。図8では、要約要素#a0から、形態素解析結果が副詞可能である「明日」が枝刈りされる。以降、特に指定しない限り、実施例1において、要約要素#a0は、枝刈り後の「聞いてやっていただきたい」とする。 FIG. 8 is an explanatory diagram showing the result of pruning by modifying the summary element according to the first embodiment (step S503). In FIG. 8, “tomorrow”, in which the morphological analysis result can be adverbed, is pruned from the summary element # a0. Hereinafter, unless otherwise specified, in the first embodiment, the summary element # a0 is "please listen" after pruning.
図9A〜図9Fは、要約要素からの単語列の抽出(ステップS504)による抽出結果例1〜6を示す。要約要素からの単語列の抽出(ステップS504)では、文生成装置200は、要約要素#a0〜#a2から、文生成テンプレートを構成する要約要素(以下、指定要素)に従って、単語列を抽出する。指定要素には、たとえば、#an(nは0以上の整数)、#an.lemma、#an.case、#an.suf、#an.tenseがある。
9A-9F show examples 1 to 6 of extraction results by extracting a word string from a summary element (step S504). In the extraction of the word string from the summary element (step S504), the
たとえば、#anは、要約要素#anに含まれるルートの文節の内容語(たとえば、動詞、名詞、形容詞。助詞および助動詞は除外)および子ノードの語を抽出する指定要素である。#an.lemmaは、要約要素#anからそのルートの文節の内容語を抽出する指定要素である。 For example, #an is a specification element that extracts the content words of the root clause contained in the summary element #an (for example, verbs, nouns, adjectives, excluding particles and auxiliary verbs) and the words of the child nodes. # An. lemma is a designated element that extracts the content word of the clause of the root from the summary element #an.
#anと#an.lemmaとの相違は、子ノードの語を抽出するかしないかである。たとえば、要約要素#a2の「当事者の方の御意見」に指定要素#a2が適用されると、ルートとなる「御意見」の子ノード「当事者の方の」も含めて、「当事者の方の御意見」が抽出される。一方、要約要素#a2の「当事者の方の御意見」に指定要素#a2.lemmaが適用されると、ルートとなる「御意見」の子ノード「当事者の方の」を含まずに、ルートである「御意見」のみが抽出される。 # An and # an. The difference from lemma is whether or not to extract the word of the child node. For example, if the designated element # a2 is applied to the "opinion of the parties" of the summary element # a2, the child node "of the parties" of the root "opinion" is also included in the "parties". Opinion of "is extracted. On the other hand, the designated element # a2 in the "opinion of the parties" of the summary element # a2. When lemma is applied, only the root "opinion" is extracted without including the child node "parties" of the root "opinion".
#an.caseは、要約要素#anからルートの文節の特定の助詞を抽出する指定要素である。このとき,副助詞の「など」や副助詞の「ばかり」等の文意へ大きな影響を与えない助詞は、特定の助詞には含めず抽出しない。#an.sufは、要約要素#anからルートの文節の特定の助動詞を抽出する指定要素である。#an.tenseは、要約要素#anからルートの文節の時制を表す助動詞を抽出する指定要素である。 # An. Case is a designated element that extracts a specific particle of the root clause from the summary element #an. At this time, particles that do not have a significant effect on the meaning of the sentence, such as the sub-particle "etc." and the sub-particle "only", are not included in the specific particles and are not extracted. # An. The suf is a designated element that extracts a specific auxiliary verb of the root clause from the summary element #an. # An. Tense is a designated element that extracts the auxiliary verb representing the tense of the root clause from the summary element #an.
文生成テンプレートtp1の場合、指定要素は、#a1.lemma、#a2.lemma、#a2.case、#a0.lemmaである。 In the case of the sentence generation template tp1, the specified element is # a1. lemma, # a2. lemma, # a2. case, # a0. lemma.
図9Aに示したように、文生成装置200は、要約要素#a1の「運用については」から、指定要素#a1により、名詞「運用」を抽出する。すなわち、「について」および「は」は形態素解析により助詞と判断されたため、抽出対象外となる。
As shown in FIG. 9A, the
図9Bに示したように、文生成装置200は、要約要素#a2の「当事者の方の御意見なども」から、指定要素#a2により、名詞句「当事者の方の御意見」を抽出する。すなわち、「など」および「も」は形態素解析により内容語ではないと判断されたため、抽出対象外となる。
As shown in FIG. 9B, the
図9Cに示したように、文生成装置200は、要約要素#a2の「当事者の方の御意見なども」から、指定要素#a2.caseにより、「も」を抽出する。「など」も助詞であるが、上述した特定の助詞以外であるため抽出対象外となる。
As shown in FIG. 9C, the
図9Dに示したように、文生成装置200は、要約要素#a0の「聞いてやっていただきたい」から、指定要素#a0.lemmaにより、ルートの文節の内容語である動詞「聞い」の基本形「聞く」を抽出する。すなわち、2つの「て」は助詞、「たい」は助動詞であると形態素解析により判断されたため、また、「やっ」および「いただき」は内容語ではないと判定されるため、抽出対象外となる。
As shown in FIG. 9D, the
図9Eおよび図9Fは、文生成テンプレートtp1には含まれていない指定要素による単語列の抽出を示す。図9Eおよび図9Fに限り、要約要素#a0の「聞いてやっていただきたい」を、例として、過去形の「聞いてやっていただきたかった」とする。文生成装置200は、要約要素#a0の「聞いてやっていただきたかった」から、指定要素#a0.tenseにより、過去を表す助動詞「た」を抽出する。図9Fの場合、文生成装置200は、要約要素#a0の「聞いてやっていただきたかった」から、指定要素#a0.sufにより、希望を表す助動詞「たかっ」の基本形「たい」を抽出する。
9E and 9F show the extraction of word strings by designated elements not included in the sentence generation template tp1. Only in FIGS. 9E and 9F, the past tense "I want you to hear" is taken as an example of "I want you to hear" of the summary element # a0. Since the
図10は、実施例1にかかる文生成テンプレートによる連結(ステップS505)での連結結果を示す説明図である。文生成テンプレートによる連結(ステップS505)では、文生成装置200は、要約要素からの単語列の抽出(ステップS504)によって抽出された「運用」、「は」、「当事者の方の御意見」、「も」、および「聞く」(図9A〜図9Dを参照)を、文生成テンプレートtp1に適用することにより、連結結果1000として「運用は当事者の方の御意見も聞く」を生成する。
FIG. 10 is an explanatory diagram showing the connection result in the connection (step S505) by the sentence generation template according to the first embodiment. In the concatenation by the sentence generation template (step S505), the
活用語尾の変換(ステップS506)では、文生成装置200は、文生成テンプレートによる連結(ステップS505)での連結結果1000について活用語尾を変換し、出力文101を出力する。
In the conversion of the inflected conjugation (step S506), the
図11Aは、実施例1にかかる活用語尾の変換(ステップS506)の例1を示す説明図である。連結結果1000の場合、動詞「聞く」は文末に位置し、かつ、動詞「聞く」の基本形は終止形と同じであるため、動詞「聞く」の活用語尾「く」は変換されない。これにより、文生成装置200は、出力文101として「運用は当事者の方の御意見も聞く」を出力する。
FIG. 11A is an explanatory diagram showing Example 1 of the conversion of the inflected flexion (step S506) according to the first embodiment. In the case of the
図11Bは、実施例1にかかる活用語尾の変換(ステップS506)の例2を示す説明図である。図11Bの連結結果1100の場合、各々基本形である動詞「聞く」と「まとめる」とが連結されている。このような場合、動詞「聞く」は文末に位置せず、かつ、後続に動詞「まとめる」が存在するため、文生成装置200は、動詞「聞く」の活用語尾「く」を連用形の「い」に変換し、かつ、動詞「まとめる」と接続するための接続助詞「て」を追加する。
FIG. 11B is an explanatory diagram showing Example 2 of the conversion of the inflected flexion (step S506) according to the first embodiment. In the case of the
動詞「まとめる」は文末に位置し、かつ、動詞「まとめる」の基本形は終止形と同じであるため、動詞「まとめる」の活用語尾「る」は変換されない。これにより、文生成装置200は、出力文1101として「運用は当事者の方の御意見も聞いてまとめる」を出力する。
Since the verb "summary" is located at the end of the sentence and the basic form of the verb "summary" is the same as the imperfect form, the conjugation ending "ru" of the verb "summary" is not converted. As a result, the
<文生成の具体例>
図12A〜図12Cは、文生成装置200による文生成の具体例1〜3を示す説明図である。図12A〜図12Cでは、同一の入力文1211の『○○首相が一昨日Xが慌ただしく出国したと昨日未明に発表した』に対し異なる文生成テンプレートを適用した場合の出力文の違いを示す。
<Specific example of sentence generation>
12A to 12C are explanatory views showing specific examples 1 to 3 of sentence generation by the
図12Aは、上述した出力文101と同様、文短縮の文生成テンプレートtp2を適用した場合の例である。なお、適用された抽出ルールで抽出する関係は、「発表」である。抽出ルールによって抽出された要約要素の取得結果1212は、#a1が「○○首相」、#a2が「一昨日Xが慌ただしく出国した」、#a0が「昨日未明に発表した」とする。したがって、文生成テンプレートtp2が適用されると、出力文1213として『○○首相が一昨日Xが出国したと発表した』が出力される。
FIG. 12A is an example in which the sentence generation template tp2 for shortening the sentence is applied as in the
図12Bは、質問文および回答文を生成するための文生成テンプレートtp3,tp4が適用した場合の例である。なお、適用された抽出ルールで抽出する関係は、「発表」である。図12Bでは、図12Aと同じ取得結果1212とする。したがって、文生成テンプレートtp3が適用されると、出力文1223として『○○首相が昨日未明に発表したのはなんですか?』という質問文が出力される。また、文生成テンプレートtp4が適用されると、出力文1224として『一昨日Xが慌ただしく出国したことです』という回答文が出力される。
FIG. 12B is an example in which the sentence generation templates tp3 and tp4 for generating the question sentence and the answer sentence are applied. The relationship to be extracted by the applied extraction rule is "announcement". In FIG. 12B, the
図12Cは、見出しを生成するための文生成テンプレートtp5を適用した場合の例である。なお、適用された抽出ルールで抽出する関係は、「出国」である。抽出ルールによって抽出された要約要素の取得結果1232は、#a1が「X」、#a0が「慌ただしく出国した」とする。したがって、文生成テンプレートtp5が適用されると、出力文1233として『X出国』が出力される。
FIG. 12C is an example in which the sentence generation template tp5 for generating a headline is applied. The relationship to be extracted by the applied extraction rule is "departure". In the
このように、実施例1によれば、入力文を平易化した出力文を出力することにより、可能な限り文生成を自動化して人間の人的作業の低減を図ることができる。 As described above, according to the first embodiment, by outputting the output sentence in which the input sentence is simplified, the sentence generation can be automated as much as possible and the human labor can be reduced.
実施例2について説明する。実施例2は、実施例1において、入力文に複文が含まれる場合に、複文から抽出された要約要素#anの時制や、要約要素#anにおける否定形および仮定形を検出し、要約要素#an間で整合性をとる例である。実施例2では、実施例1との相違点を中心に説明するため、実施例1についての説明は省略する。なお、実施例2では、複文を例に挙げて説明するが、重文でも同様である。 The second embodiment will be described. In the second embodiment, in the first embodiment, when the input sentence contains a compound sentence, the tense of the summary element #an extracted from the compound sentence and the negative form and the hypothetical form in the summary element #an are detected, and the summary element # This is an example of establishing consistency between an. In Example 2, since the differences from Example 1 will be mainly described, the description of Example 1 will be omitted. In Example 2, a compound sentence will be described as an example, but the same applies to a compound sentence.
図13は、実施例2にかかる時制の検出例を示す説明図である。文生成装置200は、入力文1300に対し木構造解析(ステップS501)を実行することにより、入力文1300が、先行文『Aが社内システムに関する資料を速やかに配布し、』と後続文『休憩後にBがその資料を使ってプレゼンした。』との複文であることを検出する。また、文生成装置200は、要約要素の取得(ステップS502)を実行することにより、抽出結果1301を出力する。抽出結果1301は、要約要素#anとして要約要素1311〜1315を含む。
FIG. 13 is an explanatory diagram showing an example of detecting the tense according to the second embodiment. The
要約要素の修正(ステップS503)において、文生成装置200は、複文の各々の文の動詞「配布し」および「説明し」を含む要約要素1313,1315を比較し、要約要素1313には、動詞「配布し」の時制を表す助動詞が存在せず、要約要素1315には、動詞「説明し」の時制を表す助動詞「た」が存在することを検出する。この場合、要約要素1313の動詞「配布し」の意味としては、現在形の「配布する」ではなく、過去形の「配布した」が正しい。したがって、文生成装置200は、先行文の要約要素1313の動詞「配布し」の時制を過去形にするために、過去を表す助動詞「た」を要約要素1313に追加して、「速やかに配布した。」に修正する。
In the modification of the summary element (step S503), the
このあと、文生成装置200は、修正後の時制に基づいて、後続の要約要素からの単語列の抽出(ステップS504)、文生成テンプレートによる連結(ステップS505)、および活用語尾の変換(ステップS506)を実行する。これにより、文生成装置200は、あたかも入力文100の意図を読み取って、出力文101を適切な時制で表現することができる。
After that, the
図14は、実施例2にかかる否定形の検出例を示す説明図である。文生成装置200は、入力文1400に対し木構造解析(ステップS501)を実行することにより、入力文1400が、先行文『会議の出席者は、社内システムに関する資料を社外に持ち出し、』と後続文『本日の会議の内容を社外の人に漏らさないでください。』との複文であることを検出する。また、文生成装置200は、要約要素の取得(ステップS502)を実行することにより、抽出結果1401を出力する。抽出結果1401は、要約要素#anとして要約要素1411〜1415を含む。
FIG. 14 is an explanatory diagram showing an example of detection of the negative form according to the second embodiment. The
要約要素の修正(ステップS503)において、文生成装置200は、複文の各々の文の動詞「持ち出し」および「漏らさ」を含む要約要素1413,1415を比較し、要約要素1413には、動詞「持ち出し」の否定を表す助動詞が存在せず、要約要素1415には、動詞「漏らさ」の否定を表す助動詞「ない」が存在することを検出する。この場合、要約要素1413の動詞「持ち出し」の意味としては、肯定形の「持ち出す」ではなく、否定形の「持ち出さない」が正しい。したがって、文生成装置200は、先行文の要約要素1413の動詞「持ち出し」を否定形にするために、否定を表す助動詞「ない」を、要約要素1413に追加して、「持ち出さない」に修正する。
In the modification of the summary element (step S503), the
このあと、文生成装置200は、修正後の時制に基づいて、後続の要約要素からの単語列の抽出(ステップS504)、文生成テンプレートによる連結(ステップS505)、および活用語尾の変換(ステップS506)を実行する。活用語尾の変換(ステップS506)では、「持ち出さない」は「持ち出さず」に変換される。これにより、文生成装置200は、あたかも入力文1400の意図を読み取って、出力文を適切な用法で表現することができる。
After that, the
図15は、実施例2にかかる仮定形の検出例を示す説明図である。文生成装置200は、入力文1500に対し木構造解析(ステップS501)を実行することにより、入力文1500の『社内システムに関する資料のデータを自宅に持ち帰り、自宅のパソコンに保存すれば、』が、先行文『社内システムに関する資料のデータを自宅に持ち帰り、』と後続文『自宅のパソコンに保存すれば、』との複文であることを検出する。また、文生成装置200は、要約要素の取得(ステップS502)を実行することにより、抽出結果1501を出力する。抽出結果1501は、要約要素#anとして要約要素1511〜1515を含む。
FIG. 15 is an explanatory diagram showing an example of detection of the hypothetical form according to the second embodiment. By executing the tree structure analysis (step S501) for the
要約要素の修正(ステップS503)において、文生成装置200は、複文の各々の文の動詞「持ち帰り」および「保存すれ」を含む要約要素1512,1513を比較し、要約要素1512には、動詞「持ち帰り」の仮定を表す接続助詞が存在せず、要約要素1513には、動詞「保存すれ」の仮定を表す接続助詞「ば」が存在することを検出する。この場合、要約要素1512の動詞「持ち帰り」の意味としては、断定形の「持ち帰る」ではなく、仮定形の「持ち帰れば」が正しい。したがって、文生成装置200は、先行文の要約要素1512の動詞「持ち帰り」を仮定形にするために、仮定を表す接続助詞「ば」を、要約要素1512に追加して、「持ち帰れば」に修正する。
In the modification of the summary element (step S503), the
このあと、文生成装置200は、修正後の時制に基づいて、後続の要約要素からの単語列の抽出(ステップS504)、文生成テンプレートによる連結(ステップS505)、および活用語尾の変換(ステップS506)を実行する。活用語尾の変換(ステップS506)では、連結結果の「自宅に持ち帰れば 自宅のパソコンに保存すれば」は「自宅に持ち帰ったり、自宅のパソコンに保存したりすれば」に変換される。これにより、文生成装置200は、あたかも入力文1500の意図を読み取って、出力文を適切な用法で表現することができる。
After that, the
このように、実施例2によれば、複文内の複数の動詞の時制や否定形、仮定形を一致させ、出力文の適正化を図ることができる。なお、実施例2では、複文内の動詞を例に挙げて説明したが、形容詞や形容動詞でも同様である。 As described above, according to the second embodiment, it is possible to match the tenses, negative forms, and hypothetical forms of a plurality of verbs in a compound sentence to optimize the output sentence. In Example 2, the verbs in the compound sentence have been described as an example, but the same applies to adjectives and adjective verbs.
実施例3は、実施例1または実施例2において、入力文に対し照応解析を実行する例である。照応解析とは、代名詞や指示詞といった照応詞の指示対象を推定したり、省略された名詞句(ゼロ代名詞)を補完したりする処理である。実施例3では、実施例1および実施例2との相違点を中心に説明するため、実施例1および実施例2についての説明は省略する。 Example 3 is an example in which the correspondence analysis is executed for the input sentence in Example 1 or Example 2. Anaphora analysis is a process of estimating referents of anaphora such as pronouns and demonstratives, and complementing omitted noun phrases (zero pronouns). In Example 3, since the differences from Example 1 and Example 2 will be mainly described, the description of Example 1 and Example 2 will be omitted.
図16は、実施例3にかかる照応関係の推定例を示す説明図である。文生成装置200は、先行入力文1601の『Aが社内システムに関する資料を配布した。』と後続入力文1602の『その後、彼が社内システムを説明した。』とのそれぞれに対し、木構造解析(ステップS501)を実行する。木構造解析(ステップS501)では、「A」は、人名の固有名詞であると特定され、「彼」は、代名詞であると特定される。
FIG. 16 is an explanatory diagram showing an estimation example of the anaphora relationship according to the third embodiment. The
また、文生成装置200は、要約要素の取得(ステップS502)を実行することにより、先行入力文1601に関する抽出結果1610と、後続入力文1602に関する抽出結果1620とを出力する。先行入力文1601に関する抽出結果1610は、要約要素#anとして要約要素1611〜1613を含む。後続入力文1602に関する抽出結果1620は、要約要素#anとして要約要素1621,1622を含む。
Further, the
要約要素の修正(ステップS503)において、文生成装置200は、照応解析を実行することにより、先行入力文1601に関する抽出結果1610と後続入力文1602に関する抽出結果1620との間で照応関係を特定する。具体的には、たとえば、文生成装置200は、先行入力文1601に関する抽出結果1610の要約要素1611内の「A」の代名詞「彼」を、後続入力文1602に関する抽出結果1620から特定する。文生成装置200は、「A」と照応関係のある代名詞「彼」を「A」に変換する。これにより、要約要素1621の「彼が」は、要約要素1631の「Aが」に修正される。
In the modification of the summary element (step S503), the
このあと、文生成装置200は、抽出結果1610と修正後の抽出結果1620とに基づいて、単語列の抽出(ステップS504)、文生成テンプレートによる連結(ステップS505)、および活用語尾の変換(ステップS506)を実行する。このように、文生成装置200は、照応関係から代名詞を固有名詞に変換して、適切な出力文を生成することができる。
After that, the
図17は、実施例3にかかるゼロ代名詞の補完例を示す説明図である。文生成装置200は、先行入力文1601の『Aが社内システムに関する資料を配布した。』と後続入力文1702の『その後、社内システムを説明した。』とのそれぞれに対し、木構造解析(ステップS501)を実行する。木構造解析(ステップS501)では、「A」は、人名の固有名詞であると特定される。
FIG. 17 is an explanatory diagram showing an example of complementing the zero pronoun according to the third embodiment. The
また、文生成装置200は、要約要素の取得(ステップS502)を実行することにより、先行入力文1601に関する抽出結果1610と、後続入力文1602に関する抽出結果1720とを出力する。先行入力文1601に関する抽出結果1610は、要約要素#anとして要約要素1611〜1613を含む。後続入力文1702に関する抽出結果1720は、要約要素#anとして要約要素1622を含む。
Further, the
要約要素の修正(ステップS503)において、文生成装置200は、照応解析を実行することにより、先行入力文1601に関する抽出結果1610と後続入力文1702に関する抽出結果1720との間で照応関係を特定する。具体的には、たとえば、文生成装置200は、後続入力文1702には主語が存在しないため、後続文の主語は先行文の主語「Aが」であると特定する。したがって、文生成装置200は、抽出結果1610内の主語「Aが」を含む要約要素1611をゼロ代名詞として抽出結果1620に追加する。これにより、ゼロ代名詞が補完される。
In the modification of the summary element (step S503), the
このあと、文生成装置200は、抽出結果1610と要約要素1611が追加された補完後の抽出結果1720とに基づいて、単語列の抽出(ステップS504)、文生成テンプレートによる連結(ステップS505)、および活用語尾の変換(ステップS506)を実行する。このように、文生成装置200は、ゼロ代名詞を補完して、適切な出力文を生成することができる。
After that, the
実施例4について説明する。実施例1〜実施例3では、文生成装置200は、日本語の入力文に対して日本語の出力文を生成する例について説明した。実施例4では、文生成装置200は、英語の入力文に対して英語の出力文を生成する例について説明する。実施例4では、実施例1〜実施例3との相違点を中心に説明するため、実施例1についての説明は省略する。
The fourth embodiment will be described. In Examples 1 to 3, the
図18は、英語の入力文の一例を示す説明図である。入力文1800は、日本語の『運用については今後ということで、当事者の方の御意見なども聞いてやっていただきたいと思います。』の英訳文である。
FIG. 18 is an explanatory diagram showing an example of an English input sentence. The
図19は、実施例4にかかる抽出ルールDB300の一例を示す説明図である。抽出ルールDB1900は、入力文1800の言語が英語である場合に対応可能な抽出ルールを記憶するデータベースである。抽出ルールDB1900は、各種抽出ルールを記憶するデータベースである。抽出ルールDB1900は、文生成装置200の記憶デバイス202に記憶される。また、抽出ルールDB1900は、文生成装置200と通信可能なコンピュータに記憶されていてもよい。
FIG. 19 is an explanatory diagram showing an example of the
抽出ルールDB1900は、図3の抽出ルールDB300と同様、たとえば、指示抽出ルールire1,ire2,…(ir1e,ir2e,…を区別しない場合は、単にireと表記)と、決定抽出ルールdr1e,…(dr1e,…を区別しない場合は、単にdreと表記)と、意見抽出ルールor1e,…(or1e,…を区別しない場合は、単にoreと表記)と、質問抽出ルールqr1,…(qr1e,…を区別しない場合は、単にqreと表記)と、共通抽出ルールcr1e,…(cr1e,…を区別しない場合は、単にcreと表記)とを記憶する。
The
ここで、指示抽出ルールir1eの詳細について具体的に説明する。2行目の「.type=root&.POS=VBN&.lemma=discuss」は、係り受けの種類(type)がルートであり、かつ、品詞が動詞の過去分詞形(VBN)であり、かつ、その内容語(動詞)が「discuss」を指定する記述である。これにより、文生成装置200は、議論された内容に関する英語の入力文を要約要素の取得対象とすることができる。
Here, the details of the instruction extraction rule ir1e will be specifically described. In the second line, ".type = root & .POS = VBN & .lemma = discus", the type of dependency (type) is the root, and the part of speech is the past participle form (VBN) of the verb, and its participle. It is a description that the content word (verb) specifies "discuss". As a result, the
3行目の「♯a1.type=nsubjpass&.POS=NN*」は、2行目の記述の子ノードとして、係り受けの種類(type)が受動態の主語となる名詞(nsubjpass)であり、かつ、品詞が名詞の単数形(NN)である要約要素♯a1を抽出する抽出条件である。 The third line "# a1.type = nsubjpass & .POS = NN *" is a noun (nsubjpass) whose dependency type (type) is the subject of the passive voice as a child node of the description in the second line. , Is an extraction condition for extracting the summary element #a1 whose part of speech is the singular form (NN) of a noun.
4行目の「.type=aux&.POS=MD&.lemma=will」は、2行目の記述の子ノードとして、係り受けの種類(type)が動詞に係る助動詞(aux)であり、かつ、品詞が助動詞(MD)である内容語「will」を指定する記述である。 The fourth line ".type = aux & .POS = MD & .lemma = will" is a child node of the description in the second line, and the type of dependency (type) is an auxiliary verb (aux) related to the verb. It is a description that specifies the content word "will" whose part of speech is an auxiliary verb (MD).
6行目の「♯a0.type=advcl&.POS=VB&.lemma=like」は、係り受けの種類(type)が副詞節修飾語(advcl)であり、かつ、品詞が動詞の原形(VB)である内容語「like」を、要約要素#a0として抽出する抽出条件である。 In the sixth line, "# a0.type = advcl & .POS = VB & .lemma = like", the type of dependency (type) is an adverb clause modifier (advcl), and the part of speech is the original form of the verb (VB). This is an extraction condition for extracting the content word "like", which is, as a summary element # a0.
8行目の「.type=nsubj&.POS=PRP&.lemma=I」は、6行目の抽出条件の子ノードとして、係り受けの種類(type)が能動態の主語となる名詞(nsubj)であり、かつ、品詞が代名詞(PRP)である内容語「I」を指定する記述である。 The 8th line ".type = nsubj & .POS = PRP & .lemma = I" is a noun (nsubj) whose dependency type (type) is the subject of the active voice as a child node of the extraction condition in the 6th line. In addition, it is a description that specifies the content word "I" whose part of speech is a pronoun (PRP).
9行目の「.type=aux&.POS=MD&.lemma=would」は、6行目の抽出条件の子ノードとして、係り受けの種類(type)が動詞に係る助動詞(aux)であり、かつ、品詞が助動詞(MD)である内容語「would」を指定する記述である。 The 9th line ".type = aux & .POS = MD & .lemma = world" is a child node of the extraction condition on the 6th line, and the dependency type (type) is an auxiliary verb (aux) related to the verb. , Is a description that specifies the content word "world" whose part of speech is an auxiliary verb (MD).
10行目の「.type=xcomp&.POS=VB」は、6行目の抽出条件の子ノードとして、係り受けの種類(type)が開放句補語(xcomp)である動詞の原形(VB)を指定する記述である。 ".Type = xcomp & .POS = VB" on the 10th line is the original form (VB) of the verb whose dependency type (type) is an open phrase complement (xcomp) as a child node of the extraction condition on the 6th line. It is a description to specify.
11行目の「.type=aux&.POS=TO&.lemma=to」は、10行目の記述の子ノードとして、係り受けの種類(type)が動詞に係る助動詞(aux)であり、かつ、品詞がTO不定詞(TO)である内容語「to」を指定する記述である。 The 11th line ".type = aux & .POS = TO & .lemma = to" is a child node of the description on the 10th line, and the type of dependency (type) is an auxiliary verb (aux) related to the verb. It is a description that specifies the content word "to" whose part of speech is the TO infinitive (TO).
12行目の「♯a2.type=dobj&.POS=N.**)」は、10行目の記述の子ノードとして、係り受けの種類(type)が直接目的語(dobj)であり、かつ、名詞である要約要素#a2を抽出する抽出条件である。 The 12th line "# a2.type = dobj & .POS = N. **)" is a child node of the description on the 10th line, and the dependency type (type) is the direct object (dobj). , Is an extraction condition for extracting the summary element # a2 which is a noun.
また、共通抽出ルールcr1eは、共通抽出ルールcr1と同様、対象となる要約要素#a0から削除対象の語を特定するという、いわゆる枝刈りをおこなうための枝刈り条件である。共通抽出ルールcr1eの「(type_pruned.dobj)」は、係り受けの種類(type)が直接目的語(dobj)であるという条件式であり、「(POS_pruned.IN)」は、品詞が前置詞または従属接続詞(IN)であることを示す。すなわち、共通抽出ルールcr1eは、要約要素#a0から直接目的語(dobj)と、前置詞または従属接続詞と、を削除するという枝刈り条件である。 Further, the common extraction rule cr1e is a pruning condition for performing so-called pruning, in which a word to be deleted is specified from the target summary element # a0, as in the common extraction rule cr1. The "(type_pruned.dbj)" of the common extraction rule cr1e is a conditional expression that the type of dependency (type) is a direct object (dobj), and "(POS_prund.IN)" has a part of speech as a preposition or a subordinate. Indicates that it is a conjunction (IN). That is, the common extraction rule cr1e is a pruning condition in which the object (dobj) and the preposition or the subordinate conjunction are deleted directly from the summary element # a0.
図20は、実施例4にかかる文生成テンプレートDB400の一例を示す説明図である。文生成テンプレートDB2000は、図4の文生成テンプレートDB400と同様、たとえば、文生成テンプレートtp1e,tp2e,tp3e,…(tp1e,tp2e,tp3e,…を区別しない場合は、単にtpe)を記憶するデータベースである。文生成テンプレートDB400は、文生成装置200の記憶デバイス202に記憶される。また、文生成テンプレートDB2000は、文生成装置200と通信可能なコンピュータに記憶されていてもよい。
FIG. 20 is an explanatory diagram showing an example of the sentence
文生成テンプレートtpは、抽出した要約要素を文生成テンプレートtpe内の当該構成要素の位置に設定することにより、出力文を生成するためのテンプレートである。文生成テンプレートtp1eの場合、要約要素#a1,#a2,#a0が適用される。 The sentence generation template tp is a template for generating an output sentence by setting the extracted summary element at the position of the component in the sentence generation template pe. In the case of the sentence generation template tp1e, the summary elements # a1, # a2, # a0 are applied.
<文生成処理手順>
実施例4にかかる文生成装置200による文生成処理手順例では、文生成装置200は、図5に示した木構造解析(ステップS501)、要約要素の取得(ステップS502)、要約要素の修正(ステップS503)、文生成テンプレートによる連結(ステップS505)、および活用語尾の変換(ステップS506)を実行して、一連の処理を終了する。
<Sentence generation processing procedure>
In the sentence generation processing procedure example by the
図21は、実施例4にかかる木構造解析(ステップS501)による入力文1800の木構造解析結果の一例を示す説明図である。木構造解析結果2100は、抽出ルールの抽出対象となるデータである。木構造解析(ステップS501)では、文生成装置200は、入力文1800を木構造解析する。具体的には、たとえば、文生成装置200は、入力文100に対して単語単位で形態素解析および係り受け解析を実行する。これにより、木構造解析結果2100が得られる。
FIG. 21 is an explanatory diagram showing an example of the tree structure analysis result of the
なお、図21の木構造解析結果2100において、図19で示したもののほか、「det」は限定詞、「prep」は前置詞、「pobj」は前置詞の目的語、「DT」は冠詞、「mark」は接続詞、「NNS」は名詞(複数形)、「rcmod」は関係詞節、「WPはWh代名詞(単数形)である。
In the tree
図22は、実施例4にかかる要約要素の取得(ステップS502)による要約要素の取得結果を示す説明図である。要約要素の取得(ステップS502)では、文生成装置200は、たとえば、抽出ルールDB1900のすべての抽出ルールを木構造解析結果2100に適用して、要約要素を抽出する。具体的には、たとえば、文生成装置200は、指示抽出ルールir1eの3行目の抽出条件C1eを木構造解析結果2100から特定し、抽出条件C1eに該当する要約要素#a1として、動詞の受動態「discussed」の主語である「the operation」を抽出する。
FIG. 22 is an explanatory diagram showing the acquisition result of the summary element by the acquisition of the summary element according to the fourth embodiment (step S502). In the acquisition of the summary element (step S502), the
また、文生成装置200は、指示抽出ルールir1eの6行目の抽出条件C2eを木構造解析結果600から特定し、抽出条件C2eに該当する要約要素#a0として「so I would like to hear the opinion of those who are involved in the project」を抽出する。また、文生成装置200は、指示抽出ルールir1eの12行目の抽出条件C2eを木構造解析結果2100から特定し、抽出条件C2eに該当する要約要素#a2として「the opinion of those who are involved in the project.」を抽出する。
Further, the
また、要約要素の取得(ステップS502)では、文生成装置200は、抽出した要約要素について共通抽出ルールcr1eに該当する場合には、枝刈りを実行する。
Further, in the acquisition of the summary element (step S502), the
図23は、実施例4にかかる要約要素の修正(ステップS503)による枝刈り結果を示す説明図である。図23では、要約要素#a0から、共通抽出ルールcr1eに規定された直接目的語である「the opinion of those who are involved in the project」と、前置詞または従属接続詞である「so」を削除して、要約要素#a0を「I would like to hear」にする。以降、特に指定しない限り、実施例4において、要約要素#a0は、枝刈り後の「I would like to hear」とする。 FIG. 23 is an explanatory diagram showing the result of pruning by modifying the summary element according to the fourth embodiment (step S503). In FIG. 23, the direct object “the opinion of this who are involved in the project” defined in the common extraction rule cr1e and the preposition or the subordinate conjunction “so” are deleted from the summary element # a0. , Set the summary element # a0 to "I world like to hair". Hereinafter, unless otherwise specified, in Example 4, the summary element # a0 is referred to as "I world like to hair" after pruning.
実施例4では、要約要素の修正(ステップS503)のあと、文生成装置200は、木構造解析(ステップS501)において単語単位で木構造解析を実行したため、要約要素からの単語列の抽出(ステップS504)を実行せずに、文生成テンプレートによる連結(ステップS505)を実行する。
In the fourth embodiment, after the modification of the summary element (step S503), the
図24は、実施例4にかかる文生成テンプレートによる連結(ステップS505)での連結結果を示す説明図である。文生成テンプレートによる連結(ステップS505)では、文生成装置200は、要約要素#a0〜#a2を、文生成テンプレートtp1eに適用することにより、連結結果2400として「About the operation,I would like to hear the opinion of those who are involved in the project.」を生成する。
FIG. 24 is an explanatory diagram showing the connection result in the connection (step S505) by the sentence generation template according to the fourth embodiment. In the concatenation by the sentence generation template (step S505), the
活用語尾の変換(ステップS506)では、文生成装置200は、文生成テンプレートによる連結(ステップS505)での連結結果2400について活用語尾を変換し、出力文を出力する。活用語尾の変換(ステップS506)としては、主語に合わせて動詞に三単現のs(es)を付与したり削除したりする処理があるが、連結結果2400ではその必要がないため、文生成装置200は、連結結果2400を出力文として出力する。
In the conversion of the inflected flexion (step S506), the
このように、入力文1800の言語が英語であっても、実施例1と同様、入力文1800を平易化した出力文を出力することにより、可能な限り文生成を自動化して人間の人的作業の低減を図ることができる。また、複文間の時制、否定形および仮定形の検出およびその検出結果に関する要約要素の修正(ステップS503)についても、実施例4にかかる文生成装置200は、実施例2で示した処理に従って、実行することができる。また、照応解析(照応およびゼロ代名詞)およびその照応解析結果に関する要約要素の修正(ステップS503)についても、実施例4にかかる文生成装置200は、実施例3で示した処理に従って、実行することができる。
In this way, even if the language of the
また、上述した実施例1〜実施例4では、言語が日本語または英語の例について説明したが、文法が共通する他の言語については、文法が共通する範囲で実施例1〜実施例4を適用することができる。 Further, in Examples 1 to 4 described above, an example in which the language is Japanese or English has been described, but for other languages having a common grammar, Examples 1 to 4 are described as long as the grammar is common. Can be applied.
また、上述した実施例1〜実施例4にかかる文生成装置200は、下記(1)〜(11)のように構成することもできる。
Further, the
(1)プログラムを実行するプロセッサ201と、プログラムを記憶する記憶デバイス202と、を有する文生成装置200では、プロセッサ201は、入力文100を構成する単語列である1以上の要約要素(#a0,#a1,#a2)を取得する取得処理(ステップS502)と、単語列の少なくとも一部を指定する1以上の指定要素によって文のひな型を構成する文生成テンプレートtpを参照して、取得処理(ステップS502)によって取得された要約要素(#a0,#a1,#a2)の単語列の少なくとも一部を指定可能な文生成テンプレートtp内の指定要素(♯a1、♯a2、♯a2.case、♯a0.lemma)で指定することにより、出力文101を生成する生成処理(ステップS505)と、を実行する。
(1) In the
あらかじめ文生成テンプレートtpを設定しておくことにより、入力文100を適切な形に変換することができる。これにより、入力文100に基づく出力文101の作成を可能な限り自動化し、人的作業の低減を図ることができる。
By setting the sentence generation template tp in advance, the
(2)上記(1)の文生成装置200において、プロセッサ201は、入力文100を木構造解析して木構造解析結果を出力する木構造解析処理(ステップS501)を実行し、取得処理(ステップS502)では、プロセッサ201は、要約要素(#a0,#a1,#a2)を抽出する抽出ルールirを用いて、木構造解析処理(ステップS501)によって出力された木構造解析結果600に基づいて、入力文100から要約要素(#a0,#a1,#a2)を抽出する(S502)。
(2) In the
あらかじめ抽出ルールirおよび文生成テンプレートtpを設定しておくことにより、抽出ルールirによって入力文100から抽出された要約要素の単語列を用いて、入力文100を適切な形に変換することができる。これにより、入力文100に基づく出力文101の作成を可能な限り自動化し、人的作業の低減を図ることができる。
By setting the extraction rule ir and the sentence generation template tp in advance, the
(3)上記(1)の文生成装置200において、プロセッサ201は、要約要素(#a0,#a1,#a2)を修正する修正処理(ステップS503)を実行し、生成処理(ステップS505)では、プロセッサ201は、文生成テンプレートtpを参照して、修正処理(ステップS503)による修正後の要約要素の単語列(「聞いてやっていただきたい」)を指定可能な文生成テンプレートtp内の指定要素(#a0.lemma)で指定することにより、出力文101を生成する。
(3) In the
これにより、修正済みの要約要素を用いて、入力文100を入力文100よりも平易化された適切な形に変換することができる。したがって、出力文101の作成を可能な限り自動化し、人的作業の低減を図ることができる。
Thereby, the
(4)上記(3)の文生成装置200において、修正処理(ステップS503)では、プロセッサ201は、要約要素の一部の単語列を削除する削除ルール(共通抽出ルールcr1)に基づいて、要約要素(「聞いてやっていただきたい」)の一部の単語列(「明日」)を削除する。
(4) In the correction process (step S503) in the
これにより、文生成テンプレートtpの適用前に不要な単語を削除することができるため、入力文100を入力文100よりも簡素化された適切な形に変換することができる。したがって、出力文101の作成を可能な限り自動化し、人的作業の低減を図ることができる。
As a result, unnecessary words can be deleted before the sentence generation template tp is applied, so that the
(5)上記(3)の文生成装置200において、修正処理(ステップS503)では、プロセッサ201は、入力文100に含まれている複文の先行文を構成する第1術語(「配布し」)を含む第1要約要素1313と、複文の後続文を構成する第2述語(「説明した」)を含む第2要約要素1315と、について、第1述語の時制と第2述語の時制とが異なる場合、第1述語の時制を第2述語の時制に変更する。
(5) In the
これにより、文生成テンプレートtpの適用前に時制の一致が実行されるため、入力文100をより意味が明確な形に変換することができる。したがって、出力文101の作成を可能な限り自動化し、人的作業の低減を図ることができる。
As a result, the tense matching is executed before the sentence generation template tp is applied, so that the
(6)上記(3)の文生成装置200において、修正処理(ステップS503)では、プロセッサ201は、入力文100に含まれている複文の先行文を構成する第1術語(「持ち出して」)を含む第1要約要素1413と、複文の後続文を構成する第2述語(「漏らさないでください」)を含む第2要約要素1415と、について、第1述語が肯定形であり、かつ、第2述語が否定形である場合、第1述語を否定形に変更する。
(6) In the
これにより、文生成テンプレートtpの適用前に否定表現の一致が実行されるため、入力文100をより意味が明確な形に変換することができる。したがって、出力文101の作成を可能な限り自動化し、人的作業の低減を図ることができる。
As a result, the matching of the negative expressions is executed before the sentence generation template tp is applied, so that the
(7)上記(3)の文生成装置200において、修正処理(ステップS503)では、プロセッサ201は、入力文100に含まれている複文の先行文を構成する第1術語(「持ち帰って」)を含む第1要約要素1512と、複文の後続文を構成する第2述語(「保存すれば」)を含む第2要約要素1513と、について、第1述語が断定形であり、かつ、第2述語が仮定形である場合、第1述語を仮定形に変更する、
(7) In the
これにより、文生成テンプレートtpの適用前に仮定表現の一致が実行されるため、入力文100をより意味が明確な形に変換することができる。したがって、出力文101の作成を可能な限り自動化し、人的作業の低減を図ることができる。
As a result, the matching of the hypothetical expressions is executed before the sentence generation template tp is applied, so that the
(8)上記(3)の文生成装置200において、修正処理(ステップS503)では、プロセッサ201は、先行入力文1601に含まれる特定の名詞の第1単語列(「A」)と、先行入力文1601に後続する後続入力文1602に含まれる照応詞の第2単語列(「彼」)と、が照応することを検出し、第2単語列(「彼」)を、第1単語列(「A」)に変更する。
(8) In the
これにより、文生成テンプレートtpの適用前に照応解析が実行されるため、入力文100を照応関係が明確な形に変換することができる。したがって、出力文の作成を可能な限り自動化し、人的作業の低減を図ることができる。
As a result, the anaphora analysis is executed before the sentence generation template tp is applied, so that the
(9)上記(3)の文生成装置200において、修正処理(ステップS503)では、プロセッサ201は、第1入力文1601に含まれる特定の名詞の単語列(「A」)またはその照応詞(「彼」または「彼女」)が、第1入力文1601に後続する第2入力文1602に含まれていないことを検出し、特定の名詞の単語列(「A」)を含む要約要素1611を、第2入力文1602の1以上の要約要素の集合に追加する。
(9) In the
これにより、文生成テンプレートtpの適用前に照応解析が実行されるため、入力文100をゼロ代名詞の単語列を補完して明確な形に変換することができる。したがって、出力文の作成を可能な限り自動化し、人的作業の低減を図ることができる。
As a result, since the correspondence analysis is executed before the sentence generation template tp is applied, the
(10)上記(1)の文生成装置200において、プロセッサ201は、出力文101において2つの動詞(「聞く」と「まとめる」)が連結されている場合、先頭側の動詞(「聞く」)の活用語尾(「く」)を変換する変換処理(ステップS506)を実行する。
(10) In the
これにより、入力文100を文法的に正しくて違和感のない適切な形に変換することができる。したがって、出力文101の作成を可能な限り自動化し、人的作業の低減を図ることができる。
As a result, the
(11)上記(1)の文生成装置200において、プロセッサ201は、出力文101における主語と述語との関係に基づいて、述語内の動詞の活用語尾を変換する変換処理(ステップS506)を実行する。
(11) In the
これにより、入力文100を文法的に正しくて違和感のない適切な形に変換することができる。したがって、出力文101の作成を可能な限り自動化し、人的作業の低減を図ることができる。
As a result, the
なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。たとえば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。 It should be noted that the present invention is not limited to the above-mentioned examples, but includes various modifications and equivalent configurations within the scope of the attached claims. For example, the above-described embodiment has been described in detail in order to explain the present invention in an easy-to-understand manner, and the present invention is not necessarily limited to those having all the described configurations. Further, a part of the configuration of one embodiment may be replaced with the configuration of another embodiment. Further, the configuration of another embodiment may be added to the configuration of one embodiment. In addition, other configurations may be added, deleted, or replaced with respect to a part of the configurations of each embodiment.
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、たとえば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサ201がそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
Further, each of the above-mentioned configurations, functions, processing units, processing means, etc. may be realized by hardware by designing a part or all of them by, for example, an integrated circuit, and the
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、IC(Intetpated Circuit)カード、SDカード、DVD(Digital Versatile Disc)の記録媒体に格納することができる。 Information such as programs, tables, and files that realize each function is recorded in a memory, a hard disk, a storage device such as an SSD (Solid State Drive), or an IC (Integrated Circuit) card, an SD card, or a DVD (Digital Versail Disc). It can be stored in a medium.
また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。 In addition, the control lines and information lines show what is considered necessary for explanation, and do not necessarily show all the control lines and information lines necessary for mounting. In practice, it can be considered that almost all configurations are interconnected.
cr 共通抽出ルール
dr 決定抽出ルール
ir 指示抽出ルール
or 意見抽出ルール
qr 質問抽出ルール
tp 文生成テンプレート
300 抽出ルールDB
400 文生成テンプレートDB
100 入力文
101 出力文
102 議事録
200 文生成装置
201 プロセッサ
202 記憶デバイス
600 木構造解析結果
1900 抽出ルールDB
cr common extraction rule dr decision extraction rule ir instruction extraction rule or opinion extraction rule qr question extraction rule tp sentence
400 Statement generation template DB
100
Claims (13)
前記プロセッサは、
入力文を構成する単語列である1以上の要約要素を取得する取得処理と、
単語列の少なくとも一部を指定する1以上の指定要素によって文のひな型を構成する文生成テンプレートを参照して、前記取得処理によって取得された要約要素の単語列の少なくとも一部を指定可能な前記文生成テンプレート内の前記指定要素で指定することにより、出力文を生成する生成処理と、
を実行することを特徴とする文生成装置。 A statement generator comprising a processor that executes a program and a storage device that stores the program.
The processor
Acquisition processing to acquire one or more summary elements that are word strings that make up an input sentence, and
The above can specify at least a part of the word string of the summary element acquired by the acquisition process by referring to the sentence generation template that constitutes the sentence template by one or more specification elements that specify at least a part of the word string. A generation process that generates an output statement by specifying it with the specified element in the statement generation template,
A statement generator characterized by executing.
前記プロセッサは、
前記入力文を木構造解析して木構造解析結果を出力する木構造解析処理を実行し、
前記取得処理では、前記プロセッサは、前記要約要素を抽出する抽出ルールを用いて、前記木構造解析処理によって出力された木構造解析結果に基づいて、前記入力文から前記要約要素を抽出する、
ことを特徴とする文生成装置。 The sentence generator according to claim 1.
The processor
The tree structure analysis process that analyzes the tree structure of the input sentence and outputs the tree structure analysis result is executed.
In the acquisition process, the processor extracts the summary element from the input statement based on the tree structure analysis result output by the tree structure analysis process using the extraction rule for extracting the summary element.
A sentence generator characterized by that.
前記プロセッサは、
前記要約要素を修正する修正処理を実行し、
前記生成処理では、前記プロセッサは、前記文生成テンプレートを参照して、前記修正処理による修正後の要約要素の単語列を指定可能な前記文生成テンプレート内の前記指定要素で指定することにより、前記出力文を生成する、
ことを特徴とする文生成装置。 The sentence generator according to claim 1.
The processor
Execute the correction process to correct the summary element,
In the generation process, the processor refers to the sentence generation template and specifies the word string of the summary element corrected by the modification process in the designated element in the sentence generation template that can be specified. Generate output statement,
A sentence generator characterized by that.
前記修正処理では、前記プロセッサは、前記要約要素の一部の単語列を削除する削除ルールに基づいて、前記要約要素の一部の単語列を削除する、
ことを特徴とする文生成装置。 The sentence generator according to claim 3.
In the correction process, the processor deletes a part of the word string of the summary element based on the deletion rule of deleting a part of the word string of the summary element.
A sentence generator characterized by that.
前記修正処理では、前記プロセッサは、前記入力文に含まれている複文の先行文を構成する第1術語を含む第1要約要素と、前記複文の後続文を構成する第2述語を含む第2要約要素と、について、前記第1述語の時制と前記第2述語の時制とが異なる場合、前記第1述語の時制を前記第2述語の時制に変更する、
ことを特徴とする文生成装置。 The sentence generator according to claim 3.
In the correction process, the processor includes a first summary element including a first term that constitutes a preceding sentence of the compound sentence included in the input sentence, and a second predicate that includes a second predicate that constitutes the succeeding sentence of the compound sentence. When the tense of the first predicate and the tense of the second predicate are different from each other, the tense of the first predicate is changed to the tense of the second predicate.
A sentence generator characterized by that.
前記修正処理では、前記プロセッサは、前記入力文に含まれている複文の先行文を構成する第1術語を含む第1要約要素と、前記複文の後続文を構成する第2述語を含む第2要約要素と、について、前記第1述語が肯定形であり、かつ、前記第2述語が否定形である場合、前記第1述語を否定形に変更する、
ことを特徴とする文生成装置。 The sentence generator according to claim 3.
In the correction process, the processor includes a first summary element including a first syntactic word constituting the preceding sentence of the compound sentence included in the input sentence, and a second predicate including a second predicate constituting the succeeding sentence of the compound sentence. With respect to the summary element, if the first predicate is affirmative and the second predicate is negative, the first predicate is changed to negative.
A sentence generator characterized by that.
前記修正処理では、前記プロセッサは、前記入力文に含まれている複文の先行文を構成する第1術語を含む第1要約要素と、前記複文の後続文を構成する第2述語を含む第2要約要素と、について、前記第1述語が断定形であり、かつ、前記第2述語が仮定形である場合、前記第1述語を仮定形に変更する、
ことを特徴とする文生成装置。 The sentence generator according to claim 3.
In the correction process, the processor includes a first summary element including a first syntactic word constituting the preceding sentence of the compound sentence included in the input sentence, and a second predicate including a second predicate constituting the succeeding sentence of the compound sentence. With respect to the summary element, when the first predicate is a definite form and the second predicate is a hypothetical form, the first predicate is changed to the hypothetical form.
A sentence generator characterized by that.
前記修正処理では、前記プロセッサは、第1入力文に含まれる特定の名詞の第1単語列と、前記第1入力文に後続する第2入力文に含まれる照応詞の第2単語列と、が照応することを検出し、前記第2単語列を、前記第1単語列に変更する、
ことを特徴とする文生成装置。 The sentence generator according to claim 3.
In the correction process, the processor includes a first word string of a specific nomenclature included in the first input sentence, a second word string of anaphora included in the second input sentence following the first input sentence, and the second word string of the anaphoric words included in the second input sentence. Detects that the second word string is anaphoric, and changes the second word string to the first word string.
A sentence generator characterized by that.
前記修正処理では、前記プロセッサは、第1入力文に含まれる特定の名詞の単語列またはその照応詞が、前記第1入力文に後続する第2入力文に含まれていないことを検出し、前記特定の名詞の単語列を含む要約要素を、前記第2入力文の1以上の要約要素の集合に追加する、
ことを特徴とする文生成装置。 The sentence generator according to claim 3.
In the correction process, the processor detects that the word string of a specific noun included in the first input sentence or its anaphora is not included in the second input sentence following the first input sentence. A summary element containing the word string of the particular noun is added to the set of one or more summary elements of the second input sentence.
A sentence generator characterized by that.
前記プロセッサは、
前記出力文において2つの動詞が連結されている場合、先頭側の動詞の活用語尾を変換する変換処理を実行する、
ことを特徴とする文生成装置。 The sentence generator according to claim 1.
The processor
When two verbs are concatenated in the output sentence, a conversion process for converting the conjugation flexion of the first verb is executed.
A sentence generator characterized by that.
前記プロセッサは、
前記出力文における主語と述語との関係に基づいて、前記述語内の動詞の活用語尾を変換する変換処理を実行する、
ことを特徴とする文生成装置。 The sentence generator according to claim 1.
The processor
Based on the relationship between the subject and the predicate in the output sentence, the conversion process for converting the conjugation flexion of the verb in the predicate is executed.
A sentence generator characterized by that.
前記文生成方法は、
前記プロセッサが、
入力文を構成する単語列である1以上の要約要素を取得する取得処理と、
単語列の少なくとも一部を指定する1以上の指定要素によって文のひな型を構成する文生成テンプレートを参照して、前記取得処理によって取得された要約要素の単語列の少なくとも一部を指定可能な前記文生成テンプレート内の前記指定要素で指定することにより、出力文を生成する生成処理と、
を実行することを特徴とする文生成方法。 A statement generation method executed by a statement generator having a processor that executes a program and a storage device that stores the program.
The sentence generation method is
The processor
Acquisition processing to acquire one or more summary elements that are word strings that make up an input sentence, and
The above can specify at least a part of the word string of the summary element acquired by the acquisition process by referring to the sentence generation template that constitutes the sentence template by one or more specification elements that specify at least a part of the word string. A generation process that generates an output statement by specifying it with the specified element in the statement generation template,
A statement generation method characterized by executing.
入力文を構成する単語列である1以上の要約要素を取得する取得処理と、
単語列の少なくとも一部を指定する1以上の指定要素によって文のひな型を構成する文生成テンプレートを参照して、前記取得処理によって取得された要約要素の単語列の少なくとも一部を指定可能な前記文生成テンプレート内の前記指定要素で指定することにより、出力文を生成する生成処理と、
を実行させることを特徴とする文生成プログラム。 To the processor
Acquisition processing to acquire one or more summary elements that are word strings that make up an input sentence, and
The above can specify at least a part of the word string of the summary element acquired by the acquisition process by referring to the sentence generation template that constitutes the sentence template by one or more specification elements that specify at least a part of the word string. A generation process that generates an output statement by specifying it with the specified element in the statement generation template,
A sentence generation program characterized by executing.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020083255A JP7511381B2 (en) | 2020-05-11 | 2020-05-11 | Sentence generation device, sentence generation method, and sentence generation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020083255A JP7511381B2 (en) | 2020-05-11 | 2020-05-11 | Sentence generation device, sentence generation method, and sentence generation program |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2021179673A true JP2021179673A (en) | 2021-11-18 |
JP2021179673A5 JP2021179673A5 (en) | 2023-02-10 |
JP7511381B2 JP7511381B2 (en) | 2024-07-05 |
Family
ID=78511524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020083255A Active JP7511381B2 (en) | 2020-05-11 | 2020-05-11 | Sentence generation device, sentence generation method, and sentence generation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7511381B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7474296B2 (en) | 2022-09-01 | 2024-04-24 | 三菱電機インフォメーションシステムズ株式会社 | Information processing system, information processing method, and program |
JP7474295B2 (en) | 2022-09-01 | 2024-04-24 | 三菱電機インフォメーションシステムズ株式会社 | Information processing system, information processing method, and program |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5495967B2 (en) | 2010-06-21 | 2014-05-21 | 株式会社野村総合研究所 | Discourse summary generation system and discourse summary generation program |
JP2013196504A (en) | 2012-03-21 | 2013-09-30 | Toshiba Corp | Gist extracting device and program |
-
2020
- 2020-05-11 JP JP2020083255A patent/JP7511381B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7474296B2 (en) | 2022-09-01 | 2024-04-24 | 三菱電機インフォメーションシステムズ株式会社 | Information processing system, information processing method, and program |
JP7474295B2 (en) | 2022-09-01 | 2024-04-24 | 三菱電機インフォメーションシステムズ株式会社 | Information processing system, information processing method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP7511381B2 (en) | 2024-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rashel et al. | Building an Indonesian rule-based part-of-speech tagger | |
JP6955963B2 (en) | Search device, similarity calculation method, and program | |
Witt et al. | On the lossless transformation of single-file, multi-layer annotations into multi-rooted trees | |
JP2009140466A (en) | Method and system for providing conversation dictionary services based on user created dialog data | |
JP2021179673A (en) | Sentence generation device, sentence generation method and sentence generation program | |
Nugues | Language Processing with Perl and Prolog | |
GB2378877A (en) | Prosodic boundary markup mechanism | |
US20230069113A1 (en) | Text Summarization Method and Text Summarization System | |
JP3706758B2 (en) | Natural language processing method, natural language processing recording medium, and speech synthesizer | |
JP3441400B2 (en) | Language conversion rule creation device and program recording medium | |
JP4869281B2 (en) | Machine translation apparatus, program and method | |
JP2006004366A (en) | Machine translation system and computer program for it | |
Anto et al. | Text to speech synthesis system for English to Malayalam translation | |
JP5528376B2 (en) | Document simplifying apparatus and program | |
JP4041875B2 (en) | Written word style conversion system and written word style conversion processing program | |
Tajalli et al. | Developing an Informal-Formal Persian Corpus | |
Gavhal et al. | Sentence Compression Using Natural Language Processing | |
He et al. | A dependency parser for spontaneous Chinese spoken language | |
Mendes et al. | Modality annotation for Portuguese: from manual annotation to automatic labeling | |
Nikishina et al. | Automatic Direct Speech Tagging in Russian prose markup and parser | |
Galley | Automatic summarization of conversational multi-party speech | |
JP3972699B2 (en) | Natural language processing system, natural language processing method, and computer program | |
JP3339006B2 (en) | Parallel Noun Phrase Processor in Machine Translation Equipment | |
JP3972697B2 (en) | Natural language processing system, natural language processing method, and computer program | |
Diaconescu et al. | General system for normal and phonetic inflection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230202 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230202 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240528 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240625 |