JP2021068218A - Headline generation device and program - Google Patents

Headline generation device and program Download PDF

Info

Publication number
JP2021068218A
JP2021068218A JP2019193460A JP2019193460A JP2021068218A JP 2021068218 A JP2021068218 A JP 2021068218A JP 2019193460 A JP2019193460 A JP 2019193460A JP 2019193460 A JP2019193460 A JP 2019193460A JP 2021068218 A JP2021068218 A JP 2021068218A
Authority
JP
Japan
Prior art keywords
sentence
unit
headline
condition
extended
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019193460A
Other languages
Japanese (ja)
Inventor
仁宣 牧野
Kiminobu Makino
仁宣 牧野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2019193460A priority Critical patent/JP2021068218A/en
Publication of JP2021068218A publication Critical patent/JP2021068218A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

To provide a head line generation device capable of generating a headline divided into a plurality of sentences as needed without losing an element of essential information by summation.SOLUTION: A head line generation device 1 includes: a division unit 21 for acquiring a modification tree by analyzing a modification relation of a clause about an input sentence to divide it into divided sentences corresponding to partial trees of the modification tree; a key phrase determination unit 22 for selecting a divided sentence including a predetermined key phrase from among the divided sentences; an element determination unit 23 for determining whether or not a sentence satisfies an element condition that is a condition concerning the element of the sentence; a sentence expansion processing unit 24 for generating an expansion sentence by adding an element of the sentence based on the divided sentence selected by the key phrase determination unit 22 to repeatedly add an element until the expansion sentence satisfies the element condition; and an output unit 30 for outputting information represented by the expansion sentence as a head line when the expansion sentence satisfies the element condition.SELECTED DRAWING: Figure 1

Description

本発明は、ヘッドライン生成装置およびプログラムに関する。 The present invention relates to a headline generator and a program.

ニュースの内容の概略のみをテキスト(ヘッドライン等と呼ばれる)で配信するサービスが行われている。ニュースや告知等の文章を基に上記のようなヘッドラインを自動的に生成することが出来れば、省力化、低コスト化が期待できる。文章から要約を抽出する技術について既に多く研究されている。 There is a service that delivers only the outline of the news content in text (called headlines, etc.). If the above headlines can be automatically generated based on sentences such as news and announcements, labor saving and cost reduction can be expected. Much research has already been done on techniques for extracting summaries from text.

例えば、特許文献1、特許文献2、特許文献3、非特許文献1、非特許文献2には、文章等を要約する技術が記載されている。 For example, Patent Document 1, Patent Document 2, Patent Document 3, Non-Patent Document 1, and Non-Patent Document 2 describe techniques for summarizing sentences and the like.

特開2017−151863号公報Japanese Unexamined Patent Publication No. 2017-151863 特許第4333318号公報Japanese Patent No. 4333318 特許第6205466号公報Japanese Patent No. 6205466

長谷川駿,平尾努,奥村学,永田昌明,「文圧縮を活用したヘッドライン生成」,言語処理学会 第23回年次大会 発表論文集, 2017年3月,URL:https://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/A1-3.pdfShun Hasegawa, Tsutomu Hirao, Manabu Okumura, Masaaki Nagata, "Headline Proceedings Using Sentence Compression", Proceedings of the 23rd Annual Meeting of the Natural Language Processing Society, March 2017, URL: https://www.anlp .jp / proceedings / annual_meeting / 2017 / pdf_dir / A1-3.pdf 田中駿,笹野遼平,高村大也,奥村学,「要約長,文長,文数制約付きニュース記事要約」,言語処理学会 第22回年次大会 発表論文集,2016年3月,URL:https://www.anlp.jp/proceedings/annual_meeting/2016/pdf_dir/D1-3.pdfShun Tanaka, Ryohei Sasano, Daiya Takamura, Manabu Okumura, "Summary length, sentence length, news article summary with limited number of sentences", Proceedings of the 22nd Annual Meeting of the Natural Language Processing Society, March 2016, URL: https //www.anlp.jp/proceedings/annual_meeting/2016/pdf_dir/D1-3.pdf

しかしながら、上に列挙した先行技術は、いずれも、要約するために元の文章に含まれる本質的な情報のうちの一部を捨てるものである。しかしながら、例えば、交通機関の不通や遅延のニュースなど、要約するに際して本質的な情報を捨てずに維持することが望まれる分野が存在する。一例として、鉄道のA線と、B線と、C線と、D線のD1駅からD2駅までの区間が現在普通であることを伝えるニュースを要約するとき、これら列挙されている路線名あるいは区間を特定する情報(2つの駅名)等の情報は、すべてが維持されることに価値がある。言い換えれば、情報を捨ててわかりやすくすることよりも、情報を維持して網羅性を保つことが望まれる。また、こういった種類の要約を行う場合、1つの入力文を基に、複数のヘッドライン(要約テキスト)を出力することが情報の分かりやすさ等の点で優れている場合もある。しかしながら、列挙した先行技術文献のいずれも、1つの文を意味に応じて複数の文に分割して要約するものではない。 However, all of the prior arts listed above discard some of the essential information contained in the original text for summarization. However, there are areas where it is desirable to maintain essential information when summarizing, such as news of transportation interruptions and delays. As an example, when summarizing the news that the sections of railways A, B, C, and D from D1 to D2 are currently normal, these listed line names or It is worthwhile to maintain all the information such as the information that identifies the section (two station names). In other words, it is desirable to maintain information and maintain completeness, rather than throwing away information to make it easier to understand. Further, when performing such a type of summarization, it may be superior in terms of easy-to-understand information to output a plurality of headlines (summary texts) based on one input sentence. However, none of the listed prior art documents summarizes one sentence by dividing it into a plurality of sentences according to the meaning.

本発明は、上記の課題認識に基づいて行なわれたものであり、要約によって本質的な情報の要素を失うことなく、また必要に応じて複数の文に分割したヘッドラインを生成することのできるヘッドライン生成装置およびプログラムを提供しようとするものである。 The present invention has been made based on the above-mentioned problem recognition, and it is possible to generate a headline divided into a plurality of sentences as needed without losing essential information elements by summarizing. It is intended to provide a headline generator and a program.

[1]上記の課題を解決するため、本発明の一態様によるヘッドライン生成装置は、入力された文について文節の係り受け関係の解析を行うことによって係り受け木を得て、前記文を、係り受け木の部分木に相当する分割文に分割する分割部と、前記分割文のうち予め定められたキーフレーズを含む分割文を選択するキーフレーズ判定部と、文が、文の要素に関する条件である要素条件を満たすか否か、を判定する要素判定部と、前記キーフレーズ判定部によって選択された前記分割文を基に、文の要素を付加することによって拡張文を生成する文拡張処理部と、前記拡張文が前記要素条件を満たす場合に、当該拡張文が表す情報をヘッドラインとして出力する出力部と、を具備し、前記文拡張処理部は、前記要素を付加する際に、前記係り受け木における当該要素を含む部分木に相当する節を付加するものであり、前記文拡張処理部は、前記拡張文が前記要素条件を満たさない場合に、前記拡張文が前記要素条件を満たすと前記要素判定部によって判定されるまで前記要素の付加を繰り返す、ものである。 [1] In order to solve the above-mentioned problems, the headline generator according to one aspect of the present invention obtains a dependency tree by analyzing the dependency relationship of clauses with respect to the input sentence, and obtains the dependency tree to obtain the sentence. A division part that divides into a division sentence corresponding to a subtree of the dependency tree, a key phrase determination unit that selects a division sentence including a predetermined key phrase among the division sentences, and a condition that the sentence is related to a sentence element. Sentence extension processing that generates an extended sentence by adding sentence elements based on the element determination unit that determines whether or not the element condition is satisfied and the divided sentence selected by the key phrase determination unit. A unit and an output unit that outputs information represented by the extended sentence as a headline when the extended sentence satisfies the element condition are provided, and the sentence expansion processing unit includes a unit when adding the element. A clause corresponding to a subtree including the element in the dependency tree is added, and the sentence extension processing unit adds the element condition to the extended sentence when the extended sentence does not satisfy the element condition. If it is satisfied, the addition of the element is repeated until it is determined by the element determination unit.

[2]また、本発明の一態様は、上記のヘッドライン生成装置において、前記拡張文が前記要素条件を満たす場合に、予め定められた正規パターンに合うように前記拡張文を正規化する正規化部、をさらに備え、前記出力部は、前記正規化部によって正規化された表現を前記ヘッドラインとして出力する、ものである。 [2] Further, one aspect of the present invention is a normalization in which, in the above-mentioned headline generator, when the extended sentence satisfies the element condition, the extended sentence is normalized so as to match a predetermined normal pattern. The output unit further includes a normalization unit, and the output unit outputs the expression normalized by the normalization unit as the headline.

[3]また、本発明の一態様は、上記のヘッドライン生成装置において、前記キーフレーズは、交通手段における路線名であり、前記要素条件は、文が前記路線名を含み、且つ前記文が当該路線名の区間を特定する情報を含み、且つ前記文が当該路線名の当該区間における状態を表す情報を含むものである。 [3] Further, in one aspect of the present invention, in the headline generator, the key phrase is a route name in a means of transportation, and the element condition is that the sentence includes the line name and the sentence includes the line name. The sentence includes information for specifying the section of the route name, and the sentence includes information indicating the state of the route name in the section.

[4]また、本発明の一態様は、入力された文について文節の係り受け関係の解析を行うことによって係り受け木を得て、前記文を、係り受け木の部分木に相当する分割文に分割する分割部と、前記分割文のうち予め定められたキーフレーズを含む分割文を選択するキーフレーズ判定部と、文が、文の要素に関する条件である要素条件を満たすか否か、を判定する要素判定部と、前記キーフレーズ判定部によって選択された前記分割文を基に、文の要素を付加することによって拡張文を生成する文拡張処理部と、前記拡張文が前記要素条件を満たす場合に、当該拡張文が表す情報をヘッドラインとして出力する出力部と、を具備し、前記文拡張処理部は、前記要素を付加する際に、前記係り受け木における当該要素を含む部分木に相当する節を付加するものであり、前記文拡張処理部は、前記拡張文が前記要素条件を満たさない場合に、前記拡張文が前記要素条件を満たすと前記要素判定部によって判定されるまで前記要素の付加を繰り返す、ヘッドライン生成装置としてコンピューターを機能させるためのプログラムである。 [4] Further, in one aspect of the present invention, a dependency tree is obtained by analyzing the dependency relationship of clauses with respect to the input sentence, and the sentence is divided into a divided sentence corresponding to a subtree of the dependency tree. A division unit that divides into the above, a key phrase determination unit that selects a division sentence including a predetermined key phrase among the division sentences, and whether or not the sentence satisfies the element condition which is a condition related to the element of the sentence. An element determination unit for determining, a sentence extension processing unit that generates an extended sentence by adding a sentence element based on the divided sentence selected by the key phrase determination unit, and the extended sentence set the element condition. When satisfied, the sentence extension processing unit includes an output unit that outputs the information represented by the extended sentence as a headline, and the sentence expansion processing unit includes a subtree including the element in the dependency tree when the element is added. The sentence expansion processing unit adds a clause corresponding to, and when the extended sentence does not satisfy the element condition, until the element determination unit determines that the extended sentence satisfies the element condition. This is a program for operating a computer as a headline generator that repeats the addition of the above elements.

本発明によれば、ヘッドライン生成装置は、入力された文を基に、自動的にヘッドラインを生成することができる。且つ、ヘッドライン生成装置は、入力された文が有する要素に応じて必要十分な要素を持つヘッドラインの集合(多くの場合に複数のヘッドラインを要素とする集合)を生成することができる。 According to the present invention, the headline generator can automatically generate a headline based on the input sentence. Moreover, the headline generator can generate a set of headlines having necessary and sufficient elements according to the elements of the input sentence (in many cases, a set having a plurality of headlines as elements).

本発明の実施形態によるヘッドライン生成装置の概略機能構成を示すブロック図である。It is a block diagram which shows the schematic functional structure of the headline generator by embodiment of this invention. 同実施形態による分割部が入力文についての構文解析処理を行った結果の一例を示す概略図である。It is a schematic diagram which shows an example of the result which the division part by the same embodiment performed the parsing processing about the input sentence. 同実施形態による分割部が構文解析結果に基づいて入力文を分割した例を示す概略図である。It is a schematic diagram which shows the example which the division part by the same embodiment divided an input sentence based on the syntactic analysis result. 同実施形態による要素判定部が判定に用いるための要素条件の例を示す概略図である。It is the schematic which shows the example of the element condition for use in the element determination part by the same embodiment. 同実施形態による文拡張処理部がキーセンテンスを拡張する手順の例を示す概略図である。It is the schematic which shows the example of the procedure which the sentence extension processing part by the same embodiment expands a key sentence. 同実施形態によるヘッドライン生成装置が残り要素を判定する処理の例を示す概略図である。It is the schematic which shows the example of the process which the headline generator by the same embodiment determines the remaining element. 同実施形態によるヘッドライン生成装置1の全体的な処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the whole processing of the headline generation apparatus 1 by the same embodiment. 同実施形態によるテキスト取得部10が取得するテキストデータ(入力文)の例(鉄道情報以外の場合)を示す概略図である。It is a schematic diagram which shows the example (in the case of other than railway information) of the text data (input sentence) acquired by the text acquisition unit 10 by the same embodiment. 同実施形態による分割部が構文解析結果に基づいて入力文を分割した例(鉄道情報以外の場合)を示す概略図である。It is a schematic diagram which shows the example (when the case other than railway information) that the division part by the same embodiment divided an input sentence based on the syntactic analysis result. 同実施形態による文拡張処理部がキーセンテンスを拡張する手順の例(鉄道情報以外の場合)を示す概略図である。It is a schematic diagram which shows the example (in the case of other than railway information) of the procedure which the sentence extension processing part by the same embodiment expands a key sentence.

本発明の一実施形態について、以下で、図面を参照しながら説明する。本実施形態によるヘッドライン生成装置は、入力された文(ヘッドライン化したい文)を構文解析器により構文解析し、複数の意味単位文(「分割文」とも呼ばれる)に分割する。ヘッドライン生成装置は、分割文の中から、キーフレーズを含むキーセンテンスを選定する。ヘッドライン生成装置は、出力の必要要素を充足する(要素条件によって、充足するか否かが判定可能である)まで、構文的に距離の近い節や隣接する節を、上記のキーセンテンスに結合する。節を結合することによって拡張された文を拡張文と呼ぶ。拡張文が要素条件を満たすようになれば、ヘッドライン装置は、テンプレートに要素を当てはめる(即ち、正規化する)形でヘッドラインを生成する。ヘッドラインとして出力した要素を取り除いた残りの文に、出力の要素が残っている場合には、その残っている要素を出力するよう、一度使った要素をマスクし、再度ヘッドラインを生成する。このようにして、ヘッドライン生成装置は、複数のヘッドラインを生成する。 An embodiment of the present invention will be described below with reference to the drawings. The headline generator according to the present embodiment parses the input sentence (sentence to be headlined) by a syntactic analyzer and divides it into a plurality of semantic unit sentences (also referred to as "divided sentences"). The headline generator selects a key sentence including a key phrase from the divided sentences. The headline generator combines syntactically close or adjacent clauses into the above key sentences until the required elements of the output are satisfied (the element condition can determine whether or not they are satisfied). To do. A sentence extended by combining clauses is called an extended sentence. When the extension sentence meets the element condition, the headline device generates a headline by fitting (that is, normalizing) the element to the template. If the output element remains in the remaining sentence after removing the element output as the headline, the used element is masked so that the remaining element is output, and the headline is generated again. In this way, the headline generator generates a plurality of headlines.

図1は、本実施形態によるヘッドライン生成装置1の概略機能構成を示すブロック図である。図示するように、ヘッドライン生成装置1は、テキスト取得部10と、処理部20と、出力部30と、制御部40と、データ記憶部50とを含んで構成される。また、処理部20は、分割部21と、キーフレーズ判定部22と、要素判定部23と、文拡張処理部24と、正規化部25とを含んで構成される。これらの各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ(SSD)といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。 FIG. 1 is a block diagram showing a schematic functional configuration of the headline generator 1 according to the present embodiment. As shown in the figure, the headline generation device 1 includes a text acquisition unit 10, a processing unit 20, an output unit 30, a control unit 40, and a data storage unit 50. Further, the processing unit 20 includes a division unit 21, a key phrase determination unit 22, an element determination unit 23, a sentence extension processing unit 24, and a normalization unit 25. Each of these functional units can be realized by, for example, a computer and a program. In addition, each functional unit has a storage means, if necessary. The storage means is, for example, a variable on the program or a memory allocated by executing the program. Further, if necessary, a non-volatile storage means such as a magnetic hard disk device or a solid state drive (SSD) may be used. Further, at least a part of the functions of each functional unit may be realized not as a program but as a dedicated electronic circuit.

テキスト取得部10は、外部から入力されるテキストデータを取得する。このテキストデータは、例えば、外部の別の装置から渡されるものであってもよいし、キーボード等の入力手段を用いて人が入力するものであってもよい。このテキストデータは、ニュース等の文を含む。このテキストデータは、処理部20が処理する対象である。 The text acquisition unit 10 acquires text data input from the outside. This text data may be passed from another external device, for example, or may be input by a person using an input means such as a keyboard. This text data includes sentences such as news. This text data is a target to be processed by the processing unit 20.

出力部30は、処理部20が生成するヘッドラインを外部に出力する。ヘッドラインは、後述する文拡張処理部24が出力する拡張文の情報を含むテキストデータである。このときの拡張文は、後述する要素判定部23が要素条件を満たすと判定したものである。ヘッドラインは、文拡張処理部24が出力した拡張文のままであってもよいし、後述する正規化部25が正規化処理を施したものであってもよい。出力部30は、例えば、通信ネットワークを介して、生成されたヘッドラインを配信することもできる。 The output unit 30 outputs the headline generated by the processing unit 20 to the outside. The headline is text data including information on an extended sentence output by the sentence expansion processing unit 24, which will be described later. The extended sentence at this time is determined by the element determination unit 23, which will be described later, to satisfy the element condition. The headline may be the extended sentence output by the sentence expansion processing unit 24, or may be a headline that has been normalized by the normalization unit 25 described later. The output unit 30 can also distribute the generated headline via, for example, a communication network.

制御部40は、ヘッドライン生成装置1全体による処理の実行を制御するものである。 The control unit 40 controls the execution of processing by the entire headline generation device 1.

データ記憶部50は、処理部20が参照するためのデータを記憶する。データ記憶部50が記憶するデータの内容は、ヘッドライン生成装置1が処理対象とする文の分野に依存する。本実施形態においては、データ記憶部50は、内部に、路線名データ記憶部および駅名データ記憶部(いずれも不図示)を持つ。路線名データ記憶部は、鉄道の路線名の集合のデータを記憶している。また、駅名データ記憶部は、鉄道の駅名の集合のデータを記憶している。また、駅名データ記憶部は、路線名とその路線に属する駅名との関係を記憶している。言い換えれば、駅名データ記憶部は、ある駅名の駅が、ある路線名の路線に属するか否かを表す情報を保持する。 The data storage unit 50 stores data for reference by the processing unit 20. The content of the data stored in the data storage unit 50 depends on the field of the sentence to be processed by the headline generator 1. In the present embodiment, the data storage unit 50 has a route name data storage unit and a station name data storage unit (both not shown) inside. The line name data storage unit stores data of a set of railway line names. In addition, the station name data storage unit stores data of a set of railway station names. In addition, the station name data storage unit stores the relationship between the line name and the station name belonging to the line. In other words, the station name data storage unit holds information indicating whether or not a station with a certain station name belongs to a line with a certain line name.

処理部20は、テキスト取得部10が取得したテキストデータを処理することにより、ヘッドラインのデータを生成する。処理部20を構成する各部によるより詳細な機能については下で説明する。 The processing unit 20 generates headline data by processing the text data acquired by the text acquisition unit 10. More detailed functions of each unit constituting the processing unit 20 will be described below.

分割部21は、テキスト取得部10が取得したテキストデータの構文解析処理(係り受け解析処理)を行い、その構文解析結果を利用して、文を分割する。なお、分割文は、係り受け木の根に相当する文節を必ず含むこととしてよい。また、分割文は、例えば、係り受け木に含まれる各葉から上記の根に向かって順次係っていく1本の枝に相当するものとしてよい。つまり、分割部21は、入力された文を分割して得られる複数の文(分割文と呼ぶ)を出力することができる。なお、分割部21は、既存の構文解析処理の技術を使用してよい。一例として、分割部21は、構文解析器CaboChaを使用することができる。 The division unit 21 performs a syntactic analysis process (dependency analysis process) of the text data acquired by the text acquisition unit 10, and divides a sentence by using the syntactic analysis result. In addition, the divided sentence may always include a phrase corresponding to the root of the dependent tree. Further, the divided sentence may correspond to, for example, one branch that is sequentially engaged from each leaf included in the dependent tree toward the above-mentioned root. That is, the division unit 21 can output a plurality of sentences (referred to as divided sentences) obtained by dividing the input sentence. The division unit 21 may use an existing technique for parsing. As an example, the parser 21 can use the parser CaboCha.

キーフレーズ判定部22は、分割部21が出力した分割文の各々が、キーフレーズを含むものであるか否かを判定する。キーフレーズ判定部22は、キーフレーズを含む分割文を、キーセンテンスと判定する。また、キーフレーズ判定部22は、キーフレーズを含まない分割文を、非キーセンテンスと判定する。キーフレーズの集合は、例えば、予め、データ記憶部50に記憶しておくようにしてよい。キーフレーズ判定部22は、このデータ記憶部50を参照することによって、キーフレーズの判定を行うことができる。本実施形態では、一例として、鉄道の路線名をキーフレーズとして用いる。つまり、本実施形態では、鉄道の路線名の集合を、予め、データ記憶部50が持つようにしておく。キーフレーズは、鉄道の路線名に限られない。何をキーフレーズとするかは、予め定めておき、必要に応じて記憶手段に記憶しておくようにしてよい。 The key phrase determination unit 22 determines whether or not each of the divided sentences output by the division unit 21 includes a key phrase. The key phrase determination unit 22 determines that the divided sentence including the key phrase is a key sentence. Further, the key phrase determination unit 22 determines that the divided sentence that does not include the key phrase is a non-key sentence. The set of key phrases may be stored in the data storage unit 50 in advance, for example. The key phrase determination unit 22 can determine the key phrase by referring to the data storage unit 50. In this embodiment, as an example, a railway line name is used as a key phrase. That is, in the present embodiment, the data storage unit 50 has a set of railway line names in advance. Key phrases are not limited to railway line names. What is used as a key phrase may be determined in advance and stored in a storage means as needed.

要素判定部23は、文が、文の要素に関する条件である要素条件を満たすか否か、を判定する。要素判定部23による判定は、ヘッドラインの候補となる文(分割文や、分割文を基に拡張される拡張文)が、ヘッドラインとして十分な要素を持つか否かを判定するためのものである。要素条件については、後でさらに説明する。 The element determination unit 23 determines whether or not the sentence satisfies the element condition which is a condition related to the element of the sentence. The determination by the element determination unit 23 is for determining whether or not a sentence that is a candidate for a headline (a divided sentence or an extended sentence extended based on the divided sentence) has a sufficient element as a headline. Is. The element conditions will be further described later.

文拡張処理部24は、キーフレーズ判定部22によって選択された分割文(キーセンテンス)を基に、文の要素を付加することによって拡張文を生成する。文拡張処理部24は、文に前記要素を付加する際には、前記の係り受け木における当該要素を含む部分木に相当する節を付加するものである。文拡張処理部24は、生成された拡張文が要素条件を満たさない場合に、その拡張文が要素条件を満たすと要素判定部23によって判定されるようになるまで、順次、要素の付加を繰り返してよい。 The sentence expansion processing unit 24 generates an extended sentence by adding sentence elements based on the divided sentence (key sentence) selected by the key phrase determination unit 22. When adding the element to the sentence, the sentence expansion processing unit 24 adds a clause corresponding to the subtree including the element in the dependency tree. When the generated extended sentence does not satisfy the element condition, the sentence expansion processing unit 24 sequentially repeats the addition of elements until the element determination unit 23 determines that the extended sentence satisfies the element condition. You can.

正規化部25は、文拡張処理部24によって拡張された文が要素条件を満たすようになった場合に、予め定められた正規パターンに合うようにその文を正規化する。正規パターンは、例えば、予め定義され、記憶手段に記憶しておくこととしてよい。正規化を行うことにより、ヘッドラインのスタイル、調子に統一感を与えることができる。正規化処理の具体例については、後で説明する。 When the sentence extended by the sentence extension processing unit 24 meets the element conditions, the normalization unit 25 normalizes the sentence so as to match a predetermined normal pattern. The normal pattern may be defined in advance and stored in a storage means, for example. By normalizing, it is possible to give a sense of unity to the style and tone of the headline. A specific example of the normalization process will be described later.

図2は、分割部21が入力文(テキストデータ)についての構文解析処理を行った結果の一例を示す概略図である。図示する例では、入力文は「東海道山陽新幹線は、上り線が山口県の徳山と京都の間で、下り線が京都と新神戸の間で運転を見合わせています。」である。また、同図は、上記入力文の構文解析結果を、樹系図(前述の係り受け木)の形で示している。この構文解析結果は、文を構成する節の係り受けの関係を表すものである。即ち、節「見合わせています」に係る節は、「東海道山陽新幹線は、」と、「間で、」と、「下り線が」と、「京都と神戸の間で」と、「運転を」のそれぞれである。また、上記の節「間で」に係る節は、「上り線が」と、「山口県の徳山と」と、「京都の」のそれぞれである。なお、図中では、便宜的に、各節にAからIまでの参照用の記号を付している。なお、木構造における根とは、この図におけるAのノードである。また、葉とは、根とは反対側の終端ノードである。この図では、B、G、H、I、D、E、Fの各ノードが葉である。 FIG. 2 is a schematic diagram showing an example of the result of parsing the input sentence (text data) by the dividing unit 21. In the illustrated example, the input sentence is "For the Tokaido Sanyo Shinkansen, the up line is between Tokuyama and Kyoto in Yamaguchi Prefecture, and the down line is between Kyoto and Shin-Kobe." In addition, the figure shows the result of parsing the above input sentence in the form of a tree genealogy (the above-mentioned dependency tree). The result of this parsing shows the dependency relationship of the clauses that make up the sentence. That is, the sections related to the section "I'm not waiting" are "Tokaido Sanyo Shinkansen is", "between", "down line", "between Kyoto and Kobe", and "driving". Each of them. In addition, the sections related to the above section "between" are "up line ga", "tokuyama in Yamaguchi prefecture", and "in Kyoto" respectively. In the figure, for convenience, each section is provided with reference symbols A to I. The root in the tree structure is the node A in this figure. A leaf is a terminal node on the opposite side of the root. In this figure, the B, G, H, I, D, E, and F nodes are leaves.

図3は、分割部21が上記の構文解析結果に基づいて入力文を分割した例を示す概略図である。ここでは、構文解析結果に基づいて、7個の文への分割が行われている。これらの文の各々は、図2に示した構文木を、葉の側(下側)から根の側(上側)にたどることによって、即ち係る節の側から係られる節の側に順にたどることによって、生成される。第1の分割文は、「東海道山陽新幹線は、見合わせています」であり、図2に示した構文木における節をB−Aとたどって得られたものである。第2の分割文は、「上り線が間で、見合わせています」であり、図2に示した構文木における節をG−C−Aとたどって得られたものである。第3の分割文は、「山口県の徳山と間で、見合わせています」であり、図2に示した構文木における節をH−C−Aとたどって得られたものである。第4の分割文は、「京都の間で、見合わせています」であり、図2に示した構文木における節をI−C−Aとたどって得られたものである。第5の分割文は、「下り線が見合わせています」であり、図2に示した構文木における節をD−Aとたどって得られたものである。第6の分割文は、「京都と新神戸の間で見合わせています」であり、図2に示した構文木における節をE−Aとたどって得られたものである。第7の分割文は、「運転を見合わせています」であり、図2に示した構文木における節をF−Aとたどって得られたものである。 FIG. 3 is a schematic diagram showing an example in which the division unit 21 divides the input sentence based on the above syntactic analysis result. Here, the sentence is divided into seven sentences based on the result of parsing. Each of these sentences follows the syntax tree shown in FIG. 2 from the leaf side (lower side) to the root side (upper side), that is, from the relevant node side to the associated node side. Is generated by. The first split sentence is "The Tokaido Sanyo Shinkansen is forgotten", which was obtained by tracing the section in the syntax tree shown in Fig. 2 as BA. The second split sentence is "the up lines are in between and are forgotten", and is obtained by tracing the clause in the syntax tree shown in FIG. 2 as GCA. The third split sentence is "I have forgotten between Tokuyama and Tokuyama in Yamaguchi Prefecture", which was obtained by tracing the section in the syntax tree shown in Fig. 2 as HCA. The fourth split sentence is "We are forgotten between Kyoto", which was obtained by tracing the section in the syntax tree shown in Fig. 2 as ICA. The fifth split sentence is "the down line is forgotten", which is obtained by tracing the clause in the syntax tree shown in FIG. 2 as DA. The sixth split sentence is "Forgotten between Kyoto and Shin-Kobe", which was obtained by tracing the section in the syntax tree shown in Fig. 2 as EA. The seventh split sentence is "Driving is suspended", which is obtained by tracing the section in the syntax tree shown in FIG. 2 as FA.

ここでは、分割部21が分割したことによって得られる分割文は、係り受け木における根を含み、且つミニマムな部分木に対応する分割文である。ミニマムな部分木とは根から葉までの途中のノードにおいて枝の分岐を持たない部分木である。なお、必ずしも、分割部21は、ミニマムな部分木に対応する分割文だけを生成しなくてもよい。 Here, the split sentence obtained by the split portion 21 is a split sentence including the root in the dependent tree and corresponding to the minimum subtree. A minimum subtree is a subtree that does not have branch branches at a node in the middle from the root to the leaf. It should be noted that the division unit 21 does not necessarily have to generate only the division sentence corresponding to the minimum subtree.

図3に示した分割文のうち、第1の分割文は、キーセンテンスとして選ばれた文である。その他の分割文は、非キーセンテンスである。キーセンテンスは、ヘッドライン生成装置1がヘッドラインを生成するためのキーとなり得る文である。キーフレーズ判定部22は、分割部21が出力したそれぞれの分割文がキーフレーズを含むか否かによって、キーセンテンスであるか否かを判定する。本実施形態においては、キーフレーズは、鉄道の路線名である。つまり、図3に示した7個の分割文のうち、第1の分割文が路線名「東海道山陽新幹線」を含むため、キーフレーズ判定部22は、この分割文をキーセンテンスと判定した。その他の第2から第7までの分割文のそれぞれは、路線名を含まないため、キーフレーズ判定部22は、これらの分割文を非キーセンテンスと判定した。なお、何をキーフレーズとするかは、装置の適用分野ごとに適宜定めることとする。キーフレーズ判定部22は、前述の路線名データ記憶部を参照することにより、文中の表現(語等)が路線名であるか否かを判定する。 Of the split sentences shown in FIG. 3, the first split sentence is a sentence selected as a key sentence. Other split statements are non-key sentences. A key sentence is a sentence that can be a key for the headline generator 1 to generate a headline. The key phrase determination unit 22 determines whether or not the division sentence is a key sentence depending on whether or not each division sentence output by the division unit 21 includes a key phrase. In this embodiment, the key phrase is a railway line name. That is, since the first divided sentence includes the route name "Tokaido Sanyo Shinkansen" among the seven divided sentences shown in FIG. 3, the key phrase determination unit 22 determines this divided sentence as a key sentence. Since each of the other divided sentences from the second to the seventh does not include the route name, the key phrase determination unit 22 determines these divided sentences as non-key sentences. What is used as the key phrase shall be appropriately determined for each application field of the device. The key phrase determination unit 22 determines whether or not the expression (word or the like) in the sentence is a route name by referring to the route name data storage unit described above.

なお、キーフレーズ判定部22が判定するための条件を、下で説明する要素条件の1つ(キー条件)として定義してもよい。 The condition for the key phrase determination unit 22 to determine may be defined as one of the element conditions (key condition) described below.

図4は、要素判定部23が判定に用いるための要素条件の例を示す概略図である。図示するように、本実施形態では、1番から4番までの4つの条件を用いる。このうち、1番の条件は、キー条件である。キー条件は、キーフレーズ判定部22が、分割文がキーセンテンスであるか否かを判定するために用いられる条件である。1番の条件は、<Line>があること(路線名があること)である。つまり、路線名がある分割文を、キーフレーズ判定部22は、上で述べたように、キーセンテンスであると判定する。2番から4番までの条件は、それぞれ、<Status>があること、<Area>があること、<Area>が「全線」でない場合、<Line>路線上の<Station>が2つ以上あること、である。 FIG. 4 is a schematic view showing an example of element conditions for the element determination unit 23 to use for determination. As shown in the figure, in this embodiment, four conditions from No. 1 to No. 4 are used. Of these, the first condition is a key condition. The key condition is a condition used by the key phrase determination unit 22 to determine whether or not the divided sentence is a key sentence. The first condition is that there is <Line> (there is a line name). That is, the key phrase determination unit 22 determines that the divided sentence having the route name is a key sentence as described above. The conditions from No. 2 to No. 4 are that there is <Status>, there is <Area>, and if <Area> is not "all lines", there are two or more <Stations> on the <Line> line. That is.

ここで、<Status>とは、状態である。<Status>に該当する表現は、例えば、「再開」や「見合わせ」や「平常通り」といった表現である。また、<Area>とは、指定線を表すものである。<Area>に該当する表現は、例えば、「全線」や「上下線」や「上り線」や「下り線」といった表現である。また、<Station>は駅名である。 Here, <Status> is a state. The expression corresponding to <Status> is, for example, an expression such as "restart", "suspension", or "normal". Further, <Area> represents a designated line. The expression corresponding to <Area> is, for example, an expression such as "all lines", "upper and lower lines", "up line", and "down line". In addition, <Station> is the station name.

要素条件は、要素条件は、ヘッドライン(あるいはヘッドラインの候補)が、ヘッドラインとして十分な要素を持つか否かを判定するための条件である。要素条件は、例えば、専用の記憶領域に記憶され、キーフレーズ判定部22や要素判定部23によって参照される。 The element condition is a condition for determining whether or not the headline (or a candidate for the headline) has a sufficient element as a headline. The element condition is stored in a dedicated storage area, for example, and is referred to by the key phrase determination unit 22 and the element determination unit 23.

図5は、文拡張処理部24がキーセンテンスを拡張する過程の例を示す概略図である。この図に沿って、文拡張処理部が文を拡張していく過程を説明する。 FIG. 5 is a schematic diagram showing an example of a process in which the sentence expansion processing unit 24 expands the key sentence. Along with this figure, the process in which the sentence expansion processing unit expands the sentence will be described.

第1段階において、文は、「東海道山陽新幹線は、見合わせています」である。この文は、キーフレーズ判定部22が選んだキーセンテンスである。要素判定部23は、この文の要素条件を判定する。要素判定部23は、要素条件に基づき、この文には<Area>が不足していると判定する。この判定結果に応じて、文拡張処理部24が文を拡張する。具体的には、文拡張処理部24は、構文解析結果(図2)のG−Cの枝である「上り線が」「間で、」を追加する。
第2段階において、文は、「東海道山陽新幹線は、上り線が間で、見合わせています」である。要素判定部23は、この文の要素条件を判定する。要素判定部23は、要素条件に基づき、この文には<Station>が不足していると判定する。この判定結果に応じて、文拡張処理部24が文を拡張する。具体的には、文拡張処理部24は、構文解析結果(図2)においてCの「間で、」に係るHの「山口県の徳山と」を追加する。
第3段階において、文は、「東海道山陽新幹線は、上り線が山口県の徳山と間で、見合わせています」である。要素判定部23は、この文の要素条件を判定する。要素判定部23は、<Area>が「全線」でない場合、<Line>路線上の<Station>が2つ以上あることという要素条件に基づき、<Station>の数が足りない(不足している)と判定する。この判定結果に応じて、文拡張処理部24が文を拡張する。具体的には、文拡張処理部24は、構文解析結果(図2)においてCの「間で、」に係るIの「京都の」を追加する。
第4段階において、文は、「東海道山陽新幹線は、上り線が山口県の徳山と京都の間で、見合わせています」である。要素判定部23は、この文の要素条件を判定する。要素判定部23は、要素条件がすべて満たされていると判定する。なお、この第4段階の文に出現する駅名(辞書に登録されている駅名と一致する字面)のうち、徳山と京都は、東海道・山陽新幹線の駅の集合に含まれる。また、山口は、東海道・山陽新幹線の駅の集合には含まれない。
In the first stage, the sentence is "The Tokaido Sanyo Shinkansen is forgotten." This sentence is a key sentence selected by the key phrase determination unit 22. The element determination unit 23 determines the element condition of this sentence. The element determination unit 23 determines that <Area> is insufficient in this sentence based on the element conditions. The sentence expansion processing unit 24 expands the sentence according to the determination result. Specifically, the sentence extension processing unit 24 adds “up line” and “between”, which are branches of GC of the syntax analysis result (FIG. 2).
In the second stage, the sentence is, "The Tokaido Sanyo Shinkansen is not on the up line." The element determination unit 23 determines the element condition of this sentence. The element determination unit 23 determines that <Station> is insufficient in this sentence based on the element condition. The sentence expansion processing unit 24 expands the sentence according to the determination result. Specifically, the sentence extension processing unit 24 adds H's "Tokuyama in Yamaguchi Prefecture" related to C's "between" in the syntax analysis result (FIG. 2).
In the third stage, the sentence is, "The Tokaido Sanyo Shinkansen has an up line with Tokuyama in Yamaguchi Prefecture." The element determination unit 23 determines the element condition of this sentence. When <Area> is not "all lines", the element determination unit 23 has insufficient (insufficient) number of <Stations> based on the element condition that there are two or more <Stations> on the <Line> line. ). The sentence expansion processing unit 24 expands the sentence according to the determination result. Specifically, the sentence extension processing unit 24 adds "Kyoto" of I related to "between" of C in the syntactic analysis result (FIG. 2).
In the fourth stage, the sentence is, "The Tokaido Sanyo Shinkansen has an up line between Tokuyama and Kyoto in Yamaguchi Prefecture." The element determination unit 23 determines the element condition of this sentence. The element determination unit 23 determines that all the element conditions are satisfied. Of the station names (characters that match the station names registered in the dictionary) that appear in this fourth-stage sentence, Tokuyama and Kyoto are included in the set of stations on the Tokaido / Sanyo Shinkansen. In addition, Yamaguchi is not included in the set of stations on the Tokaido / Sanyo Shinkansen.

第4段階まで拡張された文が、要素条件を満たすため、正規化部25は、この文を正規化する。正規化されたパターンは、予め定義され、記憶されている。そのパターンにしたがって、正規化部25は、上記の第4段階の文を正規化し、「鉄道情報, 東海道・山陽新幹線 徳山〜京都 上り線で運転見合わせ」に変換する。ここでの正規化の例では、「鉄道情報」は、ヘッドラインの先頭に必ず付加されるものである。また、次に、路線名が続く。なお、路線名は、元の文では「東海道山陽新幹線」であったが、正規化により「東海道・山陽新幹線」(中点あり)という表現に変換されている。このような名称(路線名)の正規化は、予め記憶しておいた辞書に基づく。そして、<Area>が「全線」ではない場合には、次に、2つの駅名で対象区間を表す。それら2つの駅名は、<Area>が「上り線」であるか「下り線」であるかに応じて、列車の方向に合わせた順に「〜」でつないで表現される。ここでは、徳山および京都の駅名を用いて「徳山〜京都」と表現される。そして、さらに、<Area>および<Status>の情報が後続する。なお、<Status>は、適宜体言止めを用いて表現される。ここでは、「上り線で運転見合わせ」という表現に変換される。 Since the sentence extended to the fourth stage satisfies the element condition, the normalization unit 25 normalizes this sentence. The normalized pattern is predefined and stored. According to the pattern, the normalization unit 25 normalizes the sentence of the fourth stage above and converts it into "railway information, Tokaido / Sanyo Shinkansen Tokuyama-Kyoto up line operation suspension". In the example of normalization here, "railroad information" is always added to the beginning of the headline. Then, the route name follows. The route name was "Tokaido Sanyo Shinkansen" in the original sentence, but it has been converted to the expression "Tokaido / Sanyo Shinkansen" (with a midpoint) by normalization. The normalization of such names (route names) is based on a dictionary stored in advance. Then, when <Area> is not "all lines", the target section is then represented by two station names. These two station names are expressed by connecting them with "~" in the order according to the direction of the train, depending on whether <Area> is an "up line" or a "down line". Here, it is expressed as "Tokuyama-Kyoto" using the station names of Tokuyama and Kyoto. Then, further, the information of <Area> and <Status> follows. In addition, <Status> is expressed by using an uninflected word as appropriate. Here, it is converted into the expression "suspend driving on the up line".

このように正規化された表現が、ヘッドライン生成装置1が静止するヘッドラインである。出力部30は、この正規化されたヘッドラインを外部に出力する。 The expression normalized in this way is the headline at which the headline generator 1 is stationary. The output unit 30 outputs this normalized headline to the outside.

図6は、ヘッドライン生成装置1が残り要素を判定する処理の例を示す概略図である。ヘッドライン生成装置1の制御部40は、この図6に示す手順により、残り要素の有無を判定する。また、制御部40は、残り要素がある場合には、残り要素を用いてさらに文拡張処理を行うように、ヘッドライン生成装置1を清書する。具体的な処理の過程の例は、次に説明する通りである。 FIG. 6 is a schematic view showing an example of a process in which the headline generator 1 determines the remaining elements. The control unit 40 of the headline generator 1 determines the presence or absence of the remaining elements by the procedure shown in FIG. Further, when there is a remaining element, the control unit 40 makes a clear copy of the headline generation device 1 so as to further perform sentence expansion processing using the remaining element. An example of a specific processing process is as described below.

ステップS51において、制御部40は、元の入力テキストに含まれる要素と、既に出力したヘッドラインに含まれる要素とを比較する。ここでは、元の入力文は「東海道山陽新幹線は、上り線が山口県の徳山と京都の間で、下り線が京都と新神戸の間で運転を見合わせています。」であった。また、上で説明した通り、第1の出力(既出力)であるヘッドラインは「鉄道情報, 東海道・山陽新幹線 徳山〜京都 上り線で運転見合わせ」であった。 In step S51, the control unit 40 compares the elements included in the original input text with the elements included in the already output headline. Here, the original input sentence was "The Tokaido Sanyo Shinkansen is not operating between Tokuyama and Kyoto in Yamaguchi Prefecture on the up line and between Kyoto and Shin-Kobe on the down line." In addition, as explained above, the headline, which is the first output (already output), was "Railway information, Tokaido / Sanyo Shinkansen Tokuyama-Kyoto up line operation suspension".

ステップS52において、制御部40は、元の文から、既に出力された要素をすべて除去する。既に出力された要素が上記の第1の出力のみである場合、既出力要素を除去すると、「<Line>は、<Area>が山口県の<Station>と<Station>の間で、下り線が京都と新神戸の間で運転を<Status>ています。」となる。つまり、ここでは、既出力の「東海道山陽新幹線」という要素が除去されて<Line>というタグに置き換えられている。また、「京都」および「徳山」という要素が除去されてそれぞれ<Station>というタグに置き換えられている。また、「見合わせ」という要素が除去されて<Status>というタグに置き換えられている。言い換えれば、ヘッドラインとして出力済みの要素は、<Line>、<Area>、<Station>、<Status>といったタグでマスクされている。 In step S52, the control unit 40 removes all the elements already output from the original sentence. If the element that has already been output is only the first output described above, when the already output element is removed, "<Line> is a down line between <Station> and <Station> in Yamaguchi Prefecture where <Area> is. Is driving between Kyoto and Shin-Kobe. " In other words, here, the element "Tokaido Sanyo Shinkansen" that has already been output has been removed and replaced with the tag <Line>. In addition, the elements "Kyoto" and "Tokuyama" have been removed and replaced with the tags <Station>, respectively. In addition, the element "forgotten" has been removed and replaced with the tag <Status>. In other words, the element output as the headline is masked with tags such as <Line>, <Area>, <Station>, and <Status>.

ステップS53において、要素判定部23が、ステップS52の除去処理の結果について、要素条件に基づいて、要素が充足しているか否かの判定を行う。本例では、<Line>と<Status>が不足しているとの判定結果が得られる。なお、ステップS52の除去処理の結果においては、「京都」および「新神戸」が残っているため、<Station>が2個必要と言う条件は充足されている。 In step S53, the element determination unit 23 determines whether or not the elements are satisfied with respect to the result of the removal process in step S52 based on the element conditions. In this example, the determination result that <Line> and <Status> are insufficient can be obtained. In the result of the removal process in step S52, "Kyoto" and "Shin-Kobe" remain, so the condition that two <Stations> are required is satisfied.

ステップS54において、制御部40は、ステップS53における判定結果に基づいて、不足している要素を文に戻す。つまり、ここでは、制御部40は、<Line>要素である「東海道山陽新幹線」という表現と、<Status>要素である「見合わせ」という表現とを、ステップS52の結果に戻す。その結果の文は、「東海道山陽新幹線は、<Area>が山口県の<Station>と<Station>の間で、下り線が京都と新神戸の間で運転を見合わせています。」である。 In step S54, the control unit 40 returns the missing element to the sentence based on the determination result in step S53. That is, here, the control unit 40 returns the expression "Tokaido Sanyo Shinkansen" which is a <Line> element and the expression "forgotten" which is a <Status> element to the result of step S52. The resulting sentence is, "On the Tokaido Sanyo Shinkansen, <Area> is between <Station> and <Station> in Yamaguchi Prefecture, and the down line is between Kyoto and Shin-Kobe."

ステップS55において、制御部40は、ステップS54で得られた文を基に、再度文分割処理および文拡張処理を実行するように、ヘッドライン生成装置1を制御する。 In step S55, the control unit 40 controls the headline generator 1 so as to execute the sentence division process and the sentence extension process again based on the sentence obtained in step S54.

なお、2度目の実行の結果として、本例では、ヘッドライン生成装置1は、「鉄道情報,東海道・山陽新幹線 京都〜新神戸 下り線で運転見合わせ」という第2の出力(ヘッドライン)を生成する。以上のように、既出力の要素を除外しながら、ヘッドライン生成装置1は、複数のヘッドラインを生成することもできる。 As a result of the second execution, in this example, the headline generator 1 generates a second output (headline) of "railway information, operation suspension on the Tokaido / Sanyo Shinkansen Kyoto-Shin-Kobe down line". .. As described above, the headline generator 1 can also generate a plurality of headlines while excluding the elements that have already been output.

図7は、ヘッドライン生成装置1の全体的な処理の手順を示すフローチャートである。以下では、このフローチャートに沿って、ヘッドライン生成装置1の処理手順を説明する。 FIG. 7 is a flowchart showing the overall processing procedure of the headline generator 1. Hereinafter, the processing procedure of the headline generator 1 will be described with reference to this flowchart.

まず、ステップS1において、分割部21は、入力文の構文解析処理を行う。そして、分割部21は、構文解析結果に基づいて文を分割し、n個の文S1,S2,・・・,Snを得る。 First, in step S1, the division unit 21 performs a syntactic analysis process of the input sentence. Then, the division unit 21 divides the sentence based on the syntactic analysis result, and obtains n sentences S1, S2, ..., Sn.

以下の、ステップS2からS6までの範囲内の処理は、分割された各文Si(1≦i≦n)ごとに繰り返して実行される。 The following processing within the range of steps S2 to S6 is repeatedly executed for each divided sentence Si (1 ≦ i ≦ n).

ステップS2において、キーフレーズ判定部22は、その文Siがキーフレーズを持つか否かを判定する。キーフレーズは、例えば、鉄道の路線名である。ただし、文の内容の分野等に応じて、他のキーフレーズを用いてもよい。その文がキーフレーズを持つ場合(ステップS2:YES)、次のステップS3に進む。その文がキーフレーズを持たない場合(ステップS2:NO)、当該文Siについての処理を終え、次の文(ある場合)に移る。 In step S2, the key phrase determination unit 22 determines whether or not the sentence Si has a key phrase. The key phrase is, for example, the name of a railway line. However, other key phrases may be used depending on the field of the content of the sentence. If the sentence has a key phrase (step S2: YES), the process proceeds to the next step S3. If the sentence does not have a key phrase (step S2: NO), the process for the sentence Si is finished, and the process proceeds to the next sentence (if any).

次に、ステップS3において、要素判定部23は、条件を参照して、その文Siが要素を充足しているか否かを判定する。要素が充足している場合(ステップS3:YES)には、次のステップS4に進む。要素が充足していない場合(ステップS3:NO)には、ステップS5に進む。 Next, in step S3, the element determination unit 23 refers to the condition and determines whether or not the sentence Si satisfies the element. If the elements are satisfied (step S3: YES), the process proceeds to the next step S4. If the elements are not satisfied (step S3: NO), the process proceeds to step S5.

ステップS4に進んだ場合、正規化部25が、その文(Si)の表現を正規化する。そして、出力部30が、正規化された文を外部に出力する。本ステップの処理を終了すると、当該文Siについての処理を終え、次の文(ある場合)の処理に移る。 When the process proceeds to step S4, the normalization unit 25 normalizes the expression of the sentence (Si). Then, the output unit 30 outputs the normalized sentence to the outside. When the processing of this step is completed, the processing for the sentence Si is completed, and the process proceeds to the processing of the next sentence (if any).

ステップS5に進んだ場合、その時点の文に不足している要素を充足させるために、文拡張処理部24は、文を拡張する処理を試みる。本ステップの次には、ステップS6に進む。ステップS6において、文拡張処理部24によるステップS5での文の拡張の処理が成功したか否かを判定する。文拡張が成功した場合(ステップS6:YES)には、要素が充足されたか否かを判定するためにステップS3に戻る。文拡張が失敗した場合(ステップS6:NO)には、当該文Siについての処理を終え、次の文(ある場合)の処理に移る。なお、文拡張が失敗するのは、例えば、残っているすべての要素を用いた拡張を行ってもなお要素条件を満たさない場合などである。 When the process proceeds to step S5, the sentence extension processing unit 24 attempts a process of extending the sentence in order to satisfy the missing elements in the sentence at that time. After this step, the process proceeds to step S6. In step S6, it is determined whether or not the sentence extension processing in step S5 by the sentence expansion processing unit 24 is successful. If the sentence expansion is successful (step S6: YES), the process returns to step S3 to determine whether or not the elements are satisfied. If the sentence expansion fails (step S6: NO), the process for the sentence Si is finished, and the process proceeds to the process for the next sentence (if any). Note that the sentence extension fails, for example, when the element condition is still not satisfied even if the extension using all the remaining elements is performed.

文S1からSnまでの処理(ステップS2からS6まで)が終了すると、ステップS7に移る。ステップS7において、制御部40の制御により、ヘッドライン生成装置1は、残り要素の有無を判定する。残り要素の有無を判定する処理は、図6におけるステップS51からS54までに示した通りである。残り要素がある場合(ステップS7:YES)には、残り要素によるヘッドラインを生成する処理のために、ステップS1に戻る。残り要素がない場合(ステップS7:NO)には、本フローチャート全体の処理を終了する。 When the processing from sentences S1 to Sn (steps S2 to S6) is completed, the process proceeds to step S7. In step S7, under the control of the control unit 40, the headline generator 1 determines the presence or absence of the remaining elements. The process of determining the presence or absence of the remaining elements is as shown in steps S51 to S54 in FIG. If there are remaining elements (step S7: YES), the process returns to step S1 for the process of generating the headline by the remaining elements. If there are no remaining elements (step S7: NO), the processing of the entire flowchart is terminated.

[鉄道情報以外への適用例]
上では、ヘッドライン生成装置1を鉄道情報に適用した場合の処理例を説明した。以下では、鉄道情報以外への適用例として、高速道路情報に関してヘッドライン生成装置1が処理を行う場合の例を説明する。
[Example of application to other than railway information]
Above, a processing example when the headline generator 1 is applied to railway information has been described. In the following, as an application example other than railway information, an example in which the headline generator 1 processes highway information will be described.

図8は、テキスト取得部10が取得するテキストデータ(入力文)の一例を示す概略図である。ここでは、入力文は、「東名高速道路は雪のため、静岡県の沼津インターチェンジから大井松田インターチェンジの間の上り線が、午前3時10分から通行止めになっています」である。鉄道情報の場合と同様に、分割部21が、この入力文の構文解析処理(係り受け解析処理)を行い、構文木を生成する。ここでは、構文木の図示を省略する。 FIG. 8 is a schematic diagram showing an example of text data (input sentence) acquired by the text acquisition unit 10. Here, the input sentence is "Because the Tomei Expressway is snowy, the up line between the Numazu interchange in Shizuoka prefecture and the Oi-Matsuda interchange is closed from 3:10 am." As in the case of railway information, the division unit 21 performs a syntax analysis process (dependency analysis process) of this input sentence to generate a syntax tree. Here, the illustration of the syntax tree is omitted.

図9は、図8に示した入力文の構文解析処理結果に基づいて、分割部21が生成した6個の文(分割文)を示す概略図である。入力文の構文解析結果によると、この文を構成するすべての節は、直接的あるいは間接的に節「なっています」に係っている。分割部21は、元の入力文を、第1の文「東名高速道路はなっています」と、第2の文「雪のため、なっています」と、第3の文「静岡県の沼津インターチェンジからなっています」と、第4の文「大井松田インターチェンジの間の上り線が、なっています」と、第5の文「午前3時10分からなっています」と、第6の文「通行止めになっています」とに分割する。なお、ここに示した6個の分割文のうち、第1の文「東名高速道路はなっています」のみがキーセンテンスであり、他の文は非キーセンテンスである。本例では、高速道路名がキーフレーズであり、第1から第6までの分割文のうち、このキーフレーズをふくむのは、第1の文のみである。 FIG. 9 is a schematic diagram showing six sentences (divided sentences) generated by the dividing unit 21 based on the syntactic analysis processing result of the input sentence shown in FIG. According to the parsing result of the input sentence, all the clauses that make up this sentence are directly or indirectly related to the clause "is". The division section 21 uses the original input sentence as the first sentence "Tomei Expressway is now", the second sentence "Because of snow", and the third sentence "Numazu, Shizuoka Prefecture". "It consists of an interchange", the fourth sentence "The up line between the Oi-Matsuda interchange is", the fifth sentence "It consists of 3:10 am", and the sixth sentence " It is closed to traffic. " Of the six split sentences shown here, only the first sentence "Tomei Expressway is" is a key sentence, and the other sentences are non-key sentences. In this example, the expressway name is a key phrase, and of the first to sixth divided sentences, only the first sentence includes this key phrase.

図10は、キーセンテンスからスタートし、順次、文の拡張の処理を行っていく過程を示した概略図である。なお、本例では、タグ<Line>は、高速道路名を表すものである。この高速道路名は、前述の通り、キーフレーズである。また、タグ<Station>は、インターチェンジ名、ジャンクション名、料金所名のいずれかを表すものである。なお、インターチェンジは「IC」と表記される場合があり、ジャンクションは「JCT」と表記される場合がある。また、タグ<Area>は、「全線」、「上下線」、「上り線」、「下り線」のいずれかを表す。また、タグ<Status>は、「通行止め」あるいは「通行止め解除」のいずれかを表す。 FIG. 10 is a schematic diagram showing a process of starting from a key sentence and sequentially performing sentence expansion processing. In this example, the tag <Line> represents an expressway name. This highway name is a key phrase, as mentioned above. The tag <Station> represents any one of an interchange name, a junction name, and a tollhouse name. The interchange may be described as "IC", and the junction may be described as "JCT". Further, the tag <Area> represents any one of "all lines", "upper and lower lines", "up line", and "down line". Further, the tag <Status> represents either "closed road" or "released closed road".

図10に示すように、順次、文拡張処理部24は、文を拡張していく。具体的には、次の通りである。第1段階において、文は、「東名高速道路はなっています」(選択されたキーフレーズ)である。このとき、要素判定部23は、<Area>と<Status>が不足していると判定する。第2段階において、文は、「東名高速道路は雪のため、なっています」である。このときも、要素判定部23は、<Area>と<Status>が不足していると判定する。第3段階において、文は、「東名高速道路は雪のため、静岡県の沼津インターチェンジからなっています」である。このときも、要素判定部23は、<Area>と<Status>が不足していると判定する。第4段階において、文は、「東名高速道路は雪のため、静岡県の沼津インターチェンジから大井松田インターチェンジの間の上り線が、なっています」である。このとき、要素判定部23は、<Area>と<Status>が不足していると判定する。第5段階において、文は、「東名高速道路は雪のため、静岡県の沼津インターチェンジから大井松田インターチェンジの間の上り線が、午前3時10分からなっています」である。このときも、要素判定部23は、<Area>と<Status>が不足していると判定する。第6段階において、文は、「東名高速道路は雪のため、静岡県の沼津インターチェンジから大井松田インターチェンジの間の上り線が、午前3時10分から通行止めになっています」である。このとき、要素判定部23は、必要な要素がすべて充足されたと判定する。 As shown in FIG. 10, the sentence expansion processing unit 24 sequentially expands the sentence. Specifically, it is as follows. In the first stage, the sentence is "Tomei Expressway is now" (selected key phrase). At this time, the element determination unit 23 determines that <Area> and <Status> are insufficient. In the second stage, the sentence is "The Tomei Expressway is made of snow." Also at this time, the element determination unit 23 determines that <Area> and <Status> are insufficient. In the third stage, the sentence is "Because the Tomei Expressway is snowy, it consists of the Numazu interchange in Shizuoka prefecture." Also at this time, the element determination unit 23 determines that <Area> and <Status> are insufficient. In the fourth stage, the sentence is, "Because the Tomei Expressway is snowy, there is an up line between the Numazu interchange in Shizuoka prefecture and the Oi-Matsuda interchange." At this time, the element determination unit 23 determines that <Area> and <Status> are insufficient. In the fifth stage, the sentence is, "Because the Tomei Expressway is snowy, the up line between the Numazu interchange in Shizuoka prefecture and the Oi-Matsuda interchange starts at 3:10 am." Also at this time, the element determination unit 23 determines that <Area> and <Status> are insufficient. In the sixth stage, the sentence is, "Because of the snow on the Tomei Expressway, the up line between the Numazu interchange in Shizuoka prefecture and the Oi-Matsuda interchange is closed from 3:10 am." At this time, the element determination unit 23 determines that all the necessary elements are satisfied.

上記の第6段階の文を、正規化部25が正規化する。正規化された結果は、「東名高速道路 大井松田IC〜沼津IC 上り線で通行止め」である。この正規化の処理において、例えば「インターチェンジ」という語は、「IC」という表現に変換されている。出力部30は、この正規化された表現を出力する。 The normalization unit 25 normalizes the above sentence in the sixth stage. The normalized result is "Tomei Expressway Oi Matsuda IC-Numazu IC up line closed". In this normalization process, for example, the word "interchange" is converted to the expression "IC". The output unit 30 outputs this normalized expression.

本実施形態についてまとめると、次の通りである。 The present embodiment is summarized as follows.

(1)ヘッドライン生成装置1は、少なくとも、分割部21と、キーフレーズ判定部22と、要素判定部23と、文拡張処理部24とを含む。分割部21は、入力された文について文節の係り受け関係の解析を行うことによって係り受け木を得て、前記文を、係り受け木の部分木に相当する分割文に分割する。係り受け木とは、文の節間における係り受け関係を木構造として表したものである。なお、一例として、上記の分割文は、元の入力文とは、係り受け木における共通の根を持つ。また、一例として、分割部21が分割したことによって得られる分割文は、係り受け木における上記の根を含み、且つミニマムな部分木である。ミニマムな部分木とは根から葉までの途中のノードにおいて枝の分岐を持たない部分木である。キーフレーズ判定部22は、分割文のうち予め定められたキーフレーズを含む分割文(即ち、キーセンテンス)を選択する。ここで、キーフレーズとは、ヘッドライン生成装置1が扱う入力文が属する分野において、キーになり得るフレーズである。例えば、鉄道や、高速道路に関しては、キーフレーズは、路線名(高速道路名も路線名の一種である)である。要素判定部23は、文が、文の要素に関する条件である要素条件を満たすか否か、を判定する。要素条件は、例えば、予め記憶されているようにする。なお、要素判定部23が、判定対象の文にどの要素が足りないかを特定するようにしてもよい。文拡張処理部24は、キーフレーズ判定部22によって選択された前記分割文(即ち、キーセンテンス)を基に、文の要素を付加することによって拡張文を生成する。つまり、文拡張処理部24は、要素条件に照らして足りない要素を付加する。出力部30は、文拡張処理部24が作成した拡張文が要素条件を満たす場合に、当該拡張文が表す情報をヘッドラインとして出力するものである。なお、文拡張処理部24は、前記要素を付加する際に、前記係り受け木における当該要素を含む部分木に相当する節を付加するものである。また、文拡張処理部24は、前記拡張文が前記要素条件を満たさない場合に、前記拡張文が前記要素条件を満たすと前記要素判定部によって判定されるまで前記要素の付加を繰り返すものである。 (1) The headline generation device 1 includes at least a division unit 21, a key phrase determination unit 22, an element determination unit 23, and a sentence expansion processing unit 24. The division unit 21 obtains a dependency tree by analyzing the dependency relationship of the clauses on the input sentence, and divides the sentence into a division sentence corresponding to a subtree of the dependency tree. The dependency tree represents the dependency relationship between the nodes of a sentence as a tree structure. As an example, the above-mentioned divided sentence has a common root in the dependency tree with the original input sentence. Further, as an example, the division sentence obtained by dividing the division portion 21 is a subtree containing the above-mentioned roots in the dependent tree and being a minimum subtree. A minimum subtree is a subtree that does not have branch branches at a node in the middle from the root to the leaf. The key phrase determination unit 22 selects a divided sentence (that is, a key sentence) including a predetermined key phrase from the divided sentences. Here, the key phrase is a phrase that can be a key in the field to which the input sentence handled by the headline generator 1 belongs. For example, for railways and highways, the key phrase is the line name (the highway name is also a type of line name). The element determination unit 23 determines whether or not the sentence satisfies the element condition which is a condition related to the element of the sentence. Element conditions are stored in advance, for example. The element determination unit 23 may specify which element is missing in the sentence to be determined. The sentence expansion processing unit 24 generates an extended sentence by adding sentence elements based on the divided sentence (that is, the key sentence) selected by the key phrase determination unit 22. That is, the sentence extension processing unit 24 adds an element that is insufficient in light of the element condition. The output unit 30 outputs the information represented by the extended sentence as a headline when the extended sentence created by the sentence expansion processing unit 24 satisfies the element condition. When the element is added, the sentence expansion processing unit 24 adds a clause corresponding to the subtree including the element in the dependency tree. Further, the sentence expansion processing unit 24 repeats the addition of the element until the element determination unit determines that the extended sentence satisfies the element condition when the extended sentence does not satisfy the element condition. ..

なお、上に記載したヘッドライン生成装置1において、正規化部25を省略した構成としてもよい。その場合、ヘッドライン生成装置1は正規化処理を行わず、要素条件を満たすこととなった拡張文を出力する。 In the headline generator 1 described above, the normalization unit 25 may be omitted. In that case, the headline generator 1 does not perform the normalization process and outputs an extended statement that satisfies the element conditions.

(2)ヘッドライン生成装置1の処理部20が、正規化部25を備える構成としてもよい。正規化部25は、拡張文が要素条件を満たす場合に、予め定められた正規パターンに合うように前記拡張文を正規化する処理を行う。この場合には、出力部30は、正規化部25によって正規化された表現をヘッドラインとして出力する。 (2) The processing unit 20 of the headline generator 1 may be configured to include a normalization unit 25. When the extended sentence satisfies the element condition, the normalization unit 25 performs a process of normalizing the extended sentence so as to match a predetermined normal pattern. In this case, the output unit 30 outputs the expression normalized by the normalization unit 25 as a headline.

(3)一例として、前記キーフレーズは、交通手段における路線名であってよい。ここで、交通手段とは、鉄道、航空、道路網(例えば、高速道路)、船舶等を含む。この場合、要素条件の一例は、a)文が前記路線名を含み、且つb)前記文が当該路線名における区間を特定する情報を含み、且つc)前記文が当該路線名の当該区間における状態を表す情報を含むものである。ここで、区間を特定する情報とは、例えば、「全線」、「上下線」、「上り線」、「下り線」といった表現や、2つの拠点名を挙げることによってそれらの拠点間を特定する情報である。拠点とは、例えば、鉄道の駅や、道路におけるインターチェンジやジャンクションや料金所等や、空港や、港等を含む。また、ここで、状態を表す情報とは、例えば、「通常運行」、「運転(運行)見合わせ」、「通行止め」、「通行止め解除」等の表現を含む。 (3) As an example, the key phrase may be a route name in a means of transportation. Here, the means of transportation includes railways, aviation, road networks (for example, highways), ships, and the like. In this case, an example of the element condition is that a) the sentence includes the line name, b) the sentence contains information for specifying a section in the line name, and c) the sentence includes the section in the line name. It contains information that represents the state. Here, the information for specifying the section is, for example, the expressions such as "whole line", "upper and lower lines", "up line", and "down line", and specifying between those bases by giving the names of two bases. Information. The base includes, for example, a railway station, an interchange on a road, a junction, a tollhouse, an airport, a port, and the like. Further, here, the information indicating the state includes expressions such as "normal operation", "operation (operation) suspension", "traffic closure", and "traffic closure cancellation".

以上、説明したように、本実施形態によれば、入力された文を基に、人手に依らず、自動的にヘッドラインを生成することができる。また、本実施形態では、生成されるヘッドラインは、複数個のものであり得る。そして、本実施形態では、生成されるヘッドラインの集合は、元の文が持つ情報の要素を失うことなく、すべての要素を含むようにすることができる。つまり、生成されるヘッドラインの情報は、網羅性を有する。 As described above, according to the present embodiment, the headline can be automatically generated based on the input sentence without relying on human hands. Further, in the present embodiment, the number of headlines generated may be a plurality. Then, in the present embodiment, the set of generated headlines can include all the elements of the original sentence without losing the elements of the information. That is, the generated headline information is exhaustive.

なお、上述した実施形態におけるヘッドライン生成装置の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM、DVD−ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。 It should be noted that at least a part of the functions of the headline generator in the above-described embodiment can be realized by a computer. In that case, a program for realizing this function may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read by a computer system and executed. The term "computer system" as used herein includes hardware such as an OS and peripheral devices. The "computer-readable recording medium" is a portable medium such as a flexible disk, a magneto-optical disk, a ROM, a CD-ROM, a DVD-ROM, or a USB memory, or a storage device such as a hard disk built in a computer system. Say that. Furthermore, a "computer-readable recording medium" is a device that temporarily and dynamically holds a program, such as a communication line when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. , In that case, it may include a program that holds a program for a certain period of time, such as a volatile memory inside a computer system that serves as a server or a client. Further, the above-mentioned program may be a program for realizing a part of the above-mentioned functions, and may be a program for realizing the above-mentioned functions in combination with a program already recorded in the computer system.

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 Although the embodiments of the present invention have been described in detail with reference to the drawings, the specific configuration is not limited to this embodiment, and includes designs and the like within a range that does not deviate from the gist of the present invention.

本発明は、例えば、放送や情報配信等の事業において利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。 The present invention can be used, for example, in businesses such as broadcasting and information distribution. However, the scope of use of the present invention is not limited to those exemplified here.

1 ヘッドライン生成装置
10 テキスト取得部
20 処理部
21 分割部
22 キーフレーズ判定部
23 要素判定部
24 文拡張処理部
25 正規化部
30 出力部
40 制御部
50 データ記憶部
1 Headline generator 10 Text acquisition unit 20 Processing unit 21 Dividing unit 22 Key phrase judgment unit 23 Element judgment unit 24 Sentence expansion processing unit 25 Normalization unit 30 Output unit 40 Control unit 50 Data storage unit

Claims (4)

入力された文について文節の係り受け関係の解析を行うことによって係り受け木を得て、前記文を、係り受け木の部分木に相当する分割文に分割する分割部と、
前記分割文のうち予め定められたキーフレーズを含む分割文を選択するキーフレーズ判定部と、
文が、文の要素に関する条件である要素条件を満たすか否か、を判定する要素判定部と、
前記キーフレーズ判定部によって選択された前記分割文を基に、文の要素を付加することによって拡張文を生成する文拡張処理部と、
前記拡張文が前記要素条件を満たす場合に、当該拡張文が表す情報をヘッドラインとして出力する出力部と、
を具備し、
前記文拡張処理部は、前記要素を付加する際に、前記係り受け木における当該要素を含む部分木に相当する節を付加するものであり、
前記文拡張処理部は、前記拡張文が前記要素条件を満たさない場合に、前記拡張文が前記要素条件を満たすと前記要素判定部によって判定されるまで前記要素の付加を繰り返す、
ヘッドライン生成装置。
A division part that obtains a dependency tree by analyzing the dependency relation of clauses on the input sentence and divides the sentence into a division sentence corresponding to a subtree of the dependency tree.
A key phrase determination unit that selects a split sentence containing a predetermined key phrase from the split sentences, and a key phrase determination unit.
An element judgment unit that determines whether or not the sentence satisfies the element condition, which is a condition related to the element of the sentence.
A sentence expansion processing unit that generates an extended sentence by adding sentence elements based on the divided sentence selected by the key phrase determination unit, and a sentence expansion processing unit.
An output unit that outputs the information represented by the extended statement as a headline when the extended statement satisfies the element condition.
Equipped with
When the element is added, the sentence expansion processing unit adds a clause corresponding to the subtree containing the element in the dependency tree.
When the extended sentence does not satisfy the element condition, the sentence expansion processing unit repeats the addition of the element until it is determined by the element determination unit that the extended sentence satisfies the element condition.
Headline generator.
前記拡張文が前記要素条件を満たす場合に、予め定められた正規パターンに合うように前記拡張文を正規化する正規化部、
をさらに備え、
前記出力部は、前記正規化部によって正規化された表現を前記ヘッドラインとして出力する、
請求項1に記載のヘッドライン生成装置。
A normalization unit that normalizes the extended sentence so as to match a predetermined normal pattern when the extended sentence satisfies the element condition.
With more
The output unit outputs the expression normalized by the normalization unit as the headline.
The headline generator according to claim 1.
前記キーフレーズは、交通手段における路線名であり、
前記要素条件は、文が前記路線名を含み、且つ前記文が当該路線名の区間を特定する情報を含み、且つ前記文が当該路線名の当該区間における状態を表す情報を含むものである、
請求項1または2に記載のヘッドライン生成装置。
The key phrase is a route name in the means of transportation.
The element condition includes a sentence including the line name, the sentence including information specifying a section of the line name, and the sentence including information representing a state of the line name in the section.
The headline generator according to claim 1 or 2.
入力された文について文節の係り受け関係の解析を行うことによって係り受け木を得て、前記文を、係り受け木の部分木に相当する分割文に分割する分割部と、
前記分割文のうち予め定められたキーフレーズを含む分割文を選択するキーフレーズ判定部と、
文が、文の要素に関する条件である要素条件を満たすか否か、を判定する要素判定部と、
前記キーフレーズ判定部によって選択された前記分割文を基に、文の要素を付加することによって拡張文を生成する文拡張処理部と、
前記拡張文が前記要素条件を満たす場合に、当該拡張文が表す情報をヘッドラインとして出力する出力部と、
を具備し、
前記文拡張処理部は、前記要素を付加する際に、前記係り受け木における当該要素を含む部分木に相当する節を付加するものであり、
前記文拡張処理部は、前記拡張文が前記要素条件を満たさない場合に、前記拡張文が前記要素条件を満たすと前記要素判定部によって判定されるまで前記要素の付加を繰り返す、
ヘッドライン生成装置としてコンピューターを機能させるためのプログラム。
A division part that obtains a dependency tree by analyzing the dependency relation of clauses on the input sentence and divides the sentence into a division sentence corresponding to a subtree of the dependency tree.
A key phrase determination unit that selects a split sentence containing a predetermined key phrase from the split sentences, and
An element judgment unit that determines whether or not the sentence satisfies the element condition, which is a condition related to the element of the sentence.
A sentence expansion processing unit that generates an extended sentence by adding sentence elements based on the divided sentence selected by the key phrase determination unit, and a sentence expansion processing unit.
An output unit that outputs the information represented by the extended statement as a headline when the extended statement satisfies the element condition.
Equipped with
When the element is added, the sentence expansion processing unit adds a clause corresponding to the subtree containing the element in the dependency tree.
When the extended sentence does not satisfy the element condition, the sentence expansion processing unit repeats the addition of the element until it is determined by the element determination unit that the extended sentence satisfies the element condition.
A program that allows a computer to function as a headline generator.
JP2019193460A 2019-10-24 2019-10-24 Headline generation device and program Pending JP2021068218A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019193460A JP2021068218A (en) 2019-10-24 2019-10-24 Headline generation device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019193460A JP2021068218A (en) 2019-10-24 2019-10-24 Headline generation device and program

Publications (1)

Publication Number Publication Date
JP2021068218A true JP2021068218A (en) 2021-04-30

Family

ID=75637297

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019193460A Pending JP2021068218A (en) 2019-10-24 2019-10-24 Headline generation device and program

Country Status (1)

Country Link
JP (1) JP2021068218A (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008204010A (en) * 2007-02-16 2008-09-04 Toyota Motor Corp Question content extraction device and question content extraction method
JP2015090622A (en) * 2013-11-06 2015-05-11 日本電信電話株式会社 Shortened sentence generation device, method, and program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008204010A (en) * 2007-02-16 2008-09-04 Toyota Motor Corp Question content extraction device and question content extraction method
JP2015090622A (en) * 2013-11-06 2015-05-11 日本電信電話株式会社 Shortened sentence generation device, method, and program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
岡満美子 他2名: "句表現要約の句合成手法", 情報処理学会研究報告, vol. 99, no. 2, JPN6023019571, 20 January 1999 (1999-01-20), pages 101 - 108, ISSN: 0005195211 *

Similar Documents

Publication Publication Date Title
US6539348B1 (en) Systems and methods for parsing a natural language sentence
JP3930138B2 (en) Information analysis method and medium storing information analysis program
US20060293880A1 (en) Method and System for Building and Contracting a Linguistic Dictionary
JP4722195B2 (en) Database message analysis support program, method and apparatus
US6188977B1 (en) Natural language processing apparatus and method for converting word notation grammar description data
KR20140052328A (en) Apparatus and method for generating rdf-based sentence ontology
US20050149888A1 (en) Method and apparatus for minimizing weighted networks with link and node labels
JP2006251843A (en) Synonym pair extracting device, and computer program therefor
KR102376489B1 (en) Text document cluster and topic generation apparatus and method thereof
KR100617318B1 (en) Apparatus for automatic translation through 2-step syntactic analysis and method thereof
JP2007219620A (en) Text retrieval device, program, and method
JP2021068218A (en) Headline generation device and program
JP2015090622A (en) Shortened sentence generation device, method, and program
JP2004178490A (en) Numerical value information search device
KR20120042381A (en) Apparatus and method for classifying sentence pattern of speech recognized sentence
JP4940251B2 (en) Document processing program and document processing apparatus
JPH03105566A (en) Summary preparing system
JPH10207896A (en) Method and device for retrieval term extension and method and device for information retrieval
JP2000099515A (en) Method and device for generating meaning attribute dictionary, and storage medium recorded with meaning attribute dictionary generation program
KR19990015131A (en) How to translate idioms in the English-Korean automatic translation system
Zhang et al. Break index labeling of mandarin text via syntactic-to-prosodic tree mapping
Neumann et al. HPSG-DOP: Data-oriented parsing with HPSG
JP2005173753A (en) Device and method for updating natural word dictionary, program, and recording medium
Yaghi et al. T-Code compression for Arabic computational morphology
JP3390471B2 (en) Specification generator

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220920

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230512

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230516

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231114