JP2021068218A - Headline generation device and program - Google Patents
Headline generation device and program Download PDFInfo
- Publication number
- JP2021068218A JP2021068218A JP2019193460A JP2019193460A JP2021068218A JP 2021068218 A JP2021068218 A JP 2021068218A JP 2019193460 A JP2019193460 A JP 2019193460A JP 2019193460 A JP2019193460 A JP 2019193460A JP 2021068218 A JP2021068218 A JP 2021068218A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- unit
- headline
- condition
- extended
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 claims abstract description 70
- 238000010606 normalization Methods 0.000 claims description 23
- 230000014509 gene expression Effects 0.000 claims description 18
- 238000012986 modification Methods 0.000 abstract 3
- 230000004048 modification Effects 0.000 abstract 3
- 238000000034 method Methods 0.000 description 47
- 238000013500 data storage Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 6
- 239000000725 suspension Substances 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、ヘッドライン生成装置およびプログラムに関する。 The present invention relates to a headline generator and a program.
ニュースの内容の概略のみをテキスト(ヘッドライン等と呼ばれる)で配信するサービスが行われている。ニュースや告知等の文章を基に上記のようなヘッドラインを自動的に生成することが出来れば、省力化、低コスト化が期待できる。文章から要約を抽出する技術について既に多く研究されている。 There is a service that delivers only the outline of the news content in text (called headlines, etc.). If the above headlines can be automatically generated based on sentences such as news and announcements, labor saving and cost reduction can be expected. Much research has already been done on techniques for extracting summaries from text.
例えば、特許文献1、特許文献2、特許文献3、非特許文献1、非特許文献2には、文章等を要約する技術が記載されている。 For example, Patent Document 1, Patent Document 2, Patent Document 3, Non-Patent Document 1, and Non-Patent Document 2 describe techniques for summarizing sentences and the like.
しかしながら、上に列挙した先行技術は、いずれも、要約するために元の文章に含まれる本質的な情報のうちの一部を捨てるものである。しかしながら、例えば、交通機関の不通や遅延のニュースなど、要約するに際して本質的な情報を捨てずに維持することが望まれる分野が存在する。一例として、鉄道のA線と、B線と、C線と、D線のD1駅からD2駅までの区間が現在普通であることを伝えるニュースを要約するとき、これら列挙されている路線名あるいは区間を特定する情報(2つの駅名)等の情報は、すべてが維持されることに価値がある。言い換えれば、情報を捨ててわかりやすくすることよりも、情報を維持して網羅性を保つことが望まれる。また、こういった種類の要約を行う場合、1つの入力文を基に、複数のヘッドライン(要約テキスト)を出力することが情報の分かりやすさ等の点で優れている場合もある。しかしながら、列挙した先行技術文献のいずれも、1つの文を意味に応じて複数の文に分割して要約するものではない。 However, all of the prior arts listed above discard some of the essential information contained in the original text for summarization. However, there are areas where it is desirable to maintain essential information when summarizing, such as news of transportation interruptions and delays. As an example, when summarizing the news that the sections of railways A, B, C, and D from D1 to D2 are currently normal, these listed line names or It is worthwhile to maintain all the information such as the information that identifies the section (two station names). In other words, it is desirable to maintain information and maintain completeness, rather than throwing away information to make it easier to understand. Further, when performing such a type of summarization, it may be superior in terms of easy-to-understand information to output a plurality of headlines (summary texts) based on one input sentence. However, none of the listed prior art documents summarizes one sentence by dividing it into a plurality of sentences according to the meaning.
本発明は、上記の課題認識に基づいて行なわれたものであり、要約によって本質的な情報の要素を失うことなく、また必要に応じて複数の文に分割したヘッドラインを生成することのできるヘッドライン生成装置およびプログラムを提供しようとするものである。 The present invention has been made based on the above-mentioned problem recognition, and it is possible to generate a headline divided into a plurality of sentences as needed without losing essential information elements by summarizing. It is intended to provide a headline generator and a program.
[1]上記の課題を解決するため、本発明の一態様によるヘッドライン生成装置は、入力された文について文節の係り受け関係の解析を行うことによって係り受け木を得て、前記文を、係り受け木の部分木に相当する分割文に分割する分割部と、前記分割文のうち予め定められたキーフレーズを含む分割文を選択するキーフレーズ判定部と、文が、文の要素に関する条件である要素条件を満たすか否か、を判定する要素判定部と、前記キーフレーズ判定部によって選択された前記分割文を基に、文の要素を付加することによって拡張文を生成する文拡張処理部と、前記拡張文が前記要素条件を満たす場合に、当該拡張文が表す情報をヘッドラインとして出力する出力部と、を具備し、前記文拡張処理部は、前記要素を付加する際に、前記係り受け木における当該要素を含む部分木に相当する節を付加するものであり、前記文拡張処理部は、前記拡張文が前記要素条件を満たさない場合に、前記拡張文が前記要素条件を満たすと前記要素判定部によって判定されるまで前記要素の付加を繰り返す、ものである。 [1] In order to solve the above-mentioned problems, the headline generator according to one aspect of the present invention obtains a dependency tree by analyzing the dependency relationship of clauses with respect to the input sentence, and obtains the dependency tree to obtain the sentence. A division part that divides into a division sentence corresponding to a subtree of the dependency tree, a key phrase determination unit that selects a division sentence including a predetermined key phrase among the division sentences, and a condition that the sentence is related to a sentence element. Sentence extension processing that generates an extended sentence by adding sentence elements based on the element determination unit that determines whether or not the element condition is satisfied and the divided sentence selected by the key phrase determination unit. A unit and an output unit that outputs information represented by the extended sentence as a headline when the extended sentence satisfies the element condition are provided, and the sentence expansion processing unit includes a unit when adding the element. A clause corresponding to a subtree including the element in the dependency tree is added, and the sentence extension processing unit adds the element condition to the extended sentence when the extended sentence does not satisfy the element condition. If it is satisfied, the addition of the element is repeated until it is determined by the element determination unit.
[2]また、本発明の一態様は、上記のヘッドライン生成装置において、前記拡張文が前記要素条件を満たす場合に、予め定められた正規パターンに合うように前記拡張文を正規化する正規化部、をさらに備え、前記出力部は、前記正規化部によって正規化された表現を前記ヘッドラインとして出力する、ものである。 [2] Further, one aspect of the present invention is a normalization in which, in the above-mentioned headline generator, when the extended sentence satisfies the element condition, the extended sentence is normalized so as to match a predetermined normal pattern. The output unit further includes a normalization unit, and the output unit outputs the expression normalized by the normalization unit as the headline.
[3]また、本発明の一態様は、上記のヘッドライン生成装置において、前記キーフレーズは、交通手段における路線名であり、前記要素条件は、文が前記路線名を含み、且つ前記文が当該路線名の区間を特定する情報を含み、且つ前記文が当該路線名の当該区間における状態を表す情報を含むものである。 [3] Further, in one aspect of the present invention, in the headline generator, the key phrase is a route name in a means of transportation, and the element condition is that the sentence includes the line name and the sentence includes the line name. The sentence includes information for specifying the section of the route name, and the sentence includes information indicating the state of the route name in the section.
[4]また、本発明の一態様は、入力された文について文節の係り受け関係の解析を行うことによって係り受け木を得て、前記文を、係り受け木の部分木に相当する分割文に分割する分割部と、前記分割文のうち予め定められたキーフレーズを含む分割文を選択するキーフレーズ判定部と、文が、文の要素に関する条件である要素条件を満たすか否か、を判定する要素判定部と、前記キーフレーズ判定部によって選択された前記分割文を基に、文の要素を付加することによって拡張文を生成する文拡張処理部と、前記拡張文が前記要素条件を満たす場合に、当該拡張文が表す情報をヘッドラインとして出力する出力部と、を具備し、前記文拡張処理部は、前記要素を付加する際に、前記係り受け木における当該要素を含む部分木に相当する節を付加するものであり、前記文拡張処理部は、前記拡張文が前記要素条件を満たさない場合に、前記拡張文が前記要素条件を満たすと前記要素判定部によって判定されるまで前記要素の付加を繰り返す、ヘッドライン生成装置としてコンピューターを機能させるためのプログラムである。 [4] Further, in one aspect of the present invention, a dependency tree is obtained by analyzing the dependency relationship of clauses with respect to the input sentence, and the sentence is divided into a divided sentence corresponding to a subtree of the dependency tree. A division unit that divides into the above, a key phrase determination unit that selects a division sentence including a predetermined key phrase among the division sentences, and whether or not the sentence satisfies the element condition which is a condition related to the element of the sentence. An element determination unit for determining, a sentence extension processing unit that generates an extended sentence by adding a sentence element based on the divided sentence selected by the key phrase determination unit, and the extended sentence set the element condition. When satisfied, the sentence extension processing unit includes an output unit that outputs the information represented by the extended sentence as a headline, and the sentence expansion processing unit includes a subtree including the element in the dependency tree when the element is added. The sentence expansion processing unit adds a clause corresponding to, and when the extended sentence does not satisfy the element condition, until the element determination unit determines that the extended sentence satisfies the element condition. This is a program for operating a computer as a headline generator that repeats the addition of the above elements.
本発明によれば、ヘッドライン生成装置は、入力された文を基に、自動的にヘッドラインを生成することができる。且つ、ヘッドライン生成装置は、入力された文が有する要素に応じて必要十分な要素を持つヘッドラインの集合(多くの場合に複数のヘッドラインを要素とする集合)を生成することができる。 According to the present invention, the headline generator can automatically generate a headline based on the input sentence. Moreover, the headline generator can generate a set of headlines having necessary and sufficient elements according to the elements of the input sentence (in many cases, a set having a plurality of headlines as elements).
本発明の一実施形態について、以下で、図面を参照しながら説明する。本実施形態によるヘッドライン生成装置は、入力された文(ヘッドライン化したい文)を構文解析器により構文解析し、複数の意味単位文(「分割文」とも呼ばれる)に分割する。ヘッドライン生成装置は、分割文の中から、キーフレーズを含むキーセンテンスを選定する。ヘッドライン生成装置は、出力の必要要素を充足する(要素条件によって、充足するか否かが判定可能である)まで、構文的に距離の近い節や隣接する節を、上記のキーセンテンスに結合する。節を結合することによって拡張された文を拡張文と呼ぶ。拡張文が要素条件を満たすようになれば、ヘッドライン装置は、テンプレートに要素を当てはめる(即ち、正規化する)形でヘッドラインを生成する。ヘッドラインとして出力した要素を取り除いた残りの文に、出力の要素が残っている場合には、その残っている要素を出力するよう、一度使った要素をマスクし、再度ヘッドラインを生成する。このようにして、ヘッドライン生成装置は、複数のヘッドラインを生成する。 An embodiment of the present invention will be described below with reference to the drawings. The headline generator according to the present embodiment parses the input sentence (sentence to be headlined) by a syntactic analyzer and divides it into a plurality of semantic unit sentences (also referred to as "divided sentences"). The headline generator selects a key sentence including a key phrase from the divided sentences. The headline generator combines syntactically close or adjacent clauses into the above key sentences until the required elements of the output are satisfied (the element condition can determine whether or not they are satisfied). To do. A sentence extended by combining clauses is called an extended sentence. When the extension sentence meets the element condition, the headline device generates a headline by fitting (that is, normalizing) the element to the template. If the output element remains in the remaining sentence after removing the element output as the headline, the used element is masked so that the remaining element is output, and the headline is generated again. In this way, the headline generator generates a plurality of headlines.
図1は、本実施形態によるヘッドライン生成装置1の概略機能構成を示すブロック図である。図示するように、ヘッドライン生成装置1は、テキスト取得部10と、処理部20と、出力部30と、制御部40と、データ記憶部50とを含んで構成される。また、処理部20は、分割部21と、キーフレーズ判定部22と、要素判定部23と、文拡張処理部24と、正規化部25とを含んで構成される。これらの各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ(SSD)といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。
FIG. 1 is a block diagram showing a schematic functional configuration of the headline generator 1 according to the present embodiment. As shown in the figure, the headline generation device 1 includes a
テキスト取得部10は、外部から入力されるテキストデータを取得する。このテキストデータは、例えば、外部の別の装置から渡されるものであってもよいし、キーボード等の入力手段を用いて人が入力するものであってもよい。このテキストデータは、ニュース等の文を含む。このテキストデータは、処理部20が処理する対象である。
The
出力部30は、処理部20が生成するヘッドラインを外部に出力する。ヘッドラインは、後述する文拡張処理部24が出力する拡張文の情報を含むテキストデータである。このときの拡張文は、後述する要素判定部23が要素条件を満たすと判定したものである。ヘッドラインは、文拡張処理部24が出力した拡張文のままであってもよいし、後述する正規化部25が正規化処理を施したものであってもよい。出力部30は、例えば、通信ネットワークを介して、生成されたヘッドラインを配信することもできる。
The
制御部40は、ヘッドライン生成装置1全体による処理の実行を制御するものである。
The
データ記憶部50は、処理部20が参照するためのデータを記憶する。データ記憶部50が記憶するデータの内容は、ヘッドライン生成装置1が処理対象とする文の分野に依存する。本実施形態においては、データ記憶部50は、内部に、路線名データ記憶部および駅名データ記憶部(いずれも不図示)を持つ。路線名データ記憶部は、鉄道の路線名の集合のデータを記憶している。また、駅名データ記憶部は、鉄道の駅名の集合のデータを記憶している。また、駅名データ記憶部は、路線名とその路線に属する駅名との関係を記憶している。言い換えれば、駅名データ記憶部は、ある駅名の駅が、ある路線名の路線に属するか否かを表す情報を保持する。
The
処理部20は、テキスト取得部10が取得したテキストデータを処理することにより、ヘッドラインのデータを生成する。処理部20を構成する各部によるより詳細な機能については下で説明する。
The
分割部21は、テキスト取得部10が取得したテキストデータの構文解析処理(係り受け解析処理)を行い、その構文解析結果を利用して、文を分割する。なお、分割文は、係り受け木の根に相当する文節を必ず含むこととしてよい。また、分割文は、例えば、係り受け木に含まれる各葉から上記の根に向かって順次係っていく1本の枝に相当するものとしてよい。つまり、分割部21は、入力された文を分割して得られる複数の文(分割文と呼ぶ)を出力することができる。なお、分割部21は、既存の構文解析処理の技術を使用してよい。一例として、分割部21は、構文解析器CaboChaを使用することができる。
The
キーフレーズ判定部22は、分割部21が出力した分割文の各々が、キーフレーズを含むものであるか否かを判定する。キーフレーズ判定部22は、キーフレーズを含む分割文を、キーセンテンスと判定する。また、キーフレーズ判定部22は、キーフレーズを含まない分割文を、非キーセンテンスと判定する。キーフレーズの集合は、例えば、予め、データ記憶部50に記憶しておくようにしてよい。キーフレーズ判定部22は、このデータ記憶部50を参照することによって、キーフレーズの判定を行うことができる。本実施形態では、一例として、鉄道の路線名をキーフレーズとして用いる。つまり、本実施形態では、鉄道の路線名の集合を、予め、データ記憶部50が持つようにしておく。キーフレーズは、鉄道の路線名に限られない。何をキーフレーズとするかは、予め定めておき、必要に応じて記憶手段に記憶しておくようにしてよい。
The key
要素判定部23は、文が、文の要素に関する条件である要素条件を満たすか否か、を判定する。要素判定部23による判定は、ヘッドラインの候補となる文(分割文や、分割文を基に拡張される拡張文)が、ヘッドラインとして十分な要素を持つか否かを判定するためのものである。要素条件については、後でさらに説明する。
The
文拡張処理部24は、キーフレーズ判定部22によって選択された分割文(キーセンテンス)を基に、文の要素を付加することによって拡張文を生成する。文拡張処理部24は、文に前記要素を付加する際には、前記の係り受け木における当該要素を含む部分木に相当する節を付加するものである。文拡張処理部24は、生成された拡張文が要素条件を満たさない場合に、その拡張文が要素条件を満たすと要素判定部23によって判定されるようになるまで、順次、要素の付加を繰り返してよい。
The sentence
正規化部25は、文拡張処理部24によって拡張された文が要素条件を満たすようになった場合に、予め定められた正規パターンに合うようにその文を正規化する。正規パターンは、例えば、予め定義され、記憶手段に記憶しておくこととしてよい。正規化を行うことにより、ヘッドラインのスタイル、調子に統一感を与えることができる。正規化処理の具体例については、後で説明する。
When the sentence extended by the sentence
図2は、分割部21が入力文(テキストデータ)についての構文解析処理を行った結果の一例を示す概略図である。図示する例では、入力文は「東海道山陽新幹線は、上り線が山口県の徳山と京都の間で、下り線が京都と新神戸の間で運転を見合わせています。」である。また、同図は、上記入力文の構文解析結果を、樹系図(前述の係り受け木)の形で示している。この構文解析結果は、文を構成する節の係り受けの関係を表すものである。即ち、節「見合わせています」に係る節は、「東海道山陽新幹線は、」と、「間で、」と、「下り線が」と、「京都と神戸の間で」と、「運転を」のそれぞれである。また、上記の節「間で」に係る節は、「上り線が」と、「山口県の徳山と」と、「京都の」のそれぞれである。なお、図中では、便宜的に、各節にAからIまでの参照用の記号を付している。なお、木構造における根とは、この図におけるAのノードである。また、葉とは、根とは反対側の終端ノードである。この図では、B、G、H、I、D、E、Fの各ノードが葉である。
FIG. 2 is a schematic diagram showing an example of the result of parsing the input sentence (text data) by the dividing
図3は、分割部21が上記の構文解析結果に基づいて入力文を分割した例を示す概略図である。ここでは、構文解析結果に基づいて、7個の文への分割が行われている。これらの文の各々は、図2に示した構文木を、葉の側(下側)から根の側(上側)にたどることによって、即ち係る節の側から係られる節の側に順にたどることによって、生成される。第1の分割文は、「東海道山陽新幹線は、見合わせています」であり、図2に示した構文木における節をB−Aとたどって得られたものである。第2の分割文は、「上り線が間で、見合わせています」であり、図2に示した構文木における節をG−C−Aとたどって得られたものである。第3の分割文は、「山口県の徳山と間で、見合わせています」であり、図2に示した構文木における節をH−C−Aとたどって得られたものである。第4の分割文は、「京都の間で、見合わせています」であり、図2に示した構文木における節をI−C−Aとたどって得られたものである。第5の分割文は、「下り線が見合わせています」であり、図2に示した構文木における節をD−Aとたどって得られたものである。第6の分割文は、「京都と新神戸の間で見合わせています」であり、図2に示した構文木における節をE−Aとたどって得られたものである。第7の分割文は、「運転を見合わせています」であり、図2に示した構文木における節をF−Aとたどって得られたものである。
FIG. 3 is a schematic diagram showing an example in which the
ここでは、分割部21が分割したことによって得られる分割文は、係り受け木における根を含み、且つミニマムな部分木に対応する分割文である。ミニマムな部分木とは根から葉までの途中のノードにおいて枝の分岐を持たない部分木である。なお、必ずしも、分割部21は、ミニマムな部分木に対応する分割文だけを生成しなくてもよい。
Here, the split sentence obtained by the
図3に示した分割文のうち、第1の分割文は、キーセンテンスとして選ばれた文である。その他の分割文は、非キーセンテンスである。キーセンテンスは、ヘッドライン生成装置1がヘッドラインを生成するためのキーとなり得る文である。キーフレーズ判定部22は、分割部21が出力したそれぞれの分割文がキーフレーズを含むか否かによって、キーセンテンスであるか否かを判定する。本実施形態においては、キーフレーズは、鉄道の路線名である。つまり、図3に示した7個の分割文のうち、第1の分割文が路線名「東海道山陽新幹線」を含むため、キーフレーズ判定部22は、この分割文をキーセンテンスと判定した。その他の第2から第7までの分割文のそれぞれは、路線名を含まないため、キーフレーズ判定部22は、これらの分割文を非キーセンテンスと判定した。なお、何をキーフレーズとするかは、装置の適用分野ごとに適宜定めることとする。キーフレーズ判定部22は、前述の路線名データ記憶部を参照することにより、文中の表現(語等)が路線名であるか否かを判定する。
Of the split sentences shown in FIG. 3, the first split sentence is a sentence selected as a key sentence. Other split statements are non-key sentences. A key sentence is a sentence that can be a key for the headline generator 1 to generate a headline. The key
なお、キーフレーズ判定部22が判定するための条件を、下で説明する要素条件の1つ(キー条件)として定義してもよい。
The condition for the key
図4は、要素判定部23が判定に用いるための要素条件の例を示す概略図である。図示するように、本実施形態では、1番から4番までの4つの条件を用いる。このうち、1番の条件は、キー条件である。キー条件は、キーフレーズ判定部22が、分割文がキーセンテンスであるか否かを判定するために用いられる条件である。1番の条件は、<Line>があること(路線名があること)である。つまり、路線名がある分割文を、キーフレーズ判定部22は、上で述べたように、キーセンテンスであると判定する。2番から4番までの条件は、それぞれ、<Status>があること、<Area>があること、<Area>が「全線」でない場合、<Line>路線上の<Station>が2つ以上あること、である。
FIG. 4 is a schematic view showing an example of element conditions for the
ここで、<Status>とは、状態である。<Status>に該当する表現は、例えば、「再開」や「見合わせ」や「平常通り」といった表現である。また、<Area>とは、指定線を表すものである。<Area>に該当する表現は、例えば、「全線」や「上下線」や「上り線」や「下り線」といった表現である。また、<Station>は駅名である。 Here, <Status> is a state. The expression corresponding to <Status> is, for example, an expression such as "restart", "suspension", or "normal". Further, <Area> represents a designated line. The expression corresponding to <Area> is, for example, an expression such as "all lines", "upper and lower lines", "up line", and "down line". In addition, <Station> is the station name.
要素条件は、要素条件は、ヘッドライン(あるいはヘッドラインの候補)が、ヘッドラインとして十分な要素を持つか否かを判定するための条件である。要素条件は、例えば、専用の記憶領域に記憶され、キーフレーズ判定部22や要素判定部23によって参照される。
The element condition is a condition for determining whether or not the headline (or a candidate for the headline) has a sufficient element as a headline. The element condition is stored in a dedicated storage area, for example, and is referred to by the key
図5は、文拡張処理部24がキーセンテンスを拡張する過程の例を示す概略図である。この図に沿って、文拡張処理部が文を拡張していく過程を説明する。
FIG. 5 is a schematic diagram showing an example of a process in which the sentence
第1段階において、文は、「東海道山陽新幹線は、見合わせています」である。この文は、キーフレーズ判定部22が選んだキーセンテンスである。要素判定部23は、この文の要素条件を判定する。要素判定部23は、要素条件に基づき、この文には<Area>が不足していると判定する。この判定結果に応じて、文拡張処理部24が文を拡張する。具体的には、文拡張処理部24は、構文解析結果(図2)のG−Cの枝である「上り線が」「間で、」を追加する。
第2段階において、文は、「東海道山陽新幹線は、上り線が間で、見合わせています」である。要素判定部23は、この文の要素条件を判定する。要素判定部23は、要素条件に基づき、この文には<Station>が不足していると判定する。この判定結果に応じて、文拡張処理部24が文を拡張する。具体的には、文拡張処理部24は、構文解析結果(図2)においてCの「間で、」に係るHの「山口県の徳山と」を追加する。
第3段階において、文は、「東海道山陽新幹線は、上り線が山口県の徳山と間で、見合わせています」である。要素判定部23は、この文の要素条件を判定する。要素判定部23は、<Area>が「全線」でない場合、<Line>路線上の<Station>が2つ以上あることという要素条件に基づき、<Station>の数が足りない(不足している)と判定する。この判定結果に応じて、文拡張処理部24が文を拡張する。具体的には、文拡張処理部24は、構文解析結果(図2)においてCの「間で、」に係るIの「京都の」を追加する。
第4段階において、文は、「東海道山陽新幹線は、上り線が山口県の徳山と京都の間で、見合わせています」である。要素判定部23は、この文の要素条件を判定する。要素判定部23は、要素条件がすべて満たされていると判定する。なお、この第4段階の文に出現する駅名(辞書に登録されている駅名と一致する字面)のうち、徳山と京都は、東海道・山陽新幹線の駅の集合に含まれる。また、山口は、東海道・山陽新幹線の駅の集合には含まれない。
In the first stage, the sentence is "The Tokaido Sanyo Shinkansen is forgotten." This sentence is a key sentence selected by the key
In the second stage, the sentence is, "The Tokaido Sanyo Shinkansen is not on the up line." The
In the third stage, the sentence is, "The Tokaido Sanyo Shinkansen has an up line with Tokuyama in Yamaguchi Prefecture." The
In the fourth stage, the sentence is, "The Tokaido Sanyo Shinkansen has an up line between Tokuyama and Kyoto in Yamaguchi Prefecture." The
第4段階まで拡張された文が、要素条件を満たすため、正規化部25は、この文を正規化する。正規化されたパターンは、予め定義され、記憶されている。そのパターンにしたがって、正規化部25は、上記の第4段階の文を正規化し、「鉄道情報, 東海道・山陽新幹線 徳山〜京都 上り線で運転見合わせ」に変換する。ここでの正規化の例では、「鉄道情報」は、ヘッドラインの先頭に必ず付加されるものである。また、次に、路線名が続く。なお、路線名は、元の文では「東海道山陽新幹線」であったが、正規化により「東海道・山陽新幹線」(中点あり)という表現に変換されている。このような名称(路線名)の正規化は、予め記憶しておいた辞書に基づく。そして、<Area>が「全線」ではない場合には、次に、2つの駅名で対象区間を表す。それら2つの駅名は、<Area>が「上り線」であるか「下り線」であるかに応じて、列車の方向に合わせた順に「〜」でつないで表現される。ここでは、徳山および京都の駅名を用いて「徳山〜京都」と表現される。そして、さらに、<Area>および<Status>の情報が後続する。なお、<Status>は、適宜体言止めを用いて表現される。ここでは、「上り線で運転見合わせ」という表現に変換される。
Since the sentence extended to the fourth stage satisfies the element condition, the
このように正規化された表現が、ヘッドライン生成装置1が静止するヘッドラインである。出力部30は、この正規化されたヘッドラインを外部に出力する。
The expression normalized in this way is the headline at which the headline generator 1 is stationary. The
図6は、ヘッドライン生成装置1が残り要素を判定する処理の例を示す概略図である。ヘッドライン生成装置1の制御部40は、この図6に示す手順により、残り要素の有無を判定する。また、制御部40は、残り要素がある場合には、残り要素を用いてさらに文拡張処理を行うように、ヘッドライン生成装置1を清書する。具体的な処理の過程の例は、次に説明する通りである。
FIG. 6 is a schematic view showing an example of a process in which the headline generator 1 determines the remaining elements. The
ステップS51において、制御部40は、元の入力テキストに含まれる要素と、既に出力したヘッドラインに含まれる要素とを比較する。ここでは、元の入力文は「東海道山陽新幹線は、上り線が山口県の徳山と京都の間で、下り線が京都と新神戸の間で運転を見合わせています。」であった。また、上で説明した通り、第1の出力(既出力)であるヘッドラインは「鉄道情報, 東海道・山陽新幹線 徳山〜京都 上り線で運転見合わせ」であった。
In step S51, the
ステップS52において、制御部40は、元の文から、既に出力された要素をすべて除去する。既に出力された要素が上記の第1の出力のみである場合、既出力要素を除去すると、「<Line>は、<Area>が山口県の<Station>と<Station>の間で、下り線が京都と新神戸の間で運転を<Status>ています。」となる。つまり、ここでは、既出力の「東海道山陽新幹線」という要素が除去されて<Line>というタグに置き換えられている。また、「京都」および「徳山」という要素が除去されてそれぞれ<Station>というタグに置き換えられている。また、「見合わせ」という要素が除去されて<Status>というタグに置き換えられている。言い換えれば、ヘッドラインとして出力済みの要素は、<Line>、<Area>、<Station>、<Status>といったタグでマスクされている。
In step S52, the
ステップS53において、要素判定部23が、ステップS52の除去処理の結果について、要素条件に基づいて、要素が充足しているか否かの判定を行う。本例では、<Line>と<Status>が不足しているとの判定結果が得られる。なお、ステップS52の除去処理の結果においては、「京都」および「新神戸」が残っているため、<Station>が2個必要と言う条件は充足されている。
In step S53, the
ステップS54において、制御部40は、ステップS53における判定結果に基づいて、不足している要素を文に戻す。つまり、ここでは、制御部40は、<Line>要素である「東海道山陽新幹線」という表現と、<Status>要素である「見合わせ」という表現とを、ステップS52の結果に戻す。その結果の文は、「東海道山陽新幹線は、<Area>が山口県の<Station>と<Station>の間で、下り線が京都と新神戸の間で運転を見合わせています。」である。
In step S54, the
ステップS55において、制御部40は、ステップS54で得られた文を基に、再度文分割処理および文拡張処理を実行するように、ヘッドライン生成装置1を制御する。
In step S55, the
なお、2度目の実行の結果として、本例では、ヘッドライン生成装置1は、「鉄道情報,東海道・山陽新幹線 京都〜新神戸 下り線で運転見合わせ」という第2の出力(ヘッドライン)を生成する。以上のように、既出力の要素を除外しながら、ヘッドライン生成装置1は、複数のヘッドラインを生成することもできる。 As a result of the second execution, in this example, the headline generator 1 generates a second output (headline) of "railway information, operation suspension on the Tokaido / Sanyo Shinkansen Kyoto-Shin-Kobe down line". .. As described above, the headline generator 1 can also generate a plurality of headlines while excluding the elements that have already been output.
図7は、ヘッドライン生成装置1の全体的な処理の手順を示すフローチャートである。以下では、このフローチャートに沿って、ヘッドライン生成装置1の処理手順を説明する。 FIG. 7 is a flowchart showing the overall processing procedure of the headline generator 1. Hereinafter, the processing procedure of the headline generator 1 will be described with reference to this flowchart.
まず、ステップS1において、分割部21は、入力文の構文解析処理を行う。そして、分割部21は、構文解析結果に基づいて文を分割し、n個の文S1,S2,・・・,Snを得る。
First, in step S1, the
以下の、ステップS2からS6までの範囲内の処理は、分割された各文Si(1≦i≦n)ごとに繰り返して実行される。 The following processing within the range of steps S2 to S6 is repeatedly executed for each divided sentence Si (1 ≦ i ≦ n).
ステップS2において、キーフレーズ判定部22は、その文Siがキーフレーズを持つか否かを判定する。キーフレーズは、例えば、鉄道の路線名である。ただし、文の内容の分野等に応じて、他のキーフレーズを用いてもよい。その文がキーフレーズを持つ場合(ステップS2:YES)、次のステップS3に進む。その文がキーフレーズを持たない場合(ステップS2:NO)、当該文Siについての処理を終え、次の文(ある場合)に移る。
In step S2, the key
次に、ステップS3において、要素判定部23は、条件を参照して、その文Siが要素を充足しているか否かを判定する。要素が充足している場合(ステップS3:YES)には、次のステップS4に進む。要素が充足していない場合(ステップS3:NO)には、ステップS5に進む。
Next, in step S3, the
ステップS4に進んだ場合、正規化部25が、その文(Si)の表現を正規化する。そして、出力部30が、正規化された文を外部に出力する。本ステップの処理を終了すると、当該文Siについての処理を終え、次の文(ある場合)の処理に移る。
When the process proceeds to step S4, the
ステップS5に進んだ場合、その時点の文に不足している要素を充足させるために、文拡張処理部24は、文を拡張する処理を試みる。本ステップの次には、ステップS6に進む。ステップS6において、文拡張処理部24によるステップS5での文の拡張の処理が成功したか否かを判定する。文拡張が成功した場合(ステップS6:YES)には、要素が充足されたか否かを判定するためにステップS3に戻る。文拡張が失敗した場合(ステップS6:NO)には、当該文Siについての処理を終え、次の文(ある場合)の処理に移る。なお、文拡張が失敗するのは、例えば、残っているすべての要素を用いた拡張を行ってもなお要素条件を満たさない場合などである。
When the process proceeds to step S5, the sentence
文S1からSnまでの処理(ステップS2からS6まで)が終了すると、ステップS7に移る。ステップS7において、制御部40の制御により、ヘッドライン生成装置1は、残り要素の有無を判定する。残り要素の有無を判定する処理は、図6におけるステップS51からS54までに示した通りである。残り要素がある場合(ステップS7:YES)には、残り要素によるヘッドラインを生成する処理のために、ステップS1に戻る。残り要素がない場合(ステップS7:NO)には、本フローチャート全体の処理を終了する。
When the processing from sentences S1 to Sn (steps S2 to S6) is completed, the process proceeds to step S7. In step S7, under the control of the
[鉄道情報以外への適用例]
上では、ヘッドライン生成装置1を鉄道情報に適用した場合の処理例を説明した。以下では、鉄道情報以外への適用例として、高速道路情報に関してヘッドライン生成装置1が処理を行う場合の例を説明する。
[Example of application to other than railway information]
Above, a processing example when the headline generator 1 is applied to railway information has been described. In the following, as an application example other than railway information, an example in which the headline generator 1 processes highway information will be described.
図8は、テキスト取得部10が取得するテキストデータ(入力文)の一例を示す概略図である。ここでは、入力文は、「東名高速道路は雪のため、静岡県の沼津インターチェンジから大井松田インターチェンジの間の上り線が、午前3時10分から通行止めになっています」である。鉄道情報の場合と同様に、分割部21が、この入力文の構文解析処理(係り受け解析処理)を行い、構文木を生成する。ここでは、構文木の図示を省略する。
FIG. 8 is a schematic diagram showing an example of text data (input sentence) acquired by the
図9は、図8に示した入力文の構文解析処理結果に基づいて、分割部21が生成した6個の文(分割文)を示す概略図である。入力文の構文解析結果によると、この文を構成するすべての節は、直接的あるいは間接的に節「なっています」に係っている。分割部21は、元の入力文を、第1の文「東名高速道路はなっています」と、第2の文「雪のため、なっています」と、第3の文「静岡県の沼津インターチェンジからなっています」と、第4の文「大井松田インターチェンジの間の上り線が、なっています」と、第5の文「午前3時10分からなっています」と、第6の文「通行止めになっています」とに分割する。なお、ここに示した6個の分割文のうち、第1の文「東名高速道路はなっています」のみがキーセンテンスであり、他の文は非キーセンテンスである。本例では、高速道路名がキーフレーズであり、第1から第6までの分割文のうち、このキーフレーズをふくむのは、第1の文のみである。
FIG. 9 is a schematic diagram showing six sentences (divided sentences) generated by the dividing
図10は、キーセンテンスからスタートし、順次、文の拡張の処理を行っていく過程を示した概略図である。なお、本例では、タグ<Line>は、高速道路名を表すものである。この高速道路名は、前述の通り、キーフレーズである。また、タグ<Station>は、インターチェンジ名、ジャンクション名、料金所名のいずれかを表すものである。なお、インターチェンジは「IC」と表記される場合があり、ジャンクションは「JCT」と表記される場合がある。また、タグ<Area>は、「全線」、「上下線」、「上り線」、「下り線」のいずれかを表す。また、タグ<Status>は、「通行止め」あるいは「通行止め解除」のいずれかを表す。 FIG. 10 is a schematic diagram showing a process of starting from a key sentence and sequentially performing sentence expansion processing. In this example, the tag <Line> represents an expressway name. This highway name is a key phrase, as mentioned above. The tag <Station> represents any one of an interchange name, a junction name, and a tollhouse name. The interchange may be described as "IC", and the junction may be described as "JCT". Further, the tag <Area> represents any one of "all lines", "upper and lower lines", "up line", and "down line". Further, the tag <Status> represents either "closed road" or "released closed road".
図10に示すように、順次、文拡張処理部24は、文を拡張していく。具体的には、次の通りである。第1段階において、文は、「東名高速道路はなっています」(選択されたキーフレーズ)である。このとき、要素判定部23は、<Area>と<Status>が不足していると判定する。第2段階において、文は、「東名高速道路は雪のため、なっています」である。このときも、要素判定部23は、<Area>と<Status>が不足していると判定する。第3段階において、文は、「東名高速道路は雪のため、静岡県の沼津インターチェンジからなっています」である。このときも、要素判定部23は、<Area>と<Status>が不足していると判定する。第4段階において、文は、「東名高速道路は雪のため、静岡県の沼津インターチェンジから大井松田インターチェンジの間の上り線が、なっています」である。このとき、要素判定部23は、<Area>と<Status>が不足していると判定する。第5段階において、文は、「東名高速道路は雪のため、静岡県の沼津インターチェンジから大井松田インターチェンジの間の上り線が、午前3時10分からなっています」である。このときも、要素判定部23は、<Area>と<Status>が不足していると判定する。第6段階において、文は、「東名高速道路は雪のため、静岡県の沼津インターチェンジから大井松田インターチェンジの間の上り線が、午前3時10分から通行止めになっています」である。このとき、要素判定部23は、必要な要素がすべて充足されたと判定する。
As shown in FIG. 10, the sentence
上記の第6段階の文を、正規化部25が正規化する。正規化された結果は、「東名高速道路 大井松田IC〜沼津IC 上り線で通行止め」である。この正規化の処理において、例えば「インターチェンジ」という語は、「IC」という表現に変換されている。出力部30は、この正規化された表現を出力する。
The
本実施形態についてまとめると、次の通りである。 The present embodiment is summarized as follows.
(1)ヘッドライン生成装置1は、少なくとも、分割部21と、キーフレーズ判定部22と、要素判定部23と、文拡張処理部24とを含む。分割部21は、入力された文について文節の係り受け関係の解析を行うことによって係り受け木を得て、前記文を、係り受け木の部分木に相当する分割文に分割する。係り受け木とは、文の節間における係り受け関係を木構造として表したものである。なお、一例として、上記の分割文は、元の入力文とは、係り受け木における共通の根を持つ。また、一例として、分割部21が分割したことによって得られる分割文は、係り受け木における上記の根を含み、且つミニマムな部分木である。ミニマムな部分木とは根から葉までの途中のノードにおいて枝の分岐を持たない部分木である。キーフレーズ判定部22は、分割文のうち予め定められたキーフレーズを含む分割文(即ち、キーセンテンス)を選択する。ここで、キーフレーズとは、ヘッドライン生成装置1が扱う入力文が属する分野において、キーになり得るフレーズである。例えば、鉄道や、高速道路に関しては、キーフレーズは、路線名(高速道路名も路線名の一種である)である。要素判定部23は、文が、文の要素に関する条件である要素条件を満たすか否か、を判定する。要素条件は、例えば、予め記憶されているようにする。なお、要素判定部23が、判定対象の文にどの要素が足りないかを特定するようにしてもよい。文拡張処理部24は、キーフレーズ判定部22によって選択された前記分割文(即ち、キーセンテンス)を基に、文の要素を付加することによって拡張文を生成する。つまり、文拡張処理部24は、要素条件に照らして足りない要素を付加する。出力部30は、文拡張処理部24が作成した拡張文が要素条件を満たす場合に、当該拡張文が表す情報をヘッドラインとして出力するものである。なお、文拡張処理部24は、前記要素を付加する際に、前記係り受け木における当該要素を含む部分木に相当する節を付加するものである。また、文拡張処理部24は、前記拡張文が前記要素条件を満たさない場合に、前記拡張文が前記要素条件を満たすと前記要素判定部によって判定されるまで前記要素の付加を繰り返すものである。
(1) The headline generation device 1 includes at least a
なお、上に記載したヘッドライン生成装置1において、正規化部25を省略した構成としてもよい。その場合、ヘッドライン生成装置1は正規化処理を行わず、要素条件を満たすこととなった拡張文を出力する。
In the headline generator 1 described above, the
(2)ヘッドライン生成装置1の処理部20が、正規化部25を備える構成としてもよい。正規化部25は、拡張文が要素条件を満たす場合に、予め定められた正規パターンに合うように前記拡張文を正規化する処理を行う。この場合には、出力部30は、正規化部25によって正規化された表現をヘッドラインとして出力する。
(2) The
(3)一例として、前記キーフレーズは、交通手段における路線名であってよい。ここで、交通手段とは、鉄道、航空、道路網(例えば、高速道路)、船舶等を含む。この場合、要素条件の一例は、a)文が前記路線名を含み、且つb)前記文が当該路線名における区間を特定する情報を含み、且つc)前記文が当該路線名の当該区間における状態を表す情報を含むものである。ここで、区間を特定する情報とは、例えば、「全線」、「上下線」、「上り線」、「下り線」といった表現や、2つの拠点名を挙げることによってそれらの拠点間を特定する情報である。拠点とは、例えば、鉄道の駅や、道路におけるインターチェンジやジャンクションや料金所等や、空港や、港等を含む。また、ここで、状態を表す情報とは、例えば、「通常運行」、「運転(運行)見合わせ」、「通行止め」、「通行止め解除」等の表現を含む。 (3) As an example, the key phrase may be a route name in a means of transportation. Here, the means of transportation includes railways, aviation, road networks (for example, highways), ships, and the like. In this case, an example of the element condition is that a) the sentence includes the line name, b) the sentence contains information for specifying a section in the line name, and c) the sentence includes the section in the line name. It contains information that represents the state. Here, the information for specifying the section is, for example, the expressions such as "whole line", "upper and lower lines", "up line", and "down line", and specifying between those bases by giving the names of two bases. Information. The base includes, for example, a railway station, an interchange on a road, a junction, a tollhouse, an airport, a port, and the like. Further, here, the information indicating the state includes expressions such as "normal operation", "operation (operation) suspension", "traffic closure", and "traffic closure cancellation".
以上、説明したように、本実施形態によれば、入力された文を基に、人手に依らず、自動的にヘッドラインを生成することができる。また、本実施形態では、生成されるヘッドラインは、複数個のものであり得る。そして、本実施形態では、生成されるヘッドラインの集合は、元の文が持つ情報の要素を失うことなく、すべての要素を含むようにすることができる。つまり、生成されるヘッドラインの情報は、網羅性を有する。 As described above, according to the present embodiment, the headline can be automatically generated based on the input sentence without relying on human hands. Further, in the present embodiment, the number of headlines generated may be a plurality. Then, in the present embodiment, the set of generated headlines can include all the elements of the original sentence without losing the elements of the information. That is, the generated headline information is exhaustive.
なお、上述した実施形態におけるヘッドライン生成装置の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM、DVD−ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。 It should be noted that at least a part of the functions of the headline generator in the above-described embodiment can be realized by a computer. In that case, a program for realizing this function may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read by a computer system and executed. The term "computer system" as used herein includes hardware such as an OS and peripheral devices. The "computer-readable recording medium" is a portable medium such as a flexible disk, a magneto-optical disk, a ROM, a CD-ROM, a DVD-ROM, or a USB memory, or a storage device such as a hard disk built in a computer system. Say that. Furthermore, a "computer-readable recording medium" is a device that temporarily and dynamically holds a program, such as a communication line when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. , In that case, it may include a program that holds a program for a certain period of time, such as a volatile memory inside a computer system that serves as a server or a client. Further, the above-mentioned program may be a program for realizing a part of the above-mentioned functions, and may be a program for realizing the above-mentioned functions in combination with a program already recorded in the computer system.
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 Although the embodiments of the present invention have been described in detail with reference to the drawings, the specific configuration is not limited to this embodiment, and includes designs and the like within a range that does not deviate from the gist of the present invention.
本発明は、例えば、放送や情報配信等の事業において利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。 The present invention can be used, for example, in businesses such as broadcasting and information distribution. However, the scope of use of the present invention is not limited to those exemplified here.
1 ヘッドライン生成装置
10 テキスト取得部
20 処理部
21 分割部
22 キーフレーズ判定部
23 要素判定部
24 文拡張処理部
25 正規化部
30 出力部
40 制御部
50 データ記憶部
1
Claims (4)
前記分割文のうち予め定められたキーフレーズを含む分割文を選択するキーフレーズ判定部と、
文が、文の要素に関する条件である要素条件を満たすか否か、を判定する要素判定部と、
前記キーフレーズ判定部によって選択された前記分割文を基に、文の要素を付加することによって拡張文を生成する文拡張処理部と、
前記拡張文が前記要素条件を満たす場合に、当該拡張文が表す情報をヘッドラインとして出力する出力部と、
を具備し、
前記文拡張処理部は、前記要素を付加する際に、前記係り受け木における当該要素を含む部分木に相当する節を付加するものであり、
前記文拡張処理部は、前記拡張文が前記要素条件を満たさない場合に、前記拡張文が前記要素条件を満たすと前記要素判定部によって判定されるまで前記要素の付加を繰り返す、
ヘッドライン生成装置。 A division part that obtains a dependency tree by analyzing the dependency relation of clauses on the input sentence and divides the sentence into a division sentence corresponding to a subtree of the dependency tree.
A key phrase determination unit that selects a split sentence containing a predetermined key phrase from the split sentences, and a key phrase determination unit.
An element judgment unit that determines whether or not the sentence satisfies the element condition, which is a condition related to the element of the sentence.
A sentence expansion processing unit that generates an extended sentence by adding sentence elements based on the divided sentence selected by the key phrase determination unit, and a sentence expansion processing unit.
An output unit that outputs the information represented by the extended statement as a headline when the extended statement satisfies the element condition.
Equipped with
When the element is added, the sentence expansion processing unit adds a clause corresponding to the subtree containing the element in the dependency tree.
When the extended sentence does not satisfy the element condition, the sentence expansion processing unit repeats the addition of the element until it is determined by the element determination unit that the extended sentence satisfies the element condition.
Headline generator.
をさらに備え、
前記出力部は、前記正規化部によって正規化された表現を前記ヘッドラインとして出力する、
請求項1に記載のヘッドライン生成装置。 A normalization unit that normalizes the extended sentence so as to match a predetermined normal pattern when the extended sentence satisfies the element condition.
With more
The output unit outputs the expression normalized by the normalization unit as the headline.
The headline generator according to claim 1.
前記要素条件は、文が前記路線名を含み、且つ前記文が当該路線名の区間を特定する情報を含み、且つ前記文が当該路線名の当該区間における状態を表す情報を含むものである、
請求項1または2に記載のヘッドライン生成装置。 The key phrase is a route name in the means of transportation.
The element condition includes a sentence including the line name, the sentence including information specifying a section of the line name, and the sentence including information representing a state of the line name in the section.
The headline generator according to claim 1 or 2.
前記分割文のうち予め定められたキーフレーズを含む分割文を選択するキーフレーズ判定部と、
文が、文の要素に関する条件である要素条件を満たすか否か、を判定する要素判定部と、
前記キーフレーズ判定部によって選択された前記分割文を基に、文の要素を付加することによって拡張文を生成する文拡張処理部と、
前記拡張文が前記要素条件を満たす場合に、当該拡張文が表す情報をヘッドラインとして出力する出力部と、
を具備し、
前記文拡張処理部は、前記要素を付加する際に、前記係り受け木における当該要素を含む部分木に相当する節を付加するものであり、
前記文拡張処理部は、前記拡張文が前記要素条件を満たさない場合に、前記拡張文が前記要素条件を満たすと前記要素判定部によって判定されるまで前記要素の付加を繰り返す、
ヘッドライン生成装置としてコンピューターを機能させるためのプログラム。 A division part that obtains a dependency tree by analyzing the dependency relation of clauses on the input sentence and divides the sentence into a division sentence corresponding to a subtree of the dependency tree.
A key phrase determination unit that selects a split sentence containing a predetermined key phrase from the split sentences, and
An element judgment unit that determines whether or not the sentence satisfies the element condition, which is a condition related to the element of the sentence.
A sentence expansion processing unit that generates an extended sentence by adding sentence elements based on the divided sentence selected by the key phrase determination unit, and a sentence expansion processing unit.
An output unit that outputs the information represented by the extended statement as a headline when the extended statement satisfies the element condition.
Equipped with
When the element is added, the sentence expansion processing unit adds a clause corresponding to the subtree containing the element in the dependency tree.
When the extended sentence does not satisfy the element condition, the sentence expansion processing unit repeats the addition of the element until it is determined by the element determination unit that the extended sentence satisfies the element condition.
A program that allows a computer to function as a headline generator.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019193460A JP2021068218A (en) | 2019-10-24 | 2019-10-24 | Headline generation device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019193460A JP2021068218A (en) | 2019-10-24 | 2019-10-24 | Headline generation device and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021068218A true JP2021068218A (en) | 2021-04-30 |
Family
ID=75637297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019193460A Pending JP2021068218A (en) | 2019-10-24 | 2019-10-24 | Headline generation device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021068218A (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008204010A (en) * | 2007-02-16 | 2008-09-04 | Toyota Motor Corp | Question content extraction device and question content extraction method |
JP2015090622A (en) * | 2013-11-06 | 2015-05-11 | 日本電信電話株式会社 | Shortened sentence generation device, method, and program |
-
2019
- 2019-10-24 JP JP2019193460A patent/JP2021068218A/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008204010A (en) * | 2007-02-16 | 2008-09-04 | Toyota Motor Corp | Question content extraction device and question content extraction method |
JP2015090622A (en) * | 2013-11-06 | 2015-05-11 | 日本電信電話株式会社 | Shortened sentence generation device, method, and program |
Non-Patent Citations (1)
Title |
---|
岡満美子 他2名: "句表現要約の句合成手法", 情報処理学会研究報告, vol. 99, no. 2, JPN6023019571, 20 January 1999 (1999-01-20), pages 101 - 108, ISSN: 0005195211 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6539348B1 (en) | Systems and methods for parsing a natural language sentence | |
JP3930138B2 (en) | Information analysis method and medium storing information analysis program | |
US20060293880A1 (en) | Method and System for Building and Contracting a Linguistic Dictionary | |
JP4722195B2 (en) | Database message analysis support program, method and apparatus | |
US6188977B1 (en) | Natural language processing apparatus and method for converting word notation grammar description data | |
KR20140052328A (en) | Apparatus and method for generating rdf-based sentence ontology | |
US20050149888A1 (en) | Method and apparatus for minimizing weighted networks with link and node labels | |
JP2006251843A (en) | Synonym pair extracting device, and computer program therefor | |
KR102376489B1 (en) | Text document cluster and topic generation apparatus and method thereof | |
KR100617318B1 (en) | Apparatus for automatic translation through 2-step syntactic analysis and method thereof | |
JP2007219620A (en) | Text retrieval device, program, and method | |
JP2021068218A (en) | Headline generation device and program | |
JP2015090622A (en) | Shortened sentence generation device, method, and program | |
JP2004178490A (en) | Numerical value information search device | |
KR20120042381A (en) | Apparatus and method for classifying sentence pattern of speech recognized sentence | |
JP4940251B2 (en) | Document processing program and document processing apparatus | |
JPH03105566A (en) | Summary preparing system | |
JPH10207896A (en) | Method and device for retrieval term extension and method and device for information retrieval | |
JP2000099515A (en) | Method and device for generating meaning attribute dictionary, and storage medium recorded with meaning attribute dictionary generation program | |
KR19990015131A (en) | How to translate idioms in the English-Korean automatic translation system | |
Zhang et al. | Break index labeling of mandarin text via syntactic-to-prosodic tree mapping | |
Neumann et al. | HPSG-DOP: Data-oriented parsing with HPSG | |
JP2005173753A (en) | Device and method for updating natural word dictionary, program, and recording medium | |
Yaghi et al. | T-Code compression for Arabic computational morphology | |
JP3390471B2 (en) | Specification generator |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220920 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230512 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230516 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20231114 |