JP2019204445A - Information processing apparatus, information processing method, and program - Google Patents

Information processing apparatus, information processing method, and program Download PDF

Info

Publication number
JP2019204445A
JP2019204445A JP2018100943A JP2018100943A JP2019204445A JP 2019204445 A JP2019204445 A JP 2019204445A JP 2018100943 A JP2018100943 A JP 2018100943A JP 2018100943 A JP2018100943 A JP 2018100943A JP 2019204445 A JP2019204445 A JP 2019204445A
Authority
JP
Japan
Prior art keywords
word
sentence
score
unit
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018100943A
Other languages
Japanese (ja)
Other versions
JP7091146B2 (en
Inventor
智幸 河添
Tomoyuki Kawazoe
智幸 河添
修 萬羽
Osamu Manba
修 萬羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2018100943A priority Critical patent/JP7091146B2/en
Publication of JP2019204445A publication Critical patent/JP2019204445A/en
Application granted granted Critical
Publication of JP7091146B2 publication Critical patent/JP7091146B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To make it possible to extract a more appropriate summarized word from a document.SOLUTION: An information processing apparatus comprises: an acquisition unit that acquires a document consisting of one or more sentences; a basic score imparting unit that assigns weights to the words included in the sentences according to their case elements; a score update unit that updates the weights of the words included in the sentences according to the predicates in the sentences; a summarized word selection unit that selects a summarized word on the basis of the weights of the words; and an output unit that outputs the selected summarized word.SELECTED DRAWING: Figure 1

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。   The present invention relates to an information processing apparatus, an information processing method, and a program.

特許文献1には、文書中の種々の情報、特に、構文解析結果レベルの情報を統一的な枠組の下に利用してキーワード(要約語)を抽出する技術が記載されている。   Patent Document 1 describes a technique for extracting a keyword (summary word) using various information in a document, particularly information at a parsing result level under a unified framework.

特開平8−44763号公報JP-A-8-44763

ここで、文において、主語が重要であるか目的語が重要であるかは、文によって異なる。例えば、「〇〇テレビが視聴率三冠を獲得した。」という文では、主語である「〇〇テレビ」が重要な要約語である。それに対し、「〇〇テレビが△△さんの当選を報道した」という文では、主語である「〇〇テレビ」は重要な要約語とは言えない。このように、同じ助詞を含む文節であっても文によってその文節の重要度が異なる。
しかしながら、特許文献1に記載の技術では、文節の助詞に基づいてその文節に含まれる語の重みを決定しているが、主語が重要であるか目的語が重要であるかはその文によって異なる。そのため、特許文献1に記載の技術では、文によっては適切な要約語を抽出することができないことがあるという課題がある。
Here, in a sentence, whether a subject is important or an object is important differs depending on the sentence. For example, in the sentence “00 television has won three ratings”, the subject “00 television” is an important summary word. On the other hand, in the sentence “OO TV reported about the election of Mr. △△”, the subject “OO TV” is not an important summary word. In this way, even if the phrase includes the same particle, the importance of the phrase differs depending on the sentence.
However, in the technique described in Patent Document 1, the weight of a word included in a phrase is determined based on the particle of the phrase, but whether the subject is important or the object is important depends on the sentence. . For this reason, the technique described in Patent Document 1 has a problem that an appropriate summary word may not be extracted depending on the sentence.

本発明は、上記の点に鑑みてなされたものであり、文からより適切な要約語を抽出することができる情報処理装置、情報処理方法、およびプログラムを提供することを課題とする。   The present invention has been made in view of the above points, and an object thereof is to provide an information processing apparatus, an information processing method, and a program that can extract a more appropriate summary word from a sentence.

(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、1又は複数の文からなる文書を取得する取得部と、前記文章に含まれる各語に、その格要素に応じて重み付けをする基礎スコア付与部と、前記文における述語に応じて当該文に含まれる各語の重みを更新するスコア更新部と、各語の重みに基づいて前記文書の要約語を選択する要約語選択部と、選択した要約語を出力する出力部と、を備える情報処理装置である。   (1) The present invention has been made to solve the above problems, and one aspect of the present invention is an acquisition unit that acquires a document composed of one or more sentences, and each word included in the sentence. , A basic score giving unit for weighting according to the case element, a score updating unit for updating the weight of each word included in the sentence according to the predicate in the sentence, and the document based on the weight of each word An information processing apparatus includes: a summary word selection unit that selects a summary word; and an output unit that outputs the selected summary word.

(2)また、本発明の一態様は、(1)に記載の情報処理装置であって、同一とみなす語の重みを合算する要約語統合部と、を備える。   (2) Moreover, one aspect of the present invention is the information processing apparatus according to (1), including a summary word integration unit that adds together the weights of words that are regarded as the same.

(3)また、本発明の一態様は、(1)または(2)に記載の情報処理装置であって、前記スコア更新部は、前記文書のカテゴリに応じて異なるルールで重みを更新する。   (3) One embodiment of the present invention is the information processing apparatus according to (1) or (2), in which the score update unit updates weights according to different rules according to the category of the document.

(4)また、本発明の一態様は、(1)から(3)いずれかに記載の情報処理装置であって、前記基礎スコア付与部は、前記文が能動態の場合には当該文の主語の重みを重くし、前記文が受動態の場合には当該文の目的語の重みを重くする。   (4) Moreover, one aspect of the present invention is the information processing apparatus according to any one of (1) to (3), in which the basic score giving unit is a subject of the sentence when the sentence is active If the sentence is passive, the object weight of the sentence is increased.

(5)また、本発明の一態様は、(4)に記載の情報処理装置であって、前記スコア更新部は、特定の述語が文に含まれる場合に、当該文の主語の重みと目的語の重みとを逆転させる。   (5) Moreover, one aspect of the present invention is the information processing apparatus according to (4), in which the score update unit, when a specific predicate is included in a sentence, the weight and purpose of the subject of the sentence Reverse the weight of the word.

(6)また、本発明の一態様は、(5)に記載の情報処理装置であって、前記特定の述語は、情報を提供する行為を意味する動詞であって、前記スコア更新部は、前記特定の述語が文に含まれる場合に、当該文において提供される情報の重みを重くする。   (6) Moreover, 1 aspect of this invention is an information processing apparatus as described in (5), Comprising: The said specific predicate is a verb meaning the act which provides information, Comprising: The said score update part, When the specific predicate is included in a sentence, the weight of information provided in the sentence is increased.

(7)また、本発明の一態様は、(6)に記載の情報処理装置であって、前記特定の述語は、前記文書のカテゴリに応じて異なる。   (7) One aspect of the present invention is the information processing apparatus according to (6), in which the specific predicate differs according to a category of the document.

(8)また、本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、取得部が、1又は複数の文からなる文書を取得する過程と、基礎スコア付与部が、前記文書に含まれる各語に、その格要素に応じて重み付けをする過程と、スコア更新部が、前記文における述語に応じて当該文に含まれる各語の重みを更新する過程と、要約語選択部が、各語の重みに基づいて前記文書の要約語を選択する過程と、出力部が、選択した要約語を出力する過程と、を有する情報処理方法である。   (8) In addition, the present invention has been made to solve the above-described problems, and one aspect of the present invention is a process in which an acquisition unit acquires a document composed of one or more sentences and grants a basic score. A process of weighting each word included in the document according to a case element, and a process of updating a weight of each word included in the sentence according to a predicate in the sentence The information processing method includes: a summary word selection unit selecting a summary word of the document based on the weight of each word; and an output unit outputting a selected summary word.

(9)また、本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、コンピュータが、1又は複数の文からなる文書を取得するステップと、前記文章に含まれる各語に、その格要素に応じて重み付けをするステップと、前記文における述語に応じて当該文に含まれる各語の重みを更新するステップと、各語の重みに基づいて前記文書の要約語を選択するステップと、選択した要約語を出力するステップと、を実行するためのプログラムである。   (9) Further, the present invention has been made to solve the above problems, and one aspect of the present invention includes a step in which a computer acquires a document composed of one or more sentences, and the sentence includes Weighting each word according to its case element, updating the weight of each word included in the sentence according to the predicate in the sentence, and summarizing the document based on the weight of each word A program for executing a step of selecting a word and a step of outputting a selected summary word.

本発明によれば、文書からより適切な要約語を抽出することができる。   According to the present invention, a more appropriate summary word can be extracted from a document.

本発明の第1の実施形態に係る要約語生成装置の機能構成の一例を示す概略ブロック図である。It is a schematic block diagram which shows an example of a function structure of the summary word production | generation apparatus which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る基礎スコアルール記憶部が記憶する基礎スコアルールテーブルのデータ構成及びデータ例を示す概略図である。It is the schematic which shows the data structure and example of a data of the basic score rule table which the basic score rule memory | storage part which concerns on the 1st Embodiment of this invention memorize | stores. 本発明の第1の実施形態に係る特定述語リスト記憶部が記憶する特定述語リストテーブルのデータ構成及びデータ例を示す概略図である。It is the schematic which shows the data structure and data example of a specific predicate list table which the specific predicate list memory | storage part which concerns on the 1st Embodiment of this invention memorize | stores. 本発明の第1の実施形態に係るスコア更新ルール記憶部が記憶するスコア更新ルールテーブルのデータ構成及びデータ例を示す概略図である。It is the schematic which shows the data structure and data example of the score update rule table which the score update rule memory | storage part which concerns on the 1st Embodiment of this invention memorize | stores. 本発明の第1の実施形態に係る要約語生成装置のハードウェア構成の一例を示す概略ブロック図である。It is a schematic block diagram which shows an example of the hardware constitutions of the summary word production | generation apparatus which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る要約語生成装置が文の形態素及び構文を解析する処理を説明するための図である。It is a figure for demonstrating the process which the summary word production | generation apparatus which concerns on the 1st Embodiment of this invention analyzes the morpheme and syntax of a sentence. 本発明の第1の実施形態に係る要約語生成装置がスコアを付与する処理を説明するための図である。It is a figure for demonstrating the process which the summary word production | generation apparatus which concerns on the 1st Embodiment of this invention provides a score. 本発明の第1の実施形態に係る要約語生成装置がスコアを付与する処理を説明するための図である。It is a figure for demonstrating the process which the summary word production | generation apparatus which concerns on the 1st Embodiment of this invention provides a score. 本発明の第1の実施形態に係る要約語生成装置がスコアを付与する処理を説明するための図である。It is a figure for demonstrating the process which the summary word production | generation apparatus which concerns on the 1st Embodiment of this invention provides a score. 本発明の第1の実施形態に係る要約語生成装置が実行する要約語生成処理の一例を示すフローチャートである。It is a flowchart which shows an example of the summary word production | generation process which the summary word production | generation apparatus which concerns on the 1st Embodiment of this invention performs. 本発明の第2の実施形態に係る要約語生成装置の機能構成の一例を示す概略ブロック図である。It is a schematic block diagram which shows an example of a function structure of the summary word production | generation apparatus which concerns on the 2nd Embodiment of this invention. 本発明の第2の実施形態に係るカテゴリ別特定述語リスト記憶部が記憶するカテゴリ別特定述語リストテーブルのデータ構成及びデータ例を示す概略図である。It is the schematic which shows the data structure and data example of the category specific predicate list table which the category specific predicate list memory | storage part which concerns on the 2nd Embodiment of this invention memorize | stores. 本発明の第2の実施形態に係る要約語生成装置がスコアを付与する処理を説明するための図である。It is a figure for demonstrating the process which the summary word production | generation apparatus which concerns on the 2nd Embodiment of this invention provides a score. 本発明の第2の実施形態に係る要約語生成装置がスコアを付与する処理を説明するための図である。It is a figure for demonstrating the process which the summary word production | generation apparatus which concerns on the 2nd Embodiment of this invention provides a score. 本発明の第2の実施形態に係る要約語生成装置が実行する要約語生成処理の一例を示すフローチャートである。It is a flowchart which shows an example of the summary word production | generation process which the summary word production | generation apparatus which concerns on the 2nd Embodiment of this invention performs.

(第1の実施形態)
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本発明の第1の実施形態に係る要約語生成装置1の機能構成の一例を示す概略ブロック図である。
要約語生成装置1は、1又は複数の文からなる入力文書から当該入力文書の要約語を生成して出力する情報処理装置である。入力文書は、例えばインターネット等で公開されるニュースの文章等である。要約語は、例えばキーワード等の入力文書における重要な語であり、入力文書を要約する語である。すなわち、要約語生成装置1は、入力された1又は複数の文からなる文書から、文章の主題を一言で表す要約語を生成する。これにより、例えばニュース記事から「〇〇に関するニュースです。」といったメッセージを生成することができる。なお、要約語は、1つの単語でもよいし、複数の単語であってもよいし、複数の単語の組み合わせとであってもよい。
(First embodiment)
Hereinafter, a first embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a schematic block diagram showing an example of a functional configuration of a summary word generation device 1 according to the first embodiment of the present invention.
The summary word generation device 1 is an information processing device that generates and outputs a summary word of an input document from an input document composed of one or a plurality of sentences. The input document is, for example, a news sentence released on the Internet or the like. The summary word is an important word in the input document such as a keyword, and is a word that summarizes the input document. That is, the summary word generation device 1 generates a summary word that expresses the subject matter of a sentence in a single word from a document composed of one or more input sentences. Thereby, for example, a message such as “News about OO” can be generated from a news article. The summary word may be a single word, a plurality of words, or a combination of a plurality of words.

要約語生成装置1は、例えば、複数の端末装置が接続可能なサーバ装置であり、接続された端末装置に対し入力文書の要約語を出力する。あるいは、要約語生成装置1は、携帯電話機やスマートフォンやタブレット端末やパーソナルコンピュータ等の各端末装置に組み込まれていてもよい。端末装置は、例えばインターネットで公開されているニュースを紹介する際等の場合に、要約語生成装置1から取得した当該ニュースの要約語「〇〇」を用いて、「〇〇に関するニュースです。」等の案内をすることができる。   The summary word generation device 1 is, for example, a server device to which a plurality of terminal devices can be connected, and outputs summary words of an input document to the connected terminal devices. Or the summary word production | generation apparatus 1 may be integrated in each terminal devices, such as a mobile telephone, a smart phone, a tablet terminal, and a personal computer. For example, when introducing a news published on the Internet, the terminal device uses the summary word “OO” of the news acquired from the abstract word generation device 1 and reads “News about OO”. Etc. can be provided.

要約語生成装置1は、入力部11と、制御部12と、記憶部13と、出力部14と、を含んで構成される。
入力部11は、例えば、キーボードやマイクやネットワークインタフェース等の、入力文書を入力するインタフェースである。入力部11は、入力された入力文書を制御部12に出力する。なお、入力部11は、ネットワークまたは他の装置から入力文章を取得してもよい。
The summary word generation device 1 includes an input unit 11, a control unit 12, a storage unit 13, and an output unit 14.
The input unit 11 is an interface for inputting an input document, such as a keyboard, a microphone, or a network interface. The input unit 11 outputs the input document that has been input to the control unit 12. Note that the input unit 11 may acquire an input sentence from a network or another device.

制御部12は、要約語生成装置1を統括して制御する。制御部12は、形態素・構文解析部121と、基礎スコア付与部122と、スコア更新部123と、要約語統合部124と、要約語選択部125と、を含んで構成される。   The control unit 12 controls the summary word generation device 1 in an integrated manner. The control unit 12 includes a morpheme / syntax analysis unit 121, a basic score assignment unit 122, a score update unit 123, a summary word integration unit 124, and a summary word selection unit 125.

形態素・構文解析部121は、解析用辞書記憶部131が記憶する解析用辞書に基づいて入力文書における各文の形態素及び構文を解析し、各文にある各文節の品詞や係り受けの情報を入力文書に付与して基礎スコア付与部122に出力する。
基礎スコア付与部122は、入力文書に含まれる各文節の語に、その格要素に応じて重み(以下「スコア」とも称する。)付けをする。文節の語は、例えば格要素から格助詞を除去した語句である。具体的には、基礎スコア付与部122は、基礎スコアルール記憶部132が記憶する基礎スコアルールテーブルに基づいて各文節の語にスコアを付与する。例えば、基礎スコア付与部122は、文が能動態の場合にはその文の主語の重みを重くし、文が受動態の場合にはその文の目的語の重みを重くしてもよい。基礎スコア付与部122は、各語に付与したスコアと入力文書とをスコア更新部123に出力する。
The morpheme / syntax analysis unit 121 analyzes the morpheme and syntax of each sentence in the input document based on the analysis dictionary stored in the analysis dictionary storage unit 131, and displays the part of speech and dependency information of each clause in each sentence. Assigned to the input document and output to the basic score assigning unit 122.
The basic score assigning unit 122 assigns a weight (hereinafter also referred to as “score”) to each phrase word included in the input document according to the case element. The phrase word is, for example, a phrase obtained by removing a case particle from a case element. Specifically, the basic score assigning unit 122 assigns a score to each phrase word based on the basic score rule table stored in the basic score rule storage unit 132. For example, the basic score assigning unit 122 may increase the weight of the subject of the sentence when the sentence is active and increase the weight of the object of the sentence when the sentence is passive. The basic score assignment unit 122 outputs the score assigned to each word and the input document to the score update unit 123.

スコア更新部123は、入力文書に含まれる各文の述語に応じてそれぞれの文にある各文節の語の重みを更新する。具体的には、スコア更新部123は、特定述語リスト記憶部133が記憶する特定述語リストにある特定述語が文の述語である場合に、スコア更新ルール記憶部134が記憶するスコア更新ルールテーブルに基づいて当該文の各文節の語のスコアを更新する。特定述語は、例えば、情報を提供する行為を意味する動詞である。なお、特定述語は、情報を提供する行為を意味する動詞に限られず、他の動詞であってもよい。スコア更新部123は、特定述語が文に含まれる場合に、当該文の主語の重みと目的語の重みとを逆転させる。すなわち、スコア更新部123は、特定述語が文に含まれる場合には、当該文において提供される情報の重みを重くする。換言すれば、スコア更新部123は、特定述語が文に含まれる場合には、当該文において提供される情報の重みづけを更新する。スコア更新部123は、更新したスコアと入力文書とを要約語統合部124に出力する。   The score updating unit 123 updates the word weight of each clause in each sentence according to the predicate of each sentence included in the input document. Specifically, the score update unit 123 stores the score update rule table stored in the score update rule storage unit 134 when the specific predicate in the specific predicate list stored in the specific predicate list storage unit 133 is a statement predicate. Based on this, the score of the word in each clause of the sentence is updated. The specific predicate is a verb meaning an act of providing information, for example. The specific predicate is not limited to a verb meaning an act of providing information, and may be another verb. When the specific predicate is included in the sentence, the score update unit 123 reverses the subject weight and the object weight of the sentence. That is, when the specific predicate is included in the sentence, the score update unit 123 increases the weight of the information provided in the sentence. In other words, when the specific predicate is included in the sentence, the score update unit 123 updates the weighting of the information provided in the sentence. The score update unit 123 outputs the updated score and the input document to the summary word integration unit 124.

要約語統合部124は、入力文書に複数の文がある場合に、各文を比較して同一とみなせる類似の語ごとのスコアを合算し、合算したスコアと入力文書とを要約語選択部125に出力する。
要約語選択部125は、各語のスコアに基づいて入力文書の要約語を選択し、選択した要約語を出力部14に出力する。具体的には、要約語選択部125は、全ての単語をスコアの降順にソートし、最もスコアの高い語を要約語として選択する。なお、要約語選択部125は、最もスコアの高い語が複数ある場合に、その中から基礎スコア付与部122が最初に付与した基礎スコアが最も高いものを選んでもよいし、入力文書において最初にある語を選んでもよいし、ランダムに選んでもよい。
When there are a plurality of sentences in the input document, the summary word integration unit 124 compares the sentences and adds scores for similar words that can be regarded as the same, and the summed word and the input document are summed up. Output to.
The summary word selection unit 125 selects a summary word of the input document based on the score of each word, and outputs the selected summary word to the output unit 14. Specifically, the summary word selection unit 125 sorts all words in descending order of score, and selects the word with the highest score as the summary word. In addition, when there are a plurality of words having the highest score, the summary word selection unit 125 may select the one having the highest basic score assigned by the basic score assignment unit 122 from among the words having the highest score. You can choose a word or choose it randomly.

記憶部13は、解析用辞書記憶部131と、基礎スコアルール記憶部132と、特定述語リスト記憶部133と、スコア更新ルール記憶部134とを備え、種々の情報を記憶する。   The storage unit 13 includes an analysis dictionary storage unit 131, a basic score rule storage unit 132, a specific predicate list storage unit 133, and a score update rule storage unit 134, and stores various types of information.

解析用辞書記憶部131は、文書の形態素及び構文を解析するための解析用辞書を記憶する。
基礎スコアルール記憶部132は、スコアを付与する際の基礎スコアルールを示す基礎スコアルールテーブルを記憶する。
The analysis dictionary storage unit 131 stores an analysis dictionary for analyzing document morphemes and syntax.
The basic score rule storage unit 132 stores a basic score rule table indicating basic score rules when a score is given.

特定述語リスト記憶部133は、特定述語を示す特定述語リストを記憶する。
スコア更新ルール記憶部134は、スコアを更新する際のスコア更新ルールを示すスコア更新ルールテーブルを記憶する。
The specific predicate list storage unit 133 stores a specific predicate list indicating the specific predicate.
The score update rule storage unit 134 stores a score update rule table indicating score update rules when updating the score.

出力部14は、例えばディスプレイやスピーカやネットワークインタフェース等の、要約語を出力するインタフェースである。出力部14は、要約語選択部125から入力された要約語を出力する。   The output unit 14 is an interface that outputs summary words such as a display, a speaker, and a network interface. The output unit 14 outputs the summary word input from the summary word selection unit 125.

図2は、本発明の第1の実施形態に係る基礎スコアルール記憶部132が記憶する基礎スコアルールテーブルのデータ構成及びデータ例を示す概略図である。
図示するように、基礎スコアルールテーブルは、文の態と、文節の格と、スコアとの各項目を有する。文の態は、文が能動態であるか受動態であるかを示す。文節の格は、文節の格助詞を示す。スコアは、文節の語に付す重みを示す。
FIG. 2 is a schematic diagram illustrating a data configuration and a data example of a basic score rule table stored in the basic score rule storage unit 132 according to the first embodiment of the present invention.
As shown in the figure, the basic score rule table includes items of sentence state, phrase case, and score. The sentence state indicates whether the sentence is active or passive. The phrase case indicates the phrase case particle. The score indicates the weight attached to the phrase word.

図示する例では、文の態「能動態」と文節の格「ガ格」とに対応するスコアは「1.0」である。また、文の態「能動態」と文節の格「ヲ格」とに対応するスコアは「0.8」である。また、文の態「能動態」と文節の格「二格」とに対応するスコアは「0.5」である。また、文の態「能動態」と文節の格「述語」とに対応するスコアは「0.0」である。また、文の態「受動態」と文節の格「ガ格」とに対応するスコアは「0.8」である。また、文の態「受動態」と文節の格「二格」とに対応するスコアは「1.0」である。   In the illustrated example, the score corresponding to the sentence state “active” and the phrase case “ga” is “1.0”. The score corresponding to the sentence state “active” and the phrase case “wo” is “0.8”. The score corresponding to the sentence state “active” and the phrase case “second case” is “0.5”. The score corresponding to the sentence state “active” and the phrase case “predicate” is “0.0”. The score corresponding to the sentence state “passive” and the phrase case “ga” is “0.8”. The score corresponding to the sentence state “passive” and the phrase case “second case” is “1.0”.

図3は、本発明の第1の実施形態に係る特定述語リスト記憶部133が記憶する特定述語リストテーブルのデータ構成及びデータ例を示す概略図である。
図示するように、特定述語リストテーブルは、カテゴリと、特定述語リストとの各項目を有する。カテゴリは、文書のカテゴリである。特定述語リストは、特定述語のリストである。特定述語は、例えば新聞やテレビやインターネット等のメディアが情報提供する行為を意味する動詞である。図示する例では、カテゴリ「全て」に対応する特定述語リストには「掲載する、紹介する、報道する、…」等の述語が含まれている。
FIG. 3 is a schematic diagram illustrating a data configuration and a data example of the specific predicate list table stored in the specific predicate list storage unit 133 according to the first embodiment of the present invention.
As shown in the figure, the specific predicate list table has items of a category and a specific predicate list. The category is a document category. The specific predicate list is a list of specific predicates. The specific predicate is a verb meaning an act of providing information by a media such as a newspaper, a television, or the Internet. In the illustrated example, the specific predicate list corresponding to the category “all” includes predicates such as “publish, introduce, report,...”.

図4は、本発明の第1の実施形態に係るスコア更新ルール記憶部134が記憶するスコア更新ルールテーブルのデータ構成及びデータ例を示す概略図である。
図示するように、スコア更新ルールテーブルは、文の態と、文節の格と、スコアとの各項目を有する。文の態は、文が能動態であるか受動態であるかを示す。文節の格は、文節の格助詞を示す。スコアは、スコアの変化値を示し、「+」は加点を示し、「−」は減点を示す。
FIG. 4 is a schematic diagram illustrating a data configuration and a data example of the score update rule table stored in the score update rule storage unit 134 according to the first embodiment of the present invention.
As shown in the figure, the score update rule table has items of sentence state, phrase case, and score. The sentence state indicates whether the sentence is active or passive. The phrase case indicates the phrase case particle. The score indicates a change value of the score, “+” indicates an added point, and “−” indicates a deducted point.

図示する例では、文の態「能動態」と文節の格「ガ格」とに対応するスコアは「−0.5」である。また、文の態「能動態」と文節の格「ヲ格」とに対応するスコアは「+0.5」である。また、文の態「能動態」と文節の格「二格」とに対応するスコアは「−0.5」である。また、文の態「能動態」と文節の格「述語」とに対応するスコアは「0.0」である。また、文の態「受動態」と文節の格「ガ格」とに対応するスコアは「+0.5」である。また、文の態「受動態」と文節の格「二格」とに対応するスコアは「−0.5」である。   In the illustrated example, the score corresponding to the sentence state “active” and the phrase case “ga” is “−0.5”. The score corresponding to the sentence state “active” and the phrase case “wo” is “+0.5”. The score corresponding to the sentence state “active” and the phrase case “second case” is “−0.5”. The score corresponding to the sentence state “active” and the phrase case “predicate” is “0.0”. The score corresponding to the sentence state “passive” and the phrase case “ga” is “+0.5”. The score corresponding to the sentence state “passive” and the phrase case “second case” is “−0.5”.

すなわち、図示する例のスコア更新ルールでは、文の述語が特定述語である場合には、メディア名を含むと想定される格要素(能動態の場合にはガ格、受動態の場合には二格)を減点し、メディアが伝える情報を含むと想定される格要素(能動態の場合にはヲ格、受動態の場合にはガ格)を加点する。   That is, in the score update rule of the example shown in the figure, when the predicate of the sentence is a specific predicate, the case element that is assumed to include the media name (ga case for active and two cases for passive) Is deducted, and a case element (wo case for active and ga case for passive) that is assumed to contain information conveyed by the media is added.

図5は、本発明の第1の実施形態に係る要約語生成装置1のハードウェア構成の一例を示す概略ブロック図である。
要約語生成装置1は、CPU101と、記憶媒体インタフェース部102と、記憶媒体103と、入力装置104と、出力装置105と、ROM106(Read Only Memory)と、RAM107(Random Access Memory)と、補助記憶部108と、ネットワークインタフェース部109と、を備える。CPU101と、記憶媒体インタフェース部102と、入力装置104と、出力装置105と、ROM106と、RAM107と、補助記憶部108と、ネットワークインタフェース部109とは、バスを介して相互に接続される。
なお、ここで言うCPU101は、プロセッサ一般のことを示すものであって、狭義のいわゆるCPUと呼ばれるデバイスのことだけではなく、例えばGPUやDSP等も含む。また、ここで言うCPU101は、一つのプロセッサで実現されることに限られず、同じ、または異なる種類の複数のプロセッサを組み合わせることで実現されてもよい。
FIG. 5 is a schematic block diagram illustrating an example of a hardware configuration of the summary word generation device 1 according to the first embodiment of the present invention.
The summary word generation device 1 includes a CPU 101, a storage medium interface unit 102, a storage medium 103, an input device 104, an output device 105, a ROM 106 (Read Only Memory), a RAM 107 (Random Access Memory), and an auxiliary storage. Unit 108 and a network interface unit 109. The CPU 101, the storage medium interface unit 102, the input device 104, the output device 105, the ROM 106, the RAM 107, the auxiliary storage unit 108, and the network interface unit 109 are connected to each other via a bus.
The CPU 101 here indicates a general processor, and includes not only a device called a CPU in a narrow sense but also a GPU, a DSP, and the like. The CPU 101 referred to here is not limited to being realized by a single processor, and may be realized by combining a plurality of processors of the same or different types.

CPU101は、補助記憶部108、ROM106およびRAM107が記憶するプログラムを読み出して実行し、また、補助記憶部108、ROM106およびRAM107が記憶する各種データを読み出し、補助記憶部108、RAM107に対して各種データを書き込むことにより、要約語生成装置1を制御する。また、CPU101は、記憶媒体インタフェース部102を介して記憶媒体103が記憶する各種データを読み出し、また、記憶媒体103に各種データを書き込む。記憶媒体103は、光磁気ディスク、フレキシブルディスク、フラッシュメモリなどの可搬記憶媒体であり、各種データを記憶する。
記憶媒体インタフェース部102は、記憶媒体103の読み書きを行うインタフェースである。
The CPU 101 reads out and executes programs stored in the auxiliary storage unit 108, the ROM 106, and the RAM 107, reads various data stored in the auxiliary storage unit 108, the ROM 106, and the RAM 107, and stores various data in the auxiliary storage unit 108, the RAM 107. The summary word generation device 1 is controlled by writing. In addition, the CPU 101 reads various data stored in the storage medium 103 via the storage medium interface unit 102 and writes various data to the storage medium 103. The storage medium 103 is a portable storage medium such as a magneto-optical disk, a flexible disk, or a flash memory, and stores various data.
The storage medium interface unit 102 is an interface for reading from and writing to the storage medium 103.

入力装置104は、マウス、キーボード、タッチパネル、音量調整ボタン、電源ボタン、設定ボタン、赤外線受信部などの入力装置である。
出力装置105は、表示部、スピーカなどの出力装置である。
ROM106、RAM107は、要約語生成装置1の各機能部を動作させるためのプログラムや各種データを記憶する。
補助記憶部108は、ハードディスクドライブ、フラッシュメモリなどであり、要約語生成装置1の各機能部を動作させるためのプログラム、各種データを記憶する。
ネットワークインタフェース部109は、通信インタフェースを有し、無線通信によりネットワークNWに接続される。
The input device 104 is an input device such as a mouse, a keyboard, a touch panel, a volume adjustment button, a power button, a setting button, and an infrared receiver.
The output device 105 is an output device such as a display unit or a speaker.
The ROM 106 and RAM 107 store programs and various data for operating the functional units of the summary word generation device 1.
The auxiliary storage unit 108 is a hard disk drive, a flash memory, or the like, and stores a program for operating each functional unit of the summary word generation device 1 and various data.
The network interface unit 109 has a communication interface and is connected to the network NW by wireless communication.

例えば、要約語生成装置1の機能構成における制御部12は、CPU101に対応し、記憶部13は、ROM106、またはRAM107、または補助記憶部108、またはそれらの何れかの組み合わせに対応し、入力部11は、入力装置104またはネットワークインタフェース部109に対応し、出力部14は、出力装置105またはネットワークインタフェース部109に対応する。   For example, the control unit 12 in the functional configuration of the summary word generation device 1 corresponds to the CPU 101, the storage unit 13 corresponds to the ROM 106, the RAM 107, the auxiliary storage unit 108, or any combination thereof, and the input unit 11 corresponds to the input device 104 or the network interface unit 109, and the output unit 14 corresponds to the output device 105 or the network interface unit 109.

続いて、要約語生成装置1の動作について具体例を用いて詳細に説明する。まず、形態素・構文解析部121が入力文書に含まれる各文の形態素及び構文を解析する。   Next, the operation of the summary word generation device 1 will be described in detail using a specific example. First, the morpheme / syntax analyzer 121 analyzes the morpheme and syntax of each sentence included in the input document.

図6は、本発明の第1の実施形態に係る要約語生成装置1が文の形態素及び構文を解析する処理を説明するための図である。図示する例では、入力文は「〇〇テレビが△△さんの当選を報道した。」である。まず、形態素・構文解析部121は、入力文を文節「〇〇テレビが」、「△△さんの」、「当選を」及び「報道した」に分割する。そして、形態素・構文解析部121は、各文節を格要素「〇〇テレビが」、「△△さんの」、「当選を」と述語「報道した」とに分類する。形態素・構文解析部121は、格要素に対して単語の種別(固有名詞・サ変動詞等)及び文節の格に関する情報を付与し、述語に対して単語の種別及び文の態に関する情報を付与する。図示する例では、「〇〇テレビが」は「ガ格/固有名詞(企業名)」であり、「△△さんの」は「ノ格/固有名詞(人名)」であり、「当選を」は「ヲ格/一般名詞」であり、「報道した」は「述語/サ変動詞/能動態」である。また、形態素・構文解析部121は、文節間の係り受けの情報を解析してツリー構造で表現する。図示する例では、「〇〇テレビが」は「報道した」に係り、「△△さんの」は「当選を」に係り、「当選を」は「報道した」に係る。   FIG. 6 is a diagram for explaining processing in which the summary word generation device 1 according to the first exemplary embodiment of the present invention analyzes sentence morphemes and syntaxes. In the example shown in the figure, the input sentence is “00 television reported about the winning of △△”. First, the morpheme / syntax analyzing unit 121 divides the input sentence into the phrases “00 TV is”, “△△ Ms.”, “Winning” and “reported”. Then, the morpheme / syntax analyzing unit 121 classifies each clause into case elements “00 TV is”, “△△ Ms.”, “Winning” and a predicate “reported”. The morpheme / syntax analyzer 121 gives information on the word type (proprietary noun, sub-variant, etc.) and clause case to the case element, and gives information on the word type and sentence state to the predicate. . In the example shown in the figure, “00 TV is” is “ga / proper noun (company name)”, “△△ 's” is “no case / proprietary noun (person name)”, and “wins” Is “wo case / general noun”, and “reported” is “predicate / sa-variable / active”. In addition, the morpheme / syntax analyzer 121 analyzes dependency information between clauses and represents the information in a tree structure. In the example shown in the figure, “OO TV is” related to “reported”, “△△ Ms.” Is related to “winning”, and “winning” is related to “reported”.

次に、基礎スコア付与部122及びスコア更新部123が各文節の語にスコアを付与する。図7〜図9は、本発明の第1の実施形態に係る要約語生成装置1がスコアを付与する処理を説明するための図である。   Next, the basic score assigning unit 122 and the score updating unit 123 assign a score to each phrase word. 7-9 is a figure for demonstrating the process which the summary word production | generation apparatus 1 which concerns on the 1st Embodiment of this invention provides a score.

図7に示す例では、入力文書は「〇〇テレビが視聴率三冠を獲得した。」である。すなわち、入力文書はメディアが情報提供することを示すものではない。まず、図7(A)に示すように、形態素・構文解析部121が、入力文書における「〇〇テレビが」が「ガ格/固有名詞(企業名)」であり、「視聴率三冠を」が「ヲ格/普通名詞」であり、「獲得した」が「述語/サ変動詞/能動態」であることを解析する。   In the example shown in FIG. 7, the input document is “00 television has won three ratings”. That is, the input document does not indicate that the media provides information. First, as shown in FIG. 7 (A), the morpheme / syntax analyzing unit 121 determines that “00 TV is” in the input document is “ga rating / proper noun (company name)”, "Is a" wo case / common noun "and" acquired "is a" predicate / sa-variant / active ".

続いて、図7(B)に示すように、基礎スコア付与部122が基礎スコアルールテーブルに基づいて、ガ格の文節「〇〇テレビが」の語「〇〇テレビ」に基礎スコア「1.0」を付与し、ヲ格の文節「視聴率三冠を」の語「視聴率三冠」に基礎スコア「0.8」を付与し、述語の文節「獲得した」の語「獲得」に基礎スコア「0.0」を付与する。   Subsequently, as shown in FIG. 7B, the basic score assigning unit 122 assigns the basic score “1. ..” to the word “00 TV” of the clause “00 TV is” based on the basic score rule table. "0", a basic score of "0.8" is given to the word "view rating triple crown" of the sentence "O rating triple", and the word "acquisition" of the predicate phrase "acquired" A basic score of “0.0” is given.

続いて、スコア更新部123が、述語「獲得した」が特定述語リストにあるか否かを判定する。スコア更新部123は、述語「獲得した」が特定述語リストにないため、基礎スコアから更新する値であるスコア更新を全て「0.0」にする。すなわち、スコア更新部123は、スコアを更新しない。その結果、各語の合計スコアは基礎スコアのままである。よって、語「〇〇テレビ」の合計スコアは「1.0」であり、語「視聴率三冠」の合計スコアは「0.8」であり、語「獲得」の合計スコアは「0.0」である。最後に、要約語選択部125が、最も合計スコアの高い語「〇〇テレビ」を入力文書「〇〇テレビが視聴率三冠を獲得した。」の要約語として選択する。すなわち、要約語生成装置1は、メディアが情報提供することを示す文でない場合には、主語である「〇〇テレビ」を要約語として出力する。   Subsequently, the score update unit 123 determines whether or not the predicate “acquired” is in the specific predicate list. Since the predicate “acquired” is not in the specific predicate list, the score update unit 123 sets all score updates that are values to be updated from the basic score to “0.0”. That is, the score update unit 123 does not update the score. As a result, the total score for each word remains the basic score. Therefore, the total score of the word “00 television” is “1.0”, the total score of the word “view rating triple crown” is “0.8”, and the total score of the word “acquired” is “0. 0 ". Finally, the summary word selection unit 125 selects the word “00 television” having the highest total score as the summary word of the input document “00 television has obtained three ratings”. That is, the summary word generation device 1 outputs “OO television” as a subject word as a summary word when the media does not indicate that information is provided.

一方、図8に示す例では、入力文書は「〇〇テレビが△△さんの当選を報道した。」である。すなわち、入力文書はメディアが情報提供することを示すものである。まず、図8(A)に示すように、形態素・構文解析部121が、入力文書における「〇〇テレビが」が「ガ格/固有名詞(企業名)」であり、「△△さんの当選を」が「ヲ格/普通名詞(人名)+普通名詞」であり、「報道した」が「述語/サ変動詞/能動態」であることを解析する。   On the other hand, in the example shown in FIG. 8, the input document is “OO TV reported that △△ was elected”. That is, the input document indicates that the media provides information. First, as shown in FIG. 8 (A), the morpheme / syntax analyzing unit 121 determines that “OO TV is” in the input document is “ga rating / proper noun (company name)” and “ Analyzes that “is” is “wo case / common noun (personal name) + common noun”, and “reported” is “predicate / sa variable / active”.

続いて、図8(B)に示すように、基礎スコア付与部122が基礎スコアルールテーブルに基づいて、ガ格の文節「〇〇テレビが」の語「〇〇テレビ」に基礎スコア「1.0」を付与し、ヲ格の文節「△△さんの当選を」の語「△△さんの当選」に基礎スコア「0.8」を付与し、述語の文節「報道した」の語「報道」に基礎スコア「0.0」を付与する。   Subsequently, as shown in FIG. 8 (B), the basic score assigning unit 122 sets the basic score “1. "0", a basic score of "0.8" is given to the word "△△ Mr.'s winning" of the sentence of wo, and the word "reporting" of the predicate clause "reported" Is given a basic score of “0.0”.

続いて、スコア更新部123が、述語「報道した」が特定述語リストにあるか否かを判定する。スコア更新部123は、述語「報道した」が特定述語リストにあるため、スコア更新ルールテーブルに基づいて、「〇〇テレビ」の基礎スコア「1.0」にスコア更新「−0.5」加算して合計スコアを「0.5」に更新し、語「△△さんの当選」の基礎スコア「0.8」にスコア更新「+0.5」加算して合計スコアを「1.3」に更新し、語「報道」の基礎スコア「0.0」にスコア更新「0.0」加算して合計スコアを「0.0」に更新する。   Subsequently, the score update unit 123 determines whether or not the predicate “reported” is in the specific predicate list. Since the predicate “reported” is in the specific predicate list, the score update unit 123 adds the score update “−0.5” to the basic score “1.0” of “00 television” based on the score update rule table. And update the total score to “0.5”, add the score update “+0.5” to the basic score “0.8” of the word “△△ Mr. The score is updated by adding “0.0” to the basic score “0.0” of the word “report” and the total score is updated to “0.0”.

その結果、更新前は主語である「〇〇テレビ」が最も基礎スコアが高かったのに対し、更新後は目的語である「△△さんの当選」が最も合計スコアが高くなる。そのため、要約語選択部125は、最も合計スコアの高い語「△△さんの当選」を入力文書「〇〇テレビが△△さんの当選を報道した。」の要約語として選択する。すなわち、要約語生成装置1は、メディアである「〇〇テレビ」が報道する情報である「△△さんの当選」を要約語として出力する。よって、要約語生成装置1は、入力文書に対してより適切な要約語を生成して出力することができる。   As a result, “OO TV”, which is the subject before the update, has the highest basic score, whereas “Winning of Δ △”, which is the object, has the highest total score after the update. Therefore, the summary word selection unit 125 selects the word “△△ Mr. Winning” with the highest total score as the summary word of the input document “OO TV has reported the winning of Mr. Δ △”. That is, the summary word generating device 1 outputs “winning of Mr. ΔΔ”, which is information reported by “00 television” as the media, as a summary word. Therefore, the summary word generation device 1 can generate and output a more appropriate summary word for the input document.

図9に示す例では、入力文書は「AさんがBさんに手紙を渡した。Bさんはその手紙を紹介した。」である。まず、図9(A)に示すように、形態素・構文解析部121が、入力文書の第1文「AさんがBさんに手紙を渡した。」における「Aさんが」が「ガ格/固有名詞(人名)」であり、「Bさんに」が「二格/固有名詞(人名)」であり、「手紙を」が「ヲ格/普通名詞」であり、「渡した」が「述語/動詞/能動態」であることを解析する。また、図9(B)に示すように、形態素・構文解析部121は、入力文書の第2文「Bさんはその手紙を紹介した。」における「Bさんは」が「ガ格/固有名詞(人名)」であり、「その手紙を」が「ヲ格/指示代名詞+普通名詞」であり、「紹介した」が「述語/サ変動詞/能動態」であることを解析する。   In the example shown in FIG. 9, the input document is “Mr. A handed a letter to Mr. B. Mr. B introduced the letter”. First, as shown in FIG. 9A, the morpheme / syntax analyzing unit 121 sets “Mr. A” in the first sentence “Mr. A gave a letter to Mr. B” in the input document as “ "Proper noun (person name)", "Mr. B" is "second case / proper noun (person name)", "letter" is "wo case / common noun", "handed" is "predicate" / Verb / active ”is analyzed. Further, as shown in FIG. 9B, the morpheme / syntax analyzer 121 sets “Mr. B” in the second sentence “Mr. B introduced the letter” in the input document to “ (Person name) ”,“ the letter ”is“ wo case / indicative pronoun + common noun ”, and“ introduced ”is“ predicate / sa variable / active ”.

続いて、図9(C)に示すように、基礎スコア付与部122が基礎スコアルールテーブルに基づいて、第1文におけるガ格の文節「Aさんが」の語「Aさん」に基礎スコア「1.0」を付与し、二格の文節「Bさんに」の語「Bさん」に基礎スコア「0.5」を付与し、ヲ格の文節「手紙を」の語「手紙」に基礎スコア「0.8」を付与し、述語の文節「渡した」の語「渡す」に基礎スコア「0.0」を付与する。また、スコア更新部123は、第1文の述語「渡した」が特定述語リストにないため、第1文のスコア更新を全て「0.0」とし、第1文のスコアを更新しない。その結果、各語の合計スコアは基礎スコアのままである。   Subsequently, as illustrated in FIG. 9C, the basic score assigning unit 122 assigns a basic score “to the word“ Mr. A ”of the phrase“ Mr. A ”in the first sentence based on the basic score rule table. 1.0 ”, the basic score“ 0.5 ”is assigned to the word“ Mr. B ”of the second sentence“ Mr. B ”, and the word“ letter ”of the sentence“ L A score “0.8” is assigned, and a basic score “0.0” is assigned to the word “pass” in the clause “passed” of the predicate. Moreover, since the predicate “passed” of the first sentence is not in the specific predicate list, the score update unit 123 sets all score updates of the first sentence to “0.0” and does not update the score of the first sentence. As a result, the total score for each word remains the basic score.

また、図9(D)に示すように、基礎スコア付与部122は、基礎スコアルールテーブルに基づいて、第2文におけるガ格の文節「Bさんは」の語「Bさん」に基礎スコア「1.0」を付与し、ヲ格の文節「その手紙を」の語「その手紙」に基礎スコア「0.8」を付与し、述語の文節「紹介した」の語「紹介」に基礎スコア「0.0」を付与する。   Further, as shown in FIG. 9D, the basic score assigning unit 122 adds a basic score “to the word“ Mr. B ”of the phrase“ Mr. B ”in the second sentence based on the basic score rule table. 1.0 ”, a basic score“ 0.8 ”is assigned to the word“ that letter ”in the verse“ the letter ”, and a basic score is assigned to the word“ introduction ”in the clause“ introduced ”in the predicate. “0.0” is assigned.

続いて、スコア更新部123は、第2文の述語「紹介した」が特定述語リストにあるため、スコア更新ルールテーブルに基づいて、「Bさん」の基礎スコア「1.0」にスコア更新「−0.5」加算して合計スコアを「0.5」に更新し、語「その手紙」の基礎スコア「0.8」にスコア更新「+0.5」加算して合計スコアを「1.3」に更新し、語「紹介」の基礎スコア「0.0」にスコア更新「0.0」加算して合計スコアを「0.0」に更新する。   Subsequently, since the predicate “introduced” of the second sentence is in the specific predicate list, the score update unit 123 updates the score to the basic score “1.0” of “Mr. B” based on the score update rule table “ -0.5 "is added to update the total score to" 0.5 ", and the score update" +0.5 "is added to the basic score" 0.8 "of the word" that letter "to add the total score to" 1. 3 ”and the score update“ 0.0 ”is added to the basic score“ 0.0 ”of the word“ introduction ”to update the total score to“ 0.0 ”.

続いて、図9(E)に示すように、要約語統合部124が、第1文と第2文とを比較して、同一とみなせる語「Bさん」のスコアを合算してその合計スコアを「1.0」とし、語「手紙」のスコアを合算してその合計スコアを「2.1」とする。これにより、入力文書において頻出する語のスコアが高くなる。最後に、要約語選択部125が最も合計スコアの高い語「手紙」を入力文書「AさんがBさんに手紙を渡した。Bさんはその手紙を紹介した。」の要約語として選択する。このように、要約語生成装置1は、入力文書に複数の文がある場合には、同一とみなす語のスコアを合算して要約語を選択するため、入力文書において頻出する重要な語を要約語として選択することができる。   Subsequently, as shown in FIG. 9E, the summary word integration unit 124 compares the first sentence and the second sentence, adds up the scores of the word “Mr. Is set to “1.0”, and the score of the word “letter” is added together to set the total score to “2.1”. Thereby, the score of the word which appears frequently in an input document becomes high. Finally, the summary word selection unit 125 selects the word “letter” with the highest total score as the summary word of the input document “Mr. A handed the letter to Mr. B. Mr. B introduced the letter”. As described above, when there are a plurality of sentences in the input document, the summary word generation device 1 summarizes important words that frequently appear in the input document in order to select a summary word by adding the scores of words regarded as the same. Can be selected as a word.

図10は、本発明の第1の実施形態に係る要約語生成装置1が実行する要約語生成処理の一例を示すフローチャートである。
ステップS101において、入力部11に入力文書が入力される。
ステップS103において、形態素・構文解析部121が、解析用辞書に基づいて入力文書を解析する。
FIG. 10 is a flowchart showing an example of summary word generation processing executed by the summary word generation device 1 according to the first embodiment of the present invention.
In step S <b> 101, an input document is input to the input unit 11.
In step S103, the morpheme / syntax analyzer 121 analyzes the input document based on the analysis dictionary.

ステップS105において、基礎スコア付与部122が、基礎スコアルールテーブルに基づいて入力文書に含まれる各文要素にスコアを付与する。文要素は、各文節の語である。
ステップS107において、スコア更新部123が、入力文書に含まれる文に特定述語リストにある特定述語が使われているか否かを判定する。特定述語が使われている場合(ステップS107;YES)、要約語生成装置1はステップS109の処理に進む。一方、特定述語が使われていない場合(ステップS107;NO)、要約語生成装置1はステップS111の処理に進む。
In step S105, the basic score giving unit 122 gives a score to each sentence element included in the input document based on the basic score rule table. A sentence element is a word of each clause.
In step S107, the score update unit 123 determines whether a specific predicate in the specific predicate list is used in a sentence included in the input document. When the specific predicate is used (step S107; YES), the summary word generation device 1 proceeds to the process of step S109. On the other hand, when the specific predicate is not used (step S107; NO), the summary word generation device 1 proceeds to the process of step S111.

ステップS109において、スコア更新部123は、スコア更新ルールテーブルに基づいて、特定述語が使われている文の文要素のスコアを更新する。   In step S109, the score update unit 123 updates the score of the sentence element of the sentence in which the specific predicate is used, based on the score update rule table.

ステップS111において、要約語統合部124が、入力文書に複数の文がある場合に、各文を比較して同一とみなせる類似の語のスコアを合算する。
ステップS113において、要約語選択部125が、最もスコアの高い語を要約語として選択する。
ステップS115において、出力部14が、要約語を出力する。その後、処理を終了する。
In step S111, when there are a plurality of sentences in the input document, the summary word integration unit 124 compares the sentences and adds up the scores of similar words that can be regarded as the same.
In step S113, the summary word selection unit 125 selects the word with the highest score as the summary word.
In step S115, the output unit 14 outputs a summary word. Thereafter, the process ends.

このように、第1の実施形態に係る要約語生成装置1は、1又は複数の文からなる文章を取得する入力部11(取得部)と、文書に含まれる各語に、その格要素に応じて重み付けをする基礎スコア付与部122と、文における述語に応じて当該文に含まれる各語の重みを更新するスコア更新部123と、各語の重みに基づいて文書の要約語を選択する要約語選択部125と、選択した要約語を出力する出力部14と、を備える。   As described above, the summary word generation device 1 according to the first embodiment includes an input unit 11 (acquisition unit) that acquires a sentence including one or more sentences, and each word included in the document as a case element. In accordance with a predicate in the sentence, a score updating unit 123 that updates the weight of each word included in the sentence according to the predicate in the sentence, and a summary word of the document is selected based on the weight of each word. The summary word selection part 125 and the output part 14 which outputs the selected summary word are provided.

このような構成により、同じ助詞を含む文節の重みが述語によって変わる場合であっても、適切な要約語を抽出することができる。すなわち、文書からより適切な要約語を抽出することができる。   With such a configuration, it is possible to extract an appropriate summary word even when the weight of a clause including the same particle changes depending on the predicate. That is, a more appropriate summary word can be extracted from the document.

また、要約語生成装置1は、同一とみなす語の重みを合算する要約語統合部124と、を備える。このような構成により、文書において頻出する語の重みを重くすることができる。   The summary word generation device 1 also includes a summary word integration unit 124 that adds up the weights of words that are regarded as the same. With such a configuration, it is possible to increase the weight of frequently appearing words in a document.

また、基礎スコア付与部122は、文が能動態の場合には当該文の主語の重みを重くし、文が受動態の場合には当該文の目的語の重みを重くし、スコア更新部123は、特定の述語が文に含まれる場合に、当該文の主語の重みと目的語の重みとを逆転させる。より具体的には、特定の述語は、情報を提供する行為を意味する動詞であって、スコア更新部123は、特定の述語が文に含まれる場合に、当該文において提供される情報の重みを重くする。このような構成により、メディア等が情報を提供する文の場合には、提供される情報を要約語として抽出することができる。   The basic score assigning unit 122 increases the subject weight of the sentence when the sentence is active, increases the object weight of the sentence when the sentence is passive, and the score update unit 123 When a specific predicate is included in a sentence, the subject weight and object weight of the sentence are reversed. More specifically, the specific predicate is a verb meaning an act of providing information, and the score updating unit 123 weights the information provided in the sentence when the specific predicate is included in the sentence. Make it heavy. With such a configuration, in the case where the media or the like provides information, the provided information can be extracted as a summary word.

(第2の実施形態)
以下、図面を参照しながら本発明の第2の実施形態について説明する。
同じ述語を使う文であっても、その入力文書のカテゴリに応じて適切な要約語となる格要素が異なる場合がある。カテゴリは、文章が属するジャンル(例えば、芸能、スポーツ、政治等)を示す。例えば、カテゴリが「芸能」である文「〇〇さんが結婚を発表した。」では主語「〇〇さん」が要約語として適切であるのに対し、カテゴリが「政治」である文「〇〇首相が△△税減税を発表した。」では目的語「△△税減税」が要約語として適切である。そこで本実施形態では、入力文書のカテゴリに応じて特定述語が異なる点が第1の実施形態と異なる。
(Second Embodiment)
The second embodiment of the present invention will be described below with reference to the drawings.
Even in the case of sentences using the same predicate, case elements that are appropriate summary words may differ depending on the category of the input document. The category indicates the genre to which the sentence belongs (for example, performing arts, sports, politics, etc.). For example, in the sentence “Mr. OO announced marriage” whose category is “Entertainment”, the subject “Mr. OO” is appropriate as a summary word, whereas the sentence “〇 〇” whose category is “Politics” is suitable. In the "Prime Minister Announced Tax Reduction", the object "△△ Tax Reduction" is appropriate as a summary word. Therefore, this embodiment is different from the first embodiment in that the specific predicate differs according to the category of the input document.

図11は、本発明の第2の実施形態に係る要約語生成装置1Aの機能構成の一例を示す概略ブロック図である。要約語生成装置1Aは、1又は複数の文からなる入力文書から当該文書の要約語を生成して出力する情報処理装置である。要約語生成装置1Aは、例えば複数の端末装置が接続可能なサーバ装置であり、接続された端末装置に入力文書の要約語を出力する。或いは、要約語生成装置1Aは、携帯電話機やスマートフォンやタブレット端末やパーソナルコンピュータ等の各端末装置に組み込まれていてもよい。要約語生成装置1Aのハードウェア構成は、第1の実施形態と同様であるため、その説明を省略する。以下、第1の実施形態と同様の構成には同一の符号を付し、その説明を省略する。   FIG. 11 is a schematic block diagram showing an example of a functional configuration of the summary word generation device 1A according to the second exemplary embodiment of the present invention. The summary word generation device 1A is an information processing device that generates and outputs a summary word of a document from an input document including one or a plurality of sentences. The summary word generation device 1A is a server device to which a plurality of terminal devices can be connected, for example, and outputs summary words of the input document to the connected terminal devices. Alternatively, the summary word generation device 1A may be incorporated in each terminal device such as a mobile phone, a smartphone, a tablet terminal, or a personal computer. Since the hardware configuration of the summary word generation device 1A is the same as that of the first embodiment, the description thereof is omitted. Hereinafter, the same components as those in the first embodiment are denoted by the same reference numerals, and the description thereof is omitted.

要約語生成装置1Aは、入力部11Aと、制御部12Aと、記憶部13Aと、出力部14と、を含んで構成される。入力部11Aは、例えばキーボードやマイクやネットワークインタフェース等の、入力文書をそのカテゴリとともに入力するインタフェースである。入力部11Aは、入力された入力文書及びそのカテゴリを制御部12Aに出力する。   The summary word generation device 1 </ b> A includes an input unit 11 </ b> A, a control unit 12 </ b> A, a storage unit 13 </ b> A, and an output unit 14. The input unit 11A is an interface for inputting an input document together with its category, such as a keyboard, a microphone, and a network interface. The input unit 11A outputs the inputted input document and its category to the control unit 12A.

制御部12Aは、要約語生成装置1Aを統括して制御する。制御部12Aは、形態素・構文解析部121と、基礎スコア付与部122と、スコア更新部123Aと、要約語統合部124と、要約語選択部125と、を含んで構成される。   The control unit 12A controls the summary word generating device 1A. The control unit 12A includes a morpheme / syntactic analysis unit 121, a basic score assignment unit 122, a score update unit 123A, a summary word integration unit 124, and a summary word selection unit 125.

スコア更新部123Aは、入力文書に含まれる各文の述語に応じてそれぞれの文にある各文節の語の重みを、入力文書のカテゴリに応じて異なるルールで更新する。具体的には、スコア更新部123Aは、入力文書のカテゴリに応じた特定述語リストをカテゴリ別特定述語リスト記憶部133Aから読み出し、読みだした特定述語リストに含まれる特定述語が文の述語である場合に、スコア更新ルール記憶部134が記憶するスコア更新ルールテーブルに基づいて当該文の各文節の語のスコアを更新する。スコア更新部123Aは、更新したスコアと入力文書とを要約語統合部124に出力する。   The score update unit 123 </ b> A updates the word weight of each clause in each sentence according to the predicate of each sentence included in the input document with different rules according to the category of the input document. Specifically, the score updating unit 123A reads the specific predicate list corresponding to the category of the input document from the category specific predicate list storage unit 133A, and the specific predicate included in the read specific predicate list is a statement predicate. In this case, the score of the word of each clause of the sentence is updated based on the score update rule table stored in the score update rule storage unit 134. The score update unit 123A outputs the updated score and the input document to the summary word integration unit 124.

記憶部13Aは、解析用辞書記憶部131と、基礎スコアルール記憶部132と、カテゴリ別特定述語リスト記憶部133Aと、スコア更新ルール記憶部134とを備え、種々の情報を記憶する。カテゴリ別特定述語リスト記憶部133Aは、特定述語を示す特定述語リストをカテゴリ毎に記憶する。   The storage unit 13A includes an analysis dictionary storage unit 131, a basic score rule storage unit 132, a category specific predicate list storage unit 133A, and a score update rule storage unit 134, and stores various types of information. The category specific predicate list storage unit 133A stores a specific predicate list indicating a specific predicate for each category.

図12は、本発明の第2の実施形態に係るカテゴリ別特定述語リスト記憶部133Aが記憶するカテゴリ別特定述語リストテーブルのデータ構成及びデータ例を示す概略図である。
図示するように、カテゴリ別特定述語リストテーブルは、カテゴリと、特定述語リストとの各項目を有する。カテゴリは、文書のカテゴリである。特定述語リストは、特定述語のリストである。
図示する例では、カテゴリ「芸能」に対応する特定述語リストには、「報道する、掲載する、…」等の述語が含まれている。また、カテゴリ「スポーツ」に対応する特定述語リストには、「達成する、獲得する、…」等の述語が含まれている。また、カテゴリ「政治」に対応する特定述語リストには、「公表する、発表する、…」等の述語が含まれている。なお、各カテゴリの特定述語リストには、複数のカテゴリで同一の述語が含まれていてもよい。
FIG. 12 is a schematic diagram illustrating a data configuration and a data example of the category specific predicate list table stored in the category specific predicate list storage unit 133A according to the second embodiment of the present invention.
As shown in the drawing, the category specific predicate list table includes items of a category and a specific predicate list. The category is a document category. The specific predicate list is a list of specific predicates.
In the illustrated example, the specific predicate list corresponding to the category “entertainment” includes predicates such as “report, post, etc.”. The specific predicate list corresponding to the category “sports” includes predicates such as “achieve, acquire,...”. The specific predicate list corresponding to the category “politics” includes predicates such as “publish, announce,...”. The specific predicate list of each category may include the same predicate in a plurality of categories.

続いて、要約語生成装置1Aの動作について具体例を用いて詳細に説明する。図13及び図14は、本発明の第2の実施形態に係る要約語生成装置1Aがスコアを付与する処理を説明するための図である。   Next, the operation of the summary word generating device 1A will be described in detail using a specific example. FIG. 13 and FIG. 14 are diagrams for explaining processing in which the summary word generating device 1A according to the second embodiment of the present invention assigns a score.

図13に示す例では、入力文書は「〇〇さんが結婚を発表した。」であり、そのカテゴリは芸能である。まず、図13(A)に示すように、形態素・構文解析部121が、入力文書における「〇〇さんが」が「ガ格/固有名詞(人名)」であり、「結婚を」が「ヲ格/普通名詞」であり、「発表した」が「述語/サ変動詞/能動態」であることを解析する。   In the example shown in FIG. 13, the input document is “Mr. OO announced marriage”, and the category is entertainment. First, as shown in FIG. 13A, the morpheme / syntax analyzing unit 121 determines that “Mr. OO” in the input document is “ga case / proper noun (person name)” and “marriage” is “wo”. It is analyzed that it is “case / common noun” and “announced” is “predicate / sa variation / active”.

続いて、図13(B)に示すように、基礎スコア付与部122が基礎スコアルールテーブルに基づいて、ガ格の文節「〇〇さんが」の語「〇〇さん」に基礎スコア「1.0」を付与し、ヲ格の文節「結婚を」の語「結婚」に基礎スコア「0.8」を付与し、述語の文節「発表した」の語「発表」に基礎スコア「0.0」を付与する。   Subsequently, as shown in FIG. 13B, the basic score assigning unit 122 assigns the basic score “1. 0 is assigned, the basic score “0.8” is assigned to the word “marriage” of the sentence “marriage”, and the basic score “0.0” is assigned to the word “announcement” of the clause “announced” of the predicate. Is given.

続いて、スコア更新部123Aが、述語「発表した」が入力文書のカテゴリ「芸能」の特定述語リストにあるか否かを判定する。スコア更新部123Aは、述語「発表した」がカテゴリ「芸能」の特定述語リストにないため、全ての語のスコア更新を「0.0」とし、各語のスコアを更新しない。その結果、各語の合計スコアは基礎スコアのままである。よって、要約語選択部125は、合計スコアの最も高い語「〇〇さん」を入力文書「〇〇さんが結婚を発表した。」の要約語として選択する。   Subsequently, the score update unit 123A determines whether or not the predicate “announced” is in the specific predicate list of the category “entertainment” of the input document. Since the predicate “announced” is not in the specific predicate list of the category “entertainment”, the score update unit 123A sets the score update of all words to “0.0” and does not update the score of each word. As a result, the total score for each word remains the basic score. Therefore, the summary word selection unit 125 selects the word “Mr. OO” having the highest total score as a summary word of the input document “Mr. OO announced marriage”.

一方、図14に示す例では、入力文書は「〇〇首相が△△税減税を発表した。」であり、そのカテゴリは政治である。まず、図14(A)に示すように、形態素・構文解析部121が、入力文書における「〇〇首相が」が「ガ格/固有名詞(人名)」であり、「△△税減税を」が「ヲ格/普通名詞」であり、「発表した」が「述語/サ変動詞/能動態」であることを解析する。   On the other hand, in the example shown in FIG. 14, the input document is “0.00 Prime Minister has announced a △△ tax cut”, and the category is politics. First, as shown in FIG. 14 (A), the morpheme / syntax analyzing unit 121 determines that “0.00 Prime Minister” in the input document is “Ga ’s case / proprietary noun (person name)”, and “ Is “wo case / common noun” and “announced” is “predicate / sa-variable / active”.

続いて、図14(B)に示すように、基礎スコア付与部122が基礎スコアルールテーブルに基づいて、ガ格の文節「〇〇首相が」の語「〇〇首相」に基礎スコア「1.0」を付与し、ヲ格の文節「△△税減税を」の語「△△税減税」に基礎スコア「0.8」を付与し、述語の文節「発表した」の語「発表」に基礎スコア「0.0」を付与する。   Next, as shown in FIG. 14 (B), the basic score assigning unit 122 assigns the basic score “1. "0", a basic score of "0.8" is given to the word "△△ tax reduction" in the sentence "△△ tax reduction", and the word "announcement" of the predicate clause "announced" A basic score of “0.0” is given.

続いて、スコア更新部123Aが、述語「発表した」が入力文書のカテゴリ「政治」の特定述語リストにあるか否かを判定する。スコア更新部123Aは、述語「発表した」がカテゴリ「政治」の特定述語リストにあるため、スコア更新ルールテーブルに基づいて、「〇〇首相」の基礎スコア「1.0」にスコア更新「−0.5」加算して合計スコアを「0.5」に更新し、語「△△税減税」の基礎スコア「0.8」にスコア更新「+0.5」加算して合計スコアを「1.3」に更新し、語「発表」の基礎スコア「0.0」にスコア更新「0.0」加算して合計スコアを「0.0」に更新する。   Subsequently, the score updating unit 123A determines whether or not the predicate “announced” is in the specific predicate list of the category “politics” of the input document. Since the predicate “announced” is in the specific predicate list of the category “politics”, the score update unit 123A updates the score “−” to the basic score “1.0” of “00 prime” based on the score update rule table. 0.5 ”is added to update the total score to“ 0.5 ”, and the score“ +0.5 ”is added to the basic score“ 0.8 ”of the word“ △△ tax reduction ”to add the total score to“ 1 ” .3 ”, the score update“ 0.0 ”is added to the basic score“ 0.0 ”of the word“ announcement ”, and the total score is updated to“ 0.0 ”.

その結果、更新前は主語である「〇〇首相」が最も基礎スコアが高かったのに対し、更新後は目的語である「△△税減税」が最も合計スコアが高くなる。そのため、要約語選択部125は、合計スコアの最も高い語「△△税減税」を入力文書「〇〇首相が△△税減税を発表した。」の要約語として選択する。   As a result, the basic score “OO Prime Minister” was the highest before the update, whereas the target “△△ Tax Reduction” was the highest total score after the update. Therefore, the summary word selection unit 125 selects the word “ΔΔ tax reduction” having the highest total score as the summary word of the input document “0.00 Prime Minister has announced ΔΔ tax reduction”.

このように、要約語生成装置1Aは、入力文書のカテゴリに応じて異なる特定述語リストを用いているため、同じ述語「発表する」の文であっても、各入力文書に適した要約語を生成して出力することができる。   As described above, since the summary word generation device 1A uses different specific predicate lists depending on the category of the input document, even if the same predicate “present” is used, a summary word suitable for each input document is selected. Can be generated and output.

図15は、本発明の第2の実施形態に係る要約語生成装置1Aが実行する要約語生成処理の一例を示すフローチャートである。
ステップS201において、入力部11Aに入力文書及びそのカテゴリが入力される。
ステップS203〜ステップS205の処理は、第1の実施形態におけるステップS103〜ステップS105の処理と同様であるため、その説明を省略する。
FIG. 15 is a flowchart showing an example of summary word generation processing executed by the summary word generation device 1A according to the second embodiment of the present invention.
In step S201, the input document and its category are input to the input unit 11A.
Since the process of step S203-step S205 is the same as the process of step S103-step S105 in 1st Embodiment, the description is abbreviate | omitted.

ステップS207において、スコア更新部123Aが、入力文書に含まれる文に、入力文書のカテゴリに対応する特定述語リストにある特定述語が使われているか否かを判定する。特定述語が使われている場合(ステップS207;YES)、要約語生成装置1AはステップS209の処理に進む。一方、特定述語が使われていない場合(ステップS207;NO)、要約語生成装置1AはステップS211の処理に進む。   In step S207, the score update unit 123A determines whether or not a specific predicate in the specific predicate list corresponding to the category of the input document is used in a sentence included in the input document. When the specific predicate is used (step S207; YES), the summary word generation device 1A proceeds to the process of step S209. On the other hand, when the specific predicate is not used (step S207; NO), the summary word generation device 1A proceeds to the process of step S211.

ステップS209〜ステップS215の処理は、第1の実施形態におけるステップS109〜ステップS115の処理と同様であるため、その説明を省略する。   Since the process of step S209-step S215 is the same as the process of step S109-step S115 in 1st Embodiment, the description is abbreviate | omitted.

なお、本実施形態では、入力文書のカテゴリに応じて特定述語リストを異なるものにしているが、これに限らず、入力文書のカテゴリに応じて異なるスコア更新ルールでスコアを更新してもよい。   In this embodiment, the specific predicate list is made different depending on the category of the input document. However, the present invention is not limited to this, and the score may be updated using different score update rules depending on the category of the input document.

このように、第2の実施形態に係る要約語生成装置1Aは、1又は複数の文からなる文書を取得する入力部11(取得部)と、文章に含まれる各語に、その格要素に応じて重み付けをする基礎スコア付与部122と、文における述語に応じて当該文に含まれる各語の重みを更新するスコア更新部123Aと、各語の重みに基づいて文書の要約語を選択する要約語選択部125と、選択した要約語を出力する出力部14と、を備える。スコア更新部123Aは、文書のカテゴリに応じて異なるルールで重みを更新する。より具体的には、重みを更新する特定の述語が文書のカテゴリに応じて異なる。   As described above, the summary word generation device 1A according to the second embodiment includes an input unit 11 (acquisition unit) that acquires a document including one or a plurality of sentences, and each word included in the sentence as a case element. In accordance with the predicate in the sentence, the score updating unit 123A for updating the weight of each word included in the sentence according to the predicate in the sentence, and the summary word of the document are selected based on the weight of each word. The summary word selection part 125 and the output part 14 which outputs the selected summary word are provided. The score update unit 123A updates the weight with different rules according to the document category. More specifically, the specific predicate for updating the weight differs depending on the document category.

このような構成により、同じ助詞を含む文節の重みが述語によって変わる場合であっても、適切な要約語を抽出することができる。また、同じ述語を使う文であってもその文書のカテゴリに応じて重みを更新するため、文書に適した要約語を抽出することができる。すなわち、文書からより適切な要約語を抽出することができる。   With such a configuration, it is possible to extract an appropriate summary word even when the weight of a clause including the same particle changes depending on the predicate. Moreover, since the weight is updated according to the category of the document even if the sentence uses the same predicate, summary words suitable for the document can be extracted. That is, a more appropriate summary word can be extracted from the document.

以上、図面を参照してこの発明の実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。   The embodiments of the present invention have been described in detail above with reference to the drawings. However, the specific configuration is not limited to the above-described one, and various design changes and the like can be made without departing from the scope of the present invention. Is possible.

例えば、上述した実施形態では、要約語生成装置1,1Aは、文の述語が特定述語である場合に同一のスコア更新ルールでスコアを更新しているが、これに限らず、特定述語毎に異なるスコア更新ルールでスコアを更新してもよい。   For example, in the above-described embodiment, the summary word generation device 1 or 1A updates the score with the same score update rule when the sentence predicate is a specific predicate. You may update a score by a different score update rule.

また、上述した実施形態では、要約語生成装置1,1Aは、1つの語を要約語として出力しているが、これに限らず、スコアの高い順に所定の複数語出力してもよい。   In the above-described embodiment, the summary word generation devices 1 and 1A output one word as a summary word. However, the present invention is not limited to this, and a predetermined plurality of words may be output in descending order of score.

また、上述した実施形態では、入力文書が日本語である場合を例に示したが、これに限らず、他の言語であってもよい。   In the above-described embodiment, the case where the input document is in Japanese is shown as an example. However, the present invention is not limited to this, and another language may be used.

また、要約語生成装置1,1Aは、出力した要約語に対する評価の入力を受け付け、評価に基づいて機械学習によりスコア更新ルールを変更してもよい。   The summary word generation devices 1 and 1A may receive an input of evaluation for the output summary word and change the score update rule by machine learning based on the evaluation.

また、要約語生成装置1,1Aは、前にある文ほど重要であることが多いため、入力文書に複数の文がある場合には、前にある文のスコアが高くなるようにスコアを付与してもよい。   In addition, the summary word generation devices 1 and 1A are often more important as the previous sentence, so if there are multiple sentences in the input document, the score is given so that the score of the previous sentence is higher. May be.

また、上述した実施形態では、スコア更新ルールにおいて、能動態の場合にはガ格及び二格を減点し、ヲ格を加点しているが、これに限らず、その他にもデ格やニヨル格やカラ格等メディア名を含みそうな格要素を減点し、ト格やニツク格等メディアが伝える情報を含みそうな格要素を加点するものであればよい。同様に、スコア更新ルールにおいて、受動態の場合にはガ格を加点し、二格を減点しているが、これに限らず、その他にもデ格やニヨル格やカラ格等メディア名を含みそうな格要素を減点し、ト格やニツク格等メディアが伝える情報を含みそうな格要素を加点するものであればよい。   Further, in the above-described embodiment, in the score update rule, in the case of active, the ga rating and the second rating are deducted and the wo rating is added, but not limited to this, other de ratings, Any case element may be used as long as it deducts a case element that is likely to include a media name such as a color case and adds a case element that is likely to include information conveyed by the media such as a case rating or a nickel case. Similarly, in the score update rule, in the case of passive voice, ga rating is added and 2 rating is deducted, but not limited to this, media names such as de-rated, nyol and kara are also included. As long as the case elements that are likely to include information conveyed by the media, such as the case rating and the Nikku case, are added.

なお、上述した各実施形態や各変形例の1つまたは複数、上述した各実施形態や各変形例の一部または全部を組み合わせて本発明の一態様を実現するようにしてもよい。   Note that one or more of the above-described embodiments and modifications, and a part or all of the above-described embodiments and modifications may be combined to realize one aspect of the present invention.

なお、本発明の一態様における要約語生成装置1,1Aで動作するプログラムは、本発明の一態様に関わる上記の各実施形態や変形例で示した機能を実現するように、1つ、または複数の、CPU(Central Processing Unit)等のプロセッサを制御するプログラム(コンピュータを機能させるプログラム)であっても良い。そして、これらの各装置で取り扱われる情報は、その処理時に一時的にRAM(Random Access Memory)に蓄積され、その後、フラッシュメモリやHDD(Hard Disk Drive)等の各種ストレージに格納され、必要に応じてCPU等によって読み出し、修正・書き込みが行われても良い。   Note that one program that operates in the summary word generation devices 1 and 1A according to one aspect of the present invention is provided so as to realize the functions described in the above embodiments and modifications according to one aspect of the present invention, or A plurality of programs (programs that cause a computer to function) that control a processor such as a CPU (Central Processing Unit) may be used. Information handled by each of these devices is temporarily stored in a RAM (Random Access Memory) at the time of processing, and then stored in various storages such as a flash memory and an HDD (Hard Disk Drive). Then, it may be read out, corrected and written by a CPU or the like.

なお、上述した各実施形態や変形例における要約語生成装置1,1Aの一部又は全部を1つ、または複数のプロセッサを備えたコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータが読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。   Note that a part or all of the summary word generation devices 1 and 1A in the above-described embodiments and modifications may be realized by a computer including one or a plurality of processors. In that case, the program for realizing the control function may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read by the computer system and executed.

なお、ここでいう「コンピュータシステム」とは、要約語生成装置1,1Aに内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。   Here, the “computer system” is a computer system built in the summary word generation devices 1 and 1A and includes an OS and hardware such as peripheral devices. The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system.

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。   Further, the “computer-readable recording medium” is a medium that dynamically holds a program for a short time, such as a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line, In such a case, a volatile memory inside a computer system serving as a server or a client may be included and a program that holds a program for a certain period of time. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.

また、上述した各実施形態や変形例における要約語生成装置1,1Aの一部、又は全部を典型的には集積回路であるLSIとして実現してもよいし、チップセットとして実現してもよい。また、上述した各実施形態や変形例における要約語生成装置1、1Aの各機能ブロックは個別にチップ化してもよいし、一部、又は全部を集積してチップ化してもよい。また、集積回路化の手法は、LSIに限らず専用回路、および/または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いることも可能である。   In addition, a part or all of the summary word generation devices 1 and 1A in the above-described embodiments and modifications may be realized as an LSI that is typically an integrated circuit, or may be realized as a chip set. . In addition, each functional block of the summary word generation device 1 or 1A in each of the embodiments and modifications described above may be individually chipped, or a part or all of them may be integrated into a chip. Further, the method of circuit integration is not limited to LSI's, and implementation using dedicated circuitry and / or general purpose processors is also possible. In addition, when an integrated circuit technology that replaces LSI appears due to progress in semiconductor technology, an integrated circuit based on the technology can also be used.

以上、この発明の一態様として各実施形態や変形例に関して図面を参照して詳述してきたが、具体的な構成は各実施形態や変形例に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、本発明の一態様は、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。また、上記各実施形態や変形例に記載された要素であり、同様の効果を奏する要素同士を置換した構成も含まれる。   As described above, the embodiments and modifications as one aspect of the present invention have been described in detail with reference to the drawings. However, specific configurations are not limited to the embodiments and modifications, and depart from the gist of the present invention. This includes design changes that do not occur. In addition, one aspect of the present invention can be modified in various ways within the scope of the claims, and the technical aspects of the present invention also relate to embodiments obtained by appropriately combining technical means disclosed in different embodiments. Included in the range. Moreover, it is the element described in said each embodiment and modification, and the structure which substituted the element which has the same effect is also contained.

1,1A 要約語生成装置
11,11A 入力部
12,12A 制御部
121 形態素・構文解析部
122 基礎スコア付与部
123,123A スコア更新部
124 要約語統合部
125 要約語選択部
13,13A 記憶部
131 解析用辞書記憶部
132 基礎スコアルール記憶部
133 特定述語リスト記憶部
133A カテゴリ別特定述語リスト記憶部
134 スコア更新ルール記憶部
14 出力部
101 CPU
102 記憶媒体インタフェース部
103 記憶媒体
104 入力装置
105 出力装置
106 ROM
107 RAM
108 補助記憶部
109 ネットワークインタフェース部
1, 1A summary word generation device 11, 11A input unit 12, 12A control unit 121 morpheme / syntax analysis unit 122 basic score assignment unit 123, 123A score update unit 124 summary word integration unit 125 summary word selection unit 13, 13A storage unit 131 Analysis dictionary storage unit 132 Basic score rule storage unit 133 Specific predicate list storage unit 133A Category specific predicate list storage unit 134 Score update rule storage unit 14 Output unit 101 CPU
102 Storage medium interface unit 103 Storage medium 104 Input device 105 Output device 106 ROM
107 RAM
108 Auxiliary storage unit 109 Network interface unit

Claims (9)

1又は複数の文からなる文書を取得する取得部と、
前記文書に含まれる各語に、その格要素に応じて重み付けをする基礎スコア付与部と、
前記文における述語に応じて当該文に含まれる各語の重みを更新するスコア更新部と、
各語の重みに基づいて前記文書の要約語を選択する要約語選択部と、
選択した要約語を出力する出力部と、
を備える情報処理装置。
An acquisition unit for acquiring a document composed of one or more sentences;
A basic score giving unit that weights each word included in the document according to its case element;
A score updating unit that updates the weight of each word included in the sentence according to the predicate in the sentence;
A summary word selector for selecting summary words of the document based on the weight of each word;
An output unit for outputting the selected summary word;
An information processing apparatus comprising:
同一とみなす語の重みを合算する要約語統合部と、
を備える請求項1に記載の情報処理装置。
A summary word integration unit that adds together the weights of words that are considered identical;
The information processing apparatus according to claim 1.
前記スコア更新部は、前記文書のカテゴリに応じて異なるルールで重みを更新する、
請求項1または請求項2に記載の情報処理装置。
The score update unit updates weights according to different rules according to the category of the document.
The information processing apparatus according to claim 1 or 2.
前記基礎スコア付与部は、前記文が能動態の場合には当該文の主語の重みを重くし、前記文が受動態の場合には当該文の目的語の重みを重くする、
請求項1から請求項3いずれか1項に記載の情報処理装置。
The basic score assigning unit increases the weight of the subject of the sentence when the sentence is active, and increases the weight of the object of the sentence when the sentence is passive.
The information processing apparatus according to any one of claims 1 to 3.
前記スコア更新部は、特定の述語が文に含まれる場合に、当該文の主語の重みと目的語の重みとを逆転させる、
請求項4に記載の情報処理装置。
The score update unit, when a specific predicate is included in a sentence, reverses the subject weight and object weight of the sentence,
The information processing apparatus according to claim 4.
前記特定の述語は、情報を提供する行為を意味する動詞であって、
前記スコア更新部は、前記特定の述語が文に含まれる場合に、当該文において提供される情報の重みを重くする、
請求項5に記載の情報処理装置。
The specific predicate is a verb meaning an act of providing information,
The score update unit increases the weight of information provided in the sentence when the specific predicate is included in the sentence.
The information processing apparatus according to claim 5.
前記特定の述語は、前記文書のカテゴリに応じて異なる
請求項5または請求項6に記載の情報処理装置。
The information processing apparatus according to claim 5, wherein the specific predicate differs according to a category of the document.
取得部が、1又は複数の文からなる文書を取得する過程と、
基礎スコア付与部が、前記文書に含まれる各語に、その格要素に応じて重み付けをする過程と、
スコア更新部が、前記文における述語に応じて当該文に含まれる各語の重みを更新する過程と、
要約語選択部が、各語の重みに基づいて前記文書の要約語を選択する過程と、
出力部が、選択した要約語を出力する過程と、
を有する情報処理方法。
A process in which the acquisition unit acquires a document including one or more sentences;
A process in which the basic score assigning unit weights each word included in the document according to the case element;
A process in which the score updating unit updates the weight of each word included in the sentence according to the predicate in the sentence;
A summary word selection unit selecting a summary word of the document based on the weight of each word;
A process in which the output unit outputs the selected summary word;
An information processing method comprising:
コンピュータが、
1又は複数の文からなる文書を取得するステップと、
前記文書に含まれる各語に、その格要素に応じて重み付けをするステップと、
前記文における述語に応じて当該文に含まれる各語の重みを更新するステップと、
各語の重みに基づいて前記文書の要約語を選択するステップと、
選択した要約語を出力するステップと、
を実行するためのプログラム。
Computer
Obtaining a document comprising one or more sentences;
Weighting each word contained in the document according to its case element;
Updating the weight of each word included in the sentence according to the predicate in the sentence;
Selecting summary words of the document based on the weight of each word;
Outputting the selected summary word;
A program for running.
JP2018100943A 2018-05-25 2018-05-25 Information processing equipment, information processing methods, and programs Active JP7091146B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018100943A JP7091146B2 (en) 2018-05-25 2018-05-25 Information processing equipment, information processing methods, and programs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018100943A JP7091146B2 (en) 2018-05-25 2018-05-25 Information processing equipment, information processing methods, and programs

Publications (2)

Publication Number Publication Date
JP2019204445A true JP2019204445A (en) 2019-11-28
JP7091146B2 JP7091146B2 (en) 2022-06-27

Family

ID=68727097

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018100943A Active JP7091146B2 (en) 2018-05-25 2018-05-25 Information processing equipment, information processing methods, and programs

Country Status (1)

Country Link
JP (1) JP7091146B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139047A (en) * 2020-01-20 2021-07-20 夏普株式会社 Digest generation device, digest generation method, and recording medium
CN113672722A (en) * 2021-08-20 2021-11-19 中国平安财产保险股份有限公司 Online course intelligent recommendation method and device, electronic equipment and storage medium
JP7474295B2 (en) 2022-09-01 2024-04-24 三菱電機インフォメーションシステムズ株式会社 Information processing system, information processing method, and program
JP7474296B2 (en) 2022-09-01 2024-04-24 三菱電機インフォメーションシステムズ株式会社 Information processing system, information processing method, and program

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03135669A (en) * 1989-06-29 1991-06-10 Tokyo Electric Power Co Inc:The Automatic key word extracting system
JPH0844763A (en) * 1994-08-02 1996-02-16 Ricoh Co Ltd Automatic key word extracting device
JP2001052032A (en) * 1999-05-28 2001-02-23 Nippon Telegr & Teleph Corp <Ntt> Method and device for preparing summary sentence and storage medium storing summary sentence preparation program
JP2010092357A (en) * 2008-10-09 2010-04-22 Intec Systems Institute Inc Facility-related information retrieval method and facility-related information retrieval system
JP2018049478A (en) * 2016-09-21 2018-03-29 日本電信電話株式会社 Text analysis method, text analyzer, and program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03135669A (en) * 1989-06-29 1991-06-10 Tokyo Electric Power Co Inc:The Automatic key word extracting system
JPH0844763A (en) * 1994-08-02 1996-02-16 Ricoh Co Ltd Automatic key word extracting device
JP2001052032A (en) * 1999-05-28 2001-02-23 Nippon Telegr & Teleph Corp <Ntt> Method and device for preparing summary sentence and storage medium storing summary sentence preparation program
JP2010092357A (en) * 2008-10-09 2010-04-22 Intec Systems Institute Inc Facility-related information retrieval method and facility-related information retrieval system
JP2018049478A (en) * 2016-09-21 2018-03-29 日本電信電話株式会社 Text analysis method, text analyzer, and program

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139047A (en) * 2020-01-20 2021-07-20 夏普株式会社 Digest generation device, digest generation method, and recording medium
JP2021114184A (en) * 2020-01-20 2021-08-05 シャープ株式会社 Summary generation device, summary generation method and program
CN113672722A (en) * 2021-08-20 2021-11-19 中国平安财产保险股份有限公司 Online course intelligent recommendation method and device, electronic equipment and storage medium
CN113672722B (en) * 2021-08-20 2023-08-22 中国平安财产保险股份有限公司 Online course intelligent recommendation method and device, electronic equipment and storage medium
JP7474295B2 (en) 2022-09-01 2024-04-24 三菱電機インフォメーションシステムズ株式会社 Information processing system, information processing method, and program
JP7474296B2 (en) 2022-09-01 2024-04-24 三菱電機インフォメーションシステムズ株式会社 Information processing system, information processing method, and program

Also Published As

Publication number Publication date
JP7091146B2 (en) 2022-06-27

Similar Documents

Publication Publication Date Title
US8612206B2 (en) Transliterating semitic languages including diacritics
JP2019204445A (en) Information processing apparatus, information processing method, and program
JP5620349B2 (en) Dialogue device, dialogue method and dialogue program
JP5379138B2 (en) Creating an area dictionary
JP5090547B2 (en) Transliteration processing device, transliteration processing program, computer-readable recording medium recording transliteration processing program, and transliteration processing method
KR101235501B1 (en) System for generating and selecting names
JP2022047291A (en) Information processing apparatus, method, and program
JP6373243B2 (en) Information processing apparatus, information processing method, and information processing program
JP2015219582A (en) Interactive method, interaction device, interactive program, and recording medium
EP2915067A1 (en) Text analysis
JP2012185654A (en) Translation apparatus, translation program, and translation method
Keh et al. Pancetta: Phoneme aware neural completion to elicit tongue twisters automatically
JP2021193608A (en) Utterance generation device, utterance generation method, and computer program
JP6858721B2 (en) Dialogue controls, programs and methods capable of conducting content dialogue
Chaonithi et al. A hybrid approach for Thai word segmentation with crowdsourcing feedback system
CN111125302A (en) Error detection method and device for user input statement and electronic equipment
WO2012124213A1 (en) Summary creation device, summary creation method, and computer-readable recording medium
JP6996190B2 (en) Compound word generator, program and compound word generation method
Willis et al. A probabilistic flexible abbreviation expansion system for users with motor disabilities
JP2008032953A (en) Language acquisition supporting device and program for the same
Bac et al. Improving Vietnamese Question-Answering system with Data Augmentation and Optimization
Monsen et al. Controllable Sentence Simplification in Swedish Using Control Prefixes and Mined Paraphrases
WO2022107234A1 (en) Summary generation method, summary generation device, and program
CN111125303A (en) Method and device for screening error correction of user input sentences
JP2015225414A (en) Interactive device, dictionary generation device, method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220615

R150 Certificate of patent or registration of utility model

Ref document number: 7091146

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150