JP2019204445A - Information processing apparatus, information processing method, and program - Google Patents
Information processing apparatus, information processing method, and program Download PDFInfo
- Publication number
- JP2019204445A JP2019204445A JP2018100943A JP2018100943A JP2019204445A JP 2019204445 A JP2019204445 A JP 2019204445A JP 2018100943 A JP2018100943 A JP 2018100943A JP 2018100943 A JP2018100943 A JP 2018100943A JP 2019204445 A JP2019204445 A JP 2019204445A
- Authority
- JP
- Japan
- Prior art keywords
- word
- sentence
- score
- unit
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、情報処理装置、情報処理方法、およびプログラムに関する。 The present invention relates to an information processing apparatus, an information processing method, and a program.
特許文献1には、文書中の種々の情報、特に、構文解析結果レベルの情報を統一的な枠組の下に利用してキーワード(要約語)を抽出する技術が記載されている。
ここで、文において、主語が重要であるか目的語が重要であるかは、文によって異なる。例えば、「〇〇テレビが視聴率三冠を獲得した。」という文では、主語である「〇〇テレビ」が重要な要約語である。それに対し、「〇〇テレビが△△さんの当選を報道した」という文では、主語である「〇〇テレビ」は重要な要約語とは言えない。このように、同じ助詞を含む文節であっても文によってその文節の重要度が異なる。
しかしながら、特許文献1に記載の技術では、文節の助詞に基づいてその文節に含まれる語の重みを決定しているが、主語が重要であるか目的語が重要であるかはその文によって異なる。そのため、特許文献1に記載の技術では、文によっては適切な要約語を抽出することができないことがあるという課題がある。
Here, in a sentence, whether a subject is important or an object is important differs depending on the sentence. For example, in the sentence “00 television has won three ratings”, the subject “00 television” is an important summary word. On the other hand, in the sentence “OO TV reported about the election of Mr. △△”, the subject “OO TV” is not an important summary word. In this way, even if the phrase includes the same particle, the importance of the phrase differs depending on the sentence.
However, in the technique described in
本発明は、上記の点に鑑みてなされたものであり、文からより適切な要約語を抽出することができる情報処理装置、情報処理方法、およびプログラムを提供することを課題とする。 The present invention has been made in view of the above points, and an object thereof is to provide an information processing apparatus, an information processing method, and a program that can extract a more appropriate summary word from a sentence.
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、1又は複数の文からなる文書を取得する取得部と、前記文章に含まれる各語に、その格要素に応じて重み付けをする基礎スコア付与部と、前記文における述語に応じて当該文に含まれる各語の重みを更新するスコア更新部と、各語の重みに基づいて前記文書の要約語を選択する要約語選択部と、選択した要約語を出力する出力部と、を備える情報処理装置である。 (1) The present invention has been made to solve the above problems, and one aspect of the present invention is an acquisition unit that acquires a document composed of one or more sentences, and each word included in the sentence. , A basic score giving unit for weighting according to the case element, a score updating unit for updating the weight of each word included in the sentence according to the predicate in the sentence, and the document based on the weight of each word An information processing apparatus includes: a summary word selection unit that selects a summary word; and an output unit that outputs the selected summary word.
(2)また、本発明の一態様は、(1)に記載の情報処理装置であって、同一とみなす語の重みを合算する要約語統合部と、を備える。 (2) Moreover, one aspect of the present invention is the information processing apparatus according to (1), including a summary word integration unit that adds together the weights of words that are regarded as the same.
(3)また、本発明の一態様は、(1)または(2)に記載の情報処理装置であって、前記スコア更新部は、前記文書のカテゴリに応じて異なるルールで重みを更新する。 (3) One embodiment of the present invention is the information processing apparatus according to (1) or (2), in which the score update unit updates weights according to different rules according to the category of the document.
(4)また、本発明の一態様は、(1)から(3)いずれかに記載の情報処理装置であって、前記基礎スコア付与部は、前記文が能動態の場合には当該文の主語の重みを重くし、前記文が受動態の場合には当該文の目的語の重みを重くする。 (4) Moreover, one aspect of the present invention is the information processing apparatus according to any one of (1) to (3), in which the basic score giving unit is a subject of the sentence when the sentence is active If the sentence is passive, the object weight of the sentence is increased.
(5)また、本発明の一態様は、(4)に記載の情報処理装置であって、前記スコア更新部は、特定の述語が文に含まれる場合に、当該文の主語の重みと目的語の重みとを逆転させる。 (5) Moreover, one aspect of the present invention is the information processing apparatus according to (4), in which the score update unit, when a specific predicate is included in a sentence, the weight and purpose of the subject of the sentence Reverse the weight of the word.
(6)また、本発明の一態様は、(5)に記載の情報処理装置であって、前記特定の述語は、情報を提供する行為を意味する動詞であって、前記スコア更新部は、前記特定の述語が文に含まれる場合に、当該文において提供される情報の重みを重くする。 (6) Moreover, 1 aspect of this invention is an information processing apparatus as described in (5), Comprising: The said specific predicate is a verb meaning the act which provides information, Comprising: The said score update part, When the specific predicate is included in a sentence, the weight of information provided in the sentence is increased.
(7)また、本発明の一態様は、(6)に記載の情報処理装置であって、前記特定の述語は、前記文書のカテゴリに応じて異なる。 (7) One aspect of the present invention is the information processing apparatus according to (6), in which the specific predicate differs according to a category of the document.
(8)また、本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、取得部が、1又は複数の文からなる文書を取得する過程と、基礎スコア付与部が、前記文書に含まれる各語に、その格要素に応じて重み付けをする過程と、スコア更新部が、前記文における述語に応じて当該文に含まれる各語の重みを更新する過程と、要約語選択部が、各語の重みに基づいて前記文書の要約語を選択する過程と、出力部が、選択した要約語を出力する過程と、を有する情報処理方法である。 (8) In addition, the present invention has been made to solve the above-described problems, and one aspect of the present invention is a process in which an acquisition unit acquires a document composed of one or more sentences and grants a basic score. A process of weighting each word included in the document according to a case element, and a process of updating a weight of each word included in the sentence according to a predicate in the sentence The information processing method includes: a summary word selection unit selecting a summary word of the document based on the weight of each word; and an output unit outputting a selected summary word.
(9)また、本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、コンピュータが、1又は複数の文からなる文書を取得するステップと、前記文章に含まれる各語に、その格要素に応じて重み付けをするステップと、前記文における述語に応じて当該文に含まれる各語の重みを更新するステップと、各語の重みに基づいて前記文書の要約語を選択するステップと、選択した要約語を出力するステップと、を実行するためのプログラムである。 (9) Further, the present invention has been made to solve the above problems, and one aspect of the present invention includes a step in which a computer acquires a document composed of one or more sentences, and the sentence includes Weighting each word according to its case element, updating the weight of each word included in the sentence according to the predicate in the sentence, and summarizing the document based on the weight of each word A program for executing a step of selecting a word and a step of outputting a selected summary word.
本発明によれば、文書からより適切な要約語を抽出することができる。 According to the present invention, a more appropriate summary word can be extracted from a document.
(第1の実施形態)
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本発明の第1の実施形態に係る要約語生成装置1の機能構成の一例を示す概略ブロック図である。
要約語生成装置1は、1又は複数の文からなる入力文書から当該入力文書の要約語を生成して出力する情報処理装置である。入力文書は、例えばインターネット等で公開されるニュースの文章等である。要約語は、例えばキーワード等の入力文書における重要な語であり、入力文書を要約する語である。すなわち、要約語生成装置1は、入力された1又は複数の文からなる文書から、文章の主題を一言で表す要約語を生成する。これにより、例えばニュース記事から「〇〇に関するニュースです。」といったメッセージを生成することができる。なお、要約語は、1つの単語でもよいし、複数の単語であってもよいし、複数の単語の組み合わせとであってもよい。
(First embodiment)
Hereinafter, a first embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a schematic block diagram showing an example of a functional configuration of a summary
The summary
要約語生成装置1は、例えば、複数の端末装置が接続可能なサーバ装置であり、接続された端末装置に対し入力文書の要約語を出力する。あるいは、要約語生成装置1は、携帯電話機やスマートフォンやタブレット端末やパーソナルコンピュータ等の各端末装置に組み込まれていてもよい。端末装置は、例えばインターネットで公開されているニュースを紹介する際等の場合に、要約語生成装置1から取得した当該ニュースの要約語「〇〇」を用いて、「〇〇に関するニュースです。」等の案内をすることができる。
The summary
要約語生成装置1は、入力部11と、制御部12と、記憶部13と、出力部14と、を含んで構成される。
入力部11は、例えば、キーボードやマイクやネットワークインタフェース等の、入力文書を入力するインタフェースである。入力部11は、入力された入力文書を制御部12に出力する。なお、入力部11は、ネットワークまたは他の装置から入力文章を取得してもよい。
The summary
The
制御部12は、要約語生成装置1を統括して制御する。制御部12は、形態素・構文解析部121と、基礎スコア付与部122と、スコア更新部123と、要約語統合部124と、要約語選択部125と、を含んで構成される。
The
形態素・構文解析部121は、解析用辞書記憶部131が記憶する解析用辞書に基づいて入力文書における各文の形態素及び構文を解析し、各文にある各文節の品詞や係り受けの情報を入力文書に付与して基礎スコア付与部122に出力する。
基礎スコア付与部122は、入力文書に含まれる各文節の語に、その格要素に応じて重み(以下「スコア」とも称する。)付けをする。文節の語は、例えば格要素から格助詞を除去した語句である。具体的には、基礎スコア付与部122は、基礎スコアルール記憶部132が記憶する基礎スコアルールテーブルに基づいて各文節の語にスコアを付与する。例えば、基礎スコア付与部122は、文が能動態の場合にはその文の主語の重みを重くし、文が受動態の場合にはその文の目的語の重みを重くしてもよい。基礎スコア付与部122は、各語に付与したスコアと入力文書とをスコア更新部123に出力する。
The morpheme /
The basic
スコア更新部123は、入力文書に含まれる各文の述語に応じてそれぞれの文にある各文節の語の重みを更新する。具体的には、スコア更新部123は、特定述語リスト記憶部133が記憶する特定述語リストにある特定述語が文の述語である場合に、スコア更新ルール記憶部134が記憶するスコア更新ルールテーブルに基づいて当該文の各文節の語のスコアを更新する。特定述語は、例えば、情報を提供する行為を意味する動詞である。なお、特定述語は、情報を提供する行為を意味する動詞に限られず、他の動詞であってもよい。スコア更新部123は、特定述語が文に含まれる場合に、当該文の主語の重みと目的語の重みとを逆転させる。すなわち、スコア更新部123は、特定述語が文に含まれる場合には、当該文において提供される情報の重みを重くする。換言すれば、スコア更新部123は、特定述語が文に含まれる場合には、当該文において提供される情報の重みづけを更新する。スコア更新部123は、更新したスコアと入力文書とを要約語統合部124に出力する。
The
要約語統合部124は、入力文書に複数の文がある場合に、各文を比較して同一とみなせる類似の語ごとのスコアを合算し、合算したスコアと入力文書とを要約語選択部125に出力する。
要約語選択部125は、各語のスコアに基づいて入力文書の要約語を選択し、選択した要約語を出力部14に出力する。具体的には、要約語選択部125は、全ての単語をスコアの降順にソートし、最もスコアの高い語を要約語として選択する。なお、要約語選択部125は、最もスコアの高い語が複数ある場合に、その中から基礎スコア付与部122が最初に付与した基礎スコアが最も高いものを選んでもよいし、入力文書において最初にある語を選んでもよいし、ランダムに選んでもよい。
When there are a plurality of sentences in the input document, the summary
The summary
記憶部13は、解析用辞書記憶部131と、基礎スコアルール記憶部132と、特定述語リスト記憶部133と、スコア更新ルール記憶部134とを備え、種々の情報を記憶する。
The
解析用辞書記憶部131は、文書の形態素及び構文を解析するための解析用辞書を記憶する。
基礎スコアルール記憶部132は、スコアを付与する際の基礎スコアルールを示す基礎スコアルールテーブルを記憶する。
The analysis
The basic score
特定述語リスト記憶部133は、特定述語を示す特定述語リストを記憶する。
スコア更新ルール記憶部134は、スコアを更新する際のスコア更新ルールを示すスコア更新ルールテーブルを記憶する。
The specific predicate
The score update
出力部14は、例えばディスプレイやスピーカやネットワークインタフェース等の、要約語を出力するインタフェースである。出力部14は、要約語選択部125から入力された要約語を出力する。
The
図2は、本発明の第1の実施形態に係る基礎スコアルール記憶部132が記憶する基礎スコアルールテーブルのデータ構成及びデータ例を示す概略図である。
図示するように、基礎スコアルールテーブルは、文の態と、文節の格と、スコアとの各項目を有する。文の態は、文が能動態であるか受動態であるかを示す。文節の格は、文節の格助詞を示す。スコアは、文節の語に付す重みを示す。
FIG. 2 is a schematic diagram illustrating a data configuration and a data example of a basic score rule table stored in the basic score
As shown in the figure, the basic score rule table includes items of sentence state, phrase case, and score. The sentence state indicates whether the sentence is active or passive. The phrase case indicates the phrase case particle. The score indicates the weight attached to the phrase word.
図示する例では、文の態「能動態」と文節の格「ガ格」とに対応するスコアは「1.0」である。また、文の態「能動態」と文節の格「ヲ格」とに対応するスコアは「0.8」である。また、文の態「能動態」と文節の格「二格」とに対応するスコアは「0.5」である。また、文の態「能動態」と文節の格「述語」とに対応するスコアは「0.0」である。また、文の態「受動態」と文節の格「ガ格」とに対応するスコアは「0.8」である。また、文の態「受動態」と文節の格「二格」とに対応するスコアは「1.0」である。 In the illustrated example, the score corresponding to the sentence state “active” and the phrase case “ga” is “1.0”. The score corresponding to the sentence state “active” and the phrase case “wo” is “0.8”. The score corresponding to the sentence state “active” and the phrase case “second case” is “0.5”. The score corresponding to the sentence state “active” and the phrase case “predicate” is “0.0”. The score corresponding to the sentence state “passive” and the phrase case “ga” is “0.8”. The score corresponding to the sentence state “passive” and the phrase case “second case” is “1.0”.
図3は、本発明の第1の実施形態に係る特定述語リスト記憶部133が記憶する特定述語リストテーブルのデータ構成及びデータ例を示す概略図である。
図示するように、特定述語リストテーブルは、カテゴリと、特定述語リストとの各項目を有する。カテゴリは、文書のカテゴリである。特定述語リストは、特定述語のリストである。特定述語は、例えば新聞やテレビやインターネット等のメディアが情報提供する行為を意味する動詞である。図示する例では、カテゴリ「全て」に対応する特定述語リストには「掲載する、紹介する、報道する、…」等の述語が含まれている。
FIG. 3 is a schematic diagram illustrating a data configuration and a data example of the specific predicate list table stored in the specific predicate
As shown in the figure, the specific predicate list table has items of a category and a specific predicate list. The category is a document category. The specific predicate list is a list of specific predicates. The specific predicate is a verb meaning an act of providing information by a media such as a newspaper, a television, or the Internet. In the illustrated example, the specific predicate list corresponding to the category “all” includes predicates such as “publish, introduce, report,...”.
図4は、本発明の第1の実施形態に係るスコア更新ルール記憶部134が記憶するスコア更新ルールテーブルのデータ構成及びデータ例を示す概略図である。
図示するように、スコア更新ルールテーブルは、文の態と、文節の格と、スコアとの各項目を有する。文の態は、文が能動態であるか受動態であるかを示す。文節の格は、文節の格助詞を示す。スコアは、スコアの変化値を示し、「+」は加点を示し、「−」は減点を示す。
FIG. 4 is a schematic diagram illustrating a data configuration and a data example of the score update rule table stored in the score update
As shown in the figure, the score update rule table has items of sentence state, phrase case, and score. The sentence state indicates whether the sentence is active or passive. The phrase case indicates the phrase case particle. The score indicates a change value of the score, “+” indicates an added point, and “−” indicates a deducted point.
図示する例では、文の態「能動態」と文節の格「ガ格」とに対応するスコアは「−0.5」である。また、文の態「能動態」と文節の格「ヲ格」とに対応するスコアは「+0.5」である。また、文の態「能動態」と文節の格「二格」とに対応するスコアは「−0.5」である。また、文の態「能動態」と文節の格「述語」とに対応するスコアは「0.0」である。また、文の態「受動態」と文節の格「ガ格」とに対応するスコアは「+0.5」である。また、文の態「受動態」と文節の格「二格」とに対応するスコアは「−0.5」である。 In the illustrated example, the score corresponding to the sentence state “active” and the phrase case “ga” is “−0.5”. The score corresponding to the sentence state “active” and the phrase case “wo” is “+0.5”. The score corresponding to the sentence state “active” and the phrase case “second case” is “−0.5”. The score corresponding to the sentence state “active” and the phrase case “predicate” is “0.0”. The score corresponding to the sentence state “passive” and the phrase case “ga” is “+0.5”. The score corresponding to the sentence state “passive” and the phrase case “second case” is “−0.5”.
すなわち、図示する例のスコア更新ルールでは、文の述語が特定述語である場合には、メディア名を含むと想定される格要素(能動態の場合にはガ格、受動態の場合には二格)を減点し、メディアが伝える情報を含むと想定される格要素(能動態の場合にはヲ格、受動態の場合にはガ格)を加点する。 That is, in the score update rule of the example shown in the figure, when the predicate of the sentence is a specific predicate, the case element that is assumed to include the media name (ga case for active and two cases for passive) Is deducted, and a case element (wo case for active and ga case for passive) that is assumed to contain information conveyed by the media is added.
図5は、本発明の第1の実施形態に係る要約語生成装置1のハードウェア構成の一例を示す概略ブロック図である。
要約語生成装置1は、CPU101と、記憶媒体インタフェース部102と、記憶媒体103と、入力装置104と、出力装置105と、ROM106(Read Only Memory)と、RAM107(Random Access Memory)と、補助記憶部108と、ネットワークインタフェース部109と、を備える。CPU101と、記憶媒体インタフェース部102と、入力装置104と、出力装置105と、ROM106と、RAM107と、補助記憶部108と、ネットワークインタフェース部109とは、バスを介して相互に接続される。
なお、ここで言うCPU101は、プロセッサ一般のことを示すものであって、狭義のいわゆるCPUと呼ばれるデバイスのことだけではなく、例えばGPUやDSP等も含む。また、ここで言うCPU101は、一つのプロセッサで実現されることに限られず、同じ、または異なる種類の複数のプロセッサを組み合わせることで実現されてもよい。
FIG. 5 is a schematic block diagram illustrating an example of a hardware configuration of the summary
The summary
The
CPU101は、補助記憶部108、ROM106およびRAM107が記憶するプログラムを読み出して実行し、また、補助記憶部108、ROM106およびRAM107が記憶する各種データを読み出し、補助記憶部108、RAM107に対して各種データを書き込むことにより、要約語生成装置1を制御する。また、CPU101は、記憶媒体インタフェース部102を介して記憶媒体103が記憶する各種データを読み出し、また、記憶媒体103に各種データを書き込む。記憶媒体103は、光磁気ディスク、フレキシブルディスク、フラッシュメモリなどの可搬記憶媒体であり、各種データを記憶する。
記憶媒体インタフェース部102は、記憶媒体103の読み書きを行うインタフェースである。
The
The storage
入力装置104は、マウス、キーボード、タッチパネル、音量調整ボタン、電源ボタン、設定ボタン、赤外線受信部などの入力装置である。
出力装置105は、表示部、スピーカなどの出力装置である。
ROM106、RAM107は、要約語生成装置1の各機能部を動作させるためのプログラムや各種データを記憶する。
補助記憶部108は、ハードディスクドライブ、フラッシュメモリなどであり、要約語生成装置1の各機能部を動作させるためのプログラム、各種データを記憶する。
ネットワークインタフェース部109は、通信インタフェースを有し、無線通信によりネットワークNWに接続される。
The
The
The
The
The
例えば、要約語生成装置1の機能構成における制御部12は、CPU101に対応し、記憶部13は、ROM106、またはRAM107、または補助記憶部108、またはそれらの何れかの組み合わせに対応し、入力部11は、入力装置104またはネットワークインタフェース部109に対応し、出力部14は、出力装置105またはネットワークインタフェース部109に対応する。
For example, the
続いて、要約語生成装置1の動作について具体例を用いて詳細に説明する。まず、形態素・構文解析部121が入力文書に含まれる各文の形態素及び構文を解析する。
Next, the operation of the summary
図6は、本発明の第1の実施形態に係る要約語生成装置1が文の形態素及び構文を解析する処理を説明するための図である。図示する例では、入力文は「〇〇テレビが△△さんの当選を報道した。」である。まず、形態素・構文解析部121は、入力文を文節「〇〇テレビが」、「△△さんの」、「当選を」及び「報道した」に分割する。そして、形態素・構文解析部121は、各文節を格要素「〇〇テレビが」、「△△さんの」、「当選を」と述語「報道した」とに分類する。形態素・構文解析部121は、格要素に対して単語の種別(固有名詞・サ変動詞等)及び文節の格に関する情報を付与し、述語に対して単語の種別及び文の態に関する情報を付与する。図示する例では、「〇〇テレビが」は「ガ格/固有名詞(企業名)」であり、「△△さんの」は「ノ格/固有名詞(人名)」であり、「当選を」は「ヲ格/一般名詞」であり、「報道した」は「述語/サ変動詞/能動態」である。また、形態素・構文解析部121は、文節間の係り受けの情報を解析してツリー構造で表現する。図示する例では、「〇〇テレビが」は「報道した」に係り、「△△さんの」は「当選を」に係り、「当選を」は「報道した」に係る。
FIG. 6 is a diagram for explaining processing in which the summary
次に、基礎スコア付与部122及びスコア更新部123が各文節の語にスコアを付与する。図7〜図9は、本発明の第1の実施形態に係る要約語生成装置1がスコアを付与する処理を説明するための図である。
Next, the basic
図7に示す例では、入力文書は「〇〇テレビが視聴率三冠を獲得した。」である。すなわち、入力文書はメディアが情報提供することを示すものではない。まず、図7(A)に示すように、形態素・構文解析部121が、入力文書における「〇〇テレビが」が「ガ格/固有名詞(企業名)」であり、「視聴率三冠を」が「ヲ格/普通名詞」であり、「獲得した」が「述語/サ変動詞/能動態」であることを解析する。
In the example shown in FIG. 7, the input document is “00 television has won three ratings”. That is, the input document does not indicate that the media provides information. First, as shown in FIG. 7 (A), the morpheme /
続いて、図7(B)に示すように、基礎スコア付与部122が基礎スコアルールテーブルに基づいて、ガ格の文節「〇〇テレビが」の語「〇〇テレビ」に基礎スコア「1.0」を付与し、ヲ格の文節「視聴率三冠を」の語「視聴率三冠」に基礎スコア「0.8」を付与し、述語の文節「獲得した」の語「獲得」に基礎スコア「0.0」を付与する。
Subsequently, as shown in FIG. 7B, the basic
続いて、スコア更新部123が、述語「獲得した」が特定述語リストにあるか否かを判定する。スコア更新部123は、述語「獲得した」が特定述語リストにないため、基礎スコアから更新する値であるスコア更新を全て「0.0」にする。すなわち、スコア更新部123は、スコアを更新しない。その結果、各語の合計スコアは基礎スコアのままである。よって、語「〇〇テレビ」の合計スコアは「1.0」であり、語「視聴率三冠」の合計スコアは「0.8」であり、語「獲得」の合計スコアは「0.0」である。最後に、要約語選択部125が、最も合計スコアの高い語「〇〇テレビ」を入力文書「〇〇テレビが視聴率三冠を獲得した。」の要約語として選択する。すなわち、要約語生成装置1は、メディアが情報提供することを示す文でない場合には、主語である「〇〇テレビ」を要約語として出力する。
Subsequently, the
一方、図8に示す例では、入力文書は「〇〇テレビが△△さんの当選を報道した。」である。すなわち、入力文書はメディアが情報提供することを示すものである。まず、図8(A)に示すように、形態素・構文解析部121が、入力文書における「〇〇テレビが」が「ガ格/固有名詞(企業名)」であり、「△△さんの当選を」が「ヲ格/普通名詞(人名)+普通名詞」であり、「報道した」が「述語/サ変動詞/能動態」であることを解析する。
On the other hand, in the example shown in FIG. 8, the input document is “OO TV reported that △△ was elected”. That is, the input document indicates that the media provides information. First, as shown in FIG. 8 (A), the morpheme /
続いて、図8(B)に示すように、基礎スコア付与部122が基礎スコアルールテーブルに基づいて、ガ格の文節「〇〇テレビが」の語「〇〇テレビ」に基礎スコア「1.0」を付与し、ヲ格の文節「△△さんの当選を」の語「△△さんの当選」に基礎スコア「0.8」を付与し、述語の文節「報道した」の語「報道」に基礎スコア「0.0」を付与する。
Subsequently, as shown in FIG. 8 (B), the basic
続いて、スコア更新部123が、述語「報道した」が特定述語リストにあるか否かを判定する。スコア更新部123は、述語「報道した」が特定述語リストにあるため、スコア更新ルールテーブルに基づいて、「〇〇テレビ」の基礎スコア「1.0」にスコア更新「−0.5」加算して合計スコアを「0.5」に更新し、語「△△さんの当選」の基礎スコア「0.8」にスコア更新「+0.5」加算して合計スコアを「1.3」に更新し、語「報道」の基礎スコア「0.0」にスコア更新「0.0」加算して合計スコアを「0.0」に更新する。
Subsequently, the
その結果、更新前は主語である「〇〇テレビ」が最も基礎スコアが高かったのに対し、更新後は目的語である「△△さんの当選」が最も合計スコアが高くなる。そのため、要約語選択部125は、最も合計スコアの高い語「△△さんの当選」を入力文書「〇〇テレビが△△さんの当選を報道した。」の要約語として選択する。すなわち、要約語生成装置1は、メディアである「〇〇テレビ」が報道する情報である「△△さんの当選」を要約語として出力する。よって、要約語生成装置1は、入力文書に対してより適切な要約語を生成して出力することができる。
As a result, “OO TV”, which is the subject before the update, has the highest basic score, whereas “Winning of Δ △”, which is the object, has the highest total score after the update. Therefore, the summary
図9に示す例では、入力文書は「AさんがBさんに手紙を渡した。Bさんはその手紙を紹介した。」である。まず、図9(A)に示すように、形態素・構文解析部121が、入力文書の第1文「AさんがBさんに手紙を渡した。」における「Aさんが」が「ガ格/固有名詞(人名)」であり、「Bさんに」が「二格/固有名詞(人名)」であり、「手紙を」が「ヲ格/普通名詞」であり、「渡した」が「述語/動詞/能動態」であることを解析する。また、図9(B)に示すように、形態素・構文解析部121は、入力文書の第2文「Bさんはその手紙を紹介した。」における「Bさんは」が「ガ格/固有名詞(人名)」であり、「その手紙を」が「ヲ格/指示代名詞+普通名詞」であり、「紹介した」が「述語/サ変動詞/能動態」であることを解析する。
In the example shown in FIG. 9, the input document is “Mr. A handed a letter to Mr. B. Mr. B introduced the letter”. First, as shown in FIG. 9A, the morpheme /
続いて、図9(C)に示すように、基礎スコア付与部122が基礎スコアルールテーブルに基づいて、第1文におけるガ格の文節「Aさんが」の語「Aさん」に基礎スコア「1.0」を付与し、二格の文節「Bさんに」の語「Bさん」に基礎スコア「0.5」を付与し、ヲ格の文節「手紙を」の語「手紙」に基礎スコア「0.8」を付与し、述語の文節「渡した」の語「渡す」に基礎スコア「0.0」を付与する。また、スコア更新部123は、第1文の述語「渡した」が特定述語リストにないため、第1文のスコア更新を全て「0.0」とし、第1文のスコアを更新しない。その結果、各語の合計スコアは基礎スコアのままである。
Subsequently, as illustrated in FIG. 9C, the basic
また、図9(D)に示すように、基礎スコア付与部122は、基礎スコアルールテーブルに基づいて、第2文におけるガ格の文節「Bさんは」の語「Bさん」に基礎スコア「1.0」を付与し、ヲ格の文節「その手紙を」の語「その手紙」に基礎スコア「0.8」を付与し、述語の文節「紹介した」の語「紹介」に基礎スコア「0.0」を付与する。
Further, as shown in FIG. 9D, the basic
続いて、スコア更新部123は、第2文の述語「紹介した」が特定述語リストにあるため、スコア更新ルールテーブルに基づいて、「Bさん」の基礎スコア「1.0」にスコア更新「−0.5」加算して合計スコアを「0.5」に更新し、語「その手紙」の基礎スコア「0.8」にスコア更新「+0.5」加算して合計スコアを「1.3」に更新し、語「紹介」の基礎スコア「0.0」にスコア更新「0.0」加算して合計スコアを「0.0」に更新する。
Subsequently, since the predicate “introduced” of the second sentence is in the specific predicate list, the
続いて、図9(E)に示すように、要約語統合部124が、第1文と第2文とを比較して、同一とみなせる語「Bさん」のスコアを合算してその合計スコアを「1.0」とし、語「手紙」のスコアを合算してその合計スコアを「2.1」とする。これにより、入力文書において頻出する語のスコアが高くなる。最後に、要約語選択部125が最も合計スコアの高い語「手紙」を入力文書「AさんがBさんに手紙を渡した。Bさんはその手紙を紹介した。」の要約語として選択する。このように、要約語生成装置1は、入力文書に複数の文がある場合には、同一とみなす語のスコアを合算して要約語を選択するため、入力文書において頻出する重要な語を要約語として選択することができる。
Subsequently, as shown in FIG. 9E, the summary
図10は、本発明の第1の実施形態に係る要約語生成装置1が実行する要約語生成処理の一例を示すフローチャートである。
ステップS101において、入力部11に入力文書が入力される。
ステップS103において、形態素・構文解析部121が、解析用辞書に基づいて入力文書を解析する。
FIG. 10 is a flowchart showing an example of summary word generation processing executed by the summary
In step S <b> 101, an input document is input to the
In step S103, the morpheme /
ステップS105において、基礎スコア付与部122が、基礎スコアルールテーブルに基づいて入力文書に含まれる各文要素にスコアを付与する。文要素は、各文節の語である。
ステップS107において、スコア更新部123が、入力文書に含まれる文に特定述語リストにある特定述語が使われているか否かを判定する。特定述語が使われている場合(ステップS107;YES)、要約語生成装置1はステップS109の処理に進む。一方、特定述語が使われていない場合(ステップS107;NO)、要約語生成装置1はステップS111の処理に進む。
In step S105, the basic
In step S107, the
ステップS109において、スコア更新部123は、スコア更新ルールテーブルに基づいて、特定述語が使われている文の文要素のスコアを更新する。
In step S109, the
ステップS111において、要約語統合部124が、入力文書に複数の文がある場合に、各文を比較して同一とみなせる類似の語のスコアを合算する。
ステップS113において、要約語選択部125が、最もスコアの高い語を要約語として選択する。
ステップS115において、出力部14が、要約語を出力する。その後、処理を終了する。
In step S111, when there are a plurality of sentences in the input document, the summary
In step S113, the summary
In step S115, the
このように、第1の実施形態に係る要約語生成装置1は、1又は複数の文からなる文章を取得する入力部11(取得部)と、文書に含まれる各語に、その格要素に応じて重み付けをする基礎スコア付与部122と、文における述語に応じて当該文に含まれる各語の重みを更新するスコア更新部123と、各語の重みに基づいて文書の要約語を選択する要約語選択部125と、選択した要約語を出力する出力部14と、を備える。
As described above, the summary
このような構成により、同じ助詞を含む文節の重みが述語によって変わる場合であっても、適切な要約語を抽出することができる。すなわち、文書からより適切な要約語を抽出することができる。 With such a configuration, it is possible to extract an appropriate summary word even when the weight of a clause including the same particle changes depending on the predicate. That is, a more appropriate summary word can be extracted from the document.
また、要約語生成装置1は、同一とみなす語の重みを合算する要約語統合部124と、を備える。このような構成により、文書において頻出する語の重みを重くすることができる。
The summary
また、基礎スコア付与部122は、文が能動態の場合には当該文の主語の重みを重くし、文が受動態の場合には当該文の目的語の重みを重くし、スコア更新部123は、特定の述語が文に含まれる場合に、当該文の主語の重みと目的語の重みとを逆転させる。より具体的には、特定の述語は、情報を提供する行為を意味する動詞であって、スコア更新部123は、特定の述語が文に含まれる場合に、当該文において提供される情報の重みを重くする。このような構成により、メディア等が情報を提供する文の場合には、提供される情報を要約語として抽出することができる。
The basic
(第2の実施形態)
以下、図面を参照しながら本発明の第2の実施形態について説明する。
同じ述語を使う文であっても、その入力文書のカテゴリに応じて適切な要約語となる格要素が異なる場合がある。カテゴリは、文章が属するジャンル(例えば、芸能、スポーツ、政治等)を示す。例えば、カテゴリが「芸能」である文「〇〇さんが結婚を発表した。」では主語「〇〇さん」が要約語として適切であるのに対し、カテゴリが「政治」である文「〇〇首相が△△税減税を発表した。」では目的語「△△税減税」が要約語として適切である。そこで本実施形態では、入力文書のカテゴリに応じて特定述語が異なる点が第1の実施形態と異なる。
(Second Embodiment)
The second embodiment of the present invention will be described below with reference to the drawings.
Even in the case of sentences using the same predicate, case elements that are appropriate summary words may differ depending on the category of the input document. The category indicates the genre to which the sentence belongs (for example, performing arts, sports, politics, etc.). For example, in the sentence “Mr. OO announced marriage” whose category is “Entertainment”, the subject “Mr. OO” is appropriate as a summary word, whereas the sentence “〇 〇” whose category is “Politics” is suitable. In the "Prime Minister Announced Tax Reduction", the object "△△ Tax Reduction" is appropriate as a summary word. Therefore, this embodiment is different from the first embodiment in that the specific predicate differs according to the category of the input document.
図11は、本発明の第2の実施形態に係る要約語生成装置1Aの機能構成の一例を示す概略ブロック図である。要約語生成装置1Aは、1又は複数の文からなる入力文書から当該文書の要約語を生成して出力する情報処理装置である。要約語生成装置1Aは、例えば複数の端末装置が接続可能なサーバ装置であり、接続された端末装置に入力文書の要約語を出力する。或いは、要約語生成装置1Aは、携帯電話機やスマートフォンやタブレット端末やパーソナルコンピュータ等の各端末装置に組み込まれていてもよい。要約語生成装置1Aのハードウェア構成は、第1の実施形態と同様であるため、その説明を省略する。以下、第1の実施形態と同様の構成には同一の符号を付し、その説明を省略する。
FIG. 11 is a schematic block diagram showing an example of a functional configuration of the summary
要約語生成装置1Aは、入力部11Aと、制御部12Aと、記憶部13Aと、出力部14と、を含んで構成される。入力部11Aは、例えばキーボードやマイクやネットワークインタフェース等の、入力文書をそのカテゴリとともに入力するインタフェースである。入力部11Aは、入力された入力文書及びそのカテゴリを制御部12Aに出力する。
The summary
制御部12Aは、要約語生成装置1Aを統括して制御する。制御部12Aは、形態素・構文解析部121と、基礎スコア付与部122と、スコア更新部123Aと、要約語統合部124と、要約語選択部125と、を含んで構成される。
The
スコア更新部123Aは、入力文書に含まれる各文の述語に応じてそれぞれの文にある各文節の語の重みを、入力文書のカテゴリに応じて異なるルールで更新する。具体的には、スコア更新部123Aは、入力文書のカテゴリに応じた特定述語リストをカテゴリ別特定述語リスト記憶部133Aから読み出し、読みだした特定述語リストに含まれる特定述語が文の述語である場合に、スコア更新ルール記憶部134が記憶するスコア更新ルールテーブルに基づいて当該文の各文節の語のスコアを更新する。スコア更新部123Aは、更新したスコアと入力文書とを要約語統合部124に出力する。
The
記憶部13Aは、解析用辞書記憶部131と、基礎スコアルール記憶部132と、カテゴリ別特定述語リスト記憶部133Aと、スコア更新ルール記憶部134とを備え、種々の情報を記憶する。カテゴリ別特定述語リスト記憶部133Aは、特定述語を示す特定述語リストをカテゴリ毎に記憶する。
The
図12は、本発明の第2の実施形態に係るカテゴリ別特定述語リスト記憶部133Aが記憶するカテゴリ別特定述語リストテーブルのデータ構成及びデータ例を示す概略図である。
図示するように、カテゴリ別特定述語リストテーブルは、カテゴリと、特定述語リストとの各項目を有する。カテゴリは、文書のカテゴリである。特定述語リストは、特定述語のリストである。
図示する例では、カテゴリ「芸能」に対応する特定述語リストには、「報道する、掲載する、…」等の述語が含まれている。また、カテゴリ「スポーツ」に対応する特定述語リストには、「達成する、獲得する、…」等の述語が含まれている。また、カテゴリ「政治」に対応する特定述語リストには、「公表する、発表する、…」等の述語が含まれている。なお、各カテゴリの特定述語リストには、複数のカテゴリで同一の述語が含まれていてもよい。
FIG. 12 is a schematic diagram illustrating a data configuration and a data example of the category specific predicate list table stored in the category specific predicate
As shown in the drawing, the category specific predicate list table includes items of a category and a specific predicate list. The category is a document category. The specific predicate list is a list of specific predicates.
In the illustrated example, the specific predicate list corresponding to the category “entertainment” includes predicates such as “report, post, etc.”. The specific predicate list corresponding to the category “sports” includes predicates such as “achieve, acquire,...”. The specific predicate list corresponding to the category “politics” includes predicates such as “publish, announce,...”. The specific predicate list of each category may include the same predicate in a plurality of categories.
続いて、要約語生成装置1Aの動作について具体例を用いて詳細に説明する。図13及び図14は、本発明の第2の実施形態に係る要約語生成装置1Aがスコアを付与する処理を説明するための図である。
Next, the operation of the summary
図13に示す例では、入力文書は「〇〇さんが結婚を発表した。」であり、そのカテゴリは芸能である。まず、図13(A)に示すように、形態素・構文解析部121が、入力文書における「〇〇さんが」が「ガ格/固有名詞(人名)」であり、「結婚を」が「ヲ格/普通名詞」であり、「発表した」が「述語/サ変動詞/能動態」であることを解析する。
In the example shown in FIG. 13, the input document is “Mr. OO announced marriage”, and the category is entertainment. First, as shown in FIG. 13A, the morpheme /
続いて、図13(B)に示すように、基礎スコア付与部122が基礎スコアルールテーブルに基づいて、ガ格の文節「〇〇さんが」の語「〇〇さん」に基礎スコア「1.0」を付与し、ヲ格の文節「結婚を」の語「結婚」に基礎スコア「0.8」を付与し、述語の文節「発表した」の語「発表」に基礎スコア「0.0」を付与する。
Subsequently, as shown in FIG. 13B, the basic
続いて、スコア更新部123Aが、述語「発表した」が入力文書のカテゴリ「芸能」の特定述語リストにあるか否かを判定する。スコア更新部123Aは、述語「発表した」がカテゴリ「芸能」の特定述語リストにないため、全ての語のスコア更新を「0.0」とし、各語のスコアを更新しない。その結果、各語の合計スコアは基礎スコアのままである。よって、要約語選択部125は、合計スコアの最も高い語「〇〇さん」を入力文書「〇〇さんが結婚を発表した。」の要約語として選択する。
Subsequently, the
一方、図14に示す例では、入力文書は「〇〇首相が△△税減税を発表した。」であり、そのカテゴリは政治である。まず、図14(A)に示すように、形態素・構文解析部121が、入力文書における「〇〇首相が」が「ガ格/固有名詞(人名)」であり、「△△税減税を」が「ヲ格/普通名詞」であり、「発表した」が「述語/サ変動詞/能動態」であることを解析する。
On the other hand, in the example shown in FIG. 14, the input document is “0.00 Prime Minister has announced a △△ tax cut”, and the category is politics. First, as shown in FIG. 14 (A), the morpheme /
続いて、図14(B)に示すように、基礎スコア付与部122が基礎スコアルールテーブルに基づいて、ガ格の文節「〇〇首相が」の語「〇〇首相」に基礎スコア「1.0」を付与し、ヲ格の文節「△△税減税を」の語「△△税減税」に基礎スコア「0.8」を付与し、述語の文節「発表した」の語「発表」に基礎スコア「0.0」を付与する。
Next, as shown in FIG. 14 (B), the basic
続いて、スコア更新部123Aが、述語「発表した」が入力文書のカテゴリ「政治」の特定述語リストにあるか否かを判定する。スコア更新部123Aは、述語「発表した」がカテゴリ「政治」の特定述語リストにあるため、スコア更新ルールテーブルに基づいて、「〇〇首相」の基礎スコア「1.0」にスコア更新「−0.5」加算して合計スコアを「0.5」に更新し、語「△△税減税」の基礎スコア「0.8」にスコア更新「+0.5」加算して合計スコアを「1.3」に更新し、語「発表」の基礎スコア「0.0」にスコア更新「0.0」加算して合計スコアを「0.0」に更新する。
Subsequently, the
その結果、更新前は主語である「〇〇首相」が最も基礎スコアが高かったのに対し、更新後は目的語である「△△税減税」が最も合計スコアが高くなる。そのため、要約語選択部125は、合計スコアの最も高い語「△△税減税」を入力文書「〇〇首相が△△税減税を発表した。」の要約語として選択する。
As a result, the basic score “OO Prime Minister” was the highest before the update, whereas the target “△△ Tax Reduction” was the highest total score after the update. Therefore, the summary
このように、要約語生成装置1Aは、入力文書のカテゴリに応じて異なる特定述語リストを用いているため、同じ述語「発表する」の文であっても、各入力文書に適した要約語を生成して出力することができる。
As described above, since the summary
図15は、本発明の第2の実施形態に係る要約語生成装置1Aが実行する要約語生成処理の一例を示すフローチャートである。
ステップS201において、入力部11Aに入力文書及びそのカテゴリが入力される。
ステップS203〜ステップS205の処理は、第1の実施形態におけるステップS103〜ステップS105の処理と同様であるため、その説明を省略する。
FIG. 15 is a flowchart showing an example of summary word generation processing executed by the summary
In step S201, the input document and its category are input to the
Since the process of step S203-step S205 is the same as the process of step S103-step S105 in 1st Embodiment, the description is abbreviate | omitted.
ステップS207において、スコア更新部123Aが、入力文書に含まれる文に、入力文書のカテゴリに対応する特定述語リストにある特定述語が使われているか否かを判定する。特定述語が使われている場合(ステップS207;YES)、要約語生成装置1AはステップS209の処理に進む。一方、特定述語が使われていない場合(ステップS207;NO)、要約語生成装置1AはステップS211の処理に進む。
In step S207, the
ステップS209〜ステップS215の処理は、第1の実施形態におけるステップS109〜ステップS115の処理と同様であるため、その説明を省略する。 Since the process of step S209-step S215 is the same as the process of step S109-step S115 in 1st Embodiment, the description is abbreviate | omitted.
なお、本実施形態では、入力文書のカテゴリに応じて特定述語リストを異なるものにしているが、これに限らず、入力文書のカテゴリに応じて異なるスコア更新ルールでスコアを更新してもよい。 In this embodiment, the specific predicate list is made different depending on the category of the input document. However, the present invention is not limited to this, and the score may be updated using different score update rules depending on the category of the input document.
このように、第2の実施形態に係る要約語生成装置1Aは、1又は複数の文からなる文書を取得する入力部11(取得部)と、文章に含まれる各語に、その格要素に応じて重み付けをする基礎スコア付与部122と、文における述語に応じて当該文に含まれる各語の重みを更新するスコア更新部123Aと、各語の重みに基づいて文書の要約語を選択する要約語選択部125と、選択した要約語を出力する出力部14と、を備える。スコア更新部123Aは、文書のカテゴリに応じて異なるルールで重みを更新する。より具体的には、重みを更新する特定の述語が文書のカテゴリに応じて異なる。
As described above, the summary
このような構成により、同じ助詞を含む文節の重みが述語によって変わる場合であっても、適切な要約語を抽出することができる。また、同じ述語を使う文であってもその文書のカテゴリに応じて重みを更新するため、文書に適した要約語を抽出することができる。すなわち、文書からより適切な要約語を抽出することができる。 With such a configuration, it is possible to extract an appropriate summary word even when the weight of a clause including the same particle changes depending on the predicate. Moreover, since the weight is updated according to the category of the document even if the sentence uses the same predicate, summary words suitable for the document can be extracted. That is, a more appropriate summary word can be extracted from the document.
以上、図面を参照してこの発明の実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。 The embodiments of the present invention have been described in detail above with reference to the drawings. However, the specific configuration is not limited to the above-described one, and various design changes and the like can be made without departing from the scope of the present invention. Is possible.
例えば、上述した実施形態では、要約語生成装置1,1Aは、文の述語が特定述語である場合に同一のスコア更新ルールでスコアを更新しているが、これに限らず、特定述語毎に異なるスコア更新ルールでスコアを更新してもよい。
For example, in the above-described embodiment, the summary
また、上述した実施形態では、要約語生成装置1,1Aは、1つの語を要約語として出力しているが、これに限らず、スコアの高い順に所定の複数語出力してもよい。
In the above-described embodiment, the summary
また、上述した実施形態では、入力文書が日本語である場合を例に示したが、これに限らず、他の言語であってもよい。 In the above-described embodiment, the case where the input document is in Japanese is shown as an example. However, the present invention is not limited to this, and another language may be used.
また、要約語生成装置1,1Aは、出力した要約語に対する評価の入力を受け付け、評価に基づいて機械学習によりスコア更新ルールを変更してもよい。
The summary
また、要約語生成装置1,1Aは、前にある文ほど重要であることが多いため、入力文書に複数の文がある場合には、前にある文のスコアが高くなるようにスコアを付与してもよい。
In addition, the summary
また、上述した実施形態では、スコア更新ルールにおいて、能動態の場合にはガ格及び二格を減点し、ヲ格を加点しているが、これに限らず、その他にもデ格やニヨル格やカラ格等メディア名を含みそうな格要素を減点し、ト格やニツク格等メディアが伝える情報を含みそうな格要素を加点するものであればよい。同様に、スコア更新ルールにおいて、受動態の場合にはガ格を加点し、二格を減点しているが、これに限らず、その他にもデ格やニヨル格やカラ格等メディア名を含みそうな格要素を減点し、ト格やニツク格等メディアが伝える情報を含みそうな格要素を加点するものであればよい。 Further, in the above-described embodiment, in the score update rule, in the case of active, the ga rating and the second rating are deducted and the wo rating is added, but not limited to this, other de ratings, Any case element may be used as long as it deducts a case element that is likely to include a media name such as a color case and adds a case element that is likely to include information conveyed by the media such as a case rating or a nickel case. Similarly, in the score update rule, in the case of passive voice, ga rating is added and 2 rating is deducted, but not limited to this, media names such as de-rated, nyol and kara are also included. As long as the case elements that are likely to include information conveyed by the media, such as the case rating and the Nikku case, are added.
なお、上述した各実施形態や各変形例の1つまたは複数、上述した各実施形態や各変形例の一部または全部を組み合わせて本発明の一態様を実現するようにしてもよい。 Note that one or more of the above-described embodiments and modifications, and a part or all of the above-described embodiments and modifications may be combined to realize one aspect of the present invention.
なお、本発明の一態様における要約語生成装置1,1Aで動作するプログラムは、本発明の一態様に関わる上記の各実施形態や変形例で示した機能を実現するように、1つ、または複数の、CPU(Central Processing Unit)等のプロセッサを制御するプログラム(コンピュータを機能させるプログラム)であっても良い。そして、これらの各装置で取り扱われる情報は、その処理時に一時的にRAM(Random Access Memory)に蓄積され、その後、フラッシュメモリやHDD(Hard Disk Drive)等の各種ストレージに格納され、必要に応じてCPU等によって読み出し、修正・書き込みが行われても良い。
Note that one program that operates in the summary
なお、上述した各実施形態や変形例における要約語生成装置1,1Aの一部又は全部を1つ、または複数のプロセッサを備えたコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータが読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。
Note that a part or all of the summary
なお、ここでいう「コンピュータシステム」とは、要約語生成装置1,1Aに内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
Here, the “computer system” is a computer system built in the summary
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。 Further, the “computer-readable recording medium” is a medium that dynamically holds a program for a short time, such as a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line, In such a case, a volatile memory inside a computer system serving as a server or a client may be included and a program that holds a program for a certain period of time. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.
また、上述した各実施形態や変形例における要約語生成装置1,1Aの一部、又は全部を典型的には集積回路であるLSIとして実現してもよいし、チップセットとして実現してもよい。また、上述した各実施形態や変形例における要約語生成装置1、1Aの各機能ブロックは個別にチップ化してもよいし、一部、又は全部を集積してチップ化してもよい。また、集積回路化の手法は、LSIに限らず専用回路、および/または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いることも可能である。
In addition, a part or all of the summary
以上、この発明の一態様として各実施形態や変形例に関して図面を参照して詳述してきたが、具体的な構成は各実施形態や変形例に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、本発明の一態様は、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。また、上記各実施形態や変形例に記載された要素であり、同様の効果を奏する要素同士を置換した構成も含まれる。 As described above, the embodiments and modifications as one aspect of the present invention have been described in detail with reference to the drawings. However, specific configurations are not limited to the embodiments and modifications, and depart from the gist of the present invention. This includes design changes that do not occur. In addition, one aspect of the present invention can be modified in various ways within the scope of the claims, and the technical aspects of the present invention also relate to embodiments obtained by appropriately combining technical means disclosed in different embodiments. Included in the range. Moreover, it is the element described in said each embodiment and modification, and the structure which substituted the element which has the same effect is also contained.
1,1A 要約語生成装置
11,11A 入力部
12,12A 制御部
121 形態素・構文解析部
122 基礎スコア付与部
123,123A スコア更新部
124 要約語統合部
125 要約語選択部
13,13A 記憶部
131 解析用辞書記憶部
132 基礎スコアルール記憶部
133 特定述語リスト記憶部
133A カテゴリ別特定述語リスト記憶部
134 スコア更新ルール記憶部
14 出力部
101 CPU
102 記憶媒体インタフェース部
103 記憶媒体
104 入力装置
105 出力装置
106 ROM
107 RAM
108 補助記憶部
109 ネットワークインタフェース部
1, 1A summary
102 Storage
107 RAM
108
Claims (9)
前記文書に含まれる各語に、その格要素に応じて重み付けをする基礎スコア付与部と、
前記文における述語に応じて当該文に含まれる各語の重みを更新するスコア更新部と、
各語の重みに基づいて前記文書の要約語を選択する要約語選択部と、
選択した要約語を出力する出力部と、
を備える情報処理装置。 An acquisition unit for acquiring a document composed of one or more sentences;
A basic score giving unit that weights each word included in the document according to its case element;
A score updating unit that updates the weight of each word included in the sentence according to the predicate in the sentence;
A summary word selector for selecting summary words of the document based on the weight of each word;
An output unit for outputting the selected summary word;
An information processing apparatus comprising:
を備える請求項1に記載の情報処理装置。 A summary word integration unit that adds together the weights of words that are considered identical;
The information processing apparatus according to claim 1.
請求項1または請求項2に記載の情報処理装置。 The score update unit updates weights according to different rules according to the category of the document.
The information processing apparatus according to claim 1 or 2.
請求項1から請求項3いずれか1項に記載の情報処理装置。 The basic score assigning unit increases the weight of the subject of the sentence when the sentence is active, and increases the weight of the object of the sentence when the sentence is passive.
The information processing apparatus according to any one of claims 1 to 3.
請求項4に記載の情報処理装置。 The score update unit, when a specific predicate is included in a sentence, reverses the subject weight and object weight of the sentence,
The information processing apparatus according to claim 4.
前記スコア更新部は、前記特定の述語が文に含まれる場合に、当該文において提供される情報の重みを重くする、
請求項5に記載の情報処理装置。 The specific predicate is a verb meaning an act of providing information,
The score update unit increases the weight of information provided in the sentence when the specific predicate is included in the sentence.
The information processing apparatus according to claim 5.
請求項5または請求項6に記載の情報処理装置。 The information processing apparatus according to claim 5, wherein the specific predicate differs according to a category of the document.
基礎スコア付与部が、前記文書に含まれる各語に、その格要素に応じて重み付けをする過程と、
スコア更新部が、前記文における述語に応じて当該文に含まれる各語の重みを更新する過程と、
要約語選択部が、各語の重みに基づいて前記文書の要約語を選択する過程と、
出力部が、選択した要約語を出力する過程と、
を有する情報処理方法。 A process in which the acquisition unit acquires a document including one or more sentences;
A process in which the basic score assigning unit weights each word included in the document according to the case element;
A process in which the score updating unit updates the weight of each word included in the sentence according to the predicate in the sentence;
A summary word selection unit selecting a summary word of the document based on the weight of each word;
A process in which the output unit outputs the selected summary word;
An information processing method comprising:
1又は複数の文からなる文書を取得するステップと、
前記文書に含まれる各語に、その格要素に応じて重み付けをするステップと、
前記文における述語に応じて当該文に含まれる各語の重みを更新するステップと、
各語の重みに基づいて前記文書の要約語を選択するステップと、
選択した要約語を出力するステップと、
を実行するためのプログラム。 Computer
Obtaining a document comprising one or more sentences;
Weighting each word contained in the document according to its case element;
Updating the weight of each word included in the sentence according to the predicate in the sentence;
Selecting summary words of the document based on the weight of each word;
Outputting the selected summary word;
A program for running.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018100943A JP7091146B2 (en) | 2018-05-25 | 2018-05-25 | Information processing equipment, information processing methods, and programs |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018100943A JP7091146B2 (en) | 2018-05-25 | 2018-05-25 | Information processing equipment, information processing methods, and programs |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019204445A true JP2019204445A (en) | 2019-11-28 |
JP7091146B2 JP7091146B2 (en) | 2022-06-27 |
Family
ID=68727097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018100943A Active JP7091146B2 (en) | 2018-05-25 | 2018-05-25 | Information processing equipment, information processing methods, and programs |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7091146B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139047A (en) * | 2020-01-20 | 2021-07-20 | 夏普株式会社 | Digest generation device, digest generation method, and recording medium |
CN113672722A (en) * | 2021-08-20 | 2021-11-19 | 中国平安财产保险股份有限公司 | Online course intelligent recommendation method and device, electronic equipment and storage medium |
JP7474295B2 (en) | 2022-09-01 | 2024-04-24 | 三菱電機インフォメーションシステムズ株式会社 | Information processing system, information processing method, and program |
JP7474296B2 (en) | 2022-09-01 | 2024-04-24 | 三菱電機インフォメーションシステムズ株式会社 | Information processing system, information processing method, and program |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03135669A (en) * | 1989-06-29 | 1991-06-10 | Tokyo Electric Power Co Inc:The | Automatic key word extracting system |
JPH0844763A (en) * | 1994-08-02 | 1996-02-16 | Ricoh Co Ltd | Automatic key word extracting device |
JP2001052032A (en) * | 1999-05-28 | 2001-02-23 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for preparing summary sentence and storage medium storing summary sentence preparation program |
JP2010092357A (en) * | 2008-10-09 | 2010-04-22 | Intec Systems Institute Inc | Facility-related information retrieval method and facility-related information retrieval system |
JP2018049478A (en) * | 2016-09-21 | 2018-03-29 | 日本電信電話株式会社 | Text analysis method, text analyzer, and program |
-
2018
- 2018-05-25 JP JP2018100943A patent/JP7091146B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03135669A (en) * | 1989-06-29 | 1991-06-10 | Tokyo Electric Power Co Inc:The | Automatic key word extracting system |
JPH0844763A (en) * | 1994-08-02 | 1996-02-16 | Ricoh Co Ltd | Automatic key word extracting device |
JP2001052032A (en) * | 1999-05-28 | 2001-02-23 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for preparing summary sentence and storage medium storing summary sentence preparation program |
JP2010092357A (en) * | 2008-10-09 | 2010-04-22 | Intec Systems Institute Inc | Facility-related information retrieval method and facility-related information retrieval system |
JP2018049478A (en) * | 2016-09-21 | 2018-03-29 | 日本電信電話株式会社 | Text analysis method, text analyzer, and program |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139047A (en) * | 2020-01-20 | 2021-07-20 | 夏普株式会社 | Digest generation device, digest generation method, and recording medium |
JP2021114184A (en) * | 2020-01-20 | 2021-08-05 | シャープ株式会社 | Summary generation device, summary generation method and program |
CN113672722A (en) * | 2021-08-20 | 2021-11-19 | 中国平安财产保险股份有限公司 | Online course intelligent recommendation method and device, electronic equipment and storage medium |
CN113672722B (en) * | 2021-08-20 | 2023-08-22 | 中国平安财产保险股份有限公司 | Online course intelligent recommendation method and device, electronic equipment and storage medium |
JP7474295B2 (en) | 2022-09-01 | 2024-04-24 | 三菱電機インフォメーションシステムズ株式会社 | Information processing system, information processing method, and program |
JP7474296B2 (en) | 2022-09-01 | 2024-04-24 | 三菱電機インフォメーションシステムズ株式会社 | Information processing system, information processing method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP7091146B2 (en) | 2022-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8612206B2 (en) | Transliterating semitic languages including diacritics | |
JP2019204445A (en) | Information processing apparatus, information processing method, and program | |
JP5620349B2 (en) | Dialogue device, dialogue method and dialogue program | |
JP5379138B2 (en) | Creating an area dictionary | |
JP5090547B2 (en) | Transliteration processing device, transliteration processing program, computer-readable recording medium recording transliteration processing program, and transliteration processing method | |
KR101235501B1 (en) | System for generating and selecting names | |
JP2022047291A (en) | Information processing apparatus, method, and program | |
JP6373243B2 (en) | Information processing apparatus, information processing method, and information processing program | |
JP2015219582A (en) | Interactive method, interaction device, interactive program, and recording medium | |
EP2915067A1 (en) | Text analysis | |
JP2012185654A (en) | Translation apparatus, translation program, and translation method | |
Keh et al. | Pancetta: Phoneme aware neural completion to elicit tongue twisters automatically | |
JP2021193608A (en) | Utterance generation device, utterance generation method, and computer program | |
JP6858721B2 (en) | Dialogue controls, programs and methods capable of conducting content dialogue | |
Chaonithi et al. | A hybrid approach for Thai word segmentation with crowdsourcing feedback system | |
CN111125302A (en) | Error detection method and device for user input statement and electronic equipment | |
WO2012124213A1 (en) | Summary creation device, summary creation method, and computer-readable recording medium | |
JP6996190B2 (en) | Compound word generator, program and compound word generation method | |
Willis et al. | A probabilistic flexible abbreviation expansion system for users with motor disabilities | |
JP2008032953A (en) | Language acquisition supporting device and program for the same | |
Bac et al. | Improving Vietnamese Question-Answering system with Data Augmentation and Optimization | |
Monsen et al. | Controllable Sentence Simplification in Swedish Using Control Prefixes and Mined Paraphrases | |
WO2022107234A1 (en) | Summary generation method, summary generation device, and program | |
CN111125303A (en) | Method and device for screening error correction of user input sentences | |
JP2015225414A (en) | Interactive device, dictionary generation device, method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210324 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220309 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220315 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220427 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220607 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220615 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7091146 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |