JP5528376B2 - Document simplifying apparatus and program - Google Patents

Document simplifying apparatus and program Download PDF

Info

Publication number
JP5528376B2
JP5528376B2 JP2011047770A JP2011047770A JP5528376B2 JP 5528376 B2 JP5528376 B2 JP 5528376B2 JP 2011047770 A JP2011047770 A JP 2011047770A JP 2011047770 A JP2011047770 A JP 2011047770A JP 5528376 B2 JP5528376 B2 JP 5528376B2
Authority
JP
Japan
Prior art keywords
data
word
modifier
simplification
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011047770A
Other languages
Japanese (ja)
Other versions
JP2012185636A (en
Inventor
秀弥 美野
英輝 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2011047770A priority Critical patent/JP5528376B2/en
Publication of JP2012185636A publication Critical patent/JP2012185636A/en
Application granted granted Critical
Publication of JP5528376B2 publication Critical patent/JP5528376B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、自然言語処理に関する。特に、本発明は、入力された文を自動的に平易化する文書平易化装置、およびそのコンピュータプログラムに関する。   The present invention relates to natural language processing. In particular, the present invention relates to a document simplification device that automatically simplifies an inputted sentence, and a computer program thereof.

自然言語で記述された文の文意を変えることなく、文の表現を自動的に変えることが求められる場合がある。例えば、難解な文章を平易な文章に自動的に変換するシステムの技術が提案されている。
例えば、特許文献1には、日本語の構文解析結果に基づいて、述語または動作性名詞と他の単語との係り受け状態から、格関係へ変換する規則の組み合わせを求める技術が記載されている。
There are cases where it is required to automatically change the expression of a sentence without changing the meaning of the sentence written in a natural language. For example, a system technology that automatically converts difficult sentences into plain sentences has been proposed.
For example, Patent Document 1 describes a technique for obtaining a combination of rules for converting from a dependency state between a predicate or a behavioral noun and another word to a case relationship based on a Japanese parsing result. .

特開2010−003049号公報JP 2010-003049 A

従来の技術では、自然言語文を変換する際に、名詞を名詞に変換する、あるいは用言を用言に変換するなどのように、同種の品詞間での変換しか行えなかった。しかしながら、より柔軟で幅広い言い換えのためには、異なる品詞間の変換をも自動的に行えるようにすることが望まれる。特に、動作性名詞や形容詞から派生した名詞などの名詞を自動的に用言へ変換することは、言い換えの幅をより広げるために有効である。   In the prior art, when converting a natural language sentence, only conversion between parts of speech of the same kind was possible, such as converting a noun into a noun or converting a predicate into a predicate. However, for more flexible and broad paraphrasing, it is desirable to be able to automatically convert between different parts of speech. In particular, automatically converting nouns such as behavioral nouns and nouns derived from adjectives to predicates is effective in expanding the range of paraphrasing.

従来、名詞から動詞などの用言へ変換するシステムは実現されていなかった。これを実現するためには、名詞を用言(動詞、形容詞等)に単純に変換しただけでは、それらの単語の周辺の係り受け関係における文法が崩れてしまうという問題を解決する必要がある。言い換えれば、変換の対象となっている名詞や用言に係る修飾句をも適切な形で変換する必要がある。   Conventionally, a system for converting nouns into verbs and other predicates has not been realized. In order to realize this, it is necessary to solve the problem that the grammar in the dependency relations around these words is broken only by simply converting the nouns into predicates (verbs, adjectives, etc.). In other words, it is necessary to convert the modifiers related to the nouns and predicates to be converted in an appropriate form.

本発明は、上記の課題認識に基づいて行なわれたものであり、変換対象の単語を修飾する修飾句をも考慮しながら、名詞から用言へ、異なる品詞間での単語変換を行うことによって文を平易化するための文書平易化装置およびそのプログラムを提供する。   The present invention has been made on the basis of the above problem recognition, and by performing word conversion between different parts of speech from nouns to predicates while also considering modifiers that modify the words to be converted. A document simplification apparatus and a program for simplifying a sentence are provided.

[1]上記の課題を解決するため、本発明の一態様による文書平易化装置は、名詞データと前記名詞データに対応する用言データとを関連付けた平易化規則データを記憶する平易化規則テーブル記憶部と、連体修飾句データと前記連体修飾句データに対応する連用修飾句データとを関連付けた修飾句変換規則データを保持する修飾句変換規則テーブル記憶部と、用言データと、前記用言データを修飾する連用修飾句データと、これら用言データと連用修飾句データに関する出現頻度データとを関連付けて記憶する格フレームテーブル記憶部と、自立語データと、前記自立語データとの共起関係に基づいて選択された名詞データと助詞データとの組合せである体言化データとを関連付けて体言変換規則データとして記憶する体言変換規則テーブル記憶部と、文データに対応する係り受け解析結果データを読み込み、前記係り受け解析結果データに含まれる名詞データに基づき、前記平易化規則テーブル記憶部から適用可能な前記平易化規則データを選択する平易化規則選択部と、前記平易化規則選択部によって選択された前記平易化規則データが適用され得る前記名詞データを修飾する連体修飾句データを前記係り受け解析結果データから抽出し、抽出された前記連体修飾句データに基づいて、前記修飾句変換規則テーブル記憶部から対応する前記修飾句変換規則データを選択する修飾句変換規則選択部と、前記平易化規則選択部によって選択された前記平易化規則データに含まれる前記用言データと、前記修飾句変換規則選択部によって選択された前記修飾句変換規則データに含まれる前記連用修飾句データとに基づき、前記格フレームテーブル記憶部から前記出現頻度データを読み出し、読み出した出現頻度データに基づいて、選択された前記連用修飾句データによって前記係り受け解析結果データ内の前記連体修飾句データを置換するとともに、選択された前記用言データによって前記係り受け解析結果データ内の前記名詞データを置換する格フレーム照合部と、前記格フレーム照合部による置換前の前記名詞データが係っていた自立語データと前記自立語データに係るための助詞データを前記係り受け解析結果データから抽出し、抽出された前記自立語データおよび前記助詞データに基づいて、前記体言変換規則テーブル記憶部から前記体言変換規則データを選択し、選択された前記体言変換規則データに基づいて、前記格フレーム照合部による置換後の前記用言データを体言化する体言変換規則選択部と、を具備することを特徴とする。 [1] In order to solve the above-described problem, a document simplification apparatus according to an aspect of the present invention stores a simplification rule table that stores simplification rule data in which noun data is associated with prescriptive data corresponding to the noun data. A storage section, a modifier phrase conversion rule table storage section that holds modifier phrase conversion rule data that associates the modifier modifier data with the consecutive modifier phrases data corresponding to the linkage modifier phrase data, the phrase data, and the phrase Co-occurrence relationship between the case modifier table that modifies the data, the case frame table storage unit that stores the predicate data and the appearance frequency data related to the clause modifier data in association with each other, the independent word data, and the independent word data stored as nominal conversion rule data in combination with the selected noun data and particle data is in association with nominal data based on a nominal conversion rule table Read the dependency analysis result data corresponding to the sentence data and the storage unit, and select the applicable simplification rule data from the simplification rule table storage unit based on the noun data included in the dependency analysis result data The simplification rule selection unit, and the combination modification phrase data that modifies the noun data to which the simplification rule data selected by the simplification rule selection unit can be applied are extracted from the dependency analysis result data and extracted. Based on the link modifier phrase data, a modifier phrase conversion rule selection unit that selects the corresponding modifier phrase conversion rule data from the modifier phrase conversion rule table storage unit, and the simplification selected by the simplification rule selection unit Included in the prescriptive data included in the rule data and the modifier phrase conversion rule data selected by the modifier phrase conversion rule selector The appearance frequency data is read out from the case frame table storage unit based on the continuous modification phrase data, and the dependency analysis result data in the dependency analysis result data is selected based on the read appearance frequency data. A case frame matching unit that replaces the linkage modifier data and replaces the noun data in the dependency analysis result data by the selected predicate data, and the noun data before replacement by the case frame matching unit Is extracted from the dependency analysis result data, and based on the extracted independent word data and the particle data, the utterance conversion rule table is used. Select the speech conversion rule data from the storage unit, based on the selected speech conversion rule data, A syntactic conversion rule selecting section that embodies the prescriptive data after replacement by the case frame matching section.

この構成により、入力文の係り受け解析結果データに基づき、平易化規則選択部が名詞を用言に変換する規則を選択し、修飾句変換規則選択部が前記名詞を修飾していた連体修飾句を連用修飾句で置換するための(単数または複数の)規則を選択し、格フレーム照合部が実際の文の出現頻度に基づき候補を選択するため、言語として自然な表現が選択され、体言変換規則選択部が変換された用言を体言化することによって文法を整合させる。つまり、この構成を有する文書平易化装置は、文法的に正しく、現実に使われる数多くの文と同様の自然さを有し、且つ平易な文を生成して、入力文を平易化することができる。
上記の修飾句変換規則テーブルの一態様は、連体修飾句の種類別に対応する、単一または複数の連用修飾句を保持するものである。
上記の体言化データの一態様は、名詞と助詞の組合せである。この名詞+助詞が、上記の自立語に係る。
また、上記構成に加えて、文データを読み込み、前記文データの形態素解析処理と係り受け解析処理を行い、前記文データに対応する係り受け解析結果データを出力する形態素解析・係り受け解析部をさらに備えるようにしても良い。
With this configuration, based on the dependency analysis result data of the input sentence, the simplification rule selection unit selects a rule for converting a noun into a predicate, and the modifier phrase conversion rule selection unit modifies the noun. Select the rule (s) that will replace the phrase with the combined modifier, and the case frame matching unit will select a candidate based on the frequency of the actual sentence. The rule selection unit adapts the converted grammar to make the grammar consistent. In other words, the document simplification apparatus having this configuration is grammatically correct, has the same naturalness as many sentences used in reality, and generates plain sentences to simplify the input sentence. it can.
One aspect of the above-described modifier phrase conversion rule table holds a single or plural consecutive modifier phrases corresponding to each type of the modifier modifier phrase.
One aspect of the above-mentioned body data is a combination of a noun and a particle. This noun + particle relates to the above independent word.
In addition to the above configuration, a morphological analysis / dependence analysis unit that reads sentence data, performs morphological analysis processing and dependency analysis processing of the sentence data, and outputs dependency analysis result data corresponding to the sentence data. You may make it provide further.

また、本発明の一態様によるプログラムは、コンピュータを請求項1に記載の文書平易化装置として機能させるものである。A program according to an aspect of the present invention causes a computer to function as the document simplification apparatus according to claim 1.

本発明によれば、文書内の名詞を平易な表現に自動的に変換することが可能である。また、格フレームテーブルを用いて各フレームの照合を行い、その結果を用いた変換を行っているため、文脈を考慮した、より自然な形での、平易表現への言い換えが可能である。
また、本発明によれば、平易化規則テーブル作成装置を設けた構成により、手作業を要することなく、平易化規則を自動的に作成することができる。
また、本発明によれば、平易化規則テーブル作成装置において文脈類似テーブルに基づく文脈類似認定を行っているため、より自然な形での、平易表現への言い換えが可能である。
According to the present invention, it is possible to automatically convert a noun in a document into a plain expression. In addition, since each frame is collated using the case frame table and conversion is performed using the result, it is possible to paraphrase into a plain expression in a more natural form considering the context.
Further, according to the present invention, the simplification rule can be automatically created without requiring manual work by the configuration provided with the simplification rule table creation device.
Furthermore, according to the present invention, since the simplification rule table creation device performs context similarity recognition based on the context similarity table, it can be paraphrased into plain expression in a more natural form.

本発明の第1の実施形態による文書平易化装置の機能構成を示すブロック図である。It is a block diagram which shows the function structure of the document simplification apparatus by the 1st Embodiment of this invention. 同実施形態における平易化規則テーブルの構成とデータ例を示す概略図である。It is the schematic which shows the structure and example of data of the simplification rule table in the embodiment. 同実施形態における修飾句変換規則テーブルの構成とデータ例を示す概略図である。It is the schematic which shows the structure and data example of a modifier phrase conversion rule table in the embodiment. 同実施形態におけるドメイン依存格フレームテーブルの構成とデータ例を示す概略図である。It is the schematic which shows the structure and data example of a domain dependence case frame table in the embodiment. 同実施形態における体言変換規則テーブルの構成とデータ例を示す概略図である。It is the schematic which shows the structure and example of a data of the body language conversion rule table in the embodiment. 同実施形態による文書平易化装置が入力文を平易化する処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the process which the document simplification apparatus by the same embodiment simplifies an input sentence. 本発明の第2の実施形態による文書平易化装置の機能構成を示すブロック図である。It is a block diagram which shows the function structure of the document simplification apparatus by the 2nd Embodiment of this invention. 同実施形態における平易化規則テーブル作成装置の詳細な機能構成を示すブロック図である。It is a block diagram which shows the detailed functional structure of the simplification rule table creation apparatus in the embodiment. 同実施形態における同義語辞書テーブルの構成とデータ例を示す概略図である。It is the schematic which shows the structure and data example of a synonym dictionary table in the embodiment. 同実施形態における辞書テーブルの構成とデータ例を示す概略図である。It is the schematic which shows the structure and data example of the dictionary table in the embodiment. 同実施形態におけるシソーラステーブルの構成とデータ例を示す概略図である。It is the schematic which shows the structure and data example of a thesaurus table in the embodiment. 上記のシソーラステーブルを作成するための元となるデータの構成例を示す概略図である。It is the schematic which shows the structural example of the data used as the origin for producing said thesaurus table. 同実施形態における単語難易度テーブルの構成とデータ例を示す概略図である。It is the schematic which shows the structure and data example of a word difficulty level table in the embodiment. 同実施形態における文脈類似テーブルの構成とデータ例を示す概略図である。It is the schematic which shows the structure and example of data of a context similarity table in the embodiment. 同実施形態による平易化規則テーブル作成装置が辞書データ等を元に平易化規則を生成する処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the process which the simplification rule table creation apparatus by the same embodiment produces | generates a simplification rule based on dictionary data etc.

次に、本発明の一実施形態について、図面を参照しながら説明する。
[第1の実施の形態]
図1は、第1の実施形態による文書平易化装置の機能構成を示すブロック図である。図示するように、文書平易化装置1は、入力文記憶部10と、形態素解析・係り受け解析部20と、平易化規則選択部30と、修飾句変換規則選択部40と、格フレーム照合部50と、体言変換規則選択部60と、出力文記憶部70と、平易化規則テーブル記憶部130と、修飾句変換規則テーブル記憶部140と、ドメイン依存格フレームテーブル記憶部150と、体言変換規則テーブル記憶部160とを含んで構成される。
これらの各部は、電子回路を用いて実現される。また、データを記憶する各記憶部は、半導体メモリやハードディスク装置を用いて実現される。
Next, an embodiment of the present invention will be described with reference to the drawings.
[First Embodiment]
FIG. 1 is a block diagram showing a functional configuration of the document simplification apparatus according to the first embodiment. As illustrated, the document simplification apparatus 1 includes an input sentence storage unit 10, a morphological analysis / dependence analysis unit 20, a simplification rule selection unit 30, a modifier phrase conversion rule selection unit 40, and a case frame collation unit. 50, a noun conversion rule selection unit 60, an output sentence storage unit 70, a simplification rule table storage unit 130, a modifier phrase conversion rule table storage unit 140, a domain-dependent case frame table storage unit 150, and a noun conversion rule. And a table storage unit 160.
Each of these units is realized using an electronic circuit. Each storage unit for storing data is realized using a semiconductor memory or a hard disk device.

入力文記憶部10は、文書平易化装置1への入力となる文を記憶する。入力文記憶部10が複数の文から成るひとまとまりの文書のデータを記憶するようにしても良い。
形態素解析・係り受け解析部20は、入力文を入力文記憶部10から読み込み、形態素解析処理および係り受け解析処理を行う。形態素解析および係り受け解析の処理自体には既存の技術を利用する。例えば、形態素解析処理には形態素解析器「MeCab」を利用することができる。また、例えば、係り受け解析処理には係り受け解析器「CaboCha」を利用することができる。そして、形態素解析・係り受け解析部20は、係り受け解析結果データを出力する。
The input sentence storage unit 10 stores a sentence to be input to the document simplification apparatus 1. The input sentence storage unit 10 may store data of a group of documents composed of a plurality of sentences.
The morpheme analysis / dependence analysis unit 20 reads an input sentence from the input sentence storage unit 10 and performs a morpheme analysis process and a dependency analysis process. Existing technology is used for the morphological analysis and dependency analysis processing itself. For example, a morpheme analyzer “MeCab” can be used for the morpheme analysis process. Further, for example, a dependency analyzer “CaboCha” can be used for dependency analysis processing. Then, the morphological analysis / dependence analysis unit 20 outputs dependency analysis result data.

平易化規則選択部30は、入力文データに対応する係り受け解析結果データを読み込み、この係り受け解析結果データに含まれる名詞データ(動作性名詞や、形容詞や形容動詞から派生した名詞など)に基づき、平易化規則テーブル記憶部130から適用可能な平易化規則データを選択する。
修飾句変換規則選択部40は、平易化規則選択部30によって選択された平易化規則データが適用され得る名詞データを修飾する連体修飾句データを前記係り受け解析結果データから抽出する。そして、抽出された連体修飾句データに基づいて、修飾句変換規則テーブル記憶部140から、対応する修飾句変換規則データを選択する。
The simplification rule selection unit 30 reads the dependency analysis result data corresponding to the input sentence data, and converts it into noun data (behavioral nouns, nouns derived from adjectives and adjective verbs) included in the dependency analysis result data. Based on this, applicable simplification rule data is selected from the simplification rule table storage unit 130.
The modifier phrase conversion rule selection unit 40 extracts, from the dependency analysis result data, linkage modifier phrase data that modifies the noun data to which the simplification rule data selected by the simplification rule selection unit 30 can be applied. Then, the corresponding modifier phrase conversion rule data is selected from the modifier phrase conversion rule table storage unit 140 based on the extracted combined modifier phrase data.

格フレーム照合部50は、平易化規則選択部30によって選択された平易化規則データに含まれる用言データと、修飾句変換規則選択部40によって選択された修飾句変換規則データに含まれる連用修飾句データとに基づき、ドメイン依存格フレームテーブル記憶部150を読み出す。そして、ドメイン依存格フレームテーブル記憶部150から読み出した出現頻度データに基づいて、選択された連用修飾句データによって係り受け解析結果データ内の前記連体修飾句データを置換するとともに、選択された用言データによって係り受け解析結果データ内の名詞データを置換する。このとき、格フレーム照合部50は、複数の候補の中から、最も出現頻度の高い候補を選択して上記の置換を行う。   The case frame collation unit 50 includes the predicate data included in the simplification rule data selected by the simplification rule selection unit 30 and the continuous modification included in the modifier phrase conversion rule data selected by the modifier phrase conversion rule selection unit 40. Based on the phrase data, the domain-dependent case frame table storage unit 150 is read. Then, based on the appearance frequency data read from the domain-dependent case frame table storage unit 150, the linkage modifier data in the dependency analysis result data is replaced by the selected linkage modifier data, and the selected statement is used. The noun data in the dependency analysis result data is replaced with the data. At this time, the case frame matching unit 50 selects the candidate having the highest appearance frequency from among a plurality of candidates and performs the above replacement.

体言変換規則選択部60は、格フレーム照合部50によって置換される前の名詞データが係っていた自立語データを係り受け解析結果データから抽出する。そして、抽出された自立語データに基づいて、体言変換規則テーブル記憶部160から体言変換規則データを選択し、選択された体言変換規則データに基づいて、格フレーム照合部50によって置換された後の用言データを体言化する。言い換えれば、体言変換規則選択部60は、体言変換規則テーブル160を参照することによって、名詞に付属している助詞と、名詞が修飾している自立語から体言化に必要な名詞を適用し、用言を名詞に変換する。そして、体言変換規則選択部60は、平易化された文を出力文記憶部70に書き込む。言い換えれば、体言変換規則選択部60は、平易化された文を出力する。
出力文記憶部70は、平易化された出力文を記憶する。
The noun conversion rule selection unit 60 extracts the independent word data related to the noun data before being replaced by the case frame matching unit 50 from the dependency analysis result data. Then, based on the extracted independent word data, the word conversion rule data is selected from the word conversion rule table storage unit 160, and after being replaced by the case frame matching unit 50 based on the selected word conversion rule data. Make a prescriptive data. In other words, the noun conversion rule selection unit 60 refers to the noun conversion rule table 160 to apply the noun necessary for the nounization from the particle attached to the noun and the independent word modified by the noun, Convert a predicate to a noun. Then, the syntactic conversion rule selection unit 60 writes the simplified sentence in the output sentence storage unit 70. In other words, the syntactic conversion rule selection unit 60 outputs a simplified sentence.
The output sentence storage unit 70 stores the simplified output sentence.

平易化規則テーブル記憶部130は、文内の名詞を平易な用言に変換するための多数の平易化規則のデータを記憶する。
修飾句変換規則テーブル記憶部140は、連体修飾句データと、その連体修飾句データに対応する連用修飾句データとを関連付けた修飾句変換規則データを記憶する。
ドメイン依存格フレームテーブル記憶部150は、用言データと、この用言データを修飾する連用修飾句データと、これら用言データと連用修飾句データに関する出現頻度データとを関連付けて記憶する。ドメイン依存格フレームテーブル記憶部150は、特定のドメインに属する文集合を統計的に処理した結果に基づいて、上記の出現頻度データを保持する。ドメインとは、例えば、ニュースやスポーツや音楽など、文の内容についての分類に対応するものである。なお、複数のドメインのそれぞれについて異なる複数のテーブルを持つようにしても良い。
体言変換規則テーブル記憶部160は、自立語データと、この自立語データに係る体言化データとを関連付けて体言変換規則データとして記憶する。体言化データは、用言を体言化するためのデータである。体言化データは、名詞と助詞の組合せのデータである。体言変換規則テーブル記憶部160は、ある自立語に対して、最も相応しい体言化データ(名詞+助詞)を保持する。最も相応しい体言化データとは、例えば、その名詞+助詞がその自立語に係るような表現が、一般の文において高い頻度で出現するようなものである。
これら各テーブルのデータの詳細については、次に説明する。
The simplification rule table storage unit 130 stores a large number of simplification rule data for converting a noun in a sentence into a plain predicate.
The modifier phrase conversion rule table storage unit 140 stores modifier phrase conversion rule data that associates the associated modifier phrase data with the continuous modifier phrase data corresponding to the associated modifier phrase data.
The domain-dependent case frame table storage unit 150 stores prescriptive data, continuous modifier data that modifies the prescriptive data, and appearance frequency data related to the prescriptive data and the joint modifier data. The domain-dependent case frame table storage unit 150 holds the above-described appearance frequency data based on the result of statistically processing a sentence set belonging to a specific domain. A domain corresponds to a classification of sentence content such as news, sports or music. It should be noted that a plurality of different tables may be provided for each of a plurality of domains.
The noun conversion rule table storage unit 160 associates and stores the independent word data and the verbalization data related to the independent word data as the notional conversion rule data. The verbalization data is data for verbalizing the predicate. The verbalization data is data of combinations of nouns and particles. The noun conversion rule table storage unit 160 holds the most appropriate nounization data (noun + particle) for a certain independent word. The most appropriate body data is, for example, an expression in which a noun + a particle relates to an independent word frequently appears in a general sentence.
Details of the data in each table will be described next.

図2は、平易化規則テーブルの構成とデータ例を示す概略図である。図示するように、平易化規則テーブルは、表形式のデータであり、平易化前表現と、平易化前品詞と、平易化後表現と、平易化後品詞の各項目を有する。この表のデータの各行が、平易化前の表現と平易化後の表現の関係を表している。図示する例では、1行目のデータは、平易化前表現「落ち込み」の品詞は名詞(動詞「落ち込む」の連用形が名詞化した動詞連用形名詞)であり、これに対応する平易化後表現が「下がる」という動詞であることを表している。また、平易化後の品詞は、動詞に限らず、形容詞や形容動詞であっても良い。このように、平易化規則テーブルは、<名詞>→<用言>の形の規則を保持する。   FIG. 2 is a schematic diagram illustrating the configuration and data example of the simplification rule table. As shown in the figure, the simplification rule table is tabular data, and includes items of an expression before simplification, a part of speech before simplification, an expression after simplification, and a part of speech after simplification. Each row of data in this table represents the relationship between the expression before simplification and the expression after simplification. In the example shown in the figure, in the first line data, the part-of-speech of the expression “depressed” before simplification is a noun (a verb associative noun formed by the conjunctive form of the verb “depressed”), and the corresponding post-simplification expression is It represents the verb “down”. The part of speech after simplification is not limited to a verb, but may be an adjective or an adjective verb. In this way, the simplification rule table holds rules in the form of <noun> → <use>.

図3は、修飾句変換規則テーブルの構成とデータ例を示す概略図である。図示するように、修飾句変換規則テーブルは、表形式のデータであり、置換前(連体修飾句)および置換後(連用修飾句)の各項目を有する。置換前という項目は変換前の連体修飾句のパターンを表し、置換後という項目は変換後の連用修飾句のパターンを表す。図示する例では、1行目のデータは、「〜〜に関する」というパターンを有する置換前の連体修飾句を「〜〜に関して」というパターンを有する置換後の連用修飾句に変換する規則を表している。また、5行目のデータは、「〜〜の」というパターンを有する置換前の連体修飾句を「〜〜が/を/で/に」というパターンを有する置換後の連用修飾句に変換する規則を表している。なお、「〜〜が/を/で/に」という表現は、置換後のパターンが「〜〜が」、「〜〜を」、「〜〜で」、「〜〜に」のいずれにもなり得ることを表している。   FIG. 3 is a schematic diagram illustrating a configuration of a modifier phrase conversion rule table and a data example. As shown in the figure, the modifier phrase conversion rule table is tabular data and includes items before substitution (continuous modifier phrase) and after substitution (continuous modifier phrase). The item “before replacement” represents the pattern of the continuous modifier phrase before conversion, and the item “after replacement” represents the pattern of the continuous modifier phrase after conversion. In the illustrated example, the data on the first line represents a rule for converting a combination modifier before replacement having a pattern of “related to” to a replacement modifier after replacement having a pattern of “about”. Yes. Further, the data on the fifth line is a rule for converting a combination modifier before replacement having a pattern of “˜˜” into a continuous modifier after substitution having a pattern of “˜˜ ////”. Represents. In addition, the expression "~~ is ////" means that the pattern after replacement is any of "~~", "~~", "~~", or "~~". It represents getting.

図4は、ドメイン依存格フレームテーブルの構成とデータ例を示す概略図である。図示するように、ドメイン依存格フレームテーブルは、表形式のデータであり、名詞と、助詞と、用言と、出現頻度の各項目を有する。このテーブルの1行のデータが、1つの格フレームとその出現頻度の値を表している。このデータは、大量の文書の構文解析を行って「名詞−助詞−用言」のパターンの表現を抽出し、その出現頻度をカウントすることによって予め用意しておく。大量の文書は、例えば、テレビ等の放送番組のクローズドキャプションデータから獲得したり、インターネットを介して多数のウェブサイトのサーバ装置から収集したり、多数の電子書籍から取得したりすることができる。またこのとき、特定のドメインに属する文書のみを収集して、ドメイン依存格フレームテーブルを作成し、当該ドメインの入力文に対して適用するようにする。ドメインの具体例は、「一般ニュース」や「スポーツ」や「芸能」などである。このようなテーブルを用いることにより、後に説明する処理において、特定のドメインにおける出現頻度に基づいて、一般文書において出現しやすい自然な表現への置換を行えるようになる。図示する例では、4行目のデータは「需要(名詞)/が(助詞)/下がる(用言)」という格フレームの出現頻度が6であることを表している。   FIG. 4 is a schematic diagram showing the configuration of the domain-dependent case frame table and data examples. As shown in the figure, the domain-dependent case frame table is tabular data, and includes items of noun, particle, precaution, and appearance frequency. One row of data in this table represents one case frame and its appearance frequency value. This data is prepared in advance by parsing a large number of documents, extracting the expression of the pattern of “noun-particle”, and counting the appearance frequency. A large amount of documents can be acquired from, for example, closed caption data of a broadcast program such as a television set, collected from server devices of a large number of websites via the Internet, or acquired from a large number of electronic books. At this time, only documents belonging to a specific domain are collected, a domain-dependent case frame table is created, and applied to the input sentence of the domain. Specific examples of domains are “general news”, “sports”, “entertainment”, and the like. By using such a table, it is possible to perform replacement with natural expressions that are likely to appear in a general document based on the appearance frequency in a specific domain in the processing described later. In the illustrated example, the data in the fourth row indicates that the appearance frequency of the case frame “demand (noun) / ga (particle) / decrease (property)” is 6.

図5は、体言変換規則テーブルの構成とデータ例を示す概略図である。図示するように、体言変換規則テーブルは、表形式のデータであり、名詞と、助詞と、自立語の各項目を有する。このテーブルの1行のデータが、体言変換規則を表している。この体言変換規則は、元の文において名詞に付属している助詞とその名詞が修飾している自立語との組み合わせに応じて、体言化に必要な名詞を適用するための規則である。   FIG. 5 is a schematic diagram illustrating a configuration of the syntactic conversion rule table and a data example. As shown in the figure, the syntactic conversion rule table is tabular data, and has nouns, particles, and independent words. One row of data in this table represents a dialect conversion rule. This dialect conversion rule is a rule for applying the noun necessary for the dialectization according to the combination of the particle attached to the noun in the original sentence and the independent word modified by the noun.

この体言変換規則のデータは、文集合における名詞と助詞と自立語の共起関係の統計を取ることによって予め作成しておく。例えば、文集合に属する文から抽出した動詞の連用形に付いて体言化する名詞データと、この名詞データが助詞データを伴い修飾する自立語データとの出現頻度を基に、最も頻度の高い組み合わせを、体言変換規則データとして記憶しておく。例えば、図示する第4行目の場合では、「が」という助詞データと「大きい」という自立語データの組合せとの共起関係において、最も頻度の高かった体言は、「度合い」という名詞データであったことを表している。   The data of the syntactic conversion rule is created in advance by taking statistics on the co-occurrence relationship of nouns, particles and independent words in a sentence set. For example, the most frequent combination is based on the frequency of appearance of noun data that is expressed in conjunction with verb conjugations extracted from sentences belonging to a sentence set and independent word data that this noun data modifies with particle data. , And stored as body language conversion rule data. For example, in the case of the fourth line shown in the figure, in the co-occurrence relationship between the particle data “ga” and the combination of the independent word data “large”, the most frequent expression is the noun data “degree”. It means that there was.

なお便宜上、ここでの名詞データを体言化データと呼ぶ。そして、体言変換規則テーブルは、自立語データと、その自立語データに係る名詞(体言化データ)および助詞とを関連付けて体言変換規則データとして記憶するものである。また、言い換えれば、体言変換規則テーブルは、助詞データと自立語データの組合せとの共起関係に基づいて選択された名詞データを体言化データとして保持する。体言変換規則の具体的な適用方法については、実例を用いて後で説明する。   For the sake of convenience, the noun data here is referred to as manifestation data. The syntactic conversion rule table associates the independent word data with the nouns (participation data) and particles related to the independent word data and stores them as the syntactic conversion rule data. In other words, the body language conversion rule table holds the noun data selected based on the co-occurrence relationship between the particle data and the combination of the independent word data as the body data. A specific method of applying the body language conversion rule will be described later using an actual example.

次に、処理データの実例に基づき、文書を平易化するための具体的な処理手順を説明する。
図6は、文書平易化装置1の処理手順を示すフローチャートである。以下、このフローチャートに沿って説明する。なお、予め、入力文記憶部10が、外部から入力された文「需要の落ち込みが大きい。」を記憶しており、この文が平易化の対象となる。
Next, a specific processing procedure for simplifying a document will be described based on an example of processing data.
FIG. 6 is a flowchart showing the processing procedure of the document simplification apparatus 1. Hereinafter, it demonstrates along this flowchart. It should be noted that the input sentence storage unit 10 stores in advance a sentence “a demand drop is large” inputted from the outside, and this sentence becomes a target of simplification.

まずステップS1において、形態素解析・係り受け解析部20は、入力文記憶部10から入力文を読み取り、形態素解析処理および係り受け解析処理を行う。本例では、形態素解析処理の結果、入力文から、「需要(名詞)」/「の(助詞)」/「落ち込み(名詞)」/「が(助詞)」/「大きい(形容詞)」というデータが得られる。ここで、「/」は、形態素間の区切りを表している。また、例えば、「需要(名詞)」という表現は、「需要」という形態素の品詞が名詞であることを表している。そして、係り受け解析処理の結果、形態素解析・係り受け解析部20は、「需要(名詞)」/「の(助詞)」→「落ち込み(名詞)」/「が(助詞)」→「大きい(形容詞)」というデータを出力する。ここで、「→」(右向き矢印)は、係り受け関係を表す。例えば、「需要」/「の」が「落ち込み」/「が」に係っていることが表されている。係り受け解析の結果は、木構造で表現可能であり、上記例では、「需要(名詞)」/「の(助詞)」と「落ち込み(名詞)」/「が(助詞)」と「大きい(形容詞)」がそれぞれノードに相当し、これらをつなぐ「→」(右向き矢印)がエッジに相当する。係り受け解析結果のデータは、木構造またはそれに等価なデータで表現される。日本語の文の場合、最右ノードが係り受け解析結果の木構造における根ノードとなる。   First, in step S1, the morphological analysis / dependence analysis unit 20 reads an input sentence from the input sentence storage unit 10, and performs a morpheme analysis process and a dependency analysis process. In this example, as a result of the morphological analysis processing, data “demand (noun)” / “no (particle)” / “depression (noun)” / “ga (particle)” / “large (adjective)” is obtained from the input sentence. Is obtained. Here, “/” represents a break between morphemes. For example, the expression “demand (noun)” indicates that the part of speech of the morpheme “demand” is a noun. As a result of the dependency analysis process, the morphological analysis / dependence analysis unit 20 determines that “demand (noun)” / “no (particle)” → “depression (noun)” / “ga (particle)” → “large ( Adjective) ”is output. Here, “→” (right arrow) represents a dependency relationship. For example, “demand” / “no” is related to “depression” / “ga”. The result of dependency analysis can be expressed in a tree structure. In the above example, “demand (noun)” / “no (particle)” and “depression (noun)” / “ga (particle)” and “large ( “Adjectives” ”correspond to the nodes, and“ → ”(right arrow) connecting them corresponds to the edges. The data of the dependency analysis result is expressed by a tree structure or equivalent data. In the case of a Japanese sentence, the rightmost node is the root node in the tree structure of the dependency analysis result.

次にステップS2において、平易化規則適用部30は、平易化規則テーブル記憶部130から読み出した平易化規則を、上記の係り受け解析結果に適用する。具体的には、平易化規則適用部30は、係り受け解析結果に含まれる表現を、平易化規則テーブル中の平易化前表現にマッチさせる処理を行う。本例では、図2で例示した平易化規則のうち、平易化前表現「落ち込み(名詞)」が、係り受け解析結果の中の「落ち込み(名詞)」にマッチする。即ち、平易化前表現「落ち込み(名詞)」を平易化後表現「下がる(動詞)」に変換する規則が、入力文に対して適用可能となる。この規則を適用すると、「需要(名詞)/の(助詞)」→「下がる(動詞)/が(助詞)」→「大きい(形容詞)」という表現(係り受け解析結果データ)が得られる。単に平易化規則を適用しただけでは、名詞が用言に置き換わるので、文の構文が一時的に崩れるが、後の処理で構文が正常化される。   Next, in step S2, the simplification rule application unit 30 applies the simplification rule read from the simplification rule table storage unit 130 to the dependency analysis result. Specifically, the simplification rule applying unit 30 performs processing for matching the expression included in the dependency analysis result with the expression before simplification in the simplification rule table. In this example, among the simplification rules illustrated in FIG. 2, the expression “depression (noun)” before simplification matches “depression (noun)” in the dependency analysis result. In other words, a rule for converting the expression “down (noun)” before simplification into the expression “down (verb)” after simplification can be applied to the input sentence. When this rule is applied, an expression (dependency analysis result data) of “demand (noun) / no (particle)” → “lower (verb) / ga (particle)” → “large (adjective)” is obtained. By simply applying the simplification rules, the nouns are replaced by the nouns, so the syntax of the sentence is temporarily broken, but the syntax is normalized in later processing.

次にステップS3において、修飾句変換規則選択部40は、修飾句変換規則テーブル記憶部140から読み出した修飾句変換規則を、上記の係り受け解析結果に適用する。具体的には、修飾句変換規則選択部40は、係り受け解析結果に含まれる修飾句「需要/の」というパターンを、修飾句変換規則テーブル中の置換前(連体修飾句)のパターンにマッチさせる処理を行う。本例では、図3に示した修飾句変換規則のうち、5行目の「〜〜の」というパターンが、入力文側から得られた「需要/の」にマッチする。そして、選ばれた変換規則における置換後(連用修飾句)のパターンは「〜〜が/を/で/に」であるため、元の「需要/の」は、「需要/が」、「需要/を」、「需要/で」、「需要/に」のいずれかに変換可能となる。   Next, in step S3, the modifier phrase conversion rule selection unit 40 applies the modifier phrase conversion rule read from the modifier phrase conversion rule table storage unit 140 to the dependency analysis result. Specifically, the modifier phrase conversion rule selection unit 40 matches the pattern “demand / no” of the modifier phrase included in the dependency analysis result with the pattern before substitution (combined modifier phrase) in the modifier phrase conversion rule table. To perform the process. In the present example, in the modifier phrase conversion rule shown in FIG. 3, the pattern “˜˜” on the fifth line matches “demand /” obtained from the input sentence side. And, since the pattern after substitution (continuous modifier) in the selected conversion rule is “˜˜ /////”, the original “demand /” is “demand / ga”, “demand” / "," Demand / de ", or" demand / ni "can be converted.

この修飾句変換規則を適用すると、次の4つの候補が作成される。候補1:「需要(名詞)/が(助詞)」→「下がる(動詞)/が(助詞)」→「大きい(形容詞)」。候補2:「需要(名詞)/を(助詞)」→「下がる(動詞)/が(助詞)」→「大きい(形容詞)」。候補3:「需要(名詞)/で(助詞)」→「下がる(動詞)/が(助詞)」→「大きい(形容詞)」。候補4:「需要(名詞)/に(助詞)」→「下がる(動詞)/が(助詞)」→「大きい(形容詞)」。   When this modifier phrase conversion rule is applied, the following four candidates are created. Candidate 1: “demand (noun) / ga (particle)” → “lower (verb) / ga (particle)” → “large (adjective)”. Candidate 2: “Demand (noun) / O (particle)” → “Down (verb) / GA (particle)” → “Large (adjective)”. Candidate 3: “demand (noun) / de (particle)” → “lower (verb) / ga (particle)” → “large (adjective)”. Candidate 4: “Demand (noun) / ni (particle)” → “lower (verb) / ga (particle)” → “large (adjective)”.

次にステップS4において、格フレーム照合部50は、平易化規則選択部30で得られた平易化後表現と、修飾句変換規則選択部40で得られた置換後の表現の候補とを用いて、格フレームの照合を行う。具体的には、修飾句変換規則選択部40は、ドメイン依存格フレームテーブル記憶部150に記憶されている格フレームとのマッチングを行い、マッチした格フレームのうちの出現頻度が最高のものを選択する。本例では、ステップS2で得られた平易化後表現「下がる(動詞)」と、ステップS3で得られた置換後の候補「需要/が」、「需要/を」、「需要/で」、「需要/に」のそれぞれとの組み合わせにより、「需要/が/下がる」、「需要/を/下がる」、「需要/で/下がる」「需要/に/下がる」の4通りの候補が得られている。そして、格フレーム照合部50は、ドメイン依存格フレームテーブル記憶部150を参照することにより、これら4つの候補中で最も出現頻度の高い「需要/が/下がる」を選択する。既に述べたように、ドメイン依存格フレームテーブルは入力文に合ったドメインにおける大量の文書に基づいて作成されており、且つ、格フレーム照合部50は実際の出現頻度を用いて候補からの選択を行うので、そのドメインにおいて自然な平易文への変換を行うことができる。
このステップまでの処理で、入力文の中の「需要/の/落ち込み」という表現を「需要/が/下がる」という表現に変換することが可能となった。つまり、入力文に対応する係り受け解析データは、「需要(名詞)/が(助詞)」→「下がる(動詞)/が(助詞)」→「大きい(形容詞)」
Next, in step S4, the case frame matching unit 50 uses the simplified expression obtained by the simplifying rule selecting unit 30 and the candidate for the replaced expression obtained by the modifier conversion rule selecting unit 40. Match case frames. Specifically, the modifier phrase conversion rule selection unit 40 performs matching with the case frame stored in the domain-dependent case frame table storage unit 150, and selects the case frame with the highest appearance frequency. To do. In this example, the simplified expression “down (verb)” obtained in step S2, and the replacement candidates “demand / ga”, “demand / ga”, “demand / ga”, “demand / da” obtained in step S3, By combining with each of “demand / ni”, four candidates of “demand / go / decrease”, “demand / decrease / decrease”, “demand / de / decrease” and “demand / decrease / decrease” are obtained. ing. Then, the case frame matching unit 50 refers to the domain-dependent case frame table storage unit 150 to select “demand / go / fall” with the highest appearance frequency among these four candidates. As already described, the domain-dependent case frame table is created based on a large number of documents in the domain that matches the input sentence, and the case frame matching unit 50 selects from the candidates using the actual appearance frequency. Therefore, it is possible to perform conversion into a plain text that is natural in the domain.
Through the processing up to this step, it has become possible to convert the expression “demand / no / decline” into an expression “demand / no / decline” in the input sentence. That is, the dependency analysis data corresponding to the input sentence is “demand (noun) / ga (particle)” → “down (verb) / ga (particle)” → “large (adjective)”.

次にステップS5において、体言変換規則選択部60は、体言変換規則テーブル160を参照することによって、名詞に付属している助詞と、名詞が修飾している自立語から体言化に必要な名詞を適用し、用言を名詞に変換する。本例では、入力文に対応する係り受け解析結果内の「大きい」が、名詞(落ち込み)が修飾している自立語である。また、入力文に対応する係り受け解析結果内の「落ち込み/が」の「落ち込み」が名詞であり、「が」はその名詞に付属している助詞である。図5に示した体言変換規則テーブルでは、自立語「大きい」および助詞「が」にマッチする規則は、4行目のデータであり、従って体言化に必要な名詞は「度合い」である。つまり、体言変換規則選択部60は、「が/大きい → 度合い」という規則を入力文に適用する。その結果、体言変換規則選択部60は「需要/が/下がる/度合い/が/大きい」という平易化後の文を得て、この出力文を出力文記憶部70に書き込む。   Next, in step S5, the noun conversion rule selection unit 60 refers to the noun conversion rule table 160 to determine the noun necessary for the nounization from the particle attached to the noun and the independent word modified by the noun. Apply and convert predicates to nouns. In this example, “large” in the dependency analysis result corresponding to the input sentence is an independent word that is modified by a noun (depression). In addition, “depression” of “depression / ga” in the dependency analysis result corresponding to the input sentence is a noun, and “ga” is a particle attached to the noun. In the dialect conversion rule table shown in FIG. 5, the rule that matches the independent word “large” and the particle “ga” is the data on the fourth line, and therefore the noun necessary for the sophistication is “degree”. That is, the noun conversion rule selection unit 60 applies the rule “large / large → degree” to the input sentence. As a result, the syntactic conversion rule selection unit 60 obtains the simplified sentence “demand / reduced / decrease / degree / large” and writes the output sentence to the output sentence storage unit 70.

以上説明したように、文書平易化装置1は、「需要の落ち込みが大きい」という文の入力を受け、平易化規則(落ち込み→下がる)と、修飾句変換規則と、ドメイン依存格フレームテーブルと、体言変換規則により、「需要が下がる度合いが大きい」と言い換えた。この例は、文書平易化装置1が、文意を変えることなく自然な表現を用いて平易化できていることを示している。   As described above, the document simplification apparatus 1 receives an input of the sentence “the demand drop is large”, the simplification rule (drop → drop), the modifier conversion rule, the domain-dependent case frame table, In other words, it was rephrased as “the degree of demand is large.” This example shows that the document simplification apparatus 1 can simplify using the natural expression without changing the meaning of the sentence.

[第2の実施の形態]
次に、第2の実施形態について説明する。なお、前実施形態と共通の技術事項については説明を省略し、ここでは本実施形態特有の構成等について記載する。
前実施形態においては、文書平易化装置1は、各種のテーブルに記憶されたデータを用いて入力文を平易な文に変換し、出力していた。ここで新たな課題は、平易化規則テーブルのデータを作成する手間を削減することである。平易化規則テーブルの作成を自動化できれば、文書平易化装置をより低コストで効率よく実現することが可能となる。
[Second Embodiment]
Next, a second embodiment will be described. In addition, description is abbreviate | omitted about the technical matter common to previous embodiment, and the structure peculiar to this embodiment is described here.
In the previous embodiment, the document simplification apparatus 1 converts an input sentence into a plain sentence using data stored in various tables, and outputs it. Here, a new problem is to reduce the trouble of creating the data of the simplification rule table. If the creation of the simplification rule table can be automated, the document simplification apparatus can be efficiently realized at a lower cost.

図7は、第2の実施形態による文書平易化装置の機能構成を示すブロック図である。図示するように、文書平易化装置2が、第1の実施形態で述べた文書平易化装置1と異なる点は、平易化規則テーブル作成装置200を設けたことである。図中のその他の機能ブロックは、文書平易化装置1におけるそれらと同様の機能を有する。
平易化規則テーブル作成装置200は、辞書データなどを用いて平易化規則を自動的に生成し、作成した規則を平易化規則テーブル記憶部130に書き込む。
FIG. 7 is a block diagram showing a functional configuration of the document simplification apparatus according to the second embodiment. As shown in the figure, the document simplification apparatus 2 is different from the document simplification apparatus 1 described in the first embodiment in that a simplification rule table creation apparatus 200 is provided. Other functional blocks in the figure have the same functions as those in the document simplification apparatus 1.
The simplification rule table creation device 200 automatically generates a simplification rule using dictionary data or the like, and writes the created rule in the simplification rule table storage unit 130.

図8は、平易化規則テーブル作成装置200の詳細な機能構成を示すブロック図である。図示するように、平易化規則テーブル作成装置200は、
用言変換対作成部210と、置換可能単語対作成部220と、平易化規則候補認定部230と、文脈類似認定部240と、置換可能単語対テーブル記憶部310と、平易化規則候補テーブル記憶部320と、同義語辞書テーブル記憶部410と、辞書テーブル記憶部420(関連語記憶部)と、シソーラステーブル記憶部430(関連語記憶部)と、単語難易度テーブル記憶部440と、文脈類似テーブル記憶部450とを含んで構成される。これらの各部も、電子回路および記憶媒体を用いて実現される。
FIG. 8 is a block diagram showing a detailed functional configuration of the simplification rule table creation device 200. As shown in the figure, the simplification rule table creation device 200
Predicate conversion pair creation unit 210, replaceable word pair creation unit 220, simplification rule candidate recognition unit 230, context similarity recognition unit 240, replaceable word pair table storage unit 310, and simplification rule candidate table storage Unit 320, synonym dictionary table storage unit 410, dictionary table storage unit 420 (related word storage unit), thesaurus table storage unit 430 (related word storage unit), word difficulty level table storage unit 440, and context similarities And a table storage unit 450. Each of these units is also realized using an electronic circuit and a storage medium.

用言変換対作成部210は、同義語辞書テーブル記憶部410から読み出した同義語データが用言データである場合に、その同義語データと、関連付けられた名詞データとを、用言変換対データとして出力する。
置換可能単語対作成部220は、用言変換対作成部210から出力された用言変換対データに含まれる名詞データと同義語データのそれぞれに基づいて、辞書テーブル記憶部420およびシソーラステーブル記憶部430を読み出す。そして、これらの各記憶部から読み出した見出し語と関連語との対を、置換前の語と置換後の語との置換可能単語対データとして出力する。置換可能単語対作成部220は、作成した置換可能単語対データを置換可能単語対テーブル記憶部310に書き込む。
When the synonym data read from the synonym dictionary table storage unit 410 is the predicate data, the prescriptive conversion pair creation unit 210 converts the synonym data and the associated noun data into the predicate conversion pair data. Output as.
The replaceable word pair creation unit 220 includes a dictionary table storage unit 420 and a thesaurus table storage unit based on the noun data and the synonym data included in the word conversion pair data output from the predicate conversion pair creation unit 210. 430 is read. Then, the pair of the headword and the related word read from each storage unit is output as replaceable word pair data of the word before replacement and the word after replacement. The replaceable word pair creation unit 220 writes the created replaceable word pair data in the replaceable word pair table storage unit 310.

平易化規則候補認定部230は、置換可能単語対作成部220から出力された置換可能単語対データに関して、単語難易度テーブル記憶部から単語データに対応付けられた難易度データを読み出す。そして、この難易度データに基づき、置換前の語よりも置換後の語の方が平易である場合にのみ置換可能単語対データを平易化規則候補データとして認定する。平易化規則候補認定部230は、認定した平易化規則候補データを平易化規則候補テーブル記憶部320に書き込む。
文脈類似認定部240は、平易化規則候補認定部230によって認定された平易化規則候補データに関して、文脈類似テーブル記憶部450を参照することにより、置換前の語と置換後の語とが文脈類似な関係にある場合のみ平易化規則候補データを平易化規則データとして認定し、認定された平易化規則データを平易化規則テーブル記憶部130に書き込む。
The simplification rule candidate recognition unit 230 reads the difficulty level data associated with the word data from the word difficulty level table storage unit for the replaceable word pair data output from the replaceable word pair creation unit 220. Based on the difficulty level data, the replaceable word pair data is recognized as the simplification rule candidate data only when the replaced word is easier than the replaced word. The simplification rule candidate recognition unit 230 writes the approved simplification rule candidate data in the simplification rule candidate table storage unit 320.
The context similarity recognition unit 240 refers to the context similarity table storage unit 450 for the simplification rule candidate data recognized by the simplification rule candidate recognition unit 230, so that the word before replacement and the word after replacement are context-similar. The simplification rule candidate data is recognized as simplification rule data only when there is a negative relationship, and the approved simplification rule data is written in the simplification rule table storage unit 130.

置換可能単語対テーブル記憶部310は、置換可能単語対作成部220によって作成された置換可能単語対のデータを記憶する。
平易化規則候補テーブル記憶部320は、平易化規則候補認定部230によって認定された平易化規則候補データを記憶する。
The replaceable word pair table storage unit 310 stores replaceable word pair data created by the replaceable word pair creation unit 220.
The simplification rule candidate table storage unit 320 stores simplification rule candidate data certified by the simplification rule candidate certification unit 230.

同義語辞書テーブル記憶部410は、名詞データと、この名詞データに対する同義語データとを関連付けて記憶する。
辞書テーブル記憶部420は、見出し語と、その見出し語の語釈文の最終文節の自立語とを関連付けて記憶する。辞書テーブル記憶部420は、見出し語と関連語の対を記憶する関連語記憶部として機能する。この場合、語釈文の最終文節の自立語が関連語に相当する。
シソーラステーブル記憶部430は、見出し語と、その見出し語の類義語またはその見出し語の上位語とを関連付けて記憶する。シソーラステーブル記憶部430は、見出し語と関連語の対を記憶する関連語記憶部として機能する。この場合、見出し語の類義語または上位語が関連語に相当する。
単語難易度テーブル記憶部440は、単語データと、その単語データの難易度を表す難易度データとを対応付けて記憶する。
文脈類似テーブル記憶部450は、単語データと、単語データと文脈類似な他の単語との対応関係を記憶する。なお、文脈類似という関係については、後で詳述する。
The synonym dictionary table storage unit 410 associates and stores noun data and synonym data for the noun data.
The dictionary table storage unit 420 stores the headword and the self-supporting word of the final phrase of the word sentence of the headword in association with each other. The dictionary table storage unit 420 functions as a related word storage unit that stores pairs of headwords and related words. In this case, the independent word in the last sentence of the sentence corresponds to the related word.
The thesaurus table storage unit 430 stores a headword and a synonym of the headword or a broader term of the headword in association with each other. The thesaurus table storage unit 430 functions as a related word storage unit that stores pairs of headwords and related words. In this case, the synonym or broader term of the headword corresponds to the related word.
The word difficulty level table storage unit 440 stores word data and difficulty level data representing the difficulty level of the word data in association with each other.
The context similarity table storage unit 450 stores the correspondence between the word data and other words similar in context to the word data. The context similarity is described later in detail.

次に、平易化規則テーブル作成装置200において用いられる主要なデータについて説明する。
図9は、同義語辞書テーブルの構成とデータ例を示す概略図である。図示するように、同義語辞書テーブルは、表形式のデータであり、名詞と、同義表現(同義語データ)と、同義表現品詞の各項目を有する。このテーブルの1行のデータが、ある名詞と、その名詞と同義である他の語およびその品詞の関係を表す。なお、同義語辞書テーブルのデータは、予め、同義語辞典を元に作成したり、動詞連用形名詞等とその派生元の単語(用言)とのペアを元に作成したりしておく。一例として、図示するデータ例の1行目は、「戒め」という名詞(動詞連用形名詞)と、その同義表現である「戒める」という動詞と、当該同義表現の品詞「動詞」との関連を表している。また、4行目は、「かわいさ」という名詞(形容詞から派生した名詞)と、その同義表現である「かわいい」という形容詞と、当該同義表現の品詞「形容詞」との関連を表している。また、同義語辞書テーブルが形容動詞から派生した名詞と、派生元の形容動詞との関係を表すデータを記憶するようにしても良い。
Next, main data used in the simplification rule table creation device 200 will be described.
FIG. 9 is a schematic diagram illustrating a configuration and data example of the synonym dictionary table. As shown in the figure, the synonym dictionary table is tabular data, and includes items of noun, synonym expression (synonym data), and synonym part-of-speech. One line of data in this table represents the relationship between a noun, another word synonymous with that noun, and its part of speech. The data of the synonym dictionary table is created in advance based on a synonym dictionary or based on a pair of a verb conjunctive noun or the like and a derivation word (predicate). As an example, the first line of the illustrated data example shows the relationship between the noun “command” (verb combined noun) and its synonym “verm” verb and the part of speech “verb” of the synonym. ing. The fourth line represents the relationship between the noun “Kawaisa” (a noun derived from the adjective), the synonym “cute”, and the part of speech “adjective” of the synonym. The synonym dictionary table may store data representing the relationship between the noun derived from the adjective verb and the derivation adjective verb.

図10は、辞書テーブルの構成とデータ例を示す概略図である。図示するように、辞書テーブルは、表形式のデータであり、見出し語と、語義(関連語)の各項目を有する。なお、辞書テーブルのデータは、国語(日本語)辞典のデータなどを元に予め作成しておく。具体的には、国語辞典データが見出し語と語釈文のデータを含むとき、語釈文中の最終文節に含まれる自立語を辞書テーブル中の語義として格納するようにする。例えば、国語辞典データ内の見出し語「救い」に対応して、語釈文「救うこと。助けること。」というデータが存在する場合、この語釈文に含まれるそれぞれの最終文節の自立語は「救う」と「助ける」である。従って、見出し語「救い」−語義「救う」というデータと、見出し語「救い」−語義「助ける」というデータを、辞書テーブルに含めることができる。図示するデータ例の1行目では、見出し語「戒める」に対する語義は「しかる」である。   FIG. 10 is a schematic diagram showing the configuration of the dictionary table and data examples. As shown in the figure, the dictionary table is tabular data, and includes headwords and meaning (related words) items. Note that the data in the dictionary table is created in advance based on data in a Japanese (Japanese) dictionary. More specifically, when the Japanese dictionary data includes headword and interpretation data, the independent word included in the last phrase in the interpretation sentence is stored as the meaning in the dictionary table. For example, if there is data of the sentence “save, help.” Corresponding to the heading word “save” in the Japanese dictionary data, the independent word of each final phrase included in this sentence will be “save” And “help”. Therefore, the data of the headword “save” −meaning “save” and the data of the headword “save” −meaning “help” can be included in the dictionary table. In the first line of the data example shown in the figure, the meaning of the headword “command” is “Shiaru”.

図11は、シソーラステーブルの構成とデータ例を示す概略図である。図示するように、シソーラステーブルは、表形式のデータであり、見出し語と、シソーラス(関連語)の各項目を有する。シソーラスは、例えば、見出し語の類義語や、見出し語の上位語である。図示するデータ例の1行目は、見出し語「高まる」の類義語または上位語が「上がる」であることを表している。   FIG. 11 is a schematic diagram illustrating the configuration of the thesaurus table and data examples. As shown in the figure, the thesaurus table is tabular data, and includes headwords and thesaurus (related words). The thesaurus is, for example, a synonym of a headword or a broader term of a headword. The first line of the illustrated data example indicates that the synonym or broader term of the headword “rising” is “rising”.

図12は、上記のシソーラステーブルを作成するための元となるデータの構成例を示す概略図である。図示するデータは、木構造のデータの一部分であり、ノードAとBとCを含んでいる。この図において、ノードの位置が上側であるほど単語や概念が上位のものであり、ノードの位置が下側であるほど単語や概念が下位のものであることを表している。また、同一ノード内にある単語は相互に類義である。このような上位・下位の関係を表すデータの一例として、日本語ワードネットなどがある。この木構造のデータを元に、ある単語と同一ノード内の単語とを対としたり、ある単語とその単語が属するノードの1段階上位のノードに属する単語とを対としたりして、シソーラステーブルを作成することができる。例えば、ノードBに属する単語「見込み」とその上位ノードAに属する単語「予測」とから、図11の第2行目に示す対(見込み,予測)を作成できる。また例えば、ノードBに属する単語「見込み」と同じくノードBに属する単語「期待」とから、図11の第3行目に示す対(見込み,期待)を作成できる。   FIG. 12 is a schematic diagram illustrating a configuration example of data serving as a basis for creating the thesaurus table. The illustrated data is a part of tree-structured data, and includes nodes A, B, and C. In this figure, the higher the node position, the higher the word or concept, and the lower the node position, the lower the word or concept. In addition, words in the same node are similar to each other. An example of data representing such a higher / lower relationship is a Japanese word net. Based on the data of this tree structure, a thesaurus table is created by pairing a word with a word in the same node, or pairing a word and a word belonging to a node one level higher than the node to which the word belongs. Can be created. For example, a pair (probability, prediction) shown in the second row of FIG. 11 can be created from the word “prospect” belonging to the node B and the word “prediction” belonging to the upper node A. Further, for example, a pair (probability, expectation) shown in the third line of FIG. 11 can be created from the word “expectation” belonging to node B as well as the word “expectation” belonging to node B.

図13は、単語難易度テーブルの構成とデータ例を示す概略図である。図示するように、単語難易度テーブルは、「単語」と「難易度」が対になっているテーブルである。難易度を定めるための一例として、日本語能力試験(JLPT)出題基準データがある。ここでは、難易度の高いほうから順に、級外(数値0)>1級(数値1)>2級(数値2)>3級(数値3)>4級(数値4)である。つまり、難易度の数値が低いほど、難易度が高い。図示する例では、「戒め」という単語は難易度が級外(数値0)であり、「しかる」という単語は難易度が3級(数値3)である。つまり、「戒め」よりも「しかる」のほうが平易な単語である。   FIG. 13 is a schematic diagram illustrating a configuration of a word difficulty level table and data examples. As illustrated, the word difficulty level table is a table in which “word” and “difficulty level” are paired. As an example for determining the degree of difficulty, there is Japanese Language Proficiency Test (JLPT) question standard data. Here, in order from the highest difficulty level, it is out of class (numerical value 0)> first class (numerical value 1)> second class (numerical value 2)> third class (numerical value 3)> fourth class (numerical value 4). In other words, the lower the difficulty level, the higher the difficulty level. In the example shown in the figure, the word “command” has a difficulty level outside the range (numerical value 0), and the word “definite” has a difficulty level 3 (number 3). In other words, “Karuru” is a simpler word than “Commandments”.

図14は、文脈類似テーブルの構成とデータ例を示す概略図である。図示するように、文脈類似テーブルは、例えば表形式のデータとして実現され、単語と、その単語に対応する文脈類似単語の各項目を有している。文脈類似単語の項目は単語のリストを値として保持する。つまり、文脈類似テーブルは、単語と、その単語と文脈類似な単語(のリスト)との対応関係を保持する。文脈類似単語リストの項目に格納されるリストは、単語の項目に格納される単語との間で所定の閾値以上の文脈類似度を有する単語のリストである。ここで用いる文脈類似度は、特定のドメインに依存しない一般的なものであり、その算出方法については後述する。図示するデータ例は、単語「戒める」に対応する文脈類似単語リストには、「注意する」という単語が含まれている。ここで、「・・・」は、リスト中の他の単語の記載を省略していることを表している。また、単語「高まる」に対応する文脈類似単語リストには、「上がる」という単語が含まれている。
なお、「戒め」と「戒める」や、「高まり」と「高まる」など、動詞連用形名詞とその派生元の動詞とは文脈類似であるが、このような派生関係にある単語動詞については、文脈類似テーブルへの登録を省略しても良い。
FIG. 14 is a schematic diagram illustrating a configuration of the context similarity table and a data example. As shown in the figure, the context similarity table is realized as, for example, tabular data, and includes items of a word and a context similar word corresponding to the word. The context-similar word item holds a list of words as a value. In other words, the context similarity table holds a correspondence relationship between a word and a word (list) of the word and a context similar word. The list stored in the item of the context similar word list is a list of words having a context similarity equal to or higher than a predetermined threshold with the word stored in the word item. The context similarity used here is a general one that does not depend on a specific domain, and a calculation method thereof will be described later. In the illustrated data example, the word “caution” is included in the context similar word list corresponding to the word “command”. Here, “...” Indicates that description of other words in the list is omitted. Further, the context similar word list corresponding to the word “rising” includes the word “rising”.
Note that verb conjunctive nouns such as “command” and “command”, “rise” and “rise” are similar in context to the verbs from which they are derived. Registration in the similar table may be omitted.

ここで、単語間の文脈類似という関係について詳しく説明する。文脈類似度を計算するためには、予めウェブなどから大量の文を収集しておき、その文集合を利用する。与えられた文集合において単語wと単語wが出現するとき、当該文集合に含まれる文において単語wが出現する文における単語wの文脈と、当該文集合に含まれる文において単語wが出現する文における単語wの文脈とを基に、両方の文脈間の類似度(文脈類似度)を数値的に算出し、その類似度が所定の閾値以上であるときに、その文集合において単語wと単語wとは文脈類似である。典型例としては、与えられた文集合において「私の好きな色は赤です。」という表現と「私の好きな色は青です。」という表現がともに多数出現する場合、「赤」という単語と「青」という単語とは文脈類似と言える。なお、ここで言う文脈とは、文内において単語wや単語wと共起する単語の集合や、それら共起語の出現頻度分布や、単語wや単語wを取り巻く係り受け関係などである。 Here, the relationship of context similarity between words will be described in detail. In order to calculate the context similarity, a large amount of sentences are collected in advance from the web or the like, and the sentence set is used. When words w 1 and word w 2 appears at a given set of sentences, and context of the words w 1 in sentence word w 1 appears in the sentence included in the set of sentences, words in the sentence included in the set of sentences Based on the context of the word w 2 in the sentence in which w 2 appears, the similarity between both contexts (context similarity) is calculated numerically, and when the similarity is equal to or greater than a predetermined threshold, In the sentence set, the word w 1 and the word w 2 are context-similar. As a typical example, the word “red” appears when there are many expressions of “my favorite color is red” and “my favorite color is blue” in a given sentence set. And the word “blue” are similar in context. The context mentioned here is a set of words that co-occur in the sentence with the word w 1 and the word w 2 , the appearance frequency distribution of the co-occurrence words, and the dependency relations surrounding the word w 1 and the word w 2. Etc.

文脈類似度を算出する方法についての例を説明する。与えられた文集合に対して、語w(但し、w∈W)に対する共起語をv(v∈V)とし、語wと語vとが共起する頻度をfreq(w,v)とする。
(a)係り受け関係を利用する場合
前記の文集合に含まれる各文について、形態素解析処理および係り受け解析処理を行う。形態素解析処理および係り受け解析処理自体は、コンピュータおよび既存のコンピュータプログラムを用いて行うことができる。そして、係り受け解析処理の結果を元に、格助詞に着目し、名詞wに対する共起動詞の出現頻度を表す共起動詞ベクトルを作成する。
(b)文内共起を利用する場合
前記の文集合に含まれる各文について、形態素解析処理および文節区切り処理を行う。文節区切り処理も、コンピュータおよび既存のコンピュータプログラムを用いて行うことができる。そして、名詞wと文内で共起する名詞vを抜き出し、これを共起ペアとする。
上記の係り受け関係または文内共起を利用し、共起頻度行列Cを作成する。そして、得られた共起頻度行列Cを用いて、(1)ジャッカード係数の値を計算して単語wとwの間の文脈類似度としたり、(2)共起頻度行列Cを基に単語w,wのそれぞれに対応してtf−idfで重み付けした共起語ベクトルを求め、これらのベクトル間のコサイン尺度を単語wとwの間の文脈類似度としたり、(3)単語w,wが出現した文の数を、それぞれ、s(w),s(w)と、単語w,wが同一文内で共起した回数をs(w,w)とに基づいて相互情報量(PMI,Pointwise Mutual Information)を計算して単語wとwの間の文脈類似度とする。
An example of a method for calculating the context similarity will be described. For a given sentence set, the co-occurrence word for the word w (where w∈W) is v (v∈V), and the frequency at which the word w and the word v co-occur is freq (w, v). To do.
(A) When using a dependency relation For each sentence included in the sentence set, a morphological analysis process and a dependency analysis process are performed. The morpheme analysis process and the dependency analysis process itself can be performed using a computer and an existing computer program. Then, based on the result of the dependency analysis process, paying attention to the case particle, a co-starter vector representing the appearance frequency of the co-starter for the noun w is created.
(B) When using intra-sentence co-occurrence For each sentence included in the sentence set, a morphological analysis process and a phrase delimiting process are performed. The phrase delimiting process can also be performed using a computer and an existing computer program. Then, the noun w and the noun v that co-occurs in the sentence are extracted and set as a co-occurrence pair.
The co-occurrence frequency matrix C is created using the dependency relationship or the intra-sentence co-occurrence. Then, using the obtained co-occurrence frequency matrix C, (1) the value of the Jackard coefficient is calculated as the context similarity between the words w 1 and w 2 , or (2) the co-occurrence frequency matrix C is The co-occurrence word vector weighted by tf-idf corresponding to each of the words w 1 and w 2 is obtained based on the cosine measure between these vectors as the context similarity between the words w 1 and w 2 , (3) s (w 1 ) and s (w 2 ) are the numbers of sentences in which the words w 1 and w 2 appear, respectively, and the number of times the words w 1 and w 2 co-occur in the same sentence are s ( A mutual information amount (PMI, Pointwise Mutual Information) is calculated based on w 1 , w 2 ) to obtain a context similarity between the words w 1 and w 2 .

また、言い換えれば、単語間の文脈類似とは、与えられた文集合において、ある文内において第1の単語が出現する文脈と、ある文内において第2の単語が出現する文脈との類似度に基づくものである。このとき、第1の単語が出現する文と第2の単語が出現する文とは異なる文である場合もあり、また第1の単語と第2の単語が偶々同一の文内に出現する場合もある。この文脈の類似度は、文集合が与えられたときに、数値として算出されるものである。ここで文脈とは、例えば、単語が出現する文内(つまり、上記の第1の単語に対しては当該第1の単語が出現する文内であり、上記の第2の単語に対しては当該第2の単語が出現する文内)において前記単語と共起する他の単語(共起語と呼ぶ)の集合や、共起語の出現頻度分布や、共起語の出現順序や、当該単語が出現する文の係り受け解析結果(これは、係り受け解析木や、等価なデータ等で表される)の構造(その構造における前記単語の位置も含む)やその構造の出現頻度分布などである。これら例示した文脈を用いて、所定の処理により単語間の文脈類似度が計算される。そして、文脈類似度が所定の閾値以上のときに、それらの単語同士は文脈類似であると言う。   In other words, the context similarity between words is the similarity between the context in which a first word appears in a sentence and the context in which a second word appears in a sentence in a given sentence set. It is based on. At this time, the sentence in which the first word appears and the sentence in which the second word appear may be different sentences, and the first word and the second word appear by chance in the same sentence There is also. The similarity of the context is calculated as a numerical value when a sentence set is given. Here, the context is, for example, in a sentence in which a word appears (that is, in the sentence in which the first word appears for the first word, and for the second word A set of other words (called co-occurrence words) that co-occur with the word in the sentence in which the second word appears, the appearance frequency distribution of co-occurrence words, the appearance order of co-occurrence words, Dependency analysis results of sentences in which words appear (this is represented by a dependency analysis tree, equivalent data, etc.) (including the position of the word in the structure), appearance frequency distribution of the structure, etc. It is. Using these exemplified contexts, context similarity between words is calculated by a predetermined process. When the context similarity is equal to or greater than a predetermined threshold, the words are said to be context-similar.

次に、処理データの実例に基づき、平易化規則テーブル作成装置200の具体的な処理手順を説明する。
図15は、平易化規則テーブル作成装置200の処理手順を示すフローチャートである。以下、このフローチャートに沿って説明する。なお、予め、入力文記憶部10が、外部から入力された文「需要の落ち込みが大きい。」を記憶しており、この文が平易化の対象となる。
Next, a specific processing procedure of the simplification rule table creation device 200 will be described based on an example of processing data.
FIG. 15 is a flowchart showing the processing procedure of the simplification rule table creation device 200. Hereinafter, it demonstrates along this flowchart. It should be noted that the input sentence storage unit 10 stores in advance a sentence “a demand drop is large” inputted from the outside, and this sentence becomes a target of simplification.

まずステップS21において、用言変換対作成部210が、同義語辞書テーブル410から読み出したデータに基づいて、用言変換対のデータを作成する。例えば、用言変換対作成部210は、図9に示した同義語辞書テーブルのデータ例の第1行目を読み込むと、「戒め→戒める(動詞)」という用言変換対を作成し、内部のメモリに保持する。   First, in step S <b> 21, the word conversion pair creation unit 210 creates data of a word conversion pair based on the data read from the synonym dictionary table 410. For example, when reading the first line of the data example of the synonym dictionary table shown in FIG. 9, the prescriptive conversion pair creation unit 210 creates a prescriptive conversion pair of “command to commandment (verb)” Keep in memory.

次にステップS22において、置換可能単語対作成部220は、辞書テーブル記憶部420およびシソーラステーブル記憶部430から読み出したデータに基づいて、置換可能単語対のデータを作成する。具体的には、置換可能単語対作成部220は、用言変換対作成部210で作成された用言変換対をメモリから読み出し、読み出した用言変換対を置換可能単語対テーブル記憶部310に書き込む。また、置換可能単語対作成部220は、読み出した用言変換対に含まれる名詞および同義表現(用言)のそれぞれを辞書テーブルおよびシソーラステーブルと照合し、照合の結果として得られた対を置換可能単語対テーブル記憶部310に書き込む。   Next, in step S22, replaceable word pair creation unit 220 creates replaceable word pair data based on the data read from dictionary table storage unit 420 and thesaurus table storage unit 430. Specifically, the replaceable word pair creation unit 220 reads the word conversion pair created by the word conversion pair creation unit 210 from the memory, and stores the read word conversion pair in the replaceable word pair table storage unit 310. Write. Also, the replaceable word pair creation unit 220 compares each of the nouns and synonym expressions (prescriptions) included in the read prescription conversion pair with the dictionary table and the thesaurus table, and replaces the pair obtained as a result of the collation The possible word pair table storage unit 310 is written.

例えば、用言変換対作成部210から渡された「戒め→戒める」という対に関して、置換可能単語対作成部220は、この対「戒め→戒める」そのものと、「戒める」という単語を辞書テーブル(図10)の1行目と照合して得られる対「戒め→しかる」と、同じく4行目と照合して得られる対「戒め→注意する」とを、置換可能単語対テーブル記憶部310に書き込む。また、例えば、用言変換対作成部210から渡された「高まり→高まる」という対に関して、置換可能単語対作成部220は、この対「高まり→高まる」そのものと、「高まる」という単語を辞書テーブル(図11)の1行目と照合して得られる対「高まり→上がる」とを、置換可能単語対テーブル記憶部310に書き込む。つまり、ここに挙げた例では、置換可能単語対作成部220は、「戒め→戒める」と、「戒め→しかる」と、「戒め→注意する」と、「高まり→高まる」と、「高まり→上がる」の4つの対を置換可能単語対として作成し、置換可能単語対テーブル記憶部310に書き込む。   For example, regarding the pair “command-> command” passed from the predicate conversion pair creation unit 210, the replaceable word pair creation unit 220 stores the word “command-> command” and the word “command” in a dictionary table ( In FIG. 10), the pair “command-> right” obtained by collating with the first line of FIG. 10 and the pair “command-> caution” obtained by collating with the fourth line in the replaceable word pair table storage unit 310. Write. Further, for example, regarding the pair “increased → increased” passed from the predicate conversion pair creation unit 210, the replaceable word pair creation unit 220 creates a dictionary of the word “increased → increased” and the word “increased”. The pair “increased → rise” obtained by collating with the first line of the table (FIG. 11) is written in the replaceable word pair table storage unit 310. In other words, in the example given here, the replaceable word pair creation unit 220 performs “command-> command”, “command-> appropriate”, “command-> caution”, “increased → increased”, and “increased → Four pairs of “rising” are created as replaceable word pairs and written into the replaceable word pair table storage unit 310.

次にステップS23において、平易化規則候補認定部230は、単語難易度テーブル記憶部440から読み出したデータに基づいて、上で作成された置換可能単語対の中から平易化規則候補を認定する。具体的には、平易化規則候補認定部230は、置換可能単語対テーブル記憶部310から読み出した置換可能対の各々について、置換前の難易度と置換後の難易度との比較を行う。そして、置換前の難易度よりも置換後の難易度のほうが低い(難易度の数値が高い)場合に、その置換可能単語対を平易化規則候補として認定し、平易化規則候補テーブル記憶部320に書き込む。例えば、図13に示した単語難易度テーブルを用いる場合、「戒め」と「戒める」とでは難易度が同等であるため、平易化規則候補認定部230は、置換可能単語対「戒め→戒める」を平易化規則候補として認定しない。また、「戒め」と「しかる」とでは置換後の「しかる」の方の難易度がより低い(平易である)ため、平易化規則候補認定部230は、置換可能単語対「戒め→しかる」を平易化規則候補として認定し、平易化規則候補テーブル記憶部320に書き込む。同様に、平易化規則候補認定部230は、「戒め→注意する」を平易化規則候補として認定し、平易化規則候補テーブル記憶部320に書き込む。同様に、平易化規則候補認定部230は、「高まり→高まる」と「高まり→上がる」もそれぞれ平易化規則候補として認定し、平易化規則候補テーブル記憶部320に書き込む。   Next, in step S23, the simplification rule candidate recognition unit 230 recognizes the simplification rule candidate from the replaceable word pairs created above based on the data read from the word difficulty level table storage unit 440. Specifically, the simplification rule candidate recognition unit 230 compares the difficulty level before replacement with the difficulty level after replacement for each replaceable pair read from the replaceable word pair table storage unit 310. Then, when the difficulty level after replacement is lower than the difficulty level before replacement (the numerical value of the difficulty level is high), the replaceable word pair is recognized as a simplification rule candidate, and the simplification rule candidate table storage unit 320. Write to. For example, when the word difficulty level table shown in FIG. 13 is used, the difficulty level is the same between “command” and “command”, and therefore the simplification rule candidate recognition unit 230 sets the replaceable word pair “command → command”. Is not recognized as a candidate for simplification rule. Moreover, since the difficulty level of “Karuru” after replacement is lower (simpler) between “command” and “Shiaru”, the simplification rule candidate recognition unit 230 makes the replaceable word pair “command → Saru”. Is recognized as a simplification rule candidate and written into the simplification rule candidate table storage unit 320. Similarly, the simplification rule candidate recognition unit 230 recognizes “command to warn” as a simplification rule candidate and writes it in the simplification rule candidate table storage unit 320. Similarly, the simplification rule candidate recognition unit 230 recognizes “rising → rising” and “rising → rising” as simplification rule candidates, and writes them in the simplification rule candidate table storage unit 320.

次にステップS24において、文脈類似認定部240は、文脈類似テーブル記憶部450から読み出したデータに基づいて、平易化規則候補認定部230によって認定された平易化規則候補の文脈類似度認定を行う。具体的には、文脈類似認定部240は、平易化規則候補テーブル記憶部320から平易化規則候補を読み出し、その各々について、置換前の単語が置換後の単語と文脈類似であるか否かを判断する。
図14に示した文脈類似テーブルを用いる場合、「戒め」と「しかる」が文脈類似でないため、平易化規則候補認定部230によって平易化規則候補であると認定された「戒め→しかる」は、文脈類似とは認定されない。また、「戒め」と「注意する」とは文脈類似であるため、文脈類似認定部240は、「戒め→注意する」を文脈類似と認定する。また、文脈類似テーブルには登録されていないものの、前述の通り「高まり」と「高まる」とは派生関係にあり、互いに文脈類似であるため、文脈類似認定部240は、「高まり→高まる」を文脈類似と認定する。また、「高まり」と「上がる」とは文脈類似であるため、文脈類似認定部240は、「高まり→上がる」を文脈類似と認定する。
Next, in step S <b> 24, the context similarity determination unit 240 performs context similarity determination of the simplification rule candidates recognized by the simplification rule candidate recognition unit 230 based on the data read from the context similarity table storage unit 450. Specifically, the context similarity determination unit 240 reads the simplification rule candidates from the simplification rule candidate table storage unit 320, and for each of them, whether or not the word before replacement is context-similar to the word after replacement. to decide.
When the context similarity table shown in FIG. 14 is used, since “command” and “shiru” are not context-similar, “command / right” that is recognized as a simplification rule candidate by the simplification rule candidate recognition unit 230 is It is not recognized as context-similar. In addition, since “command” and “be careful” are context-similar, the context similarity determination unit 240 determines “command-> caution” as context-similar. Although not registered in the context similarity table, as described above, “increased” and “increased” have a derivation relationship and are similar to each other. Therefore, the context similarity determination unit 240 determines “increased → increased”. It is recognized as context similar. Further, since “rising” and “rising” are context-similar, the context similarity recognition unit 240 recognizes “rising → rising” as context-similar.

次にステップS25において、文脈類似認定部240は、文脈類似と認定された平易化規則を平易化規則テーブル記憶部130に書き出す。
つまり、上の例では、文脈類似認定部240は、「戒め→注意する」と「高まり→高まる」と「高まり→上がる」を平易化規則テーブル記憶部130には書き込む。そして、文脈類似認定部240は、文脈類似と認定されなかった「戒め→しかる」を平易化規則テーブル記憶部130には書き込まない。
Next, in step S <b> 25, the context similarity determination unit 240 writes the simplification rules recognized as context similar to the simplification rule table storage unit 130.
In other words, in the above example, the context similarity determination unit 240 writes “command-> caution”, “increased → increased”, and “increased → increased” in the simplification rule table storage unit 130. Then, the context similarity determination unit 240 does not write “command-> right” that has not been recognized as context similarity in the simplification rule table storage unit 130.

以上説明したように、本実施形態では、文書平易化装置2が平易化規則テーブル作成装置200を備え、平易化規則テーブルを自動的に作成する。つまり、文の平易化に必要な規則を効率的に生成することが可能となる。   As described above, in the present embodiment, the document simplification apparatus 2 includes the simplification rule table creation apparatus 200 and automatically creates a simplification rule table. That is, it is possible to efficiently generate rules necessary for sentence simplification.

なお、上述した実施形態における文書平易化装置および平易化規則テーブル作成装置の機能をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。   Note that the functions of the document simplification apparatus and the simplification rule table creation apparatus in the above-described embodiment may be realized by a computer. In that case, the program for realizing the control function may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read by a computer system and executed. Here, the “computer system” includes an OS and hardware such as peripheral devices. The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Further, the “computer-readable recording medium” dynamically holds a program for a short time, like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. It is also possible to include those that hold a program for a certain time, such as a volatile memory inside a computer system serving as a server or client in that case. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。   The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.

本発明は、一般的に大量の文章を自動的に平易化変形するために利用することができる。また本発明は、例えば、放送や、報道や、ウェブコンテンツ制作等の分野で、大量の文書や原稿等を自動的に平易化するために利用することができる。   The present invention can generally be used for automatically simplifying and transforming a large amount of text. Further, the present invention can be used for automatically simplifying a large amount of documents, manuscripts, and the like in the fields of broadcasting, reporting, web content production, and the like.

1,2 文書平易化装置
10 入力文記憶部
20 形態素解析・係り受け解析部
30 平易化規則選択部
40 修飾句変換規則選択部
50 格フレーム照合部
60 体言変換規則選択部
70 出力文記憶部
130 平易化規則テーブル記憶部
140 修飾句変換規則テーブル記憶部
150 ドメイン依存格フレームテーブル記憶部(格フレームテーブル記憶部)
160 体言変換規則テーブル記憶部
200 平易化規則テーブル作成装置
210 用言変換対作成部
220 置換可能単語対作成部
230 平易化規則候補認定部
240 文脈類似認定部
310 置換可能単語対テーブル記憶部
320 平易化規則候補テーブル記憶部
410 同義語辞書テーブル記憶部
420 辞書テーブル記憶部(関連語記憶部)
430 シソーラステーブル記憶部(関連語記憶部)
440 単語難易度テーブル記憶部
450 文脈類似テーブル記憶部
DESCRIPTION OF SYMBOLS 1, 2 Document simplification apparatus 10 Input sentence memory | storage part 20 Morphological analysis and dependency analysis part 30 Simplification rule selection part 40 Modifier phrase conversion rule selection part 50 Case frame collation part 60 Body language conversion rule selection part 70 Output sentence memory | storage part 130 Simplification rule table storage unit 140 Modifier phrase conversion rule table storage unit 150 Domain-dependent case frame table storage unit (case frame table storage unit)
160 Word conversion rule table storage unit 200 Simplification rule table creation device 210 Word conversion pair creation unit 220 Replaceable word pair creation unit 230 Simplification rule candidate recognition unit 240 Context similarity recognition unit 310 Replaceable word pair table storage unit 320 Candidate rule table storage unit 410 synonym dictionary table storage unit 420 dictionary table storage unit (related word storage unit)
430 Thesaurus table storage unit (related word storage unit)
440 Word difficulty table storage unit 450 Context similarity table storage unit

Claims (2)

名詞データと前記名詞データに対応する用言データとを関連付けた平易化規則データを記憶する平易化規則テーブル記憶部と、
連体修飾句データと前記連体修飾句データに対応する連用修飾句データとを関連付けた修飾句変換規則データを保持する修飾句変換規則テーブル記憶部と、
用言データと、前記用言データを修飾する連用修飾句データと、これら用言データと連用修飾句データに関する出現頻度データとを関連付けて記憶する格フレームテーブル記憶部と、
自立語データと、前記自立語データとの共起関係に基づいて選択された名詞データと助詞データとの組合せである体言化データとを関連付けて体言変換規則データとして記憶する体言変換規則テーブル記憶部と、
文データに対応する係り受け解析結果データを読み込み、前記係り受け解析結果データに含まれる名詞データに基づき、前記平易化規則テーブル記憶部から適用可能な前記平易化規則データを選択する平易化規則選択部と、
前記平易化規則選択部によって選択された前記平易化規則データが適用され得る前記名詞データを修飾する連体修飾句データを前記係り受け解析結果データから抽出し、抽出された前記連体修飾句データに基づいて、前記修飾句変換規則テーブル記憶部から対応する前記修飾句変換規則データを選択する修飾句変換規則選択部と、
前記平易化規則選択部によって選択された前記平易化規則データに含まれる前記用言データと、前記修飾句変換規則選択部によって選択された前記修飾句変換規則データに含まれる前記連用修飾句データとに基づき、前記格フレームテーブル記憶部から前記出現頻度データを読み出し、読み出した出現頻度データに基づいて、選択された前記連用修飾句データによって前記係り受け解析結果データ内の前記連体修飾句データを置換するとともに、選択された前記用言データによって前記係り受け解析結果データ内の前記名詞データを置換する格フレーム照合部と、
前記格フレーム照合部による置換前の前記名詞データが係っていた自立語データと前記自立語データに係るための助詞データを前記係り受け解析結果データから抽出し、抽出された前記自立語データおよび前記助詞データに基づいて、前記体言変換規則テーブル記憶部から前記体言変換規則データを選択し、選択された前記体言変換規則データに基づいて、前記格フレーム照合部による置換後の前記用言データを体言化する体言変換規則選択部と、
を具備することを特徴とする文書平易化装置。
A simplification rule table storage unit for storing simplification rule data that associates noun data and prescriptive data corresponding to the noun data;
A modifier phrase conversion rule table storage unit that holds modifier phrase conversion rule data that associates the modifier modifier data with the consecutive modifier data corresponding to the modifier modifier data;
A case frame table storage unit that stores predicate data, continuous modifier data that modifies the prescriptive data, and appearance frequency data related to the prescriptive data and the combined modifier data;
A nomenclature conversion rule table storage unit for storing associative conversion rule data in association with independence word data and inscription data that is a combination of noun data and particle data selected based on the co-occurrence relationship of the independence word data When,
Simplification rule selection for reading dependency analysis result data corresponding to sentence data and selecting applicable simplification rule data from the simplification rule table storage unit based on noun data included in the dependency analysis result data And
Extracted from the dependency analysis result data is a modifier data that modifies the noun data to which the simplification rule data selected by the simplification rule selection unit can be applied, and based on the extracted syntactic modifier data A modifier phrase conversion rule selection unit that selects the corresponding modifier phrase conversion rule data from the modifier phrase conversion rule table storage unit,
The prescriptive data included in the simplification rule data selected by the simplification rule selection unit, and the combined modifier data included in the modifier phrase conversion rule data selected by the modifier conversion rule selection unit; The appearance frequency data is read from the case frame table storage unit, and based on the read appearance frequency data, the combination modification phrase data in the dependency analysis result data is replaced with the selected continuous modification phrase data. And a case frame matching unit that replaces the noun data in the dependency analysis result data with the selected prescription data,
The independent word data related to the noun data before the replacement by the case frame matching unit and the particle data for relating to the independent word data are extracted from the dependency analysis result data, and the extracted independent word data and Based on the particle data, the speech conversion rule data is selected from the speech conversion rule table storage unit. Based on the selected speech conversion rule data, the prescriptive data after replacement by the case frame matching unit is selected. A notation conversion rule selection part to be expressed, and
An apparatus for simplifying a document, comprising:
コンピュータを、請求項1に記載の文書平易化装置として機能させるためのプログラム。A program for causing a computer to function as the document simplifying apparatus according to claim 1.
JP2011047770A 2011-03-04 2011-03-04 Document simplifying apparatus and program Expired - Fee Related JP5528376B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011047770A JP5528376B2 (en) 2011-03-04 2011-03-04 Document simplifying apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011047770A JP5528376B2 (en) 2011-03-04 2011-03-04 Document simplifying apparatus and program

Publications (2)

Publication Number Publication Date
JP2012185636A JP2012185636A (en) 2012-09-27
JP5528376B2 true JP5528376B2 (en) 2014-06-25

Family

ID=47015684

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011047770A Expired - Fee Related JP5528376B2 (en) 2011-03-04 2011-03-04 Document simplifying apparatus and program

Country Status (1)

Country Link
JP (1) JP5528376B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6509391B1 (en) * 2018-01-31 2019-05-08 株式会社Fronteo Computer system
JP6501439B1 (en) * 2018-08-27 2019-04-17 株式会社think−plus Thinking support system, thinking support program, thinking support program storage medium, and thinking support information recording medium

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5290218B2 (en) * 2010-02-25 2013-09-18 日本放送協会 Document simplification device, simplification rule table creation device, and program

Also Published As

Publication number Publication date
JP2012185636A (en) 2012-09-27

Similar Documents

Publication Publication Date Title
Gardent et al. Creating training corpora for nlg micro-planning
US7765097B1 (en) Automatic code generation via natural language processing
US9588958B2 (en) Cross-language text classification
JP6466952B2 (en) Sentence generation system
KR101136007B1 (en) System and method for anaylyzing document sentiment
US20110060584A1 (en) Error correction using fact repositories
JP6817556B2 (en) Similar sentence generation method, similar sentence generation program, similar sentence generator and similar sentence generation system
WO2003065245A1 (en) Translating method, translated sentence outputting method, recording medium, program, and computer device
JP6955963B2 (en) Search device, similarity calculation method, and program
Sawalha Open-source resources and standards for Arabic word structure analysis: Fine grained morphological analysis of Arabic text corpora
Menacer et al. Machine translation on a parallel code-switched corpus
Chen et al. Chinese zero pronoun resolution: An unsupervised approach combining ranking and integer linear programming
Hamdi et al. POS-tagging of Tunisian dialect using standard Arabic resources and tools
US20220238103A1 (en) Domain-aware vector encoding (dave) system for a natural language understanding (nlu) framework
JP5678774B2 (en) An information analysis device that analyzes the redundancy of text data
US20220245361A1 (en) System and method for managing and optimizing lookup source templates in a natural language understanding (nlu) framework
JP5426292B2 (en) Opinion classification device and program
JP5528376B2 (en) Document simplifying apparatus and program
JP5290218B2 (en) Document simplification device, simplification rule table creation device, and program
US20220229986A1 (en) System and method for compiling and using taxonomy lookup sources in a natural language understanding (nlu) framework
JP4940606B2 (en) Translation system, translation apparatus, translation method, and program
US20220237383A1 (en) Concept system for a natural language understanding (nlu) framework
Ramesh et al. ‘Beach’to ‘Bitch’: Inadvertent Unsafe Transcription of Kids’ Content on YouTube
Ehsan et al. Statistical Parser for Urdu
Klamra et al. Devulgarization of polish texts using pre-trained language models

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130611

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140204

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140318

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140415

R150 Certificate of patent or registration of utility model

Ref document number: 5528376

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees