JP2017220009A - Analysis program, analysis method, and analyzer - Google Patents

Analysis program, analysis method, and analyzer Download PDF

Info

Publication number
JP2017220009A
JP2017220009A JP2016113583A JP2016113583A JP2017220009A JP 2017220009 A JP2017220009 A JP 2017220009A JP 2016113583 A JP2016113583 A JP 2016113583A JP 2016113583 A JP2016113583 A JP 2016113583A JP 2017220009 A JP2017220009 A JP 2017220009A
Authority
JP
Japan
Prior art keywords
sentence
analysis
meaning
trigger
predicate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016113583A
Other languages
Japanese (ja)
Inventor
英紀 伊藤
Hidenori Ito
英紀 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2016113583A priority Critical patent/JP2017220009A/en
Publication of JP2017220009A publication Critical patent/JP2017220009A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an analysis program capable of efficiently identifying a previous sentence required for analyzing a sentence.SOLUTION: The analysis program causes computer to execute a series of processing including: determining, with respect to plural sentences as analysis objects, whether a sentence of analysis object includes a specific expression; and when determining a second sentence which is determined to include the specific expression is included in sentences preceding a first sentence as the analysis object, and when the meaning of a predicative of the first sentence matches with the meaning of a predicative of the second sentence, identifying the second sentence as a reference object for analyzing the first sentence.SELECTED DRAWING: Figure 3

Description

本発明は、解析プログラム、解析方法、及び解析装置に関する。   The present invention relates to an analysis program, an analysis method, and an analysis apparatus.

オブジェクト指向のアイデアを用いて自然言語処理を実行するシステムが検討されている(例えば、非特許文献1)。基本的には、名詞は、オブジェクトとして登録される。概ね形容詞は、オブジェクトの属性に対応する。動詞によって表される動作やイベントによって、オブジェクトの属性が変化する。   Systems that execute natural language processing using object-oriented ideas have been studied (for example, Non-Patent Document 1). Basically, nouns are registered as objects. Generally, adjectives correspond to object attributes. The attribute of the object changes depending on the action or event represented by the verb.

例えば、「太郎が花子に本を渡した」という文について、太郎、花子、本がオブジェクトとして登録される。太郎の所有物リスト属性から本が落ち、花子の所有物リスト属性に当該本が入る。また、本の所有者属性は、太郎から花子に変わる。   For example, for the sentence “Taro handed a book to Hanako”, Taro, Hanako, and the book are registered as objects. The book falls from Taro's property list attribute, and the book enters Hanako's property list attribute. Also, the book owner attribute changes from Taro to Hanako.

このような処理が、文の出現順に実行されるが、或る種の文は、即時に属性として処理することができず、トリガ処理における参照対象とされる必要が有る。ここで、トリガ処理とは、文の出現に応じて当該文に関して実行される、既出の文との整合性チェックや各種の解析の評価等に関する処理をいう。   Such processing is executed in the order in which the sentences appear. However, certain kinds of sentences cannot be immediately processed as attributes and need to be referred to in trigger processing. Here, the trigger process refers to a process related to consistency check with an already-existing sentence, evaluation of various analyzes, and the like, which are executed for the sentence in response to the appearance of the sentence.

例えば、「クラスで50m泳げるのは太郎だけだ」のように、「だけ」又は「しか」等の副助詞を含む文が、トリガ処理として実装される必要が有る文に該当する。すなわち、後で「次郎が100m泳いだ」という文が出現した時点で、「次郎は太郎と同じクラスか?」をチェックする必要がある(太郎の文を見た時点では何もできない。)。   For example, a sentence including an auxiliary particle such as “only” or “only” corresponds to a sentence that needs to be implemented as a trigger process, such as “Taro can only swim 50 meters in a class”. That is, when a sentence “Jiro swam 100m” later appears, it is necessary to check “Is Jiro the same class as Taro?” (When you see Taro's sentence, you cannot do anything.).

また、「次郎が…三郎が…100m泳いだ」という文の述語項解析で、「泳いだ」の主語が、次郎か三郎かを判定する際、次郎が太郎と同じクラスで三郎がそうでないなら、次郎が主語ではないはず、という情報を使うことができる。   Also, in the predicate analysis of the sentence "Jiro is ... Saburo ... 100m swim", if Jiro or Saburo is the subject of "Swim", Jiro is in the same class as Taro and Saburo is not , You can use information that Jiro should not be the subject.

なお、「太郎はクラスでいちばん背が高い」のように最上級の表現を含む文についても同様に、トリガ処理として実装される必要がある。   Similarly, a sentence including the highest level expression such as “Taro is the tallest in the class” needs to be implemented as a trigger process.

特開平07−175808号公報Japanese Patent Laid-Open No. 07-175808 特開平04−220767号公報Japanese Patent Laid-Open No. 04-220767 特開昭63−305464号公報JP-A 63-305464 特開2011−013776号公報JP 2011-013776 A

伊藤英紀. オブジェクト指向的アプローチによる係り受け/語義曖昧性解決/照応解析/述語項解析システム. 研究報告自然言語処理(NL), 2014-NL-218(1),1-7 (2014)Hideki Ito. Dependency / word sense ambiguity resolution / anaphora analysis / predicate analysis system based on object-oriented approach. Research report Natural Language Processing (NL), 2014-NL-218 (1), 1-7 (2014)

しかしながら、トリガ処理を単純に実装すると、各文が出現するたびに、以前に出現した全ての文に対してチェックを行うことになり、計算時間が大きくなるという問題点がある。   However, if the trigger processing is simply implemented, every time each sentence appears, all the sentences that have appeared before are checked, which increases the calculation time.

そこで、一側面では、本発明は、文の解析に必要な既出の文の特定を効率化することを目的とする。   Therefore, in one aspect, an object of the present invention is to improve the efficiency of specifying an existing sentence necessary for sentence analysis.

一つの態様では、解析プログラムは、複数の文を1文ずつ解析対象とし、解析対象の文が特定の表現を含むか否かを判定し、解析対象の第1の文より前の文の中に前記特定の表現を含むと判定された第2の文が有る場合に、前記第1の文の述語の意味と、前記第2の文の述語の意味とが一致すれば、前記第2の文を前記第1の文の解析のための参照対象として特定する、処理をコンピュータに実行させる。   In one aspect, the analysis program sets a plurality of sentences to be analyzed one by one, determines whether or not the sentence to be analyzed includes a specific expression, and determines whether the sentence before the first sentence to be analyzed If there is a second sentence determined to contain the specific expression, if the meaning of the predicate of the first sentence matches the meaning of the predicate of the second sentence, the second sentence A computer is caused to execute a process for specifying a sentence as a reference object for the analysis of the first sentence.

一側面として、文の解析に必要な既出の文の特定を効率化することができる。   As one aspect, it is possible to increase the efficiency of specifying the already-existing sentence necessary for sentence analysis.

本発明の実施の形態における解析装置のハードウェア構成例を示す図である。It is a figure which shows the hardware structural example of the analyzer in embodiment of this invention. 本発明の実施の形態における解析装置の機能構成例を示す図である。It is a figure which shows the function structural example of the analyzer in embodiment of this invention. 解析装置が実行する処理手順の一例を説明するためのフローチャートである。It is a flowchart for demonstrating an example of the process sequence which an analyzer performs.

以下、図面に基づいて本発明の実施の形態を説明する。図1は、本発明の実施の形態における解析装置のハードウェア構成例を示す図である。図1の解析装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、及びインタフェース装置105等を有する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a diagram illustrating a hardware configuration example of an analysis apparatus according to an embodiment of the present invention. The analysis device 10 in FIG. 1 includes a drive device 100, an auxiliary storage device 102, a memory device 103, a CPU 104, an interface device 105, and the like that are mutually connected by a bus B.

解析装置10での処理を実現するプログラムは、記録媒体101によって提供される。プログラムを記録した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。   A program that realizes processing in the analysis apparatus 10 is provided by the recording medium 101. When the recording medium 101 on which the program is recorded is set in the drive device 100, the program is installed from the recording medium 101 to the auxiliary storage device 102 via the drive device 100. However, the program need not be installed from the recording medium 101 and may be downloaded from another computer via a network. The auxiliary storage device 102 stores the installed program and also stores necessary files and data.

メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従って解析装置10に係る機能を実行する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。   The memory device 103 reads the program from the auxiliary storage device 102 and stores it when there is an instruction to start the program. The CPU 104 executes a function related to the analysis device 10 according to a program stored in the memory device 103. The interface device 105 is used as an interface for connecting to a network.

なお、記録媒体101の一例としては、CD−ROM、DVDディスク、又はUSBメモリ等の可搬型の記録媒体が挙げられる。また、補助記憶装置102の一例としては、HDD(Hard Disk Drive)又はフラッシュメモリ等が挙げられる。記録媒体101及び補助記憶装置102のいずれについても、コンピュータ読み取り可能な記録媒体に相当する。   An example of the recording medium 101 is a portable recording medium such as a CD-ROM, a DVD disk, or a USB memory. An example of the auxiliary storage device 102 is an HDD (Hard Disk Drive) or a flash memory. Both the recording medium 101 and the auxiliary storage device 102 correspond to computer-readable recording media.

図2は、本発明の実施の形態における解析装置の機能構成例を示す図である。図2において、解析装置10は、文解析部11、基本同義語原形取得部12、トリガ対象特定部13、トリガ処理部14、要トリガ判定部15、及び文登録部16等を有する。これら各部は、解析装置10にインストールされた1以上のプログラムが、CPU104に実行させる処理により実現される。解析装置10は、また、基本同義語原形辞書記憶部17及び文配列記憶部18等を利用する。これら各記憶部は、例えば、補助記憶装置102、メモリ装置103、又は解析装置10にネットワークを介して接続可能な記憶装置等を用いて実現可能である。   FIG. 2 is a diagram illustrating a functional configuration example of the analysis apparatus according to the embodiment of the present invention. 2, the analysis apparatus 10 includes a sentence analysis unit 11, a basic synonym original form acquisition unit 12, a trigger target specifying unit 13, a trigger processing unit 14, a trigger determination unit 15, a sentence registration unit 16, and the like. Each of these units is realized by processing that one or more programs installed in the analysis apparatus 10 cause the CPU 104 to execute. The analysis apparatus 10 also uses the basic synonym original form dictionary storage unit 17, the sentence arrangement storage unit 18, and the like. Each of these storage units can be realized using, for example, a storage device that can be connected to the auxiliary storage device 102, the memory device 103, or the analysis device 10 via a network.

文解析部11は、文集合に属する各文について、既存の自然言語処理(例えば、述語項解析や照応解析等)を実行する。文解析部11による処理の結果として、例えば、文の意味構造を示すデータ(以下、「意味データ構造」という。)が出力される。文集合は、意味的に前後関係を有する複数の文の集合(例えば、文章)である。文は、日本語の平文である。なお、各文は、文集合における前後関係の順に1文ずつ解析対象とされる。   The sentence analysis unit 11 executes existing natural language processing (for example, predicate term analysis and anaphora analysis) for each sentence belonging to the sentence set. As a result of the processing by the sentence analysis unit 11, for example, data indicating the semantic structure of the sentence (hereinafter referred to as “semantic data structure”) is output. A sentence set is a set (for example, sentences) of a plurality of sentences having a semantic context. The sentence is plain text in Japanese. Each sentence is subject to analysis one sentence at a time in the order of context in the sentence set.

なお、述語項解析については、「Hajic et al. The CoNLL-2009 Shared Task: Syntactic and Semantic Dependencies in Multiple Languages. In Proceedings of the Thirteenth Conference on Computational Natural Language Learning, 2009」等に詳しい。   The predicate term analysis is detailed in “Hajic et al. The CoNLL-2009 Shared Task: Syntactic and Semantic Dependencies in Multiple Languages. In Proceedings of the Thirteenth Conference on Computational Natural Language Learning, 2009”.

基本同義語原形取得部12は、各文の述語の基本同義語原形を、基本同義語原形辞書記憶部17から取得する。本実施の形態において基本同義語原形とは、述語(動詞や形容詞等)が意味する概念の表現として代表的に(一般的に)利用される単語の原形いう。例えば、「ジョギングする」、「かける」、「走った」の基本同義語原形は、「走る」である。基本同義語原形とは、各基本同義語原形に対して、当該基本同義語原形と同じ意味の表現が対応付けられたデータである。すなわち、基本同義語原形辞書は、複数の述語の表現を、意味の共通性に基づいて分類した結果を示す情報であるといえる。   The basic synonym original form acquisition unit 12 acquires the basic synonym original form of the predicate of each sentence from the basic synonym original form dictionary storage unit 17. In this embodiment, the basic synonym original form is an original form of a word that is typically (generally) used as an expression of a concept that a predicate (verb, adjective, etc.) means. For example, the basic synonym of “jogging”, “kake”, “run” is “run”. The basic synonym original is data in which each basic synonym original is associated with an expression having the same meaning as the basic synonym original. That is, it can be said that the basic synonym original dictionary is information indicating a result of classifying expressions of a plurality of predicates based on commonality of meanings.

要トリガ判定部15は、各文について、トリガ処理の参照対象(以下、「要トリガ文」という。)であるか否かを判定する。トリガ処理とは、文の出現に応じて当該文に関して実行される、前の文との整合性チェックや各種の解析の評価を行う処理をいう。本実施の形態では、特定の表現を含む文が要トリガ文であると判定される。特定の表現を含む文とは、例えば、「だけ」、「しか」等の副助詞を含む文や、最上級の表現を含む文である。すなわち、限定を意味する表現を含む文が、要トリガ文であると判定される。   The trigger-required determination unit 15 determines whether each sentence is a reference target of trigger processing (hereinafter referred to as “trigger-required sentence”). The trigger processing refers to processing for checking consistency with the previous sentence and evaluating various types of analysis, which is executed for the sentence according to the appearance of the sentence. In the present embodiment, it is determined that a sentence including a specific expression is a trigger sentence. The sentence including a specific expression is, for example, a sentence including an auxiliary particle such as “only” or “shika” or a sentence including a superlative expression. That is, it is determined that a sentence including an expression meaning limitation is a trigger required sentence.

トリガ対象特定部13は、各文について、トリガ処理において参照対象とされる前の文(要トリガ文)を特定する。   The trigger target specifying unit 13 specifies, for each sentence, a sentence before being referred to in the trigger process (trigger required sentence).

トリガ処理部14は、トリガ対象特定部13によって要トリガ文が特定された文について、当該要トリガ文を参照して、当該文に対するトリガ処理を行う。なお、本実施の形態において、トリガ処理の内容は特定のものに限定されない。解析装置10が、各文についてどのような解析を目的とするのか等に応じてトリガ処理の内容は異なってよい。   The trigger processing unit 14 refers to the trigger required sentence for the sentence for which the trigger required sentence is specified by the trigger target specifying unit 13 and performs trigger processing on the sentence. In the present embodiment, the contents of the trigger process are not limited to specific ones. The contents of the trigger processing may differ depending on what kind of analysis the analysis device 10 is intended for for each sentence.

文登録部16は、各文について、意味データ構造、トリガチェックフラグ、基本同義語原形を含むレコードを、文配列記憶部18に記憶する。トリガチェックフラグとは、要トリガ判定部15による判定結果を示す情報であり、0又は1の値を採りうる。0は、要トリガ文でないことを示す。1は、要トリガ文であることを示す。なお、基本同義語原形は、要トリガ文についてのみ文配列記憶部18に記憶されてもよい。   The sentence registration unit 16 stores a record including a semantic data structure, a trigger check flag, and a basic synonym original form in the sentence array storage unit 18 for each sentence. The trigger check flag is information indicating a determination result by the trigger required determination unit 15 and can take a value of 0 or 1. 0 indicates that the trigger statement is not required. 1 indicates a trigger required sentence. Note that the basic synonym original form may be stored in the sentence array storage unit 18 only for the trigger required sentence.

なお、各文について、非特許文献1に開示されたような解析が行われてもよい。すなわち、各文の名詞がオブジェクトとされ、形容詞がオブジェクトの属性とされ、動詞によってオブジェクトの属性が変化してもよい。   Each sentence may be analyzed as disclosed in Non-Patent Document 1. That is, the noun of each sentence may be an object, the adjective may be an attribute of the object, and the attribute of the object may change depending on the verb.

以下、解析装置10が実行する処理手順について説明する。図3は、解析装置が実行する処理手順の一例を説明するためのフローチャートである。   Hereinafter, a processing procedure executed by the analysis apparatus 10 will be described. FIG. 3 is a flowchart for explaining an example of a processing procedure executed by the analysis apparatus.

ステップS101において、文解析部11は、文集合のうち、未処理の文の中で先頭の1文を解析対象として読み込む。解析対象の文を以下「対象文」という。   In step S101, the sentence analysis unit 11 reads the first sentence in the unprocessed sentence from the sentence set as an analysis target. The sentence to be analyzed is hereinafter referred to as “target sentence”.

続いて、文解析部11は、対象文について所定の自然言語処理を実行する(S102)。その結果、対象文の意味データ構造が得られる。なお、本実施の形態において、意味データ構造は、所定のデータ構造に限定されない。   Subsequently, the sentence analysis unit 11 performs predetermined natural language processing on the target sentence (S102). As a result, the semantic data structure of the target sentence is obtained. In the present embodiment, the semantic data structure is not limited to a predetermined data structure.

続いて、基本同義語原形抽出部は、対象文の述語に対応する基本同義語原形を、基本同義語原形辞書記憶部17から取得する(S103)。   Subsequently, the basic synonym original form extraction unit acquires the basic synonym original form corresponding to the predicate of the target sentence from the basic synonym original form dictionary storage unit 17 (S103).

続いて、トリガ対象特定部13は、トリガチェックフラグが1であるレコードが文配列記憶部18に記憶されているか否かを判定する(S104)。すなわち、対象文より前に要トリガ文が検出されたか否かが判定される。なお、対象文が最初の文である場合、文配列記憶部18は空である。したがって、当該判定は否定的なものとなる。   Subsequently, the trigger target specifying unit 13 determines whether or not a record whose trigger check flag is 1 is stored in the sentence array storage unit 18 (S104). That is, it is determined whether or not a trigger required sentence is detected before the target sentence. If the target sentence is the first sentence, the sentence array storage unit 18 is empty. Therefore, this determination is negative.

該当するレコードが文配列記憶部18に記憶されていない場合(S104でNo)、要トリガ判定部15は、対象文が要トリガ文であるか否かを判定する(S105)。すなわち、対象文が、上述した特定の表現含むか否かが判定される。対象文が要トリガ文である場合(S105でYes)、要トリガ判定部15は、対象文に対するトリガチェックフラグに1を設定する(S106)。一方、対象文が要トリガ文でない場合(S105でNo)、要トリガ判定部15は、対象文に対するトリガチェックフラグに0を設定する(S107)。   When the corresponding record is not stored in the sentence array storage unit 18 (No in S104), the trigger required determination unit 15 determines whether the target sentence is a trigger required sentence (S105). That is, it is determined whether the target sentence includes the specific expression described above. When the target sentence is a trigger sentence required (Yes in S105), the trigger required determination unit 15 sets 1 to the trigger check flag for the target sentence (S106). On the other hand, if the target sentence is not a trigger required sentence (No in S105), the trigger required determination unit 15 sets 0 to the trigger check flag for the target sentence (S107).

ステップS106又はS107に続いて、文登録部16は、対象文の意味データ構造、トリガチェックフラグ、基本同義語原形を含むレコードを、文配列記憶部18に登録する(S108)。すなわち、トリガチェックフラグ及び基本同義語原形が、対象文に関連付けられて記憶される。なお、対象文そのものも、当該レコードに記憶されてもよい。   Subsequent to step S106 or S107, the sentence registration unit 16 registers a record including the semantic data structure, trigger check flag, and basic synonym original form of the target sentence in the sentence array storage unit 18 (S108). That is, the trigger check flag and the basic synonym original form are stored in association with the target sentence. Note that the target sentence itself may also be stored in the record.

一方、ステップS104において、トリガチェックフラグが1であるレコード(以下、「要トリガレコード」という。)が文配列記憶部18に記憶されている場合(S104でYes)、トリガ対象特定部13は、対象文の基本同義語原形と要トリガレコードの基本同義語原形とを比較する(S109)。比較された2つの基本同義語原形が一致する場合、すなわち、対象文の述語の意味と要トリガ文の述語の意味とが一致する場合(S110)、トリガ対象特定部13は、当該要トリガ文がトリガ処理の参照対象の文であると特定する。そこで、トリガ処理部14は、当該要トリガ文を参照して、対象文についてトリガ処理を実行する(S111)。   On the other hand, in step S104, when a record whose trigger check flag is 1 (hereinafter referred to as “required trigger record”) is stored in the sentence array storage unit 18 (Yes in S104), the trigger target specifying unit 13 The basic synonym original form of the target sentence is compared with the basic synonym original form of the trigger record required (S109). When the compared two basic synonym original forms match, that is, when the meaning of the predicate of the target sentence matches the meaning of the predicate of the trigger sentence required (S110), the trigger target specifying part 13 Is identified as a statement to be referenced in the trigger process. Therefore, the trigger processing unit 14 refers to the trigger required sentence and executes trigger processing for the target sentence (S111).

なお、対象文と基本同義語原形が一致する要トリガレコードが複数ある場合、複数の要トリガ文が参照されて、トリガ処理が実行されてもよい。   If there are a plurality of trigger records that require the target sentence and the basic synonym original form to match, the trigger processing may be executed with reference to the plurality of trigger statements.

次に、以下の例文A〜Cを用いて、図3の処理手順を具体的に説明する。
A「1組で1km泳げるのは太郎だけだ。」
B「次郎は1組だ。」
C「彼は3kmの遠泳をした。」
この場合、以下の(1)〜(11)が実行される。
(1)Aの文が解析対象とされ(S101)、その意味データ構造が得られる(S102)。
(2)Aの文の述語「泳げる」の基本同義語原形として、「泳ぐ」が取得される(S103)。
(3)Aの文に、「だけ」という副助詞が含まれていることから、Aの文が要トリガ文であることが判定され、トリガチェックフラグに1が設定される(S105、S106)
(4)文配列記憶部18に、{<Aの意味データ構造>,チェックフラグ=1,基本同義語原形=「泳ぐ」}のレコードが登録される。
(5)Bの文についても同様に、ステップS101〜S103が実行される。なお、「1組だ」のように、名詞(又は代名詞)+助動詞の述語については、名詞(又は代名詞)が、そのまま基本同義語原形として取得されてもよい。
(6)文配列記憶部18には、チェックフラグが1であるAの文に関するレコードが有るが、Bの文の述語の基本同義語原形は、Aの文の述語の基本同義語原形とは一致しないため、トリガ処理は実行されない。
(7)Bの文は、要トリガ文ではないため、トリガチェックフラグに0が設定される(S105、S106)。
(8)文配列記憶部18に、{<Bの意味データ構造>,チェックフラグ=0,基本同義語原形=「−」}のレコードが登録される。なお、「−」は、基本同義語原形の値が空であることを示す。Bの文は要トリガ文ではないため、基本同義語原形が登録される必要が無いからである。なお、この際、次郎に対応するオブジェクトが生成され、当該オブジェクトに対して「所属:1組」を示す属性が付与されてもよい。
(9)続いて、Cの文が処理対象とされて、自然言語処理が行われる(S102)。例えば、Cの文の「彼」について照応解析が行われる。「彼」の解釈としては、Aの文の「太郎」と、Bの文の「次郎」との2つの解釈が有る。照応解析では、各解釈について尤もらしさが評価され、評価値が与えられるが、ここでは、各解釈に対して同じ値の評価値が与えられたとする。
(10)Cの文の述語「遠泳をした」の基本同義語原形として、「泳ぐ」が取得される(S103)。
(11)Cの文の基本同義語原形と、Aの文の基本同義語原形とは一致するため、Aの文が参照されて、Cの文についてトリガ処理(S111)が行われる。
Next, the processing procedure of FIG. 3 will be specifically described using the following example sentences A to C.
A “Taro is the only one who can swim 1 km in one set.”
B "Jiro is one pair."
C "He did a 3km long swim."
In this case, the following (1) to (11) are executed.
(1) The sentence A is set as an analysis target (S101), and its semantic data structure is obtained (S102).
(2) “Swim” is acquired as a basic synonym original form of the predicate “Swim” in the sentence A (S103).
(3) Since the sentence of A includes the auxiliary particle “only”, it is determined that the sentence of A is a trigger-required sentence, and the trigger check flag is set to 1 (S105, S106).
(4) A record of {<Meaning data structure of A>, check flag = 1, basic synonym original form = “swim”} is registered in the sentence array storage unit 18.
(5) Steps S101 to S103 are similarly executed for the sentence B. Note that, for a predicate of noun (or pronoun) + auxiliary verb, as in “one set”, the noun (or pronoun) may be acquired as a basic synonym original form as it is.
(6) The sentence array storage unit 18 has a record relating to the sentence of A whose check flag is 1, but the basic synonym original form of the predicate of the sentence of B is the basic synonym original form of the predicate of the sentence of A Since they do not match, trigger processing is not executed.
(7) Since the sentence B is not a trigger required sentence, 0 is set in the trigger check flag (S105, S106).
(8) A record of {<Semantic data structure of B>, check flag = 0, basic synonym original form = “−”} is registered in the sentence array storage unit 18. “-” Indicates that the value of the basic synonym original form is empty. This is because the sentence of B is not a triggering sentence, so that the basic synonym original form does not need to be registered. At this time, an object corresponding to Jiro may be generated, and an attribute indicating “affiliation: 1 set” may be given to the object.
(9) Subsequently, the C sentence is set as a processing target, and natural language processing is performed (S102). For example, an anaphoric analysis is performed for “He” in the sentence of C. There are two interpretations of “hi”: “Taro” in the sentence A and “Jiro” in the sentence B. In the anaphora analysis, the likelihood is evaluated for each interpretation and an evaluation value is given. Here, it is assumed that the same evaluation value is given to each interpretation.
(10) “Swim” is acquired as a basic synonym original form of the predicate “I went far away” in the sentence of S (S103).
(11) Since the basic synonym original form of the sentence C matches the basic synonym original form of the sentence A, the sentence A is referred to and the trigger process (S111) is performed on the sentence C.

トリガ処理では、例えば、Cの文の照応解析の結果について、Aとの整合性チェックが行われてもよい。すると「彼=次郎」の解釈は、Aの文と矛盾するので、当該解釈に対する評価値が減点される。その結果、最終的に、「彼=太郎」の解釈が選択される可能性が高まる。   In the trigger process, for example, a consistency check with A may be performed on the result of the anaphora analysis of the sentence C. Then, since the interpretation of “He = Jiro” is inconsistent with the sentence of A, the evaluation value for the interpretation is deducted. As a result, the possibility that the interpretation of “he = Taro” will be selected eventually increases.

以上の例に関して、(11)において、トリガ処理の参照対象をAに限定できた(すなわち、Bをスキップできた)ため、計算量が削減されている。すなわち、効率化が図られている。   Regarding the above example, in (11), since the reference object of the trigger process can be limited to A (that is, B can be skipped), the amount of calculation is reduced. That is, efficiency is achieved.

なお、トリガ処理の内容は、照応解析の結果に対する整合性チェックに限られない。文の内容や解析の目的に応じて、トリガ処理の内容は様々である。   The contents of the trigger process are not limited to the consistency check for the result of anaphora analysis. Depending on the content of the sentence and the purpose of the analysis, the content of the trigger processing varies.

また、上記の例文では、述語が動詞である例について示したが、以下のように、述語が形容詞である場合にも、本実施の形態は有効である。
A「特許部でパソコンに強いのは鈴木だけだ。」
B「佐藤は特許部員だ。」
C「彼はパソコンに強い。」
この場合、Aの文が参照されて、Cの文のトリガ処理が実行される。
In the above example sentence, an example in which the predicate is a verb has been described, but the present embodiment is also effective when the predicate is an adjective as follows.
A “Suzuki is the only person in the patent department that is strong against personal computers.”
B "Sato is a patent member."
C “He is strong on personal computers.”
In this case, the A sentence is referred to, and the trigger process of the C sentence is executed.

上述したように、本実施の形態によれば、文の意味解釈におけるトリガ処理の計算量及び計算時間を削減することができる。すなわち、文の解釈に必要な既出の文の特定を効率化することができる。   As described above, according to the present embodiment, it is possible to reduce the calculation amount and calculation time of trigger processing in the interpretation of the meaning of a sentence. That is, it is possible to increase the efficiency of specifying the already-described sentence necessary for the interpretation of the sentence.

なお、本実施の形態において、要トリガ判定部15は、判定部の一例である。トリガ対象特定部13及び基本同義語原形取得部12は、特定部の一例である。トリガチェックフラグは、特定の表現を含むことを示す情報の一例である。   In the present embodiment, the trigger required determination unit 15 is an example of a determination unit. The trigger target specifying unit 13 and the basic synonym original form acquiring unit 12 are examples of the specifying unit. The trigger check flag is an example of information indicating that a specific expression is included.

以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。   As mentioned above, although the Example of this invention was explained in full detail, this invention is not limited to such specific embodiment, In the range of the summary of this invention described in the claim, various deformation | transformation・ Change is possible.

以上の説明に関し、更に以下の項を開示する。
(付記1)
複数の文を1文ずつ解析対象とし、
解析対象の文が特定の表現を含むか否かを判定し、
解析対象の第1の文より前の文の中に前記特定の表現を含むと判定された第2の文が有る場合に、前記第1の文の述語の意味と、前記第2の文の述語の意味とが一致すれば、前記第2の文を前記第1の文の解析のための参照対象として特定する、
処理をコンピュータに実行させることを特徴とする解析プログラム。
(付記2)
前記特定の表現は、限定を意味する表現である、
ことを特徴とする付記1記載の解析プログラム。
(付記3)
複数の述語の表現を、意味の共通性に基づいて分類した結果を示す情報を参照して、前記第1の文の述語の意味と、前記第2の文の述語の意味とを比較する、
処理をコンピュータに実行させることを特徴とする付記1又は2記載の解析プログラム。
(付記4)
複数の文を1文ずつ解析対象とし、
解析対象の文が特定の表現を含むか否かを判定し、
解析対象の第1の文より前の文の中に前記特定の表現を含むと判定された第2の文が有る場合に、前記第1の文の述語の意味と、前記第2の文の述語の意味とが一致すれば、前記第2の文を前記第1の文の解析のための参照対象として特定する、
処理をコンピュータに実行させることを特徴とする解析方法。
(付記5)
前記特定の表現は、限定を意味する表現である、
ことを特徴とする付記4記載の解析方法。
(付記6)
複数の述語の表現を、意味の共通性に基づいて分類した結果を示す情報を参照して、前記第1の文の述語の意味と、前記第2の文の述語の意味とを比較する、
処理をコンピュータに実行させることを特徴とする付記4又は5記載の解析方法。
(付記7)
複数の文を1文ずつ解析対象とする解析装置であって、
解析対象の文が特定の表現を含むか否かを判定する判定部と、
解析対象の第1の文より前の文の中に前記特定の表現を含むと判定された第2の文が有る場合に、前記第1の文の述語の意味と、前記第2の文の述語の意味とが一致すれば、前記第2の文を前記第1の文の解析のための参照対象として特定する特定部と、
を有することを特徴とする解析装置。
(付記8)
前記特定の表現は、限定を意味する表現である、
ことを特徴とする付記7記載の解析装置。
(付記9)
前記特定部は、複数の述語の表現を、意味の共通性に基づいて分類した結果を示す情報を参照して、前記第1の文の述語の意味と、前記第2の文の述語の意味とを比較する、
ことを特徴とする付記7又は8記載の解析装置。
Regarding the above description, the following items are further disclosed.
(Appendix 1)
Analyzing multiple sentences one sentence at a time
Determine whether the sentence being analyzed contains a specific expression,
When there is a second sentence determined to include the specific expression in a sentence before the first sentence to be analyzed, the meaning of the predicate of the first sentence and the second sentence If the meaning of the predicate matches, the second sentence is identified as a reference object for the analysis of the first sentence.
An analysis program characterized by causing a computer to execute processing.
(Appendix 2)
The specific expression is an expression meaning limitation.
The analysis program according to supplementary note 1, characterized by:
(Appendix 3)
Comparing the meaning of the predicate of the first sentence with the meaning of the predicate of the second sentence with reference to information indicating the result of classifying the expressions of the plurality of predicates based on the commonality of meaning;
The analysis program according to appendix 1 or 2, which causes a computer to execute processing.
(Appendix 4)
Analyzing multiple sentences one sentence at a time
Determine whether the sentence being analyzed contains a specific expression,
When there is a second sentence determined to include the specific expression in a sentence before the first sentence to be analyzed, the meaning of the predicate of the first sentence and the second sentence If the meaning of the predicate matches, the second sentence is identified as a reference object for the analysis of the first sentence.
An analysis method characterized by causing a computer to execute processing.
(Appendix 5)
The specific expression is an expression meaning limitation.
The analysis method according to supplementary note 4, characterized by:
(Appendix 6)
Comparing the meaning of the predicate of the first sentence with the meaning of the predicate of the second sentence with reference to information indicating the result of classifying the expressions of the plurality of predicates based on the commonality of meaning;
6. The analysis method according to appendix 4 or 5, which causes a computer to execute the process.
(Appendix 7)
An analysis device for analyzing a plurality of sentences one by one,
A determination unit that determines whether or not the sentence to be analyzed includes a specific expression;
When there is a second sentence determined to include the specific expression in a sentence before the first sentence to be analyzed, the meaning of the predicate of the first sentence and the second sentence If the meaning of the predicate matches, a specifying unit that specifies the second sentence as a reference object for the analysis of the first sentence;
The analysis apparatus characterized by having.
(Appendix 8)
The specific expression is an expression meaning limitation.
The analysis device according to appendix 7, characterized by:
(Appendix 9)
The specifying unit refers to information indicating a result obtained by classifying expressions of a plurality of predicates on the basis of commonality of meanings, and means a predicate of the first sentence and a predicate of the second sentence. Compare with
The analyzer according to appendix 7 or 8, characterized in that.

10 解析装置
11 文解析部
12 基本同義語原形取得部
13 トリガ対象特定部
14 トリガ処理部
15 要トリガ判定部
16 文登録部
17 基本同義語原形辞書記憶部
18 文配列記憶部
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 CPU
105 インタフェース装置
B バス
DESCRIPTION OF SYMBOLS 10 Analysis apparatus 11 Sentence analysis part 12 Basic synonym original form acquisition part 13 Trigger object specific | specification part 14 Trigger processing part 15 Trigger determination part 16 Sentence registration part 17 Basic synonym original form dictionary storage part 18 Sentence arrangement | sequence storage part 100 Drive apparatus 101 Recording Medium 102 Auxiliary storage device 103 Memory device 104 CPU
105 Interface device B bus

Claims (5)

複数の文を1文ずつ解析対象とし、
解析対象の文が特定の表現を含むか否かを判定し、
解析対象の第1の文より前の文の中に前記特定の表現を含むと判定された第2の文が有る場合に、前記第1の文の述語の意味と、前記第2の文の述語の意味とが一致すれば、前記第2の文を前記第1の文の解析のための参照対象として特定する、
処理をコンピュータに実行させることを特徴とする解析プログラム。
Analyzing multiple sentences one sentence at a time
Determine whether the sentence being analyzed contains a specific expression,
When there is a second sentence determined to include the specific expression in a sentence before the first sentence to be analyzed, the meaning of the predicate of the first sentence and the second sentence If the meaning of the predicate matches, the second sentence is identified as a reference object for the analysis of the first sentence.
An analysis program characterized by causing a computer to execute processing.
前記特定の表現は、限定を意味する表現である、
ことを特徴とする請求項1記載の解析プログラム。
The specific expression is an expression meaning limitation.
The analysis program according to claim 1.
複数の述語の表現を、意味の共通性に基づいて分類した結果を示す情報を参照して、前記第1の文の述語の意味と、前記第2の文の述語の意味とを比較する、
処理をコンピュータに実行させることを特徴とする請求項1又は2記載の解析プログラム。
Comparing the meaning of the predicate of the first sentence with the meaning of the predicate of the second sentence with reference to information indicating the result of classifying the expressions of the plurality of predicates based on the commonality of meaning;
The analysis program according to claim 1 or 2, which causes a computer to execute processing.
複数の文を1文ずつ解析対象とし、
解析対象の文が特定の表現を含むか否かを判定し、
解析対象の第1の文より前の文の中に前記特定の表現を含むと判定された第2の文が有る場合に、前記第1の文の述語の意味と、前記第2の文の述語の意味とが一致すれば、前記第2の文を前記第1の文の解析のための参照対象として特定する、
処理をコンピュータに実行させることを特徴とする解析方法。
Analyzing multiple sentences one sentence at a time
Determine whether the sentence being analyzed contains a specific expression,
When there is a second sentence determined to include the specific expression in a sentence before the first sentence to be analyzed, the meaning of the predicate of the first sentence and the second sentence If the meaning of the predicate matches, the second sentence is identified as a reference object for the analysis of the first sentence.
An analysis method characterized by causing a computer to execute processing.
複数の文を1文ずつ解析対象とする解析装置であって、
解析対象の文が特定の表現を含むか否かを判定する判定部と、
解析対象の第1の文より前の文の中に前記特定の表現を含むと判定された第2の文が有る場合に、前記第1の文の述語の意味と、前記第2の文の述語の意味とが一致すれば、前記第2の文を前記第1の文の解析のための参照対象として特定する特定部と、
を有することを特徴とする解析装置。
An analysis device for analyzing a plurality of sentences one by one,
A determination unit that determines whether or not the sentence to be analyzed includes a specific expression;
When there is a second sentence determined to include the specific expression in a sentence before the first sentence to be analyzed, the meaning of the predicate of the first sentence and the second sentence If the meaning of the predicate matches, a specifying unit that specifies the second sentence as a reference object for the analysis of the first sentence;
The analysis apparatus characterized by having.
JP2016113583A 2016-06-07 2016-06-07 Analysis program, analysis method, and analyzer Pending JP2017220009A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016113583A JP2017220009A (en) 2016-06-07 2016-06-07 Analysis program, analysis method, and analyzer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016113583A JP2017220009A (en) 2016-06-07 2016-06-07 Analysis program, analysis method, and analyzer

Publications (1)

Publication Number Publication Date
JP2017220009A true JP2017220009A (en) 2017-12-14

Family

ID=60656422

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016113583A Pending JP2017220009A (en) 2016-06-07 2016-06-07 Analysis program, analysis method, and analyzer

Country Status (1)

Country Link
JP (1) JP2017220009A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220044116A (en) 2020-09-30 2022-04-06 캐논 톡키 가부시키가이샤 Film forming apparatus, adjusting method, and manufacturing method of electronic device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220044116A (en) 2020-09-30 2022-04-06 캐논 톡키 가부시키가이샤 Film forming apparatus, adjusting method, and manufacturing method of electronic device

Similar Documents

Publication Publication Date Title
US11682226B2 (en) Method and system for assessing similarity of documents
US20160239500A1 (en) System and methods for extracting facts from unstructured text
Qian et al. Investigating language universal and specific properties in word embeddings
US9922032B2 (en) Featured co-occurrence knowledge base from a corpus of documents
JP5497048B2 (en) Transliteration of proper expressions using comparable corpus
US10936806B2 (en) Document processing apparatus, method, and program
RU2491622C1 (en) Method of classifying documents by categories
Özateş et al. Sentence similarity based on dependency tree kernels for multi-document summarization
Beel et al. Docear's PDF inspector: Title extraction from PDF files
US10055408B2 (en) Method of extracting an important keyword and server performing the same
KR102373146B1 (en) Device and Method for Cluster-based duplicate document removal
US9633009B2 (en) Knowledge-rich automatic term disambiguation
Cremisini et al. A challenging dataset for bias detection: the case of the crisis in the ukraine
Alhoshan et al. Semantic frame embeddings for detecting relations between software requirements
Gąsior et al. The IPIPAN team participation in the check-worthiness task of the CLEF2019 CheckThat! Lab
CN110019820B (en) Method for detecting time consistency of complaints and symptoms of current medical history in medical records
KR101233423B1 (en) Device and method for extacting descriptive expressions denoting terminological concepts from documents
KR102108129B1 (en) Apparatus for interpreting meaning of text emoticon, and recording medium therefor
Nagaraj et al. Robust quantification of gender disparity in pre-modern english literature using natural language processing
Bonab et al. Citation worthiness of sentences in scientific reports
JP2017220009A (en) Analysis program, analysis method, and analyzer
Ajienka et al. Semantic coupling between classes: Corpora or identifiers?
Klang et al. Linking, searching, and visualizing entities in wikipedia
Rheinländer et al. Potential and pitfalls of domain-specific information extraction at web scale
Rofiq Indonesian news extractive text summarization using latent semantic analysis