JP5076575B2 - Synonym expression extraction system, synonym expression extraction method, and synonym expression extraction program - Google Patents

Synonym expression extraction system, synonym expression extraction method, and synonym expression extraction program Download PDF

Info

Publication number
JP5076575B2
JP5076575B2 JP2007071128A JP2007071128A JP5076575B2 JP 5076575 B2 JP5076575 B2 JP 5076575B2 JP 2007071128 A JP2007071128 A JP 2007071128A JP 2007071128 A JP2007071128 A JP 2007071128A JP 5076575 B2 JP5076575 B2 JP 5076575B2
Authority
JP
Japan
Prior art keywords
expression
sentence
similar
synonym
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007071128A
Other languages
Japanese (ja)
Other versions
JP2008234175A (en
Inventor
康高 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007071128A priority Critical patent/JP5076575B2/en
Publication of JP2008234175A publication Critical patent/JP2008234175A/en
Application granted granted Critical
Publication of JP5076575B2 publication Critical patent/JP5076575B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、同義表現を抽出する同義表現抽出システム、同義表現抽出方法、及び同義表現抽出プログラムに関し、特に、事前に特殊な文法規則を指定することなしに少数の類似文章対から同義表現を抽出する同義表現抽出システム、同義表現抽出方法、及び同義表現抽出プログラムに関する。   The present invention relates to a synonym expression extraction system, a synonym expression extraction method, and a synonym expression extraction program for extracting synonym expressions, and more particularly, to extract synonym expressions from a small number of similar sentence pairs without specifying special grammar rules in advance. The present invention relates to a synonym expression extraction system, a synonym expression extraction method, and a synonym expression extraction program.

同義表現とは、同一の事物や概念に対して異なる表現が用いられる語や句等である。電子文書内に同義表現が存在することは、文書検索や文書分類等の自然言語処理を行う際の処理効率を低下させる要因となる。例えば、「廃材」をキーワードとして文書検索を行った場合、「いらなくなった木材」という同義表現を用いて書かれた電子文書は、廃材を扱った電子文書であるにもかかわらず、「廃材」という語が用いられていないために検索できない。   Synonymous expressions are words or phrases that use different expressions for the same thing or concept. The existence of synonymous expressions in an electronic document is a factor that reduces processing efficiency when performing natural language processing such as document search and document classification. For example, when a document search is performed using “waste material” as a keyword, an electronic document written using the synonymous expression “waste wood” is “waste material” even though it is an electronic document dealing with waste material. Search is not possible because the word is not used.

また、自然言語処理が低効率になるだけでなく、例えば、製品開発プロジェクトのように多くの人々が関わり合いながら作業するような環境において同義表現を用いた電子文書が用いられると、作成される電子文書中の同義表現が意思伝達を阻害する原因となる。   Not only does natural language processing become less efficient, but it is created when an electronic document using synonymous expressions is used in an environment where many people are involved, for example, in a product development project. Synonymous expressions in electronic documents can interfere with communication.

例えば、ある人が作成した電子文書において「同義表現抽出機能」と表現されているものと同じものが、他の人が作成した電子文書では「パラフレーズ特定技術」と表現されている場合がある。この場合、第三者が、これら「同義表現抽出機能」と「パラフレーズ特定技術」とを同一のものとして認識することは難しい。   For example, an electronic document created by one person may be expressed as "paraphrase identification technology" in an electronic document created by another person that is the same as that expressed as "synonymous expression extraction function" . In this case, it is difficult for a third party to recognize these “synonymous expression extraction function” and “paraphrase identification technique” as the same thing.

電子文書間に用いられる同義表現を認識できるようにするために、一般に、同義表現を予め辞書化しておくことが望ましい。しかし、専門的な表現に関する同義表現は、このような辞書化等の対応策がとりづらい。人手により逐次辞書登録していくことも考えられるが、ユーザの負担が大きく、多大な労力を要し現実的ではない。そのため、蓄積されている電子文書内から効率的に同義表現を抽出できるようにすることが望まれている。   In order to be able to recognize synonymous expressions used between electronic documents, it is generally desirable to make the synonymous expressions into a dictionary in advance. However, synonymous expressions related to specialized expressions are difficult to deal with such as dictionary. Although it is conceivable that the dictionary is sequentially registered manually, it is burdensome for the user, requires a lot of labor, and is not realistic. Therefore, it is desired that synonymous expressions can be efficiently extracted from the stored electronic document.

同義表現を自動抽出できるようにするために、内容が類似する文章対(以下、類似文章対という)を用いることが多い。例えば、類似文章対として、同じニュースについて書かれた複数の記事が用いられる。また、同じ本を異なる翻訳者によって翻訳した複数の訳本が用いられる。   In order to enable automatic extraction of synonymous expressions, sentence pairs having similar contents (hereinafter referred to as similar sentence pairs) are often used. For example, a plurality of articles written on the same news are used as similar sentence pairs. In addition, a plurality of translated books obtained by translating the same book by different translators are used.

また、あるプロジェクトにおいては、プロジェクト内の他のメンバが作成した電子文書を参照する等して、新しい電子文書を作成することが行われている。そのため、プロジェクト等において、相互に参照関係にある電子文章群も類似文章対となる。また、そのような類似文章対においては、専門用語に関する同義表現も含まれていることが多い。   In a certain project, a new electronic document is created by referring to an electronic document created by another member in the project. Therefore, in a project or the like, a group of electronic texts that have a reference relationship with each other also becomes a similar text pair. Such similar sentence pairs often include synonymous expressions related to technical terms.

従来の技術においては、単語間の共起情報等を統計的に処理することや、係り受け解析等の構文解析を利用することにより、類似文章対から同義表現を抽出することが行われている。なお、係り受け解析とは、文章を文節に分けた際の文節間の修飾関係や被修飾関係を特定する解析処理であり、係り受け解析により文章を木構造として表現した解析結果が得られる。以下、構文解析に基礎を置く類似文章対を利用した従来の同義表現抽出技術について説明する。   In the conventional technology, synonymous expressions are extracted from pairs of similar sentences by statistically processing co-occurrence information between words or using syntactic analysis such as dependency analysis. . The dependency analysis is an analysis process for specifying a modification relationship or a modified relationship between clauses when a sentence is divided into clauses, and an analysis result expressing the sentence as a tree structure by the dependency analysis is obtained. The conventional synonymous expression extraction technique using similar sentence pairs based on syntax analysis will be described below.

例えば、特許文献1には、同義表現抽出技術の一例が記載されている。特許文献1に記載された「情報処理装置、同義語対生成方法、同義語対生成プログラム、同義語対生成プログラムを記録した記録媒体」は、同義語データベースを生成するために用いられる。   For example, Patent Literature 1 describes an example of a synonymous expression extraction technique. “Information processing apparatus, synonym pair generation method, synonym pair generation program, recording medium recording synonym pair generation program” described in Patent Document 1 is used to generate a synonym database.

特許文献1に記載された同義表現抽出方法では、まず、ある文章内のある所定の記号(例えば「()」等)の前部分の文字列1と記号内の文字列2とを抽出する。次に、抽出した文字列が含まれる文章以外に文字列1又は文字列2が含まれる文章を抽出し、抽出した文章に係り受け解析を適用する。これら2つの文字列がともにに係り関係を有する所定の文節が文章内に存在している場合、それらの文字列対を同義表現として抽出する。よって、特許文献1に記載された同義語対生成方法は、類似文章対を利用して、同義表現の候補から同義表現を絞り込む技術といえる。   In the synonym expression extraction method described in Patent Document 1, first, a character string 1 in front of a predetermined symbol (for example, “()”) in a certain sentence and a character string 2 in the symbol are extracted. Next, a sentence including the character string 1 or the character string 2 is extracted in addition to the sentence including the extracted character string, and dependency analysis is applied to the extracted sentence. When a predetermined phrase having a relationship between these two character strings is present in the sentence, those character string pairs are extracted as synonymous expressions. Therefore, it can be said that the synonym pair generation method described in Patent Document 1 is a technique for narrowing down synonym expressions from synonym expression candidates using similar sentence pairs.

また、例えば、特許文献2には、別の同義表現抽出技術が記載されている。特許文献2に記載された「同義語対抽出装置及びそのためのコンピュータプログラム」は、少ないデータから同義語対を抽出するために用いられる。特許文献2に記載された同義表現抽出方法では、まず類似文章対に共通する2つの文字列と、これら2つの文字列に挟まれる互いに相違する単語列とからなる単語列対を、同義表現の候補として抽出する。次に、抽出した同義表現の候補から、比較対象の文章に含まれていない等の条件を満たすものを同義表現として抽出する。   Further, for example, Patent Document 2 describes another synonymous expression extraction technique. The “synonym pair extraction apparatus and computer program therefor” described in Patent Document 2 is used to extract synonym pairs from a small amount of data. In the synonym expression extraction method described in Patent Document 2, first, a word string pair including two character strings common to similar sentence pairs and different word strings sandwiched between these two character strings is converted into a synonym expression. Extract as a candidate. Next, from the extracted synonym expression candidates, those satisfying the condition such as not included in the comparison target sentence are extracted as synonym expressions.

また、例えば、非特許文献1には、さらに別の同義表現抽出技術が記載されている。非特許文献1に記載された「情報抽出のための同義表現獲得法」は、同一のニュースに関する複数の記事から同義表現を抽出するために用いられる。非特許文献1に記載された同義表現抽出方法では、類似文章対に対して係り受け解析を適用し、次の3つの条件を満たす部分木を同義表現として抽出する。すなわち、(1)係り受け解析により得られる部分木の根が用言であること、(2)対となる部分木が共通の固有表現を含んでいること、(3)各用言が要求する格が部分木に含まれていることのいずれかの条件を満たす部分木を同義表現として抽出する。なお、固有表現とは、人名や地名、組織名等の固有名詞の他、日付こと、金額等の数値表現等のことである。   Further, for example, Non-Patent Document 1 describes another synonymous expression extraction technique. The “synonymous expression acquisition method for information extraction” described in Non-Patent Document 1 is used to extract synonymous expressions from a plurality of articles related to the same news. In the synonym expression extraction method described in Non-Patent Document 1, dependency analysis is applied to a pair of similar sentences, and a subtree that satisfies the following three conditions is extracted as a synonym expression. That is, (1) the root of the subtree obtained by dependency analysis is a predicate, (2) the paired subtrees include a common specific expression, and (3) the case required by each predicate. A subtree that satisfies one of the conditions included in the subtree is extracted as a synonym expression. In addition, the proper expression is a numerical expression such as a date or a monetary amount in addition to proper nouns such as a person name, a place name, and an organization name.

図32は、特許文献2や非特許文献1に記載された同義表現抽出方法に共通する同義表現抽出の基本原理を示す説明図である。図32に示すように、特許文献2や非特許文献1に用いられる基本原理では、類似文章対において同一のマーカー語(701a,801a)と同義表現候補(701b,801b)とが存在し、それらのマーカー語と同義表現候補との関係(701c,801c)が類似していれば、その同義表現候補を同義表現とするものである。特許文献2や非特許文献1に記載された同義表現抽出方法では、そのような基本原理に基づいて、少数の類似文章対から同義表現を抽出する。   FIG. 32 is an explanatory diagram showing the basic principle of synonymous expression extraction common to the synonymous expression extracting methods described in Patent Document 2 and Non-Patent Document 1. As shown in FIG. 32, in the basic principle used in Patent Document 2 and Non-Patent Document 1, the same marker word (701a, 801a) and synonym candidate (701b, 801b) exist in similar sentence pairs. If the relationship (701c, 801c) between the marker word and the synonym expression candidate is similar, the synonym expression candidate is regarded as a synonym expression. In the synonym expression extraction methods described in Patent Document 2 and Non-Patent Document 1, synonym expressions are extracted from a small number of similar sentence pairs based on such a basic principle.

マーカー語(701a,801a)は、特許文献2に記載された同義表現抽出方法では類似文章対において用いられている共通の文字列であり、非特許文献1に記載された同義表現抽出方法では固有表現である。同義表現語候補(701b,801b)は、特許文献2に記載された同義表現抽出方法では共通する文字列に挟まれた単語列であり、非特許文献1に記載された同義表現抽出方法では同一の固有表現を含む部分木である。また、関係(701c,801c)は、特許文献2に記載された同義表現抽出方法では、共通する文字列に挟まれる、又は表現が比較する文章に存在しないという関係である。また、関係(701c,801c)は、非特許文献1に記載された同義表現抽出方法では、各用言が要求する格が部分木に含まれているという関係である。   The marker word (701a, 801a) is a common character string used in the similar sentence pair in the synonym expression extraction method described in Patent Document 2, and is unique in the synonym expression extraction method described in Non-Patent Document 1. Is an expression. The synonym word candidate (701b, 801b) is a word string sandwiched between common character strings in the synonym expression extraction method described in Patent Document 2, and is the same in the synonym expression extraction method described in Non-Patent Document 1. Is a subtree containing the proper expression. The relationship (701c, 801c) is a relationship in which the synonymous expression extraction method described in Patent Document 2 is sandwiched between common character strings or does not exist in sentences to be compared. In addition, the relationship (701c, 801c) is a relationship that the subtree includes the case required by each predicate in the synonymous expression extraction method described in Non-Patent Document 1.

特開2006−260402(段落0034−0058、図3)JP 2006-260402 (paragraphs 0034-0058, FIG. 3) 特開2006−251843(段落0022−0048、図6)JP 2006-251843 (paragraphs 0022-0048, FIG. 6) Shinyama Y, and Sekine S, "Paraphrase acquisition for information extraction", 2nd International Workshop on Paraphrasing: Paraphrase Acquisition and Applications, pp.65-71, 2003Shinyama Y, and Sekine S, "Paraphrase acquisition for information extraction", 2nd International Workshop on Paraphrasing: Paraphrase Acquisition and Applications, pp.65-71, 2003

第1の問題点として、非特許文献1や特許文献2に記載された同義表現抽出方法では、予め決められた文法規則を満たさない類似文章対からは同義表現を抽出することができない。すなわち、非特許文献1や特許文献2に記載された同義表現抽出方法では、マーカー語を基準とする同義表現抽出において、類似文章対又はその一部の文字列の並びの規則性や文法的規則が類似していることが重要である。そのため、非特許文献1や特許文献2に記載された同義表現抽出方法では、事前に同義表現の抽出対象となる文章対に対して、文字列の並び又は文法に強い制約を課している。   As a first problem, the synonym expression extraction methods described in Non-Patent Document 1 and Patent Document 2 cannot extract synonym expressions from pairs of similar sentences that do not satisfy a predetermined grammar rule. That is, in the synonym expression extraction methods described in Non-Patent Document 1 and Patent Document 2, in synonym expression extraction based on a marker word, regularity and grammatical rules of a sequence of similar sentence pairs or a part of character strings thereof are used. It is important that they are similar. For this reason, the synonymous expression extraction methods described in Non-Patent Document 1 and Patent Document 2 impose strong restrictions on the character string arrangement or grammar in advance for sentence pairs from which synonymous expressions are extracted.

また、非特許文献1に記載された同義表現抽出方法では、類似文章対において部分木内に同一の固有表現があるか、用言が要求する格が含まれている必要がある。そのため、文法規則に見合う文章からしか同義表現を抽出できない。また、文法的な制約を課すために、用言がどのような格を必要とするかについて予め登録しておく必要がある。   Further, in the synonymous expression extraction method described in Non-Patent Document 1, it is necessary that a similar sentence pair has the same specific expression in a subtree or includes a case required by a predicate. Therefore, synonymous expressions can only be extracted from sentences that meet the grammatical rules. In addition, in order to impose grammatical restrictions, it is necessary to register in advance what kind of case the precaution is required.

また、特許文献2に記載された同義表現抽出方法では、類似文章対において共通する文字列の語順が変化している場合には、同義表現を抽出できない。また、同義表現が共通する単語に挟まれているとは限らないため、同義表現が共通する単語に挟まれていない場合には多くの同義表現が抽出できない。また、特許文献2には構文解析を利用することについても触れられているが、具体的な方法については何ら示されていない。そのため、仮に構文解析を行ったとしても、得られる結果は構文解析を行わない場合と変わらない。その理由は、特許文献2に記載された同義表現抽出方法では、2つの共通の文字列に挟まれる文字列を同義表現の候補としており、構文解析しても挟まれる文字列が変わるわけではないためである。そのため、2つの共通の文字列に挟まれていなければ、同義表現を抽出することはできない。   Further, in the synonym expression extraction method described in Patent Document 2, when the word order of the character strings common to the similar sentence pairs is changed, the synonym expression cannot be extracted. Also, since synonymous expressions are not always sandwiched between common words, many synonymous expressions cannot be extracted when synonymous expressions are not sandwiched between common words. Patent Document 2 also mentions the use of syntax analysis, but does not show any specific method. Therefore, even if the parsing is performed, the obtained result is the same as when the parsing is not performed. The reason is that in the synonym expression extraction method described in Patent Document 2, a character string sandwiched between two common character strings is used as a candidate for the synonym expression, and the sandwiched character string does not change even if syntax analysis is performed. Because. Therefore, a synonym expression cannot be extracted unless it is sandwiched between two common character strings.

また、第2の問題点として、非特許文献1や特許文献1に記載された同義表現抽出方法では、特別な辞書や記号表現がないと同義表現を抽出できない。その理由は、非特許文献1に記載された同義表現抽出方法では、前述したように、用言が必要とする格についても事前に登録しておく必要があるためである。また、固有表現辞書も必要となる。近年では固有表現辞書の質も高まりつつあるが、報告書や仕様書、計画書等プロジェクト内で交わされる電子文書中においては、数値情報以外の固有表現は含まれにくい。   As a second problem, the synonymous expression extraction methods described in Non-Patent Document 1 and Patent Document 1 cannot extract synonymous expressions without a special dictionary or symbol expression. The reason is that, as described above, in the synonymous expression extraction method described in Non-Patent Document 1, it is necessary to register in advance the case required by the precaution. A specific expression dictionary is also required. In recent years, the quality of the specific expression dictionary is increasing, but it is difficult for electronic documents exchanged in projects such as reports, specifications and plans to include specific expressions other than numerical information.

また、組織名等においても、ある部署名等の特定の場所においてのみ通じる名称であり、一般的な辞書を用いても組織名等を固有表現と判断して抽出することはできない。そのため、特別な固有表現辞書を準備する必要がある。特許文献1に記載された同義表現抽出方法では、文章中に「()」等の記号表現が含まれることが必要である。しかし、同義表現が「()」等の特定の記号により明示化されていることは少ない。また、特許文献1に記載された技術では、同義表現の候補となる表現対が1つの文章中に含まれていることを前提としているため、類似文章対のみが与えられた状態から同義表現を抽出することができない。   In addition, an organization name or the like is a name that can be communicated only in a specific place such as a department name. Even if a general dictionary is used, the organization name or the like cannot be determined as a unique expression and extracted. Therefore, it is necessary to prepare a special proper expression dictionary. In the synonymous expression extraction method described in Patent Document 1, it is necessary that a symbol expression such as “()” is included in a sentence. However, synonymous expressions are rarely specified by a specific symbol such as “()”. Further, since the technique described in Patent Document 1 is based on the premise that an expression pair that is a candidate for a synonym expression is included in one sentence, synonym expressions are obtained from a state in which only similar sentence pairs are given. It cannot be extracted.

第3の問題点として、統計的処理を基礎とする方法では、少量の類似文章対から同義表現を抽出することができない。その理由は、統計的処理が有効性を発揮するためには、多量の類似文章対が必要になるためである。すなわち、少量の文書対のみを用いて処理を行っただけでは、十分な精度を確保することができない。プロジェクト内では多量の電子文書が存在するが、例えば、ある専門用語に関する同義表現を含む類似文章対が多量にあるわけではない。すなわち、少量の類似文章対から同義表現を抽出することができない。   As a third problem, a method based on statistical processing cannot extract synonymous expressions from a small amount of similar sentence pairs. The reason is that a large number of similar sentence pairs are required for statistical processing to be effective. That is, sufficient accuracy cannot be ensured only by performing processing using only a small number of document pairs. There are a lot of electronic documents in the project, but for example, there are not a lot of pairs of similar sentences that contain synonymous expressions for certain technical terms. That is, synonymous expressions cannot be extracted from a small amount of similar sentence pairs.

そこで、本発明は、事前に文法規則を指定することなしに類似文章対から同義表現を抽出することができる同義表現抽出システム、同義表現抽出方法、及び同義表現抽出プログラムを提供することを目的とする。また、本発明は、特別な辞書の準備や記号表現を利用することなく類似文章対を効率的に抽出することができる同義表現抽出システム、同義表現抽出方法、及び同義表現抽出プログラムを提供することを目的とする。さらに、本発明は、少数の類似文章からでも高精度に同義表現を抽出することができる同義表現抽出システム、同義表現抽出方法、及び同義表現抽出プログラムを提供することを目的とする。   Accordingly, an object of the present invention is to provide a synonym expression extraction system, a synonym expression extraction method, and a synonym expression extraction program capable of extracting a synonym expression from a pair of similar sentences without specifying a grammar rule in advance. To do. The present invention also provides a synonym expression extraction system, a synonym expression extraction method, and a synonym expression extraction program capable of efficiently extracting similar sentence pairs without using special dictionary preparation or symbolic expressions. With the goal. Furthermore, an object of the present invention is to provide a synonym expression extraction system, a synonym expression extraction method, and a synonym expression extraction program that can extract a synonym expression with high accuracy even from a small number of similar sentences.

本発明による同義表現抽出システムは、相互に類似する文章を対にした類似文章対から同義表現を抽出する同義表現抽出システムであって、類似文章対の各文章に含まれる表現である共通表現間の構造関係、及び類似文章対のそれぞれの文章にのみ含まれる表現である相違表現と共通表現との間の構造関係を特定する構造関係特定手段と、構造関係特定手段が特定した構造関係に基づいて、類似文章対に含まれる相違表現を同義表現の候補として、同義表現の候補の類似度を求める類似度算出手段と、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する同義表現抽出手段(例えば、類似性判定手段104によって実現される)とを備え、同義表現抽出手段は、類似度算出手段が求めた類似度に基づいて、同義表現の候補を同義表現として抽出するか否かを判定することを特徴とする。
本発明による同義表現抽出システムの他の態様は、相互に類似する文章を対にした類似文章対から同義表現を抽出する同義表現抽出システムであって、類似文章対の文章構造を特定する文章構造特定手段と、文章構造特定手段が特定した文章構造に基づいて、類似文章対の各文章に共通して含まれる表現である共通表現と、類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出手段と、表現抽出手段が抽出した共通表現及び相違表現に基づいて、類似文章対の各文章の文章構造における共通表現間の相対的位置関係、及び共通表現と相違表現との間の相対的位置関係を特定する位置関係特定手段と、位置関係特定手段が特定した相対的位置関係に基づいて、構造関係の同一性から類似文章対における相違表現の類似度を算出する類似度算出手段と、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する同義表現抽出手段とを備え、同義表現抽出手段は、類似度算出手段が算出した類似度に基づいて、同義表現を抽出することを特徴とする。
本発明による同義表現抽出システムのさらに他の態様は、相互に類似する文章を対にした類似文章対から同義表現を抽出する同義表現抽出システムであって、類似文章対の文章構造を特定する文章構造特定手段と、文章構造特定手段が特定した文章構造に基づいて、類似文章対の各文章に共通して含まれる表現である共通表現と、類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出手段と、表現抽出手段が抽出した共通表現及び相違表現に基づいて、類似文章対の各文章の文章構造における共通表現と相違表現との間の相対的位置関係を特定する位置関係特定手段と、位置関係特定手段が特定した相対的位置関係に基づいて、構造関係の同一性から類似文章対における相違表現の類似度を算出する類似度算出手段と、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する同義表現抽出手段とを備え、同義表現抽出手段は、類似度算出手段が算出した類似度に基づいて、同義表現を抽出することを特徴とする。
Synonymous expression extraction system according to the present invention is a synonymous expression extraction system for extracting a synonymous expression from similar sentence pairs paired sentences similar to each other, between the common representation is a representation contained in each sentence similar sentence pairs Based on the structural relationship specified by the structural relationship specifying means and the structural relationship specifying means for specifying the structural relationship between the difference expression and the common expression, which are expressions included only in each sentence of the similar sentence pair The difference expression included in the similar sentence pair is used as a synonym candidate, the similarity calculation means for obtaining the similarity of the synonym expression candidate, and the common expression group included in each sentence of the similar sentence pair in each sentence The relative positional relationship is similar in the sentence structure of the sentence, and the difference expression group and the common expression group that are different between the sentences in the similar sentence pair are similar in the sentence structure of each sentence. Based on Rukoto, synonymous expression extracting means for extracting the synonymous expression from similar sentence pair (e.g., as implemented by the similarity determination unit 104) and a synonymous expression extracting means, the similarity calculation means calculated similarity Based on the degree, it is determined whether or not to extract a synonym expression candidate as a synonym expression .
Another aspect of the synonym expression extraction system according to the present invention is a synonym expression extraction system that extracts a synonym expression from a pair of similar sentences in which sentences that are similar to each other are paired, and the sentence structure that specifies the sentence structure of the pair of similar sentences Based on the sentence structure specified by the specifying means and the sentence structure specifying means, a common expression that is an expression that is commonly included in each sentence of a similar sentence pair, and an expression that is included only in each sentence of the similar sentence pair Based on the expression extraction means for extracting the difference expression, the common expression and the difference expression extracted by the expression extraction means, the relative positional relationship between the common expressions in the sentence structure of each sentence of the similar sentence pair, and the common expression and the difference Based on the relative positional relationship specified by the positional relationship specifying means and the positional relationship specifying means for specifying the relative positional relationship between the expressions, the difference expression in the similar sentence pair based on the identity of the structural relationship The similarity calculation means for calculating the similarity and the common expression group included in common in each sentence of the similar sentence pair have a similar relative positional relationship in the sentence structure of each sentence, and the sentence of the similar sentence pair A synonymous expression extracting means for extracting a synonymous expression from a pair of similar sentences based on the fact that the difference expression group and the common expression group that are different between each other are in a similar relative positional relationship in the sentence structure of each sentence, The synonym expression extraction unit is characterized in that the synonym expression is extracted based on the similarity calculated by the similarity calculation unit.
Still another aspect of the synonym expression extraction system according to the present invention is a synonym expression extraction system that extracts synonym expressions from a pair of similar sentences in which sentences similar to each other are paired, and the sentence that specifies the sentence structure of the pair of similar sentences Based on the sentence structure specified by the structure specifying means and the sentence structure specifying means, a common expression that is commonly included in each sentence of the similar sentence pair and an expression that is included only in each sentence of the similar sentence pair Relative positional relationship between the common expression and the difference expression in the sentence structure of each sentence of the similar sentence pair based on the expression extraction means for extracting a certain difference expression and the common expression and the difference expression extracted by the expression extraction means Based on the relative positional relationship specified by the positional relationship specifying means and the positional relationship specifying means for specifying the similarity, the similarity calculation for calculating the similarity of the difference expression in the similar sentence pair from the identity of the structural relationship A common expression group commonly included in each sentence of a similar sentence pair is in a similar relative positional relationship in the sentence structure of each sentence, and a different expression group that is different between sentences of the similar sentence pair Synonymous expression extraction means for extracting synonymous expressions from pairs of similar sentences based on the fact that the common expression group is in a similar relative positional relationship in the sentence structure of each sentence. Synonymous expressions are extracted based on the similarity calculated by the calculating means.

また、同義表現抽出システムにおいて、同義表現抽出手段は、類似文章対において、相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係であることに基づいて、同義表現を抽出するものであってもよい。   Further, in the synonym expression extraction system, the synonym expression extraction means, based on the fact that the difference expression group and the common expression group are similar relative positions in the sentence structure of each sentence in the similar sentence pair. May be extracted.

また、同義表現抽出システムは、類似文章の文章構造を類似した構造となるように、所定の文章変換規則を用いて、類似文章対に含まれる文章を変換する文章変換手段(例えば、文章整形手段105によって実現される)を備えたものであってもよい。   Further, the synonym expression extraction system uses a predetermined sentence conversion rule to convert a sentence included in a similar sentence pair (for example, a sentence shaping means) so that the sentence structure of similar sentences has a similar structure. (Which is realized by 105).

また、同義表現抽出システムにおいて、同義表現抽出手段は、同義表現を抽出するための所定の類似基準に従って、類似文章対から同義表現を抽出し、同義表現抽出システムは、同義表現抽出手段が抽出した同義表現の抽出結果の正誤を示す正誤情報と、同義表現の類似度とに基づいて、同義表現を抽出するための類似基準を補正する類似基準補正手段(例えば、類似基準補正手段107によって実現される)を備えたものであってもよい。   In the synonym expression extraction system, the synonym expression extraction unit extracts the synonym expression from the pair of similar sentences according to a predetermined similarity criterion for extracting the synonym expression, and the synonym expression extraction system extracts the synonym expression extraction unit. Based on correct / incorrect information indicating the correctness of the extraction result of the synonym expression and the similarity of the synonym expression, the similarity reference correction unit (for example, the similarity reference correction unit 107) corrects the similarity criterion for extracting the synonym expression. May be provided.

本発明による同義表現抽出方法は、相互に類似する文章を対にした類似文章対から同義表現を抽出する同義表現抽出方法であって、コンピュータが、類似文章対の各文章に含まれる表現である共通表現間の構造関係、及び類似文章対のそれぞれの文章にのみ含まれる表現である相違表現と共通表現との間の構造関係を特定する構造関係特定ステップと、コンピュータが、特定した構造関係に基づいて、類似文章対に含まれる相違表現を同義表現の候補として、同義表現の候補の類似度を求める類似度算出ステップと、コンピュータが、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する同義表現抽出ステップとを含み、コンピュータが、同義表現抽出ステップで、求めた類似度に基づいて、同義表現の候補を同義表現として抽出するか否かを判定することを特徴とする。
本発明による同義表現抽出方法の他の態様は、相互に類似する文章を対にした類似文章対から同義表現を抽出する同義表現抽出方法であって、コンピュータが、類似文章対の文章構造を特定する文章構造特定ステップと、コンピュータが、特定した文章構造に基づいて、類似文章対の各文章に共通して含まれる表現である共通表現と、類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出ステップと、コンピュータが、抽出した共通表現及び相違表現に基づいて、類似文章対の各文章の文章構造における共通表現間の相対的位置関係、及び共通表現と相違表現との間の相対的位置関係を特定する位置関係特定ステップと、コンピュータが、特定した相対的位置関係に基づいて、構造関係の同一性から類似文章対における相違表現の類似度を算出する類似度算出ステップと、コンピュータが、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する同義表現抽出ステップとを含み、コンピュータが、同義表現抽出ステップで、算出した類似度に基づいて、同義表現を抽出することを特徴とする。
本発明による同義表現抽出方法のさらに他の態様は、相互に類似する文章を対にした類似文章対から同義表現を抽出する同義表現抽出方法であって、コンピュータが、類似文章対の文章構造を特定する文章構造特定ステップと、コンピュータが、特定した文章構造に基づいて、類似文章対の各文章に共通して含まれる表現である共通表現と、類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出ステップと、コンピュータが、抽出した共通表現及び相違表現に基づいて、類似文章対の各文章の文章構造における共通表現と相違表現との間の相対的位置関係を特定する位置関係特定ステップと、コンピュータが、特定した相対的位置関係に基づいて、構造関係の同一性から類似文章対における相違表現の類似度を算出する類似度算出ステップと、コンピュータが、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する同義表現抽出ステップとを含み、コンピュータが、同義表現抽出ステップで、算出した類似度に基づいて、同義表現を抽出することを特徴とする。
The synonym expression extraction method according to the present invention is a synonym expression extraction method for extracting synonym expressions from pairs of similar sentences in which sentences similar to each other are paired, and the computer is an expression included in each sentence of the pair of similar sentences. The structural relationship between the common expressions and the structural relationship identifying step for identifying the structural relationship between the common expression and the difference expression that is an expression included only in each sentence of the similar sentence pair, Based on the difference expression included in the similar sentence pair as a candidate for the synonymous expression, the similarity calculation step for obtaining the similarity of the candidate for the synonymous expression, and the common expression included in each sentence of the similar sentence pair Groups are in a similar relative positional relationship in the sentence structure of each sentence, and a difference expression group and a common expression group that differ between sentences of similar sentence pairs are in the sentence structure of each sentence. There Based on that the relative positional relationship similar to, and a synonymous expression extracting the synonymous expression from similar sentence pairs computer, interchangeably expression extraction step, based on the obtained similarity, synonymous expression It is characterized in that it is determined whether or not to extract candidates as synonymous expressions .
Another aspect of the synonym expression extraction method according to the present invention is a synonym expression extraction method for extracting synonym expressions from a pair of similar sentences in which sentences similar to each other are paired, and the computer specifies the sentence structure of the pair of similar sentences. A sentence structure identifying step, a computer based on the identified sentence structure, a common expression that is commonly included in each sentence of a similar sentence pair, and an expression that is included only in each sentence of the similar sentence pair An expression extraction step for extracting a certain difference expression, and a relative positional relationship between the common expressions in the sentence structure of each sentence of the similar sentence pair and a difference from the common expression based on the common expression and the difference expression extracted by the computer Based on the relative positional relationship specified by the computer and the positional relationship specifying step for specifying the relative positional relationship between the expression and the similar sentence from the identity of the structural relationship The similarity calculation step for calculating the similarity of different expressions in the computer, and the computer is in a relative positional relationship in which the common expressions included in each sentence of the similar sentence pair are similar in the sentence structure of each sentence And synonymous expressions that extract synonymous expressions from pairs of similar sentences based on the fact that different expression groups and common expression groups that differ between sentences of similar sentence pairs are in a similar relative positional relationship in the sentence structure of each sentence. Including a representation extraction step, wherein the computer extracts the synonym expression based on the calculated similarity in the synonym expression extraction step.
Still another aspect of the synonym expression extraction method according to the present invention is a synonym expression extraction method for extracting a synonym expression from a pair of similar sentences in which sentences similar to each other are paired. A sentence structure identifying step to be identified, a common expression that is a common expression included in each sentence of a similar sentence pair, and an expression included only in each sentence of the similar sentence pair based on the sentence structure identified by the computer And a relative positional relationship between the common expression and the difference expression in the sentence structure of each sentence of the similar sentence pair based on the common expression and the difference expression extracted by the computer. Based on the relative positional relationship specified by the computer and the positional relationship specifying step, the similarity of the difference expression in the similar sentence pair based on the identity of the structural relationship The similarity calculation step to be calculated, and the computer has a common relative expression group common to each sentence of the similar sentence pair in a similar relative positional relationship in the sentence structure of each sentence, and the sentence of the similar sentence pair A synonymous expression extraction step for extracting a synonymous expression from a pair of similar sentences based on the fact that the difference expression group and the common expression group that are different between each other are in a similar relative positional relationship in the sentence structure of each sentence, The computer is characterized in that the synonym expression is extracted based on the calculated similarity in the synonym expression extraction step.

また、同義表現抽出方法は、コンピュータが、類似文章の文章構造を類似した構造となるように、所定の文章変換規則を用いて、類似文章対に含まれる文章を変換する文章変換ステップを含むものであってもよい。 The synonymous expression extraction method includes a sentence conversion step in which a computer converts a sentence included in a similar sentence pair using a predetermined sentence conversion rule so that the sentence structure of the similar sentence becomes a similar structure. It may be.

また、同義表現抽出方法は、コンピュータが、同義表現抽出ステップで、同義表現を抽出するための所定の類似基準に従って、類似文章対から同義表現を抽出し、コンピュータが、抽出した同義表現の抽出結果の正誤を示す正誤情報と、同義表現の類似度とに基づいて、同義表現を抽出するための類似基準を補正する類似基準補正ステップを含むものであってもよい。 In the synonym expression extraction method, the computer extracts synonym expressions from pairs of similar sentences according to a predetermined similarity criterion for extracting synonym expressions in the synonym expression extraction step, and the computer extracts the extracted synonym expressions. A similarity criterion correction step for correcting the similarity criterion for extracting the synonym expression based on the correctness / incorrect information indicating the correctness and the similarity of the synonym expression may be included.

本発明による同義表現抽出用プログラムは、相互に類似する文章を対にした類似文章対から同義表現を抽出するための同義表現抽出用プログラムであって、コンピュータに、類似文章対の各文章に含まれる表現である共通表現間の構造関係、及び類似文章対のそれぞれの文章にのみ含まれる表現である相違表現と共通表現との間の構造関係を特定する構造関係特定処理と、特定した構造関係に基づいて、類似文章対に含まれる相違表現を同義表現の候補として、同義表現の候補の類似度を求める類似度算出処理と、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する同義表現抽出処理とを実行させ、同義表現抽出処理で、求めた類似度に基づいて、同義表現の候補を同義表現として抽出するか否かを判定する処理を実行させるためのものである。
本発明による同義表現抽出用プログラムの他の態様は、相互に類似する文章を対にした類似文章対から同義表現を抽出するための同義表現抽出用プログラムであって、コンピュータに、類似文章対の文章構造を特定する文章構造特定処理と、特定した文章構造に基づいて、類似文章対の各文章に共通して含まれる表現である共通表現と、類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出処理と、抽出した共通表現及び相違表現に基づいて、類似文章対の各文章の文章構造における共通表現間の相対的位置関係、及び共通表現と相違表現との間の相対的位置関係を特定する位置関係特定処理と、特定した相対的位置関係に基づいて、構造関係の同一性から類似文章対における相違表現の類似度を算出する類似度算出処理と、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する同義表現抽出処理とを実行させ、同義表現抽出処理で、算出した類似度に基づいて、同義表現を抽出する処理を実行させるためのものである。
本発明による同義表現抽出用プログラムのさらに他の態様は、相互に類似する文章を対にした類似文章対から同義表現を抽出するための同義表現抽出用プログラムであって、コンピュータに、類似文章対の文章構造を特定する文章構造特定処理と、特定した文章構造に基づいて、類似文章対の各文章に共通して含まれる表現である共通表現と、類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出処理と、抽出した共通表現及び相違表現に基づいて、類似文章対の各文章の文章構造における共通表現と相違表現との間の相対的位置関係を特定する位置関係特定処理と、特定した相対的位置関係に基づいて、構造関係の同一性から類似文章対における相違表現の類似度を算出する類似度算出処理と、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する同義表現抽出処理とを実行させ、同義表現抽出処理で、算出した類似度に基づいて、同義表現を抽出する処理を実行させるためのものである。
Synonymous expression extraction program according to the present invention is a synonymous expression extraction program for extracting a synonymous expression from similar sentence pairs paired sentences similar to each other, the computer included in each sentence similar sentence pairs Structure relation between common expressions, which are expressed expressions, and a structure relation specifying process for specifying a structure relation between a difference expression and a common expression, which is an expression included only in each sentence of a similar sentence pair, and the specified structure relation Based on the above, a similarity calculation process for obtaining a similarity of a synonym expression candidate using a difference expression included in a similar sentence pair as a candidate for a synonym expression, and a common expression group included in each sentence of the similar sentence pair in common The relative positional relationship that is similar in the sentence structure of each sentence, and the difference expression group and the common expression group that are different between sentences of similar sentence pairs are similar in the sentence structure of each sentence Based on that the positional relationship extraction, to execute the same meaning expression extracting process of extracting the synonymous expression from similar sentence pair, synonymous expression extraction processing, based on the calculated similarity, the candidate of the synonymous expression as synonymous expression This is to execute a process for determining whether or not to perform the process .
Another aspect of the program for extracting synonymous expressions according to the present invention is a program for extracting synonymous expressions from a pair of similar sentences in which sentences similar to each other are paired. Based on the sentence structure identifying process that identifies the sentence structure, the common expression that is commonly included in each sentence of the similar sentence pair, and the expression that is included only in each sentence of the similar sentence pair, based on the identified sentence structure An expression extraction process for extracting a difference expression, a relative position relationship between the common expressions in the sentence structure of each sentence of the similar sentence pair, and the common expression and the difference expression based on the extracted common expression and the difference expression Based on the positional relationship identification process that identifies the relative positional relationship between and the identified relative positional relationship, the similarity level of the difference expression in the similar sentence pair is calculated from the identity of the structural relationship The degree calculation process and the common expression group included in common in each sentence of the similar sentence pair are in a similar relative positional relationship in the sentence structure of each sentence, and the difference expression that is different between the sentences of the similar sentence pair A synonym expression extraction process for extracting synonym expressions from pairs of similar sentences based on the fact that the group and the common expression group have similar relative positional relationships in the sentence structure of each sentence. This is for executing a process of extracting synonymous expressions based on the calculated similarity.
Still another aspect of the program for extracting synonymous expressions according to the present invention is a program for extracting synonymous expressions for extracting synonymous expressions from a pair of similar sentences in which sentences similar to each other are paired. Included only in each sentence of common sentence and similar sentence pair, which is a common expression included in each sentence of similar sentence pairs, based on the sentence structure identifying process that identifies the sentence structure of Based on the expression extraction process that extracts the difference expression that is the expression, and the extracted common expression and difference expression, the relative positional relationship between the common expression and the difference expression in the sentence structure of each sentence of the similar sentence pair is specified. Based on the identified relative positional relationship, similarity calculation processing for calculating the similarity of the difference expression in the similar text pair from the identity of the structural relationship, and similar text pair A common expression group included in each sentence is in a similar relative positional relationship in the sentence structure of each sentence, and a difference expression group and a common expression group that differ between sentences of similar sentence pairs are each sentence. The synonymous expression extraction process for extracting the synonym expression from the similar sentence pair is executed based on the similar relative positional relationship in the sentence structure, and based on the similarity calculated in the synonym expression extraction process, This is for executing processing for extracting synonymous expressions.

また、同義表現抽出用プログラムは、コンピュータに、類似文章の文章構造を類似した構造となるように、所定の文章変換規則を用いて、類似文章対に含まれる文章を変換する文章変換処理を実行させるものであってもよい。   In addition, the synonym expression extraction program executes a sentence conversion process for converting sentences included in a pair of similar sentences using a predetermined sentence conversion rule so that the sentence structure of similar sentences has a similar structure. It may be allowed.

また、同義表現抽出用プログラムは、コンピュータに、同義表現抽出処理で、同義表現を抽出するための所定の類似基準に従って、類似文章対から同義表現を抽出する処理を実行させ、抽出した同義表現の抽出結果の正誤を示す正誤情報と、同義表現の類似度とに基づいて、同義表現を抽出するための類似基準を補正する類似基準補正処理を実行させるものであってもよい。   The synonym expression extraction program causes the computer to execute a process of extracting a synonym expression from a pair of similar sentences according to a predetermined similarity criterion for extracting the synonym expression in the synonym expression extraction process. A similarity criterion correction process for correcting a similarity criterion for extracting a synonym expression may be executed based on correct / incorrect information indicating whether the extraction result is correct and the similarity of the synonym expression.

本発明による第1の同義表現抽出システムは、類似文章対の各文章に対して係り受け解析を実行し、各文章における各文節間の係り受け関係を示す係り受け表を生成する係り受け解析手段と、類似文章対において共通して含まれる文字列である共通表現と、それぞれの文章だけに含まれる文字列であり同義表現の候補となる相違表現とを抽出する表現比較手段と、係り受け解析により求められた文章の木構造中における共通表現と相違表現との位置情報を、係り受け表の情報に基づいて、木構造中においてどの分岐、葉又は根にその表現が挟まれるかを示す構造関係特定表を生成し、生成した構造関係特定表の情報を用いて、木構造における共通表現構造である共通表現間の相対的位置関係、及び相違表現構造である共通表現と相違表現との間の相対的位置関係を、所定の規則に従って、構造関係である同列、直列、並列、前列、後列、横列又はその他の関係の7種類に分類する構造関係特定手段と、類似文章対において共通表現構造の同一性及び相違表現構造の同一性を、各構造関係の同一性を規定する同一性判定表に従って判定し、各構造関係の同一性に基づいて、類似文章対における共通表現構造の類似度及び相違表現構造の類似度を算出し、類似文章対において同義表現候補である同義表現の候補となる相違表現において、その同義表現候補対の類似度を2つの類似度の重み付き平均を求めることにより算出し、閾値処理を実行することにより同義表現を抽出する類似性判定手段とを備えたことを特徴とする。   The first synonymous expression extraction system according to the present invention performs dependency analysis on each sentence of a pair of similar sentences, and generates dependency tables indicating dependency relationships between clauses in each sentence. An expression comparison means for extracting a common expression that is a character string that is commonly included in a pair of similar sentences and a difference expression that is a character string that is included only in each sentence and that is a candidate for a synonymous expression, and dependency analysis A structure that indicates which branch, leaf, or root in the tree structure the position information of the common expression and the difference expression in the tree structure of the sentence obtained by A relationship identification table is generated, and using the information of the generated structure relationship identification table, the relative positional relationship between the common representations that are common representation structures in the tree structure, and the common representation and the difference representation that are different representation structures. The structural relationship specifying means for classifying the relative positional relationship of the above into seven types according to a predetermined rule, that is, the same column, the series, the parallel, the front row, the rear row, the row, or other relationships which are the structural relationships, and the common expression structure in the similar sentence pair And the identity of the different representation structures are determined according to an identity determination table that defines the identity of each structural relationship. Based on the identity of each structural relationship, the similarity of the common representation structure in the similar sentence pair and By calculating the similarity of the difference expression structure, and calculating the weighted average of the two similarities for the similarity of the synonym expression candidate pair in the difference expression that is a candidate for the synonym expression in the similar sentence pair Similarity determination means for extracting synonymous expressions by calculating and executing threshold processing is provided.

上記のような構成によれば、類似文章対における共通表現間の構造関係の同一性から構造関係の類似度を算出でき、類似文章対の文字列の構成や文法の類似性を判断できる。そのため、事前に特殊な文法規則を設けることなく、同義表現を抽出することができる。また、上記のような構成によれば、特殊な辞書や記号等を必要とせずに、係り受け解析に必要とする辞書程度の情報のみに基づいて、類似文章対から同義表現を抽出することができる。さらに、上記のような構成によれば、同義表現抽出の原理に則り、統計的処理を用いることなく、1組の類似文章対のみであっても、高精度に同義表現を抽出することができる。   According to the above configuration, the similarity of the structural relationship can be calculated from the identity of the structural relationship between the common expressions in the similar text pair, and the configuration of the character string of the similar text pair and the similarity of the grammar can be determined. Therefore, synonymous expressions can be extracted without providing special grammar rules in advance. Further, according to the configuration as described above, it is possible to extract a synonym expression from a pair of similar sentences based only on information about a dictionary required for dependency analysis without requiring a special dictionary or symbol. it can. Furthermore, according to the configuration as described above, the synonym expression can be extracted with high accuracy even if only a pair of similar sentence pairs is used without using statistical processing in accordance with the principle of synonym expression extraction. .

本発明による第2の同義表現抽出システムは、第1の同義表現抽出システムにおける構成要素に加えて、係り受け解析を実行する前に、類似文章対が係り受け解析によって類似する文章の木構造となるように文章を整形する文章整形手段を備えたことを特徴とする。   The second synonym expression extraction system according to the present invention includes, in addition to the components in the first synonym expression extraction system, a tree structure in which similar sentence pairs are similar by the dependency analysis before the dependency analysis is performed. It is characterized by having a text shaping means for shaping the text.

上記のような構成によれば、第1の同義表現抽出システムの構成により実現できる同義表現抽出システムの利点を失うことなく、さらに高精度に同義表現を抽出することができる。   According to the above configuration, synonymous expressions can be extracted with higher accuracy without losing the advantages of the synonymous expression extracting system that can be realized by the configuration of the first synonymous expression extracting system.

本発明による第3の同義表現抽出システムは、同義表現抽出システムの抽出結果に対してシステム利用者が抽出結果の正誤を判定した情報と、抽出結果の類似度を算出する基になった共通表現間の構造関係の類似度、及び共通表現と相違表現間との構造関係の類似度とに基づいて、抽出結果を真の同義表現と真の同義表現でないものとに分類する共通表現間の構造関係の類似度、及び共通表現と相違表現との間の構造関係の類似度に対する適切な重み係数を推定する類似基準補正手段を備えたことを特徴とする。   The third synonymous expression extraction system according to the present invention is a common expression based on which the system user determines the correctness of the extraction result for the extraction result of the synonymous expression extraction system and the similarity of the extraction result. A structure between common expressions that classifies the extraction results into a true synonym expression and a non-true synonym expression based on the similarity of the structural relation between the common expression and the similarity of the structural relation between the common expression and the different expression It is characterized by comprising similarity reference correction means for estimating an appropriate weighting factor for the similarity of the relationship and the similarity of the structural relationship between the common expression and the difference expression.

上記のような構成によれば、第1の同義表現抽出システムの構成により実現できる同義表現抽出システムの利点を失うことなく、同義表現を抽出する類似性基準のパラメータを適切な値に補正することができ、さらに同義表現抽出の精度を向上させることができる。   According to the above configuration, the similarity criterion parameter for extracting the synonym expression is corrected to an appropriate value without losing the advantage of the synonym expression extraction system that can be realized by the configuration of the first synonym expression extraction system. And the accuracy of synonymous expression extraction can be improved.

本発明によれば、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対の文法的類似性を推定し、類似文章対から同義表現を抽出できる。すなわち、本発明によれば、相違表現の類似度だけに基づいて同義表現であるか否かを判断するのではなく、類似文章対に含まれる共通表現と相違表現との両方の構造関係に基づいて、同義表現であるか否かを判断できる。従って、事前に特殊な文法規則を設けることなく、類似文章対から同義表現を抽出することができる。   According to the present invention, the common expression group that is commonly included in each sentence of the similar sentence pair has a similar relative positional relationship in the sentence structure of each sentence, and the difference that differs between the sentences of the similar sentence pair Based on the fact that the expression group and the common expression group have similar relative positional relationships in the sentence structure of each sentence, the grammatical similarity of the similar sentence pair can be estimated, and the synonymous expression can be extracted from the similar sentence pair. That is, according to the present invention, it is not determined whether or not the synonym expression is based on only the similarity of the different expressions, but based on the structural relationship between both the common expression and the different expressions included in the similar sentence pair. Thus, it can be determined whether the expression is synonymous. Therefore, synonymous expressions can be extracted from similar sentence pairs without providing special grammar rules in advance.

また、本発明によれば、共通表現及び相違表現の構造関係を示す係り受け表を用いて各表現の相対的位置関係を単純化することにより、類似文章対における修飾語の増減や、マーカー語の語順の違い等に影響を受けることなく、同義表現を抽出することができる。さらに、類似文章対における相対的位置関係の同一性を設計可能な判定基準を用いて同義表現であるか否かを判定するので、同義表現を抽出する文章対にあわせて文法的制約の強さを変更することも可能である。   In addition, according to the present invention, by simplifying the relative positional relationship of each expression using a dependency table indicating the structural relationship between the common expression and the different expression, the number of modifiers in similar sentence pairs can be increased or decreased, the marker word Synonymous expressions can be extracted without being affected by differences in word order. Furthermore, since it is determined whether or not it is a synonymous expression using a criterion that can design the identity of the relative positional relationship in similar sentence pairs, the strength of the grammatical constraints according to the sentence pair from which synonymous expressions are extracted It is also possible to change.

また、本発明によれば、類似文章対内の文字列の関係性のみに基づいて、同義表現を抽出することができる。また、本発明によれば、形態素解析や係り受け解析において辞書を用いているものの、一般に広く用いられる辞書のみを用いればよく、特別な辞書を予め用意しなくても、同義表現を抽出することができる。従って、特別な辞書の準備や記号表現を用いなくても、類似文章対から同義表現を効率的に抽出することができる。   Moreover, according to this invention, a synonym expression can be extracted only based on the relationship of the character string in a similar sentence pair. Further, according to the present invention, although a dictionary is used in morphological analysis and dependency analysis, it is sufficient to use only a dictionary that is generally widely used, and synonymous expressions can be extracted without preparing a special dictionary in advance. Can do. Therefore, synonymous expressions can be efficiently extracted from pairs of similar sentences without using special dictionary preparation or symbol expressions.

また、本発明によれば、同義表現抽出の原理に基づいた方法を用いて、少数の類似文章対だけであっても、同義表現の候補が真に同義表現であるか否かを高精度に判定することができ、同義表現を高精度に抽出することができる。また、クラスタリングや統計的に結論を導き出すことを必要とする処理を用いることなく、同義表現を抽出することができる。従って、少数の類似文章だけであっても、高精度に同義表現を抽出することができる。   Further, according to the present invention, using a method based on the principle of synonymous expression extraction, it is highly accurate whether or not a candidate for synonymous expressions is truly a synonymous expression even if there are only a few similar sentence pairs. The synonymous expression can be extracted with high accuracy. In addition, synonymous expressions can be extracted without using clustering or processing that requires statistical conclusions. Therefore, even if there are only a few similar sentences, synonymous expressions can be extracted with high accuracy.

以下、本発明を実施するための最良の形態について図面を参照して説明する。   The best mode for carrying out the present invention will be described below with reference to the drawings.

実施の形態1.
まず、本発明の第1の実施の形態を図面を参照して説明する。図1は、本発明による同義表現抽出システムの構成の一例を示すブロック図である。図1に示すように、同義表現抽出システム10は、係り受け解析手段101と、表現比較手段102と、構造関係特定手段103と、類似性算出手段104とを含む。また、同義表現抽出システム10は、類似文章対データベース501と、出力手段502とを備える。
Embodiment 1 FIG.
First, a first embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing an example of the configuration of a synonymous expression extraction system according to the present invention. As shown in FIG. 1, the synonymous expression extraction system 10 includes dependency analysis means 101, expression comparison means 102, structural relationship identification means 103, and similarity calculation means 104. The synonym expression extraction system 10 includes a similar sentence pair database 501 and an output unit 502.

また、図2は、同義表現抽出システム10が同義表現を抽出する処理の一例を示すフローチャートである。以下、同義表現抽出システム10の各構成要素の機能と、同義表現抽出システム10の動作とを、図1に示すブロック図及び図2に示すフローチャートとを参照して説明する。   FIG. 2 is a flowchart illustrating an example of processing in which the synonym expression extraction system 10 extracts synonym expressions. Hereinafter, the function of each component of the synonym expression extraction system 10 and the operation of the synonym expression extraction system 10 will be described with reference to the block diagram shown in FIG. 1 and the flowchart shown in FIG.

なお、本実施の形態において、同義表現抽出システム10は、具体的には、プログラムに従って動作するコンピュータ(例えば、パーソナルコンピュータ等の情報処理装置)によって実現される。また、同義表現抽出システム10は、例えば、同義表現検索を実行する情報検索システムや、プロジェクト管理を行うプロジェクト管理システム、電子文書の管理を行う文書管理システム等の用途に適用される。   In the present embodiment, the synonymous expression extraction system 10 is specifically realized by a computer (for example, an information processing apparatus such as a personal computer) that operates according to a program. The synonym expression extraction system 10 is applied to, for example, applications such as an information search system that executes a synonym expression search, a project management system that performs project management, and a document management system that manages electronic documents.

なお、図1に示す例では、同義表現抽出システム10の外部に類似文章対データベース501と出力手段502とを設ける場合を示しているが、同義表現抽出システム10の内部に類似文章対データベース501と出力手段502とを備えてもよい。   In the example illustrated in FIG. 1, the similar sentence pair database 501 and the output unit 502 are provided outside the synonym expression extraction system 10, but the similar sentence pair database 501 and the synonym expression extraction system 10 are provided. Output means 502 may be provided.

類似文章対データベース501は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。類似文章対データベース501は、相互に意味が類似している単一言語の2つ以上の文章を予め記憶している。例えば、類似文章対として、同じ内容に関して記載された異なるニュース記事等からそれぞれ文章を抽出して、類似文章対データベース501に蓄積してもよい。また、例えば、類似文章対データベース501は、同一の言語(外国語)で記載された文章を翻訳した複数の文章を類似文章対として記憶してもよいし、相互に参照関係のある電子文書から抽出した文章を類似文章対として記憶してもよい。   Specifically, the similar text pair database 501 is realized by a database device such as a magnetic disk device or an optical disk device. The similar sentence pair database 501 stores in advance two or more sentences in a single language whose meanings are similar to each other. For example, as similar sentence pairs, sentences may be extracted from different news articles described with respect to the same content and stored in the similar sentence pair database 501. In addition, for example, the similar sentence pair database 501 may store a plurality of sentences translated from sentences written in the same language (foreign language) as similar sentence pairs, or from electronic documents having a reference relationship with each other. You may memorize | store the extracted sentence as a similar sentence pair.

なお、本実施の形態では、類似文章対データベース501には、電子文書等から類似文章対を抽出する類似文章対抽出システム(図示せず)によって抽出された類似文章対が予め蓄積されている。例えば、類似文章対抽出システムは、所定時間毎に、インターネット上のWeb情報や共通サーバ等に蓄積されている電子文書から類似文章対を自動抽出し、類似文章対データベース501に記憶させる。また、例えば、類似文章対データベース501は、ユーザによって作成された類似文章対を予め蓄積してもよい。   In the present embodiment, similar sentence pairs extracted by a similar sentence pair extraction system (not shown) for extracting similar sentence pairs from an electronic document or the like are stored in advance in the similar sentence pair database 501. For example, the similar sentence pair extraction system automatically extracts similar sentence pairs from Web documents on the Internet, electronic documents stored in a common server, etc., and stores them in the similar sentence pair database 501 at predetermined time intervals. Further, for example, the similar sentence pair database 501 may store in advance similar sentence pairs created by the user.

図3は、類似文章対データベース501が記憶する類似文章対の例を示す説明図である。図3に示す類似文章対では、表現「ABC機能」と表現「XYZ機能」とが同義表現であるとする。以下、図3に示す類似文章対を例にして同義表現の抽出方法を説明する。また、本実施の形態では、2つの類似文章間の同義表現を抽出する場合を例に説明する。なお、類似文章対に3つ以上の類似文章が含まれる場合には、各類似文章を2つずつ組み合わせた類似文章の組を作り、その全組み合わせに対してそれぞれ処理を実行すればよい。   FIG. 3 is an explanatory diagram showing an example of similar sentence pairs stored in the similar sentence pair database 501. In the similar sentence pair shown in FIG. 3, it is assumed that the expression “ABC function” and the expression “XYZ function” are synonymous expressions. Hereinafter, a method for extracting synonymous expressions will be described using the similar sentence pair shown in FIG. 3 as an example. In the present embodiment, a case where a synonymous expression between two similar sentences is extracted will be described as an example. When three or more similar sentences are included in a pair of similar sentences, a pair of similar sentences obtained by combining two similar sentences may be created, and the process may be executed for all the combinations.

同義表現抽出システム10は、ユーザによる操作に従って、同義表現抽出の処理を開始する。例えば、同義表現抽出システム10は、ディスプレイ装置等である出力手段502に、同義表現抽出用のフォームを含む表示画面を表示させる。この場合に、ユーザによって同義表現抽出用のフォームから実行ボタンがマウスクリック等されると、同義表現抽出システム10は、同義表現抽出の処理を開始する。   The synonym expression extraction system 10 starts synonym expression extraction processing in accordance with an operation by the user. For example, the synonym expression extraction system 10 displays a display screen including a form for synonym expression extraction on the output unit 502 that is a display device or the like. In this case, when the execution button is clicked by the user from the synonym expression extraction form, the synonym expression extraction system 10 starts the synonym expression extraction process.

係り受け解析手段101は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。同義表現抽出の処理を開始すると、係り受け解析手段101は、まず、類似文章対データベース501から類似文章対を抽出する。次いで、係り受け解析手段101は、抽出した類似文章対に含まれる各文章に対して係り受け解析を行い、その係り受け解析結果を表現比較手段102に出力する(ステップS704a)。   Specifically, the dependency analysis unit 101 is realized by a CPU of an information processing apparatus that operates according to a program. When the synonym expression extraction process is started, the dependency analysis unit 101 first extracts a similar sentence pair from the similar sentence pair database 501. Next, the dependency analysis unit 101 performs dependency analysis on each sentence included in the extracted similar sentence pair, and outputs the dependency analysis result to the expression comparison unit 102 (step S704a).

なお、一般に、係り受け解析を行う前には文章を形態素に分解する形態素解析処理を行う必要がある。本実施の形態では、形態素解析処理は係り受け解析手段101に組み込まれているものとし、係り受け解析手段101は、ステップS704aにおいて、形態素解析処理を実行してから係り受け解析を実行する。なお、形態素解析処理を行う手段を、係り受け解析処理を行う係り受け解析手段101とは別に備えるようにしてもよい。   In general, before performing dependency analysis, it is necessary to perform a morpheme analysis process that decomposes a sentence into morphemes. In the present embodiment, it is assumed that the morphological analysis process is incorporated in the dependency analysis unit 101, and the dependency analysis unit 101 executes the dependency analysis after executing the morphological analysis process in step S704a. In addition, you may make it provide the means which performs a morphological analysis process separately from the dependency analysis means 101 which performs a dependency analysis process.

なお、係り受け解析手段101は、HMM(Hidden Markov Model )等の既存技術を用いて形態素解析を実行する。また、係り受け解析手段101は、確率モデルや構文解析等の既存技術を用いて係り受け解析を実行する。   The dependency analysis unit 101 performs morphological analysis using an existing technique such as HMM (Hidden Markov Model). Further, the dependency analysis unit 101 executes dependency analysis using existing techniques such as a probability model and syntax analysis.

図4は、図3に示した各文章を係り受け解析し、各文節間の係り受けの関係を図示した説明図である。図4において、ノードは文節を表し、矢印の先が文節の係り先を表している。図4に示すように、係り受け解析手段101は、類似文章対の各文章に対して係り受け解析を実行することにより、各文章を、文節をノードとする木構造を用いて表すことができる。ここで、図4に示すような係り受けの木構造を係り受け構造という。   FIG. 4 is an explanatory diagram illustrating the dependency relationship between each phrase by performing dependency analysis on each sentence shown in FIG. 3. In FIG. 4, the node represents a phrase, and the tip of the arrow represents the phrase destination. As shown in FIG. 4, the dependency analysis unit 101 can express each sentence using a tree structure having clauses as nodes by executing dependency analysis on each sentence of the similar sentence pair. . Here, the dependency tree structure shown in FIG. 4 is called a dependency structure.

なお、係り受け解析手段101は、形態素解析結果と各文節の対応関係の情報とを、例えば、図5に示すようなデータ形式で記録媒体に記憶させる。例えば、係り受け解析手段101は、記憶媒体として、情報処理装置のメモリやハードディスク装置、CD−ROM、DVD−ROM、フレキシブルディスク等に、形態素解析結果や各文節の対応関係の情報を、図5に示すように表(テーブル)形式で記憶させる。   The dependency analysis unit 101 stores the morpheme analysis result and the information on the correspondence between each phrase in a recording medium in a data format as shown in FIG. 5, for example. For example, the dependency analysis unit 101 stores, as a storage medium, information on the correspondence between morphological analysis results and phrases in a memory of an information processing device, a hard disk device, a CD-ROM, a DVD-ROM, a flexible disk, or the like. As shown in FIG. 4, the data is stored in a table format.

図5に示すように、形態素解析結果や各文節の対応関係の情報を示す表には、形態素解析により抽出された単語と、その単語の品詞及び係り受け解析により求められた文節IDとが含まれる。文節IDとは、文節を特定するための識別情報である。同じ文節に属する単語には同一の文節IDが付与される。   As shown in FIG. 5, the table showing the morphological analysis results and the correspondence information of each clause includes the word extracted by the morphological analysis, the part of speech of the word, and the phrase ID obtained by the dependency analysis. It is. The phrase ID is identification information for specifying a phrase. The same phrase ID is assigned to words belonging to the same phrase.

また、係り受け解析手段101は、求めた係り受け構造を、例えば、図6に示すようなデータ形式により表(テーブル)形式で記憶媒体に記憶させる。以下、図6に示す係り受け構造を示す表を係り受け表という。図6に示す係り受け表において、左列の「文節ID」は、図5に示す文節IDと対応している。また、中央列の「文節」は、1つの文節を形成する文字列である。右列の「係り先ID」は、その文節が係る係り先の文節の文節IDを示している。   Further, the dependency analysis unit 101 stores the obtained dependency structure in a storage medium in a table format in a data format as shown in FIG. 6, for example. Hereinafter, the table showing the dependency structure shown in FIG. 6 is referred to as a dependency table. In the dependency table shown in FIG. 6, the “phrase ID” in the left column corresponds to the phrase ID shown in FIG. The “phrase” in the center column is a character string that forms one clause. “Destination ID” in the right column indicates the phrase ID of the related phrase related to the phrase.

例えば、図6に示す例では、文節ID001の文節「動画処理の」は、文節ID002の文節「ために」に係ることがわかる。また、係る文節がない場合には、係り先がないことを判断できるように、例えば、係り先IDを000とする。   For example, in the example illustrated in FIG. 6, it is understood that the phrase “moving image processing” with the phrase ID 001 relates to the phrase “for” with the phrase ID 002. Further, when there is no such clause, for example, the relation ID is 000 so that it can be determined that there is no relation.

表現比較手段102は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。表現比較手段102は、係り受け解析手段101による解析結果を入力する。また、表現比較手段102は、入力した係り受け解析結果に基づいて、類似文章対における共通表現と相違表現とを特定し、共通表現と相違表現との特定結果を構造関係抽出手段103に出力する(ステップS704b)。   Specifically, the expression comparison unit 102 is realized by a CPU of an information processing apparatus that operates according to a program. The expression comparison unit 102 inputs the analysis result from the dependency analysis unit 101. Further, the expression comparison unit 102 identifies the common expression and the difference expression in the similar sentence pair based on the input dependency analysis result, and outputs the identification result of the common expression and the difference expression to the structural relationship extraction unit 103. (Step S704b).

表現比較手段102は、共通表現や相違表現として抽出する対象表現の品詞を任意に選択してよい。例えば、表現比較手段102は、名詞を含む文節について共通表現や相違表現を抽出してもよい。また、表現比較手段102は、自立語を含む文節について共通表現や相違表現を抽出してもよい。さらに、表現比較手段102は、文節区切りで抽出するだけではなく、名詞を含む文節とその文節を修飾する1つ以上の文節群とを1つの表現として、共通表現や相違表現を抽出してもよい。また、表現比較手段102は、係り受け構造の部分木を単位として、共通表現や相違表現を抽出してもよい。なお、表現比較手段102は、各文節に含まれる単語の品詞については、図5に示す形態素解析結果と各文節の対応関係の情報に基づいて抽出することができる。   The expression comparison unit 102 may arbitrarily select the part of speech of the target expression to be extracted as a common expression or a different expression. For example, the expression comparison unit 102 may extract a common expression or a difference expression for a phrase including a noun. In addition, the expression comparison unit 102 may extract a common expression or a difference expression for a phrase including an independent word. Furthermore, the expression comparison unit 102 not only extracts by phrase breaks, but also extracts common expressions and difference expressions by using a phrase including a noun and one or more phrase groups that modify the phrase as one expression. Good. In addition, the expression comparison unit 102 may extract a common expression or a difference expression in units of subtrees with dependency structures. Note that the expression comparison unit 102 can extract the part of speech of each word included in each phrase based on the morphological analysis result shown in FIG. 5 and information on the correspondence between each phrase.

以下、説明をわかりやすくするために、共通表現や相違表現として抽出する表現を各文節中に含まれる名詞句とした場合における同義表現の抽出過程について説明する。一般に、情報検索等を行なう場合、名詞や名詞句を入力して情報検索操作を行うことが多い。また、一般に、動詞や形容詞等の用言の同義表現はユーザが見てすぐに同義であるか否か認識できるものが多いのに対し、名詞や名詞句に同義表現が含まれる場合、その名詞や名詞句を見ただけではユーザが同義であるか否かをすぐに認識できないものが多い。従って、電子文書間等において名詞や名詞句に同義表現が含まれている場合、最も情報検索の障害となる可能性が高い。従って、本実施の形態では、類似文章対から名詞句における同義表現を抽出する場合を説明する。なお、同義表現抽出システム10は、名詞や名詞句に限らず、動詞や形容詞等の同義表現を抽出するものであってもよい。   Hereinafter, in order to make the explanation easy to understand, a process of extracting synonymous expressions in the case where expressions extracted as common expressions or different expressions are used as noun phrases included in each phrase will be described. In general, when performing an information search or the like, an information search operation is often performed by inputting a noun or a noun phrase. Also, in general, there are many synonymous expressions of verbs, adjectives, etc. that can be recognized immediately when the user sees them, but if nouns or noun phrases contain synonyms, In many cases, it is impossible to immediately recognize whether a user is synonymous or not just by looking at a noun phrase. Therefore, when synonyms are included in nouns and noun phrases between electronic documents, etc., there is a high possibility of being an obstacle to information retrieval. Therefore, in the present embodiment, a case will be described in which synonymous expressions in noun phrases are extracted from similar sentence pairs. The synonymous expression extraction system 10 is not limited to nouns and noun phrases, and may extract synonymous expressions such as verbs and adjectives.

また、以下、各文節を表現ともいう。図4に示す例では、表現比較手段102は、共通表現として「高速描画」(706a,706d)と「動画処理」(706b,706e)とを抽出する。また、図4において、網掛けで示した四角枠には、相違表現が含まれていることを表している。すなわち、表現比較手段102は、相違表現として「ABC機能」706c、「XYZ機能」706f及び「可視化診断」706gを抽出する。   Hereinafter, each phrase is also referred to as an expression. In the example illustrated in FIG. 4, the expression comparison unit 102 extracts “high speed drawing” (706a, 706d) and “moving image processing” (706b, 706e) as common expressions. In FIG. 4, the square frame indicated by shading indicates that a difference expression is included. That is, the expression comparison unit 102 extracts “ABC function” 706c, “XYZ function” 706f, and “visualization diagnosis” 706g as difference expressions.

構造関係特定手段103は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。構造関係特定手段103は、類似文章対から抽出された共通表現と相違表現とに基づいて、各文章における共通表現間の構造関係、及び共通表現と相違表現との間の構造関係を特定し、特定した各構造関係を類似性判定手段104に出力する(ステップS704c)。構造関係とは、係り受け構造における各表現の相対的位置関係により規定されるものである。構造関係は、係り受け構造において、基準となる表現(以下、基準表現という)が非分岐又は分岐の位置のどちらの位置に存在するかに従って2つに分けることができる。なお、基準表現に対して構造関係を特定する表現を対象表現という。また、分岐に位置する表現を分岐表現という。   Specifically, the structural relationship specifying unit 103 is realized by a CPU of an information processing apparatus that operates according to a program. The structural relation specifying means 103 specifies the structural relation between the common expressions in each sentence and the structural relation between the common expressions and the different expressions based on the common expressions and the different expressions extracted from the pair of similar sentences. Each identified structural relationship is output to the similarity determination means 104 (step S704c). The structural relationship is defined by the relative positional relationship of each expression in the dependency structure. In the dependency structure, the structural relationship can be divided into two types according to whether a reference expression (hereinafter referred to as a reference expression) exists at a non-branching position or a branching position. An expression that specifies a structural relationship with respect to a reference expression is called a target expression. An expression located at a branch is called a branch expression.

図7は、共通表現間の構造関係、及び共通表現と相違表現との間の構造関係の例を示す説明図である。図7(a)は、基準表現(709a)が非分岐に位置する場合の構造関係を示している。また、図7(b)は、基準表現(709b)が分岐に位置する場合の構造関係を示している。また、図7において、○印は1つの表現を表しており、矢印は係り受けを表している。また、●印は基準表現を表している。   FIG. 7 is an explanatory diagram illustrating an example of a structural relationship between common expressions and a structural relationship between common expressions and different expressions. FIG. 7A shows the structural relationship when the reference expression (709a) is located in a non-branch. FIG. 7B shows the structural relationship when the reference expression (709b) is located at a branch. Further, in FIG. 7, a circle represents one expression, and an arrow represents a dependency. The ● mark represents the standard expression.

基準表現が非分岐に位置する場合、図7(a)に示す破線四角枠により示される対象表現の位置によって、同列、直列及び並列の3つの構造関係を規定する。この場合、構造関係特定手段103は、対象表現が同列、直列又は並列のいずれであるかを特定する。ここで、同列とは基準表現と直接係り受けの関係がある表現の集合であり、直列とは文章の全体的な係り受け構造からみると基準表現が「係り」又は「受け」となる表現の集合であり、並列とは共通の分岐表現に係る表現の集合である。   When the reference expression is located at a non-branch, three structural relationships of the same column, series, and parallel are defined by the position of the target expression indicated by the broken-line square frame shown in FIG. In this case, the structural relationship specifying unit 103 specifies whether the target expression is the same, serial, or parallel. Here, the same column is a set of expressions that have a direct dependency relationship with the reference expression, and the series is an expression in which the reference expression is “dependency” or “reception” when viewed from the overall dependency structure of the sentence. It is a set, and parallel is a set of expressions related to a common branch expression.

一方、基準表現が分岐に位置する場合、図7(b)に示す破線四角枠により示される対象表現の位置によって、前列、後列及び横列の3つの構造関係を規定する。この場合、構造関係特定手段103は、対象表現が前列、後列及び横列のいずれであるかを特定する。ここで、前列とは基準表現に対して「係り」となる表現の集合であり、後列とは基準表現に対して「受け」となる表現の集合であり、横列とは共通の分岐表現に係る表現の集合である。   On the other hand, when the reference expression is located at a branch, the three structural relationships of the front row, the rear row, and the horizontal row are defined according to the position of the target representation indicated by the broken-line square frame shown in FIG. In this case, the structural relationship specifying unit 103 specifies whether the target expression is a front row, a back row, or a row. Here, the front row is a set of expressions that are “involved” with respect to the reference expression, the back row is a set of expressions that are “received” with respect to the reference expression, and the row is related to a common branch expression. A collection of expressions.

なお、係り受け構造において、構造関係を特定する表現間に2つ以上の分岐表現がある場合、構造関係特定手段103は、上記に示した6つの関係のいずれにも属さないと判断し、構造関係を「その他」と特定する。   In the dependency structure, if there are two or more branch expressions between the expressions specifying the structural relationship, the structural relationship specifying unit 103 determines that the structure does not belong to any of the six relationships shown above, and the structure Identify the relationship as “Other”.

次に、文章2を例にして、構造関係特定手段103が構造関係を特定する処理について説明する。構造関係の特定処理において、構造関係特定手段103は、まず、図6に示す係り受け表に基づいて、図8に示す構造関係特定表を生成する。構造関係特定表とは、構造関係を特定するために必要となる情報をまとめた情報である。図8に示すように、構造関係特定表は、文節IDと、文節IDに対応する表現の係り受け構造における位置(分岐/非分岐)と、それぞれ各表現の係り側及び受け側にある近接の分岐表現を特定するための文節ID(係り側近接分岐ID、受け側近接分岐ID)を含む。   Next, taking the sentence 2 as an example, the process in which the structural relationship identifying unit 103 identifies the structural relationship will be described. In the structure relation specifying process, the structure relation specifying unit 103 first generates the structure relation specifying table shown in FIG. 8 based on the dependency table shown in FIG. The structural relationship specification table is information that summarizes information necessary for specifying the structural relationship. As shown in FIG. 8, the structure relationship specification table includes a phrase ID, a position (branch / non-branch) in the dependency structure of the expression corresponding to the phrase ID, and the proximity of each expression on the dependency side and the reception side. It includes a phrase ID for specifying the branch expression (an engagement side adjacent branch ID, a receiving side adjacent branch ID).

図9に示すように、係り側とは係り受け構造における葉側を意味し、受け側とは係り受け構造における根側を意味する。係り側近接分岐ID及び受け側近接分岐IDとは、係り受け構造において各表現がどの分岐表現に挟まれているかを把握するための識別情報である。ただし、係り受け構造において、根に相当する表現には受け側近接分岐IDがなく、葉と同列の関係にある表現には係り側近接分岐IDがない。そのため、図9に示すように、分岐表現の文節IDの代わりに葉IDと根IDとを用いる。そのようにすることにより、構造関係特定手段103は、任意の表現の係り側近接分岐ID及び受け側近接分岐IDに、分岐表現の文節ID、葉ID又は根IDのいずれかを付与する。   As shown in FIG. 9, the dependency side means the leaf side in the dependency structure, and the reception side means the root side in the dependency structure. The dependency side adjacent branch ID and the reception side adjacent branch ID are identification information for grasping which branch expression each expression is sandwiched in the dependency structure. However, in the dependency structure, the expression corresponding to the root does not have the reception side adjacent branch ID, and the expression in the same row as the leaf does not have the dependency side adjacent branch ID. Therefore, as shown in FIG. 9, a leaf ID and a root ID are used instead of the phrase ID of the branch expression. By doing so, the structural relationship specifying unit 103 assigns any of the phrase ID, the leaf ID, and the root ID of the branch expression to the relationship-side adjacent branch ID and the receiver-side adjacent branch ID of any expression.

構造関係特定手段103は、構造関係特定表を、以下の処理に従って生成する。構造関係特定手段103は、図6に示す係り受け表に基づいて、係り先IDに同じ文節IDが2つ以上あればその表現を分岐表現とし、同じ文節IDが1つ以下であれば非分岐の表現とする。そのような処理により、構造関係特定手段103は、各表現の分岐/非分岐を特定する。   The structural relationship identification unit 103 generates a structural relationship identification table according to the following processing. Based on the dependency table shown in FIG. 6, the structure relation specifying unit 103 determines that the expression is a branch expression if there are two or more same phrase IDs in the dependency ID, and is not branched if the same phrase ID is one or less. The expression of Through such processing, the structural relationship specifying unit 103 specifies branch / non-branch of each expression.

次に、構造関係特定手段103は、係り受け表において係り先IDに存在しない文節IDを抽出する。その抽出した文節IDの表現は係り受け構造における葉に相当しており、構造関係特定手段103は、その抽出した文節IDの表現の係り側近接分岐IDには葉IDを付与する。この場合、構造関係特定手段103は、各葉IDとして異なる値を用いる。   Next, the structural relationship specifying unit 103 extracts a phrase ID that does not exist in the dependency ID in the dependency table. The extracted phrase ID expression corresponds to a leaf in the dependency structure, and the structure relation specifying unit 103 assigns a leaf ID to the dependency side adjacent branch ID of the extracted phrase ID expression. In this case, the structural relationship specifying unit 103 uses a different value as each leaf ID.

次に、構造関係特定手段103は、葉に相当する表現から順に、係り先の表現が分岐表現となるまで各表現を順次参照していき、そのトレースの過程に出てくる表現をメモリ等の記憶媒体に記憶させる。また、構造関係特定手段103は、記憶媒体に記憶されている表現の係り側近接分岐IDに、参照を開始した表現(葉に相当)の係り側近接分岐IDを付与する。また、構造関係特定手段103は、受け側近接分岐IDとして、前述した分岐表現の文節IDを付与する。また、構造関係特定手段103は、分岐表現の係り側近接分岐IDとして、その表現に直接係る表現の係り側近接分岐IDを付与する。   Next, the structure relation specifying unit 103 sequentially refers to each expression from the expression corresponding to the leaf until the relation expression becomes a branch expression, and the expression appearing in the tracing process is stored in a memory or the like. Store in a storage medium. Further, the structural relationship specifying unit 103 assigns a relationship-side proximity branch ID of an expression (corresponding to a leaf) whose reference is started to the relationship-side proximity branch ID of the expression stored in the storage medium. Further, the structure relation specifying unit 103 assigns the phrase ID of the branch expression described above as the receiving side adjacent branch ID. Further, the structure relation specifying unit 103 assigns the relation side adjacent branch ID of the expression directly related to the expression as the relation side adjacent branch ID of the branch expression.

なお、構造関係特定手段103は、分岐表現の係り側近接分岐IDとして、2個以上のIDを付与することになる。もし、分岐表現が見つからず係り先係り受け構造の根となった場合には、構造関係特定手段103は、その表現の受け側分岐表現IDを根IDとし処理を終了する。そうでない場合には、構造関係特定手段103は、さらに分岐の表現から順に係り先の表現が分岐表現となるまで順次参照していき、そのトレースの過程に出てくる表現をメモリ等の記憶媒体に記憶させる。また、構造関係特定手段103は、記憶媒体に記憶されている表現の係り側近接分岐IDに、参照を開始した分岐表現の文節IDを付与する。   The structural relationship specifying unit 103 assigns two or more IDs as the dependency side adjacent branch IDs of the branch expression. If the branch expression is not found and becomes the root of the dependency dependency structure, the structure relation specifying unit 103 sets the receiving branch expression ID of the expression as the root ID and ends the process. If this is not the case, the structural relationship specifying means 103 sequentially refers to the branch expression from the branch expression until the branch expression becomes the branch expression, and the expression that appears in the trace process is stored in a storage medium such as a memory. Remember me. Further, the structure relation specifying unit 103 gives the phrase ID of the branch expression that has been referred to the relation-side adjacent branch ID of the expression stored in the storage medium.

上記の処理を繰り返し実行し、参照する係り先が係り受け構造の根となると、構造関係特定手段103は、その表現の受け側分岐表現IDに根IDを付与し、処理を終了する。図8は、図6に示す係り受け表に基づいて求められる構造関係特定表の例を示す説明図である。   When the above processing is repeatedly executed and the reference destination becomes the root of the dependency structure, the structural relationship specifying unit 103 assigns the root ID to the receiving side branch expression ID of the expression and ends the processing. FIG. 8 is an explanatory diagram showing an example of the structural relationship specification table obtained based on the dependency table shown in FIG.

次に、構造関係特定手段103は、構造関係特定表において、共通表現又は相違表現を含む2つの表現に対して構造関係を特定する。基準表現が非分岐である場合、構造関係特定手段103は、(1)2つの表現において受け側近接分岐IDと係り側近接分岐IDとがともに同一である場合には、構造関係を「同列」と特定する。また、構造関係特定手段103は、(2)2つの表現において受け側近接分岐IDが同一であり係り側近接分岐IDが異なれば、構造関係を「並列」と特定する。また、構造関係特定手段103は、(3)一方の受け側近接分岐IDが他方の係り側近接分岐IDと同一である場合には、構造関係を「直列」と特定する。また、構造関係特定手段103は、(4)2つの表現の受け側近接分岐IDと係り側近接分岐IDとに一致するものがなければ、構造関係を「その他」と特定する。   Next, the structural relationship specifying unit 103 specifies the structural relationship for two expressions including a common expression or a different expression in the structure relationship specifying table. When the reference expression is non-branching, the structural relationship specifying means 103 (1) If the receiving side adjacent branch ID and the related side adjacent branch ID are the same in the two expressions, the structural relationship is set to “same row”. Is identified. In addition, the structural relationship specifying unit 103 specifies (2) the structural relationship as “parallel” if the receiving side adjacent branch IDs are the same and the related side adjacent branch IDs are different in the two expressions. Further, the structural relationship specifying means 103 specifies (3) the structural relationship as “series” when one receiving side adjacent branch ID is the same as the other related side adjacent branch ID. Further, the structural relationship specifying unit 103 specifies (4) the structural relationship as “others” if there is no match between the receiving side adjacent branch ID and the relationship side adjacent branch ID of the two expressions.

また、基準表現が分岐表現である場合、構造関係特定手段103は、(1)対象表現の受け側近接分岐IDが基準表現の文節IDである場合には、構造関係を「前列」と特定する。また、構造関係特定手段103は、(2)対象表現の係り側近接分岐IDが基準表現の文節IDである場合には、構造関係を「後列」と特定する。また、構造関係特定手段103は、(3)2つの表現の受け側近接分岐IDが同一であれば、構造関係を「並列」と特定する。また、構造関係特定手段103は、(4)2つの表現の受け側近接分岐IDと係り側近接分岐IDとに一致するものがなければ、構造関係を「その他」と特定する。   Further, when the reference expression is a branch expression, the structure relation specifying unit 103 specifies (1) the structure relation as “front row” when the receiving side adjacent branch ID of the target expression is the phrase ID of the reference expression. . In addition, the structural relationship specifying unit 103 specifies (2) the structural relationship as “back row” when the relationship-side adjacent branch ID of the target expression is the phrase ID of the reference expression. Further, the structural relationship specifying means 103 specifies (3) the structural relationship as “parallel” if the receiving side adjacent branch IDs of the two expressions are the same. Further, the structural relationship specifying unit 103 specifies (4) the structural relationship as “others” if there is no match between the receiving side adjacent branch ID and the relationship side adjacent branch ID of the two expressions.

なお、上記に示した構造関係を特定する方法は一例であり、構造関係特定手段103は、所望の構造関係が特定できれば、他の方法を用いて構造関係を特定してもよい。また、以下、共通表現間の構造関係を共通表現構造といい、共通表現と相違表現との間の構造関係を相違表現構造という。   Note that the above-described method of specifying the structural relationship is an example, and the structural relationship specifying unit 103 may specify the structural relationship using another method as long as the desired structural relationship can be specified. Hereinafter, the structural relationship between the common representations is referred to as a common representation structure, and the structural relationship between the common representation and the difference representation is referred to as a difference representation structure.

なお、構造関係を求めるための2つの表現において、片方が分岐表現であり、もう一方が分岐表現でない場合、どちらを基準表現にするかによって構造関係が変わる。そのため、本実施の形態では、構造関係特定手段103は、2つの表現間に対して基準表現と対象表現とを入れ替えて処理を実行することにより、2つの構造関係を特定する。そのように、基準表現と対象表現とを入れ替えた2種類の構造関係を特定して処理を行うことにより、同義表現抽出の精度をより高めることができる。なお、基準表現と対象表現との入れ替えを行わずに、いずれか一方の表現のみを基準表現とし、他方を対象表現として、同義表現抽出の処理を行ってもよい。   In the two expressions for obtaining the structural relationship, when one is a branching expression and the other is not a branching expression, the structural relation changes depending on which is used as a reference expression. Therefore, in the present embodiment, the structural relationship specifying unit 103 specifies the two structural relationships by executing processing by exchanging the reference expression and the target expression between the two expressions. In this way, the accuracy of synonymous expression extraction can be further improved by specifying and processing two types of structural relationships in which the reference expression and the target expression are interchanged. Note that the synonymous expression extraction process may be performed using only one of the expressions as the reference expression and the other as the object expression without replacing the reference expression and the object expression.

類似文章対に共通表現がm個ある場合、構造関係特定手段103は、各文章においてm×(m−1)個の共通表現構造を特定することになる。また、構造関係特定手段103は、相違表現1個について、m×2個の相違表現構造を特定することになる。例えば、文章1と文章2とを比較する場合には、m=2であるため、構造関係特定手段103は、共通表現構造を2個特定することになる。また、文章1及び文章2については、相違表現がそれぞれ1個及び2個であるため、構造関係特定手段103は、文章1において4個の相違表現構造を特定し、文章2において8個の相違表現構造を特定する。   When there are m common expressions in a pair of similar sentences, the structure relation specifying unit 103 specifies m × (m−1) common expression structures in each sentence. Further, the structural relationship specifying unit 103 specifies m × 2 difference expression structures for one difference expression. For example, when comparing sentence 1 and sentence 2, since m = 2, the structural relationship specifying unit 103 specifies two common expression structures. Also, for sentence 1 and sentence 2, there are one and two difference expressions, respectively, so the structural relationship specifying means 103 specifies four difference expression structures in sentence 1, and eight differences in sentence 2 Specify the representation structure.

図10は、構造関係特定手段103が文章1に対して構造関係を特定した結果を示す説明図である。なお、図10の右側に示す特定結果は、図10の左側に示す特定結果で用いた基準表現と対象表現とを反転して(入れ替えて)処理することによって求めた構造関係である。図10において、破線矢印の元は基準表現を示しており、波線矢印の先は対象表現を示している。また、図10において、共通表現が含まれる表現(文節)は白抜き文字で示されており、相違表現が含まれる表現は網掛けの四角枠として示されている。   FIG. 10 is an explanatory diagram showing the result of the structural relationship specifying unit 103 specifying the structural relationship for the sentence 1. The identification result shown on the right side of FIG. 10 is a structural relationship obtained by inverting (replacement) the reference expression and the target expression used in the identification result shown on the left side of FIG. In FIG. 10, the origin of the broken line arrow indicates the reference expression, and the tip of the wavy arrow indicates the target expression. In FIG. 10, expressions (sentences) including the common expression are indicated by white characters, and expressions including the difference expression are illustrated as a shaded square frame.

図10に示すように、構造関係特定手段103による構造関係の特定結果に基づいて、文章1においては、基準表現の違いに関係なく、「高速描画」と「動画処理」との共通表現構造が「並列」(720a,820a)であることがわかる。また、「ABC機能」と「動画処理」との相違表現構造が「並列」(720b,820b)であることがわかる。また、「ABC機能」と「高速描画」との相違表現構造が「同列」(720c,820c)であることがわかる。   As shown in FIG. 10, based on the structural relationship identification result by the structural relationship identifying unit 103, the sentence 1 has a common expression structure between “high-speed rendering” and “moving image processing” regardless of the difference in the standard expression. It turns out that it is "parallel" (720a, 820a). It can also be seen that the difference representation structure between the “ABC function” and the “moving image processing” is “parallel” (720b, 820b). It can also be seen that the difference representation structure between the “ABC function” and the “high-speed drawing” is “same column” (720c, 820c).

図11は、構造関係特定手段103が文章2に対して構造関係を特定した結果を示す説明図である。なお、図11の下側に示す特定結果は、図11の上側に示す特定結果で用いた基準表現と対象表現とを反転して(入れ替えて)処理することによって求めた構造関係である。また、図11の見方は図10の場合と同様である。   FIG. 11 is an explanatory diagram showing the result of the structural relationship specifying unit 103 specifying the structural relationship for the sentence 2. Note that the identification result shown on the lower side of FIG. 11 is a structural relationship obtained by inverting (replacement) the reference expression and the target expression used in the identification result shown on the upper side of FIG. 11 is the same as that shown in FIG.

図11に示すように、構造関係特定手段103による構造関係の特定結果に基づいて、文章2においても、基準表現の違いに関係なく、「高速描画」と「動画処理」との共通表現構造が「並列」(730a,830a)であることがわかる。また、「XYZ機能」と「動画処理」との相違表現構造が「並列」(713b,830b)、「XYZ機能」と「高速描画」との相違表現構造が「同列」(730c,830c)であることがわかる。また、「可視化診断」と「高速描画」との相違表現構造及び「可視化診断」と「動画処理」との相違表現構造は、表現間に2つ以上の分岐表現(「用いており、」と「役立っている」)があるため、構造関係が「その他」(730d,730e,830d,830e)であることがわかる。   As shown in FIG. 11, based on the structural relationship specifying result by the structural relationship specifying means 103, the common expression structure of “high-speed rendering” and “moving image processing” is also used in the sentence 2 regardless of the difference in the standard expression. It turns out that it is "parallel" (730a, 830a). Also, the difference representation structure between the “XYZ function” and “moving image processing” is “parallel” (713b, 830b), and the difference representation structure between the “XYZ function” and “high-speed rendering” is “same row” (730c, 830c). I know that there is. Also, the difference representation structure between “visualization diagnosis” and “high-speed rendering” and the difference representation structure between “visualization diagnosis” and “moving image processing” include two or more branch expressions (“used” and “ It is understood that the structural relationship is “others” (730d, 730e, 830d, 830e).

類似性判定手段104は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。類似性判定手段104は、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する機能を備える。   Specifically, the similarity determination unit 104 is realized by a CPU of an information processing apparatus that operates according to a program. The similarity determination means 104 is different between the sentences of the similar sentence pair, and the common expression group included in common in each sentence of the similar sentence pair has a similar relative positional relationship in the sentence structure of each sentence. A function is provided for extracting synonymous expressions from pairs of similar sentences based on the fact that the difference expression group and the common expression group are in a similar relative positional relationship in the sentence structure of each sentence.

類似性判定手段104は、構造関係抽出手段103から類似文章対を入力し、入力した類似文章対における共通表現構造及び相違表現構造の同一性を判定する(ステップS704d)。さらに、類似性判定手段104は、同一性の判定結果に基づいて、類似文章対における同義表現候補対の類似度を算出することにより同義表現を抽出し、同義表現の抽出結果を出力手段502に出力する(ステップS704e)。   The similarity determination unit 104 receives a similar sentence pair from the structural relationship extraction unit 103 and determines the identity of the common expression structure and the different expression structure in the input similar sentence pair (step S704d). Further, the similarity determination unit 104 extracts the synonym expression by calculating the similarity of the synonym expression candidate pair in the similar sentence pair based on the determination result of the identity, and outputs the extraction result of the synonym expression to the output unit 502. Output (step S704e).

なお、同義表現候補対とは、類似文章対において同義表現の候補となる相違表現をペア(対)にした情報である。類似文章対である文章iと文章jとにそれぞれ相違表現がni個及びnj個含まれている場合、同義表現候補対の組み合わせはni×nj通りとなる。類似性判定手段104は、これら全ての同義表現候補対の組み合わせに対して類似度を算出する。   The synonymous expression candidate pair is information obtained by pairing different expressions that are candidates for synonymous expressions in a pair of similar sentences. When ni and nj different expressions are included in the sentence i and the sentence j, which are similar sentence pairs, there are ni × nj combinations of synonymous expression candidate pairs. The similarity determination unit 104 calculates the similarity for all of these combinations of synonym expression candidate pairs.

まず、類似性判定手段104は、同義表現候補対における比較構造関係を特定する。比較構造関係とは、同義表現候補対の類似度を算出するために比較すべき共通表現構造及び相違表現構造のことである。類似性判定手段104は、共通表現構造について、類似文章対において基準表現及び対象表現が同一であるものを比較する。また、類似性判定手段104は、相違表現構造について、類似文章対において基準表現となる共通表現が同一であるもの、又は対象表現となる共通表現が同一であるものを比較する。   First, the similarity determination unit 104 identifies a comparative structure relationship in the synonymous expression candidate pair. The comparative structure relationship is a common expression structure and a different expression structure to be compared in order to calculate the similarity between synonymous expression candidate pairs. The similarity determination means 104 compares the common expression structures with the same reference expression and target expression in the similar sentence pairs. In addition, the similarity determination unit 104 compares different expression structures that have the same common expression as the reference expression in the similar sentence pair or the same common expression as the target expression.

図12は、類似文章対における共通表現の数(m)が2である場合における比較構造関係の例を示している。図12において、共通表現1,2は文章i,jにおいて用いられている同一の文字列の表現であり、相違表現aと相違表現bとは同義表現候補対である。また、同義表現候補対は、図12において網掛けで示されている。図12に示す例では、類似性判定手段104が比較する構造関係数は、1つの同義表現候補対について、共通表現構造に対して2個となり、相違表現構造に対して4個となり、合計6個となる。すなわち、類似性判定手段104は、6個の構造関係の同一性に基づいて、同義表現候補対の類似度を算出する。   FIG. 12 shows an example of the comparative structure relationship when the number (m) of common expressions in similar sentence pairs is two. In FIG. 12, common expressions 1 and 2 are expressions of the same character string used in sentences i and j, and difference expression a and difference expression b are synonymous expression candidate pairs. Further, the synonym expression candidate pairs are indicated by shading in FIG. In the example shown in FIG. 12, the number of structural relations compared by the similarity determination unit 104 is 2 for the common expression structure and 4 for the different expression structure for one synonym expression candidate pair, for a total of 6 It becomes a piece. That is, the similarity determination unit 104 calculates the similarity of the synonymous expression candidate pairs based on the identity of the six structural relationships.

図13は、文章1と文章2とにおける同義表現候補対に対する比較構造関係を示す。文章1と文章2とにおいて、同義表現候補対は、「ABC機能」と「XYZ機能」、及び「ABC機能」と「可視化診断」の2つになる。類似性判定手段104は、各同義表現候補対の両方に対して、図12と同様に、2つの共通表現構造と4つの相違表現構造とを比較し、構造関係の同一性を判定することにより、同義表現候補対の類似度を算出する。   FIG. 13 shows a comparative structure relationship for the synonymous expression candidate pair in the sentence 1 and the sentence 2. In sentence 1 and sentence 2, there are two synonymous expression candidate pairs: “ABC function” and “XYZ function”, and “ABC function” and “visualization diagnosis”. Similarity determination means 104 compares two common expression structures and four different expression structures for both of the synonymous expression candidate pairs, and determines the identity of the structural relationship, as in FIG. Then, the similarity of the synonymous expression candidate pair is calculated.

なお、類似文章対において、各文章における文法構造や、共通表現及び相違表現の語順等が同等であることが保証されている場合には、類似性判定手段104は、相違表現構造の同一性のみを判定することによって、同義表現候補対の類似度を算出してもよい。この場合、図13に示す例では、類似性判定手段104は、「ABC機能」と「XYZ機能」及び「ABC機能」と「可視化診断」の各同義表現候補対ともに4つの相違表現構造を比較し、構造関係の同一性を判定して、同義表現候補対の類似度を算出することになる。   In the similar sentence pair, when it is guaranteed that the grammatical structure in each sentence and the word order of the common expression and the difference expression are equivalent, the similarity determination unit 104 only determines the identity of the difference expression structure. May be used to calculate the similarity of the synonymous expression candidate pair. In this case, in the example illustrated in FIG. 13, the similarity determination unit 104 compares the four different representation structures with each of the synonymous expression candidate pairs of “ABC function” and “XYZ function” and “ABC function” and “visualization diagnosis”. Then, the identity of the structural relationship is determined, and the similarity of the synonymous expression candidate pair is calculated.

次に、類似性判定手段104が実行する各構造関係の同一性の判定処理の判定方法について説明する。図14は、構造関係の同一性に関する判定基準を示す表(テーブル)の一例を示す説明図である。図14に示す表は、2つの構造関係の全ての組み合わせに対して、それらを同一とみなすか否かを設定したものである。以下、図14に示す表を同一性判定表という。なお、図14に示す同一性判定表は、例えば、情報処理装置が備えるハードディスク装置やメモリ等の記憶媒体に予め記憶される。また、図14に示す同一性判定表は、対象行列であるため、下三角行列の部分には値は含まれないものとする。   Next, a determination method of the determination process of the identity of each structural relationship executed by the similarity determination unit 104 will be described. FIG. 14 is an explanatory diagram illustrating an example of a table indicating a determination criterion regarding the identity of the structural relationship. The table shown in FIG. 14 sets whether all combinations of two structural relationships are regarded as the same. Hereinafter, the table shown in FIG. 14 is referred to as an identity determination table. Note that the identity determination table illustrated in FIG. 14 is stored in advance in a storage medium such as a hard disk device or a memory included in the information processing apparatus, for example. Further, since the identity determination table shown in FIG. 14 is a target matrix, it is assumed that no value is included in the lower triangular matrix portion.

図14に示す同一性判定表では、各構造関係の組み合わせに対して「○」、「×」又は「順」の3種の同一性を判定するための判定値が設定されている。ここで、「○」は各比較構造関係を同一と判定することを意味し、「×」は相違と判定することを意味する。また、「順」は、比較構造関係において、基準表現と対象表現との各文章中における順序が等しい場合には同一と判定することを表す。   In the identity determination table shown in FIG. 14, determination values for determining three types of identity of “◯”, “×”, or “order” are set for each combination of structural relationships. Here, “◯” means that the comparison structural relationships are determined to be the same, and “x” means that they are determined to be different. Further, “order” represents that, in the comparative structure relationship, when the order in the sentences of the reference expression and the target expression is the same, they are determined to be the same.

類似性判定手段104は、図14に示す同一性判定表に従って、各構造関係の同一性を判定する。この場合、類似性判定手段104は、原則として、比較構造関係が一致している場合(図14に示す対角要素に相当する)には、構造関係が「その他」である場合を除き、その構造関係を同一であると判断できる。ただし、同一性判定表を用いた同一性判定において、構造関係が一致していない場合においても同一と判定することを許容するものとする。   The similarity determination unit 104 determines the identity of each structural relationship according to the identity determination table shown in FIG. In this case, the similarity determination unit 104, as a general rule, when the comparison structural relationship is the same (corresponding to the diagonal elements shown in FIG. 14), except for the case where the structural relationship is “other” It can be determined that the structural relationship is the same. However, in the identity determination using the identity determination table, it is allowed to be determined to be the same even when the structural relationship does not match.

例えば、同一性判定表では、類似文章対において比較構造関係が「並列」と「横列」とである場合には、同一「○」760aであるとしている。横列と並列とは、基準表現の位置に差があるものの、ともに「同じ分岐表現に係る表現間の関係」を規定するものであり、実質的には同じ構造であると判断することができる。   For example, in the identity determination table, if the comparison structure relationship is “parallel” and “row” in the similar sentence pair, it is assumed that they are the same “◯” 760a. Although the row and the parallel are different in the position of the reference expression, they both define “relationship between expressions related to the same branch expression”, and can be determined to have substantially the same structure.

また、同一性判定表において判定値として「順」を設定することにより、以下の処理を実現することができる。図15は、類似文章対の他の例である文章3及び文章4を示す説明図である。図15に示す類似文章対において、「DEF機能」と「KLM機能」とが同義表現であるとする。図15に示す例において、表現比較手段102は、「製品」と「新開発」とを共通表現として特定し、文章3の「DEF機能」と文章4の「KLM機能」及び「動画処理」とを相違表現として特定する。そのため、図15に示す例では、「DEF機能」及び「KLM機能」と「DEF機能」及び「動画処理」とが同義表現候補対となる。   Further, by setting “order” as the determination value in the identity determination table, the following processing can be realized. FIG. 15 is an explanatory diagram showing a sentence 3 and a sentence 4 which are other examples of similar sentence pairs. In the similar sentence pair shown in FIG. 15, it is assumed that “DEF function” and “KLM function” are synonymous expressions. In the example illustrated in FIG. 15, the expression comparison unit 102 identifies “product” and “new development” as common expressions, “DEF function” of sentence 3, “KLM function”, and “moving image processing” of sentence 4. Is specified as a difference expression. Therefore, in the example illustrated in FIG. 15, “DEF function” and “KLM function”, “DEF function”, and “moving image processing” are synonymous expression candidate pairs.

図16は、図15に示す類似文章対の係り受け構造を示す説明図である。図16に示す各構造関係において、矢印の元が基準表現を示しており、矢印の先が対象表現を示している。また、図16に示す構造関係「同列」780aと「直列」(780b,780c)とは、比較構造関係である。この場合、文章3における「同列」780aと文章4における「直列」780bとは一致しない。そのため、従来の同義表現抽出方法では、文章3及び文章4から同義表現を抽出することはできない。   FIG. 16 is an explanatory diagram showing a dependency structure of similar sentence pairs shown in FIG. In each structural relationship shown in FIG. 16, the source of the arrow indicates the reference expression, and the tip of the arrow indicates the target expression. Also, the structural relationship “same row” 780a and “series” (780b, 780c) shown in FIG. 16 are comparative structural relationships. In this case, “same row” 780a in sentence 3 and “series” 780b in sentence 4 do not match. Therefore, the conventional synonym expression extraction method cannot extract synonym expressions from the sentence 3 and the sentence 4.

しかしながら、本実施の形態では、図16に示す場合であっても、類似性判定手段104は、図14に示す同一性判定表に基づいて、文章3における「同列」780aと文章4における「直列」780bとの相違表現構造関係を同一であると判定できる。すなわち、図14に示す同一性判定表では、「同列」と「直列」との同一性の判定基準が「順」と設定されており、共通表現と対象表現の順序が一致すれば、相違表現構造関係を同一と判定できる。図16に示す例では、文章3においては、基準表現「DEF機能」が対象表現「製品」よりも語順として前にあり、文章4においても基準表現「KLM機能」が対象表現「製品」よりも語順として前にあり、共通表現と対象表現との順序が一致する。そのため、類似性判定手段104は、「同列」780aと「直列」780bとの相違表現構造関係を同一であると判定することができる。   However, in the present embodiment, even in the case shown in FIG. 16, the similarity determination unit 104 determines that the “same line” 780a in the sentence 3 and the “series” in the sentence 4 are based on the identity determination table shown in FIG. It can be determined that the difference representation structural relationship with “780b” is the same. That is, in the identity determination table shown in FIG. 14, the sameness determination criterion of “same column” and “series” is set to “order”, and if the common expression and the target expression match in order, the difference expression It can be determined that the structural relationship is the same. In the example illustrated in FIG. 16, in the sentence 3, the reference expression “DEF function” precedes the target expression “product” in the word order, and also in the sentence 4, the reference expression “KLM function” is higher than the target expression “product”. It comes before the word order, and the order of the common expression and the target expression is the same. Therefore, the similarity determination unit 104 can determine that the difference representation structure relationship between the “same column” 780a and the “series” 780b is the same.

一方、図16において、「KML機能」と同様に、「動画処理」も対象表現「製品」と「直列」780cの関係にあるが、類似性判定手段104は、「直列」780cの構造関係を、「DEF機能」と「製品」との構造関係「同列」780aとは相違と判定できる。すなわち、図16に示す例では、文章4において基準表現「動画処理」が対象表現「製品」よりも語順として後ろにあり、文章3の基準表現「DEF機能」と対象表現「製品」との語順とが異なるため、類似性判定手段104は、「直列」780cと「同列」780aとの相違表現構造関係を相違と判定する。   On the other hand, in FIG. 16, as with the “KML function”, “moving image processing” has a relationship of “serial” 780c with the target expression “product”, but the similarity determination unit 104 has a structural relationship of “serial” 780c. The structural relationship “same” 780a between the “DEF function” and “product” can be determined to be different. That is, in the example shown in FIG. 16, the reference expression “moving image processing” is behind the target expression “product” in the sentence 4 as the word order, and the word order of the reference expression “DEF function” and the target expression “product” in the sentence 3 Therefore, the similarity determination unit 104 determines that the difference representation structure relationship between the “series” 780c and the “same column” 780a is different.

以上の処理が実行されることにより、「DEF機能」に対する「動画処理」と「KML機能」との構造関係に差をつけることができる。   By executing the above processing, it is possible to make a difference in the structural relationship between the “moving image processing” and the “KML function” with respect to the “DEF function”.

なお、図14に示した同一性判定表は一例であり、同一性判定表中の各要素をシステム利用者が変更できるようにしてもよい。例えば、図14に示す同一性判定表において、「順」を「○」に変更することによって、語順に対する制約を緩めるようにしてもよい。   The identity determination table shown in FIG. 14 is an example, and each element in the identity determination table may be changed by the system user. For example, in the identity determination table shown in FIG. 14, the restriction on the word order may be relaxed by changing “order” to “◯”.

図17及び図18は、それぞれ、類似性判定手段104によって特定された同義表現候補対「ABC機能」及び「XYZ機能」と「ABC機能」及び「可視化診断」とにおける比較構造関係の同一性を示す説明図である。図17及び図18において、比較構造関係は双方向矢印で示されており、矢印に付与されている「同一」及び「相違」は図14の同一性判定表に基づく判定結果を示している。図17及び図18に示す例では、「ABC機能」及び「XYZ機能」は全ての比較構造関係が同一であることがわかる。また、「ABC機能」及び「可視化診断」は4つの相違表現構造が相違であることがわかる。   FIG. 17 and FIG. 18 show the identity of the comparison structure relationship between the synonymous expression candidate pairs “ABC function” and “XYZ function”, “ABC function”, and “visualization diagnosis” specified by the similarity determination unit 104, respectively. It is explanatory drawing shown. In FIG. 17 and FIG. 18, the comparative structural relationship is indicated by a bidirectional arrow, and “same” and “difference” given to the arrows indicate the determination results based on the identity determination table of FIG. In the examples shown in FIGS. 17 and 18, it can be seen that the “ABC function” and the “XYZ function” have the same comparative structural relationship. In addition, it can be seen that “ABC function” and “visualization diagnosis” are different in four different representation structures.

次に、類似性判定手段104は、求めた構造関係の同一性に基づいて、同義表現候補対の類似度を算出する。なお、類似性判定手段104は、同義表現候補対の類似度を求める処理を、全ての同義表現候補対に対して実行する。この場合、類似性判定手段104は、類似度の算出方法として、例えば、式(1)を用いて同義表現候補対の類似度を求めるようにすればよい。   Next, the similarity determination unit 104 calculates the similarity of the synonymous expression candidate pair based on the obtained identity of the structural relationship. Note that the similarity determination unit 104 executes the process for obtaining the similarity of the synonym expression candidate pairs for all the synonym expression candidate pairs. In this case, the similarity determination unit 104 may calculate the similarity of the synonym expression candidate pair by using, for example, Expression (1) as a similarity calculation method.

類似度=(構造関係の同一数)÷(比較した構造関係の数) 式(1) Similarity = (same number of structural relationships) ÷ (number of structural relationships compared) Equation (1)

類似性判定手段104は、式(1)を用いて算出した類似度が所定の閾値以上であるか否かを判定する(ステップS704f)。類似度が所定の閾値以上であれば、類似性判定手段104は、各同義表現候補が類似であると判定し、同義表現であると判定する。そして、類似性判定手段104は、類似文章対から同義表現として抽出する(ステップS704g)。類似度が所定の閾値以上でなければ、次の類似文章対があれば、次の類似文章対に対する同義表現抽出処理に移行する(ステップS704h)。   The similarity determination unit 104 determines whether or not the similarity calculated using Expression (1) is equal to or greater than a predetermined threshold (step S704f). If the degree of similarity is greater than or equal to a predetermined threshold, the similarity determination unit 104 determines that each synonym expression candidate is similar and determines that it is a synonym expression. And the similarity determination means 104 extracts as a synonymous expression from a similar sentence pair (step S704g). If the similarity is not greater than or equal to the predetermined threshold, if there is a next similar sentence pair, the process proceeds to synonymous expression extraction processing for the next similar sentence pair (step S704h).

図17及び図18に示す例では、「ABC機能」及び「XYZ機能」は、比較構造関係の数が6つ(共通表現構造2つ、相違表現構造4つ)であり、それら全ての構造関係が同一であるため、類似性判定手段104は、類似度を6/6=1.0と求める。また、「ABC機能」及び「可視化診断」は、共通表現構造のみが同一であるため、類似性判定手段104は、類似度を2/6=0.33・・・と求める。例えば、閾値を0.8とすれば、類似性判定手段104は、「ABC機能」と「XYZ機能」とを類似と判断し、同義表現として抽出する。   In the example shown in FIG. 17 and FIG. 18, the “ABC function” and the “XYZ function” have six comparison structural relationships (two common representation structures and four different representation structures), and all of these structural relationships. Are similar to each other, the similarity determination unit 104 obtains the similarity as 6/6 = 1.0. In addition, since “ABC function” and “visualization diagnosis” are the same only in the common expression structure, the similarity determination unit 104 obtains the similarity as 2/6 = 0.33. For example, if the threshold value is 0.8, the similarity determination unit 104 determines that the “ABC function” and the “XYZ function” are similar and extracts them as synonymous expressions.

さらに、類似性判定手段104は、共通表現間の構造関係、及び相違表現と共通表現との間の構造関係の同一性に対して重み付けを行い、重み付き平均を求めることにより、類似度の算出を行ってもよい。この場合、例えば、類似性判定手段104は、式(2)を用いて、重み付き平均を求めて類似度の算出を行う。   Further, the similarity determination unit 104 performs weighting on the structural relationship between the common expressions and the identity of the structural relationship between the different expressions and the common expression, and obtains a weighted average to calculate the similarity. May be performed. In this case, for example, the similarity determination unit 104 calculates the degree of similarity by obtaining a weighted average using Equation (2).

類似度=w×(共通表現構造の類似度)+(1−w)×(相違表現構造の類似度)
式(2)
Similarity = w × (similarity of common expression structure) + (1−w) × (similarity of different expression structure)
Formula (2)

ただし、類似性判定手段104は、式(2)を用いて類似度を求める際に、共通表現構造及び相違表現構造の類似度を、それぞれ式(3)及び式(4)を用いて求める。   However, the similarity determination unit 104 obtains the similarity of the common expression structure and the different expression structure using the expressions (3) and (4), respectively, when the similarity is obtained using the expression (2).

(共通表現構造の類似度)=(共通表現構造の同一数)÷(比較した共通表現構造の数)
式(3)
(Similarity of common expression structures) = (same number of common expression structures) ÷ (number of common expression structures compared)
Formula (3)

(相違表現構造の類似度)=(相違表現構造の同一数)÷(比較した相違表現構造の数)
式(4)
(Similarity of difference representation structures) = (same number of difference representation structures) ÷ (number of difference representation structures compared)
Formula (4)

式(2)において、wは、類似文章対における共通表現間の同一性をどれだけ重視するかを示す重み係数であり、0〜1の値をとる。また、w=(m−1)/(m+1)とすれば、式(2)は式(1)と同等になる。ここで、mは共通表現の数である。すなわち式(2)は式(1)を含む一般式として捉えることができる。また、重み係数wを0.2とすれば、相違表現構造を重視した同義表現抽出を行うこともできる。   In Expression (2), w is a weighting coefficient indicating how much importance is placed on the identity between common expressions in similar sentence pairs, and takes a value of 0 to 1. Further, if w = (m−1) / (m + 1), Expression (2) is equivalent to Expression (1). Here, m is the number of common expressions. That is, equation (2) can be understood as a general equation including equation (1). If the weighting factor w is 0.2, synonymous expression extraction can be performed with an emphasis on the difference expression structure.

図19は、類似性判定手段104が求めた重み付き平均を用いた類似度の例を示す説明図である。図19は、文章1及び文章2における共通表現構造の類似度及び相違表現構造の類似度を式(3)及び式(4)を用いて算出するとともに、w=0.2にとしたときの類似度を示している。   FIG. 19 is an explanatory diagram showing an example of the degree of similarity using the weighted average obtained by the similarity determination unit 104. FIG. 19 shows a case where the similarity of the common expression structure and the similarity of the difference expression structure in sentence 1 and sentence 2 are calculated using equations (3) and (4), and w = 0.2. The similarity is shown.

なお、類似性判定手段104は、閾値以上となる同義表現候補対が多数ある場合には、類似度が最も高かったものを同義表現として抽出してもよいし、閾値以上のもの全てを同義表現として出力してもよい。また、類似性判定手段104は、類似度上位の所定数の候補のみ同義表現として出力してもよい。   Note that, when there are many synonymous expression candidate pairs that are equal to or greater than the threshold, the similarity determination unit 104 may extract the one having the highest similarity as the synonym expression, or synonymous expressions that are equal to or greater than the threshold. May be output as Further, the similarity determination unit 104 may output only a predetermined number of candidates having higher similarity as synonymous expressions.

さらに、類似性判定手段104は、共通表現間の構造関係が異なる場合、類似文章対において文章の構造が大きく変化していると判断し、同義表現と判断する閾値を変更してもよい。また、類似性判定手段104は、複数の同義表現候補対に対する類似度が求められている場合には、類似度の値の分布によって統計的に類似度間の差が大きい箇所を検出し、閾値を決定してもよい。また、類似する同義表現候補対が存在しない場合においては、図14に示す同一性判定表の「その他」を「○」と変化させた場合における類似度を再度計算し、該同義表現候補対を再計算してもよい。この場合においては、「その他」という構造関係で類似している同義表現の抽出が行える。   Furthermore, when the structural relationship between the common expressions is different, the similarity determination unit 104 may determine that the structure of the sentence has changed greatly in the similar sentence pair, and may change the threshold value for determining the synonymous expression. In addition, the similarity determination unit 104 detects a portion where the difference between the similarities is statistically large based on the distribution of similarity values when the similarity to a plurality of synonym expression candidate pairs is obtained, and a threshold value May be determined. When there is no similar synonym expression candidate pair, the similarity is calculated again when “others” in the identity determination table shown in FIG. You may recalculate. In this case, synonymous expressions that are similar in the structural relationship of “others” can be extracted.

なお、類似性判定手段104は、一組の類似文章対において共通表現間の構造関係の類似度は一定の値となるため、類似度が最も高いものを同義表現とする場合には、共通表現間の構造関係の類似度は算出する必要はない。   It should be noted that the similarity determination means 104 has a fixed value for the similarity of the structural relationship between the common expressions in a pair of similar text pairs. It is not necessary to calculate the degree of similarity between the structural relationships.

また、出力手段502には、類似性判定手段104の指示に従って、抽出した同義表現だけを出力してもよいし、同義表現とともに同義表現に係る表現を出力してもよい。例えば、類似性判定手段104は、「ABC機能」及び「XYZ機能」という同義表現を抽出した場合において、「XYZ機能」に相違表現「○○社の」という表現が係っていた場合、出力手段502に、「ABC機能」と「○○社のXYZ機能」とを同義表現として出力させてもよい。この場合、類似性判定手段104は、ABC機能を含む文章において○○社という単語が存在している場合には、XYZ機能に係っている「○○社の」を同義表現から除外する処理を行って、出力手段502に出力させてもよい。そのようにすることにより、類似文章対において、比較する文章にない表現で、かつ同義表現に係る表現のみを抽出することができる。   Further, only the extracted synonym expression may be output to the output unit 502 according to the instruction of the similarity determination unit 104, or an expression related to the synonym expression may be output together with the synonym expression. For example, when the similarity determination unit 104 extracts synonymous expressions “ABC function” and “XYZ function” and the expression “XYZ function” is related to the expression “XX company”, the output is output. You may make the means 502 output "ABC function" and "XX company's XYZ function" as synonymous expressions. In this case, the similarity determination unit 104 excludes “XX company's” related to the XYZ function from the synonym expression when the word “XX company” exists in the sentence including the ABC function. May be output to the output unit 502. By doing so, it is possible to extract only expressions related to synonymous expressions that are not included in the sentences to be compared in the similar sentence pair.

出力手段502は、具体的には、ディスプレイ装置等の表示装置によって実現される。出力手段502は、例えば、ディスプレイ装置である場合には、類似性判定手段104の指示に従って、同義表現抽出装置10により抽出された同義表現を表示する。なお、出力手段502は、同義表現の抽出結果をファイルとして出力してもよいし、e−mail(電子メール)等を用いてシステム利用者の端末に通知(送信)してもよい。   Specifically, the output unit 502 is realized by a display device such as a display device. For example, when the output unit 502 is a display device, the synonym expression extracted by the synonym expression extraction device 10 is displayed in accordance with an instruction from the similarity determination unit 104. Note that the output unit 502 may output the extraction result of the synonym expression as a file, or may notify (send) the system user's terminal using e-mail (e-mail) or the like.

図20は、出力手段502が出力する同義表現の出力結果の一例を示す説明図である。出力手段502は、図20に示すように、類似性判定手段104の指示に従って、どのような文章からどのような同義表現が抽出されたかを出力する。図20に示す例では、出力手段502は、文章1と文章2とからABC機能とXYZ機能という同義表現が抽出されたことを出力(表示)している。   FIG. 20 is an explanatory diagram illustrating an example of the output result of the synonymous expression output by the output unit 502. As shown in FIG. 20, the output unit 502 outputs what synonym expression is extracted from what sentence according to the instruction of the similarity determination unit 104. In the example shown in FIG. 20, the output unit 502 outputs (displays) that synonymous expressions of ABC function and XYZ function are extracted from sentence 1 and sentence 2.

なお、出力手段502の出力態様は、図20に例示した以外の表示態様でもよい。例えば、図21に示すように、出力手段502は、同義表現の候補を表示し、それら同義表現の候補とともに算出した類似度を表示してもよい。そのように、複数の同義表現の候補を出力(表示)することにより、類似度の多少の差により抽出した同義表現が出力されない等の弊害を避けられる。   The output mode of the output unit 502 may be a display mode other than that illustrated in FIG. For example, as illustrated in FIG. 21, the output unit 502 may display synonym expression candidates and display the similarity calculated together with the synonym expression candidates. As described above, by outputting (displaying) a plurality of candidates for synonymous expressions, it is possible to avoid such an adverse effect that the extracted synonymous expressions are not output due to a slight difference in similarity.

また、本実施の形態において、同義表現抽出システム10を実現する情報処理装置の記憶装置(図示せず)は、類似文章対に含まれる各文章から同義表現を抽出するための各種プログラムを記憶している。例えば、情報処理装置の記憶装置は、コンピュータに、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する同義表現抽出処理を実行させるための同義表現抽出用プログラムを記憶している。   In the present embodiment, the storage device (not shown) of the information processing apparatus that implements the synonymous expression extraction system 10 stores various programs for extracting synonymous expressions from each sentence included in the similar sentence pair. ing. For example, the storage device of the information processing apparatus has a computer in which a common expression group commonly included in each sentence of a similar sentence pair has a similar relative positional relationship in the sentence structure of each sentence, and the similar sentence pair Execute synonymous expression extraction processing to extract synonymous expressions from pairs of similar sentences based on the fact that the difference expression group and common expression group that differ between the two sentences are in a similar relative positional relationship in the sentence structure of each sentence A synonym expression extraction program for storing the same is stored.

以上のように、本実施の形態によれば、類似文章対に含まれる共通表現構造の類似度等の情報に基づいて類似文章対の文法的類似性を推定し、類似文章対から同義表現を抽出できる。すなわち、本実施の形態では、同義表現抽出システム10は、相違表現の類似度だけに基づいて同義表現であるか否かを判断するのではなく、類似文章対に含まれる共通表現と相違表現との両方の構造関係に基づいて、同義表現であるか否かを判断する。従って、事前に特殊な文法規則を設けることなく、類似文章対から同義表現を抽出することができる。   As described above, according to the present embodiment, the grammatical similarity of a similar sentence pair is estimated based on information such as the similarity of the common expression structure included in the similar sentence pair, and the synonym expression is obtained from the similar sentence pair. Can be extracted. In other words, in the present embodiment, the synonym expression extraction system 10 does not determine whether or not the synonym expression is based on only the similarity of the difference expressions, but the common expression and the difference expression included in the similar sentence pair. Based on both structural relationships, it is determined whether or not the expression is synonymous. Therefore, synonymous expressions can be extracted from similar sentence pairs without providing special grammar rules in advance.

図22は、本発明における同義表現抽出システム10が同義表現を抽出できる原理を示す説明図である。本実施の形態では、図32で示した従来の同義表現抽出方法と同様に、同一のマーカー語(701a,901a)が存在し、かつ、マーカー語(701a,901a)と同義表現候補(701b、901b)との関係(701c,901c)が類似していれば、その同義表現候補を同義表現とする。また、図32で示した従来の同義表現抽出方法との違いは、本実施の形態では、同義表現抽出システム10は、類似文章対において共通するマーカー語間の関係(701d,901d)の同一性を評価する。そして、同義表現抽出システム10は、共通するマーカー語(701a,901a)が類似する関係であれば、類似文章対の文法や語順の規則性等が類似していると判断する。   FIG. 22 is an explanatory diagram showing the principle by which the synonym expression extraction system 10 according to the present invention can extract synonym expressions. In the present embodiment, similar to the conventional synonymous expression extraction method shown in FIG. 32, the same marker word (701a, 901a) exists, and the synonymous expression candidate (701b, 701a, 901a) exists. If the relationship (701c, 901c) with 901b) is similar, the synonym expression candidate is set as a synonym expression. Also, the difference from the conventional synonym expression extraction method shown in FIG. 32 is that, in this embodiment, the synonym expression extraction system 10 is identical in the relationship (701d, 901d) between marker words that are common to similar text pairs. To evaluate. Then, the synonym expression extraction system 10 determines that the grammar of the similar sentence pair, the regularity of the word order, and the like are similar if the common marker words (701a, 901a) are similar.

上記のようにすることにより、類似文章対において、事前に明示的な文法制約を決めておくことを必要とせずに、高精度に同義表現を抽出することができる。また、類似文章間で語順が異なる場合や、類似表現が文章中に部分的に含まれる場合、用言がとる格が異なる場合であっても、同義表現を抽出することができる。   By doing as described above, synonymous expressions can be extracted with high accuracy without requiring explicit grammatical constraints in advance for similar sentence pairs. In addition, synonymous expressions can be extracted even when the word order is different between similar sentences, when similar expressions are partially included in the sentences, or when the predicates differ.

また、本実施の形態によれば、係り受け解析等に利用する一般的な辞書以外の辞書を用いずに同義表現を抽出できる。そのため、特別な辞書を準備したり記号表現を利用することなく、類似文章対を効率的に抽出できる。   Further, according to the present embodiment, synonymous expressions can be extracted without using a dictionary other than a general dictionary used for dependency analysis. Therefore, similar sentence pairs can be efficiently extracted without preparing a special dictionary or using symbolic expressions.

さらに、本実施の形態によれば、上記に示したように、多量の類似文章対を必要としない同義表現抽出の原理に従って、同義表現を抽出する。そのため、少数の類似文章対からであっても、高精度に同義表現を抽出することができる。   Furthermore, according to the present embodiment, as described above, synonym expressions are extracted according to the principle of synonym expression extraction that does not require a large number of similar sentence pairs. Therefore, even from a small number of similar sentence pairs, synonymous expressions can be extracted with high accuracy.

実施の形態2.
次に、本発明の第2の実施の形態を図面を参照して説明する。図23は、第2の実施の形態における同義表現抽出システムの構成例を示すブロック図である。図23に示すように、本実施の形態では、図1に示した構成要素に加えて、文章整形手段105を含む点で、第1の実施の形態と異なる。
Embodiment 2. FIG.
Next, a second embodiment of the present invention will be described with reference to the drawings. FIG. 23 is a block diagram illustrating a configuration example of the synonymous expression extraction system according to the second embodiment. As shown in FIG. 23, this embodiment is different from the first embodiment in that it includes a text shaping unit 105 in addition to the components shown in FIG.

文章整形手段105は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。文章整形手段105は、類似文章対データベース501から類似文章対を取得(抽出)する。また、文章整形手段105は、抽出した類似文章対に対して、係り受け構造が変化する表記の差異を予め整形し、整形文章を係り受け解析手段101に出力する。   Specifically, the text shaping unit 105 is realized by a CPU of an information processing apparatus that operates according to a program. The text shaping unit 105 acquires (extracts) a similar text pair from the similar text pair database 501. In addition, the sentence shaping unit 105 shapes in advance a difference in notation that changes the dependency structure for the extracted similar sentence pair, and outputs the shaped sentence to the dependency analysis unit 101.

本実施の形態では、表記の差異を事前に整形しておくことにより、類似文章対から類似する係り受け構造を特定できるようになり、同義表現の抽出精度を向上させることができる。すなわち、本実施の形態では、類似文章を予め所定の文法則に従って変換しておくことによって、文章の係り受け構造を特定しやすくし、同義表現の抽出精度を向上させている。   In this embodiment, by shaping the difference in notation in advance, a similar dependency structure can be identified from a pair of similar sentences, and the extraction accuracy of the synonymous expression can be improved. That is, in this embodiment, similar sentences are converted in advance according to a predetermined grammatical rule, so that the dependency structure of sentences can be easily specified, and the synonymous expression extraction accuracy is improved.

構造を類似させる文法規則の一例として、文章整形手段105は、例えば、「(名詞)を(サ変接続の名詞)する」を「(名詞)の(サ変接続の名詞)をする」に変換する処理を行う。サ変接続の名詞とは、「抽出する」や「獲得された」等、直後に「する」「される」等の単語を伴い、動詞のように扱われる単語である。   As an example of a grammatical rule that makes the structures similar, the sentence shaping unit 105 converts, for example, “(noun) (noun of sa-changing connection)” to “doing (noun) (noun of sa-changing connection)”. I do. The noun of the S-variable connection is a word that is treated like a verb, accompanied by words such as “to be extracted” or “acquired”, and immediately following “to do” or “to be done”.

図24は、サ変接続の名詞を含む例文を示す説明図である。図24に示す例では、文章5に含まれるPQR機能と文章6に含まれるSTU機能とが同義表現であるとする。また、図25は、図24に示す文章5と文章7とに係り受け解析を適用した結果を示す説明図である。図25(a),(b)に示すように、文章5と文章6とは類似した文章であるが、サ変名詞の動詞化により係り受け解析の構造が変化していることがわかる。そこで、文章整形手段105は、文章5に対して、上記した変換規則を適用して文法側の変換を行い、図24に示す文章5'のように変換する。そして、係り受け解析手段101は、文章整形手段105が変換した文章に対して、係り受け解析を実行し、図25(c)に示すような木構造を求める。文章整形手段105による文法側の変換により、文章5の係り受け構造を文章7と同等にすることができ、同義表現の抽出の精度を向上させることができる。   FIG. 24 is an explanatory view showing an example sentence including a noun of a change connection. In the example shown in FIG. 24, it is assumed that the PQR function included in the sentence 5 and the STU function included in the sentence 6 are synonymous expressions. FIG. 25 is an explanatory diagram showing a result of applying dependency analysis to the sentences 5 and 7 shown in FIG. As shown in FIGS. 25A and 25B, the sentence 5 and the sentence 6 are similar sentences, but it can be seen that the structure of the dependency analysis is changed due to the verbalization of the sa variable noun. Therefore, the sentence shaping unit 105 converts the grammar side of the sentence 5 by applying the conversion rule described above, and converts the sentence 5 as shown in the sentence 5 ′ shown in FIG. Then, the dependency analysis unit 101 performs dependency analysis on the text converted by the text shaping unit 105 to obtain a tree structure as illustrated in FIG. By the conversion on the grammar side by the sentence shaping unit 105, the dependency structure of the sentence 5 can be made equivalent to that of the sentence 7, and the accuracy of extracting synonymous expressions can be improved.

なお、本実施の形態で示した変換規則は一例であり、文章整形手段105は、係り受け解析による文章構造が類似するような変換規則を予め用意しておくほど、同義表現抽出の精度を高めることができる。   The conversion rule shown in the present embodiment is an example, and the sentence shaping unit 105 increases the accuracy of synonymous expression extraction as the conversion rule having a similar sentence structure by dependency analysis is prepared in advance. be able to.

実施の形態3.
次に、本発明の第3の実施の形態を図面を参照して説明する。図26は、第3の実施の形態における同義表現抽出システム10の構成例を示すブロック図である。図26に示すように、本実施の形態では、図1に示した構成要素に加えて、類似度表データベース106、類似基準補正手段107及び入力手段503を含む点で、第1の実施の形態と異なる。
Embodiment 3 FIG.
Next, a third embodiment of the present invention will be described with reference to the drawings. FIG. 26 is a block diagram illustrating a configuration example of the synonymous expression extraction system 10 according to the third embodiment. As shown in FIG. 26, in the present embodiment, in addition to the components shown in FIG. 1, the similarity table database 106, the similarity reference correction means 107, and the input means 503 are included. And different.

類似度表データベース106は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。類似度表データベース106は、各同義表現候補対に対する共通表現構造の類似度と、相違表現構造の類似度と、システム利用者によって入力される同義表現の正誤判定の内容とを記憶する。   Specifically, the similarity table database 106 is realized by a database device such as a magnetic disk device or an optical disk device. The similarity table database 106 stores the similarity of the common expression structure for each synonym expression candidate pair, the similarity of the difference expression structure, and the content of the correctness determination of the synonym expression input by the system user.

類似基準補正手段107は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。類似基準補正手段107は、類似文章対における相違表現の類似類性の判定基準を動的に変化させる機能を備える。   Specifically, the similarity reference correction unit 107 is realized by a CPU of an information processing apparatus that operates according to a program. The similarity criterion correction unit 107 has a function of dynamically changing the criterion for determining the similarity of different expressions in similar sentence pairs.

入力手段503は、具体的には、キーボードやマウス等の入力装置によって実現される。   Specifically, the input unit 503 is realized by an input device such as a keyboard or a mouse.

本実施の形態では、出力手段502は、類似性判定手段104の指示に従って、抽出した同義表現を出力する際に、出力した結果が真の同義表現であるか否かをシステム利用者が入力できるような態様で同義表現を出力(表示)する。   In the present embodiment, when the output unit 502 outputs the extracted synonym expression according to the instruction of the similarity determination unit 104, the system user can input whether or not the output result is a true synonym expression. In this manner, synonymous expressions are output (displayed).

出力手段502は、例えば、図27に示すような出力の様態で同義表現を出力(表示)する。図27に示す例では、出力手段502は、類似文章対において、同義表現候補対を類似度とともに表示している。また、図27において、右下の「判定」欄728は、同義表現として正しいか否かを入力する欄を表している。例えば、ユーザは、図27に示す表示画面の「判定」欄728から○又は×を入力操作することによって、出力された同義表現が正しいか誤っているかを入力指示する。   For example, the output unit 502 outputs (displays) the synonymous expression in an output mode as shown in FIG. In the example shown in FIG. 27, the output means 502 displays the synonymous expression candidate pair together with the similarity in the similar sentence pair. In FIG. 27, a “judgment” column 728 at the lower right represents a column for inputting whether or not the synonym expression is correct. For example, the user performs an input instruction on whether the output synonymous expression is correct or incorrect by performing an input operation of “◯” or “X” from the “determination” column 728 of the display screen shown in FIG.

なお、図27に示す例では、正誤を表現するのに○または×を入力できるフォームが用意されている場合を示しているが、本実施の形態で示したものに限らず、正しい同義表現を選択できるようにラジオボタンを含む表示画面を出力(表示)してもよい。また、例えば、表示画面から同義表現の出力結果の正誤を文字として入力できるようにしてもよい。   In the example shown in FIG. 27, a case is shown in which a form that can input ○ or × is prepared to express correctness. However, the form is not limited to that shown in the present embodiment, and correct synonym expression is used. A display screen including radio buttons may be output (displayed) so that selection can be made. In addition, for example, the correctness of the output result of the synonym expression may be input as characters from the display screen.

入力手段503は、システム利用者の入力操作に従って、相違表現対に対する正誤の判定内容を入力し、同義表現抽出システム10に出力する。本実施の形態では、入力手段503として、例えば、キーボードやマウス等の入力デバイスを用いる。図27に示す例では、入力手段503は、○又は×の情報を同義表現の判定内容として入力し、同義表現抽出システム10に出力する。なお、入力手段503は、システム利用者の操作に従って、類似性に対して数値等を入力することによって、同義表現の抽出結果を評価してもよい。また、入力手段503は、数値を入力するときに段階評価で入力してもよいし、連続値で入力してもよい。   The input unit 503 inputs the correct / incorrect determination contents for the difference expression pair according to the input operation of the system user, and outputs them to the synonym expression extraction system 10. In this embodiment, as the input unit 503, for example, an input device such as a keyboard or a mouse is used. In the example shown in FIG. 27, the input unit 503 inputs the information of “◯” or “X” as the determination content of the synonym expression and outputs it to the synonym expression extraction system 10. Note that the input unit 503 may evaluate the extraction result of the synonymous expression by inputting a numerical value or the like for the similarity according to the operation of the system user. Moreover, the input means 503 may input by a numerical evaluation when inputting a numerical value, and may input by a continuous value.

類似度表データベース106は、各同義表現候補対に対する共通表現構造の類似度と、相違表現構造の類似度と、システム利用者によって入力される同義表現の正誤判定内容とを類似度表として記憶する。図28は、類似度表データベース106が記憶する類似度表の例を示す説明図である。類似度表は、類似文章対における共通表現構造の類似度、相違表現構造の類似度、及びシステム利用者により入力された同義表現の判定情報をまとめた表(テーブル)である。   The similarity table database 106 stores the similarity of the common expression structure, the similarity of the difference expression structure, and the correctness determination contents of the synonym expression input by the system user as a similarity table. . FIG. 28 is an explanatory diagram showing an example of a similarity table stored in the similarity table database 106. The similarity table is a table (table) that summarizes the similarity of the common expression structure, the similarity of the difference expression structure, and the determination information of the synonym expression input by the system user in the similar sentence pair.

類似性判定手段104は、i番目の同義表現候補対に対する共通表現構造の類似度をaiとし、相違表現構造の類似度をbiとすると、共通表現構造の類似度及び相違表現構造の類似度を、第1の実施の形態で示した式(3)及び式(4)を用いてそれぞれ算出すればよい。   The similarity determination unit 104 sets the similarity of the common expression structure to the i-th synonym expression candidate pair as ai, and the similarity of the different expression structure as bi. These may be calculated using the equations (3) and (4) shown in the first embodiment.

類似基準補正手段107は、類似度表データベース106に記憶されている情報に基づいて、第1の実施の形態で示した類似度算出用の式(2)で用いる重み係数wを推定し、推定した重み係数を類似性判定手段104に出力する。wは共通表現構造の類似度(ai)と相違表現構造の類似度(bi)とのどちらを重視するかを決定するための値である。   Based on the information stored in the similarity table database 106, the similarity reference correction unit 107 estimates the weighting coefficient w used in the similarity calculation formula (2) shown in the first embodiment, and estimates The weighting factor is output to the similarity determination unit 104. w is a value for determining which of the similarity (ai) of the common expression structure and the similarity (bi) of the different expression structure is to be emphasized.

類似基準補正手段107が重み係数wを補正する処理の一例を以下に示す。判定内容が○および×の2値で与えられている場合、×を0とし、○を1として処理を行う。また、判定内容が段階評価や連続値等の数値データで与えられている場合には、それらを0〜1に規格化した値を用いて処理を行う。   An example of a process in which the similarity reference correction unit 107 corrects the weighting coefficient w is shown below. When the determination content is given by binary values of ◯ and ×, the processing is performed with x as 0 and ◯ as 1. Further, when the determination content is given as numerical data such as step evaluation or continuous value, the processing is performed using values normalized to 0 to 1.

類似基準補正手段107は、判定内容を規格化した値として、例えば、判定情報の最大値と最小値とを求めた後、式(3)を適用して、式(3)’を用いて算出すればよい。   The similarity reference correction unit 107 calculates, for example, the maximum value and the minimum value of the determination information as values obtained by standardizing the determination contents, and then applies the equation (3) and uses the equation (3) ′. do it.

(規格化された判定値)=(判定−最小値)/(最大値−最小値) 式(3)’ (Standardized judgment value) = (judgment−minimum value) / (maximum value−minimum value) Expression (3) ′

なお、式(3)’を用いた規格化済みの判定値をtiとする。   Note that a standardized determination value using the expression (3) ′ is ti.

図29は、図28に示した類似度表における判定内容を数値化した表を示す説明図である。なお、図29における同義表現候補対の個数をnとする。この場合、類似基準補正手段107は、tiと、式(2)を用いて算出される同義表現候補対の類似度w×ai+(1−w)×biとの差が小さくなるwを推定する。具体的には、類似基準補正手段107は、式(2)のw×ai+(1−w)×biとtiとの差をeiとしたときに、式(5)に示すEを最も小さくするwを求める。   FIG. 29 is an explanatory diagram showing a table in which the determination contents in the similarity table shown in FIG. 28 are quantified. Note that n is the number of synonymous expression candidate pairs in FIG. In this case, the similarity criterion correcting unit 107 estimates w where the difference between ti and the similarity w × ai + (1−w) × bi of the synonym candidate pair calculated using Expression (2) is small. . Specifically, the similarity criterion correcting unit 107 minimizes E shown in the equation (5) when the difference between w × ai + (1−w) × bi and ti in the equation (2) is ei. Find w.

E=Σei×ei 式(5) E = Σei × ei Formula (5)

なお、式(5)において、Σはiを1〜nまで変更したときの総和を表す記号である。また、文章整形手段105は、式(5)をwに関して微分し、微分式を0とすることにより、式(6)式を求める。   In equation (5), Σ is a symbol representing the sum when i is changed from 1 to n. Further, the text shaping unit 105 obtains the formula (6) by differentiating the formula (5) with respect to w and setting the differential formula to 0.

w=Σ(ti−bi)(ai−bi)/Σ(ai−bi)(ai−bi) 式(6) w = Σ (ti−bi) (ai−bi) / Σ (ai−bi) (ai−bi) Equation (6)

文章整形手段105は、式(6)を用いてEを最小にするwを求める。   The text shaping unit 105 obtains w that minimizes E using Expression (6).

以下、wの補正方法について具体例を用いて説明する。図30は、4つの同義表現候補対を含む類似度表における判定内容を数値化した表を示す説明図である。図30において、真の同義表現は「ABC機能」及び「XYZ機能」と「PQR機能」及び「ABC機能」であるとする。   Hereinafter, the correction method of w will be described using a specific example. FIG. 30 is an explanatory diagram showing a table in which the determination contents in the similarity table including four synonymous expression candidate pairs are digitized. In FIG. 30, it is assumed that true synonymous expressions are “ABC function”, “XYZ function”, “PQR function”, and “ABC function”.

また、式(2)を用いて同義表現の抽出を行う場合において、重み係数wを0.8と設定し、同義表現とするか否かを判定するための類似度の閾値を0.8と設定したとする。図30に示す「類似度」は、類似性判定手段104が式(2)を用いて算出した各同義表現候補の類似度を示している。また、図30に示す例において、類似性判定手段104は、網掛けで示した類似度に対応する「ABC機能」及び「XYZ機能」と、「ABC機能」及び「可視化診断」と、「PQR機能」及び「ABC機能」とを同義表現として抽出する。すなわち、図30に示す例では、類似性判定手段104は、「ABC機能」及び「可視化診断」の組を誤って同義表現として抽出している。   In addition, when synonym expression extraction is performed using Expression (2), the weighting factor w is set to 0.8, and the similarity threshold for determining whether or not to use synonym expression is 0.8. Suppose that it is set. The “similarity” shown in FIG. 30 indicates the similarity of each synonym expression candidate calculated by the similarity determination unit 104 using equation (2). In the example shown in FIG. 30, the similarity determination unit 104 includes “ABC function” and “XYZ function”, “ABC function”, “visualization diagnosis”, and “PQR” corresponding to the similarity indicated by shading. “Function” and “ABC function” are extracted as synonymous expressions. That is, in the example shown in FIG. 30, the similarity determination unit 104 erroneously extracts a set of “ABC function” and “visualization diagnosis” as a synonymous expression.

図30に示す例において、同義表現抽出システム10は、システム利用者の入力操作に従って、図30の最右列に示すように、同義表現の抽出結果に対する判定内容を入力する。すると、類似基準補正手段107は、式(6)を用いて、重み係数wの補正値を約0.17と算出する。   In the example shown in FIG. 30, the synonym expression extraction system 10 inputs the determination content for the extraction result of the synonym expression as shown in the rightmost column of FIG. 30 according to the input operation of the system user. Then, the similarity reference correction unit 107 calculates the correction value of the weighting coefficient w to be about 0.17 using Equation (6).

次に、類似性判定手段104は、補正後の重み係数w=0.17を用いて、各同義表現候補の類似度を算出しなおす。図31は、w=0.17としたときの各同義表現候補の類似度の算出結果を示す説明図である。   Next, the similarity determination unit 104 recalculates the similarity of each synonym expression candidate using the corrected weight coefficient w = 0.17. FIG. 31 is an explanatory diagram showing the calculation result of the similarity of each synonym expression candidate when w = 0.17.

上記の処理により、類似度を平均的に判定値(ti)に近づけることができ、例えば、図31に示す例では、「ABC機能」及び「XYZ機能」と「PQR機能」及び「ABC機能」のみが閾値以上の類似度を有するように重み係数wの値を補正できている。従って、本実施の形態によれば、上記のような処理に従って、重み係数wの値を推定できるので、同義表現抽出の精度を高めることができる。   By the above processing, the similarity can be averaged close to the determination value (ti). For example, in the example shown in FIG. 31, “ABC function”, “XYZ function”, “PQR function”, and “ABC function”. The value of the weighting factor w can be corrected so that only the image has a similarity degree equal to or greater than the threshold value. Therefore, according to the present embodiment, the value of the weighting factor w can be estimated according to the above-described processing, and therefore the accuracy of synonymous expression extraction can be increased.

なお、式(6)を用いて重み係数wの補正を行う場合を示したが、本実施の形態で示した補正方法は、同義表現を抽出する類似性判定の基準として式(2)を用いた場合の一例であり、重み係数wの補正方法として他の方法を用いてもよい。例えば、類似基準補正手段107は、類似性判定の基準として式(2)式以外の算出式を用いる場合には、その算出式にあわせた補正機能を設定すればよい。   In addition, although the case where the weighting coefficient w is corrected using Expression (6) has been shown, the correction method shown in the present embodiment uses Expression (2) as a similarity determination criterion for extracting synonymous expressions. In this case, another method may be used as a method of correcting the weighting factor w. For example, when a calculation formula other than the formula (2) is used as the similarity determination standard, the similarity reference correction unit 107 may set a correction function according to the calculation formula.

又、式(6)に示したように一意に補正量を求めるのではなく、類似基準補正手段107は、重み係数wを徐々に変更していくようにしてもよい。例えば、類似基準補正手段107は、現在の重み係数をwとし、新しく推定される重み係数をw_newとする場合、設定する重み係数を(w+w_new)/2として求める等の方法を用いて、重み係数wの値を補正してもよい。   Further, the similarity reference correction unit 107 may gradually change the weighting coefficient w instead of obtaining the correction amount uniquely as shown in the equation (6). For example, when the current weighting factor is w and the newly estimated weighting factor is w_new, the similarity criterion correcting unit 107 uses a method such as obtaining the weighting factor to be set as (w + w_new) / 2. The value of w may be corrected.

また、本実施の形態で示した同義表現抽出システム10の構成に、さらに、第2の実施の形態で示した文章整形手段105を含むように構成してもよい。そのように構成すれば、より高精度に同義表現を抽出することができる。   Further, the configuration of the synonymous expression extraction system 10 shown in the present embodiment may further include the text shaping unit 105 shown in the second embodiment. If comprised in that way, a synonymous expression can be extracted more accurately.

実施の形態4.
上記の各実施の形態に示した同義表現抽出システム10は、例えば、電子文書の文書伝達の構造を特定する文章参照関係抽出システムや、電子文書に含まれる同義表現を統一する表現統一化システム、文書伝達を評価する文章伝達評価システムに適用することができる。以下、同義表現抽出システム10を適用した文章参照関係システム、表現統一化システム、文書伝達評価システムについて、図面を参照して説明する。
Embodiment 4 FIG.
The synonymous expression extraction system 10 shown in each of the above embodiments includes, for example, a text reference relation extraction system that specifies the structure of document transmission of an electronic document, an expression unification system that unifies synonymous expressions included in the electronic document, The present invention can be applied to a text transmission evaluation system that evaluates document transmission. Hereinafter, a text reference relation system, an expression unification system, and a document transmission evaluation system to which the synonymous expression extraction system 10 is applied will be described with reference to the drawings.

まず、本発明の第4の実施の形態について図面を参照して説明する。図33は、本発明による同義表現抽出システム10を適用した文書参照関係抽出システム100を用いた表現統一システム300の構成の一例を示すブロック図である。この例では、本発明による同義表現抽出システム10が同義表現抽出装置350として適用されている。一般に、情報共有するために作成した電子文書を他の人に伝達する(例えば、電子メール等を用いて転送する)過程において、その電子文書を参照した人が表現を修正することにより、同義表現を含む電子文書(パラレルコーパス)が発生する傾向がみられる。本実施の形態では、このような傾向を利用して、文書参照関係抽出システム100や表現統一化システム300は、文書伝達の階層構造を特定し、伝達された電子文書間の同義表現を統一化する処理を行う。   First, a fourth embodiment of the present invention will be described with reference to the drawings. FIG. 33 is a block diagram showing an example of the configuration of an expression unification system 300 using the document reference relation extraction system 100 to which the synonymous expression extraction system 10 according to the present invention is applied. In this example, the synonym expression extraction system 10 according to the present invention is applied as the synonym expression extraction device 350. Generally, in the process of transmitting an electronic document created for information sharing to another person (for example, transferring it using e-mail, etc.), the person who referred to the electronic document modifies the expression, thereby synonymous expression There is a tendency for electronic documents (parallel corpus) to be generated. In the present embodiment, using such a tendency, the document reference relationship extraction system 100 and the expression unification system 300 identify the hierarchical structure of document transmission and unify synonymous expressions between transmitted electronic documents. Perform the process.

図33に示すように、表現統一化システム300は、組織情報データベース310と、伝達文書抽出手段320と、伝達文書データベース330と、文書参照関係抽出システム100と、パラレルコーパス抽出手段340と、同義表現抽出装置350と、同義表現データベース360とを含む。また、文書参照関係抽出システム100は、コミュニケーション計画データベース110と、非参照関係抽出手段120と、階層構造特定手段130とを含む。   As shown in FIG. 33, the expression unification system 300 includes an organization information database 310, a transmission document extraction unit 320, a transmission document database 330, a document reference relation extraction system 100, a parallel corpus extraction unit 340, and synonymous expressions. An extraction device 350 and a synonym expression database 360 are included. The document reference relationship extraction system 100 includes a communication plan database 110, a non-reference relationship extraction unit 120, and a hierarchical structure specifying unit 130.

また、本実施の形態において、表現統一化システム300は、ユーザの操作に従って、キーボードやマウス等の入力手段510から各種情報を入力する。また、本実施の形態において、表現統一化システム300は、ユーザ間で伝達された電子文書を、文書提供サーバ520から収集する。また、本実施の形態では、表現統一化システム300は、各種情報を、ディスプレイ装置等の出力手段530に出力(例えば、表示)させる。   In the present embodiment, the expression unification system 300 inputs various information from the input means 510 such as a keyboard and a mouse in accordance with a user operation. In the present embodiment, the expression unification system 300 collects electronic documents transmitted between users from the document providing server 520. In the present embodiment, the expression unification system 300 outputs (for example, displays) various information to the output unit 530 such as a display device.

なお、本実施の形態では、表現統一化システム300の外部に、入力手段510と、文書提供サーバ520と、出力手段530とを設ける場合を示すが、表現統一化システム300が、入力手段510と、出力手段530とを備えてもよい。また、表現統一化システム300が文書提供サーバ520の機能を備えていてもよい。   In this embodiment, the case where the input unit 510, the document providing server 520, and the output unit 530 are provided outside the expression unification system 300 is shown. , And output means 530. Further, the expression unification system 300 may have the function of the document providing server 520.

また、本実施の形態では、文書参照関係抽出システム100の内部に、コミュニケーション計画データベース110を備える場合を示すが、文書参照関係抽出システム100の外部に、コミュニケーション計画データベース110を設けてもよい。   In this embodiment, the case where the communication plan database 110 is provided inside the document reference relationship extraction system 100 is shown, but the communication plan database 110 may be provided outside the document reference relationship extraction system 100.

また、本実施の形態において、文書参照関係抽出システム100や表現統一化システム300は、例えば、プログラムに従って動作するコンピュータ(例えば、パーソナルコンピュータ等の情報処理装置)によって実現される。   In the present embodiment, the document reference relationship extraction system 100 and the expression unification system 300 are realized by, for example, a computer (for example, an information processing apparatus such as a personal computer) that operates according to a program.

以下の説明では、あるプロジェクトにおいて、プロジェクト内のメンバが、e−mail(電子メール)を用いて、電子文書として「週報」を、コミュニケーション計画に則って提出する場合を例として説明する。ただし、本例は、本発明の説明を容易にするためのものであり、本発明の適用範囲を制限するものではない。また、以下、ユーザ間で電子メール等の転送手段を用いて電子文書を転送することを、電子文書を伝達すると表現する。また、ユーザ間で伝達された電子文書のことを伝達文書とも表現する。   In the following description, an example will be described in which a member in a project submits “weekly report” as an electronic document in accordance with a communication plan using e-mail (e-mail). However, this example is for facilitating the description of the present invention and does not limit the scope of application of the present invention. Hereinafter, transferring an electronic document between users using a transfer means such as an electronic mail is expressed as transmitting the electronic document. An electronic document transmitted between users is also expressed as a transmitted document.

本実施の形態では、文書参照関係抽出システム100は、企業等の組織内において、予め定められた電子文書の伝達計画(コミュニケーション計画)に従って電子文書の伝達が行われる場合に、実際に行なわれた電子文書の伝達の階層構造を抽出する用途に用いられる。また、表現統一化システム300は、文書参照関係抽出システム100によって抽出された電子文書伝達の階層構造を利用して、伝達前後の電子文書間に含まれる同義表現を統一する用途に用いられる。   In the present embodiment, the document reference relationship extraction system 100 is actually performed when an electronic document is transmitted in an organization such as a company according to a predetermined electronic document transmission plan (communication plan). Used to extract the hierarchical structure of electronic document transmission. The expression unification system 300 is used for the purpose of unifying synonymous expressions included between electronic documents before and after transmission using the hierarchical structure of electronic document transmission extracted by the document reference relation extraction system 100.

入力手段510は、具体的には、キーボードやマウス等の入力デバイスである。入力手段510は、ユーザの操作に従って、組織情報を入力する。なお、表現統一化システム300は、入力手段510から入力した組織情報を組織情報データベース310に記憶する。また、入力手段510は、ユーザの操作に従って、コミュニケーション計画を入力する。なお、文書参照関係抽出システム100は、入力手段510から入力したコミュニケーション計画をコミュニケーション計画データベース110に記憶する。   Specifically, the input unit 510 is an input device such as a keyboard or a mouse. The input unit 510 inputs organization information in accordance with a user operation. The expression unification system 300 stores the organization information input from the input unit 510 in the organization information database 310. Moreover, the input means 510 inputs a communication plan according to a user's operation. The document reference relationship extraction system 100 stores the communication plan input from the input unit 510 in the communication plan database 110.

組織情報データベース310は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。組織情報データベース310は、予め組織情報を記憶している。「組織情報」とは、電子文書の伝達が行われる組織の構成を示す情報である。本実施の形態において、組織情報は、文書伝達に関わる各メンバを識別するためのメンバIDと、各メンバが所属する所属グループを識別するためのグループIDとを含むものとする。メンバIDは、各メンバに対して各人を識別するために付与されるものであり、例えば企業における社員番号等である。グループIDは、所属グループを識別するためのIDである。また、組織情報は、その他の情報として、分析結果を通知するためのメールアドレス等の連絡先や、氏名、年齢、役職、専門分野等の各メンバの個人情報等を含む。   Specifically, the organization information database 310 is realized by a database device such as a magnetic disk device or an optical disk device. The organization information database 310 stores organization information in advance. “Organization information” is information indicating the configuration of an organization where electronic documents are transmitted. In the present embodiment, the organization information includes a member ID for identifying each member involved in document transmission and a group ID for identifying the group to which each member belongs. The member ID is assigned to each member to identify each person, and is, for example, an employee number in a company. The group ID is an ID for identifying the belonging group. The organization information includes contact information such as an e-mail address for notifying the analysis result, personal information of each member such as name, age, job title, and specialized field as other information.

なお、本実施の形態において、組織情報は、組織内の管理者等によって予め作成され、組織情報データベース310に登録されているものとする。例えば、組織情報は、プロジェクトや組織管理用のツール等に記録されているデータから抽出してもよいし、人が入力手段510を用いて入力してもよい。また、機械可読であれば、紙面等に書かれた組織情報をOCR等で読み込むようにしても構わない。   In the present embodiment, it is assumed that the organization information is created in advance by an administrator in the organization and registered in the organization information database 310. For example, the organization information may be extracted from data recorded in a project or organization management tool, or may be input by a person using the input unit 510. In addition, as long as it is machine-readable, organization information written on a sheet or the like may be read by OCR or the like.

図34は、組織情報の一例を示す説明図である。図34に示す組織情報によれば、表現統一化システム300が適用される組織は、メンバ数が7名であり、グループ数が3つであることが分かる。なお、1人のメンバが複数のグループに所属しても構わないし、複数の役職を兼務していてもよい。また、1人のメンバが複数のe−mailアドレスを所持していても構わない。説明の簡単化のため、本実施の形態では、各メンバが1つのグループにのみ所属しているものとする。   FIG. 34 is an explanatory diagram of an example of organization information. According to the organization information shown in FIG. 34, it can be seen that the organization to which the expression unification system 300 is applied has seven members and three groups. One member may belong to a plurality of groups, or may serve as a plurality of positions. One member may have a plurality of e-mail addresses. For simplicity of explanation, in this embodiment, each member is assumed to belong to only one group.

コミュニケーション計画データベース110は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。コミュニケーション計画データベース110は、予めコミュニケーション計画を蓄積する。「コミュニケーション計画」とは、組織内における電子文書の伝達計画を示す情報である。コミュニケーション計画は、「どの文書を(文書名)」、「いつ(伝達予定日時)」、「誰から(Fm)」、「誰に(To)」、「どのようにして(伝達手段)」伝達するかを示す計画情報と、各計画を識別するための計画番号(No)とを含む。また、コミュニケーション計画は、ある一連の文書伝達に関して作成されるものである。また、本実施の形態では、1つの一連の伝達計画には、1つの計画書番号(No)が与えられるものとする。なお、これらの情報は一例であり、コミュニケーション計画が含む情報は、これらに限定されるものではない。   Specifically, the communication plan database 110 is realized by a database device such as a magnetic disk device or an optical disk device. The communication plan database 110 stores communication plans in advance. “Communication plan” is information indicating a transmission plan of an electronic document in an organization. The communication plan conveys “what document (document name)”, “when (scheduled date and time of transmission)”, “from whom (Fm)”, “to whom (To)”, and “how (transmission means)”. It includes plan information indicating whether or not to perform, and a plan number (No) for identifying each plan. A communication plan is created for a series of document transmissions. In this embodiment, it is assumed that one plan number (No) is given to one series of transmission plans. Note that these pieces of information are examples, and the information included in the communication plan is not limited to these.

なお、本実施の形態において、コミュニケーション計画は、組織内の管理者等によって予め作成され、コミュニケーション計画データベース110に登録されているものとする。例えば、コミュニケーション計画は、管理者等の操作に従って、入力手段510から入力される。また、例えば、所定の資料(電子文書)から、既存の情報抽出技術を用いて、電子文書の伝達予定日時や、文書名、伝達元、伝達先、伝達手段を示す情報を抽出し、コミュニケーション計画表を自動生成するようにしてもよい。   In this embodiment, it is assumed that the communication plan is created in advance by an administrator in the organization and registered in the communication plan database 110. For example, the communication plan is input from the input unit 510 in accordance with an operation of an administrator or the like. Also, for example, by using existing information extraction technology, information indicating the scheduled transmission date and time of the electronic document, the document name, the transmission source, the transmission destination, and the transmission means is extracted from a predetermined material (electronic document), and the communication plan The table may be automatically generated.

図35は、コミュニケーション計画の一例を示す説明図である。本実施の形態では、送信者が同一である1つの文書を伝達する計画に対して、同一の計画番号(No)が付与される。図35に示すコミュニケーション計画において、伝達予定日時には、各電子文書を伝達する予定日時が格納される。なお、伝達予定日時の指定は日単位に限らず、例えば、時間単位で行ってもよいし、午前や午後等の情報を含んでいてもよい。また、いつからいつまでといった期間を示す情報で指定してもよいし、毎週金曜日や月末等の言語的表現を用いて電子文書の伝達予定時を指定してもよい。   FIG. 35 is an explanatory diagram showing an example of a communication plan. In the present embodiment, the same plan number (No) is assigned to a plan for transmitting one document having the same sender. In the communication plan shown in FIG. 35, the scheduled transmission date / time stores the scheduled date / time for transmitting each electronic document. The designation of the scheduled transmission date / time is not limited to a day unit, and may be performed in a unit of time or may include information such as morning or afternoon. Further, it may be specified by information indicating a period from when to when, or the scheduled transmission time of the electronic document may be specified using a linguistic expression such as every Friday or the end of the month.

なお、コミュニケーション計画の各レコードは、伝達予定日時順に並んでコミュニケーション計画データベース110に格納されているものとする。また、文書名の欄には、e−mailに含まれる件名や、ファイル名等の電子文書を特定するための情報が格納されている。   Note that each record of the communication plan is stored in the communication plan database 110 in the order of the scheduled transmission date and time. In the document name column, information for specifying an electronic document such as a subject name and a file name included in the e-mail is stored.

各メンバは、この文書名に合わせて、e−mailの件名やファイル名等を付けるものとする。例えば、週報の電子文書について予め「週報」という文書名を付与することにルール決めされている場合には、組織内の各メンバは、その電子文書を電子メールを用いて伝達する場合に、電子メールの件名を「週報」として、その電子文書を電子メールに添付して送信する。また、組織内の各メンバは、作成又は編集した電子文書に「週報」というファイル名をつける。   Each member shall attach an e-mail subject name, file name, etc. in accordance with the document name. For example, when it is determined in advance that a document name of “weekly report” is assigned to a weekly electronic document, each member in the organization transmits an electronic document using an electronic mail. The subject of the email is “weekly report” and the electronic document is attached to the email and sent. Each member in the organization gives the file name “weekly report” to the created or edited electronic document.

また、図35において、「Fm(伝達元)」及び「To(伝達先)」には、文書伝達における「誰から」及び「誰に」が含まれ(すなわち、伝達文書の伝達先と伝達元とが含まれ)、記載内容には個人が識別できるメンバID等が用いられる。ただし、各メンバを特定できる情報であれば、メンバID以外の情報を用いても構わない。また、システムの利用者によるコミュニケーション計画の入力の負担を軽減するため、Fm及びToはグループIDにより指定することもできる。Fmがグループで指定されており、且つ、そのグループの各メンバが異なる電子文書を作成し伝達する場合には、前述した規則に従い、各電子文書に異なる計画番号(No)が与えられるものとする。   In FIG. 35, “Fm (transmission source)” and “To (transmission destination)” include “from whom” and “who” in the document transmission (that is, the transmission destination and transmission source of the transmission document). The member ID etc. which an individual can identify are used for description contents. However, information other than the member ID may be used as long as the information can identify each member. In addition, Fm and To can be specified by a group ID in order to reduce the burden of inputting a communication plan by a system user. When Fm is specified in a group and each member of the group creates and transmits a different electronic document, a different plan number (No) is given to each electronic document in accordance with the rules described above. .

また、図35において、伝達手段の欄には、伝達に用いる手段が含まれる。例えば、コミュニケーション計画の伝達手段のランには、e−mail(電子メール)等の手段を示す情報が含まれる。なお、伝達手段の欄には、e−mailに限らず、例えば、FAX(ファクシミリ)や、印刷物の郵送、電子掲示板への書込み、指定フォルダへのファイルのアップロード等の様々な伝達方法が含まれてもよい。すなわち、伝達した電子文書の電子ファイルが特定できれば、いかなる伝達手段を用いても構わない。   Further, in FIG. 35, a means for transmission is included in the transmission means column. For example, the communication plan transmission means run includes information indicating means such as e-mail (e-mail). The transmission means column is not limited to e-mail, but includes various transmission methods such as FAX (facsimile), mailing of printed materials, writing on an electronic bulletin board, and uploading of files to designated folders. May be. That is, any transmission means may be used as long as the electronic file of the transmitted electronic document can be specified.

また、コミュニケーション計画データは、人が入力手段510を用いて入力してもよいし、機械可読であれば、紙面上のコミュニケーション計画からOCR等により読み込むようにしてもよい。また、自由記述による伝達の計画書が存在する場合は、既存のテキスト処理技術を用いて、その計画書からコミュニケーション計画を抽出してもよい。   Communication plan data may be input by a person using the input unit 510, or may be read from a communication plan on paper by OCR or the like if machine-readable. In addition, when there is a plan of transmission by free description, a communication plan may be extracted from the plan using existing text processing technology.

また、図35には、「週報」に関するコミュニケーション計画の例が示されており、計画書番号(No)として1が付与されている。また、計画No(P001,P002,P003)に示される各レコードによれば、2006年9月28日に、メンバM3,M4,M5が、それぞれグループG2の各メンバに「週報」をe−mail(電子メール)により伝達する予定であることが分かる。また、計画No(P004)に示されるレコードによれば、次の日の2006年9月29日に、メンバM2が、マネージャM1とグループG2の各メンバに「週報」を伝達する予定であることが分かる。また、計画No(P005)に示されるレコードによれば、2006年9月29日に、メンバM1が、グループ3の各メンバに「週報」をe−mailにより伝達する計画になっていることが分かる。   FIG. 35 shows an example of a communication plan related to “weekly report”, and 1 is assigned as a plan number (No). Further, according to each record shown in the plan No. (P001, P002, P003), on September 28, 2006, the members M3, M4, and M5 e-mail “weekly report” to each member of the group G2. It is understood that it is scheduled to be transmitted by (e-mail). Further, according to the record shown in the plan No. (P004), on the next day, September 29, 2006, the member M2 is scheduled to transmit “weekly report” to each member of the manager M1 and the group G2. I understand. Further, according to the record shown in the plan No. (P005), on September 29, 2006, the member M1 is scheduled to transmit “weekly report” to each member of the group 3 by e-mail. I understand.

伝達文書抽出手段320は、具体的には、プログラムに従って動作する情報処理装置のCPU及びネットワークインタフェース部によって実現される。伝達文書抽出手段320は、所定のプロジェクトにおいて作成された電子文書や、e−mail(電子メール)等を用いて伝達された電子文書が保存されている文書提供サーバ520から、各電子文書の伝達文書情報を抽出する機能を備える。また、伝達文書抽出手段320は、抽出した伝達文書情報を伝達文書データベース330に保存する機能を備える。   Specifically, the transfer document extraction unit 320 is realized by a CPU and a network interface unit of an information processing apparatus that operates according to a program. The transmission document extracting unit 320 transmits each electronic document from a document providing server 520 in which an electronic document created in a predetermined project or an electronic document transmitted using e-mail (e-mail) or the like is stored. A function for extracting document information is provided. In addition, the transmission document extracting unit 320 has a function of storing the extracted transmission document information in the transmission document database 330.

本実施の形態では、組織内において共有サーバ(文書提供サーバ520)を用いて、各電子文書が共有化されており、文書提供サーバ520は、各電子文書が伝達されたログ情報(伝達文書情報)を記憶している。伝達文書抽出手段320は、例えば、所定期間毎に(例えば、毎日1回)、文書提供サーバ520に自動アクセスし、LAN等のネットワークを介して、文書提供サーバ520から伝達文書情報を受信して伝達文書データベース330に記憶させる。また、例えば、伝達文書抽出手段320は、文書提供サーバ520に新たに電子文書が格納されたことをトリガとして、文書提供サーバ520に自動アクセスし、ネットワークを介して、文書提供サーバ520から伝達文書情報を受信して伝達文書データベース330に記憶させる。   In this embodiment, each electronic document is shared by using a shared server (document providing server 520) in the organization, and the document providing server 520 transmits log information (transmitted document information) to which each electronic document is transmitted. ) Is remembered. For example, the transmission document extraction unit 320 automatically accesses the document provision server 520 every predetermined period (for example, once every day) and receives the transmission document information from the document provision server 520 via a network such as a LAN. It is stored in the transmission document database 330. Further, for example, the transmission document extracting unit 320 automatically accesses the document provision server 520 using a new electronic document stored in the document provision server 520 as a trigger, and transmits the document from the document provision server 520 via the network. Information is received and stored in the transmission document database 330.

なお、文書提供サーバ520(共有サーバ)は、1台に限らず、組織内に複数台備えられていてもよい。例えば、文書提供サーバ520として、メールサーバやファイルサーバ等の複数種類のサーバが備えられていてもよい。また、例えば、文書提供サーバ520として、同じ種類の共通サーバ(例えば、ファイルサーバ)が複数台備えられていてもよい。   Note that the document providing server 520 (shared server) is not limited to one, and a plurality of documents may be provided in the organization. For example, as the document providing server 520, a plurality of types of servers such as a mail server and a file server may be provided. Further, for example, as the document providing server 520, a plurality of common servers (for example, file servers) of the same type may be provided.

伝達文書情報は、電子文書の伝達状況を示すログ情報である。本実施の形態では、伝達文書情報には、「文書ID」、「伝達日時」、「文書名」、「Fm(伝達元)」、「To(伝達先)」及び「伝達手段」が含まれている。また、伝達文書情報は、これら伝達記録を示す情報とともに電子文書の内容を含んでいてもよい。   The transmission document information is log information indicating the transmission status of the electronic document. In the present embodiment, the transmission document information includes “document ID”, “transmission date / time”, “document name”, “Fm (transmission source)”, “To (transmission destination)”, and “transmission means”. ing. Further, the transmission document information may include the contents of the electronic document together with information indicating these transmission records.

文書IDは、各電子文書を識別するための識別情報である。本実施の形態では、同一の日時に同じ人によって伝達された同一の内容の電子文書に対しては、1つの文書IDが付与される。伝達日時は、電子文書が伝達された日と時間とを示す情報である。FmとToとは、誰から誰に伝達文書が伝達されたか(電子文書の伝達元と伝達先)を示す情報である。伝達手段は、どのようなメディアを用いて文書伝達が行われたかを示す情報である。例えば、伝達文書情報は、メディアとして、e−mail(電子メール)やFAX(ファクシミリ)、印刷物の郵送等の様々な形式の伝達手段の情報を含む。   The document ID is identification information for identifying each electronic document. In the present embodiment, one document ID is assigned to electronic documents having the same contents transmitted by the same person at the same date and time. The transmission date and time is information indicating the date and time when the electronic document is transmitted. Fm and To are information indicating from whom to whom the transmission document is transmitted (transmission source and transmission destination of the electronic document). The transmission means is information indicating what kind of media is used for document transmission. For example, the transmission document information includes information on various types of transmission means such as e-mail (electronic mail), FAX (facsimile), and mailing of printed matter as media.

伝達文書抽出手段320は、例えば、e−mailによる伝達であれば、電子メールのヘッダや、メールサーバが記憶するログ情報に基づいて、各メールのFm(伝達元)とTo(伝達先)とを抽出し、電子メールの件名を文書名として抽出する。そして、伝達文書抽出手段320は、抽出した伝達元や伝達先、文書名を含む伝達文書情報を、伝達文書データベース330に記憶させる。   For example, in the case of transmission by e-mail, the transmission document extraction unit 320 determines the Fm (transmission source) and To (transmission destination) of each mail based on the header of the email or log information stored in the mail server. And the subject of the e-mail is extracted as the document name. Then, the transmission document extracting unit 320 stores the transmission document information including the extracted transmission source, transmission destination, and document name in the transmission document database 330.

また、共有のフォルダや文書管理ツール等にアップロードして電子文書を伝達する場合であれば、伝達文書抽出手段320は、アップロードしたファイルのファイル名を文書名とし、アップロードした人をFm(伝達元)、そのファイルを参照した人をTo(伝達先)、伝達日時をアップロードした日時として、伝達文書情報を抽出すればよい。また、電子ファイルを印刷し郵送/手渡ししたものであっても、伝達文書抽出手段320は、伝達過程における郵送前後の文書伝達に関する伝達記録があれば、郵送による伝達がなされたものであると判断し、伝達記録に加えることもできる。   In the case of transmitting an electronic document by uploading it to a shared folder or a document management tool or the like, the transmission document extraction means 320 uses the file name of the uploaded file as the document name and designates the uploader as Fm (transmission source ), The transmission document information may be extracted with the person who referred to the file as To (transmission destination) and the transmission date and time as the upload date and time. Even if the electronic file is printed and mailed / handed, the transmission document extracting means 320 determines that the transmission by mail has been made if there is a transmission record regarding document transmission before and after the mail in the transmission process. It can also be added to the transmission record.

伝達文書データベース330は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。伝達文書データベース330は、伝達文書抽出手段320が抽出した伝達文書情報を記憶する。   Specifically, the transfer document database 330 is realized by a database device such as a magnetic disk device or an optical disk device. The transmission document database 330 stores the transmission document information extracted by the transmission document extraction unit 320.

なお、伝達文書データベース330は、伝達文書情報を、コミュニケーション計画において伝達が計画されているものと、そうでないものとを判別できるように保存しておく。例えば、伝達文書データベース330は、各伝達文書情報に計画の有無のフラグを付与することや、計画の有無で伝達文書の保存先やファイルを変える等の方法によって、伝達文書情報を判別可能に記憶する。なお、伝達文書抽出手段320は、各電子文書と各コミュニケーション計画との対応関係を、伝達文書情報とコミュニケーション計画とのFm(伝達元)とTo(伝達先)とが一致していることを前提条件として、電子文書名の類似性に基づいて判定することができる。また、伝達文書抽出手段320は、電子文書名中の文字列が完全一致していることを絶対条件としてもよいし、表記ゆれ等に対応するために、電子文書名中の共通文字列の割合等により類似度を求めて判定してもよい。   Note that the transmission document database 330 stores the transmission document information so that it can be determined whether the transmission is planned in the communication plan or not. For example, the transmission document database 330 stores the transmission document information in a distinguishable manner by adding a flag indicating whether or not there is a plan to each transmission document information, or changing the storage destination or file of the transmission document depending on the presence or absence of the plan. To do. Note that the transmission document extraction unit 320 assumes that the correspondence between each electronic document and each communication plan is such that Fm (transmission source) and To (transmission destination) of the transmission document information and the communication plan match. The condition can be determined based on the similarity of electronic document names. In addition, the transmission document extraction unit 320 may use an absolute condition that the character strings in the electronic document name are completely matched, or the ratio of the common character string in the electronic document name in order to cope with the notation fluctuation. The degree of similarity may be obtained and determined by, for example.

例えば、コミュニケーション計画と伝達文書情報とにおける文書名がそれぞれ「週報20060928」、「週報2006年 9月28日」であり、同一のFm(伝達元)とTo(伝達先)とであるとする。この場合、両文書名の平均文字数の11文字中、共通する文字数が10文字あるため、文字の一致率を求めると10/11≒0.91となる。この文字の一致率を類似度として用いて、類似の基準を文字の一致率が0.8以上である場合に類似であるとすれば、伝達文書抽出手段320は、類似度判定をすることによって、コミュニケーション計画と伝達文書情報とを対応づけることができる。また、伝達文書抽出手段320は、単純に文字の一致数だけではなく、オントロジ辞書等を用いて「2006-09-28」と「平成18年 9月28日」とが同じ意味であると判断する等、意味的な類似尺度を用いてもよい。   For example, it is assumed that the document names in the communication plan and the transmission document information are “weekly report 20060928” and “weekly report September 28, 2006”, respectively, and have the same Fm (transmission source) and To (transmission destination). In this case, since there are 10 characters in common among the 11 characters of the average number of characters in both document names, the character matching rate is 10 / 11≈0.91. If this character match rate is used as the similarity, and the similarity is determined to be similar when the character match rate is 0.8 or more, the transfer document extracting unit 320 performs similarity determination. The communication plan can be associated with the transmission document information. Further, the transmission document extracting means 320 determines that “2006-09-28” and “September 28, 2006” have the same meaning using not only the number of matching characters but also an ontology dictionary or the like. For example, a semantic similarity measure may be used.

また、コミュニケーション計画の予定伝達日時と伝達文書情報の伝達日時とが離れている日時である場合には、伝達文書抽出手段320は、文書名が類似していても、それらコミュニケーション計画と伝達文書情報とが対応関係がないと判定することもできる。例えば、伝達文書抽出手段320は、文書名が「週報」である場合に、実際の伝達日時が伝達予定日時よりも7日以上遅れていれば、別の週の週報と判断して扱うこともできる。この場合、電子文書における対応関係を判定する伝達日時と伝達予定日時との差は、システムの利用者により任意に決定できるものとする。   If the scheduled transmission date / time of the communication plan is different from the transmission date / time of the transmission document information, the transmission document extraction unit 320 may determine that the communication plan and the transmission document information even if the document names are similar. Can be determined to have no corresponding relationship. For example, if the document name is “weekly report” and the actual transmission date / time is more than 7 days later than the scheduled transmission date / time, the transmission document extraction unit 320 may determine that the weekly report is for another week. it can. In this case, the difference between the transmission date / time for determining the correspondence in the electronic document and the scheduled transmission date / time can be arbitrarily determined by the user of the system.

なお、伝達文書抽出手段320は、コミュニケーション計画のFm(伝達元)及びTo(伝達先)にグループによる指定がある場合には、類似性を測る(判定する)際にコミュニケーション計画を展開しておく。「コミュニケーション計画の展開」とは、組織情報のグループとメンバとの関係を参照して、コミュニケーション計画データを各メンバ同士の伝達計画にすることである。このとき、展開時にFm(伝達元)とTo(伝達先)とが同じになるものは、伝達計画から除外しておく。   The transmission document extraction unit 320 develops the communication plan when measuring (determining) the similarity when the Fm (transmission source) and To (transmission destination) of the communication plan are designated by a group. . “Development of communication plan” refers to making communication plan data a communication plan between members by referring to the relationship between groups and members of organization information. At this time, those in which Fm (transmission source) and To (transmission destination) are the same during deployment are excluded from the transmission plan.

図36は、伝達文書情報の一例を示す説明図である。図36において、図中の計画書番号(No)は、対応するコミュニケーション計画の計画書番号(No)を表している。図36において、例えば、文書ID「D101」の週報は、2006年9月28日の17:00に、メンバM3からそれぞれメンバM2,M4,M5に文書伝達されたことが分かる。   FIG. 36 is an explanatory diagram showing an example of the transfer document information. In FIG. 36, the plan number (No) in the figure represents the plan number (No) of the corresponding communication plan. In FIG. 36, for example, it can be seen that the weekly report of the document ID “D101” was transmitted from the member M3 to the members M2, M4, and M5 at 17:00 on September 28, 2006, respectively.

また、図37は、コミュニケーション計画「No.P001」を展開した例を示す説明図である。図37に示す例では、メンバM3からグループG2への文書伝達を示すコミュニケーション計画が、メンバM3からグループG2の各メンバそれぞれへの文書伝達を示すコミュニケーション計画に展開されている。ただし、図37に示す例では、メンバM3もグループG2のメンバの1人であるため、伝達文書抽出手段320は、展開後のコミュニケーション計画から、メンバM3からメンバM3への文書伝達に係るレコード(図37に示す網掛け部705)を削除する。   FIG. 37 is an explanatory diagram showing an example in which the communication plan “No. P001” is developed. In the example shown in FIG. 37, a communication plan indicating document transmission from the member M3 to the group G2 is developed into a communication plan indicating document transmission from the member M3 to each member of the group G2. However, in the example shown in FIG. 37, since the member M3 is also one of the members of the group G2, the transfer document extracting unit 320 determines that the record ((3) from the expanded communication plan to the document transfer from the member M3 to the member M3 ( The shaded portion 705) shown in FIG. 37 is deleted.

文書参照関係抽出システム100は、伝達文書データベース330に記憶される伝達文書情報と、コミュニケーション計画データベース110に記憶されるコミュニケーション計画とに基づいて、文書伝達の階層構造を特定する機能を備える。また、文書参照関係抽出システム100は、特定した文書伝達の階層構造を示す情報をパラレルコーパス抽出手段340に出力する機能を備える。   The document reference relationship extraction system 100 has a function of specifying the hierarchical structure of document transmission based on the transmission document information stored in the transmission document database 330 and the communication plan stored in the communication plan database 110. Further, the document reference relationship extraction system 100 has a function of outputting information indicating the identified document transmission hierarchical structure to the parallel corpus extraction unit 340.

本実施の形態では、文書参照関係抽出システム100は、ユーザ(組織内のいずれかのグループのメンバ)の指示操作に従って、文書伝達の階層構造の特定処理を実行する。例えば、ユーザが情報処理装置が備える表示装置に表示された所定の入力フォームから「実行」ボタンをマウスクリック等すると、文書参照関係抽出システム100は、文書伝達の階層構造の特定処理を開始する。   In the present embodiment, the document reference relationship extraction system 100 executes a document transmission hierarchical structure specifying process in accordance with an instruction operation of a user (a member of any group in the organization). For example, when the user clicks the “execute” button with a mouse on a predetermined input form displayed on a display device included in the information processing apparatus, the document reference relation extraction system 100 starts a document transmission hierarchical structure specifying process.

図38は、図35に示すコミュニケーション計画における文書伝達を模式的にネットワークとして表した説明図である。図38において、ノードはメンバを表し、ノード間の矢印は電子文書の伝達関係を表している。図38に示すように、各メンバM3,M4,M5のノードから文書伝達のパスがネットワーク状に広がっている。そのため、このままでは、メンバM3,M4,M5間の文書伝達の階層構造を特定できない。文書参照関係抽出システム100は、図38に示すようなネットワーク状の文書伝達構造の状態から、電子文書間の参照関係を抽出するものである。   FIG. 38 is an explanatory diagram schematically showing document transmission in the communication plan shown in FIG. 35 as a network. In FIG. 38, nodes represent members, and arrows between the nodes represent electronic document transmission relationships. As shown in FIG. 38, the document transmission path extends from the nodes of the members M3, M4, and M5 in a network shape. For this reason, the document transmission hierarchical structure among the members M3, M4, and M5 cannot be specified as it is. The document reference relationship extraction system 100 extracts a reference relationship between electronic documents from the state of a network-like document transmission structure as shown in FIG.

非参照関係抽出手段120は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。非参照関係抽出手段120は、電子文書間に参照関係が生じない文書伝達を抽出する機能を備える。まず、非参照関係抽出手段120は、コミュニケーション計画に基づいて計画表を作成する。計画表とは、同一の計画番号(No)のコミュニケーション計画において、同じ伝達予定日時における文書伝達計画の有無を表形式にまとめて示したテーブルである。   Specifically, the non-reference relationship extracting unit 120 is realized by a CPU of an information processing apparatus that operates according to a program. The non-reference relationship extraction unit 120 has a function of extracting document transmission that does not cause a reference relationship between electronic documents. First, the non-reference relationship extraction unit 120 creates a plan table based on the communication plan. The plan table is a table in which the presence / absence of a document transmission plan at the same scheduled transmission date / time in a communication plan with the same plan number (No) is summarized in a table format.

非参照関係抽出手段120は、計画表を、以下の処理に従って作成する。まず、非参照関係抽出手段120は、コミュニケーション計画におけるFm(伝達元)とTo(伝達先)との和集合を求める。次いで、非参照関係抽出手段120は、同一の伝達予定日時毎に、対応するメンバの集合を行と列とに配置した正方行列を作成する。ここで、作成した正方行列の行方向は文書伝達におけるFm(伝達元)を表し、列方向はTo(伝達先)を表す。次いで、非参照関係抽出手段120は、計画表のFm(伝達元)とTo(伝達先)との間において、文書伝達の計画がある箇所には1を付与し、文書伝達の計画のない箇所には0を付与する。   The non-reference relationship extraction unit 120 creates a plan table according to the following process. First, the non-reference relationship extraction unit 120 obtains the union of Fm (transmission source) and To (transmission destination) in the communication plan. Next, the non-reference relationship extraction unit 120 creates a square matrix in which a set of corresponding members is arranged in rows and columns for each same scheduled transmission date and time. Here, the row direction of the created square matrix represents Fm (transmission source) in document transmission, and the column direction represents To (transmission destination). Next, the non-reference relationship extraction unit 120 assigns 1 to a place where there is a document transmission plan between Fm (transmission source) and To (transmission destination) in the plan table, and a place where there is no document transmission plan. 0 is assigned to.

以上の処理を行うことによって、非参照関係抽出手段120は、計画表を作成する。図39は、非参照関係抽出手段120が作成する計画表の一般例を示す説明図である。図39に示す計画表において、最左列は文書伝達におけるFm(伝達元)のメンバIDを示し、最上段の行はTo(伝達先)のメンバIDを示している。また、t番目の計画表をPtと表記し、tの値が大きいほど伝達予定日時が遅いものとする。また、図39に示す計画表において、丸で囲まれた部分707は、メンバM1からメンバM7に文書伝達の計画があることを意味する。   By performing the above processing, the non-reference relationship extraction unit 120 creates a plan table. FIG. 39 is an explanatory diagram showing a general example of a plan table created by the non-reference relationship extraction unit 120. In the plan table shown in FIG. 39, the leftmost column indicates the member ID of Fm (transmission source) in document transmission, and the top row indicates the member ID of To (transmission destination). In addition, the t-th schedule is expressed as Pt, and the larger the value of t, the later the scheduled transmission date and time. In the plan table shown in FIG. 39, a circled portion 707 means that there is a document transmission plan from member M1 to member M7.

図40は、非参照関係抽出手段120が図35に示すコミュニケーション計画に基づいて実際に作成した計画表及び非参照関係表を示す説明図である。また、図40(a)は、伝達予定日時が2006年9月28日である分の計画表(P1)を示している。また、図40(b)は、伝達予定日時が2006年9月28日である分の計画表(P2)を示している。なお、図40では、計画表を見やすくするため、0を省略して表記している。   FIG. 40 is an explanatory diagram showing a plan table and a non-reference relationship table actually created by the non-reference relationship extraction unit 120 based on the communication plan shown in FIG. FIG. 40A shows a plan table (P1) for the scheduled transmission date and time of September 28, 2006. FIG. 40B shows a plan table (P2) for the scheduled transmission date and time of September 28, 2006. In FIG. 40, 0 is omitted to make the plan table easier to see.

非参照関係抽出手段120は、計画表において、図40(a)に示す計画表P1中の四角枠で囲まれた部分708のように、i番目のメンバMiとj番目のメンバMjとが相互に電子文書を伝達している場合、メンバMiとメンバMjとの間には参照関係がないものと判断する。すなわち、一般に、2人のメンバ間で相互に電子文書のやりとりが行われる場合には、相互に電子文書の参照を行うだけで電子文書の修正/編集作業は行われない傾向が強い。そのため、このような傾向を利用して、非参照関係抽出手段120は、2人のメンバ間で相互に電子文書のやりとりが行われる場合には、参照関係がないものと判断する。   The non-reference relationship extracting means 120 is configured such that the i-th member Mi and the j-th member Mj in the plan table are the same as the portion 708 surrounded by the square frame in the plan table P1 shown in FIG. When the electronic document is transmitted to the member M1, it is determined that there is no reference relationship between the member Mi and the member Mj. That is, in general, when electronic documents are exchanged between two members, there is a strong tendency that correction / editing of electronic documents is not performed only by referring to the electronic documents. Therefore, using such a tendency, the non-reference relationship extraction unit 120 determines that there is no reference relationship when electronic documents are exchanged between two members.

具体的には、図40に示すように、非参照関係抽出手段120は、同一の伝達予定日時の計画表Ptにおいて、Pt(i,j)とPt(j,i)とがともに1となる伝達計画を非参照関係と判断する。なお、ここで、P(i,j)は、計画表におけるメンバMiからメンバMjへの伝達関係を表す。そして、非参照関係抽出手段120は、求めた非参照関係を示すテーブルである非参照関係表を生成する。図40(c)は、図40(a)に示す計画表から得られる非参照関係を示している。   Specifically, as shown in FIG. 40, the non-reference relationship extracting unit 120 sets Pt (i, j) and Pt (j, i) to 1 in the plan table Pt having the same scheduled transmission date and time. Judge the transmission plan as a non-reference relationship. Here, P (i, j) represents the transmission relationship from member Mi to member Mj in the plan table. Then, the non-reference relationship extraction unit 120 generates a non-reference relationship table that is a table indicating the obtained non-reference relationship. FIG. 40C shows a non-reference relationship obtained from the plan table shown in FIG.

図40(c)に示すように、非参照関係表には、伝達計画番号(No)、Fm(伝達元)及びTo(伝達先)が含まれる。非参照関係表に示される計画番号(No)のFm(伝達元)とTo(伝達先)とに該当する文書伝達には参照関係がないことを意味する。すなわち、図36に示される伝達文書情報のうち、行番号がそれぞれ2、3、5、6、8及び9である伝達文書情報に示される文書伝達は、参照関係が生じない文書伝達と判断できる。   As shown in FIG. 40C, the non-reference relationship table includes a transmission plan number (No), Fm (transmission source), and To (transmission destination). This means that there is no reference relationship in document transmission corresponding to Fm (transmission source) and To (transmission destination) of the plan number (No) shown in the non-reference relationship table. That is, in the transmission document information shown in FIG. 36, the document transmission shown in the transmission document information whose line numbers are 2, 3, 5, 6, 8, and 9, respectively, can be determined as document transmission in which no reference relationship occurs. .

なお、非参照関係抽出手段120は、組織情報を用いて非参照関係表を作成するようにしてもよい。例えば、非参照関係抽出手段120は、組織情報に基づいて、同一の役職間においては参照がないとしてしてもよいし、同一グループ間での参照関係はないとしてもよい。また、非参照関係抽出手段120は、グループと役職等複数の条件とを組み合わせて非参照関係表を作成してもよいし、非参照関係表を人が入力手段510を用いて修正/入力/削除できるようにしてもよい。   The non-reference relationship extraction unit 120 may create a non-reference relationship table using the organization information. For example, the non-reference relationship extraction unit 120 may be configured such that there is no reference between the same positions based on the organization information, or there may be no reference relationship between the same groups. Further, the non-reference relationship extraction unit 120 may create a non-reference relationship table by combining a plurality of conditions such as a group and a job title. It may be possible to delete it.

階層構造特定手段130は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。階層構造特定手段130は、コミュニケーション計画データベース110が記憶するコミュニケーション計画、及び伝達文書データベース330が記憶する伝達文書情報に基づいて、同一種類の電子文書群における「文書伝達の階層構造」を特定する機能を備える。この場合、階層構造特定手段130は、非参照関係抽出手段120が作成した非参照関係表を利用して、文書伝達の階層構造を特定する。   Specifically, the hierarchical structure specifying unit 130 is realized by a CPU of an information processing apparatus that operates according to a program. The hierarchical structure specifying means 130 is a function that specifies “document transmission hierarchical structure” in the same type of electronic document group based on the communication plan stored in the communication plan database 110 and the transfer document information stored in the transfer document database 330. Is provided. In this case, the hierarchical structure specifying unit 130 uses the non-reference relationship table created by the non-reference relationship extracting unit 120 to specify the hierarchical structure of document transmission.

図41は、階層構造特定手段130が文書伝達の階層構造を特定する処理のアルゴリズムの一例を示す説明図である。以下、図41に示すアルゴリズムに従って、階層構造特定手段130の動作について説明する。まず、階層構造特定手段130は、各コミュニケーション計画に対応する伝達文書情報を伝達文書データベース330から抽出する(図41のステップA1)。次に、階層構造特定手段130は、伝達文書情報に基づいて、伝達表を作成する(図41のステップA2)。伝達表とは、コミュニケーション計画において同じ伝達予定日時が計画されている伝達文書情報において、文書伝達の有無を同一の伝達日時毎に表形式でまとめたテーブルである。   FIG. 41 is an explanatory diagram showing an example of an algorithm for processing in which the hierarchical structure specifying unit 130 specifies the hierarchical structure of document transmission. The operation of the hierarchical structure specifying unit 130 will be described below according to the algorithm shown in FIG. First, the hierarchical structure specifying unit 130 extracts transfer document information corresponding to each communication plan from the transfer document database 330 (step A1 in FIG. 41). Next, the hierarchical structure specifying unit 130 creates a transmission table based on the transmission document information (step A2 in FIG. 41). The transmission table is a table in which the presence / absence of document transmission is summarized in the form of a table for each identical transmission date / time in the transmission document information in which the same scheduled transmission date / time is planned in the communication plan.

なお、階層構造特定手段130は、伝達表が複数作成される場合には、全ての伝達表について図41に示す処理を実行する。そのため、ステップA2において、階層構造特定手段130は、何番目の伝達表について処理を実行しているかを示す係数tに1を代入する。   Note that, when a plurality of transfer tables are created, the hierarchical structure specifying unit 130 executes the process shown in FIG. 41 for all the transfer tables. Therefore, in step A2, the hierarchical structure specifying unit 130 substitutes 1 for a coefficient t indicating what number of transmission tables is being processed.

階層構造特定手段130は、伝達表を、以下の手順に従って作成する。まず、階層構造特定手段130は、指定されたコミュニケーション計画に対応する伝達文書情報からFm(伝達元)とTo(伝達先)との和集合を求める。次いで、階層構造特定手段130は、同一の伝達日時毎に、対応するメンバの集合を行と列とに配置した正方行列を作成する。ここで、作成した正方行列の行方向は文書伝達におけるFm(伝達元)を表し、列方向はTo(伝達先)を表す。次いで、階層構造特定手段130は、計画表のFm(伝達元)とTo(伝達先)との間において、文書伝達の計画がある箇所には1を付与し、文書伝達の計画のない箇所には0を付与する。   The hierarchical structure specifying unit 130 creates a transmission table according to the following procedure. First, the hierarchical structure specifying unit 130 obtains the union of Fm (transmission source) and To (transmission destination) from the transmission document information corresponding to the designated communication plan. Next, the hierarchical structure specifying unit 130 creates a square matrix in which a set of corresponding members is arranged in rows and columns for each same transmission date and time. Here, the row direction of the created square matrix represents Fm (transmission source) in document transmission, and the column direction represents To (transmission destination). Next, the hierarchical structure specifying unit 130 assigns 1 to a place where there is a document transmission plan between Fm (transmission source) and To (transmission destination) in the plan table, and places it in a place where there is no document transmission plan. Gives 0.

以上の処理を行うことによって、階層構造特定手段130は、伝達表を作成する。図42は、階層構造特定手段130が作成する伝達表の一般例を示す説明図である。図42に示す伝達表において、最左列は文書伝達におけるFm(伝達元)のメンバIDを示し、最上段の行はTo(伝達先)のメンバIDを示している。また、図42に示す伝達表おいて、丸で囲まれた部分710は、メンバM5からメンバM7に文書伝達が行われたことを意味する。また、以下、t番目の伝達表をCtと表記する。また、tの値が大きいほど伝達日時が遅いものとする。   By performing the above processing, the hierarchical structure specifying unit 130 creates a transmission table. FIG. 42 is an explanatory diagram showing a general example of a transfer table created by the hierarchical structure specifying unit 130. In the transmission table shown in FIG. 42, the leftmost column indicates the member ID of Fm (transmission source) in document transmission, and the top row indicates the member ID of To (transmission destination). In the transmission table shown in FIG. 42, a circled portion 710 means that the document transmission from the member M5 to the member M7 has been performed. Hereinafter, the t-th transmission table is denoted by Ct. Also, the larger the value of t, the later the transmission date and time.

図43は、階層構造特定手段130が図36に示す伝達文書情報に基づいて実際に作成した5つの伝達表、及び伝達表から階層構造を特定する例を示す説明図である。なお、図43に示す伝達表は、文書伝達があった(行中に1が存在する)部分のみを抜粋して示したものである。   FIG. 43 is an explanatory diagram showing five transmission tables actually created by the hierarchical structure specifying unit 130 based on the transmission document information shown in FIG. 36, and an example of specifying the hierarchical structure from the transmission table. Note that the transmission table shown in FIG. 43 is an excerpt of only the portion where document transmission occurred (1 exists in the line).

次に、階層構造特定手段130は、各伝達表内の文書伝達構造を特定する(図41のステップA3)。この場合、階層構造特定手段130は、伝達表Ct内において1が付与されている箇所のFm(伝達元)とTo(伝達先)とをリンクすることで抽出することができる。なお、リンクとは、Fm(伝達元)のメンバからTo(伝達先)のメンバに対して文書伝達が行われたことを記述することを意味し、例えば、Fm(伝達元)からTo(伝達先)に向けて矢印を繋ぐ処理(例えば、リンク情報を付与する処理)に相当する。   Next, the hierarchical structure specifying unit 130 specifies the document transmission structure in each transmission table (step A3 in FIG. 41). In this case, the hierarchical structure specifying unit 130 can extract Fm (transmission source) and To (transmission destination) at a location where 1 is assigned in the transmission table Ct. The link means that a document is transmitted from a member of Fm (transmission source) to a member of To (transmission destination). For example, the link is transmitted from Fm (transmission source) to To (transmission). This corresponds to a process (for example, a process of assigning link information) for connecting arrows toward (destination).

階層構造特定手段130は、リンクの条件式(7)を用いてリンク付けを行う。ただし、この場合、階層構造特定手段130は、非参照関係表に基づいて、非参照関係については抽出しないように処理する。   The hierarchical structure specifying unit 130 performs link using the link conditional expression (7). However, in this case, the hierarchical structure specifying unit 130 performs processing so as not to extract the non-reference relationship based on the non-reference relationship table.

Figure 0005076575
Figure 0005076575

式(7)において、iは伝達表Ctにおける縦方向のメンバのインデックスを示し、jは横方向のメンバのインデックスを示す。また、式(7)中の後件部(すなわち、thenの後ろの部分)は、メンバMiからメンバMjへの文書伝達が行われていることを意味する。図43において、各伝達表の右側に示している模式図は、図43に示す伝達表に式(7)を適用して階層構造特定手段130によって求められた文書伝達の階層構造である。   In equation (7), i represents the index of the member in the vertical direction in the transfer table Ct, and j represents the index of the member in the horizontal direction. Further, the consequent part (that is, the part after then) in the equation (7) means that the document transmission from the member Mi to the member Mj is performed. In FIG. 43, the schematic diagram shown on the right side of each transmission table is a hierarchical structure of document transmission obtained by the hierarchical structure specifying unit 130 by applying Expression (7) to the transmission table shown in FIG.

以上の処理によって、本実施の形態では、階層構造特定手段130は、まず、参照関係と非参照関係とを両方含んだ伝達表を作成し、さらに、作成した伝達表と非参照関係表とに基づいて、非参照関係を含まない文書伝達の階層構造を特定する。なお、階層構造特定手段130は、非参照関係表に基づいて予め非参照関係を含まない伝達表を作成するようにしてもよい。そのようにすれば、階層構造特定手段130が作成する伝達表のデータ容量を低減することができる。   Through the above processing, in the present embodiment, the hierarchical structure specifying unit 130 first creates a transmission table including both the reference relationship and the non-reference relationship, and further creates the transmission table and the non-reference relationship table. Based on this, a hierarchical structure of document transmission that does not include a non-reference relationship is specified. The hierarchical structure specifying unit 130 may create a transmission table that does not include a non-reference relationship in advance based on the non-reference relationship table. By doing so, the data capacity of the transfer table created by the hierarchical structure specifying means 130 can be reduced.

次に、階層構造特定手段130は、各伝達表から文書伝達の開始者と末端者とを抽出する(図41のステップA4)。ここで、伝達表Ct中の文書伝達の開始者をMs_tとし、文書伝達の末端者をMe_tとする。この場合、階層構造特定手段130は、開始者Ms_t及び末端者Me_tとを、それぞれ式(8)及び式(9)を用いて抽出することができる。   Next, the hierarchical structure specifying unit 130 extracts the start and end of document transmission from each transmission table (step A4 in FIG. 41). Here, it is assumed that the document transfer initiator in the transfer table Ct is Ms_t and the document transfer end is Me_t. In this case, the hierarchical structure specifying unit 130 can extract the initiator Ms_t and the endor Me_t using the equations (8) and (9), respectively.

Figure 0005076575
Figure 0005076575

Figure 0005076575
Figure 0005076575

式(8)及び式(9)において、Nmはメンバの数を示し、Ma_tは伝達表Ctにおけるa番目のメンバを示す。図43に示すように、各伝達表において、文書伝達の開始者と末端者とが複数人いることもある。   In Expressions (8) and (9), Nm indicates the number of members, and Ma_t indicates the a-th member in the transfer table Ct. As shown in FIG. 43, in each transfer table, there may be a plurality of document transfer starters and endorsers.

次いで、階層構造特定手段130は、ステップA3及びステップA4の処理を全ての伝達表に対して適用した後、伝達表間における文書伝達の階層構造を特定する。具体的には、文書伝達の開始者及び末端者を特定すると、階層構造特定手段130は、全ての伝達表に対して処理を終了したか否か(t=Nτ(伝達表の総数)であるか否か)を確認する(ステップA5)。t=Nτでなければ、階層構造特定手段130は、tの値を1加算し(ステップA6)、ステップA3の処理に戻って、ステップA3,A4の処理を繰り返し実行する。t=Nτであれば、階層構造特定手段130は、伝達表間における文書伝達の構造を特定する(ステップA7)。この場合、階層構造特定手段130は、伝達表Ctにおける伝達の開始者に対して、文書伝達を行っている伝達表Cτにおける文書伝達の末端者を特定することによって、文書伝達の構造を特定することができる。ただし、t>τであるとする。   Next, the hierarchical structure specifying unit 130 applies the processing of step A3 and step A4 to all transfer tables, and then specifies the hierarchical structure of document transfer between the transfer tables. Specifically, when the start and end of document transmission are specified, the hierarchical structure specifying means 130 is whether or not processing has been completed for all transmission tables (t = Nτ (total number of transmission tables)). (Step A5). If not t = Nτ, the hierarchical structure specifying unit 130 adds 1 to the value of t (step A6), returns to the process of step A3, and repeatedly executes the processes of steps A3 and A4. If t = Nτ, the hierarchical structure specifying unit 130 specifies the structure of document transmission between the transmission tables (step A7). In this case, the hierarchical structure specifying unit 130 specifies the document transmission structure by specifying the end of document transmission in the transmission table Cτ performing document transmission to the transmission starter in the transmission table Ct. be able to. However, it is assumed that t> τ.

次いで、階層構造特定手段130は、特定した末端者から開始者をリンクすることで伝達表間の文書伝達構造を特定することができる。この場合、階層構造特定手段130は、リンクの条件式(10)を用いて、文書伝達構造を特定する。   Next, the hierarchical structure specifying unit 130 can specify the document transfer structure between transfer tables by linking the initiator to the specified endorser. In this case, the hierarchical structure specifying unit 130 specifies the document transmission structure using the link conditional expression (10).

Figure 0005076575
Figure 0005076575

図44は、図41に示す処理に従って、階層構造特定手段130が図36に示す伝達文書情報から特定した文書伝達の階層構造を示す説明図である。図44において、各ノード712aは各メンバを表し、各矢印712bは文書伝達の関係を表している。また、図44に示す四角枠には、それぞれ隣接するノードが伝達した電子文書の文書IDが示されている。   FIG. 44 is an explanatory diagram showing the hierarchical structure of document transmission specified by the hierarchical structure specifying unit 130 from the transmission document information shown in FIG. 36 in accordance with the processing shown in FIG. In FIG. 44, each node 712a represents each member, and each arrow 712b represents a document transmission relationship. Also, the square frame shown in FIG. 44 shows the document ID of the electronic document transmitted by each adjacent node.

なお、文書伝達の参照関係を算出する処理は、Fm(伝達元)とTo(伝達先)という一方向のパスの集合において、異なるパスのTo(伝達先)とFm(伝達元)とをある制約下において連結し有向グラブを作成する技術と位置づけられる。文書伝達の参照関係を算出する処理での制約は、連結においてTo(伝達先)とFm(伝達元)とが同一であり、Fm(伝達元)がTo(伝達先)よりも遅い時間となることである。すなわち、この制約を満たし、かつ有向グラフを抽出できれば、階層構造特定手段130は、文書伝達の参照関係を算出する場合に、図41に示すアルゴリズム以外の参照関係抽出の方法を用いてもよい。   Note that the processing for calculating the reference relationship of document transmission includes To (transmission destination) and Fm (transmission source) of different paths in a set of one-way paths of Fm (transmission source) and To (transmission destination). It is positioned as a technology that connects and creates directed grabs under constraints. The restriction in the process of calculating the document transfer reference relationship is that To (transmission destination) and Fm (transmission source) are the same in the connection, and Fm (transmission source) is later than To (transmission destination). That is. That is, if this constraint is satisfied and a directed graph can be extracted, the hierarchical structure specifying unit 130 may use a reference relationship extraction method other than the algorithm shown in FIG. 41 when calculating the document transfer reference relationship.

例えば、階層構造特定手段130は、文書伝達の末端者と、文書伝達の末端者に対して電子文書を伝達するメンバとを抽出し、さらにそのメンバに対して電子文書を伝達するメンバを抽出するという処理を再帰的に繰り返す方法を用いて、文書伝達の参照関係を算出してもよい。この場合、階層構造特定手段130は、該当するメンバが存在しない場合、又は非参照関係となる文書伝達が抽出された場合を終了条件として処理を終了する。そのような処理を実行することによって、階層構造特定手段130は、文書伝達の末端者を根とし、文書伝達の開始者を葉とし、文書伝達の中継者を中間ノードとする伝達の木構造を特定することができる。   For example, the hierarchical structure specifying unit 130 extracts document transmission end persons and members who transmit electronic documents to the document transmission end persons, and further extracts members transmitting electronic documents to the members. The document transfer reference relationship may be calculated using a method of recursively repeating the above process. In this case, the hierarchical structure specifying unit 130 ends the process when the corresponding member does not exist or when the document transmission having a non-reference relationship is extracted as the end condition. By executing such processing, the hierarchical structure specifying unit 130 creates a tree structure of transmission with the end of the document transmission as the root, the document transmission initiator as the leaf, and the document transmission relay as the intermediate node. Can be identified.

図45は、図36に示す伝達文書情報における文書伝達の末端者の一人であるメンバM6から文書伝達の開始者までのトレースを行う処理の過程を示す説明図である。図45において、空欄となっている箇所は非参照関係の文書伝達を示している。階層構造特定手段130は、各伝達の末端者(例えば、メンバM6とメンバM7)について同様の処理を行い、最後に各末端者に関する文書伝達の木構造で共通する部分を1つと見なし、マージすることによって、図44に示す文書伝達の階層構造と同様の階層構造を特定する。なお、階層構造について、人が入力手段510を用いて修正/入力/削除できるようにしてもよい。   FIG. 45 is an explanatory diagram showing the process of tracing from the member M6, one of the document transfer endorsers, to the document transfer starter in the transfer document information shown in FIG. In FIG. 45, a blank area indicates non-reference-related document transmission. The hierarchical structure specifying unit 130 performs the same processing for each transmission end person (for example, member M6 and member M7), and finally regards a common part in the tree structure of the document transmission related to each end person as one, and merges them. Thus, the hierarchical structure similar to the document transmission hierarchical structure shown in FIG. 44 is specified. The hierarchical structure may be corrected / input / deleted by a person using the input means 510.

図45に示すような処理を実行することによって、階層構造特定手段130は、文書伝達の階層構造を特定する際に伝達表を作成する必要をなくすことができ、文書伝達の階層構造を特定する際に作成されるデータのデータ容量を低減することができる。   By executing the processing shown in FIG. 45, the hierarchical structure specifying unit 130 can eliminate the need to create a transfer table when specifying the hierarchical structure of document transmission, and specify the hierarchical structure of document transmission. It is possible to reduce the data capacity of the data created at the time.

なお、本実施の形態に示すように、文書伝達の階層構造を特定する際に伝達表を作成するようにすれば、後日、その伝達表を再利用して、繰り返し文書伝達の階層構造を特定することができる。また、後日、作成した伝達表を用いた編集作業を行うことによって、文書伝達の階層構造の分析や編集を行うことができる。   As shown in this embodiment, if a transmission table is created when specifying the hierarchical structure of document transmission, the hierarchical structure of repeated document transmission can be specified later by reusing the transmission table. can do. Further, the hierarchical structure of document transmission can be analyzed and edited by performing editing work using the created transmission table at a later date.

パラレルコーパス抽出手段340は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。パラレルコーパス抽出手段340は、階層構造特定手段130から出力された文書伝達の階層構造の特定結果に基づいて、パラレルコーパスを抽出する機能を備える。   Specifically, the parallel corpus extraction unit 340 is realized by a CPU of an information processing apparatus that operates according to a program. The parallel corpus extraction unit 340 has a function of extracting a parallel corpus based on the document transmission hierarchical structure identification result output from the hierarchical structure identification unit 130.

一般に、文書伝達の階層構造における中継者は、伝達される電子文書を修正していることが多いという傾向がある。そのため、文書伝達過程における中継者の前後における電子文書対はパラレルコーパスとなる傾向が高い。そこで、本実施の形態では、パラレルコーパス抽出手段340は、一般に文書伝達に見られるこのような傾向を利用して、パラレルコーパスを抽出する。   In general, a relayer in a hierarchical structure of document transmission tends to modify an electronic document to be transmitted. For this reason, electronic document pairs before and after a relayer in the document transmission process tend to be a parallel corpus. Therefore, in the present embodiment, the parallel corpus extraction means 340 extracts a parallel corpus using such a tendency generally found in document transmission.

例えば、パラレルコーパス抽出手段340は、図44に示す例では、メンバM2が中継者であるため、メンバM2に対する文書伝達前後の電子文書D101、D102又はD103と、電子文書D104とは、パラレルコーパスであると判断する。また、例えば、パラレルコーパス抽出手段340は、メンバM1が中継者であるため、メンバM1に対する文書伝達前後の電子文書D104と電子文書D105とは、パラレルコーパスであると判断する。   For example, in the example shown in FIG. 44, the parallel corpus extraction unit 340 has a parallel corpus between the electronic document D101, D102 or D103 and the electronic document D104 before and after document transmission to the member M2, because the member M2 is a relay person. Judge that there is. For example, the parallel corpus extraction unit 340 determines that the electronic document D104 and the electronic document D105 before and after document transmission to the member M1 are parallel corpuses because the member M1 is a relay person.

なお、一般に、極めて短い期間(例えば同日)に文書伝達が行われる場合には、伝達対象の電子文書を修正又は編集することなく、そのまま次のメンバに転送される傾向が強い。そこで、パラレルコーパス抽出手段340は、そのような傾向を考慮して、コミュニケーション計画における伝達予定日時が同一である伝達計画においては、電子文書の内容が同一であると判断する処理を実行するようにしてもよい。例えば、パラレルコーパス抽出手段340は、メンバM2からメンバM1への伝達は同日に計画されているため、メンバM2を電子文書の単なる橋渡し役と判断し、電子文書D104と電子文書D105とは同様の内容であると判断してもよい。なお、実施の形態1〜3で用いられている類似文章対データベース501は、パラレルコーパス抽出手段340により得られたパラレルコーパスにおいて、類似する単語が多く含まれる文章を類似文章として記録してもよい。   In general, when document transmission is performed in an extremely short period (for example, the same day), there is a strong tendency that the electronic document to be transmitted is transferred to the next member without modification or editing. Therefore, the parallel corpus extraction means 340 considers such a tendency and executes a process for determining that the contents of the electronic document are the same in a transmission plan having the same scheduled transmission date and time in the communication plan. May be. For example, the parallel corpus extraction means 340 determines that the member M2 is merely a bridging member for the electronic document because the transmission from the member M2 to the member M1 is planned on the same day. The content may be determined. Note that the similar sentence pair database 501 used in the first to third embodiments may record a sentence including many similar words as a similar sentence in the parallel corpus obtained by the parallel corpus extraction unit 340. .

同義表現抽出装置350は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。同義表現抽出装置350は、パラレルコーパス抽出手段340が特定したパラレルコーパスのテキスト情報から同義表現を抽出する機能を備える。また、同義表現抽出装置350は、抽出した同義表現を同義表現データベース360に記憶させる機能を備える。また、同義表現抽出装置350は、抽出した同義表現を出力手段530に出力させる機能を備える。   Specifically, the synonym expression extraction device 350 is realized by a CPU of an information processing device that operates according to a program. The synonym expression extraction device 350 has a function of extracting synonym expressions from the text information of the parallel corpus specified by the parallel corpus extraction unit 340. The synonym expression extraction device 350 has a function of storing the extracted synonym expressions in the synonym expression database 360. The synonym expression extraction device 350 has a function of causing the output unit 530 to output the extracted synonym expression.

同義表現抽出装置350は、同義表現の抽出技術として、既存の各種の抽出技術を用いて、パラレルコーパスから同義表現を抽出する。例えば、同義表現抽出装置350は、パラレルコーパスから同義表現を抽出する技術として、類似文章対に対して係り受け解析を適用し、所定の条件を満たす部分木を同義表現として抽出する方法を用いてもよい。この場合、例えば、同義表現抽出装置350は、所定の条件として、(1)係り受け解析により得られる部分木の根が用言であること、(2)対となる部分木が共通の固有表現を含んでいること、(3)各用言が要求する格が部分木に含まれていることの3つを用いて同義表現を抽出してもよい。   The synonym expression extraction device 350 extracts synonym expressions from the parallel corpus using various existing extraction techniques as synonym expression extraction techniques. For example, the synonym expression extraction device 350 applies dependency analysis to similar sentence pairs as a technique for extracting synonym expressions from a parallel corpus, and uses a method of extracting a subtree satisfying a predetermined condition as a synonym expression. Also good. In this case, for example, the synonym expression extraction device 350 includes, as predetermined conditions, (1) the root of the subtree obtained by dependency analysis is a predicate, and (2) the paired subtrees include a common specific expression. (3) A synonym expression may be extracted using three cases that a subtree includes a case required by each precaution.

なお、上記に示した同義表現を抽出する技術は、例えば、文献「Shinyama Y, and Sekine S, "Paraphrase acquisition for information extraction", 2nd International Workshop on Paraphrasing: Paraphrase Acquisition and Applications, pp.65-71, 2003」に記載されている。   The technique for extracting the synonymous expression shown above is, for example, the document “Shinyama Y, and Sekine S,“ Paraphrase acquisition for information extraction ”, 2nd International Workshop on Paraphrasing: Paraphrase Acquisition and Applications, pp. 65-71, 2003 ".

同義表現データベース360は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。同義表現データベース360は、同義表現抽出装置350が抽出した同義表現を記憶する。図46は、同義表現データベース360が記憶する同義表現の記憶形式の一例を示す説明図である。図46に示すように、同義表現データベース360は、同義表現ID及び同義表現のペアと、それら同義表現が含まれていた電子文書の文書IDと、その電子文書を作成したメンバとを、対応付けて記憶する。この場合、同義表現データベース360は、電子文書の伝達関数(「Fm(伝達元)」と「To(伝達先)」)が分かるように同義表現を記憶する。   Specifically, the synonymous expression database 360 is realized by a database device such as a magnetic disk device or an optical disk device. The synonym expression database 360 stores the synonym expressions extracted by the synonym expression extraction device 350. FIG. 46 is an explanatory diagram showing an example of a storage format of synonym expressions stored in the synonym expression database 360. As shown in FIG. 46, the synonym expression database 360 associates a synonym expression ID and a synonym expression pair, the document ID of the electronic document in which these synonym expressions are included, and the member who created the electronic document. Remember. In this case, the synonym expression database 360 stores synonym expressions so that the transfer functions (“Fm (transmission source)” and “To (transmission destination)”) of the electronic document can be understood.

図46において、同義表現IDは、同義表現のペアを一意に識別するために付与される識別情報である。図46に示すように、同義表現ID700(W001)においては、「メンバM3が作成した電子文書D101を参照して作成した電子文書ID104において、表現XYZが同義表現ABCに変更された」ことがわかる。すなわち、表現XYZと表現ABCとのペアが相互に同義表現であることを示している。   In FIG. 46, the synonym expression ID is identification information given to uniquely identify a pair of synonym expressions. As shown in FIG. 46, in the synonym expression ID 700 (W001), it is understood that the expression XYZ has been changed to the synonym expression ABC in the electronic document ID 104 created by referring to the electronic document D101 created by the member M3. . That is, the pair of the expression XYZ and the expression ABC is synonymous with each other.

なお、図46に示した記憶形式は、同義表現の記憶方法の一例であり、同義表現データベース360は、同義表現の情報を抽出できるものであれば、他の記憶形式で同義表現を記憶してもよい。   The storage format shown in FIG. 46 is an example of a storage method of synonymous expressions, and the synonymous expression database 360 stores synonymous expressions in other storage formats as long as the information of synonymous expressions can be extracted. Also good.

出力手段530は、具体的には、ディスプレイ装置等の表示装置によって実現される。出力手段530は、例えば、ディスプレイ装置である場合には、同義表現抽出装置350の指示に従って、同義表現抽出装置350の抽出結果(抽出した同義表現)を表示する。なお、同義表現の抽出結果を表示するのではなく、表現統一化システム300は、同義表現の抽出結果を電子ファイルとして出力してもよい。また、表現統一化システム300は、組織情報に示されるアドレス情報を利用して、e−mail等を用いて、抽出結果を各メンバの端末に通知(送信)してもよい。   Specifically, the output means 530 is realized by a display device such as a display device. For example, when the output unit 530 is a display device, the extraction result (the extracted synonym expression) of the synonym expression extraction device 350 is displayed according to the instruction of the synonym expression extraction device 350. Instead of displaying the extraction result of the synonym expression, the expression unification system 300 may output the extraction result of the synonym expression as an electronic file. Further, the expression unification system 300 may notify (send) the extraction result to each member's terminal using e-mail or the like using the address information indicated in the organization information.

図47は、出力手段530が出力する同義表現の抽出結果の一例を示す説明図である。図47に示すように、出力手段530は、誰と誰との間で文書伝達されたどの電子文書間において、どのような同義表現が用いられたかを分かるような出力形式で、同義表現の抽出結果を出力する。なお、出力手段530が同義表現の抽出結果を出力する際の表示態様は、図47に例示した表示態様に限られず、他の表示態様で出力するようにしてもよい。   FIG. 47 is an explanatory diagram showing an example of the extraction result of the synonym expression output by the output unit 530. As shown in FIG. 47, the output means 530 extracts the synonym expression in an output format that shows which synonym expression is used between which electronic documents that have been communicated between whom. Output the result. In addition, the display mode when the output unit 530 outputs the extraction result of the synonymous expression is not limited to the display mode illustrated in FIG. 47, and may be output in another display mode.

図47に示す例では、電子文書D101と電子文書D104とに、2組の同義表現(ABC及びXYZと、PQR及びSTU)が用いられたことを示している。また、電子文書D102と電子文書D104とに、1組の同義表現(LMN及びSTU)が使用されたことを示している。また、出力手段530は、図44に示すように、文書伝達の階層構造を表示するとともに、使用された同義表現を重畳して表示してもよい。   The example shown in FIG. 47 indicates that two sets of synonymous expressions (ABC and XYZ, PQR and STU) are used for the electronic document D101 and the electronic document D104. In addition, a pair of synonymous expressions (LMN and STU) are used for the electronic document D102 and the electronic document D104. Further, as shown in FIG. 44, the output unit 530 may display the hierarchical structure of document transmission and may superimpose the used synonymous expressions.

なお、本実施の形態において、文書参照関係抽出システム100及び表現統一化システム300を実現する情報処理装置の記憶装置(図示せず)は、電子文書間の参照関係を抽出するための各種プログラムを記憶している。例えば、情報処理装置の記憶装置は、コンピュータに、メンバ間で伝達される電子文書に対する文書伝達の階層構造を特定する階層構造特定処理を実行させるための文書参照関係抽出プログラムを記憶している。   In the present embodiment, the storage device (not shown) of the information processing apparatus that implements the document reference relation extraction system 100 and the expression unification system 300 stores various programs for extracting reference relations between electronic documents. I remember it. For example, the storage device of the information processing apparatus stores a document reference relationship extraction program for causing a computer to execute a hierarchical structure specifying process for specifying a hierarchical structure of document transmission for an electronic document transmitted between members.

また、本実施の形態において、文書参照関係抽出システム100及び表現統一化システム300を実現する情報処理装置の記憶装置は、相互に同義表現を含む電子文書であるパラレルコーパスを抽出し、パラレルコーパスに含まれる同義表現を統一するための各種プログラムを記憶している。例えば、情報処理装置の記憶装置は、コンピュータに、予めデータベースに記憶する電子文書の伝達計画を示す伝達計画情報に基づいて、電子文書間に参照関係がない文書伝達を示す非参照関係情報を抽出する非参照関係抽出処理と、メンバ間で伝達される電子文書に対する文書伝達の階層構造を特定する階層構造特定処理とを実行させ、階層構造特定処理で、データベースに記憶する電子文書の伝達記録を示す伝達記録情報に基づいて、予めデータベースに記憶する伝達計画情報に示される伝達計画に対応する伝達記録を特定する処理と、特定した伝達記録に基づいて、電子文書の伝達の開始者から末端者までの階層構造を特定する処理と、抽出した非参照関係情報に基づいて、電子文書の伝達の開始者から末端者までの階層構造を、非参照関係である文書伝達を含まずに特定する処理とを実行させるための表現統一化プログラムを記憶している。   In the present embodiment, the storage device of the information processing apparatus that implements the document reference relationship extraction system 100 and the expression unification system 300 extracts a parallel corpus that is an electronic document that includes synonymous expressions, and converts the parallel corpus into a parallel corpus. Various programs for unifying synonymous expressions included are stored. For example, the storage device of the information processing apparatus extracts non-reference relationship information indicating document transmission that does not have a reference relationship between electronic documents based on transmission plan information indicating a transmission plan of electronic documents stored in a database in advance in a computer. Non-reference relationship extraction processing and hierarchical structure specifying processing for specifying the hierarchical structure of document transmission for electronic documents transmitted between members, and transmission records of electronic documents stored in the database are stored in the hierarchical structure specifying processing. Based on the transmission record information shown, a process for identifying a transmission record corresponding to the transmission plan indicated in the transmission plan information stored in the database in advance, and from the initiator of the electronic document transmission to the end person based on the identified transmission record Based on the processing that identifies the hierarchical structure up to and the extracted non-reference relationship information, the hierarchical structure from the start to the end of the transmission of the electronic document is not referenced. Stores representations unified program for executing a process of identifying without the document transmission is related.

次に、表現統一化システム300の全体の動作について説明する。図48は、文書伝達の階層構造を特定し伝達文書の表現を統一する処理の一例を示すフローチャートである。   Next, the overall operation of the expression unification system 300 will be described. FIG. 48 is a flowchart showing an example of processing for specifying the hierarchical structure of document transmission and unifying the expression of the transmission document.

まず、表現統一化システム300の伝達文書抽出手段320は、所定のタイミングで、文書提供サーバ520から伝達文書情報を抽出し、伝達文書データベース330に記憶させる(ステップS11)。例えば、伝達文書抽出手段320は、所定期間毎に(例えば、毎日1回)、文書提供サーバ520に自動アクセスし、文書提供サーバ520から伝達文書情報を受信して伝達文書データベース330に記憶させる。また、例えば、伝達文書抽出手段320は、文書提供サーバ520に新たに電子文書が格納されたことをトリガとして、文書提供サーバ520に自動アクセスし、文書提供サーバ520から伝達文書情報を受信して伝達文書データベース330に記憶させる。   First, the transfer document extraction unit 320 of the expression unification system 300 extracts transfer document information from the document providing server 520 at a predetermined timing and stores it in the transfer document database 330 (step S11). For example, the transfer document extracting unit 320 automatically accesses the document providing server 520 every predetermined period (for example, once every day), receives the transfer document information from the document providing server 520, and stores it in the transfer document database 330. Further, for example, the transmission document extraction unit 320 automatically accesses the document provision server 520 and receives the transmission document information from the document provision server 520, triggered by a new electronic document stored in the document provision server 520. It is stored in the transmission document database 330.

ステップS11の処理が所定のタイミングで繰り返し実行されることによって、伝達文書データベース330に伝達文書情報が格納され、随時更新される。   By repeatedly executing the process of step S11 at a predetermined timing, the transfer document information is stored in the transfer document database 330 and updated as needed.

次いで、ユーザ(組織内のいずれかのグループのメンバ)によって指示操作がなされると、文書参照関係抽出システム100は、文書伝達の階層構造の特定処理を開始する。文書伝達の階層構造の特定処理において、文書参照関係抽出システム100の非参照関係抽出手段120は、まず、組織情報データベース310が記憶する組織情報、及びコミュニケーション計画データベース110が記憶するコミュニケーション計画に基づいて、計画表を作成するとともに、非参照関係表を作成する(ステップS12)。   Next, when an instruction operation is performed by the user (a member of any group in the organization), the document reference relation extraction system 100 starts a process for specifying a hierarchical structure of document transmission. In the process of specifying the hierarchical structure of document transmission, the non-reference relationship extraction unit 120 of the document reference relationship extraction system 100 firstly, based on the organization information stored in the organization information database 310 and the communication plan stored in the communication plan database 110. A plan table is created and a non-reference relationship table is created (step S12).

次いで、階層構造特定手段130は、コミュニケーション計画データベース110が記憶するコミュニケーション計画、及び伝達文書データベース330が記憶する伝達文書情報に基づいて、伝達表を作成する(ステップS13)。   Next, the hierarchical structure specifying unit 130 creates a transmission table based on the communication plan stored in the communication plan database 110 and the transfer document information stored in the transfer document database 330 (step S13).

次いで、階層構造特定手段130は、作成した伝達表に基づいて、文書伝達の階層構造を特定する(ステップS14)。この場合、階層構造特定手段130は、非参照関係抽出手段120が作成した非参照関係表を利用して、電子文書間に参照関係が生じない文書伝達を除外した階層構造を特定する。   Next, the hierarchical structure specifying unit 130 specifies the hierarchical structure of document transmission based on the created transmission table (step S14). In this case, the hierarchical structure specifying unit 130 uses the non-reference relationship table created by the non-reference relationship extracting unit 120 to specify a hierarchical structure excluding document transmission that does not cause a reference relationship between electronic documents.

次いで、パラレルコーパス抽出手段340は、階層構造特定手段130が特定した文書伝達の階層構造に基づいて、パラレルコーパスを抽出する(ステップS15)。次いで、同義表現抽出装置350は、パラレルコーパス抽出手段340が抽出したパラレルコーパスに基づいて、伝達文書から同義表現を抽出し、抽出結果を同義表現データベース360に記憶させる(ステップS16)。また、同義表現抽出装置350は、同義表現の抽出結果を出力手段530に出力させる。   Next, the parallel corpus extracting unit 340 extracts a parallel corpus based on the document transmission hierarchical structure specified by the hierarchical structure specifying unit 130 (step S15). Next, the synonym expression extraction device 350 extracts the synonym expression from the transmission document based on the parallel corpus extracted by the parallel corpus extraction unit 340, and stores the extraction result in the synonym expression database 360 (step S16). Also, the synonym expression extraction device 350 causes the output unit 530 to output the extraction result of the synonym expression.

以上のように、本実施の形態によれば、文書参照関係抽出システム100は、組織情報やコミュニケーション計画、伝達文書情報に基づいて、電子文書間において参照関係が生じやすい文書伝達の階層構造を特定する。そのため、電子文書の伝達が行われる場合において、電子文書の参照関係を抽出することができる。   As described above, according to the present embodiment, the document reference relationship extraction system 100 identifies a document transmission hierarchical structure in which a reference relationship is likely to occur between electronic documents based on organization information, a communication plan, and transmission document information. To do. Therefore, when the electronic document is transmitted, the reference relationship of the electronic document can be extracted.

また、本実施の形態によれば、電子文書間の参照関係を抽出でき、表現統一化システム300は、伝達過程における他の人の伝達文書を参照して、集約や配布を行う文書伝達の中継者を効率的に発見して、パラレルコーパスを抽出する。そのため、伝達文書間のパラレルコーパスを効率的に抽出することができる。   Further, according to the present embodiment, it is possible to extract a reference relationship between electronic documents, and the expression unification system 300 refers to another person's transmission document in the transmission process, and relays document transmission for aggregation and distribution. A person is efficiently discovered and a parallel corpus is extracted. Therefore, a parallel corpus between transmission documents can be extracted efficiently.

実施の形態5.
次に、本発明の第5の実施の形態を図面を参照して説明する。図49は、第5の実施の形態における文書参照関係抽出システム100を用いた表現統一システム300の構成例を示すブロック図である。図49に示すように、本実施の形態では、図33に示した構成要素に加えて、階層構造データベース370、修正案入力手段540及び修正手段380を含む点で、第4の実施の形態と異なる。
Embodiment 5 FIG.
Next, a fifth embodiment of the present invention will be described with reference to the drawings. FIG. 49 is a block diagram illustrating a configuration example of the expression unification system 300 using the document reference relationship extraction system 100 according to the fifth embodiment. As shown in FIG. 49, this embodiment differs from the fourth embodiment in that it includes a hierarchical structure database 370, a correction plan input means 540, and a correction means 380 in addition to the components shown in FIG. Different.

階層構造データベース370は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。階層構造データベース370は、文書参照関係抽出システム100によって特定された階層構造を記憶する。   Specifically, the hierarchical database 370 is realized by a database device such as a magnetic disk device or an optical disk device. The hierarchical structure database 370 stores the hierarchical structure specified by the document reference relationship extraction system 100.

修正案入力手段540は、具体的には、キーボードやマウス等の入力デバイスによって実現される。修正案入力手段540は、ユーザの操作に従って、抽出された同義表現に対する修正案を入力する機能を備える。   Specifically, the correction proposal input means 540 is realized by an input device such as a keyboard or a mouse. The correction plan input means 540 has a function of inputting a correction plan for the extracted synonym expression according to a user operation.

修正手段380は、具体的には、プログラムに従って動作する情報処理装置のCPU及びネットワークインタフェース部によって実現される。修正手段380は、修正案入力手段540から入力した修正案に基づいて、同義表現を修正する機能を備える。また、修正手段380は、同義表現を修正したことを通知するメンバを特定する機能を備える。   Specifically, the correcting unit 380 is realized by a CPU and a network interface unit of an information processing apparatus that operates according to a program. The correction unit 380 has a function of correcting the synonym expression based on the correction plan input from the correction plan input unit 540. Further, the correcting means 380 has a function of specifying a member that notifies that the synonymous expression has been corrected.

次に、動作について説明する。図50は、同義表現を修正する処理の一例を示すフローチャートである。なお、本実施の形態では、文書参照関係抽出システム100は、第4の実施の形態と同様の処理に従って、文書伝達の階層構造を特定する。また、表現統一化システム300は、第4の実施の形態と同様の処理に従って、伝達文書間の同義表現を抽出する。以下、図50に示すフローチャートに従って、同義表現を修正する動作について説明する。なお、本実施の形態では、出力手段530がディスプレイ装置である場合を例に説明する。   Next, the operation will be described. FIG. 50 is a flowchart illustrating an example of processing for correcting a synonymous expression. In the present embodiment, the document reference relationship extraction system 100 specifies the hierarchical structure of document transmission according to the same processing as in the fourth embodiment. Further, the expression unification system 300 extracts synonymous expressions between transfer documents according to the same processing as in the fourth embodiment. Hereinafter, the operation for correcting the synonymous expression will be described with reference to the flowchart shown in FIG. In the present embodiment, the case where the output unit 530 is a display device will be described as an example.

まず、表現統一化システム300は、同義表現データベース360に記憶されている同義表現を、例えば、出力手段530であるディスプレイ装置に一覧表示させる(図50のステップB1)。また、表現統一化システム300は、同義表現を修正するための修正入力画面をディスプレイ装置に表示させる。例えば、表現統一化システム300は、図51に示す修正入力画面を表示させる。図51に示す例では、修正入力画面に、同義表現ID、抽出された同義表現、及び抽出元になった電子文書の文書IDが表示されており、さらに各同義表現に対する修正案を入力する入力欄717が設けられている。   First, the expression unification system 300 displays a list of synonym expressions stored in the synonym expression database 360, for example, on a display device that is the output unit 530 (step B1 in FIG. 50). In addition, the expression unification system 300 displays a correction input screen for correcting the synonymous expression on the display device. For example, the expression unification system 300 displays the correction input screen shown in FIG. In the example shown in FIG. 51, the synonym expression ID, the extracted synonym expression, and the document ID of the electronic document that is the extraction source are displayed on the correction input screen, and an input for inputting a correction plan for each synonym expression. A column 717 is provided.

次に、修正案入力手段540は、システムの利用者又はメンバの操作に従って、表現統一のための修正案を入力する(図50のステップB2)。なお、例えば、修正案入力手段540として、キーボードやマウス等の入力デバイスを用いる。また、図49では、修正案入力手段540と入力手段510とを分けて表記しているが、修正案入力手段540及び入力手段510を同一の入力装置で実現してもよい。   Next, the correction plan input means 540 inputs a correction plan for unifying expressions according to the operation of the system user or member (step B2 in FIG. 50). For example, an input device such as a keyboard or a mouse is used as the correction proposal input unit 540. In FIG. 49, the correction plan input unit 540 and the input unit 510 are shown separately, but the correction plan input unit 540 and the input unit 510 may be realized by the same input device.

なお、使用した同義表現のいずれかを選択する様態で修正案を入力するようにしてもよいし、自由記述形式にして新しい表現を入力できるようにしてもよい。また、同義表現は任意のシステムの利用者又はメンバにより修正可能である。   Note that the correction proposal may be input in a manner of selecting any of the used synonymous expressions, or a new expression may be input in a free description format. The synonymous expression can be modified by a user or member of any system.

表現統一化システム300は、システムの利用者やメンバの操作に従って、修正案入力手段540から、同義表現に対して入力された修正案と同義表現IDとをに入力する。   The expression unification system 300 inputs the correction plan and the synonym expression ID input to the synonym expression from the correction plan input means 540 according to the operation of the system user or member.

次に、修正手段380は、伝達文書データベース330が記憶する伝達文書情報に基づいて、修正すべき同義表現を含む文書IDの電子文書を文書提供サーバ520から抽出する。この場合、例えば、修正手段380は、伝達文書情報に基づいて、修正すべき同義表現を含む電子文書の文書IDを特定する。また、修正手段380は、特定した文書IDに対応する電子文書の抽出要求を、ネットワークを介して文書提供サーバ520に送信する。すると、文書提供サーバ520は、要求に応じて電子文書を抽出し、ネットワークを介して表現統一化システム300に送信する。   Next, the correcting unit 380 extracts, from the document providing server 520, the electronic document having the document ID including the synonym expression to be corrected based on the transfer document information stored in the transfer document database 330. In this case, for example, the correcting unit 380 specifies the document ID of the electronic document including the synonymous expression to be corrected based on the transmitted document information. Further, the correcting unit 380 transmits an electronic document extraction request corresponding to the specified document ID to the document providing server 520 via the network. Then, the document providing server 520 extracts the electronic document in response to the request and transmits it to the expression unifying system 300 via the network.

次いで、修正手段380は、文書提供サーバ520から抽出した電子文書に基づいて、文書IDと、その同義表現を含む前後の文を修正候補として出力手段530に出力させる(図50のステップB3)。この場合、修正手段380は、同義表現を含む前後の文として任意の長さの文を出力手段530に表示させる。例えば、修正手段380は、同義表現を含む前後の語句を表示させてもよい。また、修正手段380は、文単位で表示させてもよいし、修正候補を表示させなくてもよい。   Next, based on the electronic document extracted from the document providing server 520, the correction unit 380 causes the output unit 530 to output a sentence before and after the document ID and its synonymous expression as a correction candidate (step B3 in FIG. 50). In this case, the correction unit 380 causes the output unit 530 to display a sentence having an arbitrary length as a sentence before and after the synonymous expression. For example, the correcting unit 380 may display the preceding and following words including synonymous expressions. In addition, the correction unit 380 may display the sentence unit or may not display the correction candidates.

また、修正手段380は、出力手段530を用いて、例えば、図52に示すような表示画面を表示させることによって、修正候補を出力させるは。図52に示す例では、修正手段380は、修正される電子文書の文書ID、その電子文書が伝達された日時、その同義表現を使用したメンバ、及び修正候補の文を含む表示画面が表示されている。また、図52に示す表示画面には、さらにその修正に同意するかどうかを入力する入力欄718が含まれる。   The correction unit 380 uses the output unit 530 to display a display screen as shown in FIG. 52, for example, to output correction candidates. In the example shown in FIG. 52, the correction means 380 displays a display screen including the document ID of the electronic document to be corrected, the date and time when the electronic document was transmitted, the member using the synonymous expression, and the correction candidate sentence. ing. The display screen shown in FIG. 52 further includes an input field 718 for inputting whether or not to agree with the correction.

次に、修正案入力手段540は、システムの利用者又はメンバの操作に従って、修正候補の中から修正に合意した旨を入力し、表現統一化システム300は、修正案入力手段540から修正に合意した旨の指示情報を入力する(図50のステップB4)。   Next, the amendment proposal input means 540 inputs that the amendment is agreed among the amendment candidates according to the operation of the system user or member, and the expression unification system 300 agrees to the amendment from the amendment proposal input means 540. The instruction information to the effect is input (step B4 in FIG. 50).

なお、合意又は非合意であることを入力するために、図52に示す例では、○又は×の記号を用いて入力する場合を示している。ただし、修正に合意したことを表現統一化システム300に伝えることができれば、入力方法は○や×等の記号入力を用いた選択形式である必要はない。例えば、ラジオボタンを用いて入力できるようにしてもよいし、キーボード等を用いて文字を入力することによって合意又は非合意を入力できるようにしてもよい。また、同意又は非同意であることを示す情報を入力するだけではなく、図52において、修正する理由や修正しない理由を示す情報を入力する欄を表示画面に設けてもよい。   In addition, in order to input that it is agreement or non-agreement, in the example shown in FIG. 52, the case where it inputs using the symbol of (circle) or x is shown. However, the input method does not need to be a selection format using symbol input such as ◯ and X as long as it can be notified to the expression unification system 300 that the correction is agreed. For example, it may be possible to input using a radio button, or to input agreement or non-agreement by inputting characters using a keyboard or the like. In addition to inputting information indicating consent or disagreement, in FIG. 52, a column for inputting information indicating a reason for correction or a reason for not correction may be provided on the display screen.

次に、修正手段380は、修正に同意する旨が入力指示された同義表現を置換して、伝達文書間の表現を統一する(図50のステップB5)。なお、修正手段380は、例えば、既存のテキスト処理技術を用いて、同義表現を置換処理する。   Next, the correcting unit 380 replaces the synonymous expression instructed to agree with the correction, and unifies the expressions between the transmission documents (step B5 in FIG. 50). Note that the correction unit 380 performs replacement processing on the synonym expression using, for example, an existing text processing technique.

次に、修正手段380は、いつ伝達された伝達文書のどの表現が同義表現となり、どのように修正されたかをシステムの利用者及びメンバに通知する(図50のステップB6)。   Next, the correction means 380 notifies the system user and member of which expression of the transmitted document that has been transmitted becomes a synonymous expression and how it has been corrected (step B6 in FIG. 50).

ステップB6において、修正手段380は、修正された電子文書の文書IDを含む階層構造を階層構造データベース370から特定し、特定した階層構造中に含まれる全ての文書IDを抽出する。次いで、修正手段380は、抽出した文書IDを検索キーとして伝達文書データベース330を検索し、伝達文書データベース330から伝達文書情報を特定する。また、修正手段380は、特定した伝達文書情報に対応する電子文書を文書提供サーバ520から抽出した電子文書の中から特定する。そして、修正手段380は、特定した電子文書中で同義表現対(図51に示す例ではABC又はXYZ)を含む電子文書を特定する。   In step B6, the correcting unit 380 specifies a hierarchical structure including the document ID of the corrected electronic document from the hierarchical structure database 370, and extracts all document IDs included in the specified hierarchical structure. Next, the correcting unit 380 searches the transfer document database 330 using the extracted document ID as a search key, and specifies transfer document information from the transfer document database 330. The correcting unit 380 specifies an electronic document corresponding to the specified transmission document information from the electronic documents extracted from the document providing server 520. Then, the correcting unit 380 specifies an electronic document including a synonymous expression pair (ABC or XYZ in the example illustrated in FIG. 51) in the specified electronic document.

次に、修正手段380は、特定した電子文書に対してFm(伝達元)又はTo(伝達先)の役割を果たしたメンバを抽出する。すなわち、伝達元又は伝達先の役割を果たしたメンバは、同義表現を含む文書伝達に関わっており、その伝達文書を参照している。そして、修正手段380は、文書伝達に関わったメンバに対して修正に関する通知を行う。例えば、修正手段380は、文書伝達に関わったメンバの端末に、ネットワークを介して、同義表現を統一する修正を行った旨及び修正箇所を示すメッセージを送信する。   Next, the correcting unit 380 extracts members who have played the role of Fm (transmission source) or To (transmission destination) for the identified electronic document. That is, the member who played the role of transmission source or transmission destination is involved in document transmission including synonymous expressions, and refers to the transmission document. Then, the correction unit 380 notifies the member involved in document transmission regarding the correction. For example, the correction unit 380 transmits a message indicating that the correction for unifying synonymous expressions has been performed and the correction location to the terminal of the member involved in document transmission via the network.

以上の処理が実行されることによって、同義表現の参照に関わる必要最小限のメンバに対して、同義表現の修正に関する通知が行われる。   By executing the above processing, a notification regarding correction of the synonym expression is given to the minimum necessary members related to the reference of the synonym expression.

例えば、図36に示す伝達文書情報によれば、メンバM4は、メンバM3とメンバM2とから、それぞれ電子文書D101と電子文書D104とを伝達されている。また、電子文書D101の表現ABCと電子文書D104の表現XYZとが同義表現の関係にある。しかし、メンバM4は、その電子文書の伝達過程や同義表現の発生過程を知らないため、それらの表現が同一のものであるか否か判断するのが難しい。   For example, according to the transmission document information shown in FIG. 36, the member M4 is transmitted the electronic document D101 and the electronic document D104 from the member M3 and the member M2, respectively. In addition, the expression ABC of the electronic document D101 and the expression XYZ of the electronic document D104 have a synonymous expression relationship. However, since the member M4 does not know the transmission process of the electronic document and the generation process of synonymous expressions, it is difficult to determine whether or not the expressions are the same.

本実施の形態では、修正手段380は、メンバM4に、例えば、図53に示すメッセージを通知(送信)する。なお、修正手段380は、例えば、e−mail(電子メール)を用いて図53に示すメッセージをメンバの端末に送信すればよい。図53に示すメッセージを受けとり、表示されたメッセージの内容を確認することにより、メンバM4は、同義表現の発生原因や修正過程等を把握することができる。   In the present embodiment, the correction unit 380 notifies (transmits) the message shown in FIG. 53 to the member M4, for example. The correcting unit 380 may transmit the message shown in FIG. 53 to the member terminal using e-mail (e-mail), for example. By receiving the message shown in FIG. 53 and confirming the content of the displayed message, the member M4 can grasp the cause of the synonymous expression, the correction process, and the like.

以上のように、本実施の形態によれば、階層構造データベース370が記憶する文書伝達の階層構造の特定結果に基づいて、同義表現が抽出された電子文書に関連する文書伝達の階層構造を特定する。また、文書伝達の階層構造中で文書伝達された電子文書を特定することができる。さらに、伝達文書データベース330が記憶する伝達文書情報に基づいて、伝達文書のFm(伝達元)とTo(伝達先)とを特定することができる。そのため、同義表現を修正したことを、修正した電子文書に関与するメンバに対して通知することができる。   As described above, according to the present embodiment, the hierarchical structure of document transmission related to the electronic document from which synonymous expressions are extracted is specified based on the specification result of the hierarchical structure of document transmission stored in the hierarchical structure database 370. To do. In addition, it is possible to specify an electronic document that has been transmitted in the hierarchical structure of document transmission. Furthermore, based on the transmission document information stored in the transmission document database 330, the Fm (transmission source) and To (transmission destination) of the transmission document can be specified. Therefore, it is possible to notify the members involved in the corrected electronic document that the synonym expression has been corrected.

例えば、特許文献1〜3に記載された従来のシステムや装置、方法、プログラムでは、電子文書が修正された場合、その電子文書を参照した人々を特定できない。例えば、特許文献1及び特許文献3に記載されたシステムや装置、方法、プログラムでは、参照文書が修正された場合に対応するための処理がない。   For example, in the conventional systems, apparatuses, methods, and programs described in Patent Documents 1 to 3, when an electronic document is modified, people who refer to the electronic document cannot be specified. For example, in the systems, apparatuses, methods, and programs described in Patent Document 1 and Patent Document 3, there is no processing for dealing with a case where a reference document is modified.

また、例えば、特許文献2に記載された装置や方法では、文書修正の通知は、電子文書の修正者及び修正文書から参照されている電子文書の所有者に留まっており、参照関係もHTML等定型のフォーマットにおけるハイパーリンクとなっている。そのため、修正前/後の自由書式の電子文書に関連する人々に対して修正が行われたことを通知することができない。なお、「関連する人々」とは、特許文献2に記載された装置や方法でも通知対象としている電子文書の修正者及び修正文書から参照されている電子文書の所有者等である。また、「関連する人々」とは、さらに、それらの電子文書を伝達された人や閲覧した人や、修正文書を参照し電子文書を作成した人々、その作成された電子文書の閲覧者等である。   Further, for example, in the apparatus and method described in Patent Document 2, the notification of document correction is limited to the corrector of the electronic document and the owner of the electronic document referenced from the corrected document, and the reference relationship is also HTML or the like. It is a hyperlink in a standard format. Therefore, it is impossible to notify people related to the free-form electronic document before / after correction that the correction has been made. Note that the “related people” are an electronic document corrector to be notified by the apparatus and method described in Patent Document 2, an owner of the electronic document referenced from the corrected document, and the like. In addition, “related people” refers to those who have been transferred to or viewed the electronic document, those who have created the electronic document by referring to the revised document, and who have viewed the created electronic document. is there.

これに対し、本実施の形態では、上記に説明したように、電子文書の参照関係を抽出することができ、電子文書の内容と伝達構造とに基づいて、どの情報が誰にまで伝達されているかを判断することができる。そのため、ある電子文書の内容変更について、その旨を通知するべきメンバを特定することができる。   On the other hand, in the present embodiment, as described above, the reference relationship of the electronic document can be extracted, and which information is transmitted to whom based on the contents of the electronic document and the transmission structure. Can be determined. Therefore, it is possible to specify a member who should be notified of a change in the contents of an electronic document.

実施の形態6.
次に、本発明の第6の実施の形態を図面を参照して説明する。図54は、第6の実施の形態における文書参照関係抽出システム100を用いた表現統一システム300の構成例を示すブロック図ある。図54に示すように、本実施の形態では、図33に示した構成要素に加えて、傾向分析手段390を含む点で、第4の実施の形態と異なる。また、本実施の形態では、階層構造特定手段130の機能が、第4の実施の形態で示した階層構造特定手段130の機能と異なる。
Embodiment 6 FIG.
Next, a sixth embodiment of the present invention will be described with reference to the drawings. FIG. 54 is a block diagram illustrating a configuration example of an expression unification system 300 using the document reference relationship extraction system 100 according to the sixth embodiment. As shown in FIG. 54, this embodiment is different from the fourth embodiment in that it includes a trend analysis means 390 in addition to the components shown in FIG. Further, in this embodiment, the function of the hierarchical structure specifying unit 130 is different from the function of the hierarchical structure specifying unit 130 shown in the fourth embodiment.

傾向分析手段390は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。傾向分析手段390は、各メンバの同義表現の使用傾向を分析する機能を備える。   Specifically, the trend analysis unit 390 is realized by a CPU of an information processing apparatus that operates according to a program. The trend analysis means 390 has a function of analyzing the usage trend of the synonymous expression of each member.

また、本実施の形態では、階層構造特定手段130は、第4の実施の形態で示した機能に加えて、コミュニケーション計画データベース110が記憶するコミュニケーション計画に基づいて、予め計画された文書伝達の階層構造を特定する機能を備える。なお、本実施の形態では、階層構造特定手段130は、第4の実施の形態と同様の処理に従って、実際に行われた文書伝達の階層構造を特定する機能も備える。   Further, in the present embodiment, the hierarchical structure specifying unit 130, in addition to the functions shown in the fourth embodiment, is based on a communication plan stored in the communication plan database 110, and a document transmission hierarchy planned in advance. Has the function to specify the structure. In the present embodiment, the hierarchical structure specifying unit 130 also has a function of specifying the hierarchical structure of document transmission actually performed according to the same processing as in the fourth embodiment.

次に、動作について説明する。本実施の形態では、表現統一化システム300は、第4の実施の形態と同様の処理に従って、実際に行われた文書伝達の階層構造を特定し、伝達文書の表現を統一する処理を実行する。また、本実施の形態では、表現統一化システム300は、第4の実施の形態で示した処理に加えて、予め計画された文書伝達の階層構造を特定し、同義表現の発生傾向を提示する処理を実行する。図55は、予め計画された文書伝達の階層構造を特定し、同義表現の発生傾向を提示する処理の一例を示すフローチャートである。   Next, the operation will be described. In the present embodiment, the expression unification system 300 specifies the hierarchical structure of document transmission actually performed according to the same processing as in the fourth embodiment, and executes the processing for unifying the expression of the transmission document. . Further, in this embodiment, the expression unification system 300 identifies the hierarchical structure of document transmission planned in advance and presents the occurrence tendency of synonymous expressions in addition to the processing shown in the fourth embodiment. Execute the process. FIG. 55 is a flowchart showing an example of processing for specifying a planned document transmission hierarchical structure and presenting the occurrence tendency of synonymous expressions.

非参照関係抽出手段120は、コミュニケーション計画データベース110が記憶する任意のコミュニケーション計画に対して、第4の実施の形態と同様の処理に従って、よ計画表と非参照関係表とを作成する(ステップS31)。図56は、非参照関係抽出手段120が図35に示すコミュニケーション計画に基づいて作成された2つの計画表、及び計画表から文書伝達の階層構造を特定する過程の例を示す説明図である。なお、図56に示す計画表では、文書伝達計画がある(行中に1が存在する)部分のみを抜粋して示している。   The non-reference relationship extraction unit 120 creates a plan table and a non-reference relationship table for any communication plan stored in the communication plan database 110 according to the same processing as in the fourth embodiment (step S31). ). FIG. 56 is an explanatory diagram showing an example of a process in which the non-reference relationship extraction unit 120 identifies two plan tables created based on the communication plan shown in FIG. 35 and a hierarchical structure of document transmission from the plan table. In the plan table shown in FIG. 56, only the portion where the document transmission plan is present (1 exists in the line) is extracted and shown.

本実施の形態では、非参照関係抽出手段120は、第4の実施の形態と同様に、図56に示す計画表に基づいて、図40に示す非参照関係表と同様の非参照関係表を抽出したものとして説明する。なお、非参照関係抽出手段120は、コミュニケーション計画中にグループIDが含まれている場合には、組織情報データベース310が記憶する組織情報に基づいて、コミュニケーション計画を展開する。   In the present embodiment, the non-reference relationship extraction unit 120 creates a non-reference relationship table similar to the non-reference relationship table shown in FIG. 40 based on the plan table shown in FIG. 56, as in the fourth embodiment. The description will be made assuming that it has been extracted. The non-reference relationship extraction unit 120 develops the communication plan based on the organization information stored in the organization information database 310 when the group ID is included in the communication plan.

次に、階層構造特定手段130は、第4の実施の形態において伝達表に対して適用したアルゴリズムと同様のアルゴリズムを計画表に対して適用することによって、コミュニケーション計画に基づいて、予め計画されている文書伝達の階層構造を特定する。この場合、階層構造特定手段130は、非参照関係抽出手段120が作成した計画表と非参照関係表とに基づいて、予め計画されている文書伝達の階層構造を特定する(ステップS32)。   Next, the hierarchical structure specifying unit 130 is preliminarily planned based on the communication plan by applying an algorithm similar to the algorithm applied to the transfer table in the fourth embodiment to the plan table. Identify the document transmission hierarchy. In this case, the hierarchical structure specifying unit 130 specifies a planned document transmission hierarchical structure based on the plan table and the non-reference relationship table created by the non-reference relationship extraction unit 120 (step S32).

次に、階層構造特定手段130は、各計画表内の文書伝達構造を特定する。階層構造特定手段130は、それら各計画表内の文書伝達構造を、t番目の計画表Pt内において1が付与されている箇所のFm(伝達元)とTo(伝達先)とをリンクすることによって特定することができる。この場合、階層構造特定手段130は、リンクの条件式(11)を用いて、伝達元と伝達先とのリンク付けを行う。ただし、階層構造特定手段130は、非参照関係表に基づいて、非参照関係である伝達元と伝達先とについては抽出しないように処理する。なお、ここでいうリンクとは、第4の実施の形態で用いたリンクと同じ意味である。   Next, the hierarchical structure specifying unit 130 specifies the document transmission structure in each plan table. The hierarchical structure specifying unit 130 links the document transmission structure in each of the plan tables with Fm (transmission source) and To (transmission destination) at a location where 1 is assigned in the t-th plan table Pt. Can be specified by. In this case, the hierarchical structure specifying unit 130 links the transmission source and the transmission destination using the link conditional expression (11). However, the hierarchical structure specifying unit 130 performs processing so as not to extract the transmission source and the transmission destination that are in the non-reference relationship based on the non-reference relationship table. The link here has the same meaning as the link used in the fourth embodiment.

Figure 0005076575
Figure 0005076575

式(11)において、iは計画表Ptにおける縦方向のメンバのインデックスであり、jは横方向のインデックスである。また、式(11)中の後件部は、メンバMiからメンバMjへの文書伝達が行われる計画であることを意味する。図56において、各計画表の右側に示している模式図は、図56に示す計画表に式(11)を適用して階層構造特定手段130によって特定される階層構造である。   In Expression (11), i is the index of the member in the vertical direction in the plan table Pt, and j is the index in the horizontal direction. Further, the consequent part in the equation (11) means that the document transmission from the member Mi to the member Mj is planned. 56, the schematic diagram shown on the right side of each plan table is a hierarchical structure specified by the hierarchical structure specifying unit 130 by applying the formula (11) to the plan table shown in FIG.

次に、階層構造特定手段130は、各計画表から文書伝達の開始予定者と末端予定者とを抽出する。ここで、計画表Pt中の文書伝達の開始予定者をMs_tとし、文書伝達の末端予定者をMe_tとする。この場合、階層構造特定手段130は、開始予定者Ms_t及び末端予定者Me_tとを、それぞれ式(12)及び式(13)を用いて抽出することができる。   Next, the hierarchical structure specifying unit 130 extracts a document transmission start scheduled person and a terminal planned person from each plan table. Here, it is assumed that the person scheduled to start document transmission in the plan table Pt is Ms_t, and the person scheduled to end document transmission is Me_t. In this case, the hierarchical structure specifying unit 130 can extract the scheduled starter Ms_t and the scheduled ender Me_t using the equations (12) and (13), respectively.

Figure 0005076575
Figure 0005076575

Figure 0005076575
Figure 0005076575

式(12)及び式(13)において、Nmはメンバの数を示し、Ma_tは計画表Ptにおけるa番目のメンバを示す。図56に示すように、各計画表において、文書伝達の開始予定者と末端予定者とが複数人いることもある。   In Expression (12) and Expression (13), Nm indicates the number of members, and Ma_t indicates the a-th member in the plan table Pt. As shown in FIG. 56, in each plan table, there may be a plurality of document transmission start scheduled persons and terminal scheduled persons.

次に、階層構造特定手段130は、全ての計画表に対してステップS31,S32と同様の処理を行った後に、計画表間における文書伝達の階層構造を特定する。この場合、階層構造特定手段130は、計画表Ptにおける伝達の開始予定者に対して、文書伝達を行う計画である計画表Pτの伝達の末端予定者を抽出することによって、計画表間における文書伝達の階層構造を特定することができる。ただし、t>τであるとする。   Next, the hierarchical structure specifying unit 130 specifies the document transmission hierarchical structure between the plan tables after performing the same processing as steps S31 and S32 on all the plan tables. In this case, the hierarchical structure specifying means 130 extracts the end planner of the transmission of the plan table Pτ, which is a plan for performing the document transmission, with respect to the person scheduled to start the transmission in the plan table Pt. The hierarchical structure of transmission can be specified. However, it is assumed that t> τ.

次いで、階層構造特定手段130は、抽出した末端予定者から開始予定者をリンクすることによって、計画表間の文書伝達構造を特定する。この場合、階層構造特定手段130は、リンクの条件式(14)を用いて、計画表間の文書伝達構造を特定する。   Next, the hierarchical structure specifying unit 130 specifies the document transmission structure between the planning tables by linking the scheduled starter with the extracted scheduled endorser. In this case, the hierarchical structure specifying unit 130 specifies the document transmission structure between the planning tables using the link conditional expression (14).

Figure 0005076575
Figure 0005076575

上記の処理を実行することによって、階層構造特定手段130は、図56に示す計画表に基づいて、図57に示す階層構造を特定する。図57において、各ノード722aはメンバを表し、各矢印722bは文書伝達の計画を表している。また、図57に示す四角枠722cには、それぞれ隣接する矢印に対応するコミュニケーション計画の計画番号(No)が示されている。   By executing the above processing, the hierarchical structure specifying unit 130 specifies the hierarchical structure shown in FIG. 57 based on the plan table shown in FIG. In FIG. 57, each node 722a represents a member, and each arrow 722b represents a document transmission plan. In addition, in the square frame 722c shown in FIG. 57, the plan number (No) of the communication plan corresponding to each adjacent arrow is shown.

以上のように、図57に示すように、本システムにより、予め計画された文書伝達の階層構造を特定でき、計画表に基づいて伝達予定の電子文書間の参照関係を抽出できる。   As described above, as shown in FIG. 57, this system can identify a hierarchical structure of document transmission planned in advance, and can extract a reference relationship between electronic documents scheduled to be transmitted based on a plan table.

なお、第4の実施の形態に示した文書参照関係抽出システム100が伝達文書情報に基づいて参照関係を抽出する場合と同様、コミュニケーション計画から参照関係を抽出する方法は、本実施の形態で示した方法に限られない。   As in the case where the document reference relationship extraction system 100 shown in the fourth embodiment extracts the reference relationship based on the transmitted document information, the method for extracting the reference relationship from the communication plan is shown in this embodiment. The method is not limited.

例えば、階層構造特定手段130は、文書伝達の末端予定者を抽出するとともに、文書伝達の末端予定者に対して電子文書を伝達するメンバを抽出し、さらにそのメンバに対して電子文書を伝達するメンバを抽出するという処理を再帰的に繰り返す方法を用いて、予め計画された文書伝達の参照関係を算出してもよい。この場合、階層構造特定手段130は、該当するメンバが存在しない場合、又は非参照関係となる文書伝達が抽出された場合を終了条件として処理を終了する。そのような処理を実行することによって、階層構造特定手段130は、文書伝達の末端予定者を根とし、文書伝達の開始予定者を葉とし、文書伝達の中継予定者を中間ノードとする伝達の木構造を特定することができる。   For example, the hierarchical structure specifying unit 130 extracts a document transmission end candidate, extracts a member who transmits an electronic document to the document transmission end candidate, and further transmits the electronic document to the member. A preliminarily planned reference relationship of document transmission may be calculated using a method of recursively repeating the process of extracting members. In this case, the hierarchical structure specifying unit 130 ends the process when the corresponding member does not exist or when the document transmission having a non-reference relationship is extracted as the end condition. By executing such processing, the hierarchical structure specifying means 130 uses the document transfer terminal planner as the root, the document transfer start planner as the leaf, and the document transfer relay planner as the intermediate node. A tree structure can be specified.

また、階層構造特定手段130は、各伝達の末端予定者(例えば、メンバM6とメンバM7)について同様の処理を行い、最後に各末端予定者に関する文書伝達の木構造で共通する部分を1つと見なし、マージすることによって、図57に示す文書伝達の階層構造と同様の階層構造を特定する。   In addition, the hierarchical structure specifying unit 130 performs the same processing for each terminal candidate (for example, member M6 and member M7) of each transmission, and finally, there is one common part in the tree structure of document transmission related to each terminal candidate. By regarding and merging, a hierarchical structure similar to the document transmission hierarchical structure shown in FIG. 57 is specified.

次いで、傾向分析手段390は、まず、同義表現データベース360が記憶する同義表現の抽出結果に基づいて、各メンバがどのメンバとの間にどの程度の頻度で同義表現を使用したかをカウントし、各メンバの同義表現の使用回数をまとめて示す同義表現使用回数表を生成する(ステップS33)。そして、傾向分析手段390は、生成した同義表現使用回数表を出力手段530に出力させる(ステップS34)。   Next, the trend analysis means 390 first counts how often each member used the synonym expression with which member based on the extraction result of the synonym expression stored in the synonym expression database 360, A synonymous expression usage count table that collectively shows the number of times of use of synonymous expressions for each member is generated (step S33). Then, the trend analysis unit 390 causes the output unit 530 to output the generated synonym expression usage count table (step S34).

なお、同義表現の使用とは、伝達された電子文書内の表現とは異なる表現を用いて電子文書を伝達したこと、すなわち同義表現を発生させたことである。   The use of the synonym expression means that the electronic document is transmitted using an expression different from the expression in the transmitted electronic document, that is, the synonym expression is generated.

また、同義表現のカウント方法には様々な方法がある。例えば、傾向分析手段390は、同義表現が含まれている電子文書の数をカウントしてもよい。また、傾向分析手段390は、同義表現が含まれている文の数をカウントしてもよく、同義表現の数をカウントしてもよい。   There are various methods for counting synonymous expressions. For example, the trend analysis unit 390 may count the number of electronic documents that contain synonymous expressions. In addition, the trend analysis unit 390 may count the number of sentences including synonymous expressions, or may count the number of synonymous expressions.

図58は、同義表現使用回数表の出力形式の例を示す説明図である。図58に示す例では、7名のメンバ間の同義表現使用回数表が示されており、最左列に示すメンバから最上段の行に示すメンバに対して電子文書が伝達された際の同義表現使用回数を示している。また、図58に示す同義表現使用回数表における縦方向のカウント値の和を求めることによって、あるメンバが他のメンバから伝達された電子文書に対して使用した同義表現の使用回数を得ることができる。また、横方向のカウント値の和を求めることによって、あるメンバの電子文書に対して他メンバが使用した同義表現の使用回数を得ることができる。   FIG. 58 is an explanatory diagram showing an example of an output format of the synonym expression usage count table. In the example shown in FIG. 58, a synonym expression usage count table among seven members is shown, and synonyms when an electronic document is transmitted from the member shown in the leftmost column to the member shown in the top row. Indicates the number of expressions used. Further, by obtaining the sum of the count values in the vertical direction in the synonym expression use count table shown in FIG. 58, the number of use times of the synonym expression used by one member for the electronic document transmitted from the other member can be obtained. it can. Further, by obtaining the sum of the count values in the horizontal direction, it is possible to obtain the number of times that the synonymous expression used by another member is used for an electronic document of a certain member.

出力手段530は、傾向分析手段390の指示に従って、例えば、ディスプレイ装置等である場合には、各メンバの同義表現使用傾向が分かるように、同義表現使用回数表を表示する。なお、出力手段530は、傾向分析手段390の指示に従って、同義表現使用回数表のデータをまとめて表示してもよく、同義表現使用回数表のデータをグラフにして表示してもよい。   The output unit 530 displays a synonymous expression usage count table so that the synonymous expression usage tendency of each member can be understood in accordance with an instruction from the trend analyzing unit 390, for example, in the case of a display device or the like. Note that the output unit 530 may display the data of the synonymous expression usage count table collectively according to the instruction of the trend analysis unit 390, or may display the data of the synonymous expression usage count table as a graph.

また、傾向分析手段390は、システムの利用者にとって分かりやすく同義表現使用回数を示すために、例えば、図59に示すように、特定した文書伝達の階層構造と同義表現使用回数とを重畳させて出力手段530に表示させてもよい。図59において、各ノード724aはメンバを示し、各ノード間の矢印724bは文書伝達の計画を示している。また、図59において、矢印上の四角枠724cには、対応するメンバ間の同義表現使用回数が示されている。   Also, the trend analysis means 390 superimposes the identified document transmission hierarchical structure and the number of synonymous expressions used, for example, as shown in FIG. 59, in order to show the number of times of synonymous expressions used easily for the user of the system. You may display on the output means 530. FIG. In FIG. 59, each node 724a indicates a member, and an arrow 724b between the nodes indicates a document transmission plan. In FIG. 59, a square frame 724c on the arrow indicates the number of synonymous expressions used between corresponding members.

図59に示す表示形式で表示することによって、今後の文書伝達において、どの程度、同義表現が利用される可能性があるかを把握しやすくすることができる。そのため、システムの利用者は、同義表現を多く使用しているメンバに対して、数値的な論拠を提示して同義表現の使用を少なくするよう依頼することができる。なお、同義表現使用回数表に付与する数値として、同義表現の使用回数だけを用いるのではなく、例えば、伝達した電子文書と同義表現が使用された電子文書との比等を用いてもよい。   By displaying in the display format shown in FIG. 59, it is possible to easily grasp to what extent a synonymous expression may be used in future document transmission. Therefore, the user of the system can request a member who uses many synonymous expressions to present a numerical rationale and reduce the use of synonymous expressions. In addition, as a numerical value given to the synonym expression usage count table, for example, a ratio between a transmitted electronic document and an electronic document using the synonym expression may be used instead of using only the number of synonym expressions used.

以上のように、本実施の形態によれば、文書伝達前に予め入力されたコミュニケーション計画に基づいて、予め計画された文書伝達の階層構造を事前に特定することができる。そのため、今後行われる文書伝達における電子文書の参照関係を抽出することができる。   As described above, according to the present embodiment, it is possible to specify in advance a hierarchical structure of document transmission planned in advance based on a communication plan input in advance before document transmission. Therefore, it is possible to extract the electronic document reference relationship in future document transmission.

例えば、特許文献1〜3に記載された従来のシステムや装置、方法、プログラムでは、今後、伝達される電子文書間における参照関係を抽出することができない。特許文献1〜3に記載されたシステムや装置、方法、プログラムでは、電子文書間の稀な単語の出現頻度や電子文書のカテゴリ、電子文書の参照時間/頻度、参照リンク等、作成された電子文書から抽出した情報を基に参照関係を抽出している。そのため、今後、作成される電子文書が定まっている場合においても、それらの電子文書間において生じる参照関係を抽出することができない。   For example, the conventional systems, apparatuses, methods, and programs described in Patent Documents 1 to 3 cannot extract reference relationships between electronic documents to be transmitted in the future. In the systems, devices, methods, and programs described in Patent Documents 1 to 3, the generated electronic information such as the frequency of rare words appearing between electronic documents, the category of electronic documents, the reference time / frequency of electronic documents, and reference links The reference relationship is extracted based on the information extracted from the document. Therefore, even when electronic documents to be created are determined in the future, it is not possible to extract a reference relationship that occurs between these electronic documents.

これに対し、本実施の形態では、上記に説明したように、コミュニケーション計画に基づいて文書伝達の階層構造を特定するので、電子文書の伝達記録を用いずに参照関係を抽出することができる。そのため、今後の伝達計画から参照関係を抽出することができる。   In contrast, in the present embodiment, as described above, the hierarchical structure of document transmission is specified based on the communication plan, so that the reference relationship can be extracted without using the electronic document transmission record. Therefore, the reference relationship can be extracted from the future transmission plan.

また、本実施の形態によれば、組織情報とコミュニケーション計画とに基づいて、予め計画された伝達文書の参照関係を抽出することができ、且つ過去のメンバ間の同義表現の使用回数等に基づいて同義表現の発生しやすさを定量化することができる。そのため、今後、同義表現が発生しパラレルコーパスとなる可能性が高い文書伝達を事前に特定することができる。   Further, according to the present embodiment, based on the organization information and the communication plan, it is possible to extract a preliminarily planned reference relationship of the transmission document, and based on the number of times the synonym expression is used between past members. It is possible to quantify the likelihood of synonymous expressions. Therefore, it is possible to specify in advance a document transmission that is likely to generate a synonymous expression and become a parallel corpus in the future.

なお、本実施の形態では、文書参照関係抽出システム100や表現統一化システム300が、実際に行われた文書伝達の階層構造を特定し、伝達文書の表現を統一する処理を実行するとともに、予め計画された文書伝達の階層構造を特定し、同義表現の発生傾向を提示する処理を実行する場合を示したが、予め計画された文書伝達の階層構造を特定して同義表現の発生傾向を提示する処理のみを実行するようにしてもよい。この場合、表現統一化システム300は、伝達文書抽出手段320及び伝達文書データベース330を含まなくてもよい。   In the present embodiment, the document reference relationship extraction system 100 and the expression unification system 300 specify the hierarchical structure of the actual document transmission, execute the process of unifying the expression of the transmission document, The case where the hierarchical structure of the planned document transmission is identified and the process of presenting the occurrence tendency of the synonymous expression is executed was shown, but the generation structure of the synonymous expression is presented by identifying the hierarchical structure of the document transmission planned in advance Only the processing to be performed may be executed. In this case, the expression unification system 300 may not include the transmission document extraction unit 320 and the transmission document database 330.

また、実際に行われた文書伝達の階層構造を特定し、伝達文書の表現を統一する処理を実行するシステムと、予め計画された文書伝達の階層構造を特定し、同義表現の発生傾向を提示する処理を実行するシステムとを別々のシステムとして構成するようにしてもよい。   In addition, it identifies the hierarchical structure of the actual document transmission and executes a process that unifies the expression of the transmitted document, identifies the hierarchical structure of the planned document transmission, and presents the occurrence tendency of synonymous expressions. You may make it comprise the system which performs the process to perform as a separate system.

実施の形態7.
次に、本発明の第7の実施の形態を図面を参照して説明する。本実施の形態では、文書参照関係抽出システム100を、実際に行われた文書伝達を評価する文書伝達評価システムに適用する場合を説明する。図60は、第7の実施の形態における文書参照関係抽出システム100を用いた文書伝達評価システム400の構成例を示すブロック図である。図60に示すように、本実施の形態では、図33に示した構成要素のうち、パラレルコーパス抽出手段340及び同義表現抽出手段350を含まない点で、第4の実施の形態と異なる。また、本実施の形態では、図33に示した構成要素に加えて、差分抽出手段550を含む点で、第4の実施の形態と異なる。
Embodiment 7 FIG.
Next, a seventh embodiment of the present invention will be described with reference to the drawings. In the present embodiment, a case will be described in which the document reference relationship extraction system 100 is applied to a document transmission evaluation system that evaluates actual document transmission. FIG. 60 is a block diagram illustrating a configuration example of a document transmission evaluation system 400 using the document reference relationship extraction system 100 according to the seventh embodiment. As shown in FIG. 60, the present embodiment is different from the fourth embodiment in that it does not include the parallel corpus extraction means 340 and the synonym expression extraction means 350 among the components shown in FIG. Further, the present embodiment is different from the fourth embodiment in that a difference extracting means 550 is included in addition to the components shown in FIG.

差分抽出手段550は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。差分抽出手段550は、コミュニケーション計画データベース110が記憶するコミュニケーション計画と、伝達文書データベース330が記憶する伝達文書情報とを比較して、コミュニケーション計画通りの文書伝達がなされているか否かを明確化する機能を備える。   Specifically, the difference extraction unit 550 is realized by a CPU of an information processing apparatus that operates according to a program. The difference extraction unit 550 compares the communication plan stored in the communication plan database 110 with the transfer document information stored in the transfer document database 330 and clarifies whether or not the document transfer according to the communication plan is performed. Is provided.

差分抽出手段550は、伝達文書情報とコミュニケーション計画との差を明確にし、その伝達文書情報とコミュニケーション計画との比較結果を出力手段530に出力させる。差分抽出手段550は、伝達文書情報とコミュニケーション計画とについて、以下の3つの事項の差分を抽出する。   The difference extraction unit 550 clarifies the difference between the transmission document information and the communication plan, and causes the output unit 530 to output a comparison result between the transmission document information and the communication plan. The difference extraction unit 550 extracts differences between the following three items for the transmission document information and the communication plan.

まず、差分抽出手段550は、コミュニケーション計画において計画されているが伝達されていない文書伝達を抽出する(差分1:文書未伝達)。また、差分抽出手段550は、コミュニケーション計画において計画されていないにもかかわらず、伝達されている文書伝達を抽出する(差分2:伝達未計画)。また、差分抽出手段550は、コミュニケーション計画において計画された通り伝達されているが、計画された伝達時刻とは異なる時刻にされた文書伝達を抽出する(差分3:伝達日時差)。   First, the difference extraction means 550 extracts document transmissions that are planned but not transmitted in the communication plan (difference 1: document not transmitted). Further, the difference extracting unit 550 extracts the document transmission that is being transmitted even though it is not planned in the communication plan (difference 2: transmission unplanned). Also, the difference extraction means 550 extracts the document transmission that has been transmitted as planned in the communication plan, but at a time different from the planned transmission time (difference 3: transmission date / time difference).

差分抽出手段550は、まず、伝達文書情報と対応のとれなかったコミュニケーション計画を、コミュニケーション計画データベース110から抽出する。すなわち、差分抽出手段550は、文書伝達が計画されていたにもかかわらず、伝達がなされなかった文書伝達を含むコミュニケーション計画を抽出する。具体的には、差分抽出手段550は、伝達文書データベース330が記憶する伝達文書情報に示される各伝達日時の情報と合致しない伝達予定日時の情報を含むコミュニケーション計画を、コミュニケーション計画データベース110から抽出する。この処理を実行することにより、差分抽出手段550は、差分1(文書未伝達)を抽出する。   First, the difference extraction unit 550 extracts a communication plan that cannot be matched with the transmission document information from the communication plan database 110. That is, the difference extraction unit 550 extracts a communication plan including document transmission that has not been transmitted although document transmission is planned. Specifically, the difference extraction unit 550 extracts, from the communication plan database 110, a communication plan that includes information on the scheduled transmission date and time that does not match the information on each transmission date and time indicated in the transmission document information stored in the transmission document database 330. . By executing this processing, the difference extraction unit 550 extracts the difference 1 (document not transmitted).

次に、階層構造特定手段130が特定した文書伝達の階層構造中に含まれる文書IDと同一の文書IDに対応する全ての電子文書を、伝達文書データベース330が記憶する伝達文書情報に基づいて特定する。この場合、差分抽出手段550は、コミュニケーション計画と対応がとれていない伝達文書情報も特定する。すなわち、差分抽出手段550は、文書伝達が計画されていないにもかかわらず、伝達がなされている文書伝達を含む伝達文書情報を抽出する。具体的には、差分抽出手段550は、コミュニケーション計画データベース110が記憶するコミュニケーション計画に示される各伝達予定日時の情報と合致しない伝達日時の情報を含む伝達文書情報を、伝達文書データベース330から抽出する。この処理を実行することにより、差分抽出手段550は、差分2(伝達未計画)を抽出する。   Next, all electronic documents corresponding to the same document ID as the document ID included in the hierarchical structure of document transmission specified by the hierarchical structure specifying unit 130 are specified based on the transfer document information stored in the transfer document database 330. To do. In this case, the difference extraction unit 550 also identifies transmission document information that does not correspond to the communication plan. That is, the difference extraction unit 550 extracts the transmission document information including the document transmission that is being transmitted even though the document transmission is not planned. Specifically, the difference extraction unit 550 extracts from the transmission document database 330 transmission document information including information on transmission date and time that does not match the information on each scheduled transmission date and time indicated in the communication plan stored in the communication plan database 110. . By executing this processing, the difference extraction unit 550 extracts the difference 2 (transmission unplanned).

最後に、差分抽出手段550は、コミュニケーション計画における伝達予定日時と、そのコミュニケーション計画に対応する伝達文書情報における伝達日時との差分を計算する。この場合、差分抽出手段550は、差分の計算方法として、伝達日時(実際に文書伝達が行われた日時)を伝達予定日時で減算することによって、伝達日時と伝達予定日時との差分を求める。計算結果がマイナスの値であれば、伝達予定日時までに伝達されたことを意味する。また、計算結果がプラスの値であれば、伝達予定日時後に遅れて伝達されたことを意味する。なお、コミュニケーション計画の伝達予定日時が一定の幅をもった期間で指定されている場合には、差分抽出手段550は、その期間内に電子文書が伝達されている場合には、伝達日時と伝達予定日時との差分を0と求めればよい。   Finally, the difference extraction unit 550 calculates the difference between the scheduled transmission date and time in the communication plan and the transmission date and time in the transmission document information corresponding to the communication plan. In this case, the difference extraction unit 550 calculates a difference between the transmission date and the scheduled transmission date by subtracting the transmission date and time (the date and time when the document transmission was actually performed) from the scheduled transmission date and time as a difference calculation method. If the calculation result is a negative value, it means that it has been transmitted by the scheduled transmission date and time. Further, if the calculation result is a positive value, it means that the transmission is delayed after the scheduled transmission date and time. If the scheduled transmission date and time of the communication plan is specified in a period having a certain range, the difference extraction unit 550 transmits the transmission date and time and the transmission when the electronic document is transmitted within the period. What is necessary is just to obtain | require the difference with a scheduled date and time as 0.

次いで、差分抽出手段550は、コミュニケーション計画と伝達文書情報との差を、例えば、図61に示すような差分表としてまとめて作成し、作成した差分表を出力手段530に出力させる。図61に示す例では、差分表には、各行にコミュニケーション計画による計画ID及び伝達予定日時、伝達文書情報による伝達文書ID及び伝達日時、Fm(伝達元)、To(伝達先)、及び伝達予定日時と伝達日時との差分の情報が含まれている。   Next, the difference extraction unit 550 creates the difference between the communication plan and the transmission document information as a difference table as shown in FIG. 61, for example, and causes the output unit 530 to output the created difference table. In the example shown in FIG. 61, the difference table includes, in each row, a plan ID based on a communication plan and a scheduled transmission date / time, a transmission document ID / transmission date / time based on transmission document information, Fm (transmission source), To (transmission destination), and a transmission schedule. Information on the difference between the date and time and the transmission date is included.

図61に示す差分表において、伝達文書IDが空欄である行で示される文書伝達は、計画されているにもかかわらず、伝達されていない文書伝達(差分1:文書未伝達)を意味する。また、計画IDが空欄である行で示される文書伝達は、計画されていないにもかかわらず、伝達された文書伝達(差分2:伝達未計画)を意味する。また、図61に示すように、伝達文書IDと計画IDがともに含まれる行で示される文書伝達では、伝達予定日時と伝達日時との差を計算した結果が示されており、この伝達予定日時と伝達日時との差の計算結果が(差分3:伝達日時差)に相当する。   In the difference table shown in FIG. 61, document transmission indicated by a row in which the transmission document ID is blank means document transmission that is planned but not transmitted (difference 1: no document transmission). In addition, document transmission indicated by a line having a blank plan ID means transmitted document transmission (difference 2: transmission unplanned) even though it is not planned. Further, as shown in FIG. 61, in the document transmission indicated by the line including both the transmission document ID and the plan ID, the result of calculating the difference between the transmission scheduled date and time and the transmission date and time is shown. And the calculation result of the difference between the transmission date and time corresponds to (difference 3: transmission date and time difference).

なお、図61に示す例では、伝達予定日時と伝達日時との差の計算を日付単位で行っている。ただし、差分抽出手段550は、伝達日時差の計算を、日単位で計算する場合に限らず、例えば、時間単位等に伝達日時差の計算を行ってもよい。   In the example shown in FIG. 61, the difference between the scheduled transmission date and the transmission date and time is calculated on a date basis. However, the difference extraction means 550 is not limited to calculating the transmission date / time difference in units of days, and may calculate the transmission date / time difference in units of time, for example.

図61に示す例では、例えば、メンバM3はメンバM8に文書ID101の電子文書を伝達しているが、この文書伝達はコミュニケーション計画では計画されていないことがわかる。また、メンバM4はコミュニケーション計画P002で計画されていたメンバM2への伝達を怠っていることがわかる。また、この他、メンバM5は、コミュニケーション計画P003で計画されていた伝達予定日時よりも1日遅れで電子文書を伝達していることがわかる。このように差分表を用いて、コミュニケーション計画と伝達文書情報との3つの差を表現することができる。   In the example shown in FIG. 61, for example, the member M3 transmits the electronic document with the document ID 101 to the member M8, but it is understood that this document transmission is not planned in the communication plan. Also, it can be seen that the member M4 has failed to communicate to the member M2 planned in the communication plan P002. In addition, it can be seen that the member M5 is transmitting the electronic document one day later than the scheduled transmission date and time planned in the communication plan P003. In this way, the difference table can be used to express three differences between the communication plan and the transmission document information.

出力手段530は、例えば、ディスプレイ装置である場合には、差分抽出手段550の指示に従って、差分抽出手段550が生成した差分表の情報を出力(表示)する。例えば出力手段530は、差分抽出手段550の指示に従って、図62に示す表示画面を表示すればよい。   For example, in the case of a display device, the output unit 530 outputs (displays) information of the difference table generated by the difference extraction unit 550 in accordance with an instruction from the difference extraction unit 550. For example, the output unit 530 may display the display screen shown in FIG. 62 in accordance with the instruction from the difference extraction unit 550.

図62に示すように、出力手段530は、差分抽出手段550の指示に従って、まず、コミュニケーション計画データから文書伝達の階層構造中に含まれるメンバを実線のノード727aとして表示する。また、出力手段530は、差分抽出手段550の指示に従って、計画されていないものの文書伝達が行われたメンバ(差分表において計画番号(No)が空欄である行のTo(伝達先)のメンバ)を破線のノード727cとして表示する。   As shown in FIG. 62, in accordance with an instruction from the difference extraction unit 550, the output unit 530 first displays members included in the hierarchical structure of document transmission from the communication plan data as a solid line node 727a. Further, the output unit 530 is a member who has not been planned but has been transmitted according to the instruction of the difference extraction unit 550 (a member (To (transmission destination) in a row where the plan number (No) is blank in the difference table)). Is displayed as a broken-line node 727c.

また、出力手段530は、差分抽出手段550の指示に従って、伝達文書情報を参照し、階層構造関係がわかるようにノード間を矢印で結んだ表示態様で表示する。すなわち、出力手段530は、非参照関係であるノード間においては、文書伝達が行われていても矢印で結ばない態様で表示する。なお、この場合、出力手段530は、破線で示したノードに対しても、実線の矢印727cで結んだ表示態様で表示する。   Further, the output unit 530 refers to the transmission document information in accordance with the instruction from the difference extraction unit 550 and displays the nodes in a display form in which the nodes are connected with arrows so that the hierarchical structure relationship can be understood. In other words, the output unit 530 displays the non-reference relationship between the nodes in a form that is not connected with an arrow even if document transmission is performed. In this case, the output unit 530 displays the display mode connected to the node indicated by the broken line by the solid line arrow 727c.

また、出力手段530は、差分抽出手段550の指示に従って、コミュニケーション計画で文書伝達が計画されているものの、実際に電子文書が伝達されていないノード間を破線の矢印727dで結んだ表示態様で表示する。この場合においても、出力手段530は、役割が同一であるノード間を矢印で結ばない態様で表示する。   Further, the output unit 530 displays in a display mode in which nodes that are not actually transmitted with an electronic document are connected by broken-line arrows 727d although document transmission is planned according to the communication plan according to the instruction of the difference extraction unit 550. To do. Even in this case, the output unit 530 displays the nodes having the same role in a manner that does not connect the arrows.

さらに、出力手段530は、差分抽出手段550の指示に従って、実線で示した矢印に対して四角枠で囲まれた伝達日時差727eを付与した態様で表示する。出力手段530は、図62に示すような表示様態で表示することにより、差分表の情報を可視化し、コミュニケーション計画と実際の文書伝達との差を明確に表示する。   Further, the output unit 530 displays the transmission date and time difference 727e enclosed by a square frame in the direction indicated by the solid line in accordance with the instruction from the difference extraction unit 550. The output means 530 displays the information in the difference table by displaying in the display mode as shown in FIG. 62, and clearly displays the difference between the communication plan and the actual document transmission.

図62に示すように、メンバM4からメンバM2への文書伝達と、メンバM1からメンバM7への文書伝達とは、予め計画されているものの、実際には行われていないことがわかる。また、メンバM3からメンバM8への文書伝達と、メンバM2からメンバM9への文書伝達については、予めコミュニケーション計画で計画されていないにもかかわらず、文書伝達が行われていることがわかる。   As shown in FIG. 62, it is understood that the document transmission from the member M4 to the member M2 and the document transmission from the member M1 to the member M7 are planned in advance but are not actually performed. Further, it can be seen that the document transmission from the member M3 to the member M8 and the document transmission from the member M2 to the member M9 are performed even though they are not planned in advance in the communication plan.

さらに、メンバM2からメンバM1への文書伝達が1日遅延しているが、メンバM1への伝達経路を参照すると、メンバM4からの伝達文書が届いておらず、また、メンバM4からの文書伝達が既に1日遅れていることがわかる。また、このことから、文書伝達の遅延の原因は、メンバM1への伝達よりも、むしろメンバM3及びメンバM4の文書伝達に問題があったことがわかる。すなわち、図62に示す表示画面に示される状況を見れば、メンバM1よりも、むしろメンバM3及びメンバM4の文書伝達に問題があったことを容易に判断することができる。   Further, although the document transmission from the member M2 to the member M1 is delayed by one day, when the transmission path to the member M1 is referred, the transmission document from the member M4 has not arrived, and the document transmission from the member M4 You can see that is already one day late. From this, it can be understood that the cause of the document transmission delay was a problem in the document transmission of the members M3 and M4 rather than the transmission to the member M1. That is, from the situation shown on the display screen shown in FIG. 62, it can be easily determined that there is a problem in document transmission of members M3 and M4 rather than member M1.

なお、本実施の形態において、文書参照関係抽出システム100や文書伝達評価システム400を実現する情報処理装置の記憶装置は、電子文書の伝達状況を評価するための各種プログラムを記憶している。例えば、情報処理装置の記憶装置は、コンピュータに、データベースに記憶する電子文書の伝達記録を示す伝達記録情報と、予めデータベースに記憶する電子文書の伝達計画を示す伝達計画情報とに基づいて、電子文書の伝達記録と伝達計画との差分を抽出する差分抽出処理と、抽出した電子文書の伝達記録と伝達計画との差分を出力する差分出力処理とを実行させるための文書伝達評価プログラムを記憶している。   In the present embodiment, the storage device of the information processing apparatus that implements the document reference relation extraction system 100 and the document transmission evaluation system 400 stores various programs for evaluating the transmission status of electronic documents. For example, the storage device of the information processing apparatus stores the electronic record on the computer based on the transmission record information indicating the transmission record of the electronic document stored in the database and the transmission plan information indicating the transmission plan of the electronic document stored in the database in advance. A document transmission evaluation program for executing a difference extraction process for extracting a difference between a document transmission record and a transmission plan, and a difference output process for outputting a difference between the extracted electronic document transmission record and the transmission plan is stored. ing.

以上のように、本実施の形態によれば、差分抽出手段550は、階層構造特定手段130がコミュニケーション計画に基づいて特定した文書伝達予定の階層構造と、文書伝達情報とを比較する。また、差分抽出手段550は、コミュニケーション計画に含まれているが伝達文書情報に伝達記録のない文書伝達や、コミュニケーション計画には含まれていないにもかかわらず行われた文書伝達、電子文書の伝達予定日時とその計画に対応する電子文書の伝達日時との差を、文書伝達の差分として抽出する。そして、差分抽出手段550は、抽出した文書伝達の差分を出力手段530に表示させる。そのため、電子文書を参照した人、及びその電子文書伝達の時期の適切さを明確に評価することができる。   As described above, according to the present embodiment, the difference extracting unit 550 compares the document transmission information with the hierarchical structure of the document transmission schedule specified by the hierarchical structure specifying unit 130 based on the communication plan. Further, the difference extraction means 550 is a document transmission that is included in the communication plan but has no transmission record in the transmission document information, a document transmission that is not included in the communication plan, or an electronic document transmission. The difference between the scheduled date and time and the transmission date and time of the electronic document corresponding to the plan is extracted as a difference in document transmission. Then, the difference extraction unit 550 causes the output unit 530 to display the extracted document transmission difference. Therefore, it is possible to clearly evaluate the person who referred to the electronic document and the appropriateness of the timing of the electronic document transmission.

本発明は、同義表現検索を実行する情報検索システムや、情報検索システムを実現するためのプログラムに好適に適用される。また、本発明は、用語統制等を行うプロジェクト管理システムや文書管理システム、プロジェクト管理システムや文書管理システムを実現するためのプログラムに好適に適用される。   The present invention is suitably applied to an information search system that executes synonymous expression search and a program for realizing the information search system. The present invention is preferably applied to a project management system, a document management system, a project management system, and a program for realizing a document management system that perform terminology control and the like.

本発明による同義表現抽出システムの構成の一例を示すブロック図である。It is a block diagram which shows an example of a structure of the synonymous expression extraction system by this invention. 同義表現抽出システム10が同義表現を抽出処理の一例を示すフローチャートである。It is a flowchart which shows an example of a synonym expression extraction system 10 extraction process of a synonym expression. 類似文章対データベースが記憶する類似文章対の例を示す説明図である。It is explanatory drawing which shows the example of the similar sentence pair which a similar sentence pair database memorize | stores. 係り受け解析の解析結果の例を示す説明図である。It is explanatory drawing which shows the example of the analysis result of dependency analysis. 係り受け解析手段が記録媒体に記憶させる文節と形態素間の関係の情報のデータ形式の例を示す説明図である。It is explanatory drawing which shows the example of the data format of the information of the relationship between the clause and morpheme which a dependency analysis means memorize | stores in a recording medium. 係り受け表の例を示す説明図である。It is explanatory drawing which shows the example of a dependency table. 構造関係の定義の例を示す説明図である。It is explanatory drawing which shows the example of a definition of structural relationship. 構造関係特定表の例を示す説明図である。It is explanatory drawing which shows the example of a structural relationship specific table. 構造関係特定表を生成方法を示す説明図である。It is explanatory drawing which shows the production | generation method of a structural relationship specific table. 文章1に対して特定された構造関係の例を示す説明図である。It is explanatory drawing which shows the example of the structural relationship specified with respect to the sentence 1. FIG. 文章2に対して特定された構造関係の例を示す説明図である。It is explanatory drawing which shows the example of the structural relationship specified with respect to the text 2. FIG. 比較構造関係の例を示す説明図である。It is explanatory drawing which shows the example of a comparison structure relationship. 文章1と文章2とにおける比較構造関係の例を示す説明図である。It is explanatory drawing which shows the example of the comparison structure relationship in the text 1 and the text 2. FIG. 類似文章対における構造関係の同一性判定表の例を示す説明図である。It is explanatory drawing which shows the example of the identity determination table | surface of the structural relationship in a similar sentence pair. 類似文章対の他の例を示す説明図である。It is explanatory drawing which shows the other example of a similar sentence pair. 文章3及び文章4に対する係り受け構造を示す説明図である。It is explanatory drawing which shows the dependency structure with respect to the text 3 and the text 4. FIG. 類似文章対における構造関係の同一性の例を示す説明図である。It is explanatory drawing which shows the example of the identity of the structural relationship in a similar sentence pair. 類似文章対における構造関係の同一性の例を示す説明図である。It is explanatory drawing which shows the example of the identity of the structural relationship in a similar sentence pair. 類似性判定手段104が求めた重み付き平均を用いた類似度計算の例を示す説明図である。It is explanatory drawing which shows the example of the similarity calculation using the weighted average which the similarity determination means 104 calculated | required. 同義表現の出力例を示す説明図である。It is explanatory drawing which shows the example of an output of synonymous expression. 同義表現の他の出力例を示す説明図である。It is explanatory drawing which shows the other output example of synonymous expression. 本発明における同義表現抽出の原理を示す説明図である。It is explanatory drawing which shows the principle of synonymous expression extraction in this invention. 第2の実施の形態における同義表現抽出システムの構成例を示すブロック図である。It is a block diagram which shows the structural example of the synonymous expression extraction system in 2nd Embodiment. 文章整形の例を示す説明図である。It is explanatory drawing which shows the example of text shaping. 文章整形前後の係り受け構造の例を示す説明図である。It is explanatory drawing which shows the example of the dependency structure before and behind text shaping. 第3の実施の形態における同義表現抽出システムの構成例を示すブロック図である。It is a block diagram which shows the structural example of the synonymous expression extraction system in 3rd Embodiment. 抽出した同義表現の正誤を入力できる出力例を示す説明図である。It is explanatory drawing which shows the example of an output which can input the correctness of the extracted synonymous expression. 類似度表データベース106が記憶する類似基準を調整するために用いる類似度表を示す説明図である。It is explanatory drawing which shows the similarity table used in order to adjust the similarity standard which the similarity table database 106 memorize | stores. 図28に示したシステム利用者による同義表現の正誤の判定内容を数値化にした類似度表を示す説明図である。It is explanatory drawing which shows the similarity table which digitized the determination content of the synonymous expression right / wrong by the system user shown in FIG. 同義表現抽出の式の重み係数、閾値及び類似度の関係を示す説明図である。It is explanatory drawing which shows the relationship between the weighting coefficient of the expression of synonymous expression extraction, a threshold value, and similarity. 同義表現抽出の式の補正後の重み係数、閾値及び類似度の関係を示す説明図である。It is explanatory drawing which shows the relationship between the weighting coefficient after correction | amendment of the expression of synonymous expression extraction, a threshold value, and similarity. 従来技術における同義表現抽出の原理を示す説明図である。It is explanatory drawing which shows the principle of synonymous expression extraction in a prior art. 本発明による同義表現抽出システムを適用した文書参照関係抽出システムを用いた表現統一システムの構成の一例を示すブロック図である。It is a block diagram which shows an example of a structure of the expression unification system using the document reference relationship extraction system to which the synonymous expression extraction system by this invention is applied. 組織情報の一例を示す説明図である。It is explanatory drawing which shows an example of organization information. コミュニケーション計画の一例を示す説明図である。It is explanatory drawing which shows an example of a communication plan. 伝達文書情報の一例を示す説明図である。It is explanatory drawing which shows an example of transmission document information. コミュニケーション計画を展開した例を示す説明図である。It is explanatory drawing which shows the example which expand | deployed the communication plan. 図35に示すコミュニケーション計画における文書伝達を模式的にネットワークとして表した説明図である。FIG. 36 is an explanatory diagram schematically showing document transmission in the communication plan shown in FIG. 35 as a network. 非参照関係抽出手段が作成する計画表の一般例を示す説明図である。It is explanatory drawing which shows the general example of the plan table which a non-reference relationship extraction means produces. 非参照関係抽出手段が図35に示すコミュニケーション計画に基づいて実際に作成した計画表及び非参照関係表を示す説明図である。It is explanatory drawing which shows the plan table and non-reference relationship table which the non-reference relationship extraction means actually created based on the communication plan shown in FIG. 階層構造特定手段が文書伝達の階層構造を特定する処理のアルゴリズムの一例を示す説明図である。It is explanatory drawing which shows an example of the algorithm of the process in which a hierarchical structure specification means specifies the hierarchical structure of document transmission. 階層構造特定手段が作成する伝達表の一般例を示す説明図である。It is explanatory drawing which shows the general example of the transmission table which a hierarchical structure specification means produces. 階層構造特定手段が図36に示す伝達文書情報に基づいて実際に作成した5つの伝達表、及び伝達表から階層構造を特定する例を示す説明図である。It is explanatory drawing which shows the example which specifies a hierarchical structure from five transmission tables which the hierarchical structure specification means actually created based on the transmission document information shown in FIG. 36, and a transmission table. 図41に示す処理に従って、階層構造特定手段が図36に示す伝達文書情報から特定した文書伝達の階層構造を示す説明図である。FIG. 43 is an explanatory diagram showing a hierarchical structure of document transmission specified by the hierarchical structure specifying unit from the transmission document information shown in FIG. 36 in accordance with the processing shown in FIG. 図36に示す伝達文書情報における文書伝達の末端者の一人であるメンバM6から文書伝達の開始者までのトレースを行う処理の過程を示す説明図である。FIG. 37 is an explanatory diagram showing a process of performing a trace from a member M6, which is one of the document transfer endorsers, to the document transfer starter in the transfer document information shown in FIG. 同義表現データベースが記憶する同義表現の記憶形式の一例を示す説明図である。It is explanatory drawing which shows an example of the memory | storage format of a synonym expression which a synonym expression database memorize | stores. 出力手段が出力する同義表現の抽出結果の一例を示す説明図である。It is explanatory drawing which shows an example of the extraction result of the synonymous expression which an output means outputs. 文書伝達の階層構造を特定し伝達文書の表現を統一する処理の一例を示すフローチャートである。It is a flowchart which shows an example of the process which specifies the hierarchical structure of document transmission and unifies the expression of a transmission document. 第5の実施の形態における文書参照関係抽出システムを用いた表現統一システムの構成例を示すブロック図である。It is a block diagram which shows the structural example of the expression unification system using the document reference relationship extraction system in 5th Embodiment. 同義表現を修正する処理の一例を示すフローチャートである。It is a flowchart which shows an example of the process which corrects synonymous expression. 同義表現の修正案を入力するフォーム(表示画面)の例を示す説明図である。It is explanatory drawing which shows the example of the form (display screen) which inputs the correction proposal of synonymous expression. 修正候補の表示と修正への同意を入力するフォーム(表示画面)の例を示す説明図である。It is explanatory drawing which shows the example of the form (display screen) which inputs the display of a correction candidate, and consent to correction. 同義表現の修正を行ったことを通知する表示方法(メッセージ)の例を示す説明図である。It is explanatory drawing which shows the example of the display method (message) which notifies that correction of synonymous expression was performed. 第6の実施の形態における文書参照関係抽出システムを用いた表現統一システムの構成例を示すブロック図である。It is a block diagram which shows the structural example of the expression unification system using the document reference relationship extraction system in 6th Embodiment. 予め計画された文書伝達の階層構造を特定し、同義表現の発生傾向を提示する処理の一例を示すフローチャートである。It is a flowchart which shows an example of the process which identifies the hierarchical structure of document transmission planned beforehand and shows the generation | occurrence | production tendency of synonymous expression. 非参照関係抽出手段が図35に示すコミュニケーション計画に基づいて作成された2つの計画表、及び計画表から文書伝達の階層構造を特定する過程の例を示す説明図である。It is explanatory drawing which shows the example of the process in which the non-reference relationship extraction means specifies the hierarchical structure of document transmission from two plan tables created based on the communication plan shown in FIG. 35, and a plan table. コミュニケーション計画から特定した文書伝達の階層構造の例を示す説明図である。It is explanatory drawing which shows the example of the hierarchical structure of the document transmission identified from the communication plan. 同義表現使用回数表の出力形式の例を示す説明図である。It is explanatory drawing which shows the example of the output format of a synonymous expression use frequency table. 同義表現の使用回数を文書伝達の階層構造とともに出力した例を示す説明図である。It is explanatory drawing which shows the example which output the usage count of synonymous expression with the hierarchical structure of document transmission. 第7の実施の形態における文書参照関係抽出システムを用いた文書伝達評価システムの構成例を示すブロック図である。It is a block diagram which shows the structural example of the document transmission evaluation system using the document reference relationship extraction system in 7th Embodiment. 差分表の例を示す説明図である。It is explanatory drawing which shows the example of a difference table. 伝達文書のコミュニケーション計画と伝達文書情報との差を出力した例を示す説明図である。It is explanatory drawing which shows the example which output the difference between the communication plan of a transmission document, and transmission document information.

符号の説明Explanation of symbols

10 同義表現抽出システム
101 係り受け解析手段
102 表現比較手段
103 構造関係特定手段
104 類似性判定手段
105 文章整形手段
106 類似度表データベース
107 類似基準補正手段
501 類似文章対データベース
502 出力手段
503 入力手段
DESCRIPTION OF SYMBOLS 10 Synonymous expression extraction system 101 Dependency analysis means 102 Expression comparison means 103 Structural relationship specification means 104 Similarity determination means 105 Text shaping means 106 Similarity table database 107 Similarity reference correction means 501 Similar sentence pair database 502 Output means 503 Input means

Claims (16)

相互に類似する文章を対にした類似文章対から同義表現を抽出する同義表現抽出システムであって、
前記類似文章対の各文章に含まれる表現である共通表現間の構造関係、及び前記類似文章対のそれぞれの文章にのみ含まれる表現である相違表現と共通表現との間の構造関係を特定する構造関係特定手段と、
前記構造関係特定手段が特定した構造関係に基づいて、前記類似文章対に含まれる相違表現を同義表現の候補として、前記同義表現の候補の類似度を求める類似度算出手段と、
前記類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び前記類似文章対の文章間で相違する相違表現群と前記共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、前記類似文章対から同義表現を抽出する同義表現抽出手段とを備え、
前記同義表現抽出手段は、前記類似度算出手段が求めた類似度に基づいて、前記同義表現の候補を同義表現として抽出するか否かを判定する
ことを特徴とする同義表現抽出システム。
A synonym expression extraction system that extracts synonym expressions from pairs of similar sentences that are pairs of sentences that are similar to each other,
A structural relationship between common expressions that are expressions included in each sentence of the similar sentence pair and a structural relation between a difference expression that is included only in each sentence of the similar sentence pair and a common expression are specified. Structural relationship identification means;
Based on the structural relationship specified by the structural relationship specifying means, the difference expression included in the similar sentence pair as a synonym candidate, and a similarity calculation means for obtaining the similarity of the synonym candidate,
The common expression group included in common in each sentence of the similar sentence pair is in a similar relative positional relationship in the sentence structure of each sentence, and the difference expression group that is different between the sentences of the similar sentence pair A synonym expression extracting means for extracting a synonym expression from the pair of similar sentences based on the fact that the common expression group is in a similar relative positional relationship in the sentence structure of each sentence ;
The synonym expression extraction unit is configured to determine whether or not to extract a candidate for the synonym expression as a synonym expression based on the similarity obtained by the similarity calculation unit .
相互に類似する文章を対にした類似文章対から同義表現を抽出する同義表現抽出システムであって、A synonym expression extraction system that extracts synonym expressions from pairs of similar sentences that are pairs of sentences that are similar to each other,
前記類似文章対の文章構造を特定する文章構造特定手段と、Sentence structure specifying means for specifying the sentence structure of the pair of similar sentences;
前記文章構造特定手段が特定した文章構造に基づいて、前記類似文章対の各文章に共通して含まれる表現である共通表現と、前記類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出手段と、Based on the sentence structure specified by the sentence structure specifying means, a common expression that is an expression commonly included in each sentence of the similar sentence pair and a difference that is an expression included only in each sentence of the similar sentence pair An expression extraction means for extracting an expression;
前記表現抽出手段が抽出した共通表現及び相違表現に基づいて、前記類似文章対の各文章の文章構造における共通表現間の相対的位置関係、及び共通表現と相違表現との間の相対的位置関係を特定する位置関係特定手段と、Based on the common expression and the difference expression extracted by the expression extraction means, the relative position relationship between the common expressions in the sentence structure of each sentence of the similar sentence pair, and the relative position relationship between the common expression and the difference expression A positional relationship specifying means for specifying
前記位置関係特定手段が特定した相対的位置関係に基づいて、構造関係の同一性から前記類似文章対における相違表現の類似度を算出する類似度算出手段と、Based on the relative positional relationship specified by the positional relationship specifying means, similarity calculating means for calculating the similarity of the difference expression in the similar sentence pair from the identity of the structural relationship;
前記類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び前記類似文章対の文章間で相違する相違表現群と前記共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、前記類似文章対から同義表現を抽出する同義表現抽出手段とを備え、The common expression group included in common in each sentence of the similar sentence pair is in a similar relative positional relationship in the sentence structure of each sentence, and the difference expression group that is different between the sentences of the similar sentence pair A synonym expression extracting means for extracting a synonym expression from the pair of similar sentences based on the fact that the common expression group is in a similar relative positional relationship in the sentence structure of each sentence;
前記同義表現抽出手段は、前記類似度算出手段が算出した類似度に基づいて、同義表現を抽出するThe synonym expression extraction unit extracts a synonym expression based on the similarity calculated by the similarity calculation unit.
ことを特徴とする同義表現抽出システム。Synonymous expression extraction system characterized by that.
相互に類似する文章を対にした類似文章対から同義表現を抽出する同義表現抽出システムであって、A synonym expression extraction system that extracts synonym expressions from pairs of similar sentences that are pairs of sentences that are similar to each other,
前記類似文章対の文章構造を特定する文章構造特定手段と、Sentence structure specifying means for specifying the sentence structure of the pair of similar sentences;
前記文章構造特定手段が特定した文章構造に基づいて、前記類似文章対の各文章に共通して含まれる表現である共通表現と、前記類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出手段と、Based on the sentence structure specified by the sentence structure specifying means, a common expression that is an expression commonly included in each sentence of the similar sentence pair and a difference that is an expression included only in each sentence of the similar sentence pair An expression extraction means for extracting an expression;
前記表現抽出手段が抽出した共通表現及び相違表現に基づいて、前記類似文章対の各文章の文章構造における共通表現と相違表現との間の相対的位置関係を特定する位置関係特定手段と、Based on the common expression and the difference expression extracted by the expression extraction means, a positional relationship specifying means for specifying a relative positional relationship between the common expression and the difference expression in the sentence structure of each sentence of the similar sentence pair;
前記位置関係特定手段が特定した相対的位置関係に基づいて、構造関係の同一性から前記類似文章対における相違表現の類似度を算出する類似度算出手段と、Based on the relative positional relationship specified by the positional relationship specifying means, similarity calculating means for calculating the similarity of the difference expression in the similar sentence pair from the identity of the structural relationship;
前記類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び前記類似文章対の文章間で相違する相違表現群と前記共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、前記類似文章対から同義表現を抽出する同義表現抽出手段とを備え、The common expression group included in common in each sentence of the similar sentence pair is in a similar relative positional relationship in the sentence structure of each sentence, and the difference expression group that is different between the sentences of the similar sentence pair A synonym expression extracting means for extracting a synonym expression from the pair of similar sentences based on the fact that the common expression group is in a similar relative positional relationship in the sentence structure of each sentence;
前記同義表現抽出手段は、前記類似度算出手段が算出した類似度に基づいて、同義表現を抽出するThe synonym expression extraction unit extracts a synonym expression based on the similarity calculated by the similarity calculation unit.
ことを特徴とする同義表現抽出システム。Synonymous expression extraction system characterized by that.
同義表現抽出手段は、類似文章対において、相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係であることに基づいて、同義表現を抽出する請求項1から請求項3のうちのいずれか1項に記載の同義表現抽出システム。   The synonymous expression extracting means extracts the synonymous expression based on the fact that the different expression group and the common expression group are similar in the sentence structure of each sentence in the similar sentence pair. Item 4. The synonymous expression extraction system according to any one of Items 3 to 3. 類似文章の文章構造を類似した構造となるように、所定の文章変換規則を用いて、類似文章対に含まれる文章を変換する文章変換手段を備えた請求項1から請求項4のうちのいずれか1項に記載の同義表現抽出システム。 Any one of claims 1 to 4 further comprising a sentence conversion means for converting a sentence included in a similar sentence pair using a predetermined sentence conversion rule so that the sentence structure of the similar sentence becomes a similar structure. The synonymous expression extraction system according to claim 1. 同義表現抽出手段は、同義表現を抽出するための所定の類似基準に従って、類似文章対から同義表現を抽出し、
前記同義表現抽出手段が抽出した同義表現の抽出結果の正誤を示す正誤情報と、同義表現の類似度とに基づいて、前記同義表現を抽出するための類似基準を補正する類似基準補正手段を備えた
請求項1から請求項5のうちのいずれか1項に記載の同義表現抽出システム。
The synonym expression extraction means extracts the synonym expression from the pair of similar sentences according to a predetermined similarity criterion for extracting the synonym expression,
A similarity criterion correcting unit that corrects a similarity criterion for extracting the synonym expression based on correct / incorrect information indicating the correctness of the extraction result of the synonym expression extracted by the synonym expression extracting unit and the similarity of the synonym expression. The synonymous expression extraction system according to any one of claims 1 to 5 .
相互に類似する文章を対にした類似文章対から同義表現を抽出する同義表現抽出方法であって、
コンピュータが、前記類似文章対の各文章に含まれる表現である共通表現間の構造関係、及び前記類似文章対のそれぞれの文章にのみ含まれる表現である相違表現と共通表現との間の構造関係を特定する構造関係特定ステップと、
前記コンピュータが、前記特定した構造関係に基づいて、前記類似文章対に含まれる相違表現を同義表現の候補として、前記同義表現の候補の類似度を求める類似度算出ステップと、
前記コンピュータが、前記類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び前記類似文章対の文章間で相違する相違表現群と前記共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、前記類似文章対から同義表現を抽出する同義表現抽出ステップとを含み、
前記コンピュータが、前記同義表現抽出ステップで、前記求めた類似度に基づいて、前記同義表現の候補を同義表現として抽出するか否かを判定する
ことを特徴とする同義表現抽出方法。
A synonym expression extraction method for extracting synonym expressions from a pair of similar sentences in which sentences similar to each other are paired,
The computer has a structural relationship between common expressions that are expressions included in each sentence of the similar sentence pair, and a structural relationship between a difference expression and a common expression that is an expression included only in each sentence of the similar sentence pair. A structural relationship identifying step for identifying
Based on the identified structural relationship, the computer uses a difference expression included in the similar sentence pair as a synonym expression candidate, and calculates a similarity degree of the synonym expression candidate,
The computer has a common relative expression group included in each sentence of the similar sentence pair in a similar relative positional relationship in the sentence structure of each sentence, and a difference that differs between the sentences of the similar sentence pair A synonym expression extracting step of extracting a synonym expression from the pair of similar sentences based on the fact that the expression group and the common expression group are in a similar relative positional relationship in the sentence structure of each sentence ,
The synonym expression extraction method, wherein the computer determines whether or not to extract a candidate for the synonym expression as a synonym expression based on the obtained similarity in the synonym expression extraction step .
相互に類似する文章を対にした類似文章対から同義表現を抽出する同義表現抽出方法であって、A synonym expression extraction method for extracting synonym expressions from a pair of similar sentences in which sentences similar to each other are paired,
コンピュータが、前記類似文章対の文章構造を特定する文章構造特定ステップと、A sentence structure specifying step for specifying a sentence structure of the pair of similar sentences;
前記コンピュータが、前記特定した文章構造に基づいて、前記類似文章対の各文章に共通して含まれる表現である共通表現と、前記類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出ステップと、The computer, based on the specified sentence structure, a common expression that is an expression that is commonly included in each sentence of the similar sentence pair and a difference expression that is an expression that is included only in each sentence of the similar sentence pair An expression extraction step for extracting
前記コンピュータが、前記抽出した共通表現及び相違表現に基づいて、前記類似文章対の各文章の文章構造における共通表現間の相対的位置関係、及び共通表現と相違表現との間の相対的位置関係を特定する位置関係特定ステップと、Based on the extracted common expression and difference expression by the computer, the relative position relationship between the common expressions in the sentence structure of each sentence of the similar sentence pair, and the relative position relationship between the common expression and the difference expression A positional relationship identifying step for identifying
前記コンピュータが、前記特定した相対的位置関係に基づいて、構造関係の同一性から前記類似文章対における相違表現の類似度を算出する類似度算出ステップと、A similarity calculation step in which the computer calculates the similarity of the difference expression in the similar sentence pair from the identity of the structural relationship based on the identified relative positional relationship;
コンピュータが、前記類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び前記類似文章対の文章間で相違する相違表現群と前記共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、前記類似文章対から同義表現を抽出する同義表現抽出ステップとを含み、The computer includes a common expression group that is commonly included in each sentence of the similar sentence pair in a similar relative positional relationship in the sentence structure of each sentence, and a different expression that is different between the sentences of the similar sentence pair A synonym expression extracting step for extracting a synonym expression from the pair of similar sentences based on the fact that the group and the common expression group are in a similar relative positional relationship in the sentence structure of each sentence,
前記コンピュータが、前記同義表現抽出ステップで、前記算出した類似度に基づいて、同義表現を抽出するThe computer extracts a synonym expression based on the calculated similarity in the synonym expression extraction step.
ことを特徴とする同義表現抽出方法。A synonymous expression extraction method characterized by that.
相互に類似する文章を対にした類似文章対から同義表現を抽出する同義表現抽出方法であって、A synonym expression extraction method for extracting synonym expressions from a pair of similar sentences in which sentences similar to each other are paired,
コンピュータが、前記類似文章対の文章構造を特定する文章構造特定ステップと、A sentence structure specifying step for specifying a sentence structure of the pair of similar sentences;
前記コンピュータが、前記特定した文章構造に基づいて、前記類似文章対の各文章に共通して含まれる表現である共通表現と、前記類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出ステップと、The computer, based on the specified sentence structure, a common expression that is an expression that is commonly included in each sentence of the similar sentence pair and a difference expression that is an expression that is included only in each sentence of the similar sentence pair An expression extraction step for extracting
前記コンピュータが、前記抽出した共通表現及び相違表現に基づいて、前記類似文章対の各文章の文章構造における共通表現と相違表現との間の相対的位置関係を特定する位置関係特定ステップと、A positional relationship specifying step in which the computer specifies a relative positional relationship between the common representation and the difference representation in the sentence structure of each sentence of the similar sentence pair based on the extracted common expression and difference expression;
前記コンピュータが、前記特定した相対的位置関係に基づいて、構造関係の同一性から前記類似文章対における相違表現の類似度を算出する類似度算出ステップと、A similarity calculation step in which the computer calculates the similarity of the difference expression in the similar sentence pair from the identity of the structural relationship based on the identified relative positional relationship;
前記コンピュータが、前記類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び前記類似文章対の文章間で相違する相違表現群と前記共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、前記類似文章対から同義表現を抽出する同義表現抽出ステップとを含み、The computer has a common relative expression group included in each sentence of the similar sentence pair in a similar relative positional relationship in the sentence structure of each sentence, and a difference that differs between the sentences of the similar sentence pair A synonym expression extracting step of extracting a synonym expression from the pair of similar sentences based on the fact that the expression group and the common expression group are in a similar relative positional relationship in the sentence structure of each sentence,
前記コンピュータが、前記同義表現抽出ステップで、前記算出した類似度に基づいて、同義表現を抽出するThe computer extracts a synonym expression based on the calculated similarity in the synonym expression extraction step.
ことを特徴とする同義表現抽出方法。A synonymous expression extraction method characterized by that.
コンピュータが、類似文章の文章構造を類似した構造となるように、所定の文章変換規則を用いて、類似文章対に含まれる文章を変換する文章変換ステップを含む請求項7から請求項9のうちのいずれか1項に記載の同義表現抽出方法。 Computer, so that the similar sentence structure similar sentence structure, using a predetermined text conversion rules, among the claims 7 to 9 including the text conversion step of converting the text contained in the similar sentence pairs The synonymous expression extraction method according to any one of the above. コンピュータが、同義表現抽出ステップで、同義表現を抽出するための所定の類似基準に従って、類似文章対から同義表現を抽出し、
前記コンピュータが、前記抽出した同義表現の抽出結果の正誤を示す正誤情報と、同義表現の類似度とに基づいて、前記同義表現を抽出するための類似基準を補正する類似基準補正ステップを含む
請求項7から請求項10のうちのいずれか1項に記載の同義表現抽出方法。
In the synonym expression extraction step, the computer extracts the synonym expression from the pair of similar sentences according to a predetermined similarity criterion for extracting the synonym expression,
The computer includes a similarity criterion correction step of correcting a similarity criterion for extracting the synonym expression based on correct / incorrect information indicating correctness of the extraction result of the extracted synonym expression and the similarity of the synonym expression.
The synonymous expression extraction method according to any one of claims 7 to 10 .
相互に類似する文章を対にした類似文章対から同義表現を抽出するための同義表現抽出用プログラムであって、
コンピュータに、
前記類似文章対の各文章に含まれる表現である共通表現間の構造関係、及び前記類似文章対のそれぞれの文章にのみ含まれる表現である相違表現と共通表現との間の構造関係を特定する構造関係特定処理と、
前記特定した構造関係に基づいて、前記類似文章対に含まれる相違表現を同義表現の候補として、前記同義表現の候補の類似度を求める類似度算出処理と、
前記類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び前記類似文章対の文章間で相違する相違表現群と前記共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、前記類似文章対から同義表現を抽出する同義表現抽出処理とを実行させ、
前記同義表現抽出処理で、前記求めた類似度に基づいて、前記同義表現の候補を同義表現として抽出するか否かを判定する処理を
実行させるための同義表現抽出用プログラム。
A synonymous expression extraction program for extracting synonymous expressions from a pair of similar sentences in which similar sentences are paired,
On the computer,
A structural relationship between common expressions that are expressions included in each sentence of the similar sentence pair and a structural relation between a difference expression that is included only in each sentence of the similar sentence pair and a common expression are specified. Structural relationship identification processing,
Based on the identified structural relationship, the difference expression included in the pair of similar sentences is regarded as a synonym candidate, and a similarity calculation process for obtaining the similarity of the candidate synonym expression;
The common expression group included in common in each sentence of the similar sentence pair is in a similar relative positional relationship in the sentence structure of each sentence, and the difference expression group that is different between the sentences of the similar sentence pair Based on the fact that the common expression group is in a similar relative positional relationship in the sentence structure of each sentence, the synonym expression extracting process for extracting the synonym expression from the similar sentence pair is executed,
A synonym expression extraction program for executing a process of determining whether or not to extract a candidate for the synonym expression as a synonym expression based on the obtained similarity in the synonym expression extraction process .
相互に類似する文章を対にした類似文章対から同義表現を抽出するための同義表現抽出用プログラムであって、A synonymous expression extraction program for extracting synonymous expressions from a pair of similar sentences in which similar sentences are paired,
コンピュータに、On the computer,
前記類似文章対の文章構造を特定する文章構造特定処理と、A sentence structure specifying process for specifying a sentence structure of the pair of similar sentences;
前記特定した文章構造に基づいて、前記類似文章対の各文章に共通して含まれる表現である共通表現と、前記類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出処理と、Based on the specified sentence structure, a common expression that is an expression that is commonly included in each sentence of the similar sentence pair and a difference expression that is an expression that is included only in each sentence of the similar sentence pair are extracted. Expression extraction processing,
前記抽出した共通表現及び相違表現に基づいて、前記類似文章対の各文章の文章構造における共通表現間の相対的位置関係、及び共通表現と相違表現との間の相対的位置関係を特定する位置関係特定処理と、Based on the extracted common expression and difference expression, a position for specifying a relative positional relationship between the common expressions in the sentence structure of each sentence of the similar sentence pair and a relative position relation between the common expression and the difference expressions Relationship identification processing;
前記特定した相対的位置関係に基づいて、構造関係の同一性から前記類似文章対における相違表現の類似度を算出する類似度算出処理と、Based on the identified relative positional relationship, a similarity calculation process for calculating the similarity of the difference expression in the similar sentence pair from the identity of the structural relationship;
前記類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び前記類似文章対の文章間で相違する相違表現群と前記共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、前記類似文章対から同義表現を抽出する同義表現抽出処理とを実行させ、The common expression group included in common in each sentence of the similar sentence pair is in a similar relative positional relationship in the sentence structure of each sentence, and the difference expression group that is different between the sentences of the similar sentence pair Based on the fact that the common expression group is in a similar relative positional relationship in the sentence structure of each sentence, the synonym expression extracting process for extracting the synonym expression from the similar sentence pair is executed,
前記同義表現抽出処理で、前記算出した類似度に基づいて、同義表現を抽出する処理をIn the synonym expression extraction process, a process of extracting a synonym expression based on the calculated similarity
実行させるための同義表現抽出用プログラム。Synonymous expression extraction program to be executed.
相互に類似する文章を対にした類似文章対から同義表現を抽出するための同義表現抽出用プログラムであって、A synonymous expression extraction program for extracting synonymous expressions from a pair of similar sentences in which similar sentences are paired,
コンピュータに、On the computer,
前記類似文章対の文章構造を特定する文章構造特定処理と、A sentence structure specifying process for specifying a sentence structure of the pair of similar sentences;
前記特定した文章構造に基づいて、前記類似文章対の各文章に共通して含まれる表現である共通表現と、前記類似文章対のそれぞれの文章にのみ含まれる表現である相違表現とを抽出する表現抽出処理と、Based on the specified sentence structure, a common expression that is an expression that is commonly included in each sentence of the similar sentence pair and a difference expression that is an expression that is included only in each sentence of the similar sentence pair are extracted. Expression extraction processing,
前記抽出した共通表現及び相違表現に基づいて、前記類似文章対の各文章の文章構造における共通表現と相違表現との間の相対的位置関係を特定する位置関係特定処理と、Based on the extracted common expression and difference expression, a positional relationship specifying process for specifying a relative positional relationship between the common expression and the difference expression in the sentence structure of each sentence of the similar sentence pair;
前記特定した相対的位置関係に基づいて、構造関係の同一性から前記類似文章対における相違表現の類似度を算出する類似度算出処理と、Based on the identified relative positional relationship, a similarity calculation process for calculating the similarity of the difference expression in the similar sentence pair from the identity of the structural relationship;
前記類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び前記類似文章対の文章間で相違する相違表現群と前記共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、前記類似文章対から同義表現を抽出する同義表現抽出処理とを実行させ、The common expression group included in common in each sentence of the similar sentence pair is in a similar relative positional relationship in the sentence structure of each sentence, and the difference expression group that is different between the sentences of the similar sentence pair Based on the fact that the common expression group is in a similar relative positional relationship in the sentence structure of each sentence, the synonym expression extracting process for extracting the synonym expression from the similar sentence pair is executed,
前記同義表現抽出処理で、前記算出した類似度に基づいて、同義表現を抽出する処理をIn the synonym expression extraction process, a process of extracting a synonym expression based on the calculated similarity
実行させるための同義表現抽出用プログラム。Synonymous expression extraction program to be executed.
コンピュータに、
類似文章の文章構造を類似した構造となるように、所定の文章変換規則を用いて、類似文章対に含まれる文章を変換する文章変換処理を実行させる
請求項12から請求項14のうちのいずれか1項に記載の同義表現抽出用プログラム。
On the computer,
Execute a sentence conversion process that converts sentences included in a pair of similar sentences using a predetermined sentence conversion rule so that the structure of similar sentences has a similar structure.
The synonymous expression extraction program according to any one of claims 12 to 14 .
コンピュータに、
同義表現抽出処理で、同義表現を抽出するための所定の類似基準に従って、類似文章対から同義表現を抽出する処理を実行させ、
前記抽出した同義表現の抽出結果の正誤を示す正誤情報と、同義表現の類似度とに基づいて、前記同義表現を抽出するための類似基準を補正する類似基準補正処理を実行させる
請求項12から請求項15のうちのいずれか1項に記載の同義表現抽出用プログラム。
On the computer,
In the synonym expression extraction process, according to a predetermined similarity criterion for extracting the synonym expression, a process of extracting the synonym expression from the pair of similar sentences is executed,
Based on correct / incorrect information indicating the correctness of the extraction result of the extracted synonym expression and the similarity of the synonym expression, a similarity criterion correction process for correcting the similarity criterion for extracting the synonym expression is executed.
The program for synonymous expression extraction according to any one of claims 12 to 15 .
JP2007071128A 2007-03-19 2007-03-19 Synonym expression extraction system, synonym expression extraction method, and synonym expression extraction program Active JP5076575B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007071128A JP5076575B2 (en) 2007-03-19 2007-03-19 Synonym expression extraction system, synonym expression extraction method, and synonym expression extraction program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007071128A JP5076575B2 (en) 2007-03-19 2007-03-19 Synonym expression extraction system, synonym expression extraction method, and synonym expression extraction program

Publications (2)

Publication Number Publication Date
JP2008234175A JP2008234175A (en) 2008-10-02
JP5076575B2 true JP5076575B2 (en) 2012-11-21

Family

ID=39906888

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007071128A Active JP5076575B2 (en) 2007-03-19 2007-03-19 Synonym expression extraction system, synonym expression extraction method, and synonym expression extraction program

Country Status (1)

Country Link
JP (1) JP5076575B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5363178B2 (en) * 2009-04-22 2013-12-11 Kddi株式会社 Correction candidate acquisition device, correction candidate acquisition system, correction candidate acquisition method, correction candidate acquisition program
US9436891B2 (en) * 2013-07-30 2016-09-06 GlobalFoundries, Inc. Discriminating synonymous expressions using images
JP6614152B2 (en) 2014-09-05 2019-12-04 日本電気株式会社 Text processing system, text processing method, and computer program
JP6080137B1 (en) * 2015-08-14 2017-02-15 Psソリューションズ株式会社 Interactive interface
CN106909600A (en) 2016-07-07 2017-06-30 阿里巴巴集团控股有限公司 The collection method and device of user context information

Also Published As

Publication number Publication date
JP2008234175A (en) 2008-10-02

Similar Documents

Publication Publication Date Title
EP0914637B1 (en) Document producing support system
Carley et al. AutoMap User's Guide 2013
RU2571373C2 (en) Method of analysing text data tonality
US8832205B2 (en) System and method for extracting calendar events from free-form email
KR101960115B1 (en) Summarization of conversation threads
US7158980B2 (en) Method and apparatus for computerized extracting of scheduling information from a natural language e-mail
US9619464B2 (en) Networked language translation system and method
US20100100815A1 (en) Email document parsing method and apparatus
US20070233465A1 (en) Information extracting apparatus, and information extracting method
US20140280314A1 (en) Dimensional Articulation and Cognium Organization for Information Retrieval Systems
US20060271526A1 (en) Method and apparatus for sociological data analysis
US20130006986A1 (en) Automatic Classification of Electronic Content Into Projects
EP1910949A2 (en) An improved method and apparatus for sociological data analysis
WO2013102052A1 (en) System and method for interactive automatic translation
US20160196313A1 (en) Personalized Question and Answer System Output Based on Personality Traits
WO2011091442A1 (en) System and method for optimizing search objects submitted to a data resource
JP5119693B2 (en) Document reference relation extraction system, expression unification system, document transmission evaluation system, method and program
US9110852B1 (en) Methods and systems for extracting information from text
JP5076575B2 (en) Synonym expression extraction system, synonym expression extraction method, and synonym expression extraction program
Egger et al. Natural language processing (NLP): An introduction: Making sense of textual data
US11574287B2 (en) Automatic document classification
JP2021089667A (en) Information processing apparatus and program
Švec et al. Building Corpora for Stylometric Research
Mörth et al. Towards a diatopic dictionary of spoken arabic varieties: challenges in compiling the VICAV dictionaries
Mustafa et al. Automatic Requirement Classification Technique: Using Different Stemming Algorithms

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100302

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120508

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120731

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120813

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150907

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5076575

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150