JP5119693B2 - Document reference relation extraction system, expression unification system, document transmission evaluation system, method and program - Google Patents

Document reference relation extraction system, expression unification system, document transmission evaluation system, method and program Download PDF

Info

Publication number
JP5119693B2
JP5119693B2 JP2007071127A JP2007071127A JP5119693B2 JP 5119693 B2 JP5119693 B2 JP 5119693B2 JP 2007071127 A JP2007071127 A JP 2007071127A JP 2007071127 A JP2007071127 A JP 2007071127A JP 5119693 B2 JP5119693 B2 JP 5119693B2
Authority
JP
Japan
Prior art keywords
transmission
document
expression
hierarchical structure
electronic document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007071127A
Other languages
Japanese (ja)
Other versions
JP2008234174A (en
Inventor
康高 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007071127A priority Critical patent/JP5119693B2/en
Publication of JP2008234174A publication Critical patent/JP2008234174A/en
Application granted granted Critical
Publication of JP5119693B2 publication Critical patent/JP5119693B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、文書参照関係抽出システム及びプログラムに関し、特に、電子文書伝達の階層構造を特定することにより、電子文書間の参照関係を効率的に抽出できる文書参照関係抽出システム及びプログラムに関する。また、本発明は、電子文書間に含まれる同義表現を統一する表現統一化システム、方法及びプログラムに関する。また、本発明は、電子文書の伝達状況を評価する文書伝達評価システム、方法及びプログラムに関する。   The present invention relates to a document reference relationship extraction system and program, and more particularly to a document reference relationship extraction system and program that can efficiently extract a reference relationship between electronic documents by specifying a hierarchical structure of electronic document transmission. The present invention also relates to an expression unifying system, method, and program for unifying synonymous expressions included between electronic documents. The present invention also relates to a document transmission evaluation system, method, and program for evaluating the transmission status of an electronic document.

一般に、同一の事物や概念に対して異なる表現を用いて、電子文書の作成や編集が行われることがある。このように、同一の事物や概念に対して異なる表現が用いられる語や句を同義表現と呼ぶ。同義表現の存在は、電子文書における語や句の不一致を引き起こし、情報検索や文書分類、機械翻訳等の自然言語処理の効率を低下させる。例えば、文書検索において「首相」をキーワードに検索しても、同義である「内閣総理大臣」という語を用いて書かれた電子文書は検索漏れになる。また、自然言語処理が低効率になるだけではなく、製品開発プロジェクトのように多くの人々が関わり合いながら作業するような環境においては、作成される電子文書中の同義表現が意思伝達を阻害する原因となる。   In general, electronic documents may be created and edited using different expressions for the same thing or concept. Thus, a word or phrase in which different expressions are used for the same thing or concept is called a synonymous expression. The existence of synonymous expressions causes mismatches in terms of words and phrases in electronic documents, and reduces the efficiency of natural language processing such as information retrieval, document classification, and machine translation. For example, even if a document search is performed using “Prime Minister” as a keyword, an electronic document written using the word “Prime Minister”, which is synonymous, is omitted. In addition to the low efficiency of natural language processing, synonymous expressions in the created electronic document impede communication in an environment where many people are involved in a product development project. Cause.

例えば、ある人が作成した電子文書において「表現統一機能」と表現されている物が、他の人が作成した電子文書では「語彙ブレ抑制機能」と表現されている場合、第三者がこれらの表現を同一の物を表していると認識することは難しい。これに対して用語集を作成することにより表現の統一を支援することも試みられているが、その用語集が有効活用されないことも多い。その理由は、自らが作成する電子文書内においては各人とも統一した表現を用いていることが多いため同義表現の使用に気づきにくいことや、用語集の利用を負担に感じ使用を避ける傾向があるためである。また、電子文書の作成者が、相手によって意図的に表現を変えることもある。   For example, if an electronic document created by one person is expressed as an “unification expression function” and an electronic document created by another person is expressed as a “vocabulary blur suppression function”, a third party may It is difficult to recognize that the expression of represents the same thing. In contrast, attempts have been made to support the unification of expressions by creating a glossary, but the glossary is often not used effectively. The reason for this is that, in many cases, each person uses a unified expression in the electronic document that they create, so it is difficult to notice the use of synonymous expressions, and there is a tendency to avoid using it because of the burden of using the glossary. Because there is. In addition, the creator of the electronic document may intentionally change the expression depending on the other party.

さらに、情報共有するために作成した電子文書を他の人に伝達する(例えば、電子メール等を用いて転送する)過程において、その電子文書を参照した人が表現を修正することにより、同義表現を含む電子文書(以下、パラレルコーパスと呼ぶ)が発生することもある。   Furthermore, in the process of transmitting an electronic document created for information sharing to another person (for example, transferring it using e-mail or the like), the person who referred to the electronic document modifies the expression, thereby synonymous expression An electronic document (hereinafter referred to as a parallel corpus) may be generated.

上記のような背景の下、文章の参照関係を抽出し、誰と誰とによって作成された電子文書間において同義表現が発生しているかを明確にでき、且つ、各人に同義表現の使用を自覚させ、同義表現を統一できる表現統一化技術が求められている。   Based on the above background, we can extract the reference relationship of sentences, clarify who and who have created synonymous expressions, and use synonymous expressions for each person. There is a need for an expression unification technology that can make people aware and unify synonymous expressions.

従来、電子文書の参照関係を抽出するためには、電子文書中のリファレンス情報や電子文書作成時にどのファイルを同時に開いていたか等の情報を用いて、参照元の電子文書を抽出する技術が用いられてきた。   Conventionally, in order to extract the reference relationship of an electronic document, a technique for extracting an electronic document as a reference source using reference information in the electronic document and information such as which file was opened simultaneously when the electronic document was created has been used. Has been.

例えば、従来の計算機を利用した業務誘導支援システム及び業務誘導支援方法の一例が特許文献1に記載されている。特許文献1に記載された計算機を利用した業務誘導支援システム及び業務誘導支援方法は、複数の資料から必要文書を効率よく抽出するために用いられる。特許文献1に記載された計算機を利用した業務誘導支援システム及び業務誘導支援方法は、稀な単語の出現頻度に基づく電子文書の類似性や、設計書かカタログかというような電子文書のカテゴリによる類似性、電子文書作成時に同時に開かれていた日時の重なりとその累計時間、1つの電子文書を完成させるために電子文書が開かれた回数である参照頻度に基づいて、電子文書間の関連付けを行う処理を行う。   For example, Patent Document 1 describes an example of a business guidance support system and a business guidance support method using a conventional computer. A business guidance support system and a business guidance support method using a computer described in Patent Document 1 are used to efficiently extract necessary documents from a plurality of materials. The business guidance support system and the business guidance support method using a computer described in Patent Document 1 are similarities of electronic documents based on the appearance frequency of rare words, and similarities based on categories of electronic documents such as design documents or catalogs. The electronic documents are related to each other based on the reference frequency, which is the number of times an electronic document is opened to complete one electronic document. Process.

また、例えば、従来の文書管理装置の一例が特許文献2に記載されている。特許文献2に記載された文書管理装置は、関連文書情報を人手に頼らず効率的に抽出・管理するために用いられている。特許文献2に記載された文書管理装置は、電子文書登録時にHTML文書等のフォーマットに基づき、登録する電子文書中に他文書を参照するリンクがあるか否かを検査し、他文書への参照を検出した場合には、自動的に関連文書情報として管理データベースに登録する。また、登録する電子文書中に記載された参照先の電子文書が、電子文書格納先に未登録である場合、登録する電子文書の所有者へその旨を通知する処理を行う。また、電子文書の改版時には、管理データベースを検索して、改版対象の電子文書がどの電子文書から参照されているかを調べ、他文書から参照されている場合には、改版者に、改版しようとしている電子文書が、どの電子文書から参照されているかを通知するとともに、上記の他文書の所有者に改版対象文書が改版されることを通知する処理を行う。   For example, Patent Document 2 describes an example of a conventional document management apparatus. The document management apparatus described in Patent Document 2 is used to efficiently extract and manage related document information without relying on human hands. The document management apparatus described in Patent Document 2 checks whether there is a link referring to another document in the electronic document to be registered based on the format of the HTML document or the like when registering the electronic document, and refers to the other document. Is automatically registered in the management database as related document information. In addition, when the reference electronic document described in the electronic document to be registered is not registered in the electronic document storage destination, a process for notifying the owner of the electronic document to be registered is performed. Also, when an electronic document is revised, the management database is searched to find out which electronic document is referred to by the electronic document to be revised. The electronic document is notified from which electronic document is referenced, and the process of notifying the owner of the other document that the revision target document is revised is performed.

また、例えば、従来の文書作成装置、文書作成方法、及び文書作成プログラムの一例が特許文献3に記載されている。この特許文献3に記載された文書作成装置、文書作成方法、及び文書作成プログラムは、システムの利用者が必要なとき必要な電子文書に高速にアクセスすることを実現する際に用いられる。特許文献3に記載された文書作成装置、文書作成方法、及び文書作成プログラムは、電子文書を保存する際、保存日時とその時点でオープン中の他の電子文書の名前との組が同時編集文書情報として記録される。一方、上記文書を別名で保存する都度、それぞれ、元文書情報として保存前の名前が記録され、同時編集文書情報として保存日時とその時点でオープン中の他の電子文書の名前が記録される。これにより、特許文献3に記載された文書作成装置、文書作成方法、及び文書作成プログラムによれば、電子文書作成の元となった電子文書や同時に開かれていたことがある電子文書等に高速にアクセスすることが可能となる。なお、関連する電子文書については、システムの利用者が手動で参照文書を登録することもできる。   Also, for example, Patent Document 3 describes an example of a conventional document creation device, document creation method, and document creation program. The document creation apparatus, document creation method, and document creation program described in Patent Document 3 are used when a system user realizes high-speed access to a necessary electronic document when necessary. In the document creation apparatus, document creation method, and document creation program described in Patent Document 3, when an electronic document is saved, a combination of the save date and the name of another electronic document opened at that time is a simultaneously edited document. Recorded as information. On the other hand, each time the document is saved with a different name, the name before saving is recorded as original document information, and the date and time of saving and the name of another electronic document opened at that time are recorded as simultaneously edited document information. As a result, according to the document creation apparatus, document creation method, and document creation program described in Patent Document 3, it is possible to speed up the processing of an electronic document that is the basis for creating an electronic document or an electronic document that has been opened at the same time. Can be accessed. For related electronic documents, a user of the system can also manually register a reference document.

特開2004−220215号公報(段落0013−0026)Japanese Patent Laying-Open No. 2004-220215 (paragraphs 0013-0026) 特開2004−348313号公報(段落0005−0015、図5)Japanese Patent Laying-Open No. 2004-348313 (paragraphs 0005-0015, FIG. 5) 特開2006−126962号公報(段落0034−0064、図4)JP 2006-126962 A (paragraph 0034-0064, FIG. 4)

しかし、特許文献1〜3に記載されたシステムや装置、方法、プログラムでは、第1の問題点として、パラレルコーパスを含む文書の参照関係を効率的に抽出することができない。例えば、特許文献1に記載されたシステムや方法では、同時に開いている電子ファイルが必ずしも参照している文書の電子ファイルとは限らない。また、稀な単語の出現頻度により参照関係を抽出する場合、電子文書間の全通りを比較する必要があり、多くの計算時間を要する。そのため、効率的にパラレルコーパスを抽出することはできない。   However, the systems, apparatuses, methods, and programs described in Patent Documents 1 to 3 cannot efficiently extract the reference relationship of documents including a parallel corpus as a first problem. For example, in the system and method described in Patent Document 1, an electronic file that is open at the same time is not necessarily an electronic file of a document that is referred to. In addition, when extracting the reference relationship based on the appearance frequency of rare words, it is necessary to compare all the ways between electronic documents, which requires a lot of calculation time. Therefore, a parallel corpus cannot be extracted efficiently.

また、特許文献2に記載された装置や方法では、HTML等のフォーマットに則った電子文書にしか適用することができない。また、参照関係もハイパーリンクによって与えられるものを想定しているため、ある語とその説明が書かれた電子文書という参照関係の抽出には向いているが、パラレルコーパスの抽出には向かない。さらに、特許文献3に記載された装置や方法、プログラムでは、特許文献1に記載されたシステムや方法と同様に、同時に開いていた電子文書が同じ内容を含む電子文書であるとは限らないため、効率的にパラレルコーパスを抽出することはできない。   Further, the apparatus and method described in Patent Document 2 can be applied only to an electronic document conforming to a format such as HTML. Also, since it is assumed that the reference relationship is given by a hyperlink, it is suitable for extracting a reference relationship of an electronic document in which a word and its description are written, but is not suitable for extracting a parallel corpus. Further, in the apparatus, method, and program described in Patent Document 3, as in the system and method described in Patent Document 1, an electronic document that is opened at the same time is not necessarily an electronic document that includes the same content. The parallel corpus cannot be extracted efficiently.

また、第2の問題点として、特許文献1〜3に記載されたシステムや装置、方法、プログラムでは、作成された電子文書を参照した人及びその時期の適切さを明確にすることができない。特許文献1〜3に記載されたシステムや装置、方法、プログラムは、上記のように説明した通り、どの電子文書がどの電子文書を参照し作成されたものであるかを抽出しており、参照時期や参照した人の適切さに関して、なんら考慮していない。そのため、参照する予定の人が参照しているか、参照予定のない人が参照していないか、参照すべき時期に参照がなされていたか等を把握することができない。   As a second problem, the systems, apparatuses, methods, and programs described in Patent Documents 1 to 3 cannot clearly identify the person who referred to the created electronic document and the appropriateness of the time. As described above, the systems, apparatuses, methods, and programs described in Patent Documents 1 to 3 extract which electronic document is created by referring to which electronic document. No consideration is given to the timing and appropriateness of the referee. For this reason, it is impossible to grasp whether the person who is scheduled to refer is referring, the person who is not scheduled to refer is not referring, or whether the reference is made at the time of reference.

そこで、本発明は、電子文書伝達の階層構造を特定することにより、パラレルコーパスを効率的に抽出できる文書参照関係抽出システム、表現統一化システム、文書伝達評価システム、表現統一化方法、文書伝達評価方法、文書参照関係抽出プログラム、表現統一化プログラム及び文書伝達評価プログラムを提供することを目的とする。   Accordingly, the present invention provides a document reference relation extraction system, an expression unification system, a document transfer evaluation system, an expression unification method, a document transfer evaluation, which can efficiently extract a parallel corpus by specifying a hierarchical structure of electronic document transfer. It is an object to provide a method, a document reference relationship extraction program, an expression unification program, and a document transmission evaluation program.

また、本発明は、電子文書の伝達計画及び実際の伝達状況との差を分析することにより、電子文書を参照した人及びその時期の適切さを明確にすることができる文書参照関係抽出システム、表現統一化システム、文書伝達評価システム、表現統一化方法、文書伝達評価方法、文書参照関係抽出プログラム、表現統一化プログラム及び文書伝達評価プログラムを提供することを目的とする。   The present invention also provides a document reference relation extraction system that can clarify the appropriateness of the person who referred to the electronic document and the time period by analyzing the difference between the transmission plan of the electronic document and the actual transmission situation, An object is to provide an expression unification system, a document transfer evaluation system, an expression unification method, a document transfer evaluation method, a document reference relation extraction program, an expression unification program, and a document transfer evaluation program.

本発明による文書参照関係抽出システムは、相互に同義表現を含む電子文書であるパラレルコーパスを抽出するために、電子文書間の参照関係を抽出する文書参照関係抽出システムであって、電子文書の伝達計画を示す伝達計画情報に基づいて、電子文書間に参照関係がない文書伝達を示す非参照関係情報を抽出する非参照関係抽出手段と、メンバ間で伝達される電子文書に対する文書伝達の階層構造を特定する階層構造特定手段(例えば、階層構造特定手段130によって実現される)と、階層構造特定手段が特定した文書伝達の階層構造に基づいて、文書伝達前後の電子文書間の参照関係を抽出する参照関係抽出手段とを備え、階層構造特定手段は、電子文書の伝達記録を示す伝達記録情報に基づいて、前期伝達計画情報に示される伝達計画に対応する伝達記録を特定し、特定した伝達記録に基づいて、電子文書の伝達の開始者から末端者までの階層構造を特定し、非参照関係抽出手段が抽出した非参照関係情報に基づいて、電子文書の伝達の開始者から末端者までの階層構造を、非参照関係である文書伝達を含まずに特定することを特徴とする。 Article reference relationship extraction system according to the present invention, in order to extract the parallel corpus is an electronic document including the synonymous expression mutually, a document reference relationship extraction system for extracting a reference relationship between the electronic document, the transmission of the electronic document Non-reference relationship extraction means for extracting non-reference relationship information indicating document transmission that does not have a reference relationship between electronic documents based on transmission plan information indicating a plan, and a document transmission hierarchical structure for electronic documents transmitted between members Based on the hierarchical structure specifying means (for example, realized by the hierarchical structure specifying means 130) and the document transmission hierarchical structure specified by the hierarchical structure specifying means, the reference relationship between electronic documents before and after document transmission is extracted. And a hierarchical structure specifying means, based on the transmission record information indicating the transmission record of the electronic document, the transmission shown in the previous transmission plan information Identify the transfer record corresponding to the image, identify the hierarchical structure from the start to the end of the transmission of the electronic document based on the specified transfer record, and based on the non-reference relationship information extracted by the non-reference relationship extraction means Thus, the hierarchical structure from the start to the end of the transmission of the electronic document is specified without including the non-reference relationship document transmission .

本発明による表現統一化システムは、相互に同義表現を含む電子文書であるパラレルコーパスを抽出し、パラレルコーパスに含まれる同義表現を統一する表現統一化システムであって、電子文書の伝達計画を示す伝達計画情報(例えば、コミュニケーション計画)を予め記憶する伝達計画記憶手段(例えば、コミュニケーション計画データベース110によって実現される)と、電子文書の伝達記録を示す伝達記録情報(例えば、伝達文書情報)を記憶する伝達記録記憶手段(例えば、伝達文書データベース330によって実現される)と、伝達計画記憶手段が記憶する伝達計画情報に基づいて、電子文書間に参照関係がない文書伝達を示す非参照関係情報(例えば、非参照関係表)を抽出する非参照関係抽出手段(例えば、非参照関係抽出手段120によって実現される)と、メンバ間で伝達される電子文書に対する文書伝達の階層構造を特定する階層構造特定手段(例えば、階層構造特定手段130によって実現される)とを備え、階層構造特定手段は、伝達記録記憶手段が記憶する伝達記録情報に基づいて、伝達計画記憶手段が予め記憶する伝達計画情報に示される伝達計画に対応する伝達記録を特定し、特定した伝達記録に基づいて、電子文書の伝達の開始者から末端者までの階層構造を特定し、非参照関係抽出手段が抽出した非参照関係情報に基づいて、電子文書の伝達の開始者から末端者までの階層構造を、非参照関係である文書伝達を含まずに特定することを特徴とする。   The expression unification system according to the present invention is an expression unification system that extracts a parallel corpus that is an electronic document including synonymous expressions and unifies synonymous expressions included in the parallel corpus, and shows a transmission plan of the electronic document. Transmission plan storage means (for example, realized by the communication plan database 110) for storing transmission plan information (for example, communication plan) in advance, and transmission record information (for example, transmission document information) indicating a transmission record of an electronic document are stored. Non-reference relationship information (for example, realized by the transmission document database 330) and non-reference relationship information indicating document transmission having no reference relationship between electronic documents based on the transmission plan information stored in the transmission plan storage unit For example, non-reference relationship extraction means for extracting non-reference relationship table (for example, non-reference relationship extraction) And a hierarchical structure specifying means (for example, realized by the hierarchical structure specifying means 130) for specifying a hierarchical structure of document transmission for an electronic document transmitted between members. The means identifies the transmission record corresponding to the transmission plan indicated in the transmission plan information stored in advance by the transmission plan storage means based on the transmission record information stored in the transmission record storage means, and based on the identified transmission record, Identify the hierarchical structure from the start to the end of the electronic document transmission, and based on the non-reference relationship information extracted by the non-reference relationship extraction means, the hierarchical structure from the start of the electronic document transmission to the end, It is characterized in that it is specified without including a document transmission which is a non-reference relationship.

また、表現統一化システムは、階層構造特定手段が特定した文書伝達の階層構造に基づいて、パラレルコーパスを抽出するパラレルコーパス抽出手段(例えば、パラレルコーパス抽出手段340によって実現される)を備えたものであってもよい。   The expression unification system includes a parallel corpus extraction unit (for example, realized by the parallel corpus extraction unit 340) that extracts a parallel corpus based on the hierarchical structure of document transmission specified by the hierarchical structure specification unit. It may be.

また、表現統一化システムにおいて、パラレルコーパス抽出手段は、階層構造特定手段が特定した文書伝達の階層構造に基づいて、文書伝達における中継者を示す情報を抽出することによって、抽出した情報に示される中継者によって作成された電子文書をパラレルコーパスとして抽出するものであってもよい。   Further, in the expression unification system, the parallel corpus extraction means is indicated in the extracted information by extracting information indicating a relayer in document transmission based on the document transmission hierarchical structure specified by the hierarchical structure specifying means. An electronic document created by a relay person may be extracted as a parallel corpus.

また、表現統一化システムは、伝達記録記憶手段が記憶する伝達記録情報に示される電子文書の伝達記録と、階層構造特定手段が特定した文書伝達の階層構造とに基づいて、同一の文書伝達で伝達された電子文書を参照したメンバを特定する参照者特定手段(例えば、階層構造特定手段130によって実現される)を備えたものであってもよい。   Also, the expression unification system can perform the same document transmission based on the transmission record of the electronic document indicated in the transmission record information stored in the transmission record storage means and the hierarchical structure of the document transmission specified by the hierarchical structure specifying means. It may be provided with a referrer specifying means (for example, realized by the hierarchical structure specifying means 130) for specifying a member who refers to the transmitted electronic document.

また、表現統一化システムは、階層構造特定手段が特定した文書伝達の階層構造を示す情報を記憶する階層構造記憶手段(例えば、階層構造データベース370によって実現される)と、電子文書に含まれる同義表現を修正する修正手段(例えば、修正手段380によって実現される)とを備え、修正手段は、電子文書中の文字列に対する修正文字列を入力し、電子文書を含む文書伝達の階層構造を示す情報を階層構造記憶手段から抽出し、抽出した文書伝達の階層構造を示す情報に含まれる伝達記録を全て抽出し、抽出した伝達記録に対応する全ての電子文書とメンバを示す情報とを抽出し、抽出した電子文書に基づいて修正対象の文字列を検索して抽出し、修正対象の文字列を修正文字列に修正するものであってもよい。   In addition, the expression unification system includes hierarchical structure storage means (for example, realized by the hierarchical structure database 370) that stores information indicating the hierarchical structure of document transmission specified by the hierarchical structure specifying means, and synonyms included in the electronic document. Correction means for correcting the expression (for example, realized by the correction means 380), the correction means inputs a correction character string for the character string in the electronic document, and indicates a hierarchical structure of document transmission including the electronic document Extract information from hierarchical structure storage means, extract all transmission records included in the extracted information indicating the hierarchical structure of document transmission, extract all electronic documents corresponding to the extracted transmission records and information indicating members The character string to be corrected may be searched and extracted based on the extracted electronic document, and the character string to be corrected may be corrected to the corrected character string.

また、表現統一化システムにおいて、階層構造特定手段は、伝達計画記憶手段が記憶する伝達計画情報に基づいて、予め計画されている文書伝達の階層構造を特定することによって、電子文書間の参照関係を抽出するものであってもよい。   Further, in the expression unification system, the hierarchical structure specifying means specifies the hierarchical structure of document transmission planned in advance based on the transmission plan information stored in the transmission plan storage means, so that the reference relationship between electronic documents is determined. May be extracted.

また、表現統一化システムにおいて、階層構造特定手段は、伝達計画記憶手段が記憶する伝達計画情報に基づいて、電子文書の伝達の開始者から末端者までの階層構造を、非参照関係である文書伝達を含まずに特定するものであってもよい。   Further, in the expression unification system, the hierarchical structure specifying means converts the hierarchical structure from the transmission start to the end of the electronic document based on the transmission plan information stored in the transmission plan storage means into a document having a non-reference relationship. You may specify without including transmission.

本発明による表現統一化方法は、相互に同義表現を含む電子文書であるパラレルコーパスを抽出し、パラレルコーパスに含まれる同義表現を統一する表現統一化方法であって、予め記憶する電子文書の伝達計画を示す伝達計画情報に基づいて、電子文書間に参照関係がない文書伝達を示す非参照関係情報を抽出する非参照関係抽出ステップと、メンバ間で伝達される電子文書に対する文書伝達の階層構造を特定する階層構造特定ステップとを含み、階層構造特定ステップで、記憶する電子文書の伝達記録を示す伝達記録情報に基づいて、予め記憶する伝達計画情報に示される伝達計画に対応する伝達記録を特定し、特定した伝達記録に基づいて、電子文書の伝達の開始者から末端者までの階層構造を特定し、抽出した非参照関係情報に基づいて、電子文書の伝達の開始者から末端者までの階層構造を、非参照関係である文書伝達を含まずに特定することを特徴とする。   The expression unifying method according to the present invention is an expression unifying method for extracting a parallel corpus that is an electronic document including synonymous expressions and unifying synonymous expressions included in the parallel corpus, and transmitting an electronic document stored in advance. A non-reference relationship extraction step for extracting non-reference relationship information indicating document transmission that does not have a reference relationship between electronic documents based on transmission plan information indicating a plan, and a hierarchical structure of document transmission for electronic documents transmitted between members A transmission record corresponding to the transmission plan indicated in the transmission plan information stored in advance based on the transmission record information indicating the transmission record of the electronic document to be stored in the hierarchical structure identification step. Identify and identify the hierarchical structure from the beginning to the end of the transmission of electronic documents based on the identified transmission records, and based on the extracted non-reference relationship information The hierarchical structure of the initiator of the transfer of the electronic document to the end user, and identifies without the document transfer is a non-reference relations.

また、表現統一化方法は、特定した文書伝達の階層構造に基づいて、パラレルコーパスを抽出するパラレルコーパス抽出ステップを含むものであってもよい。   The expression unification method may include a parallel corpus extraction step of extracting a parallel corpus based on the specified hierarchical structure of document transmission.

また、表現統一化方法は、特定した文書伝達の階層構造を示す情報をデータベースに記憶する階層構造記憶ステップと、電子文書に含まれる同義表現を修正する修正ステップを含み、修正ステップで、電子文書中の文字列に対する修正文字列を入力し、電子文書を含む文書伝達の階層構造を示す情報をデータベースから抽出し、抽出した文書伝達の階層構造を示す情報に含まれる伝達記録を全て抽出し、抽出した伝達記録に対応する全ての電子文書とメンバを示す情報とを抽出し、抽出した電子文書に基づいて修正対象の文字列を検索して抽出し、修正対象の文字列を修正文字列に修正するものであってもよい。   The expression unifying method includes a hierarchical structure storage step for storing information indicating the identified hierarchical structure of document transmission in a database, and a correction step for correcting a synonymous expression included in the electronic document. Input a modified character string for the character string in the middle, extract information indicating the hierarchical structure of document transmission including electronic documents from the database, extract all transmission records included in the extracted information indicating the hierarchical structure of document transmission, All electronic documents corresponding to the extracted transmission record and information indicating members are extracted, and a character string to be corrected is searched and extracted based on the extracted electronic document, and the character string to be corrected is converted into a corrected character string. It may be corrected.

また、表現統一化方法は、階層構造特定ステップで、予め記憶する伝達計画情報に基づいて、予め計画されている文書伝達の階層構造を特定することによって、電子文書間の参照関係を抽出するものであってもよい。   The expression unification method is a method for extracting a reference relation between electronic documents by specifying a hierarchical structure of document transmission planned in advance based on transmission plan information stored in advance in a hierarchical structure specifying step. It may be.

本発明による表現統一化プログラムは、相互に同義表現を含む電子文書であるパラレルコーパスを抽出し、パラレルコーパスに含まれる同義表現を統一するための表現統一化プログラムであって、コンピュータに、予めデータベースに記憶する電子文書の伝達計画を示す伝達計画情報に基づいて、電子文書間に参照関係がない文書伝達を示す非参照関係情報を抽出する非参照関係抽出処理と、メンバ間で伝達される電子文書に対する文書伝達の階層構造を特定する階層構造特定処理とを実行させ、階層構造特定処理で、データベースに記憶する電子文書の伝達記録を示す伝達記録情報に基づいて、予めデータベースに記憶する伝達計画情報に示される伝達計画に対応する伝達記録を特定する処理と、特定した伝達記録に基づいて、電子文書の伝達の開始者から末端者までの階層構造を特定する処理と、抽出した非参照関係情報に基づいて、電子文書の伝達の開始者から末端者までの階層構造を、非参照関係である文書伝達を含まずに特定する処理とを実行させるためのものである。   An expression unification program according to the present invention is an expression unification program for extracting a parallel corpus, which is an electronic document including synonymous expressions, and unifying synonymous expressions included in the parallel corpus. Non-reference relationship extraction processing for extracting non-reference relationship information indicating document transmission that does not have a reference relationship between electronic documents based on transmission plan information indicating a transmission plan of an electronic document stored in the electronic document, and electrons transmitted between members A transmission plan for storing in a database in advance based on transmission record information indicating a transmission record of an electronic document stored in the database by executing a hierarchical structure specifying process for specifying a hierarchical structure of document transmission for the document. The process of identifying the transmission record corresponding to the transmission plan indicated in the information and the electronic document based on the identified transmission record Process to identify the hierarchical structure from the starter to the end of the document, and the non-reference relationship of the hierarchical structure from the starter to the end of the transmission of the electronic document based on the extracted non-reference relationship information This is to execute the process of specifying without including.

また、表現統一化プログラムは、コンピュータに、特定した文書伝達の階層構造に基づいて、パラレルコーパスを抽出するパラレルコーパス抽出処理を実行させるものであってもよい。   The expression unification program may cause a computer to execute a parallel corpus extraction process for extracting a parallel corpus based on a specified document transmission hierarchical structure.

また、表現統一化プログラムは、コンピュータに、特定した文書伝達の階層構造を示す情報をデータベースに記憶させる階層構造記憶処理と、電子文書に含まれる同義表現を修正する修正処理とを実行させ、修正処理で、電子文書中の文字列に対する修正文字列を入力する処理と、電子文書を含む文書伝達の階層構造を示す情報をデータベースから抽出する処理と、抽出した文書伝達の階層構造を示す情報に含まれる伝達記録を全て抽出する処理と、抽出した伝達記録に対応する全ての電子文書とメンバを示す情報とを抽出する処理と、抽出した電子文書に基づいて修正対象の文字列を検索して抽出する処理と、修正対象の文字列を修正文字列に修正する処理とを実行させるものであってもよい。   Further, the expression unification program causes the computer to execute a hierarchical structure storage process for storing information indicating the specified document transmission hierarchical structure in a database and a correction process for correcting the synonymous expression included in the electronic document. In processing, processing for inputting a corrected character string for a character string in the electronic document, processing for extracting information indicating the hierarchical structure of document transmission including the electronic document from the database, and information indicating the extracted hierarchical structure of document transmission A process for extracting all included transfer records, a process for extracting all electronic documents corresponding to the extracted transfer records and information indicating members, and searching for a character string to be corrected based on the extracted electronic documents. You may perform the process which extracts, and the process which corrects the character string of correction object to a correction character string.

また、表現統一化プログラムは、コンピュータに、階層構造特定処理で、予めデータベースに記憶する伝達計画情報に基づいて、予め計画されている文書伝達の階層構造を特定することによって、電子文書間の参照関係を抽出する処理を実行させるものであってもよい。   In addition, the expression unification program refers to electronic documents by identifying the hierarchical structure of document transmission planned in advance based on the transmission plan information stored in the database in advance in the hierarchical structure specifying process. You may perform the process which extracts a relationship.

本発明による第1のシステムは、「どの文書を」、「誰から」、「誰へ」、「いつ」、「どのように」伝達するかをまとめたコミュニケーション計画を記憶するコミュニケーション計画データベースと、「どの文書が」、「誰から」、「誰へ」、「いつ」、「どのように」伝達されたかの記録をまとめた伝達文書情報を記憶する伝達文書データベースと、コミュニケーション計画に基づいて文書伝達の非参照関係を抽出する非参照関係抽出手段と、文書伝達の階層構造を特定し電子文書間の参照関係を抽出する階層構造特定手段と、抽出した参照関係に基づいて文書伝達の中継者を特定しパラレルコーパスを抽出するパラレルコーパス抽出手段とを備えることを特徴とする。   A first system according to the present invention includes a communication plan database for storing a communication plan that summarizes what documents are to be transmitted, from whom, to whom, when, and how. A communication document database that stores transmission document information that summarizes the records of which documents were transmitted from whom, from whom, to whom, when, and how, and document transmission based on the communication plan A non-reference relation extracting means for extracting the non-reference relation of the document, a hierarchical structure specifying means for specifying the hierarchical structure of the document transmission and extracting the reference relation between the electronic documents, and a document transmission relay person based on the extracted reference relation. And a parallel corpus extracting means for identifying and extracting the parallel corpus.

上記のような構成を採用し、電子文書の伝達記録に基づいて文書伝達の階層構造を特定でき、電子文書の参照関係を抽出できることにより、本発明の第1の目的を達成することができる。   By adopting the configuration as described above, the hierarchical structure of document transmission can be specified based on the electronic document transmission record, and the reference relationship of the electronic document can be extracted, so that the first object of the present invention can be achieved.

また、本発明による第2のシステムは、第1のシステムの構成要素のうち、パラレルコーパス抽出手段に代えて、階層構造を記憶する階層構造データベースと、文書修正を行い階層構造の情報を用いて文書を修正した旨を伝えるメンバを特定する修正手段とを有する。   Further, the second system according to the present invention uses a hierarchical structure database that stores a hierarchical structure instead of the parallel corpus extraction means among the components of the first system, and uses the hierarchical structure information by performing document correction. Correction means for specifying a member that reports that the document has been corrected.

上記のような構成を採用し、伝達された電子文書を修正できるとともに、各電子文書が誰に参照されているかを特定できることにより、本発明の第2の目的を達成することができる。   The second object of the present invention can be achieved by adopting the above-described configuration and correcting the transmitted electronic document and specifying who is referring to each electronic document.

また、本発明による第3のシステムは、第1のシステムの構成要素のうち、パラレルコーパス抽出手段と伝達文書データベースとに代えて、コミュニケーション計画に基づいて文書伝達の階層構造を特定する処理を有する階層構造特定手段を備えることを特徴とする。すなわち、第3のシステムが有する階層構造特定手段は、伝達文書情報を利用しない点で、第1のシステムが有する階層構造特定手段と異なる。   Further, the third system according to the present invention has processing for specifying a hierarchical structure of document transmission based on a communication plan, instead of the parallel corpus extraction means and the transmission document database among the components of the first system. A hierarchical structure specifying means is provided. That is, the hierarchical structure specifying unit included in the third system is different from the hierarchical structure specifying unit included in the first system in that the transmission document information is not used.

上記のような構成を採用し、予め与えられるコミュニケーション計画に基づいて文書参照関係を抽出できることにより、本発明の第3の目的を達成することができる。   By adopting the configuration as described above and extracting a document reference relationship based on a communication plan given in advance, the third object of the present invention can be achieved.

また、本発明による第4のシステムは、第3のシステムの構成要素に加えて、電子文書の伝達記録を記憶する伝達文書情報データベースと、コミュニケーション計画と伝達文書情報との間の差分を抽出する差分抽出手段とを備えることを特徴とする。   In addition to the components of the third system, the fourth system according to the present invention extracts a transmission document information database storing a transmission record of an electronic document, and a difference between the communication plan and the transmission document information. And a difference extraction means.

上記のような構成を採用し、電子文書を参照したメンバ、及びその文書伝達の時期の適切さを明確に評価することができ、本発明の第4の目的を達成することができる。   By adopting the configuration as described above, it is possible to clearly evaluate the appropriateness of members referring to electronic documents and the timing of document transmission, and the fourth object of the present invention can be achieved.

本発明によれば、パラレルコーパスを抽出するために、メンバ間で伝達される電子文書に対する文書伝達の階層構造を特定するので、電子文書伝達の階層構造を特定することにより、パラレルコーパスを効率的に抽出することができる。   According to the present invention, in order to extract a parallel corpus, the hierarchical structure of document transmission for an electronic document transmitted between members is specified. Therefore, by specifying the hierarchical structure of electronic document transmission, the parallel corpus is efficiently Can be extracted.

また、本発明によれば、通常、情報共有するためにネットワーク状になる電子文書の伝達関係から特定した文書伝達の階層構造に基づいて、電子文書間の参照関係を抽出することができる。また、パラレルコーパスを生成する可能性が高い文書伝達の中継者を特定できる。そのため、一連の文書伝達における全ての電子文書を比較することなく、効率的にパラレルコーパスを抽出することができる。従って、電子文書の伝達記録に基づいて、電子文書のパラレルコーパスを効率的に抽出することができる。   In addition, according to the present invention, it is possible to extract the reference relationship between electronic documents based on the hierarchical structure of document transmission specified from the transmission relationship of electronic documents that are usually networked for information sharing. Further, it is possible to identify a document transfer relay person who is highly likely to generate a parallel corpus. Therefore, a parallel corpus can be efficiently extracted without comparing all electronic documents in a series of document transmissions. Therefore, the parallel corpus of the electronic document can be efficiently extracted based on the electronic document transmission record.

また、本発明によれば、コミュニケーション計画及び伝達記録に基づいて2つの文書伝達構造を特定することができ、電子文書の伝達記録と伝達計画との差分(ギャップ)を求めることにより、文書伝達の遅延、余分な文書伝達、及び文書伝達の不足等を抽出することができる。そのため、コミュニケーション計画と伝達記録との差に基づいて、文書伝達状態を評価することができる。   In addition, according to the present invention, two document transmission structures can be specified based on the communication plan and the transmission record, and by obtaining a difference (gap) between the transmission record of the electronic document and the transmission plan, Delays, extra document transmission, lack of document transmission, etc. can be extracted. Therefore, it is possible to evaluate the document transmission state based on the difference between the communication plan and the transmission record.

以下、本発明を実施するための最良の形態について図面を参照して説明する。   The best mode for carrying out the present invention will be described below with reference to the drawings.

実施の形態1.
まず、本発明の第1の実施の形態について図面を参照して説明する。図1は、本発明による文書参照関係抽出システム100を用いた表現統一システム300の構成の一例を示すブロック図である。一般に、情報共有するために作成した電子文書を他の人に伝達する(例えば、電子メール等を用いて転送する)過程において、その電子文書を参照した人が表現を修正することにより、同義表現を含む電子文書(パラレルコーパス)が発生する傾向がみられる。本実施の形態では、このような傾向を利用して、文書参照関係抽出システム100や表現統一化システム300は、文書伝達の階層構造を特定し、伝達された電子文書間の同義表現を統一化する処理を行う。
Embodiment 1 FIG.
First, a first embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing an example of a configuration of an expression unification system 300 using a document reference relationship extraction system 100 according to the present invention. In general, in the process of transmitting an electronic document created for information sharing to another person (for example, transferring it using e-mail, etc.), the person who referred to the electronic document modifies the expression, thereby synonymous expression There is a tendency for electronic documents (parallel corpus) to be generated. In the present embodiment, using such a tendency, the document reference relationship extraction system 100 and the expression unification system 300 identify the hierarchical structure of document transmission and unify synonymous expressions between transmitted electronic documents. Perform the process.

図1に示すように、表現統一化システム300は、組織情報データベース310と、伝達文書抽出手段320と、伝達文書データベース330と、文書参照関係抽出システム100と、パラレルコーパス抽出手段340と、同義表現抽出装置350と、同義表現データベース360とを含む。また、文書参照関係抽出システム100は、コミュニケーション計画データベース110と、非参照関係抽出手段120と、階層構造特定手段130とを含む。   As shown in FIG. 1, the expression unification system 300 includes an organization information database 310, a transmission document extraction unit 320, a transmission document database 330, a document reference relationship extraction system 100, a parallel corpus extraction unit 340, and synonymous expressions. An extraction device 350 and a synonym expression database 360 are included. The document reference relationship extraction system 100 includes a communication plan database 110, a non-reference relationship extraction unit 120, and a hierarchical structure specifying unit 130.

また、本実施の形態において、表現統一化システム300は、ユーザの操作に従って、キーボードやマウス等の入力手段510から各種情報を入力する。また、本実施の形態において、表現統一化システム300は、ユーザ間で伝達された電子文書を、文書提供サーバ520から収集する。また、本実施の形態では、表現統一化システム300は、各種情報を、ディスプレイ装置等の出力手段530に出力(例えば、表示)させる。   In the present embodiment, the expression unification system 300 inputs various information from the input means 510 such as a keyboard and a mouse in accordance with a user operation. In the present embodiment, the expression unification system 300 collects electronic documents transmitted between users from the document providing server 520. In the present embodiment, the expression unification system 300 outputs (for example, displays) various information to the output unit 530 such as a display device.

なお、本実施の形態では、表現統一化システム300の外部に、入力手段510と、文書提供サーバ520と、出力手段530とを設ける場合を示すが、表現統一化システム300が、入力手段510と、出力手段530とを備えてもよい。また、表現統一化システム300が文書提供サーバ520の機能を備えていてもよい。   In this embodiment, the case where the input unit 510, the document providing server 520, and the output unit 530 are provided outside the expression unification system 300 is shown. , And output means 530. Further, the expression unification system 300 may have the function of the document providing server 520.

また、本実施の形態では、文書参照関係抽出システム100の内部に、コミュニケーション計画データベース110を備える場合を示すが、文書参照関係抽出システム100の外部に、コミュニケーション計画データベース110を設けてもよい。   In this embodiment, the case where the communication plan database 110 is provided inside the document reference relationship extraction system 100 is shown, but the communication plan database 110 may be provided outside the document reference relationship extraction system 100.

また、本実施の形態において、文書参照関係抽出システム100や表現統一化システム300は、例えば、プログラムに従って動作するコンピュータ(例えば、パーソナルコンピュータ等の情報処理装置)によって実現される。   In the present embodiment, the document reference relationship extraction system 100 and the expression unification system 300 are realized by, for example, a computer (for example, an information processing apparatus such as a personal computer) that operates according to a program.

以下の説明では、あるプロジェクトにおいて、プロジェクト内のメンバが、e−mail(電子メール)を用いて、電子文書として「週報」を、コミュニケーション計画に則って提出する場合を例として説明する。ただし、本例は、本発明の説明を容易にするためのものであり、本発明の適用範囲を制限するものではない。また、以下、ユーザ間で電子メール等の転送手段を用いて電子文書を転送することを、電子文書を伝達すると表現する。また、ユーザ間で伝達された電子文書のことを伝達文書とも表現する。   In the following description, an example will be described in which a member in a project submits “weekly report” as an electronic document in accordance with a communication plan using e-mail (e-mail). However, this example is for facilitating the description of the present invention and does not limit the scope of application of the present invention. Hereinafter, transferring an electronic document between users using a transfer means such as an electronic mail is expressed as transmitting the electronic document. An electronic document transmitted between users is also expressed as a transmitted document.

本実施の形態では、文書参照関係抽出システム100は、企業等の組織内において、予め定められた電子文書の伝達計画(コミュニケーション計画)に従って電子文書の伝達が行われる場合に、実際に行なわれた電子文書の伝達の階層構造を抽出する用途に用いられる。また、表現統一化システム300は、文書参照関係抽出システム100によって抽出された電子文書伝達の階層構造を利用して、伝達前後の電子文書間に含まれる同義表現を統一する用途に用いられる。   In the present embodiment, the document reference relationship extraction system 100 is actually performed when an electronic document is transmitted in an organization such as a company according to a predetermined electronic document transmission plan (communication plan). Used to extract the hierarchical structure of electronic document transmission. The expression unification system 300 is used for the purpose of unifying synonymous expressions included between electronic documents before and after transmission using the hierarchical structure of electronic document transmission extracted by the document reference relation extraction system 100.

入力手段510は、具体的には、キーボードやマウス等の入力デバイスである。入力手段510は、ユーザの操作に従って、組織情報を入力する。なお、表現統一化システム300は、入力手段510から入力した組織情報を組織情報データベース310に記憶する。また、入力手段510は、ユーザの操作に従って、コミュニケーション計画を入力する。なお、文書参照関係抽出システム100は、入力手段510から入力したコミュニケーション計画をコミュニケーション計画データベース110に記憶する。   Specifically, the input unit 510 is an input device such as a keyboard or a mouse. The input unit 510 inputs organization information in accordance with a user operation. The expression unification system 300 stores the organization information input from the input unit 510 in the organization information database 310. Moreover, the input means 510 inputs a communication plan according to a user's operation. The document reference relationship extraction system 100 stores the communication plan input from the input unit 510 in the communication plan database 110.

組織情報データベース310は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。組織情報データベース310は、予め組織情報を記憶している。「組織情報」とは、電子文書の伝達が行われる組織の構成を示す情報である。本実施の形態において、組織情報は、文書伝達に関わる各メンバを識別するためのメンバIDと、各メンバが所属する所属グループを識別するためのグループIDとを含むものとする。メンバIDは、各メンバに対して各人を識別するために付与されるものであり、例えば企業における社員番号等である。グループIDは、所属グループを識別するためのIDである。また、組織情報は、その他の情報として、分析結果を通知するためのメールアドレス等の連絡先や、氏名、年齢、役職、専門分野等の各メンバの個人情報等を含む。   Specifically, the organization information database 310 is realized by a database device such as a magnetic disk device or an optical disk device. The organization information database 310 stores organization information in advance. “Organization information” is information indicating the configuration of an organization where electronic documents are transmitted. In the present embodiment, the organization information includes a member ID for identifying each member involved in document transmission and a group ID for identifying the group to which each member belongs. The member ID is assigned to each member to identify each person, and is, for example, an employee number in a company. The group ID is an ID for identifying the belonging group. The organization information includes contact information such as an e-mail address for notifying the analysis result, personal information of each member such as name, age, job title, and specialized field as other information.

なお、本実施の形態において、組織情報は、組織内の管理者等によって予め作成され、組織情報データベース310に登録されているものとする。例えば、組織情報は、プロジェクトや組織管理用のツール等に記録されているデータから抽出してもよいし、人が入力手段510を用いて入力してもよい。また、機械可読であれば、紙面等に書かれた組織情報をOCR等で読み込むようにしても構わない。   In the present embodiment, it is assumed that the organization information is created in advance by an administrator in the organization and registered in the organization information database 310. For example, the organization information may be extracted from data recorded in a project or organization management tool, or may be input by a person using the input unit 510. In addition, as long as it is machine-readable, organization information written on a sheet or the like may be read by OCR or the like.

図2は、組織情報の一例を示す説明図である。図2に示す組織情報によれば、表現統一化システム300が適用される組織は、メンバ数が7名であり、グループ数が3つであることが分かる。なお、1人のメンバが複数のグループに所属しても構わないし、複数の役職を兼務していてもよい。また、1人のメンバが複数のe−mailアドレスを所持していても構わない。説明の簡単化のため、本実施の形態では、各メンバが1つのグループにのみ所属しているものとする。   FIG. 2 is an explanatory diagram illustrating an example of organization information. According to the organization information shown in FIG. 2, it can be seen that the organization to which the expression unification system 300 is applied has 7 members and 3 groups. One member may belong to a plurality of groups, or may serve as a plurality of positions. One member may have a plurality of e-mail addresses. For simplicity of explanation, in this embodiment, each member is assumed to belong to only one group.

コミュニケーション計画データベース110は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。コミュニケーション計画データベース110は、予めコミュニケーション計画を蓄積する。「コミュニケーション計画」とは、組織内における電子文書の伝達計画を示す情報である。コミュニケーション計画は、「どの文書を(文書名)」、「いつ(伝達予定日時)」、「誰から(Fm)」、「誰に(To)」、「どのようにして(伝達手段)」伝達するかを示す計画情報と、各計画を識別するための計画番号(No)とを含む。また、コミュニケーション計画は、ある一連の文書伝達に関して作成されるものである。また、本実施の形態では、1つの一連の伝達計画には、1つの計画書番号(No)が与えられるものとする。なお、これらの情報は一例であり、コミュニケーション計画が含む情報は、これらに限定されるものではない。   Specifically, the communication plan database 110 is realized by a database device such as a magnetic disk device or an optical disk device. The communication plan database 110 stores communication plans in advance. “Communication plan” is information indicating a transmission plan of an electronic document in an organization. The communication plan conveys “what document (document name)”, “when (scheduled date and time of transmission)”, “from whom (Fm)”, “to whom (To)”, and “how (transmission means)”. It includes plan information indicating whether or not to perform, and a plan number (No) for identifying each plan. A communication plan is created for a series of document transmissions. In this embodiment, it is assumed that one plan number (No) is given to one series of transmission plans. Note that these pieces of information are examples, and the information included in the communication plan is not limited to these.

なお、本実施の形態において、コミュニケーション計画は、組織内の管理者等によって予め作成され、コミュニケーション計画データベース110に登録されているものとする。例えば、コミュニケーション計画は、管理者等の操作に従って、入力手段510から入力される。また、例えば、所定の資料(電子文書)から、既存の情報抽出技術を用いて、電子文書の伝達予定日時や、文書名、伝達元、伝達先、伝達手段を示す情報を抽出し、コミュニケーション計画表を自動生成するようにしてもよい。   In this embodiment, it is assumed that the communication plan is created in advance by an administrator in the organization and registered in the communication plan database 110. For example, the communication plan is input from the input unit 510 in accordance with an operation of an administrator or the like. Also, for example, by using existing information extraction technology, information indicating the scheduled transmission date and time of the electronic document, the document name, the transmission source, the transmission destination, and the transmission means is extracted from a predetermined material (electronic document), and the communication plan The table may be automatically generated.

図3は、コミュニケーション計画の一例を示す説明図である。本実施の形態では、送信者が同一である1つの文書を伝達する計画に対して、同一の計画番号(No)が付与される。図3に示すコミュニケーション計画において、伝達予定日時には、各電子文書を伝達する予定日時が格納される。なお、伝達予定日時の指定は日単位に限らず、例えば、時間単位で行ってもよいし、午前や午後等の情報を含んでいてもよい。また、いつからいつまでといった期間を示す情報で指定してもよいし、毎週金曜日や月末等の言語的表現を用いて電子文書の伝達予定時を指定してもよい。   FIG. 3 is an explanatory diagram illustrating an example of a communication plan. In the present embodiment, the same plan number (No) is assigned to a plan for transmitting one document having the same sender. In the communication plan shown in FIG. 3, the scheduled transmission date / time stores the scheduled date / time for transmitting each electronic document. The designation of the scheduled transmission date / time is not limited to a day unit, and may be performed in a unit of time or may include information such as morning or afternoon. Further, it may be specified by information indicating a period from when to when, or the scheduled transmission time of the electronic document may be specified using a linguistic expression such as every Friday or the end of the month.

なお、コミュニケーション計画の各レコードは、伝達予定日時順に並んでコミュニケーション計画データベース110に格納されているものとする。また、文書名の欄には、e−mailに含まれる件名や、ファイル名等の電子文書を特定するための情報が格納されている。   Note that each record of the communication plan is stored in the communication plan database 110 in the order of the scheduled transmission date and time. In the document name column, information for specifying an electronic document such as a subject name and a file name included in the e-mail is stored.

各メンバは、この文書名に合わせて、e−mailの件名やファイル名等を付けるものとする。例えば、週報の電子文書について予め「週報」という文書名を付与することにルール決めされている場合には、組織内の各メンバは、その電子文書を電子メールを用いて伝達する場合に、電子メールの件名を「週報」として、その電子文書を電子メールに添付して送信する。また、組織内の各メンバは、作成又は編集した電子文書に「週報」というファイル名をつける。   Each member shall attach an e-mail subject name, file name, etc. in accordance with the document name. For example, when it is determined in advance that a document name of “weekly report” is assigned to a weekly electronic document, each member in the organization transmits an electronic document using an electronic mail. The subject of the email is “weekly report” and the electronic document is attached to the email and sent. Each member in the organization gives the file name “weekly report” to the created or edited electronic document.

また、図3において、「Fm(伝達元)」及び「To(伝達先)」には、文書伝達における「誰から」及び「誰に」が含まれ(すなわち、伝達文書の伝達先と伝達元とが含まれ)、記載内容には個人が識別できるメンバID等が用いられる。ただし、各メンバを特定できる情報であれば、メンバID以外の情報を用いても構わない。また、システムの利用者によるコミュニケーション計画の入力の負担を軽減するため、Fm及びToはグループIDにより指定することもできる。Fmがグループで指定されており、且つ、そのグループの各メンバが異なる電子文書を作成し伝達する場合には、前述した規則に従い、各電子文書に異なる計画番号(No)が与えられるものとする。   In FIG. 3, “Fm (transmission source)” and “To (transmission destination)” include “from whom” and “who” in document transmission (that is, the transmission destination and transmission source of the transmission document). The member ID etc. which an individual can identify are used for description contents. However, information other than the member ID may be used as long as the information can identify each member. In addition, Fm and To can be specified by a group ID in order to reduce the burden of inputting a communication plan by a system user. When Fm is specified in a group and each member of the group creates and transmits a different electronic document, a different plan number (No) is given to each electronic document in accordance with the rules described above. .

また、図3において、伝達手段の欄には、伝達に用いる手段が含まれる。例えば、コミュニケーション計画の伝達手段のランには、e−mail(電子メール)等の手段を示す情報が含まれる。なお、伝達手段の欄には、e−mailに限らず、例えば、FAX(ファクシミリ)や、印刷物の郵送、電子掲示板への書込み、指定フォルダへのファイルのアップロード等の様々な伝達方法が含まれてもよい。すなわち、伝達した電子文書の電子ファイルが特定できれば、いかなる伝達手段を用いても構わない。   Also, in FIG. 3, the means for transmission is included in the transmission means column. For example, the communication plan transmission means run includes information indicating means such as e-mail (e-mail). The transmission means column is not limited to e-mail, but includes various transmission methods such as FAX (facsimile), mailing of printed materials, writing on an electronic bulletin board, and uploading of files to designated folders. May be. That is, any transmission means may be used as long as the electronic file of the transmitted electronic document can be specified.

また、コミュニケーション計画データは、人が入力手段510を用いて入力してもよいし、機械可読であれば、紙面上のコミュニケーション計画からOCR等により読み込むようにしてもよい。また、自由記述による伝達の計画書が存在する場合は、既存のテキスト処理技術を用いて、その計画書からコミュニケーション計画を抽出してもよい。   Communication plan data may be input by a person using the input unit 510, or may be read from a communication plan on paper by OCR or the like if machine-readable. In addition, when there is a plan of transmission by free description, a communication plan may be extracted from the plan using existing text processing technology.

また、図3には、「週報」に関するコミュニケーション計画の例が示されており、計画書番号(No)として1が付与されている。また、計画No(P001,P002,P003)に示される各レコードによれば、2006年9月28日に、メンバM3,M4,M5が、それぞれグループG2の各メンバに「週報」をe−mail(電子メール)により伝達する予定であることが分かる。また、計画No(P004)に示されるレコードによれば、次の日の2006年9月29日に、メンバM2が、マネージャM1とグループG2の各メンバに「週報」を伝達する予定であることが分かる。また、計画No(P005)に示されるレコードによれば、2006年9月29日に、メンバM1が、グループ3の各メンバに「週報」をe−mailにより伝達する計画になっていることが分かる。   FIG. 3 shows an example of a communication plan related to “weekly report”, and 1 is assigned as a plan number (No). Further, according to each record shown in the plan No. (P001, P002, P003), on September 28, 2006, the members M3, M4, and M5 e-mail “weekly report” to each member of the group G2. It is understood that it is scheduled to be transmitted by (e-mail). Further, according to the record shown in the plan No. (P004), on the next day, September 29, 2006, the member M2 is scheduled to transmit “weekly report” to each member of the manager M1 and the group G2. I understand. Further, according to the record shown in the plan No. (P005), on September 29, 2006, the member M1 is scheduled to transmit “weekly report” to each member of the group 3 by e-mail. I understand.

伝達文書抽出手段320は、具体的には、プログラムに従って動作する情報処理装置のCPU及びネットワークインタフェース部によって実現される。伝達文書抽出手段320は、所定のプロジェクトにおいて作成された電子文書や、e−mail(電子メール)等を用いて伝達された電子文書が保存されている文書提供サーバ520から、各電子文書の伝達文書情報を抽出する機能を備える。また、伝達文書抽出手段320は、抽出した伝達文書情報を伝達文書データベース330に保存する機能を備える。   Specifically, the transfer document extraction unit 320 is realized by a CPU and a network interface unit of an information processing apparatus that operates according to a program. The transmission document extracting unit 320 transmits each electronic document from a document providing server 520 in which an electronic document created in a predetermined project or an electronic document transmitted using e-mail (e-mail) or the like is stored. A function for extracting document information is provided. In addition, the transmission document extracting unit 320 has a function of storing the extracted transmission document information in the transmission document database 330.

本実施の形態では、組織内において共有サーバ(文書提供サーバ520)を用いて、各電子文書が共有化されており、文書提供サーバ520は、各電子文書が伝達されたログ情報(伝達文書情報)を記憶している。伝達文書抽出手段320は、例えば、所定期間毎に(例えば、毎日1回)、文書提供サーバ520に自動アクセスし、LAN等のネットワークを介して、文書提供サーバ520から伝達文書情報を受信して伝達文書データベース330に記憶させる。また、例えば、伝達文書抽出手段320は、文書提供サーバ520に新たに電子文書が格納されたことをトリガとして、文書提供サーバ520に自動アクセスし、ネットワークを介して、文書提供サーバ520から伝達文書情報を受信して伝達文書データベース330に記憶させる。   In this embodiment, each electronic document is shared by using a shared server (document providing server 520) in the organization, and the document providing server 520 transmits log information (transmitted document information) to which each electronic document is transmitted. ) Is remembered. For example, the transmission document extraction unit 320 automatically accesses the document provision server 520 every predetermined period (for example, once every day) and receives the transmission document information from the document provision server 520 via a network such as a LAN. It is stored in the transmission document database 330. Further, for example, the transmission document extracting unit 320 automatically accesses the document provision server 520 using a new electronic document stored in the document provision server 520 as a trigger, and transmits the document from the document provision server 520 via the network. Information is received and stored in the transmission document database 330.

なお、文書提供サーバ520(共有サーバ)は、1台に限らず、組織内に複数台備えられていてもよい。例えば、文書提供サーバ520として、メールサーバやファイルサーバ等の複数種類のサーバが備えられていてもよい。また、例えば、文書提供サーバ520として、同じ種類の共通サーバ(例えば、ファイルサーバ)が複数台備えられていてもよい。   Note that the document providing server 520 (shared server) is not limited to one, and a plurality of documents may be provided in the organization. For example, as the document providing server 520, a plurality of types of servers such as a mail server and a file server may be provided. Further, for example, as the document providing server 520, a plurality of common servers (for example, file servers) of the same type may be provided.

伝達文書情報は、電子文書の伝達状況を示すログ情報である。本実施の形態では、伝達文書情報には、「文書ID」、「伝達日時」、「文書名」、「Fm(伝達元)」、「To(伝達先)」及び「伝達手段」が含まれている。また、伝達文書情報は、これら伝達記録を示す情報とともに電子文書の内容を含んでいてもよい。   The transmission document information is log information indicating the transmission status of the electronic document. In the present embodiment, the transmission document information includes “document ID”, “transmission date / time”, “document name”, “Fm (transmission source)”, “To (transmission destination)”, and “transmission means”. ing. Further, the transmission document information may include the contents of the electronic document together with information indicating these transmission records.

文書IDは、各電子文書を識別するための識別情報である。本実施の形態では、同一の日時に同じ人によって伝達された同一の内容の電子文書に対しては、1つの文書IDが付与される。伝達日時は、電子文書が伝達された日と時間とを示す情報である。FmとToとは、誰から誰に伝達文書が伝達されたか(電子文書の伝達元と伝達先)を示す情報である。伝達手段は、どのようなメディアを用いて文書伝達が行われたかを示す情報である。例えば、伝達文書情報は、メディアとして、e−mail(電子メール)やFAX(ファクシミリ)、印刷物の郵送等の様々な形式の伝達手段の情報を含む。   The document ID is identification information for identifying each electronic document. In the present embodiment, one document ID is assigned to electronic documents having the same contents transmitted by the same person at the same date and time. The transmission date and time is information indicating the date and time when the electronic document is transmitted. Fm and To are information indicating from whom to whom the transmission document is transmitted (transmission source and transmission destination of the electronic document). The transmission means is information indicating what kind of media is used for document transmission. For example, the transmission document information includes information on various types of transmission means such as e-mail (electronic mail), FAX (facsimile), and mailing of printed matter as media.

伝達文書抽出手段320は、例えば、e−mailによる伝達であれば、電子メールのヘッダや、メールサーバが記憶するログ情報に基づいて、各メールのFm(伝達元)とTo(伝達先)とを抽出し、電子メールの件名を文書名として抽出する。そして、伝達文書抽出手段320は、抽出した伝達元や伝達先、文書名を含む伝達文書情報を、伝達文書データベース330に記憶させる。   For example, in the case of transmission by e-mail, the transmission document extraction unit 320 determines the Fm (transmission source) and To (transmission destination) of each mail based on the header of the email or log information stored in the mail server. And the subject of the e-mail is extracted as the document name. Then, the transmission document extracting unit 320 stores the transmission document information including the extracted transmission source, transmission destination, and document name in the transmission document database 330.

また、共有のフォルダや文書管理ツール等にアップロードして電子文書を伝達する場合であれば、伝達文書抽出手段320は、アップロードしたファイルのファイル名を文書名とし、アップロードした人をFm(伝達元)、そのファイルを参照した人をTo(伝達先)、伝達日時をアップロードした日時として、伝達文書情報を抽出すればよい。また、電子ファイルを印刷し郵送/手渡ししたものであっても、伝達文書抽出手段320は、伝達過程における郵送前後の文書伝達に関する伝達記録があれば、郵送による伝達がなされたものであると判断し、伝達記録に加えることもできる。   In the case of transmitting an electronic document by uploading it to a shared folder or a document management tool or the like, the transmission document extraction means 320 uses the file name of the uploaded file as the document name and designates the uploader as Fm (transmission source ), The transmission document information may be extracted with the person who referred to the file as To (transmission destination) and the transmission date and time as the upload date and time. Even if the electronic file is printed and mailed / handed, the transmission document extracting means 320 determines that the transmission by mail has been made if there is a transmission record regarding document transmission before and after the mail in the transmission process. It can also be added to the transmission record.

伝達文書データベース330は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。伝達文書データベース330は、伝達文書抽出手段320が抽出した伝達文書情報を記憶する。   Specifically, the transfer document database 330 is realized by a database device such as a magnetic disk device or an optical disk device. The transmission document database 330 stores the transmission document information extracted by the transmission document extraction unit 320.

なお、伝達文書データベース330は、伝達文書情報を、コミュニケーション計画において伝達が計画されているものと、そうでないものとを判別できるように保存しておく。例えば、伝達文書データベース330は、各伝達文書情報に計画の有無のフラグを付与することや、計画の有無で伝達文書の保存先やファイルを変える等の方法によって、伝達文書情報を判別可能に記憶する。なお、伝達文書抽出手段320は、各電子文書と各コミュニケーション計画との対応関係を、伝達文書情報とコミュニケーション計画とのFm(伝達元)とTo(伝達先)とが一致していることを前提条件として、電子文書名の類似性に基づいて判定することができる。また、伝達文書抽出手段320は、電子文書名中の文字列が完全一致していることを絶対条件としてもよいし、表記ゆれ等に対応するために、電子文書名中の共通文字列の割合等により類似度を求めて判定してもよい。   Note that the transmission document database 330 stores the transmission document information so that it can be determined whether the transmission is planned in the communication plan or not. For example, the transmission document database 330 stores the transmission document information in a distinguishable manner by adding a flag indicating whether or not there is a plan to each transmission document information, or changing the storage destination or file of the transmission document depending on the presence or absence of the plan. To do. Note that the transmission document extraction unit 320 assumes that the correspondence between each electronic document and each communication plan is such that Fm (transmission source) and To (transmission destination) of the transmission document information and the communication plan match. The condition can be determined based on the similarity of electronic document names. In addition, the transmission document extraction unit 320 may use an absolute condition that the character strings in the electronic document name are completely matched, or the ratio of the common character string in the electronic document name in order to cope with the notation fluctuation. The degree of similarity may be obtained and determined by, for example.

例えば、コミュニケーション計画と伝達文書情報とにおける文書名がそれぞれ「週報20060928」、「週報2006年 9月28日」であり、同一のFm(伝達元)とTo(伝達先)とであるとする。この場合、両文書名の平均文字数の11文字中、共通する文字数が10文字あるため、文字の一致率を求めると10/11≒0.91となる。この文字の一致率を類似度として用いて、類似の基準を文字の一致率が0.8以上である場合に類似であるとすれば、伝達文書抽出手段320は、類似度判定をすることによって、コミュニケーション計画と伝達文書情報とを対応づけることができる。また、伝達文書抽出手段320は、単純に文字の一致数だけではなく、オントロジ辞書等を用いて「2006-09-28」と「平成18年 9月28日」とが同じ意味であると判断する等、意味的な類似尺度を用いてもよい。   For example, it is assumed that the document names in the communication plan and the transmission document information are “weekly report 20060928” and “weekly report September 28, 2006”, respectively, and have the same Fm (transmission source) and To (transmission destination). In this case, since there are 10 characters in common among the 11 characters of the average number of characters in both document names, the character matching rate is 10 / 11≈0.91. If this character match rate is used as the similarity, and the similarity is determined to be similar when the character match rate is 0.8 or more, the transfer document extracting unit 320 performs similarity determination. The communication plan can be associated with the transmission document information. Further, the transmission document extracting means 320 determines that “2006-09-28” and “September 28, 2006” have the same meaning using not only the number of matching characters but also an ontology dictionary or the like. For example, a semantic similarity measure may be used.

また、コミュニケーション計画の予定伝達日時と伝達文書情報の伝達日時とが離れている日時である場合には、伝達文書抽出手段320は、文書名が類似していても、それらコミュニケーション計画と伝達文書情報とが対応関係がないと判定することもできる。例えば、伝達文書抽出手段320は、文書名が「週報」である場合に、実際の伝達日時が伝達予定日時よりも7日以上遅れていれば、別の週の週報と判断して扱うこともできる。この場合、電子文書における対応関係を判定する伝達日時と伝達予定日時との差は、システムの利用者により任意に決定できるものとする。   If the scheduled transmission date / time of the communication plan is different from the transmission date / time of the transmission document information, the transmission document extraction unit 320 may determine that the communication plan and the transmission document information even if the document names are similar. Can be determined to have no corresponding relationship. For example, if the document name is “weekly report” and the actual transmission date / time is more than 7 days later than the scheduled transmission date / time, the transmission document extraction unit 320 may determine that the weekly report is for another week. it can. In this case, the difference between the transmission date / time for determining the correspondence in the electronic document and the scheduled transmission date / time can be arbitrarily determined by the user of the system.

なお、伝達文書抽出手段320は、コミュニケーション計画のFm(伝達元)及びTo(伝達先)にグループによる指定がある場合には、類似性を測る(判定する)際にコミュニケーション計画を展開しておく。「コミュニケーション計画の展開」とは、組織情報のグループとメンバとの関係を参照して、コミュニケーション計画データを各メンバ同士の伝達計画にすることである。このとき、展開時にFm(伝達元)とTo(伝達先)とが同じになるものは、伝達計画から除外しておく。   The transmission document extraction unit 320 develops the communication plan when measuring (determining) the similarity when the Fm (transmission source) and To (transmission destination) of the communication plan are designated by a group. . “Development of communication plan” refers to making communication plan data a communication plan between members by referring to the relationship between groups and members of organization information. At this time, those in which Fm (transmission source) and To (transmission destination) are the same during deployment are excluded from the transmission plan.

図4は、伝達文書情報の一例を示す説明図である。図4において、図中の計画書番号(No)は、対応するコミュニケーション計画の計画書番号(No)を表している。図4において、例えば、文書ID「D101」の週報は、2006年9月28日の17:00に、メンバM3からそれぞれメンバM2,M4,M5に文書伝達されたことが分かる。   FIG. 4 is an explanatory diagram showing an example of the transfer document information. In FIG. 4, the plan number (No) in the figure represents the plan number (No) of the corresponding communication plan. In FIG. 4, for example, the weekly report of the document ID “D101” is transmitted from the member M3 to the members M2, M4, and M5 at 17:00 on September 28, 2006, respectively.

また、図5は、コミュニケーション計画「No.P001」を展開した例を示す説明図である。図5に示す例では、メンバM3からグループG2への文書伝達を示すコミュニケーション計画が、メンバM3からグループG2の各メンバそれぞれへの文書伝達を示すコミュニケーション計画に展開されている。ただし、図5に示す例では、メンバM3もグループG2のメンバの1人であるため、伝達文書抽出手段320は、展開後のコミュニケーション計画から、メンバM3からメンバM3への文書伝達に係るレコード(図5に示す網掛け部705)を削除する。   5 is an explanatory diagram showing an example in which the communication plan “No. P001” is developed. In the example shown in FIG. 5, the communication plan indicating document transmission from the member M3 to the group G2 is developed into a communication plan indicating document transmission from the member M3 to each member of the group G2. However, in the example shown in FIG. 5, since the member M3 is also one of the members of the group G2, the transfer document extracting unit 320 determines that the record related to the document transfer from the member M3 to the member M3 from the expanded communication plan ( The shaded portion 705) shown in FIG. 5 is deleted.

文書参照関係抽出システム100は、伝達文書データベース330に記憶される伝達文書情報と、コミュニケーション計画データベース110に記憶されるコミュニケーション計画とに基づいて、文書伝達の階層構造を特定する機能を備える。また、文書参照関係抽出システム100は、特定した文書伝達の階層構造を示す情報をパラレルコーパス抽出手段340に出力する機能を備える。   The document reference relationship extraction system 100 has a function of specifying the hierarchical structure of document transmission based on the transmission document information stored in the transmission document database 330 and the communication plan stored in the communication plan database 110. Further, the document reference relationship extraction system 100 has a function of outputting information indicating the identified document transmission hierarchical structure to the parallel corpus extraction unit 340.

本実施の形態では、文書参照関係抽出システム100は、ユーザ(組織内のいずれかのグループのメンバ)の指示操作に従って、文書伝達の階層構造の特定処理を実行する。例えば、ユーザが情報処理装置が備える表示装置に表示された所定の入力フォームから「実行」ボタンをマウスクリック等すると、文書参照関係抽出システム100は、文書伝達の階層構造の特定処理を開始する。   In the present embodiment, the document reference relationship extraction system 100 executes a document transmission hierarchical structure specifying process in accordance with an instruction operation of a user (a member of any group in the organization). For example, when the user clicks the “execute” button with a mouse on a predetermined input form displayed on a display device included in the information processing apparatus, the document reference relation extraction system 100 starts a document transmission hierarchical structure specifying process.

図6は、図3に示すコミュニケーション計画における文書伝達を模式的にネットワークとして表した説明図である。図6において、ノードはメンバを表し、ノード間の矢印は電子文書の伝達関係を表している。図6に示すように、各メンバM3,M4,M5のノードから文書伝達のパスがネットワーク状に広がっている。そのため、このままでは、メンバM3,M4,M5間の文書伝達の階層構造を特定できない。文書参照関係抽出システム100は、図6に示すようなネットワーク状の文書伝達構造の状態から、電子文書間の参照関係を抽出するものである。   FIG. 6 is an explanatory diagram schematically showing document transmission in the communication plan shown in FIG. 3 as a network. In FIG. 6, nodes represent members, and arrows between the nodes represent electronic document transmission relationships. As shown in FIG. 6, the document transmission path extends from the nodes of the members M3, M4, and M5 in the form of a network. For this reason, the document transmission hierarchical structure among the members M3, M4, and M5 cannot be specified as it is. The document reference relationship extraction system 100 extracts a reference relationship between electronic documents from the state of a network-like document transmission structure as shown in FIG.

非参照関係抽出手段120は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。非参照関係抽出手段120は、電子文書間に参照関係が生じない文書伝達を抽出する機能を備える。まず、非参照関係抽出手段120は、コミュニケーション計画に基づいて計画表を作成する。計画表とは、同一の計画番号(No)のコミュニケーション計画において、同じ伝達予定日時における文書伝達計画の有無を表形式にまとめて示したテーブルである。   Specifically, the non-reference relationship extracting unit 120 is realized by a CPU of an information processing apparatus that operates according to a program. The non-reference relationship extraction unit 120 has a function of extracting document transmission that does not cause a reference relationship between electronic documents. First, the non-reference relationship extraction unit 120 creates a plan table based on the communication plan. The plan table is a table in which the presence / absence of a document transmission plan at the same scheduled transmission date / time in a communication plan with the same plan number (No) is summarized in a table format.

非参照関係抽出手段120は、計画表を、以下の処理に従って作成する。まず、非参照関係抽出手段120は、コミュニケーション計画におけるFm(伝達元)とTo(伝達先)との和集合を求める。次いで、非参照関係抽出手段120は、同一の伝達予定日時毎に、対応するメンバの集合を行と列とに配置した正方行列を作成する。ここで、作成した正方行列の行方向は文書伝達におけるFm(伝達元)を表し、列方向はTo(伝達先)を表す。次いで、非参照関係抽出手段120は、計画表のFm(伝達元)とTo(伝達先)との間において、文書伝達の計画がある箇所には1を付与し、文書伝達の計画のない箇所には0を付与する。   The non-reference relationship extraction unit 120 creates a plan table according to the following process. First, the non-reference relationship extraction unit 120 obtains the union of Fm (transmission source) and To (transmission destination) in the communication plan. Next, the non-reference relationship extraction unit 120 creates a square matrix in which a set of corresponding members is arranged in rows and columns for each same scheduled transmission date and time. Here, the row direction of the created square matrix represents Fm (transmission source) in document transmission, and the column direction represents To (transmission destination). Next, the non-reference relationship extraction unit 120 assigns 1 to a place where there is a document transmission plan between Fm (transmission source) and To (transmission destination) in the plan table, and a place where there is no document transmission plan. 0 is assigned to.

以上の処理を行うことによって、非参照関係抽出手段120は、計画表を作成する。図7は、非参照関係抽出手段120が作成する計画表の一般例を示す説明図である。図7に示す計画表において、最左列は文書伝達におけるFm(伝達元)のメンバIDを示し、最上段の行はTo(伝達先)のメンバIDを示している。また、t番目の計画表をPtと表記し、tの値が大きいほど伝達予定日時が遅いものとする。また、図7に示す計画表において、丸で囲まれた部分707は、メンバM1からメンバM7に文書伝達の計画があることを意味する。   By performing the above processing, the non-reference relationship extraction unit 120 creates a plan table. FIG. 7 is an explanatory diagram illustrating a general example of a plan table created by the non-reference relationship extraction unit 120. In the plan table shown in FIG. 7, the leftmost column indicates the member ID of Fm (transmission source) in document transmission, and the top row indicates the member ID of To (transmission destination). In addition, the t-th schedule is expressed as Pt, and the larger the value of t, the later the scheduled transmission date and time. In the plan table shown in FIG. 7, a circled portion 707 means that there is a document transmission plan from the member M1 to the member M7.

図8は、非参照関係抽出手段120が図3に示すコミュニケーション計画に基づいて実際に作成した計画表及び非参照関係表を示す説明図である。また、図8(a)は、伝達予定日時が2006年9月28日である分の計画表(P1)を示している。また、図8(b)は、伝達予定日時が2006年9月28日である分の計画表(P2)を示している。なお、図8では、計画表を見やすくするため、0を省略して表記している。   FIG. 8 is an explanatory diagram showing a plan table and a non-reference relationship table actually created by the non-reference relationship extraction unit 120 based on the communication plan shown in FIG. FIG. 8A shows a plan table (P1) for the scheduled transmission date and time of September 28, 2006. FIG. 8B shows a plan table (P2) for the scheduled transmission date and time of September 28, 2006. In FIG. 8, 0 is omitted to make the plan table easier to see.

非参照関係抽出手段120は、計画表において、図8(a)に示す計画表P1中の四角枠で囲まれた部分708のように、i番目のメンバMiとj番目のメンバMjとが相互に電子文書を伝達している場合、メンバMiとメンバMjとの間には参照関係がないものと判断する。すなわち、一般に、2人のメンバ間で相互に電子文書のやりとりが行われる場合には、相互に電子文書の参照を行うだけで電子文書の修正/編集作業は行われない傾向が強い。そのため、このような傾向を利用して、非参照関係抽出手段120は、2人のメンバ間で相互に電子文書のやりとりが行われる場合には、参照関係がないものと判断する。   The non-reference relationship extracting unit 120 is configured such that the i-th member Mi and the j-th member Mj are mutually connected as in the portion 708 surrounded by the square frame in the plan table P1 shown in FIG. When the electronic document is transmitted to the member M1, it is determined that there is no reference relationship between the member Mi and the member Mj. That is, in general, when electronic documents are exchanged between two members, there is a strong tendency that correction / editing of electronic documents is not performed only by referring to the electronic documents. Therefore, using such a tendency, the non-reference relationship extraction unit 120 determines that there is no reference relationship when electronic documents are exchanged between two members.

具体的には、図8に示すように、非参照関係抽出手段120は、同一の伝達予定日時の計画表Ptにおいて、Pt(i,j)とPt(j,i)とがともに1となる伝達計画を非参照関係と判断する。なお、ここで、P(i,j)は、計画表におけるメンバMiからメンバMjへの伝達関係を表す。そして、非参照関係抽出手段120は、求めた非参照関係を示すテーブルである非参照関係表を生成する。図8(c)は、図8(a)に示す計画表から得られる非参照関係を示している。   Specifically, as shown in FIG. 8, the non-reference relationship extracting unit 120 sets Pt (i, j) and Pt (j, i) to 1 in the plan table Pt having the same scheduled transmission date and time. Judge the transmission plan as a non-reference relationship. Here, P (i, j) represents the transmission relationship from member Mi to member Mj in the plan table. Then, the non-reference relationship extraction unit 120 generates a non-reference relationship table that is a table indicating the obtained non-reference relationship. FIG. 8C shows a non-reference relationship obtained from the plan table shown in FIG.

図8(c)に示すように、非参照関係表には、伝達計画番号(No)、Fm(伝達元)及びTo(伝達先)が含まれる。非参照関係表に示される計画番号(No)のFm(伝達元)とTo(伝達先)とに該当する文書伝達には参照関係がないことを意味する。すなわち、図4に示される伝達文書情報のうち、行番号がそれぞれ2、3、5、6、8及び9である伝達文書情報に示される文書伝達は、参照関係が生じない文書伝達と判断できる。   As shown in FIG. 8C, the non-reference relationship table includes a transmission plan number (No), Fm (transmission source), and To (transmission destination). This means that there is no reference relationship in document transmission corresponding to Fm (transmission source) and To (transmission destination) of the plan number (No) shown in the non-reference relationship table. That is, in the transmission document information shown in FIG. 4, the document transmission shown in the transmission document information whose line numbers are 2, 3, 5, 6, 8, and 9, respectively, can be determined as document transmission in which no reference relationship occurs. .

なお、非参照関係抽出手段120は、組織情報を用いて非参照関係表を作成するようにしてもよい。例えば、非参照関係抽出手段120は、組織情報に基づいて、同一の役職間においては参照がないとしてしてもよいし、同一グループ間での参照関係はないとしてもよい。また、非参照関係抽出手段120は、グループと役職等複数の条件とを組み合わせて非参照関係表を作成してもよいし、非参照関係表を人が入力手段510を用いて修正/入力/削除できるようにしてもよい。   The non-reference relationship extraction unit 120 may create a non-reference relationship table using the organization information. For example, the non-reference relationship extraction unit 120 may be configured such that there is no reference between the same positions based on the organization information, or there may be no reference relationship between the same groups. Further, the non-reference relationship extraction unit 120 may create a non-reference relationship table by combining a plurality of conditions such as a group and a job title. It may be possible to delete it.

階層構造特定手段130は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。階層構造特定手段130は、コミュニケーション計画データベース110が記憶するコミュニケーション計画、及び伝達文書データベース330が記憶する伝達文書情報に基づいて、同一種類の電子文書群における「文書伝達の階層構造」を特定する機能を備える。この場合、階層構造特定手段130は、非参照関係抽出手段120が作成した非参照関係表を利用して、文書伝達の階層構造を特定する。   Specifically, the hierarchical structure specifying unit 130 is realized by a CPU of an information processing apparatus that operates according to a program. The hierarchical structure specifying means 130 is a function that specifies “document transmission hierarchical structure” in the same type of electronic document group based on the communication plan stored in the communication plan database 110 and the transfer document information stored in the transfer document database 330. Is provided. In this case, the hierarchical structure specifying unit 130 uses the non-reference relationship table created by the non-reference relationship extracting unit 120 to specify the hierarchical structure of document transmission.

図9は、階層構造特定手段130が文書伝達の階層構造を特定する処理のアルゴリズムの一例を示す説明図である。以下、図9に示すアルゴリズムに従って、階層構造特定手段130の動作について説明する。まず、階層構造特定手段130は、各コミュニケーション計画に対応する伝達文書情報を伝達文書データベース330から抽出する(図9のステップA1)。次に、階層構造特定手段130は、伝達文書情報に基づいて、伝達表を作成する(図9のステップA2)。伝達表とは、コミュニケーション計画において同じ伝達予定日時が計画されている伝達文書情報において、文書伝達の有無を同一の伝達日時毎に表形式でまとめたテーブルである。   FIG. 9 is an explanatory diagram showing an example of an algorithm for processing in which the hierarchical structure specifying unit 130 specifies the hierarchical structure of document transmission. The operation of the hierarchical structure specifying unit 130 will be described below according to the algorithm shown in FIG. First, the hierarchical structure specifying unit 130 extracts transfer document information corresponding to each communication plan from the transfer document database 330 (step A1 in FIG. 9). Next, the hierarchical structure specifying unit 130 creates a transmission table based on the transmission document information (step A2 in FIG. 9). The transmission table is a table in which the presence / absence of document transmission is summarized in the form of a table for each identical transmission date / time in the transmission document information in which the same scheduled transmission date / time is planned in the communication plan.

なお、階層構造特定手段130は、伝達表が複数作成される場合には、全ての伝達表について図9に示す処理を実行する。そのため、ステップA2において、階層構造特定手段130は、何番目の伝達表について処理を実行しているかを示す係数tに1を代入する。   In addition, when a plurality of transfer tables are created, the hierarchical structure specifying unit 130 executes the process shown in FIG. 9 for all transfer tables. Therefore, in step A2, the hierarchical structure specifying unit 130 substitutes 1 for a coefficient t indicating what number of transmission tables is being processed.

階層構造特定手段130は、伝達表を、以下の手順に従って作成する。まず、階層構造特定手段130は、指定されたコミュニケーション計画に対応する伝達文書情報からFm(伝達元)とTo(伝達先)との和集合を求める。次いで、階層構造特定手段130は、同一の伝達日時毎に、対応するメンバの集合を行と列とに配置した正方行列を作成する。ここで、作成した正方行列の行方向は文書伝達におけるFm(伝達元)を表し、列方向はTo(伝達先)を表す。次いで、階層構造特定手段130は、計画表のFm(伝達元)とTo(伝達先)との間において、文書伝達の計画がある箇所には1を付与し、文書伝達の計画のない箇所には0を付与する。   The hierarchical structure specifying unit 130 creates a transmission table according to the following procedure. First, the hierarchical structure specifying unit 130 obtains the union of Fm (transmission source) and To (transmission destination) from the transmission document information corresponding to the designated communication plan. Next, the hierarchical structure specifying unit 130 creates a square matrix in which a set of corresponding members is arranged in rows and columns for each same transmission date and time. Here, the row direction of the created square matrix represents Fm (transmission source) in document transmission, and the column direction represents To (transmission destination). Next, the hierarchical structure specifying unit 130 assigns 1 to a place where there is a document transmission plan between Fm (transmission source) and To (transmission destination) in the plan table, and places it in a place where there is no document transmission plan. Gives 0.

以上の処理を行うことによって、階層構造特定手段130は、伝達表を作成する。図10は、階層構造特定手段130が作成する伝達表の一般例を示す説明図である。図10に示す伝達表において、最左列は文書伝達におけるFm(伝達元)のメンバIDを示し、最上段の行はTo(伝達先)のメンバIDを示している。また、図10に示す伝達表おいて、丸で囲まれた部分710は、メンバM5からメンバM7に文書伝達が行われたことを意味する。また、以下、t番目の伝達表をCtと表記する。また、tの値が大きいほど伝達日時が遅いものとする。   By performing the above processing, the hierarchical structure specifying unit 130 creates a transmission table. FIG. 10 is an explanatory diagram showing a general example of a transfer table created by the hierarchical structure specifying unit 130. In the transmission table shown in FIG. 10, the leftmost column indicates the member ID of Fm (transmission source) in document transmission, and the top row indicates the member ID of To (transmission destination). In the transmission table shown in FIG. 10, a circled portion 710 means that the document transmission from the member M5 to the member M7 has been performed. Hereinafter, the t-th transmission table is denoted by Ct. Also, the larger the value of t, the later the transmission date and time.

図11は、階層構造特定手段130が図4に示す伝達文書情報に基づいて実際に作成した5つの伝達表、及び伝達表から階層構造を特定する例を示す説明図である。なお、図11に示す伝達表は、文書伝達があった(行中に1が存在する)部分のみを抜粋して示したものである。   FIG. 11 is an explanatory diagram showing five transmission tables actually created by the hierarchical structure specifying unit 130 based on the transmission document information shown in FIG. 4 and an example of specifying the hierarchical structure from the transmission table. Note that the transmission table shown in FIG. 11 is an excerpt of only the portion where document transmission (1 exists in the line).

次に、階層構造特定手段130は、各伝達表内の文書伝達構造を特定する(図9のステップA3)。この場合、階層構造特定手段130は、伝達表Ct内において1が付与されている箇所のFm(伝達元)とTo(伝達先)とをリンクすることで抽出することができる。なお、リンクとは、Fm(伝達元)のメンバからTo(伝達先)のメンバに対して文書伝達が行われたことを記述することを意味し、例えば、Fm(伝達元)からTo(伝達先)に向けて矢印を繋ぐ処理(例えば、リンク情報を付与する処理)に相当する。   Next, the hierarchical structure specifying unit 130 specifies the document transmission structure in each transmission table (step A3 in FIG. 9). In this case, the hierarchical structure specifying unit 130 can extract Fm (transmission source) and To (transmission destination) at a location where 1 is assigned in the transmission table Ct. The link means that a document is transmitted from a member of Fm (transmission source) to a member of To (transmission destination). For example, the link is transmitted from Fm (transmission source) to To (transmission). This corresponds to a process (for example, a process of assigning link information) for connecting arrows toward (destination).

階層構造特定手段130は、リンクの条件式(1)を用いてリンク付けを行う。ただし、この場合、階層構造特定手段130は、非参照関係表に基づいて、非参照関係については抽出しないように処理する。   The hierarchical structure specifying unit 130 performs link using the link conditional expression (1). However, in this case, the hierarchical structure specifying unit 130 performs processing so as not to extract the non-reference relationship based on the non-reference relationship table.

Figure 0005119693
Figure 0005119693

式(1)において、iは伝達表Ctにおける縦方向のメンバのインデックスを示し、jは横方向のメンバのインデックスを示す。また、式(1)中の後件部(すなわち、thenの後ろの部分)は、メンバMiからメンバMjへの文書伝達が行われていることを意味する。図11において、各伝達表の右側に示している模式図は、図11に示す伝達表に式(1)を適用して階層構造特定手段130によって求められた文書伝達の階層構造である。   In equation (1), i represents the index of the member in the vertical direction in the transfer table Ct, and j represents the index of the member in the horizontal direction. Further, the consequent part (that is, the part after then) in the expression (1) means that the document transmission from the member Mi to the member Mj is performed. 11, the schematic diagram shown on the right side of each transmission table is a hierarchical structure of document transmission obtained by the hierarchical structure specifying unit 130 by applying the formula (1) to the transmission table shown in FIG.

以上の処理によって、本実施の形態では、階層構造特定手段130は、まず、参照関係と非参照関係とを両方含んだ伝達表を作成し、さらに、作成した伝達表と非参照関係表とに基づいて、非参照関係を含まない文書伝達の階層構造を特定する。なお、階層構造特定手段130は、非参照関係表に基づいて予め非参照関係を含まない伝達表を作成するようにしてもよい。そのようにすれば、階層構造特定手段130が作成する伝達表のデータ容量を低減することができる。   Through the above processing, in the present embodiment, the hierarchical structure specifying unit 130 first creates a transmission table including both the reference relationship and the non-reference relationship, and further creates the transmission table and the non-reference relationship table. Based on this, a hierarchical structure of document transmission that does not include a non-reference relationship is specified. The hierarchical structure specifying unit 130 may create a transmission table that does not include a non-reference relationship in advance based on the non-reference relationship table. By doing so, the data capacity of the transfer table created by the hierarchical structure specifying means 130 can be reduced.

次に、階層構造特定手段130は、各伝達表から文書伝達の開始者と末端者とを抽出する(図9のステップA4)。ここで、伝達表Ct中の文書伝達の開始者をMs_tとし、文書伝達の末端者をMe_tとする。この場合、階層構造特定手段130は、開始者Ms_t及び末端者Me_tとを、それぞれ式(2)及び式(3)を用いて抽出することができる。   Next, the hierarchical structure specifying unit 130 extracts the start and end of document transmission from each transmission table (step A4 in FIG. 9). Here, it is assumed that the document transfer initiator in the transfer table Ct is Ms_t and the document transfer end is Me_t. In this case, the hierarchical structure specifying unit 130 can extract the initiator Ms_t and the endor Me_t using the expressions (2) and (3), respectively.

Figure 0005119693
Figure 0005119693

Figure 0005119693
Figure 0005119693

式(2)及び式(3)において、Nmはメンバの数を示し、Ma_tは伝達表Ctにおけるa番目のメンバを示す。図11に示すように、各伝達表において、文書伝達の開始者と末端者とが複数人いることもある。   In Expressions (2) and (3), Nm indicates the number of members, and Ma_t indicates the a-th member in the transfer table Ct. As shown in FIG. 11, in each transmission table, there may be a plurality of document transmission starters and endorsers.

次いで、階層構造特定手段130は、ステップA3及びステップA4の処理を全ての伝達表に対して適用した後、伝達表間における文書伝達の階層構造を特定する。具体的には、文書伝達の開始者及び末端者を特定すると、階層構造特定手段130は、全ての伝達表に対して処理を終了したか否か(t=Nτ(伝達表の総数)であるか否か)を確認する(ステップA5)。t=Nτでなければ、階層構造特定手段130は、tの値を1加算し(ステップA6)、ステップA3の処理に戻って、ステップA3,A4の処理を繰り返し実行する。t=Nτであれば、階層構造特定手段130は、伝達表間における文書伝達の構造を特定する(ステップA7)。この場合、階層構造特定手段130は、伝達表Ctにおける伝達の開始者に対して、文書伝達を行っている伝達表Cτにおける文書伝達の末端者を特定することによって、文書伝達の構造を特定することができる。ただし、t>τであるとする。   Next, the hierarchical structure specifying unit 130 applies the processing of step A3 and step A4 to all transfer tables, and then specifies the hierarchical structure of document transfer between the transfer tables. Specifically, when the start and end of document transmission are specified, the hierarchical structure specifying means 130 is whether or not processing has been completed for all transmission tables (t = Nτ (total number of transmission tables)). (Step A5). If not t = Nτ, the hierarchical structure specifying unit 130 adds 1 to the value of t (step A6), returns to the process of step A3, and repeatedly executes the processes of steps A3 and A4. If t = Nτ, the hierarchical structure specifying unit 130 specifies the structure of document transmission between the transmission tables (step A7). In this case, the hierarchical structure specifying unit 130 specifies the document transmission structure by specifying the end of document transmission in the transmission table Cτ performing document transmission to the transmission starter in the transmission table Ct. be able to. However, it is assumed that t> τ.

次いで、階層構造特定手段130は、特定した末端者から開始者をリンクすることで伝達表間の文書伝達構造を特定することができる。この場合、階層構造特定手段130は、リンクの条件式(4)を用いて、文書伝達構造を特定する。   Next, the hierarchical structure specifying unit 130 can specify the document transfer structure between transfer tables by linking the initiator to the specified endorser. In this case, the hierarchical structure specifying unit 130 specifies the document transmission structure using the link conditional expression (4).

Figure 0005119693
Figure 0005119693

図12は、図9に示す処理に従って、階層構造特定手段130が図4に示す伝達文書情報から特定した文書伝達の階層構造を示す説明図である。図12において、各ノード712aは各メンバを表し、各矢印712bは文書伝達の関係を表している。また、図12に示す四角枠には、それぞれ隣接するノードが伝達した電子文書の文書IDが示されている。   FIG. 12 is an explanatory diagram showing the hierarchical structure of document transmission specified by the hierarchical structure specifying unit 130 from the transmission document information shown in FIG. 4 according to the processing shown in FIG. In FIG. 12, each node 712a represents each member, and each arrow 712b represents a document transmission relationship. Also, the square frame shown in FIG. 12 shows the document ID of the electronic document transmitted by each adjacent node.

なお、文書伝達の参照関係を算出する処理は、Fm(伝達元)とTo(伝達先)という一方向のパスの集合において、異なるパスのTo(伝達先)とFm(伝達元)とをある制約下において連結し有向グラブを作成する技術と位置づけられる。文書伝達の参照関係を算出する処理での制約は、連結においてTo(伝達先)とFm(伝達元)とが同一であり、Fm(伝達元)がTo(伝達先)よりも遅い時間となることである。すなわち、この制約を満たし、かつ有向グラフを抽出できれば、階層構造特定手段130は、文書伝達の参照関係を算出する場合に、図9に示すアルゴリズム以外の参照関係抽出の方法を用いてもよい。   Note that the processing for calculating the reference relationship of document transmission includes To (transmission destination) and Fm (transmission source) of different paths in a set of one-way paths of Fm (transmission source) and To (transmission destination). It is positioned as a technology that connects and creates directed grabs under constraints. The restriction in the process of calculating the document transfer reference relationship is that To (transmission destination) and Fm (transmission source) are the same in the connection, and Fm (transmission source) is later than To (transmission destination). That is. That is, if this constraint is satisfied and a directed graph can be extracted, the hierarchical structure specifying unit 130 may use a reference relationship extraction method other than the algorithm shown in FIG. 9 when calculating the document transfer reference relationship.

例えば、階層構造特定手段130は、文書伝達の末端者と、文書伝達の末端者に対して電子文書を伝達するメンバとを抽出し、さらにそのメンバに対して電子文書を伝達するメンバを抽出するという処理を再帰的に繰り返す方法を用いて、文書伝達の参照関係を算出してもよい。この場合、階層構造特定手段130は、該当するメンバが存在しない場合、又は非参照関係となる文書伝達が抽出された場合を終了条件として処理を終了する。そのような処理を実行することによって、階層構造特定手段130は、文書伝達の末端者を根とし、文書伝達の開始者を葉とし、文書伝達の中継者を中間ノードとする伝達の木構造を特定することができる。   For example, the hierarchical structure specifying unit 130 extracts document transmission end persons and members who transmit electronic documents to the document transmission end persons, and further extracts members transmitting electronic documents to the members. The document transfer reference relationship may be calculated using a method of recursively repeating the above process. In this case, the hierarchical structure specifying unit 130 ends the process when the corresponding member does not exist or when the document transmission having a non-reference relationship is extracted as the end condition. By executing such processing, the hierarchical structure specifying unit 130 creates a tree structure of transmission with the end of the document transmission as the root, the document transmission initiator as the leaf, and the document transmission relay as the intermediate node. Can be identified.

図13は、図4に示す伝達文書情報における文書伝達の末端者の一人であるメンバM6から文書伝達の開始者までのトレースを行う処理の過程を示す説明図である。図13において、空欄となっている箇所は非参照関係の文書伝達を示している。階層構造特定手段130は、各伝達の末端者(例えば、メンバM6とメンバM7)について同様の処理を行い、最後に各末端者に関する文書伝達の木構造で共通する部分を1つと見なし、マージすることによって、図12に示す文書伝達の階層構造と同様の階層構造を特定する。なお、階層構造について、人が入力手段510を用いて修正/入力/削除できるようにしてもよい。   FIG. 13 is an explanatory diagram showing the process of tracing from the member M6, one of the document transfer endorsers, to the document transfer starter in the transfer document information shown in FIG. In FIG. 13, a blank area indicates non-reference-related document transmission. The hierarchical structure specifying unit 130 performs the same processing for each transmission end person (for example, member M6 and member M7), and finally regards a common part in the tree structure of the document transmission related to each end person as one, and merges them. Thus, a hierarchical structure similar to the hierarchical structure of document transmission shown in FIG. 12 is specified. The hierarchical structure may be corrected / input / deleted by a person using the input means 510.

図13に示すような処理を実行することによって、階層構造特定手段130は、文書伝達の階層構造を特定する際に伝達表を作成する必要をなくすことができ、文書伝達の階層構造を特定する際に作成されるデータのデータ容量を低減することができる。   By executing the processing shown in FIG. 13, the hierarchical structure specifying unit 130 can eliminate the need to create a transfer table when specifying the hierarchical structure of document transmission, and specify the hierarchical structure of document transmission. It is possible to reduce the data capacity of the data created at the time.

なお、本実施の形態に示すように、文書伝達の階層構造を特定する際に伝達表を作成するようにすれば、後日、その伝達表を再利用して、繰り返し文書伝達の階層構造を特定することができる。また、後日、作成した伝達表を用いた編集作業を行うことによって、文書伝達の階層構造の分析や編集を行うことができる。   As shown in this embodiment, if a transmission table is created when specifying the hierarchical structure of document transmission, the hierarchical structure of repeated document transmission can be specified later by reusing the transmission table. can do. Further, the hierarchical structure of document transmission can be analyzed and edited by performing editing work using the created transmission table at a later date.

パラレルコーパス抽出手段340は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。パラレルコーパス抽出手段340は、階層構造特定手段130から出力された文書伝達の階層構造の特定結果に基づいて、パラレルコーパスを抽出する機能を備える。   Specifically, the parallel corpus extraction unit 340 is realized by a CPU of an information processing apparatus that operates according to a program. The parallel corpus extraction unit 340 has a function of extracting a parallel corpus based on the document transmission hierarchical structure identification result output from the hierarchical structure identification unit 130.

一般に、文書伝達の階層構造における中継者は、伝達される電子文書を修正していることが多いという傾向がある。そのため、文書伝達過程における中継者の前後における電子文書対はパラレルコーパスとなる傾向が高い。そこで、本実施の形態では、パラレルコーパス抽出手段340は、一般に文書伝達に見られるこのような傾向を利用して、パラレルコーパスを抽出する。   In general, a relayer in a hierarchical structure of document transmission tends to modify an electronic document to be transmitted. For this reason, electronic document pairs before and after a relayer in the document transmission process tend to be a parallel corpus. Therefore, in the present embodiment, the parallel corpus extraction means 340 extracts a parallel corpus using such a tendency generally found in document transmission.

例えば、パラレルコーパス抽出手段340は、図12に示す例では、メンバM2が中継者であるため、メンバM2に対する文書伝達前後の電子文書D101、D102又はD103と、電子文書D104とは、パラレルコーパスであると判断する。また、例えば、パラレルコーパス抽出手段340は、メンバM1が中継者であるため、メンバM1に対する文書伝達前後の電子文書D104と電子文書D105とは、パラレルコーパスであると判断する。   For example, in the example shown in FIG. 12, the parallel corpus extraction means 340 has a parallel corpus between the electronic document D101, D102 or D103 and the electronic document D104 before and after document transmission to the member M2 because the member M2 is a relay person. Judge that there is. For example, the parallel corpus extraction unit 340 determines that the electronic document D104 and the electronic document D105 before and after document transmission to the member M1 are parallel corpuses because the member M1 is a relay person.

なお、一般に、極めて短い期間(例えば同日)に文書伝達が行われる場合には、伝達対象の電子文書を修正又は編集することなく、そのまま次のメンバに転送される傾向が強い。そこで、パラレルコーパス抽出手段340は、そのような傾向を考慮して、コミュニケーション計画における伝達予定日時が同一である伝達計画においては、電子文書の内容が同一であると判断する処理を実行するようにしてもよい。例えば、パラレルコーパス抽出手段340は、メンバM2からメンバM1への伝達は同日に計画されているため、メンバM2を電子文書の単なる橋渡し役と判断し、電子文書D104と電子文書D105とは同様の内容であると判断してもよい。   In general, when document transmission is performed in an extremely short period (for example, the same day), there is a strong tendency that the electronic document to be transmitted is transferred to the next member without modification or editing. Therefore, the parallel corpus extraction means 340 considers such a tendency and executes a process for determining that the contents of the electronic document are the same in a transmission plan having the same scheduled transmission date and time in the communication plan. May be. For example, the parallel corpus extraction means 340 determines that the member M2 is merely a bridging member for the electronic document because the transmission from the member M2 to the member M1 is planned on the same day. The content may be determined.

同義表現抽出装置350は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。同義表現抽出装置350は、パラレルコーパス抽出手段340が特定したパラレルコーパスのテキスト情報から同義表現を抽出する機能を備える。また、同義表現抽出装置350は、抽出した同義表現を同義表現データベース360に記憶させる機能を備える。また、同義表現抽出装置350は、抽出した同義表現を出力手段530に出力させる機能を備える。   Specifically, the synonym expression extraction device 350 is realized by a CPU of an information processing device that operates according to a program. The synonym expression extraction device 350 has a function of extracting synonym expressions from the text information of the parallel corpus specified by the parallel corpus extraction unit 340. The synonym expression extraction device 350 has a function of storing the extracted synonym expressions in the synonym expression database 360. The synonym expression extraction device 350 has a function of causing the output unit 530 to output the extracted synonym expression.

同義表現抽出装置350は、同義表現の抽出技術として、既存の各種の抽出技術を用いて、パラレルコーパスから同義表現を抽出する。例えば、同義表現抽出装置350は、パラレルコーパスから同義表現を抽出する技術として、類似文章対に対して係り受け解析を適用し、所定の条件を満たす部分木を同義表現として抽出する方法を用いてもよい。この場合、例えば、同義表現抽出装置350は、所定の条件として、(1)係り受け解析により得られる部分木の根が用言であること、(2)対となる部分木が共通の固有表現を含んでいること、(3)各用言が要求する格が部分木に含まれていることの3つを用いて同義表現を抽出してもよい。   The synonym expression extraction device 350 extracts synonym expressions from the parallel corpus using various existing extraction techniques as synonym expression extraction techniques. For example, the synonym expression extraction device 350 applies dependency analysis to similar sentence pairs as a technique for extracting synonym expressions from a parallel corpus, and uses a method of extracting a subtree satisfying a predetermined condition as a synonym expression. Also good. In this case, for example, the synonym expression extraction device 350 includes, as predetermined conditions, (1) the root of the subtree obtained by dependency analysis is a predicate, and (2) the paired subtrees include a common specific expression. (3) A synonym expression may be extracted using three cases that a subtree includes a case required by each precaution.

なお、上記に示した同義表現を抽出する技術は、例えば、文献「Shinyama Y, and Sekine S, "Paraphrase acquisition for information extraction", 2nd International Workshop on Paraphrasing: Paraphrase Acquisition and Applications, pp.65-71, 2003」に記載されている。   The technique for extracting the synonymous expression shown above is, for example, the document “Shinyama Y, and Sekine S,“ Paraphrase acquisition for information extraction ”, 2nd International Workshop on Paraphrasing: Paraphrase Acquisition and Applications, pp. 65-71, 2003 ".

同義表現データベース360は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。同義表現データベース360は、同義表現抽出装置350が抽出した同義表現を記憶する。図14は、同義表現データベース360が記憶する同義表現の記憶形式の一例を示す説明図である。図14に示すように、同義表現データベース360は、同義表現ID及び同義表現のペアと、それら同義表現が含まれていた電子文書の文書IDと、その電子文書を作成したメンバとを、対応付けて記憶する。この場合、同義表現データベース360は、電子文書の伝達関数(「Fm(伝達元)」と「To(伝達先)」)が分かるように同義表現を記憶する。   Specifically, the synonymous expression database 360 is realized by a database device such as a magnetic disk device or an optical disk device. The synonym expression database 360 stores the synonym expressions extracted by the synonym expression extraction device 350. FIG. 14 is an explanatory diagram showing an example of a storage format of synonym expressions stored in the synonym expression database 360. As illustrated in FIG. 14, the synonym expression database 360 associates a synonym expression ID and a synonym expression pair, the document ID of the electronic document that includes the synonym expression, and the member who created the electronic document. Remember. In this case, the synonym expression database 360 stores synonym expressions so that the transfer functions (“Fm (transmission source)” and “To (transmission destination)”) of the electronic document can be understood.

図14において、同義表現IDは、同義表現のペアを一意に識別するために付与される識別情報である。図14に示すように、同義表現ID700(W001)においては、「メンバM3が作成した電子文書D101を参照して作成した電子文書ID104において、表現XYZが同義表現ABCに変更された」ことがわかる。すなわち、表現XYZと表現ABCとのペアが相互に同義表現であることを示している。   In FIG. 14, the synonym expression ID is identification information given to uniquely identify a pair of synonym expressions. As shown in FIG. 14, in the synonym expression ID 700 (W001), it is understood that the expression XYZ has been changed to the synonym expression ABC in the electronic document ID 104 created by referring to the electronic document D101 created by the member M3. . That is, the pair of the expression XYZ and the expression ABC is synonymous with each other.

なお、図14に示した記憶形式は、同義表現の記憶方法の一例であり、同義表現データベース360は、同義表現の情報を抽出できるものであれば、他の記憶形式で同義表現を記憶してもよい。   The storage format shown in FIG. 14 is an example of a storage method of synonymous expressions, and the synonymous expression database 360 stores synonymous expressions in other storage formats as long as the information of synonymous expressions can be extracted. Also good.

出力手段530は、具体的には、ディスプレイ装置等の表示装置によって実現される。出力手段530は、例えば、ディスプレイ装置である場合には、同義表現抽出装置350の指示に従って、同義表現抽出装置350の抽出結果(抽出した同義表現)を表示する。なお、同義表現の抽出結果を表示するのではなく、表現統一化システム300は、同義表現の抽出結果を電子ファイルとして出力してもよい。また、表現統一化システム300は、組織情報に示されるアドレス情報を利用して、e−mail等を用いて、抽出結果を各メンバの端末に通知(送信)してもよい。   Specifically, the output means 530 is realized by a display device such as a display device. For example, when the output unit 530 is a display device, the extraction result (the extracted synonym expression) of the synonym expression extraction device 350 is displayed according to the instruction of the synonym expression extraction device 350. Instead of displaying the extraction result of the synonym expression, the expression unification system 300 may output the extraction result of the synonym expression as an electronic file. Further, the expression unification system 300 may notify (send) the extraction result to each member's terminal using e-mail or the like using the address information indicated in the organization information.

図15は、出力手段530が出力する同義表現の抽出結果の一例を示す説明図である。図15に示すように、出力手段530は、誰と誰との間で文書伝達されたどの電子文書間において、どのような同義表現が用いられたかを分かるような出力形式で、同義表現の抽出結果を出力する。なお、出力手段530が同義表現の抽出結果を出力する際の表示態様は、図15に例示した表示態様に限られず、他の表示態様で出力するようにしてもよい。   FIG. 15 is an explanatory diagram illustrating an example of a synonym expression extraction result output by the output unit 530. As shown in FIG. 15, the output means 530 extracts synonymous expressions in an output format so that it can be understood what synonymous expressions are used between which electronic documents communicated between whom. Output the result. Note that the display mode when the output unit 530 outputs the extraction result of the synonymous expression is not limited to the display mode illustrated in FIG. 15 and may be output in another display mode.

図15に示す例では、電子文書D101と電子文書D104とに、2組の同義表現(ABC及びXYZと、PQR及びSTU)が用いられたことを示している。また、電子文書D102と電子文書D104とに、1組の同義表現(LMN及びSTU)が使用されたことを示している。また、出力手段530は、図12に示すように、文書伝達の階層構造を表示するとともに、使用された同義表現を重畳して表示してもよい。   The example shown in FIG. 15 indicates that two sets of synonymous expressions (ABC and XYZ, and PQR and STU) are used for the electronic document D101 and the electronic document D104. In addition, a pair of synonymous expressions (LMN and STU) are used for the electronic document D102 and the electronic document D104. Further, as shown in FIG. 12, the output unit 530 may display a hierarchical structure of document transmission and may superimpose the used synonymous expressions.

なお、本実施の形態において、文書参照関係抽出システム100及び表現統一化システム300を実現する情報処理装置の記憶装置(図示せず)は、電子文書間の参照関係を抽出するための各種プログラムを記憶している。例えば、情報処理装置の記憶装置は、コンピュータに、メンバ間で伝達される電子文書に対する文書伝達の階層構造を特定する階層構造特定処理を実行させるための文書参照関係抽出プログラムを記憶している。   In the present embodiment, the storage device (not shown) of the information processing apparatus that implements the document reference relation extraction system 100 and the expression unification system 300 stores various programs for extracting reference relations between electronic documents. I remember it. For example, the storage device of the information processing apparatus stores a document reference relationship extraction program for causing a computer to execute a hierarchical structure specifying process for specifying a hierarchical structure of document transmission for an electronic document transmitted between members.

また、本実施の形態において、文書参照関係抽出システム100及び表現統一化システム300を実現する情報処理装置の記憶装置は、相互に同義表現を含む電子文書であるパラレルコーパスを抽出し、パラレルコーパスに含まれる同義表現を統一するための各種プログラムを記憶している。例えば、情報処理装置の記憶装置は、コンピュータに、予めデータベースに記憶する電子文書の伝達計画を示す伝達計画情報に基づいて、電子文書間に参照関係がない文書伝達を示す非参照関係情報を抽出する非参照関係抽出処理と、メンバ間で伝達される電子文書に対する文書伝達の階層構造を特定する階層構造特定処理とを実行させ、階層構造特定処理で、データベースに記憶する電子文書の伝達記録を示す伝達記録情報に基づいて、予めデータベースに記憶する伝達計画情報に示される伝達計画に対応する伝達記録を特定する処理と、特定した伝達記録に基づいて、電子文書の伝達の開始者から末端者までの階層構造を特定する処理と、抽出した非参照関係情報に基づいて、電子文書の伝達の開始者から末端者までの階層構造を、非参照関係である文書伝達を含まずに特定する処理とを実行させるための表現統一化プログラムを記憶している。   In the present embodiment, the storage device of the information processing apparatus that implements the document reference relationship extraction system 100 and the expression unification system 300 extracts a parallel corpus that is an electronic document that includes synonymous expressions, and converts the parallel corpus into a parallel corpus. Various programs for unifying synonymous expressions included are stored. For example, the storage device of the information processing apparatus extracts non-reference relationship information indicating document transmission that does not have a reference relationship between electronic documents based on transmission plan information indicating a transmission plan of electronic documents stored in a database in advance in a computer. Non-reference relationship extraction processing and hierarchical structure specifying processing for specifying the hierarchical structure of document transmission for electronic documents transmitted between members, and transmission records of electronic documents stored in the database are stored in the hierarchical structure specifying processing. Based on the transmission record information shown, a process for identifying a transmission record corresponding to the transmission plan indicated in the transmission plan information stored in the database in advance, and from the initiator of the electronic document transmission to the end person based on the identified transmission record Based on the processing that identifies the hierarchical structure up to and the extracted non-reference relationship information, the hierarchical structure from the start to the end of the transmission of the electronic document is not referenced. Stores representations unified program for executing a process of identifying without the document transmission is related.

次に、表現統一化システム300の全体の動作について説明する。図16は、文書伝達の階層構造を特定し伝達文書の表現を統一する処理の一例を示すフローチャートである。   Next, the overall operation of the expression unification system 300 will be described. FIG. 16 is a flowchart showing an example of processing for specifying the hierarchical structure of document transmission and unifying the expression of the transmission document.

まず、表現統一化システム300の伝達文書抽出手段320は、所定のタイミングで、文書提供サーバ520から伝達文書情報を抽出し、伝達文書データベース330に記憶させる(ステップS11)。例えば、伝達文書抽出手段320は、所定期間毎に(例えば、毎日1回)、文書提供サーバ520に自動アクセスし、文書提供サーバ520から伝達文書情報を受信して伝達文書データベース330に記憶させる。また、例えば、伝達文書抽出手段320は、文書提供サーバ520に新たに電子文書が格納されたことをトリガとして、文書提供サーバ520に自動アクセスし、文書提供サーバ520から伝達文書情報を受信して伝達文書データベース330に記憶させる。   First, the transfer document extraction unit 320 of the expression unification system 300 extracts transfer document information from the document providing server 520 at a predetermined timing and stores it in the transfer document database 330 (step S11). For example, the transfer document extracting unit 320 automatically accesses the document providing server 520 every predetermined period (for example, once every day), receives the transfer document information from the document providing server 520, and stores it in the transfer document database 330. Further, for example, the transmission document extraction unit 320 automatically accesses the document provision server 520 and receives the transmission document information from the document provision server 520, triggered by a new electronic document stored in the document provision server 520. It is stored in the transmission document database 330.

ステップS11の処理が所定のタイミングで繰り返し実行されることによって、伝達文書データベース330に伝達文書情報が格納され、随時更新される。   By repeatedly executing the process of step S11 at a predetermined timing, the transfer document information is stored in the transfer document database 330 and updated as needed.

次いで、ユーザ(組織内のいずれかのグループのメンバ)によって指示操作がなされると、文書参照関係抽出システム100は、文書伝達の階層構造の特定処理を開始する。文書伝達の階層構造の特定処理において、文書参照関係抽出システム100の非参照関係抽出手段120は、まず、組織情報データベース310が記憶する組織情報、及びコミュニケーション計画データベース110が記憶するコミュニケーション計画に基づいて、計画表を作成するとともに、非参照関係表を作成する(ステップS12)。   Next, when an instruction operation is performed by the user (a member of any group in the organization), the document reference relation extraction system 100 starts a process for specifying a hierarchical structure of document transmission. In the process of specifying the hierarchical structure of document transmission, the non-reference relationship extraction unit 120 of the document reference relationship extraction system 100 firstly, based on the organization information stored in the organization information database 310 and the communication plan stored in the communication plan database 110. A plan table is created and a non-reference relationship table is created (step S12).

次いで、階層構造特定手段130は、コミュニケーション計画データベース110が記憶するコミュニケーション計画、及び伝達文書データベース330が記憶する伝達文書情報に基づいて、伝達表を作成する(ステップS13)。   Next, the hierarchical structure specifying unit 130 creates a transmission table based on the communication plan stored in the communication plan database 110 and the transfer document information stored in the transfer document database 330 (step S13).

次いで、階層構造特定手段130は、作成した伝達表に基づいて、文書伝達の階層構造を特定する(ステップS14)。この場合、階層構造特定手段130は、非参照関係抽出手段120が作成した非参照関係表を利用して、電子文書間に参照関係が生じない文書伝達を除外した階層構造を特定する。   Next, the hierarchical structure specifying unit 130 specifies the hierarchical structure of document transmission based on the created transmission table (step S14). In this case, the hierarchical structure specifying unit 130 uses the non-reference relationship table created by the non-reference relationship extracting unit 120 to specify a hierarchical structure excluding document transmission that does not cause a reference relationship between electronic documents.

次いで、パラレルコーパス抽出手段340は、階層構造特定手段130が特定した文書伝達の階層構造に基づいて、パラレルコーパスを抽出する(ステップS15)。次いで、同義表現抽出装置350は、パラレルコーパス抽出手段340が抽出したパラレルコーパスに基づいて、伝達文書から同義表現を抽出し、抽出結果を同義表現データベース360に記憶させる(ステップS16)。また、同義表現抽出装置350は、同義表現の抽出結果を出力手段530に出力させる。   Next, the parallel corpus extracting unit 340 extracts a parallel corpus based on the document transmission hierarchical structure specified by the hierarchical structure specifying unit 130 (step S15). Next, the synonym expression extraction device 350 extracts the synonym expression from the transmission document based on the parallel corpus extracted by the parallel corpus extraction unit 340, and stores the extraction result in the synonym expression database 360 (step S16). Also, the synonym expression extraction device 350 causes the output unit 530 to output the extraction result of the synonym expression.

以上のように、本実施の形態によれば、文書参照関係抽出システム100は、組織情報やコミュニケーション計画、伝達文書情報に基づいて、電子文書間において参照関係が生じやすい文書伝達の階層構造を特定する。そのため、電子文書の伝達が行われる場合において、電子文書の参照関係を抽出することができる。   As described above, according to the present embodiment, the document reference relationship extraction system 100 identifies a document transmission hierarchical structure in which a reference relationship is likely to occur between electronic documents based on organization information, a communication plan, and transmission document information. To do. Therefore, when the electronic document is transmitted, the reference relationship of the electronic document can be extracted.

また、本実施の形態によれば、電子文書間の参照関係を抽出でき、表現統一化システム300は、伝達過程における他の人の伝達文書を参照して、集約や配布を行う文書伝達の中継者を効率的に発見して、パラレルコーパスを抽出する。そのため、伝達文書間のパラレルコーパスを効率的に抽出することができる。   Further, according to the present embodiment, it is possible to extract a reference relationship between electronic documents, and the expression unification system 300 refers to another person's transmission document in the transmission process, and relays document transmission for aggregation and distribution. A person is efficiently discovered and a parallel corpus is extracted. Therefore, a parallel corpus between transmission documents can be extracted efficiently.

実施の形態2.
次に、本発明の第2の実施の形態を図面を参照して説明する。図17は、第2の実施の形態における文書参照関係抽出システム100を用いた表現統一システム300の構成例を示すブロック図である。図17に示すように、本実施の形態では、図1に示した構成要素に加えて、階層構造データベース370、修正案入力手段540及び修正手段380を含む点で、第1の実施の形態と異なる。
Embodiment 2. FIG.
Next, a second embodiment of the present invention will be described with reference to the drawings. FIG. 17 is a block diagram illustrating a configuration example of the expression unification system 300 using the document reference relationship extraction system 100 according to the second embodiment. As shown in FIG. 17, this embodiment differs from the first embodiment in that it includes a hierarchical structure database 370, a correction plan input means 540, and a correction means 380 in addition to the components shown in FIG. Different.

階層構造データベース370は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。階層構造データベース370は、文書参照関係抽出システム100によって特定された階層構造を記憶する。   Specifically, the hierarchical database 370 is realized by a database device such as a magnetic disk device or an optical disk device. The hierarchical structure database 370 stores the hierarchical structure specified by the document reference relationship extraction system 100.

修正案入力手段540は、具体的には、キーボードやマウス等の入力デバイスによって実現される。修正案入力手段540は、ユーザの操作に従って、抽出された同義表現に対する修正案を入力する機能を備える。   Specifically, the correction proposal input means 540 is realized by an input device such as a keyboard or a mouse. The correction plan input means 540 has a function of inputting a correction plan for the extracted synonym expression according to a user operation.

修正手段380は、具体的には、プログラムに従って動作する情報処理装置のCPU及びネットワークインタフェース部によって実現される。修正手段380は、修正案入力手段540から入力した修正案に基づいて、同義表現を修正する機能を備える。また、修正手段380は、同義表現を修正したことを通知するメンバを特定する機能を備える。   Specifically, the correcting unit 380 is realized by a CPU and a network interface unit of an information processing apparatus that operates according to a program. The correction unit 380 has a function of correcting the synonym expression based on the correction plan input from the correction plan input unit 540. Further, the correcting means 380 has a function of specifying a member that notifies that the synonymous expression has been corrected.

次に、動作について説明する。図18は、同義表現を修正する処理の一例を示すフローチャートである。なお、本実施の形態では、文書参照関係抽出システム100は、第1の実施の形態と同様の処理に従って、文書伝達の階層構造を特定する。また、表現統一化システム300は、第1の実施の形態と同様の処理に従って、伝達文書間の同義表現を抽出する。以下、図18に示すフローチャートに従って、同義表現を修正する動作について説明する。なお、本実施の形態では、出力手段530がディスプレイ装置である場合を例に説明する。   Next, the operation will be described. FIG. 18 is a flowchart illustrating an example of processing for correcting a synonymous expression. In the present embodiment, the document reference relationship extraction system 100 specifies the hierarchical structure of document transmission according to the same processing as in the first embodiment. In addition, the expression unification system 300 extracts synonymous expressions between transmission documents according to the same processing as in the first embodiment. Hereinafter, the operation for correcting the synonymous expression will be described with reference to the flowchart shown in FIG. In the present embodiment, the case where the output unit 530 is a display device will be described as an example.

まず、表現統一化システム300は、同義表現データベース360に記憶されている同義表現を、例えば、出力手段530であるディスプレイ装置に一覧表示させる(図18のステップB1)。また、表現統一化システム300は、同義表現を修正するための修正入力画面をディスプレイ装置に表示させる。例えば、表現統一化システム300は、図19に示す修正入力画面を表示させる。図19に示す例では、修正入力画面に、同義表現ID、抽出された同義表現、及び抽出元になった電子文書の文書IDが表示されており、さらに各同義表現に対する修正案を入力する入力欄717が設けられている。   First, the expression unification system 300 displays a list of synonym expressions stored in the synonym expression database 360, for example, on a display device that is the output unit 530 (step B1 in FIG. 18). In addition, the expression unification system 300 displays a correction input screen for correcting the synonymous expression on the display device. For example, the expression unification system 300 displays the correction input screen shown in FIG. In the example shown in FIG. 19, the synonym expression ID, the extracted synonym expression, and the document ID of the electronic document that is the extraction source are displayed on the correction input screen, and an input for inputting a correction plan for each synonym expression. A column 717 is provided.

次に、修正案入力手段540は、システムの利用者又はメンバの操作に従って、表現統一のための修正案を入力する(図18のステップB2)。なお、例えば、修正案入力手段540として、キーボードやマウス等の入力デバイスを用いる。また、図17では、修正案入力手段540と入力手段510とを分けて表記しているが、修正案入力手段540及び入力手段510を同一の入力装置で実現してもよい。   Next, the correction plan input means 540 inputs a correction plan for unifying expressions in accordance with the operation of the user or member of the system (step B2 in FIG. 18). For example, an input device such as a keyboard or a mouse is used as the correction proposal input unit 540. In FIG. 17, the correction plan input unit 540 and the input unit 510 are shown separately, but the correction plan input unit 540 and the input unit 510 may be realized by the same input device.

なお、使用した同義表現のいずれかを選択する様態で修正案を入力するようにしてもよいし、自由記述形式にして新しい表現を入力できるようにしてもよい。また、同義表現は任意のシステムの利用者又はメンバにより修正可能である。   Note that the correction proposal may be input in a manner of selecting any of the used synonymous expressions, or a new expression may be input in a free description format. The synonymous expression can be modified by a user or member of any system.

表現統一化システム300は、システムの利用者やメンバの操作に従って、修正案入力手段540から、同義表現に対して入力された修正案と同義表現IDとをに入力する。   The expression unification system 300 inputs the correction plan and the synonym expression ID input to the synonym expression from the correction plan input means 540 according to the operation of the system user or member.

次に、修正手段380は、伝達文書データベース330が記憶する伝達文書情報に基づいて、修正すべき同義表現を含む文書IDの電子文書を文書提供サーバ520から抽出する。この場合、例えば、修正手段380は、伝達文書情報に基づいて、修正すべき同義表現を含む電子文書の文書IDを特定する。また、修正手段380は、特定した文書IDに対応する電子文書の抽出要求を、ネットワークを介して文書提供サーバ520に送信する。すると、文書提供サーバ520は、要求に応じて電子文書を抽出し、ネットワークを介して表現統一化システム300に送信する。   Next, the correcting unit 380 extracts, from the document providing server 520, the electronic document having the document ID including the synonym expression to be corrected based on the transfer document information stored in the transfer document database 330. In this case, for example, the correcting unit 380 specifies the document ID of the electronic document including the synonymous expression to be corrected based on the transmitted document information. Further, the correcting unit 380 transmits an electronic document extraction request corresponding to the specified document ID to the document providing server 520 via the network. Then, the document providing server 520 extracts the electronic document in response to the request and transmits it to the expression unifying system 300 via the network.

次いで、修正手段380は、文書提供サーバ520から抽出した電子文書に基づいて、文書IDと、その同義表現を含む前後の文を修正候補として出力手段530に出力させる(図18のステップB3)。この場合、修正手段380は、同義表現を含む前後の文として任意の長さの文を出力手段530に表示させる。例えば、修正手段380は、同義表現を含む前後の語句を表示させてもよい。また、修正手段380は、文単位で表示させてもよいし、修正候補を表示させなくてもよい。   Next, based on the electronic document extracted from the document providing server 520, the correcting unit 380 causes the output unit 530 to output a sentence before and after the document ID and its synonymous expression as a correction candidate (step B3 in FIG. 18). In this case, the correction unit 380 causes the output unit 530 to display a sentence having an arbitrary length as a sentence before and after the synonymous expression. For example, the correcting unit 380 may display the preceding and following words including synonymous expressions. In addition, the correction unit 380 may display the sentence unit or may not display the correction candidates.

また、修正手段380は、出力手段530を用いて、例えば、図20に示すような表示画面を表示させることによって、修正候補を出力させるは。図20に示す例では、修正手段380は、修正される電子文書の文書ID、その電子文書が伝達された日時、その同義表現を使用したメンバ、及び修正候補の文を含む表示画面が表示されている。また、図20に示す表示画面には、さらにその修正に同意するかどうかを入力する入力欄718が含まれる。   Further, the correction unit 380 uses the output unit 530 to display a display screen as shown in FIG. 20, for example, to output correction candidates. In the example shown in FIG. 20, the correction unit 380 displays a display screen including the document ID of the electronic document to be corrected, the date and time when the electronic document was transmitted, the member using the synonymous expression, and the correction candidate sentence. ing. The display screen shown in FIG. 20 further includes an input field 718 for inputting whether or not to agree with the correction.

次に、修正案入力手段540は、システムの利用者又はメンバの操作に従って、修正候補の中から修正に合意した旨を入力し、表現統一化システム300は、修正案入力手段540から修正に合意した旨の指示情報を入力する(図18のステップB4)。   Next, the amendment proposal input means 540 inputs that the amendment is agreed among the amendment candidates according to the operation of the system user or member, and the expression unification system 300 agrees to the amendment from the amendment proposal input means 540. The instruction information to the effect is input (step B4 in FIG. 18).

なお、合意又は非合意であることを入力するために、図20に示す例では、○又は×の記号を用いて入力する場合を示している。ただし、修正に合意したことを表現統一化システム300に伝えることができれば、入力方法は○や×等の記号入力を用いた選択形式である必要はない。例えば、ラジオボタンを用いて入力できるようにしてもよいし、キーボード等を用いて文字を入力することによって合意又は非合意を入力できるようにしてもよい。また、同意又は非同意であることを示す情報を入力するだけではなく、図20において、修正する理由や修正しない理由を示す情報を入力する欄を表示画面に設けてもよい。   In addition, in order to input that it is agreement or non-agreement, the example shown in FIG. 20 shows the case where it inputs using the symbol of (circle) or x. However, the input method does not need to be a selection format using symbol input such as ◯ and X as long as it can be notified to the expression unification system 300 that the correction is agreed. For example, it may be possible to input using a radio button, or to input agreement or non-agreement by inputting characters using a keyboard or the like. In addition to inputting information indicating consent or disagreement, in FIG. 20, a column for inputting information indicating the reason for correction or the reason for not correction may be provided on the display screen.

次に、修正手段380は、修正に同意する旨が入力指示された同義表現を置換して、伝達文書間の表現を統一する(図18のステップB5)。なお、修正手段380は、例えば、既存のテキスト処理技術を用いて、同義表現を置換処理する。   Next, the correcting unit 380 replaces the synonymous expression instructed to agree with the correction, and unifies the expressions between the transmission documents (step B5 in FIG. 18). Note that the correction unit 380 performs replacement processing on the synonym expression using, for example, an existing text processing technique.

次に、修正手段380は、いつ伝達された伝達文書のどの表現が同義表現となり、どのように修正されたかをシステムの利用者及びメンバに通知する(図18のステップB6)。   Next, the correction means 380 notifies the system users and members of which expression of the transmitted document that has been transmitted becomes a synonymous expression and how it has been corrected (step B6 in FIG. 18).

ステップB6において、修正手段380は、修正された電子文書の文書IDを含む階層構造を階層構造データベース370から特定し、特定した階層構造中に含まれる全ての文書IDを抽出する。次いで、修正手段380は、抽出した文書IDを検索キーとして伝達文書データベース330を検索し、伝達文書データベース330から伝達文書情報を特定する。また、修正手段380は、特定した伝達文書情報に対応する電子文書を文書提供サーバ520から抽出した電子文書の中から特定する。そして、修正手段380は、特定した電子文書中で同義表現対(図19に示す例ではABC又はXYZ)を含む電子文書を特定する。   In step B6, the correcting unit 380 specifies a hierarchical structure including the document ID of the corrected electronic document from the hierarchical structure database 370, and extracts all document IDs included in the specified hierarchical structure. Next, the correcting unit 380 searches the transfer document database 330 using the extracted document ID as a search key, and specifies transfer document information from the transfer document database 330. The correcting unit 380 specifies an electronic document corresponding to the specified transmission document information from the electronic documents extracted from the document providing server 520. Then, the correcting unit 380 specifies an electronic document including the synonymous expression pair (ABC or XYZ in the example illustrated in FIG. 19) in the specified electronic document.

次に、修正手段380は、特定した電子文書に対してFm(伝達元)又はTo(伝達先)の役割を果たしたメンバを抽出する。すなわち、伝達元又は伝達先の役割を果たしたメンバは、同義表現を含む文書伝達に関わっており、その伝達文書を参照している。そして、修正手段380は、文書伝達に関わったメンバに対して修正に関する通知を行う。例えば、修正手段380は、文書伝達に関わったメンバの端末に、ネットワークを介して、同義表現を統一する修正を行った旨及び修正箇所を示すメッセージを送信する。   Next, the correcting unit 380 extracts members who have played the role of Fm (transmission source) or To (transmission destination) for the identified electronic document. That is, the member who played the role of transmission source or transmission destination is involved in document transmission including synonymous expressions, and refers to the transmission document. Then, the correction unit 380 notifies the member involved in document transmission regarding the correction. For example, the correction unit 380 transmits a message indicating that the correction for unifying synonymous expressions has been performed and the correction location to the terminal of the member involved in document transmission via the network.

以上の処理が実行されることによって、同義表現の参照に関わる必要最小限のメンバに対して、同義表現の修正に関する通知が行われる。   By executing the above processing, a notification regarding correction of the synonym expression is given to the minimum necessary members related to the reference of the synonym expression.

例えば、図4に示す伝達文書情報によれば、メンバM4は、メンバM3とメンバM2とから、それぞれ電子文書D101と電子文書D104とを伝達されている。また、電子文書D101の表現ABCと電子文書D104の表現XYZとが同義表現の関係にある。しかし、メンバM4は、その電子文書の伝達過程や同義表現の発生過程を知らないため、それらの表現が同一のものであるか否か判断するのが難しい。   For example, according to the transmission document information shown in FIG. 4, the member M4 is transmitted the electronic document D101 and the electronic document D104 from the member M3 and the member M2, respectively. In addition, the expression ABC of the electronic document D101 and the expression XYZ of the electronic document D104 have a synonymous expression relationship. However, since the member M4 does not know the transmission process of the electronic document and the generation process of synonymous expressions, it is difficult to determine whether or not the expressions are the same.

本実施の形態では、修正手段380は、メンバM4に、例えば、図21に示すメッセージを通知(送信)する。なお、修正手段380は、例えば、e−mail(電子メール)を用いて図21に示すメッセージをメンバの端末に送信すればよい。図21に示すメッセージを受けとり、表示されたメッセージの内容を確認することにより、メンバM4は、同義表現の発生原因や修正過程等を把握することができる。   In the present embodiment, the correction unit 380 notifies (transmits) the message shown in FIG. 21 to the member M4, for example. The correction unit 380 may transmit the message shown in FIG. 21 to the member terminal using e-mail (e-mail), for example. By receiving the message shown in FIG. 21 and confirming the content of the displayed message, the member M4 can grasp the cause of the synonymous expression, the correction process, and the like.

以上のように、本実施の形態によれば、階層構造データベース370が記憶する文書伝達の階層構造の特定結果に基づいて、同義表現が抽出された電子文書に関連する文書伝達の階層構造を特定する。また、文書伝達の階層構造中で文書伝達された電子文書を特定することができる。さらに、伝達文書データベース330が記憶する伝達文書情報に基づいて、伝達文書のFm(伝達元)とTo(伝達先)とを特定することができる。そのため、同義表現を修正したことを、修正した電子文書に関与するメンバに対して通知することができる。   As described above, according to the present embodiment, the hierarchical structure of document transmission related to the electronic document from which synonymous expressions are extracted is specified based on the specification result of the hierarchical structure of document transmission stored in the hierarchical structure database 370. To do. In addition, it is possible to specify an electronic document that has been transmitted in the hierarchical structure of document transmission. Furthermore, based on the transmission document information stored in the transmission document database 330, the Fm (transmission source) and To (transmission destination) of the transmission document can be specified. Therefore, it is possible to notify the members involved in the corrected electronic document that the synonym expression has been corrected.

例えば、特許文献1〜3に記載された従来のシステムや装置、方法、プログラムでは、電子文書が修正された場合、その電子文書を参照した人々を特定できない。例えば、特許文献1及び特許文献3に記載されたシステムや装置、方法、プログラムでは、参照文書が修正された場合に対応するための処理がない。   For example, in the conventional systems, apparatuses, methods, and programs described in Patent Documents 1 to 3, when an electronic document is modified, people who refer to the electronic document cannot be specified. For example, in the systems, apparatuses, methods, and programs described in Patent Document 1 and Patent Document 3, there is no processing for dealing with a case where a reference document is modified.

また、例えば、特許文献2に記載された装置や方法では、文書修正の通知は、電子文書の修正者及び修正文書から参照されている電子文書の所有者に留まっており、参照関係もHTML等定型のフォーマットにおけるハイパーリンクとなっている。そのため、修正前/後の自由書式の電子文書に関連する人々に対して修正が行われたことを通知することができない。なお、「関連する人々」とは、特許文献2に記載された装置や方法でも通知対象としている電子文書の修正者及び修正文書から参照されている電子文書の所有者等である。また、「関連する人々」とは、さらに、それらの電子文書を伝達された人や閲覧した人や、修正文書を参照し電子文書を作成した人々、その作成された電子文書の閲覧者等である。   Further, for example, in the apparatus and method described in Patent Document 2, the notification of document correction is limited to the corrector of the electronic document and the owner of the electronic document referenced from the corrected document, and the reference relationship is also HTML or the like. It is a hyperlink in a standard format. Therefore, it is impossible to notify people related to the free-form electronic document before / after correction that the correction has been made. Note that the “related people” are an electronic document corrector to be notified by the apparatus and method described in Patent Document 2, an owner of the electronic document referenced from the corrected document, and the like. In addition, “related people” refers to those who have been transferred to or viewed the electronic document, those who have created the electronic document by referring to the revised document, and who have viewed the created electronic document. is there.

これに対し、本実施の形態では、上記に説明したように、電子文書の参照関係を抽出することができ、電子文書の内容と伝達構造とに基づいて、どの情報が誰にまで伝達されているかを判断することができる。そのため、ある電子文書の内容変更について、その旨を通知するべきメンバを特定することができる。   On the other hand, in the present embodiment, as described above, the reference relationship of the electronic document can be extracted, and which information is transmitted to whom based on the contents of the electronic document and the transmission structure. Can be determined. Therefore, it is possible to specify a member who should be notified of a change in the contents of an electronic document.

実施の形態3.
次に、本発明の第3の実施の形態を図面を参照して説明する。図22は、第3の実施の形態における文書参照関係抽出システム100を用いた表現統一システム300の構成例を示すブロック図ある。図22に示すように、本実施の形態では、図1に示した構成要素に加えて、傾向分析手段390を含む点で、第1の実施の形態と異なる。また、本実施の形態では、階層構造特定手段130の機能が、第1の実施の形態で示した階層構造特定手段130の機能と異なる。
Embodiment 3 FIG.
Next, a third embodiment of the present invention will be described with reference to the drawings. FIG. 22 is a block diagram illustrating a configuration example of the expression unification system 300 using the document reference relationship extraction system 100 according to the third embodiment. As shown in FIG. 22, this embodiment is different from the first embodiment in that it includes a trend analysis means 390 in addition to the components shown in FIG. Further, in this embodiment, the function of the hierarchical structure specifying unit 130 is different from the function of the hierarchical structure specifying unit 130 shown in the first embodiment.

傾向分析手段390は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。傾向分析手段390は、各メンバの同義表現の使用傾向を分析する機能を備える。   Specifically, the trend analysis unit 390 is realized by a CPU of an information processing apparatus that operates according to a program. The trend analysis means 390 has a function of analyzing the usage trend of the synonymous expression of each member.

また、本実施の形態では、階層構造特定手段130は、第1の実施の形態で示した機能に加えて、コミュニケーション計画データベース110が記憶するコミュニケーション計画に基づいて、予め計画された文書伝達の階層構造を特定する機能を備える。なお、本実施の形態では、階層構造特定手段130は、第1の実施の形態と同様の処理に従って、実際に行われた文書伝達の階層構造を特定する機能も備える。   Further, in the present embodiment, the hierarchical structure specifying unit 130, in addition to the functions shown in the first embodiment, the hierarchy of document transmission planned in advance based on the communication plan stored in the communication plan database 110. Has the function to specify the structure. In the present embodiment, the hierarchical structure specifying unit 130 also has a function of specifying the hierarchical structure of document transmission actually performed according to the same processing as in the first embodiment.

次に、動作について説明する。本実施の形態では、表現統一化システム300は、第1の実施の形態と同様の処理に従って、実際に行われた文書伝達の階層構造を特定し、伝達文書の表現を統一する処理を実行する。また、本実施の形態では、表現統一化システム300は、第1の実施の形態で示した処理に加えて、予め計画された文書伝達の階層構造を特定し、同義表現の発生傾向を提示する処理を実行する。図23は、予め計画された文書伝達の階層構造を特定し、同義表現の発生傾向を提示する処理の一例を示すフローチャートである。   Next, the operation will be described. In the present embodiment, the expression unification system 300 identifies the hierarchical structure of the document transmission actually performed and executes the process of unifying the expression of the transmission document in accordance with the same processing as in the first embodiment. . In this embodiment, in addition to the processing shown in the first embodiment, the expression unification system 300 specifies a hierarchical structure of document transmission planned in advance and presents the occurrence tendency of synonymous expressions. Execute the process. FIG. 23 is a flowchart illustrating an example of a process for specifying a preliminarily planned document transmission hierarchical structure and presenting the occurrence tendency of synonymous expressions.

非参照関係抽出手段120は、コミュニケーション計画データベース110が記憶する任意のコミュニケーション計画に対して、第1の実施の形態と同様の処理に従って、よ計画表と非参照関係表とを作成する(ステップS31)。図24は、非参照関係抽出手段120が図3に示すコミュニケーション計画に基づいて作成された2つの計画表、及び計画表から文書伝達の階層構造を特定する過程の例を示す説明図である。なお、図24に示す計画表では、文書伝達計画がある(行中に1が存在する)部分のみを抜粋して示している。   The non-reference relationship extraction unit 120 creates a plan table and a non-reference relationship table for any communication plan stored in the communication plan database 110 according to the same processing as in the first embodiment (step S31). ). FIG. 24 is an explanatory diagram illustrating an example of a process in which the non-reference relationship extracting unit 120 identifies two plan tables created based on the communication plan shown in FIG. 3 and a hierarchical structure of document transmission from the plan table. Note that, in the plan table shown in FIG. 24, only a portion where there is a document transmission plan (1 exists in the line) is extracted and shown.

本実施の形態では、非参照関係抽出手段120は、第1の実施の形態と同様に、図24に示す計画表に基づいて、図8に示す非参照関係表と同様の非参照関係表を抽出したものとして説明する。なお、非参照関係抽出手段120は、コミュニケーション計画中にグループIDが含まれている場合には、組織情報データベース310が記憶する組織情報に基づいて、コミュニケーション計画を展開する。   In the present embodiment, the non-reference relationship extraction unit 120 generates a non-reference relationship table similar to the non-reference relationship table shown in FIG. 8 based on the plan table shown in FIG. 24, as in the first embodiment. The description will be made assuming that it has been extracted. The non-reference relationship extraction unit 120 develops the communication plan based on the organization information stored in the organization information database 310 when the group ID is included in the communication plan.

次に、階層構造特定手段130は、第1の実施の形態において伝達表に対して適用したアルゴリズムと同様のアルゴリズムを計画表に対して適用することによって、コミュニケーション計画に基づいて、予め計画されている文書伝達の階層構造を特定する。この場合、階層構造特定手段130は、非参照関係抽出手段120が作成した計画表と非参照関係表とに基づいて、予め計画されている文書伝達の階層構造を特定する(ステップS32)。   Next, the hierarchical structure specifying unit 130 is preliminarily planned based on the communication plan by applying an algorithm similar to the algorithm applied to the transfer table in the first embodiment to the plan table. Identify the document transmission hierarchy. In this case, the hierarchical structure specifying unit 130 specifies a planned document transmission hierarchical structure based on the plan table and the non-reference relationship table created by the non-reference relationship extraction unit 120 (step S32).

次に、階層構造特定手段130は、各計画表内の文書伝達構造を特定する。階層構造特定手段130は、それら各計画表内の文書伝達構造を、t番目の計画表Pt内において1が付与されている箇所のFm(伝達元)とTo(伝達先)とをリンクすることによって特定することができる。この場合、階層構造特定手段130は、リンクの条件式(5)を用いて、伝達元と伝達先とのリンク付けを行う。ただし、階層構造特定手段130は、非参照関係表に基づいて、非参照関係である伝達元と伝達先とについては抽出しないように処理する。なお、ここでいうリンクとは、第1の実施の形態で用いたリンクと同じ意味である。   Next, the hierarchical structure specifying unit 130 specifies the document transmission structure in each plan table. The hierarchical structure specifying unit 130 links the document transmission structure in each of the plan tables with Fm (transmission source) and To (transmission destination) at a location where 1 is assigned in the t-th plan table Pt. Can be specified by. In this case, the hierarchical structure specifying unit 130 links the transmission source and the transmission destination using the link conditional expression (5). However, the hierarchical structure specifying unit 130 performs processing so as not to extract the transmission source and the transmission destination that are in the non-reference relationship based on the non-reference relationship table. The link here has the same meaning as the link used in the first embodiment.

Figure 0005119693
Figure 0005119693

式(5)において、iは計画表Ptにおける縦方向のメンバのインデックスであり、jは横方向のインデックスである。また、式(5)中の後件部は、メンバMiからメンバMjへの文書伝達が行われる計画であることを意味する。図24において、各計画表の右側に示している模式図は、図24に示す計画表に式(5)を適用して階層構造特定手段130によって特定される階層構造である。   In Expression (5), i is the index of the member in the vertical direction in the plan table Pt, and j is the index in the horizontal direction. Further, the consequent part in the equation (5) means that the document transmission from the member Mi to the member Mj is planned. 24, the schematic diagram shown on the right side of each plan table is a hierarchical structure specified by the hierarchical structure specifying unit 130 by applying the formula (5) to the plan table shown in FIG.

次に、階層構造特定手段130は、各計画表から文書伝達の開始予定者と末端予定者とを抽出する。ここで、計画表Pt中の文書伝達の開始予定者をMs_tとし、文書伝達の末端予定者をMe_tとする。この場合、階層構造特定手段130は、開始予定者Ms_t及び末端予定者Me_tとを、それぞれ式(6)及び式(7)を用いて抽出することができる。   Next, the hierarchical structure specifying unit 130 extracts a document transmission start scheduled person and a terminal planned person from each plan table. Here, it is assumed that the person scheduled to start document transmission in the plan table Pt is Ms_t, and the person scheduled to end document transmission is Me_t. In this case, the hierarchical structure specifying unit 130 can extract the scheduled starter Ms_t and the planned end person Me_t using the equations (6) and (7), respectively.

Figure 0005119693
Figure 0005119693

Figure 0005119693
Figure 0005119693

式(6)及び式(7)において、Nmはメンバの数を示し、Ma_tは計画表Ptにおけるa番目のメンバを示す。図24に示すように、各計画表において、文書伝達の開始予定者と末端予定者とが複数人いることもある。   In Expression (6) and Expression (7), Nm indicates the number of members, and Ma_t indicates the a-th member in the plan table Pt. As shown in FIG. 24, in each plan table, there may be a plurality of document transmission start scheduled persons and terminal scheduled persons.

次に、階層構造特定手段130は、全ての計画表に対してステップS31,S32と同様の処理を行った後に、計画表間における文書伝達の階層構造を特定する。この場合、階層構造特定手段130は、計画表Ptにおける伝達の開始予定者に対して、文書伝達を行う計画である計画表Pτの伝達の末端予定者を抽出することによって、計画表間における文書伝達の階層構造を特定することができる。ただし、t>τであるとする。   Next, the hierarchical structure specifying unit 130 specifies the document transmission hierarchical structure between the plan tables after performing the same processing as steps S31 and S32 on all the plan tables. In this case, the hierarchical structure specifying means 130 extracts the end planner of the transmission of the plan table Pτ, which is a plan for performing the document transmission, with respect to the person scheduled to start the transmission in the plan table Pt. The hierarchical structure of transmission can be specified. However, it is assumed that t> τ.

次いで、階層構造特定手段130は、抽出した末端予定者から開始予定者をリンクすることによって、計画表間の文書伝達構造を特定する。この場合、階層構造特定手段130は、リンクの条件式(8)を用いて、計画表間の文書伝達構造を特定する。   Next, the hierarchical structure specifying unit 130 specifies the document transmission structure between the planning tables by linking the scheduled starter with the extracted scheduled endorser. In this case, the hierarchical structure specifying unit 130 specifies the document transmission structure between the planning tables using the link conditional expression (8).

Figure 0005119693
Figure 0005119693

上記の処理を実行することによって、階層構造特定手段130は、図24に示す計画表に基づいて、図25に示す階層構造を特定する。図25において、各ノード722aはメンバを表し、各矢印722bは文書伝達の計画を表している。また、図25に示す四角枠722cには、それぞれ隣接する矢印に対応するコミュニケーション計画の計画番号(No)が示されている。   By executing the above processing, the hierarchical structure specifying unit 130 specifies the hierarchical structure shown in FIG. 25 based on the plan table shown in FIG. In FIG. 25, each node 722a represents a member, and each arrow 722b represents a document transmission plan. In addition, in the rectangular frame 722c shown in FIG. 25, the plan number (No) of the communication plan corresponding to each adjacent arrow is shown.

以上のように、図25に示すように、本システムにより、予め計画された文書伝達の階層構造を特定でき、計画表に基づいて伝達予定の電子文書間の参照関係を抽出できる。   As described above, as shown in FIG. 25, this system can identify a hierarchical structure of document transmission planned in advance, and can extract a reference relationship between electronic documents scheduled to be transmitted based on a plan table.

なお、第1の実施の形態に示した文書参照関係抽出システム100が伝達文書情報に基づいて参照関係を抽出する場合と同様、コミュニケーション計画から参照関係を抽出する方法は、本実施の形態で示した方法に限られない。   As in the case where the document reference relationship extraction system 100 shown in the first embodiment extracts the reference relationship based on the transmitted document information, the method for extracting the reference relationship from the communication plan is shown in this embodiment. The method is not limited.

例えば、階層構造特定手段130は、文書伝達の末端予定者を抽出するとともに、文書伝達の末端予定者に対して電子文書を伝達するメンバを抽出し、さらにそのメンバに対して電子文書を伝達するメンバを抽出するという処理を再帰的に繰り返す方法を用いて、予め計画された文書伝達の参照関係を算出してもよい。この場合、階層構造特定手段130は、該当するメンバが存在しない場合、又は非参照関係となる文書伝達が抽出された場合を終了条件として処理を終了する。そのような処理を実行することによって、階層構造特定手段130は、文書伝達の末端予定者を根とし、文書伝達の開始予定者を葉とし、文書伝達の中継予定者を中間ノードとする伝達の木構造を特定することができる。   For example, the hierarchical structure specifying unit 130 extracts a document transmission end candidate, extracts a member who transmits an electronic document to the document transmission end candidate, and further transmits the electronic document to the member. A preliminarily planned reference relationship of document transmission may be calculated using a method of recursively repeating the process of extracting members. In this case, the hierarchical structure specifying unit 130 ends the process when the corresponding member does not exist or when the document transmission having a non-reference relationship is extracted as the end condition. By executing such processing, the hierarchical structure specifying means 130 uses the document transfer terminal planner as the root, the document transfer start planner as the leaf, and the document transfer relay planner as the intermediate node. A tree structure can be specified.

また、階層構造特定手段130は、各伝達の末端予定者(例えば、メンバM6とメンバM7)について同様の処理を行い、最後に各末端予定者に関する文書伝達の木構造で共通する部分を1つと見なし、マージすることによって、図25に示す文書伝達の階層構造と同様の階層構造を特定する。   In addition, the hierarchical structure specifying unit 130 performs the same processing for each terminal candidate (for example, member M6 and member M7) of each transmission, and finally, there is one common part in the tree structure of document transmission related to each terminal candidate. By regarding and merging, a hierarchical structure similar to the document transmission hierarchical structure shown in FIG. 25 is specified.

次いで、傾向分析手段390は、まず、同義表現データベース360が記憶する同義表現の抽出結果に基づいて、各メンバがどのメンバとの間にどの程度の頻度で同義表現を使用したかをカウントし、各メンバの同義表現の使用回数をまとめて示す同義表現使用回数表を生成する(ステップS33)。そして、傾向分析手段390は、生成した同義表現使用回数表を出力手段530に出力させる(ステップS34)。   Next, the trend analysis means 390 first counts how often each member used the synonym expression with which member based on the extraction result of the synonym expression stored in the synonym expression database 360, A synonymous expression usage count table that collectively shows the number of times of use of synonymous expressions for each member is generated (step S33). Then, the trend analysis unit 390 causes the output unit 530 to output the generated synonym expression usage count table (step S34).

なお、同義表現の使用とは、伝達された電子文書内の表現とは異なる表現を用いて電子文書を伝達したこと、すなわち同義表現を発生させたことである。   The use of the synonym expression means that the electronic document is transmitted using an expression different from the expression in the transmitted electronic document, that is, the synonym expression is generated.

また、同義表現のカウント方法には様々な方法がある。例えば、傾向分析手段390は、同義表現が含まれている電子文書の数をカウントしてもよい。また、傾向分析手段390は、同義表現が含まれている文の数をカウントしてもよく、同義表現の数をカウントしてもよい。   There are various methods for counting synonymous expressions. For example, the trend analysis unit 390 may count the number of electronic documents that contain synonymous expressions. In addition, the trend analysis unit 390 may count the number of sentences including synonymous expressions, or may count the number of synonymous expressions.

図26は、同義表現使用回数表の出力形式の例を示す説明図である。図26に示す例では、7名のメンバ間の同義表現使用回数表が示されており、最左列に示すメンバから最上段の行に示すメンバに対して電子文書が伝達された際の同義表現使用回数を示している。また、図26に示す同義表現使用回数表における縦方向のカウント値の和を求めることによって、あるメンバが他のメンバから伝達された電子文書に対して使用した同義表現の使用回数を得ることができる。また、横方向のカウント値の和を求めることによって、あるメンバの電子文書に対して他メンバが使用した同義表現の使用回数を得ることができる。   FIG. 26 is an explanatory diagram illustrating an example of an output format of the synonym expression usage count table. In the example shown in FIG. 26, a synonym expression usage count table among seven members is shown, and synonyms when an electronic document is transmitted from the member shown in the leftmost column to the member shown in the top row. Indicates the number of expressions used. In addition, by obtaining the sum of the count values in the vertical direction in the synonym expression usage count table shown in FIG. 26, it is possible to obtain the usage count of the synonym expression used by one member for the electronic document transmitted from the other member. it can. Further, by obtaining the sum of the count values in the horizontal direction, it is possible to obtain the number of times that the synonymous expression used by another member is used for an electronic document of a certain member.

出力手段530は、傾向分析手段390の指示に従って、例えば、ディスプレイ装置等である場合には、各メンバの同義表現使用傾向が分かるように、同義表現使用回数表を表示する。なお、出力手段530は、傾向分析手段390の指示に従って、同義表現使用回数表のデータをまとめて表示してもよく、同義表現使用回数表のデータをグラフにして表示してもよい。   The output unit 530 displays a synonymous expression usage count table so that the synonymous expression usage tendency of each member can be understood in accordance with an instruction from the trend analyzing unit 390, for example, in the case of a display device or the like. Note that the output unit 530 may display the data of the synonymous expression usage count table collectively according to the instruction of the trend analysis unit 390, or may display the data of the synonymous expression usage count table as a graph.

また、傾向分析手段390は、システムの利用者にとって分かりやすく同義表現使用回数を示すために、例えば、図27に示すように、特定した文書伝達の階層構造と同義表現使用回数とを重畳させて出力手段530に表示させてもよい。図27において、各ノード724aはメンバを示し、各ノード間の矢印724bは文書伝達の計画を示している。また、図27において、矢印上の四角枠724cには、対応するメンバ間の同義表現使用回数が示されている。   In addition, the trend analysis unit 390 superimposes the identified document transmission hierarchical structure and the number of synonymous expressions used, for example, as shown in FIG. You may display on the output means 530. FIG. In FIG. 27, each node 724a indicates a member, and an arrow 724b between the nodes indicates a document transmission plan. In FIG. 27, a square frame 724c on the arrow indicates the number of synonymous expressions used between corresponding members.

図27に示す表示形式で表示することによって、今後の文書伝達において、どの程度、同義表現が利用される可能性があるかを把握しやすくすることができる。そのため、システムの利用者は、同義表現を多く使用しているメンバに対して、数値的な論拠を提示して同義表現の使用を少なくするよう依頼することができる。なお、同義表現使用回数表に付与する数値として、同義表現の使用回数だけを用いるのではなく、例えば、伝達した電子文書と同義表現が使用された電子文書との比等を用いてもよい。   By displaying in the display format shown in FIG. 27, it is possible to easily grasp to what extent the synonymous expression may be used in future document transmission. Therefore, the user of the system can request a member who uses many synonymous expressions to present a numerical rationale and reduce the use of synonymous expressions. In addition, as a numerical value given to the synonym expression usage count table, for example, a ratio between a transmitted electronic document and an electronic document using the synonym expression may be used instead of using only the number of synonym expressions used.

以上のように、本実施の形態によれば、文書伝達前に予め入力されたコミュニケーション計画に基づいて、予め計画された文書伝達の階層構造を事前に特定することができる。そのため、今後行われる文書伝達における電子文書の参照関係を抽出することができる。   As described above, according to the present embodiment, it is possible to specify in advance a hierarchical structure of document transmission planned in advance based on a communication plan input in advance before document transmission. Therefore, it is possible to extract the electronic document reference relationship in future document transmission.

例えば、特許文献1〜3に記載された従来のシステムや装置、方法、プログラムでは、今後、伝達される電子文書間における参照関係を抽出することができない。特許文献1〜3に記載されたシステムや装置、方法、プログラムでは、電子文書間の稀な単語の出現頻度や電子文書のカテゴリ、電子文書の参照時間/頻度、参照リンク等、作成された電子文書から抽出した情報を基に参照関係を抽出している。そのため、今後、作成される電子文書が定まっている場合においても、それらの電子文書間において生じる参照関係を抽出することができない。   For example, the conventional systems, apparatuses, methods, and programs described in Patent Documents 1 to 3 cannot extract reference relationships between electronic documents to be transmitted in the future. In the systems, devices, methods, and programs described in Patent Documents 1 to 3, the generated electronic information such as the frequency of rare words appearing between electronic documents, the category of electronic documents, the reference time / frequency of electronic documents, and reference links The reference relationship is extracted based on the information extracted from the document. Therefore, even when electronic documents to be created are determined in the future, it is not possible to extract a reference relationship that occurs between these electronic documents.

これに対し、本実施の形態では、上記に説明したように、コミュニケーション計画に基づいて文書伝達の階層構造を特定するので、電子文書の伝達記録を用いずに参照関係を抽出することができる。そのため、今後の伝達計画から参照関係を抽出することができる。   In contrast, in the present embodiment, as described above, the hierarchical structure of document transmission is specified based on the communication plan, so that the reference relationship can be extracted without using the electronic document transmission record. Therefore, the reference relationship can be extracted from the future transmission plan.

また、本実施の形態によれば、組織情報とコミュニケーション計画とに基づいて、予め計画された伝達文書の参照関係を抽出することができ、且つ過去のメンバ間の同義表現の使用回数等に基づいて同義表現の発生しやすさを定量化することができる。そのため、今後、同義表現が発生しパラレルコーパスとなる可能性が高い文書伝達を事前に特定することができる。   Further, according to the present embodiment, based on the organization information and the communication plan, it is possible to extract a preliminarily planned reference relationship of the transmission document, and based on the number of times the synonym expression is used between past members. It is possible to quantify the likelihood of synonymous expressions. Therefore, it is possible to specify in advance a document transmission that is likely to generate a synonymous expression and become a parallel corpus in the future.

なお、本実施の形態では、文書参照関係抽出システム100や表現統一化システム300が、実際に行われた文書伝達の階層構造を特定し、伝達文書の表現を統一する処理を実行するとともに、予め計画された文書伝達の階層構造を特定し、同義表現の発生傾向を提示する処理を実行する場合を示したが、予め計画された文書伝達の階層構造を特定して同義表現の発生傾向を提示する処理のみを実行するようにしてもよい。この場合、表現統一化システム300は、伝達文書抽出手段320及び伝達文書データベース330を含まなくてもよい。   In the present embodiment, the document reference relationship extraction system 100 and the expression unification system 300 specify the hierarchical structure of the actual document transmission, execute the process of unifying the expression of the transmission document, The case where the hierarchical structure of the planned document transmission is identified and the process of presenting the occurrence tendency of the synonymous expression is executed was shown, but the generation structure of the synonymous expression is presented by identifying the hierarchical structure of the document transmission planned in advance Only the processing to be performed may be executed. In this case, the expression unification system 300 may not include the transmission document extraction unit 320 and the transmission document database 330.

また、実際に行われた文書伝達の階層構造を特定し、伝達文書の表現を統一する処理を実行するシステムと、予め計画された文書伝達の階層構造を特定し、同義表現の発生傾向を提示する処理を実行するシステムとを別々のシステムとして構成するようにしてもよい。   In addition, it identifies the hierarchical structure of the actual document transmission and executes a process that unifies the expression of the transmitted document, identifies the hierarchical structure of the planned document transmission, and presents the occurrence tendency of synonymous expressions. You may make it comprise the system which performs the process to perform as a separate system.

実施の形態4.
次に、本発明の第4の実施の形態を図面を参照して説明する。本実施の形態では、文書参照関係抽出システム100を、実際に行われた文書伝達を評価する文書伝達評価システムに適用する場合を説明する。図28は、第4の実施の形態における文書参照関係抽出システム100を用いた文書伝達評価システム400の構成例を示すブロック図である。図28に示すように、本実施の形態では、図1に示した構成要素のうち、パラレルコーパス抽出手段340及び同義表現抽出手段350を含まない点で、第1の実施の形態と異なる。また、本実施の形態では、図1に示した構成要素に加えて、差分抽出手段550を含む点で、第1の実施の形態と異なる。
Embodiment 4 FIG.
Next, a fourth embodiment of the present invention will be described with reference to the drawings. In the present embodiment, a case will be described in which the document reference relationship extraction system 100 is applied to a document transmission evaluation system that evaluates actual document transmission. FIG. 28 is a block diagram illustrating a configuration example of a document transmission evaluation system 400 using the document reference relationship extraction system 100 according to the fourth embodiment. As shown in FIG. 28, this embodiment is different from the first embodiment in that it does not include the parallel corpus extraction means 340 and the synonym expression extraction means 350 among the components shown in FIG. Further, the present embodiment is different from the first embodiment in that a difference extracting unit 550 is included in addition to the components shown in FIG.

差分抽出手段550は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。差分抽出手段550は、コミュニケーション計画データベース110が記憶するコミュニケーション計画と、伝達文書データベース330が記憶する伝達文書情報とを比較して、コミュニケーション計画通りの文書伝達がなされているか否かを明確化する機能を備える。   Specifically, the difference extraction unit 550 is realized by a CPU of an information processing apparatus that operates according to a program. The difference extraction unit 550 compares the communication plan stored in the communication plan database 110 with the transfer document information stored in the transfer document database 330 and clarifies whether or not the document transfer according to the communication plan is performed. Is provided.

差分抽出手段550は、伝達文書情報とコミュニケーション計画との差を明確にし、その伝達文書情報とコミュニケーション計画との比較結果を出力手段530に出力させる。差分抽出手段550は、伝達文書情報とコミュニケーション計画とについて、以下の3つの事項の差分を抽出する。   The difference extraction unit 550 clarifies the difference between the transmission document information and the communication plan, and causes the output unit 530 to output a comparison result between the transmission document information and the communication plan. The difference extraction unit 550 extracts differences between the following three items for the transmission document information and the communication plan.

まず、差分抽出手段550は、コミュニケーション計画において計画されているが伝達されていない文書伝達を抽出する(差分1:文書未伝達)。また、差分抽出手段550は、コミュニケーション計画において計画されていないにもかかわらず、伝達されている文書伝達を抽出する(差分2:伝達未計画)。また、差分抽出手段550は、コミュニケーション計画において計画された通り伝達されているが、計画された伝達時刻とは異なる時刻にされた文書伝達を抽出する(差分3:伝達日時差)。   First, the difference extraction means 550 extracts document transmissions that are planned but not transmitted in the communication plan (difference 1: document not transmitted). Further, the difference extracting unit 550 extracts the document transmission that is being transmitted even though it is not planned in the communication plan (difference 2: transmission unplanned). Also, the difference extraction means 550 extracts the document transmission that has been transmitted as planned in the communication plan, but at a time different from the planned transmission time (difference 3: transmission date / time difference).

差分抽出手段550は、まず、伝達文書情報と対応のとれなかったコミュニケーション計画を、コミュニケーション計画データベース110から抽出する。すなわち、差分抽出手段550は、文書伝達が計画されていたにもかかわらず、伝達がなされなかった文書伝達を含むコミュニケーション計画を抽出する。具体的には、差分抽出手段550は、伝達文書データベース330が記憶する伝達文書情報に示される各伝達日時の情報と合致しない伝達予定日時の情報を含むコミュニケーション計画を、コミュニケーション計画データベース110から抽出する。この処理を実行することにより、差分抽出手段550は、差分1(文書未伝達)を抽出する。   First, the difference extraction unit 550 extracts a communication plan that cannot be matched with the transmission document information from the communication plan database 110. That is, the difference extraction unit 550 extracts a communication plan including document transmission that has not been transmitted although document transmission is planned. Specifically, the difference extraction unit 550 extracts, from the communication plan database 110, a communication plan that includes information on the scheduled transmission date and time that does not match the information on each transmission date and time indicated in the transmission document information stored in the transmission document database 330. . By executing this processing, the difference extraction unit 550 extracts the difference 1 (document not transmitted).

次に、階層構造特定手段130が特定した文書伝達の階層構造中に含まれる文書IDと同一の文書IDに対応する全ての電子文書を、伝達文書データベース330が記憶する伝達文書情報に基づいて特定する。この場合、差分抽出手段550は、コミュニケーション計画と対応がとれていない伝達文書情報も特定する。すなわち、差分抽出手段550は、文書伝達が計画されていないにもかかわらず、伝達がなされている文書伝達を含む伝達文書情報を抽出する。具体的には、差分抽出手段550は、コミュニケーション計画データベース110が記憶するコミュニケーション計画に示される各伝達予定日時の情報と合致しない伝達日時の情報を含む伝達文書情報を、伝達文書データベース330から抽出する。この処理を実行することにより、差分抽出手段550は、差分2(伝達未計画)を抽出する。   Next, all electronic documents corresponding to the same document ID as the document ID included in the hierarchical structure of document transmission specified by the hierarchical structure specifying unit 130 are specified based on the transfer document information stored in the transfer document database 330. To do. In this case, the difference extraction unit 550 also identifies transmission document information that does not correspond to the communication plan. That is, the difference extraction unit 550 extracts the transmission document information including the document transmission that is being transmitted even though the document transmission is not planned. Specifically, the difference extraction unit 550 extracts from the transmission document database 330 transmission document information including information on transmission date and time that does not match the information on each scheduled transmission date and time indicated in the communication plan stored in the communication plan database 110. . By executing this processing, the difference extraction unit 550 extracts the difference 2 (transmission unplanned).

最後に、差分抽出手段550は、コミュニケーション計画における伝達予定日時と、そのコミュニケーション計画に対応する伝達文書情報における伝達日時との差分を計算する。この場合、差分抽出手段550は、差分の計算方法として、伝達日時(実際に文書伝達が行われた日時)を伝達予定日時で減算することによって、伝達日時と伝達予定日時との差分を求める。計算結果がマイナスの値であれば、伝達予定日時までに伝達されたことを意味する。また、計算結果がプラスの値であれば、伝達予定日時後に遅れて伝達されたことを意味する。なお、コミュニケーション計画の伝達予定日時が一定の幅をもった期間で指定されている場合には、差分抽出手段550は、その期間内に電子文書が伝達されている場合には、伝達日時と伝達予定日時との差分を0と求めればよい。   Finally, the difference extraction unit 550 calculates the difference between the scheduled transmission date and time in the communication plan and the transmission date and time in the transmission document information corresponding to the communication plan. In this case, the difference extraction unit 550 calculates a difference between the transmission date and the scheduled transmission date by subtracting the transmission date and time (the date and time when the document transmission was actually performed) from the scheduled transmission date and time as a difference calculation method. If the calculation result is a negative value, it means that it has been transmitted by the scheduled transmission date and time. Further, if the calculation result is a positive value, it means that the transmission is delayed after the scheduled transmission date and time. If the scheduled transmission date and time of the communication plan is specified in a period having a certain range, the difference extraction unit 550 transmits the transmission date and time and the transmission when the electronic document is transmitted within the period. What is necessary is just to obtain | require the difference with a scheduled date and time as 0.

次いで、差分抽出手段550は、コミュニケーション計画と伝達文書情報との差を、例えば、図29に示すような差分表としてまとめて作成し、作成した差分表を出力手段530に出力させる。図29に示す例では、差分表には、各行にコミュニケーション計画による計画ID及び伝達予定日時、伝達文書情報による伝達文書ID及び伝達日時、Fm(伝達元)、To(伝達先)、及び伝達予定日時と伝達日時との差分の情報が含まれている。   Next, the difference extraction unit 550 creates the difference between the communication plan and the transmission document information as a difference table as shown in FIG. 29, for example, and causes the output unit 530 to output the created difference table. In the example shown in FIG. 29, the difference table includes, in each row, a plan ID based on a communication plan and a scheduled transmission date / time, a transmission document ID / transmission date / time based on transmission document information, Fm (transmission source), To (transmission destination), and a transmission schedule. Information on the difference between the date and time and the transmission date is included.

図29に示す差分表において、伝達文書IDが空欄である行で示される文書伝達は、計画されているにもかかわらず、伝達されていない文書伝達(差分1:文書未伝達)を意味する。また、計画IDが空欄である行で示される文書伝達は、計画されていないにもかかわらず、伝達された文書伝達(差分2:伝達未計画)を意味する。また、図29に示すように、伝達文書IDと計画IDがともに含まれる行で示される文書伝達では、伝達予定日時と伝達日時との差を計算した結果が示されており、この伝達予定日時と伝達日時との差の計算結果が(差分3:伝達日時差)に相当する。   In the difference table shown in FIG. 29, document transmission indicated by a row in which the transmission document ID is blank means document transmission that is planned but not transmitted (difference 1: no document transmission). In addition, document transmission indicated by a line having a blank plan ID means transmitted document transmission (difference 2: transmission unplanned) even though it is not planned. As shown in FIG. 29, the document transmission indicated by the line including both the transmission document ID and the plan ID shows the result of calculating the difference between the transmission scheduled date and time and the transmission date and time. And the calculation result of the difference between the transmission date and time corresponds to (difference 3: transmission date and time difference).

なお、図29に示す例では、伝達予定日時と伝達日時との差の計算を日付単位で行っている。ただし、差分抽出手段550は、伝達日時差の計算を、日単位で計算する場合に限らず、例えば、時間単位等に伝達日時差の計算を行ってもよい。   In the example shown in FIG. 29, the difference between the scheduled transmission date and the transmission date is calculated on a date basis. However, the difference extraction means 550 is not limited to calculating the transmission date / time difference in units of days, and may calculate the transmission date / time difference in units of time, for example.

図29に示す例では、例えば、メンバM3はメンバM8に文書ID101の電子文書を伝達しているが、この文書伝達はコミュニケーション計画では計画されていないことがわかる。また、メンバM4はコミュニケーション計画P002で計画されていたメンバM2への伝達を怠っていることがわかる。また、この他、メンバM5は、コミュニケーション計画P003で計画されていた伝達予定日時よりも1日遅れで電子文書を伝達していることがわかる。このように差分表を用いて、コミュニケーション計画と伝達文書情報との3つの差を表現することができる。   In the example shown in FIG. 29, for example, the member M3 transmits the electronic document having the document ID 101 to the member M8, but it is understood that this document transmission is not planned in the communication plan. Also, it can be seen that the member M4 has failed to communicate to the member M2 planned in the communication plan P002. In addition, it can be seen that the member M5 is transmitting the electronic document one day later than the scheduled transmission date and time planned in the communication plan P003. In this way, the difference table can be used to express three differences between the communication plan and the transmission document information.

出力手段530は、例えば、ディスプレイ装置である場合には、差分抽出手段550の指示に従って、差分抽出手段550が生成した差分表の情報を出力(表示)する。例えば出力手段530は、差分抽出手段550の指示に従って、図30に示す表示画面を表示すればよい。   For example, in the case of a display device, the output unit 530 outputs (displays) information of the difference table generated by the difference extraction unit 550 in accordance with an instruction from the difference extraction unit 550. For example, the output unit 530 may display the display screen shown in FIG. 30 in accordance with the instruction from the difference extraction unit 550.

図30に示すように、出力手段530は、差分抽出手段550の指示に従って、まず、コミュニケーション計画データから文書伝達の階層構造中に含まれるメンバを実線のノード727aとして表示する。また、出力手段530は、差分抽出手段550の指示に従って、計画されていないものの文書伝達が行われたメンバ(差分表において計画番号(No)が空欄である行のTo(伝達先)のメンバ)を破線のノード727cとして表示する。   As shown in FIG. 30, in accordance with an instruction from the difference extraction unit 550, the output unit 530 first displays members included in the hierarchical structure of document transmission from the communication plan data as a solid line node 727a. Further, the output unit 530 is a member who has not been planned but has been transmitted according to the instruction of the difference extraction unit 550 (a member (To (transmission destination) in a row where the plan number (No) is blank in the difference table)). Is displayed as a broken-line node 727c.

また、出力手段530は、差分抽出手段550の指示に従って、伝達文書情報を参照し、階層構造関係がわかるようにノード間を矢印で結んだ表示態様で表示する。すなわち、出力手段530は、非参照関係であるノード間においては、文書伝達が行われていても矢印で結ばない態様で表示する。なお、この場合、出力手段530は、破線で示したノードに対しても、実線の矢印727cで結んだ表示態様で表示する。   Further, the output unit 530 refers to the transmission document information in accordance with the instruction from the difference extraction unit 550 and displays the nodes in a display form in which the nodes are connected with arrows so that the hierarchical structure relationship can be understood. In other words, the output unit 530 displays the non-reference relationship between the nodes in a form that is not connected with an arrow even if document transmission is performed. In this case, the output unit 530 displays the display mode connected to the node indicated by the broken line by the solid line arrow 727c.

また、出力手段530は、差分抽出手段550の指示に従って、コミュニケーション計画で文書伝達が計画されているものの、実際に電子文書が伝達されていないノード間を破線の矢印727dで結んだ表示態様で表示する。この場合においても、出力手段530は、役割が同一であるノード間を矢印で結ばない態様で表示する。   Further, the output unit 530 displays in a display mode in which nodes that are not actually transmitted with an electronic document are connected by broken-line arrows 727d although document transmission is planned according to the communication plan according to the instruction of the difference extraction unit 550. To do. Even in this case, the output unit 530 displays the nodes having the same role in a manner that does not connect the arrows.

さらに、出力手段530は、差分抽出手段550の指示に従って、実線で示した矢印に対して四角枠で囲まれた伝達日時差727eを付与した態様で表示する。出力手段530は、図30に示すような表示様態で表示することにより、差分表の情報を可視化し、コミュニケーション計画と実際の文書伝達との差を明確に表示する。   Further, the output unit 530 displays the transmission date and time difference 727e enclosed by a square frame in the direction indicated by the solid line in accordance with the instruction from the difference extraction unit 550. The output unit 530 visualizes the information in the difference table by displaying in the display mode as shown in FIG. 30, and clearly displays the difference between the communication plan and the actual document transmission.

図30に示すように、メンバM4からメンバM2への文書伝達と、メンバM1からメンバM7への文書伝達とは、予め計画されているものの、実際には行われていないことがわかる。また、メンバM3からメンバM8への文書伝達と、メンバM2からメンバM9への文書伝達については、予めコミュニケーション計画で計画されていないにもかかわらず、文書伝達が行われていることがわかる。   As shown in FIG. 30, document transmission from the member M4 to the member M2 and document transmission from the member M1 to the member M7 are planned in advance, but are not actually performed. Further, it can be seen that the document transmission from the member M3 to the member M8 and the document transmission from the member M2 to the member M9 are performed even though they are not planned in advance in the communication plan.

さらに、メンバM2からメンバM1への文書伝達が1日遅延しているが、メンバM1への伝達経路を参照すると、メンバM4からの伝達文書が届いておらず、また、メンバM4からの文書伝達が既に1日遅れていることがわかる。また、このことから、文書伝達の遅延の原因は、メンバM1への伝達よりも、むしろメンバM3及びメンバM4の文書伝達に問題があったことがわかる。すなわち、図30に示す表示画面に示される状況を見れば、メンバM1よりも、むしろメンバM3及びメンバM4の文書伝達に問題があったことを容易に判断することができる。   Further, although the document transmission from the member M2 to the member M1 is delayed by one day, when the transmission path to the member M1 is referred, the transmission document from the member M4 has not arrived, and the document transmission from the member M4 You can see that is already one day late. From this, it can be understood that the cause of the document transmission delay was a problem in the document transmission of the members M3 and M4 rather than the transmission to the member M1. That is, from the situation shown on the display screen shown in FIG. 30, it is possible to easily determine that there is a problem in document transmission of the members M3 and M4 rather than the member M1.

なお、本実施の形態において、文書参照関係抽出システム100や文書伝達評価システム400を実現する情報処理装置の記憶装置は、電子文書の伝達状況を評価するための各種プログラムを記憶している。例えば、情報処理装置の記憶装置は、コンピュータに、データベースに記憶する電子文書の伝達記録を示す伝達記録情報と、予めデータベースに記憶する電子文書の伝達計画を示す伝達計画情報とに基づいて、電子文書の伝達記録と伝達計画との差分を抽出する差分抽出処理と、抽出した電子文書の伝達記録と伝達計画との差分を出力する差分出力処理とを実行させるための文書伝達評価プログラムを記憶している。   In the present embodiment, the storage device of the information processing apparatus that implements the document reference relation extraction system 100 and the document transmission evaluation system 400 stores various programs for evaluating the transmission status of electronic documents. For example, the storage device of the information processing apparatus stores the electronic record on the computer based on the transmission record information indicating the transmission record of the electronic document stored in the database and the transmission plan information indicating the transmission plan of the electronic document stored in the database in advance. A document transmission evaluation program for executing a difference extraction process for extracting a difference between a document transmission record and a transmission plan, and a difference output process for outputting a difference between the extracted electronic document transmission record and the transmission plan is stored. ing.

以上のように、本実施の形態によれば、差分抽出手段550は、階層構造特定手段130がコミュニケーション計画に基づいて特定した文書伝達予定の階層構造と、文書伝達情報とを比較する。また、差分抽出手段550は、コミュニケーション計画に含まれているが伝達文書情報に伝達記録のない文書伝達や、コミュニケーション計画には含まれていないにもかかわらず行われた文書伝達、電子文書の伝達予定日時とその計画に対応する電子文書の伝達日時との差を、文書伝達の差分として抽出する。そして、差分抽出手段550は、抽出した文書伝達の差分を出力手段530に表示させる。そのため、電子文書を参照した人、及びその電子文書伝達の時期の適切さを明確に評価することができる。   As described above, according to the present embodiment, the difference extracting unit 550 compares the document transmission information with the hierarchical structure of the document transmission schedule specified by the hierarchical structure specifying unit 130 based on the communication plan. Further, the difference extraction means 550 is a document transmission that is included in the communication plan but has no transmission record in the transmission document information, a document transmission that is not included in the communication plan, or an electronic document transmission. The difference between the scheduled date and time and the transmission date and time of the electronic document corresponding to the plan is extracted as a difference in document transmission. Then, the difference extraction unit 550 causes the output unit 530 to display the extracted document transmission difference. Therefore, it is possible to clearly evaluate the person who referred to the electronic document and the appropriateness of the timing of the electronic document transmission.

実施の形態5.
上記の各実施の形態に示した文書参照関係抽出システム100や、表現統一化システム300、文書伝達評価システム400は、例えば、電子文書や類似文書対から同義表現を抽出する同義表現抽出システムを適用して構成することができる。以下、文書参照関係抽出システム100や、表現統一化システム300、文書伝達評価システム400に適用されうる同義表現抽出システムの一例について、図面を参照して説明する。
Embodiment 5 FIG.
The document reference relation extraction system 100, the expression unification system 300, and the document transmission evaluation system 400 shown in each of the above embodiments apply, for example, a synonym expression extraction system that extracts a synonym expression from an electronic document or a similar document pair. Can be configured. Hereinafter, an example of a synonym expression extraction system that can be applied to the document reference relationship extraction system 100, the expression unification system 300, and the document transmission evaluation system 400 will be described with reference to the drawings.

まず、本発明の第5の実施の形態を図面を参照して説明する。図31は、本発明による文書参照関係抽出システム100や、表現統一化システム300、文書伝達評価システム400に同義表現抽出装置350として適用できる同義表現抽出システムの構成の一例を示すブロック図である。図31に示すように、同義表現抽出システム10は、係り受け解析手段101と、表現比較手段102と、構造関係特定手段103と、類似性算出手段104とを含む。また、同義表現抽出システム10は、類似文章対データベース501と、出力手段502とを備える。   First, a fifth embodiment of the present invention will be described with reference to the drawings. FIG. 31 is a block diagram showing an example of the configuration of a synonym expression extraction system that can be applied as the synonym expression extraction device 350 to the document reference relationship extraction system 100, the expression unification system 300, and the document transmission evaluation system 400 according to the present invention. As shown in FIG. 31, the synonymous expression extraction system 10 includes dependency analysis means 101, expression comparison means 102, structural relationship identification means 103, and similarity calculation means 104. The synonym expression extraction system 10 includes a similar sentence pair database 501 and an output unit 502.

また、図32は、同義表現抽出システム10が同義表現を抽出する処理の一例を示すフローチャートである。以下、同義表現抽出システム10の各構成要素の機能と、同義表現抽出システム10の動作とを、図31に示すブロック図及び図32に示すフローチャートとを参照して説明する。   FIG. 32 is a flowchart illustrating an example of processing in which the synonym expression extraction system 10 extracts synonym expressions. Hereinafter, the function of each component of the synonym expression extraction system 10 and the operation of the synonym expression extraction system 10 will be described with reference to the block diagram shown in FIG. 31 and the flowchart shown in FIG.

なお、本実施の形態において、同義表現抽出システム10は、具体的には、プログラムに従って動作するコンピュータ(例えば、パーソナルコンピュータ等の情報処理装置)によって実現される。また、同義表現抽出システム10は、例えば、同義表現検索を実行する情報検索システムや、プロジェクト管理を行うプロジェクト管理システム、電子文書の管理を行う文書管理システム等の用途に適用される。   In the present embodiment, the synonymous expression extraction system 10 is specifically realized by a computer (for example, an information processing apparatus such as a personal computer) that operates according to a program. The synonym expression extraction system 10 is applied to, for example, applications such as an information search system that executes a synonym expression search, a project management system that performs project management, and a document management system that manages electronic documents.

なお、図31に示す例では、同義表現抽出システム10の外部に類似文章対データベース501と出力手段502とを設ける場合を示しているが、同義表現抽出システム10の内部に類似文章対データベース501と出力手段502とを備えてもよい。   In the example shown in FIG. 31, the similar sentence pair database 501 and the output unit 502 are provided outside the synonym expression extraction system 10, but the similar sentence pair database 501 and the synonym expression extraction system 10 are provided. Output means 502 may be provided.

類似文章対データベース501は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。類似文章対データベース501は、相互に意味が類似している単一言語の2つ以上の文章を予め記憶している。例えば、類似文章対として、同じ内容に関して記載された異なるニュース記事等からそれぞれ文章を抽出して、類似文章対データベース501に蓄積してもよい。また、例えば、類似文章対データベース501は、同一の言語(外国語)で記載された文章を翻訳した複数の文章を類似文章対として記憶してもよいし、相互に参照関係のある電子文書から抽出した文章を類似文章対として記憶してもよい。また、例えば、類似文章対データベース501は、パラレルコーパス抽出手段340により得られたパラレルコーパスから、共通する単語を多く含む等の基準により抽出された文章を類似文章対として記憶してもよい。   Specifically, the similar text pair database 501 is realized by a database device such as a magnetic disk device or an optical disk device. The similar sentence pair database 501 stores in advance two or more sentences in a single language whose meanings are similar to each other. For example, as similar sentence pairs, sentences may be extracted from different news articles described with respect to the same content and stored in the similar sentence pair database 501. In addition, for example, the similar sentence pair database 501 may store a plurality of sentences translated from sentences written in the same language (foreign language) as similar sentence pairs, or from electronic documents having a reference relationship with each other. You may memorize | store the extracted sentence as a similar sentence pair. Further, for example, the similar sentence pair database 501 may store sentences extracted from the parallel corpus obtained by the parallel corpus extraction unit 340 according to a criterion such as including many common words as similar sentence pairs.

なお、本実施の形態では、類似文章対データベース501には、電子文書等から類似文章対を抽出する類似文章対抽出システム(図示せず)によって抽出された類似文章対が予め蓄積されている。例えば、類似文章対抽出システムは、所定時間毎に、インターネット上のWeb情報や共通サーバ等に蓄積されている電子文書から類似文章対を自動抽出し、類似文章対データベース501に記憶させる。また、例えば、類似文章対データベース501は、ユーザによって作成された類似文章対を予め蓄積してもよい。   In the present embodiment, similar sentence pairs extracted by a similar sentence pair extraction system (not shown) for extracting similar sentence pairs from an electronic document or the like are stored in advance in the similar sentence pair database 501. For example, the similar sentence pair extraction system automatically extracts similar sentence pairs from Web documents on the Internet, electronic documents stored in a common server, etc., and stores them in the similar sentence pair database 501 at predetermined time intervals. Further, for example, the similar sentence pair database 501 may store in advance similar sentence pairs created by the user.

図33は、類似文章対データベース501が記憶する類似文章対の例を示す説明図である。図33に示す類似文章対では、表現「ABC機能」と表現「XYZ機能」とが同義表現であるとする。以下、図33に示す類似文章対を例にして同義表現の抽出方法を説明する。また、本実施の形態では、2つの類似文章間の同義表現を抽出する場合を例に説明する。なお、類似文章対に3つ以上の類似文章が含まれる場合には、各類似文章を2つずつ組み合わせた類似文章の組を作り、その全組み合わせに対してそれぞれ処理を実行すればよい。   FIG. 33 is an explanatory diagram showing an example of similar sentence pairs stored in the similar sentence pair database 501. In the similar sentence pair shown in FIG. 33, it is assumed that the expression “ABC function” and the expression “XYZ function” are synonymous expressions. Hereinafter, a method for extracting synonymous expressions will be described using the similar sentence pair shown in FIG. 33 as an example. In the present embodiment, a case where a synonymous expression between two similar sentences is extracted will be described as an example. When three or more similar sentences are included in a pair of similar sentences, a pair of similar sentences obtained by combining two similar sentences may be created, and the process may be executed for all the combinations.

同義表現抽出システム10は、ユーザによる操作に従って、同義表現抽出の処理を開始する。例えば、同義表現抽出システム10は、ディスプレイ装置等である出力手段502に、同義表現抽出用のフォームを含む表示画面を表示させる。この場合に、ユーザによって同義表現抽出用のフォームから実行ボタンがマウスクリック等されると、同義表現抽出システム10は、同義表現抽出の処理を開始する。   The synonym expression extraction system 10 starts synonym expression extraction processing in accordance with an operation by the user. For example, the synonym expression extraction system 10 displays a display screen including a form for synonym expression extraction on the output unit 502 that is a display device or the like. In this case, when the execution button is clicked by the user from the synonym expression extraction form, the synonym expression extraction system 10 starts the synonym expression extraction process.

係り受け解析手段101は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。同義表現抽出の処理を開始すると、係り受け解析手段101は、まず、類似文章対データベース501から類似文章対を抽出する。次いで、係り受け解析手段101は、抽出した類似文章対に含まれる各文章に対して係り受け解析を行い、その係り受け解析結果を表現比較手段102に出力する(ステップS704a)。   Specifically, the dependency analysis unit 101 is realized by a CPU of an information processing apparatus that operates according to a program. When the synonym expression extraction process is started, the dependency analysis unit 101 first extracts a similar sentence pair from the similar sentence pair database 501. Next, the dependency analysis unit 101 performs dependency analysis on each sentence included in the extracted similar sentence pair, and outputs the dependency analysis result to the expression comparison unit 102 (step S704a).

なお、一般に、係り受け解析を行う前には文章を形態素に分解する形態素解析処理を行う必要がある。本実施の形態では、形態素解析処理は係り受け解析手段101に組み込まれているものとし、係り受け解析手段101は、ステップS704aにおいて、形態素解析処理を実行してから係り受け解析を実行する。なお、形態素解析処理を行う手段を、係り受け解析処理を行う係り受け解析手段101とは別に備えるようにしてもよい。   In general, before performing dependency analysis, it is necessary to perform a morpheme analysis process that decomposes a sentence into morphemes. In the present embodiment, it is assumed that the morphological analysis process is incorporated in the dependency analysis unit 101, and the dependency analysis unit 101 executes the dependency analysis after executing the morphological analysis process in step S704a. In addition, you may make it provide the means which performs a morphological analysis process separately from the dependency analysis means 101 which performs a dependency analysis process.

なお、係り受け解析手段101は、HMM(Hidden Markov Model )等の既存技術を用いて形態素解析を実行する。また、係り受け解析手段101は、確率モデルや構文解析等の既存技術を用いて係り受け解析を実行する。   The dependency analysis unit 101 performs morphological analysis using an existing technique such as HMM (Hidden Markov Model). Further, the dependency analysis unit 101 executes dependency analysis using existing techniques such as a probability model and syntax analysis.

図34は、図33に示した各文章を係り受け解析し、各文節間の係り受けの関係を図示した説明図である。図34において、ノードは文節を表し、矢印の先が文節の係り先を表している。図34に示すように、係り受け解析手段101は、類似文章対の各文章に対して係り受け解析を実行することにより、各文章を、文節をノードとする木構造を用いて表すことができる。ここで、図34に示すような係り受けの木構造を係り受け構造という。   FIG. 34 is an explanatory diagram illustrating the dependency relationship between each phrase by performing dependency analysis on each sentence shown in FIG. 33. In FIG. 34, a node represents a phrase, and the tip of the arrow represents the destination of the phrase. As shown in FIG. 34, the dependency analysis unit 101 can express each sentence using a tree structure having clauses as nodes by executing dependency analysis on each sentence of the similar sentence pair. . Here, the dependency tree structure shown in FIG. 34 is referred to as a dependency structure.

なお、係り受け解析手段101は、形態素解析結果と各文節の対応関係の情報とを、例えば、図35に示すようなデータ形式で記録媒体に記憶させる。例えば、係り受け解析手段101は、記憶媒体として、情報処理装置のメモリやハードディスク装置、CD−ROM、DVD−ROM、フレキシブルディスク等に、形態素解析結果や各文節の対応関係の情報を、図35に示すように表(テーブル)形式で記憶させる。   Note that the dependency analysis unit 101 stores the morpheme analysis result and the information on the correspondence between each phrase in a recording medium in a data format as shown in FIG. 35, for example. For example, the dependency analysis unit 101 stores, as a storage medium, information on the correspondence between morphological analysis results and phrases in a memory of an information processing device, a hard disk device, a CD-ROM, a DVD-ROM, a flexible disk, or the like. As shown in FIG. 4, the data is stored in a table format.

図35に示すように、形態素解析結果や各文節の対応関係の情報を示す表には、形態素解析により抽出された単語と、その単語の品詞及び係り受け解析により求められた文節IDとが含まれる。文節IDとは、文節を特定するための識別情報である。同じ文節に属する単語には同一の文節IDが付与される。   As shown in FIG. 35, the table showing the morphological analysis result and the correspondence information of each phrase includes the word extracted by the morphological analysis, the part of speech of the word, and the phrase ID obtained by the dependency analysis. It is. The phrase ID is identification information for specifying a phrase. The same phrase ID is assigned to words belonging to the same phrase.

また、係り受け解析手段101は、求めた係り受け構造を、例えば、図36に示すようなデータ形式により表(テーブル)形式で記憶媒体に記憶させる。以下、図36に示す係り受け構造を示す表を係り受け表という。図36に示す係り受け表において、左列の「文節ID」は、図35に示す文節IDと対応している。また、中央列の「文節」は、1つの文節を形成する文字列である。右列の「係り先ID」は、その文節が係る係り先の文節の文節IDを示している。   Further, the dependency analysis unit 101 stores the obtained dependency structure in a storage medium in a table format in a data format as shown in FIG. 36, for example. Hereinafter, the table showing the dependency structure shown in FIG. 36 is referred to as a dependency table. In the dependency table shown in FIG. 36, the “phrase ID” in the left column corresponds to the phrase ID shown in FIG. The “phrase” in the center column is a character string that forms one clause. “Destination ID” in the right column indicates the phrase ID of the related phrase related to the phrase.

例えば、図36に示す例では、文節ID001の文節「動画処理の」は、文節ID002の文節「ために」に係ることがわかる。また、係る文節がない場合には、係り先がないことを判断できるように、例えば、係り先IDを000とする。   For example, in the example shown in FIG. 36, it can be seen that the phrase “moving image processing” with the phrase ID 001 relates to the phrase “for” with the phrase ID 002. Further, when there is no such clause, for example, the relation ID is 000 so that it can be determined that there is no relation.

表現比較手段102は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。表現比較手段102は、係り受け解析手段101による解析結果を入力する。また、表現比較手段102は、入力した係り受け解析結果に基づいて、類似文章対における共通表現と相違表現とを特定し、共通表現と相違表現との特定結果を構造関係抽出手段103に出力する(ステップS704b)。   Specifically, the expression comparison unit 102 is realized by a CPU of an information processing apparatus that operates according to a program. The expression comparison unit 102 inputs the analysis result from the dependency analysis unit 101. Further, the expression comparison unit 102 identifies the common expression and the difference expression in the similar sentence pair based on the input dependency analysis result, and outputs the identification result of the common expression and the difference expression to the structural relationship extraction unit 103. (Step S704b).

表現比較手段102は、共通表現や相違表現として抽出する対象表現の品詞を任意に選択してよい。例えば、表現比較手段102は、名詞を含む文節について共通表現や相違表現を抽出してもよい。また、表現比較手段102は、自立語を含む文節について共通表現や相違表現を抽出してもよい。さらに、表現比較手段102は、文節区切りで抽出するだけではなく、名詞を含む文節とその文節を修飾する1つ以上の文節群とを1つの表現として、共通表現や相違表現を抽出してもよい。また、表現比較手段102は、係り受け構造の部分木を単位として、共通表現や相違表現を抽出してもよい。なお、表現比較手段102は、各文節に含まれる単語の品詞については、図35に示す形態素解析結果と各文節の対応関係の情報に基づいて抽出することができる。   The expression comparison unit 102 may arbitrarily select the part of speech of the target expression to be extracted as a common expression or a different expression. For example, the expression comparison unit 102 may extract a common expression or a difference expression for a phrase including a noun. In addition, the expression comparison unit 102 may extract a common expression or a difference expression for a phrase including an independent word. Furthermore, the expression comparison unit 102 not only extracts by phrase breaks, but also extracts common expressions and difference expressions by using a phrase including a noun and one or more phrase groups that modify the phrase as one expression. Good. In addition, the expression comparison unit 102 may extract a common expression or a difference expression in units of subtrees with dependency structures. Note that the expression comparison unit 102 can extract the part of speech of each word included in each phrase based on the morphological analysis result shown in FIG.

以下、説明をわかりやすくするために、共通表現や相違表現として抽出する表現を各文節中に含まれる名詞句とした場合における同義表現の抽出過程について説明する。一般に、情報検索等を行なう場合、名詞や名詞句を入力して情報検索操作を行うことが多い。また、一般に、動詞や形容詞等の用言の同義表現はユーザが見てすぐに同義であるか否か認識できるものが多いのに対し、名詞や名詞句に同義表現が含まれる場合、その名詞や名詞句を見ただけではユーザが同義であるか否かをすぐに認識できないものが多い。従って、電子文書間等において名詞や名詞句に同義表現が含まれている場合、最も情報検索の障害となる可能性が高い。従って、本実施の形態では、類似文章対から名詞句における同義表現を抽出する場合を説明する。なお、同義表現抽出システム10は、名詞や名詞句に限らず、動詞や形容詞等の同義表現を抽出するものであってもよい。   Hereinafter, in order to make the explanation easy to understand, a process of extracting synonymous expressions in the case where expressions extracted as common expressions or different expressions are used as noun phrases included in each phrase will be described. In general, when performing an information search or the like, an information search operation is often performed by inputting a noun or a noun phrase. Also, in general, there are many synonymous expressions of verbs, adjectives, etc. that can be recognized immediately when the user sees them, but if nouns or noun phrases contain synonyms, In many cases, it is impossible to immediately recognize whether a user is synonymous or not just by looking at a noun phrase. Therefore, when synonyms are included in nouns and noun phrases between electronic documents, etc., there is a high possibility of being an obstacle to information retrieval. Therefore, in the present embodiment, a case will be described in which synonymous expressions in noun phrases are extracted from similar sentence pairs. The synonymous expression extraction system 10 is not limited to nouns and noun phrases, and may extract synonymous expressions such as verbs and adjectives.

また、以下、各文節を表現ともいう。図34に示す例では、表現比較手段102は、共通表現として「高速描画」(706a,706d)と「動画処理」(706b,706e)とを抽出する。また、図34において、網掛けで示した四角枠には、相違表現が含まれていることを表している。すなわち、表現比較手段102は、相違表現として「ABC機能」706c、「XYZ機能」706f及び「可視化診断」706gを抽出する。   Hereinafter, each phrase is also referred to as an expression. In the example shown in FIG. 34, the expression comparison unit 102 extracts “high speed drawing” (706a, 706d) and “moving image processing” (706b, 706e) as common expressions. Further, in FIG. 34, the square frame indicated by shading indicates that a difference expression is included. That is, the expression comparison unit 102 extracts “ABC function” 706c, “XYZ function” 706f, and “visualization diagnosis” 706g as difference expressions.

構造関係特定手段103は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。構造関係特定手段103は、類似文章対から抽出された共通表現と相違表現とに基づいて、各文章における共通表現間の構造関係、及び共通表現と相違表現との間の構造関係を特定し、特定した各構造関係を類似性判定手段104に出力する(ステップS704c)。構造関係とは、係り受け構造における各表現の相対的位置関係により規定されるものである。構造関係は、係り受け構造において、基準となる表現(以下、基準表現という)が非分岐又は分岐の位置のどちらの位置に存在するかに従って2つに分けることができる。なお、基準表現に対して構造関係を特定する表現を対象表現という。また、分岐に位置する表現を分岐表現という。   Specifically, the structural relationship specifying unit 103 is realized by a CPU of an information processing apparatus that operates according to a program. The structural relation specifying means 103 specifies the structural relation between the common expressions in each sentence and the structural relation between the common expressions and the different expressions based on the common expressions and the different expressions extracted from the pair of similar sentences. Each identified structural relationship is output to the similarity determination means 104 (step S704c). The structural relationship is defined by the relative positional relationship of each expression in the dependency structure. In the dependency structure, the structural relationship can be divided into two types according to whether a reference expression (hereinafter referred to as a reference expression) exists at a non-branching position or a branching position. An expression that specifies a structural relationship with respect to a reference expression is called a target expression. An expression located at a branch is called a branch expression.

図37は、共通表現間の構造関係、及び共通表現と相違表現との間の構造関係の例を示す説明図である。図37(a)は、基準表現(709a)が非分岐に位置する場合の構造関係を示している。また、図37(b)は、基準表現(709b)が分岐に位置する場合の構造関係を示している。また、図37において、○印は1つの表現を表しており、矢印は係り受けを表している。また、●印は基準表現を表している。   FIG. 37 is an explanatory diagram illustrating an example of a structural relationship between common expressions and a structural relationship between a common expression and a different expression. FIG. 37A shows the structural relationship when the reference expression (709a) is located in a non-branch. FIG. 37 (b) shows the structural relationship when the reference expression (709b) is located at a branch. In FIG. 37, a circle represents one expression, and an arrow represents a dependency. The ● mark represents the standard expression.

基準表現が非分岐に位置する場合、図37(a)に示す破線四角枠により示される対象表現の位置によって、同列、直列及び並列の3つの構造関係を規定する。この場合、構造関係特定手段103は、対象表現が同列、直列又は並列のいずれであるかを特定する。ここで、同列とは基準表現と直接係り受けの関係がある表現の集合であり、直列とは文章の全体的な係り受け構造からみると基準表現が「係り」又は「受け」となる表現の集合であり、並列とは共通の分岐表現に係る表現の集合である。   When the reference expression is located in a non-branch, three structural relationships of the same column, series, and parallel are defined by the position of the target expression indicated by the broken-line square frame shown in FIG. In this case, the structural relationship specifying unit 103 specifies whether the target expression is the same, serial, or parallel. Here, the same column is a set of expressions that have a direct dependency relationship with the reference expression, and the series is an expression in which the reference expression is “dependency” or “reception” when viewed from the overall dependency structure of the sentence. It is a set, and parallel is a set of expressions related to a common branch expression.

一方、基準表現が分岐に位置する場合、図37(b)に示す破線四角枠により示される対象表現の位置によって、前列、後列及び横列の3つの構造関係を規定する。この場合、構造関係特定手段103は、対象表現が前列、後列及び横列のいずれであるかを特定する。ここで、前列とは基準表現に対して「係り」となる表現の集合であり、後列とは基準表現に対して「受け」となる表現の集合であり、横列とは共通の分岐表現に係る表現の集合である。   On the other hand, when the reference expression is located at a branch, the three structural relationships of the front row, the rear row, and the horizontal row are defined according to the position of the target representation indicated by the broken-line square frame shown in FIG. In this case, the structural relationship specifying unit 103 specifies whether the target expression is a front row, a back row, or a row. Here, the front row is a set of expressions that are “involved” with respect to the reference expression, the back row is a set of expressions that are “received” with respect to the reference expression, and the row is related to a common branch expression. A collection of expressions.

なお、係り受け構造において、構造関係を特定する表現間に2つ以上の分岐表現がある場合、構造関係特定手段103は、上記に示した6つの関係のいずれにも属さないと判断し、構造関係を「その他」と特定する。   In the dependency structure, if there are two or more branch expressions between the expressions specifying the structural relationship, the structural relationship specifying unit 103 determines that the structure does not belong to any of the six relationships shown above, and the structure Identify the relationship as “Other”.

次に、文章2を例にして、構造関係特定手段103が構造関係を特定する処理について説明する。構造関係の特定処理において、構造関係特定手段103は、まず、図36に示す係り受け表に基づいて、図38に示す構造関係特定表を生成する。構造関係特定表とは、構造関係を特定するために必要となる情報をまとめた情報である。図38に示すように、構造関係特定表は、文節IDと、文節IDに対応する表現の係り受け構造における位置(分岐/非分岐)と、それぞれ各表現の係り側及び受け側にある近接の分岐表現を特定するための文節ID(係り側近接分岐ID、受け側近接分岐ID)を含む。   Next, taking the sentence 2 as an example, the process in which the structural relationship identifying unit 103 identifies the structural relationship will be described. In the structure relation specifying process, the structure relation specifying unit 103 first generates the structure relation specifying table shown in FIG. 38 based on the dependency table shown in FIG. The structural relationship specification table is information that summarizes information necessary for specifying the structural relationship. As shown in FIG. 38, the structure relation specifying table includes a phrase ID, a position (branch / non-branch) in the dependency structure of the expression corresponding to the phrase ID, and the proximity of each expression on the dependency side and the reception side. It includes a phrase ID for specifying the branch expression (an engagement side adjacent branch ID, a receiving side adjacent branch ID).

図39に示すように、係り側とは係り受け構造における葉側を意味し、受け側とは係り受け構造における根側を意味する。係り側近接分岐ID及び受け側近接分岐IDとは、係り受け構造において各表現がどの分岐表現に挟まれているかを把握するための識別情報である。ただし、係り受け構造において、根に相当する表現には受け側近接分岐IDがなく、葉と同列の関係にある表現には係り側近接分岐IDがない。そのため、図39に示すように、分岐表現の文節IDの代わりに葉IDと根IDとを用いる。そのようにすることにより、構造関係特定手段103は、任意の表現の係り側近接分岐ID及び受け側近接分岐IDに、分岐表現の文節ID、葉ID又は根IDのいずれかを付与する。   As shown in FIG. 39, the dependency side means the leaf side in the dependency structure, and the reception side means the root side in the dependency structure. The dependency side adjacent branch ID and the reception side adjacent branch ID are identification information for grasping which branch expression each expression is sandwiched in the dependency structure. However, in the dependency structure, the expression corresponding to the root does not have the reception side adjacent branch ID, and the expression in the same row as the leaf does not have the dependency side adjacent branch ID. Therefore, as shown in FIG. 39, the leaf ID and the root ID are used instead of the phrase ID of the branch expression. By doing so, the structural relationship specifying unit 103 assigns any of the phrase ID, the leaf ID, and the root ID of the branch expression to the relationship-side adjacent branch ID and the receiver-side adjacent branch ID of any expression.

構造関係特定手段103は、構造関係特定表を、以下の処理に従って生成する。構造関係特定手段103は、図36に示す係り受け表に基づいて、係り先IDに同じ文節IDが2つ以上あればその表現を分岐表現とし、同じ文節IDが1つ以下であれば非分岐の表現とする。そのような処理により、構造関係特定手段103は、各表現の分岐/非分岐を特定する。   The structural relationship identification unit 103 generates a structural relationship identification table according to the following processing. Based on the dependency table shown in FIG. 36, the structure relation specifying unit 103 determines that the expression is a branch expression if there are two or more same phrase IDs in the dependency ID, and is non-branch if the same phrase ID is one or less. The expression of Through such processing, the structural relationship specifying unit 103 specifies branch / non-branch of each expression.

次に、構造関係特定手段103は、係り受け表において係り先IDに存在しない文節IDを抽出する。その抽出した文節IDの表現は係り受け構造における葉に相当しており、構造関係特定手段103は、その抽出した文節IDの表現の係り側近接分岐IDには葉IDを付与する。この場合、構造関係特定手段103は、各葉IDとして異なる値を用いる。   Next, the structural relationship specifying unit 103 extracts a phrase ID that does not exist in the dependency ID in the dependency table. The extracted phrase ID expression corresponds to a leaf in the dependency structure, and the structure relation specifying unit 103 assigns a leaf ID to the dependency side adjacent branch ID of the extracted phrase ID expression. In this case, the structural relationship specifying unit 103 uses a different value as each leaf ID.

次に、構造関係特定手段103は、葉に相当する表現から順に、係り先の表現が分岐表現となるまで各表現を順次参照していき、そのトレースの過程に出てくる表現をメモリ等の記憶媒体に記憶させる。また、構造関係特定手段103は、記憶媒体に記憶されている表現の係り側近接分岐IDに、参照を開始した表現(葉に相当)の係り側近接分岐IDを付与する。また、構造関係特定手段103は、受け側近接分岐IDとして、前述した分岐表現の文節IDを付与する。また、構造関係特定手段103は、分岐表現の係り側近接分岐IDとして、その表現に直接係る表現の係り側近接分岐IDを付与する。   Next, the structure relation specifying unit 103 sequentially refers to each expression from the expression corresponding to the leaf until the relation expression becomes a branch expression, and the expression appearing in the tracing process is stored in a memory or the like. Store in a storage medium. Further, the structural relationship specifying unit 103 assigns a relationship-side proximity branch ID of an expression (corresponding to a leaf) whose reference is started to the relationship-side proximity branch ID of the expression stored in the storage medium. Further, the structure relation specifying unit 103 assigns the phrase ID of the branch expression described above as the receiving side adjacent branch ID. Further, the structure relation specifying unit 103 assigns the relation side adjacent branch ID of the expression directly related to the expression as the relation side adjacent branch ID of the branch expression.

なお、構造関係特定手段103は、分岐表現の係り側近接分岐IDとして、2個以上のIDを付与することになる。もし、分岐表現が見つからず係り先係り受け構造の根となった場合には、構造関係特定手段103は、その表現の受け側分岐表現IDを根IDとし処理を終了する。そうでない場合には、構造関係特定手段103は、さらに分岐の表現から順に係り先の表現が分岐表現となるまで順次参照していき、そのトレースの過程に出てくる表現をメモリ等の記憶媒体に記憶させる。また、構造関係特定手段103は、記憶媒体に記憶されている表現の係り側近接分岐IDに、参照を開始した分岐表現の文節IDを付与する。   The structural relationship specifying unit 103 assigns two or more IDs as the dependency side adjacent branch IDs of the branch expression. If the branch expression is not found and becomes the root of the dependency dependency structure, the structure relation specifying unit 103 sets the receiving branch expression ID of the expression as the root ID and ends the process. If this is not the case, the structural relationship specifying means 103 sequentially refers to the branch expression from the branch expression until the branch expression becomes the branch expression, and the expression that appears in the trace process is stored in a storage medium such as a memory. Remember me. Further, the structure relation specifying unit 103 gives the phrase ID of the branch expression that has been referred to the relation-side adjacent branch ID of the expression stored in the storage medium.

上記の処理を繰り返し実行し、参照する係り先が係り受け構造の根となると、構造関係特定手段103は、その表現の受け側分岐表現IDに根IDを付与し、処理を終了する。図38は、図36に示す係り受け表に基づいて求められる構造関係特定表の例を示す説明図である。   When the above processing is repeatedly executed and the reference destination becomes the root of the dependency structure, the structural relationship specifying unit 103 assigns the root ID to the receiving side branch expression ID of the expression and ends the processing. FIG. 38 is an explanatory diagram showing an example of the structural relationship specification table obtained based on the dependency table shown in FIG.

次に、構造関係特定手段103は、構造関係特定表において、共通表現又は相違表現を含む2つの表現に対して構造関係を特定する。基準表現が非分岐である場合、構造関係特定手段103は、(1)2つの表現において受け側近接分岐IDと係り側近接分岐IDとがともに同一である場合には、構造関係を「同列」と特定する。また、構造関係特定手段103は、(2)2つの表現において受け側近接分岐IDが同一であり係り側近接分岐IDが異なれば、構造関係を「並列」と特定する。また、構造関係特定手段103は、(3)一方の受け側近接分岐IDが他方の係り側近接分岐IDと同一である場合には、構造関係を「直列」と特定する。また、構造関係特定手段103は、(4)2つの表現の受け側近接分岐IDと係り側近接分岐IDとに一致するものがなければ、構造関係を「その他」と特定する。   Next, the structural relationship specifying unit 103 specifies the structural relationship for two expressions including a common expression or a different expression in the structure relationship specifying table. When the reference expression is non-branching, the structural relationship specifying means 103 (1) If the receiving side adjacent branch ID and the related side adjacent branch ID are the same in the two expressions, the structural relationship is set to “same row”. Is identified. In addition, the structural relationship specifying unit 103 specifies (2) the structural relationship as “parallel” if the receiving side adjacent branch IDs are the same and the related side adjacent branch IDs are different in the two expressions. Further, the structural relationship specifying means 103 specifies (3) the structural relationship as “series” when one receiving side adjacent branch ID is the same as the other related side adjacent branch ID. Further, the structural relationship specifying unit 103 specifies (4) the structural relationship as “others” if there is no match between the receiving side adjacent branch ID and the relationship side adjacent branch ID of the two expressions.

また、基準表現が分岐表現である場合、構造関係特定手段103は、(1)対象表現の受け側近接分岐IDが基準表現の文節IDである場合には、構造関係を「前列」と特定する。また、構造関係特定手段103は、(2)対象表現の係り側近接分岐IDが基準表現の文節IDである場合には、構造関係を「後列」と特定する。また、構造関係特定手段103は、(3)2つの表現の受け側近接分岐IDが同一であれば、構造関係を「並列」と特定する。また、構造関係特定手段103は、(4)2つの表現の受け側近接分岐IDと係り側近接分岐IDとに一致するものがなければ、構造関係を「その他」と特定する。   Further, when the reference expression is a branch expression, the structure relation specifying unit 103 specifies (1) the structure relation as “front row” when the receiving side adjacent branch ID of the target expression is the phrase ID of the reference expression. . In addition, the structural relationship specifying unit 103 specifies (2) the structural relationship as “back row” when the relationship-side adjacent branch ID of the target expression is the phrase ID of the reference expression. Further, the structural relationship specifying means 103 specifies (3) the structural relationship as “parallel” if the receiving side adjacent branch IDs of the two expressions are the same. Further, the structural relationship specifying unit 103 specifies (4) the structural relationship as “others” if there is no match between the receiving side adjacent branch ID and the relationship side adjacent branch ID of the two expressions.

なお、上記に示した構造関係を特定する方法は一例であり、構造関係特定手段103は、所望の構造関係が特定できれば、他の方法を用いて構造関係を特定してもよい。また、以下、共通表現間の構造関係を共通表現構造といい、共通表現と相違表現との間の構造関係を相違表現構造という。   Note that the above-described method of specifying the structural relationship is an example, and the structural relationship specifying unit 103 may specify the structural relationship using another method as long as the desired structural relationship can be specified. Hereinafter, the structural relationship between the common representations is referred to as a common representation structure, and the structural relationship between the common representation and the difference representation is referred to as a difference representation structure.

なお、構造関係を求めるための2つの表現において、片方が分岐表現であり、もう一方が分岐表現でない場合、どちらを基準表現にするかによって構造関係が変わる。そのため、本実施の形態では、構造関係特定手段103は、2つの表現間に対して基準表現と対象表現とを入れ替えて処理を実行することにより、2つの構造関係を特定する。そのように、基準表現と対象表現とを入れ替えた2種類の構造関係を特定して処理を行うことにより、同義表現抽出の精度をより高めることができる。なお、基準表現と対象表現との入れ替えを行わずに、いずれか一方の表現のみを基準表現とし、他方を対象表現として、同義表現抽出の処理を行ってもよい。   In the two expressions for obtaining the structural relationship, when one is a branching expression and the other is not a branching expression, the structural relation changes depending on which is used as a reference expression. Therefore, in the present embodiment, the structural relationship specifying unit 103 specifies the two structural relationships by executing processing by exchanging the reference expression and the target expression between the two expressions. In this way, the accuracy of synonymous expression extraction can be further improved by specifying and processing two types of structural relationships in which the reference expression and the target expression are interchanged. Note that the synonymous expression extraction process may be performed using only one of the expressions as the reference expression and the other as the object expression without replacing the reference expression and the object expression.

類似文章対に共通表現がm個ある場合、構造関係特定手段103は、各文章においてm×(m−1)個の共通表現構造を特定することになる。また、構造関係特定手段103は、相違表現1個について、m×2個の相違表現構造を特定することになる。例えば、文章1と文章2とを比較する場合には、m=2であるため、構造関係特定手段103は、共通表現構造を2個特定することになる。また、文章1及び文章2については、相違表現がそれぞれ1個及び2個であるため、構造関係特定手段103は、文章1において4個の相違表現構造を特定し、文章2において8個の相違表現構造を特定する。   When there are m common expressions in a pair of similar sentences, the structure relation specifying unit 103 specifies m × (m−1) common expression structures in each sentence. Further, the structural relationship specifying unit 103 specifies m × 2 difference expression structures for one difference expression. For example, when comparing sentence 1 and sentence 2, since m = 2, the structural relationship specifying unit 103 specifies two common expression structures. Also, for sentence 1 and sentence 2, there are one and two difference expressions, respectively, so the structural relationship specifying means 103 specifies four difference expression structures in sentence 1, and eight differences in sentence 2 Specify the representation structure.

図40は、構造関係特定手段103が文章1に対して構造関係を特定した結果を示す説明図である。なお、図40の右側に示す特定結果は、図40の左側に示す特定結果で用いた基準表現と対象表現とを反転して(入れ替えて)処理することによって求めた構造関係である。図40において、破線矢印の元は基準表現を示しており、波線矢印の先は対象表現を示している。また、図40において、共通表現が含まれる表現(文節)は白抜き文字で示されており、相違表現が含まれる表現は網掛けの四角枠として示されている。   FIG. 40 is an explanatory diagram showing the result of the structural relationship specifying unit 103 specifying the structural relationship for the sentence 1. The identification result shown on the right side of FIG. 40 is a structural relationship obtained by inverting (replacement) and processing the reference expression and the target expression used in the identification result shown on the left side of FIG. In FIG. 40, the source of the dashed arrow indicates the reference expression, and the tip of the wavy arrow indicates the target expression. In FIG. 40, expressions (sentences) including common expressions are indicated by white characters, and expressions including different expressions are indicated by shaded square frames.

図40に示すように、構造関係特定手段103による構造関係の特定結果に基づいて、文章1においては、基準表現の違いに関係なく、「高速描画」と「動画処理」との共通表現構造が「並列」(720a,820a)であることがわかる。また、「ABC機能」と「動画処理」との相違表現構造が「並列」(720b,820b)であることがわかる。また、「ABC機能」と「高速描画」との相違表現構造が「同列」(720c,820c)であることがわかる。   As shown in FIG. 40, based on the structural relationship specifying result by the structural relationship specifying means 103, the sentence 1 has a common expression structure for “high-speed rendering” and “moving image processing” regardless of the difference in the standard expression. It turns out that it is "parallel" (720a, 820a). It can also be seen that the difference representation structure between the “ABC function” and the “moving image processing” is “parallel” (720b, 820b). It can also be seen that the difference representation structure between the “ABC function” and the “high-speed drawing” is “same column” (720c, 820c).

図41は、構造関係特定手段103が文章2に対して構造関係を特定した結果を示す説明図である。なお、図41の下側に示す特定結果は、図41の上側に示す特定結果で用いた基準表現と対象表現とを反転して(入れ替えて)処理することによって求めた構造関係である。また、図41の見方は図40の場合と同様である。   FIG. 41 is an explanatory diagram showing the result of the structural relationship specifying unit 103 specifying the structural relationship for the sentence 2. The identification result shown on the lower side of FIG. 41 is a structural relationship obtained by inverting (replacement) the reference expression and the target expression used in the identification result shown on the upper side of FIG. 41 is the same as that shown in FIG.

図41に示すように、構造関係特定手段103による構造関係の特定結果に基づいて、文章2においても、基準表現の違いに関係なく、「高速描画」と「動画処理」との共通表現構造が「並列」(730a,830a)であることがわかる。また、「XYZ機能」と「動画処理」との相違表現構造が「並列」(713b,830b)、「XYZ機能」と「高速描画」との相違表現構造が「同列」(730c,830c)であることがわかる。また、「可視化診断」と「高速描画」との相違表現構造及び「可視化診断」と「動画処理」との相違表現構造は、表現間に2つ以上の分岐表現(「用いており、」と「役立っている」)があるため、構造関係が「その他」(730d,730e,830d,830e)であることがわかる。   As shown in FIG. 41, based on the structural relationship identification result by the structural relationship identifying unit 103, the sentence 2 also has a common expression structure for “high-speed rendering” and “moving image processing” regardless of the difference in the standard expression. It turns out that it is "parallel" (730a, 830a). Also, the difference representation structure between the “XYZ function” and “moving image processing” is “parallel” (713b, 830b), and the difference representation structure between the “XYZ function” and “high-speed rendering” is “same row” (730c, 830c). I know that there is. Also, the difference representation structure between “visualization diagnosis” and “high-speed rendering” and the difference representation structure between “visualization diagnosis” and “moving image processing” include two or more branch expressions (“used” and “ It is understood that the structural relationship is “others” (730d, 730e, 830d, 830e).

類似性判定手段104は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。類似性判定手段104は、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する機能を備える。   Specifically, the similarity determination unit 104 is realized by a CPU of an information processing apparatus that operates according to a program. The similarity determination means 104 is different between the sentences of the similar sentence pair, and the common expression group included in common in each sentence of the similar sentence pair has a similar relative positional relationship in the sentence structure of each sentence. A function is provided for extracting synonymous expressions from pairs of similar sentences based on the fact that the difference expression group and the common expression group are in a similar relative positional relationship in the sentence structure of each sentence.

類似性判定手段104は、構造関係抽出手段103から類似文章対を入力し、入力した類似文章対における共通表現構造及び相違表現構造の同一性を判定する(ステップS704d)。さらに、類似性判定手段104は、同一性の判定結果に基づいて、類似文章対における同義表現候補対の類似度を算出することにより同義表現を抽出し、同義表現の抽出結果を出力手段502に出力する(ステップS704e)。   The similarity determination unit 104 receives a similar sentence pair from the structural relationship extraction unit 103 and determines the identity of the common expression structure and the different expression structure in the input similar sentence pair (step S704d). Further, the similarity determination unit 104 extracts the synonym expression by calculating the similarity of the synonym expression candidate pair in the similar sentence pair based on the determination result of the identity, and outputs the extraction result of the synonym expression to the output unit 502. Output (step S704e).

なお、同義表現候補対とは、類似文章対において同義表現の候補となる相違表現をペア(対)にした情報である。類似文章対である文章iと文章jとにそれぞれ相違表現がni個及びnj個含まれている場合、同義表現候補対の組み合わせはni×nj通りとなる。類似性判定手段104は、これら全ての同義表現候補対の組み合わせに対して類似度を算出する。   The synonymous expression candidate pair is information obtained by pairing different expressions that are candidates for synonymous expressions in a pair of similar sentences. When ni and nj different expressions are included in the sentence i and the sentence j, which are similar sentence pairs, there are ni × nj combinations of synonymous expression candidate pairs. The similarity determination unit 104 calculates the similarity for all of these combinations of synonym expression candidate pairs.

まず、類似性判定手段104は、同義表現候補対における比較構造関係を特定する。比較構造関係とは、同義表現候補対の類似度を算出するために比較すべき共通表現構造及び相違表現構造のことである。類似性判定手段104は、共通表現構造について、類似文章対において基準表現及び対象表現が同一であるものを比較する。また、類似性判定手段104は、相違表現構造について、類似文章対において基準表現となる共通表現が同一であるもの、又は対象表現となる共通表現が同一であるものを比較する。   First, the similarity determination unit 104 identifies a comparative structure relationship in the synonymous expression candidate pair. The comparative structure relationship is a common expression structure and a different expression structure to be compared in order to calculate the similarity between synonymous expression candidate pairs. The similarity determination means 104 compares the common expression structures with the same reference expression and target expression in the similar sentence pairs. In addition, the similarity determination unit 104 compares different expression structures that have the same common expression as the reference expression in the similar sentence pair or the same common expression as the target expression.

図42は、類似文章対における共通表現の数(m)が2である場合における比較構造関係の例を示している。図42において、共通表現1,2は文章i,jにおいて用いられている同一の文字列の表現であり、相違表現aと相違表現bとは同義表現候補対である。また、同義表現候補対は、図42において網掛けで示されている。図42に示す例では、類似性判定手段104が比較する構造関係数は、1つの同義表現候補対について、共通表現構造に対して2個となり、相違表現構造に対して4個となり、合計6個となる。すなわち、類似性判定手段104は、6個の構造関係の同一性に基づいて、同義表現候補対の類似度を算出する。   FIG. 42 shows an example of the comparative structure relationship when the number (m) of common expressions in similar sentence pairs is two. In FIG. 42, common expressions 1 and 2 are expressions of the same character string used in sentences i and j, and difference expression a and difference expression b are synonymous expression candidate pairs. Further, the synonymous expression candidate pair is shown by shading in FIG. In the example shown in FIG. 42, the number of structure relations compared by the similarity determination unit 104 is 2 for the common expression structure and 4 for the difference expression structure for one synonym expression candidate pair, for a total of 6 It becomes a piece. That is, the similarity determination unit 104 calculates the similarity of the synonymous expression candidate pairs based on the identity of the six structural relationships.

図43は、文章1と文章2とにおける同義表現候補対に対する比較構造関係を示す。文章1と文章2とにおいて、同義表現候補対は、「ABC機能」と「XYZ機能」、及び「ABC機能」と「可視化診断」の2つになる。類似性判定手段104は、各同義表現候補対の両方に対して、図42と同様に、2つの共通表現構造と4つの相違表現構造とを比較し、構造関係の同一性を判定することにより、同義表現候補対の類似度を算出する。   FIG. 43 shows a comparative structural relationship for the synonymous expression candidate pair in the sentence 1 and the sentence 2. In sentence 1 and sentence 2, there are two synonymous expression candidate pairs: “ABC function” and “XYZ function”, and “ABC function” and “visualization diagnosis”. Similarity determination means 104 compares two common expression structures and four different expression structures for both of the synonymous expression candidate pairs, and determines the identity of the structural relationship, as in FIG. Then, the similarity of the synonymous expression candidate pair is calculated.

なお、類似文章対において、各文章における文法構造や、共通表現及び相違表現の語順等が同等であることが保証されている場合には、類似性判定手段104は、相違表現構造の同一性のみを判定することによって、同義表現候補対の類似度を算出してもよい。この場合、図43に示す例では、類似性判定手段104は、「ABC機能」と「XYZ機能」及び「ABC機能」と「可視化診断」の各同義表現候補対ともに4つの相違表現構造を比較し、構造関係の同一性を判定して、同義表現候補対の類似度を算出することになる。   In the similar sentence pair, when it is guaranteed that the grammatical structure in each sentence and the word order of the common expression and the difference expression are equivalent, the similarity determination unit 104 only determines the identity of the difference expression structure. May be used to calculate the similarity of the synonymous expression candidate pair. In this case, in the example shown in FIG. 43, the similarity determination unit 104 compares the four different representation structures with each of the synonymous expression candidate pairs of “ABC function” and “XYZ function” and “ABC function” and “visualization diagnosis”. Then, the identity of the structural relationship is determined, and the similarity of the synonymous expression candidate pair is calculated.

次に、類似性判定手段104が実行する各構造関係の同一性の判定処理の判定方法について説明する。図44は、構造関係の同一性に関する判定基準を示す表(テーブル)の一例を示す説明図である。図44に示す表は、2つの構造関係の全ての組み合わせに対して、それらを同一とみなすか否かを設定したものである。以下、図44に示す表を同一性判定表という。なお、図44に示す同一性判定表は、例えば、情報処理装置が備えるハードディスク装置やメモリ等の記憶媒体に予め記憶される。また、図44に示す同一性判定表は、対象行列であるため、下三角行列の部分には値は含まれないものとする。   Next, a determination method of the determination process of the identity of each structural relationship executed by the similarity determination unit 104 will be described. FIG. 44 is an explanatory diagram showing an example of a table indicating a determination criterion related to the identity of the structural relationship. The table shown in FIG. 44 sets whether all combinations of two structural relationships are regarded as the same. Hereinafter, the table shown in FIG. 44 is referred to as an identity determination table. Note that the identity determination table shown in FIG. 44 is stored in advance in a storage medium such as a hard disk device or a memory included in the information processing apparatus, for example. In addition, since the identity determination table shown in FIG. 44 is a target matrix, it is assumed that no value is included in the lower triangular matrix portion.

図44に示す同一性判定表では、各構造関係の組み合わせに対して「○」、「×」又は「順」の3種の同一性を判定するための判定値が設定されている。ここで、「○」は各比較構造関係を同一と判定することを意味し、「×」は相違と判定することを意味する。また、「順」は、比較構造関係において、基準表現と対象表現との各文章中における順序が等しい場合には同一と判定することを表す。   In the identity determination table shown in FIG. 44, determination values for determining three types of identity of “◯”, “x”, or “order” are set for each combination of structural relationships. Here, “◯” means that the comparison structural relationships are determined to be the same, and “x” means that they are determined to be different. Further, “order” represents that, in the comparative structure relationship, when the order in the sentences of the reference expression and the target expression is the same, they are determined to be the same.

類似性判定手段104は、図44に示す同一性判定表に従って、各構造関係の同一性を判定する。この場合、類似性判定手段104は、原則として、比較構造関係が一致している場合(図44に示す対角要素に相当する)には、構造関係が「その他」である場合を除き、その構造関係を同一であると判断できる。ただし、同一性判定表を用いた同一性判定において、構造関係が一致していない場合においても同一と判定することを許容するものとする。   The similarity determination means 104 determines the identity of each structural relationship according to the identity determination table shown in FIG. In this case, the similarity determination unit 104, as a general rule, if the comparison structural relationship is the same (corresponding to the diagonal elements shown in FIG. 44), except for the case where the structural relationship is “others”. It can be determined that the structural relationship is the same. However, in the identity determination using the identity determination table, it is allowed to be determined to be the same even when the structural relationship does not match.

例えば、同一性判定表では、類似文章対において比較構造関係が「並列」と「横列」とである場合には、同一「○」760aであるとしている。横列と並列とは、基準表現の位置に差があるものの、ともに「同じ分岐表現に係る表現間の関係」を規定するものであり、実質的には同じ構造であると判断することができる。   For example, in the identity determination table, if the comparison structure relationship is “parallel” and “row” in the similar sentence pair, it is assumed that they are the same “◯” 760a. Although the row and the parallel are different in the position of the reference expression, they both define “relationship between expressions related to the same branch expression”, and can be determined to have substantially the same structure.

また、同一性判定表において判定値として「順」を設定することにより、以下の処理を実現することができる。図45は、類似文章対の他の例である文章3及び文章4を示す説明図である。図45に示す類似文章対において、「DEF機能」と「KLM機能」とが同義表現であるとする。図45に示す例において、表現比較手段102は、「製品」と「新開発」とを共通表現として特定し、文章3の「DEF機能」と文章4の「KLM機能」及び「動画処理」とを相違表現として特定する。そのため、図45に示す例では、「DEF機能」及び「KLM機能」と「DEF機能」及び「動画処理」とが同義表現候補対となる。   Further, by setting “order” as the determination value in the identity determination table, the following processing can be realized. FIG. 45 is an explanatory diagram showing sentence 3 and sentence 4, which are other examples of similar sentence pairs. In the similar sentence pair shown in FIG. 45, it is assumed that “DEF function” and “KLM function” are synonymous expressions. In the example shown in FIG. 45, the expression comparison means 102 specifies “product” and “new development” as common expressions, and “DEF function” of sentence 3 and “KLM function” and “moving image processing” of sentence 4. Is specified as a difference expression. Therefore, in the example shown in FIG. 45, “DEF function”, “KLM function”, “DEF function”, and “moving image processing” are synonymous expression candidate pairs.

図46は、図45に示す類似文章対の係り受け構造を示す説明図である。図46に示す各構造関係において、矢印の元が基準表現を示しており、矢印の先が対象表現を示している。また、図46に示す構造関係「同列」780aと「直列」(780b,780c)とは、比較構造関係である。この場合、文章3における「同列」780aと文章4における「直列」780bとは一致しない。そのため、従来の同義表現抽出方法では、文章3及び文章4から同義表現を抽出することはできない。   FIG. 46 is an explanatory diagram showing a dependency structure of similar sentence pairs shown in FIG. In each structural relationship shown in FIG. 46, the source of the arrow indicates the reference expression, and the tip of the arrow indicates the target expression. Also, the structural relationship “same row” 780a and “series” (780b, 780c) shown in FIG. 46 are comparative structural relationships. In this case, “same row” 780a in sentence 3 and “series” 780b in sentence 4 do not match. Therefore, the conventional synonym expression extraction method cannot extract synonym expressions from the sentence 3 and the sentence 4.

しかしながら、本実施の形態では、図46に示す場合であっても、類似性判定手段104は、図44に示す同一性判定表に基づいて、文章3における「同列」780aと文章4における「直列」780bとの相違表現構造関係を同一であると判定できる。すなわち、図44に示す同一性判定表では、「同列」と「直列」との同一性の判定基準が「順」と設定されており、共通表現と対象表現の順序が一致すれば、相違表現構造関係を同一と判定できる。図46に示す例では、文章3においては、基準表現「DEF機能」が対象表現「製品」よりも語順として前にあり、文章4においても基準表現「KLM機能」が対象表現「製品」よりも語順として前にあり、共通表現と対象表現との順序が一致する。そのため、類似性判定手段104は、「同列」780aと「直列」780bとの相違表現構造関係を同一であると判定することができる。   However, in the present embodiment, even in the case shown in FIG. 46, the similarity determination unit 104 determines that “same line” 780a in the sentence 3 and “series” in the sentence 4 based on the identity determination table shown in FIG. It can be determined that the difference representation structural relationship with “780b” is the same. That is, in the identity determination table shown in FIG. 44, the identity criterion for “same column” and “series” is set to “order”, and if the common expression and the target expression match in order, the difference expression It can be determined that the structural relationship is the same. In the example shown in FIG. 46, in the sentence 3, the reference expression “DEF function” precedes the target expression “product” in the word order, and in the sentence 4, the reference expression “KLM function” is more than the target expression “product”. It comes before the word order, and the order of the common expression and the target expression is the same. Therefore, the similarity determination unit 104 can determine that the difference representation structure relationship between the “same column” 780a and the “series” 780b is the same.

一方、図46において、「KML機能」と同様に、「動画処理」も対象表現「製品」と「直列」780cの関係にあるが、類似性判定手段104は、「直列」780cの構造関係を、「DEF機能」と「製品」との構造関係「同列」780aとは相違と判定できる。すなわち、図46に示す例では、文章4において基準表現「動画処理」が対象表現「製品」よりも語順として後ろにあり、文章3の基準表現「DEF機能」と対象表現「製品」との語順とが異なるため、類似性判定手段104は、「直列」780cと「同列」780aとの相違表現構造関係を相違と判定する。   On the other hand, in FIG. 46, as with the “KML function”, “moving image processing” has a relationship of “serial” 780c with the target expression “product”, but the similarity determination unit 104 has a structural relationship of “serial” 780c. The structural relationship “same” 780a between the “DEF function” and “product” can be determined to be different. That is, in the example shown in FIG. 46, the reference expression “moving image processing” is behind the target expression “product” in the sentence 4 as the word order, and the word order of the reference expression “DEF function” and the target expression “product” in the sentence 3 Therefore, the similarity determination unit 104 determines that the difference representation structure relationship between the “series” 780c and the “same column” 780a is different.

以上の処理が実行されることにより、「DEF機能」に対する「動画処理」と「KML機能」との構造関係に差をつけることができる。   By executing the above processing, it is possible to make a difference in the structural relationship between the “moving image processing” and the “KML function” with respect to the “DEF function”.

なお、図44に示した同一性判定表は一例であり、同一性判定表中の各要素をシステム利用者が変更できるようにしてもよい。例えば、図44に示す同一性判定表において、「順」を「○」に変更することによって、語順に対する制約を緩めるようにしてもよい。   The identity determination table shown in FIG. 44 is an example, and each element in the identity determination table may be changed by the system user. For example, in the identity determination table shown in FIG. 44, the restriction on the word order may be relaxed by changing “order” to “◯”.

図47及び図48は、それぞれ、類似性判定手段104によって特定された同義表現候補対「ABC機能」及び「XYZ機能」と「ABC機能」及び「可視化診断」とにおける比較構造関係の同一性を示す説明図である。図47及び図48において、比較構造関係は双方向矢印で示されており、矢印に付与されている「同一」及び「相違」は図44の同一性判定表に基づく判定結果を示している。図47及び図48に示す例では、「ABC機能」及び「XYZ機能」は全ての比較構造関係が同一であることがわかる。また、「ABC機能」及び「可視化診断」は4つの相違表現構造が相違であることがわかる。   47 and 48 show the identity of the comparison structure relationship in the synonymous expression candidate pairs “ABC function” and “XYZ function”, “ABC function”, and “visualization diagnosis” identified by the similarity determination unit 104, respectively. It is explanatory drawing shown. 47 and 48, the comparative structural relationship is indicated by a bidirectional arrow, and “same” and “difference” given to the arrows indicate the determination results based on the identity determination table of FIG. In the example shown in FIGS. 47 and 48, it can be seen that the “ABC function” and the “XYZ function” have the same comparative structural relationship. In addition, it can be seen that “ABC function” and “visualization diagnosis” are different in four different representation structures.

次に、類似性判定手段104は、求めた構造関係の同一性に基づいて、同義表現候補対の類似度を算出する。なお、類似性判定手段104は、同義表現候補対の類似度を求める処理を、全ての同義表現候補対に対して実行する。この場合、類似性判定手段104は、類似度の算出方法として、例えば、式(9)を用いて同義表現候補対の類似度を求めるようにすればよい。   Next, the similarity determination unit 104 calculates the similarity of the synonymous expression candidate pair based on the obtained identity of the structural relationship. Note that the similarity determination unit 104 executes the process for obtaining the similarity of the synonym expression candidate pairs for all the synonym expression candidate pairs. In this case, the similarity determination unit 104 may calculate the similarity of the synonym expression candidate pair using, for example, Expression (9) as a similarity calculation method.

類似度=(構造関係の同一数)÷(比較した構造関係の数) 式(9) Similarity = (same number of structural relationships) ÷ (number of structural relationships compared) Equation (9)

類似性判定手段104は、式(9)を用いて算出した類似度が所定の閾値以上であるか否かを判定する(ステップS704f)。類似度が所定の閾値以上であれば、類似性判定手段104は、各同義表現候補が類似であると判定し、同義表現であると判定する。そして、類似性判定手段104は、類似文章対から同義表現として抽出する(ステップS704g)。類似度が所定の閾値以上でなければ、次の類似文章対があれば、次の類似文章対に対する同義表現抽出処理に移行する(ステップS704h)。   The similarity determination unit 104 determines whether or not the similarity calculated using Expression (9) is greater than or equal to a predetermined threshold (step S704f). If the degree of similarity is greater than or equal to a predetermined threshold, the similarity determination unit 104 determines that each synonym expression candidate is similar and determines that it is a synonym expression. And the similarity determination means 104 extracts as a synonymous expression from a similar sentence pair (step S704g). If the similarity is not greater than or equal to the predetermined threshold, if there is a next similar sentence pair, the process proceeds to synonymous expression extraction processing for the next similar sentence pair (step S704h).

図47及び図48に示す例では、「ABC機能」及び「XYZ機能」は、比較構造関係の数が6つ(共通表現構造2つ、相違表現構造4つ)であり、それら全ての構造関係が同一であるため、類似性判定手段104は、類似度を6/6=1.0と求める。また、「ABC機能」及び「可視化診断」は、共通表現構造のみが同一であるため、類似性判定手段104は、類似度を2/6=0.33・・・と求める。例えば、閾値を0.8とすれば、類似性判定手段104は、「ABC機能」と「XYZ機能」とを類似と判断し、同義表現として抽出する。   In the examples shown in FIGS. 47 and 48, the “ABC function” and the “XYZ function” have six comparison structural relationships (two common representation structures and four different representation structures), and all the structural relationships thereof. Are similar to each other, the similarity determination unit 104 obtains the similarity as 6/6 = 1.0. In addition, since “ABC function” and “visualization diagnosis” are the same only in the common expression structure, the similarity determination unit 104 obtains the similarity as 2/6 = 0.33. For example, if the threshold value is 0.8, the similarity determination unit 104 determines that the “ABC function” and the “XYZ function” are similar and extracts them as synonymous expressions.

さらに、類似性判定手段104は、共通表現間の構造関係、及び相違表現と共通表現との間の構造関係の同一性に対して重み付けを行い、重み付き平均を求めることにより、類似度の算出を行ってもよい。この場合、例えば、類似性判定手段104は、式(10)を用いて、重み付き平均を求めて類似度の算出を行う。   Further, the similarity determination unit 104 performs weighting on the structural relationship between the common expressions and the identity of the structural relationship between the different expressions and the common expression, and obtains a weighted average to calculate the similarity. May be performed. In this case, for example, the similarity determination unit 104 calculates the degree of similarity by obtaining a weighted average using Equation (10).

類似度=w×(共通表現構造の類似度)+(1−w)×(相違表現構造の類似度)
式(10)
Similarity = w × (similarity of common expression structure) + (1−w) × (similarity of different expression structure)
Formula (10)

ただし、類似性判定手段104は、式(10)を用いて類似度を求める際に、共通表現構造及び相違表現構造の類似度を、それぞれ式(11)及び式(12)を用いて求める。   However, the similarity determination unit 104 obtains the similarity of the common expression structure and the different expression structure using the expressions (11) and (12), respectively, when the similarity is obtained using the expression (10).

(共通表現構造の類似度)=(共通表現構造の同一数)÷(比較した共通表現構造の数)
式(11)
(Similarity of common expression structures) = (same number of common expression structures) ÷ (number of common expression structures compared)
Formula (11)

(相違表現構造の類似度)=(相違表現構造の同一数)÷(比較した相違表現構造の数)
式(12)
(Similarity of difference representation structures) = (same number of difference representation structures) ÷ (number of difference representation structures compared)
Formula (12)

式(10)において、wは、類似文章対における共通表現間の同一性をどれだけ重視するかを示す重み係数であり、0〜1の値をとる。また、w=(m−1)/(m+1)とすれば、式(10)は式(9)と同等になる。ここで、mは共通表現の数である。すなわち式(10)は式(9)を含む一般式として捉えることができる。また、重み係数wを0.2とすれば、相違表現構造を重視した同義表現抽出を行うこともできる。   In Expression (10), w is a weighting coefficient indicating how much importance is attached to the identity between the common expressions in the similar sentence pair, and takes a value of 0 to 1. Further, if w = (m−1) / (m + 1), Expression (10) is equivalent to Expression (9). Here, m is the number of common expressions. That is, equation (10) can be understood as a general equation including equation (9). If the weighting factor w is 0.2, synonymous expression extraction can be performed with an emphasis on the difference expression structure.

図49は、類似性判定手段104が求めた重み付き平均を用いた類似度の例を示す説明図である。図49は、文章1及び文章2における共通表現構造の類似度及び相違表現構造の類似度を式(11)及び式(12)を用いて算出するとともに、w=0.2にとしたときの類似度を示している。   FIG. 49 is an explanatory diagram showing an example of the degree of similarity using the weighted average obtained by the similarity determination unit 104. FIG. 49 shows a case where the similarity of the common expression structure and the similarity of the difference expression structure in sentence 1 and sentence 2 are calculated using equations (11) and (12) and w = 0.2. The similarity is shown.

なお、類似性判定手段104は、閾値以上となる同義表現候補対が多数ある場合には、類似度が最も高かったものを同義表現として抽出してもよいし、閾値以上のもの全てを同義表現として出力してもよい。また、類似性判定手段104は、類似度上位の所定数の候補のみ同義表現として出力してもよい。   Note that, when there are many synonymous expression candidate pairs that are equal to or greater than the threshold, the similarity determination unit 104 may extract the one having the highest similarity as the synonym expression, or synonymous expressions that are equal to or greater than the threshold. May be output as Further, the similarity determination unit 104 may output only a predetermined number of candidates having higher similarity as synonymous expressions.

さらに、類似性判定手段104は、共通表現間の構造関係が異なる場合、類似文章対において文章の構造が大きく変化していると判断し、同義表現と判断する閾値を変更してもよい。また、類似性判定手段104は、複数の同義表現候補対に対する類似度が求められている場合には、類似度の値の分布によって統計的に類似度間の差が大きい箇所を検出し、閾値を決定してもよい。また、類似する同義表現候補対が存在しない場合においては、図44に示す同一性判定表の「その他」を「○」と変化させた場合における類似度を再度計算し、該同義表現候補対を再計算してもよい。この場合においては、「その他」という構造関係で類似している同義表現の抽出が行える。   Furthermore, when the structural relationship between the common expressions is different, the similarity determination unit 104 may determine that the structure of the sentence has changed greatly in the similar sentence pair, and may change the threshold value for determining the synonymous expression. In addition, the similarity determination unit 104 detects a portion where the difference between the similarities is statistically large based on the distribution of similarity values when the similarity to a plurality of synonym expression candidate pairs is obtained, and a threshold value May be determined. When there is no similar synonym expression candidate pair, the similarity when the “others” in the identity determination table shown in FIG. 44 is changed to “O” is calculated again, and the synonym expression candidate pair is You may recalculate. In this case, synonymous expressions that are similar in the structural relationship of “others” can be extracted.

なお、類似性判定手段104は、一組の類似文章対において共通表現間の構造関係の類似度は一定の値となるため、類似度が最も高いものを同義表現とする場合には、共通表現間の構造関係の類似度は算出する必要はない。   It should be noted that the similarity determination means 104 has a fixed value for the similarity of the structural relationship between the common expressions in a pair of similar text pairs. It is not necessary to calculate the degree of similarity between the structural relationships.

また、出力手段502には、類似性判定手段104の指示に従って、抽出した同義表現だけを出力してもよいし、同義表現とともに同義表現に係る表現を出力してもよい。例えば、類似性判定手段104は、「ABC機能」及び「XYZ機能」という同義表現を抽出した場合において、「XYZ機能」に相違表現「○○社の」という表現が係っていた場合、出力手段502に、「ABC機能」と「○○社のXYZ機能」とを同義表現として出力させてもよい。この場合、類似性判定手段104は、ABC機能を含む文章において○○社という単語が存在している場合には、XYZ機能に係っている「○○社の」を同義表現から除外する処理を行って、出力手段502に出力させてもよい。そのようにすることにより、類似文章対において、比較する文章にない表現で、かつ同義表現に係る表現のみを抽出することができる。   Further, only the extracted synonym expression may be output to the output unit 502 according to the instruction of the similarity determination unit 104, or an expression related to the synonym expression may be output together with the synonym expression. For example, when the similarity determination unit 104 extracts synonymous expressions “ABC function” and “XYZ function” and the expression “XYZ function” is related to the expression “XX company”, the output is output. You may make the means 502 output "ABC function" and "XX company's XYZ function" as synonymous expressions. In this case, the similarity determination unit 104 excludes “XX company's” related to the XYZ function from the synonym expression when the word “XX company” exists in the sentence including the ABC function. May be output to the output unit 502. By doing so, it is possible to extract only expressions related to synonymous expressions that are not included in the sentences to be compared in the similar sentence pair.

出力手段502は、具体的には、ディスプレイ装置等の表示装置によって実現される。出力手段502は、例えば、ディスプレイ装置である場合には、類似性判定手段104の指示に従って、同義表現抽出装置10により抽出された同義表現を表示する。なお、出力手段502は、同義表現の抽出結果をファイルとして出力してもよいし、e−mail(電子メール)等を用いてシステム利用者の端末に通知(送信)してもよい。   Specifically, the output unit 502 is realized by a display device such as a display device. For example, when the output unit 502 is a display device, the synonym expression extracted by the synonym expression extraction device 10 is displayed in accordance with an instruction from the similarity determination unit 104. Note that the output unit 502 may output the extraction result of the synonym expression as a file, or may notify (send) the system user's terminal using e-mail (e-mail) or the like.

図50は、出力手段502が出力する同義表現の出力結果の一例を示す説明図である。出力手段502は、図50に示すように、類似性判定手段104の指示に従って、どのような文章からどのような同義表現が抽出されたかを出力する。図50に示す例では、出力手段502は、文章1と文章2とからABC機能とXYZ機能という同義表現が抽出されたことを出力(表示)している。   FIG. 50 is an explanatory diagram illustrating an example of the output result of the synonym expression output by the output unit 502. As shown in FIG. 50, the output unit 502 outputs what synonym expression is extracted from what sentence according to the instruction of the similarity determination unit 104. In the example shown in FIG. 50, the output unit 502 outputs (displays) that synonymous expressions of ABC function and XYZ function are extracted from sentence 1 and sentence 2.

なお、出力手段502の出力態様は、図50に例示した以外の表示態様でもよい。例えば、図51に示すように、出力手段502は、同義表現の候補を表示し、それら同義表現の候補とともに算出した類似度を表示してもよい。そのように、複数の同義表現の候補を出力(表示)することにより、類似度の多少の差により抽出した同義表現が出力されない等の弊害を避けられる。   The output mode of the output unit 502 may be a display mode other than that illustrated in FIG. For example, as illustrated in FIG. 51, the output unit 502 may display synonym expression candidates and display the similarity calculated together with the synonym expression candidates. As described above, by outputting (displaying) a plurality of candidates for synonymous expressions, it is possible to avoid such an adverse effect that the extracted synonymous expressions are not output due to a slight difference in similarity.

また、本実施の形態において、同義表現抽出システム10を実現する情報処理装置の記憶装置(図示せず)は、類似文章対に含まれる各文章から同義表現を抽出するための各種プログラムを記憶している。例えば、情報処理装置の記憶装置は、コンピュータに、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する同義表現抽出処理を実行させるための同義表現抽出用プログラムを記憶している。   In the present embodiment, the storage device (not shown) of the information processing apparatus that implements the synonymous expression extraction system 10 stores various programs for extracting synonymous expressions from each sentence included in the similar sentence pair. ing. For example, the storage device of the information processing apparatus has a computer in which a common expression group commonly included in each sentence of a similar sentence pair has a similar relative positional relationship in the sentence structure of each sentence, and the similar sentence pair Execute synonymous expression extraction processing to extract synonymous expressions from pairs of similar sentences based on the fact that the difference expression group and common expression group that differ between the two sentences are in a similar relative positional relationship in the sentence structure of each sentence A synonym expression extraction program for storing the same is stored.

以上のように、本実施の形態によれば、類似文章対に含まれる共通表現構造の類似度等の情報に基づいて類似文章対の文法的類似性を推定し、類似文章対から同義表現を抽出できる。すなわち、本実施の形態では、同義表現抽出システム10は、相違表現の類似度だけに基づいて同義表現であるか否かを判断するのではなく、類似文章対に含まれる共通表現と相違表現との両方の構造関係に基づいて、同義表現であるか否かを判断する。従って、事前に特殊な文法規則を設けることなく、類似文章対から同義表現を抽出することができる。   As described above, according to the present embodiment, the grammatical similarity of a similar sentence pair is estimated based on information such as the similarity of the common expression structure included in the similar sentence pair, and the synonym expression is obtained from the similar sentence pair. Can be extracted. In other words, in the present embodiment, the synonym expression extraction system 10 does not determine whether or not the synonym expression is based on only the similarity of the difference expressions, but the common expression and the difference expression included in the similar sentence pair. Based on both structural relationships, it is determined whether or not the expression is synonymous. Therefore, synonymous expressions can be extracted from similar sentence pairs without providing special grammar rules in advance.

図52は、同義表現抽出システム10が同義表現を抽出できる原理を示す説明図である。本実施の形態では、図62に示す従来の同義表現抽出方法と同様に、同一のマーカー語(701a,901a)が存在し、かつ、マーカー語(701a,901a)と同義表現候補(701b、901b)との関係(701c,901c)が類似していれば、その同義表現候補を同義表現とする。また、図62に示す従来の同義表現抽出方法との違いは、本実施の形態では、同義表現抽出システム10は、類似文章対において共通するマーカー語間の関係(701d,901d)の同一性を評価する。そして、同義表現抽出システム10は、共通するマーカー語(701a,901a)が類似する関係であれば、類似文章対の文法や語順の規則性等が類似していると判断する。   FIG. 52 is an explanatory diagram showing the principle by which the synonym expression extraction system 10 can extract synonym expressions. In the present embodiment, similar to the conventional synonymous expression extraction method shown in FIG. 62, the same marker word (701a, 901a) exists, and the synonymous expression candidate (701b, 901b) matches the marker word (701a, 901a). If the relationship (701c, 901c) is similar, the synonym expression candidate is set as a synonym expression. Also, the difference from the conventional synonym expression extraction method shown in FIG. 62 is that, in this embodiment, the synonym expression extraction system 10 determines the identity of the relationships (701d, 901d) between the marker words that are common to similar sentence pairs. evaluate. Then, the synonym expression extraction system 10 determines that the grammar of the similar sentence pair, the regularity of the word order, and the like are similar if the common marker words (701a, 901a) are similar.

上記のようにすることにより、類似文章対において、事前に明示的な文法制約を決めておくことを必要とせずに、高精度に同義表現を抽出することができる。また、類似文章間で語順が異なる場合や、類似表現が文章中に部分的に含まれる場合、用言がとる格が異なる場合であっても、同義表現を抽出することができる。   By doing as described above, synonymous expressions can be extracted with high accuracy without requiring explicit grammatical constraints in advance for similar sentence pairs. In addition, synonymous expressions can be extracted even when the word order is different between similar sentences, when similar expressions are partially included in the sentences, or when the predicates differ.

また、本実施の形態によれば、係り受け解析等に利用する一般的な辞書以外の辞書を用いずに同義表現を抽出できる。そのため、特別な辞書を準備したり記号表現を利用することなく、類似文章対を効率的に抽出できる。   Further, according to the present embodiment, synonymous expressions can be extracted without using a dictionary other than a general dictionary used for dependency analysis. Therefore, similar sentence pairs can be efficiently extracted without preparing a special dictionary or using symbolic expressions.

さらに、本実施の形態によれば、上記に示したように、多量の類似文章対を必要としない同義表現抽出の原理に従って、同義表現を抽出する。そのため、少数の類似文章対からであっても、高精度に同義表現を抽出することができる。   Furthermore, according to the present embodiment, as described above, synonym expressions are extracted according to the principle of synonym expression extraction that does not require a large number of similar sentence pairs. Therefore, even from a small number of similar sentence pairs, synonymous expressions can be extracted with high accuracy.

実施の形態6.
次に、本発明の第6の実施の形態を図面を参照して説明する。図53は、第6の実施の形態における同義表現抽出システムの構成例を示すブロック図である。図53に示すように、本実施の形態では、図31に示した構成要素に加えて、文章整形手段105を含む点で、第5の実施の形態と異なる。
Embodiment 6 FIG.
Next, a sixth embodiment of the present invention will be described with reference to the drawings. FIG. 53 is a block diagram illustrating a configuration example of the synonymous expression extraction system according to the sixth embodiment. As shown in FIG. 53, the present embodiment is different from the fifth embodiment in that it includes a sentence shaping means 105 in addition to the components shown in FIG.

文章整形手段105は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。文章整形手段105は、類似文章対データベース501から類似文章対を取得(抽出)する。また、文章整形手段105は、抽出した類似文章対に対して、係り受け構造が変化する表記の差異を予め整形し、整形文章を係り受け解析手段101に出力する。   Specifically, the text shaping unit 105 is realized by a CPU of an information processing apparatus that operates according to a program. The text shaping unit 105 acquires (extracts) a similar text pair from the similar text pair database 501. In addition, the sentence shaping unit 105 shapes in advance a difference in notation that changes the dependency structure for the extracted similar sentence pair, and outputs the shaped sentence to the dependency analysis unit 101.

本実施の形態では、表記の差異を事前に整形しておくことにより、類似文章対から類似する係り受け構造を特定できるようになり、同義表現の抽出精度を向上させることができる。すなわち、本実施の形態では、類似文章を予め所定の文法則に従って変換しておくことによって、文章の係り受け構造を特定しやすくし、同義表現の抽出精度を向上させている。   In this embodiment, by shaping the difference in notation in advance, a similar dependency structure can be identified from a pair of similar sentences, and the extraction accuracy of the synonymous expression can be improved. That is, in this embodiment, similar sentences are converted in advance according to a predetermined grammatical rule, so that the dependency structure of sentences can be easily specified, and the synonymous expression extraction accuracy is improved.

構造を類似させる文法規則の一例として、文章整形手段105は、例えば、「(名詞)を(サ変接続の名詞)する」を「(名詞)の(サ変接続の名詞)をする」に変換する処理を行う。サ変接続の名詞とは、「抽出する」や「獲得された」等、直後に「する」「される」等の単語を伴い、動詞のように扱われる単語である。   As an example of a grammatical rule that makes the structures similar, the sentence shaping unit 105 converts, for example, “(noun) (noun of sa-changing connection)” to “doing (noun) (noun of sa-changing connection)”. I do. The noun of the S-variable connection is a word that is treated like a verb, accompanied by words such as “to be extracted” or “acquired”, and immediately following “to do” or “to be done”.

図54は、サ変接続の名詞を含む例文を示す説明図である。図54に示す例では、文章5に含まれるPQR機能と文章6に含まれるSTU機能とが同義表現であるとする。また、図55は、図54に示す文章5と文章7とに係り受け解析を適用した結果を示す説明図である。図55(a),(b)に示すように、文章5と文章6とは類似した文章であるが、サ変名詞の動詞化により係り受け解析の構造が変化していることがわかる。そこで、文章整形手段105は、文章5に対して、上記した変換規則を適用して文法側の変換を行い、図54に示す文章5'のように変換する。そして、係り受け解析手段101は、文章整形手段105が変換した文章に対して、係り受け解析を実行し、図55(c)に示すような木構造を求める。文章整形手段105による文法側の変換により、文章5の係り受け構造を文章7と同等にすることができ、同義表現の抽出の精度を向上させることができる。   FIG. 54 is an explanatory diagram showing an example sentence including a noun of a change connection. In the example shown in FIG. 54, it is assumed that the PQR function included in the sentence 5 and the STU function included in the sentence 6 are synonymous expressions. FIG. 55 is an explanatory diagram showing a result of applying dependency analysis to the sentences 5 and 7 shown in FIG. As shown in FIGS. 55 (a) and 55 (b), the sentence 5 and the sentence 6 are similar sentences, but it can be seen that the structure of the dependency analysis is changed due to the verbalization of the sa variable noun. Therefore, the sentence shaping unit 105 converts the grammar side of the sentence 5 by applying the above-described conversion rules, and converts the sentence 5 as shown in FIG. Then, the dependency analysis unit 101 performs dependency analysis on the text converted by the text shaping unit 105 to obtain a tree structure as shown in FIG. By the conversion on the grammar side by the sentence shaping unit 105, the dependency structure of the sentence 5 can be made equivalent to that of the sentence 7, and the accuracy of extracting synonymous expressions can be improved.

なお、本実施の形態で示した変換規則は一例であり、文章整形手段105は、係り受け解析による文章構造が類似するような変換規則を予め用意しておくほど、同義表現抽出の精度を高めることができる。   The conversion rule shown in the present embodiment is an example, and the sentence shaping unit 105 increases the accuracy of synonymous expression extraction as the conversion rule having a similar sentence structure by dependency analysis is prepared in advance. be able to.

実施の形態7.
次に、本発明の第7の実施の形態を図面を参照して説明する。図56は、第7の実施の形態における同義表現抽出システム10の構成例を示すブロック図である。図56に示すように、本実施の形態では、図31に示した構成要素に加えて、類似度表データベース106、類似基準補正手段107及び入力手段503を含む点で、第5の実施の形態と異なる。
Embodiment 7 FIG.
Next, a seventh embodiment of the present invention will be described with reference to the drawings. FIG. 56 is a block diagram illustrating a configuration example of the synonymous expression extraction system 10 according to the seventh embodiment. As shown in FIG. 56, the fifth embodiment is different from the fifth embodiment in that, in addition to the components shown in FIG. 31, the similarity table database 106, the similarity reference correction means 107, and the input means 503 are included. And different.

類似度表データベース106は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。類似度表データベース106は、各同義表現候補対に対する共通表現構造の類似度と、相違表現構造の類似度と、システム利用者によって入力される同義表現の正誤判定の内容とを記憶する。   Specifically, the similarity table database 106 is realized by a database device such as a magnetic disk device or an optical disk device. The similarity table database 106 stores the similarity of the common expression structure for each synonym expression candidate pair, the similarity of the difference expression structure, and the content of the correctness determination of the synonym expression input by the system user.

類似基準補正手段107は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。類似基準補正手段107は、類似文章対における相違表現の類似類性の判定基準を動的に変化させる機能を備える。   Specifically, the similarity reference correction unit 107 is realized by a CPU of an information processing apparatus that operates according to a program. The similarity criterion correction unit 107 has a function of dynamically changing the criterion for determining the similarity of different expressions in similar sentence pairs.

入力手段503は、具体的には、キーボードやマウス等の入力装置によって実現される。   Specifically, the input unit 503 is realized by an input device such as a keyboard or a mouse.

本実施の形態では、出力手段502は、類似性判定手段104の指示に従って、抽出した同義表現を出力する際に、出力した結果が真の同義表現であるか否かをシステム利用者が入力できるような態様で同義表現を出力(表示)する。   In the present embodiment, when the output unit 502 outputs the extracted synonym expression according to the instruction of the similarity determination unit 104, the system user can input whether or not the output result is a true synonym expression. In this manner, synonymous expressions are output (displayed).

出力手段502は、例えば、図57に示すような出力の様態で同義表現を出力(表示)する。図57に示す例では、出力手段502は、類似文章対において、同義表現候補対を類似度とともに表示している。また、図57において、右下の「判定」欄728は、同義表現として正しいか否かを入力する欄を表している。例えば、ユーザは、図57に示す表示画面の「判定」欄728から○又は×を入力操作することによって、出力された同義表現が正しいか誤っているかを入力指示する。   For example, the output unit 502 outputs (displays) the synonymous expression in an output mode as shown in FIG. In the example shown in FIG. 57, the output unit 502 displays the synonymous expression candidate pair together with the similarity in the similar sentence pair. In FIG. 57, a “judgment” column 728 in the lower right represents a column for inputting whether or not the synonym expression is correct. For example, the user instructs to input whether the output synonymous expression is correct or incorrect by performing an input operation of “◯” or “X” from the “determination” column 728 of the display screen shown in FIG.

なお、図57に示す例では、正誤を表現するのに○または×を入力できるフォームが用意されている場合を示しているが、本実施の形態で示したものに限らず、正しい同義表現を選択できるようにラジオボタンを含む表示画面を出力(表示)してもよい。また、例えば、表示画面から同義表現の出力結果の正誤を文字として入力できるようにしてもよい。   In the example shown in FIG. 57, a case is shown in which a form that can input ○ or × is prepared to express correctness. However, the form is not limited to that shown in the present embodiment, and correct synonymous expressions are used. A display screen including radio buttons may be output (displayed) so that selection can be made. In addition, for example, the correctness of the output result of the synonym expression may be input as characters from the display screen.

入力手段503は、システム利用者の入力操作に従って、相違表現対に対する正誤の判定内容を入力し、同義表現抽出システム10に出力する。本実施の形態では、入力手段503として、例えば、キーボードやマウス等の入力デバイスを用いる。図57に示す例では、入力手段503は、○又は×の情報を同義表現の判定内容として入力し、同義表現抽出システム10に出力する。なお、入力手段503は、システム利用者の操作に従って、類似性に対して数値等を入力することによって、同義表現の抽出結果を評価してもよい。また、入力手段503は、数値を入力するときに段階評価で入力してもよいし、連続値で入力してもよい。   The input unit 503 inputs the correct / incorrect determination contents for the difference expression pair according to the input operation of the system user, and outputs them to the synonym expression extraction system 10. In this embodiment, as the input unit 503, for example, an input device such as a keyboard or a mouse is used. In the example shown in FIG. 57, the input unit 503 inputs the information of “◯” or “X” as the determination content of the synonym expression and outputs it to the synonym expression extraction system 10. Note that the input unit 503 may evaluate the extraction result of the synonymous expression by inputting a numerical value or the like for the similarity according to the operation of the system user. Moreover, the input means 503 may input by a numerical evaluation when inputting a numerical value, and may input by a continuous value.

類似度表データベース106は、各同義表現候補対に対する共通表現構造の類似度と、相違表現構造の類似度と、システム利用者によって入力される同義表現の正誤判定内容とを類似度表として記憶する。図58は、類似度表データベース106が記憶する類似度表の例を示す説明図である。類似度表は、類似文章対における共通表現構造の類似度、相違表現構造の類似度、及びシステム利用者により入力された同義表現の判定情報をまとめた表(テーブル)である。   The similarity table database 106 stores the similarity of the common expression structure, the similarity of the difference expression structure, and the correctness determination contents of the synonym expression input by the system user as a similarity table. . FIG. 58 is an explanatory diagram showing an example of a similarity table stored in the similarity table database 106. The similarity table is a table (table) that summarizes the similarity of the common expression structure, the similarity of the difference expression structure, and the determination information of the synonym expression input by the system user in the similar sentence pair.

類似性判定手段104は、i番目の同義表現候補対に対する共通表現構造の類似度をaiとし、相違表現構造の類似度をbiとすると、共通表現構造の類似度及び相違表現構造の類似度を、第5の実施の形態で示した式(11)及び式(12)を用いてそれぞれ算出すればよい。   The similarity determination unit 104 sets the similarity of the common expression structure to the i-th synonym expression candidate pair as ai, and the similarity of the different expression structure as bi. What is necessary is just to calculate using Formula (11) and Formula (12) shown in 5th Embodiment, respectively.

類似基準補正手段107は、類似度表データベース106に記憶されている情報に基づいて、第5の実施の形態で示した類似度算出用の式(10)で用いる重み係数wを推定し、推定した重み係数を類似性判定手段104に出力する。wは共通表現構造の類似度(ai)と相違表現構造の類似度(bi)とのどちらを重視するかを決定するための値である。   Based on the information stored in the similarity table database 106, the similarity criterion correction unit 107 estimates the weighting factor w used in the similarity calculation formula (10) shown in the fifth embodiment, and estimates The weighting factor is output to the similarity determination unit 104. w is a value for determining which of the similarity (ai) of the common expression structure and the similarity (bi) of the different expression structure is to be emphasized.

類似基準補正手段107が重み係数wを補正する処理の一例を以下に示す。判定内容が○および×の2値で与えられている場合、×を0とし、○を1として処理を行う。また、判定内容が段階評価や連続値等の数値データで与えられている場合には、それらを0〜1に規格化した値を用いて処理を行う。   An example of a process in which the similarity reference correction unit 107 corrects the weighting coefficient w is shown below. When the determination content is given by binary values of ◯ and ×, the processing is performed with x as 0 and ◯ as 1. Further, when the determination content is given as numerical data such as step evaluation or continuous value, the processing is performed using values normalized to 0 to 1.

類似基準補正手段107は、判定内容を規格化した値として、例えば、判定情報の最大値と最小値とを求めた後、式(11)を適用して、式(11)’を用いて算出すればよい。   The similarity reference correcting unit 107 calculates, for example, the maximum value and the minimum value of the determination information as values obtained by standardizing the determination contents, and then applies the equation (11) and calculates the equation (11) ′. do it.

(規格化された判定値)=(判定−最小値)/(最大値−最小値) 式(11)’ (Standardized judgment value) = (judgment−minimum value) / (maximum value−minimum value) Expression (11) ′

なお、式(11)’を用いた規格化済みの判定値をtiとする。   Note that a standardized determination value using the equation (11) ′ is ti.

図59は、図58に示した類似度表における判定内容を数値化した表を示す説明図である。なお、図59における同義表現候補対の個数をnとする。この場合、類似基準補正手段107は、tiと、式(10)を用いて算出される同義表現候補対の類似度w×ai+(1−w)×biとの差が小さくなるwを推定する。具体的には、類似基準補正手段107は、式(10)のw×ai+(1−w)×biとtiとの差をeiとしたときに、式(13)に示すEを最も小さくするwを求める。   FIG. 59 is an explanatory diagram showing a table in which the determination contents in the similarity table shown in FIG. 58 are quantified. Note that n is the number of synonymous expression candidate pairs in FIG. In this case, the similarity criterion correcting unit 107 estimates w where the difference between ti and the similarity w × ai + (1−w) × bi of the synonym candidate pair calculated using Expression (10) is small. . Specifically, the similarity criterion correction unit 107 minimizes E shown in the equation (13) when the difference between w × ai + (1−w) × bi and ti in the equation (10) is ei. Find w.

E=Σei×ei 式(13) E = Σei × ei Formula (13)

なお、式(13)において、Σはiを1〜nまで変更したときの総和を表す記号である。また、文章整形手段105は、式(13)をwに関して微分し、微分式を0とすることにより、式(14)式を求める。   In equation (13), Σ is a symbol representing the sum when i is changed from 1 to n. Further, the text shaping unit 105 obtains the formula (14) by differentiating the formula (13) with respect to w and setting the differential formula to 0.

w=Σ(ti−bi)(ai−bi)/Σ(ai−bi)(ai−bi) 式(14) w = Σ (ti−bi) (ai−bi) / Σ (ai−bi) (ai−bi) Equation (14)

文章整形手段105は、式(14)を用いてEを最小にするwを求める。   The text shaping unit 105 obtains w that minimizes E using Expression (14).

以下、wの補正方法について具体例を用いて説明する。図60は、4つの同義表現候補対を含む類似度表における判定内容を数値化した表を示す説明図である。図60において、真の同義表現は「ABC機能」及び「XYZ機能」と「PQR機能」及び「ABC機能」であるとする。   Hereinafter, the correction method of w will be described using a specific example. FIG. 60 is an explanatory diagram showing a table in which determination contents in a similarity table including four synonymous expression candidate pairs are digitized. In FIG. 60, it is assumed that true synonymous expressions are “ABC function”, “XYZ function”, “PQR function”, and “ABC function”.

また、式(10)を用いて同義表現の抽出を行う場合において、重み係数wを0.8と設定し、同義表現とするか否かを判定するための類似度の閾値を0.8と設定したとする。図60に示す「類似度」は、類似性判定手段104が式(10)を用いて算出した各同義表現候補の類似度を示している。また、図60に示す例において、類似性判定手段104は、網掛けで示した類似度に対応する「ABC機能」及び「XYZ機能」と、「ABC機能」及び「可視化診断」と、「PQR機能」及び「ABC機能」とを同義表現として抽出する。すなわち、図60に示す例では、類似性判定手段104は、「ABC機能」及び「可視化診断」の組を誤って同義表現として抽出している。   In addition, when synonym expression extraction is performed using Expression (10), the weighting factor w is set to 0.8, and the similarity threshold for determining whether or not to use synonym expression is 0.8. Suppose that it is set. The “similarity” shown in FIG. 60 indicates the similarity of each synonym expression candidate calculated by the similarity determination unit 104 using equation (10). In addition, in the example shown in FIG. 60, the similarity determination unit 104 performs “ABC function” and “XYZ function”, “ABC function”, “visualization diagnosis”, and “PQR” corresponding to the similarity indicated by shading. “Function” and “ABC function” are extracted as synonymous expressions. That is, in the example shown in FIG. 60, the similarity determination unit 104 erroneously extracts a set of “ABC function” and “visualization diagnosis” as a synonymous expression.

図60に示す例において、同義表現抽出システム10は、システム利用者の入力操作に従って、図60の最右列に示すように、同義表現の抽出結果に対する判定内容を入力する。すると、類似基準補正手段107は、式(14)を用いて、重み係数wの補正値を約0.17と算出する。   In the example shown in FIG. 60, the synonym expression extraction system 10 inputs the determination content for the extraction result of the synonym expression as shown in the rightmost column of FIG. 60 according to the input operation of the system user. Then, the similarity criterion correction unit 107 calculates the correction value of the weighting coefficient w as about 0.17 using the equation (14).

次に、類似性判定手段104は、補正後の重み係数w=0.17を用いて、各同義表現候補の類似度を算出しなおす。図61は、w=0.17としたときの各同義表現候補の類似度の算出結果を示す説明図である。   Next, the similarity determination unit 104 recalculates the similarity of each synonym expression candidate using the corrected weight coefficient w = 0.17. FIG. 61 is an explanatory diagram showing the calculation result of the similarity of each synonym expression candidate when w = 0.17.

上記の処理により、類似度を平均的に判定値(ti)に近づけることができ、例えば、図61に示す例では、「ABC機能」及び「XYZ機能」と「PQR機能」及び「ABC機能」のみが閾値以上の類似度を有するように重み係数wの値を補正できている。従って、本実施の形態によれば、上記のような処理に従って、重み係数wの値を推定できるので、同義表現抽出の精度を高めることができる。   By the above processing, the similarity can be averaged close to the determination value (ti). For example, in the example shown in FIG. 61, “ABC function”, “XYZ function”, “PQR function”, and “ABC function”. The value of the weighting factor w can be corrected so that only the image has a similarity degree equal to or greater than the threshold. Therefore, according to the present embodiment, the value of the weighting factor w can be estimated according to the above-described processing, and therefore the accuracy of synonymous expression extraction can be increased.

なお、式(14)を用いて重み係数wの補正を行う場合を示したが、本実施の形態で示した補正方法は、同義表現を抽出する類似性判定の基準として式(10)を用いた場合の一例であり、重み係数wの補正方法として他の方法を用いてもよい。例えば、類似基準補正手段107は、類似性判定の基準として式(10)式以外の算出式を用いる場合には、その算出式にあわせた補正機能を設定すればよい。   Although the case where the weighting factor w is corrected using the equation (14) is shown, the correction method shown in the present embodiment uses the equation (10) as a criterion for similarity determination for extracting synonymous expressions. In this case, another method may be used as a method of correcting the weighting factor w. For example, when using a calculation expression other than the expression (10) as the similarity determination reference, the similarity reference correction unit 107 may set a correction function according to the calculation expression.

又、式(14)に示したように一意に補正量を求めるのではなく、類似基準補正手段107は、重み係数wを徐々に変更していくようにしてもよい。例えば、類似基準補正手段107は、現在の重み係数をwとし、新しく推定される重み係数をw_newとする場合、設定する重み係数を(w+w_new)/2として求める等の方法を用いて、重み係数wの値を補正してもよい。   In addition, the similarity reference correction unit 107 may gradually change the weighting coefficient w instead of obtaining the correction amount uniquely as shown in the equation (14). For example, when the current weighting factor is w and the newly estimated weighting factor is w_new, the similarity criterion correcting unit 107 uses a method such as obtaining the weighting factor to be set as (w + w_new) / 2. The value of w may be corrected.

また、本実施の形態で示した同義表現抽出システム10の構成に、さらに、第6の実施の形態で示した文章整形手段105を含むように構成してもよい。そのように構成すれば、より高精度に同義表現を抽出することができる。   The synonymous expression extraction system 10 shown in the present embodiment may further include the text shaping unit 105 shown in the sixth embodiment. If comprised in that way, a synonymous expression can be extracted more accurately.

本発明は、表現統一化システムを有するプロジェクト・マネジメント支援用ツールやグループウェア等の用途に好適に適用される。また、本発明は、情報検索や文書作成支援等を行う装置や、情報検索や文書作成支援等を実現するためのプログラムに好適に適用される。   The present invention is suitably applied to uses such as a project management support tool and groupware having an expression unification system. Further, the present invention is suitably applied to a device for performing information retrieval and document creation support, and a program for realizing information retrieval and document creation support.

本発明による文書参照関係抽出システムを用いた表現統一システムの構成の一例を示すブロック図である。It is a block diagram which shows an example of a structure of the expression unification system using the document reference relationship extraction system by this invention. 組織情報の一例を示す説明図である。It is explanatory drawing which shows an example of organization information. コミュニケーション計画の一例を示す説明図である。It is explanatory drawing which shows an example of a communication plan. 伝達文書情報の一例を示す説明図である。It is explanatory drawing which shows an example of transmission document information. コミュニケーション計画を展開した例を示す説明図である。It is explanatory drawing which shows the example which expand | deployed the communication plan. 図3に示すコミュニケーション計画における文書伝達を模式的にネットワークとして表した説明図である。It is explanatory drawing which represented typically the document transmission in the communication plan shown in FIG. 3 as a network. 非参照関係抽出手段が作成する計画表の一般例を示す説明図である。It is explanatory drawing which shows the general example of the plan table which a non-reference relationship extraction means produces. 非参照関係抽出手段が図3に示すコミュニケーション計画に基づいて実際に作成した計画表及び非参照関係表を示す説明図である。It is explanatory drawing which shows the plan table and non-reference relationship table which the non-reference relationship extraction means actually created based on the communication plan shown in FIG. 階層構造特定手段が文書伝達の階層構造を特定する処理のアルゴリズムの一例を示す説明図である。It is explanatory drawing which shows an example of the algorithm of the process in which a hierarchical structure specification means specifies the hierarchical structure of document transmission. 階層構造特定手段が作成する伝達表の一般例を示す説明図である。It is explanatory drawing which shows the general example of the transmission table which a hierarchical structure specification means produces. 階層構造特定手段が図4に示す伝達文書情報に基づいて実際に作成した5つの伝達表、及び伝達表から階層構造を特定する例を示す説明図である。FIG. 5 is an explanatory view showing five transmission tables actually created based on transmission document information shown in FIG. 4 by a hierarchical structure specifying unit and an example of specifying a hierarchical structure from the transmission table. 図9に示す処理に従って、階層構造特定手段が図4に示す伝達文書情報から特定した文書伝達の階層構造を示す説明図である。FIG. 10 is an explanatory diagram showing a hierarchical structure of document transmission specified by the hierarchical structure specifying unit from the transmission document information shown in FIG. 4 according to the processing shown in FIG. 9. 図4に示す伝達文書情報における文書伝達の末端者の一人であるメンバM6から文書伝達の開始者までのトレースを行う処理の過程を示す説明図である。FIG. 5 is an explanatory diagram illustrating a process of performing a trace from a member M6, which is one of the end persons of document transfer, to the start of document transfer in the transfer document information illustrated in FIG. 4; 同義表現データベースが記憶する同義表現の記憶形式の一例を示す説明図である。It is explanatory drawing which shows an example of the memory | storage format of a synonym expression which a synonym expression database memorize | stores. 出力手段が出力する同義表現の抽出結果の一例を示す説明図である。It is explanatory drawing which shows an example of the extraction result of the synonymous expression which an output means outputs. 文書伝達の階層構造を特定し伝達文書の表現を統一する処理の一例を示すフローチャートである。It is a flowchart which shows an example of the process which specifies the hierarchical structure of document transmission and unifies the expression of a transmission document. 第2の実施の形態における文書参照関係抽出システムを用いた表現統一システムの構成例を示すブロック図である。It is a block diagram which shows the structural example of the expression unification system using the document reference relationship extraction system in 2nd Embodiment. 同義表現を修正する処理の一例を示すフローチャートである。It is a flowchart which shows an example of the process which corrects synonymous expression. 同義表現の修正案を入力するフォーム(表示画面)の例を示す説明図である。It is explanatory drawing which shows the example of the form (display screen) which inputs the correction proposal of synonymous expression. 修正候補の表示と修正への同意を入力するフォーム(表示画面)の例を示す説明図である。It is explanatory drawing which shows the example of the form (display screen) which inputs the display of a correction candidate, and consent to correction. 同義表現の修正を行ったことを通知する表示方法(メッセージ)の例を示す説明図である。It is explanatory drawing which shows the example of the display method (message) which notifies that correction of synonymous expression was performed. 第3の実施の形態における文書参照関係抽出システムを用いた表現統一システムの構成例を示すブロック図である。It is a block diagram which shows the structural example of the expression unification system using the document reference relationship extraction system in 3rd Embodiment. 予め計画された文書伝達の階層構造を特定し、同義表現の発生傾向を提示する処理の一例を示すフローチャートである。It is a flowchart which shows an example of the process which identifies the hierarchical structure of document transmission planned beforehand and shows the generation | occurrence | production tendency of synonymous expression. 非参照関係抽出手段が図3に示すコミュニケーション計画に基づいて作成された2つの計画表、及び計画表から文書伝達の階層構造を特定する過程の例を示す説明図である。It is explanatory drawing which shows the example of the process in which the non-reference relationship extraction means specifies the hierarchical structure of document transmission from two plan tables created based on the communication plan shown in FIG. 3, and a plan table. コミュニケーション計画から特定した文書伝達の階層構造の例を示す説明図である。It is explanatory drawing which shows the example of the hierarchical structure of the document transmission identified from the communication plan. 同義表現使用回数表の出力形式の例を示す説明図である。It is explanatory drawing which shows the example of the output format of a synonymous expression use frequency table. 同義表現の使用回数を文書伝達の階層構造とともに出力した例を示す説明図である。It is explanatory drawing which shows the example which output the usage count of synonymous expression with the hierarchical structure of document transmission. 第4の実施の形態における文書参照関係抽出システムを用いた文書伝達評価システムの構成例を示すブロック図である。It is a block diagram which shows the structural example of the document transmission evaluation system using the document reference relationship extraction system in 4th Embodiment. 差分表の例を示す説明図である。It is explanatory drawing which shows the example of a difference table. 伝達文書のコミュニケーション計画と伝達文書情報との差を出力した例を示す説明図である。It is explanatory drawing which shows the example which output the difference between the communication plan of a transmission document, and transmission document information. 本発明による文書参照関係抽出システムや、表現統一化システム、文書伝達評価システムを適用した同義表現抽出システムの構成の一例を示すブロック図である。It is a block diagram which shows an example of a structure of the synonymous expression extraction system to which the document reference relationship extraction system by this invention, an expression unification system, and a document transmission evaluation system are applied. 同義表現抽出システム10が同義表現を抽出処理の一例を示すフローチャートである。It is a flowchart which shows an example of a synonym expression extraction system 10 extraction process of a synonym expression. 類似文章対データベースが記憶する類似文章対の例を示す説明図である。It is explanatory drawing which shows the example of the similar sentence pair which a similar sentence pair database memorize | stores. 係り受け解析の解析結果の例を示す説明図である。It is explanatory drawing which shows the example of the analysis result of dependency analysis. 係り受け解析手段が記録媒体に記憶させる文節と形態素間の関係の情報のデータ形式の例を示す説明図である。It is explanatory drawing which shows the example of the data format of the information of the relationship between the clause and morpheme which a dependency analysis means memorize | stores in a recording medium. 係り受け表の例を示す説明図である。It is explanatory drawing which shows the example of a dependency table. 構造関係の定義の例を示す説明図である。It is explanatory drawing which shows the example of a definition of structural relationship. 構造関係特定表の例を示す説明図である。It is explanatory drawing which shows the example of a structural relationship specific table. 構造関係特定表を生成方法を示す説明図である。It is explanatory drawing which shows the production | generation method of a structural relationship specific table. 文章1に対して特定された構造関係の例を示す説明図である。It is explanatory drawing which shows the example of the structural relationship specified with respect to the sentence 1. FIG. 文章2に対して特定された構造関係の例を示す説明図である。It is explanatory drawing which shows the example of the structural relationship specified with respect to the text 2. FIG. 比較構造関係の例を示す説明図である。It is explanatory drawing which shows the example of a comparison structure relationship. 文章1と文章2とにおける比較構造関係の例を示す説明図である。It is explanatory drawing which shows the example of the comparison structure relationship in the text 1 and the text 2. FIG. 類似文章対における構造関係の同一性判定表の例を示す説明図である。It is explanatory drawing which shows the example of the identity determination table | surface of the structural relationship in a similar sentence pair. 類似文章対の他の例を示す説明図である。It is explanatory drawing which shows the other example of a similar sentence pair. 文章3及び文章4に対する係り受け構造を示す説明図である。It is explanatory drawing which shows the dependency structure with respect to the text 3 and the text 4. FIG. 類似文章対における構造関係の同一性の例を示す説明図である。It is explanatory drawing which shows the example of the identity of the structural relationship in a similar sentence pair. 類似文章対における構造関係の同一性の例を示す説明図である。It is explanatory drawing which shows the example of the identity of the structural relationship in a similar sentence pair. 類似性判定手段104が求めた重み付き平均を用いた類似度計算の例を示す説明図である。It is explanatory drawing which shows the example of the similarity calculation using the weighted average which the similarity determination means 104 calculated | required. 同義表現の出力例を示す説明図である。It is explanatory drawing which shows the example of an output of synonymous expression. 同義表現の他の出力例を示す説明図である。It is explanatory drawing which shows the other output example of synonymous expression. 同義表現抽出の原理を示す説明図である。It is explanatory drawing which shows the principle of synonymous expression extraction. 第6の実施の形態における同義表現抽出システムの構成例を示すブロック図である。It is a block diagram which shows the structural example of the synonymous expression extraction system in 6th Embodiment. 文章整形の例を示す説明図である。It is explanatory drawing which shows the example of text shaping. 文章整形前後の係り受け構造の例を示す説明図である。It is explanatory drawing which shows the example of the dependency structure before and behind text shaping. 第7の実施の形態における同義表現抽出システムの構成例を示すブロック図である。It is a block diagram which shows the structural example of the synonymous expression extraction system in 7th Embodiment. 抽出した同義表現の正誤を入力できる出力例を示す説明図である。It is explanatory drawing which shows the example of an output which can input the correctness of the extracted synonymous expression. 類似度表データベース106が記憶する類似基準を調整するために用いる類似度表を示す説明図である。It is explanatory drawing which shows the similarity table used in order to adjust the similarity standard which the similarity table database 106 memorize | stores. 図58に示したシステム利用者による同義表現の正誤の判定内容を数値化にした類似度表を示す説明図である。It is explanatory drawing which shows the similarity table which digitized the determination content of the synonymous expression right / wrong by the system user shown in FIG. 同義表現抽出の式の重み係数、閾値及び類似度の関係を示す説明図である。It is explanatory drawing which shows the relationship between the weighting coefficient of the expression of synonymous expression extraction, a threshold value, and similarity. 同義表現抽出の式の補正後の重み係数、閾値及び類似度の関係を示す説明図である。It is explanatory drawing which shows the relationship between the weighting coefficient after correction | amendment of the expression of synonymous expression extraction, a threshold value, and similarity. 従来技術における同義表現抽出の原理を示す説明図である。It is explanatory drawing which shows the principle of synonymous expression extraction in a prior art.

符号の説明Explanation of symbols

100 参照関係抽出システム
110 コミュニケーション計画データベース
120 非参照関係抽出手段
130 階層構造特定手段
300 表現統一化システム
310 組織情報データベース
320 伝達文書抽出手段
330 伝達文書データベース
340 パラレルコーパス抽出手段
350 同義表現抽出装置
360 同義表現データベース
370 階層構造データベース
380 修正手段
390 傾向分析手段
400 文書伝達評価システム
510 入力手段
520 文書提供サーバ
530 出力手段
540 修正案入力手段
550 差分抽出手段
100 reference relationship extraction system 110 communication plan database 120 non-reference relationship extraction means 130 hierarchical structure specifying means 300 expression unification system 310 organization information database 320 transmission document extraction means 330 transmission document database 340 parallel corpus extraction means 350 synonymous expression extraction device 360 Expression database 370 Hierarchical structure database 380 Correction unit 390 Trend analysis unit 400 Document transmission evaluation system 510 Input unit 520 Document provision server 530 Output unit 540 Correction plan input unit 550 Difference extraction unit

Claims (16)

相互に同義表現を含む電子文書であるパラレルコーパスを抽出するために、電子文書間の参照関係を抽出する文書参照関係抽出システムであって、
電子文書の伝達計画を示す伝達計画情報に基づいて、電子文書間に参照関係がない文書伝達を示す非参照関係情報を抽出する非参照関係抽出手段と、
メンバ間で伝達される電子文書に対する文書伝達の階層構造を特定する階層構造特定手段と、
前記階層構造特定手段が特定した文書伝達の階層構造に基づいて、文書伝達前後の電子文書間の参照関係を抽出する参照関係抽出手段とを備え、
前記階層構造特定手段は、
電子文書の伝達記録を示す伝達記録情報に基づいて、前期伝達計画情報に示される伝達計画に対応する伝達記録を特定し、
特定した伝達記録に基づいて、電子文書の伝達の開始者から末端者までの階層構造を特定し、
前記非参照関係抽出手段が抽出した非参照関係情報に基づいて、電子文書の伝達の開始者から末端者までの階層構造を、非参照関係である文書伝達を含まずに特定する
ことを特徴とする文書参照関係抽出システム。
A document reference relationship extraction system for extracting a reference relationship between electronic documents in order to extract a parallel corpus that is an electronic document including synonymous expressions.
Non-reference relationship extraction means for extracting non-reference relationship information indicating document transmission that does not have a reference relationship between electronic documents based on transmission plan information indicating a transmission plan of the electronic document;
A hierarchical structure specifying means for specifying a hierarchical structure of document transmission for an electronic document transmitted between members ;
A reference relationship extracting means for extracting a reference relationship between electronic documents before and after document transmission based on the hierarchical structure of document transmission specified by the hierarchical structure specifying means;
The hierarchical structure specifying means includes:
Based on the transmission record information indicating the transmission record of the electronic document, the transmission record corresponding to the transmission plan shown in the previous period transmission plan information is identified,
Based on the identified communication records, identify the hierarchical structure from the start to the end of electronic document transmission,
Based on the non-reference relationship information extracted by the non-reference relationship extraction means, the hierarchical structure from the start to the end of the electronic document transmission is specified without including the non-reference relationship document transmission. Document reference relationship extraction system.
相互に同義表現を含む電子文書であるパラレルコーパスを抽出し、パラレルコーパスに含まれる同義表現を統一する表現統一化システムであって、
電子文書の伝達計画を示す伝達計画情報を予め記憶する伝達計画記憶手段と、
電子文書の伝達記録を示す伝達記録情報を記憶する伝達記録記憶手段と、
前記伝達計画記憶手段が記憶する伝達計画情報に基づいて、電子文書間に参照関係がない文書伝達を示す非参照関係情報を抽出する非参照関係抽出手段と、
メンバ間で伝達される電子文書に対する文書伝達の階層構造を特定する階層構造特定手段とを備え、
前記階層構造特定手段は、
前記伝達記録記憶手段が記憶する伝達記録情報に基づいて、前記伝達計画記憶手段が予め記憶する伝達計画情報に示される伝達計画に対応する伝達記録を特定し、
特定した伝達記録に基づいて、電子文書の伝達の開始者から末端者までの階層構造を特定し、
前記非参照関係抽出手段が抽出した非参照関係情報に基づいて、電子文書の伝達の開始者から末端者までの階層構造を、非参照関係である文書伝達を含まずに特定する
ことを特徴とする表現統一化システム。
An expression unification system that extracts a parallel corpus, which is an electronic document containing synonymous expressions, and unifies synonymous expressions included in the parallel corpus,
Transmission plan storage means for preliminarily storing transmission plan information indicating a transmission plan of an electronic document;
Transmission record storage means for storing transmission record information indicating the transmission record of the electronic document;
Non-reference relationship extraction means for extracting non-reference relationship information indicating document transmission having no reference relationship between electronic documents based on the transmission plan information stored in the transmission plan storage means;
A hierarchical structure specifying means for specifying a hierarchical structure of document transmission for an electronic document transmitted between members;
The hierarchical structure specifying means includes:
Based on the transmission record information stored in the transmission record storage means, identify the transmission record corresponding to the transmission plan indicated in the transmission plan information stored in advance by the transmission plan storage means,
Based on the identified communication records, identify the hierarchical structure from the start to the end of electronic document transmission,
Based on the non-reference relationship information extracted by the non-reference relationship extraction means, the hierarchical structure from the start to the end of the electronic document transmission is specified without including the non-reference relationship document transmission. Expression unification system.
階層構造特定手段が特定した文書伝達の階層構造に基づいて、パラレルコーパスを抽出するパラレルコーパス抽出手段を備えた請求項2記載の表現統一化システム。 3. The expression unification system according to claim 2 , further comprising parallel corpus extraction means for extracting a parallel corpus based on the hierarchical structure of document transmission specified by the hierarchical structure specifying means. パラレルコーパス抽出手段は、階層構造特定手段が特定した文書伝達の階層構造に基づいて、文書伝達における中継者を示す情報を抽出することによって、抽出した情報に示される中継者によって作成された電子文書をパラレルコーパスとして抽出する請求項3記載の表現統一化システム。 The parallel corpus extraction means extracts an electronic document created by the relay person indicated by the extracted information by extracting information indicating the relay person in the document transmission based on the hierarchical structure of the document transmission specified by the hierarchical structure specifying means. The expression unification system according to claim 3 , wherein the system is extracted as a parallel corpus. 伝達記録記憶手段が記憶する伝達記録情報に示される電子文書の伝達記録と、階層構造特定手段が特定した文書伝達の階層構造とに基づいて、同一の文書伝達で伝達された電子文書を参照したメンバを特定する参照者特定手段を備えた請求項2から請求項4のうちのいずれか1項に記載の表現統一化システム。 Based on the transmission record of the electronic document indicated in the transmission record information stored in the transmission record storage means and the hierarchical structure of the document transmission specified by the hierarchical structure specifying means, the electronic document transmitted by the same document transmission was referred to The expression unification system according to any one of claims 2 to 4 , further comprising a referrer specifying means for specifying a member. 階層構造特定手段が特定した文書伝達の階層構造を示す情報を記憶する階層構造記憶手段と、
電子文書に含まれる同義表現を修正する修正手段とを備え、
前記修正手段は、
電子文書中の文字列に対する修正文字列を入力し、
前記電子文書を含む文書伝達の階層構造を示す情報を前記階層構造記憶手段から抽出し、
抽出した前記文書伝達の階層構造を示す情報に含まれる伝達記録を全て抽出し、
抽出した伝達記録に対応する全ての電子文書とメンバを示す情報とを抽出し、
抽出した電子文書に基づいて修正対象の文字列を検索して抽出し、
前記修正対象の文字列を修正文字列に修正する
請求項2から請求項5のうちのいずれか1項に記載の表現統一化システム。
Hierarchical structure storage means for storing information indicating the hierarchical structure of document transmission specified by the hierarchical structure specifying means;
Correction means for correcting the synonymous expression included in the electronic document,
The correcting means is
Enter a correction character string for the character string in the electronic document,
Extracting information indicating a hierarchical structure of document transmission including the electronic document from the hierarchical structure storage means;
Extract all the transfer records included in the extracted information indicating the hierarchical structure of the document transfer,
Extract all electronic documents corresponding to the extracted transmission records and information indicating members,
Search and extract the character string to be modified based on the extracted electronic document,
The character string to be corrected is corrected to a corrected character string.
The expression unification system according to any one of claims 2 to 5 .
階層構造特定手段は、伝達計画記憶手段が記憶する伝達計画情報に基づいて、予め計画されている文書伝達の階層構造を特定することによって、電子文書間の参照関係を抽出する請求項2から請求項6のうちのいずれか1項に記載の表現統一化システム。 Hierarchy specifying means, based on the transmission schedule information communication plan storage means for storing, by identifying the hierarchical structure of the document transfer being preplanned, according claim 2 for extracting reference relationship between the electronic document Item 7. The expression unification system according to any one of items 6 to 6 . 階層構造特定手段は、伝達計画記憶手段が記憶する伝達計画情報に基づいて、電子文書の伝達の開始者から末端者までの階層構造を、非参照関係である文書伝達を含まずに特定する請求項2から請求項6のうちのいずれか1項に記載の表現統一化システム。 Hierarchy specifying means, wherein based on the transmission plan information communication plan storage means for storing the hierarchical structure of the initiator of the transfer of the electronic document to the end user, to identify without the document transfer is a non-reference relationship The expression unification system according to any one of claims 2 to 6 . 相互に同義表現を含む電子文書であるパラレルコーパスを抽出し、パラレルコーパスに含まれる同義表現を統一する表現統一化方法であって、
予め記憶する電子文書の伝達計画を示す伝達計画情報に基づいて、電子文書間に参照関係がない文書伝達を示す非参照関係情報を抽出する非参照関係抽出ステップと、
メンバ間で伝達される電子文書に対する文書伝達の階層構造を特定する階層構造特定ステップとを含み、
前記階層構造特定ステップで、
記憶する電子文書の伝達記録を示す伝達記録情報に基づいて、予め記憶する伝達計画情報に示される伝達計画に対応する伝達記録を特定し、
特定した伝達記録に基づいて、電子文書の伝達の開始者から末端者までの階層構造を特定し、
抽出した非参照関係情報に基づいて、電子文書の伝達の開始者から末端者までの階層構造を、非参照関係である文書伝達を含まずに特定する
ことを特徴とする表現統一化方法。
An expression unification method for extracting a parallel corpus, which is an electronic document including synonymous expressions, and unifying synonymous expressions included in the parallel corpus,
A non-reference relationship extraction step for extracting non-reference relationship information indicating document transmission having no reference relationship between electronic documents based on transmission plan information indicating a transmission plan of electronic documents stored in advance;
A hierarchical structure specifying step for specifying a hierarchical structure of document transmission for an electronic document transmitted between members,
In the hierarchical structure specifying step,
Based on the transmission record information indicating the transmission record of the electronic document to be stored, the transmission record corresponding to the transmission plan indicated in the transmission plan information stored in advance is specified,
Based on the identified communication records, identify the hierarchical structure from the start to the end of electronic document transmission,
An expression unification method characterized by specifying a hierarchical structure from the start to the end of electronic document transmission based on the extracted non-reference relationship information, without including document transmission that is a non-reference relationship.
特定した文書伝達の階層構造に基づいて、パラレルコーパスを抽出するパラレルコーパス抽出ステップを含む請求項9記載の表現統一化方法。 The expression unifying method according to claim 9 , further comprising a parallel corpus extraction step of extracting a parallel corpus based on the identified hierarchical structure of document transmission. 特定した文書伝達の階層構造を示す情報をデータベースに記憶する階層構造記憶ステップと、
電子文書に含まれる同義表現を修正する修正ステップを含み、
前記修正ステップで、
電子文書中の文字列に対する修正文字列を入力し、
前記電子文書を含む文書伝達の階層構造を示す情報を前記データベースから抽出し、
抽出した前記文書伝達の階層構造を示す情報に含まれる伝達記録を全て抽出し、
抽出した伝達記録に対応する全ての電子文書とメンバを示す情報とを抽出し、
抽出した電子文書に基づいて修正対象の文字列を検索して抽出し、
前記修正対象の文字列を修正文字列に修正する
請求項9又は請求項10記載の表現統一化方法。
A hierarchical structure storing step for storing in the database information indicating the identified document transmission hierarchical structure;
Including a correction step for correcting a synonymous expression included in the electronic document;
In the correction step,
Enter a correction character string for the character string in the electronic document,
Extracting information indicating the hierarchical structure of document transmission including the electronic document from the database;
Extract all the transfer records included in the extracted information indicating the hierarchical structure of the document transfer,
Extract all electronic documents corresponding to the extracted transmission records and information indicating members,
Search and extract the character string to be modified based on the extracted electronic document,
The character string to be corrected is corrected to a corrected character string.
The expression unification method according to claim 9 or 10 .
階層構造特定ステップで、予め記憶する伝達計画情報に基づいて、予め計画されている文書伝達の階層構造を特定することによって、電子文書間の参照関係を抽出する請求項9から請求項11のうちのいずれか1項に記載の表現統一化方法。 In the hierarchical structure specifying step, based on the transmission schedule information stored in advance, by specifying the hierarchical structure of the document transfer being pre-planned, of the claims 11 claims 9 to extract reference relationship between the electronic document The expression unification method according to any one of the above. 相互に同義表現を含む電子文書であるパラレルコーパスを抽出し、パラレルコーパスに含まれる同義表現を統一するための表現統一化プログラムであって、
コンピュータに、
予めデータベースに記憶する電子文書の伝達計画を示す伝達計画情報に基づいて、電子文書間に参照関係がない文書伝達を示す非参照関係情報を抽出する非参照関係抽出処理と、
メンバ間で伝達される電子文書に対する文書伝達の階層構造を特定する階層構造特定処理とを実行させ、
前記階層構造特定処理で、
データベースに記憶する電子文書の伝達記録を示す伝達記録情報に基づいて、予めデータベースに記憶する伝達計画情報に示される伝達計画に対応する伝達記録を特定する処理と、
特定した伝達記録に基づいて、電子文書の伝達の開始者から末端者までの階層構造を特定する処理と、
抽出した非参照関係情報に基づいて、電子文書の伝達の開始者から末端者までの階層構造を、非参照関係である文書伝達を含まずに特定する処理とを
実行させるための表現統一化プログラム。
An expression unification program for extracting a parallel corpus, which is an electronic document including synonymous expressions, and unifying synonymous expressions included in the parallel corpus,
On the computer,
A non-reference relationship extraction process for extracting non-reference relationship information indicating document transmission having no reference relationship between electronic documents based on transmission plan information indicating a transmission plan of electronic documents stored in advance in a database;
A hierarchical structure specifying process for specifying a hierarchical structure of document transmission for an electronic document transmitted between members;
In the hierarchical structure specifying process,
A process for identifying a transmission record corresponding to the transmission plan indicated in the transmission plan information stored in the database in advance based on the transmission record information indicating the transmission record of the electronic document stored in the database;
A process for identifying a hierarchical structure from the start to the end of electronic document transmission based on the identified transmission record;
Representation standardization program for executing the processing to identify the hierarchical structure from the start to the end of electronic document transmission without including non-reference relationship document transmission based on the extracted non-reference relationship information .
コンピュータに、
特定した文書伝達の階層構造に基づいて、パラレルコーパスを抽出するパラレルコーパス抽出処理を実行させる
請求項13記載の表現統一化プログラム。
On the computer,
Execute parallel corpus extraction processing to extract a parallel corpus based on the identified document transmission hierarchy
The expression unification program according to claim 13 .
コンピュータに、
特定した文書伝達の階層構造を示す情報をデータベースに記憶させる階層構造記憶処理と、
電子文書に含まれる同義表現を修正する修正処理とを実行させ、
前記修正処理で、
電子文書中の文字列に対する修正文字列を入力する処理と、
前記電子文書を含む文書伝達の階層構造を示す情報を前記データベースから抽出する処理と、
抽出した前記文書伝達の階層構造を示す情報に含まれる伝達記録を全て抽出する処理と、
抽出した伝達記録に対応する全ての電子文書とメンバを示す情報とを抽出する処理と、
抽出した電子文書に基づいて修正対象の文字列を検索して抽出する処理と、
前記修正対象の文字列を修正文字列に修正する処理とを実行させる
請求項13又は請求項14記載の表現統一化プログラム。
On the computer,
A hierarchical structure storing process for storing in the database information indicating the identified document transmission hierarchical structure;
A correction process for correcting the synonymous expression included in the electronic document,
In the correction process,
A process of inputting a correction character string for the character string in the electronic document;
Processing for extracting information indicating the hierarchical structure of document transmission including the electronic document from the database;
A process for extracting all the transfer records included in the extracted information indicating the hierarchical structure of document transfer;
A process of extracting all electronic documents corresponding to the extracted transmission record and information indicating members;
A process for searching and extracting a character string to be corrected based on the extracted electronic document,
A process of correcting the correction target character string into a correction character string.
15. The expression unification program according to claim 13 or claim 14 .
コンピュータに、
階層構造特定処理で、予めデータベースに記憶する伝達計画情報に基づいて、予め計画されている文書伝達の階層構造を特定することによって、電子文書間の参照関係を抽出する処理を実行させる
請求項13から請求項15のうちのいずれか1項に記載の表現統一化プログラム。
On the computer,
In the hierarchical structure specifying process, a process for extracting a reference relationship between electronic documents is executed by specifying a preliminarily planned hierarchical structure of document transmission based on transmission plan information stored in advance in a database.
The expression unification program according to any one of claims 13 to 15 .
JP2007071127A 2007-03-19 2007-03-19 Document reference relation extraction system, expression unification system, document transmission evaluation system, method and program Active JP5119693B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007071127A JP5119693B2 (en) 2007-03-19 2007-03-19 Document reference relation extraction system, expression unification system, document transmission evaluation system, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007071127A JP5119693B2 (en) 2007-03-19 2007-03-19 Document reference relation extraction system, expression unification system, document transmission evaluation system, method and program

Publications (2)

Publication Number Publication Date
JP2008234174A JP2008234174A (en) 2008-10-02
JP5119693B2 true JP5119693B2 (en) 2013-01-16

Family

ID=39906887

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007071127A Active JP5119693B2 (en) 2007-03-19 2007-03-19 Document reference relation extraction system, expression unification system, document transmission evaluation system, method and program

Country Status (1)

Country Link
JP (1) JP5119693B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010224941A (en) * 2009-03-24 2010-10-07 Nec Corp Device, method, and program for searching relevant information
JP5764942B2 (en) * 2011-01-28 2015-08-19 富士通株式会社 Information collation device, information collation system, information collation method, and information collation program
JP5417359B2 (en) * 2011-02-28 2014-02-12 株式会社日立製作所 Document evaluation support system and document evaluation support method
JP5703244B2 (en) * 2012-02-27 2015-04-15 エヌ・ティ・ティ・コムウェア株式会社 Trace support device, trace support system, trace support method, and trace support program
JP7211139B2 (en) * 2019-02-14 2023-01-24 日本電信電話株式会社 Review method, information processing device and review program
JP7093322B2 (en) * 2019-03-26 2022-06-29 株式会社富士通エフサス Display control method, display control program and display control device

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4193549B2 (en) * 2003-04-01 2008-12-10 沖電気工業株式会社 Datetime expression normalization apparatus and method

Also Published As

Publication number Publication date
JP2008234174A (en) 2008-10-02

Similar Documents

Publication Publication Date Title
RU2571373C2 (en) Method of analysing text data tonality
Carley et al. AutoMap User's Guide 2013
KR101972179B1 (en) Automatic task extraction and calendar entry
US9613026B2 (en) System and method for interactive automatic translation
US9015153B1 (en) Topic discovery, summary generation, automatic tagging, and search indexing for segments of a document
US7899871B1 (en) Methods and systems for e-mail topic classification
KR101960115B1 (en) Summarization of conversation threads
US7519589B2 (en) Method and apparatus for sociological data analysis
US8135711B2 (en) Method and apparatus for sociological data analysis
De Clercq et al. Using the crowd for readability prediction
US20140280314A1 (en) Dimensional Articulation and Cognium Organization for Information Retrieval Systems
US20050076037A1 (en) Method and apparatus for computerized extracting of scheduling information from a natural language e-mail
US20100100815A1 (en) Email document parsing method and apparatus
WO1998001807A1 (en) Document producing support system
US20070233465A1 (en) Information extracting apparatus, and information extracting method
EP1910949A2 (en) An improved method and apparatus for sociological data analysis
US20100198802A1 (en) System and method for optimizing search objects submitted to a data resource
JP5119693B2 (en) Document reference relation extraction system, expression unification system, document transmission evaluation system, method and program
US9110852B1 (en) Methods and systems for extracting information from text
Jha et al. All that glitters is not gold–rule-based curation of reference datasets for named entity recognition and entity linking
US11574287B2 (en) Automatic document classification
Egger et al. Natural language processing (NLP): An introduction: Making sense of textual data
JP5076575B2 (en) Synonym expression extraction system, synonym expression extraction method, and synonym expression extraction program
JP2015118498A (en) Program, apparatus, and method, for creating similar sentences of same intent
JP2009026137A (en) Apparatus and method for supporting obtaining of discussion state

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100302

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120424

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120925

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121008

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151102

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5119693

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150