JP5119693B2 - Document reference relation extraction system, expression unification system, document transmission evaluation system, method and program - Google Patents
Document reference relation extraction system, expression unification system, document transmission evaluation system, method and program Download PDFInfo
- Publication number
- JP5119693B2 JP5119693B2 JP2007071127A JP2007071127A JP5119693B2 JP 5119693 B2 JP5119693 B2 JP 5119693B2 JP 2007071127 A JP2007071127 A JP 2007071127A JP 2007071127 A JP2007071127 A JP 2007071127A JP 5119693 B2 JP5119693 B2 JP 5119693B2
- Authority
- JP
- Japan
- Prior art keywords
- transmission
- document
- expression
- hierarchical structure
- electronic document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
本発明は、文書参照関係抽出システム及びプログラムに関し、特に、電子文書伝達の階層構造を特定することにより、電子文書間の参照関係を効率的に抽出できる文書参照関係抽出システム及びプログラムに関する。また、本発明は、電子文書間に含まれる同義表現を統一する表現統一化システム、方法及びプログラムに関する。また、本発明は、電子文書の伝達状況を評価する文書伝達評価システム、方法及びプログラムに関する。 The present invention relates to a document reference relationship extraction system and program, and more particularly to a document reference relationship extraction system and program that can efficiently extract a reference relationship between electronic documents by specifying a hierarchical structure of electronic document transmission. The present invention also relates to an expression unifying system, method, and program for unifying synonymous expressions included between electronic documents. The present invention also relates to a document transmission evaluation system, method, and program for evaluating the transmission status of an electronic document.
一般に、同一の事物や概念に対して異なる表現を用いて、電子文書の作成や編集が行われることがある。このように、同一の事物や概念に対して異なる表現が用いられる語や句を同義表現と呼ぶ。同義表現の存在は、電子文書における語や句の不一致を引き起こし、情報検索や文書分類、機械翻訳等の自然言語処理の効率を低下させる。例えば、文書検索において「首相」をキーワードに検索しても、同義である「内閣総理大臣」という語を用いて書かれた電子文書は検索漏れになる。また、自然言語処理が低効率になるだけではなく、製品開発プロジェクトのように多くの人々が関わり合いながら作業するような環境においては、作成される電子文書中の同義表現が意思伝達を阻害する原因となる。 In general, electronic documents may be created and edited using different expressions for the same thing or concept. Thus, a word or phrase in which different expressions are used for the same thing or concept is called a synonymous expression. The existence of synonymous expressions causes mismatches in terms of words and phrases in electronic documents, and reduces the efficiency of natural language processing such as information retrieval, document classification, and machine translation. For example, even if a document search is performed using “Prime Minister” as a keyword, an electronic document written using the word “Prime Minister”, which is synonymous, is omitted. In addition to the low efficiency of natural language processing, synonymous expressions in the created electronic document impede communication in an environment where many people are involved in a product development project. Cause.
例えば、ある人が作成した電子文書において「表現統一機能」と表現されている物が、他の人が作成した電子文書では「語彙ブレ抑制機能」と表現されている場合、第三者がこれらの表現を同一の物を表していると認識することは難しい。これに対して用語集を作成することにより表現の統一を支援することも試みられているが、その用語集が有効活用されないことも多い。その理由は、自らが作成する電子文書内においては各人とも統一した表現を用いていることが多いため同義表現の使用に気づきにくいことや、用語集の利用を負担に感じ使用を避ける傾向があるためである。また、電子文書の作成者が、相手によって意図的に表現を変えることもある。 For example, if an electronic document created by one person is expressed as an “unification expression function” and an electronic document created by another person is expressed as a “vocabulary blur suppression function”, a third party may It is difficult to recognize that the expression of represents the same thing. In contrast, attempts have been made to support the unification of expressions by creating a glossary, but the glossary is often not used effectively. The reason for this is that, in many cases, each person uses a unified expression in the electronic document that they create, so it is difficult to notice the use of synonymous expressions, and there is a tendency to avoid using it because of the burden of using the glossary. Because there is. In addition, the creator of the electronic document may intentionally change the expression depending on the other party.
さらに、情報共有するために作成した電子文書を他の人に伝達する(例えば、電子メール等を用いて転送する)過程において、その電子文書を参照した人が表現を修正することにより、同義表現を含む電子文書(以下、パラレルコーパスと呼ぶ)が発生することもある。 Furthermore, in the process of transmitting an electronic document created for information sharing to another person (for example, transferring it using e-mail or the like), the person who referred to the electronic document modifies the expression, thereby synonymous expression An electronic document (hereinafter referred to as a parallel corpus) may be generated.
上記のような背景の下、文章の参照関係を抽出し、誰と誰とによって作成された電子文書間において同義表現が発生しているかを明確にでき、且つ、各人に同義表現の使用を自覚させ、同義表現を統一できる表現統一化技術が求められている。 Based on the above background, we can extract the reference relationship of sentences, clarify who and who have created synonymous expressions, and use synonymous expressions for each person. There is a need for an expression unification technology that can make people aware and unify synonymous expressions.
従来、電子文書の参照関係を抽出するためには、電子文書中のリファレンス情報や電子文書作成時にどのファイルを同時に開いていたか等の情報を用いて、参照元の電子文書を抽出する技術が用いられてきた。 Conventionally, in order to extract the reference relationship of an electronic document, a technique for extracting an electronic document as a reference source using reference information in the electronic document and information such as which file was opened simultaneously when the electronic document was created has been used. Has been.
例えば、従来の計算機を利用した業務誘導支援システム及び業務誘導支援方法の一例が特許文献1に記載されている。特許文献1に記載された計算機を利用した業務誘導支援システム及び業務誘導支援方法は、複数の資料から必要文書を効率よく抽出するために用いられる。特許文献1に記載された計算機を利用した業務誘導支援システム及び業務誘導支援方法は、稀な単語の出現頻度に基づく電子文書の類似性や、設計書かカタログかというような電子文書のカテゴリによる類似性、電子文書作成時に同時に開かれていた日時の重なりとその累計時間、1つの電子文書を完成させるために電子文書が開かれた回数である参照頻度に基づいて、電子文書間の関連付けを行う処理を行う。
For example,
また、例えば、従来の文書管理装置の一例が特許文献2に記載されている。特許文献2に記載された文書管理装置は、関連文書情報を人手に頼らず効率的に抽出・管理するために用いられている。特許文献2に記載された文書管理装置は、電子文書登録時にHTML文書等のフォーマットに基づき、登録する電子文書中に他文書を参照するリンクがあるか否かを検査し、他文書への参照を検出した場合には、自動的に関連文書情報として管理データベースに登録する。また、登録する電子文書中に記載された参照先の電子文書が、電子文書格納先に未登録である場合、登録する電子文書の所有者へその旨を通知する処理を行う。また、電子文書の改版時には、管理データベースを検索して、改版対象の電子文書がどの電子文書から参照されているかを調べ、他文書から参照されている場合には、改版者に、改版しようとしている電子文書が、どの電子文書から参照されているかを通知するとともに、上記の他文書の所有者に改版対象文書が改版されることを通知する処理を行う。
For example,
また、例えば、従来の文書作成装置、文書作成方法、及び文書作成プログラムの一例が特許文献3に記載されている。この特許文献3に記載された文書作成装置、文書作成方法、及び文書作成プログラムは、システムの利用者が必要なとき必要な電子文書に高速にアクセスすることを実現する際に用いられる。特許文献3に記載された文書作成装置、文書作成方法、及び文書作成プログラムは、電子文書を保存する際、保存日時とその時点でオープン中の他の電子文書の名前との組が同時編集文書情報として記録される。一方、上記文書を別名で保存する都度、それぞれ、元文書情報として保存前の名前が記録され、同時編集文書情報として保存日時とその時点でオープン中の他の電子文書の名前が記録される。これにより、特許文献3に記載された文書作成装置、文書作成方法、及び文書作成プログラムによれば、電子文書作成の元となった電子文書や同時に開かれていたことがある電子文書等に高速にアクセスすることが可能となる。なお、関連する電子文書については、システムの利用者が手動で参照文書を登録することもできる。
Also, for example,
しかし、特許文献1〜3に記載されたシステムや装置、方法、プログラムでは、第1の問題点として、パラレルコーパスを含む文書の参照関係を効率的に抽出することができない。例えば、特許文献1に記載されたシステムや方法では、同時に開いている電子ファイルが必ずしも参照している文書の電子ファイルとは限らない。また、稀な単語の出現頻度により参照関係を抽出する場合、電子文書間の全通りを比較する必要があり、多くの計算時間を要する。そのため、効率的にパラレルコーパスを抽出することはできない。
However, the systems, apparatuses, methods, and programs described in
また、特許文献2に記載された装置や方法では、HTML等のフォーマットに則った電子文書にしか適用することができない。また、参照関係もハイパーリンクによって与えられるものを想定しているため、ある語とその説明が書かれた電子文書という参照関係の抽出には向いているが、パラレルコーパスの抽出には向かない。さらに、特許文献3に記載された装置や方法、プログラムでは、特許文献1に記載されたシステムや方法と同様に、同時に開いていた電子文書が同じ内容を含む電子文書であるとは限らないため、効率的にパラレルコーパスを抽出することはできない。
Further, the apparatus and method described in
また、第2の問題点として、特許文献1〜3に記載されたシステムや装置、方法、プログラムでは、作成された電子文書を参照した人及びその時期の適切さを明確にすることができない。特許文献1〜3に記載されたシステムや装置、方法、プログラムは、上記のように説明した通り、どの電子文書がどの電子文書を参照し作成されたものであるかを抽出しており、参照時期や参照した人の適切さに関して、なんら考慮していない。そのため、参照する予定の人が参照しているか、参照予定のない人が参照していないか、参照すべき時期に参照がなされていたか等を把握することができない。
As a second problem, the systems, apparatuses, methods, and programs described in
そこで、本発明は、電子文書伝達の階層構造を特定することにより、パラレルコーパスを効率的に抽出できる文書参照関係抽出システム、表現統一化システム、文書伝達評価システム、表現統一化方法、文書伝達評価方法、文書参照関係抽出プログラム、表現統一化プログラム及び文書伝達評価プログラムを提供することを目的とする。 Accordingly, the present invention provides a document reference relation extraction system, an expression unification system, a document transfer evaluation system, an expression unification method, a document transfer evaluation, which can efficiently extract a parallel corpus by specifying a hierarchical structure of electronic document transfer. It is an object to provide a method, a document reference relationship extraction program, an expression unification program, and a document transmission evaluation program.
また、本発明は、電子文書の伝達計画及び実際の伝達状況との差を分析することにより、電子文書を参照した人及びその時期の適切さを明確にすることができる文書参照関係抽出システム、表現統一化システム、文書伝達評価システム、表現統一化方法、文書伝達評価方法、文書参照関係抽出プログラム、表現統一化プログラム及び文書伝達評価プログラムを提供することを目的とする。 The present invention also provides a document reference relation extraction system that can clarify the appropriateness of the person who referred to the electronic document and the time period by analyzing the difference between the transmission plan of the electronic document and the actual transmission situation, An object is to provide an expression unification system, a document transfer evaluation system, an expression unification method, a document transfer evaluation method, a document reference relation extraction program, an expression unification program, and a document transfer evaluation program.
本発明による文書参照関係抽出システムは、相互に同義表現を含む電子文書であるパラレルコーパスを抽出するために、電子文書間の参照関係を抽出する文書参照関係抽出システムであって、電子文書の伝達計画を示す伝達計画情報に基づいて、電子文書間に参照関係がない文書伝達を示す非参照関係情報を抽出する非参照関係抽出手段と、メンバ間で伝達される電子文書に対する文書伝達の階層構造を特定する階層構造特定手段(例えば、階層構造特定手段130によって実現される)と、階層構造特定手段が特定した文書伝達の階層構造に基づいて、文書伝達前後の電子文書間の参照関係を抽出する参照関係抽出手段とを備え、階層構造特定手段は、電子文書の伝達記録を示す伝達記録情報に基づいて、前期伝達計画情報に示される伝達計画に対応する伝達記録を特定し、特定した伝達記録に基づいて、電子文書の伝達の開始者から末端者までの階層構造を特定し、非参照関係抽出手段が抽出した非参照関係情報に基づいて、電子文書の伝達の開始者から末端者までの階層構造を、非参照関係である文書伝達を含まずに特定することを特徴とする。 Article reference relationship extraction system according to the present invention, in order to extract the parallel corpus is an electronic document including the synonymous expression mutually, a document reference relationship extraction system for extracting a reference relationship between the electronic document, the transmission of the electronic document Non-reference relationship extraction means for extracting non-reference relationship information indicating document transmission that does not have a reference relationship between electronic documents based on transmission plan information indicating a plan, and a document transmission hierarchical structure for electronic documents transmitted between members Based on the hierarchical structure specifying means (for example, realized by the hierarchical structure specifying means 130) and the document transmission hierarchical structure specified by the hierarchical structure specifying means, the reference relationship between electronic documents before and after document transmission is extracted. And a hierarchical structure specifying means, based on the transmission record information indicating the transmission record of the electronic document, the transmission shown in the previous transmission plan information Identify the transfer record corresponding to the image, identify the hierarchical structure from the start to the end of the transmission of the electronic document based on the specified transfer record, and based on the non-reference relationship information extracted by the non-reference relationship extraction means Thus, the hierarchical structure from the start to the end of the transmission of the electronic document is specified without including the non-reference relationship document transmission .
本発明による表現統一化システムは、相互に同義表現を含む電子文書であるパラレルコーパスを抽出し、パラレルコーパスに含まれる同義表現を統一する表現統一化システムであって、電子文書の伝達計画を示す伝達計画情報(例えば、コミュニケーション計画)を予め記憶する伝達計画記憶手段(例えば、コミュニケーション計画データベース110によって実現される)と、電子文書の伝達記録を示す伝達記録情報(例えば、伝達文書情報)を記憶する伝達記録記憶手段(例えば、伝達文書データベース330によって実現される)と、伝達計画記憶手段が記憶する伝達計画情報に基づいて、電子文書間に参照関係がない文書伝達を示す非参照関係情報(例えば、非参照関係表)を抽出する非参照関係抽出手段(例えば、非参照関係抽出手段120によって実現される)と、メンバ間で伝達される電子文書に対する文書伝達の階層構造を特定する階層構造特定手段(例えば、階層構造特定手段130によって実現される)とを備え、階層構造特定手段は、伝達記録記憶手段が記憶する伝達記録情報に基づいて、伝達計画記憶手段が予め記憶する伝達計画情報に示される伝達計画に対応する伝達記録を特定し、特定した伝達記録に基づいて、電子文書の伝達の開始者から末端者までの階層構造を特定し、非参照関係抽出手段が抽出した非参照関係情報に基づいて、電子文書の伝達の開始者から末端者までの階層構造を、非参照関係である文書伝達を含まずに特定することを特徴とする。 The expression unification system according to the present invention is an expression unification system that extracts a parallel corpus that is an electronic document including synonymous expressions and unifies synonymous expressions included in the parallel corpus, and shows a transmission plan of the electronic document. Transmission plan storage means (for example, realized by the communication plan database 110) for storing transmission plan information (for example, communication plan) in advance, and transmission record information (for example, transmission document information) indicating a transmission record of an electronic document are stored. Non-reference relationship information (for example, realized by the transmission document database 330) and non-reference relationship information indicating document transmission having no reference relationship between electronic documents based on the transmission plan information stored in the transmission plan storage unit For example, non-reference relationship extraction means for extracting non-reference relationship table (for example, non-reference relationship extraction) And a hierarchical structure specifying means (for example, realized by the hierarchical structure specifying means 130) for specifying a hierarchical structure of document transmission for an electronic document transmitted between members. The means identifies the transmission record corresponding to the transmission plan indicated in the transmission plan information stored in advance by the transmission plan storage means based on the transmission record information stored in the transmission record storage means, and based on the identified transmission record, Identify the hierarchical structure from the start to the end of the electronic document transmission, and based on the non-reference relationship information extracted by the non-reference relationship extraction means, the hierarchical structure from the start of the electronic document transmission to the end, It is characterized in that it is specified without including a document transmission which is a non-reference relationship.
また、表現統一化システムは、階層構造特定手段が特定した文書伝達の階層構造に基づいて、パラレルコーパスを抽出するパラレルコーパス抽出手段(例えば、パラレルコーパス抽出手段340によって実現される)を備えたものであってもよい。 The expression unification system includes a parallel corpus extraction unit (for example, realized by the parallel corpus extraction unit 340) that extracts a parallel corpus based on the hierarchical structure of document transmission specified by the hierarchical structure specification unit. It may be.
また、表現統一化システムにおいて、パラレルコーパス抽出手段は、階層構造特定手段が特定した文書伝達の階層構造に基づいて、文書伝達における中継者を示す情報を抽出することによって、抽出した情報に示される中継者によって作成された電子文書をパラレルコーパスとして抽出するものであってもよい。 Further, in the expression unification system, the parallel corpus extraction means is indicated in the extracted information by extracting information indicating a relayer in document transmission based on the document transmission hierarchical structure specified by the hierarchical structure specifying means. An electronic document created by a relay person may be extracted as a parallel corpus.
また、表現統一化システムは、伝達記録記憶手段が記憶する伝達記録情報に示される電子文書の伝達記録と、階層構造特定手段が特定した文書伝達の階層構造とに基づいて、同一の文書伝達で伝達された電子文書を参照したメンバを特定する参照者特定手段(例えば、階層構造特定手段130によって実現される)を備えたものであってもよい。 Also, the expression unification system can perform the same document transmission based on the transmission record of the electronic document indicated in the transmission record information stored in the transmission record storage means and the hierarchical structure of the document transmission specified by the hierarchical structure specifying means. It may be provided with a referrer specifying means (for example, realized by the hierarchical structure specifying means 130) for specifying a member who refers to the transmitted electronic document.
また、表現統一化システムは、階層構造特定手段が特定した文書伝達の階層構造を示す情報を記憶する階層構造記憶手段(例えば、階層構造データベース370によって実現される)と、電子文書に含まれる同義表現を修正する修正手段(例えば、修正手段380によって実現される)とを備え、修正手段は、電子文書中の文字列に対する修正文字列を入力し、電子文書を含む文書伝達の階層構造を示す情報を階層構造記憶手段から抽出し、抽出した文書伝達の階層構造を示す情報に含まれる伝達記録を全て抽出し、抽出した伝達記録に対応する全ての電子文書とメンバを示す情報とを抽出し、抽出した電子文書に基づいて修正対象の文字列を検索して抽出し、修正対象の文字列を修正文字列に修正するものであってもよい。 In addition, the expression unification system includes hierarchical structure storage means (for example, realized by the hierarchical structure database 370) that stores information indicating the hierarchical structure of document transmission specified by the hierarchical structure specifying means, and synonyms included in the electronic document. Correction means for correcting the expression (for example, realized by the correction means 380), the correction means inputs a correction character string for the character string in the electronic document, and indicates a hierarchical structure of document transmission including the electronic document Extract information from hierarchical structure storage means, extract all transmission records included in the extracted information indicating the hierarchical structure of document transmission, extract all electronic documents corresponding to the extracted transmission records and information indicating members The character string to be corrected may be searched and extracted based on the extracted electronic document, and the character string to be corrected may be corrected to the corrected character string.
また、表現統一化システムにおいて、階層構造特定手段は、伝達計画記憶手段が記憶する伝達計画情報に基づいて、予め計画されている文書伝達の階層構造を特定することによって、電子文書間の参照関係を抽出するものであってもよい。 Further, in the expression unification system, the hierarchical structure specifying means specifies the hierarchical structure of document transmission planned in advance based on the transmission plan information stored in the transmission plan storage means, so that the reference relationship between electronic documents is determined. May be extracted.
また、表現統一化システムにおいて、階層構造特定手段は、伝達計画記憶手段が記憶する伝達計画情報に基づいて、電子文書の伝達の開始者から末端者までの階層構造を、非参照関係である文書伝達を含まずに特定するものであってもよい。 Further, in the expression unification system, the hierarchical structure specifying means converts the hierarchical structure from the transmission start to the end of the electronic document based on the transmission plan information stored in the transmission plan storage means into a document having a non-reference relationship. You may specify without including transmission.
本発明による表現統一化方法は、相互に同義表現を含む電子文書であるパラレルコーパスを抽出し、パラレルコーパスに含まれる同義表現を統一する表現統一化方法であって、予め記憶する電子文書の伝達計画を示す伝達計画情報に基づいて、電子文書間に参照関係がない文書伝達を示す非参照関係情報を抽出する非参照関係抽出ステップと、メンバ間で伝達される電子文書に対する文書伝達の階層構造を特定する階層構造特定ステップとを含み、階層構造特定ステップで、記憶する電子文書の伝達記録を示す伝達記録情報に基づいて、予め記憶する伝達計画情報に示される伝達計画に対応する伝達記録を特定し、特定した伝達記録に基づいて、電子文書の伝達の開始者から末端者までの階層構造を特定し、抽出した非参照関係情報に基づいて、電子文書の伝達の開始者から末端者までの階層構造を、非参照関係である文書伝達を含まずに特定することを特徴とする。 The expression unifying method according to the present invention is an expression unifying method for extracting a parallel corpus that is an electronic document including synonymous expressions and unifying synonymous expressions included in the parallel corpus, and transmitting an electronic document stored in advance. A non-reference relationship extraction step for extracting non-reference relationship information indicating document transmission that does not have a reference relationship between electronic documents based on transmission plan information indicating a plan, and a hierarchical structure of document transmission for electronic documents transmitted between members A transmission record corresponding to the transmission plan indicated in the transmission plan information stored in advance based on the transmission record information indicating the transmission record of the electronic document to be stored in the hierarchical structure identification step. Identify and identify the hierarchical structure from the beginning to the end of the transmission of electronic documents based on the identified transmission records, and based on the extracted non-reference relationship information The hierarchical structure of the initiator of the transfer of the electronic document to the end user, and identifies without the document transfer is a non-reference relations.
また、表現統一化方法は、特定した文書伝達の階層構造に基づいて、パラレルコーパスを抽出するパラレルコーパス抽出ステップを含むものであってもよい。 The expression unification method may include a parallel corpus extraction step of extracting a parallel corpus based on the specified hierarchical structure of document transmission.
また、表現統一化方法は、特定した文書伝達の階層構造を示す情報をデータベースに記憶する階層構造記憶ステップと、電子文書に含まれる同義表現を修正する修正ステップを含み、修正ステップで、電子文書中の文字列に対する修正文字列を入力し、電子文書を含む文書伝達の階層構造を示す情報をデータベースから抽出し、抽出した文書伝達の階層構造を示す情報に含まれる伝達記録を全て抽出し、抽出した伝達記録に対応する全ての電子文書とメンバを示す情報とを抽出し、抽出した電子文書に基づいて修正対象の文字列を検索して抽出し、修正対象の文字列を修正文字列に修正するものであってもよい。 The expression unifying method includes a hierarchical structure storage step for storing information indicating the identified hierarchical structure of document transmission in a database, and a correction step for correcting a synonymous expression included in the electronic document. Input a modified character string for the character string in the middle, extract information indicating the hierarchical structure of document transmission including electronic documents from the database, extract all transmission records included in the extracted information indicating the hierarchical structure of document transmission, All electronic documents corresponding to the extracted transmission record and information indicating members are extracted, and a character string to be corrected is searched and extracted based on the extracted electronic document, and the character string to be corrected is converted into a corrected character string. It may be corrected.
また、表現統一化方法は、階層構造特定ステップで、予め記憶する伝達計画情報に基づいて、予め計画されている文書伝達の階層構造を特定することによって、電子文書間の参照関係を抽出するものであってもよい。 The expression unification method is a method for extracting a reference relation between electronic documents by specifying a hierarchical structure of document transmission planned in advance based on transmission plan information stored in advance in a hierarchical structure specifying step. It may be.
本発明による表現統一化プログラムは、相互に同義表現を含む電子文書であるパラレルコーパスを抽出し、パラレルコーパスに含まれる同義表現を統一するための表現統一化プログラムであって、コンピュータに、予めデータベースに記憶する電子文書の伝達計画を示す伝達計画情報に基づいて、電子文書間に参照関係がない文書伝達を示す非参照関係情報を抽出する非参照関係抽出処理と、メンバ間で伝達される電子文書に対する文書伝達の階層構造を特定する階層構造特定処理とを実行させ、階層構造特定処理で、データベースに記憶する電子文書の伝達記録を示す伝達記録情報に基づいて、予めデータベースに記憶する伝達計画情報に示される伝達計画に対応する伝達記録を特定する処理と、特定した伝達記録に基づいて、電子文書の伝達の開始者から末端者までの階層構造を特定する処理と、抽出した非参照関係情報に基づいて、電子文書の伝達の開始者から末端者までの階層構造を、非参照関係である文書伝達を含まずに特定する処理とを実行させるためのものである。 An expression unification program according to the present invention is an expression unification program for extracting a parallel corpus, which is an electronic document including synonymous expressions, and unifying synonymous expressions included in the parallel corpus. Non-reference relationship extraction processing for extracting non-reference relationship information indicating document transmission that does not have a reference relationship between electronic documents based on transmission plan information indicating a transmission plan of an electronic document stored in the electronic document, and electrons transmitted between members A transmission plan for storing in a database in advance based on transmission record information indicating a transmission record of an electronic document stored in the database by executing a hierarchical structure specifying process for specifying a hierarchical structure of document transmission for the document. The process of identifying the transmission record corresponding to the transmission plan indicated in the information and the electronic document based on the identified transmission record Process to identify the hierarchical structure from the starter to the end of the document, and the non-reference relationship of the hierarchical structure from the starter to the end of the transmission of the electronic document based on the extracted non-reference relationship information This is to execute the process of specifying without including.
また、表現統一化プログラムは、コンピュータに、特定した文書伝達の階層構造に基づいて、パラレルコーパスを抽出するパラレルコーパス抽出処理を実行させるものであってもよい。 The expression unification program may cause a computer to execute a parallel corpus extraction process for extracting a parallel corpus based on a specified document transmission hierarchical structure.
また、表現統一化プログラムは、コンピュータに、特定した文書伝達の階層構造を示す情報をデータベースに記憶させる階層構造記憶処理と、電子文書に含まれる同義表現を修正する修正処理とを実行させ、修正処理で、電子文書中の文字列に対する修正文字列を入力する処理と、電子文書を含む文書伝達の階層構造を示す情報をデータベースから抽出する処理と、抽出した文書伝達の階層構造を示す情報に含まれる伝達記録を全て抽出する処理と、抽出した伝達記録に対応する全ての電子文書とメンバを示す情報とを抽出する処理と、抽出した電子文書に基づいて修正対象の文字列を検索して抽出する処理と、修正対象の文字列を修正文字列に修正する処理とを実行させるものであってもよい。 Further, the expression unification program causes the computer to execute a hierarchical structure storage process for storing information indicating the specified document transmission hierarchical structure in a database and a correction process for correcting the synonymous expression included in the electronic document. In processing, processing for inputting a corrected character string for a character string in the electronic document, processing for extracting information indicating the hierarchical structure of document transmission including the electronic document from the database, and information indicating the extracted hierarchical structure of document transmission A process for extracting all included transfer records, a process for extracting all electronic documents corresponding to the extracted transfer records and information indicating members, and searching for a character string to be corrected based on the extracted electronic documents. You may perform the process which extracts, and the process which corrects the character string of correction object to a correction character string.
また、表現統一化プログラムは、コンピュータに、階層構造特定処理で、予めデータベースに記憶する伝達計画情報に基づいて、予め計画されている文書伝達の階層構造を特定することによって、電子文書間の参照関係を抽出する処理を実行させるものであってもよい。 In addition, the expression unification program refers to electronic documents by identifying the hierarchical structure of document transmission planned in advance based on the transmission plan information stored in the database in advance in the hierarchical structure specifying process. You may perform the process which extracts a relationship.
本発明による第1のシステムは、「どの文書を」、「誰から」、「誰へ」、「いつ」、「どのように」伝達するかをまとめたコミュニケーション計画を記憶するコミュニケーション計画データベースと、「どの文書が」、「誰から」、「誰へ」、「いつ」、「どのように」伝達されたかの記録をまとめた伝達文書情報を記憶する伝達文書データベースと、コミュニケーション計画に基づいて文書伝達の非参照関係を抽出する非参照関係抽出手段と、文書伝達の階層構造を特定し電子文書間の参照関係を抽出する階層構造特定手段と、抽出した参照関係に基づいて文書伝達の中継者を特定しパラレルコーパスを抽出するパラレルコーパス抽出手段とを備えることを特徴とする。 A first system according to the present invention includes a communication plan database for storing a communication plan that summarizes what documents are to be transmitted, from whom, to whom, when, and how. A communication document database that stores transmission document information that summarizes the records of which documents were transmitted from whom, from whom, to whom, when, and how, and document transmission based on the communication plan A non-reference relation extracting means for extracting the non-reference relation of the document, a hierarchical structure specifying means for specifying the hierarchical structure of the document transmission and extracting the reference relation between the electronic documents, and a document transmission relay person based on the extracted reference relation. And a parallel corpus extracting means for identifying and extracting the parallel corpus.
上記のような構成を採用し、電子文書の伝達記録に基づいて文書伝達の階層構造を特定でき、電子文書の参照関係を抽出できることにより、本発明の第1の目的を達成することができる。 By adopting the configuration as described above, the hierarchical structure of document transmission can be specified based on the electronic document transmission record, and the reference relationship of the electronic document can be extracted, so that the first object of the present invention can be achieved.
また、本発明による第2のシステムは、第1のシステムの構成要素のうち、パラレルコーパス抽出手段に代えて、階層構造を記憶する階層構造データベースと、文書修正を行い階層構造の情報を用いて文書を修正した旨を伝えるメンバを特定する修正手段とを有する。 Further, the second system according to the present invention uses a hierarchical structure database that stores a hierarchical structure instead of the parallel corpus extraction means among the components of the first system, and uses the hierarchical structure information by performing document correction. Correction means for specifying a member that reports that the document has been corrected.
上記のような構成を採用し、伝達された電子文書を修正できるとともに、各電子文書が誰に参照されているかを特定できることにより、本発明の第2の目的を達成することができる。 The second object of the present invention can be achieved by adopting the above-described configuration and correcting the transmitted electronic document and specifying who is referring to each electronic document.
また、本発明による第3のシステムは、第1のシステムの構成要素のうち、パラレルコーパス抽出手段と伝達文書データベースとに代えて、コミュニケーション計画に基づいて文書伝達の階層構造を特定する処理を有する階層構造特定手段を備えることを特徴とする。すなわち、第3のシステムが有する階層構造特定手段は、伝達文書情報を利用しない点で、第1のシステムが有する階層構造特定手段と異なる。 Further, the third system according to the present invention has processing for specifying a hierarchical structure of document transmission based on a communication plan, instead of the parallel corpus extraction means and the transmission document database among the components of the first system. A hierarchical structure specifying means is provided. That is, the hierarchical structure specifying unit included in the third system is different from the hierarchical structure specifying unit included in the first system in that the transmission document information is not used.
上記のような構成を採用し、予め与えられるコミュニケーション計画に基づいて文書参照関係を抽出できることにより、本発明の第3の目的を達成することができる。 By adopting the configuration as described above and extracting a document reference relationship based on a communication plan given in advance, the third object of the present invention can be achieved.
また、本発明による第4のシステムは、第3のシステムの構成要素に加えて、電子文書の伝達記録を記憶する伝達文書情報データベースと、コミュニケーション計画と伝達文書情報との間の差分を抽出する差分抽出手段とを備えることを特徴とする。 In addition to the components of the third system, the fourth system according to the present invention extracts a transmission document information database storing a transmission record of an electronic document, and a difference between the communication plan and the transmission document information. And a difference extraction means.
上記のような構成を採用し、電子文書を参照したメンバ、及びその文書伝達の時期の適切さを明確に評価することができ、本発明の第4の目的を達成することができる。 By adopting the configuration as described above, it is possible to clearly evaluate the appropriateness of members referring to electronic documents and the timing of document transmission, and the fourth object of the present invention can be achieved.
本発明によれば、パラレルコーパスを抽出するために、メンバ間で伝達される電子文書に対する文書伝達の階層構造を特定するので、電子文書伝達の階層構造を特定することにより、パラレルコーパスを効率的に抽出することができる。 According to the present invention, in order to extract a parallel corpus, the hierarchical structure of document transmission for an electronic document transmitted between members is specified. Therefore, by specifying the hierarchical structure of electronic document transmission, the parallel corpus is efficiently Can be extracted.
また、本発明によれば、通常、情報共有するためにネットワーク状になる電子文書の伝達関係から特定した文書伝達の階層構造に基づいて、電子文書間の参照関係を抽出することができる。また、パラレルコーパスを生成する可能性が高い文書伝達の中継者を特定できる。そのため、一連の文書伝達における全ての電子文書を比較することなく、効率的にパラレルコーパスを抽出することができる。従って、電子文書の伝達記録に基づいて、電子文書のパラレルコーパスを効率的に抽出することができる。 In addition, according to the present invention, it is possible to extract the reference relationship between electronic documents based on the hierarchical structure of document transmission specified from the transmission relationship of electronic documents that are usually networked for information sharing. Further, it is possible to identify a document transfer relay person who is highly likely to generate a parallel corpus. Therefore, a parallel corpus can be efficiently extracted without comparing all electronic documents in a series of document transmissions. Therefore, the parallel corpus of the electronic document can be efficiently extracted based on the electronic document transmission record.
また、本発明によれば、コミュニケーション計画及び伝達記録に基づいて2つの文書伝達構造を特定することができ、電子文書の伝達記録と伝達計画との差分(ギャップ)を求めることにより、文書伝達の遅延、余分な文書伝達、及び文書伝達の不足等を抽出することができる。そのため、コミュニケーション計画と伝達記録との差に基づいて、文書伝達状態を評価することができる。 In addition, according to the present invention, two document transmission structures can be specified based on the communication plan and the transmission record, and by obtaining a difference (gap) between the transmission record of the electronic document and the transmission plan, Delays, extra document transmission, lack of document transmission, etc. can be extracted. Therefore, it is possible to evaluate the document transmission state based on the difference between the communication plan and the transmission record.
以下、本発明を実施するための最良の形態について図面を参照して説明する。 The best mode for carrying out the present invention will be described below with reference to the drawings.
実施の形態1.
まず、本発明の第1の実施の形態について図面を参照して説明する。図1は、本発明による文書参照関係抽出システム100を用いた表現統一システム300の構成の一例を示すブロック図である。一般に、情報共有するために作成した電子文書を他の人に伝達する(例えば、電子メール等を用いて転送する)過程において、その電子文書を参照した人が表現を修正することにより、同義表現を含む電子文書(パラレルコーパス)が発生する傾向がみられる。本実施の形態では、このような傾向を利用して、文書参照関係抽出システム100や表現統一化システム300は、文書伝達の階層構造を特定し、伝達された電子文書間の同義表現を統一化する処理を行う。
First, a first embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing an example of a configuration of an
図1に示すように、表現統一化システム300は、組織情報データベース310と、伝達文書抽出手段320と、伝達文書データベース330と、文書参照関係抽出システム100と、パラレルコーパス抽出手段340と、同義表現抽出装置350と、同義表現データベース360とを含む。また、文書参照関係抽出システム100は、コミュニケーション計画データベース110と、非参照関係抽出手段120と、階層構造特定手段130とを含む。
As shown in FIG. 1, the
また、本実施の形態において、表現統一化システム300は、ユーザの操作に従って、キーボードやマウス等の入力手段510から各種情報を入力する。また、本実施の形態において、表現統一化システム300は、ユーザ間で伝達された電子文書を、文書提供サーバ520から収集する。また、本実施の形態では、表現統一化システム300は、各種情報を、ディスプレイ装置等の出力手段530に出力(例えば、表示)させる。
In the present embodiment, the
なお、本実施の形態では、表現統一化システム300の外部に、入力手段510と、文書提供サーバ520と、出力手段530とを設ける場合を示すが、表現統一化システム300が、入力手段510と、出力手段530とを備えてもよい。また、表現統一化システム300が文書提供サーバ520の機能を備えていてもよい。
In this embodiment, the case where the
また、本実施の形態では、文書参照関係抽出システム100の内部に、コミュニケーション計画データベース110を備える場合を示すが、文書参照関係抽出システム100の外部に、コミュニケーション計画データベース110を設けてもよい。
In this embodiment, the case where the
また、本実施の形態において、文書参照関係抽出システム100や表現統一化システム300は、例えば、プログラムに従って動作するコンピュータ(例えば、パーソナルコンピュータ等の情報処理装置)によって実現される。
In the present embodiment, the document reference
以下の説明では、あるプロジェクトにおいて、プロジェクト内のメンバが、e−mail(電子メール)を用いて、電子文書として「週報」を、コミュニケーション計画に則って提出する場合を例として説明する。ただし、本例は、本発明の説明を容易にするためのものであり、本発明の適用範囲を制限するものではない。また、以下、ユーザ間で電子メール等の転送手段を用いて電子文書を転送することを、電子文書を伝達すると表現する。また、ユーザ間で伝達された電子文書のことを伝達文書とも表現する。 In the following description, an example will be described in which a member in a project submits “weekly report” as an electronic document in accordance with a communication plan using e-mail (e-mail). However, this example is for facilitating the description of the present invention and does not limit the scope of application of the present invention. Hereinafter, transferring an electronic document between users using a transfer means such as an electronic mail is expressed as transmitting the electronic document. An electronic document transmitted between users is also expressed as a transmitted document.
本実施の形態では、文書参照関係抽出システム100は、企業等の組織内において、予め定められた電子文書の伝達計画(コミュニケーション計画)に従って電子文書の伝達が行われる場合に、実際に行なわれた電子文書の伝達の階層構造を抽出する用途に用いられる。また、表現統一化システム300は、文書参照関係抽出システム100によって抽出された電子文書伝達の階層構造を利用して、伝達前後の電子文書間に含まれる同義表現を統一する用途に用いられる。
In the present embodiment, the document reference
入力手段510は、具体的には、キーボードやマウス等の入力デバイスである。入力手段510は、ユーザの操作に従って、組織情報を入力する。なお、表現統一化システム300は、入力手段510から入力した組織情報を組織情報データベース310に記憶する。また、入力手段510は、ユーザの操作に従って、コミュニケーション計画を入力する。なお、文書参照関係抽出システム100は、入力手段510から入力したコミュニケーション計画をコミュニケーション計画データベース110に記憶する。
Specifically, the
組織情報データベース310は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。組織情報データベース310は、予め組織情報を記憶している。「組織情報」とは、電子文書の伝達が行われる組織の構成を示す情報である。本実施の形態において、組織情報は、文書伝達に関わる各メンバを識別するためのメンバIDと、各メンバが所属する所属グループを識別するためのグループIDとを含むものとする。メンバIDは、各メンバに対して各人を識別するために付与されるものであり、例えば企業における社員番号等である。グループIDは、所属グループを識別するためのIDである。また、組織情報は、その他の情報として、分析結果を通知するためのメールアドレス等の連絡先や、氏名、年齢、役職、専門分野等の各メンバの個人情報等を含む。
Specifically, the
なお、本実施の形態において、組織情報は、組織内の管理者等によって予め作成され、組織情報データベース310に登録されているものとする。例えば、組織情報は、プロジェクトや組織管理用のツール等に記録されているデータから抽出してもよいし、人が入力手段510を用いて入力してもよい。また、機械可読であれば、紙面等に書かれた組織情報をOCR等で読み込むようにしても構わない。
In the present embodiment, it is assumed that the organization information is created in advance by an administrator in the organization and registered in the
図2は、組織情報の一例を示す説明図である。図2に示す組織情報によれば、表現統一化システム300が適用される組織は、メンバ数が7名であり、グループ数が3つであることが分かる。なお、1人のメンバが複数のグループに所属しても構わないし、複数の役職を兼務していてもよい。また、1人のメンバが複数のe−mailアドレスを所持していても構わない。説明の簡単化のため、本実施の形態では、各メンバが1つのグループにのみ所属しているものとする。
FIG. 2 is an explanatory diagram illustrating an example of organization information. According to the organization information shown in FIG. 2, it can be seen that the organization to which the
コミュニケーション計画データベース110は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。コミュニケーション計画データベース110は、予めコミュニケーション計画を蓄積する。「コミュニケーション計画」とは、組織内における電子文書の伝達計画を示す情報である。コミュニケーション計画は、「どの文書を(文書名)」、「いつ(伝達予定日時)」、「誰から(Fm)」、「誰に(To)」、「どのようにして(伝達手段)」伝達するかを示す計画情報と、各計画を識別するための計画番号(No)とを含む。また、コミュニケーション計画は、ある一連の文書伝達に関して作成されるものである。また、本実施の形態では、1つの一連の伝達計画には、1つの計画書番号(No)が与えられるものとする。なお、これらの情報は一例であり、コミュニケーション計画が含む情報は、これらに限定されるものではない。
Specifically, the
なお、本実施の形態において、コミュニケーション計画は、組織内の管理者等によって予め作成され、コミュニケーション計画データベース110に登録されているものとする。例えば、コミュニケーション計画は、管理者等の操作に従って、入力手段510から入力される。また、例えば、所定の資料(電子文書)から、既存の情報抽出技術を用いて、電子文書の伝達予定日時や、文書名、伝達元、伝達先、伝達手段を示す情報を抽出し、コミュニケーション計画表を自動生成するようにしてもよい。
In this embodiment, it is assumed that the communication plan is created in advance by an administrator in the organization and registered in the
図3は、コミュニケーション計画の一例を示す説明図である。本実施の形態では、送信者が同一である1つの文書を伝達する計画に対して、同一の計画番号(No)が付与される。図3に示すコミュニケーション計画において、伝達予定日時には、各電子文書を伝達する予定日時が格納される。なお、伝達予定日時の指定は日単位に限らず、例えば、時間単位で行ってもよいし、午前や午後等の情報を含んでいてもよい。また、いつからいつまでといった期間を示す情報で指定してもよいし、毎週金曜日や月末等の言語的表現を用いて電子文書の伝達予定時を指定してもよい。 FIG. 3 is an explanatory diagram illustrating an example of a communication plan. In the present embodiment, the same plan number (No) is assigned to a plan for transmitting one document having the same sender. In the communication plan shown in FIG. 3, the scheduled transmission date / time stores the scheduled date / time for transmitting each electronic document. The designation of the scheduled transmission date / time is not limited to a day unit, and may be performed in a unit of time or may include information such as morning or afternoon. Further, it may be specified by information indicating a period from when to when, or the scheduled transmission time of the electronic document may be specified using a linguistic expression such as every Friday or the end of the month.
なお、コミュニケーション計画の各レコードは、伝達予定日時順に並んでコミュニケーション計画データベース110に格納されているものとする。また、文書名の欄には、e−mailに含まれる件名や、ファイル名等の電子文書を特定するための情報が格納されている。
Note that each record of the communication plan is stored in the
各メンバは、この文書名に合わせて、e−mailの件名やファイル名等を付けるものとする。例えば、週報の電子文書について予め「週報」という文書名を付与することにルール決めされている場合には、組織内の各メンバは、その電子文書を電子メールを用いて伝達する場合に、電子メールの件名を「週報」として、その電子文書を電子メールに添付して送信する。また、組織内の各メンバは、作成又は編集した電子文書に「週報」というファイル名をつける。 Each member shall attach an e-mail subject name, file name, etc. in accordance with the document name. For example, when it is determined in advance that a document name of “weekly report” is assigned to a weekly electronic document, each member in the organization transmits an electronic document using an electronic mail. The subject of the email is “weekly report” and the electronic document is attached to the email and sent. Each member in the organization gives the file name “weekly report” to the created or edited electronic document.
また、図3において、「Fm(伝達元)」及び「To(伝達先)」には、文書伝達における「誰から」及び「誰に」が含まれ(すなわち、伝達文書の伝達先と伝達元とが含まれ)、記載内容には個人が識別できるメンバID等が用いられる。ただし、各メンバを特定できる情報であれば、メンバID以外の情報を用いても構わない。また、システムの利用者によるコミュニケーション計画の入力の負担を軽減するため、Fm及びToはグループIDにより指定することもできる。Fmがグループで指定されており、且つ、そのグループの各メンバが異なる電子文書を作成し伝達する場合には、前述した規則に従い、各電子文書に異なる計画番号(No)が与えられるものとする。 In FIG. 3, “Fm (transmission source)” and “To (transmission destination)” include “from whom” and “who” in document transmission (that is, the transmission destination and transmission source of the transmission document). The member ID etc. which an individual can identify are used for description contents. However, information other than the member ID may be used as long as the information can identify each member. In addition, Fm and To can be specified by a group ID in order to reduce the burden of inputting a communication plan by a system user. When Fm is specified in a group and each member of the group creates and transmits a different electronic document, a different plan number (No) is given to each electronic document in accordance with the rules described above. .
また、図3において、伝達手段の欄には、伝達に用いる手段が含まれる。例えば、コミュニケーション計画の伝達手段のランには、e−mail(電子メール)等の手段を示す情報が含まれる。なお、伝達手段の欄には、e−mailに限らず、例えば、FAX(ファクシミリ)や、印刷物の郵送、電子掲示板への書込み、指定フォルダへのファイルのアップロード等の様々な伝達方法が含まれてもよい。すなわち、伝達した電子文書の電子ファイルが特定できれば、いかなる伝達手段を用いても構わない。 Also, in FIG. 3, the means for transmission is included in the transmission means column. For example, the communication plan transmission means run includes information indicating means such as e-mail (e-mail). The transmission means column is not limited to e-mail, but includes various transmission methods such as FAX (facsimile), mailing of printed materials, writing on an electronic bulletin board, and uploading of files to designated folders. May be. That is, any transmission means may be used as long as the electronic file of the transmitted electronic document can be specified.
また、コミュニケーション計画データは、人が入力手段510を用いて入力してもよいし、機械可読であれば、紙面上のコミュニケーション計画からOCR等により読み込むようにしてもよい。また、自由記述による伝達の計画書が存在する場合は、既存のテキスト処理技術を用いて、その計画書からコミュニケーション計画を抽出してもよい。
Communication plan data may be input by a person using the
また、図3には、「週報」に関するコミュニケーション計画の例が示されており、計画書番号(No)として1が付与されている。また、計画No(P001,P002,P003)に示される各レコードによれば、2006年9月28日に、メンバM3,M4,M5が、それぞれグループG2の各メンバに「週報」をe−mail(電子メール)により伝達する予定であることが分かる。また、計画No(P004)に示されるレコードによれば、次の日の2006年9月29日に、メンバM2が、マネージャM1とグループG2の各メンバに「週報」を伝達する予定であることが分かる。また、計画No(P005)に示されるレコードによれば、2006年9月29日に、メンバM1が、グループ3の各メンバに「週報」をe−mailにより伝達する計画になっていることが分かる。
FIG. 3 shows an example of a communication plan related to “weekly report”, and 1 is assigned as a plan number (No). Further, according to each record shown in the plan No. (P001, P002, P003), on September 28, 2006, the members M3, M4, and M5 e-mail “weekly report” to each member of the group G2. It is understood that it is scheduled to be transmitted by (e-mail). Further, according to the record shown in the plan No. (P004), on the next day, September 29, 2006, the member M2 is scheduled to transmit “weekly report” to each member of the manager M1 and the group G2. I understand. Further, according to the record shown in the plan No. (P005), on September 29, 2006, the member M1 is scheduled to transmit “weekly report” to each member of the
伝達文書抽出手段320は、具体的には、プログラムに従って動作する情報処理装置のCPU及びネットワークインタフェース部によって実現される。伝達文書抽出手段320は、所定のプロジェクトにおいて作成された電子文書や、e−mail(電子メール)等を用いて伝達された電子文書が保存されている文書提供サーバ520から、各電子文書の伝達文書情報を抽出する機能を備える。また、伝達文書抽出手段320は、抽出した伝達文書情報を伝達文書データベース330に保存する機能を備える。
Specifically, the transfer
本実施の形態では、組織内において共有サーバ(文書提供サーバ520)を用いて、各電子文書が共有化されており、文書提供サーバ520は、各電子文書が伝達されたログ情報(伝達文書情報)を記憶している。伝達文書抽出手段320は、例えば、所定期間毎に(例えば、毎日1回)、文書提供サーバ520に自動アクセスし、LAN等のネットワークを介して、文書提供サーバ520から伝達文書情報を受信して伝達文書データベース330に記憶させる。また、例えば、伝達文書抽出手段320は、文書提供サーバ520に新たに電子文書が格納されたことをトリガとして、文書提供サーバ520に自動アクセスし、ネットワークを介して、文書提供サーバ520から伝達文書情報を受信して伝達文書データベース330に記憶させる。
In this embodiment, each electronic document is shared by using a shared server (document providing server 520) in the organization, and the
なお、文書提供サーバ520(共有サーバ)は、1台に限らず、組織内に複数台備えられていてもよい。例えば、文書提供サーバ520として、メールサーバやファイルサーバ等の複数種類のサーバが備えられていてもよい。また、例えば、文書提供サーバ520として、同じ種類の共通サーバ(例えば、ファイルサーバ)が複数台備えられていてもよい。
Note that the document providing server 520 (shared server) is not limited to one, and a plurality of documents may be provided in the organization. For example, as the
伝達文書情報は、電子文書の伝達状況を示すログ情報である。本実施の形態では、伝達文書情報には、「文書ID」、「伝達日時」、「文書名」、「Fm(伝達元)」、「To(伝達先)」及び「伝達手段」が含まれている。また、伝達文書情報は、これら伝達記録を示す情報とともに電子文書の内容を含んでいてもよい。 The transmission document information is log information indicating the transmission status of the electronic document. In the present embodiment, the transmission document information includes “document ID”, “transmission date / time”, “document name”, “Fm (transmission source)”, “To (transmission destination)”, and “transmission means”. ing. Further, the transmission document information may include the contents of the electronic document together with information indicating these transmission records.
文書IDは、各電子文書を識別するための識別情報である。本実施の形態では、同一の日時に同じ人によって伝達された同一の内容の電子文書に対しては、1つの文書IDが付与される。伝達日時は、電子文書が伝達された日と時間とを示す情報である。FmとToとは、誰から誰に伝達文書が伝達されたか(電子文書の伝達元と伝達先)を示す情報である。伝達手段は、どのようなメディアを用いて文書伝達が行われたかを示す情報である。例えば、伝達文書情報は、メディアとして、e−mail(電子メール)やFAX(ファクシミリ)、印刷物の郵送等の様々な形式の伝達手段の情報を含む。 The document ID is identification information for identifying each electronic document. In the present embodiment, one document ID is assigned to electronic documents having the same contents transmitted by the same person at the same date and time. The transmission date and time is information indicating the date and time when the electronic document is transmitted. Fm and To are information indicating from whom to whom the transmission document is transmitted (transmission source and transmission destination of the electronic document). The transmission means is information indicating what kind of media is used for document transmission. For example, the transmission document information includes information on various types of transmission means such as e-mail (electronic mail), FAX (facsimile), and mailing of printed matter as media.
伝達文書抽出手段320は、例えば、e−mailによる伝達であれば、電子メールのヘッダや、メールサーバが記憶するログ情報に基づいて、各メールのFm(伝達元)とTo(伝達先)とを抽出し、電子メールの件名を文書名として抽出する。そして、伝達文書抽出手段320は、抽出した伝達元や伝達先、文書名を含む伝達文書情報を、伝達文書データベース330に記憶させる。
For example, in the case of transmission by e-mail, the transmission
また、共有のフォルダや文書管理ツール等にアップロードして電子文書を伝達する場合であれば、伝達文書抽出手段320は、アップロードしたファイルのファイル名を文書名とし、アップロードした人をFm(伝達元)、そのファイルを参照した人をTo(伝達先)、伝達日時をアップロードした日時として、伝達文書情報を抽出すればよい。また、電子ファイルを印刷し郵送/手渡ししたものであっても、伝達文書抽出手段320は、伝達過程における郵送前後の文書伝達に関する伝達記録があれば、郵送による伝達がなされたものであると判断し、伝達記録に加えることもできる。 In the case of transmitting an electronic document by uploading it to a shared folder or a document management tool or the like, the transmission document extraction means 320 uses the file name of the uploaded file as the document name and designates the uploader as Fm (transmission source ), The transmission document information may be extracted with the person who referred to the file as To (transmission destination) and the transmission date and time as the upload date and time. Even if the electronic file is printed and mailed / handed, the transmission document extracting means 320 determines that the transmission by mail has been made if there is a transmission record regarding document transmission before and after the mail in the transmission process. It can also be added to the transmission record.
伝達文書データベース330は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。伝達文書データベース330は、伝達文書抽出手段320が抽出した伝達文書情報を記憶する。
Specifically, the
なお、伝達文書データベース330は、伝達文書情報を、コミュニケーション計画において伝達が計画されているものと、そうでないものとを判別できるように保存しておく。例えば、伝達文書データベース330は、各伝達文書情報に計画の有無のフラグを付与することや、計画の有無で伝達文書の保存先やファイルを変える等の方法によって、伝達文書情報を判別可能に記憶する。なお、伝達文書抽出手段320は、各電子文書と各コミュニケーション計画との対応関係を、伝達文書情報とコミュニケーション計画とのFm(伝達元)とTo(伝達先)とが一致していることを前提条件として、電子文書名の類似性に基づいて判定することができる。また、伝達文書抽出手段320は、電子文書名中の文字列が完全一致していることを絶対条件としてもよいし、表記ゆれ等に対応するために、電子文書名中の共通文字列の割合等により類似度を求めて判定してもよい。
Note that the
例えば、コミュニケーション計画と伝達文書情報とにおける文書名がそれぞれ「週報20060928」、「週報2006年 9月28日」であり、同一のFm(伝達元)とTo(伝達先)とであるとする。この場合、両文書名の平均文字数の11文字中、共通する文字数が10文字あるため、文字の一致率を求めると10/11≒0.91となる。この文字の一致率を類似度として用いて、類似の基準を文字の一致率が0.8以上である場合に類似であるとすれば、伝達文書抽出手段320は、類似度判定をすることによって、コミュニケーション計画と伝達文書情報とを対応づけることができる。また、伝達文書抽出手段320は、単純に文字の一致数だけではなく、オントロジ辞書等を用いて「2006-09-28」と「平成18年 9月28日」とが同じ意味であると判断する等、意味的な類似尺度を用いてもよい。
For example, it is assumed that the document names in the communication plan and the transmission document information are “weekly report 20060928” and “weekly report September 28, 2006”, respectively, and have the same Fm (transmission source) and To (transmission destination). In this case, since there are 10 characters in common among the 11 characters of the average number of characters in both document names, the character matching rate is 10 / 11≈0.91. If this character match rate is used as the similarity, and the similarity is determined to be similar when the character match rate is 0.8 or more, the transfer
また、コミュニケーション計画の予定伝達日時と伝達文書情報の伝達日時とが離れている日時である場合には、伝達文書抽出手段320は、文書名が類似していても、それらコミュニケーション計画と伝達文書情報とが対応関係がないと判定することもできる。例えば、伝達文書抽出手段320は、文書名が「週報」である場合に、実際の伝達日時が伝達予定日時よりも7日以上遅れていれば、別の週の週報と判断して扱うこともできる。この場合、電子文書における対応関係を判定する伝達日時と伝達予定日時との差は、システムの利用者により任意に決定できるものとする。
If the scheduled transmission date / time of the communication plan is different from the transmission date / time of the transmission document information, the transmission
なお、伝達文書抽出手段320は、コミュニケーション計画のFm(伝達元)及びTo(伝達先)にグループによる指定がある場合には、類似性を測る(判定する)際にコミュニケーション計画を展開しておく。「コミュニケーション計画の展開」とは、組織情報のグループとメンバとの関係を参照して、コミュニケーション計画データを各メンバ同士の伝達計画にすることである。このとき、展開時にFm(伝達元)とTo(伝達先)とが同じになるものは、伝達計画から除外しておく。
The transmission
図4は、伝達文書情報の一例を示す説明図である。図4において、図中の計画書番号(No)は、対応するコミュニケーション計画の計画書番号(No)を表している。図4において、例えば、文書ID「D101」の週報は、2006年9月28日の17:00に、メンバM3からそれぞれメンバM2,M4,M5に文書伝達されたことが分かる。 FIG. 4 is an explanatory diagram showing an example of the transfer document information. In FIG. 4, the plan number (No) in the figure represents the plan number (No) of the corresponding communication plan. In FIG. 4, for example, the weekly report of the document ID “D101” is transmitted from the member M3 to the members M2, M4, and M5 at 17:00 on September 28, 2006, respectively.
また、図5は、コミュニケーション計画「No.P001」を展開した例を示す説明図である。図5に示す例では、メンバM3からグループG2への文書伝達を示すコミュニケーション計画が、メンバM3からグループG2の各メンバそれぞれへの文書伝達を示すコミュニケーション計画に展開されている。ただし、図5に示す例では、メンバM3もグループG2のメンバの1人であるため、伝達文書抽出手段320は、展開後のコミュニケーション計画から、メンバM3からメンバM3への文書伝達に係るレコード(図5に示す網掛け部705)を削除する。
5 is an explanatory diagram showing an example in which the communication plan “No. P001” is developed. In the example shown in FIG. 5, the communication plan indicating document transmission from the member M3 to the group G2 is developed into a communication plan indicating document transmission from the member M3 to each member of the group G2. However, in the example shown in FIG. 5, since the member M3 is also one of the members of the group G2, the transfer
文書参照関係抽出システム100は、伝達文書データベース330に記憶される伝達文書情報と、コミュニケーション計画データベース110に記憶されるコミュニケーション計画とに基づいて、文書伝達の階層構造を特定する機能を備える。また、文書参照関係抽出システム100は、特定した文書伝達の階層構造を示す情報をパラレルコーパス抽出手段340に出力する機能を備える。
The document reference
本実施の形態では、文書参照関係抽出システム100は、ユーザ(組織内のいずれかのグループのメンバ)の指示操作に従って、文書伝達の階層構造の特定処理を実行する。例えば、ユーザが情報処理装置が備える表示装置に表示された所定の入力フォームから「実行」ボタンをマウスクリック等すると、文書参照関係抽出システム100は、文書伝達の階層構造の特定処理を開始する。
In the present embodiment, the document reference
図6は、図3に示すコミュニケーション計画における文書伝達を模式的にネットワークとして表した説明図である。図6において、ノードはメンバを表し、ノード間の矢印は電子文書の伝達関係を表している。図6に示すように、各メンバM3,M4,M5のノードから文書伝達のパスがネットワーク状に広がっている。そのため、このままでは、メンバM3,M4,M5間の文書伝達の階層構造を特定できない。文書参照関係抽出システム100は、図6に示すようなネットワーク状の文書伝達構造の状態から、電子文書間の参照関係を抽出するものである。
FIG. 6 is an explanatory diagram schematically showing document transmission in the communication plan shown in FIG. 3 as a network. In FIG. 6, nodes represent members, and arrows between the nodes represent electronic document transmission relationships. As shown in FIG. 6, the document transmission path extends from the nodes of the members M3, M4, and M5 in the form of a network. For this reason, the document transmission hierarchical structure among the members M3, M4, and M5 cannot be specified as it is. The document reference
非参照関係抽出手段120は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。非参照関係抽出手段120は、電子文書間に参照関係が生じない文書伝達を抽出する機能を備える。まず、非参照関係抽出手段120は、コミュニケーション計画に基づいて計画表を作成する。計画表とは、同一の計画番号(No)のコミュニケーション計画において、同じ伝達予定日時における文書伝達計画の有無を表形式にまとめて示したテーブルである。
Specifically, the non-reference
非参照関係抽出手段120は、計画表を、以下の処理に従って作成する。まず、非参照関係抽出手段120は、コミュニケーション計画におけるFm(伝達元)とTo(伝達先)との和集合を求める。次いで、非参照関係抽出手段120は、同一の伝達予定日時毎に、対応するメンバの集合を行と列とに配置した正方行列を作成する。ここで、作成した正方行列の行方向は文書伝達におけるFm(伝達元)を表し、列方向はTo(伝達先)を表す。次いで、非参照関係抽出手段120は、計画表のFm(伝達元)とTo(伝達先)との間において、文書伝達の計画がある箇所には1を付与し、文書伝達の計画のない箇所には0を付与する。
The non-reference
以上の処理を行うことによって、非参照関係抽出手段120は、計画表を作成する。図7は、非参照関係抽出手段120が作成する計画表の一般例を示す説明図である。図7に示す計画表において、最左列は文書伝達におけるFm(伝達元)のメンバIDを示し、最上段の行はTo(伝達先)のメンバIDを示している。また、t番目の計画表をPtと表記し、tの値が大きいほど伝達予定日時が遅いものとする。また、図7に示す計画表において、丸で囲まれた部分707は、メンバM1からメンバM7に文書伝達の計画があることを意味する。
By performing the above processing, the non-reference
図8は、非参照関係抽出手段120が図3に示すコミュニケーション計画に基づいて実際に作成した計画表及び非参照関係表を示す説明図である。また、図8(a)は、伝達予定日時が2006年9月28日である分の計画表(P1)を示している。また、図8(b)は、伝達予定日時が2006年9月28日である分の計画表(P2)を示している。なお、図8では、計画表を見やすくするため、0を省略して表記している。
FIG. 8 is an explanatory diagram showing a plan table and a non-reference relationship table actually created by the non-reference
非参照関係抽出手段120は、計画表において、図8(a)に示す計画表P1中の四角枠で囲まれた部分708のように、i番目のメンバMiとj番目のメンバMjとが相互に電子文書を伝達している場合、メンバMiとメンバMjとの間には参照関係がないものと判断する。すなわち、一般に、2人のメンバ間で相互に電子文書のやりとりが行われる場合には、相互に電子文書の参照を行うだけで電子文書の修正/編集作業は行われない傾向が強い。そのため、このような傾向を利用して、非参照関係抽出手段120は、2人のメンバ間で相互に電子文書のやりとりが行われる場合には、参照関係がないものと判断する。
The non-reference
具体的には、図8に示すように、非参照関係抽出手段120は、同一の伝達予定日時の計画表Ptにおいて、Pt(i,j)とPt(j,i)とがともに1となる伝達計画を非参照関係と判断する。なお、ここで、P(i,j)は、計画表におけるメンバMiからメンバMjへの伝達関係を表す。そして、非参照関係抽出手段120は、求めた非参照関係を示すテーブルである非参照関係表を生成する。図8(c)は、図8(a)に示す計画表から得られる非参照関係を示している。
Specifically, as shown in FIG. 8, the non-reference
図8(c)に示すように、非参照関係表には、伝達計画番号(No)、Fm(伝達元)及びTo(伝達先)が含まれる。非参照関係表に示される計画番号(No)のFm(伝達元)とTo(伝達先)とに該当する文書伝達には参照関係がないことを意味する。すなわち、図4に示される伝達文書情報のうち、行番号がそれぞれ2、3、5、6、8及び9である伝達文書情報に示される文書伝達は、参照関係が生じない文書伝達と判断できる。 As shown in FIG. 8C, the non-reference relationship table includes a transmission plan number (No), Fm (transmission source), and To (transmission destination). This means that there is no reference relationship in document transmission corresponding to Fm (transmission source) and To (transmission destination) of the plan number (No) shown in the non-reference relationship table. That is, in the transmission document information shown in FIG. 4, the document transmission shown in the transmission document information whose line numbers are 2, 3, 5, 6, 8, and 9, respectively, can be determined as document transmission in which no reference relationship occurs. .
なお、非参照関係抽出手段120は、組織情報を用いて非参照関係表を作成するようにしてもよい。例えば、非参照関係抽出手段120は、組織情報に基づいて、同一の役職間においては参照がないとしてしてもよいし、同一グループ間での参照関係はないとしてもよい。また、非参照関係抽出手段120は、グループと役職等複数の条件とを組み合わせて非参照関係表を作成してもよいし、非参照関係表を人が入力手段510を用いて修正/入力/削除できるようにしてもよい。
The non-reference
階層構造特定手段130は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。階層構造特定手段130は、コミュニケーション計画データベース110が記憶するコミュニケーション計画、及び伝達文書データベース330が記憶する伝達文書情報に基づいて、同一種類の電子文書群における「文書伝達の階層構造」を特定する機能を備える。この場合、階層構造特定手段130は、非参照関係抽出手段120が作成した非参照関係表を利用して、文書伝達の階層構造を特定する。
Specifically, the hierarchical
図9は、階層構造特定手段130が文書伝達の階層構造を特定する処理のアルゴリズムの一例を示す説明図である。以下、図9に示すアルゴリズムに従って、階層構造特定手段130の動作について説明する。まず、階層構造特定手段130は、各コミュニケーション計画に対応する伝達文書情報を伝達文書データベース330から抽出する(図9のステップA1)。次に、階層構造特定手段130は、伝達文書情報に基づいて、伝達表を作成する(図9のステップA2)。伝達表とは、コミュニケーション計画において同じ伝達予定日時が計画されている伝達文書情報において、文書伝達の有無を同一の伝達日時毎に表形式でまとめたテーブルである。
FIG. 9 is an explanatory diagram showing an example of an algorithm for processing in which the hierarchical
なお、階層構造特定手段130は、伝達表が複数作成される場合には、全ての伝達表について図9に示す処理を実行する。そのため、ステップA2において、階層構造特定手段130は、何番目の伝達表について処理を実行しているかを示す係数tに1を代入する。
In addition, when a plurality of transfer tables are created, the hierarchical
階層構造特定手段130は、伝達表を、以下の手順に従って作成する。まず、階層構造特定手段130は、指定されたコミュニケーション計画に対応する伝達文書情報からFm(伝達元)とTo(伝達先)との和集合を求める。次いで、階層構造特定手段130は、同一の伝達日時毎に、対応するメンバの集合を行と列とに配置した正方行列を作成する。ここで、作成した正方行列の行方向は文書伝達におけるFm(伝達元)を表し、列方向はTo(伝達先)を表す。次いで、階層構造特定手段130は、計画表のFm(伝達元)とTo(伝達先)との間において、文書伝達の計画がある箇所には1を付与し、文書伝達の計画のない箇所には0を付与する。
The hierarchical
以上の処理を行うことによって、階層構造特定手段130は、伝達表を作成する。図10は、階層構造特定手段130が作成する伝達表の一般例を示す説明図である。図10に示す伝達表において、最左列は文書伝達におけるFm(伝達元)のメンバIDを示し、最上段の行はTo(伝達先)のメンバIDを示している。また、図10に示す伝達表おいて、丸で囲まれた部分710は、メンバM5からメンバM7に文書伝達が行われたことを意味する。また、以下、t番目の伝達表をCtと表記する。また、tの値が大きいほど伝達日時が遅いものとする。
By performing the above processing, the hierarchical
図11は、階層構造特定手段130が図4に示す伝達文書情報に基づいて実際に作成した5つの伝達表、及び伝達表から階層構造を特定する例を示す説明図である。なお、図11に示す伝達表は、文書伝達があった(行中に1が存在する)部分のみを抜粋して示したものである。
FIG. 11 is an explanatory diagram showing five transmission tables actually created by the hierarchical
次に、階層構造特定手段130は、各伝達表内の文書伝達構造を特定する(図9のステップA3)。この場合、階層構造特定手段130は、伝達表Ct内において1が付与されている箇所のFm(伝達元)とTo(伝達先)とをリンクすることで抽出することができる。なお、リンクとは、Fm(伝達元)のメンバからTo(伝達先)のメンバに対して文書伝達が行われたことを記述することを意味し、例えば、Fm(伝達元)からTo(伝達先)に向けて矢印を繋ぐ処理(例えば、リンク情報を付与する処理)に相当する。
Next, the hierarchical
階層構造特定手段130は、リンクの条件式(1)を用いてリンク付けを行う。ただし、この場合、階層構造特定手段130は、非参照関係表に基づいて、非参照関係については抽出しないように処理する。
The hierarchical
式(1)において、iは伝達表Ctにおける縦方向のメンバのインデックスを示し、jは横方向のメンバのインデックスを示す。また、式(1)中の後件部(すなわち、thenの後ろの部分)は、メンバMiからメンバMjへの文書伝達が行われていることを意味する。図11において、各伝達表の右側に示している模式図は、図11に示す伝達表に式(1)を適用して階層構造特定手段130によって求められた文書伝達の階層構造である。
In equation (1), i represents the index of the member in the vertical direction in the transfer table Ct, and j represents the index of the member in the horizontal direction. Further, the consequent part (that is, the part after then) in the expression (1) means that the document transmission from the member Mi to the member Mj is performed. 11, the schematic diagram shown on the right side of each transmission table is a hierarchical structure of document transmission obtained by the hierarchical
以上の処理によって、本実施の形態では、階層構造特定手段130は、まず、参照関係と非参照関係とを両方含んだ伝達表を作成し、さらに、作成した伝達表と非参照関係表とに基づいて、非参照関係を含まない文書伝達の階層構造を特定する。なお、階層構造特定手段130は、非参照関係表に基づいて予め非参照関係を含まない伝達表を作成するようにしてもよい。そのようにすれば、階層構造特定手段130が作成する伝達表のデータ容量を低減することができる。
Through the above processing, in the present embodiment, the hierarchical
次に、階層構造特定手段130は、各伝達表から文書伝達の開始者と末端者とを抽出する(図9のステップA4)。ここで、伝達表Ct中の文書伝達の開始者をMs_tとし、文書伝達の末端者をMe_tとする。この場合、階層構造特定手段130は、開始者Ms_t及び末端者Me_tとを、それぞれ式(2)及び式(3)を用いて抽出することができる。
Next, the hierarchical
式(2)及び式(3)において、Nmはメンバの数を示し、Ma_tは伝達表Ctにおけるa番目のメンバを示す。図11に示すように、各伝達表において、文書伝達の開始者と末端者とが複数人いることもある。 In Expressions (2) and (3), Nm indicates the number of members, and Ma_t indicates the a-th member in the transfer table Ct. As shown in FIG. 11, in each transmission table, there may be a plurality of document transmission starters and endorsers.
次いで、階層構造特定手段130は、ステップA3及びステップA4の処理を全ての伝達表に対して適用した後、伝達表間における文書伝達の階層構造を特定する。具体的には、文書伝達の開始者及び末端者を特定すると、階層構造特定手段130は、全ての伝達表に対して処理を終了したか否か(t=Nτ(伝達表の総数)であるか否か)を確認する(ステップA5)。t=Nτでなければ、階層構造特定手段130は、tの値を1加算し(ステップA6)、ステップA3の処理に戻って、ステップA3,A4の処理を繰り返し実行する。t=Nτであれば、階層構造特定手段130は、伝達表間における文書伝達の構造を特定する(ステップA7)。この場合、階層構造特定手段130は、伝達表Ctにおける伝達の開始者に対して、文書伝達を行っている伝達表Cτにおける文書伝達の末端者を特定することによって、文書伝達の構造を特定することができる。ただし、t>τであるとする。
Next, the hierarchical
次いで、階層構造特定手段130は、特定した末端者から開始者をリンクすることで伝達表間の文書伝達構造を特定することができる。この場合、階層構造特定手段130は、リンクの条件式(4)を用いて、文書伝達構造を特定する。
Next, the hierarchical
図12は、図9に示す処理に従って、階層構造特定手段130が図4に示す伝達文書情報から特定した文書伝達の階層構造を示す説明図である。図12において、各ノード712aは各メンバを表し、各矢印712bは文書伝達の関係を表している。また、図12に示す四角枠には、それぞれ隣接するノードが伝達した電子文書の文書IDが示されている。
FIG. 12 is an explanatory diagram showing the hierarchical structure of document transmission specified by the hierarchical
なお、文書伝達の参照関係を算出する処理は、Fm(伝達元)とTo(伝達先)という一方向のパスの集合において、異なるパスのTo(伝達先)とFm(伝達元)とをある制約下において連結し有向グラブを作成する技術と位置づけられる。文書伝達の参照関係を算出する処理での制約は、連結においてTo(伝達先)とFm(伝達元)とが同一であり、Fm(伝達元)がTo(伝達先)よりも遅い時間となることである。すなわち、この制約を満たし、かつ有向グラフを抽出できれば、階層構造特定手段130は、文書伝達の参照関係を算出する場合に、図9に示すアルゴリズム以外の参照関係抽出の方法を用いてもよい。
Note that the processing for calculating the reference relationship of document transmission includes To (transmission destination) and Fm (transmission source) of different paths in a set of one-way paths of Fm (transmission source) and To (transmission destination). It is positioned as a technology that connects and creates directed grabs under constraints. The restriction in the process of calculating the document transfer reference relationship is that To (transmission destination) and Fm (transmission source) are the same in the connection, and Fm (transmission source) is later than To (transmission destination). That is. That is, if this constraint is satisfied and a directed graph can be extracted, the hierarchical
例えば、階層構造特定手段130は、文書伝達の末端者と、文書伝達の末端者に対して電子文書を伝達するメンバとを抽出し、さらにそのメンバに対して電子文書を伝達するメンバを抽出するという処理を再帰的に繰り返す方法を用いて、文書伝達の参照関係を算出してもよい。この場合、階層構造特定手段130は、該当するメンバが存在しない場合、又は非参照関係となる文書伝達が抽出された場合を終了条件として処理を終了する。そのような処理を実行することによって、階層構造特定手段130は、文書伝達の末端者を根とし、文書伝達の開始者を葉とし、文書伝達の中継者を中間ノードとする伝達の木構造を特定することができる。
For example, the hierarchical
図13は、図4に示す伝達文書情報における文書伝達の末端者の一人であるメンバM6から文書伝達の開始者までのトレースを行う処理の過程を示す説明図である。図13において、空欄となっている箇所は非参照関係の文書伝達を示している。階層構造特定手段130は、各伝達の末端者(例えば、メンバM6とメンバM7)について同様の処理を行い、最後に各末端者に関する文書伝達の木構造で共通する部分を1つと見なし、マージすることによって、図12に示す文書伝達の階層構造と同様の階層構造を特定する。なお、階層構造について、人が入力手段510を用いて修正/入力/削除できるようにしてもよい。
FIG. 13 is an explanatory diagram showing the process of tracing from the member M6, one of the document transfer endorsers, to the document transfer starter in the transfer document information shown in FIG. In FIG. 13, a blank area indicates non-reference-related document transmission. The hierarchical
図13に示すような処理を実行することによって、階層構造特定手段130は、文書伝達の階層構造を特定する際に伝達表を作成する必要をなくすことができ、文書伝達の階層構造を特定する際に作成されるデータのデータ容量を低減することができる。
By executing the processing shown in FIG. 13, the hierarchical
なお、本実施の形態に示すように、文書伝達の階層構造を特定する際に伝達表を作成するようにすれば、後日、その伝達表を再利用して、繰り返し文書伝達の階層構造を特定することができる。また、後日、作成した伝達表を用いた編集作業を行うことによって、文書伝達の階層構造の分析や編集を行うことができる。 As shown in this embodiment, if a transmission table is created when specifying the hierarchical structure of document transmission, the hierarchical structure of repeated document transmission can be specified later by reusing the transmission table. can do. Further, the hierarchical structure of document transmission can be analyzed and edited by performing editing work using the created transmission table at a later date.
パラレルコーパス抽出手段340は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。パラレルコーパス抽出手段340は、階層構造特定手段130から出力された文書伝達の階層構造の特定結果に基づいて、パラレルコーパスを抽出する機能を備える。
Specifically, the parallel
一般に、文書伝達の階層構造における中継者は、伝達される電子文書を修正していることが多いという傾向がある。そのため、文書伝達過程における中継者の前後における電子文書対はパラレルコーパスとなる傾向が高い。そこで、本実施の形態では、パラレルコーパス抽出手段340は、一般に文書伝達に見られるこのような傾向を利用して、パラレルコーパスを抽出する。 In general, a relayer in a hierarchical structure of document transmission tends to modify an electronic document to be transmitted. For this reason, electronic document pairs before and after a relayer in the document transmission process tend to be a parallel corpus. Therefore, in the present embodiment, the parallel corpus extraction means 340 extracts a parallel corpus using such a tendency generally found in document transmission.
例えば、パラレルコーパス抽出手段340は、図12に示す例では、メンバM2が中継者であるため、メンバM2に対する文書伝達前後の電子文書D101、D102又はD103と、電子文書D104とは、パラレルコーパスであると判断する。また、例えば、パラレルコーパス抽出手段340は、メンバM1が中継者であるため、メンバM1に対する文書伝達前後の電子文書D104と電子文書D105とは、パラレルコーパスであると判断する。
For example, in the example shown in FIG. 12, the parallel corpus extraction means 340 has a parallel corpus between the electronic document D101, D102 or D103 and the electronic document D104 before and after document transmission to the member M2 because the member M2 is a relay person. Judge that there is. For example, the parallel
なお、一般に、極めて短い期間(例えば同日)に文書伝達が行われる場合には、伝達対象の電子文書を修正又は編集することなく、そのまま次のメンバに転送される傾向が強い。そこで、パラレルコーパス抽出手段340は、そのような傾向を考慮して、コミュニケーション計画における伝達予定日時が同一である伝達計画においては、電子文書の内容が同一であると判断する処理を実行するようにしてもよい。例えば、パラレルコーパス抽出手段340は、メンバM2からメンバM1への伝達は同日に計画されているため、メンバM2を電子文書の単なる橋渡し役と判断し、電子文書D104と電子文書D105とは同様の内容であると判断してもよい。 In general, when document transmission is performed in an extremely short period (for example, the same day), there is a strong tendency that the electronic document to be transmitted is transferred to the next member without modification or editing. Therefore, the parallel corpus extraction means 340 considers such a tendency and executes a process for determining that the contents of the electronic document are the same in a transmission plan having the same scheduled transmission date and time in the communication plan. May be. For example, the parallel corpus extraction means 340 determines that the member M2 is merely a bridging member for the electronic document because the transmission from the member M2 to the member M1 is planned on the same day. The content may be determined.
同義表現抽出装置350は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。同義表現抽出装置350は、パラレルコーパス抽出手段340が特定したパラレルコーパスのテキスト情報から同義表現を抽出する機能を備える。また、同義表現抽出装置350は、抽出した同義表現を同義表現データベース360に記憶させる機能を備える。また、同義表現抽出装置350は、抽出した同義表現を出力手段530に出力させる機能を備える。
Specifically, the synonym
同義表現抽出装置350は、同義表現の抽出技術として、既存の各種の抽出技術を用いて、パラレルコーパスから同義表現を抽出する。例えば、同義表現抽出装置350は、パラレルコーパスから同義表現を抽出する技術として、類似文章対に対して係り受け解析を適用し、所定の条件を満たす部分木を同義表現として抽出する方法を用いてもよい。この場合、例えば、同義表現抽出装置350は、所定の条件として、(1)係り受け解析により得られる部分木の根が用言であること、(2)対となる部分木が共通の固有表現を含んでいること、(3)各用言が要求する格が部分木に含まれていることの3つを用いて同義表現を抽出してもよい。
The synonym
なお、上記に示した同義表現を抽出する技術は、例えば、文献「Shinyama Y, and Sekine S, "Paraphrase acquisition for information extraction", 2nd International Workshop on Paraphrasing: Paraphrase Acquisition and Applications, pp.65-71, 2003」に記載されている。 The technique for extracting the synonymous expression shown above is, for example, the document “Shinyama Y, and Sekine S,“ Paraphrase acquisition for information extraction ”, 2nd International Workshop on Paraphrasing: Paraphrase Acquisition and Applications, pp. 65-71, 2003 ".
同義表現データベース360は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。同義表現データベース360は、同義表現抽出装置350が抽出した同義表現を記憶する。図14は、同義表現データベース360が記憶する同義表現の記憶形式の一例を示す説明図である。図14に示すように、同義表現データベース360は、同義表現ID及び同義表現のペアと、それら同義表現が含まれていた電子文書の文書IDと、その電子文書を作成したメンバとを、対応付けて記憶する。この場合、同義表現データベース360は、電子文書の伝達関数(「Fm(伝達元)」と「To(伝達先)」)が分かるように同義表現を記憶する。
Specifically, the
図14において、同義表現IDは、同義表現のペアを一意に識別するために付与される識別情報である。図14に示すように、同義表現ID700(W001)においては、「メンバM3が作成した電子文書D101を参照して作成した電子文書ID104において、表現XYZが同義表現ABCに変更された」ことがわかる。すなわち、表現XYZと表現ABCとのペアが相互に同義表現であることを示している。
In FIG. 14, the synonym expression ID is identification information given to uniquely identify a pair of synonym expressions. As shown in FIG. 14, in the synonym expression ID 700 (W001), it is understood that the expression XYZ has been changed to the synonym expression ABC in the
なお、図14に示した記憶形式は、同義表現の記憶方法の一例であり、同義表現データベース360は、同義表現の情報を抽出できるものであれば、他の記憶形式で同義表現を記憶してもよい。
The storage format shown in FIG. 14 is an example of a storage method of synonymous expressions, and the
出力手段530は、具体的には、ディスプレイ装置等の表示装置によって実現される。出力手段530は、例えば、ディスプレイ装置である場合には、同義表現抽出装置350の指示に従って、同義表現抽出装置350の抽出結果(抽出した同義表現)を表示する。なお、同義表現の抽出結果を表示するのではなく、表現統一化システム300は、同義表現の抽出結果を電子ファイルとして出力してもよい。また、表現統一化システム300は、組織情報に示されるアドレス情報を利用して、e−mail等を用いて、抽出結果を各メンバの端末に通知(送信)してもよい。
Specifically, the output means 530 is realized by a display device such as a display device. For example, when the
図15は、出力手段530が出力する同義表現の抽出結果の一例を示す説明図である。図15に示すように、出力手段530は、誰と誰との間で文書伝達されたどの電子文書間において、どのような同義表現が用いられたかを分かるような出力形式で、同義表現の抽出結果を出力する。なお、出力手段530が同義表現の抽出結果を出力する際の表示態様は、図15に例示した表示態様に限られず、他の表示態様で出力するようにしてもよい。
FIG. 15 is an explanatory diagram illustrating an example of a synonym expression extraction result output by the
図15に示す例では、電子文書D101と電子文書D104とに、2組の同義表現(ABC及びXYZと、PQR及びSTU)が用いられたことを示している。また、電子文書D102と電子文書D104とに、1組の同義表現(LMN及びSTU)が使用されたことを示している。また、出力手段530は、図12に示すように、文書伝達の階層構造を表示するとともに、使用された同義表現を重畳して表示してもよい。
The example shown in FIG. 15 indicates that two sets of synonymous expressions (ABC and XYZ, and PQR and STU) are used for the electronic document D101 and the electronic document D104. In addition, a pair of synonymous expressions (LMN and STU) are used for the electronic document D102 and the electronic document D104. Further, as shown in FIG. 12, the
なお、本実施の形態において、文書参照関係抽出システム100及び表現統一化システム300を実現する情報処理装置の記憶装置(図示せず)は、電子文書間の参照関係を抽出するための各種プログラムを記憶している。例えば、情報処理装置の記憶装置は、コンピュータに、メンバ間で伝達される電子文書に対する文書伝達の階層構造を特定する階層構造特定処理を実行させるための文書参照関係抽出プログラムを記憶している。
In the present embodiment, the storage device (not shown) of the information processing apparatus that implements the document reference
また、本実施の形態において、文書参照関係抽出システム100及び表現統一化システム300を実現する情報処理装置の記憶装置は、相互に同義表現を含む電子文書であるパラレルコーパスを抽出し、パラレルコーパスに含まれる同義表現を統一するための各種プログラムを記憶している。例えば、情報処理装置の記憶装置は、コンピュータに、予めデータベースに記憶する電子文書の伝達計画を示す伝達計画情報に基づいて、電子文書間に参照関係がない文書伝達を示す非参照関係情報を抽出する非参照関係抽出処理と、メンバ間で伝達される電子文書に対する文書伝達の階層構造を特定する階層構造特定処理とを実行させ、階層構造特定処理で、データベースに記憶する電子文書の伝達記録を示す伝達記録情報に基づいて、予めデータベースに記憶する伝達計画情報に示される伝達計画に対応する伝達記録を特定する処理と、特定した伝達記録に基づいて、電子文書の伝達の開始者から末端者までの階層構造を特定する処理と、抽出した非参照関係情報に基づいて、電子文書の伝達の開始者から末端者までの階層構造を、非参照関係である文書伝達を含まずに特定する処理とを実行させるための表現統一化プログラムを記憶している。
In the present embodiment, the storage device of the information processing apparatus that implements the document reference
次に、表現統一化システム300の全体の動作について説明する。図16は、文書伝達の階層構造を特定し伝達文書の表現を統一する処理の一例を示すフローチャートである。
Next, the overall operation of the
まず、表現統一化システム300の伝達文書抽出手段320は、所定のタイミングで、文書提供サーバ520から伝達文書情報を抽出し、伝達文書データベース330に記憶させる(ステップS11)。例えば、伝達文書抽出手段320は、所定期間毎に(例えば、毎日1回)、文書提供サーバ520に自動アクセスし、文書提供サーバ520から伝達文書情報を受信して伝達文書データベース330に記憶させる。また、例えば、伝達文書抽出手段320は、文書提供サーバ520に新たに電子文書が格納されたことをトリガとして、文書提供サーバ520に自動アクセスし、文書提供サーバ520から伝達文書情報を受信して伝達文書データベース330に記憶させる。
First, the transfer
ステップS11の処理が所定のタイミングで繰り返し実行されることによって、伝達文書データベース330に伝達文書情報が格納され、随時更新される。
By repeatedly executing the process of step S11 at a predetermined timing, the transfer document information is stored in the
次いで、ユーザ(組織内のいずれかのグループのメンバ)によって指示操作がなされると、文書参照関係抽出システム100は、文書伝達の階層構造の特定処理を開始する。文書伝達の階層構造の特定処理において、文書参照関係抽出システム100の非参照関係抽出手段120は、まず、組織情報データベース310が記憶する組織情報、及びコミュニケーション計画データベース110が記憶するコミュニケーション計画に基づいて、計画表を作成するとともに、非参照関係表を作成する(ステップS12)。
Next, when an instruction operation is performed by the user (a member of any group in the organization), the document reference
次いで、階層構造特定手段130は、コミュニケーション計画データベース110が記憶するコミュニケーション計画、及び伝達文書データベース330が記憶する伝達文書情報に基づいて、伝達表を作成する(ステップS13)。
Next, the hierarchical
次いで、階層構造特定手段130は、作成した伝達表に基づいて、文書伝達の階層構造を特定する(ステップS14)。この場合、階層構造特定手段130は、非参照関係抽出手段120が作成した非参照関係表を利用して、電子文書間に参照関係が生じない文書伝達を除外した階層構造を特定する。
Next, the hierarchical
次いで、パラレルコーパス抽出手段340は、階層構造特定手段130が特定した文書伝達の階層構造に基づいて、パラレルコーパスを抽出する(ステップS15)。次いで、同義表現抽出装置350は、パラレルコーパス抽出手段340が抽出したパラレルコーパスに基づいて、伝達文書から同義表現を抽出し、抽出結果を同義表現データベース360に記憶させる(ステップS16)。また、同義表現抽出装置350は、同義表現の抽出結果を出力手段530に出力させる。
Next, the parallel
以上のように、本実施の形態によれば、文書参照関係抽出システム100は、組織情報やコミュニケーション計画、伝達文書情報に基づいて、電子文書間において参照関係が生じやすい文書伝達の階層構造を特定する。そのため、電子文書の伝達が行われる場合において、電子文書の参照関係を抽出することができる。
As described above, according to the present embodiment, the document reference
また、本実施の形態によれば、電子文書間の参照関係を抽出でき、表現統一化システム300は、伝達過程における他の人の伝達文書を参照して、集約や配布を行う文書伝達の中継者を効率的に発見して、パラレルコーパスを抽出する。そのため、伝達文書間のパラレルコーパスを効率的に抽出することができる。
Further, according to the present embodiment, it is possible to extract a reference relationship between electronic documents, and the
実施の形態2.
次に、本発明の第2の実施の形態を図面を参照して説明する。図17は、第2の実施の形態における文書参照関係抽出システム100を用いた表現統一システム300の構成例を示すブロック図である。図17に示すように、本実施の形態では、図1に示した構成要素に加えて、階層構造データベース370、修正案入力手段540及び修正手段380を含む点で、第1の実施の形態と異なる。
Next, a second embodiment of the present invention will be described with reference to the drawings. FIG. 17 is a block diagram illustrating a configuration example of the
階層構造データベース370は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。階層構造データベース370は、文書参照関係抽出システム100によって特定された階層構造を記憶する。
Specifically, the hierarchical database 370 is realized by a database device such as a magnetic disk device or an optical disk device. The hierarchical structure database 370 stores the hierarchical structure specified by the document reference
修正案入力手段540は、具体的には、キーボードやマウス等の入力デバイスによって実現される。修正案入力手段540は、ユーザの操作に従って、抽出された同義表現に対する修正案を入力する機能を備える。 Specifically, the correction proposal input means 540 is realized by an input device such as a keyboard or a mouse. The correction plan input means 540 has a function of inputting a correction plan for the extracted synonym expression according to a user operation.
修正手段380は、具体的には、プログラムに従って動作する情報処理装置のCPU及びネットワークインタフェース部によって実現される。修正手段380は、修正案入力手段540から入力した修正案に基づいて、同義表現を修正する機能を備える。また、修正手段380は、同義表現を修正したことを通知するメンバを特定する機能を備える。
Specifically, the correcting
次に、動作について説明する。図18は、同義表現を修正する処理の一例を示すフローチャートである。なお、本実施の形態では、文書参照関係抽出システム100は、第1の実施の形態と同様の処理に従って、文書伝達の階層構造を特定する。また、表現統一化システム300は、第1の実施の形態と同様の処理に従って、伝達文書間の同義表現を抽出する。以下、図18に示すフローチャートに従って、同義表現を修正する動作について説明する。なお、本実施の形態では、出力手段530がディスプレイ装置である場合を例に説明する。
Next, the operation will be described. FIG. 18 is a flowchart illustrating an example of processing for correcting a synonymous expression. In the present embodiment, the document reference
まず、表現統一化システム300は、同義表現データベース360に記憶されている同義表現を、例えば、出力手段530であるディスプレイ装置に一覧表示させる(図18のステップB1)。また、表現統一化システム300は、同義表現を修正するための修正入力画面をディスプレイ装置に表示させる。例えば、表現統一化システム300は、図19に示す修正入力画面を表示させる。図19に示す例では、修正入力画面に、同義表現ID、抽出された同義表現、及び抽出元になった電子文書の文書IDが表示されており、さらに各同義表現に対する修正案を入力する入力欄717が設けられている。
First, the
次に、修正案入力手段540は、システムの利用者又はメンバの操作に従って、表現統一のための修正案を入力する(図18のステップB2)。なお、例えば、修正案入力手段540として、キーボードやマウス等の入力デバイスを用いる。また、図17では、修正案入力手段540と入力手段510とを分けて表記しているが、修正案入力手段540及び入力手段510を同一の入力装置で実現してもよい。
Next, the correction plan input means 540 inputs a correction plan for unifying expressions in accordance with the operation of the user or member of the system (step B2 in FIG. 18). For example, an input device such as a keyboard or a mouse is used as the correction
なお、使用した同義表現のいずれかを選択する様態で修正案を入力するようにしてもよいし、自由記述形式にして新しい表現を入力できるようにしてもよい。また、同義表現は任意のシステムの利用者又はメンバにより修正可能である。 Note that the correction proposal may be input in a manner of selecting any of the used synonymous expressions, or a new expression may be input in a free description format. The synonymous expression can be modified by a user or member of any system.
表現統一化システム300は、システムの利用者やメンバの操作に従って、修正案入力手段540から、同義表現に対して入力された修正案と同義表現IDとをに入力する。
The
次に、修正手段380は、伝達文書データベース330が記憶する伝達文書情報に基づいて、修正すべき同義表現を含む文書IDの電子文書を文書提供サーバ520から抽出する。この場合、例えば、修正手段380は、伝達文書情報に基づいて、修正すべき同義表現を含む電子文書の文書IDを特定する。また、修正手段380は、特定した文書IDに対応する電子文書の抽出要求を、ネットワークを介して文書提供サーバ520に送信する。すると、文書提供サーバ520は、要求に応じて電子文書を抽出し、ネットワークを介して表現統一化システム300に送信する。
Next, the correcting
次いで、修正手段380は、文書提供サーバ520から抽出した電子文書に基づいて、文書IDと、その同義表現を含む前後の文を修正候補として出力手段530に出力させる(図18のステップB3)。この場合、修正手段380は、同義表現を含む前後の文として任意の長さの文を出力手段530に表示させる。例えば、修正手段380は、同義表現を含む前後の語句を表示させてもよい。また、修正手段380は、文単位で表示させてもよいし、修正候補を表示させなくてもよい。
Next, based on the electronic document extracted from the
また、修正手段380は、出力手段530を用いて、例えば、図20に示すような表示画面を表示させることによって、修正候補を出力させるは。図20に示す例では、修正手段380は、修正される電子文書の文書ID、その電子文書が伝達された日時、その同義表現を使用したメンバ、及び修正候補の文を含む表示画面が表示されている。また、図20に示す表示画面には、さらにその修正に同意するかどうかを入力する入力欄718が含まれる。
Further, the
次に、修正案入力手段540は、システムの利用者又はメンバの操作に従って、修正候補の中から修正に合意した旨を入力し、表現統一化システム300は、修正案入力手段540から修正に合意した旨の指示情報を入力する(図18のステップB4)。
Next, the amendment proposal input means 540 inputs that the amendment is agreed among the amendment candidates according to the operation of the system user or member, and the
なお、合意又は非合意であることを入力するために、図20に示す例では、○又は×の記号を用いて入力する場合を示している。ただし、修正に合意したことを表現統一化システム300に伝えることができれば、入力方法は○や×等の記号入力を用いた選択形式である必要はない。例えば、ラジオボタンを用いて入力できるようにしてもよいし、キーボード等を用いて文字を入力することによって合意又は非合意を入力できるようにしてもよい。また、同意又は非同意であることを示す情報を入力するだけではなく、図20において、修正する理由や修正しない理由を示す情報を入力する欄を表示画面に設けてもよい。
In addition, in order to input that it is agreement or non-agreement, the example shown in FIG. 20 shows the case where it inputs using the symbol of (circle) or x. However, the input method does not need to be a selection format using symbol input such as ◯ and X as long as it can be notified to the
次に、修正手段380は、修正に同意する旨が入力指示された同義表現を置換して、伝達文書間の表現を統一する(図18のステップB5)。なお、修正手段380は、例えば、既存のテキスト処理技術を用いて、同義表現を置換処理する。
Next, the correcting
次に、修正手段380は、いつ伝達された伝達文書のどの表現が同義表現となり、どのように修正されたかをシステムの利用者及びメンバに通知する(図18のステップB6)。 Next, the correction means 380 notifies the system users and members of which expression of the transmitted document that has been transmitted becomes a synonymous expression and how it has been corrected (step B6 in FIG. 18).
ステップB6において、修正手段380は、修正された電子文書の文書IDを含む階層構造を階層構造データベース370から特定し、特定した階層構造中に含まれる全ての文書IDを抽出する。次いで、修正手段380は、抽出した文書IDを検索キーとして伝達文書データベース330を検索し、伝達文書データベース330から伝達文書情報を特定する。また、修正手段380は、特定した伝達文書情報に対応する電子文書を文書提供サーバ520から抽出した電子文書の中から特定する。そして、修正手段380は、特定した電子文書中で同義表現対(図19に示す例ではABC又はXYZ)を含む電子文書を特定する。
In step B6, the correcting
次に、修正手段380は、特定した電子文書に対してFm(伝達元)又はTo(伝達先)の役割を果たしたメンバを抽出する。すなわち、伝達元又は伝達先の役割を果たしたメンバは、同義表現を含む文書伝達に関わっており、その伝達文書を参照している。そして、修正手段380は、文書伝達に関わったメンバに対して修正に関する通知を行う。例えば、修正手段380は、文書伝達に関わったメンバの端末に、ネットワークを介して、同義表現を統一する修正を行った旨及び修正箇所を示すメッセージを送信する。
Next, the correcting
以上の処理が実行されることによって、同義表現の参照に関わる必要最小限のメンバに対して、同義表現の修正に関する通知が行われる。 By executing the above processing, a notification regarding correction of the synonym expression is given to the minimum necessary members related to the reference of the synonym expression.
例えば、図4に示す伝達文書情報によれば、メンバM4は、メンバM3とメンバM2とから、それぞれ電子文書D101と電子文書D104とを伝達されている。また、電子文書D101の表現ABCと電子文書D104の表現XYZとが同義表現の関係にある。しかし、メンバM4は、その電子文書の伝達過程や同義表現の発生過程を知らないため、それらの表現が同一のものであるか否か判断するのが難しい。 For example, according to the transmission document information shown in FIG. 4, the member M4 is transmitted the electronic document D101 and the electronic document D104 from the member M3 and the member M2, respectively. In addition, the expression ABC of the electronic document D101 and the expression XYZ of the electronic document D104 have a synonymous expression relationship. However, since the member M4 does not know the transmission process of the electronic document and the generation process of synonymous expressions, it is difficult to determine whether or not the expressions are the same.
本実施の形態では、修正手段380は、メンバM4に、例えば、図21に示すメッセージを通知(送信)する。なお、修正手段380は、例えば、e−mail(電子メール)を用いて図21に示すメッセージをメンバの端末に送信すればよい。図21に示すメッセージを受けとり、表示されたメッセージの内容を確認することにより、メンバM4は、同義表現の発生原因や修正過程等を把握することができる。
In the present embodiment, the
以上のように、本実施の形態によれば、階層構造データベース370が記憶する文書伝達の階層構造の特定結果に基づいて、同義表現が抽出された電子文書に関連する文書伝達の階層構造を特定する。また、文書伝達の階層構造中で文書伝達された電子文書を特定することができる。さらに、伝達文書データベース330が記憶する伝達文書情報に基づいて、伝達文書のFm(伝達元)とTo(伝達先)とを特定することができる。そのため、同義表現を修正したことを、修正した電子文書に関与するメンバに対して通知することができる。
As described above, according to the present embodiment, the hierarchical structure of document transmission related to the electronic document from which synonymous expressions are extracted is specified based on the specification result of the hierarchical structure of document transmission stored in the hierarchical structure database 370. To do. In addition, it is possible to specify an electronic document that has been transmitted in the hierarchical structure of document transmission. Furthermore, based on the transmission document information stored in the
例えば、特許文献1〜3に記載された従来のシステムや装置、方法、プログラムでは、電子文書が修正された場合、その電子文書を参照した人々を特定できない。例えば、特許文献1及び特許文献3に記載されたシステムや装置、方法、プログラムでは、参照文書が修正された場合に対応するための処理がない。
For example, in the conventional systems, apparatuses, methods, and programs described in
また、例えば、特許文献2に記載された装置や方法では、文書修正の通知は、電子文書の修正者及び修正文書から参照されている電子文書の所有者に留まっており、参照関係もHTML等定型のフォーマットにおけるハイパーリンクとなっている。そのため、修正前/後の自由書式の電子文書に関連する人々に対して修正が行われたことを通知することができない。なお、「関連する人々」とは、特許文献2に記載された装置や方法でも通知対象としている電子文書の修正者及び修正文書から参照されている電子文書の所有者等である。また、「関連する人々」とは、さらに、それらの電子文書を伝達された人や閲覧した人や、修正文書を参照し電子文書を作成した人々、その作成された電子文書の閲覧者等である。
Further, for example, in the apparatus and method described in
これに対し、本実施の形態では、上記に説明したように、電子文書の参照関係を抽出することができ、電子文書の内容と伝達構造とに基づいて、どの情報が誰にまで伝達されているかを判断することができる。そのため、ある電子文書の内容変更について、その旨を通知するべきメンバを特定することができる。 On the other hand, in the present embodiment, as described above, the reference relationship of the electronic document can be extracted, and which information is transmitted to whom based on the contents of the electronic document and the transmission structure. Can be determined. Therefore, it is possible to specify a member who should be notified of a change in the contents of an electronic document.
実施の形態3.
次に、本発明の第3の実施の形態を図面を参照して説明する。図22は、第3の実施の形態における文書参照関係抽出システム100を用いた表現統一システム300の構成例を示すブロック図ある。図22に示すように、本実施の形態では、図1に示した構成要素に加えて、傾向分析手段390を含む点で、第1の実施の形態と異なる。また、本実施の形態では、階層構造特定手段130の機能が、第1の実施の形態で示した階層構造特定手段130の機能と異なる。
Next, a third embodiment of the present invention will be described with reference to the drawings. FIG. 22 is a block diagram illustrating a configuration example of the
傾向分析手段390は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。傾向分析手段390は、各メンバの同義表現の使用傾向を分析する機能を備える。
Specifically, the
また、本実施の形態では、階層構造特定手段130は、第1の実施の形態で示した機能に加えて、コミュニケーション計画データベース110が記憶するコミュニケーション計画に基づいて、予め計画された文書伝達の階層構造を特定する機能を備える。なお、本実施の形態では、階層構造特定手段130は、第1の実施の形態と同様の処理に従って、実際に行われた文書伝達の階層構造を特定する機能も備える。
Further, in the present embodiment, the hierarchical
次に、動作について説明する。本実施の形態では、表現統一化システム300は、第1の実施の形態と同様の処理に従って、実際に行われた文書伝達の階層構造を特定し、伝達文書の表現を統一する処理を実行する。また、本実施の形態では、表現統一化システム300は、第1の実施の形態で示した処理に加えて、予め計画された文書伝達の階層構造を特定し、同義表現の発生傾向を提示する処理を実行する。図23は、予め計画された文書伝達の階層構造を特定し、同義表現の発生傾向を提示する処理の一例を示すフローチャートである。
Next, the operation will be described. In the present embodiment, the
非参照関係抽出手段120は、コミュニケーション計画データベース110が記憶する任意のコミュニケーション計画に対して、第1の実施の形態と同様の処理に従って、よ計画表と非参照関係表とを作成する(ステップS31)。図24は、非参照関係抽出手段120が図3に示すコミュニケーション計画に基づいて作成された2つの計画表、及び計画表から文書伝達の階層構造を特定する過程の例を示す説明図である。なお、図24に示す計画表では、文書伝達計画がある(行中に1が存在する)部分のみを抜粋して示している。
The non-reference
本実施の形態では、非参照関係抽出手段120は、第1の実施の形態と同様に、図24に示す計画表に基づいて、図8に示す非参照関係表と同様の非参照関係表を抽出したものとして説明する。なお、非参照関係抽出手段120は、コミュニケーション計画中にグループIDが含まれている場合には、組織情報データベース310が記憶する組織情報に基づいて、コミュニケーション計画を展開する。
In the present embodiment, the non-reference
次に、階層構造特定手段130は、第1の実施の形態において伝達表に対して適用したアルゴリズムと同様のアルゴリズムを計画表に対して適用することによって、コミュニケーション計画に基づいて、予め計画されている文書伝達の階層構造を特定する。この場合、階層構造特定手段130は、非参照関係抽出手段120が作成した計画表と非参照関係表とに基づいて、予め計画されている文書伝達の階層構造を特定する(ステップS32)。
Next, the hierarchical
次に、階層構造特定手段130は、各計画表内の文書伝達構造を特定する。階層構造特定手段130は、それら各計画表内の文書伝達構造を、t番目の計画表Pt内において1が付与されている箇所のFm(伝達元)とTo(伝達先)とをリンクすることによって特定することができる。この場合、階層構造特定手段130は、リンクの条件式(5)を用いて、伝達元と伝達先とのリンク付けを行う。ただし、階層構造特定手段130は、非参照関係表に基づいて、非参照関係である伝達元と伝達先とについては抽出しないように処理する。なお、ここでいうリンクとは、第1の実施の形態で用いたリンクと同じ意味である。
Next, the hierarchical
式(5)において、iは計画表Ptにおける縦方向のメンバのインデックスであり、jは横方向のインデックスである。また、式(5)中の後件部は、メンバMiからメンバMjへの文書伝達が行われる計画であることを意味する。図24において、各計画表の右側に示している模式図は、図24に示す計画表に式(5)を適用して階層構造特定手段130によって特定される階層構造である。
In Expression (5), i is the index of the member in the vertical direction in the plan table Pt, and j is the index in the horizontal direction. Further, the consequent part in the equation (5) means that the document transmission from the member Mi to the member Mj is planned. 24, the schematic diagram shown on the right side of each plan table is a hierarchical structure specified by the hierarchical
次に、階層構造特定手段130は、各計画表から文書伝達の開始予定者と末端予定者とを抽出する。ここで、計画表Pt中の文書伝達の開始予定者をMs_tとし、文書伝達の末端予定者をMe_tとする。この場合、階層構造特定手段130は、開始予定者Ms_t及び末端予定者Me_tとを、それぞれ式(6)及び式(7)を用いて抽出することができる。
Next, the hierarchical
式(6)及び式(7)において、Nmはメンバの数を示し、Ma_tは計画表Ptにおけるa番目のメンバを示す。図24に示すように、各計画表において、文書伝達の開始予定者と末端予定者とが複数人いることもある。 In Expression (6) and Expression (7), Nm indicates the number of members, and Ma_t indicates the a-th member in the plan table Pt. As shown in FIG. 24, in each plan table, there may be a plurality of document transmission start scheduled persons and terminal scheduled persons.
次に、階層構造特定手段130は、全ての計画表に対してステップS31,S32と同様の処理を行った後に、計画表間における文書伝達の階層構造を特定する。この場合、階層構造特定手段130は、計画表Ptにおける伝達の開始予定者に対して、文書伝達を行う計画である計画表Pτの伝達の末端予定者を抽出することによって、計画表間における文書伝達の階層構造を特定することができる。ただし、t>τであるとする。
Next, the hierarchical
次いで、階層構造特定手段130は、抽出した末端予定者から開始予定者をリンクすることによって、計画表間の文書伝達構造を特定する。この場合、階層構造特定手段130は、リンクの条件式(8)を用いて、計画表間の文書伝達構造を特定する。
Next, the hierarchical
上記の処理を実行することによって、階層構造特定手段130は、図24に示す計画表に基づいて、図25に示す階層構造を特定する。図25において、各ノード722aはメンバを表し、各矢印722bは文書伝達の計画を表している。また、図25に示す四角枠722cには、それぞれ隣接する矢印に対応するコミュニケーション計画の計画番号(No)が示されている。
By executing the above processing, the hierarchical
以上のように、図25に示すように、本システムにより、予め計画された文書伝達の階層構造を特定でき、計画表に基づいて伝達予定の電子文書間の参照関係を抽出できる。 As described above, as shown in FIG. 25, this system can identify a hierarchical structure of document transmission planned in advance, and can extract a reference relationship between electronic documents scheduled to be transmitted based on a plan table.
なお、第1の実施の形態に示した文書参照関係抽出システム100が伝達文書情報に基づいて参照関係を抽出する場合と同様、コミュニケーション計画から参照関係を抽出する方法は、本実施の形態で示した方法に限られない。
As in the case where the document reference
例えば、階層構造特定手段130は、文書伝達の末端予定者を抽出するとともに、文書伝達の末端予定者に対して電子文書を伝達するメンバを抽出し、さらにそのメンバに対して電子文書を伝達するメンバを抽出するという処理を再帰的に繰り返す方法を用いて、予め計画された文書伝達の参照関係を算出してもよい。この場合、階層構造特定手段130は、該当するメンバが存在しない場合、又は非参照関係となる文書伝達が抽出された場合を終了条件として処理を終了する。そのような処理を実行することによって、階層構造特定手段130は、文書伝達の末端予定者を根とし、文書伝達の開始予定者を葉とし、文書伝達の中継予定者を中間ノードとする伝達の木構造を特定することができる。
For example, the hierarchical
また、階層構造特定手段130は、各伝達の末端予定者(例えば、メンバM6とメンバM7)について同様の処理を行い、最後に各末端予定者に関する文書伝達の木構造で共通する部分を1つと見なし、マージすることによって、図25に示す文書伝達の階層構造と同様の階層構造を特定する。
In addition, the hierarchical
次いで、傾向分析手段390は、まず、同義表現データベース360が記憶する同義表現の抽出結果に基づいて、各メンバがどのメンバとの間にどの程度の頻度で同義表現を使用したかをカウントし、各メンバの同義表現の使用回数をまとめて示す同義表現使用回数表を生成する(ステップS33)。そして、傾向分析手段390は、生成した同義表現使用回数表を出力手段530に出力させる(ステップS34)。
Next, the trend analysis means 390 first counts how often each member used the synonym expression with which member based on the extraction result of the synonym expression stored in the
なお、同義表現の使用とは、伝達された電子文書内の表現とは異なる表現を用いて電子文書を伝達したこと、すなわち同義表現を発生させたことである。 The use of the synonym expression means that the electronic document is transmitted using an expression different from the expression in the transmitted electronic document, that is, the synonym expression is generated.
また、同義表現のカウント方法には様々な方法がある。例えば、傾向分析手段390は、同義表現が含まれている電子文書の数をカウントしてもよい。また、傾向分析手段390は、同義表現が含まれている文の数をカウントしてもよく、同義表現の数をカウントしてもよい。
There are various methods for counting synonymous expressions. For example, the
図26は、同義表現使用回数表の出力形式の例を示す説明図である。図26に示す例では、7名のメンバ間の同義表現使用回数表が示されており、最左列に示すメンバから最上段の行に示すメンバに対して電子文書が伝達された際の同義表現使用回数を示している。また、図26に示す同義表現使用回数表における縦方向のカウント値の和を求めることによって、あるメンバが他のメンバから伝達された電子文書に対して使用した同義表現の使用回数を得ることができる。また、横方向のカウント値の和を求めることによって、あるメンバの電子文書に対して他メンバが使用した同義表現の使用回数を得ることができる。 FIG. 26 is an explanatory diagram illustrating an example of an output format of the synonym expression usage count table. In the example shown in FIG. 26, a synonym expression usage count table among seven members is shown, and synonyms when an electronic document is transmitted from the member shown in the leftmost column to the member shown in the top row. Indicates the number of expressions used. In addition, by obtaining the sum of the count values in the vertical direction in the synonym expression usage count table shown in FIG. 26, it is possible to obtain the usage count of the synonym expression used by one member for the electronic document transmitted from the other member. it can. Further, by obtaining the sum of the count values in the horizontal direction, it is possible to obtain the number of times that the synonymous expression used by another member is used for an electronic document of a certain member.
出力手段530は、傾向分析手段390の指示に従って、例えば、ディスプレイ装置等である場合には、各メンバの同義表現使用傾向が分かるように、同義表現使用回数表を表示する。なお、出力手段530は、傾向分析手段390の指示に従って、同義表現使用回数表のデータをまとめて表示してもよく、同義表現使用回数表のデータをグラフにして表示してもよい。
The
また、傾向分析手段390は、システムの利用者にとって分かりやすく同義表現使用回数を示すために、例えば、図27に示すように、特定した文書伝達の階層構造と同義表現使用回数とを重畳させて出力手段530に表示させてもよい。図27において、各ノード724aはメンバを示し、各ノード間の矢印724bは文書伝達の計画を示している。また、図27において、矢印上の四角枠724cには、対応するメンバ間の同義表現使用回数が示されている。
In addition, the
図27に示す表示形式で表示することによって、今後の文書伝達において、どの程度、同義表現が利用される可能性があるかを把握しやすくすることができる。そのため、システムの利用者は、同義表現を多く使用しているメンバに対して、数値的な論拠を提示して同義表現の使用を少なくするよう依頼することができる。なお、同義表現使用回数表に付与する数値として、同義表現の使用回数だけを用いるのではなく、例えば、伝達した電子文書と同義表現が使用された電子文書との比等を用いてもよい。 By displaying in the display format shown in FIG. 27, it is possible to easily grasp to what extent the synonymous expression may be used in future document transmission. Therefore, the user of the system can request a member who uses many synonymous expressions to present a numerical rationale and reduce the use of synonymous expressions. In addition, as a numerical value given to the synonym expression usage count table, for example, a ratio between a transmitted electronic document and an electronic document using the synonym expression may be used instead of using only the number of synonym expressions used.
以上のように、本実施の形態によれば、文書伝達前に予め入力されたコミュニケーション計画に基づいて、予め計画された文書伝達の階層構造を事前に特定することができる。そのため、今後行われる文書伝達における電子文書の参照関係を抽出することができる。 As described above, according to the present embodiment, it is possible to specify in advance a hierarchical structure of document transmission planned in advance based on a communication plan input in advance before document transmission. Therefore, it is possible to extract the electronic document reference relationship in future document transmission.
例えば、特許文献1〜3に記載された従来のシステムや装置、方法、プログラムでは、今後、伝達される電子文書間における参照関係を抽出することができない。特許文献1〜3に記載されたシステムや装置、方法、プログラムでは、電子文書間の稀な単語の出現頻度や電子文書のカテゴリ、電子文書の参照時間/頻度、参照リンク等、作成された電子文書から抽出した情報を基に参照関係を抽出している。そのため、今後、作成される電子文書が定まっている場合においても、それらの電子文書間において生じる参照関係を抽出することができない。
For example, the conventional systems, apparatuses, methods, and programs described in
これに対し、本実施の形態では、上記に説明したように、コミュニケーション計画に基づいて文書伝達の階層構造を特定するので、電子文書の伝達記録を用いずに参照関係を抽出することができる。そのため、今後の伝達計画から参照関係を抽出することができる。 In contrast, in the present embodiment, as described above, the hierarchical structure of document transmission is specified based on the communication plan, so that the reference relationship can be extracted without using the electronic document transmission record. Therefore, the reference relationship can be extracted from the future transmission plan.
また、本実施の形態によれば、組織情報とコミュニケーション計画とに基づいて、予め計画された伝達文書の参照関係を抽出することができ、且つ過去のメンバ間の同義表現の使用回数等に基づいて同義表現の発生しやすさを定量化することができる。そのため、今後、同義表現が発生しパラレルコーパスとなる可能性が高い文書伝達を事前に特定することができる。 Further, according to the present embodiment, based on the organization information and the communication plan, it is possible to extract a preliminarily planned reference relationship of the transmission document, and based on the number of times the synonym expression is used between past members. It is possible to quantify the likelihood of synonymous expressions. Therefore, it is possible to specify in advance a document transmission that is likely to generate a synonymous expression and become a parallel corpus in the future.
なお、本実施の形態では、文書参照関係抽出システム100や表現統一化システム300が、実際に行われた文書伝達の階層構造を特定し、伝達文書の表現を統一する処理を実行するとともに、予め計画された文書伝達の階層構造を特定し、同義表現の発生傾向を提示する処理を実行する場合を示したが、予め計画された文書伝達の階層構造を特定して同義表現の発生傾向を提示する処理のみを実行するようにしてもよい。この場合、表現統一化システム300は、伝達文書抽出手段320及び伝達文書データベース330を含まなくてもよい。
In the present embodiment, the document reference
また、実際に行われた文書伝達の階層構造を特定し、伝達文書の表現を統一する処理を実行するシステムと、予め計画された文書伝達の階層構造を特定し、同義表現の発生傾向を提示する処理を実行するシステムとを別々のシステムとして構成するようにしてもよい。 In addition, it identifies the hierarchical structure of the actual document transmission and executes a process that unifies the expression of the transmitted document, identifies the hierarchical structure of the planned document transmission, and presents the occurrence tendency of synonymous expressions. You may make it comprise the system which performs the process to perform as a separate system.
実施の形態4.
次に、本発明の第4の実施の形態を図面を参照して説明する。本実施の形態では、文書参照関係抽出システム100を、実際に行われた文書伝達を評価する文書伝達評価システムに適用する場合を説明する。図28は、第4の実施の形態における文書参照関係抽出システム100を用いた文書伝達評価システム400の構成例を示すブロック図である。図28に示すように、本実施の形態では、図1に示した構成要素のうち、パラレルコーパス抽出手段340及び同義表現抽出手段350を含まない点で、第1の実施の形態と異なる。また、本実施の形態では、図1に示した構成要素に加えて、差分抽出手段550を含む点で、第1の実施の形態と異なる。
Next, a fourth embodiment of the present invention will be described with reference to the drawings. In the present embodiment, a case will be described in which the document reference
差分抽出手段550は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。差分抽出手段550は、コミュニケーション計画データベース110が記憶するコミュニケーション計画と、伝達文書データベース330が記憶する伝達文書情報とを比較して、コミュニケーション計画通りの文書伝達がなされているか否かを明確化する機能を備える。
Specifically, the
差分抽出手段550は、伝達文書情報とコミュニケーション計画との差を明確にし、その伝達文書情報とコミュニケーション計画との比較結果を出力手段530に出力させる。差分抽出手段550は、伝達文書情報とコミュニケーション計画とについて、以下の3つの事項の差分を抽出する。
The
まず、差分抽出手段550は、コミュニケーション計画において計画されているが伝達されていない文書伝達を抽出する(差分1:文書未伝達)。また、差分抽出手段550は、コミュニケーション計画において計画されていないにもかかわらず、伝達されている文書伝達を抽出する(差分2:伝達未計画)。また、差分抽出手段550は、コミュニケーション計画において計画された通り伝達されているが、計画された伝達時刻とは異なる時刻にされた文書伝達を抽出する(差分3:伝達日時差)。
First, the difference extraction means 550 extracts document transmissions that are planned but not transmitted in the communication plan (difference 1: document not transmitted). Further, the
差分抽出手段550は、まず、伝達文書情報と対応のとれなかったコミュニケーション計画を、コミュニケーション計画データベース110から抽出する。すなわち、差分抽出手段550は、文書伝達が計画されていたにもかかわらず、伝達がなされなかった文書伝達を含むコミュニケーション計画を抽出する。具体的には、差分抽出手段550は、伝達文書データベース330が記憶する伝達文書情報に示される各伝達日時の情報と合致しない伝達予定日時の情報を含むコミュニケーション計画を、コミュニケーション計画データベース110から抽出する。この処理を実行することにより、差分抽出手段550は、差分1(文書未伝達)を抽出する。
First, the
次に、階層構造特定手段130が特定した文書伝達の階層構造中に含まれる文書IDと同一の文書IDに対応する全ての電子文書を、伝達文書データベース330が記憶する伝達文書情報に基づいて特定する。この場合、差分抽出手段550は、コミュニケーション計画と対応がとれていない伝達文書情報も特定する。すなわち、差分抽出手段550は、文書伝達が計画されていないにもかかわらず、伝達がなされている文書伝達を含む伝達文書情報を抽出する。具体的には、差分抽出手段550は、コミュニケーション計画データベース110が記憶するコミュニケーション計画に示される各伝達予定日時の情報と合致しない伝達日時の情報を含む伝達文書情報を、伝達文書データベース330から抽出する。この処理を実行することにより、差分抽出手段550は、差分2(伝達未計画)を抽出する。
Next, all electronic documents corresponding to the same document ID as the document ID included in the hierarchical structure of document transmission specified by the hierarchical
最後に、差分抽出手段550は、コミュニケーション計画における伝達予定日時と、そのコミュニケーション計画に対応する伝達文書情報における伝達日時との差分を計算する。この場合、差分抽出手段550は、差分の計算方法として、伝達日時(実際に文書伝達が行われた日時)を伝達予定日時で減算することによって、伝達日時と伝達予定日時との差分を求める。計算結果がマイナスの値であれば、伝達予定日時までに伝達されたことを意味する。また、計算結果がプラスの値であれば、伝達予定日時後に遅れて伝達されたことを意味する。なお、コミュニケーション計画の伝達予定日時が一定の幅をもった期間で指定されている場合には、差分抽出手段550は、その期間内に電子文書が伝達されている場合には、伝達日時と伝達予定日時との差分を0と求めればよい。
Finally, the
次いで、差分抽出手段550は、コミュニケーション計画と伝達文書情報との差を、例えば、図29に示すような差分表としてまとめて作成し、作成した差分表を出力手段530に出力させる。図29に示す例では、差分表には、各行にコミュニケーション計画による計画ID及び伝達予定日時、伝達文書情報による伝達文書ID及び伝達日時、Fm(伝達元)、To(伝達先)、及び伝達予定日時と伝達日時との差分の情報が含まれている。
Next, the
図29に示す差分表において、伝達文書IDが空欄である行で示される文書伝達は、計画されているにもかかわらず、伝達されていない文書伝達(差分1:文書未伝達)を意味する。また、計画IDが空欄である行で示される文書伝達は、計画されていないにもかかわらず、伝達された文書伝達(差分2:伝達未計画)を意味する。また、図29に示すように、伝達文書IDと計画IDがともに含まれる行で示される文書伝達では、伝達予定日時と伝達日時との差を計算した結果が示されており、この伝達予定日時と伝達日時との差の計算結果が(差分3:伝達日時差)に相当する。 In the difference table shown in FIG. 29, document transmission indicated by a row in which the transmission document ID is blank means document transmission that is planned but not transmitted (difference 1: no document transmission). In addition, document transmission indicated by a line having a blank plan ID means transmitted document transmission (difference 2: transmission unplanned) even though it is not planned. As shown in FIG. 29, the document transmission indicated by the line including both the transmission document ID and the plan ID shows the result of calculating the difference between the transmission scheduled date and time and the transmission date and time. And the calculation result of the difference between the transmission date and time corresponds to (difference 3: transmission date and time difference).
なお、図29に示す例では、伝達予定日時と伝達日時との差の計算を日付単位で行っている。ただし、差分抽出手段550は、伝達日時差の計算を、日単位で計算する場合に限らず、例えば、時間単位等に伝達日時差の計算を行ってもよい。 In the example shown in FIG. 29, the difference between the scheduled transmission date and the transmission date is calculated on a date basis. However, the difference extraction means 550 is not limited to calculating the transmission date / time difference in units of days, and may calculate the transmission date / time difference in units of time, for example.
図29に示す例では、例えば、メンバM3はメンバM8に文書ID101の電子文書を伝達しているが、この文書伝達はコミュニケーション計画では計画されていないことがわかる。また、メンバM4はコミュニケーション計画P002で計画されていたメンバM2への伝達を怠っていることがわかる。また、この他、メンバM5は、コミュニケーション計画P003で計画されていた伝達予定日時よりも1日遅れで電子文書を伝達していることがわかる。このように差分表を用いて、コミュニケーション計画と伝達文書情報との3つの差を表現することができる。
In the example shown in FIG. 29, for example, the member M3 transmits the electronic document having the
出力手段530は、例えば、ディスプレイ装置である場合には、差分抽出手段550の指示に従って、差分抽出手段550が生成した差分表の情報を出力(表示)する。例えば出力手段530は、差分抽出手段550の指示に従って、図30に示す表示画面を表示すればよい。
For example, in the case of a display device, the
図30に示すように、出力手段530は、差分抽出手段550の指示に従って、まず、コミュニケーション計画データから文書伝達の階層構造中に含まれるメンバを実線のノード727aとして表示する。また、出力手段530は、差分抽出手段550の指示に従って、計画されていないものの文書伝達が行われたメンバ(差分表において計画番号(No)が空欄である行のTo(伝達先)のメンバ)を破線のノード727cとして表示する。
As shown in FIG. 30, in accordance with an instruction from the
また、出力手段530は、差分抽出手段550の指示に従って、伝達文書情報を参照し、階層構造関係がわかるようにノード間を矢印で結んだ表示態様で表示する。すなわち、出力手段530は、非参照関係であるノード間においては、文書伝達が行われていても矢印で結ばない態様で表示する。なお、この場合、出力手段530は、破線で示したノードに対しても、実線の矢印727cで結んだ表示態様で表示する。
Further, the
また、出力手段530は、差分抽出手段550の指示に従って、コミュニケーション計画で文書伝達が計画されているものの、実際に電子文書が伝達されていないノード間を破線の矢印727dで結んだ表示態様で表示する。この場合においても、出力手段530は、役割が同一であるノード間を矢印で結ばない態様で表示する。
Further, the
さらに、出力手段530は、差分抽出手段550の指示に従って、実線で示した矢印に対して四角枠で囲まれた伝達日時差727eを付与した態様で表示する。出力手段530は、図30に示すような表示様態で表示することにより、差分表の情報を可視化し、コミュニケーション計画と実際の文書伝達との差を明確に表示する。
Further, the
図30に示すように、メンバM4からメンバM2への文書伝達と、メンバM1からメンバM7への文書伝達とは、予め計画されているものの、実際には行われていないことがわかる。また、メンバM3からメンバM8への文書伝達と、メンバM2からメンバM9への文書伝達については、予めコミュニケーション計画で計画されていないにもかかわらず、文書伝達が行われていることがわかる。 As shown in FIG. 30, document transmission from the member M4 to the member M2 and document transmission from the member M1 to the member M7 are planned in advance, but are not actually performed. Further, it can be seen that the document transmission from the member M3 to the member M8 and the document transmission from the member M2 to the member M9 are performed even though they are not planned in advance in the communication plan.
さらに、メンバM2からメンバM1への文書伝達が1日遅延しているが、メンバM1への伝達経路を参照すると、メンバM4からの伝達文書が届いておらず、また、メンバM4からの文書伝達が既に1日遅れていることがわかる。また、このことから、文書伝達の遅延の原因は、メンバM1への伝達よりも、むしろメンバM3及びメンバM4の文書伝達に問題があったことがわかる。すなわち、図30に示す表示画面に示される状況を見れば、メンバM1よりも、むしろメンバM3及びメンバM4の文書伝達に問題があったことを容易に判断することができる。 Further, although the document transmission from the member M2 to the member M1 is delayed by one day, when the transmission path to the member M1 is referred, the transmission document from the member M4 has not arrived, and the document transmission from the member M4 You can see that is already one day late. From this, it can be understood that the cause of the document transmission delay was a problem in the document transmission of the members M3 and M4 rather than the transmission to the member M1. That is, from the situation shown on the display screen shown in FIG. 30, it is possible to easily determine that there is a problem in document transmission of the members M3 and M4 rather than the member M1.
なお、本実施の形態において、文書参照関係抽出システム100や文書伝達評価システム400を実現する情報処理装置の記憶装置は、電子文書の伝達状況を評価するための各種プログラムを記憶している。例えば、情報処理装置の記憶装置は、コンピュータに、データベースに記憶する電子文書の伝達記録を示す伝達記録情報と、予めデータベースに記憶する電子文書の伝達計画を示す伝達計画情報とに基づいて、電子文書の伝達記録と伝達計画との差分を抽出する差分抽出処理と、抽出した電子文書の伝達記録と伝達計画との差分を出力する差分出力処理とを実行させるための文書伝達評価プログラムを記憶している。
In the present embodiment, the storage device of the information processing apparatus that implements the document reference
以上のように、本実施の形態によれば、差分抽出手段550は、階層構造特定手段130がコミュニケーション計画に基づいて特定した文書伝達予定の階層構造と、文書伝達情報とを比較する。また、差分抽出手段550は、コミュニケーション計画に含まれているが伝達文書情報に伝達記録のない文書伝達や、コミュニケーション計画には含まれていないにもかかわらず行われた文書伝達、電子文書の伝達予定日時とその計画に対応する電子文書の伝達日時との差を、文書伝達の差分として抽出する。そして、差分抽出手段550は、抽出した文書伝達の差分を出力手段530に表示させる。そのため、電子文書を参照した人、及びその電子文書伝達の時期の適切さを明確に評価することができる。
As described above, according to the present embodiment, the
実施の形態5.
上記の各実施の形態に示した文書参照関係抽出システム100や、表現統一化システム300、文書伝達評価システム400は、例えば、電子文書や類似文書対から同義表現を抽出する同義表現抽出システムを適用して構成することができる。以下、文書参照関係抽出システム100や、表現統一化システム300、文書伝達評価システム400に適用されうる同義表現抽出システムの一例について、図面を参照して説明する。
The document reference
まず、本発明の第5の実施の形態を図面を参照して説明する。図31は、本発明による文書参照関係抽出システム100や、表現統一化システム300、文書伝達評価システム400に同義表現抽出装置350として適用できる同義表現抽出システムの構成の一例を示すブロック図である。図31に示すように、同義表現抽出システム10は、係り受け解析手段101と、表現比較手段102と、構造関係特定手段103と、類似性算出手段104とを含む。また、同義表現抽出システム10は、類似文章対データベース501と、出力手段502とを備える。
First, a fifth embodiment of the present invention will be described with reference to the drawings. FIG. 31 is a block diagram showing an example of the configuration of a synonym expression extraction system that can be applied as the synonym
また、図32は、同義表現抽出システム10が同義表現を抽出する処理の一例を示すフローチャートである。以下、同義表現抽出システム10の各構成要素の機能と、同義表現抽出システム10の動作とを、図31に示すブロック図及び図32に示すフローチャートとを参照して説明する。
FIG. 32 is a flowchart illustrating an example of processing in which the synonym
なお、本実施の形態において、同義表現抽出システム10は、具体的には、プログラムに従って動作するコンピュータ(例えば、パーソナルコンピュータ等の情報処理装置)によって実現される。また、同義表現抽出システム10は、例えば、同義表現検索を実行する情報検索システムや、プロジェクト管理を行うプロジェクト管理システム、電子文書の管理を行う文書管理システム等の用途に適用される。
In the present embodiment, the synonymous
なお、図31に示す例では、同義表現抽出システム10の外部に類似文章対データベース501と出力手段502とを設ける場合を示しているが、同義表現抽出システム10の内部に類似文章対データベース501と出力手段502とを備えてもよい。
In the example shown in FIG. 31, the similar
類似文章対データベース501は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。類似文章対データベース501は、相互に意味が類似している単一言語の2つ以上の文章を予め記憶している。例えば、類似文章対として、同じ内容に関して記載された異なるニュース記事等からそれぞれ文章を抽出して、類似文章対データベース501に蓄積してもよい。また、例えば、類似文章対データベース501は、同一の言語(外国語)で記載された文章を翻訳した複数の文章を類似文章対として記憶してもよいし、相互に参照関係のある電子文書から抽出した文章を類似文章対として記憶してもよい。また、例えば、類似文章対データベース501は、パラレルコーパス抽出手段340により得られたパラレルコーパスから、共通する単語を多く含む等の基準により抽出された文章を類似文章対として記憶してもよい。
Specifically, the similar
なお、本実施の形態では、類似文章対データベース501には、電子文書等から類似文章対を抽出する類似文章対抽出システム(図示せず)によって抽出された類似文章対が予め蓄積されている。例えば、類似文章対抽出システムは、所定時間毎に、インターネット上のWeb情報や共通サーバ等に蓄積されている電子文書から類似文章対を自動抽出し、類似文章対データベース501に記憶させる。また、例えば、類似文章対データベース501は、ユーザによって作成された類似文章対を予め蓄積してもよい。
In the present embodiment, similar sentence pairs extracted by a similar sentence pair extraction system (not shown) for extracting similar sentence pairs from an electronic document or the like are stored in advance in the similar
図33は、類似文章対データベース501が記憶する類似文章対の例を示す説明図である。図33に示す類似文章対では、表現「ABC機能」と表現「XYZ機能」とが同義表現であるとする。以下、図33に示す類似文章対を例にして同義表現の抽出方法を説明する。また、本実施の形態では、2つの類似文章間の同義表現を抽出する場合を例に説明する。なお、類似文章対に3つ以上の類似文章が含まれる場合には、各類似文章を2つずつ組み合わせた類似文章の組を作り、その全組み合わせに対してそれぞれ処理を実行すればよい。
FIG. 33 is an explanatory diagram showing an example of similar sentence pairs stored in the similar
同義表現抽出システム10は、ユーザによる操作に従って、同義表現抽出の処理を開始する。例えば、同義表現抽出システム10は、ディスプレイ装置等である出力手段502に、同義表現抽出用のフォームを含む表示画面を表示させる。この場合に、ユーザによって同義表現抽出用のフォームから実行ボタンがマウスクリック等されると、同義表現抽出システム10は、同義表現抽出の処理を開始する。
The synonym
係り受け解析手段101は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。同義表現抽出の処理を開始すると、係り受け解析手段101は、まず、類似文章対データベース501から類似文章対を抽出する。次いで、係り受け解析手段101は、抽出した類似文章対に含まれる各文章に対して係り受け解析を行い、その係り受け解析結果を表現比較手段102に出力する(ステップS704a)。
Specifically, the
なお、一般に、係り受け解析を行う前には文章を形態素に分解する形態素解析処理を行う必要がある。本実施の形態では、形態素解析処理は係り受け解析手段101に組み込まれているものとし、係り受け解析手段101は、ステップS704aにおいて、形態素解析処理を実行してから係り受け解析を実行する。なお、形態素解析処理を行う手段を、係り受け解析処理を行う係り受け解析手段101とは別に備えるようにしてもよい。
In general, before performing dependency analysis, it is necessary to perform a morpheme analysis process that decomposes a sentence into morphemes. In the present embodiment, it is assumed that the morphological analysis process is incorporated in the
なお、係り受け解析手段101は、HMM(Hidden Markov Model )等の既存技術を用いて形態素解析を実行する。また、係り受け解析手段101は、確率モデルや構文解析等の既存技術を用いて係り受け解析を実行する。
The
図34は、図33に示した各文章を係り受け解析し、各文節間の係り受けの関係を図示した説明図である。図34において、ノードは文節を表し、矢印の先が文節の係り先を表している。図34に示すように、係り受け解析手段101は、類似文章対の各文章に対して係り受け解析を実行することにより、各文章を、文節をノードとする木構造を用いて表すことができる。ここで、図34に示すような係り受けの木構造を係り受け構造という。
FIG. 34 is an explanatory diagram illustrating the dependency relationship between each phrase by performing dependency analysis on each sentence shown in FIG. 33. In FIG. 34, a node represents a phrase, and the tip of the arrow represents the destination of the phrase. As shown in FIG. 34, the
なお、係り受け解析手段101は、形態素解析結果と各文節の対応関係の情報とを、例えば、図35に示すようなデータ形式で記録媒体に記憶させる。例えば、係り受け解析手段101は、記憶媒体として、情報処理装置のメモリやハードディスク装置、CD−ROM、DVD−ROM、フレキシブルディスク等に、形態素解析結果や各文節の対応関係の情報を、図35に示すように表(テーブル)形式で記憶させる。
Note that the
図35に示すように、形態素解析結果や各文節の対応関係の情報を示す表には、形態素解析により抽出された単語と、その単語の品詞及び係り受け解析により求められた文節IDとが含まれる。文節IDとは、文節を特定するための識別情報である。同じ文節に属する単語には同一の文節IDが付与される。 As shown in FIG. 35, the table showing the morphological analysis result and the correspondence information of each phrase includes the word extracted by the morphological analysis, the part of speech of the word, and the phrase ID obtained by the dependency analysis. It is. The phrase ID is identification information for specifying a phrase. The same phrase ID is assigned to words belonging to the same phrase.
また、係り受け解析手段101は、求めた係り受け構造を、例えば、図36に示すようなデータ形式により表(テーブル)形式で記憶媒体に記憶させる。以下、図36に示す係り受け構造を示す表を係り受け表という。図36に示す係り受け表において、左列の「文節ID」は、図35に示す文節IDと対応している。また、中央列の「文節」は、1つの文節を形成する文字列である。右列の「係り先ID」は、その文節が係る係り先の文節の文節IDを示している。
Further, the
例えば、図36に示す例では、文節ID001の文節「動画処理の」は、文節ID002の文節「ために」に係ることがわかる。また、係る文節がない場合には、係り先がないことを判断できるように、例えば、係り先IDを000とする。
For example, in the example shown in FIG. 36, it can be seen that the phrase “moving image processing” with the
表現比較手段102は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。表現比較手段102は、係り受け解析手段101による解析結果を入力する。また、表現比較手段102は、入力した係り受け解析結果に基づいて、類似文章対における共通表現と相違表現とを特定し、共通表現と相違表現との特定結果を構造関係抽出手段103に出力する(ステップS704b)。
Specifically, the
表現比較手段102は、共通表現や相違表現として抽出する対象表現の品詞を任意に選択してよい。例えば、表現比較手段102は、名詞を含む文節について共通表現や相違表現を抽出してもよい。また、表現比較手段102は、自立語を含む文節について共通表現や相違表現を抽出してもよい。さらに、表現比較手段102は、文節区切りで抽出するだけではなく、名詞を含む文節とその文節を修飾する1つ以上の文節群とを1つの表現として、共通表現や相違表現を抽出してもよい。また、表現比較手段102は、係り受け構造の部分木を単位として、共通表現や相違表現を抽出してもよい。なお、表現比較手段102は、各文節に含まれる単語の品詞については、図35に示す形態素解析結果と各文節の対応関係の情報に基づいて抽出することができる。
The
以下、説明をわかりやすくするために、共通表現や相違表現として抽出する表現を各文節中に含まれる名詞句とした場合における同義表現の抽出過程について説明する。一般に、情報検索等を行なう場合、名詞や名詞句を入力して情報検索操作を行うことが多い。また、一般に、動詞や形容詞等の用言の同義表現はユーザが見てすぐに同義であるか否か認識できるものが多いのに対し、名詞や名詞句に同義表現が含まれる場合、その名詞や名詞句を見ただけではユーザが同義であるか否かをすぐに認識できないものが多い。従って、電子文書間等において名詞や名詞句に同義表現が含まれている場合、最も情報検索の障害となる可能性が高い。従って、本実施の形態では、類似文章対から名詞句における同義表現を抽出する場合を説明する。なお、同義表現抽出システム10は、名詞や名詞句に限らず、動詞や形容詞等の同義表現を抽出するものであってもよい。
Hereinafter, in order to make the explanation easy to understand, a process of extracting synonymous expressions in the case where expressions extracted as common expressions or different expressions are used as noun phrases included in each phrase will be described. In general, when performing an information search or the like, an information search operation is often performed by inputting a noun or a noun phrase. Also, in general, there are many synonymous expressions of verbs, adjectives, etc. that can be recognized immediately when the user sees them, but if nouns or noun phrases contain synonyms, In many cases, it is impossible to immediately recognize whether a user is synonymous or not just by looking at a noun phrase. Therefore, when synonyms are included in nouns and noun phrases between electronic documents, etc., there is a high possibility of being an obstacle to information retrieval. Therefore, in the present embodiment, a case will be described in which synonymous expressions in noun phrases are extracted from similar sentence pairs. The synonymous
また、以下、各文節を表現ともいう。図34に示す例では、表現比較手段102は、共通表現として「高速描画」(706a,706d)と「動画処理」(706b,706e)とを抽出する。また、図34において、網掛けで示した四角枠には、相違表現が含まれていることを表している。すなわち、表現比較手段102は、相違表現として「ABC機能」706c、「XYZ機能」706f及び「可視化診断」706gを抽出する。
Hereinafter, each phrase is also referred to as an expression. In the example shown in FIG. 34, the
構造関係特定手段103は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。構造関係特定手段103は、類似文章対から抽出された共通表現と相違表現とに基づいて、各文章における共通表現間の構造関係、及び共通表現と相違表現との間の構造関係を特定し、特定した各構造関係を類似性判定手段104に出力する(ステップS704c)。構造関係とは、係り受け構造における各表現の相対的位置関係により規定されるものである。構造関係は、係り受け構造において、基準となる表現(以下、基準表現という)が非分岐又は分岐の位置のどちらの位置に存在するかに従って2つに分けることができる。なお、基準表現に対して構造関係を特定する表現を対象表現という。また、分岐に位置する表現を分岐表現という。
Specifically, the structural
図37は、共通表現間の構造関係、及び共通表現と相違表現との間の構造関係の例を示す説明図である。図37(a)は、基準表現(709a)が非分岐に位置する場合の構造関係を示している。また、図37(b)は、基準表現(709b)が分岐に位置する場合の構造関係を示している。また、図37において、○印は1つの表現を表しており、矢印は係り受けを表している。また、●印は基準表現を表している。 FIG. 37 is an explanatory diagram illustrating an example of a structural relationship between common expressions and a structural relationship between a common expression and a different expression. FIG. 37A shows the structural relationship when the reference expression (709a) is located in a non-branch. FIG. 37 (b) shows the structural relationship when the reference expression (709b) is located at a branch. In FIG. 37, a circle represents one expression, and an arrow represents a dependency. The ● mark represents the standard expression.
基準表現が非分岐に位置する場合、図37(a)に示す破線四角枠により示される対象表現の位置によって、同列、直列及び並列の3つの構造関係を規定する。この場合、構造関係特定手段103は、対象表現が同列、直列又は並列のいずれであるかを特定する。ここで、同列とは基準表現と直接係り受けの関係がある表現の集合であり、直列とは文章の全体的な係り受け構造からみると基準表現が「係り」又は「受け」となる表現の集合であり、並列とは共通の分岐表現に係る表現の集合である。
When the reference expression is located in a non-branch, three structural relationships of the same column, series, and parallel are defined by the position of the target expression indicated by the broken-line square frame shown in FIG. In this case, the structural
一方、基準表現が分岐に位置する場合、図37(b)に示す破線四角枠により示される対象表現の位置によって、前列、後列及び横列の3つの構造関係を規定する。この場合、構造関係特定手段103は、対象表現が前列、後列及び横列のいずれであるかを特定する。ここで、前列とは基準表現に対して「係り」となる表現の集合であり、後列とは基準表現に対して「受け」となる表現の集合であり、横列とは共通の分岐表現に係る表現の集合である。
On the other hand, when the reference expression is located at a branch, the three structural relationships of the front row, the rear row, and the horizontal row are defined according to the position of the target representation indicated by the broken-line square frame shown in FIG. In this case, the structural
なお、係り受け構造において、構造関係を特定する表現間に2つ以上の分岐表現がある場合、構造関係特定手段103は、上記に示した6つの関係のいずれにも属さないと判断し、構造関係を「その他」と特定する。
In the dependency structure, if there are two or more branch expressions between the expressions specifying the structural relationship, the structural
次に、文章2を例にして、構造関係特定手段103が構造関係を特定する処理について説明する。構造関係の特定処理において、構造関係特定手段103は、まず、図36に示す係り受け表に基づいて、図38に示す構造関係特定表を生成する。構造関係特定表とは、構造関係を特定するために必要となる情報をまとめた情報である。図38に示すように、構造関係特定表は、文節IDと、文節IDに対応する表現の係り受け構造における位置(分岐/非分岐)と、それぞれ各表現の係り側及び受け側にある近接の分岐表現を特定するための文節ID(係り側近接分岐ID、受け側近接分岐ID)を含む。
Next, taking the
図39に示すように、係り側とは係り受け構造における葉側を意味し、受け側とは係り受け構造における根側を意味する。係り側近接分岐ID及び受け側近接分岐IDとは、係り受け構造において各表現がどの分岐表現に挟まれているかを把握するための識別情報である。ただし、係り受け構造において、根に相当する表現には受け側近接分岐IDがなく、葉と同列の関係にある表現には係り側近接分岐IDがない。そのため、図39に示すように、分岐表現の文節IDの代わりに葉IDと根IDとを用いる。そのようにすることにより、構造関係特定手段103は、任意の表現の係り側近接分岐ID及び受け側近接分岐IDに、分岐表現の文節ID、葉ID又は根IDのいずれかを付与する。
As shown in FIG. 39, the dependency side means the leaf side in the dependency structure, and the reception side means the root side in the dependency structure. The dependency side adjacent branch ID and the reception side adjacent branch ID are identification information for grasping which branch expression each expression is sandwiched in the dependency structure. However, in the dependency structure, the expression corresponding to the root does not have the reception side adjacent branch ID, and the expression in the same row as the leaf does not have the dependency side adjacent branch ID. Therefore, as shown in FIG. 39, the leaf ID and the root ID are used instead of the phrase ID of the branch expression. By doing so, the structural
構造関係特定手段103は、構造関係特定表を、以下の処理に従って生成する。構造関係特定手段103は、図36に示す係り受け表に基づいて、係り先IDに同じ文節IDが2つ以上あればその表現を分岐表現とし、同じ文節IDが1つ以下であれば非分岐の表現とする。そのような処理により、構造関係特定手段103は、各表現の分岐/非分岐を特定する。
The structural
次に、構造関係特定手段103は、係り受け表において係り先IDに存在しない文節IDを抽出する。その抽出した文節IDの表現は係り受け構造における葉に相当しており、構造関係特定手段103は、その抽出した文節IDの表現の係り側近接分岐IDには葉IDを付与する。この場合、構造関係特定手段103は、各葉IDとして異なる値を用いる。
Next, the structural
次に、構造関係特定手段103は、葉に相当する表現から順に、係り先の表現が分岐表現となるまで各表現を順次参照していき、そのトレースの過程に出てくる表現をメモリ等の記憶媒体に記憶させる。また、構造関係特定手段103は、記憶媒体に記憶されている表現の係り側近接分岐IDに、参照を開始した表現(葉に相当)の係り側近接分岐IDを付与する。また、構造関係特定手段103は、受け側近接分岐IDとして、前述した分岐表現の文節IDを付与する。また、構造関係特定手段103は、分岐表現の係り側近接分岐IDとして、その表現に直接係る表現の係り側近接分岐IDを付与する。
Next, the structure
なお、構造関係特定手段103は、分岐表現の係り側近接分岐IDとして、2個以上のIDを付与することになる。もし、分岐表現が見つからず係り先係り受け構造の根となった場合には、構造関係特定手段103は、その表現の受け側分岐表現IDを根IDとし処理を終了する。そうでない場合には、構造関係特定手段103は、さらに分岐の表現から順に係り先の表現が分岐表現となるまで順次参照していき、そのトレースの過程に出てくる表現をメモリ等の記憶媒体に記憶させる。また、構造関係特定手段103は、記憶媒体に記憶されている表現の係り側近接分岐IDに、参照を開始した分岐表現の文節IDを付与する。
The structural
上記の処理を繰り返し実行し、参照する係り先が係り受け構造の根となると、構造関係特定手段103は、その表現の受け側分岐表現IDに根IDを付与し、処理を終了する。図38は、図36に示す係り受け表に基づいて求められる構造関係特定表の例を示す説明図である。
When the above processing is repeatedly executed and the reference destination becomes the root of the dependency structure, the structural
次に、構造関係特定手段103は、構造関係特定表において、共通表現又は相違表現を含む2つの表現に対して構造関係を特定する。基準表現が非分岐である場合、構造関係特定手段103は、(1)2つの表現において受け側近接分岐IDと係り側近接分岐IDとがともに同一である場合には、構造関係を「同列」と特定する。また、構造関係特定手段103は、(2)2つの表現において受け側近接分岐IDが同一であり係り側近接分岐IDが異なれば、構造関係を「並列」と特定する。また、構造関係特定手段103は、(3)一方の受け側近接分岐IDが他方の係り側近接分岐IDと同一である場合には、構造関係を「直列」と特定する。また、構造関係特定手段103は、(4)2つの表現の受け側近接分岐IDと係り側近接分岐IDとに一致するものがなければ、構造関係を「その他」と特定する。
Next, the structural
また、基準表現が分岐表現である場合、構造関係特定手段103は、(1)対象表現の受け側近接分岐IDが基準表現の文節IDである場合には、構造関係を「前列」と特定する。また、構造関係特定手段103は、(2)対象表現の係り側近接分岐IDが基準表現の文節IDである場合には、構造関係を「後列」と特定する。また、構造関係特定手段103は、(3)2つの表現の受け側近接分岐IDが同一であれば、構造関係を「並列」と特定する。また、構造関係特定手段103は、(4)2つの表現の受け側近接分岐IDと係り側近接分岐IDとに一致するものがなければ、構造関係を「その他」と特定する。
Further, when the reference expression is a branch expression, the structure
なお、上記に示した構造関係を特定する方法は一例であり、構造関係特定手段103は、所望の構造関係が特定できれば、他の方法を用いて構造関係を特定してもよい。また、以下、共通表現間の構造関係を共通表現構造といい、共通表現と相違表現との間の構造関係を相違表現構造という。
Note that the above-described method of specifying the structural relationship is an example, and the structural
なお、構造関係を求めるための2つの表現において、片方が分岐表現であり、もう一方が分岐表現でない場合、どちらを基準表現にするかによって構造関係が変わる。そのため、本実施の形態では、構造関係特定手段103は、2つの表現間に対して基準表現と対象表現とを入れ替えて処理を実行することにより、2つの構造関係を特定する。そのように、基準表現と対象表現とを入れ替えた2種類の構造関係を特定して処理を行うことにより、同義表現抽出の精度をより高めることができる。なお、基準表現と対象表現との入れ替えを行わずに、いずれか一方の表現のみを基準表現とし、他方を対象表現として、同義表現抽出の処理を行ってもよい。
In the two expressions for obtaining the structural relationship, when one is a branching expression and the other is not a branching expression, the structural relation changes depending on which is used as a reference expression. Therefore, in the present embodiment, the structural
類似文章対に共通表現がm個ある場合、構造関係特定手段103は、各文章においてm×(m−1)個の共通表現構造を特定することになる。また、構造関係特定手段103は、相違表現1個について、m×2個の相違表現構造を特定することになる。例えば、文章1と文章2とを比較する場合には、m=2であるため、構造関係特定手段103は、共通表現構造を2個特定することになる。また、文章1及び文章2については、相違表現がそれぞれ1個及び2個であるため、構造関係特定手段103は、文章1において4個の相違表現構造を特定し、文章2において8個の相違表現構造を特定する。
When there are m common expressions in a pair of similar sentences, the structure
図40は、構造関係特定手段103が文章1に対して構造関係を特定した結果を示す説明図である。なお、図40の右側に示す特定結果は、図40の左側に示す特定結果で用いた基準表現と対象表現とを反転して(入れ替えて)処理することによって求めた構造関係である。図40において、破線矢印の元は基準表現を示しており、波線矢印の先は対象表現を示している。また、図40において、共通表現が含まれる表現(文節)は白抜き文字で示されており、相違表現が含まれる表現は網掛けの四角枠として示されている。
FIG. 40 is an explanatory diagram showing the result of the structural
図40に示すように、構造関係特定手段103による構造関係の特定結果に基づいて、文章1においては、基準表現の違いに関係なく、「高速描画」と「動画処理」との共通表現構造が「並列」(720a,820a)であることがわかる。また、「ABC機能」と「動画処理」との相違表現構造が「並列」(720b,820b)であることがわかる。また、「ABC機能」と「高速描画」との相違表現構造が「同列」(720c,820c)であることがわかる。
As shown in FIG. 40, based on the structural relationship specifying result by the structural relationship specifying means 103, the
図41は、構造関係特定手段103が文章2に対して構造関係を特定した結果を示す説明図である。なお、図41の下側に示す特定結果は、図41の上側に示す特定結果で用いた基準表現と対象表現とを反転して(入れ替えて)処理することによって求めた構造関係である。また、図41の見方は図40の場合と同様である。
FIG. 41 is an explanatory diagram showing the result of the structural
図41に示すように、構造関係特定手段103による構造関係の特定結果に基づいて、文章2においても、基準表現の違いに関係なく、「高速描画」と「動画処理」との共通表現構造が「並列」(730a,830a)であることがわかる。また、「XYZ機能」と「動画処理」との相違表現構造が「並列」(713b,830b)、「XYZ機能」と「高速描画」との相違表現構造が「同列」(730c,830c)であることがわかる。また、「可視化診断」と「高速描画」との相違表現構造及び「可視化診断」と「動画処理」との相違表現構造は、表現間に2つ以上の分岐表現(「用いており、」と「役立っている」)があるため、構造関係が「その他」(730d,730e,830d,830e)であることがわかる。
As shown in FIG. 41, based on the structural relationship identification result by the structural
類似性判定手段104は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。類似性判定手段104は、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する機能を備える。
Specifically, the
類似性判定手段104は、構造関係抽出手段103から類似文章対を入力し、入力した類似文章対における共通表現構造及び相違表現構造の同一性を判定する(ステップS704d)。さらに、類似性判定手段104は、同一性の判定結果に基づいて、類似文章対における同義表現候補対の類似度を算出することにより同義表現を抽出し、同義表現の抽出結果を出力手段502に出力する(ステップS704e)。
The
なお、同義表現候補対とは、類似文章対において同義表現の候補となる相違表現をペア(対)にした情報である。類似文章対である文章iと文章jとにそれぞれ相違表現がni個及びnj個含まれている場合、同義表現候補対の組み合わせはni×nj通りとなる。類似性判定手段104は、これら全ての同義表現候補対の組み合わせに対して類似度を算出する。
The synonymous expression candidate pair is information obtained by pairing different expressions that are candidates for synonymous expressions in a pair of similar sentences. When ni and nj different expressions are included in the sentence i and the sentence j, which are similar sentence pairs, there are ni × nj combinations of synonymous expression candidate pairs. The
まず、類似性判定手段104は、同義表現候補対における比較構造関係を特定する。比較構造関係とは、同義表現候補対の類似度を算出するために比較すべき共通表現構造及び相違表現構造のことである。類似性判定手段104は、共通表現構造について、類似文章対において基準表現及び対象表現が同一であるものを比較する。また、類似性判定手段104は、相違表現構造について、類似文章対において基準表現となる共通表現が同一であるもの、又は対象表現となる共通表現が同一であるものを比較する。
First, the
図42は、類似文章対における共通表現の数(m)が2である場合における比較構造関係の例を示している。図42において、共通表現1,2は文章i,jにおいて用いられている同一の文字列の表現であり、相違表現aと相違表現bとは同義表現候補対である。また、同義表現候補対は、図42において網掛けで示されている。図42に示す例では、類似性判定手段104が比較する構造関係数は、1つの同義表現候補対について、共通表現構造に対して2個となり、相違表現構造に対して4個となり、合計6個となる。すなわち、類似性判定手段104は、6個の構造関係の同一性に基づいて、同義表現候補対の類似度を算出する。
FIG. 42 shows an example of the comparative structure relationship when the number (m) of common expressions in similar sentence pairs is two. In FIG. 42,
図43は、文章1と文章2とにおける同義表現候補対に対する比較構造関係を示す。文章1と文章2とにおいて、同義表現候補対は、「ABC機能」と「XYZ機能」、及び「ABC機能」と「可視化診断」の2つになる。類似性判定手段104は、各同義表現候補対の両方に対して、図42と同様に、2つの共通表現構造と4つの相違表現構造とを比較し、構造関係の同一性を判定することにより、同義表現候補対の類似度を算出する。
FIG. 43 shows a comparative structural relationship for the synonymous expression candidate pair in the
なお、類似文章対において、各文章における文法構造や、共通表現及び相違表現の語順等が同等であることが保証されている場合には、類似性判定手段104は、相違表現構造の同一性のみを判定することによって、同義表現候補対の類似度を算出してもよい。この場合、図43に示す例では、類似性判定手段104は、「ABC機能」と「XYZ機能」及び「ABC機能」と「可視化診断」の各同義表現候補対ともに4つの相違表現構造を比較し、構造関係の同一性を判定して、同義表現候補対の類似度を算出することになる。
In the similar sentence pair, when it is guaranteed that the grammatical structure in each sentence and the word order of the common expression and the difference expression are equivalent, the
次に、類似性判定手段104が実行する各構造関係の同一性の判定処理の判定方法について説明する。図44は、構造関係の同一性に関する判定基準を示す表(テーブル)の一例を示す説明図である。図44に示す表は、2つの構造関係の全ての組み合わせに対して、それらを同一とみなすか否かを設定したものである。以下、図44に示す表を同一性判定表という。なお、図44に示す同一性判定表は、例えば、情報処理装置が備えるハードディスク装置やメモリ等の記憶媒体に予め記憶される。また、図44に示す同一性判定表は、対象行列であるため、下三角行列の部分には値は含まれないものとする。
Next, a determination method of the determination process of the identity of each structural relationship executed by the
図44に示す同一性判定表では、各構造関係の組み合わせに対して「○」、「×」又は「順」の3種の同一性を判定するための判定値が設定されている。ここで、「○」は各比較構造関係を同一と判定することを意味し、「×」は相違と判定することを意味する。また、「順」は、比較構造関係において、基準表現と対象表現との各文章中における順序が等しい場合には同一と判定することを表す。 In the identity determination table shown in FIG. 44, determination values for determining three types of identity of “◯”, “x”, or “order” are set for each combination of structural relationships. Here, “◯” means that the comparison structural relationships are determined to be the same, and “x” means that they are determined to be different. Further, “order” represents that, in the comparative structure relationship, when the order in the sentences of the reference expression and the target expression is the same, they are determined to be the same.
類似性判定手段104は、図44に示す同一性判定表に従って、各構造関係の同一性を判定する。この場合、類似性判定手段104は、原則として、比較構造関係が一致している場合(図44に示す対角要素に相当する)には、構造関係が「その他」である場合を除き、その構造関係を同一であると判断できる。ただし、同一性判定表を用いた同一性判定において、構造関係が一致していない場合においても同一と判定することを許容するものとする。
The similarity determination means 104 determines the identity of each structural relationship according to the identity determination table shown in FIG. In this case, the
例えば、同一性判定表では、類似文章対において比較構造関係が「並列」と「横列」とである場合には、同一「○」760aであるとしている。横列と並列とは、基準表現の位置に差があるものの、ともに「同じ分岐表現に係る表現間の関係」を規定するものであり、実質的には同じ構造であると判断することができる。 For example, in the identity determination table, if the comparison structure relationship is “parallel” and “row” in the similar sentence pair, it is assumed that they are the same “◯” 760a. Although the row and the parallel are different in the position of the reference expression, they both define “relationship between expressions related to the same branch expression”, and can be determined to have substantially the same structure.
また、同一性判定表において判定値として「順」を設定することにより、以下の処理を実現することができる。図45は、類似文章対の他の例である文章3及び文章4を示す説明図である。図45に示す類似文章対において、「DEF機能」と「KLM機能」とが同義表現であるとする。図45に示す例において、表現比較手段102は、「製品」と「新開発」とを共通表現として特定し、文章3の「DEF機能」と文章4の「KLM機能」及び「動画処理」とを相違表現として特定する。そのため、図45に示す例では、「DEF機能」及び「KLM機能」と「DEF機能」及び「動画処理」とが同義表現候補対となる。
Further, by setting “order” as the determination value in the identity determination table, the following processing can be realized. FIG. 45 is an explanatory
図46は、図45に示す類似文章対の係り受け構造を示す説明図である。図46に示す各構造関係において、矢印の元が基準表現を示しており、矢印の先が対象表現を示している。また、図46に示す構造関係「同列」780aと「直列」(780b,780c)とは、比較構造関係である。この場合、文章3における「同列」780aと文章4における「直列」780bとは一致しない。そのため、従来の同義表現抽出方法では、文章3及び文章4から同義表現を抽出することはできない。
FIG. 46 is an explanatory diagram showing a dependency structure of similar sentence pairs shown in FIG. In each structural relationship shown in FIG. 46, the source of the arrow indicates the reference expression, and the tip of the arrow indicates the target expression. Also, the structural relationship “same row” 780a and “series” (780b, 780c) shown in FIG. 46 are comparative structural relationships. In this case, “same row” 780a in
しかしながら、本実施の形態では、図46に示す場合であっても、類似性判定手段104は、図44に示す同一性判定表に基づいて、文章3における「同列」780aと文章4における「直列」780bとの相違表現構造関係を同一であると判定できる。すなわち、図44に示す同一性判定表では、「同列」と「直列」との同一性の判定基準が「順」と設定されており、共通表現と対象表現の順序が一致すれば、相違表現構造関係を同一と判定できる。図46に示す例では、文章3においては、基準表現「DEF機能」が対象表現「製品」よりも語順として前にあり、文章4においても基準表現「KLM機能」が対象表現「製品」よりも語順として前にあり、共通表現と対象表現との順序が一致する。そのため、類似性判定手段104は、「同列」780aと「直列」780bとの相違表現構造関係を同一であると判定することができる。
However, in the present embodiment, even in the case shown in FIG. 46, the
一方、図46において、「KML機能」と同様に、「動画処理」も対象表現「製品」と「直列」780cの関係にあるが、類似性判定手段104は、「直列」780cの構造関係を、「DEF機能」と「製品」との構造関係「同列」780aとは相違と判定できる。すなわち、図46に示す例では、文章4において基準表現「動画処理」が対象表現「製品」よりも語順として後ろにあり、文章3の基準表現「DEF機能」と対象表現「製品」との語順とが異なるため、類似性判定手段104は、「直列」780cと「同列」780aとの相違表現構造関係を相違と判定する。
On the other hand, in FIG. 46, as with the “KML function”, “moving image processing” has a relationship of “serial” 780c with the target expression “product”, but the
以上の処理が実行されることにより、「DEF機能」に対する「動画処理」と「KML機能」との構造関係に差をつけることができる。 By executing the above processing, it is possible to make a difference in the structural relationship between the “moving image processing” and the “KML function” with respect to the “DEF function”.
なお、図44に示した同一性判定表は一例であり、同一性判定表中の各要素をシステム利用者が変更できるようにしてもよい。例えば、図44に示す同一性判定表において、「順」を「○」に変更することによって、語順に対する制約を緩めるようにしてもよい。 The identity determination table shown in FIG. 44 is an example, and each element in the identity determination table may be changed by the system user. For example, in the identity determination table shown in FIG. 44, the restriction on the word order may be relaxed by changing “order” to “◯”.
図47及び図48は、それぞれ、類似性判定手段104によって特定された同義表現候補対「ABC機能」及び「XYZ機能」と「ABC機能」及び「可視化診断」とにおける比較構造関係の同一性を示す説明図である。図47及び図48において、比較構造関係は双方向矢印で示されており、矢印に付与されている「同一」及び「相違」は図44の同一性判定表に基づく判定結果を示している。図47及び図48に示す例では、「ABC機能」及び「XYZ機能」は全ての比較構造関係が同一であることがわかる。また、「ABC機能」及び「可視化診断」は4つの相違表現構造が相違であることがわかる。
47 and 48 show the identity of the comparison structure relationship in the synonymous expression candidate pairs “ABC function” and “XYZ function”, “ABC function”, and “visualization diagnosis” identified by the
次に、類似性判定手段104は、求めた構造関係の同一性に基づいて、同義表現候補対の類似度を算出する。なお、類似性判定手段104は、同義表現候補対の類似度を求める処理を、全ての同義表現候補対に対して実行する。この場合、類似性判定手段104は、類似度の算出方法として、例えば、式(9)を用いて同義表現候補対の類似度を求めるようにすればよい。
Next, the
類似度=(構造関係の同一数)÷(比較した構造関係の数) 式(9) Similarity = (same number of structural relationships) ÷ (number of structural relationships compared) Equation (9)
類似性判定手段104は、式(9)を用いて算出した類似度が所定の閾値以上であるか否かを判定する(ステップS704f)。類似度が所定の閾値以上であれば、類似性判定手段104は、各同義表現候補が類似であると判定し、同義表現であると判定する。そして、類似性判定手段104は、類似文章対から同義表現として抽出する(ステップS704g)。類似度が所定の閾値以上でなければ、次の類似文章対があれば、次の類似文章対に対する同義表現抽出処理に移行する(ステップS704h)。
The
図47及び図48に示す例では、「ABC機能」及び「XYZ機能」は、比較構造関係の数が6つ(共通表現構造2つ、相違表現構造4つ)であり、それら全ての構造関係が同一であるため、類似性判定手段104は、類似度を6/6=1.0と求める。また、「ABC機能」及び「可視化診断」は、共通表現構造のみが同一であるため、類似性判定手段104は、類似度を2/6=0.33・・・と求める。例えば、閾値を0.8とすれば、類似性判定手段104は、「ABC機能」と「XYZ機能」とを類似と判断し、同義表現として抽出する。
In the examples shown in FIGS. 47 and 48, the “ABC function” and the “XYZ function” have six comparison structural relationships (two common representation structures and four different representation structures), and all the structural relationships thereof. Are similar to each other, the
さらに、類似性判定手段104は、共通表現間の構造関係、及び相違表現と共通表現との間の構造関係の同一性に対して重み付けを行い、重み付き平均を求めることにより、類似度の算出を行ってもよい。この場合、例えば、類似性判定手段104は、式(10)を用いて、重み付き平均を求めて類似度の算出を行う。
Further, the
類似度=w×(共通表現構造の類似度)+(1−w)×(相違表現構造の類似度)
式(10)
Similarity = w × (similarity of common expression structure) + (1−w) × (similarity of different expression structure)
Formula (10)
ただし、類似性判定手段104は、式(10)を用いて類似度を求める際に、共通表現構造及び相違表現構造の類似度を、それぞれ式(11)及び式(12)を用いて求める。
However, the
(共通表現構造の類似度)=(共通表現構造の同一数)÷(比較した共通表現構造の数)
式(11)
(Similarity of common expression structures) = (same number of common expression structures) ÷ (number of common expression structures compared)
Formula (11)
(相違表現構造の類似度)=(相違表現構造の同一数)÷(比較した相違表現構造の数)
式(12)
(Similarity of difference representation structures) = (same number of difference representation structures) ÷ (number of difference representation structures compared)
Formula (12)
式(10)において、wは、類似文章対における共通表現間の同一性をどれだけ重視するかを示す重み係数であり、0〜1の値をとる。また、w=(m−1)/(m+1)とすれば、式(10)は式(9)と同等になる。ここで、mは共通表現の数である。すなわち式(10)は式(9)を含む一般式として捉えることができる。また、重み係数wを0.2とすれば、相違表現構造を重視した同義表現抽出を行うこともできる。 In Expression (10), w is a weighting coefficient indicating how much importance is attached to the identity between the common expressions in the similar sentence pair, and takes a value of 0 to 1. Further, if w = (m−1) / (m + 1), Expression (10) is equivalent to Expression (9). Here, m is the number of common expressions. That is, equation (10) can be understood as a general equation including equation (9). If the weighting factor w is 0.2, synonymous expression extraction can be performed with an emphasis on the difference expression structure.
図49は、類似性判定手段104が求めた重み付き平均を用いた類似度の例を示す説明図である。図49は、文章1及び文章2における共通表現構造の類似度及び相違表現構造の類似度を式(11)及び式(12)を用いて算出するとともに、w=0.2にとしたときの類似度を示している。
FIG. 49 is an explanatory diagram showing an example of the degree of similarity using the weighted average obtained by the
なお、類似性判定手段104は、閾値以上となる同義表現候補対が多数ある場合には、類似度が最も高かったものを同義表現として抽出してもよいし、閾値以上のもの全てを同義表現として出力してもよい。また、類似性判定手段104は、類似度上位の所定数の候補のみ同義表現として出力してもよい。
Note that, when there are many synonymous expression candidate pairs that are equal to or greater than the threshold, the
さらに、類似性判定手段104は、共通表現間の構造関係が異なる場合、類似文章対において文章の構造が大きく変化していると判断し、同義表現と判断する閾値を変更してもよい。また、類似性判定手段104は、複数の同義表現候補対に対する類似度が求められている場合には、類似度の値の分布によって統計的に類似度間の差が大きい箇所を検出し、閾値を決定してもよい。また、類似する同義表現候補対が存在しない場合においては、図44に示す同一性判定表の「その他」を「○」と変化させた場合における類似度を再度計算し、該同義表現候補対を再計算してもよい。この場合においては、「その他」という構造関係で類似している同義表現の抽出が行える。
Furthermore, when the structural relationship between the common expressions is different, the
なお、類似性判定手段104は、一組の類似文章対において共通表現間の構造関係の類似度は一定の値となるため、類似度が最も高いものを同義表現とする場合には、共通表現間の構造関係の類似度は算出する必要はない。 It should be noted that the similarity determination means 104 has a fixed value for the similarity of the structural relationship between the common expressions in a pair of similar text pairs. It is not necessary to calculate the degree of similarity between the structural relationships.
また、出力手段502には、類似性判定手段104の指示に従って、抽出した同義表現だけを出力してもよいし、同義表現とともに同義表現に係る表現を出力してもよい。例えば、類似性判定手段104は、「ABC機能」及び「XYZ機能」という同義表現を抽出した場合において、「XYZ機能」に相違表現「○○社の」という表現が係っていた場合、出力手段502に、「ABC機能」と「○○社のXYZ機能」とを同義表現として出力させてもよい。この場合、類似性判定手段104は、ABC機能を含む文章において○○社という単語が存在している場合には、XYZ機能に係っている「○○社の」を同義表現から除外する処理を行って、出力手段502に出力させてもよい。そのようにすることにより、類似文章対において、比較する文章にない表現で、かつ同義表現に係る表現のみを抽出することができる。
Further, only the extracted synonym expression may be output to the
出力手段502は、具体的には、ディスプレイ装置等の表示装置によって実現される。出力手段502は、例えば、ディスプレイ装置である場合には、類似性判定手段104の指示に従って、同義表現抽出装置10により抽出された同義表現を表示する。なお、出力手段502は、同義表現の抽出結果をファイルとして出力してもよいし、e−mail(電子メール)等を用いてシステム利用者の端末に通知(送信)してもよい。
Specifically, the
図50は、出力手段502が出力する同義表現の出力結果の一例を示す説明図である。出力手段502は、図50に示すように、類似性判定手段104の指示に従って、どのような文章からどのような同義表現が抽出されたかを出力する。図50に示す例では、出力手段502は、文章1と文章2とからABC機能とXYZ機能という同義表現が抽出されたことを出力(表示)している。
FIG. 50 is an explanatory diagram illustrating an example of the output result of the synonym expression output by the
なお、出力手段502の出力態様は、図50に例示した以外の表示態様でもよい。例えば、図51に示すように、出力手段502は、同義表現の候補を表示し、それら同義表現の候補とともに算出した類似度を表示してもよい。そのように、複数の同義表現の候補を出力(表示)することにより、類似度の多少の差により抽出した同義表現が出力されない等の弊害を避けられる。
The output mode of the
また、本実施の形態において、同義表現抽出システム10を実現する情報処理装置の記憶装置(図示せず)は、類似文章対に含まれる各文章から同義表現を抽出するための各種プログラムを記憶している。例えば、情報処理装置の記憶装置は、コンピュータに、類似文章対の各文章に共通して含まれる共通表現群が各文章の文章構造中において類似する相対的位置関係にあること、及び類似文章対の文章間で相違する相違表現群と共通表現群とが各文章の文章構造中において類似する相対的位置関係にあることに基づいて、類似文章対から同義表現を抽出する同義表現抽出処理を実行させるための同義表現抽出用プログラムを記憶している。
In the present embodiment, the storage device (not shown) of the information processing apparatus that implements the synonymous
以上のように、本実施の形態によれば、類似文章対に含まれる共通表現構造の類似度等の情報に基づいて類似文章対の文法的類似性を推定し、類似文章対から同義表現を抽出できる。すなわち、本実施の形態では、同義表現抽出システム10は、相違表現の類似度だけに基づいて同義表現であるか否かを判断するのではなく、類似文章対に含まれる共通表現と相違表現との両方の構造関係に基づいて、同義表現であるか否かを判断する。従って、事前に特殊な文法規則を設けることなく、類似文章対から同義表現を抽出することができる。
As described above, according to the present embodiment, the grammatical similarity of a similar sentence pair is estimated based on information such as the similarity of the common expression structure included in the similar sentence pair, and the synonym expression is obtained from the similar sentence pair. Can be extracted. In other words, in the present embodiment, the synonym
図52は、同義表現抽出システム10が同義表現を抽出できる原理を示す説明図である。本実施の形態では、図62に示す従来の同義表現抽出方法と同様に、同一のマーカー語(701a,901a)が存在し、かつ、マーカー語(701a,901a)と同義表現候補(701b、901b)との関係(701c,901c)が類似していれば、その同義表現候補を同義表現とする。また、図62に示す従来の同義表現抽出方法との違いは、本実施の形態では、同義表現抽出システム10は、類似文章対において共通するマーカー語間の関係(701d,901d)の同一性を評価する。そして、同義表現抽出システム10は、共通するマーカー語(701a,901a)が類似する関係であれば、類似文章対の文法や語順の規則性等が類似していると判断する。
FIG. 52 is an explanatory diagram showing the principle by which the synonym
上記のようにすることにより、類似文章対において、事前に明示的な文法制約を決めておくことを必要とせずに、高精度に同義表現を抽出することができる。また、類似文章間で語順が異なる場合や、類似表現が文章中に部分的に含まれる場合、用言がとる格が異なる場合であっても、同義表現を抽出することができる。 By doing as described above, synonymous expressions can be extracted with high accuracy without requiring explicit grammatical constraints in advance for similar sentence pairs. In addition, synonymous expressions can be extracted even when the word order is different between similar sentences, when similar expressions are partially included in the sentences, or when the predicates differ.
また、本実施の形態によれば、係り受け解析等に利用する一般的な辞書以外の辞書を用いずに同義表現を抽出できる。そのため、特別な辞書を準備したり記号表現を利用することなく、類似文章対を効率的に抽出できる。 Further, according to the present embodiment, synonymous expressions can be extracted without using a dictionary other than a general dictionary used for dependency analysis. Therefore, similar sentence pairs can be efficiently extracted without preparing a special dictionary or using symbolic expressions.
さらに、本実施の形態によれば、上記に示したように、多量の類似文章対を必要としない同義表現抽出の原理に従って、同義表現を抽出する。そのため、少数の類似文章対からであっても、高精度に同義表現を抽出することができる。 Furthermore, according to the present embodiment, as described above, synonym expressions are extracted according to the principle of synonym expression extraction that does not require a large number of similar sentence pairs. Therefore, even from a small number of similar sentence pairs, synonymous expressions can be extracted with high accuracy.
実施の形態6.
次に、本発明の第6の実施の形態を図面を参照して説明する。図53は、第6の実施の形態における同義表現抽出システムの構成例を示すブロック図である。図53に示すように、本実施の形態では、図31に示した構成要素に加えて、文章整形手段105を含む点で、第5の実施の形態と異なる。
Next, a sixth embodiment of the present invention will be described with reference to the drawings. FIG. 53 is a block diagram illustrating a configuration example of the synonymous expression extraction system according to the sixth embodiment. As shown in FIG. 53, the present embodiment is different from the fifth embodiment in that it includes a sentence shaping means 105 in addition to the components shown in FIG.
文章整形手段105は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。文章整形手段105は、類似文章対データベース501から類似文章対を取得(抽出)する。また、文章整形手段105は、抽出した類似文章対に対して、係り受け構造が変化する表記の差異を予め整形し、整形文章を係り受け解析手段101に出力する。
Specifically, the
本実施の形態では、表記の差異を事前に整形しておくことにより、類似文章対から類似する係り受け構造を特定できるようになり、同義表現の抽出精度を向上させることができる。すなわち、本実施の形態では、類似文章を予め所定の文法則に従って変換しておくことによって、文章の係り受け構造を特定しやすくし、同義表現の抽出精度を向上させている。 In this embodiment, by shaping the difference in notation in advance, a similar dependency structure can be identified from a pair of similar sentences, and the extraction accuracy of the synonymous expression can be improved. That is, in this embodiment, similar sentences are converted in advance according to a predetermined grammatical rule, so that the dependency structure of sentences can be easily specified, and the synonymous expression extraction accuracy is improved.
構造を類似させる文法規則の一例として、文章整形手段105は、例えば、「(名詞)を(サ変接続の名詞)する」を「(名詞)の(サ変接続の名詞)をする」に変換する処理を行う。サ変接続の名詞とは、「抽出する」や「獲得された」等、直後に「する」「される」等の単語を伴い、動詞のように扱われる単語である。
As an example of a grammatical rule that makes the structures similar, the
図54は、サ変接続の名詞を含む例文を示す説明図である。図54に示す例では、文章5に含まれるPQR機能と文章6に含まれるSTU機能とが同義表現であるとする。また、図55は、図54に示す文章5と文章7とに係り受け解析を適用した結果を示す説明図である。図55(a),(b)に示すように、文章5と文章6とは類似した文章であるが、サ変名詞の動詞化により係り受け解析の構造が変化していることがわかる。そこで、文章整形手段105は、文章5に対して、上記した変換規則を適用して文法側の変換を行い、図54に示す文章5'のように変換する。そして、係り受け解析手段101は、文章整形手段105が変換した文章に対して、係り受け解析を実行し、図55(c)に示すような木構造を求める。文章整形手段105による文法側の変換により、文章5の係り受け構造を文章7と同等にすることができ、同義表現の抽出の精度を向上させることができる。
FIG. 54 is an explanatory diagram showing an example sentence including a noun of a change connection. In the example shown in FIG. 54, it is assumed that the PQR function included in the
なお、本実施の形態で示した変換規則は一例であり、文章整形手段105は、係り受け解析による文章構造が類似するような変換規則を予め用意しておくほど、同義表現抽出の精度を高めることができる。
The conversion rule shown in the present embodiment is an example, and the
実施の形態7.
次に、本発明の第7の実施の形態を図面を参照して説明する。図56は、第7の実施の形態における同義表現抽出システム10の構成例を示すブロック図である。図56に示すように、本実施の形態では、図31に示した構成要素に加えて、類似度表データベース106、類似基準補正手段107及び入力手段503を含む点で、第5の実施の形態と異なる。
Next, a seventh embodiment of the present invention will be described with reference to the drawings. FIG. 56 is a block diagram illustrating a configuration example of the synonymous
類似度表データベース106は、具体的には、磁気ディスク装置や光ディスク装置等のデータベース装置によって実現される。類似度表データベース106は、各同義表現候補対に対する共通表現構造の類似度と、相違表現構造の類似度と、システム利用者によって入力される同義表現の正誤判定の内容とを記憶する。
Specifically, the
類似基準補正手段107は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。類似基準補正手段107は、類似文章対における相違表現の類似類性の判定基準を動的に変化させる機能を備える。
Specifically, the similarity
入力手段503は、具体的には、キーボードやマウス等の入力装置によって実現される。
Specifically, the
本実施の形態では、出力手段502は、類似性判定手段104の指示に従って、抽出した同義表現を出力する際に、出力した結果が真の同義表現であるか否かをシステム利用者が入力できるような態様で同義表現を出力(表示)する。
In the present embodiment, when the
出力手段502は、例えば、図57に示すような出力の様態で同義表現を出力(表示)する。図57に示す例では、出力手段502は、類似文章対において、同義表現候補対を類似度とともに表示している。また、図57において、右下の「判定」欄728は、同義表現として正しいか否かを入力する欄を表している。例えば、ユーザは、図57に示す表示画面の「判定」欄728から○又は×を入力操作することによって、出力された同義表現が正しいか誤っているかを入力指示する。
For example, the
なお、図57に示す例では、正誤を表現するのに○または×を入力できるフォームが用意されている場合を示しているが、本実施の形態で示したものに限らず、正しい同義表現を選択できるようにラジオボタンを含む表示画面を出力(表示)してもよい。また、例えば、表示画面から同義表現の出力結果の正誤を文字として入力できるようにしてもよい。 In the example shown in FIG. 57, a case is shown in which a form that can input ○ or × is prepared to express correctness. However, the form is not limited to that shown in the present embodiment, and correct synonymous expressions are used. A display screen including radio buttons may be output (displayed) so that selection can be made. In addition, for example, the correctness of the output result of the synonym expression may be input as characters from the display screen.
入力手段503は、システム利用者の入力操作に従って、相違表現対に対する正誤の判定内容を入力し、同義表現抽出システム10に出力する。本実施の形態では、入力手段503として、例えば、キーボードやマウス等の入力デバイスを用いる。図57に示す例では、入力手段503は、○又は×の情報を同義表現の判定内容として入力し、同義表現抽出システム10に出力する。なお、入力手段503は、システム利用者の操作に従って、類似性に対して数値等を入力することによって、同義表現の抽出結果を評価してもよい。また、入力手段503は、数値を入力するときに段階評価で入力してもよいし、連続値で入力してもよい。
The
類似度表データベース106は、各同義表現候補対に対する共通表現構造の類似度と、相違表現構造の類似度と、システム利用者によって入力される同義表現の正誤判定内容とを類似度表として記憶する。図58は、類似度表データベース106が記憶する類似度表の例を示す説明図である。類似度表は、類似文章対における共通表現構造の類似度、相違表現構造の類似度、及びシステム利用者により入力された同義表現の判定情報をまとめた表(テーブル)である。
The
類似性判定手段104は、i番目の同義表現候補対に対する共通表現構造の類似度をaiとし、相違表現構造の類似度をbiとすると、共通表現構造の類似度及び相違表現構造の類似度を、第5の実施の形態で示した式(11)及び式(12)を用いてそれぞれ算出すればよい。
The
類似基準補正手段107は、類似度表データベース106に記憶されている情報に基づいて、第5の実施の形態で示した類似度算出用の式(10)で用いる重み係数wを推定し、推定した重み係数を類似性判定手段104に出力する。wは共通表現構造の類似度(ai)と相違表現構造の類似度(bi)とのどちらを重視するかを決定するための値である。
Based on the information stored in the
類似基準補正手段107が重み係数wを補正する処理の一例を以下に示す。判定内容が○および×の2値で与えられている場合、×を0とし、○を1として処理を行う。また、判定内容が段階評価や連続値等の数値データで与えられている場合には、それらを0〜1に規格化した値を用いて処理を行う。
An example of a process in which the similarity
類似基準補正手段107は、判定内容を規格化した値として、例えば、判定情報の最大値と最小値とを求めた後、式(11)を適用して、式(11)’を用いて算出すればよい。
The similarity
(規格化された判定値)=(判定−最小値)/(最大値−最小値) 式(11)’ (Standardized judgment value) = (judgment−minimum value) / (maximum value−minimum value) Expression (11) ′
なお、式(11)’を用いた規格化済みの判定値をtiとする。 Note that a standardized determination value using the equation (11) ′ is ti.
図59は、図58に示した類似度表における判定内容を数値化した表を示す説明図である。なお、図59における同義表現候補対の個数をnとする。この場合、類似基準補正手段107は、tiと、式(10)を用いて算出される同義表現候補対の類似度w×ai+(1−w)×biとの差が小さくなるwを推定する。具体的には、類似基準補正手段107は、式(10)のw×ai+(1−w)×biとtiとの差をeiとしたときに、式(13)に示すEを最も小さくするwを求める。
FIG. 59 is an explanatory diagram showing a table in which the determination contents in the similarity table shown in FIG. 58 are quantified. Note that n is the number of synonymous expression candidate pairs in FIG. In this case, the similarity
E=Σei×ei 式(13) E = Σei × ei Formula (13)
なお、式(13)において、Σはiを1〜nまで変更したときの総和を表す記号である。また、文章整形手段105は、式(13)をwに関して微分し、微分式を0とすることにより、式(14)式を求める。
In equation (13), Σ is a symbol representing the sum when i is changed from 1 to n. Further, the
w=Σ(ti−bi)(ai−bi)/Σ(ai−bi)(ai−bi) 式(14) w = Σ (ti−bi) (ai−bi) / Σ (ai−bi) (ai−bi) Equation (14)
文章整形手段105は、式(14)を用いてEを最小にするwを求める。
The
以下、wの補正方法について具体例を用いて説明する。図60は、4つの同義表現候補対を含む類似度表における判定内容を数値化した表を示す説明図である。図60において、真の同義表現は「ABC機能」及び「XYZ機能」と「PQR機能」及び「ABC機能」であるとする。 Hereinafter, the correction method of w will be described using a specific example. FIG. 60 is an explanatory diagram showing a table in which determination contents in a similarity table including four synonymous expression candidate pairs are digitized. In FIG. 60, it is assumed that true synonymous expressions are “ABC function”, “XYZ function”, “PQR function”, and “ABC function”.
また、式(10)を用いて同義表現の抽出を行う場合において、重み係数wを0.8と設定し、同義表現とするか否かを判定するための類似度の閾値を0.8と設定したとする。図60に示す「類似度」は、類似性判定手段104が式(10)を用いて算出した各同義表現候補の類似度を示している。また、図60に示す例において、類似性判定手段104は、網掛けで示した類似度に対応する「ABC機能」及び「XYZ機能」と、「ABC機能」及び「可視化診断」と、「PQR機能」及び「ABC機能」とを同義表現として抽出する。すなわち、図60に示す例では、類似性判定手段104は、「ABC機能」及び「可視化診断」の組を誤って同義表現として抽出している。
In addition, when synonym expression extraction is performed using Expression (10), the weighting factor w is set to 0.8, and the similarity threshold for determining whether or not to use synonym expression is 0.8. Suppose that it is set. The “similarity” shown in FIG. 60 indicates the similarity of each synonym expression candidate calculated by the
図60に示す例において、同義表現抽出システム10は、システム利用者の入力操作に従って、図60の最右列に示すように、同義表現の抽出結果に対する判定内容を入力する。すると、類似基準補正手段107は、式(14)を用いて、重み係数wの補正値を約0.17と算出する。
In the example shown in FIG. 60, the synonym
次に、類似性判定手段104は、補正後の重み係数w=0.17を用いて、各同義表現候補の類似度を算出しなおす。図61は、w=0.17としたときの各同義表現候補の類似度の算出結果を示す説明図である。
Next, the
上記の処理により、類似度を平均的に判定値(ti)に近づけることができ、例えば、図61に示す例では、「ABC機能」及び「XYZ機能」と「PQR機能」及び「ABC機能」のみが閾値以上の類似度を有するように重み係数wの値を補正できている。従って、本実施の形態によれば、上記のような処理に従って、重み係数wの値を推定できるので、同義表現抽出の精度を高めることができる。 By the above processing, the similarity can be averaged close to the determination value (ti). For example, in the example shown in FIG. 61, “ABC function”, “XYZ function”, “PQR function”, and “ABC function”. The value of the weighting factor w can be corrected so that only the image has a similarity degree equal to or greater than the threshold. Therefore, according to the present embodiment, the value of the weighting factor w can be estimated according to the above-described processing, and therefore the accuracy of synonymous expression extraction can be increased.
なお、式(14)を用いて重み係数wの補正を行う場合を示したが、本実施の形態で示した補正方法は、同義表現を抽出する類似性判定の基準として式(10)を用いた場合の一例であり、重み係数wの補正方法として他の方法を用いてもよい。例えば、類似基準補正手段107は、類似性判定の基準として式(10)式以外の算出式を用いる場合には、その算出式にあわせた補正機能を設定すればよい。
Although the case where the weighting factor w is corrected using the equation (14) is shown, the correction method shown in the present embodiment uses the equation (10) as a criterion for similarity determination for extracting synonymous expressions. In this case, another method may be used as a method of correcting the weighting factor w. For example, when using a calculation expression other than the expression (10) as the similarity determination reference, the similarity
又、式(14)に示したように一意に補正量を求めるのではなく、類似基準補正手段107は、重み係数wを徐々に変更していくようにしてもよい。例えば、類似基準補正手段107は、現在の重み係数をwとし、新しく推定される重み係数をw_newとする場合、設定する重み係数を(w+w_new)/2として求める等の方法を用いて、重み係数wの値を補正してもよい。
In addition, the similarity
また、本実施の形態で示した同義表現抽出システム10の構成に、さらに、第6の実施の形態で示した文章整形手段105を含むように構成してもよい。そのように構成すれば、より高精度に同義表現を抽出することができる。
The synonymous
本発明は、表現統一化システムを有するプロジェクト・マネジメント支援用ツールやグループウェア等の用途に好適に適用される。また、本発明は、情報検索や文書作成支援等を行う装置や、情報検索や文書作成支援等を実現するためのプログラムに好適に適用される。 The present invention is suitably applied to uses such as a project management support tool and groupware having an expression unification system. Further, the present invention is suitably applied to a device for performing information retrieval and document creation support, and a program for realizing information retrieval and document creation support.
100 参照関係抽出システム
110 コミュニケーション計画データベース
120 非参照関係抽出手段
130 階層構造特定手段
300 表現統一化システム
310 組織情報データベース
320 伝達文書抽出手段
330 伝達文書データベース
340 パラレルコーパス抽出手段
350 同義表現抽出装置
360 同義表現データベース
370 階層構造データベース
380 修正手段
390 傾向分析手段
400 文書伝達評価システム
510 入力手段
520 文書提供サーバ
530 出力手段
540 修正案入力手段
550 差分抽出手段
100 reference
Claims (16)
電子文書の伝達計画を示す伝達計画情報に基づいて、電子文書間に参照関係がない文書伝達を示す非参照関係情報を抽出する非参照関係抽出手段と、
メンバ間で伝達される電子文書に対する文書伝達の階層構造を特定する階層構造特定手段と、
前記階層構造特定手段が特定した文書伝達の階層構造に基づいて、文書伝達前後の電子文書間の参照関係を抽出する参照関係抽出手段とを備え、
前記階層構造特定手段は、
電子文書の伝達記録を示す伝達記録情報に基づいて、前期伝達計画情報に示される伝達計画に対応する伝達記録を特定し、
特定した伝達記録に基づいて、電子文書の伝達の開始者から末端者までの階層構造を特定し、
前記非参照関係抽出手段が抽出した非参照関係情報に基づいて、電子文書の伝達の開始者から末端者までの階層構造を、非参照関係である文書伝達を含まずに特定する
ことを特徴とする文書参照関係抽出システム。 A document reference relationship extraction system for extracting a reference relationship between electronic documents in order to extract a parallel corpus that is an electronic document including synonymous expressions.
Non-reference relationship extraction means for extracting non-reference relationship information indicating document transmission that does not have a reference relationship between electronic documents based on transmission plan information indicating a transmission plan of the electronic document;
A hierarchical structure specifying means for specifying a hierarchical structure of document transmission for an electronic document transmitted between members ;
A reference relationship extracting means for extracting a reference relationship between electronic documents before and after document transmission based on the hierarchical structure of document transmission specified by the hierarchical structure specifying means;
The hierarchical structure specifying means includes:
Based on the transmission record information indicating the transmission record of the electronic document, the transmission record corresponding to the transmission plan shown in the previous period transmission plan information is identified,
Based on the identified communication records, identify the hierarchical structure from the start to the end of electronic document transmission,
Based on the non-reference relationship information extracted by the non-reference relationship extraction means, the hierarchical structure from the start to the end of the electronic document transmission is specified without including the non-reference relationship document transmission. Document reference relationship extraction system.
電子文書の伝達計画を示す伝達計画情報を予め記憶する伝達計画記憶手段と、
電子文書の伝達記録を示す伝達記録情報を記憶する伝達記録記憶手段と、
前記伝達計画記憶手段が記憶する伝達計画情報に基づいて、電子文書間に参照関係がない文書伝達を示す非参照関係情報を抽出する非参照関係抽出手段と、
メンバ間で伝達される電子文書に対する文書伝達の階層構造を特定する階層構造特定手段とを備え、
前記階層構造特定手段は、
前記伝達記録記憶手段が記憶する伝達記録情報に基づいて、前記伝達計画記憶手段が予め記憶する伝達計画情報に示される伝達計画に対応する伝達記録を特定し、
特定した伝達記録に基づいて、電子文書の伝達の開始者から末端者までの階層構造を特定し、
前記非参照関係抽出手段が抽出した非参照関係情報に基づいて、電子文書の伝達の開始者から末端者までの階層構造を、非参照関係である文書伝達を含まずに特定する
ことを特徴とする表現統一化システム。 An expression unification system that extracts a parallel corpus, which is an electronic document containing synonymous expressions, and unifies synonymous expressions included in the parallel corpus,
Transmission plan storage means for preliminarily storing transmission plan information indicating a transmission plan of an electronic document;
Transmission record storage means for storing transmission record information indicating the transmission record of the electronic document;
Non-reference relationship extraction means for extracting non-reference relationship information indicating document transmission having no reference relationship between electronic documents based on the transmission plan information stored in the transmission plan storage means;
A hierarchical structure specifying means for specifying a hierarchical structure of document transmission for an electronic document transmitted between members;
The hierarchical structure specifying means includes:
Based on the transmission record information stored in the transmission record storage means, identify the transmission record corresponding to the transmission plan indicated in the transmission plan information stored in advance by the transmission plan storage means,
Based on the identified communication records, identify the hierarchical structure from the start to the end of electronic document transmission,
Based on the non-reference relationship information extracted by the non-reference relationship extraction means, the hierarchical structure from the start to the end of the electronic document transmission is specified without including the non-reference relationship document transmission. Expression unification system.
電子文書に含まれる同義表現を修正する修正手段とを備え、
前記修正手段は、
電子文書中の文字列に対する修正文字列を入力し、
前記電子文書を含む文書伝達の階層構造を示す情報を前記階層構造記憶手段から抽出し、
抽出した前記文書伝達の階層構造を示す情報に含まれる伝達記録を全て抽出し、
抽出した伝達記録に対応する全ての電子文書とメンバを示す情報とを抽出し、
抽出した電子文書に基づいて修正対象の文字列を検索して抽出し、
前記修正対象の文字列を修正文字列に修正する
請求項2から請求項5のうちのいずれか1項に記載の表現統一化システム。 Hierarchical structure storage means for storing information indicating the hierarchical structure of document transmission specified by the hierarchical structure specifying means;
Correction means for correcting the synonymous expression included in the electronic document,
The correcting means is
Enter a correction character string for the character string in the electronic document,
Extracting information indicating a hierarchical structure of document transmission including the electronic document from the hierarchical structure storage means;
Extract all the transfer records included in the extracted information indicating the hierarchical structure of the document transfer,
Extract all electronic documents corresponding to the extracted transmission records and information indicating members,
Search and extract the character string to be modified based on the extracted electronic document,
The character string to be corrected is corrected to a corrected character string.
The expression unification system according to any one of claims 2 to 5 .
予め記憶する電子文書の伝達計画を示す伝達計画情報に基づいて、電子文書間に参照関係がない文書伝達を示す非参照関係情報を抽出する非参照関係抽出ステップと、
メンバ間で伝達される電子文書に対する文書伝達の階層構造を特定する階層構造特定ステップとを含み、
前記階層構造特定ステップで、
記憶する電子文書の伝達記録を示す伝達記録情報に基づいて、予め記憶する伝達計画情報に示される伝達計画に対応する伝達記録を特定し、
特定した伝達記録に基づいて、電子文書の伝達の開始者から末端者までの階層構造を特定し、
抽出した非参照関係情報に基づいて、電子文書の伝達の開始者から末端者までの階層構造を、非参照関係である文書伝達を含まずに特定する
ことを特徴とする表現統一化方法。 An expression unification method for extracting a parallel corpus, which is an electronic document including synonymous expressions, and unifying synonymous expressions included in the parallel corpus,
A non-reference relationship extraction step for extracting non-reference relationship information indicating document transmission having no reference relationship between electronic documents based on transmission plan information indicating a transmission plan of electronic documents stored in advance;
A hierarchical structure specifying step for specifying a hierarchical structure of document transmission for an electronic document transmitted between members,
In the hierarchical structure specifying step,
Based on the transmission record information indicating the transmission record of the electronic document to be stored, the transmission record corresponding to the transmission plan indicated in the transmission plan information stored in advance is specified,
Based on the identified communication records, identify the hierarchical structure from the start to the end of electronic document transmission,
An expression unification method characterized by specifying a hierarchical structure from the start to the end of electronic document transmission based on the extracted non-reference relationship information, without including document transmission that is a non-reference relationship.
電子文書に含まれる同義表現を修正する修正ステップを含み、
前記修正ステップで、
電子文書中の文字列に対する修正文字列を入力し、
前記電子文書を含む文書伝達の階層構造を示す情報を前記データベースから抽出し、
抽出した前記文書伝達の階層構造を示す情報に含まれる伝達記録を全て抽出し、
抽出した伝達記録に対応する全ての電子文書とメンバを示す情報とを抽出し、
抽出した電子文書に基づいて修正対象の文字列を検索して抽出し、
前記修正対象の文字列を修正文字列に修正する
請求項9又は請求項10記載の表現統一化方法。 A hierarchical structure storing step for storing in the database information indicating the identified document transmission hierarchical structure;
Including a correction step for correcting a synonymous expression included in the electronic document;
In the correction step,
Enter a correction character string for the character string in the electronic document,
Extracting information indicating the hierarchical structure of document transmission including the electronic document from the database;
Extract all the transfer records included in the extracted information indicating the hierarchical structure of the document transfer,
Extract all electronic documents corresponding to the extracted transmission records and information indicating members,
Search and extract the character string to be modified based on the extracted electronic document,
The character string to be corrected is corrected to a corrected character string.
The expression unification method according to claim 9 or 10 .
コンピュータに、
予めデータベースに記憶する電子文書の伝達計画を示す伝達計画情報に基づいて、電子文書間に参照関係がない文書伝達を示す非参照関係情報を抽出する非参照関係抽出処理と、
メンバ間で伝達される電子文書に対する文書伝達の階層構造を特定する階層構造特定処理とを実行させ、
前記階層構造特定処理で、
データベースに記憶する電子文書の伝達記録を示す伝達記録情報に基づいて、予めデータベースに記憶する伝達計画情報に示される伝達計画に対応する伝達記録を特定する処理と、
特定した伝達記録に基づいて、電子文書の伝達の開始者から末端者までの階層構造を特定する処理と、
抽出した非参照関係情報に基づいて、電子文書の伝達の開始者から末端者までの階層構造を、非参照関係である文書伝達を含まずに特定する処理とを
実行させるための表現統一化プログラム。 An expression unification program for extracting a parallel corpus, which is an electronic document including synonymous expressions, and unifying synonymous expressions included in the parallel corpus,
On the computer,
A non-reference relationship extraction process for extracting non-reference relationship information indicating document transmission having no reference relationship between electronic documents based on transmission plan information indicating a transmission plan of electronic documents stored in advance in a database;
A hierarchical structure specifying process for specifying a hierarchical structure of document transmission for an electronic document transmitted between members;
In the hierarchical structure specifying process,
A process for identifying a transmission record corresponding to the transmission plan indicated in the transmission plan information stored in the database in advance based on the transmission record information indicating the transmission record of the electronic document stored in the database;
A process for identifying a hierarchical structure from the start to the end of electronic document transmission based on the identified transmission record;
Representation standardization program for executing the processing to identify the hierarchical structure from the start to the end of electronic document transmission without including non-reference relationship document transmission based on the extracted non-reference relationship information .
特定した文書伝達の階層構造に基づいて、パラレルコーパスを抽出するパラレルコーパス抽出処理を実行させる
請求項13記載の表現統一化プログラム。 On the computer,
Execute parallel corpus extraction processing to extract a parallel corpus based on the identified document transmission hierarchy
The expression unification program according to claim 13 .
特定した文書伝達の階層構造を示す情報をデータベースに記憶させる階層構造記憶処理と、
電子文書に含まれる同義表現を修正する修正処理とを実行させ、
前記修正処理で、
電子文書中の文字列に対する修正文字列を入力する処理と、
前記電子文書を含む文書伝達の階層構造を示す情報を前記データベースから抽出する処理と、
抽出した前記文書伝達の階層構造を示す情報に含まれる伝達記録を全て抽出する処理と、
抽出した伝達記録に対応する全ての電子文書とメンバを示す情報とを抽出する処理と、
抽出した電子文書に基づいて修正対象の文字列を検索して抽出する処理と、
前記修正対象の文字列を修正文字列に修正する処理とを実行させる
請求項13又は請求項14記載の表現統一化プログラム。 On the computer,
A hierarchical structure storing process for storing in the database information indicating the identified document transmission hierarchical structure;
A correction process for correcting the synonymous expression included in the electronic document,
In the correction process,
A process of inputting a correction character string for the character string in the electronic document;
Processing for extracting information indicating the hierarchical structure of document transmission including the electronic document from the database;
A process for extracting all the transfer records included in the extracted information indicating the hierarchical structure of document transfer;
A process of extracting all electronic documents corresponding to the extracted transmission record and information indicating members;
A process for searching and extracting a character string to be corrected based on the extracted electronic document,
A process of correcting the correction target character string into a correction character string.
15. The expression unification program according to claim 13 or claim 14 .
階層構造特定処理で、予めデータベースに記憶する伝達計画情報に基づいて、予め計画されている文書伝達の階層構造を特定することによって、電子文書間の参照関係を抽出する処理を実行させる
請求項13から請求項15のうちのいずれか1項に記載の表現統一化プログラム。 On the computer,
In the hierarchical structure specifying process, a process for extracting a reference relationship between electronic documents is executed by specifying a preliminarily planned hierarchical structure of document transmission based on transmission plan information stored in advance in a database.
The expression unification program according to any one of claims 13 to 15 .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007071127A JP5119693B2 (en) | 2007-03-19 | 2007-03-19 | Document reference relation extraction system, expression unification system, document transmission evaluation system, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007071127A JP5119693B2 (en) | 2007-03-19 | 2007-03-19 | Document reference relation extraction system, expression unification system, document transmission evaluation system, method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008234174A JP2008234174A (en) | 2008-10-02 |
JP5119693B2 true JP5119693B2 (en) | 2013-01-16 |
Family
ID=39906887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007071127A Active JP5119693B2 (en) | 2007-03-19 | 2007-03-19 | Document reference relation extraction system, expression unification system, document transmission evaluation system, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5119693B2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010224941A (en) * | 2009-03-24 | 2010-10-07 | Nec Corp | Device, method, and program for searching relevant information |
JP5764942B2 (en) * | 2011-01-28 | 2015-08-19 | 富士通株式会社 | Information collation device, information collation system, information collation method, and information collation program |
JP5417359B2 (en) * | 2011-02-28 | 2014-02-12 | 株式会社日立製作所 | Document evaluation support system and document evaluation support method |
JP5703244B2 (en) * | 2012-02-27 | 2015-04-15 | エヌ・ティ・ティ・コムウェア株式会社 | Trace support device, trace support system, trace support method, and trace support program |
JP7211139B2 (en) * | 2019-02-14 | 2023-01-24 | 日本電信電話株式会社 | Review method, information processing device and review program |
JP7093322B2 (en) * | 2019-03-26 | 2022-06-29 | 株式会社富士通エフサス | Display control method, display control program and display control device |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4193549B2 (en) * | 2003-04-01 | 2008-12-10 | 沖電気工業株式会社 | Datetime expression normalization apparatus and method |
-
2007
- 2007-03-19 JP JP2007071127A patent/JP5119693B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2008234174A (en) | 2008-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2571373C2 (en) | Method of analysing text data tonality | |
Carley et al. | AutoMap User's Guide 2013 | |
KR101972179B1 (en) | Automatic task extraction and calendar entry | |
US9613026B2 (en) | System and method for interactive automatic translation | |
US9015153B1 (en) | Topic discovery, summary generation, automatic tagging, and search indexing for segments of a document | |
US7899871B1 (en) | Methods and systems for e-mail topic classification | |
KR101960115B1 (en) | Summarization of conversation threads | |
US7519589B2 (en) | Method and apparatus for sociological data analysis | |
US8135711B2 (en) | Method and apparatus for sociological data analysis | |
De Clercq et al. | Using the crowd for readability prediction | |
US20140280314A1 (en) | Dimensional Articulation and Cognium Organization for Information Retrieval Systems | |
US20050076037A1 (en) | Method and apparatus for computerized extracting of scheduling information from a natural language e-mail | |
US20100100815A1 (en) | Email document parsing method and apparatus | |
WO1998001807A1 (en) | Document producing support system | |
US20070233465A1 (en) | Information extracting apparatus, and information extracting method | |
EP1910949A2 (en) | An improved method and apparatus for sociological data analysis | |
US20100198802A1 (en) | System and method for optimizing search objects submitted to a data resource | |
JP5119693B2 (en) | Document reference relation extraction system, expression unification system, document transmission evaluation system, method and program | |
US9110852B1 (en) | Methods and systems for extracting information from text | |
Jha et al. | All that glitters is not gold–rule-based curation of reference datasets for named entity recognition and entity linking | |
US11574287B2 (en) | Automatic document classification | |
Egger et al. | Natural language processing (NLP): An introduction: Making sense of textual data | |
JP5076575B2 (en) | Synonym expression extraction system, synonym expression extraction method, and synonym expression extraction program | |
JP2015118498A (en) | Program, apparatus, and method, for creating similar sentences of same intent | |
JP2009026137A (en) | Apparatus and method for supporting obtaining of discussion state |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100302 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120424 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120625 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120925 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121008 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151102 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5119693 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |