JP2011022630A - Information processor and information processing program - Google Patents
Information processor and information processing program Download PDFInfo
- Publication number
- JP2011022630A JP2011022630A JP2009164390A JP2009164390A JP2011022630A JP 2011022630 A JP2011022630 A JP 2011022630A JP 2009164390 A JP2009164390 A JP 2009164390A JP 2009164390 A JP2009164390 A JP 2009164390A JP 2011022630 A JP2011022630 A JP 2011022630A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- document
- similar
- module
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、情報処理装置及び情報処理プログラムに関する。 The present invention relates to an information processing apparatus and an information processing program.
特許文献1には、多様な表現に対応して検索漏れを防ぎつつ、検索ゴミの少ない検索結果を得ることを課題とし、検索文を入力する入力ステップと、入力された検索文を解析用単語辞書に基づいて単語単位に分割する形態素解析ステップと、単語間の構文的係り受け関係を解析する構文解析ステップと、構文解析ステップの構文解析結果に基づき文書データベースを検索する一次検索ステップと、領域依存の概念知識を格納した概念知識データベースを基に検索文と一次検索ステップの検索結果との意味的な照合を行い類似あるいは非類似の検索結果を出力する意味照合ステップとを備えていることが開示されている。 Japanese Patent Laid-Open No. 2004-260688 has an object of obtaining a search result with a small amount of search dust while preventing a search omission corresponding to various expressions, an input step of inputting a search sentence, and an input search sentence as an analysis word A morphological analysis step that divides into words based on a dictionary, a syntax analysis step that analyzes syntactic dependency between words, a primary search step that searches a document database based on the syntax analysis result of the syntax analysis step, and an area It has a semantic collation step that performs semantic collation between the retrieval sentence and the retrieval result of the primary retrieval step based on the conceptual knowledge database storing the dependent conceptual knowledge, and outputs a similar or dissimilar retrieval result. It is disclosed.
本発明は、対象とする文書内で構文が類似していない文にまで類似している文を有する文書を検索してしまうことを抑制するようにした情報処理装置及び情報処理プログラムを提供することを目的としている。 The present invention provides an information processing apparatus and an information processing program that suppress a search for a document having a sentence similar to a sentence whose syntax is not similar in a target document. It is an object.
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、文書を記憶する文書記憶手段と、対象とする文書から文を抽出する文抽出手段と、前記文抽出手段によって抽出された文の構文に基づいて、該文の集合を生成する文集合生成手段と、前記文集合生成手段によって生成された文の集合内の第1の文と類似する第2の文を前記文書記憶手段に記憶されている文書内の文から検索する類似文検索手段と、前記類似文検索手段によって検索された第2の文に基づいて、前記対象とする文書に関連する文書を前記文書記憶手段から検索する関連文書検索手段を具備することを特徴とする情報処理装置である。
The gist of the present invention for achieving the object lies in the inventions of the following items.
According to a first aspect of the present invention, there is provided a document storage unit that stores a document, a sentence extraction unit that extracts a sentence from a target document, and a set of the sentences based on a sentence syntax extracted by the sentence extraction unit. A sentence set generating means to be generated and a second sentence similar to the first sentence in the sentence set generated by the sentence set generating means are searched from sentences in the document stored in the document storage means. A similar sentence search unit; and a related document search unit that searches the document storage unit for a document related to the target document based on the second sentence searched by the similar sentence search unit. Is an information processing apparatus.
請求項2の発明は、前記関連文書検索手段によって検索された文書に含まれる前記第2の文の数、該第2の文と対応する前記第1の文の類似度、該第2の文に対応する前記対象文書における前記第1の文の出現順序と前記関連文書検索手段によって検索された文書における該第2の文の出現順序の比較結果、又はこれらの組み合わせに基づいて、前記関連文書検索手段によって検索された文書を順序付けする順序付手段をさらに具備することを特徴とする請求項1に記載の情報処理装置である。
The invention according to claim 2 is the number of the second sentences included in the document searched by the related document search means, the similarity of the first sentence corresponding to the second sentence, and the second sentence. The related document based on the comparison result of the appearance order of the first sentence in the target document corresponding to and the appearance order of the second sentence in the document searched by the related document search means, or a combination thereof The information processing apparatus according to
請求項3の発明は、前記順序付手段は、前記関連文書検索手段によって検索された文書と前記対象とする文書の類似度に基づいて、前記順序付けを行うことを特徴とする請求項2に記載の情報処理装置である。 The invention according to claim 3 is characterized in that the ordering unit performs the ordering based on the similarity between the document searched by the related document search unit and the target document. Information processing apparatus.
請求項4の発明は、コンピュータを、文書を記憶する文書記憶手段と、対象とする文書から文を抽出する文抽出手段と、前記文抽出手段によって抽出された文の構文に基づいて、該文の集合を生成する文集合生成手段と、前記文集合生成手段によって生成された文の集合内の第1の文と類似する第2の文を前記文書記憶手段に記憶されている文書内の文から検索する類似文検索手段と、前記類似文検索手段によって検索された第2の文に基づいて、前記対象とする文書に関連する文書を前記文書記憶手段から検索する関連文書検索手段として機能させることを特徴とする情報処理プログラムである。 According to a fourth aspect of the present invention, there is provided a computer based on document storage means for storing a document, sentence extraction means for extracting a sentence from a target document, and syntax of the sentence extracted by the sentence extraction means. A sentence set generating means for generating a set of sentences, and a sentence in a document in which a second sentence similar to the first sentence in the sentence set generated by the sentence set generating means is stored in the document storage means Based on the second sentence searched by the similar sentence search means and the related sentence search means for searching from the document storage means for the document related to the target document based on the second sentence searched by the similar sentence search means An information processing program characterized by this.
請求項1の情報処理装置によれば、対象とする文書内で構文が類似していない文にまで類似している文を有する文書を検索してしまうことを抑制することができる。 According to the information processing apparatus of the first aspect, it is possible to suppress searching for a document having a sentence similar to a sentence whose syntax is not similar in the target document.
請求項2の情報処理装置によれば、対象文書に関連する文書を順序付けすることができる。 According to the information processing apparatus of the second aspect, documents related to the target document can be ordered.
請求項3の情報処理装置によれば、対象文書と類似する文書と、対象文書と類似していない文書であるが集合内の文と類似する文を有する文書とを分けることができる。 According to the information processing apparatus of the third aspect, it is possible to separate a document that is similar to the target document and a document that is a document that is not similar to the target document but has a sentence similar to a sentence in the set.
請求項4の情報処理プログラムによれば、対象とする文書内で構文が類似していない文にまで類似している文を有する文書を検索してしまうことを抑制することができる。 According to the information processing program of the fourth aspect, it is possible to suppress searching for a document having a sentence similar to a sentence whose syntax is not similar in the target document.
以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、コンピュータ・プログラム、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能にほぼ一対一に対応しているが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。
Hereinafter, an example of a preferred embodiment for realizing the present invention will be described with reference to the drawings.
FIG. 1 shows a conceptual module configuration diagram of a configuration example of the present embodiment.
The module generally refers to components such as software (computer program) and hardware that can be logically separated. Therefore, the module in the present embodiment indicates not only a module in a computer program but also a module in a hardware configuration. Therefore, the present embodiment also serves as an explanation of a computer program, a system, and a method. However, for the sake of explanation, the words “store”, “store”, and equivalents thereof are used. However, when the embodiment is a computer program, these words are stored in a storage device or stored in memory. It is the control to be stored in the device. In addition, the modules correspond almost one-to-one with the functions. However, in mounting, one module may be composed of one program, or a plurality of modules may be composed of one program. A plurality of programs may be used. The plurality of modules may be executed by one computer, or one module may be executed by a plurality of computers in a distributed or parallel environment. Note that one module may include other modules. Hereinafter, “connection” is used not only for physical connection but also for logical connection (data exchange, instruction, reference relationship between data, etc.).
In addition, the system or device is configured by connecting a plurality of computers, hardware, devices, and the like by communication means such as a network (including one-to-one correspondence communication connection), etc., and one computer, hardware, device. The case where it implement | achieves by etc. is included. “Apparatus” and “system” are used as synonymous terms. “Predetermined” means that the process is determined before the target process, and not only before the process according to this embodiment starts but also after the process according to this embodiment starts. In addition, if it is before the target processing, it is used in accordance with the situation / state at that time or with the intention to be decided according to the situation / state up to that point.
本実施の形態である情報処理装置は、対象とする文書に関連する文書を検索するものであって、図1に示すように、文書受付モジュール110、文書格納モジュール120、文抽出モジュール130、類似構文集合生成モジュール140、類似文検索モジュール150、関連文書検索モジュール160、関連文書ランキングモジュール170、関連文書出力モジュール180を有している。
The information processing apparatus according to the present embodiment searches for a document related to a target document. As shown in FIG. 1, a
特に、この情報処理装置は、次のような文書管理システムに適用してもよい。
近年、企業に対するコンプライアンス徹底の社会的要請を背景にして、厳密な文書管理のニーズが高まっている。例えば、RoHS(Restricting the use of Hazardous Substances、危険物質に関する制限)やREACH(Registration, Evaluation, Authorisation and Restriction of CHemicals、欧州化学品規制)といった製品中の含有物質の含有量に関する制限規則に適合していることを証明するための適合宣言書や、機密情報の機密レベルや開示範囲を示すために文書に付与する機密情報表示を正確に記述することが必要不可欠である。このために、例えば、新たに作成する適合宣言書の記述が、準拠すべきRoHSやREACH等の基準書(定義文書)や類似製品の適合宣言書等に適合しているか否かを確認するために、それらを参考情報として参照する必要が生じる。この場合に文書管理システムが用いられる。
以下、情報処理装置がこのような文書管理に用いられる場合を主に例示して説明する。
In particular, this information processing apparatus may be applied to the following document management system.
In recent years, there has been a growing need for strict document management against the background of social demands for thorough compliance with companies. For example, in the content of products such as RoHS (Restricting the use of Hazardous Substances), REACH (Registration, Evaluation, Authorization and Restriction of Chemicals) It is indispensable to accurately describe the declaration of conformity to prove that the information is confidential and the confidential information indication given to the document to indicate the confidentiality level and disclosure range of the confidential information. For this purpose, for example, to confirm whether the description of the newly created conformity declaration conforms to standards (definition documents) such as RoHS and REACH to be conformed, conformance declaration of similar products, etc. In addition, it is necessary to refer to them as reference information. In this case, a document management system is used.
Hereinafter, a case where the information processing apparatus is used for such document management will be mainly described as an example.
文書受付モジュール110は、文抽出モジュール130と接続されている。関連文書の検索を行う場合で検索対象とする文書を受け付ける。なお、文書とは、テキストデータによって構成されており、場合によっては画像、動画、音声等の電子データ、又はこれらの組み合わせを含めてもよく、記憶、編集及び検索等の対象となり、システム又は利用者間で個別の単位として交換できるものをいい、これらに類似するものを含む。対象となる文書には、文が含まれている。また、対象とする文書は、1つであってもよいし、複数の文書であってもよい。例えば、新たに作成する適合宣言書等が該当する。
文書を受け付けるとは、例えば、ハードディスク(コンピュータに内蔵されているものの他に、ネットワークを介して接続されているもの等を含む)等に記憶されている文書を読み出すこと、スキャナ、カメラ等で読み込んだ画像を文字認識すること等が含まれる。
The
To accept a document is, for example, reading a document stored in a hard disk (including those connected to a computer in addition to those built in a computer), and reading with a scanner, a camera, etc. This includes recognizing characters in images.
文書格納モジュール120は、文抽出モジュール130、類似文検索モジュール150、関連文書検索モジュール160、関連文書ランキングモジュール170からアクセスされる。文書格納モジュール120が記憶する文書について、図3を用いて説明する。図3は、本実施の形態の文書格納モジュール120内に記憶されている文書の例を示す説明図である。文書格納モジュール120は、例えば、定義文書群310、サプライヤからの適合宣言書群320、設計仕様書群330等の過去に作成された文書を記憶しており、作成文書群340内の文書を対象文書として記憶する。
定義文書群310の文書としては「RoHS指令」、「REACH改訂」等の文書があり、サプライヤからの適合宣言書群320の文書としては「サプライヤからの部品aの適合宣言書」等の文書があり、設計仕様書群330の文書としては「○○プロダクトAの設計仕様」等の文書があり、また、文書受付モジュール110が受け付けて文書格納モジュール120に記憶される文書としては「○○プロダクトAのXX向け適合宣言書」等がある。
The
Documents of the
文抽出モジュール130は、文書受付モジュール110、文書格納モジュール120、関連文書ランキングモジュール170と接続されている。文書受付モジュール110から受け取った対象とする文書から文を抽出し、その文を類似構文集合生成モジュール140へ渡す。また、文書格納モジュール120に記憶されている文書から文を抽出してもよく、その文を文書格納モジュール120に記憶させてもよい。文抽出モジュール130は、文書内のテキストデータを、句点、改行記号に応じて複数の文に分割する。つまり、句点、改行記号があったところを区切りとして、文を切り出す。
The
類似構文集合生成モジュール140は、文抽出モジュール130、類似文検索モジュール150と接続されている。文抽出モジュール130によって抽出された文の構文に基づいて、その文の集合を生成する。
前述した適合宣言書や機密情報表示のようなコンプライアンスに関わる文書では、コンプライアンス項目に適合していることを示す複数の記述が並置的に記載されているという特徴を持つ。例えば、適合宣言書では、「六価クロムは、500ppm以下である。ポリ臭化ジフェニルエーテルは20ppm以下である。…」というような並置的な記述が続く。類似構文集合生成モジュール140は、適合宣言書や機密情報表示のある文書を対象とした場合、複数の事実や定義が並置的に記述される文の集合を生成する。
The similar syntax set
The documents related to compliance such as the declaration of conformity and the confidential information display described above have a feature that a plurality of descriptions indicating conformity with the compliance item are described side by side. For example, in the declaration of conformity, a juxtapositional description such as “hexavalent chromium is 500 ppm or less, polybrominated diphenyl ether is 20 ppm or less, etc.” continues. The similar syntax set
より詳細には、例えば、類似構文集合生成モジュール140は、文抽出モジュール130から受け取った文同士の類似度を総当りで比較し、予め定められた閾値T1以上の類似度を持つ文のグループを特定する。類似度の判定には、例えば特許文献1に開示されている文比較手段を用いる。すなわち、解析用単語辞書を有しており、その解析用単語辞書に基づいて、文を単語単位に分割する。その単語間の構文的係り受け関係を解析する。その構文解析結果である構文構造に基づいて、文の集合を生成する。つまり、構文構造が閾値T1以上の類似度(一致している場合を含む)を有している文をグループ化する。さらに、シソーラス辞書を有しており、そのシソーラス辞書に基づいて、構文上の対応する単語がシソーラス上で類似していること(例えば、具体的には、シソーラス上での距離が予め定められた閾値T2以下)をグループ化の条件として加えてもよい。
また、文の集合が複数できた場合には、集合に属する文の数が、予め設定された閾値T3よりも大きい集合のみを残し、他の集合は処理対象から外す。
More specifically, for example, the similar syntax set
Further, when a plurality of sentence sets are created, only a set in which the number of sentences belonging to the set is larger than a preset threshold value T3 is left, and the other sets are excluded from processing targets.
類似文検索モジュール150は、文書格納モジュール120、類似構文集合生成モジュール140、関連文書検索モジュール160、関連文書ランキングモジュール170と接続されている。類似構文集合生成モジュール140によって生成された文の集合内の第1の文と類似する第2の文(以下、「類似文」ともいう)を文書格納モジュール120に記憶されている文書内の文から検索する。
例えば、具体的には、類似構文集合生成モジュール140から得られた同じ集合に属する各第1の文を対象として、文書格納モジュール120に記憶された各文書から文抽出モジュール130によって得られた文を対象に、それぞれの第1の文に類似する文を検索する。つまり、2つの文の類似度を算出し、その類似度が予め設定された閾値T4よりも大きい文を検索結果とする。類似構文集合生成モジュール140で複数の集合が得られた場合には、集合ごとにこの検索処理を実行する。
The similar
For example, specifically, a sentence obtained by the
類似文検索モジュール150で用いる類似する文の検索手法は、類似構文集合生成モジュール140で用いた文の集合生成手法とは異なるものである。類似文検索モジュール150では単語の一致度を重視する検索手法を用いる。例えば、「Foundations of Statistical Natural Language Processing, The MIT Press (1999)」等に開示されている単語ベクトル法を用いるようにしてもよい。
ただし、数値の単語については、「500」や「20」といった具体的な数値を用いるのではなく、「数値表現」として統一的に扱う。
The similar sentence search method used in the similar
However, for numerical words, specific numerical values such as “500” and “20” are not used, but are handled as “numerical expression” in a unified manner.
関連文書検索モジュール160は、文書格納モジュール120、類似文検索モジュール150、関連文書ランキングモジュール170と接続されている。類似文検索モジュール150によって検索された類似文に基づいて、対象とする文書に関連する文書を文書格納モジュール120から検索する。例えば、具体的には、文書格納モジュール120に記憶されている文書のうち、類似文検索モジュール150から検索結果として得られた文を複数含む文書を抽出する。
The related
関連文書ランキングモジュール170は、文書格納モジュール120、文抽出モジュール130、類似文検索モジュール150、関連文書検索モジュール160、関連文書出力モジュール180と接続されている。関連文書ランキングモジュール170は、関連文書検索モジュール160から得られた文書を関連度の高いものから順にランキングする。ランキングに用いる情報は以下の通りである。
(1)関連文書検索モジュール160によって検索された文書に含まれる類似文の数。これは、関連文書検索モジュール160によって検索された文書ごとに、類似文検索モジュール150によって検索された類似文がいくつあるかをカウントすることによって得られる。
(2)関連文書検索モジュール160によって検索された文書に含まれる類似文とその類似文に対応する第1の文の類似度。これは、関連文書検索モジュール160によって検索された文書ごとに、類似文検索モジュール150で算出した類似度を用いる。
(3)類似文に対応する対象文書における第1の文の出現順序と関連文書検索モジュール160によって検索された文書における類似文の出現順序の比較結果。これは、関連文書検索モジュール160によって検索された文書ごとに、その文書内での類似文の出現順序とその類似文に対応する第1の文の対象文書における出現順序を比較することによって得られる。なお、比較結果の値は、出現順序が同じ場合を高い値とし、逆順の場合を低い値とするような関数によって算出する。
(4)前述の(1)、(2)、(3)の2つ以上の組み合わせ
例えば、(1)の値、(2)の値、(3)の値のいずれか、又はこれらの値の組み合わせ(例えば、これらの値の和、各値に予め定めた重み係数を乗じた値の平均値等であってもよい)が大きい文書から順に並べる。
The related
(1) The number of similar sentences included in the document searched by the related
(2) Similarity between a similar sentence included in a document searched by the related
(3) A comparison result of the appearance order of the first sentence in the target document corresponding to the similar sentence and the appearance order of the similar sentences in the document searched by the related
(4) A combination of two or more of (1), (2) and (3) described above For example, one of the values of (1), (2) and (3), or The documents are arranged in order from the document with the largest combination (for example, the sum of these values, or an average value obtained by multiplying each value by a predetermined weighting factor).
また、関連文書ランキングモジュール170は、関連文書検索モジュール160によって検索された文書と対象文書の類似度に基づいて、前述の順序付けを行うようにしてもよい。例えば、関連文書検索モジュール160によって検索された文書内の全ての単語と対象文書内の全ての単語の類似度を、類似文検索モジュール150で用いた類似度の算出と同等の方法で求めて、予め定められた閾値T5よりも高い文書に対してだけ前述の順序付けを行うようにしてもよい。つまり、文書全体が類似している文書を対象として順序付けを行う。また、予め定められた閾値T6よりも低い文書に対してだけ前述の順序付けを行うようにしてもよい。つまり、文書全体は類似していないが、集合内の文と類似している文を有する文書を対象として順序付けを行う。
Further, the related
関連文書出力モジュール180は、関連文書ランキングモジュール170と接続されている。関連文書ランキングモジュール170によってランキングされた文書を出力する。なお、出力する文書とは、文書そのものであってもよいし、その文書の属性(例えば、タイトル等)のリストであってもよい。また、出力するとは、例えば、ディスプレイ等の表示装置に表示すること、プリンタ等の印刷装置で印刷すること、ファックス等の画像送信装置で画像を送信すること、文書データベース等の文書記憶装置へ文書を書き込むこと、メモリーカード等の記憶媒体に記憶すること、他の情報処理装置へ渡すこと等が含まれる。
The related
図2は、本実施の形態による処理例を示すフローチャートである。具体例を用いて説明する。なお、この例では、文抽出モジュール130が予め文書格納モジュール120内の文書について文を抽出しておく。文の抽出結果は、例えば、文・文書テーブル900に記憶する。図9は、文・文書テーブル900のデータ構造例を示す説明図である。文・文書テーブル900は、文ID欄902、文欄904、文書ID欄906を有している。つまり、文と文書を対応付けている。
文ID欄902は、抽出した文を一意に識別する文ID(IDentification)を記憶する。
文欄904は、抽出した文を記憶する。
文書ID欄906は、その文を抽出した文書を一意に識別する文書IDを記憶する。
FIG. 2 is a flowchart showing an example of processing according to this embodiment. This will be described using a specific example. In this example, the
The
The
The
ステップS202では、文書受付モジュール110が、対象文書を受け付ける。
ステップS204では、文抽出モジュール130が、受け付けた文書内のテキストデータから文を抽出する。図4は、対象文書(適合宣言書)内の文の例を示す説明図であり、文402から文410の文を抽出した例である。図7は、対象文書(機密情報表示を含む文書)内の文の例を示す説明図であり、文702から文708の文を抽出した例である。つまり、句点又は改行記号のいずれか一方を発見するごとに文を抽出する。
In step S202, the
In step S204, the
ステップS206では、類似構文集合生成モジュール140が、文同士の(構文構造の類似性に基づく)類似度を計算し、文をグループに分類する。例えば、図4に例示した文のうち文402、文406、文408は、並置的な記述の文(構文構成として「<物質名>を主部に含み、<数値表現><単位>を述部に含む」)であり、これらをグループとして特定する。図7に例示した文702から文708は、並置的な記述の文であり、これらをグループとして特定する。対象文書内の文についてグループ分けした結果を、例えば、文・グループテーブル1000に記憶する。図10は、文・グループテーブル1000のデータ構造例を示す説明図である。文・グループテーブル1000は、文ID欄1002、文欄1004、グループ欄1006を有している。
文ID欄1002は、対象文書内の文を一意に識別する文IDを記憶する。
文欄1004は、抽出した文を記憶する。
グループ欄1006は、グループ分けした結果であるグループIDを記憶する。図10の例では、「A−005」と「A−007」の文は同じグループに属する。
In step S206, the similar syntax set
The
The
The
ステップS208では、類似文検索モジュール150が、過去に作成された文書(文書格納モジュール120内の文書)を対象にして、グループに属する各文の(単語の類似性に基づく)類似文を検索する。
例えば、図4に例示した文406である
「ポリ臭化ジフェニルエーテルの含有は、20ppm以下である。」
に類似する文として、
「ポリ臭化ジフェニルエーテルは10ppm以下の含有量である。」
「ポリ臭化ジフェニルエーテルの含有は50ppm以下の含有に抑えること。」
等の文が検索結果として得られる。つまり、これらの文は、文406内の「ポリ臭化ジフェニルエーテル」、「含有」、「『数値表現』ppm」、「以下」と同じ単語を含んでいるので、類似文として検索される。
類似文の検索結果を、例えば、類似度テーブル1100に記憶する。図11は、類似度テーブル1100のデータ構造例を示す説明図である。類似度テーブル1100は、対象文ID欄1102、類似文ID欄1104、文書ID欄1106、類似度欄1108を有している。
対象文ID欄1102は、対象文書内の文の文IDを記憶する。
類似文ID欄1104は、検索結果である類似文の文IDを記憶する。
文書ID欄1106は、その類似文が含まれている文書IDを記憶する。
類似度欄1108は、対象文と類似文との間における類似度を記憶する。
In step S <b> 208, the similar
For example, the
As a sentence similar to
“Polybrominated diphenyl ether has a content of 10 ppm or less.”
“Contain polybrominated diphenyl ether to 50 ppm or less.”
Etc. are obtained as search results. That is, since these sentences contain the same words as “polybrominated diphenyl ether”, “contained”, ““ numerical expression ”ppm”, and “below” in the
The similar sentence search result is stored in, for example, the similarity table 1100. FIG. 11 is an explanatory diagram showing an example of the data structure of the similarity table 1100. The similarity table 1100 has a target
The target
The similar
The
The
ステップS210では、関連文書検索モジュール160が、得られた類似文を含む文書を文書格納モジュール120から検索する。例えば、類似度テーブル1100のその類似文IDに対応する文書ID欄1106を用いればよい。
ステップS212では、関連文書ランキングモジュール170が、文書内の類似文の数等に基づき文書のランキングを決定する。例えば、図4に例示した文402、文406、文408のそれぞれの文と単語が類似しており、それらの文の出現順序が同じである、図5(文402、406、408に対応する文として文502、504、506)、図6(文402、406、408に対応する文として文602、604、606)に例示した文書が上位にランキングされる。また、図7に例示した文702から文708のそれぞれの文と単語が類似しており、それらの文の出現順序が同じである、図8(文702、704、706、708に対応する文として文802、806、810、814)に例示した文書が上位にランキングされる。
In step S210, the related
In step S212, the related
なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図12に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部(演算部)としてCPU1201を用い、記憶装置としてRAM1202、ROM1203、HD1204を用いている。HD1204として、例えばハードディスクを用いてもよい。文抽出モジュール130、類似構文集合生成モジュール140、類似文検索モジュール150、関連文書検索モジュール160、関連文書ランキングモジュール170等のプログラムを実行するCPU1201と、そのプログラムやデータを記憶するRAM1202と、本コンピュータを起動するためのプログラム等が格納されているROM1203と、補助記憶装置であるHD1204と、キーボード、マウス等のデータを入力する入力装置1206と、CRTや液晶ディスプレイ等の出力装置1205と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース1207、そして、それらをつないでデータのやりとりをするためのバス1208により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。
Note that the hardware configuration of the computer on which the program according to the present embodiment is executed is a general computer, specifically a personal computer, a computer that can be a server, and the like, as illustrated in FIG. That is, as a specific example, the
前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図12に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図12に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えばASIC等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図12に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、情報家電、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
Among the above-described embodiments, the computer program is a computer program that reads the computer program, which is software, in the hardware configuration system, and the software and hardware resources cooperate with each other. Is realized.
Note that the hardware configuration shown in FIG. 12 shows one configuration example, and the present embodiment is not limited to the configuration shown in FIG. 12, but is a configuration that can execute the modules described in the present embodiment. I just need it. For example, some modules may be configured by dedicated hardware (for example, ASIC), and some modules may be in an external system and connected via a communication line. A plurality of systems shown in FIG. 5 may be connected to each other via communication lines so as to cooperate with each other. In particular, in addition to personal computers, information appliances, copiers, fax machines, scanners, printers, and multifunction machines (image processing apparatuses having two or more functions of scanners, printers, copiers, fax machines, etc.) Etc. may be incorporated.
前述の実施の形態においては、制限規則に関する文書を示したが、他の文書を対象としてもよい。類似している構文構成の文が複数含まれており、それらの文が検索対象となるような文書であれば適用できる。
なお、前述の実施の形態内の各モジュールの処理内容として従来技術として説明した技術を採用してもよい。
また、前述の実施の形態の説明において、予め定められた値との比較において、「以上」、「以下」、「より大きい」、「より小さい(未満)」としたものは、その組み合わせに矛盾が生じない限り、それぞれ「より大きい」、「より小さい(未満)」、「以上」、「以下」としてもよい。
In the above-described embodiment, the document relating to the restriction rule is shown, but other documents may be targeted. The present invention can be applied to any document in which a plurality of sentences having similar syntax structures are included and these sentences are to be searched.
The technology described as the prior art may be adopted as the processing contents of each module in the above-described embodiment.
Further, in the description of the above-described embodiment, “more than”, “less than”, “greater than”, and “less than (less than)” in a comparison with a predetermined value contradicts the combination. As long as the above does not occur, “larger”, “smaller (less than)”, “more than”, and “less than” may be used.
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray Disc(登録商標))、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
The program described above may be provided by being stored in a recording medium, or the program may be provided by communication means. In that case, for example, the above-described program may be regarded as an invention of a “computer-readable recording medium recording the program”.
The “computer-readable recording medium on which a program is recorded” refers to a computer-readable recording medium on which a program is recorded, which is used for program installation, execution, program distribution, and the like.
The recording medium is, for example, a digital versatile disc (DVD), which is a standard established by the DVD Forum, such as “DVD-R, DVD-RW, DVD-RAM,” and DVD + RW. Standard “DVD + R, DVD + RW, etc.”, compact disc (CD), read-only memory (CD-ROM), CD recordable (CD-R), CD rewritable (CD-RW), Blu-ray disc ( Blu-ray Disc (registered trademark), magneto-optical disk (MO), flexible disk (FD), magnetic tape, hard disk, read-only memory (ROM), electrically erasable and rewritable read-only memory (EEPROM), flash Includes memory, random access memory (RAM), etc. .
The program or a part of the program may be recorded on the recording medium for storage or distribution. Also, by communication, for example, a local area network (LAN), a metropolitan area network (MAN), a wide area network (WAN), a wired network used for the Internet, an intranet, an extranet, etc., or wireless communication It may be transmitted using a transmission medium such as a network or a combination of these, or may be carried on a carrier wave.
Furthermore, the program may be a part of another program, or may be recorded on a recording medium together with a separate program. Moreover, it may be divided and recorded on a plurality of recording media. Further, it may be recorded in any manner as long as it can be restored, such as compression or encryption.
110…文書受付モジュール
120…文書格納モジュール
130…文抽出モジュール
140…類似構文集合生成モジュール
150…類似文検索モジュール
160…関連文書検索モジュール
170…関連文書ランキングモジュール
180…関連文書出力モジュール
DESCRIPTION OF
Claims (4)
対象とする文書から文を抽出する文抽出手段と、
前記文抽出手段によって抽出された文の構文に基づいて、該文の集合を生成する文集合生成手段と、
前記文集合生成手段によって生成された文の集合内の第1の文と類似する第2の文を前記文書記憶手段に記憶されている文書内の文から検索する類似文検索手段と、
前記類似文検索手段によって検索された第2の文に基づいて、前記対象とする文書に関連する文書を前記文書記憶手段から検索する関連文書検索手段
を具備することを特徴とする情報処理装置。 Document storage means for storing a document;
A sentence extracting means for extracting a sentence from a target document;
A sentence set generation means for generating a set of sentences based on the syntax of the sentence extracted by the sentence extraction means;
Similar sentence search means for searching a sentence in the document stored in the document storage means for a second sentence similar to the first sentence in the sentence set generated by the sentence set generation means;
An information processing apparatus comprising: a related document search unit that searches the document storage unit for a document related to the target document based on the second sentence searched by the similar sentence search unit.
をさらに具備することを特徴とする請求項1に記載の情報処理装置。 The number of the second sentences included in the document searched by the related document search means, the similarity of the first sentence corresponding to the second sentence, and the target document corresponding to the second sentence A document searched by the related document search unit based on a comparison result of the appearance order of the first sentence and the appearance order of the second sentence in the document searched by the related document search unit, or a combination thereof The information processing apparatus according to claim 1, further comprising ordering means for ordering the items.
ことを特徴とする請求項2に記載の情報処理装置。 The information processing apparatus according to claim 2, wherein the ordering unit performs the ordering based on a similarity between the document searched by the related document search unit and the target document.
文書を記憶する文書記憶手段と、
対象とする文書から文を抽出する文抽出手段と、
前記文抽出手段によって抽出された文の構文に基づいて、該文の集合を生成する文集合生成手段と、
前記文集合生成手段によって生成された文の集合内の第1の文と類似する第2の文を前記文書記憶手段に記憶されている文書内の文から検索する類似文検索手段と、
前記類似文検索手段によって検索された第2の文に基づいて、前記対象とする文書に関連する文書を前記文書記憶手段から検索する関連文書検索手段
として機能させることを特徴とする情報処理プログラム。 Computer
Document storage means for storing a document;
A sentence extracting means for extracting a sentence from a target document;
A sentence set generation means for generating a set of sentences based on the syntax of the sentence extracted by the sentence extraction means;
Similar sentence search means for searching a sentence in the document stored in the document storage means for a second sentence similar to the first sentence in the sentence set generated by the sentence set generation means;
An information processing program for causing a document related to the target document to function as a related document search unit that searches the document storage unit based on a second sentence searched by the similar sentence search unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009164390A JP5391887B2 (en) | 2009-07-13 | 2009-07-13 | Information processing apparatus and information processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009164390A JP5391887B2 (en) | 2009-07-13 | 2009-07-13 | Information processing apparatus and information processing program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011022630A true JP2011022630A (en) | 2011-02-03 |
JP5391887B2 JP5391887B2 (en) | 2014-01-15 |
Family
ID=43632681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009164390A Expired - Fee Related JP5391887B2 (en) | 2009-07-13 | 2009-07-13 | Information processing apparatus and information processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5391887B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012238062A (en) * | 2011-05-10 | 2012-12-06 | Sony Corp | Information processor, information processing method, program, and information processing system |
WO2016147621A1 (en) * | 2015-03-13 | 2016-09-22 | 日本電気株式会社 | News article management system, news article management method, and news article management program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000172691A (en) * | 1998-12-03 | 2000-06-23 | Mitsubishi Electric Corp | Method and device for mining information and computer- readable recording medium with information mining program recorded therein |
JP2000242650A (en) * | 1999-02-18 | 2000-09-08 | Mitsubishi Electric Corp | Method and device for retrieving similar document, and computer-readable storage medium recorded with similar document retrieval program |
JP2006227914A (en) * | 2005-02-17 | 2006-08-31 | Canon Inc | Information search device, information search method, program and storage medium |
JP2007279978A (en) * | 2006-04-05 | 2007-10-25 | Hitachi Ltd | Document retrieval device and document retrieval method |
-
2009
- 2009-07-13 JP JP2009164390A patent/JP5391887B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000172691A (en) * | 1998-12-03 | 2000-06-23 | Mitsubishi Electric Corp | Method and device for mining information and computer- readable recording medium with information mining program recorded therein |
JP2000242650A (en) * | 1999-02-18 | 2000-09-08 | Mitsubishi Electric Corp | Method and device for retrieving similar document, and computer-readable storage medium recorded with similar document retrieval program |
JP2006227914A (en) * | 2005-02-17 | 2006-08-31 | Canon Inc | Information search device, information search method, program and storage medium |
JP2007279978A (en) * | 2006-04-05 | 2007-10-25 | Hitachi Ltd | Document retrieval device and document retrieval method |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012238062A (en) * | 2011-05-10 | 2012-12-06 | Sony Corp | Information processor, information processing method, program, and information processing system |
WO2016147621A1 (en) * | 2015-03-13 | 2016-09-22 | 日本電気株式会社 | News article management system, news article management method, and news article management program |
WO2016147624A1 (en) * | 2015-03-13 | 2016-09-22 | 日本電気株式会社 | Search system, search method, and search program |
JPWO2016147624A1 (en) * | 2015-03-13 | 2017-12-21 | 日本電気株式会社 | SEARCH SYSTEM, SEARCH METHOD, AND SEARCH PROGRAM |
US10909154B2 (en) | 2015-03-13 | 2021-02-02 | Nec Corporation | Search system, search method and search program |
Also Published As
Publication number | Publication date |
---|---|
JP5391887B2 (en) | 2014-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10296579B2 (en) | Generation apparatus, generation method, and program | |
JP6141305B2 (en) | Image search | |
US8868469B2 (en) | System and method for phrase identification | |
US10922346B2 (en) | Generating a summary based on readability | |
TWI536181B (en) | Language identification in multilingual text | |
EP3401802A1 (en) | Webpage training method and device, and search intention identification method and device | |
US8781916B1 (en) | Providing nuanced product recommendations based on similarity channels | |
CN109145110B (en) | Label query method and device | |
US8768921B2 (en) | Computer-implemented information reuse | |
US9672275B2 (en) | Recommendation apparatus, recommendation method, and storage medium | |
US20230177362A1 (en) | Risk assessment apparatus, risk assessment method, and program | |
Yerva et al. | It was easy, when apples and blackberries were only fruits | |
US20210295033A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP5391887B2 (en) | Information processing apparatus and information processing program | |
CN112487181B (en) | Keyword determination method and related equipment | |
US20180307669A1 (en) | Information processing apparatus | |
JP6201779B2 (en) | Information processing apparatus and information processing program | |
JP5510221B2 (en) | Information processing apparatus and information processing program | |
JP5217513B2 (en) | An information analysis processing method, an information analysis processing program, an information analysis processing device, an information registration processing method, an information registration processing program, an information registration processing device, an information registration analysis processing method, and an information registration analysis processing program. | |
TWI484359B (en) | Method and system for providing article information | |
JP2022059523A (en) | Information processing apparatus and information processing program | |
JP2008090396A (en) | Electronic document retrieval method, electronic document retrieval device, and program | |
Alloghani et al. | Sentiment analysis for decision-making using machine learning algorithms | |
JP6554841B2 (en) | Information processing apparatus and information processing program | |
WO2011033457A1 (en) | System and method for content classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120620 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130614 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130618 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130814 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130917 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130930 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5391887 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |