JP2008040985A - Document information extracting device - Google Patents

Document information extracting device Download PDF

Info

Publication number
JP2008040985A
JP2008040985A JP2006217404A JP2006217404A JP2008040985A JP 2008040985 A JP2008040985 A JP 2008040985A JP 2006217404 A JP2006217404 A JP 2006217404A JP 2006217404 A JP2006217404 A JP 2006217404A JP 2008040985 A JP2008040985 A JP 2008040985A
Authority
JP
Japan
Prior art keywords
information
document information
document
appearance
appearance pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006217404A
Other languages
Japanese (ja)
Inventor
Katsunori Yoshiji
克典 芳地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2006217404A priority Critical patent/JP2008040985A/en
Publication of JP2008040985A publication Critical patent/JP2008040985A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a document information extracting device capable of guessing future information streams by utilizing information used in the past subject extraction. <P>SOLUTION: An information upheaval detecting device 10 comprises: a processing object document collecting part 100 for collecting document information having time information; a word recognizing part 102 for performing a morpheme analysis of the document information; a syntax recognizing part 106 for performing modification analyzing of the document information; a storing part 116 for storing a stream pattern of information constituting a subject; an information stream managing part 114 for detecting words constituting the subject and a stream of modification relations from analysis results of the document information; and an information stream guessing part 118 for comparing the detected stream with a stream appearance pattern of the storing part and guessing the words constituting the subject or a modification relation on the basis of a stream appearance pattern selected from comparison results. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、電子化された文書情報の集合から話題を構成する単語や係り受け関係等の情報の隆起もしくは潮流を抽出し、これを利用する技術に関する。   The present invention relates to a technique for extracting and utilizing information bulges or currents such as words constituting a topic and dependency relations from a set of digitized document information.

インターネットや情報通信等の発展に伴い、電子化された大量の文書情報を入手することが可能である。大量の文書情報から所望の情報を抽出もしくは検索することを簡易にするために、文書情報を予め決められたカテゴリーに分類したり、類似する文書情報をカテゴリーに割り当てる方法が用いられている。   With the development of the Internet and information communication, it is possible to obtain a large amount of digitized document information. In order to easily extract or retrieve desired information from a large amount of document information, a method of classifying document information into a predetermined category or assigning similar document information to a category is used.

特許文献1は、情報潮流提示方法及びその装置に関し、文書をカテゴリ毎に分類し、各カテゴリー毎に文書数の推移を見る技術を開示している。この方法では、カテゴリーが話題に相当する。   Patent Document 1 discloses a technique for classifying documents for each category and viewing the transition of the number of documents for each category, regarding an information flow presentation method and apparatus. In this method, the category corresponds to the topic.

特許文献2は、話題変化抽出方法に関し、時間情報を有する文書集合の各文書から単語の出現頻度(TF*IDF等)によって重要語を選択し、かつその重要語を含む係り受けを抽出するものであり、話題の変化抽出は、キーワードから求めるベクトルによって行う。   Patent Document 2 relates to a topic change extraction method, which selects an important word from each document in a document set having time information according to the appearance frequency (TF * IDF, etc.) and extracts a dependency including the important word. The topic change is extracted by a vector obtained from a keyword.

特開平10−154150号JP-A-10-154150 特開2004−185135号JP 2004-185135 A

しかしながら、従来における文書情報の抽出には次のような課題がある。従来の文書情報抽出装置は、文書情報から話題を抽出し、これをユーザーに知らせる機能を包含しているが、過去に話題抽出に利用された情報の潮流やその推移情報を蓄積し、これを活用することが行われていない。また、キーワードのような単語だけで情報の潮流を抽出したのでは、コンテキストが全く異なる話題を同一視してしまうことがある。さらに、話題を知らせたとしても、ユーザーが話題についての知識がなければ、結局のところ、ユーザーは、その話題を知った後、人に聞いたり、サーチエンジンを検索したりして、話題の発端、経過を調べなければならない。   However, conventional document information extraction has the following problems. Conventional document information extraction devices include a function that extracts topics from document information and informs the user of this, but accumulates information flows and transition information that have been used for topic extraction in the past. It has not been used. Also, if information trends are extracted using only words such as keywords, topics with completely different contexts may be identified. Furthermore, even if a topic is informed, if the user has no knowledge about the topic, after all, the user knows the topic and then asks the person or searches a search engine to start the topic. , You have to examine the progress.

本発明は、上記従来の課題を解決するものであり、過去の話題抽出に利用された情報を活用し将来の情報潮流を推測することができる、ユーザーにとって利便性の高い文書情報抽出装置を提供することを目的とする。   The present invention solves the above-described conventional problems, and provides a user-friendly document information extraction apparatus that can use information used for past topic extraction to estimate future information trends. The purpose is to do.

本発明に係る文書情報抽出装置は、時間情報を有する文書情報を収集する文書情報収集手段と、少なくとも構文解析または意味解析のいずれかにより文書情報を解析する解析手段と、文書情報に含まれる情報であって話題を構成する情報の出現パターンを複数記憶する記憶手段と、前記解析手段による文書情報の解析結果に基づき前記記憶手段に記憶された複数の出現パターンから特定の出現パターンを選択し、前記特定の出現パターンに基づき話題を構成する情報を推論する推論手段とを有する。これにより、蓄積された出現パターンを活用して話題を構成する情報を推測し、これをユーザーに知らせることができる。   The document information extraction apparatus according to the present invention includes a document information collection unit that collects document information having time information, an analysis unit that analyzes at least one of syntax analysis and semantic analysis, and information included in the document information A storage means for storing a plurality of appearance patterns of information constituting a topic, and selecting a specific appearance pattern from the plurality of appearance patterns stored in the storage means based on the analysis result of the document information by the analysis means, And inference means for inferring information constituting the topic based on the specific appearance pattern. Thereby, the information which comprises a topic can be estimated using the accumulated appearance pattern, and this can be notified to a user.

好ましくは、話題を構成する情報は、文書情報の集合において一定の出現頻度を有する単語または係り受け関係である。一定の出現頻度を有する単語または係り受け関係は、情報の隆起または情報の潮流を意味する。特に、係り受け関係を用いることで、同一性のある話題の抽出精度が向上される。   Preferably, the information constituting the topic is a word having a certain appearance frequency in a set of document information or a dependency relationship. A word or dependency relationship with a certain frequency of appearance means a rise of information or a trend of information. In particular, the use of the dependency relationship improves the extraction accuracy of topics having the same identity.

好ましくは文書情報抽出装置はさらに、解析手段により解析された文書情報から話題を構成する情報の出現パターンを抽出し、抽出した出現パターンを記憶手段に記憶する管理手段を含む。また、管理手段は、文書情報から抽出した出現パターンと記憶手段に記憶された出現パターンとを比較し、両パターンが同一または類似すると判定したとき、当該記憶された出現パターンの重み付けを行う。重み付けを行うことで、選択される出現パターンの精度を向上させることができる。   Preferably, the document information extraction apparatus further includes a management unit that extracts an appearance pattern of information constituting a topic from the document information analyzed by the analysis unit, and stores the extracted appearance pattern in the storage unit. The management unit compares the appearance pattern extracted from the document information with the appearance pattern stored in the storage unit, and when the two patterns are determined to be the same or similar, the management unit weights the stored appearance pattern. By performing the weighting, it is possible to improve the accuracy of the appearance pattern to be selected.

好ましくは推論手段は、管理手段により抽出された出現パターンと類似する出現パターンを選択し、選択された出現パターンに従い話題を構成する情報の出現を予測する。好ましくは、出現パターンは、単語の出現間隔、係り受け関係の出現間隔、または文書に含まれる単語の特徴ベクトルの出現間隔のいずれかを含む。好ましくは推論手段は、選択された出現パターンに含まれる単語または係り受け関係を推論結果として出力する。これにより、ユーザーは将来の話題を予期することができる。   Preferably, the inference means selects an appearance pattern similar to the appearance pattern extracted by the management means, and predicts the appearance of information constituting the topic according to the selected appearance pattern. Preferably, the appearance pattern includes any of an appearance interval of words, an appearance interval of dependency relations, or an appearance interval of feature vectors of words included in a document. Preferably, the inference means outputs a word or dependency relationship included in the selected appearance pattern as an inference result. This allows the user to anticipate future topics.

本発明に係る文書情報抽出プログラムは、文書情報に含まれ、かつ話題を構成する情報の出現パターンを記憶した記憶手段を用意するステップと、意味解析または構文解析のいずれかにより文書情報を解析するステップと、文書情報の解析結果に基づき複数の出現パターンの中から特定の出現パターンを抽出するステップと、抽出された出現パターンに基づき話題を構成する情報を推論するステップと、推論結果を表示するステップとを有する。   The document information extraction program according to the present invention analyzes a document information by either a step of preparing a storage means for storing an appearance pattern of information included in the document information and constituting a topic, and a semantic analysis or a syntax analysis. A step, a step of extracting a specific appearance pattern from a plurality of appearance patterns based on the analysis result of the document information, a step of inferring information constituting the topic based on the extracted appearance pattern, and an inference result are displayed. Steps.

本発明によれば、話題に構成する情報の出現パターンに基づき次に出現するであろう話題を構成する情報を推論するようにしたので、過去に話題抽出等に利用された情報を活用することができ、ユーザーは、現在の処理された文書情報から次の話題に関する情報を知ることができる。   According to the present invention, since the information constituting the topic that will appear next is inferred based on the appearance pattern of the information constituting the topic, the information used for topic extraction in the past can be utilized. The user can know information about the next topic from the currently processed document information.

以下、本発明の最良の実施形態について図面を参照して説明する。   DESCRIPTION OF EXEMPLARY EMBODIMENTS Hereinafter, exemplary embodiments of the invention will be described with reference to the drawings.

図1は、本発明の実施例に係る情報隆起検出装置の構成例を示す図である。本実施例に係る情報隆起検出装置10は、時間情報を有する文書情報の集合から話題を構成する重要な単語や係り受け関係を抽出し、かつ、そのような単語や係り受け関係の情報量がピークとなるような地点、言い換えれば情報の隆起もしくは潮流を抽出し、情報の潮流の推移パターンから将来の話題を構成する情報を推測することを可能にする。さらに、情報隆起検出装置10は、係り受け解析結果を用いて単語の出現コンテキストを絞ることを可能にし、また、情報潮流を検出した後、その話題の発端から経過をまとめてユーザーに提示することを可能にする。   FIG. 1 is a diagram illustrating a configuration example of an information bump detection apparatus according to an embodiment of the present invention. The information ridge detection device 10 according to the present embodiment extracts important words and dependency relationships that form topics from a set of document information having time information, and the amount of information of such words and dependency relationships is extracted. It is possible to extract a peak point, in other words, an uplift or tide of information, and to infer information constituting a future topic from the transition pattern of the tide of information. Furthermore, the information ridge detection device 10 can narrow down the appearance context of words using the dependency analysis result, and after presenting the information flow, present the progress from the beginning of the topic to the user. Enable.

情報隆起検出装置10は、キーボード、画像スキャナ、その他の入力を含む入力装置12、外部のネットワーク等と情報の送受を可能にする外部インタフェース(I/F)14、表示装置16、プリンタ等の出力装置18、種々のデータを記憶可能な記憶装置20、プログラムを格納するプログラムメモリ22、プログラムに従い各部の動作を制御可能なCPU(Central Processing Unit)24を含んで構成される。   The information ridge detection device 10 includes an input device 12 including a keyboard, an image scanner, and other inputs, an external interface (I / F) 14 that enables transmission and reception of information to and from an external network, an output from a display device 16, a printer, and the like. The apparatus 18 includes a storage device 20 that can store various data, a program memory 22 that stores a program, and a CPU (Central Processing Unit) 24 that can control the operation of each unit in accordance with the program.

プログラムメモリ22は、電子化された文書情報から話題を構成する情報の隆起もしくは潮流を検出したり、検出した情報の潮流を記憶したり、将来の話題もしくは話題を構成する情報を推論する情報隆起検出プログラムを格納する。CPU22は、このような情報隆起検出プログラムに従い各部を制御する。   The program memory 22 detects a bulge or tide of information constituting a topic from electronic document information, stores a tide of detected information, or infers information constituting a future topic or topic Stores the detection program. The CPU 22 controls each unit in accordance with such an information bump detection program.

図2に、情報隆起検出装置の機能ブロック図を示す。情報隆起検出装置10は、電子化されたテキスト情報の集合を入力し収集する処理対象文書収集部100、文書を形態素解析し単語の認識を行う単語認識部(形態素解析器)102、形態素解析された単語と文書を関連付けして記憶する文書対単語データベース104、文書を係り受け解析し構文の認識を行う構文認識部(係り受け解析器)106、係り受け解析された係り受け関係と文書とを関連付けして記憶する文書係り受けデータベース108、入力された文書を管理する文書管理部110、文書を記憶する文書データベース112、文書管理部110または文書対単語データベース104からの情報に基づき情報の潮流の検出等を行う情報潮流管理部114、情報潮流管理部114により検出された情報の潮流に基づき潮流出現パターンを記憶する潮流出現パターンデータベース116、情報潮流管理部114による情報の潮流の検出結果に基づき情報潮流を推論し、推論または予想された情報の潮流をユーザーに提示する情報潮流推論部118、情報潮流管理部114による情報の潮流の検出結果に基づき潮流経緯の要約をユーザーに提示する複数文書要約部120を含んで構成される。   FIG. 2 shows a functional block diagram of the information bump detection device. The information ridge detection apparatus 10 includes a processing target document collection unit 100 that inputs and collects a set of digitized text information, a word recognition unit (morpheme analyzer) 102 that performs morphological analysis on a document and recognizes words, and is subjected to morphological analysis. A document-to-word database 104 that associates and stores a word and a document, a syntax recognition unit (a dependency analyzer) 106 that performs dependency analysis of the document and recognizes the syntax, and a dependency relationship and document that have been subjected to dependency analysis. The document dependency database 108 to store in association, the document management unit 110 to manage the input document, the document database 112 to store the document, the document management unit 110, or the information flow based on the information from the document-to-word database 104. An information flow management unit 114 that performs detection and the like, and a current flow pattern based on the information flow detected by the information flow management unit 114 An information flow inference unit 118 that infers information flows based on the detection result of information flow by the information flow management unit 114 and presents inferences or predicted information flows to the user. A multi-document summarizing unit 120 that presents the user with a summary of the tidal history based on the detection result of the tidal current of information by the tidal current management unit 114 is configured.

次に、情報潮流検出部の動作について図3の動作フローを参照して説明する。初めに、処理対象文書収集部100は、処理対象となる文書情報の集合を収集する(ステップS101)。文書情報の集合は、インターネット上から一定周期で収集される文書、例えば、ブログ、ウエブ(Web)ログ)、HTML文書、イントラネット内の文書、メールなどである。これらの文書は、作成日時属性を伴うものである。   Next, the operation of the information flow detection unit will be described with reference to the operation flow of FIG. First, the processing target document collection unit 100 collects a set of document information to be processed (step S101). The collection of document information is a document collected from the Internet at regular intervals, such as a blog, a Web (Web) log, an HTML document, a document in an intranet, and an email. These documents are accompanied by a creation date attribute.

次に、単語認識部102は、周期的に収集される文書情報の集合から各文書中のテキストを取り出し、形態素解析処理をし(ステップS102)、単語切り出し、品詞同定などを行う。形態素解析処理の結果は、文書対単語データベース104に格納される。   Next, the word recognizing unit 102 takes out text in each document from a set of periodically collected document information, performs morphological analysis processing (step S102), performs word segmentation, part of speech identification, and the like. The result of the morphological analysis process is stored in the document-to-word database 104.

次に、構文認識部106は、係り受け解析処理を行い(ステップS103)、人手もしくはコーパス学習により作成された依存文法に従い、例えば、”衆議院が解散”や”市民の救出”等の単語間の係り受け関係を抽出し、1つの文書から複数の係り受け関係を取得する。また、抽出された係り受け関係の中で重要なものを決定するために、文脈解析や、文書構造から主題を抽出したり、単語頻度のTF*IDFにより単語の重要度を求めて、それを係り受け関係に反映させてもよい。また、抽出した係り受け関係の各単語を同義語辞書や正規表現辞書、シソーラス等を用いて必要ならば正規化する。そして、正規化した範囲で同じ係り受け関係と認められるならば、関係の出現頻度としてカウントする。構文認識部106による係り受け解析処理の結果は、文書対係り受けデータベース108に格納される。   Next, the syntax recognizing unit 106 performs dependency analysis processing (step S103), and according to the dependency grammar created by manual or corpus learning, for example, between words such as “dismissing the House of Representatives” and “rescue the citizen” A dependency relationship is extracted, and a plurality of dependency relationships are acquired from one document. In addition, in order to determine an important one among the extracted dependency relationships, the subject matter is extracted from context analysis or document structure, or the importance of the word is obtained by TF * IDF of the word frequency. It may be reflected in the dependency relationship. In addition, each of the extracted dependency-related words is normalized if necessary using a synonym dictionary, a regular expression dictionary, a thesaurus, or the like. If the same dependency relationship is recognized in the normalized range, it is counted as the appearance frequency of the relationship. The result of dependency analysis processing by the syntax recognition unit 106 is stored in the document pair dependency database 108.

文書管理部110は、形態素解析および/または係り受け解析された文書情報を管理するものであり、処理された文書情報は、文書データベース112に格納される。次に、情報潮流管理部114は、文書管理部110から供給された文書に基づき情報の隆起または潮流を検出する(ステップS104)。情報の隆起または潮流は、時間的に情報量が他と比較して増加するもの、若しくは時間的に情報量の変化が生じるものである。ここでは、情報として係り受け関係を主として説明をする。   The document management unit 110 manages document information subjected to morphological analysis and / or dependency analysis, and the processed document information is stored in the document database 112. Next, the information flow management unit 114 detects an uplift or flow of information based on the document supplied from the document management unit 110 (step S104). An information bulge or tidal current is one in which the amount of information increases over time or changes in the amount of information over time. Here, the dependency relationship is mainly described as information.

情報潮流管理部114は、文書管理部112から、解析された文書情報を受け取り、そこから係り受け関係の情報の潮流を検出する。この際、情報潮流管理部114は、文書対係り受けデータベース108から、文書とそれに対応する係り受け関係を受け取るようにしてもよい。形態素解析された単語の情報の潮流を検出する場合には、文書対単語データベース104から、文書とそれに対応する形態素解析結果を受け取るようにしてもよい。さらに、文書管理部112に対して、ユーザーが、情報の潮流を検出すべき期間や範囲を設定できるようにしてもよい。   The information flow management unit 114 receives the analyzed document information from the document management unit 112, and detects the flow of dependency-related information therefrom. At this time, the information flow management unit 114 may receive the document and the corresponding dependency relationship from the document dependency dependency database 108. When detecting a tide of morphologically analyzed word information, a document and a corresponding morphological analysis result may be received from the document-to-word database 104. Further, the document management unit 112 may be configured so that the user can set a period and a range in which information flow should be detected.

図4は、2週間の期間、1日ごとに文書情報を収集し、3つの係り受け関係(話題)が推移した例を示している。すなわち、期間10月1日から10月14の間において、係り受け関係A、係り受け関係B、係り受け関係Cが出現する頻度の推移を1日毎に示している。例えば、係り受け関係Aは、「aがbをする」という表現であり、係り受け関係Bは、「cがdをする」という表現であり、係り受け関係Cは、「eがfをする」という表現である。   FIG. 4 shows an example in which document information is collected every day for a period of two weeks and three dependency relationships (topics) change. That is, the transition of the frequency at which the dependency relationship A, the dependency relationship B, and the dependency relationship C appear during the period from October 1 to October 14 is shown for each day. For example, the dependency relationship A is an expression “a does b”, the dependency relationship B is an expression “c does d”, and the dependency relationship C is “e does f”. ".

図4の例では、係り受け関係の出現頻度が10以上であって、かつそれが2日以上続いたとき、それを話題として識別する条件としている。そのような条件を満足するのは、係り受け関係Aでは、10月3、4日であり、係り受け関係Bでは、10月6、7、8日であり、係り受け関係Cでは、10月10、11、12日である。図中、これらの出現頻度をハッチングで示している。   In the example of FIG. 4, when the appearance frequency of the dependency relationship is 10 or more and it continues for 2 days or more, it is set as a condition for identifying it as a topic. It is October 3rd and 4th for the dependency relationship A, and October 6th, 7th and 8th for the dependency relationship B, and October for the dependency relationship C. 10, 11, 12 days. In the figure, the frequency of appearance is indicated by hatching.

情報潮流管理部114は、潮流を検出すると、図5に示すように、情報の潮流または隆起をグラフで表示する。グラフの縦軸は記事数(出現頻度)、横軸は時間であり、話題A、話題B、話題Cの潮流の推移が表示される。話題A、話題B、話題Cは、それぞれ係り受け関係A、B、Cに対応する。   When the information flow management unit 114 detects the flow, the information flow management unit 114 displays the information flow or elevation in a graph as shown in FIG. The vertical axis of the graph is the number of articles (appearance frequency), the horizontal axis is time, and the trend of topics A, B, and C is displayed. Topic A, Topic B, and Topic C correspond to dependency relationships A, B, and C, respectively.

好ましくは、ユーザーインターフェースとして、グラフに表示される話題の粒度を可変するためのスクロールバー150を表示する。話題粒度を細かくすると、上記した条件の閾値が低くなり、多数の話題の潮流が表示され、反対に粗くすると、閾値が高くなり、少ない数の話題の潮流が表示される。   Preferably, a scroll bar 150 for changing the granularity of topics displayed on the graph is displayed as a user interface. If the topic granularity is made fine, the threshold value of the above-described condition is lowered and a large number of topical tides are displayed. Conversely, if the topic granularity is coarsened, the threshold value is increased and a small number of topical tides are displayed.

またに、ユーザーが所望の話題のグラフをクリックすると、情報潮流管理部114は、話題経緯をインターネット等から検索するようにしてもよい。ユーザーが話題に関する知識を持ち合わせていない場合には、当該話題の発端や経過をサーチする。例えば、ユーザーが話題Aをクリックすると、情報潮流管理部114は、話題Aを構成する係り受け関係の単語をキーワードとして検索を実行する。   In addition, when the user clicks on a graph of a desired topic, the information flow management unit 114 may search for the topic history from the Internet or the like. If the user does not have knowledge about the topic, the beginning and progress of the topic are searched. For example, when the user clicks on the topic A, the information flow management unit 114 executes a search using the dependency-related words constituting the topic A as keywords.

情報潮流管理部114は、話題経緯の検索を実行し、次いで、複数文書要約部120が話題経緯の検索結果の要約をディスプレイに表示する。図6(a)は、話題Aの経緯の検索結果であり、複数文書要約部120は、話題Aに関して検索された文書情報をもとに一定の周期で要約して出力する。例えば、10/01から10/05までの1日毎に要約を出力する。10/01には、話題Aについて書かれた複数の記事の要約が表示される。要約の表示状態からユーザーがさらに要約をクリックすると、複数文書要約部120は、同図(b)に示すように、リンクされた元の文書内容の全体を表示することができる。   The information flow management unit 114 executes a topic history search, and then the multiple document summarization unit 120 displays a summary of the topic history search results on the display. FIG. 6A shows a search result of the history of the topic A, and the multi-document summarizing unit 120 summarizes and outputs it at a constant cycle based on the document information searched for the topic A. For example, a summary is output every day from 10/01 to 10/05. On 10/01, a summary of a plurality of articles written on topic A is displayed. When the user further clicks on the summary from the summary display state, the multi-document summary unit 120 can display the entire linked original document contents as shown in FIG.

次に、情報潮流管理部114は、文書情報の解析結果に基づき、文書情報に含まれる係り受け関係の潮流出現パターンを抽出する(ステップS106)。例えば図4を例にすると、潮流として検出されたものは、係る受け関係A、係り受け関係Bおよび係り受け関係Cである。係り受け関係A、B、Cは、図7に示すように、各係り受け関係の間に経過時間160、162があり、好ましくは、潮流出現パターンは、経過時間160、162を考慮した出現間隔である。経過時間160、162は、例えば2日である。   Next, the information flow management unit 114 extracts a dependency-related power flow appearance pattern included in the document information based on the analysis result of the document information (step S106). For example, taking FIG. 4 as an example, what is detected as a tidal current is the receiving relationship A, the dependency relationship B, and the dependency relationship C. As shown in FIG. 7, the dependency relationships A, B, and C have elapsed times 160 and 162 between the dependency relationships. Preferably, the tidal current appearance pattern is an appearance interval considering the elapsed times 160 and 162. It is. The elapsed times 160 and 162 are, for example, 2 days.

潮流出現パターンは、必ずしも係り受け関係を用いた出現間隔に限定されず、形態素解析結果を利用した単語や単語ベクトルを用いたものであってもよい。例えば、図8(a)に示すように、単語A、単語Bおよび単語Cが単純に出現した単語の並びであってもよいし、図8(b)に示すように各単語A、B、Cと各単語間に経過時間170、172を含む単語の出現間隔であってもよい。さらに、単語ベクトルを用いたものであってもよく、例えば図8(c)に示すように、10/03、10/04に単語Aを含む文書空間から形成されるベクトル、経過時間180、10/06〜10/08に単語Bを含む文書空間から形成されるベクトル、経過時間182、および10/10〜10/12に単語Cを含む文書空間で形成されるベクトルの出現間隔とすることもできる。   The tidal current appearance pattern is not necessarily limited to the appearance interval using the dependency relationship, and may be a word or a word vector using a morphological analysis result. For example, as shown in FIG. 8 (a), the word A, the word B, and the word C may be simply arranged, or as shown in FIG. 8 (b), the words A, B, It may be an appearance interval of words including elapsed times 170 and 172 between C and each word. Furthermore, a word vector may be used. For example, as shown in FIG. 8C, a vector formed from a document space including the word A on 10/03, 10/04, elapsed time 180, 10 It is also possible to set a vector formed from a document space including the word B at / 06 to 10/08, an elapsed time 182 and an appearance interval of a vector formed from the document space including the word C from 10/10 to 10/12. it can.

次に、情報潮流管理部114は、文書情報から抽出された潮流出現パターンを潮流出現パターンデータベース116に記憶する(ステップS107)。情報潮流管理部114は、抽出された潮流出現パターンと同じパターンが記憶されているか否かを判定する。合致する潮流出現パターンが既に記憶されている場合には、その潮流出現パターンの重要度が上がるようにする。例えば、重み付けとして、合致した回数をカウントし、カウント結果を潮流出現パターンに関連付けして保存する。   Next, the information flow management unit 114 stores the power flow appearance pattern extracted from the document information in the power flow appearance pattern database 116 (step S107). The information flow management unit 114 determines whether the same pattern as the extracted current flow appearance pattern is stored. If a matching tidal current appearance pattern is already stored, the importance of the tidal current appearance pattern is increased. For example, as weighting, the number of matches is counted, and the count result is stored in association with the tidal current appearance pattern.

また、文書情報から抽出した潮流出現パターンと記憶されている潮流出現パターンとの類似度を算出し、これを重要度に反映させるようにしてもよい。例えば、パターンの類似度は、完全に単語の関係が同じ(”AがB”という係り受け関係ならば、”A”、”が”、“B”全てが一致)なら「1」、そうでなければ「0」としてもよいし、単語の類似度、格助詞の違いのスコアなどを導入してもよい。また、潮流間の経過時間を考慮に入れて、2つのパターン間で時間に開きが出るほどスコアを下げるなどの対処をしてもよい。   Further, the similarity between the tidal current appearance pattern extracted from the document information and the stored tidal current appearance pattern may be calculated and reflected in the importance. For example, the similarity of patterns is “1” if the word relationship is completely the same (“A”, “=” and “B” all match if the dependency relationship “A is B”). Otherwise, it may be “0”, or a word similarity, a case particle difference score, or the like may be introduced. Also, taking into account the elapsed time between tidal currents, measures such as lowering the score as time opens between the two patterns may be taken.

さらに、パターン間の類似度が高ければ、双方のパターンにマージし、重要度を上げるようにしてもよい。例えば、図9に示すように、話題A、話題B、話題Cからなる潮流出現パターン190と、話題B、話題C、話題Dからなる潮流出現パターン192である場合、それぞれのパターンから共通の話題Bと話題Cかなる潮流出現パターン194を生成し、潮流出現パターン194の重要度を上げて保存するようにしてもよい。一方、蓄積された潮流出現パターンに類似したものが無ければ、文書情報から抽出した潮流出現パターンが新たな潮流出現パターンとしてデータベース116に蓄積される。   Furthermore, if the degree of similarity between patterns is high, both patterns may be merged to increase the importance. For example, as shown in FIG. 9, when there are a tidal current appearance pattern 190 composed of topic A, topic B, and topic C and a tidal current appearance pattern 192 composed of topic B, topic C, and topic D, a common topic from each pattern A tidal current appearance pattern 194 consisting of B and topic C may be generated, and the importance of the tidal current appearance pattern 194 may be increased and stored. On the other hand, if there is nothing similar to the accumulated tidal current appearance pattern, the tidal current appearance pattern extracted from the document information is accumulated in the database 116 as a new tidal current appearance pattern.

次に、情報潮流推論部118は、情報潮流管理部114による潮流の検出結果を受け取ると、潮流出現パターンデータベース116に記憶されている複数の潮流出現パターンと比較し、その中から一致するか最も類似する潮流出現パターンを選択し(ステップS108)、これを読み出す。次に、情報潮流推論部118は、読み出された潮流出現パターンに基づき将来に出現するであろう情報の潮流を推論する(ステップS109)。推論された情報は、ディスプレイに表示され(ステップS110)。ユーザーは、表示された情報の潮流すなわち、単語もしくは係り受け関係から次の話題を知ることができる。   Next, when receiving the detection result of the tidal current by the information tidal current management unit 114, the information tidal current inference unit 118 compares it with a plurality of tidal current appearance patterns stored in the tidal current appearance pattern database 116. A similar tidal current appearance pattern is selected (step S108), and this is read out. Next, the information flow inference unit 118 infers the flow of information that will appear in the future based on the read out current flow pattern (step S109). The inferred information is displayed on the display (step S110). The user can know the next topic from the trend of the displayed information, that is, from words or dependency relationships.

情報潮流推論部118は、例えば、潮流出現パターンの始めのキーワードが潮流として検出された場合には、選択された潮流出現パターンを参照し、次に出現が予測されるキーワードをユーザーに予報として知らせる。例えば図10に示すように、仮に、単語Bが潮流として検出されたとき、次の潮流として単語Cが推論され、単語Cを含むキーワードまたは文として、「近い将来、単語Cの話題がブームになる可能性がある」という予想出力200が表示される。   For example, when a keyword at the beginning of a tidal current appearance pattern is detected as a tidal current, the information tidal current inference unit 118 refers to the selected tidal current appearance pattern and informs the user of the keyword predicted to appear next as a forecast. . For example, as shown in FIG. 10, if the word B is detected as a tide, the word C is inferred as the next tide, and as a keyword or sentence including the word C, “the topic of the word C will boom in the near future. The expected output 200 is displayed.

情報潮流推論部118はまた、例えば図10(b)に示すように、潮流出現パターンの始めの係り受け関係Aが検出された場合に、次に出現が予測される係り受け関係Bおよび係り受け関係Cをユーザーに知らせることもできる。これにより、ユーザーは、現時点において抽出された潮流(または話題)の次に生じるであろう潮流(話題)を、過去に蓄積された情報の潮流の推移パターンから知ることができる。なお、ユーザーに提示する予想は、少なくとも潮流を構成する単語や係り受け関係を含んでいればよく、図10(a)、(b)のように、単語や係り受け関係を含む文を予想出力としてユーザーに与えてもよい。   For example, as shown in FIG. 10B, the information flow inference unit 118 also detects the dependency relationship B and the dependency that are predicted to appear next when the dependency relationship A at the beginning of the tidal current appearance pattern is detected. It is also possible to inform the user of the relationship C. Thereby, the user can know the tide (topic) that will occur next to the tide (or topic) extracted at the present time from the transition pattern of the tide of information accumulated in the past. Note that the prediction to be presented to the user only needs to include at least the words and dependency relationships that make up the current, and as shown in FIGS. 10 (a) and 10 (b), the sentence including the words and dependency relationships is predicted output. May be given to the user as

次に、本発明の第2の実施例について図11を参照して説明する。第2の実施例は、第1の実施例で示す図2の構成に、新たに文書分類部130と、文書分類データベース132とを追加するものであり、それ以外の構成は、第1の実施例と同様である。   Next, a second embodiment of the present invention will be described with reference to FIG. In the second embodiment, a document classification unit 130 and a document classification database 132 are newly added to the configuration of FIG. 2 shown in the first embodiment. Other configurations are the same as those in the first embodiment. Similar to the example.

同図において、文書分類部130は、処理対象である文章情報の集合をカテゴリーに分類する。分類方法は、予め決められたカテゴリーに分類するか、あるいは類似する文書情報をカテゴリーに割当てる。カテゴリーに分類された文書情報は、文書情報データベース132に記憶される。ここで、情報潮流管理部114は、特定のカテゴリーの文書情報に含まれる潮流を検出し、その検出結果を情報潮流推論部118へ提供する。なお、情報潮流管理部114は、ユーザーからの入力に応じて特定のカテゴリーを選択するようにしてもよい。   In the figure, a document classification unit 130 classifies a set of sentence information to be processed into categories. In the classification method, classification is made into a predetermined category, or similar document information is assigned to the category. The document information classified into the categories is stored in the document information database 132. Here, the information flow management unit 114 detects a flow included in the document information of a specific category, and provides the detection result to the information flow inference unit 118. Note that the information flow management unit 114 may select a specific category in accordance with an input from the user.

情報潮流推論部118は、特定のカテゴリーにおいて、情報の潮流を推測し、これをユーザーに知らせる。文書情報をカテゴリーで分類することで、ユーザーは、選択された特定のカテゴリー内の話題を知ることができる。   The information flow inference unit 118 estimates the information flow in a specific category and informs the user of this. By classifying the document information by category, the user can know the topics in the selected specific category.

以上、本発明の好ましい実施の形態について詳述したが、本発明に係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。   The preferred embodiments of the present invention have been described in detail above. However, the present invention is not limited to the specific embodiments according to the present invention, and various modifications can be made within the scope of the gist of the present invention described in the claims. Deformation / change is possible.

本発明は、インターネットに散在するウエブページに代表される発信された意見や問い合わせ等の情報を選択的に収集し、分類する情報収集装置に利用される。   The present invention is used for an information collecting apparatus that selectively collects and classifies information such as sent opinions and inquiries represented by web pages scattered on the Internet.

本発明の実施例に係る文書隆起検出装置の一構成例を示す図である。It is a figure which shows the example of 1 structure of the document bulge detection apparatus based on the Example of this invention. 本発明の第1の実施例に係る情報隆起装置の機能ブロック図である。It is a functional block diagram of the information uplifting device concerning the 1st example of the present invention. 第1の実施例に係る情報隆起装置の動作フローを示す図である。It is a figure which shows the operation | movement flow of the information raising apparatus which concerns on a 1st Example. 3つの係り受け関係が推移した例を示す図である。It is a figure which shows the example which three dependency relationships changed. 図4の推移から情報潮流を検出し、グラフに示した図である。It is the figure which detected the information flow from the transition of FIG. 4, and showed it on the graph. 図5のグラフから話題経緯を検索し、その要約を表示する図である。FIG. 6 is a diagram for searching a topic history from the graph of FIG. 5 and displaying a summary thereof. 係り受け関係の潮流出現パターンを示す図である。It is a figure which shows the tidal current appearance pattern of a dependency relationship. 図8(a)は単語の潮流出現パターン、図8(b)は図8(a)に出現間隔を考慮したときの潮流出現パターン、図8(c)は文書に含まれる単語ベクトルの潮流出現パターンを示す図である。8A shows a tidal appearance pattern of words, FIG. 8B shows a tidal appearance pattern when the appearance interval is considered in FIG. 8A, and FIG. 8C shows a tidal appearance of word vectors included in the document. It is a figure which shows a pattern. 文書情報から抽出された潮流出現パターンと記憶されている潮流出現パターンとが類似しているときに両パターンを合体する例を示す図である。It is a figure which shows the example which unites both patterns when the tidal current appearance pattern extracted from document information and the stored tidal current appearance pattern are similar. 潮流出現パターンから予測されるキーワードまたは文を示す図である。It is a figure which shows the keyword or sentence estimated from a tidal current appearance pattern. 本発明の第2の実施例に係る情報隆起検出装置の機能ブロック図である。It is a functional block diagram of the information bump detection apparatus which concerns on 2nd Example of this invention.

符号の説明Explanation of symbols

10:情報隆起検出装置 100:処理対象文書収集部
102:単語認識部 104:文書対単語データベース
106:構文認識部 108:文書係り受けデータベース
110:文書管理部 112:文書データベース
114:情報潮流管理部 116:潮流出現パターンデータベース
118:情報潮流推論部 120:複数文書要約部
130:文書分類部 132:文書分類データベース
DESCRIPTION OF SYMBOLS 10: Information bump detection apparatus 100: Processing object document collection part 102: Word recognition part 104: Document versus word database 106: Syntax recognition part 108: Document dependency database 110: Document management part 112: Document database 114: Information flow management part 116: Tidal current appearance pattern database 118: Information tidal current reasoning unit 120: Multiple document summarizing unit 130: Document classification unit 132: Document classification database

Claims (10)

時間情報を有する文書情報を収集する文書情報収集手段と、
少なくとも構文解析または意味解析のいずれかにより文書情報を解析する解析手段と、
文書情報に含まれる情報であって話題を構成する情報の出現パターンを複数記憶する記憶手段と、
前記解析手段による文書情報の解析結果に基づき前記記憶手段に記憶された複数の出現パターンから特定の出現パターンを選択し、前記特定の出現パターンに基づき話題を構成する情報を推論する推論手段と、
を有する文書情報抽出装置。
Document information collecting means for collecting document information having time information;
An analysis means for analyzing document information by at least one of syntax analysis and semantic analysis;
Storage means for storing a plurality of appearance patterns of information included in document information and constituting a topic;
Inference means for selecting a specific appearance pattern from a plurality of appearance patterns stored in the storage means based on an analysis result of document information by the analysis means, and inferring information constituting a topic based on the specific appearance pattern;
A document information extracting apparatus having
前記話題を構成する情報は、文書情報の集合において一定の出現頻度を有する単語または係り受け関係である、請求項1に記載の文書情報抽出装置。 The document information extracting apparatus according to claim 1, wherein the information constituting the topic is a word having a certain appearance frequency or a dependency relationship in a set of document information. 文書情報抽出装置はさらに、前記解析手段により解析された文書情報から話題を構成する情報の出現パターンを抽出し、抽出した出現パターンを前記記憶手段に記憶する管理手段を含む、請求項1に記載の文書情報抽出装置。 The document information extracting apparatus further includes a managing unit that extracts an appearance pattern of information constituting a topic from the document information analyzed by the analyzing unit, and stores the extracted appearance pattern in the storage unit. Document information extraction device. 前記管理手段は、文書情報から抽出した出現パターンと記憶手段に記憶された出現パターンとを比較し、両パターンが同一または類似すると判定したとき、当該記憶された出現パターンの重み付けを行う、請求項3に記載の文書情報抽出装置。 The management means compares the appearance pattern extracted from the document information with the appearance pattern stored in the storage means, and weights the stored appearance pattern when it is determined that both patterns are the same or similar. 3. The document information extraction device according to 3. 前記推論手段は、前記管理手段により抽出された出現パターンと類似する出現パターンを選択し、選択された出現パターンに従い話題を構成する情報の出現を予測する、請求項1ないし4いずれか1つに記載の文書情報抽出装置。 The inference means selects an appearance pattern similar to the appearance pattern extracted by the management means, and predicts the appearance of information constituting a topic according to the selected appearance pattern. Document information extraction device described. 前記出現パターンは、単語の出現間隔、係り受け関係の出現間隔、または文書に含まれる単語の特徴ベクトルの出現間隔のいずれかを含む、請求項1ないし5いずれか1つに記載の文書情報抽出装置。 The document information extraction according to any one of claims 1 to 5, wherein the appearance pattern includes any one of an appearance interval of words, an appearance interval of dependency relations, or an appearance interval of a feature vector of a word included in a document. apparatus. 前記推論手段は、前記選択された出現パターンに含まれる単語または係り受け関係を推論結果として出力する、請求項1ないし6いずれか1つに記載の文書情報抽出装置。 The document information extraction apparatus according to claim 1, wherein the inference means outputs a word or dependency relationship included in the selected appearance pattern as an inference result. 文書情報から話題を構成する情報を抽出する抽出プログラムであって、
文書情報に含まれた情報であって話題を構成する情報の出現パターンを記憶した記憶手段を用意するステップと、
意味解析または構文解析のいずれかにより文書情報を解析するステップと、
文書情報の解析結果に基づき複数の出現パターンの中から特定の出現パターンを選択するステップと、
選択された出現パターンに基づき話題を構成する情報を推論するステップと、
推論結果を表示するステップと、
を有する文書情報抽出プログラム。
An extraction program for extracting information constituting a topic from document information,
Providing a storage means for storing an appearance pattern of information included in document information and constituting a topic;
Analyzing document information by either semantic analysis or parsing;
Selecting a specific appearance pattern from a plurality of appearance patterns based on the analysis result of the document information;
Inferring information comprising the topic based on the selected occurrence pattern;
Displaying inference results;
Document information extraction program having
文書情報抽出プログラムはさらに、文書情報の解析結果から抽出された出現パターンを前記記憶手段に書込みステップを有する、請求項8に記載の文書情報抽出プログラム。 9. The document information extraction program according to claim 8, further comprising a step of writing an appearance pattern extracted from the analysis result of the document information to the storage unit. 前記書込みステップは、文書情報から抽出した出現パターンと記憶手段に記憶された出現パターンとを比較し、両パターンが同一または類似すると判定したとき、当該記憶された出現パターンの重み付けを行う、請求項9に記載の文書情報抽出プログラム。 The writing step compares the appearance pattern extracted from the document information with the appearance pattern stored in the storage unit, and weights the stored appearance pattern when it is determined that both patterns are the same or similar. 9. The document information extraction program according to 9.
JP2006217404A 2006-08-09 2006-08-09 Document information extracting device Pending JP2008040985A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006217404A JP2008040985A (en) 2006-08-09 2006-08-09 Document information extracting device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006217404A JP2008040985A (en) 2006-08-09 2006-08-09 Document information extracting device

Publications (1)

Publication Number Publication Date
JP2008040985A true JP2008040985A (en) 2008-02-21

Family

ID=39175882

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006217404A Pending JP2008040985A (en) 2006-08-09 2006-08-09 Document information extracting device

Country Status (1)

Country Link
JP (1) JP2008040985A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010160645A (en) * 2009-01-07 2010-07-22 Toshiba Corp Document processing program and document processor
KR101713831B1 (en) * 2016-07-26 2017-03-09 한국과학기술정보연구원 Apparatus for recommending document and method for recommending document
KR101962407B1 (en) * 2018-11-08 2019-03-26 한전케이디엔주식회사 System for Supporting Generation Electrical Approval Document using Artificial Intelligence and Method thereof

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010160645A (en) * 2009-01-07 2010-07-22 Toshiba Corp Document processing program and document processor
KR101713831B1 (en) * 2016-07-26 2017-03-09 한국과학기술정보연구원 Apparatus for recommending document and method for recommending document
KR101962407B1 (en) * 2018-11-08 2019-03-26 한전케이디엔주식회사 System for Supporting Generation Electrical Approval Document using Artificial Intelligence and Method thereof

Similar Documents

Publication Publication Date Title
JP4241934B2 (en) Text processing and retrieval system and method
US8051080B2 (en) Contextual ranking of keywords using click data
US6567805B1 (en) Interactive automated response system
US20150081277A1 (en) System and Method for Automatically Classifying Text using Discourse Analysis
US20150074112A1 (en) Multimedia Question Answering System and Method
US20060089924A1 (en) Document categorisation system
CN108376131A (en) Keyword abstraction method based on seq2seq deep neural network models
US20040049499A1 (en) Document retrieval system and question answering system
US20130018824A1 (en) Sentiment classifiers based on feature extraction
US20050080613A1 (en) System and method for processing text utilizing a suite of disambiguation techniques
US20040029085A1 (en) Summarisation representation apparatus
WO2011042907A1 (en) Method and system for assisting in typing
JP5710581B2 (en) Question answering apparatus, method, and program
US20170371965A1 (en) Method and system for dynamically personalizing profiles in a social network
Alsharif et al. Emotion classification in Arabic poetry using machine learning
Du et al. News text summarization based on multi-feature and fuzzy logic
CN112989208B (en) Information recommendation method and device, electronic equipment and storage medium
Verma et al. Accountability of NLP tools in text summarization for Indian languages
KR101416291B1 (en) Sentiment classification system using rule-based multi agents
JP5136910B2 (en) Information analysis apparatus, information analysis method, information analysis program, and search system
Basili et al. Language sensitive text classification.
CN115269959A (en) Search association recommendation method and device, electronic equipment and storage medium
US10810266B2 (en) Document search using grammatical units
JP2008040985A (en) Document information extracting device
JP2010198142A (en) Device, method and program for preparing database in which phrase included in document classified by category