JP2008040985A - Document information extracting device - Google Patents
Document information extracting device Download PDFInfo
- Publication number
- JP2008040985A JP2008040985A JP2006217404A JP2006217404A JP2008040985A JP 2008040985 A JP2008040985 A JP 2008040985A JP 2006217404 A JP2006217404 A JP 2006217404A JP 2006217404 A JP2006217404 A JP 2006217404A JP 2008040985 A JP2008040985 A JP 2008040985A
- Authority
- JP
- Japan
- Prior art keywords
- information
- document information
- document
- appearance
- appearance pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、電子化された文書情報の集合から話題を構成する単語や係り受け関係等の情報の隆起もしくは潮流を抽出し、これを利用する技術に関する。 The present invention relates to a technique for extracting and utilizing information bulges or currents such as words constituting a topic and dependency relations from a set of digitized document information.
インターネットや情報通信等の発展に伴い、電子化された大量の文書情報を入手することが可能である。大量の文書情報から所望の情報を抽出もしくは検索することを簡易にするために、文書情報を予め決められたカテゴリーに分類したり、類似する文書情報をカテゴリーに割り当てる方法が用いられている。 With the development of the Internet and information communication, it is possible to obtain a large amount of digitized document information. In order to easily extract or retrieve desired information from a large amount of document information, a method of classifying document information into a predetermined category or assigning similar document information to a category is used.
特許文献1は、情報潮流提示方法及びその装置に関し、文書をカテゴリ毎に分類し、各カテゴリー毎に文書数の推移を見る技術を開示している。この方法では、カテゴリーが話題に相当する。 Patent Document 1 discloses a technique for classifying documents for each category and viewing the transition of the number of documents for each category, regarding an information flow presentation method and apparatus. In this method, the category corresponds to the topic.
特許文献2は、話題変化抽出方法に関し、時間情報を有する文書集合の各文書から単語の出現頻度(TF*IDF等)によって重要語を選択し、かつその重要語を含む係り受けを抽出するものであり、話題の変化抽出は、キーワードから求めるベクトルによって行う。 Patent Document 2 relates to a topic change extraction method, which selects an important word from each document in a document set having time information according to the appearance frequency (TF * IDF, etc.) and extracts a dependency including the important word. The topic change is extracted by a vector obtained from a keyword.
しかしながら、従来における文書情報の抽出には次のような課題がある。従来の文書情報抽出装置は、文書情報から話題を抽出し、これをユーザーに知らせる機能を包含しているが、過去に話題抽出に利用された情報の潮流やその推移情報を蓄積し、これを活用することが行われていない。また、キーワードのような単語だけで情報の潮流を抽出したのでは、コンテキストが全く異なる話題を同一視してしまうことがある。さらに、話題を知らせたとしても、ユーザーが話題についての知識がなければ、結局のところ、ユーザーは、その話題を知った後、人に聞いたり、サーチエンジンを検索したりして、話題の発端、経過を調べなければならない。 However, conventional document information extraction has the following problems. Conventional document information extraction devices include a function that extracts topics from document information and informs the user of this, but accumulates information flows and transition information that have been used for topic extraction in the past. It has not been used. Also, if information trends are extracted using only words such as keywords, topics with completely different contexts may be identified. Furthermore, even if a topic is informed, if the user has no knowledge about the topic, after all, the user knows the topic and then asks the person or searches a search engine to start the topic. , You have to examine the progress.
本発明は、上記従来の課題を解決するものであり、過去の話題抽出に利用された情報を活用し将来の情報潮流を推測することができる、ユーザーにとって利便性の高い文書情報抽出装置を提供することを目的とする。 The present invention solves the above-described conventional problems, and provides a user-friendly document information extraction apparatus that can use information used for past topic extraction to estimate future information trends. The purpose is to do.
本発明に係る文書情報抽出装置は、時間情報を有する文書情報を収集する文書情報収集手段と、少なくとも構文解析または意味解析のいずれかにより文書情報を解析する解析手段と、文書情報に含まれる情報であって話題を構成する情報の出現パターンを複数記憶する記憶手段と、前記解析手段による文書情報の解析結果に基づき前記記憶手段に記憶された複数の出現パターンから特定の出現パターンを選択し、前記特定の出現パターンに基づき話題を構成する情報を推論する推論手段とを有する。これにより、蓄積された出現パターンを活用して話題を構成する情報を推測し、これをユーザーに知らせることができる。 The document information extraction apparatus according to the present invention includes a document information collection unit that collects document information having time information, an analysis unit that analyzes at least one of syntax analysis and semantic analysis, and information included in the document information A storage means for storing a plurality of appearance patterns of information constituting a topic, and selecting a specific appearance pattern from the plurality of appearance patterns stored in the storage means based on the analysis result of the document information by the analysis means, And inference means for inferring information constituting the topic based on the specific appearance pattern. Thereby, the information which comprises a topic can be estimated using the accumulated appearance pattern, and this can be notified to a user.
好ましくは、話題を構成する情報は、文書情報の集合において一定の出現頻度を有する単語または係り受け関係である。一定の出現頻度を有する単語または係り受け関係は、情報の隆起または情報の潮流を意味する。特に、係り受け関係を用いることで、同一性のある話題の抽出精度が向上される。 Preferably, the information constituting the topic is a word having a certain appearance frequency in a set of document information or a dependency relationship. A word or dependency relationship with a certain frequency of appearance means a rise of information or a trend of information. In particular, the use of the dependency relationship improves the extraction accuracy of topics having the same identity.
好ましくは文書情報抽出装置はさらに、解析手段により解析された文書情報から話題を構成する情報の出現パターンを抽出し、抽出した出現パターンを記憶手段に記憶する管理手段を含む。また、管理手段は、文書情報から抽出した出現パターンと記憶手段に記憶された出現パターンとを比較し、両パターンが同一または類似すると判定したとき、当該記憶された出現パターンの重み付けを行う。重み付けを行うことで、選択される出現パターンの精度を向上させることができる。 Preferably, the document information extraction apparatus further includes a management unit that extracts an appearance pattern of information constituting a topic from the document information analyzed by the analysis unit, and stores the extracted appearance pattern in the storage unit. The management unit compares the appearance pattern extracted from the document information with the appearance pattern stored in the storage unit, and when the two patterns are determined to be the same or similar, the management unit weights the stored appearance pattern. By performing the weighting, it is possible to improve the accuracy of the appearance pattern to be selected.
好ましくは推論手段は、管理手段により抽出された出現パターンと類似する出現パターンを選択し、選択された出現パターンに従い話題を構成する情報の出現を予測する。好ましくは、出現パターンは、単語の出現間隔、係り受け関係の出現間隔、または文書に含まれる単語の特徴ベクトルの出現間隔のいずれかを含む。好ましくは推論手段は、選択された出現パターンに含まれる単語または係り受け関係を推論結果として出力する。これにより、ユーザーは将来の話題を予期することができる。 Preferably, the inference means selects an appearance pattern similar to the appearance pattern extracted by the management means, and predicts the appearance of information constituting the topic according to the selected appearance pattern. Preferably, the appearance pattern includes any of an appearance interval of words, an appearance interval of dependency relations, or an appearance interval of feature vectors of words included in a document. Preferably, the inference means outputs a word or dependency relationship included in the selected appearance pattern as an inference result. This allows the user to anticipate future topics.
本発明に係る文書情報抽出プログラムは、文書情報に含まれ、かつ話題を構成する情報の出現パターンを記憶した記憶手段を用意するステップと、意味解析または構文解析のいずれかにより文書情報を解析するステップと、文書情報の解析結果に基づき複数の出現パターンの中から特定の出現パターンを抽出するステップと、抽出された出現パターンに基づき話題を構成する情報を推論するステップと、推論結果を表示するステップとを有する。 The document information extraction program according to the present invention analyzes a document information by either a step of preparing a storage means for storing an appearance pattern of information included in the document information and constituting a topic, and a semantic analysis or a syntax analysis. A step, a step of extracting a specific appearance pattern from a plurality of appearance patterns based on the analysis result of the document information, a step of inferring information constituting the topic based on the extracted appearance pattern, and an inference result are displayed. Steps.
本発明によれば、話題に構成する情報の出現パターンに基づき次に出現するであろう話題を構成する情報を推論するようにしたので、過去に話題抽出等に利用された情報を活用することができ、ユーザーは、現在の処理された文書情報から次の話題に関する情報を知ることができる。 According to the present invention, since the information constituting the topic that will appear next is inferred based on the appearance pattern of the information constituting the topic, the information used for topic extraction in the past can be utilized. The user can know information about the next topic from the currently processed document information.
以下、本発明の最良の実施形態について図面を参照して説明する。 DESCRIPTION OF EXEMPLARY EMBODIMENTS Hereinafter, exemplary embodiments of the invention will be described with reference to the drawings.
図1は、本発明の実施例に係る情報隆起検出装置の構成例を示す図である。本実施例に係る情報隆起検出装置10は、時間情報を有する文書情報の集合から話題を構成する重要な単語や係り受け関係を抽出し、かつ、そのような単語や係り受け関係の情報量がピークとなるような地点、言い換えれば情報の隆起もしくは潮流を抽出し、情報の潮流の推移パターンから将来の話題を構成する情報を推測することを可能にする。さらに、情報隆起検出装置10は、係り受け解析結果を用いて単語の出現コンテキストを絞ることを可能にし、また、情報潮流を検出した後、その話題の発端から経過をまとめてユーザーに提示することを可能にする。 FIG. 1 is a diagram illustrating a configuration example of an information bump detection apparatus according to an embodiment of the present invention. The information ridge detection device 10 according to the present embodiment extracts important words and dependency relationships that form topics from a set of document information having time information, and the amount of information of such words and dependency relationships is extracted. It is possible to extract a peak point, in other words, an uplift or tide of information, and to infer information constituting a future topic from the transition pattern of the tide of information. Furthermore, the information ridge detection device 10 can narrow down the appearance context of words using the dependency analysis result, and after presenting the information flow, present the progress from the beginning of the topic to the user. Enable.
情報隆起検出装置10は、キーボード、画像スキャナ、その他の入力を含む入力装置12、外部のネットワーク等と情報の送受を可能にする外部インタフェース(I/F)14、表示装置16、プリンタ等の出力装置18、種々のデータを記憶可能な記憶装置20、プログラムを格納するプログラムメモリ22、プログラムに従い各部の動作を制御可能なCPU(Central Processing Unit)24を含んで構成される。
The information ridge detection device 10 includes an
プログラムメモリ22は、電子化された文書情報から話題を構成する情報の隆起もしくは潮流を検出したり、検出した情報の潮流を記憶したり、将来の話題もしくは話題を構成する情報を推論する情報隆起検出プログラムを格納する。CPU22は、このような情報隆起検出プログラムに従い各部を制御する。
The
図2に、情報隆起検出装置の機能ブロック図を示す。情報隆起検出装置10は、電子化されたテキスト情報の集合を入力し収集する処理対象文書収集部100、文書を形態素解析し単語の認識を行う単語認識部(形態素解析器)102、形態素解析された単語と文書を関連付けして記憶する文書対単語データベース104、文書を係り受け解析し構文の認識を行う構文認識部(係り受け解析器)106、係り受け解析された係り受け関係と文書とを関連付けして記憶する文書係り受けデータベース108、入力された文書を管理する文書管理部110、文書を記憶する文書データベース112、文書管理部110または文書対単語データベース104からの情報に基づき情報の潮流の検出等を行う情報潮流管理部114、情報潮流管理部114により検出された情報の潮流に基づき潮流出現パターンを記憶する潮流出現パターンデータベース116、情報潮流管理部114による情報の潮流の検出結果に基づき情報潮流を推論し、推論または予想された情報の潮流をユーザーに提示する情報潮流推論部118、情報潮流管理部114による情報の潮流の検出結果に基づき潮流経緯の要約をユーザーに提示する複数文書要約部120を含んで構成される。
FIG. 2 shows a functional block diagram of the information bump detection device. The information ridge detection apparatus 10 includes a processing target
次に、情報潮流検出部の動作について図3の動作フローを参照して説明する。初めに、処理対象文書収集部100は、処理対象となる文書情報の集合を収集する(ステップS101)。文書情報の集合は、インターネット上から一定周期で収集される文書、例えば、ブログ、ウエブ(Web)ログ)、HTML文書、イントラネット内の文書、メールなどである。これらの文書は、作成日時属性を伴うものである。
Next, the operation of the information flow detection unit will be described with reference to the operation flow of FIG. First, the processing target
次に、単語認識部102は、周期的に収集される文書情報の集合から各文書中のテキストを取り出し、形態素解析処理をし(ステップS102)、単語切り出し、品詞同定などを行う。形態素解析処理の結果は、文書対単語データベース104に格納される。
Next, the
次に、構文認識部106は、係り受け解析処理を行い(ステップS103)、人手もしくはコーパス学習により作成された依存文法に従い、例えば、”衆議院が解散”や”市民の救出”等の単語間の係り受け関係を抽出し、1つの文書から複数の係り受け関係を取得する。また、抽出された係り受け関係の中で重要なものを決定するために、文脈解析や、文書構造から主題を抽出したり、単語頻度のTF*IDFにより単語の重要度を求めて、それを係り受け関係に反映させてもよい。また、抽出した係り受け関係の各単語を同義語辞書や正規表現辞書、シソーラス等を用いて必要ならば正規化する。そして、正規化した範囲で同じ係り受け関係と認められるならば、関係の出現頻度としてカウントする。構文認識部106による係り受け解析処理の結果は、文書対係り受けデータベース108に格納される。
Next, the
文書管理部110は、形態素解析および/または係り受け解析された文書情報を管理するものであり、処理された文書情報は、文書データベース112に格納される。次に、情報潮流管理部114は、文書管理部110から供給された文書に基づき情報の隆起または潮流を検出する(ステップS104)。情報の隆起または潮流は、時間的に情報量が他と比較して増加するもの、若しくは時間的に情報量の変化が生じるものである。ここでは、情報として係り受け関係を主として説明をする。
The
情報潮流管理部114は、文書管理部112から、解析された文書情報を受け取り、そこから係り受け関係の情報の潮流を検出する。この際、情報潮流管理部114は、文書対係り受けデータベース108から、文書とそれに対応する係り受け関係を受け取るようにしてもよい。形態素解析された単語の情報の潮流を検出する場合には、文書対単語データベース104から、文書とそれに対応する形態素解析結果を受け取るようにしてもよい。さらに、文書管理部112に対して、ユーザーが、情報の潮流を検出すべき期間や範囲を設定できるようにしてもよい。
The information
図4は、2週間の期間、1日ごとに文書情報を収集し、3つの係り受け関係(話題)が推移した例を示している。すなわち、期間10月1日から10月14の間において、係り受け関係A、係り受け関係B、係り受け関係Cが出現する頻度の推移を1日毎に示している。例えば、係り受け関係Aは、「aがbをする」という表現であり、係り受け関係Bは、「cがdをする」という表現であり、係り受け関係Cは、「eがfをする」という表現である。 FIG. 4 shows an example in which document information is collected every day for a period of two weeks and three dependency relationships (topics) change. That is, the transition of the frequency at which the dependency relationship A, the dependency relationship B, and the dependency relationship C appear during the period from October 1 to October 14 is shown for each day. For example, the dependency relationship A is an expression “a does b”, the dependency relationship B is an expression “c does d”, and the dependency relationship C is “e does f”. ".
図4の例では、係り受け関係の出現頻度が10以上であって、かつそれが2日以上続いたとき、それを話題として識別する条件としている。そのような条件を満足するのは、係り受け関係Aでは、10月3、4日であり、係り受け関係Bでは、10月6、7、8日であり、係り受け関係Cでは、10月10、11、12日である。図中、これらの出現頻度をハッチングで示している。 In the example of FIG. 4, when the appearance frequency of the dependency relationship is 10 or more and it continues for 2 days or more, it is set as a condition for identifying it as a topic. It is October 3rd and 4th for the dependency relationship A, and October 6th, 7th and 8th for the dependency relationship B, and October for the dependency relationship C. 10, 11, 12 days. In the figure, the frequency of appearance is indicated by hatching.
情報潮流管理部114は、潮流を検出すると、図5に示すように、情報の潮流または隆起をグラフで表示する。グラフの縦軸は記事数(出現頻度)、横軸は時間であり、話題A、話題B、話題Cの潮流の推移が表示される。話題A、話題B、話題Cは、それぞれ係り受け関係A、B、Cに対応する。
When the information
好ましくは、ユーザーインターフェースとして、グラフに表示される話題の粒度を可変するためのスクロールバー150を表示する。話題粒度を細かくすると、上記した条件の閾値が低くなり、多数の話題の潮流が表示され、反対に粗くすると、閾値が高くなり、少ない数の話題の潮流が表示される。
Preferably, a
またに、ユーザーが所望の話題のグラフをクリックすると、情報潮流管理部114は、話題経緯をインターネット等から検索するようにしてもよい。ユーザーが話題に関する知識を持ち合わせていない場合には、当該話題の発端や経過をサーチする。例えば、ユーザーが話題Aをクリックすると、情報潮流管理部114は、話題Aを構成する係り受け関係の単語をキーワードとして検索を実行する。
In addition, when the user clicks on a graph of a desired topic, the information
情報潮流管理部114は、話題経緯の検索を実行し、次いで、複数文書要約部120が話題経緯の検索結果の要約をディスプレイに表示する。図6(a)は、話題Aの経緯の検索結果であり、複数文書要約部120は、話題Aに関して検索された文書情報をもとに一定の周期で要約して出力する。例えば、10/01から10/05までの1日毎に要約を出力する。10/01には、話題Aについて書かれた複数の記事の要約が表示される。要約の表示状態からユーザーがさらに要約をクリックすると、複数文書要約部120は、同図(b)に示すように、リンクされた元の文書内容の全体を表示することができる。
The information
次に、情報潮流管理部114は、文書情報の解析結果に基づき、文書情報に含まれる係り受け関係の潮流出現パターンを抽出する(ステップS106)。例えば図4を例にすると、潮流として検出されたものは、係る受け関係A、係り受け関係Bおよび係り受け関係Cである。係り受け関係A、B、Cは、図7に示すように、各係り受け関係の間に経過時間160、162があり、好ましくは、潮流出現パターンは、経過時間160、162を考慮した出現間隔である。経過時間160、162は、例えば2日である。
Next, the information
潮流出現パターンは、必ずしも係り受け関係を用いた出現間隔に限定されず、形態素解析結果を利用した単語や単語ベクトルを用いたものであってもよい。例えば、図8(a)に示すように、単語A、単語Bおよび単語Cが単純に出現した単語の並びであってもよいし、図8(b)に示すように各単語A、B、Cと各単語間に経過時間170、172を含む単語の出現間隔であってもよい。さらに、単語ベクトルを用いたものであってもよく、例えば図8(c)に示すように、10/03、10/04に単語Aを含む文書空間から形成されるベクトル、経過時間180、10/06〜10/08に単語Bを含む文書空間から形成されるベクトル、経過時間182、および10/10〜10/12に単語Cを含む文書空間で形成されるベクトルの出現間隔とすることもできる。
The tidal current appearance pattern is not necessarily limited to the appearance interval using the dependency relationship, and may be a word or a word vector using a morphological analysis result. For example, as shown in FIG. 8 (a), the word A, the word B, and the word C may be simply arranged, or as shown in FIG. 8 (b), the words A, B, It may be an appearance interval of words including elapsed
次に、情報潮流管理部114は、文書情報から抽出された潮流出現パターンを潮流出現パターンデータベース116に記憶する(ステップS107)。情報潮流管理部114は、抽出された潮流出現パターンと同じパターンが記憶されているか否かを判定する。合致する潮流出現パターンが既に記憶されている場合には、その潮流出現パターンの重要度が上がるようにする。例えば、重み付けとして、合致した回数をカウントし、カウント結果を潮流出現パターンに関連付けして保存する。
Next, the information
また、文書情報から抽出した潮流出現パターンと記憶されている潮流出現パターンとの類似度を算出し、これを重要度に反映させるようにしてもよい。例えば、パターンの類似度は、完全に単語の関係が同じ(”AがB”という係り受け関係ならば、”A”、”が”、“B”全てが一致)なら「1」、そうでなければ「0」としてもよいし、単語の類似度、格助詞の違いのスコアなどを導入してもよい。また、潮流間の経過時間を考慮に入れて、2つのパターン間で時間に開きが出るほどスコアを下げるなどの対処をしてもよい。 Further, the similarity between the tidal current appearance pattern extracted from the document information and the stored tidal current appearance pattern may be calculated and reflected in the importance. For example, the similarity of patterns is “1” if the word relationship is completely the same (“A”, “=” and “B” all match if the dependency relationship “A is B”). Otherwise, it may be “0”, or a word similarity, a case particle difference score, or the like may be introduced. Also, taking into account the elapsed time between tidal currents, measures such as lowering the score as time opens between the two patterns may be taken.
さらに、パターン間の類似度が高ければ、双方のパターンにマージし、重要度を上げるようにしてもよい。例えば、図9に示すように、話題A、話題B、話題Cからなる潮流出現パターン190と、話題B、話題C、話題Dからなる潮流出現パターン192である場合、それぞれのパターンから共通の話題Bと話題Cかなる潮流出現パターン194を生成し、潮流出現パターン194の重要度を上げて保存するようにしてもよい。一方、蓄積された潮流出現パターンに類似したものが無ければ、文書情報から抽出した潮流出現パターンが新たな潮流出現パターンとしてデータベース116に蓄積される。
Furthermore, if the degree of similarity between patterns is high, both patterns may be merged to increase the importance. For example, as shown in FIG. 9, when there are a tidal
次に、情報潮流推論部118は、情報潮流管理部114による潮流の検出結果を受け取ると、潮流出現パターンデータベース116に記憶されている複数の潮流出現パターンと比較し、その中から一致するか最も類似する潮流出現パターンを選択し(ステップS108)、これを読み出す。次に、情報潮流推論部118は、読み出された潮流出現パターンに基づき将来に出現するであろう情報の潮流を推論する(ステップS109)。推論された情報は、ディスプレイに表示され(ステップS110)。ユーザーは、表示された情報の潮流すなわち、単語もしくは係り受け関係から次の話題を知ることができる。
Next, when receiving the detection result of the tidal current by the information tidal
情報潮流推論部118は、例えば、潮流出現パターンの始めのキーワードが潮流として検出された場合には、選択された潮流出現パターンを参照し、次に出現が予測されるキーワードをユーザーに予報として知らせる。例えば図10に示すように、仮に、単語Bが潮流として検出されたとき、次の潮流として単語Cが推論され、単語Cを含むキーワードまたは文として、「近い将来、単語Cの話題がブームになる可能性がある」という予想出力200が表示される。
For example, when a keyword at the beginning of a tidal current appearance pattern is detected as a tidal current, the information tidal
情報潮流推論部118はまた、例えば図10(b)に示すように、潮流出現パターンの始めの係り受け関係Aが検出された場合に、次に出現が予測される係り受け関係Bおよび係り受け関係Cをユーザーに知らせることもできる。これにより、ユーザーは、現時点において抽出された潮流(または話題)の次に生じるであろう潮流(話題)を、過去に蓄積された情報の潮流の推移パターンから知ることができる。なお、ユーザーに提示する予想は、少なくとも潮流を構成する単語や係り受け関係を含んでいればよく、図10(a)、(b)のように、単語や係り受け関係を含む文を予想出力としてユーザーに与えてもよい。
For example, as shown in FIG. 10B, the information
次に、本発明の第2の実施例について図11を参照して説明する。第2の実施例は、第1の実施例で示す図2の構成に、新たに文書分類部130と、文書分類データベース132とを追加するものであり、それ以外の構成は、第1の実施例と同様である。
Next, a second embodiment of the present invention will be described with reference to FIG. In the second embodiment, a
同図において、文書分類部130は、処理対象である文章情報の集合をカテゴリーに分類する。分類方法は、予め決められたカテゴリーに分類するか、あるいは類似する文書情報をカテゴリーに割当てる。カテゴリーに分類された文書情報は、文書情報データベース132に記憶される。ここで、情報潮流管理部114は、特定のカテゴリーの文書情報に含まれる潮流を検出し、その検出結果を情報潮流推論部118へ提供する。なお、情報潮流管理部114は、ユーザーからの入力に応じて特定のカテゴリーを選択するようにしてもよい。
In the figure, a
情報潮流推論部118は、特定のカテゴリーにおいて、情報の潮流を推測し、これをユーザーに知らせる。文書情報をカテゴリーで分類することで、ユーザーは、選択された特定のカテゴリー内の話題を知ることができる。
The information
以上、本発明の好ましい実施の形態について詳述したが、本発明に係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。 The preferred embodiments of the present invention have been described in detail above. However, the present invention is not limited to the specific embodiments according to the present invention, and various modifications can be made within the scope of the gist of the present invention described in the claims. Deformation / change is possible.
本発明は、インターネットに散在するウエブページに代表される発信された意見や問い合わせ等の情報を選択的に収集し、分類する情報収集装置に利用される。 The present invention is used for an information collecting apparatus that selectively collects and classifies information such as sent opinions and inquiries represented by web pages scattered on the Internet.
10:情報隆起検出装置 100:処理対象文書収集部
102:単語認識部 104:文書対単語データベース
106:構文認識部 108:文書係り受けデータベース
110:文書管理部 112:文書データベース
114:情報潮流管理部 116:潮流出現パターンデータベース
118:情報潮流推論部 120:複数文書要約部
130:文書分類部 132:文書分類データベース
DESCRIPTION OF SYMBOLS 10: Information bump detection apparatus 100: Processing object document collection part 102: Word recognition part 104: Document versus word database 106: Syntax recognition part 108: Document dependency database 110: Document management part 112: Document database 114: Information flow management part 116: Tidal current appearance pattern database 118: Information tidal current reasoning unit 120: Multiple document summarizing unit 130: Document classification unit 132: Document classification database
Claims (10)
少なくとも構文解析または意味解析のいずれかにより文書情報を解析する解析手段と、
文書情報に含まれる情報であって話題を構成する情報の出現パターンを複数記憶する記憶手段と、
前記解析手段による文書情報の解析結果に基づき前記記憶手段に記憶された複数の出現パターンから特定の出現パターンを選択し、前記特定の出現パターンに基づき話題を構成する情報を推論する推論手段と、
を有する文書情報抽出装置。 Document information collecting means for collecting document information having time information;
An analysis means for analyzing document information by at least one of syntax analysis and semantic analysis;
Storage means for storing a plurality of appearance patterns of information included in document information and constituting a topic;
Inference means for selecting a specific appearance pattern from a plurality of appearance patterns stored in the storage means based on an analysis result of document information by the analysis means, and inferring information constituting a topic based on the specific appearance pattern;
A document information extracting apparatus having
文書情報に含まれた情報であって話題を構成する情報の出現パターンを記憶した記憶手段を用意するステップと、
意味解析または構文解析のいずれかにより文書情報を解析するステップと、
文書情報の解析結果に基づき複数の出現パターンの中から特定の出現パターンを選択するステップと、
選択された出現パターンに基づき話題を構成する情報を推論するステップと、
推論結果を表示するステップと、
を有する文書情報抽出プログラム。 An extraction program for extracting information constituting a topic from document information,
Providing a storage means for storing an appearance pattern of information included in document information and constituting a topic;
Analyzing document information by either semantic analysis or parsing;
Selecting a specific appearance pattern from a plurality of appearance patterns based on the analysis result of the document information;
Inferring information comprising the topic based on the selected occurrence pattern;
Displaying inference results;
Document information extraction program having
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006217404A JP2008040985A (en) | 2006-08-09 | 2006-08-09 | Document information extracting device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006217404A JP2008040985A (en) | 2006-08-09 | 2006-08-09 | Document information extracting device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008040985A true JP2008040985A (en) | 2008-02-21 |
Family
ID=39175882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006217404A Pending JP2008040985A (en) | 2006-08-09 | 2006-08-09 | Document information extracting device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008040985A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010160645A (en) * | 2009-01-07 | 2010-07-22 | Toshiba Corp | Document processing program and document processor |
KR101713831B1 (en) * | 2016-07-26 | 2017-03-09 | 한국과학기술정보연구원 | Apparatus for recommending document and method for recommending document |
KR101962407B1 (en) * | 2018-11-08 | 2019-03-26 | 한전케이디엔주식회사 | System for Supporting Generation Electrical Approval Document using Artificial Intelligence and Method thereof |
-
2006
- 2006-08-09 JP JP2006217404A patent/JP2008040985A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010160645A (en) * | 2009-01-07 | 2010-07-22 | Toshiba Corp | Document processing program and document processor |
KR101713831B1 (en) * | 2016-07-26 | 2017-03-09 | 한국과학기술정보연구원 | Apparatus for recommending document and method for recommending document |
KR101962407B1 (en) * | 2018-11-08 | 2019-03-26 | 한전케이디엔주식회사 | System for Supporting Generation Electrical Approval Document using Artificial Intelligence and Method thereof |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4241934B2 (en) | Text processing and retrieval system and method | |
US8051080B2 (en) | Contextual ranking of keywords using click data | |
US6567805B1 (en) | Interactive automated response system | |
US20150081277A1 (en) | System and Method for Automatically Classifying Text using Discourse Analysis | |
US20150074112A1 (en) | Multimedia Question Answering System and Method | |
US20060089924A1 (en) | Document categorisation system | |
CN108376131A (en) | Keyword abstraction method based on seq2seq deep neural network models | |
US20040049499A1 (en) | Document retrieval system and question answering system | |
US20130018824A1 (en) | Sentiment classifiers based on feature extraction | |
US20050080613A1 (en) | System and method for processing text utilizing a suite of disambiguation techniques | |
US20040029085A1 (en) | Summarisation representation apparatus | |
WO2011042907A1 (en) | Method and system for assisting in typing | |
JP5710581B2 (en) | Question answering apparatus, method, and program | |
US20170371965A1 (en) | Method and system for dynamically personalizing profiles in a social network | |
Alsharif et al. | Emotion classification in Arabic poetry using machine learning | |
Du et al. | News text summarization based on multi-feature and fuzzy logic | |
CN112989208B (en) | Information recommendation method and device, electronic equipment and storage medium | |
Verma et al. | Accountability of NLP tools in text summarization for Indian languages | |
KR101416291B1 (en) | Sentiment classification system using rule-based multi agents | |
JP5136910B2 (en) | Information analysis apparatus, information analysis method, information analysis program, and search system | |
Basili et al. | Language sensitive text classification. | |
CN115269959A (en) | Search association recommendation method and device, electronic equipment and storage medium | |
US10810266B2 (en) | Document search using grammatical units | |
JP2008040985A (en) | Document information extracting device | |
JP2010198142A (en) | Device, method and program for preparing database in which phrase included in document classified by category |