JP4967133B2 - Information acquisition apparatus, program and method thereof - Google Patents

Information acquisition apparatus, program and method thereof Download PDF

Info

Publication number
JP4967133B2
JP4967133B2 JP2007085469A JP2007085469A JP4967133B2 JP 4967133 B2 JP4967133 B2 JP 4967133B2 JP 2007085469 A JP2007085469 A JP 2007085469A JP 2007085469 A JP2007085469 A JP 2007085469A JP 4967133 B2 JP4967133 B2 JP 4967133B2
Authority
JP
Japan
Prior art keywords
similarity
information
search
sentence
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007085469A
Other languages
Japanese (ja)
Other versions
JP2008243024A (en
Inventor
浩郷 野村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyushu Institute of Technology NUC
Original Assignee
Kyushu Institute of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyushu Institute of Technology NUC filed Critical Kyushu Institute of Technology NUC
Priority to JP2007085469A priority Critical patent/JP4967133B2/en
Publication of JP2008243024A publication Critical patent/JP2008243024A/en
Application granted granted Critical
Publication of JP4967133B2 publication Critical patent/JP4967133B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

関連内容の情報の検索とそれらを集約する情報取得装置に関する。   The present invention relates to a search for related content information and an information acquisition apparatus that aggregates them.

Web検索を含めた多くの情報検索システムでは、キーワード検索を元にしており、ユーザは検索キーワードをシステムに与えることで検索結果を得る。単純な単語のマッチングのみを条件として検索を行うために、検索結果が膨大になることが多く、またノイズも多い。現状ではユーザは膨大な量で、しかも玉石混淆の検索結果から要求に合致したテキストを探さなければならない。そのため、ユーザが検索結果から合致した情報を得るためには多大な労力を必要とする。また、キーワード検索の途中で関連する情報を発見したいという状況も頻繁に発生することがある。さらに、近年情報機器の普及により様々な情報が電子化されており、大量の情報がいつでも閲覧できるようになった現在、その中から必要な情報を効率よく選ぶ作業は、情報の電子化が急速に進んでいる中、困難になっている。
そこで、複数のデータベースを検索して所望の情報を取得し、その情報をユーザの望む形式に編集・加工する情報編集・加工方法が、特開平9−185632号公報に開示されている。
Many information search systems including Web search are based on keyword search, and a user obtains a search result by giving a search keyword to the system. Since the search is performed only on simple word matching, the search results are often enormous and there are also many noises. At present, the user has to search for text that meets the requirements from the search result of the boulder chaos with a huge amount. Therefore, it takes a lot of labor for the user to obtain matched information from the search results. In addition, a situation in which it is desired to find related information during keyword search may occur frequently. In recent years, with the spread of information equipment, various types of information have been digitized, and now that a large amount of information can be browsed at any time, the task of efficiently selecting the necessary information from that is rapidly digitizing information. It has become difficult while proceeding to.
Therefore, Japanese Patent Laid-Open No. 9-185632 discloses an information editing / processing method for searching a plurality of databases to acquire desired information and editing / processing the information into a format desired by the user.

背景技術の情報編集・加工方法は、遠隔にある少なくとも1つのデータベースが保有していると推定される目的情報の検索指示、検索した情報の編集加工指示、編集加工した情報の出力形態決定指示とを受け付ける第1の過程と、前記検索指示に基づいて前記少なくとも1つのデータベースを検索するコマンドを生成し、前記データベースを検索する第2の過程と、前記第2の過程により取得した少なくとも1つの目的情報に対して前記第1の過程の指示に従って、編集・加工を施す第3の過程と、前記第3の過程によって、編集・加工された目的情報に対して前記情報の出力形態決定指示に従って、所定の出力形態に変換し、視覚、聴覚または他の感覚に捉え得る方法によって出力する第4の過程よりなることを特徴とする。前記第3の過程は、前記第4の過程において表示する検索結果をユーザが指定した出力順にソートする。前記出力順として、情報の関連度順、情報発生時間順、または検索順のいずれかを用いるものである。
特開平9−185632号公報
The information editing / processing method of the background art includes a search instruction for target information estimated to be held by at least one remote database, an instruction for editing / processing the searched information, and an instruction for determining the output form of the edited information. , A second process for generating a command for searching the at least one database based on the search instruction, searching the database, and at least one object obtained by the second process In accordance with the instruction of the first process for the information, the third process of editing and processing, and according to the output form determination instruction of the information for the target information edited and processed by the third process, It is characterized by comprising a fourth process in which it is converted into a predetermined output form and output by a method that can be perceived as visual, auditory or other senses. In the third process, the search results displayed in the fourth process are sorted in the output order designated by the user. As the output order, one of information relevance order, information generation time order, and search order is used.
JP-A-9-185632

上述のように背景技術の情報検索・編集方法及び装置によれば、得られた情報間の関連を意識するので、関連のある情報同士を近接してユーザに提供することができる。また、複数のデータベースから得られた情報をユニフォームに扱うため、異なるデータベースから得られた情報の提供を時間順であっても関連度順であっても適切に行うことができる。   As described above, according to the information retrieval / editing method and apparatus of the background art, since the relation between the obtained information is conscious, the related information can be provided close to each other to the user. In addition, since information obtained from a plurality of databases is handled in a uniform, it is possible to appropriately provide information obtained from different databases regardless of time order or relevance order.

しかしながら、提供された情報がトピックスについては条件を満たしていても、情報内容についての質あるいは量が、ユーザの要求を必ずしも充分に満たしているとは限らない場合がある。そのため、ユーザの希望する情報が不足している場合に改めて情報検索を行わなければならいという課題を有する。   However, even if the provided information satisfies the conditions for the topics, the quality or quantity of the information contents may not always sufficiently satisfy the user's request. Therefore, there is a problem that information search must be performed again when the information desired by the user is insufficient.

また、あるトピックスに対して複数の観点から作成された文書等の情報に関して、それらの情報を比較し、理解を深めるということも可能になってきてはいるが、その作業もまた情報量の増大につれて困難になってきている。しかも、関連情報に関しては情報の重複個所を何度も繰り返し取得するためにユーザの負担が大きくなるという課題もある。   It is also possible to compare and deepen understanding of information such as documents created from multiple viewpoints for a topic, but that work also increases the amount of information. It has become difficult as you go. In addition, regarding the related information, there is also a problem that the burden on the user increases because repeated portions of the information are repeatedly acquired.

本発明は、前記課題を解決するためになされたものであり、続報情報を発見する検索装置において関連した情報を比較、整理して効率よく必要な情報を取得し、利用者の要望に沿った形式で出力を行うことができる情報取得装置の提供を目的とする。   The present invention has been made in order to solve the above-mentioned problems, and by comparing and organizing related information in a search device for finding follow-up information, it efficiently obtains necessary information and meets the user's request. An object of the present invention is to provide an information acquisition device that can output in a format.

発明に係る情報取得装置は、少なくとも1つの検索情報を取得している情報取得装置において、重み付けされた検索情報の特徴ベクトルを作成する特徴ベクトル作成手段と、全検索情報の特徴ベクトルの組み合わせの類似度を計算する情報間類似度計算手段と、前記情報間類似度計算によって得られた数値の類似度行列を計算する類似度行列計算手段と、前記類似度計算結果を数値解析し、特徴ベクトルの最大固有値の固有ベクトルを求める固有ベクトル作成手段と、前記検索情報の問い合わせ内容の質問ベクトルを作成する質問ベクトル作成手段と、前記特徴ベクトルと質問ベクトルの余弦の計算値に固有ベクトルの数値を乗じて求められる関連情報の検索順位を決定する検索順位決定手段と、検索された情報の文中に含まれる品詞の係り受け関係を解析する係り受け解析手段と、各文中の動詞を含む文節に係る文節中の名詞を抽出する名詞抽出手段と、前記抽出された名詞の単体の名詞間の類似度S 1 及び名詞集合の類似度S 2 を計算する名詞集合間類似度比較計算手段と、抽出された名詞の表示の一致する割合の類似度S 3 を計算する名詞表示一致割合計算手段と、前記類似度S 2 に類似度S 3 を加えて文類似度Sを計算する文類似度計算手段と、検索情報の文タイプによる選定を行う文タイプ選定手段と、前記文類似度計算及び文タイプ選定された関連情報の内容を統合したもの、並びに、前記検索順位決定手段によりスコアリングされた検索結果を出力すると共に、前記検索結果の適否及び/又はパラメータの重み付けの度合いを入力するための入力フォームを出力する出力手段と、前記入力フォームに入力された情報に基づいて、前記特徴ベクトル及び質問ベクトルを修正する修正手段とを備え、前記検索順位決定手段が、前記修正手段にて修正された前記特徴ベクトル及び質問ベクトルに基づいて、再度前記関連情報の検索順位を決定し、前記出力手段が、前記検索順位決定手段によりスコアリングされた検索結果を、前記検索情報間の経時的な関連性を含めて出力するものである。ここで、「情報」には、例えば、文、文書、記事、画像、音声等を含む。また、「文タイプ」とは、例えば、重複個所、固有個所、補足説明等である。さらに、要旨、予定、理由、分析、補足説明、様態・伝聞、比況・推量等を含むものとする。
An information acquisition device according to the present invention includes a combination of feature vector generation means for generating a feature vector of weighted search information and a combination of feature vectors of all search information in the information acquisition device that has acquired at least one search information. Information similarity calculation means for calculating similarity, similarity matrix calculation means for calculating a numerical similarity matrix obtained by the information similarity calculation, numerical analysis of the similarity calculation result, and feature vector Eigenvector creation means for obtaining an eigenvector of the maximum eigenvalue of the search information, question vector creation means for creating a question vector of the inquiry content of the search information, and a calculated value of the cosine of the feature vector and the question vector multiplied by the value of the eigenvector. a search order determination means for determining the search order of the related information, part of speech engagement of contained in the text of retrieved information And dependency analysis means for parsing the relationship, and the noun extracting means for extracting a noun in clause according to clause containing the verb of each sentence, the similarity S 1 and noun set between nouns alone of the extracted noun of a noun set similarity comparison calculation means for calculating a similarity S 2, and noun see matching ratio calculating means for calculating a similarity S 3 ratio that matches the display of the extracted noun, the similarity S 2 A sentence similarity calculating means for calculating the sentence similarity S by adding the similarity S 3 , a sentence type selecting means for selecting according to the sentence type of the search information, and the sentence similarity calculating and related information of the sentence type selected. Output the integrated contents and the search results scored by the search order determining means, and output an input form for inputting the appropriateness of the search results and / or the parameter weighting degree. And a correction means for correcting the feature vector and the question vector based on information input to the input form, wherein the search order determination means is the feature vector and the question corrected by the correction means. The search order of the related information is determined again based on the vector, and the output means outputs the search results scored by the search order determination means, including the temporal relationship between the search information. Is . Here, “information” includes, for example, a sentence, a document, an article, an image, a sound, and the like. The “sentence type” is, for example, an overlapping part, a unique part, a supplementary explanation, or the like. In addition, the summary, schedule, reason, analysis, supplementary explanation, mode / hearing, ratio / inference, etc. shall be included.

これにより、重み付けされた検索情報の特徴ベクトルを作成し、全検索情報の特徴ベクトルの組み合わせの類似度を計算し、前記情報間類似度計算によって得られた数値の類似度行列を計算し、前記類似度計算結果を数値解析し、特徴ベクトルの最大固有値の固有ベクトルを求め、前記検索情報の問い合わせ内容の質問ベクトルを作成し、前記特徴ベクトルと質問ベクトルの余弦の計算値に固有ベクトルの数値を乗じて求められる関連情報の検索順位を決定し、前記検索順位の決定された関連情報の内容を統合して出力するので、すでに検索された情報から、その情報と類似度が高い情報を優先的に選択し、類似度に応じた確率で読み進めていくという仮想的なユーザを考えるとき、無限時間後に定常状態になった時点で、どの情報に行きつくかという確率に相当することを判断しながら関連情報を検索し、ユーザにとって必要な情報を取得することができる。
また、検索された情報の文中に含まれる品詞の係り受け関係を解析し、各文中の動詞を含む文節に係る文節中の名詞を抽出し、前記抽出された名詞の単体の名詞間の類似度S 1 及び名詞集合の類似度S 2 計算し、抽出された名詞の表示の一致する割合の類似度S 3 を計算し、前記類似度S 2 に類似度S 3 を加えて文類似度Sを計算し、検索情報の文タイプによる選定を行い、前記文類似度計算及び文タイプ選定された関連情報の内容を統合して出力するので、検索された関連情報について、重複個所、固有個所、補足説明等の情報内容を整理した状態で、関連情報を取得することができる。また、膨大な量の関連情報に含まれる重複情報が何度も繰り返し表示されることによるユーザの負担を軽減でき、整理された固有個所や補足説明の情報を効率よく利用者の要望に沿った形式により取得することができる。
さらに、検索順位決定によりスコアリングされた検索結果を開示し、前記検索結果の適否を入力し、特徴及び質問ベクトルを修正して、検索情報の内容を出力するので、特徴ベクトル及び質問ベクトルをユーザが適合していると判断した情報に近づけ、不適合であると判断した情報から遠ざけるように特徴ベクトル及び質問ベクトルを生成していくことができる。これを繰り返し適用することにより、確実にユーザの望む検索結果を得ることができる。
Thereby, a feature vector of weighted search information is created, a similarity of a combination of feature vectors of all search information is calculated, a numerical similarity matrix obtained by the similarity calculation between the information is calculated, Analyze the similarity calculation result numerically, find the eigenvector of the maximum eigenvalue of the feature vector, create the query vector of the query content of the search information, and multiply the calculated value of the cosine of the feature vector and the question vector by the value of the eigenvector The search order of the related information required is determined, and the contents of the related information for which the search order has been determined are integrated and output, so information having a high similarity to the information is preferentially selected from the already searched information However, when considering a virtual user who reads with a probability corresponding to the degree of similarity, which information is reached when the steady state is reached after an infinite time. Searching relevant information while judging that corresponding to the probability of whether it is possible to obtain the necessary information for the user.
In addition, the dependency relation of the part of speech included in the sentence of the retrieved information is analyzed, the noun in the phrase related to the phrase including the verb in each sentence is extracted, and the similarity between the nouns of the extracted noun S 1 and the similarity S 2 of the noun set are calculated, the similarity S 3 of the proportion of the extracted nouns that coincide with each other is calculated, and the sentence similarity S 3 is calculated by adding the similarity S 3 to the similarity S 2. Calculate and select the search information according to the sentence type, and integrate and output the contents of the related information selected by the sentence similarity calculation and the sentence type, so the searched related information is duplicated, unique, and supplementary. Related information can be acquired in a state where information contents such as explanations are arranged. In addition, it is possible to reduce the burden on the user due to repeated display of duplicate information included in a huge amount of related information, and to efficiently organize the information on specific parts and supplementary explanations according to the user's request. Can be obtained by format.
Further, the search results scored by determining the search order are disclosed, the suitability of the search results is input, the features and the question vectors are corrected, and the contents of the search information are output. The feature vector and the question vector can be generated so as to approach the information determined to be compatible and away from the information determined to be incompatible. By applying this repeatedly, the search result desired by the user can be obtained with certainty.

発明に係る情報取得装置は必要に応じて、前記特徴ベクトル作成手段は、検索情報の文の形態素解析を行う形態素解析手段と、情報毎に単語とその単語の出現回数TFを計算するTF計算手段と、全単語について文書頻度DF及びそのIDFを計算するIDF計算手段と、各情報の各単語についてTF−IDF法を用いて単語重み付けを計算する単語重み計算手段と、前記単語重み付けから各文書の特徴ベクトルを作成する特徴ベクトル作成手段とを備えるものである
If necessary, the information acquiring apparatus according to the present invention, the feature vector generating means includes a morphological analysis unit for performing morphological analysis of a sentence retrieval information, TF calculation to calculate word and the number of occurrences TF of the word for each information Means, an IDF calculation means for calculating the document frequency DF and its IDF for all words, a word weight calculation means for calculating a word weight for each word of each information using the TF-IDF method, and each document from the word weight in which and a feature vector generating means for generating a feature vector.

これにより、重み付けされた検索情報の特徴ベクトルを作成する特徴ベクトル作成手段は、検索情報の文の形態素解析を行い、情報毎に単語とその単語の出現回数TFを計算し、全単語について文書頻度DF及びそのIDFを計算し、各情報の各単語についてTF−IDF法を用いて単語重み付けを計算し、前記単語重み付けから各文書の特徴ベクトルを作成するので、特徴ベクトル作成手段情報検索において目的の情報を探すために,関連情報についての重要度を判断するためのひとつの指標とすることができ、文書と単語の関連性の数値演算を行い、その値の高いものを特徴ベクトルに反映することにより、よりユーザにとって重要な関連情報を取得することができる。   Thereby, the feature vector creating means for creating the feature vector of the weighted search information performs the morphological analysis of the sentence of the search information, calculates the word and the appearance frequency TF of the word for each information, and the document frequency for all the words. DF and its IDF are calculated, word weights are calculated for each word of each information using the TF-IDF method, and feature vectors of each document are created from the word weights. To search for information, it can be used as an index for judging the importance of related information, and numerical calculation of the relationship between a document and a word is performed, and a high value is reflected in a feature vector. Thus, related information more important for the user can be acquired.

発明に係る情報取得プログラムは、少なくとも1つの検索情報を取得している情報取得装置としてコンピュータを機能させる情報取得プログラムにおいて、重み付けされた検索情報の特徴ベクトルを作成する特徴ベクトル作成手段、全検索情報の特徴ベクトルの組み合わせの類似度を計算する情報間類似度計算手段、前記情報間類似度計算によって得られた数値の類似度行列を計算する類似度行列計算手段、前記類似度計算結果を数値解析し、特徴ベクトルの最大固有値の固有ベクトルを求める固有ベクトル作成手段、前記検索情報の問い合わせ内容の質問ベクトルを作成する質問ベクトル作成手段、前記特徴ベクトルと質問ベクトルの余弦の計算値に固有ベクトルの数値を乗じて求められる関連情報の検索順位を決定する検索順位決定手段、検索された情報の文中に含まれる品詞の係り受け関係を解析する係り受け解析手段、各文中の動詞を含む文節に係る文節中の名詞を抽出する名詞抽出手段、前記抽出された名詞の単体の名詞間の類似度S 1 及び名詞集合の類似度S 2 を計算する名詞集合間類似度比較計算手段、抽出された名詞の表示の一致する割合の類似度S 3 を計算する名詞表示一致割合計算手段、前記類似度S 2 に類似度S 3 を加えて文類似度Sを計算する文類似度計算手段、検索情報の文タイプによる選定を行う文タイプ選定手段、前記文類似度計算及び文タイプ選定された関連情報の内容を統合したもの、並びに、前記検索順位決定手段によりスコアリングされた検索結果を出力すると共に、前記検索結果の適否及び/又はパラメータの重み付けの度合いを入力するための入力フォームを出力する出力手段、前記入力フォームに入力された情報に基づいて、前記特徴ベクトル及び質問ベクトルを修正する修正手段としてコンピュータを機能させ、前記検索順位決定手段が、前記修正手段にて修正された前記特徴ベクトル及び質問ベクトルに基づいて、再度前記関連情報の検索順位を決定し、前記出力手段が、前記検索順位決定手段によりスコアリングされた検索結果を、前記検索情報間の経時的な関連性を含めて出力するものである。
An information acquisition program according to the present invention includes a feature vector generation unit that generates a feature vector of weighted search information in an information acquisition program that causes a computer to function as an information acquisition device that acquires at least one search information; Information similarity calculation means for calculating the similarity of a combination of information feature vectors, similarity matrix calculation means for calculating a numerical similarity matrix obtained by the information similarity calculation, and the similarity calculation result as a numerical value Eigenvector generating means for analyzing and obtaining the eigenvector of the maximum eigenvalue of the feature vector, question vector generating means for generating a query vector of the inquiry content of the search information, and multiplying the calculated value of the cosine of the feature vector and the question vector by a numerical value of the eigenvector to determine the search order of the relevant information required Te search order decision hand , Dependency analysis means for analyzing the dependency relation of parts of speech included in the sentence of the retrieved information, noun extraction means for extracting a noun in a phrase related to a phrase including a verb in each sentence, and a single unit of the extracted noun noun see matching rate to calculate the similarity S 1 and noun noun set similarity comparison calculation means for calculating a similarity S 2 of the set, the similarity S 3 ratio that matches the display of the extracted noun between noun A calculation means, a sentence similarity calculation means for calculating the sentence similarity S by adding the similarity S 3 to the similarity S 2 , a sentence type selection means for selecting by search sentence sentence type, the sentence similarity calculation and the sentence The contents of the related information selected by type and the search results scored by the search order determining means are output, and the suitability of the search results and / or the degree of weighting of the parameters are input. An output means for outputting an input form, and a computer functioning as a correction means for correcting the feature vector and the question vector based on information input to the input form, wherein the search order determination means causes the correction means to The search order of the related information is determined again based on the feature vector and the question vector corrected in this manner, and the output means determines the search results scored by the search order determination means as the time interval between the search information. This is output including general relevance .

発明に係る情報取得方法は、少なくとも1つの検索情報を取得している情報取得装置のコンピュータが、重み付けされた検索情報の特徴ベクトルを作成する特徴ベクトル作成ステップと、全検索情報の特徴ベクトルの組み合わせの類似度を計算する情報間類似度計算ステップと、前記情報間類似度計算によって得られた数値の類似度行列を計算する類似度行列計算ステップと、前記類似度計算結果を数値解析し、特徴ベクトルの最大固有値の固有ベクトルを求める固有ベクトル作成ステップと、前記検索情報の問い合わせ内容の質問ベクトルを作成する質問ベクトル作成ステップと、前記特徴ベクトルと質問ベクトルの余弦の計算値に固有ベクトルの数値を乗じて求められる関連情報の検索順位を決定する検索順位決定ステップと、検索された情報の文中に含まれる品詞の係り受け関係を解析する係り受け解析ステップと、各文中の動詞を含む文節に係る文節中の名詞を抽出する名詞抽出ステップと、前記抽出された名詞の単体の名詞間の類似度S 1 及び名詞集合の類似度S 2 を計算する名詞集合間類似度比較計算ステップと、抽出された名詞の表示の一致する割合の類似度S 3 を計算する名詞表示一致割合計算ステップと、前記類似度S 2 に類似度S 3 を加えて文類似度Sを計算する文類似度計算ステップと、検索情報の文タイプによる選定を行う文タイプ選定ステップと、前記文類似度計算及び文タイプ選定された関連情報の内容を統合したもの、並びに、前記検索順位決定手段によりスコアリングされた検索結果を出力すると共に、前記検索結果の適否及び/又はパラメータの重み付けの度合いを入力するための入力フォームを出力する出力ステップと、前記入力フォームに入力された情報に基づいて、前記特徴ベクトル及び質問ベクトルを修正する修正ステップとを実行し、前記検索順位決定ステップが、前記修正手段にて修正された前記特徴ベクトル及び質問ベクトルに基づいて、再度前記関連情報の検索順位を決定し、前記出力ステップが、前記検索順位決定手段によりスコアリングされた検索結果を、前記検索情報間の経時的な関連性を含めて出力するものである。
In the information acquisition method according to the present invention, a computer of an information acquisition device that has acquired at least one search information generates a feature vector of weighted search information, and a feature vector of all search information A similarity calculation step between information for calculating a similarity of a combination, a similarity matrix calculation step for calculating a similarity matrix of numerical values obtained by the similarity calculation between the information, and a numerical analysis of the similarity calculation result, An eigenvector creating step for obtaining an eigenvector of the maximum eigenvalue of the feature vector, a question vector creating step for creating a question vector of the inquiry content of the search information, and multiplying a calculated value of the cosine of the feature vector and the question vector by a numerical value of the eigenvector a search order determination step of determining a search order of the relevant information sought, the search of A dependency analysis step for analyzing the dependency relationship of parts of speech included in the sentence of the information, a noun extraction step for extracting a noun in the phrase related to the phrase including the verb in each sentence, and a single noun of the extracted noun noun see matching ratio calculating a similarity comparison calculation step between nouns set to calculate the similarity S 2, the similarity S 3 ratio that matches the display of the extracted noun similarity S 1 and noun set between nouns A calculation step, a sentence similarity calculation step for calculating the sentence similarity S by adding the similarity S 3 to the similarity S 2 , a sentence type selection step for selecting by search sentence type, and the sentence similarity The calculation and the sentence type selected related information content and the search result scored by the search order determination means are output, and the suitability of the search result and / or the parameter Determining the search order by executing an output step of outputting an input form for inputting the degree of finding, and a correcting step of correcting the feature vector and the question vector based on information input to the input form The step determines again the search order of the related information based on the feature vector and the question vector corrected by the correction means, and the output step displays the search results scored by the search rank determination means. , Including the temporal relationship between the search information .

ここで、本発明は多くの異なる形態で実施可能である。したがって、下記の実施形態の記載内容のみで解釈すべきではない。実施形態では、主に装置について説明するが、所謂当業者であれば明らかな通り、本発明は、コンピュータで使用可能なプログラムとしても実施できる。また、本発明では、ハードウェア、ソフトウェア、または、ソフトウェア及びハードウェアの実施形態で実施可能である。プログラムは、ハードディスク、CD―ROM、DVD−ROM、光記憶装置または磁気記憶装置等の任意のコンピュータ可読媒体に記録できる。さらに、プログラムはネットワークを介した他のコンピュータに記録することが出来る。   Here, the present invention can be implemented in many different forms. Therefore, it should not be interpreted only by the description of the following embodiment. In the embodiment, the apparatus will be mainly described. However, as is apparent to those skilled in the art, the present invention can also be implemented as a program usable on a computer. Further, the present invention can be implemented in hardware, software, or software and hardware embodiments. The program can be recorded on any computer-readable medium such as a hard disk, CD-ROM, DVD-ROM, optical storage device, or magnetic storage device. Furthermore, the program can be recorded on another computer via a network.

[1.ハードウェア構成]
図1に本発明の実施形態における情報取得装置のハードウェア構成図を示す。コンピュータ1は、例えば、CPU(Central Processing Unit)2、メインメモリ3、HDD(Hard Disk Drive)4、ビデオカード5、マウス6、キーボード7、光学ディスク8等を含む。なお、必要に応じて、データベース等を接続することもできる。
[1. Hardware configuration]
FIG. 1 shows a hardware configuration diagram of an information acquisition apparatus according to an embodiment of the present invention. The computer 1 includes, for example, a CPU (Central Processing Unit) 2, a main memory 3, a HDD (Hard Disk Drive) 4, a video card 5, a mouse 6, a keyboard 7, an optical disk 8, and the like. A database or the like can be connected as necessary.

[2.ブロック構成]
図2に本発明の実施形態に係る情報取得装置のブロック構成図を示す。本発明は、主として、入力部10、続報情報検索部20、情報内容統合部30、出力部40を含む。ここで、続報情報検索部20は、ベクトル作成部21、検索順位決定部22、適合・非適合判定部23を含む。さらに、ベクトル作成部21は、形態素解析部211、TF計算部212、IDF計算部213、単語重み計算部214、特徴ベクトル作成部215、情報間類似度計算部216、類似度行列計算部217、固有ベクトル作成部218、質問ベクトル作成部219を含む。また、情報内容統合部30は、係り受け解析部31、名詞抽出部32、名詞集合間類似度比較計算部33、名詞表示一致割合計算部34、文類似度計算部35、文タイプ選定部36、要約文作成部37、記事集約部38を含む。
まず、入力部10により入力された記事データは、続報情報検索部20におけるベクトル作成部21送られて処理されることになる。ここで、本発明の実施形態の例として、検索対象に新聞記事を一例に挙げて、各構成の内容について以下に詳説する。
[2. Block configuration]
FIG. 2 shows a block diagram of the information acquisition apparatus according to the embodiment of the present invention. The present invention mainly includes an input unit 10, a follow-up information search unit 20, an information content integration unit 30, and an output unit 40. Here, the follow-up information search unit 20 includes a vector creation unit 21, a search order determination unit 22, and a conformance / nonconformity determination unit 23. Furthermore, the vector creation unit 21 includes a morpheme analysis unit 211, a TF calculation unit 212, an IDF calculation unit 213, a word weight calculation unit 214, a feature vector creation unit 215, an inter-information similarity calculation unit 216, a similarity matrix calculation unit 217, An eigenvector creation unit 218 and a question vector creation unit 219 are included. The information content integration unit 30 includes a dependency analysis unit 31, a noun extraction unit 32, a noun set similarity comparison calculation unit 33, a noun display match ratio calculation unit 34, a sentence similarity calculation unit 35, and a sentence type selection unit 36. A summary sentence creation unit 37 and an article aggregation unit 38.
First, the article data input by the input unit 10 is sent to the vector creation unit 21 in the follow-up information search unit 20 for processing. Here, as an example of an embodiment of the present invention, a newspaper article is taken as an example of a search target, and the contents of each component will be described in detail below.

[2.1 続報情報検索]
[2.1.1 ベクトル空間モデル]
ベクトル作成部21において、まず、記事データは形態素解析部211、TF計算部212、IDF計算部213、単語重み計算部214、特徴ベクトル作成部215で処理される。ここで、ベクトル空間モデル(vector−space model)は検索対象となる個々のデータの性質を表現するための特徴量として、多次元ベクトルを個々のデータに対応づける。この間に類似度(Similarity)を定義することにより、問い合わせ(質問)と類似したものを探し出す方法である。いま、検索対象の特徴としてn個の属性が備わっており、i番目の属性をwiとする。そしてj番目のデータに(数式1)のベクトルを対応させることを考える。これらのベクトルが線形独立であれば、n次元のベクトル空間が定義される。このように定義されたベクトル空間において、j番目データの特徴ベクトルは
[2.1 Follow-up information search]
[2.1.1 Vector space model]
In the vector creation unit 21, article data is first processed by the morphological analysis unit 211, the TF calculation unit 212, the IDF calculation unit 213, the word weight calculation unit 214, and the feature vector creation unit 215. Here, a vector space model (vector-space model) associates a multidimensional vector with individual data as a feature quantity for expressing the properties of individual data to be searched. This is a method of searching for something similar to an inquiry (question) by defining similarity in the meantime. Now, it is equipped with n-number of attributes as a feature of the search target, the i-th attribute and w i. Consider that the vector of (Formula 1) corresponds to the jth data. If these vectors are linearly independent, an n-dimensional vector space is defined. In the vector space defined in this way, the feature vector of the jth data is

Figure 0004967133
のように表すことができる(djiはのwiに対する値)。
ベクトル空間モデルにおける検索システムへの問い合わせ(質問)もベクトルで表される。n次元のベクトル空間に対するその質問ベクトルは
Figure 0004967133
(D ji is a value for w i of).
Inquiries (questions) to the search system in the vector space model are also expressed as vectors. The query vector for an n-dimensional vector space is

Figure 0004967133
のように表すことができる(qiは質問ベクトルのwiに対する値)。
Figure 0004967133
(Q i is a value for w i of the query vector).

検索は検索対象の(数式1)の特徴ベクトルと(数式2)の質問ベクトルの類似度を計算することにより行われる。この特徴ベクトル(feature vector)を得る方法は、検索の目的や、その対象であるデータの種類などによって異なる。例えば検索対象が文献データならば単語の出現頻度を基にベクトルの各要素の重み付けを行い、画像であれば画素ごとの濃淡や色のデータなどを用いることができる。なお、新聞記事では、1記事を1つのベクトルに割り当て、記事中の単語のTF−IDF をベクトルの重みづけに利用している。   The search is performed by calculating the similarity between the feature vector of (Expression 1) to be searched and the query vector of (Expression 2). The method of obtaining the feature vector differs depending on the purpose of the search and the type of data that is the object. For example, if the search target is document data, each element of the vector is weighted based on the appearance frequency of the word, and if the search target is an image, the density and color data for each pixel can be used. In newspaper articles, one article is assigned to one vector, and the TF-IDF of a word in the article is used for weighting the vector.

[2.1.2 単語の重みづけ]
情報検索において目的の文書を探すために、文書と単語の関連性の数値演算を行い、その値の高いものを候補とする。そこで用いられる評価値は文書中には重要な単語がどれくらい多く含まれているかを表している。文書中の単語がどの程度重要であるか重み付けに用いられているのが以下に述べるTF−IDF 法である。この手法は次の2つのキーワードの性質に注目している。
(1)文書に数多く、高い頻度で現れる単語は重要である
(2)少ない数の文書にしか現れない単語は重要である
単語出現頻度(Term Frequency:TF)単語tが文書dに高い頻度で現れるなら、tはdを良く特徴付ける。この考えによる尺度が単語出現頻度、tf(Term Frequency)である。ある文書dにおける単語tの出現頻度tf(d,t)は次式で定義され、TF計算部212において計算が行われる。
[2.1.2 Word weighting]
In order to search for a target document in the information search, a numerical calculation of the relationship between the document and the word is performed, and a document having a high value is set as a candidate. The evaluation value used there indicates how many important words are included in the document. The TF-IDF method described below is used to weight how important words in a document are. This method pays attention to the property of the following two keywords.
(1) Words that appear frequently and frequently in a document are important (2) Words that appear only in a small number of documents are important Word Frequency (TF) Word t appears frequently in document d If it appears, t characterizes d well. A scale based on this idea is the word appearance frequency, tf (Term Frequency). The appearance frequency tf (d, t) of the word t in a document d is defined by the following equation, and is calculated by the TF calculation unit 212.

Figure 0004967133
freq(d,t):文書dにおける単語tの出現頻度。
Figure 0004967133
freq (d, t): Appearance frequency of the word t in the document d.

文書出現頻度(Document Frequency:df)tfが大きいというのは重要な性質だが、それだけでは十分に文書を特徴付けることはできない。例えば、日本語文書で「は」という助詞はどんな文書でも高い頻度で現れるが、特定の文書を特徴付けないことは明白である。そこで、単語tが検索対象となる文書集合のうちの少数の文書にしか現れないという性質が重要である。単語tの出現する文書数を文書出現頻度df(document frequency)は、次式で定義される。   It is an important property that the document frequency (df) tf is large, but it cannot sufficiently characterize the document. For example, in a Japanese document, the particle "ha" appears frequently in any document, but it is clear that it does not characterize a particular document. Therefore, the property that the word t appears only in a small number of documents in the document set to be searched is important. The number of documents in which the word t appears and the document appearance frequency df (document frequency) are defined by the following expression.

Figure 0004967133
dfreq(t): 単語tが出現する文書数
dfが小さいことが単語tの文書を特徴付ける能力が高いことを表すので、実際にはこの逆数をlogと文書集合中の文書総数Nにより正規化したidf(inverse document frequency)を用いる。
Figure 0004967133
dfreq (t): number of documents in which the word t appears Since a small df indicates that the ability to characterize the document of the word t is high, this reciprocal is actually normalized by log and the total number N of documents in the document set. idf (inverse document frequency) is used.

Figure 0004967133
N:文書の数
freq(d,t):文書dにおける単語tの出現頻度
Figure 0004967133
N: number of documents freq (d, t): appearance frequency of word t in document d

なお、IDF計算部213では、まず、dfを求めた後に、idfを計算することになる。TF−IDFよる重み付け単語tについて、その単語が文書内に出てくる回数とそれが全文書内に占める割合の積を計算することで、その単語の重要性と、その出現頻度によって文書の重要性を表すことが目的である。単語tがtfとidfの両者の性質を併せ持つ、すなわちtfが大きく、dfが小さいならば、単語tは文書dを真に特徴付けるといえる。この考え方を数値の尺度として表現したのがTF−IDFによる重み付けである。文書dにおけるキーワードtの重みw(t,d)は次のように定義され、単語重み計算部214で計算される。   The IDF calculation unit 213 first calculates idf after obtaining df. For the weighted word t by TF-IDF, by calculating the product of the number of times the word appears in the document and the proportion of the word in the entire document, the importance of the word is determined according to the importance of the word and its appearance frequency. The purpose is to express sex. If the word t has the properties of both tf and idf, that is, if tf is large and df is small, it can be said that the word t truly characterizes the document d. This concept is expressed as a numerical scale by weighting by TF-IDF. The weight w (t, d) of the keyword t in the document d is defined as follows, and is calculated by the word weight calculation unit 214.

Figure 0004967133
dfreq(t): 単語tが出現する文書数
そして、特徴ベクトル作成部215において、これらの求められた数値を利用して特徴ベクトルを作成する。
Figure 0004967133
dfreq (t): The number of documents in which the word t appears, and the feature vector creation unit 215 creates a feature vector using these obtained numerical values.

[2.1.3 類似度]
特徴ベクトル作成部215、質問ベクトル作成部219で処理されたデータは検索順位決定部22に送られる。ここで、ベクトル空間モデルにおいて、検索を行うためにはベクトル間の類似度を定義しなければならない。類似度の尺度としては様々なものがあるが、ここではベクトル間の余弦を用いる。
類似度として2つのベクトル間の余弦の値を利用する方法である。特徴ベクトルDと質問ベクトルQの類似度sim(D,Q)は以下のようになる。
[2.1.3 Similarity]
The data processed by the feature vector creation unit 215 and the question vector creation unit 219 is sent to the search order determination unit 22. Here, in the vector space model, similarity between vectors must be defined in order to perform a search. There are various measures of similarity, but here the cosine between vectors is used.
In this method, a cosine value between two vectors is used as the similarity. The similarity sim (D, Q) between the feature vector D and the question vector Q is as follows.

Figure 0004967133

sim(D,Q)の値は0以上1以下であり、1に近づくほど類似度が高くなる。検索順位決定部22では、余弦、いわゆるコサイン相関値を用いた類似度評価を行う。
Figure 0004967133

The value of sim (D, Q) is 0 or more and 1 or less, and the closer to 1, the higher the similarity. The search order determination unit 22 performs similarity evaluation using a cosine, so-called cosine correlation value.

[2.1.4 ベクトル空間モデルにおける関連性フィードバック]
検索順位決定部22において検索結果が得られた場合、出力部40で処理される。一度の検索で最終的な結果を得るのではなく、結果に対するユーザのフィードバックを元に新たな質問を生成し、繰り返し検索を行い、徐々に検索結果をユーザの求める結果に近づけていくフィードバック検索を行う。つまり、改めてユーザの検索結果に対する適否データを入力部10において入力する。
[2.1.4 Relevance feedback in vector space model]
When a search result is obtained in the search order determination unit 22, it is processed by the output unit 40. Rather than obtaining the final result in a single search, a new question is generated based on user feedback on the result, a repeated search is performed, and the search result is gradually brought closer to the result desired by the user. Do. That is, the suitability data for the search result of the user is input again at the input unit 10.

ベクトル空間モデルにおける、関連性フィードバック(Relevance Feedback)では、装置への質問式も質問ベクトル作成部219により作成された多次元ベクトルで表現される。質問の結果については、質問ベクトル作成部219で作成された質問ベクトルと特徴ベクトル作成部215で作成されたデータの特徴ベクトルの類似度を計算した結果のデータの集合として求める。この類似度が高いデータほど、質問の答えとしてふさわしいものであると考え、検索結果に含まれるデータに、それがどれだけ質問に適合していたかという順位をつけてユーザに提示する。ユーザは提示された検索結果からフィードバックを返す。   In the relevance feedback in the vector space model, a question formula for the apparatus is also expressed by a multidimensional vector created by the question vector creation unit 219. The result of the question is obtained as a set of data obtained as a result of calculating the similarity between the question vector created by the question vector creation unit 219 and the feature vector of the data created by the feature vector creation unit 215. The data with higher similarity is considered to be more appropriate as an answer to the question, and the data included in the search result is presented to the user with a ranking of how much it matches the question. The user returns feedback from the presented search results.

[2.1.5 ユーザからのフィードバック]
入力された検索結果の適否データは、適合・非適合判定部23に送られ、質問ベクトル作成部219及び単語重み計算部214に送られる。
具体的なユーザからのフィードバックとして、最も多いのは結果の正例(positive example)、負例(negative example)の提示である。また、正例のみをフィードバックするもの、それぞれの妥当性の度合いをランクづけてフィードバックするものなど、様々なものがある。また、ユーザからのフィードバックを検索に反映させる方法としては、大きく以下の二つに分けることができる。
(1)質問ベクトル修正(Query Vector Movement)は、検索質問のベクトルを修正・変換して、正例の特徴に近づけ、負例から遠ざける。
(2)再重みづけ(Feature Re−weighting)は、特徴ベクトルに対応するための重みをユーザのニーズにあわせて調節する。すなわち、正例を検索するのに好都合な次元を強調し、負な例のものの影響を減らすように重みづけを動的に変更する。本発明では、この両方のフィードバックを利用する。
[2.1.5 Feedback from users]
The suitability data of the input search result is sent to the conformity / nonconformity determination unit 23 and sent to the question vector creation unit 219 and the word weight calculation unit 214.
As feedback from a specific user, the most common is the presentation of positive examples and negative examples of results. In addition, there are various types such as those that feed back only positive examples and those that rank and rank the degree of validity. In addition, the method of reflecting the feedback from the user in the search can be roughly divided into the following two.
(1) Question Vector Correction (Query Vector Movement) corrects and transforms the vector of a search question to bring it closer to the features of the positive example and away from the negative example.
(2) Reweighting (Feature Re-weighting) adjusts the weight to correspond to the feature vector according to the user's needs. That is, weights are dynamically changed to emphasize the dimensions that are convenient for searching positive examples and reduce the impact of negative examples. The present invention utilizes both of these feedbacks.

[2.1.6 質問ベクトルの修正]
ユーザのフィードバックした結果から、検索結果をユーザの求めるものに近づける手法として、質問ベクトルをユーザが適合していると判断した記事に近づけ、不適合であると判断した記事から遠ざけるように質問ベクトルを生成していく。これを繰り返し適用することにより、徐々にユーザの望む検索結果を得ることができる。このために良く利用されるのはRocchioフィードバック手法であり、Rocchioの式は以下のように与えられる。
[2.1.6 Modification of question vector]
As a method to bring the search results closer to what the user wants based on the results of user feedback, the question vector is generated so that the question vector is closer to the article that the user has determined to be relevant and away from the article that is determined to be non-conforming. I will do it. By applying this repeatedly, it is possible to gradually obtain a search result desired by the user. For this purpose, the Rocchio feedback method is often used, and the Rocchio equation is given as follows.

Figure 0004967133
Figure 0004967133

iは前回の検索時に用いられた質問ベクトルであり、Qi+1が新しく生成された質問ベクトルである。Rは適合だと判断された文書Djに対する特徴ベクトルであり、Nは不適合であると判断された文書に対する特徴ベクトルである。Rn、Nn はそれぞれ適合文献数、不適合文献数である。α、βはそれぞれ適合文献、不適合文献に対する変数であり、αの値が高いと適合文献による変更が重要視され、βの値が高いと不適合文献による変更が重要視される。適合フィードバックの結果として、問合せ位置はQiからQi+1に移動するととらえることができる。ここで、特徴ベクトル作成部215におけるデータは、質問ベクトル作成部においても処理される。 Q i is a question vector used in the previous search, and Q i + 1 is a newly generated question vector. R is a feature vector for the document D j determined to be conforming, and N is a feature vector for the document determined to be incompatible. R n and N n are the number of conforming documents and the number of nonconforming documents, respectively. α and β are variables for conforming documents and nonconforming documents, respectively. If the value of α is high, the change by the conforming document is emphasized, and if the value of β is high, the change by the nonconforming document is regarded as important. As a result of the relevance feedback, query position can be considered as moving from Q i to Q i + 1. Here, the data in the feature vector creation unit 215 is also processed in the question vector creation unit.

[2.1.7 状態遷移確率を考慮に入れた重要度評価]
情報間類似度計算部216、類似度行列計算部217、固有ベクトル作成部218は、特徴ベクトル作成部215からのデータを以下の内容で処理する。
図3は本発明の実施形態に係る情報取得装置の記事間の類似度による記事の重要度評価の説明図である。PageRankは、www上のハイパーリンクによって結ばれたWebページ群において、「多くの良質なページからリンクされているページは、やはり良質なページである」、という再帰的な関係をもとに、Webページの重要度を評価する理論、およびそれによって求められるページの重要度である。PageRankを用いることで、ハイパーリンク構造のような相互参照関係があるときに、どのページがもっとも重要であるかを定量的に求めることができる。
[2.1.7 Importance evaluation taking into account state transition probabilities]
The inter-information similarity calculation unit 216, the similarity matrix calculation unit 217, and the eigenvector creation unit 218 process the data from the feature vector creation unit 215 with the following contents.
FIG. 3 is an explanatory diagram of article importance evaluation based on similarity between articles of the information acquisition apparatus according to the embodiment of the present invention. PageRank is a Web page group linked by hyperlinks on www, based on the recursive relationship that “the pages linked from many high-quality pages are still high-quality pages”. This is a theory for evaluating the importance of a page, and the importance of the page obtained thereby. By using PageRank, it is possible to quantitatively determine which page is most important when there is a cross-reference relationship such as a hyperlink structure.

図3(a)はPageRankの概念図を示す。この図を例に基本的なPageRankの計算方法を説明すると、まず全てのWebページはそれぞれPageRankの値を持っている。そしてこの値はそのページがリンクしている先のページへ均等に分配されることになる。図3(a)を例に取ると、図中にある100の値を持ったページは2つのページへのリンクを持っているので、このページの持つ100の値は2つに分割されてリンク先へ与えられる。つまり、リンク先のページはそれぞれ50ずつの値を得ることになる。   FIG. 3A shows a conceptual diagram of PageRank. The basic method for calculating PageRank will be described using this figure as an example. First, all Web pages each have a value of PageRank. This value is evenly distributed to the previous page to which the page is linked. Taking FIG. 3A as an example, a page having a value of 100 in the figure has a link to two pages, so the value of 100 that this page has is divided into two links. Given to you. That is, each linked page gets 50 values.

[2.1.8 記事間の類似度による記事の重要度評価]
PageRankがページ間のリンクの重みを平等に扱っているのに対し、本発明では各記事との類似度で重み付けを行う。これによって新聞記事群を関連度の強さに応じたリンクによって結ばれたグラフ構造と考える。そのなかから、より関連性が高いとしてリンクされている記事を、PageRank同様、遷移確率の最大固有値における固有ベクトルを算出することで求める。図3(b)は 新聞記事間の類似度を示すものであり、その算出方法を以下に説示する。
まず、記事数をNとするとき、情報間類似度計算部216が、N×NのN次正方行列、要素に各記事間の類似度をそれぞれ計算し、類似度行列計算部217が類似度行列を作成する。図3(b)について、類似度行列を求めた結果である行列Aを以下に示す。
[2.1.8 Article importance evaluation based on similarity between articles]
Whereas PageRank handles the weight of links between pages equally, in the present invention, weighting is performed based on the degree of similarity to each article. In this way, the newspaper article group is considered as a graph structure connected by links according to the strength of the relevance. Among them, an article linked as having higher relevance is obtained by calculating an eigenvector at the maximum eigenvalue of the transition probability similarly to PageRank. FIG. 3 (b) shows the degree of similarity between newspaper articles, and the calculation method will be described below.
First, when the number of articles is N, the inter-information similarity calculation unit 216 calculates the N × N N-order square matrix and the similarity between the articles as elements, and the similarity matrix calculation unit 217 calculates the similarity. Create a matrix. A matrix A as a result of obtaining a similarity matrix with respect to FIG.

Figure 0004967133

次に、各記事、すなわち各列について合計が1になるように正規化し行列Aを状態遷移確率行列Mとする。図3(C)は、新聞記事間の類似度による重み付けを行った遷移確率を示す。このときの記事間の関係は図3(C)のように示される。
Figure 0004967133

Next, normalization is performed so that the sum is 1 for each article, that is, each column, and the matrix A is set as a state transition probability matrix M. FIG. 3C shows transition probabilities that are weighted according to the similarity between newspaper articles. The relationship between the articles at this time is shown as in FIG.

Figure 0004967133

行列Mの状態遷移確率行列から、固有ベクトル作成部218が、最大固有値の固有ベクトルを計算した結果を図4に示す。
Figure 0004967133

FIG. 4 shows the result of the eigenvector creation unit 218 calculating the eigenvector of the maximum eigenvalue from the state transition probability matrix of the matrix M.

図4は本発明の実施形態に係る情報取得装置の記事の重要度計算例である。図4は、より多くの記事から高い重みで参照されている記事ほどスコアが高くなっていることを示している。この図4のスコアは、現在見ている記事から、その記事と類似度が高い記事を優先的に選択し、類似度に応じた確率で読み進めていくという仮想的なユーザを考えるとき、無限時間後に定常状態になった時点で、どの記事に行きつくかという確率に相当する。すなわち、その記事が類似性があるとしてユーザが興味を持ち、辿り着きやすいかというスコアであり、また、記事群の中でどの記事が多くの記事から類似性を持っているとして高い重みでリンクされているか、というのを示すスコアであるともいえる。   FIG. 4 is an example of calculating the importance of articles in the information acquisition apparatus according to the embodiment of the present invention. FIG. 4 shows that an article that is referenced by a higher weight from more articles has a higher score. The score of FIG. 4 is infinite when considering a hypothetical user who preferentially selects an article having a high similarity to the article from the currently viewed article and proceeds with reading with a probability corresponding to the similarity. This corresponds to the probability of which article will be reached when a steady state is reached after a period of time. In other words, it is a score that the user is interested in the article as being similar and easy to reach, and links with high weights as to which articles in the article group have similarity from many articles It can also be said that the score indicates whether or not

以上によって求められたスコアを、ベクトル空間モデル上の類似度を計算したスコアに併用することにより、質問ベクトルとの類似度でユーザの興味を考慮に入れつつ、そのなかで代表らしい記事を結果として示すことができる。これによりユーザが検索結果の判断に用いるのに適している記事を得て、効率良くフィードバック検索を行おうとするものである。   By using the score obtained as described above together with the score calculated for the similarity on the vector space model, the user's interest is taken into account by the similarity to the question vector, and as a result, a representative article is included as a result. Can show. As a result, the user obtains an article suitable for use in the determination of the search result, and tries to perform a feedback search efficiently.

[2.2 情報内容統合システム]
続報情報検索部20で得られた続報記事の情報データは、情報内容統合部30において情報データの整理・分類処理される。その際に行われる重複箇所、固有箇所、補足説明の各カテゴリの設定、及びカテゴリ分けを行う類似度、文タイプによる判定について以下に説示する。
[2.2 Information content integration system]
The information data of the follow-up articles obtained by the follow-up information search unit 20 is subjected to information data sorting / classification processing in the information content integration unit 30. The determination based on the overlapping part, the unique part, each category of supplementary explanation, the similarity for performing categorization, and the sentence type will be described below.

[2.2.1 カテゴリ設定及び分類]
内容統合において、 複数新聞記事を文カテゴリに分類し、それらの組み合わせにより、利用者の要望に沿った形式の出力を目指す。よって、その際の各カテゴリは、ユーザの情報取得の選択肢を広げ、複数新聞記事を比較する際の利点に沿ったものでなければならない。そこで、各記事に共通の箇所である重複箇所、各記事に固有の箇所である固有箇所と、記事中における補足的な内容である補足説明という合計3つのカテゴリを設定する。なお、重複箇所中の文の対応の定義として、一方の文に比較対象の文の話題が、完全にまたは部分的に含まれていることとする。
対象記事を「重複箇所」、「固有箇所」、「補足説明」の3 つのカテゴリに分類するために、その判定基準として、「文単位の類似度」、「文タイプ」の2つを用いる。
[2.2.1 Category setting and classification]
In content integration, multiple newspaper articles are classified into sentence categories, and by combining them, aim to output in a format that meets the needs of users. Therefore, each category at that time must be in line with the advantages of expanding the user's choice of information acquisition and comparing multiple newspaper articles. Therefore, a total of three categories are set: a duplicate location that is common to each article, a unique location that is unique to each article, and a supplementary explanation that is supplementary content in the article. Note that, as a definition of correspondence between sentences in overlapping portions, the topic of the sentence to be compared is completely or partially included in one sentence.
In order to classify the target article into three categories of “overlapping part”, “unique part”, and “supplementary explanation”, two of “similarity in sentence units” and “sentence type” are used as judgment criteria.

「文単位の類似度」では、記事データが、係り受け解析部31で解析処理される。そして、名詞抽出部32、名詞集合間類似度比較計算部33により各文中の動詞をキーとした名詞集合中の名詞単体の概念間の距離と表記を利用して求めた値と、名詞表示一致割合計算部34により求めたそれらの結果を利用した名詞単語中の表記が同じ名詞の割合の合計を、文類似度計算部35により算出された結果の値とする。
また「文タイプ」では、文タイプ選定部36が、各文に対して文のタイプ付けを行う。以下に、それぞれの判定に関する詳細な説明を述べる。
With “similarity in sentence units”, the dependency analysis unit 31 analyzes the article data. The noun extraction unit 32 and the noun set similarity comparison calculation unit 33 use the distance between the nouns in the noun set with the verb in each sentence as a key and the notation, and the noun display match The sum of the proportions of nouns having the same notation in the noun word using those results obtained by the proportion calculator 34 is set as the value of the result calculated by the sentence similarity calculator 35.
In “sentence type”, the sentence type selection unit 36 performs sentence typing on each sentence. In the following, detailed description regarding each determination will be described.

[2.2.2 複数新聞記事間における文単位の類似度]
重複箇所、固有箇所の選定の一基準として、文単位の類似度を採用している。以下に類似度の算出方法について述べる。一般に、文の類似度の指標には、構文構造の類似度と意味的な類似度が考えられる。類似文検索では、構文構造の類似度を求めるために「動詞への係り受け」を使用する。また、意味的な類似度を求めるために「動詞に直接係る文節中の名詞の意味属性」、「名詞表記の一致の割合」を利用する。類似文の検索は、次の4つのステップで行われる。
(1)動詞を含む文節に係る文節中の名詞の検出
(2)(1)で抽出した動詞をキーとする名詞集合毎の類似度の比較
(3)(2) の結果を利用した名詞表記の一致の割合
(4)(2)と(3)の結果を利用した類似度の算出
[2.2.2 Sentence similarity between multiple newspaper articles]
Sentence similarity is used as a standard for selecting overlapping and unique locations. A method for calculating the similarity will be described below. In general, syntactic similarity and semantic similarity can be considered as an index of sentence similarity. In the similar sentence search, “dependency on a verb” is used to obtain the similarity of the syntax structure. In addition, in order to obtain a semantic similarity, “semantic attributes of nouns in phrases directly related to verbs” and “ratio of noun notation matching” are used. The search for similar sentences is performed in the following four steps.
(1) Detection of nouns in phrases related to phrases containing verbs (2) Comparison of similarities between noun sets using the verb extracted in (1) as a key (3) Noun notation using the results of (2) Ratio of matching (4) Similarity calculation using results of (2) and (3)

[2.2.2 動詞を含む文節に係る文節中の名詞の抽出]
図5は、本発明の実施形態に係る情報取得装置の動詞を含む文節に係る文節中の名詞の抽出の例である。図5の場合には網掛け部分の名詞A,B,C,D,G,H,I,7,8,9を抽出する。かかる処理は、文中に含まれる動詞に関する係り受けを利用することから、例えば日本語係り受け解析器cabochaを用いて行うことができる。
[2.2.2 Extraction of nouns in phrases related to phrases containing verbs]
FIG. 5 is an example of extraction of nouns in a phrase related to a phrase including a verb in the information acquisition apparatus according to the embodiment of the present invention. In the case of FIG. 5, the nouns A, B, C, D, G, H, I, 7, 8, and 9 in the shaded portion are extracted. Such processing uses a dependency on a verb included in the sentence, and can be performed using, for example, a Japanese dependency analyzer cabocha.

[2.2.3 動詞を含む文節に係る文節中の名詞の概念関係を利用した比較]
前述の日本語形態素解析器cabochaにより部分的な重複を文間の類似度の情報に入れるため、各文中の動詞を含む文節に係る文節中の名詞を抽出し、各動詞に対する名詞集合を作成する。その際の集合中の各名詞間の類似度は、表記が異なるものはEDR電子化辞書により、概念間の距離からその値を求め、表記が同一のものはその値を最大値にする。そして、各名詞単体同士の類似度から名詞集合同士の類似度を算出し、その中で最も類似度が高い値をとる。名詞の類似度を測る方法としては、意味属性体系上での共通親属性の位置や、両意味属性間のパスの長さから類似度を求める方法が考えられる。しかし、一般に名詞には複数の意味属性を割り当てることができる。そのため、名詞の類似度を求めるために、その名詞がどの意味属性の名詞として使われているのかを、文脈情報などから一意に決定しなければならない。本発明においては、この多義性の問題には立ち入らずに、「EDR電子化辞書を用いた単語類似度計算法」[参考文献:崔ら,情報処理学会報告NL−93−1,pp1−6]で提案されている手法である名詞に割り当てられた複数の意味属性から総合的に名詞の類似度を求める。また、動詞に係る文節中の名詞を類似度の指標として特に取り上げているのは、一文に含まれる話題の数の違いを考慮したことによる。
[2.2.3 Comparison using noun conceptual relationships in clauses involving verbs]
In order to put partial duplication into the similarity information between sentences by the Japanese morphological analyzer cabocha, the nouns in the clauses related to the clauses containing the verbs in each sentence are extracted, and a noun set for each verb is created. . In this case, the similarity between each noun in the set is obtained from the distance between the concepts by using an EDR electronic dictionary for those having different notations, and the value is maximized for those having the same notation. And the similarity of noun sets is calculated from the similarity of each noun single, and takes the value with the highest similarity among them. As a method of measuring the similarity of nouns, a method of obtaining the similarity from the position of the common parent attribute on the semantic attribute system and the length of the path between the two semantic attributes can be considered. In general, however, nouns can be assigned multiple semantic attributes. Therefore, in order to obtain the similarity of nouns, it is necessary to uniquely determine which semantic attribute is used as a noun from context information. In the present invention, without going into the problem of ambiguity, “word similarity calculation method using EDR electronic dictionary” [Reference: Tsuji et al., Information Processing Society of Japan Report NL-93-1, pp1-6. ], The noun similarity is comprehensively obtained from a plurality of semantic attributes assigned to the noun, which is a method proposed in the above. The reason why the nouns in the clauses related to verbs are particularly taken as an index of similarity is because of the difference in the number of topics included in one sentence.

[2.2.4 EDR電子化辞書について]
図6は、本発明の実施形態に係る情報取得装置のEDR辞書の構造図である。EDR電子化辞書は、コンピュータによる先進的な言語処理のために開発され、単語辞書などのいくつかの大規模な個別辞書から構成されている。辞書は、単語辞書中で定義した概念の類義を記述する概念体系(シソーラス)、辞書記述の典拠としてのコーパスDB(例文集)を統合した日本語と英語の語彙知識総目録と呼ぶにふさわしい機械処理用の電子化辞書である。言語学的偏向を極力排除し、各種応用へのチューンアップの容易さを保持することを開発方針として採用してあるものである。EDR電子化辞書は単語辞書、対訳辞書、概念辞書、共起辞書、専門用語辞書とEDRコーパスから構成されている。
[2.2.4 EDR Electronic Dictionary]
FIG. 6 is a structural diagram of an EDR dictionary of the information acquisition apparatus according to the embodiment of the present invention. The EDR electronic dictionary is developed for advanced language processing by a computer and is composed of several large-scale individual dictionaries such as a word dictionary. A dictionary is suitable to be called a Japanese and English vocabulary knowledge catalog that integrates a conceptual system (thesaurus) describing the synonyms of concepts defined in a word dictionary and a corpus database (collection of example sentences) as a dictionary description authority. This is an electronic dictionary for machine processing. The development policy is to eliminate the linguistic bias as much as possible and maintain the ease of tuning up to various applications. The EDR electronic dictionary is composed of a word dictionary, a bilingual dictionary, a concept dictionary, a co-occurrence dictionary, a technical term dictionary, and an EDR corpus.

本発明では、名詞の概念間の距離を調べるために、概念辞書、及び日本語単語辞書を利用する。日本語単語辞書は約26万語の語彙を持つ単語辞書である。基本的役割は、単語と概念(意味)との対応関係を記述し、この対応関係が成り立つときの文法的特性を与えることである。概念辞書は、単語辞書に語義として導入された約41万の概念についての知識が記述され、情報の種類によって、概念体系辞書と概念記述辞書に分けられる。概念体系辞書は約41万の概念に対して、それらの間の上位下位関係を記述したものである。上位下位関係とは概念間の包含関係であり、一種のシソーラスと見なすことができる。概念記述辞書は文中に共起する概念間(2項)の意味的関係(動作主、道具、場所、等)を整理したものを記述したものである。   In the present invention, a concept dictionary and a Japanese word dictionary are used to examine the distance between noun concepts. The Japanese word dictionary is a word dictionary having a vocabulary of about 260,000 words. The basic role is to describe the correspondence between words and concepts (meaning), and to give grammatical characteristics when this correspondence holds. The concept dictionary describes knowledge about 410,000 concepts introduced as word meanings in the word dictionary, and is divided into a concept system dictionary and a concept description dictionary depending on the type of information. The concept system dictionary describes the upper and lower relations between about 410,000 concepts. A superordinate relationship is an inclusive relationship between concepts, and can be regarded as a kind of thesaurus. The concept description dictionary is a dictionary that describes the semantic relationships (actors, tools, places, etc.) between concepts that co-occur in a sentence (2 items).

[2.2.5 名詞集合間の類似度を算出する処理]
名詞集合間の類似度を算出するための処理について以下に述べる。名詞同士の比較を行い、表記が同じものは類似度を最大値の1として算出する。それ以外の表記が異なるものがある場合には、概念辞書を利用した比較を行う。概念辞書による名詞の比較の手順を以下に示す。まず、名詞の概念を表す概念識別子を日本語単語辞書からとりだし、それを利用して概念辞書から意味属性のリストを得る。次に両名詞の持つ意味属性から名詞間の関係を「類似文の比較による省略可能な格要素の認定」[参考文献:篠原ら,情報処理学会研究報告,NL−139−14,pp101−108]の提案による同義関係と類似関係とに分類する。
[2.2.5 Process for calculating similarity between noun sets]
Processing for calculating the similarity between noun sets will be described below. Nouns are compared, and those with the same notation are calculated with a similarity of 1 as the maximum value. If there are other different notations, a comparison using a concept dictionary is performed. The procedure for comparing nouns using the concept dictionary is shown below. First, a concept identifier representing the concept of a noun is extracted from the Japanese word dictionary, and a semantic attribute list is obtained from the concept dictionary by using it. Next, based on the semantic attributes of both nouns, the relationship between the nouns is determined by “recognizing optional case elements by comparing similar sentences” [Reference: Shinohara et al., Information Processing Society of Japan, NL-139-14, pp101-108. ] Are classified into synonymous relations and similar relations.

図7は、本発明の実施形態に係る情報取得装置の名詞間の同義・類似関係図である。図7(a)は、同義関係を示す。また、図7(b)は類似関係を示す。この2つの関係に基づき、概念関係を利用した表記が異なる名詞間の類似度を求める。同義関係の類似度aと類似関係の類似度bはそれぞれ次式により求める。各式については、篠原らの名詞間の概念関係の式を採用する。また篠原らは、他に同一関係という概念識別子が同一であるという関係を定義しているが、EDR電子化辞書においてはかなり詳細に概念が定義されているので、同一関係というものは採用していない。
同義関係の類似度a
FIG. 7 is a synonym / similarity diagram between nouns of the information acquisition apparatus according to the embodiment of the present invention. FIG. 7A shows the synonymous relationship. FIG. 7B shows a similar relationship. Based on these two relationships, the similarity between nouns using different notations using the concept relationship is obtained. The similarity a of the synonymous relationship and the similarity b of the similar relationship are respectively obtained by the following equations. For each formula, Shinohara et al.'S formula for conceptual relationships between nouns is adopted. In addition, Shinohara et al. Define the relationship that the concept identifier of the same relationship is the same, but since the concept is defined in detail in the EDR electronic dictionary, the same relationship is adopted. Absent.
Similarity a

Figure 0004967133

n : 名詞nの意味属性数(n=1,2)
a : 重複する意味属性数
類似関係の類似度b
Figure 0004967133

A n : number of semantic attributes of noun n (n = 1, 2)
Da : Similarity b of the number of overlapping semantic attribute similarity relations b

Figure 0004967133
n : 名詞nの意味属性数
ni: 名詞nの意味属性iの上位概念数
ij:意味属性i,jの上位概念の重複数
求めた類似度a、bを使用し、次式により概念間の距離による名詞同士の類似度S1を求める。
概念間の距離による名詞同士の類似度S1
Figure 0004967133
N n : Number of semantic attributes of noun n N ni : Number of superordinate concepts of semantic attribute i of noun n D ij : Duplicate superordinate concepts of semantic attributes i and j Using the obtained similarities a and b, A similarity S 1 between nouns is calculated based on the distance between concepts.
Similarity between nouns based on the distance between concepts S 1

Figure 0004967133
以上より、単体の名詞間の類似度を求める。そして、以下にそれらを利用した動詞をキーとした名詞集合間の類似度の算出方法を述べる。
Figure 0004967133
From the above, the similarity between single nouns is obtained. A method for calculating the similarity between noun sets using verbs as keys is described below.

図8は、本発明の実施形態に係る情報取得装置の名詞集合間の類似度算出の例である。cabochaにより得られた係り受け情報から、動詞が含まれる文節に係る文節の中の名詞句を動詞をキーとした組として取り出す。図8中の名詞集合1と名詞集合3との類似度を算出する際には、記事1を主体と考えた場合に、名詞A と名詞F、G間で類似度が高い方を名詞A に対する類似した名詞とし、ここでは名詞Fとする。同様に名詞Bも名詞F、G間で類似度が高い方を名詞Bに対する類似した名詞とし、ここでは名詞Gとする。そして、主体側の名詞の数をn、名詞A と名詞Fの類似度をSAF 、名詞と名詞G の類似度をSBG した場合に、名詞集合間の類似度をS2 とすると、S2は以下のようになる。 FIG. 8 is an example of similarity calculation between noun sets of the information acquisition apparatus according to the embodiment of the present invention. From the dependency information obtained by cabocha, the noun phrase in the clause related to the clause containing the verb is extracted as a set using the verb as a key. When calculating the similarity between the noun set 1 and the noun set 3 in FIG. 8, when the article 1 is considered to be the subject, the one with the higher similarity between the noun A and the nouns F and G is assigned to the noun A 1. The nouns are similar, and here they are nouns F. Similarly, the noun B also has a higher similarity between the nouns F and G and is a noun similar to the noun B. When the number of nouns on the subject side is n, the similarity between the nouns A and F is S AF , and the similarity between the noun and the noun G is S BG , the similarity between the noun sets is S 2. 2 is as follows.

Figure 0004967133

同様に、名詞集合2と名詞集合3を比較し、集合間の類似度を求める。そこで名詞集合1と名詞集合3、名詞集合2と名詞集合3の類似度をそれぞれ比較し、値が高い方を動詞をキーとする名詞集合間の類似度とする。ここでは名詞集合1と名詞集合3の類似度S2 とする。
Figure 0004967133

Similarly, the noun set 2 and the noun set 3 are compared to determine the similarity between the sets. Therefore, the similarity between the noun set 1 and the noun set 3 and the noun set 2 and the noun set 3 are compared, and the higher one is set as the similarity between the noun sets using the verb as a key. Here, the similarity S 2 between the noun set 1 and the noun set 3 is assumed.

[2.2.6 名詞表記の一致]
前工程では名詞の概念間の距離を利用して最も類似度が高い動詞をキーとした名詞集合を各文で選んだ。ここでは、そこで選んだ名詞集合以外の文中の名詞単語中の表記が同じ名詞の割合を算出する。以下にその類似度S3 を示す。
表記の一致の割合によるS3
[2.2.6 Matching nouns]
In the previous process, using the distance between noun concepts, a noun set was selected for each sentence using the verb with the highest similarity as a key. Here, the ratio of nouns with the same notation in the noun word in the sentence other than the noun set selected there is calculated. The similarity S 3 is shown below.
S 3 by percentage of notation

Figure 0004967133
ij:文i と文j の動詞に係る文節以外の部分の名詞の内の一致した数
i: 文i中の動詞に係る文節以外の部分の名詞の数
j:文j中の動詞に係る文節以外の部分の名詞の数
Figure 0004967133
D ij : Number of matched nouns in the part other than the clause related to the verbs in sentence i and sentence j A i : Number of nouns in the part other than the phrase related to the verb in sentence i A j : Verb in sentence j Number of nouns in parts other than clauses related to

[2.2.7 類似度の算出]
文の類似度Sは前述のS2 とS3 により以下のようになる。
文の類似度S
[2.2.7 Calculation of similarity]
The sentence similarity S is as follows according to S 2 and S 3 described above.
Sentence similarity S

Figure 0004967133
Figure 0004967133

[2.2.8 文タイプによる選定]
より新聞記事の特色を利用した重複箇所の選定方法として、各文に新聞記事の特徴を考慮した文タイプを設定し、それに基づいた重複文・固有文・補足説明の選定を行う新しい手法を提案する。この手法により、新たに新聞記事特有の言い回し、表現というものを選定の指標として採り入れることが可能となる。
[2.2.8 Selection by sentence type]
Proposed a new method for selecting duplicated sentences, specific sentences, and supplementary explanations based on the sentence type that considers the characteristics of newspaper articles for each sentence as a method for selecting duplicated parts using the characteristics of newspaper articles. To do. With this method, it is possible to newly adopt words and expressions specific to newspaper articles as selection indexes.

[2.2.9 文タイプの種類]
また、各文タイプは従来の要約処理において定義されていた多くの文タイプの中から、新聞記事の特徴から要旨、予定、理由、分析、補足説明の5つの文タイプを、また「日本語のシンクタンスと意味2」[参考文献:寺村秀夫:くろしお出版]の記載による概言のムードと上記データ解析から様態・伝聞、比況・推量の2つの文タイプを本発明の実施の一例とする。以下に要旨、予定、理由、分析、補足説明の5つの文タイプと様態・伝聞、比況・推量の2つの文タイプの特徴、判断基準等について述べる。
[2.2.9 Types of sentence types]
In addition, each sentence type has five sentence types, including summary, schedule, reason, analysis, and supplementary explanation, from the characteristics of newspaper articles, among many sentence types defined in the conventional summary processing, “Synthance and Meaning 2” [Reference: Hideo Teramura: Kuroshio Publishing] is an example of the implementation of the present invention based on the general mood and the above data analysis. . The following is a description of the five sentence types of summary, schedule, reason, analysis, and supplementary explanation, as well as the features and judgment criteria of the two sentence types: mode / hearing, ratio / inference.

[2.2.10 文タイプ:要旨、予定、理由、分析、補足説明について]
要旨、予定、理由、分析、補足説明の5種類の文タイプについて、判断基準と特徴に付いて述べる。また判断基準に際し、断定的表現、日時を表す表現に関しては判断基準中においてはそれぞれ#[dantei],#[nitizi?](?=1or2or3)としている。断定的表現に関しては実験データ 記事を解析した結果以下のように設定する。なお、以下の判断基準の表記形式はrubyの正規表現の表現形式に準ずる。
[2.2.10 sentence type: summary, schedule, reason, analysis, supplementary explanation]
We will describe the criteria and characteristics of the five sentence types: abstract, schedule, reason, analysis, and supplementary explanation. In addition, regarding the judgment criteria, the assertive expression and the expression representing the date and time are # [dantei] and # [nitizi? ] (? = 1 or 2 or 3). The assertive expression is set as follows as a result of analyzing experimental data articles. It should be noted that the notation format of the following criteria is in accordance with the expression format of the regular regular expression.

Figure 0004967133
また、日時を表す表現については、時間を表す部分(nitizi1)と季節や日付を表す語句(nitizi2)、そしてそれらに付随する語(nitizi3)に大きく分けて設定する。
Figure 0004967133
The expression representing the date and time is roughly divided into a time part (nitizi1), a word and phrase (nitizi2) representing the season and date, and a word (nitizi3) associated therewith.

Figure 0004967133
Figure 0004967133

これらのうち時間を表す部分(nitizi1)と季節や日付を表す語句(nitizi2)は一般的に考えられるものと実験データ200記事から設定したものである。また、それらに付随する語(nitizi3)は実験データの解析と、「自然言語処理の基礎技術」[参考文献:野村浩郷,社団法人電子情報通信学会,pp246]に記載されている図7.7の格助詞総当語における時空関係群を参考に設定する。
要旨は新聞記事中で第一文としてある全体の要約が述べられていると考えられる文である。判断基準は記事中の第一文を要旨の文タイプとしている。
Of these, the part (nitizi1) representing time and the word (nitizi2) representing season and date are set based on 200 articles of experimental data as generally considered. In addition, the words (nitizi3) accompanying them are described in the analysis of experimental data and “Basic techniques of natural language processing” [reference: Hiromura Nomura, The Institute of Electronics, Information and Communication Engineers, pp246]. This is set with reference to the space-time relational group in the 7 case particles.
The abstract is a sentence that is thought to contain the entire summary as the first sentence in a newspaper article. Judgment criteria are the first sentence in the article as the summary sentence type.

予定はその文がこれから行われる出来事の日時等を述べられているなど、その文が出来事の予定を表す際につけられる文タイプである。判断基準は前述のトレーニングデータを人手で分類した結果から以下のようになっている。   The schedule is a sentence type attached when the sentence represents the schedule of the event, such as the date and time of the event that the sentence will be performed. Judgment criteria are as follows based on the result of manually classifying the above training data.

Figure 0004967133


理由はその文が理由を述べている場合に付けられる文タイプである。判断基準は前述のトレーニングデータを人手で分類した結果から以下のように作成する。
Figure 0004967133


The reason is the sentence type that is given when the sentence states the reason. Judgment criteria are created as follows from the result of manually classifying the above training data.

Figure 0004967133


分析はその文が記者の観点からみた出来事に対する分析、意見の場合につけられる文タイプである。判断基準は前述のトレーニングデータを人手で分類した結果から以下のように作成する。
Figure 0004967133


Analysis is a sentence type that is attached to the case where the sentence is analyzed from the viewpoint of the reporter. Judgment criteria are created as follows from the result of manually classifying the above training data.

Figure 0004967133
Figure 0004967133

補足説明はその文が記事の補足的な説明の場合に付けられる文タイプである。捕足説明には前述のトレーニングデータ記事を分析した結果、以下のような種類がある。
(1)記事における登場人物の素性の紹介
(2)記事内の出来事に関しての識者、関係者の話
(3)記事内容に対する捕足的説明(専門用語等)
補足説明の際には記事中においてその箇所に特殊な記号が記事中で使用されていることに着目した。そこで、その記号が出現した後の部分を捕足説明として文タイプを設定する。補足説明の判断に用いた特殊記号は、「○」、「<」、「>」、「*」、「◇」、「◆」である。
The supplementary explanation is a sentence type attached when the sentence is a supplementary explanation of the article. As a result of analyzing the aforementioned training data article, there are the following types of catching explanations.
(1) Introduction of the characters' characteristics in the article (2) Talk of experts and related parties about the events in the article (3) Additive explanation of the article content (technical terms, etc.)
In the supplementary explanation, we focused on the special symbols used in the article. Therefore, the sentence type is set with the portion after the symbol appears as the catching explanation. Special symbols used for determining the supplementary explanation are “◯”, “<”, “>”, “*”, “◇”, “◆”.

[2.2.11 文タイプ:様態・伝聞、比況・推量について]
後述の様態・伝聞、比況・推量という2つの文タイプについてその採用理由と判断基準について述べる。様態・伝聞は様態と伝聞が合わさった文タイプである。様態とは物の存在や行動のありさまを伝える文タイプである。また、伝聞とは直接にではなく人から伝え聞いているような文タイプである。判断基準を以下に示す。
[2.2.11 Sentence Type: Concerning Mode / Hearing, Ratio / Inference]
The reason for adoption and criteria for the two sentence types described below, such as mode / hearing and ratio / inference, will be described. The state / hearing is a sentence type that combines the state and hearing. A state is a sentence type that conveys the existence of objects and the state of behavior. In addition, hearing is a type of sentence that is heard and heard from a person, not directly. Judgment criteria are shown below.

Figure 0004967133
比況・推量は比況と推量が合わさった文タイプである。比況とは動作・状態などをほかのものにたとえて表すような文タイプである。また推量とはある根拠・理由や、確かな論理的要請などに基づいて、込み入った事情や人の心の中などをおしはかっているような文タイプである。判断基準を以下に示す。
Figure 0004967133
Ratio / estimation is a sentence type that combines ratio and estimation. The ratio is a sentence type that expresses actions / states to other things. Inference is a type of sentence that makes use of complicated circumstances and people's minds based on certain grounds / reasons and certain logical requests. Judgment criteria are shown below.

Figure 0004967133
Figure 0004967133

これら2つの文タイプは、前述の「日本語のシンクタンスと意味2」に記載された二次的ムードの助動詞中の概言のムードより抜粋する。前述の「日本語のシンクタンスと意味2」によると、現実のいろいろな場で、話し手が、コトを相手の前にもち出すもち出し方、態度を表す部分を「ムード」という構文要素としている。前述の「日本語のシンクタンスと意味2」の記載ではムードとして確言のムード、概言のムード、説明のムードをあげている。ここでは、その中で新聞記事の文タイプとして話し手のいろいろな主観を表すという点で有効と考えられる概言のムード中の様態・伝聞、比況・推量を文タイプとする。様態、伝聞、比況、推量は従来の文法書において「助動詞」という項目の中で、他の形式、たとえば、ナイ、(ラ)レル、(サ)セル、タイ、タなどと並んで個別的にその用法が記述されてきたものである。すなわち、動詞連用形、形容詞語幹につく「ラシイ」は「(根拠のある)推量」、「ヨウダ」は「伝聞」を表す、とされる。文法書によっては、「ヨウダ」あるいは伝聞の「ソウダ」も、形式体言に形式体言「ダ」がついたものとし、助動詞とは認めないものもある。また様態の「ソウダ」を、接尾語に「ダ」がついたものとする見方もある。寺村は、これらを、一定の統語的特徴と、一定の(最大公約数的な)意味を共有するものとして統合的に扱っている。少数の形式については、統語的特徴から外れるが、意味的な特徴から見て、この中に入れる。また、ふつうの文法書では助動詞としては扱われない「カモシレナイ」「カモワカラナイ」「ニチガイナイ」「トイウ」なども、もともと助詞や動詞や助動詞であったものが結びつき、その結びつきが強くなって、一語化したものと見て、前述の統語的、意味的特徴から、やはり概言の助動詞の中に含める。このような理由から概言のムードである様態・伝聞、比況・推量を文タイプの例とする。   These two sentence types are excerpted from the general mood in the secondary mood auxiliary verbs described in "Japanese Synthance and Meaning 2" above. According to the above-mentioned “Japanese Synthance and Meaning 2”, the syntactic element of “mood” is the part that expresses the attitude and attitude of the speaker to bring out the thing in front of the opponent in various realities. . In the above description of “Japanese Synthance and Meaning 2”, the mood of the positive statement, the mood of the general statement, and the mood of the explanation are given as the mood. Here, the sentence type is the state / hearing, ratio / inference in the mood of the outline that is considered to be effective in expressing various subjectivity of the speaker as the sentence type of the newspaper article. Aspects, hearings, ratios, and guesses are individually listed alongside other forms, such as Nai, (La) Lel, (Sa) Cell, Thailand, Ta, etc. Has been described in its usage. That is, "Lashii" attached to the verb conjunctive form and adjective stem represents "(foundation) guess" and "Yoda" represents "hearing". Depending on the grammar book, “Yoda” or “Soda” of hearsay shall have the formal word “da” attached to the formal word, and may not be recognized as an auxiliary verb. There is also a view that “soda” in the form is suffixed with “da”. Teramura treats these in an integrated manner as sharing certain syntactic features and certain (greatest common divisor) meanings. A few forms deviate from the syntactic features, but they are included in this view in terms of semantic features. In addition, “Kamoshirenai”, “Kamowa Karanai”, “Nichiganai”, “Toiu”, etc., which are not treated as auxiliary verbs in ordinary grammar books, are connected with the ones that were originally particles, verbs and auxiliary verbs. From the above syntactic and semantic features, it is also included in the outline auxiliary verb. For these reasons, the general mood, aspect, hearing, ratio and guess are examples of sentence types.

[2.2.12 文タイプの適用優先順位]
以上のように7種類の文タイプを設定したが、文によっては複数の文タイプを兼ねるものも多数存在する。その際に文タイプを設定する優先順位というものを考慮にいれる必要が出てくる。そこで、前述の実験データ200記事に対して文タイプの優先順位が未実装である装置を試作し、各文に対し文タイプを設定した結果を示す。図9は、本発明の実施形態に係る情報取得装置の文タイプごとの割合である。このうち、要旨は記事全体の要約であるという性質上、各文に一文程度設定されていると考えられるので、優先順位は最上位とする。また補足説明も補足的な説明を表すという性質上優先順位を最上位とする。それ以外の文タイプ(予定、理由、分析、様態・伝聞、比況・推量)を出現数が少ないものから優先する。結果、優先順位については以下のようになる。
「要旨=補足説明>比況・推量>理由>分析>予定>様態・伝聞」
[2.2.12 Sentence type application priority]
Although seven kinds of sentence types are set as described above, there are many sentences that also serve as a plurality of sentence types depending on the sentence. At that time, it is necessary to take into account the priority order for setting the sentence type. Therefore, the result of setting a sentence type for each sentence by making a prototype of an apparatus in which the sentence type priority order is not implemented for the above-described experimental data 200 articles is shown. FIG. 9 is a ratio for each sentence type of the information acquisition apparatus according to the embodiment of the present invention. Of these, since the abstract is a summary of the entire article, it is considered that about one sentence is set for each sentence, so the priority is the highest. In addition, the supplementary explanation also represents the supplementary explanation. Prioritize the other sentence types (schedule, reason, analysis, mode / hearing, ratio / inference) from those with the fewest occurrences. As a result, the priority order is as follows.
"Summary = Supplementary explanation> Ratio and guessing>Reason>Analysis>Schedule> Mode / hearing"

[2.2.13 文タイプによる重複文、固有文、補足説明の出力]
図10は、本発明の実施形態に係る情報取得装置の重複箇所,固有箇所、補足説明のカテゴリ分けである。文タイプによる重複箇所、固有箇所、補足説明の出力までの流れである。図10のように同じ文タイプがない場合には前の工程で算出した類似度を利用した重複文選定を行っている。また要旨、補足説明については先に述べた性質から前もって対象文タイプを抜き取る。
[2.2.13 Duplicate sentence, unique sentence, and supplementary explanation output by sentence type]
FIG. 10 is a categorization of overlapping parts, unique parts, and supplementary explanations of the information acquisition apparatus according to the embodiment of the present invention. This is the flow up to the output of duplicated parts, unique parts, and supplementary explanations by sentence type. When there is no same sentence type as shown in FIG. 10, duplicate sentence selection using the similarity calculated in the previous step is performed. In addition, for the summary and supplementary explanation, the target sentence type is extracted in advance from the properties described above.

[2.2.14 複数記事間の集約]
文タイプ選定部36から送られたデータは要約文作成部37又は記事集約部38に送られる。
[2.2.14 Aggregation between multiple articles]
The data sent from the sentence type selection unit 36 is sent to the summary sentence creation unit 37 or the article aggregation unit 38.

[2.2.14.1 2記事間の集約]
2記事間の集約は、1つめの記事の重複箇所、固有箇所の文章に、2つめの記事の固有箇所を合わせた文章を2記事の集約としている。これにより、2記事間で重複しているものや、補足的なものをカットした集約ができる。
[2.2.14.1 Aggregation between two articles]
Aggregation between two articles is an aggregation of two articles, which is a combination of the unique part of the second article and the duplicate part and unique part of the first article. As a result, it is possible to aggregate items that overlap between two articles or supplemental items.

[2.2.14.2 3記事間の集約]
3つの記事がある場合、2記事同士の集約を3つ作成する。3つの記事を記事A、記事B、記事Cとする。続報記事を分類するので、時系列順でみた初めの2記事A、Bを集約したものを基本とする。この集約と、記事B、Cを集約したものを1文づつ比較し、含まれていない文を集約として追加する。これにより、記事A、B、Cについての内容についての集約ができる。記事A、Cの集約において、C、の重複箇所と判断されたものが、もし集約に含まれていた場合、それを削除することによって、新しい集約とする。もちろん、この手法を応用することで、3つ以上の記事を一度に集約することもできる。
[2.2.14.2 Aggregation between three articles]
When there are three articles, three aggregates of two articles are created. Assume that three articles are article A, article B, and article C. Since the follow-up articles are classified, the first two articles A and B viewed in chronological order are basically collected. This aggregation and articles B and C are aggregated one by one, and sentences not included are added as aggregation. Thereby, the contents about the articles A, B, and C can be aggregated. In the aggregation of articles A and C, if an article that is determined to be an overlapping part of C is included in the aggregation, it is deleted to delete it, thereby creating a new aggregation. Of course, by applying this method, three or more articles can be aggregated at once.

[2.2.14.3 記事間の関連度を考慮に入れた集約]
上記の方法に、各記事間の関連度を考慮にいれて集約を行う。記事間の関連度は、各記事を1つのベクトルで表し、そのベクトルを比較して求める。検索を行う際に記事間の関連度を得るが、続報記事であるため、1つめの記事と2つめの記事、2つめの記事と3つ目の記事は繋がりがあっても、1つめの記事と3つめの記事の繋がりが弱い場合がある。記事同士の関連度が低い場合は、記事A、Cの比較を行わないようにすることで、無駄な処理をしなくて済む。
[2.2.14.3 Aggregation taking into account the degree of association between articles]
In the above method, aggregation is performed taking into consideration the degree of association between articles. The degree of association between articles is obtained by representing each article as one vector and comparing the vectors. Although the degree of relevance between articles is obtained when searching, since it is a follow-up article, the first article and the second article, the second article and the third article are connected, but the first article The connection between the article and the third article may be weak. When the degree of association between articles is low, the comparison of articles A and C is not performed, so that unnecessary processing is not required.

[3.動作]
ユーザは結果を見ながら記事の適合,非適合の選択、あるいはパラメータを修正することで記事の重要度の変更を行う。システムはそれをフィードバックとして得て、質問ベクトルの修正を行い、順位付けをして再びユーザに検索結果を返す。
図11は、本発明の実施形態に係る情報取得装置の続報記事検索のフローシートである。データが入力される(S100)。形態素解析部211が形態素解析により品詞分解し、名詞(普通、固有、サ変)のみを取り出す(S110)。ここで、形態素解析器茶筌を利用することもできる。TF計算部212が、各記事毎に単語とその単語の出現回数(tf)を記事データベースに登録し、TFを計算する(S120)。IDF計算部213が記事データベースに登録された全単語について文書頻度(df)及びそのIDFを計算する(S130)。単語重み計算部214が各記事の各単語についてTF−IDF法を用いて評価値を求め、単語重みを計算する(S140)。特徴ベクトル作成部215が評価値から各文書の特徴ベクトルを作成する(S150)。つまり、各記事はその記事に出現する全名詞のTF−IDF値を要素にもつベクトルである。情報間類似度計算部216が、全記事ベクトルの組み合わせについて類似度を計算する(S160)。類似度行列計算部217が類似度行列を計算する(S170)。固有ベクトル作成部218がその結果を数値解析プログラムOctaveに渡し、そのベクトルの最大固有値の固有ベクトルを求めることで各記事の参照重要度を計算する(S180)。質問ベクトル作成部219が質問ベクトルを作成する(S190)。検索順位決定部22が検索結果のための類似度計算により検索順位を決定する(S200)。ここで、ある記事Diのスコアは、ユーザからの質問ベクトルQとの類似度によるスコアsim(Di,Q)と固有ベクトルにより求められた重要度を掛け合わせることで求められる。
[3. Operation]
While viewing the results, the user changes the importance of the article by selecting whether the article is relevant or not, or by modifying parameters. The system gets it as feedback, corrects the question vector, ranks it, and returns the search results to the user again.
FIG. 11 is a follow-up article search flow sheet of the information acquisition apparatus according to the embodiment of the present invention. Data is input (S100). The morphological analysis unit 211 performs part-of-speech decomposition by morphological analysis, and extracts only nouns (normal, unique, and strange) (S110). Here, a morphological analyzer teacup can also be used. The TF calculation unit 212 registers the word and the number of appearances (tf) of the word for each article in the article database, and calculates the TF (S120). The IDF calculation unit 213 calculates the document frequency (df) and its IDF for all words registered in the article database (S130). The word weight calculation unit 214 calculates an evaluation value for each word of each article using the TF-IDF method, and calculates the word weight (S140). The feature vector creation unit 215 creates a feature vector of each document from the evaluation value (S150). That is, each article is a vector having TF-IDF values of all nouns appearing in the article as elements. The inter-information similarity calculation unit 216 calculates the similarity for all article vector combinations (S160). The similarity matrix calculation unit 217 calculates a similarity matrix (S170). The eigenvector creation unit 218 passes the result to the numerical analysis program Octave, and calculates the eigenvector of the maximum eigenvalue of the vector to calculate the reference importance of each article (S180). The question vector creation unit 219 creates a question vector (S190). The search order determination unit 22 determines the search order by calculating the similarity for the search result (S200). Here, the score of an article D i is obtained by multiplying the score sim (D i , Q) based on the similarity with the question vector Q from the user and the importance obtained from the eigenvector.

Figure 0004967133
μi:固有ベクトルにより求められた重要度
Figure 0004967133
μ i : Importance obtained from eigenvector

出力部40が順位付け決定部でスコアリングされた結果をユーザに開示する(S210)。ユーザは検索結果をフィードバックするために検索結果の適否を入力する(S220)。適合・非適合判定部23が検索結果は適合か否かを判定する(S230)。検索結果が適合でないと判定された場合に特徴及び質問ベクトルを修正する(S240)。検索が適合であると判定された場合に情報内容を統合する(S250)。なお、情報内容統合については以下に説示する。   The output unit 40 discloses the result of the scoring by the ranking determination unit to the user (S210). The user inputs appropriateness of the search result to feed back the search result (S220). The conformance / nonconformity determination unit 23 determines whether or not the search result is conformity (S230). If it is determined that the search result is not suitable, the feature and the question vector are corrected (S240). When it is determined that the search is appropriate, the information contents are integrated (S250). Information content integration will be explained below.

図12は、本発明の実施形態に係る情報取得装置の記事内容統合のフローシート(2)である。検索された記事が入力される(S251)。係り受け解析部31が文中に含まれる動詞に関する係り受けを利用するために係り受け解析を行う(S252)。名詞抽出部32が各文中の動詞を含む文節に係る文節中の名詞を抽出する(S253)。名詞集合間類似度比較計算部33が単体の名詞間の類似度S1を計算する(S254)。また、名詞集合間類似度比較計算部33が名詞集合間の類似度S2を計算する(S255)。名詞表示一致割合計算部34が名詞表示一致割合の類似度S3を計算する(S256)。文類似度計算部35が類似度S2及び類似度S3から文類似度Sを計算する(S257)。文タイプ選定部36が文タイプによる選定を行う(S258)。要約文作成部37が記事内容を要約する(S259)。記事集約部38が記事内容を集約する(S260)。ここで、記事内容は、要約されたかどうかに関わらず集約することができる。出力部40が内容統合記事の出力を行う(S261)。なお、検索結果及び内容統合記事及び出力の具体的な内容を以下に説示する。 FIG. 12 is a flow sheet (2) of article content integration of the information acquisition apparatus according to the embodiment of the present invention. The searched article is input (S251). The dependency analysis unit 31 performs dependency analysis in order to use the dependency related to the verb included in the sentence (S252). The noun extraction unit 32 extracts a noun in the phrase related to the phrase including the verb in each sentence (S253). The noun set similarity comparison calculation unit 33 calculates a similarity S 1 between single nouns (S254). Also, nouns collection Similarity comparison calculation unit 33 calculates the similarity S 2 between noun set (S255). The noun display match ratio calculation unit 34 calculates the similarity S 3 of the noun display match ratio (S256). The sentence similarity calculation unit 35 calculates the sentence similarity S from the similarity S 2 and the similarity S 3 (S257). The sentence type selection unit 36 selects a sentence type (S258). The summary sentence creation unit 37 summarizes the article content (S259). The article aggregating unit 38 aggregates article contents (S260). Here, article contents can be aggregated regardless of whether they are summarized. The output unit 40 outputs a content integrated article (S261). The search results, content integrated articles, and specific contents of the output will be explained below.

[4.可視化手法]
本発明の実施の形態に係る情報取得装置は、情報を分類する機能を用いて続報記事の情報をユーザに見やすいように整理し、その機能に応じたインターフェースを表示する。そこで、以下にその内容を詳説する。
図13は、本発明の実施形態に係る情報取得装置の実行図である。情報検索においてインタラクションを促進する関連技術として、情報の可視化は欠くことのできない存在である。可視化によって、システムが提示するデータを効率的にユーザに伝えることができるだけでなく、ユーザのより柔軟なデータへのアクセスが可能になる。Aは関連記事のタイトル表示、Bは記事内容の表示、Cはレーダーチャート、Dは各種コマンド、Eは記事間の関連表示である。
[4. Visualization method]
The information acquisition apparatus according to the embodiment of the present invention arranges information of follow-up articles so that the user can easily see using a function for classifying information, and displays an interface corresponding to the function. The details will be described below.
FIG. 13 is an execution diagram of the information acquisition apparatus according to the embodiment of the present invention. Information visualization is indispensable as a related technique for promoting interaction in information retrieval. Visualization not only allows the data presented by the system to be efficiently communicated to the user, but also allows the user more flexible access to the data. A is a related article title display, B is an article content display, C is a radar chart, D is various commands, and E is an association display between articles.

図14は、本発明の実施形態に係る情報取得装置の検索式拡張・質問ベクトル選定のためのインターフェースである。図14(a)は、図13のAの関連記事のタイトル表示であり、検索式拡張のためのインターフェースを示す。検索式拡張は、一旦検索した結果に対し利用者が適合文書であったか非適合文書であったかをフィードバックされた結果に基づいて検索式を拡張して、再度検索する。そのために利用者が検索された結果に対し、フィードバックを行うことができる。検索結果一覧表示をした画面に対して適合・非適合の入力を受け付けるように各々の記事の適合・非適合を選択可能とする。図14(a)に示すように、文書検索結果としてユーザ画面上には検索結果の記事のタイトルがリスト表示される。ユーザがボタンを押すと、図13のBの本文表示用領域に本文が表示され、確認しながら適合・非適合を選択することができる。   FIG. 14 is an interface for search expression expansion / question vector selection of the information acquisition apparatus according to the embodiment of the present invention. FIG. 14A is a title display of the related article in FIG. 13A and shows an interface for search expression expansion. In the search expression expansion, the search expression is expanded based on the result of feedback whether the user is a conforming document or a non-conforming document with respect to the result of the retrieval once, and the retrieval is performed again. Therefore, feedback can be performed on the result of the user search. It is possible to select the conformity / non-conformance of each article so that input of conformance / non-conformity is accepted on the screen displaying the search result list. As shown in FIG. 14A, a list of article titles as search results is displayed on the user screen as document search results. When the user presses the button, the text is displayed in the text display area in FIG. 13B, and it is possible to select conformity / non-conformity while confirming.

図14(b)に図13のCのレーダーチャートである質問ベクトル選定のためのインターフェースを示す。質問ベクトルの選定は質問ベクトルとその元となった記事ベクトルとの類似度をレーダーチャートで示すことで行う。レーダーチャートの中心に向かう程、質問ベクトルとの類似性が低く、逆に外側に向かう程、類似性が高くなるように配置している。このように表示することで、質問ベクトルを発散させている記事は凹型になってあらわれる。そういった記事を質問ベクトルから外す、もしくはレーダーチャートの頂点をマウスでドラッグしてその記事に対する重みを補正することで、クエリベクトルの洗練を行う。なお、関連関係と関連度の関連計算は、TF/IDF、ベクトル空間での類似度の判定、統計的手法による類似度の判定、PageRankによる記事の重要度の判定、などを総合して行う。それぞれの関連計算をコントロールするためのものがレーダーチャートである。スクリーンの広さの制約から、レーダーチャートは二つのみ表示されている。これらのレーダーチャートは、上記の判定計算のいずれにも入れ替えることができる。また、サイズを小さくして、前記の四つを表示することもできる。関連計算のコントロールは、総合判定のとき、TF/IDF、ベクトル空間での類似度の判定、統計的手法による類似度の判定、PageRankによる記事の重要度の判定でそれぞれの重み付けを変えたり、それぞれの関連計算においてそれらの計算要素の重み付けを変えたりするものである。これらのコントロールは、スクリーン上でマウスなどの入力手段を使って行う。レーダーチャートの軸は、TF/IDF、ベクトル空間での類似度の判定、統計的手法による類似度の判定、PageRankによる記事の重要度の判定計算の計算要素である。軸上の値が円周に近いほど「重みの値が大きく」その計算要素が重要視される。軸上の値が円の中心に近いほどその計算要素の重要度が小さくされる。総合判定に関するレーダーチャートもある。このときの軸は、TF/IDF、ベクトル空間での類似度の判定、統計的手法による類似度の判定、PageRankによる記事の重要度の判定計算である。軸上の値は、それぞれの重要度を制御するための重みである。以上のインターフェースを提供することで絞りこみ等を行うことができる。   FIG. 14B shows an interface for question vector selection, which is the radar chart of FIG. The question vector is selected by showing the similarity between the question vector and the original article vector using a radar chart. It is arranged so that the similarity to the question vector is lower as it goes to the center of the radar chart, and the similarity is higher as it goes outward. By displaying in this way, articles that diverge the question vector appear concave. The query vector is refined by removing such articles from the question vector or by dragging the vertex of the radar chart with the mouse to correct the weight for the article. The relational calculation of the relation and the degree of relation is performed by comprehensively determining the degree of similarity in TF / IDF, vector space, the degree of similarity by a statistical method, the degree of importance of an article by PageRank, and the like. The radar chart is used to control each related calculation. Due to screen size limitations, only two radar charts are displayed. These radar charts can be replaced with any of the above-described determination calculations. Also, the above four can be displayed with a reduced size. Relevant calculation control is TF / IDF, similarity determination in vector space, similarity determination by statistical method, page rank determination of importance of articles by changing the weighting when comprehensive determination, In the related calculation, the weights of those calculation elements are changed. These controls are performed using an input means such as a mouse on the screen. The axis of the radar chart is a calculation element for TF / IDF, determination of similarity in a vector space, determination of similarity by a statistical method, and calculation calculation of importance of an article by PageRank. The closer the value on the axis is to the circumference, the greater the value of the weight, and the more important the calculation element. The closer the value on the axis is to the center of the circle, the less important the calculation element is. There is also a radar chart for comprehensive judgment. The axes at this time are TF / IDF, determination of similarity in a vector space, determination of similarity using a statistical method, and determination calculation of importance of an article using PageRank. The value on the axis is a weight for controlling each importance. By providing the above interface, it is possible to perform narrowing down and the like.

図15は、本発明の実施形態に係る情報取得装置の検索結果表示、続報記事発見のためのインターフェースである。
図13のEには記事間の関連表示である検索結果をグラフィカルに表示する領域をそなえている。X軸に時間、Y軸に検索ベクトルに対するスコアをとり、その空間上に記事を表す点を配置している。また、記事を表す点をクリックすることで、その記事本文を図13のBの本文表示用領域に表示する。各記事からはその記事に対する関連性の強さに応じたリンクが結ばれている。各リンクの関連性の強さを線の太さや種類等で識別することができる。図15では関連性の強いものを実線で表し、関連性の弱いものを点線で表している。ここで、各リンクは強さに応じて色分けをすることもできる。また、ユーザの全体的な興味に対する指標をY軸の座標で、ユーザの局所的な興味に対する指標を記事間を結ぶリンクで表現しているため、例えば、ユーザはこの中から、できるだけY座標が大きく、また、現在見ている記事とのリンクが関連の強い色のリンクで結ばれた記事を読み進めることで、関連記事の中から続報性を持つ記事を発見することができる。
FIG. 15 is an interface for displaying a search result and finding a follow-up article in the information acquisition apparatus according to the embodiment of the present invention.
In FIG. 13E, there is an area for graphically displaying a search result which is a relation display between articles. Time is taken on the X-axis, the score for the search vector is taken on the Y-axis, and points representing articles are arranged in the space. Also, by clicking on a point representing an article, the article text is displayed in the text display area of B in FIG. Each article is linked to the strength of relevance to the article. The strength of relevance of each link can be identified by the thickness and type of the line. In FIG. 15, a strongly related item is indicated by a solid line, and a weakly related item is indicated by a dotted line. Here, each link can be color-coded according to strength. In addition, since the index for the user's overall interest is expressed by the Y-axis coordinates, and the index for the user's local interest is expressed by a link connecting the articles, for example, the user has Y coordinates as much as possible. By reading through articles that are large and linked to the currently viewed article with a link of a strong color, it is possible to discover articles with follow-up information from related articles.

なお、記事内容の時間的経緯を考慮することもできる。図13のスクリーンショットのグラフでは、新聞記事を例としているため、横軸が日付となっている。縦軸は、記事の重要度を示し、上部に表示されているほど重要度が高く、下部に表示されているほど重要度が低い。グラフ上の点は記事を表し、点と点を結ぶ線は「関連」があることを示している。点をクリックすると、記事内容が図13のBのウィンドに表示される。点と点を結ぶ線は実線は最も関連度が高いことを示し、点線は最も関連度が低いことを示す。なお、関連性が高い線を赤色に、関連性が低い線を黄色に着色することもできる。さらに、この線の彩色は、より顕示性を上げるために、赤色から青色へのスペクトル変化に対応させることもできる。   It is also possible to consider the time history of the article content. In the graph of the screen shot of FIG. 13, since a newspaper article is taken as an example, the horizontal axis is the date. The vertical axis indicates the importance of an article. The importance is higher as it is displayed at the top, and the importance is lower as it is displayed at the bottom. A point on the graph represents an article, and a line connecting the points indicates “related”. When the point is clicked, the article content is displayed in the window B in FIG. As for the line connecting the points, the solid line indicates the highest degree of association, and the dotted line indicates the lowest degree of association. Note that a highly relevant line can be colored red and a less relevant line can be colored yellow. Furthermore, the coloring of this line can be made to correspond to the spectral change from red to blue in order to increase the visibility.

図16(a)は本発明の実施形態に係る情報取得装置の複数の記事本文表示のためのインターフェース及び(b)新たに記事の本文を表示する場合の表示方法の図である。図13のBの記事本文表示領域には指定した複数の記事本文を同時に表示するためのインターフェースがある。ユーザが本文を表示したい記事を左クリックすると、複数の表示領域の中で、記事本文が表示されていない領域に指定した記事の本文が表示される。もしも3つの表示領域が埋まっていた場合、左側の領域を初期化しその後右側の領域の記事本文を表示する。そして指定した記事本文を右側の領域に表示する。   FIG. 16A is a diagram of an interface for displaying a plurality of article texts in the information acquisition apparatus according to the embodiment of the present invention, and (b) a display method when a new article text is displayed. In the article body display area of B in FIG. 13, there is an interface for simultaneously displaying a plurality of designated article bodies. When the user left-clicks on an article for which a text is to be displayed, the text of the specified article is displayed in an area in which the article text is not displayed among a plurality of display areas. If the three display areas are filled, the left area is initialized, and then the article text in the right area is displayed. The specified article text is displayed in the right area.

図17は、本発明の実施形態に係る情報取得装置の記事選択補助のための見出し表示領域である。Aによってリストアップされた複数の新聞記事について、図13のDには記事の見出しを表示する領域と複数の記事を比較したり、関連度を計算させたり、要約させたり、集約させたり、再検索させたり、要約または集約した状態から元の記事に戻したりるための各種コマンドのボタンを用意する。なお、図17では、一例として3つのウィンドの場合を示すが、ウィンドの数はいくつであってもよい。また、ユーザが記事を右クリックすると記事の見出しが表示される。これによって表示している記事の本文を変えずに見たい記事を探すことができる。   FIG. 17 is a headline display area for article selection assistance of the information acquisition apparatus according to the embodiment of the present invention. For a plurality of newspaper articles listed by A, D in FIG. 13 compares the area displaying the headline of the article with a plurality of articles, calculates relevance, summarizes, aggregates, Provide buttons for various commands to search and return to the original article from a summary or aggregated state. FIG. 17 shows an example of three windows, but any number of windows may be used. Also, when the user right-clicks on an article, the article headline is displayed. This makes it possible to search for an article to be viewed without changing the text of the displayed article.

図18は、本発明の実施形態に係る情報取得装置の記事を集約した結果を表示するインターフェースである。記事を集約する方法は、複数の記事同士を1つの文書とみなして、文章構文解析と要約文を作成する。文章構文解析では、意味段落を作成し、意味段落の連接関係を作成しながら、連接関係を崩さずに文章構成を再編し、意味段落の飛地構造解析も行う。文章構造解析された意味段落から、陳述形式による重要句を評価し、重み付けした句を抽出し、さらに、語の類似度を考慮した句の抽出を行い、語の補完を行うことで、集約した文章を作成する。なお、集約を行わず、各文書の要約のみを行い、必要ならば分類タグを付け、文書の分類整理に使うこともできる。分類タグは、例えば、TF/IDFの計算で得られた重要語から作成したり、ベクトル空間の計算のときのベクトルから作成したり、統計的手法による類似度計算に使った重みの値が高い重要要素から作成したりできる。   FIG. 18 is an interface that displays a result of collecting articles of the information acquisition apparatus according to the embodiment of the present invention. In the method of collecting articles, a plurality of articles are regarded as one document, and sentence syntax analysis and a summary sentence are created. In the sentence syntax analysis, semantic paragraphs are created, and the connection structure of semantic paragraphs is created, the sentence structure is reorganized without breaking the connection relations, and the flying structure analysis of the semantic paragraphs is also performed. Evaluate important phrases in the descriptive form from semantic paragraphs analyzed by sentence structure, extract weighted phrases, extract phrases that consider word similarity, and complete words to complete them Create a sentence. It is also possible to summarize only each document without aggregation and attach a classification tag if necessary, and use it for document classification. The classification tag is created from, for example, an important word obtained by calculation of TF / IDF, created from a vector at the time of vector space calculation, or has a high weight value used for similarity calculation by a statistical method. It can be created from important elements.

図19は、本発明の実施形態に係る情報取得装置の関連記事検索結果の一例である。Aの記事リストの一番上のものを指定して関連記事を検索したものである。二番目以下の記事が検索された関連記事のリストである。関連記事の検索開始時に指定するものは、記事でもよいし(Aの記事リストの一番上のもの)、自由に記述した文章でもよいし、キーワードの組み合わせでもよい。関連関係と関連度の計算は、下に述べるユーザ・コントロールが行われていないときは、システムのデフォルト値を使って行われる。Eには、記事間の関連関係と関連度のグラフが表示されている。Bには、Aで表示指定するか、またはEのグラフ内の点をクリックしたときに、それらの記事内容が表示される。Bのサブウィンドの数はいくつでもよい。スクリーンショットでは、3つのサブウィンドが表示されている。Bの上部に選択ボタンが示されているように、現在は、サブウィンドの数は、1つ、2つ、3つの3種類を選択できるようになっている。サブウィンドの数をさらに増やすと、サブウィンドが細い縦長になり、読みづらくなる。レーダーチャートは、デフォルト値が表示されている。   FIG. 19 is an example of a related article search result of the information acquisition apparatus according to the embodiment of the present invention. A related article is searched by designating the top of the article list of A. A list of related articles from which the second and following articles were searched. What is specified at the start of searching for related articles may be an article (the one at the top of the article list of A), a freely described sentence, or a combination of keywords. Relevance and relevance calculations are done using system defaults when the user controls described below are not in effect. In E, a graph of the relation between articles and the degree of relation is displayed. In B, when the display is designated by A or when a point in the graph of E is clicked, the contents of those articles are displayed. Any number of B sub-windows may be used. In the screenshot, three subwindows are displayed. As shown in the selection button at the top of B, at present, the number of sub-windows can be selected from one, two, and three. If the number of sub-windows is further increased, the sub-windows will become narrower and more difficult to read. The radar chart displays default values.

図20は、本発明の実施形態に係る情報取得装置の各記事を要約した一例である。Bの各記事を要約したものを表示している。関連関係と関連度を計算するとき、記事の長さが短いほうが計算速度が速くなるため、要約する。また、要約により記事の重要な情報に絞られているため、集約処理の品質がよくなる。   FIG. 20 is an example summarizing each article of the information acquisition apparatus according to the embodiment of the present invention. A summary of each article of B is displayed. When calculating the relationship and degree of relevance, the shorter the article length, the faster the calculation speed. In addition, since the summary is focused on important information of articles, the quality of the aggregation process is improved.

図21は、本発明の実施形態に係る情報取得装置の3つの要約文書を1つに集約した一例である。Bの3つの要約文書を1つの文書に集約したものを独立なウィンドに表示している。集約は、要約をしない記事についておこなうこともできる。   FIG. 21 is an example in which three summary documents of the information acquisition apparatus according to the embodiment of the present invention are integrated into one. A summary of the three B summary documents is displayed in an independent window. Aggregation can also be performed on articles that are not summarized.

図22は、本発明の実施形態に係る情報取得装置の集約結果の検討の一例である。集約文書をBの右端のウィンドに移し、集約結果を検討し、必要に応じて、真中や左端の記事を新しく選択し表示する。これらの記事について、関連関係と関連度を再計算し、その結果に基づいて再検索し、新しい関連関係と関連度をグラフ表示する。その結果として、Eのグラフが更新される。必要に応じて、このような操作を繰り返し、最終的な集約を得る。この集約が情報検索の結果である。すなわち、いわゆる情報検索の結果は、一つの文書として出力される。これは、現在の多くの情報検索システムがURLのリストを情報検索の出力としているのとはまったく異なるものである。   FIG. 22 is an example of examination of the aggregation result of the information acquisition apparatus according to the embodiment of the present invention. The consolidated document is moved to the rightmost window of B, the consolidated result is examined, and the middle and leftmost articles are newly selected and displayed as necessary. For these articles, recalculate the relationship and degree of association, search again based on the results, and display the new relationship and degree of association as a graph. As a result, the graph of E is updated. Repeat these operations as needed to get the final aggregation. This aggregation is the result of information retrieval. That is, the so-called information search result is output as one document. This is quite different from many current information retrieval systems that use a list of URLs as an output for information retrieval.

以上の前記実施形態により本発明を説明したが、本発明の技術的範囲は実施形態に記載の範囲には限定されず、これら各実施形態に多様な変更又は改良を加えることが可能である。そして、かような変更又は改良を加えた実施の形態も本発明の技術的範囲に含まれる。このことは、特許請求の範囲及び課題を解決する手段からも明らかなことである。   Although the present invention has been described with the above-described embodiments, the technical scope of the present invention is not limited to the scope described in the embodiments, and various modifications or improvements can be added to these embodiments. And embodiment which added such a change or improvement is also contained in the technical scope of the present invention. This is apparent from the claims and the means for solving the problems.

本発明の実施形態に係る情報取得装置のハードウェア構成図である。It is a hardware block diagram of the information acquisition apparatus which concerns on embodiment of this invention. 本発明の実施形態に係る情報取得装置のブロック構成図である。It is a block block diagram of the information acquisition apparatus which concerns on embodiment of this invention. 本発明の実施形態に係る情報取得装置の記事間の類似度による記事の重要度評価の説明図である。It is explanatory drawing of the importance evaluation of the article | item by the similarity between articles of the information acquisition apparatus which concerns on embodiment of this invention. 本発明の実施形態に係る情報取得装置の記事の重要度計算例である。It is an example of importance calculation of the article of the information acquisition device according to the embodiment of the present invention. 本発明の実施形態に係る情報取得装置の動詞を含む文節に係る文節中の名詞の抽出の例である。It is an example of the extraction of the noun in the clause which concerns on the clause containing the verb of the information acquisition apparatus which concerns on embodiment of this invention. 本発明の実施形態に係る情報取得装置のEDR辞書の構造図である。It is a structure figure of the EDR dictionary of the information acquisition device concerning the embodiment of the present invention. 本発明の実施形態に係る情報取得装置の名詞間の同義・類似関係図である。It is a synonym and similarity relationship figure between nouns of the information acquisition apparatus which concerns on embodiment of this invention. 本発明の実施形態に係る情報取得装置の名詞集合間の類似度算出の例である。It is an example of similarity calculation between noun sets of the information acquisition apparatus according to the embodiment of the present invention. 本発明の実施形態に係る情報取得装置の文タイプごとの割合である。It is the ratio for every sentence type of the information acquisition apparatus which concerns on embodiment of this invention. 本発明の実施形態に係る情報取得装置の重複箇所、固有箇所、補足説明のカテゴリ分けである。It is a categorization of the duplication location of the information acquisition apparatus which concerns on embodiment of this invention, a specific location, and supplementary explanation. 本発明の実施形態に係る情報取得装置の続報記事検索のフローシートである。It is a flow sheet of the follow-up article search of the information acquisition apparatus which concerns on embodiment of this invention. 本発明の実施形態に係る情報取得装置の記事内容統合のフローシートである。It is a flow sheet of article content integration of an information acquisition device concerning an embodiment of the present invention. 本発明の実施形態に係る情報取得装置の実行図である。It is an execution figure of the information acquisition device concerning the embodiment of the present invention. 本発明の実施形態に係る情報取得装置の検索式拡張・質問ベクトル選定のためのインターフェースである。It is an interface for search type expansion and question vector selection of the information acquisition apparatus according to the embodiment of the present invention. 本発明の実施形態に係る情報取得装置の検索結果表示、続報記事発見のためのインターフェースである。It is an interface for search result display and follow-up article discovery of the information acquisition device according to the embodiment of the present invention. 本発明の実施形態に係る情報取得装置の複数の記事本文表示のためのインターフェース及び新たに記事の本文を表示する場合の表示方法の図である。It is a figure of the display method in the case of displaying the interface for the some article text display of the information acquisition apparatus which concerns on embodiment of this invention, and the article text newly. 本発明の実施形態に係る情報取得装置の記事選択補助のための見出し表示領域である。It is a headline display area for article selection assistance of the information acquisition device according to the embodiment of the present invention. 本発明の実施形態に係る情報取得装置の記事を集約した結果を表示するインターフェースである。It is an interface which displays the result of having collected the articles of the information acquisition device concerning the embodiment of the present invention. 本発明の実施形態に係る情報取得装置の関連記事検索結果の一例である。It is an example of the related article search result of the information acquisition apparatus which concerns on embodiment of this invention. 本発明の実施形態に係る情報取得装置の各記事を要約した一例である。It is an example which summarized each article of the information acquisition apparatus which concerns on embodiment of this invention. 本発明の実施形態に係る情報取得装置の3つの要約文書を1つに集約した一例である。It is an example which consolidated the three summary documents of the information acquisition apparatus which concerns on embodiment of this invention into one. 本発明の実施形態に係る情報取得装置の集約結果の検討の一例である。It is an example of examination of the aggregation result of the information acquisition apparatus which concerns on embodiment of this invention.

符号の説明Explanation of symbols

1 コンピュータ
2 CPU
3 メインメモリ
4 HDD
5 ビデオカード
6 マウス
7 キーボード
8 光学ディスク
10 入力部
20 続報情報検索部
21 ベクトル作成部
22 検索順位決定部
23 適合・非適合判定部
30 情報内容統合部
31 係り受け解析部
32 名詞抽出部
33 名詞集合間類似度比較計算部
34 名詞表示一致割合計算部
35 文類似度計算部
36 文タイプ選定部
37 要約文作成部
38 記事集約部
40 出力部
211 形態素解析部
212 TF計算部
213 IDF計算部
214 単語重み計算部
215 特徴ベクトル作成部
216 情報間類似度計算部
217 類似度行列計算部
218 固有ベクトル作成部
219 質問ベクトル作成部
1 Computer 2 CPU
3 Main memory 4 HDD
5 Video Card 6 Mouse 7 Keyboard 8 Optical Disc 10 Input Unit 20 Follow-up Information Search Unit 21 Vector Creation Unit 22 Search Order Determination Unit 23 Conformity / Nonconformity Determination Unit 30 Information Content Integration Unit 31 Dependency Analysis Unit 32 Noun Extraction Unit 33 Noun Inter-set similarity comparison calculation unit 34 Noun display match ratio calculation unit 35 Sentence similarity calculation unit 36 Sentence type selection unit 37 Summary sentence creation unit 38 Article aggregation unit 40 Output unit 211 Morphological analysis unit 212 TF calculation unit 213 IDF calculation unit 214 Word weight calculator 215 Feature vector generator 216 Information similarity calculator 217 Similarity matrix calculator 218 Eigenvector generator 219 Question vector generator

Claims (4)

少なくとも1つの検索情報を取得している情報取得装置において、
重み付けされた検索情報の特徴ベクトルを作成する特徴ベクトル作成手段と、
全検索情報の特徴ベクトルの組み合わせの類似度を計算する情報間類似度計算手段と、
前記情報間類似度計算によって得られた数値の類似度行列を計算する類似度行列計算手段と、
前記類似度計算結果を数値解析し、特徴ベクトルの最大固有値の固有ベクトルを求める固有ベクトル作成手段と、
前記検索情報の問い合わせ内容の質問ベクトルを作成する質問ベクトル作成手段と、
前記特徴ベクトルと質問ベクトルの余弦の計算値に固有ベクトルの数値を乗じて求められる関連情報の検索順位を決定する検索順位決定手段と、
検索された情報の文中に含まれる品詞の係り受け関係を解析する係り受け解析手段と、
各文中の動詞を含む文節に係る文節中の名詞を抽出する名詞抽出手段と、
前記抽出された名詞の単体の名詞間の類似度S 1 及び名詞集合の類似度S 2 を計算する名詞集合間類似度比較計算手段と、
抽出された名詞の表示の一致する割合の類似度S 3 を計算する名詞表示一致割合計算手段と、
前記類似度S 2 に類似度S 3 を加えて文類似度Sを計算する文類似度計算手段と、
検索情報の文タイプによる選定を行う文タイプ選定手段と、
前記文類似度計算及び文タイプ選定された関連情報の内容を統合したもの、並びに、前記検索順位決定手段によりスコアリングされた検索結果を出力すると共に、前記検索結果の適否及び/又はパラメータの重み付けの度合いを入力するための入力フォームを出力する出力手段と、
前記入力フォームに入力された情報に基づいて、前記特徴ベクトル及び質問ベクトルを修正する修正手段とを備え、
前記検索順位決定手段が、前記修正手段にて修正された前記特徴ベクトル及び質問ベクトルに基づいて、再度前記関連情報の検索順位を決定し、前記出力手段が、前記検索順位決定手段によりスコアリングされた検索結果を、前記検索情報間の経時的な関連性を含めて出力することを特徴とする情報取得装置。
In an information acquisition device that acquires at least one search information,
Feature vector creating means for creating feature vectors of weighted search information;
An inter-information similarity calculating means for calculating the similarity of a combination of feature vectors of all search information;
Similarity matrix calculation means for calculating a numerical similarity matrix obtained by the similarity calculation between the information,
Eigenvector generating means for numerically analyzing the similarity calculation result and obtaining an eigenvector of the maximum eigenvalue of the feature vector;
Question vector creating means for creating a question vector of the inquiry content of the search information;
Search rank determining means for determining a search rank of related information obtained by multiplying a calculated value of the cosine of the feature vector and the query vector by a numerical value of an eigenvector;
Dependency analysis means for analyzing the dependency relationship of parts of speech included in the sentence of the retrieved information;
A noun extraction means for extracting a noun in a clause related to a clause including a verb in each sentence;
A noun set similarity comparison calculating means for calculating the similarity S 1 between the nouns of the extracted nouns and the similarity S 2 of the noun sets;
A noun display coincidence ratio calculating means for calculating the similarity S 3 of the proportion of the extracted noun display coincidence;
Sentence similarity calculating means for calculating the sentence similarity S by adding the similarity S 3 to the similarity S 2 ;
Sentence type selection means for selecting by search sentence sentence type,
The integrated contents of the related information selected by the sentence similarity calculation and the sentence type, and the search results scored by the search rank determining means are output, and the suitability of the search results and / or the parameter weighting Output means for outputting an input form for inputting the degree of
Correction means for correcting the feature vector and the question vector based on information input to the input form;
The search order determination means determines again the search order of the related information based on the feature vector and the question vector corrected by the correction means, and the output means is scored by the search order determination means. The information acquisition apparatus is characterized in that the search result is output including the temporal relationship between the search information .
前記請求項1に記載された情報取得装置において、
前記特徴ベクトル作成手段は、
検索情報の文の形態素解析を行う形態素解析手段と、
情報毎に単語とその単語の出現回数TFを計算するTF計算手段と、
全単語について文書頻度DF及びそのIDFを計算するIDF計算手段と、
各情報の各単語についてTF−IDF法を用いて単語重み付けを計算する単語重み計算手段と、
前記単語重み付けから各文書の特徴ベクトルを作成する特徴ベクトル作成手段とを備えることを特徴とする情報取得装置。
In the information acquisition device according to claim 1,
The feature vector creating means includes:
Morphological analysis means for performing morphological analysis of the sentence of the search information;
TF calculating means for calculating a word and the number of appearances TF of the word for each information;
IDF calculation means for calculating the document frequency DF and its IDF for all words;
A word weight calculation means for calculating a word weight for each word of each information using the TF-IDF method;
An information acquisition apparatus comprising: a feature vector creating unit that creates a feature vector of each document from the word weighting.
少なくとも1つの検索情報を取得している情報取得装置としてコンピュータを機能させる情報取得プログラムにおいて、
重み付けされた検索情報の特徴ベクトルを作成する特徴ベクトル作成手段、
全検索情報の特徴ベクトルの組み合わせの類似度を計算する情報間類似度計算手段、
前記情報間類似度計算によって得られた数値の類似度行列を計算する類似度行列計算手段、
前記類似度計算結果を数値解析し、特徴ベクトルの最大固有値の固有ベクトルを求める固有ベクトル作成手段、
前記検索情報の問い合わせ内容の質問ベクトルを作成する質問ベクトル作成手段、
前記特徴ベクトルと質問ベクトルの余弦の計算値に固有ベクトルの数値を乗じて求められる関連情報の検索順位を決定する検索順位決定手段、
検索された情報の文中に含まれる品詞の係り受け関係を解析する係り受け解析手段、
各文中の動詞を含む文節に係る文節中の名詞を抽出する名詞抽出手段、
前記抽出された名詞の単体の名詞間の類似度S 1 及び名詞集合の類似度S 2 を計算する名詞集合間類似度比較計算手段、
抽出された名詞の表示の一致する割合の類似度S 3 を計算する名詞表示一致割合計算手段、
前記類似度S 2 に類似度S 3 を加えて文類似度Sを計算する文類似度計算手段、
検索情報の文タイプによる選定を行う文タイプ選定手段、
前記文類似度計算及び文タイプ選定された関連情報の内容を統合したもの、並びに、前記検索順位決定手段によりスコアリングされた検索結果を出力すると共に、前記検索結果の適否及び/又はパラメータの重み付けの度合いを入力するための入力フォームを出力する出力手段、
前記入力フォームに入力された情報に基づいて、前記特徴ベクトル及び質問ベクトルを修正する修正手段としてコンピュータを機能させ、
前記検索順位決定手段が、前記修正手段にて修正された前記特徴ベクトル及び質問ベクトルに基づいて、再度前記関連情報の検索順位を決定し、前記出力手段が、前記検索順位決定手段によりスコアリングされた検索結果を、前記検索情報間の経時的な関連性を含めて出力することを特徴とする情報取得プログラム。
In an information acquisition program that causes a computer to function as an information acquisition device that acquires at least one search information,
Feature vector creation means for creating feature vectors of weighted search information;
Information similarity calculation means for calculating the similarity of combinations of feature vectors of all search information;
Similarity matrix calculation means for calculating a numerical similarity matrix obtained by the similarity calculation between the information,
A numerical analysis of the similarity calculation result to obtain an eigenvector of a maximum eigenvalue of a feature vector;
A question vector creating means for creating a question vector of the inquiry content of the search information;
A search order determination means for determining a search order of related information obtained by multiplying the calculated value of the cosine of the feature vector and the query vector by a numerical value of an eigenvector;
Dependency analysis means for analyzing the dependency relationship of parts of speech included in the sentence of the retrieved information,
A noun extraction means for extracting a noun in a clause related to a clause including a verb in each sentence;
Means for calculating similarity between noun sets for calculating similarity S 1 between nouns of the extracted nouns and similarity S 2 of noun sets;
A noun display coincidence ratio calculating means for calculating the similarity S 3 of the ratio of matching of the extracted noun displays;
Sentence similarity calculating means for calculating sentence similarity S by adding similarity S 3 to similarity S 2 ;
Sentence type selection means for selecting by search sentence sentence type,
The integrated contents of the related information selected by the sentence similarity calculation and the sentence type, and the search results scored by the search rank determining means are output, and the suitability of the search results and / or the parameter weighting Output means for outputting an input form for inputting the degree of
Based on the information entered in the input form, causing the computer to function as correction means for correcting the feature vector and the question vector,
The search order determination means determines again the search order of the related information based on the feature vector and the question vector corrected by the correction means, and the output means is scored by the search order determination means. An information acquisition program that outputs a search result including a temporal relationship between the search information .
少なくとも1つの検索情報を取得している情報取得装置のコンピュータが
重み付けされた検索情報の特徴ベクトルを作成する特徴ベクトル作成ステップと、
全検索情報の特徴ベクトルの組み合わせの類似度を計算する情報間類似度計算ステップと、
前記情報間類似度計算によって得られた数値の類似度行列を計算する類似度行列計算ステップと、
前記類似度計算結果を数値解析し、特徴ベクトルの最大固有値の固有ベクトルを求める固有ベクトル作成ステップと、
前記検索情報の問い合わせ内容の質問ベクトルを作成する質問ベクトル作成ステップと、
前記特徴ベクトルと質問ベクトルの余弦の計算値に固有ベクトルの数値を乗じて求められる関連情報の検索順位を決定する検索順位決定ステップと、
検索された情報の文中に含まれる品詞の係り受け関係を解析する係り受け解析ステップと、
各文中の動詞を含む文節に係る文節中の名詞を抽出する名詞抽出ステップと、
前記抽出された名詞の単体の名詞間の類似度S 1 及び名詞集合の類似度S 2 を計算する名詞集合間類似度比較計算ステップと、
抽出された名詞の表示の一致する割合の類似度S 3 を計算する名詞表示一致割合計算ステップと、
前記類似度S 2 に類似度S 3 を加えて文類似度Sを計算する文類似度計算ステップと、
検索情報の文タイプによる選定を行う文タイプ選定ステップと、
前記文類似度計算及び文タイプ選定された関連情報の内容を統合したもの、並びに、前記検索順位決定手段によりスコアリングされた検索結果を出力すると共に、前記検索結果の適否及び/又はパラメータの重み付けの度合いを入力するための入力フォームを出力する出力ステップと、
前記入力フォームに入力された情報に基づいて、前記特徴ベクトル及び質問ベクトルを修正する修正ステップとを実行し、
前記検索順位決定ステップが、前記修正手段にて修正された前記特徴ベクトル及び質問ベクトルに基づいて、再度前記関連情報の検索順位を決定し、前記出力ステップが、前記検索順位決定手段によりスコアリングされた検索結果を、前記検索情報間の経時的な関連性を含めて出力することを特徴とする情報取得方法。
A computer of an information acquisition device acquiring at least one search information,
A feature vector creating step for creating a feature vector of weighted search information;
A similarity calculation step between information for calculating the similarity of a combination of feature vectors of all search information;
A similarity matrix calculation step of calculating a numerical similarity matrix obtained by the similarity calculation between the information;
A numerical analysis of the similarity calculation result to obtain an eigenvector of the maximum eigenvalue of the feature vector;
A question vector creating step of creating a question vector of the inquiry content of the search information;
A search order determination step for determining a search order of related information obtained by multiplying the calculated value of the cosine of the feature vector and the query vector by a numerical value of an eigenvector;
A dependency analysis step for analyzing the dependency relationship of parts of speech included in the sentence of the retrieved information;
A noun extraction step for extracting a noun in a clause related to a clause including a verb in each sentence;
A noun-set similarity comparison calculation step of calculating the similarity S 1 between single nouns of the extracted nouns and the similarity S 2 of noun sets;
A noun display coincidence ratio calculation step of calculating a similarity S 3 of the ratio of coincidence of the extracted noun displays;
A sentence similarity calculation step of calculating the sentence similarity S by adding the similarity S 3 to the similarity S 2 ;
A sentence type selection step for selecting by search sentence sentence type;
The integrated contents of the related information selected by the sentence similarity calculation and the sentence type, and the search results scored by the search rank determining means are output, and the suitability of the search results and / or the parameter weighting An output step for outputting an input form for inputting the degree of
Executing a correction step of correcting the feature vector and the question vector based on information input to the input form;
The search order determining step determines again the search order of the related information based on the feature vector and the question vector corrected by the correcting means, and the output step is scored by the search order determining means. And a search result including a temporal relationship between the search information is output .
JP2007085469A 2007-03-28 2007-03-28 Information acquisition apparatus, program and method thereof Active JP4967133B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007085469A JP4967133B2 (en) 2007-03-28 2007-03-28 Information acquisition apparatus, program and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007085469A JP4967133B2 (en) 2007-03-28 2007-03-28 Information acquisition apparatus, program and method thereof

Publications (2)

Publication Number Publication Date
JP2008243024A JP2008243024A (en) 2008-10-09
JP4967133B2 true JP4967133B2 (en) 2012-07-04

Family

ID=39914253

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007085469A Active JP4967133B2 (en) 2007-03-28 2007-03-28 Information acquisition apparatus, program and method thereof

Country Status (1)

Country Link
JP (1) JP4967133B2 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5533272B2 (en) * 2010-05-28 2014-06-25 日本電気株式会社 Data output device, data output method, and data output program
JP6537340B2 (en) * 2015-04-28 2019-07-03 ヤフー株式会社 Summary generation device, summary generation method, and summary generation program
CN110020189A (en) * 2018-06-29 2019-07-16 武汉掌游科技有限公司 A kind of article recommended method based on Chinese Similarity measures
JP7474459B2 (en) * 2019-04-16 2024-04-25 株式会社ユニバーサルエンターテインメント Information provision system and information provision method
CN110990437A (en) * 2019-12-05 2020-04-10 大众问问(北京)信息科技有限公司 Data fusion method and device and computer equipment
CN112559691B (en) * 2020-12-22 2023-11-14 珠海格力电器股份有限公司 Semantic similarity determining method and device and electronic equipment
CN115186660B (en) * 2022-07-07 2023-05-05 东航技术应用研发中心有限公司 Aviation safety report analysis and evaluation method based on text similarity model

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10134066A (en) * 1996-10-29 1998-05-22 Matsushita Electric Ind Co Ltd Sentence summarizing up device
JP4003468B2 (en) * 2002-02-05 2007-11-07 株式会社日立製作所 Method and apparatus for retrieving similar data by relevance feedback
JP2004185515A (en) * 2002-12-05 2004-07-02 Ricoh Co Ltd Text data evaluating device, and method, program and recording medium thereof
JP2005327225A (en) * 2004-05-12 2005-11-24 Asuya Eto System, method, and program for document management, and program recording medium

Also Published As

Publication number Publication date
JP2008243024A (en) 2008-10-09

Similar Documents

Publication Publication Date Title
US6442540B2 (en) Information retrieval apparatus and information retrieval method
JP4241934B2 (en) Text processing and retrieval system and method
US6772148B2 (en) Classification of information sources using graphic structures
EP2315135B1 (en) Document search system
JP3577819B2 (en) Information search apparatus and information search method
EP2410445A1 (en) A method for creating a dynamic relationship
JP4967133B2 (en) Information acquisition apparatus, program and method thereof
JP2005526317A (en) Method and system for automatically searching a concept hierarchy from a document corpus
JPH0424869A (en) Document processing system
Husain Critical concepts and techniques for information retrieval system
Brook Wu et al. Finding nuggets in documents: A machine learning approach
CN110688559A (en) Retrieval method and device
JP3652086B2 (en) Speed reading support device
Abi Chahine et al. Context and keyword extraction in plain text using a graph representation
JP2000105769A (en) Document display method
Elmenshawy et al. Automatic arabic text summarization (AATS): A survey
Wang et al. A graphic reputation analysis system for mining Japanese weblog based on both unstructured and structured information
Ababneh et al. An efficient framework of utilizing the latent semantic analysis in text extraction
Chaabene et al. Semantic annotation for the “on demand graphical representation” of variable data in Web documents
JP4085568B2 (en) Text mining method, text mining apparatus, and computer-readable storage medium
JP3088805B2 (en) Document management device
JP3444223B2 (en) Database registration device
Ericson et al. Tracing Class and Capital in Critical AI Research
Yee Retrieving semantically relevant documents using Latent Semantic Indexing
Araya Interactive query formulation and feedback experiments in information retrieval

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090925

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111101

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120306

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150