JP2011181109A - Information retrieval support program, computer having information retrieval support function, server computer and program storage medium - Google Patents
Information retrieval support program, computer having information retrieval support function, server computer and program storage medium Download PDFInfo
- Publication number
- JP2011181109A JP2011181109A JP2011130257A JP2011130257A JP2011181109A JP 2011181109 A JP2011181109 A JP 2011181109A JP 2011130257 A JP2011130257 A JP 2011130257A JP 2011130257 A JP2011130257 A JP 2011130257A JP 2011181109 A JP2011181109 A JP 2011181109A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- sentence
- keyword
- word
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
この発明は、形態素解析技術を応用し、利用者が、電子データとして取得可能な文書から検索エンジンや辞書データベースなどの各種データベースに照会する検索キーワードを自動抽出したり、インターネット上や文書データベースに存在する文書情報を検索したりする際の作業を支援する機能を有するコンピュータ、コンピュータにインストールされてこれらの機能を実現させるためのプログラム、および当該プログラムの格納媒体に関する。 This invention applies morphological analysis technology, and automatically extracts search keywords for users to query various databases such as search engines and dictionary databases from documents that can be acquired as electronic data, or exists on the Internet or in document databases The present invention relates to a computer having a function for supporting work when searching for document information to be performed, a program installed in the computer to realize these functions, and a storage medium for the program.
パーソナルコンピュータなどの汎用コンピュータとインターネットなどの情報通信ネットワークの利用普及により、多くの文書がコンピュータのディスプレイで閲覧されるようになった。そして、利用者が閲覧中の文書をより深く理解しようと思えば、その文書に含まれている語を検索キーワードとして、インターネット上の周知の検索エンジンや辞典/事典サイト、あるいはコンピュータの外部記憶や適宜なネットワーク上にあるデータベースに与えることで、その語に関連する情報やその語の語意を瞬時に取得することができるようになった。 With the widespread use of general-purpose computers such as personal computers and information communication networks such as the Internet, many documents have been viewed on the computer display. And if the user wants to understand the document they are browsing more deeply, the words contained in the document can be used as search keywords, using well-known search engines, dictionaries / encyclopedia sites on the Internet, By giving it to a database on an appropriate network, information related to the word and the meaning of the word can be acquired instantly.
ここで、具体例として、検索エンジンに検索キーワードを与える事例を挙げると、利用者がコンピュータに実装されている文書作成ソフトウエアなどによりディスプレイに表示されている文書を閲覧しているとき、同じコンピュータに実装されているブラウザを起動し、当該コンピュータを検索サイトと呼ばれるWebサイトにアクセスさせる。 Here, as a specific example, a case where a search keyword is given to a search engine is given. When a user is browsing a document displayed on a display by using document creation software installed on the computer, the same computer is used. A browser installed in is started, and the computer is made to access a Web site called a search site.
検索サイトを実現するコンピュータシステムは、WWWサーバーと検索エンジンとにより構成され、WWWサーバーは、ブラウザとのインタフェースとして、アクセスしてきた利用者のコンピュータのブラウザに情報検索サービスの窓口となるWebページ(検索窓口ページ)を返送する。 A computer system that realizes a search site includes a WWW server and a search engine. The WWW server serves as an interface with the browser, and a web page (search) serving as a window for an information search service in the browser of the accessing user's computer. Return the contact page).
利用者が文書中の適宜な語を検索キーワードとして、前記窓口のWebページに配置されている検索キーワード入力欄に、例えば、周知の「コピー・アンド・ペースト」により転記するなどして入力する。そして、同じWebページにある検索実行ボタンをマウスでクリックすると、ブラウザは検索キーワードをWWWサーバーに送付する。 A user inputs an appropriate word in the document as a search keyword by, for example, transferring it to a search keyword input field arranged on the Web page of the window by, for example, well-known “copy and paste”. When the search execution button on the same Web page is clicked with the mouse, the browser sends the search keyword to the WWW server.
WWWサーバーは、ブラウザから送付されてきた検索キーワードを検索エンジンに与える。検索エンジンは、インターネット上にある膨大な情報について、その内容や所在など、利用者が最終的に入手したい情報への手がかりとなる情報(レコード)を、付帯するデータベースに蓄積・管理しており、WWWサーバーを介して受け付けた検索キーワードをデータベースに照会し、該当するレコードをWWWサーバーに返す。WWWサーバーは、検索結果として、検索エンジンから受け取ったレコードの一覧をWebページに作成してブラウザに返送する。利用者は、検索結果一覧中に注目すべきレコードを見出したならば、そのレコードに設定されているハイパーリンクを指示する。ブラウザは、そのレコードの起源となったWebページなどの情報を取り寄せて閲覧可能にして表示する。 The WWW server gives the search keyword sent from the browser to the search engine. Search engines store and manage information (records), which are clues to information that users ultimately want to obtain, such as the contents and location of vast information on the Internet, in an accompanying database. The search keyword received via the WWW server is referred to the database, and the corresponding record is returned to the WWW server. As a search result, the WWW server creates a list of records received from the search engine on a Web page and returns it to the browser. When the user finds a noteworthy record in the search result list, the user designates a hyperlink set in the record. The browser obtains and displays information such as the Web page that originated from the record.
このようにして利用者は、文書を閲覧しながら、文書中の語に関連する情報を入手し、文書の内容について理解を深めたり、文書に関連する多種多様な情報を入手したりすることができる。 In this way, users can obtain information related to the words in the document while browsing the document, deepen their understanding of the contents of the document, and obtain a wide variety of information related to the document. it can.
上記具体例では、コンピュータにて閲覧中の文書に含まれる語を検索キーワードとして検索エンジンに与える場合、(i)ブラウザを起動し、(ii)検索窓口ページを取り寄せ、(iii)検索窓口ページのキーワード入力欄に文書中の語を記入し、(iv)記入した検索キーワードの送付を指示する、という一連の作業を行う必要があり、コンピュータの操作に不慣れな人にとっては、この作業は面倒である。 In the above specific example, when a word included in a document being viewed on a computer is given to a search engine as a search keyword, (i) the browser is started, (ii) a search window page is obtained, and (iii) the search window page For those who are unfamiliar with computer operations, it is necessary to perform a series of tasks such as entering the words in the document in the keyword input field and (iv) instructing the sending of the entered search keywords. is there.
確かに、文書に含まれている単語の記載箇所にその単語を検索エンジンに与えるためのハイパーリンクを自動で設定することも考えられるが、日本語などの言語で書かれた文書は、英語などで書かれた文書のようにスペース(空白)により単語毎に分かち書きされていない。しかも、単語には様々な品詞があり、検索キーワードとしては意味をなさない助詞なども含まれてしまう。また、分かち書きされていない文書には品詞が異なる単語が連続して記述される。例えば、文書中にある「美味しい食事」という文字列は、形容詞の「美味しい」と名詞の「食事」の2つの単語に分解することができる。しかし、利用者が目的とする情報を入手するためには、「美味しい」と「食事」の2語によるアンド検索を実行するよりも、実は「美味しい」の単語だけ、あるいは文節「美味しい食事」によって検索した方が適切であるかもしれない。このように、検索キーワードを適切に選択することは、コンピュータ操作に不慣れな人はもちろん、情報検索技術に精通していない人にとって、極めて難しい。 Certainly, it may be possible to automatically set a hyperlink to give the word to the search engine at the place where the word is included in the document, but the document written in a language such as Japanese is English. Like a document written in, it is not separated into words by spaces. Moreover, there are various parts of speech in words, and particles that do not make sense as search keywords are also included. In addition, words with different parts of speech are described consecutively in a document that is not divided. For example, the character string “delicious meal” in the document can be broken down into two words: the adjective “delicious” and the noun “meal”. However, in order to obtain the target information, the user actually uses only the word “delicious” or the phrase “delicious meal” rather than performing an AND search with two words “delicious” and “meal”. It may be more appropriate to search. As described above, it is extremely difficult to appropriately select a search keyword not only for those who are not familiar with computer operation but also for those who are not familiar with information search technology.
また、ハイパーリンクを指示することで情報を検索する手順自体にも問題がある。たとえば、上記具体例のように、ハイパーリンクを指示してレコードの起源となった情報を取得したとしても、その情報が必ずしも利用者に取って有用な情報であるとは限らない。すなわち、ハイパーリンクを指示して実際にリンク先ページを閲覧しなければならず、情報検索に多大な時間と手間が掛かる。 There is also a problem with the procedure itself for retrieving information by indicating a hyperlink. For example, as in the specific example described above, even if information that is the origin of a record is obtained by instructing a hyperlink, the information is not necessarily useful information for the user. That is, it is necessary to instruct a hyperlink and actually browse the linked page, which takes a lot of time and labor for information retrieval.
本発明の目的は、分かち書きされない言語で記載されている文書中から検索キーワードとして適切な語を抽出し、その語に基づいて情報検索を実行して検索結果を利用者に提示したり、ハイパーリンクを辿りながら情報を取得する際の時間や労力を削減したりして利用者の情報検索作業を支援する機能を有するコンピュータを提供することにある。また、コンピュータにインストールされて当該コンピュータに上記情報検索支援機能を実現させるための情報検索支援プログラムと、そのプログラム格納媒体を提供することも目的としている。 An object of the present invention is to extract an appropriate word as a search keyword from a document described in a non-separated language, perform an information search based on the word, and present a search result to a user, or a hyperlink It is an object of the present invention to provide a computer having a function for supporting a user's information search operation by reducing time and labor when acquiring information while tracing the information. Another object of the present invention is to provide an information search support program that is installed in a computer and causes the computer to realize the information search support function, and a program storage medium thereof.
上記目的を達成するための第1の発明は、コンピュータにインストールされるプログラムであって、当該コンピュータに、
取得した文書の任意の文字記載位置を指示するユーザ入力を受け付け、当該文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文字列の記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定ステップと、
前記キーワード抽出範囲の文字列を処理対象として形態素解析し、単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、前記処理対象の文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識ステップと、
文字列単位を指定するユーザ入力に従って、前記処理対象の文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定ステップと、
所定のユーザ入力を受け付けて、設定した前記検索キーワードを所定のデータベースに照会し、当該データベースから返送されてきた照会結果を表示出力するキーワード照会ステップと、
を実行させる情報検索支援プログラムである。
A first invention for achieving the above object is a program installed in a computer, the computer comprising:
Accepts user input indicating any character description position of the acquired document, extracts characters before and after the character at the character description position in character string units based on punctuation marks or reading marks, and describes the extracted character string A keyword extraction range setting step for setting a location as a keyword extraction range;
Morphological analysis of the character string of the keyword extraction range as a processing target, decomposed in units of words, and for each decomposed word, morpheme analysis step that associates and manages each part of speech and usage as grammatical information;
A character string unit recognition step for recognizing each character string unit of a word, a phrase, and a sentence from the character string to be processed based on the grammatical information;
In accordance with user input designating a character string unit, a keyword setting step for classifying the character string to be processed for each designated character string unit, and setting a character string described by the divided character string unit as a search keyword;
A keyword inquiry step of accepting a predetermined user input, inquiring the set search keyword to a predetermined database, and displaying and outputting an inquiry result returned from the database;
Is an information retrieval support program for executing
また、第2の発明は、第1の発明に記載の情報検索支援プログラムにおいて、前記キーワード抽出範囲設定ステップでは、所定のユーザ入力を所定時間以内に連続して受け付けた回数に応じてキーワード抽出範囲の文字列範囲を設定することとした。 According to a second aspect of the present invention, in the information search support program according to the first aspect, in the keyword extraction range setting step, the keyword extraction range is set according to the number of times a predetermined user input is continuously received within a predetermined time. It was decided to set the character string range.
第3の発明は、コンピュータにインストールされるプログラムであって、当該コンピュータに、
処理対象として取得した文書を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、文書中で連続する文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識ステップと、
前記文書をユーザ入力により指定された文字列単位ごとに区分し、当該区分した文字列単位の記載箇所をリンク対象箇所として識別可能にして表示するリンク対象設定ステップと、
前記リンク対象箇所に含まれる文字列を検索キーワードに設定するキーワード設定ステップと、
前記リンク対象箇所に前記検索キーワードを所定のデータベースに照会する旨のハイパーリンクを設定するリンク設定ステップと、
ユーザ入力により、あるリンク対象箇所に設定されたハイパーリンクが指示されると、当該ハイパーリンクに基づいて前記所定のデータベースから返送されてきた照会結果を表示出力する照会結果提示ステップと、
を実行させる情報検索支援プログラムとしている。
A third invention is a program installed in a computer, and the computer includes
A morphological analysis step for analyzing a morphological analysis of a document acquired as a processing target and disassembling it into word units, and associating and managing each part of speech and usage as grammatical information for each decomposed word;
A character string unit recognition step for recognizing each character string unit of a word, a phrase, and a sentence from a continuous character string in a document based on the grammatical information;
A link target setting step of classifying the document into character string units designated by user input, and displaying the segmented character string unit so that it can be identified as a link target location;
A keyword setting step of setting a character string included in the link target portion as a search keyword;
A link setting step for setting a hyperlink indicating that the search keyword is referred to a predetermined database in the link target portion;
When a hyperlink set in a certain link target location is instructed by user input, a query result presentation step for displaying and outputting a query result returned from the predetermined database based on the hyperlink;
This is an information retrieval support program that executes
第4の発明は、第3の発明において、前記文書を構文解析して文を抽出し、当該文における係り受け関係を取得して管理する構文解析ステップを含み、
前記リンク対象設定ステップでは、前記文において、前後の文節が係り受けの関係にある場合、当該係り受け関係にある文節を連結した文字列の記載箇所をリンク対象箇所に設定し、
前記キーワード設定ステップでは、前記文において、ユーザ入力により指定された係り受け関係にある文字列を検索キーワードに設定する情報検索支援プログラムとしている。
A fourth invention includes a syntax analysis step in the third invention, wherein the document is parsed to extract a sentence, and a dependency relationship in the sentence is acquired and managed.
In the link target setting step, in the sentence, when the preceding and following clauses are in a dependency relationship, the description location of the character string connecting the clauses in the dependency relationship is set as the link target location,
In the keyword setting step, an information search support program for setting a character string having a dependency relation designated by a user input in the sentence as a search keyword.
第1〜第4の発明のいずれかにおいて、前記キーワード設定ステップでは、用言類については終止形に変換して得た文字列を検索キーワードに設定する情報検索支援プログラムを第5の発明とした。 In any one of the first to fourth inventions, in the keyword setting step, an information search support program that sets a character string obtained by converting a prescriptive word into a final form as a search keyword is a fifth invention. .
第6の発明は、第1〜第5の発明のいずれかにおいて、文書に含まれる各単語の出現頻度を求める単語別出現頻度取得ステップと、ユーザ入力により出現頻度が高い順に所定数の単語を検索キーワードにして、データベースに照会する重要語照会ステップとを含む情報検索支援プログラムとしている。 According to a sixth invention, in any one of the first to fifth inventions, a word-specific appearance frequency obtaining step for obtaining an appearance frequency of each word included in the document, and a predetermined number of words in descending order of appearance frequency by user input. The information retrieval support program includes a keyword query step for querying a database as a search keyword.
第7の発明は、第1〜第5の発明のいずれかにおいて、ユーザ入力により、特定の品詞を前記検索キーワードに設定するキーワード品詞設定ステップを含む情報検索支援プログラムである。 A seventh invention is an information search support program including a keyword part-of-speech setting step for setting a specific part-of-speech as the search keyword by a user input in any one of the first to fifth inventions.
第1〜第7の発明のいずれかにおいて、前記キーワード設定ステップでは、連続する名詞によって構成される文字列を複合名詞とし、当該複合名詞を一つの検索キーワードとして設定する情報検索支援プログラムを第8の発明とした。 In any one of the first to seventh inventions, in the keyword setting step, an information search support program for setting a composite noun as a character string composed of consecutive nouns and setting the composite noun as one search keyword is It was set as the invention.
第9の発明は、第8の発明において、前記キーワード設定ステップでは、ユーザ入力により指定された数で名詞を連続させて前記複合名詞を設定する情報検索支援プログラムとした。 A ninth invention is the information search support program according to the eighth invention, wherein, in the keyword setting step, the compound nouns are set by continuing the nouns in a number designated by a user input.
本発明は、取得した文書から所定のデータベースに照会すべき検索キーワードを抽出する際の情報検索支援機能を有するコンピュータにも及んでいる。そして、第10の発明は、サーバー・クライアント・システムにおけるクライアント・コンピュータであって、
取得した文書の表示手段と、
形態素解析処理を実行するサーバー・コンピュータとの通信手段と、
所定のユーザ入力により、文字列単位の指定と、表示中の文書における任意の文字記載位置の指示とを受け付け、当該指示された文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文字列の記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定手段と、
指定された前記文字列単位と、前記キーワード抽出範囲の文字列と、指示された前記文字記載位置とを含む解析依頼電文を、前記サーバー・コンピュータに送付する解析依頼電文送付手段と、
前記解析依頼電文を受け取った前記サーバー・コンピュータから検索キーワードを含む電文が返送されてくると、当該検索キーワードを所定のデータベースに照会して、その照会結果を表示出力する検索結果提示手段とを備えている。
The present invention extends to a computer having an information search support function for extracting a search keyword to be referred to a predetermined database from an acquired document. The tenth invention is a client computer in a server-client system,
Means for displaying the acquired document;
Means for communicating with a server computer for executing morphological analysis processing;
Based on a predetermined user input, it accepts designation of a character string unit and an instruction of an arbitrary character description position in the displayed document, and the characters before and after the character at the indicated character description position are based on a punctuation mark or a punctuation mark A keyword extraction range setting means for extracting a character string unit and setting a description location of the extracted character string as a keyword extraction range;
An analysis request message sending means for sending an analysis request message including the designated character string unit, the character string of the keyword extraction range, and the designated character description position to the server computer;
When a message containing a search keyword is returned from the server computer that has received the analysis request message, search result presenting means for querying the search keyword to a predetermined database and displaying the query result is provided. ing.
また、サーバー・クライアント・システムにおけるクライアント・コンピュータであって、
取得した文書の表示手段と、
形態素解析処理を実行するサーバー・コンピュータとの通信手段と、
所定のユーザ入力により、文字列単位の指定と、表示中の文書における任意の文字記載位置の指示とを受け付け、当該指示された文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文字列の記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定手段と、
指定された前記文字列単位と、前記キーワード抽出範囲の文字列と、指示された前記文字記載位置とを含む解析依頼電文を、前記サーバー・コンピュータに送付する解析依頼電文送付手段と、
前記解析依頼電文を受け取った前記サーバー・コンピュータから返送されてくる検索キーワード照会結果を表示出力する検索結果提示手段と、
を備えたコンピュータを第11の発明とした。
A client computer in a server client system,
Means for displaying the acquired document;
Means for communicating with a server computer for executing morphological analysis processing;
Based on a predetermined user input, it accepts designation of a character string unit and an instruction of an arbitrary character description position in the displayed document, and the characters before and after the character at the indicated character description position are based on a punctuation mark or a punctuation mark A keyword extraction range setting means for extracting a character string unit and setting a description location of the extracted character string as a keyword extraction range;
An analysis request message sending means for sending an analysis request message including the designated character string unit, the character string of the keyword extraction range, and the designated character description position to the server computer;
Search result presentation means for displaying and outputting a search keyword query result returned from the server computer that has received the analysis request message;
The computer having the above is defined as an eleventh invention.
第12の発明は、第10または第11の発明において、前記キーワード抽出範囲設定手段は、所定のユーザ入力を所定時間以内に連続して受け付けた回数に応じてキーワード抽出範囲の文字列範囲を設定するコンピュータである。 In a twelfth aspect based on the tenth or eleventh aspect, the keyword extraction range setting means sets a character string range of the keyword extraction range according to the number of times a predetermined user input is continuously received within a predetermined time. Computer.
第13の発明は、第10の発明に記載のコンピュータをクライアント・コンピュータとして通信するサーバー・コンピュータであって、
当該クライアント・コンピュータから送付されてきた解析依頼電文に含まれる文字列を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析手段と、
前記文法情報に基づいて、前記文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識手段と、
前記解析依頼電文に含まれる文字列単位の指定情報に従って、前記文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定手段と、
前記検索キーワードを含むとともに、当該キーワードを所定のデータベースに照会させる旨の指示を含んだキーワード照会電文を前記クライアント・コンピュータに返送する検索キーワード照会電文送付手段と、を備えている。
A thirteenth invention is a server computer that communicates the computer according to the tenth invention as a client computer,
The character string contained in the analysis request message sent from the client computer is morphologically analyzed and decomposed into word units, and for each decomposed word, each part of speech and usage form are associated with each other as grammatical information and managed. Morphological analysis means to perform,
Character string unit recognition means for recognizing each character string unit of words, phrases, and sentences from the character string based on the grammatical information;
Keyword setting means for dividing the character string into designated character string units according to the designation information in character string units included in the analysis request message, and setting a character string described by the divided character string units as a search keyword When,
Search keyword inquiry message sending means for returning to the client computer a keyword inquiry message including the search keyword and an instruction for making the keyword inquired of a predetermined database.
第14の発明は、第11の発明に記載のコンピュータをクライアント・コンピュータとして通信するサーバー・コンピュータであって、
当該クライアント・コンピュータから送付されてきた解析依頼電文に含まれる文字列を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析手段と、
前記文法情報に基づいて、前記文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識手段と、
前記解析依頼電文に含まれる文字列単位の指定情報に従って、前記文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定手段と、
前記検索キーワードを所定のデータベースに照会して、その照会結果を前記クライアント・コンピュータに返送する照会結果返送手段と、を備えている。
14th invention is a server computer which communicates the computer as described in 11th invention as a client computer,
The character string contained in the analysis request message sent from the client computer is morphologically analyzed and decomposed into word units, and for each decomposed word, each part of speech and usage form are associated with each other as grammatical information and managed. Morphological analysis means to perform,
Character string unit recognition means for recognizing each character string unit of words, phrases, and sentences from the character string based on the grammatical information;
Keyword setting means for dividing the character string into designated character string units according to the designation information in character string units included in the analysis request message, and setting a character string described by the divided character string units as a search keyword When,
Inquiry result returning means for inquiring the search keyword into a predetermined database and returning the inquiry result to the client computer.
第15の発明は、取得した文書の表示機能と、形態素解析処理を実行するサーバー・コンピュータとの通信機能とを備えたコンピュータにインストールされ、当該コンピュータに、
所定のユーザ入力により、文字列単位の指定と、表示中の文書における任意の文字記載位置の指示とを受け付け、当該指示された文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文の文字列記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定ステップと、
指定された前記文字列単位と、前記キーワード抽出範囲の文字列と、指示された前記文字記載位置とを含む解析依頼電文を、前記サーバー・コンピュータに送付する解析依頼電文送付ステップと、
前記解析依頼電文を受け取った前記サーバー・コンピュータから検索キーワードを含む電文が返送されてくると、当該検索キーワードを所定のデータベースに照会して、その照会結果を表示出力する検索結果提示ステップと、
を実行させる情報検索支援プログラムとしている。
A fifteenth aspect of the invention is installed in a computer having a display function of an acquired document and a communication function with a server computer that executes a morphological analysis process.
Based on a predetermined user input, it accepts designation of a character string unit and an instruction of an arbitrary character description position in the displayed document, and the characters before and after the character at the indicated character description position are based on a punctuation mark or a punctuation mark A keyword extraction range setting step for extracting a character string unit and setting a character string description portion of the extracted sentence as a keyword extraction range;
An analysis request message sending step for sending an analysis request message including the designated character string unit, the character string of the keyword extraction range, and the designated character description position to the server computer;
When a message including a search keyword is returned from the server computer that has received the analysis request message, a search result presenting step for inquiring the search keyword to a predetermined database and displaying the inquiry result;
This is an information retrieval support program that executes
第16の発明は、取得した文書の表示機能と、形態素解析処理を実行するサーバー・コンピュータとの通信機能とを備えたコンピュータにインストールされ、当該コンピュータに、
所定のユーザ入力により、文字列単位の指定と、表示中の文書における任意の文字記載位置の指示とを受け付け、当該指示された文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文の文字列記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定ステップと、
指定された前記文字列単位と、前記キーワード抽出範囲の文字列と、指示された前記文字記載位置とを含む解析依頼電文を、前記サーバー・コンピュータに送付する解析依頼電文送付ステップと、
前記解析依頼電文を受け取った前記サーバー・コンピュータから返送されてくる検索キーワード照会結果を表示出力する検索結果提示ステップと、
を実行させる情報検索支援プログラムとした。
A sixteenth aspect of the invention is installed in a computer having a display function of an acquired document and a communication function with a server computer that executes a morphological analysis process.
Based on a predetermined user input, it accepts designation of a character string unit and an instruction of an arbitrary character description position in the displayed document, and the characters before and after the character at the indicated character description position are based on a punctuation mark or a punctuation mark A keyword extraction range setting step for extracting a character string unit and setting a character string description portion of the extracted sentence as a keyword extraction range;
An analysis request message sending step for sending an analysis request message including the designated character string unit, the character string of the keyword extraction range, and the designated character description position to the server computer;
A search result presentation step of displaying and outputting a search keyword query result returned from the server computer that has received the analysis request message;
The information retrieval support program is executed.
第15または第16の発明において、前記キーワード抽出範囲設定ステップでは、所定のユーザ入力を所定時間以内に連続して受け付けた回数に応じてキーワード抽出範囲の文字列範囲を設定する情報検索支援プログラムを第17の発明とした。 In the fifteenth or sixteenth invention, an information search support program for setting a character string range of a keyword extraction range according to the number of times a predetermined user input is continuously received within a predetermined time in the keyword extraction range setting step The seventeenth invention is provided.
第18の発明は、ネットワークを介してアクセスしてきたクライアント・コンピュータと通信可能なサーバー・コンピュータにインストールされ、当該サーバー・コンピュータに、
クライアント・コンピュータから送付されてきた解析依頼電文に含まれる文字列を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、前記文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識ステップと、
前記解析依頼電文に含まれる文字列単位の指定情報に従って、前記文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定ステップと、
前記検索キーワードを含むとともに、当該キーワードを所定のデータベースに照会させる旨の指示を含んだキーワード照会電文を前記クライアント・コンピュータに返送する検索キーワード照会電文送付ステップと、
を実行させる情報検索支援プログラムである。
An eighteenth aspect of the invention is installed in a server computer that can communicate with a client computer accessed via a network, and the server computer includes:
The character string included in the analysis request message sent from the client computer is morphologically analyzed and decomposed into word units, and the parts of speech and usage forms of each decomposed word are managed in association with grammatical information. A morphological analysis step;
Based on the grammatical information, from the character string, a character string unit recognition step for recognizing each character string unit of a word, a clause, and a sentence;
Keyword setting step of dividing the character string into designated character string units according to the designation information in character string units included in the analysis request message, and setting a character string described by the divided character string units as a search keyword When,
A search keyword inquiry message sending step that includes the search keyword and returns a keyword inquiry message including an instruction to make the keyword inquired to a predetermined database to the client computer;
Is an information retrieval support program for executing
第19の発明は、ネットワークを介してアクセスしてきたクライアント・コンピュータと通信可能なサーバー・コンピュータにインストールされ、当該サーバー・コンピュータに、
クライアント・コンピュータから送付されてきた解析依頼電文に含まれる文字列を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、前記文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識ステップと、
前記解析依頼電文に含まれる文字列単位の指定情報に従って、前記文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定ステップと、
前記検索キーワードを所定のデータベースに照会して、その照会結果を前記クライアント・コンピュータに返送する照会結果返送ステップと
を実行させる情報検索支援プログラムとしている。
The nineteenth invention is installed in a server computer capable of communicating with a client computer accessed via a network, and the server computer includes:
The character string included in the analysis request message sent from the client computer is morphologically analyzed and decomposed into word units, and the parts of speech and usage forms of each decomposed word are managed in association with grammatical information. A morphological analysis step;
Based on the grammatical information, from the character string, a character string unit recognition step for recognizing each character string unit of a word, a clause, and a sentence;
Keyword setting step of dividing the character string into designated character string units according to the designation information in character string units included in the analysis request message, and setting a character string described by the divided character string units as a search keyword When,
An information search support program for executing a query result returning step of querying the search keyword to a predetermined database and returning the query result to the client computer.
第20の発明は、ブラウザを実装したコンピュータにインストールされ、当該コンピュータに、
ブラウザが取得したWebページに設定されている別のWebページへのハイパーリンクの表示位置を指示するユーザ入力を受け付けて、当該別のWebページの記載内容を要約文にして表示出力する処理を実行させる情報検索支援プログラムであって、
前記、別のWebページに含まれる文書を利用者に向けて表示出力せずに取得するリンク先文書取得ステップと、
当該取得した文書において、句点や読点、あるいは改行に基づく文字列単位を文として認識するとともに、当該認識した文について、所定数以上の文字を含む文を解析対象文として特定する解析対象文特定ステップと、
当該特定した解析対象文を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、全ての前記解析対象文に含まれる所定の品詞の単語を計数対象単語として抽出するとともに、各計数対象単語の出現回数を取得する単語出現回数取得ステップと、
各計数対象単語の出現回数を単語別ポイントとするとともに、一つの解析対象文に含まれる計数対象単語のそれぞれの単語別ポイントの合計値をその文の評価値として、各解析対象文の評価値を取得する評価値取得ステップと、
最も高い評価値に該当する解析対象文を要約文として抽出する要約文抽出ステップと、
要約文抽出ステップにより抽出した要約文をブラウザが取得したWebページの文書とは別の表示領域に表示出力する要約文表示ステップと
を実行させる情報検索支援プログラムである。
The twentieth invention is installed in a computer equipped with a browser, and
Accepts user input indicating the display position of a hyperlink to another web page set in the web page acquired by the browser, and executes a process of displaying and outputting the description content of the other web page as a summary sentence An information retrieval support program that
A linked document acquisition step of acquiring a document included in another Web page without displaying and outputting the document to a user;
An analysis target sentence specifying step for recognizing a character string unit based on a punctuation mark, a punctuation mark, or a line break as a sentence in the acquired document, and specifying a sentence including a predetermined number of characters or more as an analysis target sentence for the recognized sentence When,
Morphological analysis of the identified sentence to be analyzed and decomposed into units of words, and for each decomposed word, a morphological analysis step of managing the corresponding part of speech and usage as grammatical information,
Based on the grammatical information, extracting words of a predetermined part of speech included in all the analysis target sentences as counting target words, and a word appearance number acquiring step of acquiring the number of appearances of each counting target word;
The number of occurrences of each count target word is used as a point for each word, and the total value of each point for each count target word included in one analysis target sentence is used as the evaluation value for that sentence. An evaluation value acquisition step for acquiring
A summary sentence extraction step for extracting an analysis target sentence corresponding to the highest evaluation value as a summary sentence;
The information retrieval support program executes a summary sentence display step of displaying and outputting the summary sentence extracted in the summary sentence extraction step in a display area different from the Web page document acquired by the browser.
第21の発明は、ネットワークを介してアクセスしてきたブラウザと通信可能なサーバー・コンピュータにインストールされ、当該サーバー・コンピュータに、
ブラウザから送付されてきたURLに従ってWebページを取得するとともに、当該Webページに含まれる文書において、句点や読点、あるいは改行に基づく文字列単位を文として認識し、当該認識した文について、所定数以上の文字を含む文を解析対象文として特定する解析対象文特定ステップと、
当該特定した解析対象文を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、全ての前記解析対象文に含まれる所定の品詞の単語を計数対象単語として抽出するとともに、各計数対象単語の出現回数を取得する単語出現回数取得ステップと、
各計数対象単語の出現回数を単語別ポイントとするとともに、一つの解析対象文に含まれる計数対象単語のそれぞれの単語別ポイントの合計値をその文の評価値として、各解析対象文の評価値を取得する評価値取得ステップと、
最も高い評価値に該当する解析対象文を要約文として抽出する要約文抽出ステップと、
要約文抽出ステップにより抽出した要約文を前記ブラウザに返送する要約文返送ステップと、
を実行させる情報検索支援プログラムとした。
The twenty-first invention is installed in a server computer capable of communicating with a browser accessed via a network, and the server computer includes:
Acquires a Web page according to the URL sent from the browser, recognizes a character string unit based on a punctuation mark, a punctuation mark, or a line break in a document included in the Web page as a sentence. An analysis target sentence specifying step for specifying a sentence including the character as an analysis target sentence;
Morphological analysis of the identified sentence to be analyzed and decomposed into units of words, and for each decomposed word, a morphological analysis step of managing the corresponding part of speech and usage as grammatical information,
Based on the grammatical information, extracting words of a predetermined part of speech included in all the analysis target sentences as counting target words, and a word appearance number acquiring step of acquiring the number of appearances of each counting target word;
The number of occurrences of each count target word is used as a point for each word, and the total value of each point for each count target word included in one analysis target sentence is used as the evaluation value for that sentence. An evaluation value acquisition step for acquiring
A summary sentence extraction step for extracting an analysis target sentence corresponding to the highest evaluation value as a summary sentence;
A summary sentence returning step of returning the summary sentence extracted by the summary sentence extracting step to the browser;
The information retrieval support program is executed.
第22の発明は、ブラウザを実装し、当該ブラウザが取得したWebページに設定されている別のWebページへのハイパーリンクの表示位置を指示するユーザ入力を受け付けて、当該別のWebページの記載内容を要約文にして表示出力するコンピュータであって、
前記、別のWebページに含まれる文書を利用者に向けて表示出力せずに取得するリンク先文書取得手段と、
当該取得した文書において、句点や読点、あるいは改行に基づく文字列単位を文として認識するとともに、当該認識した文について、所定数以上の文字を含む文を解析対象文として特定する解析対象文特定手段と、
当該特定した解析対象文を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析手段と、
前記文法情報に基づいて、全ての前記解析対象文に含まれる所定の品詞の単語を計数対象単語として抽出するとともに、各計数対象単語の出現回数を取得する単語出現回数取得手段と、
各計数対象単語の出現回数を単語別ポイントとするとともに、一つの解析対象文に含まれる計数対象単語のそれぞれの単語別ポイントの合計値をその文の評価値として、各解析対象文の評価値を取得する評価値取得手段と、
最も高い評価値に該当する解析対象文を要約文として抽出する要約文抽出手段と、
要約文抽出手段が抽出した要約文をブラウザが取得したWebページの文書とは別の表示領域に表示出力する要約文表示手段と、
を備えている。
According to a twenty-second aspect of the present invention, a browser is installed, a user input indicating a display position of a hyperlink to another Web page set in the Web page acquired by the browser is received, and the description of the other Web page is described. A computer that displays and outputs the contents as a summary sentence,
A linked document acquisition means for acquiring a document contained in another Web page without displaying and outputting it to a user;
In the acquired document, a character string unit based on a punctuation mark, a punctuation mark, or a line feed is recognized as a sentence, and a sentence including a predetermined number of characters or more is identified as an analysis target sentence for the recognized sentence. When,
Morphological analysis of the identified sentence to be analyzed and decomposed into units of words, and for each decomposed word, morphological analysis means that associates and manages each part of speech and usage as grammatical information,
Based on the grammatical information, the word appearance frequency acquisition means for extracting words of a predetermined part of speech included in all the analysis target sentences as counting target words and acquiring the number of appearances of each counting target word;
The number of occurrences of each count target word is used as a point for each word, and the total value of each point for each count target word included in one analysis target sentence is used as the evaluation value for that sentence. Evaluation value acquisition means for acquiring
Summary sentence extraction means for extracting the analysis target sentence corresponding to the highest evaluation value as a summary sentence;
Summary text display means for displaying and outputting the summary text extracted by the summary text extraction means in a display area different from the document of the Web page acquired by the browser;
It has.
第23の発明は、サーバー・クライアント・システムにおけるサーバー・コンピュータであって、
ネットワークを介してアクセスしてきたブラウザと通信する手段と、
ブラウザから送付されてきたURLに従ってWebページを取得するとともに、当該Webページに含まれる文書において、句点や読点、あるいは改行に基づく文字列単位を文として認識し、当該認識した文について、所定数以上の文字を含む文を解析対象文として特定する解析対象文特定手段と、
当該特定した解析対象文を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析手段と、
前記文法情報に基づいて、全ての前記解析対象文に含まれる所定の品詞の単語を計数対象単語として抽出するとともに、各計数対象単語の出現回数を取得する単語出現回数取得手段と、
各計数対象単語の出現回数を単語別ポイントとするとともに、一つの解析対象文に含まれる計数対象単語のそれぞれの単語別ポイントの合計値をその文の評価値として、各解析対象文の評価値を取得する評価値取得手段と、
最も高い評価値に該当する解析対象文を要約文として抽出する要約文抽出手段と、
要約文抽出手段が抽出した要約文を前記ブラウザに返送する要約文返送手段と、
を備えている。
A twenty-third invention is a server computer in a server-client system,
Means for communicating with a browser accessed over a network;
Acquires a Web page according to the URL sent from the browser, recognizes a character string unit based on a punctuation mark, a punctuation mark, or a line break in a document included in the Web page as a sentence. An analysis target sentence specifying means for specifying a sentence including a character as an analysis target sentence,
Morphological analysis of the identified sentence to be analyzed and decomposed into units of words, and for each decomposed word, morphological analysis means that associates and manages each part of speech and usage as grammatical information,
Based on the grammatical information, the word appearance frequency acquisition means for extracting words of a predetermined part of speech included in all the analysis target sentences as counting target words and acquiring the number of appearances of each counting target word;
The number of occurrences of each count target word is used as a point for each word, and the total value of each point for each count target word included in one analysis target sentence is used as the evaluation value for that sentence. Evaluation value acquisition means for acquiring
Summary sentence extraction means for extracting the analysis target sentence corresponding to the highest evaluation value as a summary sentence;
Summary sentence return means for returning the summary sentence extracted by the summary sentence extraction means to the browser;
It has.
なお本発明は、上記いずれかの発明に記載の情報検索支援プログラムを記憶したプログラム格納媒体にも及んでおり、このプログラム格納媒体を第24の発明としている。 The present invention extends to a program storage medium storing the information search support program described in any of the above inventions, and this program storage medium is the twenty-fourth invention.
本発明の情報検索支援プログラム、および情報検索支援機能を有するコンピュータによれば、分かち書きされない言語で記載されている文書中から検索キーワードとして適切な語を抽出するとともに、その語に基づいて情報検索を実行して検索結果を利用者に提示することができる。また、Webページ中に設定されているハイパーリンクを指示して別のWebページを取り寄せる前に、当該別のWebページの内容を確認することができる。それによって、不要なハイパーリンク指示操作を無くし、情報検索に掛かる時間や労力を節約することができる。 According to the information search support program and the computer having the information search support function of the present invention, an appropriate word is extracted as a search keyword from a document described in a non-separated language, and information search is performed based on the word. The search result can be presented to the user. In addition, before instructing a hyperlink set in a web page and obtaining another web page, the contents of the other web page can be confirmed. Thereby, unnecessary hyperlink instruction operation can be eliminated, and time and labor required for information retrieval can be saved.
===本発明の実施形態===
本発明の一実施形態として、本発明に係る情報検索支援プログラム(以下、キーワード抽出プログラム)が実装されたパーソナルコンピュータ(PC)を例示する。本発明のキーワード抽出プログラムは、処理対象として与えられた文書から適宜な文字列を検索キーワードとして抽出し、その検索キーワードを検索エンジンや事典/辞典サイトに照会し、その照会結果を提示するための処理を実行する。処理対象となる文書としてはコンピュータにより閲覧可能な形式であれば、書式を含まない単純なテキストデータであってもよいし、各種ワープロソフトウエア用のデータ形式であってもよい。本実施例におけるキーワード抽出プログラムは、独自のWebブラウザ、または既存のブラウザのプラグインとして機能し、ブラウザが取り寄せたWebページに記載されている文書を解析する。すなわちHTMLによって記述されたデータに含まれている文書を処理対象とする。
=== Embodiment of the Invention ===
As an embodiment of the present invention, a personal computer (PC) on which an information search support program (hereinafter referred to as a keyword extraction program) according to the present invention is implemented is exemplified. The keyword extraction program of the present invention extracts an appropriate character string as a search keyword from a document given as a processing target, inquires the search keyword to a search engine or a dictionary / dictionary site, and presents the inquiry result. Execute the process. The document to be processed may be simple text data that does not include a format as long as it can be browsed by a computer, or may be a data format for various word processing software. The keyword extraction program in this embodiment functions as a unique Web browser or a plug-in of an existing browser, and analyzes a document described in a Web page obtained by the browser. That is, a document included in data described in HTML is a processing target.
===形態素解析・構文解析===
キーワード抽出プログラムは、周知の形態素解析により文書を単語単位で分解する。さらに、文書に対して構文解析を行い、文書における係り受けの関係を認識する。そして、ユーザの設定入力により、検索キーワードを単語、文節、文の各単位で指定することができるようになっている。
=== Morphological analysis / Syntactic analysis ===
The keyword extraction program decomposes the document into words by a well-known morphological analysis. Further, the document is parsed to recognize the dependency relationship in the document. A search keyword can be specified in units of words, phrases, and sentences by user input.
形態素解析は、PCの外部記憶などに多数の単語について品詞や活用形を対応付けした辞書を用意しておき、キーワード抽出プログラムがその辞書を参照して解析対象となる文書から単語を抽出していく。そして、抽出した各単語のそれぞれに品詞や活用形などの文法情報を対応付けして管理する。図1に、ある文章を形態素解析した結果の概略図を示した。この例では「国際宇宙ステーションに滞在中の野田聡さんらが3日早朝、3回目の船外活動を実施した。」という文書を単語ごとに分解し、各単語に文法情報を対応付けしている。 In morphological analysis, a dictionary in which part-of-speech and utilization forms are associated with a large number of words in an external memory of a PC is prepared, and a keyword extraction program refers to the dictionary to extract words from a document to be analyzed. Go. Then, each extracted word is managed in association with grammatical information such as part of speech and usage form. FIG. 1 shows a schematic diagram of the result of morphological analysis of a certain sentence. In this example, documents such as “Mr. Noda, who stayed at the International Space Station conducted a third outboard activity early in the morning of the 3rd” were broken down into words, and grammatical information was associated with each word. Yes.
また本実施例では、文書中で連続する文字列から、単語、文節、文の各文字列単位を認識するとともに、認識した文中の文節を構文解析することで係り受けの関係を認識する。なお文節とは、文字列の最後に「ね」を加えて意味をなす文字列単位を文節としている。具体的には、「私は本を読む」という文は、形態素解析によって得られた単語において、前後で連続する単語の最後に「ね」を加えて意味をなせば、その連続した単語が文節となる。すなわち、「私はね」「本をね」「読むね」というように各文字列が意味をなすことから、「私は」「本を」「読む」のそれぞれが文節となる。また、「私は本を」「本を読む」も文節となる。本実施例では文において連続する前後の単語の品詞の組み合わせに基づいて文節の区切りを認識している。そして、キーワード抽出プログラムが参照する辞書には、文における前後の品詞の組み合わせ種別と文節か否かの判定とを対応付けしたテーブルが含まれている。なお「文」については、本実施例では、句点や句読点によって区切られた文字列としている。さらに、キーワード抽出プログラムは、文中の係り受け関係を構文解析により認識する。係り受けの関係としては、例えば、「美味しい 食事」などの連体修飾関係、「ゆっくり 走る」などの連用修飾関係、「私は 歩く」などの主語述語関係がある。 In this embodiment, each character string unit of a word, a phrase, and a sentence is recognized from a character string continuous in the document, and the dependency relation is recognized by parsing the phrase in the recognized sentence. A phrase is a phrase that is a string unit that makes sense by adding “ne” to the end of the string. Specifically, the sentence “I read a book” is a word obtained by morphological analysis. If the word “ne” is added to the end of consecutive words before and after it, it makes sense. It becomes. That is, since each character string makes sense such as “I am I”, “I am reading a book” and “I read it”, each of “I am”, “I read a book” and “Read” is a phrase. “I read a book” and “read a book” are also phrases. In this embodiment, phrase breaks are recognized based on combinations of parts of speech of successive words in the sentence. The dictionary referred to by the keyword extraction program includes a table that associates the combination type of parts of speech before and after the sentence with the determination of whether or not the phrase is a phrase. Note that the “sentence” is a character string delimited by punctuation marks and punctuation marks in this embodiment. Furthermore, the keyword extraction program recognizes the dependency relationship in the sentence by syntactic analysis. Dependent relationships include, for example, a combination modification relationship such as “delicious meal”, a combined modification relationship such as “run slowly”, and a subject predicate relationship such as “I walk”.
図2に本実施例における文字列単位の認識手順を示した。ここでは、「私が流暢な日本語を話す」という文10における文節の認識手順を示した。まず、解析対象となる文10を形態素解析し、各単語11の品詞12を取得する(A)。つぎに、文10において前後する単語11の品詞12の組み合わせ(13a,13b)に応じた種別14と文節か否かの判定15とを対応付けしたテーブル16を参照し(B)、文10における単語間の各境界17が前記テーブル16においてどの種別14に該当するのかを特定する(C)。そして、特定した種別14に対応する判定結果15から隣接する単語同士が1つの文節を形成するかそうでないかを判断し、文中から最小単位の文節18を切り出す(D)。
FIG. 2 shows a recognition procedure for each character string in this embodiment. Here, the phrase recognition procedure in
さらにキーワード抽出プログラムは、構文解析により、最小単位の文節18ごとに区切った文10における文節間の係り受けの関係を認識する。図3に構文解析による係り受けの認識手順を示した。最小単位の文節18に区分された文10において(A)、どの文節18がどの文節18に、どのような係り受けの関係(19a〜c)かを求め(B)、隣接する文節18が係り受けの関係(19a〜c)にあれば、その隣接する文節18によりさらに大きな文節(18b,18c)となり得ることを認識する(C)(D)。このように、本実施例では、一つの文を複数の文字列単位に分割する際、単語毎、最小単位の文節毎、および係り受けの関係にある複数の文節毎など、その分割する文字位置を自由に設定することができる。
Further, the keyword extraction program recognizes the dependency relationship between clauses in the
===キーワード抽出プログラムの概略===
本実施例のキーワード抽出プログラムは、ブラウザが取り寄せたWebページのHTMLを解析し、処理対象となる文書部分を抽出する。そして、その文書に対して上述した形態素解析および構文解析を適用し、その解析結果に基づいて認識した文書中の単語、文節、文に相当する文字列を検索キーワードとして抽出する。そして、ユーザ入力により設定された検索キーワードの照会先(検索エンジン、辞典/事典サイトなど)にその検索キーワードを照会する。
=== Outline of Keyword Extraction Program ===
The keyword extraction program of this embodiment analyzes the HTML of a Web page obtained by the browser and extracts a document part to be processed. Then, the above-described morphological analysis and syntax analysis are applied to the document, and character strings corresponding to words, phrases, and sentences in the document recognized based on the analysis result are extracted as search keywords. Then, the search keyword is referred to a search keyword inquiry destination (search engine, dictionary / encyclopedia site, etc.) set by user input.
具体的には、ブラウザが取り寄せたWebページに含まれている文書について、その表示状態を維持しつつ、当初の文書中にWebページ作成者が意図して設定したハイパーリンク(リンク)を破棄し、文書中の適宜な単語、あるいは文節や文などの文字列記載箇所にその文字列を所定の照会先に与える旨のリンクを新規に設定したHTMLを生成する。本実施例において、キーワード抽出プログラムは、複数の照会先について、検索キーワードを与える旨のURL記述形式と、その照会先が日本語を認識する際の文字コードの指定情報とを管理し、新規にリンクを設定する文字列部分には、その文字列を指定の文字コードに変換し、指定のURL記述形式に従って記述する。 Specifically, for a document included in a Web page received by the browser, the hyperlink (link) that was intentionally set by the Web page creator in the original document is discarded while maintaining the display state. Then, an HTML is newly created by setting a link indicating that the character string is provided to a predetermined inquiry destination at an appropriate word in the document or a character string description location such as a clause or sentence. In this embodiment, the keyword extraction program manages a URL description format for giving a search keyword for a plurality of reference destinations and character code designation information when the reference destination recognizes Japanese. In the character string portion for setting a link, the character string is converted into a specified character code and described according to a specified URL description format.
例えば、ある検索エンジンに検索キーワードを与えるためのURLが「http://search.engine.co.jp/bin/query?=」に続いて検索キーワードを付記したものであり、その検索エンジンがEUCコードによって日本語(かな漢字)を受け付け、文書中の「本」という単語記載箇所にリンクを設定する場合、検索キーワードを検索エンジンに与える旨のURLは「http://search.engine.co.jp/bin/query?=%CB%DC」と記述され、設定されるリンクは、HTMLタグを含めて「<a href="http://search.engine.co.jp/bin/query?=%CB%DC">本</a>」と記述される。 For example, a URL for giving a search keyword to a certain search engine is “http://search.engine.co.jp/bin/query?=” followed by a search keyword, and the search engine is EUC. When accepting Japanese (Kana-Kanji) by code and setting a link to the word entry “book” in the document, the URL to give the search keyword to the search engine is “http://search.engine.co.jp / bin / query? =% CB% DC ", and the link to be set including the HTML tag is" <a href = "http://search.engine.co.jp/bin/query?=% CB% DC "> Book </a>".
なお、URLに日本語(かな漢字)に相当する文字列を記述する場合、その文字列を周知のURLエンコード形式に変換する必要がある。すなわち、2バイトで記述されるかな漢字を1バイトずつに分解して16進表示にし、「%」記号の後にその16進表記の文字を記述してかな漢字を変換する。先のURL「http://search.engine.co.jp/bin/query?=%CB%DC」では「%CB%DC」が「本」をURLエンコードしたものである。 When a character string corresponding to Japanese (Kana-Kanji) is described in the URL, it is necessary to convert the character string into a well-known URL encoding format. That is, a Kana-Kanji character described in 2 bytes is decomposed into 1-byte characters and displayed in hexadecimal, and the Kana-Kanji character is converted by describing the character in hexadecimal notation after the “%” symbol. In the previous URL “http://search.engine.co.jp/bin/query?=%CB%DC”, “% CB% DC” is a URL-encoded version of “book”.
===検索キーワードの抽出===
本実施例のキーワード抽出プログラムは、Webページに記載されている文書中の適宜な文字列を検索キーワードとし、そのキーワードを起点として利用者の情報検索を支援する。そして、利用者が目的とする情報を高い確率で入手できるように、検索キーワードを適切に抽出するための機能を備えている。例えば、リンク設定箇所を句読点で区切られた文全体とし、その文全体をマウスによってクリック可能としながら、すなわち、文全体を所定の検索エンジンや所定の辞典サイトに照会するための指示対象としながら、その文にマウスカーソルを置いてクリックすると、その文自体を検索キーワードに設定するだけではなく、検索キーワードの照会先が検索エンジンであるならば、その文に含まれている複数の文節や複数の単語をアンド検索のための検索キーワードに設定することもできる。すなわち、文書中の単語、文節、文のそれぞれを自由にマウスクリックの対象に設定することができる。そして、マウスクリックの対象が文であっても、実際に検索キーワードとして検索エンジンに照会されるのは、その文自体であったり、アンド検索に供されるその文に含まれている複数の単語や複数の文節などであったりする。以下、文書中から抽出した検索キーワードを検索エンジンに照会する事例を挙げ、本実施例のキーワード抽出プログラムの機能について具体的に説明する。
=== Extraction of search keywords ===
The keyword extraction program of this embodiment uses a suitable character string in a document described on a Web page as a search keyword, and supports user information search using the keyword as a starting point. And the function for extracting a search keyword appropriately is provided so that the user can acquire the target information with high probability. For example, the link setting part is an entire sentence delimited by punctuation marks, and the entire sentence can be clicked with a mouse, that is, while the entire sentence is an instruction target for inquiring to a predetermined search engine or a predetermined dictionary site, If you place the mouse cursor on the sentence and click it, not only the sentence itself is set as a search keyword, but if the query target of the search keyword is a search engine, multiple phrases or multiple phrases included in the sentence A word can be set as a search keyword for AND search. That is, each word, phrase, and sentence in the document can be freely set as a mouse click target. Even if the object of the mouse click is a sentence, what is actually queried to the search engine as a search keyword is the sentence itself, or a plurality of words included in the sentence used for AND search Or multiple phrases. Hereinafter, the function of the keyword extraction program of the present embodiment will be described in detail by giving an example of inquiring a search engine for a search keyword extracted from a document.
===ユーザインタフェース===
図4にPCにおいて起動中にあるキーワード抽出プログラムの操作画面を示した。この例において、キーワード抽出プログラムは、ブラウザとなるインターネットエクスプローラ(登録商標)のプラグインとして機能し、そのブラウザのウインドウ枠30の中に当該キーワード抽出プログラムを操作するための領域31が表示されている。そして、複数の画面32がタブ33によって選択表示できるようになっており、これら複数の画面32には、ブラウザが取り寄せたWebページをそのまま表示する画面や、このWebページに含まれる文書を多角的に解析し、その各解析結果のそれぞれに相当する各画面などが含まれている。もちろん、複数の画面32を並べて表示するなど、当該プログラムのユーザインタフェース環境は適宜に設定できる。この図では、検索エンジンへのリンクが再設定された文書の画面が選択表示されている。
=== User interface ===
FIG. 4 shows an operation screen of the keyword extraction program that is running on the PC. In this example, the keyword extraction program functions as a plug-in of Internet Explorer (registered trademark) serving as a browser, and an
また、プログラム操作領域31には当該プログラムを操作するためのメニュー34やツールバー35などが表示されている。例えば、ツールバー35にはクリック対象となる文字列の単位(単語,文節,文)の設定を選択するためのリストダウンボックス36や、検索キーワードの形態設定に関する各種設定を選択するためのリストダウンボックス37などが配置されている。利用者は、キーワード抽出プログラムを操作しながらオリジナルのWebページに記載されている文書から自身の情報検索目的に合致する検索キーワードを抽出し、その検索キーワードに基づいて実際に情報検索した結果を閲覧することができる。もちろん、情報検索によって得られた情報が文書であれば、その文書に対してさらに情報検索のためにリンクを再設定させることもできる。
In the
===単語によるリンク設定===
クリック対象として最も基本的な単位が単語である。図5(A)(B)にWebページの文書に含まれている単語をクリック対象および検索キーワードに設定する過程を例示した。オリジナルのWebページにおける文書40aには、リンクが設定されている文字列の記載箇所に下線が引かれている。このリンクはWebページ制作者が意図して設定したものであり、普通は、特定のWebページなどがリンク先となっている。この例では、「国際宇宙ステーションに滞在中の野田聡さんらが3日早朝、3回目の船外活動を実施した。」という文書40aの「国際宇宙ステーション」の記載部分にリンクが設定されている(A)。
=== Link setting by word ===
The most basic unit to be clicked is a word. 5A and 5B illustrate a process of setting a word included in a Web page document as a click target and a search keyword. The
キーワード抽出プログラムは、このWebページ中の文書に形態素解析を適用し、文書40aに含まれている単語の文字列記載箇所に検索エンジンへのリンクを設定し、そのリンクの再設定箇所に下線を引いて新規のHTMLを生成し、そのHTMLをブラウザが表示する。それによって、当初のリンクは破棄され、「国際」「宇宙」「ステーション」「に」「滞在」「中」「の」「野田」「聡」「さん」「ら」「が」・・・というように、各単語にリンクが再設定された文書40bが当該プログラムの操作領域内にWebページの体裁で表示される(B)。
The keyword extraction program applies morphological analysis to the document in the Web page, sets a link to the search engine at the character string description location of the word included in the
また、連続する名詞による文字列(複合名詞)については、複合名詞全体をクリック対象に設定することもできる。例えば、図5に示した文例において、「国際」「宇宙」「ステーション」それぞれを個別の検索キーワードとして検索エンジンに与えるよりも、「国際宇宙ステーション」を検索キーワードにした方が利用者が目的とする情報が得られやすい場合もある。このように、ユーザは自身の検索目的に応じ、連続する名詞による文字列(複合名詞)を一つのクリック対象および検索キーワードとして設定することができる。この複合名詞の設定に際しては、連続している名詞について、その先頭から複合名詞に含める名詞の数(連続させる名詞の数を2として「国際宇宙」と「ステーション」)、あるいは連続している名詞の最後尾からの名詞の数(連続させる名詞の数を2として「国際」と「宇宙ステーション」)などを指定できるようにしてもよい。もちろん、形態素解析に用いる辞書に、「宇宙」と「宇宙ステーション」のように、ある名詞とその名詞を含む複合名詞がともに記載されている場合には複合名詞を優先的に採用するなど、自動的に抽出される複合名詞があってもよい。 In addition, for a character string (compound noun) using consecutive nouns, the entire compound noun can be set as a click target. For example, in the sentence example shown in FIG. 5, rather than giving each of “International”, “Space”, and “Station” as individual search keywords to the search engine, the user is more interested in using “International Space Station” as a search keyword. In some cases, it is easy to obtain information. In this way, the user can set a character string (compound noun) of consecutive nouns as one click target and a search keyword according to his / her search purpose. In setting this compound noun, for consecutive nouns, the number of nouns to be included in the compound noun from the beginning ("International universe" and "Station" where the number of consecutive nouns is 2), or consecutive nouns It may be possible to designate the number of nouns from the end of the name ("international" and "space station", where the number of consecutive nouns is two). Of course, if a dictionary used for morphological analysis includes both a noun and a compound noun that includes that noun, such as “Universe” and “Space Station”, the compound noun is preferentially adopted. There may be compound nouns that are extracted automatically.
なお、単語を検索エンジンに与えるタイミングとしては、利用者がある単語をクリックしたときにその単語をすぐに検索エンジンに与えてもよいし、単語をクリックして、その単語を検索キーワードに設定してから、改めて検索指示をクリックにより受け付けるボタンなどを、キーワード抽出プログラムが生成する操作画面中に配置してもよい。そして、キーワード抽出プログラムは、複数の単語が次々に選択された上で検索指示を受け付けたならば、その選択された複数の単語によるアンド検索を実行するようにする。複数の検索キーワードによるアンド検索は、周知のごとく、複数の検索キーワードを半角空白、または全角空白を介して列挙して検索エンジンに与えればよい。 As for the timing to give a word to the search engine, when the user clicks a certain word, the word may be given to the search engine immediately, or the word is clicked and the word is set as a search keyword. Then, a button or the like that accepts a search instruction by clicking again may be arranged in the operation screen generated by the keyword extraction program. Then, when a plurality of words are selected one after another and the search instruction is accepted, the keyword extraction program executes an AND search using the selected plurality of words. As is well known, an AND search using a plurality of search keywords may be performed by enumerating a plurality of search keywords via a half-width space or a full-width space and providing the result to the search engine.
===文節によるリンク設定===
キーワード抽出プログラムは、形態素解析の結果から得られる単語列から求めた文節を検索キーワードにしてクリック対象に設定することができる。例えば、「私は学校に自転車で急いで行った」という文章の場合、「私は」「学校に」「自転車で」「急いで」「行った」のそれぞれの文節が、クリック可能となり、いずれかの文節をクリックすれば、その文節の文字列が検索キーワードとなる。
=== Link setting by phrase ===
The keyword extraction program can set a phrase obtained from a word string obtained from the result of morphological analysis as a search keyword and set it as a click target. For example, in the case of the sentence “I went to school in a hurry”, the phrases “I”, “To school”, “By bicycle”, “Hurry” and “I went” would become clickable. If you click on a phrase, the string of that phrase becomes the search keyword.
さらに、隣接する連体修飾関係にある文節をクリック対象とすることもできる。「私はおいしい食事を食べる」という文の場合、「おいしい食事を」というような単位で情報検索したいという要望も多いことを考慮し、隣接している連体修飾関係にある文節は、ひとまとまりにして、文節単位でクリックすることを可能にしている。すなわち、構文解析をすると「おいしい」という文節は、「食事を」という文節に、連体修飾関係で係ることが分かるため、「おいしい食事を」という文節に相当する文字列をクリック対象とすることができ、検索キーワードの単位として文節を設定すれば、この例では「私は」「おいしい食事を」「食べる」の3つの文字列がそれぞれ、クリック対象となる。 Furthermore, it is also possible to click on a clause that has an adjacent linkage modification relationship. In the case of the sentence “I eat delicious meals,” considering that there are many requests for information retrieval in units such as “delicious meals,” the clauses that are adjacent to each other are modified together. It is possible to click by phrase. In other words, it can be understood that the phrase “delicious” is related to the phrase “meal” by a syntactic modification, so that the character string corresponding to the phrase “delicious meal” may be clicked. If a phrase is set as a unit of the search keyword, in this example, three character strings “I am”, “Delicious meal”, and “Eat” are clicked respectively.
当然、隣接する連用修飾関係にある文節をクリック対象とすることもできる。「私はゆっくり歩く」という文の場合、「ゆっくり歩く」というような文字列が検索キーワードとして適切な場合もある。このため、隣接している連用修飾関係にある文節を、ひとまとまりにして、文節単位でクリックすることを可能にしている。この例では、「私は」「ゆっくり歩く」という2つの文字列がそれぞれ、検索キーワードの候補としてクリック対象となる。 Of course, it is also possible to click on a phrase that is in an adjacent continuous modification relationship. In the case of the sentence “I walk slowly,” a character string such as “walk slowly” may be appropriate as a search keyword. For this reason, it is possible to click adjacent clauses that are in a continuous modification relationship as a group. In this example, two character strings “I am walking slowly” are clicked as search keyword candidates.
===文によるリンク設定===
日本語漢字かな文字混じり文章の句読点、あるいは句点の間にある文字列を使って、うまく情報検索したいという場合もある。例えば、「家族みんなが静かな雰囲気で楽しめる家であり、ゆっくりくつろげるような住宅が欲しい。」という文があるとする。この文を句読点毎単位に単純に分割すると、さらに「家族みんなが静かな雰囲気で楽しめる家であり、」「ゆっくりくつろげるような住宅が欲しい。」の2つの文字列に分けられる。キーワード抽出プログラムは、このような長い文字列によって情報検索する場合にも、形態素解析や構文解析の結果に基づいて検索キーワードを適切に設定することができる。
=== Link setting by sentence ===
In some cases, you may want to search for information using punctuation marks in Japanese kanji or mixed text, or a character string between them. For example, suppose there is a sentence “I want a house where all the family can enjoy in a quiet atmosphere and can relax slowly.” If this sentence is simply divided into units of punctuation marks, it can be further divided into two character strings: “A family that everyone can enjoy in a quiet atmosphere” and “I want a home where people can relax slowly.” The keyword extraction program can appropriately set a search keyword based on the results of morphological analysis and syntax analysis even when searching for information using such a long character string.
先の単語や文節をクリック対象とした情報検索では、主に、文字列を含む情報を直接検索する場合を想定している。それに対し、文をクリック対象とした情報検索では、文字列に含まれている意味や内容に関連する情報を検索する場合を想定している。そして本実施例では、ユーザ入力により、文書を句読点、あるいは句点単位の文をクリック対象として設定するとともに、ユーザ入力により、そのクリック対象となる文から抽出する検索キーワードの形態を各種設定することができる。それによって利用者は、文の内容に関連する情報を高い確度で入手することができる。 In the information search in which the previous word or clause is clicked, information including a character string is mainly searched for directly. On the other hand, in the information search in which the sentence is clicked, it is assumed that information related to the meaning and content included in the character string is searched. In this embodiment, a document is set as a click target by a user input, and various search keyword forms to be extracted from the click target sentence are set by a user input. it can. Thereby, the user can obtain information related to the content of the sentence with high accuracy.
<文全体>
文から抽出する検索キーワードの最も単純な利用形態は、「文の文字列をそのまま検索エンジンに渡す」という形態である。文として「家族みんなが静かな雰囲気で楽しめる家であり、ゆっくりくつろげるような住宅が欲しい。」を例に挙げると、この文字列自体が検索キーワードとなる。もちろん、長文をそのまま検索キーワードにする場合、関連する情報が検索結果として示される可能性は低い。しかし、その文字列の出典となった記事を直接検索する場合には有効である。
<Entire sentence>
The simplest form of use of a search keyword extracted from a sentence is a form of “passing a sentence character string directly to a search engine”. For example, if the sentence is "I want a house where all the family can enjoy in a quiet atmosphere and want a relaxing home," this string itself becomes the search keyword. Of course, when a long sentence is used as a search keyword as it is, the possibility that related information is shown as a search result is low. However, it is effective when searching directly for an article that is the source of the character string.
<単語・文節>
次に単純な、文から抽出する検索キーワードの利用形態は、「当該文の文字列内を形態素解析して抽出した単語を検索キーワードにしてアンド検索を行う」という形態である。ユーザ入力により、この形態が指定されると、キーワード抽出プログラムは、先の文「家族みんなが静かな雰囲気で楽しめる家であり、ゆっくりくつろげるような住宅が欲しい。」を例に挙げれば、「家族」「みんな」「が」「静かな」「雰囲気」「で」「楽しめる」「家」「で」「あり」「ゆっくり」「くつろげる」「ような」「住宅」「が」「欲しい」の各単語をアンド検索のための検索キーワードに設定する。また、文節単位で検索キーワードを設定することも可能であり、この場合には、同じ文が「家族」「みんなが」「静かな」「雰囲気で」「楽しめる」「家であり」「ゆっくり」「くつろげるような」「住宅が」「欲しい」の各文節に区分され、文をクリックすると、この文に含まれている各文節の文字列を検索キーワードとしてアンド検索が実行される。
<Words and phrases>
The next simple usage form of a search keyword extracted from a sentence is a form of “AND search is performed using a word extracted by morphological analysis in the character string of the sentence”. If this form is specified by user input, the keyword extraction program will use the previous sentence “I want a house where everyone in the family can enjoy in a quiet atmosphere and relax.” "Everyone""Ga""Quiet""Atmosphere""In""Enjoy""House""De""Yes""Slow""Relax""Like""Housing""Ga""Iwant" Set a word as a search keyword for AND search. It is also possible to set a search keyword by phrase, in which case the same sentence is "family""everyone""quiet""atmosphere""enjoyable""home""slow" When the sentence is divided into the phrases “Relaxing”, “Housing is”, “Want”, and clicking on the sentence, an AND search is executed using the character string of each phrase included in the sentence as a search keyword.
<品詞指定>
非常に長い文字列に関連する情報を検索する場合、その文中から所定の品詞の単語のみを抽出あるいは除外して検索キーワードを設定した方が希望する情報が得られ易くなる可能性がある。本実施例では、形態素解析によって得られた単語ごとに文法情報を対応付けしているので、ユーザが指定した品詞のみを除外して検索キーワードを設定することができる。例えば、助詞と助動詞を除外する場合、「家族みんなが静かな雰囲気で楽しめる家であり、ゆっくりくつろげるような住宅が欲しい。」という文からは、「家族」「みんな」「静かな」「雰囲気」「楽しめる」「家」「あり」「ゆっくり」「くつろげる」「住宅」「欲しい」を検索キーワードとしてアンド検索を行う。さらに、助詞と助動詞に加え用言類(動詞、形容詞、形容動詞)も除外すると、すなわち、名詞などの重要品詞のみを選択すると、「家族」「みんな」「雰囲気」「家」「ゆっくり」「住宅」を検索キーワードとしてアンド検索を行う。なお、文をクリック対象として検索キーワードを設定する際、名詞については、複合名詞か通常の名詞かを、ユーザ入力により選択設定できるようにしておいてもよい
===終止形変換===
例えば、辞典/事典サイトにおいて、用言類の検索キーワードについては、基本的に終止形で受け付ける。そのため、文書中の単語を辞典/事典サイトに照会しようとする場合、文書中での表記のままで照会してしまうと、該当するインデックスが見あたらず、照会結果となる情報を取得することができない。従来、利用者が終止形でない用言類の語彙を辞典/事典サイトで調べようとする場合、文書中でのその用言類の表記を、利用者自身が終止形に変換し、その変換後の文字列を検索キーワードとして照会する必要があった。また、漢字を含む用言類では、利用者がその漢字の読み方を知らないと終止形に変換することもできないという問題もあった。そこで本実施例のキーワード抽出プログラムは、検索キーワードにしようとする文字列が用言類である場合、その文字列を終止形に直した上でその文字列を実際に照会する検索キーワードに設定する終止形変換機能を備えている。
<Part of speech specification>
When searching for information related to a very long character string, it may be easier to obtain desired information if a search keyword is set by extracting or excluding only words of a predetermined part of speech from the sentence. In this embodiment, the grammatical information is associated with each word obtained by morphological analysis, so that the search keyword can be set by excluding only the part of speech specified by the user. For example, when excluding particles and auxiliary verbs, the sentence “Family,” “Everyone,” “Quiet,” “Atmosphere,” from the sentence “I want a house where everyone in the family can enjoy a quiet atmosphere and relax.” An AND search is performed using “enjoyable”, “home”, “present”, “slow”, “relax”, “housing”, and “want” as search keywords. In addition to particles and auxiliary verbs, excluding verbs (verbs, adjectives, adjective verbs), that is, selecting only important parts of speech such as nouns, "family""everyone""atmosphere""house""slowly"" An AND search is performed using “house” as a search keyword. Note that when setting a search keyword as a click target of a sentence, a noun may be selected and set as a compound noun or a normal noun by user input === Terminal conversion ===
For example, in a dictionary / encyclopedia site, search terms for prescriptive terms are basically accepted in a closed form. For this reason, when trying to query a dictionary / encyclopedia site for words in a document, if the query is made as it is in the document, the corresponding index cannot be found and the information that is the query result cannot be obtained. . Conventionally, when a user tries to look up the vocabulary of a term that is not a terminal form on a dictionary / encyclopedia site, the user converts the phrase's notation in the document into a terminal form, and after the conversion It was necessary to query the character string of as a search keyword. In addition, there is a problem that in terms of phrases including kanji, the user cannot convert to the final form without knowing how to read the kanji. Therefore, when the character string to be used as a search keyword is a predicate, the keyword extraction program of this embodiment corrects the character string to an end form and sets the character string as a search keyword for actually inquiring. It has an end-to-end conversion function.
本実施例では、形態素解析により分解された各単語に品詞や活用形などの文法情報を対応付けして管理している。したがって、キーワード抽出プログラムは、ある活用形で表記された用言が文書中に存在すれば、その表記以外の活用形も取得することができる。図6に「走る」という「ラ行五段動詞」について、その活用形を示した。例えば、この「走る」という動詞が文書中で未然形「走らない」と表記されていた場合、キーワード抽出プログラムは、「走」「ら」「ない」の3つの単語(形態素)に分解し、そのそれぞれの形態素の文法分類が、それぞれ、「ラ行五段動詞語幹」「ラ行五段動詞活用語尾未然形」「助動詞」であることを認識する。そして、語幹「走」(ラ行五段動詞語幹)の形態素と、ラ行五段動詞の終止形の活用語尾「る」により、「走」と「る」(ラ行五段動詞の終止形の活用語尾)を結合し、終止形「走る」を生成する。 In this embodiment, each word decomposed by morphological analysis is managed by associating grammatical information such as parts of speech and inflection forms. Therefore, the keyword extraction program can also acquire a usage form other than the notation if a prescription written in a certain usage form exists in the document. Fig. 6 shows how to use the "La line five-step verb" called "Run". For example, if the verb “run” is described in the document as “not run”, the keyword extraction program breaks it down into three words (morphemes) “run” “ra” “no” It recognizes that the grammatical classification of each morpheme is “La line five-stage verb stem”, “La line five-stage verb inflection ending form”, and “auxiliary verb”. And by using the morpheme of the stem `` Run '' (La line five-step verb stem) and the final form of `` Lu '' five-stage verb ending, `` Run '' and `` Ru '' (the final form of the La line five-step verb) The final form of “Run” is generated.
形容詞についても同様である。図7に「美しい」の活用形を例示した。どのような活用形であっても語幹「美し」を形態素解析により認識し、この語幹と形容詞の終止形の活用語尾「い」と結合することで、終止形の「美しい」を生成することができる。また、形容動詞については、「曖昧だ」について、図8に活用形を示した。動詞や形容詞と同様にして語幹「曖昧」と形容動詞活用語尾終止形「だ」を結合し、終止形の表記「曖昧だ」を生成することができる。なお本実施例では、ユーザ入力により、終止形に変換する品詞を選択することも可能である。それは、検索エンジンに用言を与える場合には、終止形より、表記通りの文字列を照会した方が目的とする情報が得られる場合があるからである。 The same applies to adjectives. FIG. 7 illustrates a utilization form of “beautiful”. Recognize the stem "Beauty" by morphological analysis in any usage form, and generate the final "Beautiful" by combining this stem and the adjective end use "I" Can do. As for the adjective verbs, the use form is shown in FIG. In the same way as verbs and adjectives, the stem “ambiguous” and the adjective verb ending “da” can be combined to generate the final form “ambiguity”. In this embodiment, it is also possible to select a part of speech to be converted to an end form by user input. This is because when a predicate is given to the search engine, the target information may be obtained by inquiring the character string as written, rather than the end form.
===関連文書検索機能===
上述したように、本実施例のキーワード抽出プログラムは、形態素解析と構文解析という自然言語解析技術を巧みにWWWの仕組みに応用することで、文書を閲覧する利用者が目的とする情報を得るための検索キーワードを高い精度で抽出することができるようになっている。さらに本実施例では、文書を自然言語解析した結果として、文書中の単語の出現頻度を取得し、その出現頻度に基づいて文書の内容に関連する他の情報を検索する関連文書検索機能を備えている。
=== Related Document Search Function ===
As described above, the keyword extraction program of the present embodiment is designed to obtain information intended by a user who browses a document by skillfully applying natural language analysis techniques such as morphological analysis and syntax analysis to the WWW mechanism. The search keywords can be extracted with high accuracy. Further, in this embodiment, as a result of the natural language analysis of the document, a related document search function for acquiring the appearance frequency of the word in the document and searching for other information related to the content of the document based on the appearance frequency is provided. ing.
例えば、「国際宇宙ステーションに滞在中の野田聡さんらが3日早朝、3回目の船外活動を実施した。この日の活動ではロビンソン飛行士が、史上初となる宇宙空間でのスペースシャトルの補修をし、野田さんはそれを支援した。スペースシャトルは大気圏に再突入すると、はみ出し部分付近で温度が局所的に上昇して安全な帰還が危ぶまれるため、米航空宇宙機構が補修の実施を決めた。スペースシャトルの補修に先立ち、野田さんは宇宙実験装置や船外保管庫をISSに設置する作業も実施した。船外活動は全体で7時間を予定している。2人は7月30日と8月1日にも船外活動を実施した。」という文書に関連する情報を得ようとする場合、この文書中の単語に文法情報と出現頻度とを対応付けし、出現頻度が高い順に、所定の数の単語を検索キーワードとして所定の検索エンジンに与えるのである。図9に上記例の文書中の単語一覧を示した。各単語に文法情報と出現回数、および出現頻度が対応付けされている。本実施例では、出現回数のカウント対象となる単語として、名詞、サ変動詞、固有名詞を抽出し、出現頻度が高い上位6つの単語を検索キーワードに設定する。また、実際に検索エンジンに照会する検索キーワードは、用言類(動詞、形容詞、形容動詞)については終止形に変換した文字列としている。もちろん、抽出する品詞や終止形変換の要否、照会する検索キーワードの数などはユーザ入力により設定可能である。 For example, “Satoshi Noda and others who are staying at the International Space Station conducted a third outboard activity early in the morning on the 3rd. In this activity, Robinson was the first ever space shuttle in space. Noda helped with the repair, and the Space Shuttle re-entered the atmosphere, causing the temperature to rise locally in the vicinity of the overhang and jeopardize safe return, so the US Aerospace Agency will carry out the repair. Prior to the repair of the space shuttle, Mr. Noda also carried out work to install space experiment equipment and an outboard storage in the ISS, with a total of 7 hours for extravehicular activities. When trying to obtain information related to the document "External activities were also carried out on the 30th and August 1st", the grammatical information and the appearance frequency are associated with the words in the document, and the appearance frequency is In descending order It is giving to the predetermined search engine as a search keyword a word. FIG. 9 shows a list of words in the document of the above example. Each word is associated with grammatical information, the number of appearances, and the appearance frequency. In the present embodiment, nouns, sub-variables, and proper nouns are extracted as words to be counted for the number of appearances, and the top six words having the highest appearance frequency are set as search keywords. In addition, the search keyword that is actually inquired to the search engine is a character string that is converted to a final form for the verbs (verb, adjective, adjective verb). Of course, the part of speech to be extracted, the necessity of the final form conversion, the number of search keywords to be inquired, and the like can be set by user input.
===付帯機能について===
キーワード抽出プログラムは、自然言語解析技術に基づいて抽出した検索キーワードを検索エンジンなどに照会する機能に加え、利用者が適切な検索キーワードを選択できるようにしたり、文書の内容を理解したり、あるいは軽快なユーザインタフェース環境により情報検索作業を遂行したりするための種々の付帯機能を備えている。また、文書に適用した自然言語解析の結果や、その解析をするための前処理としてHTMLを解析したときの結果を活用し、WebページにおけるHTMLの構造や、そのWebページ中の文書における言語構造などを利用者に提示する付帯機能も備えている。以下、本実施例のキーワード抽出プログラムにおける付帯機能について説明する。
=== About incidental functions ===
The keyword extraction program allows users to select appropriate search keywords, understands the content of documents, in addition to the function of querying search engines etc. for search keywords extracted based on natural language analysis technology, or It is equipped with various incidental functions for performing information retrieval work with a light user interface environment. In addition, the result of natural language analysis applied to a document and the result of HTML analysis as preprocessing for the analysis are utilized to make the structure of HTML in a Web page and the language structure in a document in the Web page. Etc. It also has an incidental function to present to the user. Hereinafter, an incidental function in the keyword extraction program of this embodiment will be described.
===要約機能===
文書の内容を総括する文にはその文書中で出現頻度が高い単語(重要語)がより多く含まれていると思われる。そこで、処理対象の文書における単語の出現頻度に基づいて、出現頻度が高い重要語を多く含んでいる文を要約として抽出・提示する。なお本実施例では、ユーザ入力により、重要語を多く含んだ文を当初の文書における順番通りに並べて提示する場合と、重要語を含んでいる割合が高い文から順番に提示する場合の2種類の方法で提示することができる。
=== Summary function ===
A sentence summarizing the contents of a document seems to contain more words (important words) that appear frequently in the document. Therefore, based on the appearance frequency of words in the document to be processed, sentences containing many important words with high appearance frequencies are extracted and presented as summaries. In this embodiment, there are two types of cases where, by user input, sentences containing many important words are presented in the order in the original document, and sentences are presented in order from sentences having a high proportion of important words. It can be presented by the method.
===出現頻度提示機能===
前記関連文書検索機能において作成した単語の出現頻度の一覧をそのまま表示することができる。一覧における単語の掲載順位は、ユーザ入力により、出現頻度の高い順、文字の表記の長さが長い順、文字コード順のそれぞれに設定することができる。また、先の関連文書検索機能と同様に、出現頻度のカウント対象とする単語の品詞をユーザ入力により設定することができる。なお本実施例では、キーワード抽出プログラムが形態素解析において参照する辞書に登録されていない単語を新語として別途カウントすることができる。新語の他に、カタカナ表記のみの単語、カタカナ表記を含む単語、英字表記のみの単語、英字表記を含む単語、数字あるいは数字を含む単語(または数字として認識するのにふさわしい単語)、代名詞(彼,私,これ,それ…)、数字関連名詞(第1回,1年…)、時系列に関係する名詞(今日,明日…)などの名詞をカウント対象から除外あるいは算入することができる。とくに、数字関連名詞は、特定のイベントを示唆する場合があり、文書を特徴づける単語になり得る可能性が高い。もちろん、全く意味をなさない場合もある。カタカナ語や英字語は、造語や外来語などを含むため、これらを個別にカウントし提示することで、利用者が自身にとって未知の単語を知ることができる。
=== Appearance frequency presentation function ===
A list of appearance frequencies of words created by the related document search function can be displayed as it is. The posting order of words in the list can be set in the order of appearance frequency, in the order of the longest notation of characters, and in the order of character codes by user input. Similarly to the previous related document search function, the part of speech of the word whose appearance frequency is to be counted can be set by user input. In this embodiment, words that are not registered in the dictionary that the keyword extraction program refers to in the morphological analysis can be separately counted as new words. In addition to new words, words with only katakana notation, words with katakana notation, words with only alphabetic notation, words with alphabetic notation, words containing numbers or numbers (or words suitable for recognition as numbers), pronouns (he , I, this, it ...), nouns such as numbers related nouns (1st, 1st year ...), nouns related to time series (today, tomorrow ...) can be excluded or counted. In particular, numeric related nouns may suggest specific events and are likely to be words that characterize the document. Of course, it may not make sense at all. Katakana and English words include coined words and foreign words, so users can know unknown words for themselves by counting and presenting them individually.
なお、動詞、形容詞、形容動詞の出現頻度については、ユーザ入力により、文章中の活用形を保ったまま、あるいは終止形に統一してから求めるように設定できる。複合名詞については、複合名詞を構成する名詞の連続数をユーザ入力により指定できる。 Note that the appearance frequency of verbs, adjectives, and adjective verbs can be determined by user input while maintaining the inflected form in the sentence or after unifying it into a final form. For compound nouns, the number of consecutive nouns constituting the compound noun can be specified by user input.
===HTML解析機能===
ブラウザが取り寄せたWebページを記述するHTMLを多角的に解析し、その解析結果を提示するHTML解析機能を備えている。本実施例では文書抽出機能、タグ表示機能、リンク提示機能を備えている。
=== HTML analysis function ===
An HTML analysis function for analyzing the HTML describing the Web page obtained by the browser from various perspectives and presenting the analysis result is provided. In this embodiment, a document extraction function, a tag display function, and a link presentation function are provided.
文書抽出機能は、HTML中のタグや、画像関連情報を取り除いた「テキスト」部分だけを、抽出して表示する機能である。例えば、Webページ中に配置されている広告などは、利用者がページ中でどの文書が重要でどの文書が不要なのかを認識することを妨げる。本実施例では、HTMLタグを排除するだけではなく、タグとタグの間で、連続する文字数をカウントし、ユーザ入力によって指定された文字数以上の文字のみを表示することもできる。 The document extraction function is a function for extracting and displaying only a “text” portion from which tags and image-related information in HTML are removed. For example, an advertisement or the like placed in a Web page prevents a user from recognizing which document is important and which document is unnecessary in the page. In the present embodiment, not only HTML tags are excluded, but the number of consecutive characters between the tags can be counted, and only characters greater than the number specified by user input can be displayed.
タグ表示機能では、HTMLタグを種類別に一覧にして提示する。リンク提示機能は、HTML中に設定されているリンク先のURLを一覧にして提示する。 The tag display function presents a list of HTML tags by type. The link presentation function presents a list of link destination URLs set in HTML.
===言語構造提示機能===
キーワード抽出プログラムは、利用者に文書の言語構造を提示する機能として、文書中の漢字にルビを振るルビ機能と、全ての単語の読み方を平仮名にするかな変換機能、文書中の単語を品詞別に識別できるようにして表示する品詞識別表示機能、形態素解析結果から得られる単語を用いて、文節を切り出し、その文節毎にどの文節と、どの文節がどのような関係にあるのかを表示する係り受け関係表示機能を備えている。
=== Language structure presentation function ===
The keyword extraction program presents the language structure of the document to the user. The ruby function that assigns ruby to the kanji in the document, the kana conversion function that converts all words to Hiragana, and the words in the document by part of speech. A part-of-speech identification display function that displays in a way that can be identified, a segmentation that uses words obtained from morphological analysis results, and a display that shows which clauses and what clauses have a relationship with each clause It has a relationship display function.
ルビ機能やかな変換機能によれば、漢字が読めない子供でも文書が読める。また、かな変換機能により得られたかな文字だけの文書を周知の音声変換ソフトウエアに与えれば、視覚に障害ある人でも文書を「聴く」ことによって読むことができる。 The ruby-functional conversion function enables even children who cannot read kanji to read documents. Moreover, if a document with only kana characters obtained by the kana conversion function is given to known voice conversion software, even a visually impaired person can read the document by “listening”.
品詞識別表示機能によれば、日本語の言語構造を、利用者が直感的に理解することができる。すなわち、品詞の出現頻度や文中における配置、異なる品詞についての前後関係や連続/不連続の関係、などを感覚的にとらえることができる。品詞識別表示機能は、形態素解析により分解された各単語を品詞毎に色を変えるなどして品詞を視覚的に区別できるようにしたものであり、この機能により提示された文書を日本語教育の場で活用すれば、文法教育にも有効であるし、作文能力も向上することが期待できる。 According to the part of speech identification display function, the user can intuitively understand the language structure of Japanese. That is, the appearance frequency of parts of speech, the arrangement in a sentence, the context of different parts of speech, the continuous / discontinuous relationship, and the like can be sensed. The part-of-speech identification display function enables visual distinction of parts of speech by changing the color of each word decomposed by morphological analysis for each part of speech. If used in the field, it is effective for grammar education and can be expected to improve writing skills.
係り受け表示機能は、上記の形態素解析と構文解析とにより得られた各単語の文法情報と、その文法情報から認識される文節と、各文節の前後関係等に基づいて、文節毎にどの文節と、どの文節がどのような関係にあるのかを識別可能にして表示する。上述したように、係り受けの関係の種類としては連体修飾、連用修飾、主語述語などがある。本実施例では、文節間の係り受け関係をその種類に応じて色分けして表示している。このように文節間の係り受け解析結果を識別表示することで、文節と文節との関係を直感的に認知でき、キーワード抽出プログラムの機能における係り受け表示機能も日本語教育の現場で活用することができる。 The dependency display function is based on the grammatical information of each word obtained by the above morphological analysis and syntactic analysis, the clause recognized from the grammatical information, the context of each clause, etc. And which clauses are in what relationship. As described above, types of dependency relationships include combination modification, continuous modification, subject predicate, and the like. In this embodiment, the dependency relationship between phrases is displayed in different colors depending on the type. By identifying and displaying the dependency analysis results between clauses in this way, the relationship between clauses can be intuitively recognized, and the dependency display function in the keyword extraction program function should also be used in the field of Japanese language education. Can do.
===形態素解析の処理タイミングと処理対象文字列===
上記実施例では、ブラウザがWebページを取り寄せた段階でそのページ中の全文書に対して形態素解析を行っていた。この例に限らず、たとえば、キーワード抽出プログラムは、Webページ中である単語が選択された段階で、形態素解析を行うようにしてもよい。そうすることで、単に閲覧だけを目的としてWebページを取り寄せた場合に、形態素解析処理の発生を可能な限りなくし、PCに余分な負荷を掛けないようにすることができる。
=== Processing timing of morphological analysis and character string to be processed ===
In the above embodiment, morphological analysis is performed on all documents in the page when the browser obtains the Web page. For example, the keyword extraction program may perform morphological analysis when a word in a Web page is selected. By doing so, it is possible to minimize the occurrence of the morphological analysis process and avoid applying an extra load to the PC when a Web page is obtained for the purpose of browsing only.
また、解析対象となる文字列を文書全体とせず、選択した単語の前後の文字列から句点や読点で区切られた文字列など、文章として意味をなす文字列を処理対象とすれば、処理すべき情報量が減り、形態素解析による処理結果をより短時間で提示することができる。たとえば、検索キーワードとすべき文字列単位や品詞が指定されている状態で、文書中の任意の文字位置が指示されると、その指示位置にある文字の前後の句点に基づいてその文字を含む文を解析対象とし、その文を形態素解析したり構文解析したりする。そして、指示位置にある文字の前後の文字を指定の文字列単位分だけ抽出して、その抽出した文字列を検索キーワードにする。 In addition, if the character string that is meaningful as a sentence is processed, such as the character string delimited by punctuation or punctuation from the character string before and after the selected word, the character string to be analyzed is not processed as a whole document. The amount of information to be reduced is reduced, and the processing result by the morphological analysis can be presented in a shorter time. For example, when a character string unit or part of speech to be a search keyword is specified, if an arbitrary character position in the document is specified, that character is included based on the surrounding punctuation of the character at the specified position. The sentence is targeted for analysis, and the sentence is subjected to morphological analysis and syntax analysis. Then, the characters before and after the character at the designated position are extracted by the designated character string unit, and the extracted character string is used as a search keyword.
具体例を挙げると、先の文書「国際宇宙ステーションに滞在中の野田聡さんらが3日早朝、3回目の船外活動を実施した。この日の活動ではロビンソン飛行士が、史上初となる宇宙空間でのスペースシャトルの補修をし、野田さんはそれを支援した。スペースシャトルは大気圏に再突入すると、はみ出し部分付近で温度が局所的に上昇して安全な帰還が危ぶまれるため、米航空宇宙機構が補修の実施を決めた。スペースシャトルの補修に先立ち、野田さんは宇宙実験装置や船外保管庫をISSに設置する作業も実施した。船外活動は全体で7時間を予定している。2人は7月30日と8月1日にも船外活動を実施した。」について、2番目の文「この日の活動ではロビンソン飛行士が、史上初となる宇宙空間でのスペースシャトルの補修をし、野田さんはそれを支援した。」の「ス」が指示されたとする。この場合、「ス」が指示された段階で句点によって区切られる文「この日の活動ではロビンソン飛行士が、史上初となる宇宙空間でのスペースシャトルの補修をし、野田さんはそれを支援した。」を形態素解析する。ここで、検索キーワードとすべき文字列単位が単語であれば「スペースシャトル」が検索エンジンに与えられる。文字列単位が文で、検索キーワードの品詞として名詞が指定されていれば、この文に含まれる名詞「史上初」「宇宙空間」「スペースシャトル」「補修」が検索エンジンに与えられる。 For example, the previous document “Mr. Noda, who is staying at the International Space Station, conducted the third outboard activity early in the morning on the 3rd. The space shuttle was repaired and supported by Mr. Noda because the space shuttle would re-enter the atmosphere and the temperature would rise locally in the vicinity of the overhang, causing a safe return. The space agency decided to carry out the repairs, and prior to the space shuttle repairs, Mr. Noda also carried out work to install space experiment equipment and outboard storage in the ISS. As for the second sentence "Robinson was the first space ever in space for this day's activities," the two conducted extravehicular activities on July 30 and August 1. Repair the shuttle Noda's is that it has support it. "" Scan "has been instructed to. In this case, a sentence delimited by a punctuation mark at the stage where "su" was indicated, "In this day's activities, Robinson repaired the first space shuttle in outer space, and Noda supported it. ”Is analyzed. Here, if the character string unit to be used as a search keyword is a word, “space shuttle” is given to the search engine. If the character string unit is a sentence and a noun is specified as the part of speech of the search keyword, the nouns “first in history”, “space”, “space shuttle”, and “repair” included in this sentence are given to the search engine.
===検索キーワード抽出範囲の指定方法===
文書において、検索キーワードが抽出される範囲(キーワード抽出範囲)を指定するための操作方法について例示する。キーワード抽出範囲は、周知のドラッグ操作で任意の文字列を範囲指定し、その範囲内にある単語や複合語を検索キーワードに指定する、という方法がまず考えられる。また、文書中の任意の文字記載位置を指示した状態で、所定の操作を繰り返す回数によって複合語、文、文書というように、キーワード抽出範囲が連続する所定操作の回数に応じて順次拡大されていく方法も考えられる。
=== How to specify search keyword extraction range ===
An example of an operation method for designating a range from which a search keyword is extracted (a keyword extraction range) in a document will be described. As a keyword extraction range, a method of first specifying a range of an arbitrary character string by a known drag operation and specifying a word or compound word within the range as a search keyword is conceivable. In addition, the keyword extraction range is sequentially expanded according to the number of consecutive predetermined operations, such as compound words, sentences, and documents, depending on the number of times a predetermined operation is repeated with an arbitrary character description position in the document indicated. There are ways to go.
この所定操作としては、マウスクリック操作が考えられる。先の文書「国際宇宙ステーションに滞在中の・・・。」を例に挙げると、たとえば、「航」の文字位置でシングルクリック操作を行うと、当該文字位置の前後の文字から「航空」の単語が抽出され、この単語「航空」のみがキーワードの抽出範囲となる。すなわち、「航空」の単語自体が検索キーワードとなる。 As this predetermined operation, a mouse click operation can be considered. Taking the previous document “Staying at the International Space Station ...” as an example, for example, if a single click operation is performed at the character position of “Navigation”, the character “Aviation” is determined from the characters before and after the character position. A word is extracted, and only this word “aviation” becomes a keyword extraction range. That is, the word “aviation” itself is a search keyword.
同じ位置でダブルクリック操作を行うと、複合語として「航空宇宙機構」、トリプルクリックで「米航空宇宙機構」がキーワード抽出範囲となる。もちろん、辞書に「米航空宇宙機構」のみが登録されていれば、ダブルクリック操作によって「米航空宇宙機構」がキーワード抽出範囲となる。なお、複合語がキーワード抽出範囲となるときの検索キーワードは、たとえば「航空宇宙機構」がキーワード抽出範囲であれば、「航空」「宇宙」「機構」と各単語が検索キーワードになったり、複合語「航空宇宙機構」が検索キーワードになったりするなど、利用者の事前の設定に従うものとする。 If you double-click at the same position, the keyword extraction range will be “Aerospace Organization” as a compound word and “US Aerospace Organization” as a triple click. Of course, if only “US Aerospace Organization” is registered in the dictionary, “US Aerospace Organization” becomes the keyword extraction range by double-clicking. The search keyword when the compound word is the keyword extraction range is, for example, “Aerospace Agency” is a keyword extraction range, each word “aviation” “space” “mechanism” becomes a search keyword, The term “Aerospace Organization” will be used as a search keyword.
さらにクリック操作を連続させた場合には、「航」の文字を含む文「スペースシャトルは大気圏に再突入すると、はみ出し部分付近で温度が局所的に上昇して安全な帰還が危ぶまれるため、米航空宇宙機構が補修の実施を決めた。」がキーワード抽出範囲となり、この文中から事前の設定により、検索キーワードが指定される。もちろん、文をキーワード抽出範囲に設定する前に、読点で区切られた文字列「米航空宇宙機構が補修の実施を決めた。」がキーワード抽出範囲に設定されるようにしてもよい。 Furthermore, if the click operation is continued, the sentence containing the letters “Kai” “If the space shuttle re-enters the atmosphere, the temperature rises locally near the overhanging area, and safe return is jeopardized. “Aerospace Agency has decided to carry out repair” is the keyword extraction range, and the search keyword is specified from this sentence according to the prior settings. Of course, before the sentence is set as the keyword extraction range, the character string “American Aerospace Organization has decided to carry out repair” delimited by punctuation marks may be set as the keyword extraction range.
なお、検索キーワードは、名詞のみに限らず、名詞に動詞や形容詞を含めた文節で指定されてもよいし、形容詞や動詞の終止形が検索キーワードに指定されてもよい。さらにクリック回数を多くすると、文書全体がキーワード抽出範囲になる。キーワード抽出範囲がクリック回数に応じて、単語→複合語→文→文書→単語→複合語・・・というように、巡回するようにしてもよい。また、キーワード抽出範囲の拡大順序としては、複合語と文の間に文節を設定したり、文と文書の間に段落を設定したりすることができ、たとえば、クリックの回数に応じて、単語→複合語→文節→文→段落→文書全体の順で、キーワード抽出範囲が拡大されるようにしてもよい。なお、キーワード抽出範囲を設定する際の所定操作としては、マウスクリックのほかに、特定キーを押すなど、適宜な操作が考えられる。 The search keyword is not limited to only a noun, and may be specified by a phrase including a verb or an adjective in the noun, or an adjective or a verb end form may be specified as a search keyword. If the number of clicks is further increased, the entire document becomes the keyword extraction range. The keyword extraction range may be cycled according to the number of clicks, such as word → compound word → sentence → document → word → compound word. In addition, as the order of expansion of the keyword extraction range, a clause can be set between a compound word and a sentence, or a paragraph can be set between a sentence and a document. For example, depending on the number of clicks, a word The keyword extraction range may be expanded in the order of compound word → clause → sentence → paragraph → whole document. As a predetermined operation when setting the keyword extraction range, an appropriate operation such as pressing a specific key in addition to a mouse click can be considered.
このように、連続する所定の操作に応じてキーワード抽出範囲を設定することで、利用者が検索キーワードとして指定したい文字の記載位置からカーソルなどを動かす必要が無くなる。そのため、利用者が意図した検索キーワードが確実に検索エンジンに与えられるとともに、キーワード抽出範囲を拡大していくことで、意図した検索キーワードの周辺にある文字列中からも検索キーワードが選出されて、キーワード抽出範囲の記載内容に関連するレコードが取得される可能性を高めることができる。 In this way, by setting the keyword extraction range according to a predetermined continuous operation, it is not necessary for the user to move the cursor or the like from the description position of the character that the user wants to specify as the search keyword. Therefore, the search keyword intended by the user is surely given to the search engine, and by expanding the keyword extraction range, the search keyword is selected from the character strings around the intended search keyword, The possibility that a record related to the description content of the keyword extraction range is acquired can be increased.
連続するクリック操作に応じて検索キーワード抽出範囲と検索キーワードを設定するための具体的な処理としては、あらかじめ文書や文が形態素解析されている場合と、クリック操作を行った時点で形態素解析を行う場合とが考えられる。あらかじめ文書や文が形態素解析されている場合では、キーワード抽出プログラムがクリックの回数とキーワード抽出範囲との対応関係を管理し、クリック操作を受け付けた文字記載位置の前後の文字において、単語を構成する文字列を取得し、さらに、クリック回数に応じてその単語を含む複合語や文を検索キーワード抽出範囲とすればよい。 As specific processing for setting the search keyword extraction range and search keyword according to successive click operations, morphological analysis is performed when a document or sentence is analyzed in advance and when the click operation is performed. A case may be considered. When a document or sentence is analyzed in advance, the keyword extraction program manages the correspondence between the number of clicks and the keyword extraction range, and composes words in the characters before and after the character description position where the click operation is accepted. A character string may be acquired, and a compound word or sentence including the word may be set as a search keyword extraction range according to the number of clicks.
一方、クリック操作が行われた時点で形態素解析を行う場合には、キーワード抽出プログラムがクリックの回数とキーワード抽出範囲との対応関係を管理するとともに、クリック操作を受け付けた文字記載位置の前後の文字列から句点や読点を取得し、その句点、あるいは読点で区切られた文字列を形態素解析対象として抽出する。 On the other hand, when morphological analysis is performed when a click operation is performed, the keyword extraction program manages the correspondence between the number of clicks and the keyword extraction range, and characters before and after the character description position where the click operation is accepted. Punctuation marks and punctuation marks are acquired from the sequence, and the punctuation marks or character strings delimited by the punctuation marks are extracted as morphological analysis targets.
そして、クリック操作を受け付けた文字記載位置の前後の文字列から、クリックの連続操作回数に応じたキーワード抽出範囲を特定し、抽出した範囲から利用者の設定に従って検索キーワードを特定する。所定回数以上のクリック操作がなされた場合には、文書全体を形態素解析対象にしてもよい。なお、キーワード抽出範囲の文字列は、反転表示するなど、表示中の文書のどの文字列部分から検索キーワードが抽出されるのかを利用者に提示することも可能である。 Then, a keyword extraction range corresponding to the number of consecutive click operations is specified from the character string before and after the character description position where the click operation is accepted, and a search keyword is specified from the extracted range according to the user's setting. When a click operation is performed a predetermined number of times or more, the entire document may be a morphological analysis target. It is also possible to present to the user which character string portion of the document being displayed the search keyword is extracted, such as by highlighting the character string in the keyword extraction range.
===サーバー・クライアント・システム===
上記実施例では、PCにインストールされるキーワード抽出プログラムに、形態素解析機能や検索キーワードを検索エンジンに与える機能など、全ての機能などが含まれていた。この例に限らず、キーワード抽出プログラムは、サーバー・クライアント・システムにおけるクライアント・コンピュータとサーバー・コンピュータ間で連携動作するプログラムであってもよい。すなわち、PCをクライアント・コンピュータとし、そのクライアント・コンピュータにキーワード抽出プログラムのユーザインタフェースとして機能を担わせる。一方、クライアント・コンピュータと通信するサーバー・コンピュータには、形態素解析処理機能、およびその処理に使用する辞書などを実装しておく。そして、サーバー・コンピュータがクライアント・コンピュータにて表示中の文書を形態素解析する。
=== Server / Client System ===
In the above embodiment, the keyword extraction program installed in the PC includes all functions such as the morphological analysis function and the function of giving the search keyword to the search engine. The keyword extraction program is not limited to this example, and may be a program that operates in cooperation between a client computer and a server computer in a server / client system. That is, the PC is a client computer, and the client computer has a function as a user interface of the keyword extraction program. On the other hand, the server computer that communicates with the client computer is provided with a morphological analysis processing function and a dictionary used for the processing. Then, the server computer performs morphological analysis on the document being displayed on the client computer.
以下、このサーバー・クライアント・システムによる情報検索支援機能についての一実施形態を例示する。ここに示す例において、クライアント・コンピュータは、ブラウザを実装したPCであり、PC側にインストールされるキーワード抽出プログラムはブラウザのプラグインとしてインストールされている。ここで、クライアント・コンピュータ側におけるキーワード抽出プログラムの処理機能をクライアントプログラム、サーバー側における処理機能をサーバープログラムと称することとする。 Hereinafter, an embodiment of the information search support function by this server / client system will be exemplified. In the example shown here, the client computer is a PC on which a browser is installed, and the keyword extraction program installed on the PC side is installed as a browser plug-in. Here, the processing function of the keyword extraction program on the client computer side is called a client program, and the processing function on the server side is called a server program.
クライアントプログラムは、ブラウザにより表示されている文書から、検索キーワードの抽出範囲や検索キーワードの品詞を設定し、その設定情報をサーバープログラムに与える機能を備えている。なお、クライアントプログラムでは、上述したように、連続するマウスクリックの回数に応じてキーワード抽出範囲を設定するユーザインタフェースを採用しているものとする。また、キーワード抽出範囲は、文書まで拡大できるようにしてもよいが、クライアント・コンピュータとサーバー・コンピュータ間での通信負荷を軽減するために、この例では、句点によって区切られた文字列からなる文を最大の形態素解析対象文字列としている。また、キーワード抽出範囲は、単語→複合語→文の順に拡大していくこととする。 The client program has a function of setting the search keyword extraction range and the search keyword part-of-speech from the document displayed by the browser and providing the setting information to the server program. Note that, as described above, the client program adopts a user interface that sets a keyword extraction range according to the number of consecutive mouse clicks. The keyword extraction range may be expanded to a document, but in this example, in order to reduce the communication load between the client computer and the server computer, a sentence consisting of character strings separated by punctuation marks is used. Is the largest morphological analysis target character string. The keyword extraction range is expanded in the order of word → compound word → sentence.
クライアント・コンピュータは、クライアントプログラムのインストール情報として、URLなど、通信相手となるサーバー・コンピュータのネットワーク上の位置情報を記憶し、クライアントプログラムは、起動中のブラウザのプラグインとして実行される。そして、所定の利用者入力があると、ブラウザにて表示中の文書の一部をサーバー・コンピュータに送付して形態素解析してもらい、その解析結果に基づく各種処理を実行する。 The client computer stores location information on the network of the server computer that is a communication partner, such as a URL, as client program installation information, and the client program is executed as a plug-in of a running browser. When there is a predetermined user input, a part of the document being displayed on the browser is sent to the server computer for morphological analysis, and various processes based on the analysis result are executed.
図10にクライアントプログラムとサーバープログラムが協調動作する際の処理の流れを例示した。また、図11〜図15に当該処理の流れに伴ってクライアント・コンピュータに表示される画面の遷移を示した。この例において、ブラウザのプラグインとして組み込まれたクライアントプログラムを操作するための画面80は、図4に示した画面30とは若干異なっており、検索キーワードの照会先を指定するためのラジオボタン81や、ルビを振る際に選択するラジオボタン82、上記関連文書検索機能を実行させるための「関連文書検索」ボタン83、文書に含まれる各単語の出現頻度を解析させるための「単語出現頻度解析」ボタン84、および検索キーワードの品詞などを指定したり、検索キーワードの紹介先となる検索サイトや辞書サイトなどを設定したりするなど、各種条件を設定するための「オプション」ボタン85がブラウザの操作画面80の表示領域中に配設されている。
FIG. 10 illustrates a flow of processing when the client program and the server program operate cooperatively. In addition, FIGS. 11 to 15 show transitions of screens displayed on the client computer along with the processing flow. In this example, a
クライアント・コンピュータ50において、所定の利用者入力により、検索キーワードの品詞として、たとえば、名詞が設定されている状態で、表示中の文書に対し所定回数のクリック操作を受け付けると(図11)、このクリック操作を受け付けた文字記載位置86の前後の句点を検出し、この前後の句点の間にある文字列87に相当するテキストデータと、文字列87の先頭からの文字数などによって特定されるクリック操作を受け付けた位置の情報と、クリック回数と、事前に設定されている検索キーワードの品詞の指定情報と、ラジオボタン81により指定されたキーワードの照会先に関する情報とを含んだ電文(形態素解析依頼電文)をサーバー・コンピュータ60に送付する(s1〜s7)。ここでは、検索キーワードを含むWebページを検索することとし、検索キーワードの紹介先として所定の検索エンジン70が設定されているものとする。
In the
サーバー・コンピュータ60は、送付されてきたテキストデータを形態素解析し、単語別に分解し、各単語に文法情報を対応付けするとともに、クライアント・コンピュータ50からのクリック回数に基づいてキーワード抽出範囲を特定し、そのキーワード抽出範囲の文字列が反転表示となるようにテキストデータに書式を設定する。また、文字位置情報と、品詞の指定情報とに基づいて、当該抽出範囲中から検索キーワードの文字列を抽出する。そして、クライアント・コンピュータ50のブラウザを所定の検索エンジン70にリダイレクトさせて当該検索エンジン70に対して検索キーワードを与える旨のURLを生成し、このURLと書式設定されたテキストデータとをクライアント・コンピュータ50に返送する(s8〜s13)。
The
クライアント・コンピュータ50は、クライアントプログラムにより、ブラウザが先に表示していた文書における形態素解析の対象となった文字列をサーバー・コンピュータ60により書式設定されて返送されてきたテキストデータと置換することで、検索キーワード抽出範囲88が反転表示された文字列を表示する(図12)。また、検索エンジン70へのリダイレクトを記述したURLを解釈して検索キーワードを検索エンジン70に与える。そして、検索エンジンから返送されてきた検索結果のWebページを表示する(図13、s14〜s18)。この例では、検索エンジン70から送付されてきた検索結果を記載したWebページを別ウインドウ90にして表示している。
The
なお、図12では、ダブルクリック操作で「スペースシャトル」の文字列がキーワード抽出範囲88に設定された例を示した。シングルクリック操作では「スペース」がキーワード抽出範囲となる(図14)。3回のクリック操作では、句点によって区切られた文「史上初となる宇宙空間でのスペースシャトルの補修をし、野田さんはそれを支援した。」がキーワード抽出範囲に設定され、この範囲が反転表示されることになる(図15)。 FIG. 12 shows an example in which a character string “space shuttle” is set in the keyword extraction range 88 by a double click operation. In the single click operation, “space” is the keyword extraction range (FIG. 14). In the click operation of 3 times, the sentence that is delimited by the punctuation mark is set as the keyword extraction range, which is the first time in the history of repairing the space shuttle in outer space. Will be displayed (FIG. 15).
なおサーバー・コンピュータ60は、リダイレクトを記述したURLに変えて、検索エンジン70に与えるべき検索キーワードのみをクライアント・コンピュータ50に送付するようにしてもよい。そして、クライアント・コンピュータ50がサーバー・コンピュータ60から受け取った検索キーワードを設定済みの検索エンジン70に与える。あるいは、サーバー・コンピュータ60が検索エンジン70に検索キーワードを与えて返送されてきた検索結果をクライアント・コンピュータ50に転送するように構成することもできる。
The
このように、負荷の大きな処理をサーバー・コンピュータ側で実行させることは、たとえば、PCと比較して処理能力が劣るブラウザを実装した携帯電話機(ブラウザフォン)を使用したキーワード検索であっても、利用者に軽快なユーザインタフェース環境を提供することができる。すなわち、ブラウザフォンをクライアント・コンピュータとすることで、ブラウザフォンにて表示されている文書に関する負荷の大きな形態素解析処理をサーバー・コンピュータ側で実行させることができ、ブラウザフォンは、サーバー・コンピュータにおける形態素解析結果に基づいて抽出されるキーワードを検索エンジンに与えるだけの負荷の軽い処理だけを実行すればよい。サーバー・コンピュータが検索キーワードを検索エンジンに与えてその検索結果をブラウザフォンに転送すれば、ブラウザフォンにおける処理負荷はさらに軽減される。 In this way, it is possible for the server computer side to execute a process with a large load, for example, even in a keyword search using a mobile phone (browser phone) equipped with a browser having a processing capability inferior to that of a PC. It is possible to provide a light user interface environment to the user. In other words, by setting the browser phone as a client computer, it is possible to cause the server computer to execute a morphological analysis process with a large load on the document displayed on the browser phone. It is only necessary to execute a process with a light load that gives the search engine a keyword extracted based on the analysis result. If the server computer gives a search keyword to the search engine and transfers the search result to the browser phone, the processing load on the browser phone is further reduced.
===ビジネスモデル===
周知の通り、検索サイトでは、ブラウザから受け取った検索キーワードに対応するレコードとともに、検索エンジンに付帯するデータベースによりキーワードに対応付けされている広告コンテンツ(広告主が意図するWebサイトへのリンクが設定された広告テキストなど)を検索結果のWebページに表示する。
=== Business model ===
As is well known, in a search site, a record corresponding to a search keyword received from a browser and an advertisement content (link to a website intended by the advertiser) associated with the keyword are set by a database attached to the search engine. Displayed on the search result Web page.
一般的に、広告コンテンツは、レコードに優先して、検索結果のWebページに記載される。したがって、クライアント・コンピュータにおいて表示されている文書に対して何らかの利用者入力があると、広告コンテンツがクライアント・コンピュータにて表示され利用者の閲覧に供されることになる。そのため、クライアント・コンピュータにて広告コンテンツに設定されているリンクが指示されて広告主が意図するWebサイトを利用者が閲覧したり、利用者がそのWebサイトにおいて何らかのトランザクション(アンケートヘの回答、商品の購入など)を発生させたりすることが期待できる。そこでサーバー・コンピュータの管理運営業者は、広告コンテンツがクライアント・コンピュータにて表示されることに対し、検索サイトの管理運営業者や広告主から広告収入を得る、というビジネスモデルを構築することが期待できる。 In general, advertisement content is described on a search result Web page in preference to a record. Therefore, if there is any user input to the document displayed on the client computer, the advertising content is displayed on the client computer and is used for browsing by the user. For this reason, the client computer is instructed to set a link set in the advertisement content, and the user browses the website intended by the advertiser, or the user performs some transaction (response to questionnaire, product, etc.) on the website. Can be expected to generate). Therefore, server computer management operators can be expected to build a business model that obtains advertising revenue from search site management operators and advertisers for advertisement content displayed on client computers. .
===リンク先ページの要約文提示機能===
上述した要約機能では、ブラウザが現に表示しているWebページの要約文を提示していた。本実施例の情報検索支援プログラムによれば、さらに、表示中のWebページに設定されているハイパーリンクに基づいて取得可能な別のWebページについても要約文を提示するリンク先要約文提示機能を実現することができる。当該リンク先要約文提示機能では、ブラウザが現に利用者の閲覧に供しているWebページ(リンク元ページ)に別のWebページ(リンク先ページ)へのハイパーリンクが設定されているとき、リンク先ページを全文表示せず、当該リンク先ページの要約文だけを利用者に事前に提示する。
=== Summary sentence presentation function of linked page ===
The summary function described above presents a summary sentence of the Web page that is currently displayed by the browser. According to the information search support program of the present embodiment, there is further provided a linked summary sentence presentation function for presenting a summary sentence for another Web page that can be acquired based on a hyperlink set in the displayed Web page. Can be realized. In the link destination summary sentence presenting function, when a hyperlink to another Web page (link destination page) is set on the Web page (link source page) that the browser is currently browsing, the link destination Instead of displaying the full text of the page, only the summary text of the linked page is presented to the user in advance.
図16にこのリンク先要約文提示機能によってPCのディスプレイに表示される画面概略を示した。本実施例では、PCにて表示中のリンク元ページ91に設定されているリンク箇所92にマウスカーソル93を置く「マウスオーバー」操作をすると、ブラウザの操作画面90におけるリンク元ページ91の表示領域に重ねて子画面94を表示し、その子画面94にリンク先ページの要約文95を表示する。もちろん、図17に示すように、ブラウザの操作画面90に要約文を表示するための専用領域96を設けてもよい。
FIG. 16 shows an outline of the screen displayed on the display of the PC by the link destination summary sentence presentation function. In this embodiment, when a “mouse over” operation is performed in which the
一般的にブラウザは、リンク箇所にマウスオーバーされてハイパーリンクが記述されていることを検出すると、マウスカーソルの形状を、たとえば矢印から指を差す手のアイコンに変化させる。リンク先要約文提示機能では、ブラウザがリンク箇所を検出したことを認知すると、ブラウザに対し、当該箇所に設定されているハイパーリンクを記述するURLに基づいてリンク先ページを取得させる。このとき、取得したリンク先ページは表示せず要約文の抽出処理を行う。具体的には、リンク先ページにおいて、句点や読点、あるいは改行などによって区切られた文字列を文として抽出するとともに、抽出した各文の文字数をカウントする。そして、所定の文字数以上であれば、その文を解析対象文として形態素解析を行う。すなわち、長文のみを要約文の候補とすることで、たとえば、リンク先ページに含まれる広告文テキストや単なるリンク先ページの説明文など、リンク先ページの要約文として不適当な文を排除している。PCにおける要約文抽出のための処理負荷を軽減する効果もある。 In general, when the browser detects that a hyperlink is described by hovering over a link location, the browser changes the shape of the mouse cursor to, for example, an icon of a hand pointing a finger from an arrow. In the link destination summary sentence presenting function, when the browser recognizes that the link location has been detected, the browser causes the browser to acquire the link destination page based on the URL describing the hyperlink set in the location. At this time, the abstract link is extracted without displaying the acquired link destination page. Specifically, in the link destination page, a character string delimited by a punctuation mark, a punctuation mark, or a line feed is extracted as a sentence, and the number of characters of each extracted sentence is counted. If the number of characters is equal to or greater than the predetermined number, morphological analysis is performed with the sentence as an analysis target sentence. In other words, by using only long sentences as candidates for summary sentences, for example, it is possible to eliminate sentences that are inappropriate as summary sentences for linked pages, such as advertisement texts included in linked pages and simple linked page descriptions. Yes. There is also an effect of reducing the processing load for extracting the summary sentence on the PC.
次に、要約文の候補となる文を解析対象文として形態素解析し、全解析対象文に含まれる単語を抽出する。そして、抽出した全ての単語において、所定の品詞の単語を計数対象として、その計数対象単語の出現回数をカウントする。本実施例では、名詞を計数対象単語として出現回数をカウントするとともに、全ての名詞のそれぞれについての出現回数を単語別ポイントとして取得する。 Next, a morphological analysis is performed on a sentence as a summary sentence candidate as an analysis target sentence, and words included in all the analysis target sentences are extracted. Then, in all the extracted words, a word with a predetermined part of speech is used as a counting target, and the number of appearances of the counting target word is counted. In the present embodiment, the number of appearances is counted using nouns as count target words, and the number of appearances for each of all nouns is acquired as a word-specific point.
さらに、一つの解析対象文について、その文に含まれる各名詞の単語別ポイントを加算した合計ポイントをその文の評価値として取得する。すなわち、各単語に出現回数に応じた単語別ポイントを対応付けするとともに、各解析対象文のそれぞれに含まれる単語別ポイントを合計する。このようにすることで、出現回数の多い名詞が多く含まれる文ほど評価値が高くなるようにしている。 Further, for one analysis target sentence, a total point obtained by adding the word-specific points of each noun included in the sentence is acquired as an evaluation value of the sentence. That is, each word is associated with a point by word corresponding to the number of appearances, and the point by word included in each analysis target sentence is totaled. By doing in this way, the evaluation value is made higher as the sentence includes more nouns that appear more frequently.
たとえば、ブラウザが取得したWebページにおいて、全ての解析対象文から抽出した、「太郎」「本」「鉛筆」のそれぞれの名詞の出現回数が、3回、5回、7回であったとする。ここで、「太郎は、本と鉛筆を買う。」という解析対象文がWebページ中にあるとすると、この文の評価値は、3+5+7=15ポイントとなる。このようにして、全ての解析対象文についての評価値を取得したならば、最終的に、評価値の最も高い文を要約文として抽出し、その要約文を適宜に表示する。もちろん、出現回数の計数対象となる単語の品詞は、名詞に限らず、他の品詞であってもよい。利用者により計数対象となる品詞を設定できるように構成しておいてもよい。 For example, suppose that the number of occurrences of each noun of “Taro”, “Book”, and “Pencil” extracted from all analysis target sentences in the Web page acquired by the browser is 3, 5, and 7. Here, if there is an analysis target sentence “Taro buys a book and a pencil” in the Web page, the evaluation value of this sentence is 3 + 5 + 7 = 15 points. If evaluation values for all analysis target sentences are acquired in this way, the sentence having the highest evaluation value is finally extracted as a summary sentence, and the summary sentence is appropriately displayed. Of course, the part of speech of the word for which the number of appearances is counted is not limited to a noun, and may be another part of speech. You may comprise so that the user can set the part of speech used as a count object.
なお、このリンク先要約提示機能についても、サーバー・クライアント・システムによる分散処理によって実現してもよい。この場合、クライアント・コンピュータが、マウスオーバーされている位置に設定されているハイパーリンクを記述するURLをサーバー・コンピュータに送付すればよい。サーバー・コンピュータは、受信したURLに基づいてWebページを取得し、そのページ中の文書から要約文を抽出し、その要約文をクライアント・コンピュータに送付する。クライアント・コンピュータは、送付されてきた要約文を適宜に表示すればよい。 The link destination summary presentation function may also be realized by distributed processing by the server / client system. In this case, the client computer may send a URL describing the hyperlink set at the position where the mouse is over to the server computer. The server computer acquires a Web page based on the received URL, extracts a summary sentence from the document in the page, and sends the summary sentence to the client computer. The client computer may display the sent summary sentence as appropriate.
10 文
11 単語
12 品詞
16 文節境界判定テーブル
18,18b,18c 文節
30、80、90 ブラウザ画面
31 情報検索支援プログラム操作領域
32 情報検索支援プログラム表示画面
40a Webページの文書
40b リンクを再設定した文書
10
Claims (24)
取得した文書の任意の文字記載位置を指示するユーザ入力を受け付け、当該文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文字列の記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定ステップと、
前記キーワード抽出範囲の文字列を処理対象として形態素解析し、単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、前記処理対象の文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識ステップと、
文字列単位を指定するユーザ入力に従って、前記処理対象の文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定ステップと、
所定のユーザ入力を受け付けて、設定した前記検索キーワードを所定のデータベースに照会し、当該データベースから返送されてきた照会結果を表示出力するキーワード照会ステップと、
を実行させることを特徴とする情報検索支援プログラム。 A program installed on a computer,
Accepts user input indicating any character description position of the acquired document, extracts characters before and after the character at the character description position in character string units based on punctuation marks or reading marks, and describes the extracted character string A keyword extraction range setting step for setting a location as a keyword extraction range;
Morphological analysis of the character string of the keyword extraction range as a processing target, decomposed in units of words, and for each decomposed word, morpheme analysis step that associates and manages each part of speech and usage as grammatical information;
A character string unit recognition step for recognizing each character string unit of a word, a phrase, and a sentence from the character string to be processed based on the grammatical information;
In accordance with user input designating a character string unit, a keyword setting step for classifying the character string to be processed for each designated character string unit, and setting a character string described by the divided character string unit as a search keyword;
A keyword inquiry step of accepting a predetermined user input, inquiring the set search keyword to a predetermined database, and displaying and outputting an inquiry result returned from the database;
An information retrieval support program characterized by causing
処理対象として取得した文書を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、文書中で連続する文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識ステップと、
前記文書をユーザ入力により指定された文字列単位ごとに区分し、当該区分した文字列単位の記載箇所をリンク対象箇所として識別可能にして表示するリンク対象設定ステップと、
前記リンク対象箇所に含まれる文字列を検索キーワードに設定するキーワード設定ステップと、
前記リンク対象箇所に前記検索キーワードを所定のデータベースに照会する旨のハイパーリンクを設定するリンク設定ステップと、
ユーザ入力により、あるリンク対象箇所に設定されたハイパーリンクが指示されると、当該ハイパーリンクに基づいて前記所定のデータベースから返送されてきた照会結果を表示出力する照会結果提示ステップと、
を実行させることを特徴とする情報検索支援プログラム。 A program installed on a computer,
A morphological analysis step for analyzing a morphological analysis of a document acquired as a processing target and disassembling it into word units, and associating and managing each part of speech and usage as grammatical information for each decomposed word;
A character string unit recognition step for recognizing each character string unit of a word, a phrase, and a sentence from a continuous character string in a document based on the grammatical information;
A link target setting step of classifying the document into character string units designated by user input, and displaying the segmented character string unit so that it can be identified as a link target location;
A keyword setting step of setting a character string included in the link target portion as a search keyword;
A link setting step for setting a hyperlink indicating that the search keyword is referred to a predetermined database in the link target portion;
When a hyperlink set in a certain link target location is instructed by user input, a query result presentation step for displaying and outputting a query result returned from the predetermined database based on the hyperlink;
An information retrieval support program characterized by causing
前記文書を構文解析して文を抽出し、当該文における係り受け関係を取得して管理する構文解析ステップを含み、
前記リンク対象設定ステップでは、前記文において、前後の文節が係り受けの関係にある場合、当該係り受け関係にある文節を連結した文字列の記載箇所をリンク対象箇所に設定し、
前記キーワード設定ステップでは、前記文において、ユーザ入力により指定された係り受け関係にある文字列を検索キーワードに設定する、
ことを特徴とする情報検索支援プログラム。 In claim 3,
Including a syntax analysis step of parsing the document to extract a sentence, obtaining and managing a dependency relationship in the sentence,
In the link target setting step, in the sentence, when the preceding and following clauses are in a dependency relationship, the description location of the character string connecting the clauses in the dependency relationship is set as the link target location,
In the keyword setting step, in the sentence, a character string having a dependency relation designated by user input is set as a search keyword.
An information retrieval support program characterized by that.
取得した文書の表示手段と、
形態素解析処理を実行するサーバー・コンピュータとの通信手段と、
所定のユーザ入力により、文字列単位の指定と、表示中の文書における任意の文字記載位置の指示とを受け付け、当該指示された文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文字列の記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定手段と、
指定された前記文字列単位と、前記キーワード抽出範囲の文字列と、指示された前記文字記載位置とを含む解析依頼電文を、前記サーバー・コンピュータに送付する解析依頼電文送付手段と、
前記解析依頼電文を受け取った前記サーバー・コンピュータから検索キーワードを含む電文が返送されてくると、当該検索キーワードを所定のデータベースに照会して、その照会結果を表示出力する検索結果提示手段と、
を備えたことを特徴とする情報検索支援機能を有するコンピュータ。 A client computer in a server-client system,
Means for displaying the acquired document;
Means for communicating with a server computer for executing morphological analysis processing;
Based on a predetermined user input, it accepts designation of a character string unit and an instruction of an arbitrary character description position in the displayed document, and the characters before and after the character at the indicated character description position are based on a punctuation mark or a punctuation mark A keyword extraction range setting means for extracting a character string unit and setting a description location of the extracted character string as a keyword extraction range;
An analysis request message sending means for sending an analysis request message including the designated character string unit, the character string of the keyword extraction range, and the designated character description position to the server computer;
When a message containing a search keyword is returned from the server computer that has received the analysis request message, a search result presenting means for querying the search keyword to a predetermined database and displaying the query result;
A computer having an information search support function characterized by comprising:
取得した文書の表示手段と、
形態素解析処理を実行するサーバー・コンピュータとの通信手段と、
所定のユーザ入力により、文字列単位の指定と、表示中の文書における任意の文字記載位置の指示とを受け付け、当該指示された文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文字列の記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定手段と、
指定された前記文字列単位と、前記キーワード抽出範囲の文字列と、指示された前記文字記載位置とを含む解析依頼電文を、前記サーバー・コンピュータに送付する解析依頼電文送付手段と、
前記解析依頼電文を受け取った前記サーバー・コンピュータから返送されてくる検索キーワード照会結果を表示出力する検索結果提示手段と、
を備えたことを特徴とする情報検索支援機能を有するコンピュータ。 A client computer in a server-client system,
Means for displaying the acquired document;
Means for communicating with a server computer for executing morphological analysis processing;
Based on a predetermined user input, it accepts designation of a character string unit and an instruction of an arbitrary character description position in the displayed document, and the characters before and after the character at the indicated character description position are based on a punctuation mark or a punctuation mark A keyword extraction range setting means for extracting a character string unit and setting a description location of the extracted character string as a keyword extraction range;
An analysis request message sending means for sending an analysis request message including the designated character string unit, the character string of the keyword extraction range, and the designated character description position to the server computer;
Search result presentation means for displaying and outputting a search keyword query result returned from the server computer that has received the analysis request message;
A computer having an information search support function characterized by comprising:
当該クライアント・コンピュータから送付されてきた解析依頼電文に含まれる文字列を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析手段と、
前記文法情報に基づいて、前記文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識手段と、
前記解析依頼電文に含まれる文字列単位の指定情報に従って、前記文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定手段と、
前記検索キーワードを含むとともに、当該キーワードを所定のデータベースに照会させる旨の指示を含んだキーワード照会電文を前記クライアント・コンピュータに返送する検索キーワード照会電文送付手段と
を備えたことを特徴とする情報検索支援機能を有するサーバー・コンピュータ。 A server computer that communicates a computer having the information search support function according to claim 10 as a client computer,
The character string contained in the analysis request message sent from the client computer is morphologically analyzed and decomposed into word units, and for each decomposed word, each part of speech and usage form are associated with each other as grammatical information and managed. Morphological analysis means to perform,
Character string unit recognition means for recognizing each character string unit of words, phrases, and sentences from the character string based on the grammatical information;
Keyword setting means for dividing the character string into designated character string units according to the designation information in character string units included in the analysis request message, and setting a character string described by the divided character string units as a search keyword When,
A search keyword inquiry message sending means for returning a keyword inquiry message including the search keyword and an instruction for making the keyword to be inquired to a predetermined database to the client computer. Server computer with support function.
当該クライアント・コンピュータから送付されてきた解析依頼電文に含まれる文字列を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析手段と、
前記文法情報に基づいて、前記文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識手段と、
前記解析依頼電文に含まれる文字列単位の指定情報に従って、前記文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定手段と、
前記検索キーワードを所定のデータベースに照会して、その照会結果を前記クライアント・コンピュータに返送する照会結果返送手段と
を備えたことを特徴とする情報検索支援機能を有するサーバー・コンピュータ。 A server computer that communicates a computer having the information search support function according to claim 11 as a client computer,
The character string contained in the analysis request message sent from the client computer is morphologically analyzed and decomposed into word units, and for each decomposed word, each part of speech and usage form are associated with each other as grammatical information and managed. Morphological analysis means to perform,
Character string unit recognition means for recognizing each character string unit of words, phrases, and sentences from the character string based on the grammatical information;
Keyword setting means for dividing the character string into designated character string units according to the designation information in character string units included in the analysis request message, and setting a character string described by the divided character string units as a search keyword When,
A server computer having an information search support function, comprising: inquiry result return means for inquiring the search keyword into a predetermined database and returning the inquiry result to the client computer.
所定のユーザ入力により、文字列単位の指定と、表示中の文書における任意の文字記載位置の指示とを受け付け、当該指示された文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文の文字列記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定ステップと、
指定された前記文字列単位と、前記キーワード抽出範囲の文字列と、指示された前記文字記載位置とを含む解析依頼電文を、前記サーバー・コンピュータに送付する解析依頼電文送付ステップと、
前記解析依頼電文を受け取った前記サーバー・コンピュータから検索キーワードを含む電文が返送されてくると、当該検索キーワードを所定のデータベースに照会して、その照会結果を表示出力する検索結果提示ステップと、
を実行させることを特徴とする情報検索支援プログラム。 It is installed in a computer that has a display function for the acquired document and a communication function with a server computer that executes morphological analysis processing.
Based on a predetermined user input, it accepts designation of a character string unit and an instruction of an arbitrary character description position in the displayed document, and the characters before and after the character at the indicated character description position are based on a punctuation mark or a punctuation mark A keyword extraction range setting step for extracting a character string unit and setting a character string description portion of the extracted sentence as a keyword extraction range;
An analysis request message sending step for sending an analysis request message including the designated character string unit, the character string of the keyword extraction range, and the designated character description position to the server computer;
When a message including a search keyword is returned from the server computer that has received the analysis request message, a search result presenting step for inquiring the search keyword to a predetermined database and displaying the inquiry result;
An information retrieval support program characterized by causing
所定のユーザ入力により、文字列単位の指定と、表示中の文書における任意の文字記載位置の指示とを受け付け、当該指示された文字記載位置にある文字の前後の文字を句点、あるいは読点に基づく文字列単位で抽出するとともに、当該抽出した文の文字列記載箇所をキーワード抽出範囲として設定するキーワード抽出範囲設定ステップと、
指定された前記文字列単位と、前記キーワード抽出範囲の文字列と、指示された前記文字記載位置とを含む解析依頼電文を、前記サーバー・コンピュータに送付する解析依頼電文送付ステップと、
前記解析依頼電文を受け取った前記サーバー・コンピュータから返送されてくる検索キーワード照会結果を表示出力する検索結果提示ステップと、
を実行させることを特徴とする情報検索支援プログラム。 It is installed in a computer that has a display function for the acquired document and a communication function with a server computer that executes morphological analysis processing.
Based on a predetermined user input, it accepts designation of a character string unit and an instruction of an arbitrary character description position in the displayed document, and the characters before and after the character at the indicated character description position are based on a punctuation mark or a punctuation mark A keyword extraction range setting step for extracting a character string unit and setting a character string description portion of the extracted sentence as a keyword extraction range;
An analysis request message sending step for sending an analysis request message including the designated character string unit, the character string of the keyword extraction range, and the designated character description position to the server computer;
A search result presentation step of displaying and outputting a search keyword query result returned from the server computer that has received the analysis request message;
An information retrieval support program characterized by causing
クライアント・コンピュータから送付されてきた解析依頼電文に含まれる文字列を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、前記文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識ステップと、
前記解析依頼電文に含まれる文字列単位の指定情報に従って、前記文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定ステップと、
前記検索キーワードを含むとともに、当該キーワードを所定のデータベースに照会させる旨の指示を含んだキーワード照会電文を前記クライアント・コンピュータに返送する検索キーワード照会電文送付ステップと、
を実行させることを特徴とする情報検索支援プログラム。 Installed on a server computer that can communicate with a client computer accessed over a network,
The character string included in the analysis request message sent from the client computer is morphologically analyzed and decomposed into word units, and the parts of speech and usage forms of each decomposed word are managed in association with grammatical information. A morphological analysis step;
Based on the grammatical information, from the character string, a character string unit recognition step for recognizing each character string unit of a word, a clause, and a sentence;
Keyword setting step of dividing the character string into designated character string units according to the designation information in character string units included in the analysis request message, and setting a character string described by the divided character string units as a search keyword When,
A search keyword inquiry message sending step that includes the search keyword and returns a keyword inquiry message including an instruction to make the keyword inquired to a predetermined database to the client computer;
An information retrieval support program characterized by causing
クライアント・コンピュータから送付されてきた解析依頼電文に含まれる文字列を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、前記文字列から、単語、文節、文の各文字列単位を認識する文字列単位認識ステップと、
前記解析依頼電文に含まれる文字列単位の指定情報に従って、前記文字列を指定の文字列単位ごとに区分し、当該区分した文字列単位によって記述される文字列を検索キーワードに設定するキーワード設定ステップと、
前記検索キーワードを所定のデータベースに照会して、その照会結果を前記クライアント・コンピュータに返送する照会結果返送ステップと、
を実行させることを特徴とする情報検索支援プログラム。 Installed on a server computer that can communicate with a client computer accessed over a network,
The character string included in the analysis request message sent from the client computer is morphologically analyzed and decomposed into word units, and the parts of speech and usage forms of each decomposed word are managed in association with grammatical information. A morphological analysis step;
Based on the grammatical information, from the character string, a character string unit recognition step for recognizing each character string unit of a word, a clause, and a sentence;
Keyword setting step of dividing the character string into designated character string units according to the designation information in character string units included in the analysis request message, and setting a character string described by the divided character string units as a search keyword When,
A query result returning step of querying the search keyword to a predetermined database and returning the query result to the client computer;
An information retrieval support program characterized by causing
ブラウザが取得したWebページに設定されている別のWebページへのハイパーリンクの表示位置を指示するユーザ入力を受け付けて、当該別のWebページの記載内容を要約文にして表示出力する処理を実行させる情報検索支援プログラムであって、
前記、別のWebページに含まれる文書を利用者に向けて表示出力せずに取得するリンク先文書取得ステップと、
当該取得した文書において、句点や読点、あるいは改行に基づく文字列単位を文として認識するとともに、当該認識した文について、所定数以上の文字を含む文を解析対象文として特定する解析対象文特定ステップと、
当該特定した解析対象文を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、全ての前記解析対象文に含まれる所定の品詞の単語を計数対象単語として抽出するとともに、各計数対象単語の出現回数を取得する単語出現回数取得ステップと、
各計数対象単語の出現回数を単語別ポイントとするとともに、一つの解析対象文に含まれる計数対象単語のそれぞれの単語別ポイントの合計値をその文の評価値として、各解析対象文の評価値を取得する評価値取得ステップと、
最も高い評価値に該当する解析対象文を要約文として抽出する要約文抽出ステップと、
要約文抽出ステップにより抽出した要約文をブラウザが取得したWebページの文書とは別の表示領域に表示出力する要約文表示ステップと
を実行させる情報検索支援プログラム。 Installed on a computer with a browser installed,
Accepts user input indicating the display position of a hyperlink to another web page set in the web page acquired by the browser, and executes a process of displaying and outputting the description content of the other web page as a summary sentence An information retrieval support program that
A linked document acquisition step of acquiring a document included in another Web page without displaying and outputting the document to a user;
An analysis target sentence specifying step for recognizing a character string unit based on a punctuation mark, a punctuation mark, or a line break as a sentence in the acquired document, and specifying a sentence including a predetermined number of characters or more as an analysis target sentence for the recognized sentence When,
Morphological analysis of the identified sentence to be analyzed and decomposed into units of words, and for each decomposed word, a morphological analysis step of managing the corresponding part of speech and usage as grammatical information,
Based on the grammatical information, extracting words of a predetermined part of speech included in all the analysis target sentences as counting target words, and a word appearance number acquiring step of acquiring the number of appearances of each counting target word;
The number of occurrences of each count target word is used as a point for each word, and the total value of each point for each count target word included in one analysis target sentence is used as the evaluation value for that sentence. An evaluation value acquisition step for acquiring
A summary sentence extraction step for extracting an analysis target sentence corresponding to the highest evaluation value as a summary sentence;
An information retrieval support program that executes a summary sentence display step of displaying and outputting the summary sentence extracted in the summary sentence extraction step in a display area different from the Web page document acquired by the browser.
ブラウザから送付されてきたURLに従ってWebページを取得するとともに、当該Webページに含まれる文書において、句点や読点、あるいは改行に基づく文字列単位を文として認識し、当該認識した文について、所定数以上の文字を含む文を解析対象文として特定する解析対象文特定ステップと、
当該特定した解析対象文を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析ステップと、
前記文法情報に基づいて、全ての前記解析対象文に含まれる所定の品詞の単語を計数対象単語として抽出するとともに、各計数対象単語の出現回数を取得する単語出現回数取得ステップと、
各計数対象単語の出現回数を単語別ポイントとするとともに、一つの解析対象文に含まれる計数対象単語のそれぞれの単語別ポイントの合計値をその文の評価値として、各解析対象文の評価値を取得する評価値取得ステップと、
最も高い評価値に該当する解析対象文を要約文として抽出する要約文抽出ステップと、
要約文抽出ステップにより抽出した要約文を前記ブラウザに返送する要約文返送ステップと、
を実行させる情報検索支援プログラム。 It is installed on a server computer that can communicate with a browser accessed via the network,
Acquires a Web page according to the URL sent from the browser, recognizes a character string unit based on a punctuation mark, a punctuation mark, or a line break in a document included in the Web page as a sentence. An analysis target sentence specifying step for specifying a sentence including the character as an analysis target sentence;
Morphological analysis of the identified sentence to be analyzed and decomposed into units of words, and for each decomposed word, a morphological analysis step of managing the corresponding part of speech and usage as grammatical information,
Based on the grammatical information, extracting words of a predetermined part of speech included in all the analysis target sentences as counting target words, and a word appearance number acquiring step of acquiring the number of appearances of each counting target word;
The number of occurrences of each count target word is used as a point for each word, and the total value of each point for each count target word included in one analysis target sentence is used as the evaluation value for that sentence. An evaluation value acquisition step for acquiring
A summary sentence extraction step for extracting an analysis target sentence corresponding to the highest evaluation value as a summary sentence;
A summary sentence returning step of returning the summary sentence extracted by the summary sentence extracting step to the browser;
An information retrieval support program that executes
前記、別のWebページに含まれる文書を利用者に向けて表示出力せずに取得するリンク先文書取得手段と、
当該取得した文書において、句点や読点、あるいは改行に基づく文字列単位を文として認識するとともに、当該認識した文について、所定数以上の文字を含む文を解析対象文として特定する解析対象文特定手段と、
当該特定した解析対象文を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析手段と、
前記文法情報に基づいて、全ての前記解析対象文に含まれる所定の品詞の単語を計数対象単語として抽出するとともに、各計数対象単語の出現回数を取得する単語出現回数取得手段と、
各計数対象単語の出現回数を単語別ポイントとするとともに、一つの解析対象文に含まれる計数対象単語のそれぞれの単語別ポイントの合計値をその文の評価値として、各解析対象文の評価値を取得する評価値取得手段と、
最も高い評価値に該当する解析対象文を要約文として抽出する要約文抽出手段と、
要約文抽出手段が抽出した要約文をブラウザが取得したWebページの文書とは別の表示領域に表示出力する要約文表示手段と、
を備えたことを特徴とする情報検索支援機能を有するコンピュータ。 Implements a browser, accepts user input indicating the display position of a hyperlink to another web page set in the web page acquired by the browser, and makes the description content of the other web page a summary sentence A computer for display output,
A linked document acquisition means for acquiring a document contained in another Web page without displaying and outputting it to a user;
In the acquired document, a character string unit based on a punctuation mark, a punctuation mark, or a line feed is recognized as a sentence, and a sentence including a predetermined number of characters or more is identified as an analysis target sentence for the recognized sentence. When,
Morphological analysis of the identified sentence to be analyzed and decomposed into units of words, and for each decomposed word, morphological analysis means that associates and manages each part of speech and usage as grammatical information,
Based on the grammatical information, the word appearance frequency acquisition means for extracting words of a predetermined part of speech included in all the analysis target sentences as counting target words and acquiring the number of appearances of each counting target word;
The number of occurrences of each count target word is used as a point for each word, and the total value of each point for each count target word included in one analysis target sentence is used as the evaluation value for that sentence. Evaluation value acquisition means for acquiring
Summary sentence extraction means for extracting the analysis target sentence corresponding to the highest evaluation value as a summary sentence;
Summary text display means for displaying and outputting the summary text extracted by the summary text extraction means in a display area different from the document of the Web page acquired by the browser;
A computer having an information search support function characterized by comprising:
ネットワークを介してアクセスしてきたブラウザと通信する手段と、
ブラウザから送付されてきたURLに従ってWebページを取得するとともに、当該Webページに含まれる文書において、句点や読点、あるいは改行に基づく文字列単位を文として認識し、当該認識した文について、所定数以上の文字を含む文を解析対象文として特定する解析対象文特定手段と、
当該特定した解析対象文を形態素解析して単語単位に分解するとともに、分解した各単語について、それぞれの品詞や活用形を文法情報として対応付けして管理する形態素解析手段と、
前記文法情報に基づいて、全ての前記解析対象文に含まれる所定の品詞の単語を計数対象単語として抽出するとともに、各計数対象単語の出現回数を取得する単語出現回数取得手段と、
各計数対象単語の出現回数を単語別ポイントとするとともに、一つの解析対象文に含まれる計数対象単語のそれぞれの単語別ポイントの合計値をその文の評価値として、各解析対象文の評価値を取得する評価値取得手段と、
最も高い評価値に該当する解析対象文を要約文として抽出する要約文抽出手段と、
要約文抽出手段が抽出した要約文を前記ブラウザに返送する要約文返送手段と、
を備えたことを特徴とする情報検索支援機能を有するサーバー・コンピュータ。 A server computer in a server-client system,
Means for communicating with a browser accessed over a network;
Acquires a Web page according to the URL sent from the browser, recognizes a character string unit based on a punctuation mark, a punctuation mark, or a line break in a document included in the Web page as a sentence. An analysis target sentence specifying means for specifying a sentence including a character as an analysis target sentence,
Morphological analysis of the identified sentence to be analyzed and decomposed into units of words, and for each decomposed word, morphological analysis means that associates and manages each part of speech and usage as grammatical information,
Based on the grammatical information, the word appearance frequency acquisition means for extracting words of a predetermined part of speech included in all the analysis target sentences as counting target words and acquiring the number of appearances of each counting target word;
The number of occurrences of each count target word is used as a point for each word, and the total value of each point for each count target word included in one analysis target sentence is used as the evaluation value for that sentence. Evaluation value acquisition means for acquiring
Summary sentence extraction means for extracting the analysis target sentence corresponding to the highest evaluation value as a summary sentence;
Summary sentence return means for returning the summary sentence extracted by the summary sentence extraction means to the browser;
A server computer having an information retrieval support function.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011130257A JP2011181109A (en) | 2005-08-30 | 2011-06-10 | Information retrieval support program, computer having information retrieval support function, server computer and program storage medium |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005248779 | 2005-08-30 | ||
JP2005248779 | 2005-08-30 | ||
JP2006062647 | 2006-03-08 | ||
JP2006062647 | 2006-03-08 | ||
JP2011130257A JP2011181109A (en) | 2005-08-30 | 2011-06-10 | Information retrieval support program, computer having information retrieval support function, server computer and program storage medium |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006163954A Division JP4934355B2 (en) | 2005-08-30 | 2006-06-13 | Information search support program, computer having information search support function, server computer, program storage medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011181109A true JP2011181109A (en) | 2011-09-15 |
Family
ID=44692487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011130257A Pending JP2011181109A (en) | 2005-08-30 | 2011-06-10 | Information retrieval support program, computer having information retrieval support function, server computer and program storage medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011181109A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6077083B1 (en) * | 2015-10-09 | 2017-02-08 | ヤフー株式会社 | Information display device, information display method, information display program, and distribution device |
US10067921B2 (en) | 2014-03-20 | 2018-09-04 | Nec Corporation | Information processing apparatus, information processing method, and information processing program |
CN109933805A (en) * | 2019-03-26 | 2019-06-25 | 深圳Tcl数字技术有限公司 | Text resolution method, system and computer readable storage medium |
CN111159359A (en) * | 2019-12-31 | 2020-05-15 | 达闼科技成都有限公司 | Document retrieval method, document retrieval device and computer-readable storage medium |
CN113228003A (en) * | 2019-12-06 | 2021-08-06 | 谷歌有限责任公司 | Providing different content pages based on varying user interactions with a single content item |
CN113961848A (en) * | 2021-11-09 | 2022-01-21 | 北京锐安科技有限公司 | Webpage element labeling processing method and device, electronic equipment and storage medium |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10312260A (en) * | 1997-05-14 | 1998-11-24 | Fujitsu Ltd | Link destination information indication device and recording medium recording program for executing operation |
JPH11184865A (en) * | 1997-12-19 | 1999-07-09 | Matsushita Electric Ind Co Ltd | Document summarizing device |
JP2000276471A (en) * | 1999-03-23 | 2000-10-06 | Seiko Epson Corp | Method and device for presenting outline of link destination information and recording medium for recording processing program for presenting outline of link destination information |
JP2002297667A (en) * | 2001-03-29 | 2002-10-11 | Sanyo Electric Co Ltd | Document browsing device |
JP2003281093A (en) * | 2002-03-26 | 2003-10-03 | Rikogaku Shinkokai | Method and device for browsing link destination information in browser |
JP2004046478A (en) * | 2002-07-11 | 2004-02-12 | Cec:Kk | Link destination screen display system, link destination screen display program, and storage medium with the program stored therein |
JP2005032041A (en) * | 2003-07-07 | 2005-02-03 | Nippon Telegr & Teleph Corp <Ntt> | Continuous browsing support device and method of linked content, and display control method, and erasing control method of pop-up window |
-
2011
- 2011-06-10 JP JP2011130257A patent/JP2011181109A/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10312260A (en) * | 1997-05-14 | 1998-11-24 | Fujitsu Ltd | Link destination information indication device and recording medium recording program for executing operation |
JPH11184865A (en) * | 1997-12-19 | 1999-07-09 | Matsushita Electric Ind Co Ltd | Document summarizing device |
JP2000276471A (en) * | 1999-03-23 | 2000-10-06 | Seiko Epson Corp | Method and device for presenting outline of link destination information and recording medium for recording processing program for presenting outline of link destination information |
JP2002297667A (en) * | 2001-03-29 | 2002-10-11 | Sanyo Electric Co Ltd | Document browsing device |
JP2003281093A (en) * | 2002-03-26 | 2003-10-03 | Rikogaku Shinkokai | Method and device for browsing link destination information in browser |
JP2004046478A (en) * | 2002-07-11 | 2004-02-12 | Cec:Kk | Link destination screen display system, link destination screen display program, and storage medium with the program stored therein |
JP2005032041A (en) * | 2003-07-07 | 2005-02-03 | Nippon Telegr & Teleph Corp <Ntt> | Continuous browsing support device and method of linked content, and display control method, and erasing control method of pop-up window |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10067921B2 (en) | 2014-03-20 | 2018-09-04 | Nec Corporation | Information processing apparatus, information processing method, and information processing program |
JP6077083B1 (en) * | 2015-10-09 | 2017-02-08 | ヤフー株式会社 | Information display device, information display method, information display program, and distribution device |
CN109933805A (en) * | 2019-03-26 | 2019-06-25 | 深圳Tcl数字技术有限公司 | Text resolution method, system and computer readable storage medium |
CN109933805B (en) * | 2019-03-26 | 2024-06-07 | 深圳Tcl数字技术有限公司 | Text parsing method, system and computer readable storage medium |
CN113228003A (en) * | 2019-12-06 | 2021-08-06 | 谷歌有限责任公司 | Providing different content pages based on varying user interactions with a single content item |
JP2022516686A (en) * | 2019-12-06 | 2022-03-02 | グーグル エルエルシー | Providing different content pages based on changing user interactions with a single content item |
JP7177172B2 (en) | 2019-12-06 | 2022-11-22 | グーグル エルエルシー | Serving different content pages based on changing user interactions with a single content item |
JP7448613B2 (en) | 2019-12-06 | 2024-03-12 | グーグル エルエルシー | Serving different content pages based on varying user interactions with a single content item |
CN111159359A (en) * | 2019-12-31 | 2020-05-15 | 达闼科技成都有限公司 | Document retrieval method, document retrieval device and computer-readable storage medium |
CN111159359B (en) * | 2019-12-31 | 2023-04-21 | 达闼机器人股份有限公司 | Document retrieval method, device and computer readable storage medium |
CN113961848A (en) * | 2021-11-09 | 2022-01-21 | 北京锐安科技有限公司 | Webpage element labeling processing method and device, electronic equipment and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4934355B2 (en) | Information search support program, computer having information search support function, server computer, program storage medium | |
US6381593B1 (en) | Document information management system | |
Witten et al. | Text mining in a digital library | |
KR100815215B1 (en) | Apparatus and method for integration search of web site | |
CN101887414B (en) | Server for automatically scoring opinion conveyed by text message containing pictorial-symbols | |
Ekbal et al. | A web-based Bengali news corpus for named entity recognition | |
US20100076984A1 (en) | System and method for query expansion using tooltips | |
Capstick et al. | A system for supporting cross-lingual information retrieval | |
JP2011181109A (en) | Information retrieval support program, computer having information retrieval support function, server computer and program storage medium | |
JP2002197104A (en) | Device and method for data retrieval processing, and recording medium recording data retrieval processing program | |
Pham et al. | Information extraction for Vietnamese real estate advertisements | |
JP2002189721A (en) | Web page retrieval system and translation system | |
Machado et al. | Universal mobile information retrieval | |
JP2002189744A (en) | Web page retrieval system | |
JP2008015611A (en) | Information search support program and apparatus | |
JP2004157965A (en) | Search support device and method, program and recording medium | |
Sankaravelayuthan et al. | English to tamil machine translation system using parallel corpus | |
KR100923936B1 (en) | Method and system for providing search result in case query composed of two or more words or a korean word or the like is inputted in japanese dictionary service | |
Thanadechteemapat et al. | Thai word segmentation for visualization of thai web sites | |
Pantelia | ‘Noûs, INTO CHAOS’: THE CREATION OF THE THESAURUS OF THE GREEK LANGUAGE | |
US20030237042A1 (en) | Document processing device and document processing method | |
Milić-Frayling | Text processing and information retrieval | |
JP2003099429A (en) | Glossary generation device, glossary generation program and glossary retrieval device | |
JPH07114565A (en) | Electronic dictionary | |
Thanadechteemapat et al. | Automatic content extraction and visualization of Thai websites for improved information representation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110624 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110624 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121204 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130402 |