JP5597653B2 - Word extraction apparatus, method, and program - Google Patents

Word extraction apparatus, method, and program Download PDF

Info

Publication number
JP5597653B2
JP5597653B2 JP2012000459A JP2012000459A JP5597653B2 JP 5597653 B2 JP5597653 B2 JP 5597653B2 JP 2012000459 A JP2012000459 A JP 2012000459A JP 2012000459 A JP2012000459 A JP 2012000459A JP 5597653 B2 JP5597653 B2 JP 5597653B2
Authority
JP
Japan
Prior art keywords
pair
document
word
score
place name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012000459A
Other languages
Japanese (ja)
Other versions
JP2013140500A (en
Inventor
宜仁 安田
正彬 西野
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012000459A priority Critical patent/JP5597653B2/en
Publication of JP2013140500A publication Critical patent/JP2013140500A/en
Application granted granted Critical
Publication of JP5597653B2 publication Critical patent/JP5597653B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、単語抽出方法及び装置及びプログラムに係り、特に、文書集合の中から、地名と単語やフレーズの対を抽出するための単語抽出方法及び装置及びプログラムに関する。   The present invention relates to a word extraction method, apparatus, and program, and more particularly, to a word extraction method, apparatus, and program for extracting a place name, word, and phrase pair from a document set.

詳しくは、地理的な条件を受け付けるような文書検索や、地理的観点での文書の分類、あるいは特定の地理範囲で有用な検索用キーワード等の推薦等に用いるための単語抽出方法及び装置及びプログラムに関する。   Specifically, a word extraction method, apparatus, and program for use in document search that accepts geographical conditions, classification of documents from a geographical perspective, or recommendation of search keywords that are useful in a specific geographic range, etc. About.

従来より、インターネットから得られる情報等、大規模な文書を対象として、キーワードを入力することにより、キーワードと関連のある文書を出力する技術が知られている。   2. Description of the Related Art Conventionally, a technique for outputting a document related to a keyword by inputting a keyword for a large document such as information obtained from the Internet is known.

近年、インターネット上での地図サービス等の普及や、GPS等により現在の端末の位置を取得可能なデバイスの普及を背景に、検索条件の一部として位置や地図の範囲を加え、キーワードと地理条件の双方と関連のある文書を出力する技術(地理情報検索)が知られている(例えば、非特許文献1参照)。   In recent years, with the spread of map services on the Internet, and the spread of devices that can acquire the current terminal position by GPS, etc., keywords and geographic conditions are added as part of the search conditions, adding the location and map range. There is known a technique (geographic information search) for outputting a document related to both (see, for example, Non-Patent Document 1).

また、上記のような検索は地図を閲覧しながら、その範囲で興味対象のキーワードに関する情報を検索することに利用することが可能である。その際、利用者がキーワードを想起せずとも、その地図範囲における特徴的な情報を得ることができるような単語やフレーズをシステム側が推薦することが考えられる。その場合、文書集合中で特定の地域と特定の単語が他に比べて有意に多く出現しているような対を用いて、キーワードを選出することになるであろう。   In addition, the above search can be used to search information related to a keyword of interest within a range while browsing a map. At that time, it is conceivable that the system side recommends a word or phrase that allows the user to obtain characteristic information in the map range without recalling the keyword. In that case, a keyword will be selected using a pair in which a specific region and a specific word appear significantly more than others in the document set.

上記のような地理情報検索や、検索キーワードの推薦等を実現するためには、文書中に出現する地名と単語やフレーズの対が必要となる。   In order to implement the above-described geographic information search, search keyword recommendation, etc., a pair of a place name and a word or phrase appearing in a document is required.

このような文書中に出現する地名と単語やフレーズの対の抽出方法としては、大きく2つの方法が考えられる。一つは、文書内での共起を利用する方法であり、地名と単語やフレーズが同一の文書中に出現していれば対と見做すという方法である。例えば、非特許文献1で示されているような、地名と指定されたキーワードの双方が出現した文書について処理するという方式は、この文書内共起を間接的に利用していることになる。また、もう一つの抽出方法としては、文書内の共起ではなく、もっと小さな単位、例えば、文や段落といった単位を用いる方法である。   There are two major methods for extracting pairs of place names and words or phrases that appear in such documents. One is a method of using co-occurrence in a document, in which a place name and a word or phrase appear as a pair if they appear in the same document. For example, a method of processing a document in which both a place name and a designated keyword appear as shown in Non-Patent Document 1 indirectly uses this intra-document co-occurrence. Another extraction method is a method that uses smaller units, for example, units such as sentences and paragraphs, instead of co-occurrence in a document.

安田宜仁、戸田浩之、"検索位置のごく周辺を対象とした地理情報検索"、人工知能学会論文誌、Vol. 23, No.5, pp. 364-373, 2008年7月.Yoshihito Yasuda and Hiroyuki Toda, "Geographical information search for the immediate vicinity of search location", Transactions of the Japanese Society for Artificial Intelligence, Vol. 23, No.5, pp. 364-373, July 2008.

しかし、これまでの方法により、文書内での共起を対象に対を抽出し、処理をした場合には、意味的繋がりがない、あるいは意味的繋がりが希薄な対も抽出してしまうという問題があった。例えば、以下のような文があったとする。   However, when pairs are extracted and processed for co-occurrence in a document by the conventional methods, there is a problem that even if there is no semantic connection or a semantic connection is rare, a pair is extracted. was there. For example, consider the following sentence:

『昨日は横須賀でセパタクローの試合がありました。惜敗でした。ただ、その後自宅でやった打ち上げのヤキソバが美味しかったので満足です!』
この文において、{横須賀−ヤキソバ}という対は意味的には繋がりがないにもかかわらず、文書内での共起を対象とした場合、対として抽出することになってしまう。
“There was a Sepak Takraw match yesterday in Yokosuka. It was a defeat. However, since the yakisoba launched at home was delicious, I was satisfied! ]
In this sentence, the {Yokosuka-Yakisoba} pair is not connected semantically, but it is extracted as a pair when co-occurrence in the document is targeted.

また、一方で、同一文内といった狭い範囲での共起に限定してしまっては、取り扱い対が極端に減ってしまうという問題があった。これは、地名は文書中で頻繁に出現するわけではなく、一度の出現で長い範囲にわたって関連するように用いられることが多いためである。   On the other hand, if the co-occurrence is limited to a narrow range such as in the same sentence, there is a problem that handling pairs are extremely reduced. This is because place names do not appear frequently in documents, but are often used to relate over a long range with a single appearance.

例えば、以下のような文があったとする。   For example, consider the following sentence:

『3年前に横須賀に越して以来、すっかりこの街が気に入っています。山がちな地形で、トンネルが多く、道路が渋滞しやすいのはたまに傷ですが、四方を海に囲まれているおかげでしょうか。温暖な気候で冬でもあまり暖房がいりません。京急で都内に出やすいのもよいですね』
この文において、{横須賀−温暖}や{横須賀−京急}という対は、意味的繋がりが深いと考えられるが、一文内での共起に限定してしまっては対として抽出されないことになる。
“I have really liked this city since I moved to Yokosuka three years ago. It is a mountainous terrain, there are many tunnels, and roads tend to be congested. Sometimes it is a scar, but it is thanks to being surrounded by the sea on all sides. It has a mild climate and does not require much heating even in winter. It ’s also easy to go to Tokyo with Keikyu. ”
In this sentence, the {Yokosuka-warm} and {Yokosuka-Keikyu} pairs are considered to be deeply connected, but if they are limited to co-occurrence within a sentence, they will not be extracted as pairs. .

これらの問題点をまとめると、抽出する対を増やすと意味的繋がりがない対が増えてしまい、逆に絞ると十分な量の対が抽出できないという問題であった。   To sum up these problems, if the number of pairs to be extracted is increased, the number of pairs having no semantic connection is increased. On the other hand, if the number of pairs is narrowed down, a sufficient amount of pairs cannot be extracted.

また、利用の用途によっては、地域と関係していれば任意の語でよいというわけではなく、目的に合致した好ましい語に限った検索や、検索語の推薦を行いたい場合がある。例えば、地域の観光に関する情報を中心とした情報検索、検索語の推薦に用いた場合、それらの地域でたまたま選挙に立候補していた立候補者の氏名ような観光と関係なさそうな語を含む対は抽出しないようにしたい。   In addition, depending on the usage, it is not necessary to use arbitrary words as long as they are related to the region, but there are cases where it is desired to search only for preferred words that match the purpose or to recommend search words. For example, when it is used to search for information centered on information about local tourism and recommend search terms, a pair that includes words that are unlikely to be related to tourism, such as the name of a candidate who was running for an election in those areas. Do not want to extract.

しかし、従来の技術によればこのような目的に好適な対を選別するということはできなかった。   However, according to the prior art, it was not possible to select a pair suitable for such a purpose.

本発明は、上記の点に鑑みなされたもので、文書から利用目的に沿った地名と語の対を抽出することが可能な単語抽出方法及び装置及びプログラムを提供することを目的とする。   The present invention has been made in view of the above points, and an object of the present invention is to provide a word extraction method, apparatus, and program capable of extracting a place name and word pair from a document according to the purpose of use.

上記の課題を解決するため、本発明(請求項1)は、入力された文書集合の中から地名と単語やフレーズの対を抽出する単語抽出装置であって、
入力された対抽出対象文書及び対候補を選出するための文書集合の文書内の単語の区切りを決定し、語を出力する文書解析手段と、
前記対抽出対象文書及び前記対候補を選出するための文書集合から地名表現を抽出し、地名が該文書中に存在する位置情報を特定し、該位置情報、該地名の代表点の緯度・経度、該地名の含意する範囲を出力する地理情報付与手段と、
前記対候補を選出するための文書集合について、前記文書解析手段、前記地理情報付与手段から出力された情報と、入力された好適と見做す典型的な対の例群(以下、「典型対例群」と記す)を用いて、文書集合中で該典型対例群に似た語と地名の対と、該対の好適度スコアを求め、好適対記憶手段に格納する好適対決定手段と、
前記抽出対象文書について、前記文書解析手段、前記地理情報付与手段から出力された情報の語と地名の対が前記好適対記憶手段に含まれていれば、該抽出対象文書内での該語と該地名との距離を求め、該対に対する好適度スコアを取得し、該距離が大きいほど小さく、かつ、該好適度スコアが大きいほど大きくなる値の判定スコアを算出し、該判定スコアが所定の値の以上の対を抽出する対抽出手段と、を有する。
In order to solve the above problems, the present invention (Claim 1) is a word extraction device that extracts a pair of a place name and a word or phrase from an input document set,
Document analysis means for determining word breaks in the documents of the document set for selecting the input pair extraction target document and pair candidates, and outputting the words;
The place name expression is extracted from the document set for selecting the pair extraction target document and the pair candidate, the position information where the place name exists in the document is specified, and the position information, the latitude / longitude of the representative point of the place name , Geographic information giving means for outputting a range implied by the place name;
With respect to the document set for selecting the pair candidate, the information output from the document analysis unit and the geographic information adding unit, and an exemplary group of typical pairs that are considered to be input (hereinafter referred to as “typical pairs”). A pair of words and place names that are similar to the typical pair of examples in the document set, and a suitable pair determination unit that obtains a suitability score of the pair and stores it in the preferred pair storage unit; ,
With respect to the extraction target document, if the preferred pair storage means includes a pair of a word and a place name of information output from the document analysis unit and the geographic information providing unit, the word in the extraction target document The distance to the place name is obtained, and an appropriateness score for the pair is obtained. A determination score having a value that decreases as the distance increases and increases as the appropriateness score increases is calculated. Pair extraction means for extracting pairs of values or more.

また、本発明(請求項2)は、前記好適対決定手段において、
前記対の好適度スコアを算出する際に、該対の一方が地名であることに限定して、ブートストラッピングアルゴリズムを用いる。
In the present invention (Claim 2), in the preferred pair determining means,
When calculating the suitability score of the pair, a bootstrapping algorithm is used only when one of the pair is a place name.

また、本発明(請求項3)は、前記対抽出手段において、
前記抽出対象の文書内での前記語wと前記地名gとの距離を、該語Wが出現した文と該地名gが出現した文の間に含まれる文の数とする手段を含む。
In the present invention (Claim 3), in the pair extraction means,
Means in which the distance between the word w i and the place name g j in the document to be extracted is the number of sentences included between the sentence in which the word W i appears and the sentence in which the place name g j appears including.

また、本発明(請求項4)は、前記対抽出手段において、
前記判定スコアを、文書内での距離が一文以内であれば、前記好適度スコアが所定の値より低くとも対となるに算出する手段、
または、
前記判定スコアを、前記好適度スコアが所定の値より高ければ、前記距離が所定の値より遠くても対となるように算出する手段
のいずれかを含む。
In the present invention (Claim 4), in the pair extraction means,
Means for calculating the judgment score to be paired even if the score in the document is less than a predetermined value if the distance in the document is within one sentence;
Or
If the determination score is higher than a predetermined value, the determination score includes any means that calculates a pair even if the distance is longer than the predetermined value.

本発明によれば、文書集合を対象に、利用目的に沿った典型対例群を与え、既存技術により典型対例群に似た地名と単語の対とそのスコア(好適度スコア)を求めて格納しておき、入力された文書から単語(語)と地名を取り出して、語と地名の距離が大きいほど小さく、かつ、語の好適度スコアが大きいほど大きくなる値の判定スコアを算出し、判定スコアが所定値以上であれば、語と地名の対を出力することにより、文書中での意味的繋がりが希薄な対を抽出してしまうことを避けながら、かつ、利用者が目的に応じて好適と見做す例のみに限定した文書内の多数の対を抽出することができる。   According to the present invention, a typical group of examples according to the purpose of use is given to a document set, and a pair of place name and word similar to the typical group of examples and a score (preferability score) are obtained by existing technology. Store a word (word) and place name from the input document, calculate a determination score with a value that decreases as the distance between the word and the place name increases and increases as the word suitability score increases, If the judgment score is greater than or equal to a predetermined value, outputting pairs of words and place names avoids extracting pairs with a weak semantic connection in the document and allows the user to It is possible to extract a large number of pairs in a document limited to only examples that are considered suitable.

本発明の一実施の形態における単語抽出装置の構成図である。It is a block diagram of the word extraction apparatus in one embodiment of this invention. 本発明の一実施の形態における好適対記憶部の例である。It is an example of the suitable pair memory | storage part in one embodiment of this invention. 本発明の一実施の形態における概要動作のフローチャートである。It is a flowchart of the outline | summary operation | movement in one embodiment of this invention. 本発明の一実施の形態における対抽出部の処理のフローチャートである。It is a flowchart of the process of the pair extraction part in one embodiment of this invention.

以下図面と共に、本発明の実施の形態を説明する。   Embodiments of the present invention will be described below with reference to the drawings.

図1は、本発明の一実施の形態における単語抽出装置の構成を示す。   FIG. 1 shows a configuration of a word extraction device according to an embodiment of the present invention.

同図に示す単語抽出装置10は、文書解析部11、地理情報付与部12、好適対決定部13、対好適度記憶部14、対抽出部15から構成される。   A word extraction device 10 shown in FIG. 1 includes a document analysis unit 11, a geographic information addition unit 12, a suitable pair determination unit 13, a pairing preference storage unit 14, and a pair extraction unit 15.

なお、好適な対候補を選出するための文書集合は都度与えるのではなく、事前にデータベース等に登録しておいても構わない。   It should be noted that a document set for selecting a suitable pair candidate is not given each time, but may be registered in advance in a database or the like.

対項適度記憶部14は、図2に示すように、好適対決定部13によって得られた好適対(地名と語)とその対の好適度スコアを格納する。   As shown in FIG. 2, the paired moderate storage unit 14 stores a suitable pair (place name and word) obtained by the suitable pair determining unit 13 and the suitability score of the pair.

以下に、上記の構成における処理を説明する。   Hereinafter, processing in the above configuration will be described.

図3は、本発明の一実施の形態における概要動作のフローチャートである。   FIG. 3 is a flowchart of an outline operation in one embodiment of the present invention.

ステップ100)文書解析部11は、抽出対象文書と、好適な対候補を選出するための文書集合を入力として、文書内の単語の区切りを決定する。これには、当業者に公知の形態素解析技術を用いることができる。さらに、必要に応じて、単語に限らず、統語的なまとまりとして句を取り出すチャンキング、固有表現抽出(人名地名といった固有名詞や時間表現等の抽出)等を行ってもよい。これらも当業者に公知の技術を用いることができる。   Step 100) The document analysis unit 11 inputs a document to be extracted and a document set for selecting a suitable pair candidate, and determines word breaks in the document. For this, morphological analysis techniques known to those skilled in the art can be used. Furthermore, as necessary, not only words but also chunking for extracting phrases as a syntactic unit, extraction of proper expressions (extraction of proper nouns such as names of person names and time expressions), and the like may be performed. A technique known to those skilled in the art can also be used for these.

以後、これらの区切られた単語やチャンク、固有表現等をまとめて単に「語」と呼ぶ。   Hereinafter, these separated words, chunks, specific expressions, and the like are collectively referred to as “words”.

もし、好適な対候補を選出するための文書集合が都度変わるのでなければ、当該処理を1度だけ行った結果をデータベース等に格納しておいても構わない。   If the document set for selecting a suitable pair candidate does not change each time, the result of performing the process only once may be stored in a database or the like.

さらに、地理情報付与部12は、文書解析部11によって解析された各文書を入力として、文書中に記述された地名と思われる表現を特定し、地名の文書中での位置、地名の代表点の緯度・経度、地名の含意する範囲を出力する。地名の特定、その地名の代表点の緯度・経度の特定には、文献1"平野徹,松尾義博,菊井玄一郎,「地理的距離と有名度を用いた地名の曖昧性解消」、情報処理学会全国大会論文集,2008"等で示される従来の手法を用いることができる。また、地名の含意する範囲については、非特許文献1で示されているような従来法や、既存の数値地図を使うことができる。もし、好適な対候補を選出するための文書集合が都度変わるのでなければ、当該処理を1度だけ行った結果をデータベース等に格納しておいても構わない。   Further, the geographic information giving unit 12 receives each document analyzed by the document analysis unit 11 as input, specifies an expression that seems to be a place name described in the document, and the position of the place name in the document, the representative point of the place name Output the range implied by the latitude / longitude and place name. To specify the place name and the latitude and longitude of the representative point of the place name, reference 1 “Toru Hirano, Yoshihiro Matsuo, Genichiro Kikui,“ Resolving ambiguity of place names using geographical distance and famousness ”, Information Processing Society of Japan The conventional method shown in the National Convention Proceedings, 2008 ", etc. can be used. For the implications of place names, the conventional method as shown in Non-Patent Document 1 or existing numerical maps can be used. If the document set for selecting a suitable pair candidate does not change each time, the result of performing the process only once may be stored in a database or the like.

ステップ200) 好適対決定部13は、好適な対候補を選出するための文書集合に対して、文書解析部11、地理情報付与部12が付与した解析済み文書集合、及び好適とみなす典型的な対の例群を入力とする。好適対決定部13では、文献2"Patrick Pantel and Marco Pennacchiotti. 2006. Espresso: leveraging generic patterns for automatically harvesting semantic relations. In Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics (ACL-44). Associations for Computational Linguistics, Stroudsburg. PA, USA, 113-120."に代表されるような、ブートストラッピングアルゴリズムと呼ばれる種類の公知の技術を用いることができる。これは、少量の好適な対を種データとして与え、文書集合中でこれらの種データ対が出現するパターンを求める。次にこのパターンに合致する対集合を求める。これらを繰り返し適用するアルゴリズムである。なお、単純にブートストラッピングアルゴリズムを利用するのではなく、対の一方が地名であることに限定して処理をすることにより、無関係な対を避けることが可能である。次に、好適対決定部13は、ブートストラッピングによって得られた対を好適対記憶部14へ格納する。その際、得られた対の信頼性スコア(例えば、文献2におけるr(i))を、好適度スコアとして格納する。好適対の決定は、好適な対候補を選出するための文書集合が変わらなくても、好適とみなす典型的な対の例群が変わる度に実行する。 Step 200) The suitable pair determination unit 13 selects a suitable pair candidate, the analyzed document set provided by the document analysis unit 11 and the geographic information addition unit 12, and a typical example that is considered preferable. Take a pair of examples as input. In the preferred pair determination unit 13, Reference 2 "Patrick Pantel and Marco Pennacchiotti. 2006. Espresso: leveraging generic patterns for automatically harvesting semantic relations. In Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics (ACL-44). Associations for Computational Linguistics, Stroudsburg. PA, USA, 113-120. A known technique of the kind called can be used, which gives a small amount of suitable pairs as seed data and determines the patterns in which these seed data pairs appear in the document set, and then matches pairs that match this pattern. This is an algorithm that applies these repeatedly.Instead of simply using the bootstrapping algorithm, processing is performed only when one of the pairs is a place name. Next, the preferred pair determination unit 13 stores the pair obtained by bootstrapping as a preferred pair. Storing to 14. At this time, the resulting pairs confidence score (e.g., r i (i) in reference 2), and stores the preferred scores. Determination of a preferred pair to elect a suitable pair candidates Even if the set of documents for change does not change, it is executed every time the group of typical pairs considered as preferable changes.

ステップ300) 対抽出部15は、抽出対象の文書に対して文書解析部11、地理情報付与部12が処理した結果を入力とし、文書中の各語wと各地名gの全ての対について、図4に示す手順により、本装置10で抽出すべき対か同かを判定する。 Step 300) The pair extraction unit 15 receives the processing result of the document analysis unit 11 and the geographic information addition unit 12 for the document to be extracted, and inputs all pairs of each word w i and each location name g j in the document. 4 is determined by the procedure shown in FIG.

ステップ301) 対抽出部15は、まず、メモリ(図示せず)上の出力対集合を初期化する。   Step 301) The pair extraction unit 15 first initializes an output pair set on a memory (not shown).

ステップ302) 以下の処理を、文書中の全ての地名g−語wについて繰り返す。   Step 302) The following processing is repeated for all place names g-words w in the document.

ステップ303) 好適対記憶部14を参照し、語wと地名gの対が含まれていれば、ステップ304に移行し、含まれていなければ当該対を出力に含むことがないので次の対の処理に移行する。 Step 303) Referring to the preferred pair storage unit 14, if the pair of the word w i and the place name g j is included, the process proceeds to Step 304. If the pair is not included, the pair is not included in the output. Transition to paired processing.

ステップ304) 語wと地名gとの文書内での距離d(w,g)を、語wが出現した文と、地名gが出現した文の間に含まれる文の数とする。特にwとgが同一文内で出現すればd(w,g)=0とする。もし、wあるいはgが文書内で複数回出現する場合、最も距離が小さいものをd(w,g)とする。 Step 304) word w i and place names g j the distance d (w i in the document, the g j), the sentence word w i has appeared, the statements contained between sentences places g j appeared It is a number. In particular, if w i and g j appear in the same sentence, d (w i , g j ) = 0. If w i or g j appears multiple times in the document, the one with the smallest distance is defined as d (w i , g j ).

ステップ305) 好適対記憶部14中の当該対の好適度スコアp(w,g)を取得する。 Step 305) The suitability score p (w i , g j ) of the pair in the preferred pair storage unit 14 is acquired.

ステップ306) 以下の式により判定スコアs(w,g)を求める。 Determined by step 306) following expression score s (w i, determining the g j).

Figure 0005597653
ここで、αは事前に設定した定数パラメータである。
Figure 0005597653
Here, α is a constant parameter set in advance.

なお、判定スコアs(w,g)の算出は、上記の式に限定されることなく、定性的には、文書内での距離が一文以内など所定の値よりに短ければ、好適度スコアが所定の値より低くても対として認定し、好適度スコアが所定の値より高ければ、文書内での距離が所定の値より大きくとも対として認定するようなものであればよい。 The calculation of the determination score s (w i , g j ) is not limited to the above formula, and qualitatively, if the distance in the document is shorter than a predetermined value such as within one sentence, the degree of preference Even if the score is lower than a predetermined value, it is recognized as a pair, and if the suitability score is higher than a predetermined value, the pair may be recognized even if the distance in the document is larger than the predetermined value.

例えば、上記で求めた方法以外に、事前に設定した定数パラメータβと、以下で定めるような階段状の関数によって判定してもよい。   For example, in addition to the method obtained above, the determination may be made by using a constant parameter β set in advance and a step-like function as defined below.

Figure 0005597653
ステップ307) 判定スコアs(w,g)が1以上であれば、抽出対象とし、ステップ308に移行し、1未満であれば当該対は抽出対象ではないとし、ステップ309に移行する。
Figure 0005597653
Step 307) If the determination score s (w i , g j ) is 1 or more, it is determined as an extraction target, and if it is less than 1, it is determined that the pair is not an extraction target, and the process proceeds to Step 309.

ステップ308) 判定スコアs(w,g)≧1の対をメモリ(図示せず)の出力対集合に追加する。 Step 308) Add the pair of judgment scores s (w i , g j ) ≧ 1 to the output pair set of the memory (not shown).

ステップ309) 全ての地名g−語wについてステップ303以降の処理が終了すればステップ310に移行し、まだ終了していない場合はステップ303に移行する。   Step 309) If the processing after step 303 is completed for all place names g-words w, the process proceeds to step 310. If not yet completed, the process proceeds to step 303.

ステップ310) メモリ(図示せず)の出力対集合を出力する。   Step 310) Output an output pair set of a memory (not shown).

本発明は、上記のように、利用目的に沿った典型対例群を文書集合に与え、典型対例群に似た地名と語の対とその項適度スコアを求める。文書が入力されると、当該文書から語と地名を抽出し、その語と地名の距離が大きい程に小さく、かつ、語の項適度スコアが大木ほどに大きくなる判定スコアを算出し、当該判定スコアが所定値以上であれば、語と地名の対を出力する。これにより、利用目的に対して好適な対を選別することが可能となる。   As described above, the present invention gives a typical group of examples according to the purpose of use to a document set, and obtains a pair of place name and word similar to the typical group of examples and its term moderate score. When a document is input, a word and place name are extracted from the document, and a determination score is calculated so that the smaller the distance between the word and the place name is, the larger the term appropriate score of the word is. If the score is greater than or equal to a predetermined value, a pair of word and place name is output. This makes it possible to select a pair suitable for the purpose of use.

図1に示す単語抽出装置の各構成要素の動作をプログラムとして構築し、単語抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることも可能である。   It is also possible to construct the operation of each component of the word extraction device shown in FIG. 1 as a program, install it on a computer used as the word extraction device, execute it, or distribute it via a network.

本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。   The present invention is not limited to the above-described embodiments, and various modifications and applications are possible within the scope of the claims.

10 単語抽出装置
11 文書解析部
12 地理情報付与部
13 好適対決定部
14 対好適度記憶部
15 対抽出部
DESCRIPTION OF SYMBOLS 10 Word extraction apparatus 11 Document analysis part 12 Geographic information provision part 13 Suitable pair determination part 14 Pair suitable degree memory | storage part 15 Pair extraction part

Claims (8)

入力された文書集合の中から地名と単語やフレーズの対を抽出する単語抽出装置であって、
入力された対抽出対象文書及び対候補を選出するための文書集合の文書内の単語の区切りを決定し、語を出力する文書解析手段と、
前記対抽出対象文書及び前記対候補を選出するための文書集合から地名表現を抽出し、地名が該文書中に存在する位置情報を特定し、該位置情報、該地名の代表点の緯度・経度、該地名の含意する範囲を出力する地理情報付与手段と、
前記対候補を選出するための文書集合について、前記文書解析手段、前記地理情報付与手段から出力された情報と、入力された好適と見做す典型的な対の例群(以下、「典型対例群」と記す)を用いて、文書集合中で該典型対例群に似た語と地名の対と、該対の好適度スコアを求め、好適対記憶手段に格納する好適対決定手段と、
前記抽出対象文書について、前記文書解析手段、前記地理情報付与手段から出力された情報の各語と各地名の対が前記好適対記憶手段に含まれていれば、該抽出対象文書内での該語と該地名との距離を求め、該対に対する好適度スコアを取得し、該距離が大きいほど小さく、かつ、該好適度スコアが大きいほど大きくなる値の判定スコアを算出し、該判定スコアが所定の値の以上の対を抽出する対抽出手段と、
を有することを特徴とする単語抽出装置。
A word extraction device for extracting a pair of a place name and a word or phrase from an input document set,
Document analysis means for determining word breaks in the documents of the document set for selecting the input pair extraction target document and pair candidates, and outputting the words;
The place name expression is extracted from the document set for selecting the pair extraction target document and the pair candidate, the position information where the place name exists in the document is specified, and the position information, the latitude / longitude of the representative point of the place name , Geographic information giving means for outputting a range implied by the place name;
With respect to the document set for selecting the pair candidate, the information output from the document analysis unit and the geographic information adding unit, and an exemplary group of typical pairs that are considered to be input (hereinafter referred to as “typical pairs”). A pair of words and place names that are similar to the typical pair of examples in the document set, and a suitable pair determination unit that obtains a suitability score of the pair and stores it in the preferred pair storage unit; ,
For the extraction target document, if a pair of each word and each name of information output from the document analysis unit and the geographic information providing unit is included in the suitable pair storage unit, A distance between a word and the place name is obtained, and a suitable score for the pair is obtained. A determination score having a value that decreases as the distance increases and increases as the suitable score increases is calculated. A pair extracting means for extracting a pair having a predetermined value or more;
A word extraction device characterized by comprising:
前記好適対決定手段は、
前記対の好適度スコアを算出する際に、該対の一方が地名であることに限定して、ブートストラッピングアルゴリズムを用いる
請求項1記載の単語抽出装置。
The suitable pair determining means includes
The word extraction device according to claim 1, wherein when calculating the suitability score of the pair, a bootstrapping algorithm is used by limiting to one of the pairs being a place name.
前記対抽出手段は、
前記抽出対象の文書内での前記語wと前記地名gとの距離を、該語Wが出現した文と該地名gが出現した文の間に含まれる文の数とする手段を含む
請求項1記載の単語抽出装置。
The pair extraction means includes
Means in which the distance between the word w i and the place name g j in the document to be extracted is the number of sentences included between the sentence in which the word W i appears and the sentence in which the place name g j appears The word extraction device according to claim 1, comprising:
前記対抽出手段は、
前記判定スコアを、文書内での距離が一文以内であれば、前記好適度スコアが所定の値より低くとも対となるに算出する手段、
または、
前記判定スコアを、前記好適度スコアが所定の値より高ければ、前記距離が所定の値より遠くても対となるように算出する手段
のいずれかを含む
請求項1記載の単語抽出装置。
The pair extraction means includes
Means for calculating the judgment score to be paired even if the score in the document is less than a predetermined value if the distance in the document is within one sentence;
Or
The word extraction device according to claim 1, further comprising: means for calculating the determination score so that if the suitability score is higher than a predetermined value, the determination score is paired even if the distance is longer than the predetermined value.
入力された文書集合の中から地名と単語やフレーズの対を抽出する単語抽出方法であって、
文書解析手段が、入力された対抽出対象文書及び対候補を選出するための文書集合の文書内の単語の区切りを決定し、語を出力する文書解析ステップと、
地理情報付与手段が、前記対抽出対象文書及び前記対候補を選出するための文書集合から地名表現を抽出し、地名が該文書中に存在する位置情報を特定し、該位置情報、該地名の代表点の緯度・経度、該地名の含意する範囲を出力する地理情報付与ステップと、
好適対決定手段が、典型対例群が入力されると、前記対候補を選出するための文書集合について、前記文書解析ステップ、前記地理情報付与ステップにより出力された情報を用いて、ブートストラッピングアルゴリズムにより、文書集合中で該典型対例群に似た語と、地名の対と該対の好適度スコアを求め、好適対記憶手段に格納する好適対決定ステップと、
対抽出手段が、前記抽出対象文書について、前記文書解析ステップ、前記地理情報付与ステップにより出力された情報の各語と各地名の対が前記好適対記憶手段に含まれていれば、該抽出対象文書内での該語と該地名との距離を求め、該対に対する好適度スコアを取得し、該距離が大きいほど小さく、かつ、該好適度スコアが大きいほど大きくなる値の判定スコアを算出し、該判定スコアが所定の値の以上の対を抽出する対抽出ステップと、
を行うことを特徴とする単語抽出方法。
A word extraction method for extracting a pair of a place name and a word or phrase from an input document set,
A document analysis step in which the document analysis means determines word breaks in the documents of the document set for selecting the input pair extraction target document and pair candidates, and outputs the words;
Geographic information adding means extracts a place name expression from the document set for selecting the pair extraction target document and the pair candidate, specifies the position information in which the place name exists in the document, the position information, the place name Geographic information giving step for outputting the latitude / longitude of the representative point and the range implied by the place name;
When a typical pair of examples is input, the preferred pair determination unit uses the information output in the document analysis step and the geographic information addition step for the document set for selecting the pair candidates, and bootstrapping A suitable pair determination step of obtaining a word similar to the typical pair group in the document set, a pair of place names, and a suitability score of the pair by an algorithm, and storing the pair in a suitable pair storage unit;
If the pair extraction unit includes a pair of each word and each name of the information output by the document analysis step and the geographic information addition step for the extraction target document in the suitable pair storage unit, the extraction target The distance between the word and the place name in the document is obtained, and a suitable score for the pair is obtained, and a determination score having a value that decreases as the distance increases and increases as the suitable score increases is calculated. A pair extraction step for extracting a pair whose determination score is equal to or greater than a predetermined value;
A word extraction method characterized by:
前記対抽出ステップにおいて、
前記抽出対象の文書内での前記語wと前記地名gとの距離を、該語Wが出現した文と該地名gが出現した文の間に含まれる文の数とする
請求項5記載の単語抽出方法。
In the pair extraction step,
The distance between the word w i and the place name g j in the document to be extracted is the number of sentences included between the sentence in which the word W i appears and the sentence in which the place name g j appears. Item 6. The word extraction method according to Item 5.
前記対抽出ステップにおいて、
前記判定スコアを、文書内での距離が一文以内であれば、前記好適度スコアが所定の値より低くとも対となるに算出する、
または、
前記判定スコアを、前記好適度スコアが所定の値より高ければ、前記距離が所定の値より遠くても対となるように算出する
請求項5記載の単語抽出方法。
In the pair extraction step,
If the distance in the document is within one sentence, the determination score is calculated as a pair even if the suitability score is lower than a predetermined value.
Or
The word extraction method according to claim 5, wherein the determination score is calculated so as to be paired even if the distance is longer than a predetermined value if the suitability score is higher than a predetermined value.
コンピュータを、
請求項1乃至4のいずれか1項に記載の単語抽出装置の各手段として機能させるための単語抽出プログラム。
Computer
The word extraction program for functioning as each means of the word extraction apparatus of any one of Claims 1 thru | or 4.
JP2012000459A 2012-01-05 2012-01-05 Word extraction apparatus, method, and program Expired - Fee Related JP5597653B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012000459A JP5597653B2 (en) 2012-01-05 2012-01-05 Word extraction apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012000459A JP5597653B2 (en) 2012-01-05 2012-01-05 Word extraction apparatus, method, and program

Publications (2)

Publication Number Publication Date
JP2013140500A JP2013140500A (en) 2013-07-18
JP5597653B2 true JP5597653B2 (en) 2014-10-01

Family

ID=49037878

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012000459A Expired - Fee Related JP5597653B2 (en) 2012-01-05 2012-01-05 Word extraction apparatus, method, and program

Country Status (1)

Country Link
JP (1) JP5597653B2 (en)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3607462B2 (en) * 1997-07-02 2005-01-05 松下電器産業株式会社 Related keyword automatic extraction device and document search system using the same
WO2008019348A2 (en) * 2006-08-04 2008-02-14 Metacarta, Inc. Systems and methods for presenting results of geographic text searches
JP5167546B2 (en) * 2006-08-21 2013-03-21 国立大学法人京都大学 Sentence search method, sentence search device, computer program, recording medium, and document storage device
JP5042268B2 (en) * 2009-04-28 2012-10-03 ヤフー株式会社 Proper word acquisition device, machine learning device and method
JP5382651B2 (en) * 2009-09-09 2014-01-08 独立行政法人情報通信研究機構 Word pair acquisition device, word pair acquisition method, and program
JP5513929B2 (en) * 2010-03-02 2014-06-04 日本電信電話株式会社 Experience information reusability evaluation apparatus, method and program

Also Published As

Publication number Publication date
JP2013140500A (en) 2013-07-18

Similar Documents

Publication Publication Date Title
CN106649818B (en) Application search intention identification method and device, application search method and server
CN106960030B (en) Information pushing method and device based on artificial intelligence
CN107102981B (en) Word vector generation method and device
CN104750798B (en) Recommendation method and device for application program
CN108897887B (en) Teaching resource recommendation method based on knowledge graph and user similarity
CN109726280B (en) Disambiguation method and device for homonyms
CN109388743B (en) Language model determining method and device
US10528662B2 (en) Automated discovery using textual analysis
CN112100396B (en) Data processing method and device
JP2011118872A (en) Method and device for determining category of unregistered word
CN114207604A (en) System and method for extracting scientific measurement context using targeted question answers
CN104915426A (en) Information sorting method, method for generating information ordering models and device
Blanco et al. Overview of NTCIR-13 Actionable Knowledge Graph (AKG) Task.
Derungs et al. Mining nearness relations from an n-grams Web corpus in geographical space
CN110362652A (en) Based on space-semanteme-numerical value degree of correlation spatial key Top-K querying method
US20170039873A1 (en) Providing adaptive electronic reading support
WO2015065719A1 (en) Computerized systems and methods for identifying a character string for a point of interest
JP5597653B2 (en) Word extraction apparatus, method, and program
US9104755B2 (en) Ontology enhancement method and system
JP5595426B2 (en) Word extraction method, apparatus and program
Schockaert et al. Mining topological relations from the web
Pippig et al. Semantic similarity analysis of user-generated content for theme-based route planning
KR101607771B1 (en) Method and apparatus for identifying author
JP2013257634A (en) Apparatus and method for extracting a pair of place name and word from document, and program
Panchenko et al. Large-scale parallel matching of social network profiles

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20131001

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140805

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140811

R150 Certificate of patent or registration of utility model

Ref document number: 5597653

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees