JP2013254366A - Information processing device and related word determination method - Google Patents

Information processing device and related word determination method Download PDF

Info

Publication number
JP2013254366A
JP2013254366A JP2012129763A JP2012129763A JP2013254366A JP 2013254366 A JP2013254366 A JP 2013254366A JP 2012129763 A JP2012129763 A JP 2012129763A JP 2012129763 A JP2012129763 A JP 2012129763A JP 2013254366 A JP2013254366 A JP 2013254366A
Authority
JP
Japan
Prior art keywords
related word
information
document
candidate
determination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012129763A
Other languages
Japanese (ja)
Inventor
Keiichi Ochiai
桂一 落合
Tsuyoshi Kato
剛志 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2012129763A priority Critical patent/JP2013254366A/en
Publication of JP2013254366A publication Critical patent/JP2013254366A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an information processing device and a related word determination method capable of appropriately extracting a related word corresponding to a prescribed proper noun, taking a prescribed time width into consideration.SOLUTION: A document information acquisition unit 101 acquires document information with which a document and time information are associated, a morpheme analysis unit 103 analyzes the acquired document information, and a candidate determination unit 106 determines a related word candidate of the place name included in the document information. A totaling unit 107 totals the number of documents including the related word candidate and the place name in the document information generated in a prescribed time width. A determination unit 108 determines whether or not the related word candidate is a related word of the place name by using the totaling result and determination index information which is index information for determining whether or not the related word candidate is a general word, and if it is a related word, a related word registration unit 109 registers information which associates the related word of the place name and the place name.

Description

本発明は、固有名称の関連語を取得する情報処理装置および関連語判断方法に関する。   The present invention relates to an information processing apparatus for acquiring a related word of a proper name and a related word determination method.

近年のWeb技術においては、ブログやマイクロブログ、SNSなど、一般ユーザーが文章を投稿するサービスが普及している。特にマイクロブログでは情報のリアルタイム性が高く、テキストマイニング技術を使うことで、ある時間幅における、ある固有名称の関連度合いの高い単語である関連語を抽出することが期待される。   In recent Web technologies, services such as blogs, microblogs, and SNS, which are used by general users to post sentences, have become widespread. In particular, microblogging is highly real-time in information, and it is expected to extract related words that are words having a high degree of relevance of a certain unique name in a certain time span by using text mining technology.

ある単語に関連する単語を抽出するため、単語同士の関連度を計算する技術が存在する(例えば、特許文献1)。特許文献1では、情報検索の際にクエリとなる単語に関連する単語を付加することで、検索の際に有用な情報を得ることを目的として、単語同士の関連性だけでなく、単語の重要度(単語の知名度、話題度、単語の内容の深さ)を計算し、関連語を抽出している。また、単語の共起情報を使って関連度を計算する方法が非特許文献1に示されている。   In order to extract a word related to a certain word, there is a technique for calculating the degree of association between words (for example, Patent Document 1). In Patent Document 1, not only the relationship between words but also the importance of a word is used for the purpose of obtaining useful information during a search by adding a word related to a query word during the information search. Degrees (word familiarity, topic level, word content depth) are calculated, and related words are extracted. Further, Non-Patent Document 1 shows a method for calculating the degree of association using word co-occurrence information.

特開2010−244339号公報JP 2010-244339 A

石川 慎一郎「コロケーションの強度をどう測るか」言語処理学会第14回大会Shinichiro Ishikawa “How to measure the strength of collocation”

特許文献1の方法では、静的なWebページのリンク構造を有していることを前提に関連語を抽出するため、リアルタイムに生成された文書から関連語を抽出することができないという問題点がある。また、非特許文献1では、固有名称に着目して関連語を抽出することについて考慮されていない。   In the method of Patent Document 1, since related words are extracted on the premise of having a static Web page link structure, there is a problem that related words cannot be extracted from a document generated in real time. is there. Further, Non-Patent Document 1 does not consider extracting related words by paying attention to proper names.

そこで、本発明においては、上記の課題を解決するために、所定の時間幅を考慮して、所定の固有名称に対応した関連語を適切に抽出することができる情報処理装置および関連語判断方法を提供することを目的とする。   Therefore, in the present invention, in order to solve the above-described problem, an information processing apparatus and a related word determination method capable of appropriately extracting related words corresponding to a predetermined unique name in consideration of a predetermined time width The purpose is to provide.

上述の課題を解決するために、本発明の情報処理装置は、文書及び時刻情報が関連付けられている文書情報を取得する文書情報取得手段と、前記文書情報取得手段が取得した文書情報中の文書を解析し、当該文書中に含まれている固有名称における関連語の候補である関連語候補を決定する関連語候補決定手段と、所定時間幅に生成された文書情報の内、前記関連語候補及び前記固有名称を含む文書の数を集計する集計手段と、前記集計手段による集計結果と、前記関連語候補が一般語であるか否かを判断するための指標情報である判断指標情報とを用いて、前記関連語候補が前記固有名称の関連語であるか否かの判断をする判断手段と、前記判断手段が判断した結果、関連語である場合には、前記固有名称の関連語と、前記固有名称とを関連付けた情報を登録する登録手段と、を備えている。   In order to solve the above-described problem, an information processing apparatus according to the present invention includes a document information acquisition unit that acquires document information associated with a document and time information, and a document in the document information acquired by the document information acquisition unit. And a related word candidate determining means for determining a related word candidate that is a candidate of a related word in the proper name included in the document, and the related word candidate among the document information generated in a predetermined time width And a counting unit that counts the number of documents including the unique name, a counting result by the counting unit, and determination index information that is index information for determining whether or not the related word candidate is a general word And determining means for determining whether or not the related word candidate is a related word of the unique name, and, as a result of the determination by the determining means, if the related word candidate is a related word, , And the proper name It comprises registration means for registering with the information.

また、本発明の情報処理装置は、文書及び時刻情報が関連付けられている文書情報を取得する文書情報取得ステップと、前記文書情報取得ステップで取得した文書情報中の文書を解析し、当該文書中に含まれている固有名称における関連語の候補である関連語候補を決定する関連語候補決定ステップと、所定時間幅に生成された文書情報の内、前記関連語候補及び前記固有名称を含む文書の数を集計する集計ステップと、前記集計ステップによる集計結果と、前記関連語候補が一般語であるか否かを判断するための指標情報である判断指標情報とを用いて、前記関連語候補が前記固有名称の関連語であるか否かの判断をする判断ステップと、前記判断ステップで判断した結果、関連語である場合には、前記固有名称の関連語と、前記固有名称とを関連付けた情報を登録する登録ステップと、を備えている。   The information processing apparatus according to the present invention includes a document information acquisition step for acquiring document information associated with a document and time information, and analyzes a document in the document information acquired in the document information acquisition step. A related word candidate determining step for determining a related word candidate that is a candidate for a related word in the specific name included in the document, and a document including the related word candidate and the specific name among the document information generated in a predetermined time width The related word candidate using a counting step for counting the number of words, a counting result obtained by the counting step, and determination index information that is index information for determining whether or not the related word candidate is a general word Determining whether or not is a related word of the proper name, and, as a result of the determination in the determining step, if it is a related word, the related word of the proper name and the proper name And a, a registration step of registering information that associates.

この発明によれば、時刻情報が関連付けられている文書情報を取得し、取得した文書情報を解析し、文書情報中に含まれている固有名称における関連語の候補を決定する。所定時間幅に生成された文書情報の内、関連語候補及び固有名称を含む文書の数を集計し、当該集計による結果と、関連語候補が一般語であるか否かを判断するための指標情報である判断指標情報を用いて、関連語候補が固有名称の関連語であるか否かを判断し、関連語である場合には、固有名称の関連語と、固有名称とを関連付けた情報を登録する。これにより、固有名称の適切な関連語を抽出することができる。すなわち、一般語を除去して、所定の時間幅における、固有名称に対応する関連語を登録することができる。なお、ここでいう固有名称としては、地名、人名、映画のタイトルなどが該当する。   According to the present invention, the document information associated with the time information is acquired, the acquired document information is analyzed, and the related word candidate in the proper name included in the document information is determined. The number of documents containing related word candidates and unique names in the document information generated in a predetermined time span is counted, and the result of the counting and an index for determining whether the related word candidate is a general word Using the determination index information that is information, it is determined whether or not the related word candidate is a related word of a unique name. If the related word candidate is a related word, information that associates the related word of the specific name with the specific name Register. This makes it possible to extract an appropriate related word having a proper name. That is, it is possible to register a related word corresponding to the unique name in a predetermined time width by removing the general word. In addition, as a proper name here, a place name, a person name, a movie title, etc. correspond.

また、本発明の情報処理装置において、前記文書情報中の文書に含められた固有名称に対応する当該固有名称の上位項目を特定し、当該文書情報と上位項目とを紐づける上位項目特定手段をさらに備え、前記判断手段は、所定時間幅における、前記固有名称に対応する上位項目が紐づけられた文書情報の内、前記関連語候補を含む文書の数を少なくとも前記判断指標情報として用いる。   In the information processing apparatus of the present invention, an upper item specifying unit that specifies an upper item of the unique name corresponding to the unique name included in the document in the document information and associates the document information with the upper item. In addition, the determination unit uses, as at least the determination index information, the number of documents including the related word candidates in the document information in which the upper item corresponding to the unique name is linked in a predetermined time span.

この発明によれば、文書情報中の文書に含められた固有名称の上位項目を特定し、当該文書情報と上位項目とを紐づけておき、所定時間幅における、固有名称に対応する上位項目が紐づけられた文書情報の内、関連語候補を含む文書の数を判断指標情報として用いることにより、固有名称に対応する上位項目が紐づけられている文書情報の内、関連語候補を含む文書数に基づいて、関連語候補が固有名称の関連語となるか否かを判断するので、適切に固有名称の関連語を判断することができる。なお、ここでいう上位項目とは、所定の固有名称の上位概念的に属するものをいう(例えば、地名に対するエリアや、映画のタイトルに対するジャンルなど)。   According to this invention, the upper item of the unique name included in the document in the document information is specified, the document information and the upper item are linked, and the upper item corresponding to the unique name in the predetermined time width is By using the number of documents including related word candidates among the associated document information as determination index information, the document information including related word candidates among the document information associated with the higher-level item corresponding to the unique name Based on the number, it is determined whether or not the related word candidate is a related word of the proper name, so that the related word of the proper name can be appropriately determined. Note that the upper item here refers to items belonging to a predetermined unique name in a higher-level concept (for example, an area for a place name or a genre for a movie title).

また、本発明の情報処理装置において、前記判断手段は、所定の時間幅における、全文書数と前記関連語候補を含む文書数との比較情報を少なくとも判断指標情報として用いる。   In the information processing apparatus according to the present invention, the determination unit uses, as at least determination index information, comparison information between the total number of documents and the number of documents including the related word candidates in a predetermined time width.

この発明によれば、所定の時間幅における、全文書数と、関連語候補を含む文書数との比較情報を参照することにより、関連語候補が一般語であるか否かを判断することができるので、適切に固有名称の関連語を判断することができる。   According to this invention, it is possible to determine whether or not a related word candidate is a general word by referring to comparison information between the total number of documents and the number of documents including related word candidates in a predetermined time width. Therefore, it is possible to appropriately determine the related word of the proper name.

また、本発明の情報処理装置において、前記判断手段は、前記文書情報の文書中における出現度合いに基づいて生成した一般語リスト情報を少なくとも前記判断指標情報として用いる。   In the information processing apparatus of the present invention, the determination unit uses, as at least the determination index information, general word list information generated based on the appearance degree of the document information in the document.

この発明によれば、所定時間幅における地名と関連語候補とを含む文書の数をカウントし、文書情報の文書中における出現度合いに基づいて生成した一般語リスト情報を判断指標情報として用いて、関連語候補が一般語であるか否かを判断するので、適切に固有名称の関連語を判断することができる。   According to the present invention, the number of documents including place names and related word candidates in a predetermined time width is counted, and the general word list information generated based on the appearance degree of the document information in the document is used as the determination index information. Since it is judged whether a related word candidate is a general word, the related word of a proper name can be judged appropriately.

本発明によれば、固有名称の適切な関連語を登録することができる。すなわち、所定の時間幅を考慮して、所定の固有名称に対応した関連語を適切に抽出することができる。   According to the present invention, an appropriate related word having a proper name can be registered. That is, it is possible to appropriately extract related words corresponding to a predetermined unique name in consideration of a predetermined time width.

第1実施形態及び第2実施形態の情報処理装置100の機能を示すブロック図である。It is a block diagram which shows the function of the information processing apparatus 100 of 1st Embodiment and 2nd Embodiment. 情報処理装置100のハードウェア構成図である。2 is a hardware configuration diagram of the information processing apparatus 100. FIG. 文書情報記憶部102で保持しているデータの構造を示す図である。FIG. 3 is a diagram showing a structure of data held in a document information storage unit 102. ワード記憶部105で保持しているデータの構造を示す図である。FIG. 3 is a diagram illustrating a structure of data held in a word storage unit 105. 関連語記憶部110で保持しているデータの構造を示す図である。It is a figure which shows the structure of the data currently hold | maintained at the related word memory | storage part 110. FIG. 第1実施形態における情報処理装置の処理を示すフローチャートである。It is a flowchart which shows the process of the information processing apparatus in 1st Embodiment. 第2実施形態における情報処理装置の処理を示すフローチャートである。It is a flowchart which shows the process of the information processing apparatus in 2nd Embodiment. 第3実施形態の情報処理装置100Bの機能を示すブロック図である。It is a block diagram which shows the function of information processing apparatus 100B of 3rd Embodiment. 第3実施形態における情報処理装置の処理を示すフローチャートである。It is a flowchart which shows the process of the information processing apparatus in 3rd Embodiment.

添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一部分には同一の符号を付して、重複する説明を省略する。   Embodiments of the present invention will be described with reference to the accompanying drawings. When possible, the same parts are denoted by the same reference numerals, and redundant description is omitted.

(第1実施形態)
図1は、第1実施形態の情報処理装置100の機能を示すブロック図である。図1に示される通り、この情報処理装置100は、文書情報取得部101(文書情報取得手段)、文書情報記憶部102、形態素解析部103(関連語候補決定手段)、エリア付与部104(上位項目特定手段)、ワード記憶部105、候補決定部106(関連語候補決定手段)、集計部107(集計手段)、判断部108(判断手段)、関連語登録部109(登録手段)、関連語記憶部110を含んで構成されている。なお、第1実施形態から第3実施形態では、固有名称として地名に対する関連語抽出の仕方について詳細に説明する。
(First embodiment)
FIG. 1 is a block diagram illustrating functions of the information processing apparatus 100 according to the first embodiment. As shown in FIG. 1, the information processing apparatus 100 includes a document information acquisition unit 101 (document information acquisition unit), a document information storage unit 102, a morpheme analysis unit 103 (related word candidate determination unit), and an area addition unit 104 (upper level). Item specifying unit), word storage unit 105, candidate determining unit 106 (related word candidate determining unit), totaling unit 107 (totaling unit), determining unit 108 (determining unit), related word registering unit 109 (registering unit), related word The storage unit 110 is included. In the first to third embodiments, a method of extracting related words for place names as unique names will be described in detail.

図2は、情報処理装置100のハードウェア構成図である。図1に示される情報処理装置100は、物理的には、図2に示すように、CPU11、主記憶装置であるRAM12及びROM13、入力デバイスであるキーボード及びマウス等の入力装置14、ディスプレイ等の出力装置15、ネットワークカード等のデータ送受信デバイスである通信モジュール16、ハードディスクまたは半導体メモリ等の補助記憶装置17などを含むコンピュータシステムとして構成されている。図1における各機能は、図2に示すCPU11、RAM12等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU11の制御のもとで入力装置14、出力装置15、通信モジュール16を動作させるとともに、RAM12や補助記憶装置17におけるデータの読み出し及び書き込みを行うことで実現される。以下、図1に示す機能ブロックに基づいて各機能ブロックを説明する。   FIG. 2 is a hardware configuration diagram of the information processing apparatus 100. As shown in FIG. 2, the information processing apparatus 100 shown in FIG. 1 physically includes a CPU 11, a RAM 12 and a ROM 13 that are main storage devices, an input device 14 such as a keyboard and a mouse that are input devices, a display, and the like. The computer system includes an output device 15, a communication module 16 that is a data transmission / reception device such as a network card, an auxiliary storage device 17 such as a hard disk or a semiconductor memory, and the like. Each function in FIG. 1 operates the input device 14, the output device 15, and the communication module 16 under the control of the CPU 11 by loading predetermined computer software on the hardware such as the CPU 11 and the RAM 12 shown in FIG. 2. In addition, it is realized by reading and writing data in the RAM 12 and the auxiliary storage device 17. Hereinafter, each functional block will be described based on the functional blocks shown in FIG.

文書情報取得部101は、ネットワークを介してWeb上の文書情報を取得する。具体的には、HTTP(HyperText Transfer Protocol)通信によりWebサーバから文書情報を取得する。文書情報の具体例としては、ブログやマイクロブログ等がある。文書情報取得部101が取得した文書情報は、文書記憶部102に格納される。   The document information acquisition unit 101 acquires document information on the Web via a network. Specifically, the document information is acquired from the Web server by HTTP (HyperText Transfer Protocol) communication. Specific examples of document information include blogs and microblogs. The document information acquired by the document information acquisition unit 101 is stored in the document storage unit 102.

文書情報記憶部102は、文書情報を格納するものである。図3に、文書情報の一例を示す。文書情報には、文書ID、文書の時間情報、文書本文が少なくとも含まれる。文書IDは、インターネット上から取得した元情報を識別するIDである。例えば、サイトのURLなどが該当する。時間情報は、文書が作成された時刻である。文書本文は、投稿された記事内容である。   The document information storage unit 102 stores document information. FIG. 3 shows an example of document information. The document information includes at least a document ID, document time information, and a document text. The document ID is an ID for identifying original information acquired from the Internet. For example, the URL of a site corresponds. The time information is the time when the document is created. The text of the document is the content of the posted article.

形態素解析部103は、文書情報記憶部102で記憶している文書情報の文書に対して形態素解析を行うことにより複数単語を抽出するものである。なお、形態素解析技術そのものについては、例えば特開平7−311769号公報に開示されているなど周知であるため、ここでは説明を省略する。   The morphological analysis unit 103 extracts a plurality of words by performing morphological analysis on the document information document stored in the document information storage unit 102. Note that the morphological analysis technique itself is well known, for example, as disclosed in Japanese Patent Application Laid-Open No. 7-311769, and thus the description thereof is omitted here.

エリア付与部104は、形態素解析部103が解析した結果から、地名に該当する単語を特定し、当該地名からエリア(エリアID、エリア名称など)を特定する。エリアを特定する方法として、図示しないエリアと地名の対応情報を用いる方法や、外部のコンピュータに問い合わせるなどの方法がある。形態素解析されて得られた単語は、文書IDと、エリア付与部104により特定されたエリアとが関連付けられて、ワード記憶部105に格納される。ここでいうエリアは、上位項目に対応する。   The area assigning unit 104 specifies a word corresponding to the place name from the result of analysis by the morphological analysis unit 103, and specifies an area (area ID, area name, etc.) from the place name. As a method for specifying an area, there are a method using correspondence information between an area and a place name (not shown), and a method of inquiring an external computer. The word obtained by the morphological analysis is stored in the word storage unit 105 in association with the document ID and the area specified by the area adding unit 104. The area here corresponds to the upper item.

ワード記憶部105は、形態素解析部103により形態素解析されて抽出された単語と、文書IDと、エリア付与部104が特定したエリアと、を関連付けた情報であるワード情報を格納するものである。図4に、ワード情報の一例を示す。ワード情報には、文書ID、文書の時間情報、形態素解析部103が解析した単語、及びエリアが少なくとも含まれる。また、情報処理装置100は、ワード記憶部105に記憶されている情報を参照して、地名を抽出して、抽出した地名を基準地名群として別途保持しておく。なお、当該基準地名群は、重複排除されているものとする。そして、情報処理装置100は、ワード記憶部105に記憶されている情報を参照して、地名以外の単語群を関連語候補群として別途保持しておく。なお、基準地名群は、重複排除されているものとする。また、一つの文書情報中の文書に地名が複数含まれている場合は、それぞれを地名として扱っても良い。   The word storage unit 105 stores word information that is information that associates the word extracted by the morphological analysis by the morphological analysis unit 103, the document ID, and the area specified by the area adding unit 104. FIG. 4 shows an example of word information. The word information includes at least a document ID, document time information, a word analyzed by the morphological analysis unit 103, and an area. Further, the information processing apparatus 100 refers to the information stored in the word storage unit 105, extracts a place name, and separately holds the extracted place name as a reference place name group. It is assumed that the reference place name group is de-duplicated. Then, the information processing apparatus 100 refers to the information stored in the word storage unit 105 and separately holds a word group other than the place name as a related word candidate group. It is assumed that the reference place name group is de-duplicated. Further, when a plurality of place names are included in one document information, each may be treated as a place name.

候補決定部106は、文書情報の文書に含まれている地名の関連語の候補である一又は複数の関連語候補を上記関連語候補群から決定する。具体的に、候補決定部106は、地名を含む文書中における、当該地名以外の単語を関連語候補とする。なお、候補決定部106は、地名を含まない文章中における各単語は、関連語候補として扱わない。   The candidate determination unit 106 determines one or a plurality of related word candidates that are candidates for the related word of the place name included in the document of the document information from the related word candidate group. Specifically, the candidate determination unit 106 sets words other than the place name in the document including the place name as related word candidates. Note that the candidate determination unit 106 does not treat each word in a sentence not including a place name as a related word candidate.

集計部107は、所定条件に合致する文書数のカウントを行う。第1実施形態では、所定時間幅(例えば、3日間)に作成された文書情報について、所定の地名が属するエリア内の文書集合を対象に、上記地名を含む文書数をカウントする(以下、当該文書数を「文書数A」とも呼ぶ)。また、集計部107は、上記時間幅で、上記地名が属するエリア内の文書集合を対象に、候補決定部106が決定した単語を含む文書数をカウントする(以下、当該文書数を「文書数B」とも呼ぶ)。さらに、集計部107は、上記時間幅に作成された文書情報について、上記地名が属するエリア内の文書集合を対象に、上記地名と上記候補決定部106が決定した単語の両方を含む文書数をカウントする(以下、当該文書数を「文書数C」とも呼ぶ)。   The counting unit 107 counts the number of documents that meet a predetermined condition. In the first embodiment, for document information created in a predetermined time width (for example, three days), the number of documents including the place name is counted for a document set in an area to which the predetermined place name belongs (hereinafter, the document name is included). The number of documents is also called “document number A”). In addition, the counting unit 107 counts the number of documents including the word determined by the candidate determining unit 106 for the document set in the area to which the place name belongs in the time span (hereinafter, the number of documents is referred to as “number of documents”). B "). Further, the counting unit 107 calculates the number of documents including both the place name and the word determined by the candidate determination unit 106 for the document information created in the time span, for the document set in the area to which the place name belongs. The number of documents is counted (hereinafter, the number of documents is also referred to as “document number C”).

判断部108は、関連語候補それぞれが地名の関連語となるか否かを判断する。第1実施形態では、集計部107がカウントした集計結果である、文書数A、文書数B、及び文書数Cを用いて、以下の式(1)に基づいてダイス係数を算出し、当該算出結果が閾値以上であれば、地名の関連語として判断し、関連語登録部109が、地名と、関連語候補とを関連付けた情報を登録する。一方、判断部108は、上記ダイス係数の算出結果が閾値未満であれば、関連語候補が関連語ではないと判断し、関連語として登録する対象から除外する。このように、判断部108は、ダイス係数が小さい単語を閾値処理することにより、一般的な単語(例えば「今日」、「私」など)を関連語の登録対象から除外することができる。

ダイス係数sim=2×文書数C/(文書数A+文書数B) ・・・(1)
The determination unit 108 determines whether each related word candidate is a related word of a place name. In the first embodiment, a dice coefficient is calculated based on the following formula (1) using the number of documents A, the number of documents B, and the number of documents C, which are the counting results counted by the counting unit 107, and the calculation is performed. If the result is equal to or greater than the threshold value, it is determined as a related word of the place name, and the related word registration unit 109 registers information that associates the place name with the related word candidate. On the other hand, if the calculation result of the dice coefficient is less than the threshold value, the determination unit 108 determines that the related word candidate is not a related word, and excludes it from an object to be registered as a related word. In this manner, the determination unit 108 can exclude a general word (for example, “today”, “I”, etc.) from the registration target of the related word by performing threshold processing on a word having a small dice coefficient.

Dice coefficient sim = 2 × number of documents C / (number of documents A + number of documents B) (1)

関連語登録部109は、地名と、判断部108によって関連語と判断された関連語候補とを含む情報を関連語記憶部110へ登録する。   The related word registration unit 109 registers information including the place name and the related word candidate determined as the related word by the determination unit 108 in the related word storage unit 110.

関連語記憶部110は、図5に示すように、地名と、関連語と、エリア(エリアIDまたはエリア名称)とを含む情報を記憶する。情報処理装置100は、関連語記憶部110に記憶されている情報を用いて、地名(ランドマークも含む)の関連語を情報出力する。具体的には、情報処理装置100は、ブログ等に入力された地名のランキングを出力した際に、当該地名の関連語を出力する。これにより、情報処理装置100は、人気のある場所に対応する地名の関連語を出力することができる。   As illustrated in FIG. 5, the related word storage unit 110 stores information including a place name, a related word, and an area (area ID or area name). The information processing apparatus 100 outputs related words of place names (including landmarks) using information stored in the related word storage unit 110. Specifically, when the information processing apparatus 100 outputs a ranking of place names input to a blog or the like, the information processing apparatus 100 outputs related words of the place names. Thereby, the information processing apparatus 100 can output a related word of a place name corresponding to a popular place.

このように構成された情報処理装置100の動作について説明する。図6は、情報処理装置100の処理を示すフローチャートである。まず、文書情報取得部101は、文書情報を取得し、当該文書情報が文書情報記憶部102に記憶される(S1)。そして、形態素解析部103は、文書情報記憶部102で記憶している文書情報の文書を形態素解析して、単語を抽出する(S2)。エリア付与部104は、形態素解析部103による処理結果から、文書本文に地名を含む単語を特定し、当該地名に対応するエリアを特定する。そして、エリア付与部104が特定したエリアと各形態素解析により抽出された文書本文の単語と、文書IDとが対応付けられた情報がワード記憶部105に記憶される(S3)。また、情報処理装置100は、ワード記憶部105に記憶されている情報を参照して、当該地名を抽出して、基準地名群を別途保持しておく。そして、情報処理装置100は、ワード記憶部105に記憶されている情報を参照して、地名以外の単語群を関連語候補群として別途保持しておく。   An operation of the information processing apparatus 100 configured as described above will be described. FIG. 6 is a flowchart showing processing of the information processing apparatus 100. First, the document information acquisition unit 101 acquires document information, and the document information is stored in the document information storage unit 102 (S1). Then, the morphological analysis unit 103 performs morphological analysis on the document information document stored in the document information storage unit 102, and extracts words (S2). The area assigning unit 104 specifies a word including a place name in the document text from the processing result of the morphological analysis unit 103, and specifies an area corresponding to the place name. Then, information in which the area specified by the area assigning unit 104, the word of the document text extracted by each morphological analysis, and the document ID are associated is stored in the word storage unit 105 (S3). Further, the information processing apparatus 100 refers to information stored in the word storage unit 105, extracts the place name, and separately holds a reference place name group. Then, the information processing apparatus 100 refers to the information stored in the word storage unit 105 and separately holds a word group other than the place name as a related word candidate group.

候補決定部106は、基準地名群の任意の一の地名を基準地名とする。また、候補決定部106は、関連語候補群のいずれか一つを関連語候補とする(S4)。そして、集計部107は、文書数A(あるエリアpおよびある時間幅tにおける文書集合を対象に、基準地名である地名nを含む文書数)を算出し(S5)、文書数B(あるエリアpおよびある時間幅tにおける文書集合を対象に、関連語候補の単語wを含む文書数)を算出し(S6)、文書数C(あるエリアpおよびある時間幅tにおける文書集合を対象に、地名nと単語wを含む文書数)を算出する(S7)。そして、判断部108は、文書数A、文書数B、及び文書数Cを用いてダイス係数を算出し(S8)、当該ダイス係数が所定の閾値以上であれば(S9;Yes)、関連語候補が関連語であると判断する。そして、関連語登録部109は、地名と、関連語と、エリアIDとが対応付けられた情報を関連語情報として、関連語情報記憶部110に記憶する(S10)。一方、ダイス係数が所定の閾値未満であれば(S9;No)、判断部108は、関連語候補を関連語ではないと判断し、関連語の登録対象から除外する(S11)。   The candidate determination unit 106 uses any one place name in the reference place name group as the reference place name. Moreover, the candidate determination part 106 makes any one of a related word candidate group a related word candidate (S4). Then, the totaling unit 107 calculates the number of documents A (the number of documents including a place name n as a reference place name for a document set in a certain area p and a certain time width t) (S5), and the number of documents B (a certain area). p and the number of documents including the related word candidate word w are calculated for a document set in a certain time width t (S6), and the number of documents C (a document set in a certain area p and a certain time width t is targeted) The number of documents including place name n and word w) is calculated (S7). Then, the determination unit 108 calculates a dice coefficient using the document number A, the document number B, and the document number C (S8), and if the dice coefficient is equal to or greater than a predetermined threshold (S9; Yes), the related word Judge that the candidate is a related word. And the related word registration part 109 memorize | stores in the related word information storage part 110 as related word information the information with which the place name, the related word, and area ID were matched (S10). On the other hand, if the dice coefficient is less than the predetermined threshold (S9; No), the determination unit 108 determines that the related word candidate is not a related word and excludes it from the related word registration target (S11).

続いて、候補決定部106は、新たな関連語候補を検索する。具体的には、基準地名について、全ての関連語候補を判断していない場合(S12;Yes)、関連語候補群から次の一の関連語候補を判断対象として決定し(S13)、ステップS5へ移動する。   Subsequently, the candidate determination unit 106 searches for a new related word candidate. Specifically, when not all related word candidates are determined for the reference place name (S12; Yes), the next related word candidate is determined as a determination target from the related word candidate group (S13), and step S5 is performed. Move to.

候補決定部106は、基準地名について、全ての関連語候補を判断した場合、すなわち、基準地名について、判断していない関連語候補がない場合(S12;No)、基準地名群から次の一の基準地名を検索する。具体的には、候補決定部106は、基準地名群に、次の基準地名があるか否か判断する。そして、判断した結果、次の基準地名があれば(S14;Yes)、候補決定部106は、当該地名を基準地名とし、関連語候補群から任意の一の関連語候補を判断対象の関連語候補として決定し(S15)、ステップS5へ移動し、ここで決定された基準地名、関連語候補に基づいて当該関連語候補が関連語であるか否かの判断処理を行う。   When all the related word candidates are determined for the reference place name, that is, when there is no related word candidate that has not been determined for the reference place name (S12; No), the candidate determining unit 106 selects the next one from the reference place name group. Search the reference place name. Specifically, the candidate determination unit 106 determines whether or not there is a next reference place name in the reference place name group. If it is determined that there is a next reference place name (S14; Yes), the candidate determining unit 106 uses the place name as a reference place name, and selects any one related word candidate from the related word candidate group as a related word to be determined. It determines as a candidate (S15), moves to step S5, and determines whether or not the related word candidate is a related word based on the reference place name and related word candidate determined here.

候補決定部106は、基準地名群における、次の基準地名がなければ(S14;No)、関連語候補となる単語がないと判断し、処理を終了する。   If there is no next reference place name in the reference place name group (S14; No), the candidate determining unit 106 determines that there is no word as a related word candidate, and ends the process.

以上説明したように、情報処理装置100は、基準地名と関連語候補とのすべての組み合わせについて、上述文書数A〜Cを算出して、それら文書数を用いて地名に対応する関連語を判断することができる。すなわち、ある文書情報の文書に含まれる地名(固有名称)を特定して、当該地名に対応する単語を含む文書数だけでなく、当該単語が一般的であるか否かを判断するための情報を用いて、地名と関連度の高い単語であるかを判断しているので、適切に関連語を抽出することができる。   As described above, the information processing apparatus 100 calculates the number of documents A to C for all combinations of the reference place name and the related word candidate, and determines the related word corresponding to the place name using the number of documents. can do. That is, information for identifying a place name (unique name) included in a document of certain document information and determining whether the word is general as well as the number of documents including the word corresponding to the place name. Since it is determined whether the word is highly related to the place name, the related word can be appropriately extracted.

また、情報処理装置100は、所定の時間幅の間の文書情報のみを対象としているので、例えば、直近に使用されている関連語を特定することができる。すなわち、情報処理装置100は、時間的に特徴のある関連語を特定することができる。   In addition, since the information processing apparatus 100 targets only document information for a predetermined time width, for example, it is possible to specify a related word used most recently. That is, the information processing apparatus 100 can identify related words that are temporally characteristic.

さらに、情報処理装置100は、同一エリア内に対応する文書情報の内、関連語候補を含む文書数を判断指標情報として算出しているので、同一エリア全般で頻繁に使用されている単語であれば、関連語として判断せず、あるエリア内の限られた箇所で頻繁に使用されていれば、当該箇所の地名の関連語として判断する。したがって、情報処理装置100は、地名と関連度合いの高い単語である関連語、すなわち地理的に特徴のある関連語を抽出することができる。   Furthermore, since the information processing apparatus 100 calculates the number of documents including related word candidates among the document information corresponding to the same area as the determination index information, it may be a word that is frequently used throughout the same area. For example, if it is frequently used in a limited part in a certain area, it is determined as a related word of the place name of the part. Therefore, the information processing apparatus 100 can extract related words that are words that are highly related to the place name, that is, related words that are geographically characteristic.

つぎに、本実施形態の情報処理装置100および関連語判断方法の作用効果について説明する。本実施形態の情報処理装置100によれば、文書情報取得部101は、文書及び時刻情報が関連付けられている文書情報を取得し、形態素解析部103は、取得した文書情報の文書を解析し、候補決定部106は、文書情報の文書中に含まれている地名における関連語の候補を決定する。集計部107は、所定時間幅に生成された文書情報の内、関連語候補及び地名を含む文書の数を集計し、判断部108は、当該集計による結果と、関連語候補が一般語であるか否かを判断するための指標情報である判断指標情報を用いて、関連語候補が地名の関連語であるか否かを判断し、関連語である場合には、関連語登録部109は、地名の関連語と、地名とを関連付けた情報を登録する。これにより、情報処理装置100は、地名(固有名称)の適切な関連語を抽出することができる。すなわち、一般語を除去して、所定の時間幅における、地名(固有名称)に対応する関連語を抽出することができる。   Next, functions and effects of the information processing apparatus 100 and the related word determination method of this embodiment will be described. According to the information processing apparatus 100 of the present embodiment, the document information acquisition unit 101 acquires document information in which a document and time information are associated, and the morpheme analysis unit 103 analyzes the document of the acquired document information, The candidate determination unit 106 determines a related word candidate in the place name included in the document of the document information. The totaling unit 107 totals the number of documents including related word candidates and place names in the document information generated in a predetermined time span, and the determining unit 108 determines the result of the totaling and the related word candidates are general words. Whether or not the related word candidate is a related word of a place name is determined using determination index information that is index information for determining whether or not the related word is a related word. , Information relating the place name related word and the place name is registered. Thereby, the information processing apparatus 100 can extract an appropriate related word of the place name (unique name). That is, it is possible to remove a general word and extract a related word corresponding to a place name (unique name) in a predetermined time width.

また、本実施形態の情報処理装置100において、エリア付与部104は、文書情報の文書に含められた地名に対応するエリアを特定し、当該文書情報とエリアとを紐づける。また、判断部108は、所定時間幅における、エリアが紐づけられた文書情報の内、関連語候補を含む文書の数を少なくとも判断指標情報として用いる。このように、情報処理装置100は、エリアが紐づけられている文書情報における関連語候補を含む文書数に基づいて、関連語候補が地名の関連語となるか否かを判断するので、適切に地名の関連語を判断することができる。   In the information processing apparatus 100 according to the present embodiment, the area assigning unit 104 identifies an area corresponding to the place name included in the document of the document information, and associates the document information with the area. In addition, the determination unit 108 uses, as determination index information, at least the number of documents including related word candidates in the document information in which the areas are associated in a predetermined time width. As described above, the information processing apparatus 100 determines whether or not the related word candidate is a related word of the place name based on the number of documents including the related word candidate in the document information associated with the area. The related words of the place name can be determined.

(第2実施形態)
引き続き、本発明の第2実施形態に係る情報処理装置1Aについて、図1を参照しながら説明する。図1に示しているように、第1実施形態の情報処理装置100の構成要素の内、集計部107Aと判断部108Aのみが異なる処理を行い、他の構成要素は同一である。以下では、主に、第1実施形態との相違点について説明する。
(Second Embodiment)
Next, an information processing apparatus 1A according to the second embodiment of the present invention will be described with reference to FIG. As shown in FIG. 1, only the totaling unit 107A and the determination unit 108A perform different processes among the components of the information processing apparatus 100 of the first embodiment, and other components are the same. Hereinafter, differences from the first embodiment will be mainly described.

集計部107Aは、所定時間幅(例えば、3日間)で、所定の地名が属するエリア内の文書集合を対象に、上記地名を含む文書数(すなわち、文書数A)をカウントする。また、集計部107Aは、所定時間幅における、候補決定部106が決定した単語を含む文書数をカウントする(以下、当該文書数を「文書数B1」とも呼ぶ)。さらに、集計部107Aは、所定時間幅で、上記地名が属するエリア内の文書集合を対象に、上記地名と候補決定部106が決定した単語の両方を含む文書数(すなわち、文書数C)をカウントする。さらに、集計部107Aは、所定時間幅における文書において、候補決定部106が決定した単語が出現する回数をカウントする(以下、当該出現回数を「出現回数D」とも呼ぶ)。   The counting unit 107A counts the number of documents including the place name (that is, the number of documents A) for a document set in an area to which the given place name belongs in a predetermined time width (for example, 3 days). The totaling unit 107A counts the number of documents including the word determined by the candidate determining unit 106 in a predetermined time width (hereinafter, the number of documents is also referred to as “document number B1”). Further, the totaling unit 107A calculates the number of documents including both the place name and the word determined by the candidate determining unit 106 (that is, the number of documents C) for a set of documents in the area to which the place name belongs in a predetermined time width. Count. Further, the totaling unit 107A counts the number of times the word determined by the candidate determining unit 106 appears in the document in the predetermined time width (hereinafter, the number of appearances is also referred to as “appearance number D”).

判断部108Aは、関連語候補が地名の関連語となるか否かを判断する。第2実施形態では、集計部107Aがカウントした集計結果である、文書数A、文書数B1、及び文書数Cを用いてダイス係数を算出し、文書数B1と、出現回数Dとを用いて、tf・idfを算出し、ダイス係数とtf・idfとを演算したスコアを算出する(具体例として、ダイス係数とtf・idfとを積算したスコア)。当該算出結果が閾値以上であれば、判断部108Aが、関連語候補を地名の関連語として判断し、関連語登録部109は、地名と、関連語候補と、エリアとを関連付けた情報を関連語記憶部110へ登録する。一方、判断部108は、上記ダイス係数の算出結果が閾値未満であれば、関連語候補が関連語ではないと判断し、関連語として登録する対象から除外する。   The determination unit 108A determines whether the related word candidate is a related word of the place name. In the second embodiment, the dice coefficient is calculated using the document number A, the document number B1, and the document number C, which are the counting results counted by the counting unit 107A, and the document number B1 and the appearance count D are used. , Tf · idf is calculated, and a score obtained by calculating the dice coefficient and tf · idf is calculated (as a specific example, a score obtained by integrating the dice coefficient and tf · idf). If the calculation result is equal to or greater than the threshold value, the determination unit 108A determines the related word candidate as the related word of the place name, and the related word registration unit 109 relates the information that associates the place name, the related word candidate, and the area. Register in the word storage unit 110. On the other hand, if the calculation result of the dice coefficient is less than the threshold value, the determination unit 108 determines that the related word candidate is not a related word, and excludes it from an object to be registered as a related word.

続いて、図7を参照して、第2実施形態の情報処理装置100Aの動作について説明する。図7は、第2実施形態における情報処理装置100Aの処理内容を示すフローチャートである。   Subsequently, the operation of the information processing apparatus 100A according to the second embodiment will be described with reference to FIG. FIG. 7 is a flowchart showing the processing contents of the information processing apparatus 100A in the second embodiment.

ステップS21〜ステップS25、ステップS27、ステップS33〜ステップS38の処理内容はそれぞれ、第1実施形態のフローチャート(図6)におけるステップS1〜ステップS5、ステップS7、ステップS10〜ステップS14と同様である。   The processing contents of Steps S21 to S25, Step S27, and Steps S33 to S38 are the same as Steps S1 to S5, Step S7, and Steps S10 to S14 in the flowchart (FIG. 6) of the first embodiment, respectively.

第1実施形態と同様に、文書情報取得、形態素解析、エリア付与、そして候補決定の処理がなされる(S21〜S24)。そして、集計部107は、文書数A(あるエリアpおよびある時間幅tにおける文書集合を対象に、基準地名である地名nを含む文書数)を算出する(S25)。また、集計部107Aは、文書数B1(全エリアを対象にある時間幅tにおける文書集合を対象に、関連語候補の単語wを含む文書数)を算出する(S26)。また、集計部107Aは、文書数C(あるエリアpおよびある時間幅tにおける文書集合を対象に、地名nと単語wを含む文書数)を算出する(S27)。さらに、集計部107Aは、出現回数D(全エリアを対象にある時間幅tにおける文書集合を対象に、関連語候補の単語wの出現数)を算出する(S28)。そして、判断部108Aは、文書数A、文書数B1、及び文書数Cを用いて、以下に示す式(2)に基づいてダイス係数を算出する(S29)。

ダイス係数sim1=2×文書数C/(文書数A+文書数B1) ・・・(2)
As in the first embodiment, document information acquisition, morphological analysis, area assignment, and candidate determination are performed (S21 to S24). Then, the totaling unit 107 calculates the number of documents A (the number of documents including the place name n, which is the reference place name, for a document set in a certain area p and a certain time width t) (S25). Further, the totaling unit 107A calculates the number of documents B1 (the number of documents including the word w of the related word candidate for the document set in the time span t for all areas) (S26). Further, the totaling unit 107A calculates the number of documents C (the number of documents including the place name n and the word w for a document set in a certain area p and a certain time width t) (S27). Further, the tabulating unit 107A calculates the number of appearances D (the number of appearances of the word w as the related word candidate for the document set in the time span t for all areas) (S28). Then, the determination unit 108A calculates the dice coefficient based on the following equation (2) using the document number A, the document number B1, and the document number C (S29).

Dice coefficient sim1 = 2 × number of documents C / (number of documents A + number of documents B1) (2)

また、判断部108Aは、ステップS30において、以下に示す式(3)に基づいて文書数B1と、出現回数Dとを用いて、tf・idfを算出する(S30)。なお、式(3)におけるNは、全文書数を意味する。

tf・idf=出現回数D×log(N/文書数B1) ・・・(3)
In step S30, the determination unit 108A calculates tf · idf using the number of documents B1 and the number of appearances D based on the following equation (3) (S30). Note that N in Equation (3) means the total number of documents.

tf · idf = number of appearances D × log (N / number of documents B1) (3)

判断部108Aは、ダイス係数sim1とtf・idfとからスコアを算出し(S31)、判断部108Aは、当該スコアの値と閾値とを比較して、関連語候補を関連語として登録するか否かを判断する(S32)。   The determination unit 108A calculates a score from the dice coefficient sim1 and tf · idf (S31), and the determination unit 108A compares the score value with a threshold value to register the related word candidate as a related word. Is determined (S32).

ここで、判断部108Aが、スコアが閾値以上であると判断すると、関連語候補を関連語として登録し(S33)、閾値以上ではないと判断すると、関連語として登録しない(S34)。そして、基準地名と関連語候補のすべての組み合わせについて上述処理を繰り返して行い、地名に対する関連語を登録する(S35〜S38)。   If the determination unit 108A determines that the score is equal to or higher than the threshold, the related word candidate is registered as a related word (S33), and if it is determined that the score is not equal to or higher than the threshold, it is not registered as a related word (S34). Then, the above process is repeated for all combinations of the reference place name and the related word candidate, and the related words for the place name are registered (S35 to S38).

つぎに、第2実施形態の情報処理装置100Aの作用効果について説明する。本実施形態の情報処理装置100Aにおいて、判断部108は、所定の時間幅における、全文書数(N)と関連語候補を含む文書数(文書数B1)との比較情報を少なくとも判断指標情報として用いる。このように、情報処理装置100Aは、所定の時間幅における、全文書数と、関連語候補を含む文書数との比較情報を参照することにより、関連語候補が一般語であるか否かを判断することができるので、適切に地名(固有名称)の関連語を判断することができる。   Next, operational effects of the information processing apparatus 100A according to the second embodiment will be described. In the information processing apparatus 100A of this embodiment, the determination unit 108 uses at least determination information as comparison information between the total number of documents (N) and the number of documents including related word candidates (document number B1) in a predetermined time width. Use. In this way, the information processing apparatus 100A refers to the comparison information between the total number of documents and the number of documents including related word candidates in a predetermined time width, thereby determining whether the related word candidate is a general word. Since it can be judged, the related word of a place name (unique name) can be judged appropriately.

(第3実施形態)
引き続き、本発明の第3実施形態に係る情報処理装置100Bについて、図8を参照しながら説明する。図8は、第3実施形態に係る情報処理装置100Bの機能的構成を示すブロック図である。第1実施形態の情報処理装置100の構成要素の内、集計部107Bと判断部108Bが異なり、さらに一般語リスト生成部111を備える。
(Third embodiment)
The information processing apparatus 100B according to the third embodiment of the present invention will be described with reference to FIG. FIG. 8 is a block diagram illustrating a functional configuration of the information processing apparatus 100B according to the third embodiment. Among the components of the information processing apparatus 100 according to the first embodiment, the counting unit 107B and the determination unit 108B are different, and further include a general word list generation unit 111.

一般語リスト生成部111は、文書情報取得部101が取得した文書情報の文書中に頻出(例えば、所定値以上含められているなど)する単語を一般語としてリスト化する。   The general word list generation unit 111 lists words that appear frequently (for example, are included in a predetermined value or more) in the document of the document information acquired by the document information acquisition unit 101 as general words.

集計部107Bは、所定時間幅で、所定の地名が属するエリア内の文書集合を対象に、当該地名と関連語候補である単語の両方を含む文書数(文書数C)をカウントする。   The counting unit 107B counts the number of documents (document number C) including both the place name and a word that is a related word candidate for a set of documents in an area to which the given place name belongs in a predetermined time width.

判断部108Bは、地名毎に、集計部107Bによる集計数が多い順にソートしておき、集計数が所定値以上の関連語候補のリストを生成し、当該生成した関連語候補のリストの内、一般語リストに無い関連語候補を関連語として判断する。   The determination unit 108B sorts for each place name in descending order of the number of tabulations by the tabulation unit 107B, generates a list of related word candidates whose total number is equal to or greater than a predetermined value, and among the generated list of related word candidates, Related word candidates not in the general word list are determined as related words.

続いて、図9を参照して、第2実施形態の情報処理装置100Bの動作について説明する。図9は、第3実施形態における情報処理装置100Bの処理内容を示すフローチャートである。   Next, the operation of the information processing apparatus 100B according to the second embodiment will be described with reference to FIG. FIG. 9 is a flowchart showing the processing contents of the information processing apparatus 100B in the third embodiment.

ステップS41〜ステップS45の処理内容はそれぞれ、第1実施形態のフローチャート(図6)におけるステップS1〜ステップS5と同様である。   The processing contents of steps S41 to S45 are the same as those of steps S1 to S5 in the flowchart (FIG. 6) of the first embodiment.

そして、集計部107Bは、文書数C(あるエリアpおよびある時間幅tにおける文書集合を対象に、地名nと単語wを含む文書数)を算出し、集計結果を得る(S46)。   Then, the totaling unit 107B calculates the number of documents C (the number of documents including the place name n and the word w for a document set in a certain area p and a certain time width t), and obtains a totaling result (S46).

続いて、候補決定部106は、新たな関連語候補を検索する。具体的には、基準地名について、全ての関連語候補を判断していない場合(S47;Yes)、関連語候補群から次の一の関連語候補を判断対象として決定し(S48)、ステップS46へ移動する。   Subsequently, the candidate determination unit 106 searches for a new related word candidate. Specifically, when all the related word candidates are not determined for the reference place name (S47; Yes), the next related word candidate is determined as a determination target from the related word candidate group (S48), and step S46 is performed. Move to.

候補決定部106は、基準地名について、全ての関連語候補を判断した場合、すなわち、基準地名について、判断していない関連語候補がない場合(S47;No)、新たな基準地名を検索する。具体的には、候補決定部106は、基準地名群における次の基準地名があるか否か判断する。そして、判断した結果、次の基準地名があれば(S49;Yes)、候補決定部106は、当該地名を基準地名とし、関連語候補群から任意の一の関連語候補を決定し(S50)、ステップS46へ移動する。   When all the related word candidates are determined for the reference place name, that is, when there is no related word candidate that is not determined for the reference place name (S47; No), the candidate determining unit 106 searches for a new reference place name. Specifically, the candidate determination unit 106 determines whether there is a next reference place name in the reference place name group. If it is determined that there is a next reference place name (S49; Yes), the candidate determining unit 106 uses the place name as the reference place name and determines any one related word candidate from the related word candidate group (S50). Move to step S46.

候補決定部106は、基準地名群における、次の基準地名がなければ(S49;No)、全ての基準地名と関連語候補との組について判断したことになるので、関連語候補となる単語がないと判断する。判断部108Bは、地名毎に、集計部107Bによる集計数が多い順にソートしておき、集計数が所定値以上の関連語候補のリストを生成し(S51)、関連語候補のリストの各関連語候補が一般語リストに含まれているか否かを判断し(S49)、一般語リストに含まれていなければ(S52;Yes)、関連語登録部109は、地名と、関連語と判断された関連語候補と、エリアIDとが対応付けられた情報を関連語として、関連語情報記憶部110に記憶する(S53)。一方、一般語リストに含まれていれば(S52;No)、判断部108Bは、関連語候補を関連語ではないと判断し、関連語として登録する対象から除外する(S54)。   If there is no next reference place name in the reference place name group (S49; No), the candidate determination unit 106 has made a judgment on all sets of reference place names and related word candidates. Judge that there is no. The determination unit 108B sorts each place name in descending order of the number of tabulations by the tabulation unit 107B, generates a list of related word candidates whose total number is equal to or greater than a predetermined value (S51), and sets each related word candidate list. It is determined whether or not the word candidate is included in the general word list (S49). If it is not included in the general word list (S52; Yes), the related word registration unit 109 determines that the place name and the related word are included. Information related to the related word candidate and the area ID is stored in the related word information storage unit 110 as a related word (S53). On the other hand, if it is included in the general word list (S52; No), the determination unit 108B determines that the related word candidate is not a related word and excludes it from the target to be registered as a related word (S54).

つぎに、本実施形態の情報処理装置100Bの作用効果について説明する。本発明の情報処理装置100Bにおいて、判断部108Bは、文書情報中における出現度合いに基づいて生成した一般語リスト情報を判断指標情報として用いる。このように、情報処理装置100Bは、所定時間幅における地名と関連語候補とを含む文書数をカウントし、文書情報の文書中における出現度合いに基づいて生成した一般語リスト情報を判断指標情報として用いて、関連語候補が地名の関連語となるか否かを判断するので、適切に地名の関連語を判断することができる。   Next, operational effects of the information processing apparatus 100B according to the present embodiment will be described. In the information processing apparatus 100B of the present invention, the determination unit 108B uses general word list information generated based on the appearance degree in the document information as determination index information. In this way, the information processing apparatus 100B counts the number of documents including place names and related word candidates in a predetermined time width, and uses the general word list information generated based on the appearance degree of the document information in the document as determination index information. Since it is determined whether or not the related word candidate is a related word of the place name, it is possible to appropriately determine the related word of the place name.

以上、本発明の好適な実施形態について説明したが、本発明は上記実施形態に限定されないことは言うまでもない。   As mentioned above, although preferred embodiment of this invention was described, it cannot be overemphasized that this invention is not limited to the said embodiment.

例えば、上記実施形態では、地名に対応する関連語を登録する構成としたが、これに限られることはない。例えば、他の固有名称(例えば、人名、映画のタイトル等)に対応する関連語を登録するようにしても良い。なお、人名の上位項目は、人の分類情報(所属組織など)になり、映画の上位項目は、映画のジャンルになる。   For example, in the above embodiment, the related word corresponding to the place name is registered. However, the present invention is not limited to this. For example, related words corresponding to other unique names (for example, personal names, movie titles, etc.) may be registered. It should be noted that the upper item of the person name is the person's classification information (affiliation organization, etc.), and the upper item of the movie is the genre of the movie.

100…情報処理装置、101…文書情報取得部、102…文書情報記憶部、103…形態素解析部、104…エリア付与部、105…ワード記憶部、106…候補決定部、107…集計部、108…判断部、109…関連語登録部、110…関連語記憶部
DESCRIPTION OF SYMBOLS 100 ... Information processing apparatus, 101 ... Document information acquisition part, 102 ... Document information storage part, 103 ... Morphological analysis part, 104 ... Area addition part, 105 ... Word storage part, 106 ... Candidate determination part, 107 ... Aggregation part, 108 ... judgment part, 109 ... related word registration part, 110 ... related word storage part

Claims (5)

文書及び時刻情報が関連付けられている文書情報を取得する文書情報取得手段と、
前記文書情報取得手段が取得した文書情報中の文書を解析し、当該文書中に含まれている固有名称における関連語の候補である関連語候補を決定する関連語候補決定手段と、
所定時間幅に生成された文書情報の内、前記関連語候補及び前記固有名称を含む文書の数を集計する集計手段と、
前記集計手段による集計結果と、前記関連語候補が一般語であるか否かを判断するための指標情報である判断指標情報とを用いて、前記関連語候補が前記固有名称の関連語であるか否かの判断をする判断手段と、
前記判断手段が判断した結果、関連語である場合には、前記固有名称の関連語と、前記固有名称とを関連付けた情報を登録する登録手段と、を備えることを特徴とする情報処理装置。
Document information acquisition means for acquiring document information associated with the document and time information;
Analyzing a document in the document information acquired by the document information acquisition means, and a related word candidate determination means for determining a related word candidate that is a related word candidate in the proper name included in the document;
Aggregating means for aggregating the number of documents including the related word candidate and the unique name among the document information generated in a predetermined time width;
The related word candidate is a related word of the unique name by using the counting result by the counting means and determination index information that is index information for determining whether the related word candidate is a general word. A determination means for determining whether or not,
An information processing apparatus comprising: registration means for registering information relating the related word of the unique name and the unique name if the result of the determination by the determining means is a related word.
前記文書情報中の文書に含められた固有名称に対応する当該固有名称の上位項目を特定し、当該文書情報と上位項目とを紐づける上位項目特定手段をさらに備え、
前記判断手段は、所定時間幅における、前記固有名称に対応する上位項目が紐づけられた文書情報の内、前記関連語候補を含む文書の数を少なくとも前記判断指標情報として用いることを特徴とする請求項1に記載の情報処理装置。
Further comprising an upper item specifying means for specifying an upper item of the unique name corresponding to the unique name included in the document in the document information, and linking the document information with the upper item;
The determination means uses, as at least the determination index information, the number of documents including the related word candidates in document information in which a higher-level item corresponding to the unique name is linked in a predetermined time width. The information processing apparatus according to claim 1.
前記判断手段は、所定の時間幅における、全文書数と前記関連語候補を含む文書数との比較情報を少なくとも判断指標情報として用いることを特徴とする請求項1に記載の情報処理装置。   The information processing apparatus according to claim 1, wherein the determination unit uses, as determination index information, comparison information between the total number of documents and the number of documents including the related word candidates in a predetermined time width. 前記判断手段は、前記文書情報の文書中における出現度合いに基づいて生成した一般語リスト情報を少なくとも前記判断指標情報として用いることを特徴とする請求項1に記載の情報処理装置。   The information processing apparatus according to claim 1, wherein the determination unit uses general word list information generated based on an appearance degree of the document information in the document as at least the determination index information. 文書及び時刻情報が関連付けられている文書情報を取得する文書情報取得ステップと、
前記文書情報ステップで取得した文書情報中の文書を解析し、当該文書中に含まれている固有名称における関連語の候補である関連語候補を決定する関連語候補決定ステップと、
所定時間幅に生成された文書情報の内、前記関連語候補及び前記固有名称を含む文書の数を集計する集計ステップと、
前記集計ステップによる集計結果と、前記関連語候補が一般語であるか否かを判断するための指標情報である判断指標情報とを用いて、前記関連語候補が前記固有名称の関連語であるか否かの判断をする判断ステップと、
前記判断ステップで判断した結果、関連語である場合には、前記固有名称の関連語と、前記固有名称とを関連付けた情報を登録する登録ステップと、
を備える関連語判断方法。
A document information acquisition step for acquiring document information associated with the document and time information;
Analyzing a document in the document information acquired in the document information step, and determining a related word candidate that is a related word candidate in a specific name included in the document; and
A totaling step of counting the number of documents including the related word candidate and the unique name in the document information generated in a predetermined time width;
The related word candidate is a related word of the unique name, using the counting result obtained by the counting step and determination index information that is index information for determining whether the related word candidate is a general word. A determination step for determining whether or not,
As a result of the determination in the determination step, if it is a related word, a registration step of registering information relating the related word of the unique name and the unique name;
A related word judgment method comprising:
JP2012129763A 2012-06-07 2012-06-07 Information processing device and related word determination method Pending JP2013254366A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012129763A JP2013254366A (en) 2012-06-07 2012-06-07 Information processing device and related word determination method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012129763A JP2013254366A (en) 2012-06-07 2012-06-07 Information processing device and related word determination method

Publications (1)

Publication Number Publication Date
JP2013254366A true JP2013254366A (en) 2013-12-19

Family

ID=49951817

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012129763A Pending JP2013254366A (en) 2012-06-07 2012-06-07 Information processing device and related word determination method

Country Status (1)

Country Link
JP (1) JP2013254366A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015225492A (en) * 2014-05-28 2015-12-14 日本電信電話株式会社 Local topic word extraction device, local topic word extraction method, and local topic word extraction program
JP2018092367A (en) * 2016-12-02 2018-06-14 日本放送協会 Related word extracting device and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015225492A (en) * 2014-05-28 2015-12-14 日本電信電話株式会社 Local topic word extraction device, local topic word extraction method, and local topic word extraction program
JP2018092367A (en) * 2016-12-02 2018-06-14 日本放送協会 Related word extracting device and program

Similar Documents

Publication Publication Date Title
US11847612B2 (en) Social media profiling for one or more authors using one or more social media platforms
CN103177075B (en) The detection of Knowledge based engineering entity and disambiguation
CN102473190B (en) Keyword assignment to a web page
US9483462B2 (en) Generating training data for disambiguation
US20110040769A1 (en) Query-URL N-Gram Features in Web Ranking
US10152478B2 (en) Apparatus, system and method for string disambiguation and entity ranking
US8515986B2 (en) Query pattern generation for answers coverage expansion
US20110307432A1 (en) Relevance for name segment searches
US8793120B1 (en) Behavior-driven multilingual stemming
US7962523B2 (en) System and method for detecting templates of a website using hyperlink analysis
CN103294778A (en) Method and system for pushing messages
US20150120708A1 (en) Information aggregation, classification and display method and system
US10127322B2 (en) Efficient retrieval of fresh internet content
WO2012077423A1 (en) Retrieval device, retrieval system, retrieval method, retrieval program, and computer-readable recording medium storing retrieval program
KR101638535B1 (en) Method of detecting issue patten associated with user search word, server performing the same and storage medium storing the same
CN110245357B (en) Main entity identification method and device
Cui et al. Personalized microblog recommendation using sentimental features
US9705972B2 (en) Managing a set of data
US20130230248A1 (en) Ensuring validity of the bookmark reference in a collaborative bookmarking system
JP2013254366A (en) Information processing device and related word determination method
KR20110094563A (en) The apparatus and method for searching related keyword of user-defined search keyword based using relationship of link-keywords in web documents
Cao et al. Extraction of informative blocks from web pages
KR20120090131A (en) Method, system and computer readable recording medium for providing search results
KR101402339B1 (en) System and method of managing document
Huang et al. Web content adaptation for mobile device: A fuzzy-based approach