JP2013254366A - Information processing device and related word determination method - Google Patents
Information processing device and related word determination method Download PDFInfo
- Publication number
- JP2013254366A JP2013254366A JP2012129763A JP2012129763A JP2013254366A JP 2013254366 A JP2013254366 A JP 2013254366A JP 2012129763 A JP2012129763 A JP 2012129763A JP 2012129763 A JP2012129763 A JP 2012129763A JP 2013254366 A JP2013254366 A JP 2013254366A
- Authority
- JP
- Japan
- Prior art keywords
- related word
- information
- document
- candidate
- determination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、固有名称の関連語を取得する情報処理装置および関連語判断方法に関する。 The present invention relates to an information processing apparatus for acquiring a related word of a proper name and a related word determination method.
近年のWeb技術においては、ブログやマイクロブログ、SNSなど、一般ユーザーが文章を投稿するサービスが普及している。特にマイクロブログでは情報のリアルタイム性が高く、テキストマイニング技術を使うことで、ある時間幅における、ある固有名称の関連度合いの高い単語である関連語を抽出することが期待される。 In recent Web technologies, services such as blogs, microblogs, and SNS, which are used by general users to post sentences, have become widespread. In particular, microblogging is highly real-time in information, and it is expected to extract related words that are words having a high degree of relevance of a certain unique name in a certain time span by using text mining technology.
ある単語に関連する単語を抽出するため、単語同士の関連度を計算する技術が存在する(例えば、特許文献1)。特許文献1では、情報検索の際にクエリとなる単語に関連する単語を付加することで、検索の際に有用な情報を得ることを目的として、単語同士の関連性だけでなく、単語の重要度(単語の知名度、話題度、単語の内容の深さ)を計算し、関連語を抽出している。また、単語の共起情報を使って関連度を計算する方法が非特許文献1に示されている。 In order to extract a word related to a certain word, there is a technique for calculating the degree of association between words (for example, Patent Document 1). In Patent Document 1, not only the relationship between words but also the importance of a word is used for the purpose of obtaining useful information during a search by adding a word related to a query word during the information search. Degrees (word familiarity, topic level, word content depth) are calculated, and related words are extracted. Further, Non-Patent Document 1 shows a method for calculating the degree of association using word co-occurrence information.
特許文献1の方法では、静的なWebページのリンク構造を有していることを前提に関連語を抽出するため、リアルタイムに生成された文書から関連語を抽出することができないという問題点がある。また、非特許文献1では、固有名称に着目して関連語を抽出することについて考慮されていない。 In the method of Patent Document 1, since related words are extracted on the premise of having a static Web page link structure, there is a problem that related words cannot be extracted from a document generated in real time. is there. Further, Non-Patent Document 1 does not consider extracting related words by paying attention to proper names.
そこで、本発明においては、上記の課題を解決するために、所定の時間幅を考慮して、所定の固有名称に対応した関連語を適切に抽出することができる情報処理装置および関連語判断方法を提供することを目的とする。 Therefore, in the present invention, in order to solve the above-described problem, an information processing apparatus and a related word determination method capable of appropriately extracting related words corresponding to a predetermined unique name in consideration of a predetermined time width The purpose is to provide.
上述の課題を解決するために、本発明の情報処理装置は、文書及び時刻情報が関連付けられている文書情報を取得する文書情報取得手段と、前記文書情報取得手段が取得した文書情報中の文書を解析し、当該文書中に含まれている固有名称における関連語の候補である関連語候補を決定する関連語候補決定手段と、所定時間幅に生成された文書情報の内、前記関連語候補及び前記固有名称を含む文書の数を集計する集計手段と、前記集計手段による集計結果と、前記関連語候補が一般語であるか否かを判断するための指標情報である判断指標情報とを用いて、前記関連語候補が前記固有名称の関連語であるか否かの判断をする判断手段と、前記判断手段が判断した結果、関連語である場合には、前記固有名称の関連語と、前記固有名称とを関連付けた情報を登録する登録手段と、を備えている。 In order to solve the above-described problem, an information processing apparatus according to the present invention includes a document information acquisition unit that acquires document information associated with a document and time information, and a document in the document information acquired by the document information acquisition unit. And a related word candidate determining means for determining a related word candidate that is a candidate of a related word in the proper name included in the document, and the related word candidate among the document information generated in a predetermined time width And a counting unit that counts the number of documents including the unique name, a counting result by the counting unit, and determination index information that is index information for determining whether or not the related word candidate is a general word And determining means for determining whether or not the related word candidate is a related word of the unique name, and, as a result of the determination by the determining means, if the related word candidate is a related word, , And the proper name It comprises registration means for registering with the information.
また、本発明の情報処理装置は、文書及び時刻情報が関連付けられている文書情報を取得する文書情報取得ステップと、前記文書情報取得ステップで取得した文書情報中の文書を解析し、当該文書中に含まれている固有名称における関連語の候補である関連語候補を決定する関連語候補決定ステップと、所定時間幅に生成された文書情報の内、前記関連語候補及び前記固有名称を含む文書の数を集計する集計ステップと、前記集計ステップによる集計結果と、前記関連語候補が一般語であるか否かを判断するための指標情報である判断指標情報とを用いて、前記関連語候補が前記固有名称の関連語であるか否かの判断をする判断ステップと、前記判断ステップで判断した結果、関連語である場合には、前記固有名称の関連語と、前記固有名称とを関連付けた情報を登録する登録ステップと、を備えている。 The information processing apparatus according to the present invention includes a document information acquisition step for acquiring document information associated with a document and time information, and analyzes a document in the document information acquired in the document information acquisition step. A related word candidate determining step for determining a related word candidate that is a candidate for a related word in the specific name included in the document, and a document including the related word candidate and the specific name among the document information generated in a predetermined time width The related word candidate using a counting step for counting the number of words, a counting result obtained by the counting step, and determination index information that is index information for determining whether or not the related word candidate is a general word Determining whether or not is a related word of the proper name, and, as a result of the determination in the determining step, if it is a related word, the related word of the proper name and the proper name And a, a registration step of registering information that associates.
この発明によれば、時刻情報が関連付けられている文書情報を取得し、取得した文書情報を解析し、文書情報中に含まれている固有名称における関連語の候補を決定する。所定時間幅に生成された文書情報の内、関連語候補及び固有名称を含む文書の数を集計し、当該集計による結果と、関連語候補が一般語であるか否かを判断するための指標情報である判断指標情報を用いて、関連語候補が固有名称の関連語であるか否かを判断し、関連語である場合には、固有名称の関連語と、固有名称とを関連付けた情報を登録する。これにより、固有名称の適切な関連語を抽出することができる。すなわち、一般語を除去して、所定の時間幅における、固有名称に対応する関連語を登録することができる。なお、ここでいう固有名称としては、地名、人名、映画のタイトルなどが該当する。 According to the present invention, the document information associated with the time information is acquired, the acquired document information is analyzed, and the related word candidate in the proper name included in the document information is determined. The number of documents containing related word candidates and unique names in the document information generated in a predetermined time span is counted, and the result of the counting and an index for determining whether the related word candidate is a general word Using the determination index information that is information, it is determined whether or not the related word candidate is a related word of a unique name. If the related word candidate is a related word, information that associates the related word of the specific name with the specific name Register. This makes it possible to extract an appropriate related word having a proper name. That is, it is possible to register a related word corresponding to the unique name in a predetermined time width by removing the general word. In addition, as a proper name here, a place name, a person name, a movie title, etc. correspond.
また、本発明の情報処理装置において、前記文書情報中の文書に含められた固有名称に対応する当該固有名称の上位項目を特定し、当該文書情報と上位項目とを紐づける上位項目特定手段をさらに備え、前記判断手段は、所定時間幅における、前記固有名称に対応する上位項目が紐づけられた文書情報の内、前記関連語候補を含む文書の数を少なくとも前記判断指標情報として用いる。 In the information processing apparatus of the present invention, an upper item specifying unit that specifies an upper item of the unique name corresponding to the unique name included in the document in the document information and associates the document information with the upper item. In addition, the determination unit uses, as at least the determination index information, the number of documents including the related word candidates in the document information in which the upper item corresponding to the unique name is linked in a predetermined time span.
この発明によれば、文書情報中の文書に含められた固有名称の上位項目を特定し、当該文書情報と上位項目とを紐づけておき、所定時間幅における、固有名称に対応する上位項目が紐づけられた文書情報の内、関連語候補を含む文書の数を判断指標情報として用いることにより、固有名称に対応する上位項目が紐づけられている文書情報の内、関連語候補を含む文書数に基づいて、関連語候補が固有名称の関連語となるか否かを判断するので、適切に固有名称の関連語を判断することができる。なお、ここでいう上位項目とは、所定の固有名称の上位概念的に属するものをいう(例えば、地名に対するエリアや、映画のタイトルに対するジャンルなど)。 According to this invention, the upper item of the unique name included in the document in the document information is specified, the document information and the upper item are linked, and the upper item corresponding to the unique name in the predetermined time width is By using the number of documents including related word candidates among the associated document information as determination index information, the document information including related word candidates among the document information associated with the higher-level item corresponding to the unique name Based on the number, it is determined whether or not the related word candidate is a related word of the proper name, so that the related word of the proper name can be appropriately determined. Note that the upper item here refers to items belonging to a predetermined unique name in a higher-level concept (for example, an area for a place name or a genre for a movie title).
また、本発明の情報処理装置において、前記判断手段は、所定の時間幅における、全文書数と前記関連語候補を含む文書数との比較情報を少なくとも判断指標情報として用いる。 In the information processing apparatus according to the present invention, the determination unit uses, as at least determination index information, comparison information between the total number of documents and the number of documents including the related word candidates in a predetermined time width.
この発明によれば、所定の時間幅における、全文書数と、関連語候補を含む文書数との比較情報を参照することにより、関連語候補が一般語であるか否かを判断することができるので、適切に固有名称の関連語を判断することができる。 According to this invention, it is possible to determine whether or not a related word candidate is a general word by referring to comparison information between the total number of documents and the number of documents including related word candidates in a predetermined time width. Therefore, it is possible to appropriately determine the related word of the proper name.
また、本発明の情報処理装置において、前記判断手段は、前記文書情報の文書中における出現度合いに基づいて生成した一般語リスト情報を少なくとも前記判断指標情報として用いる。 In the information processing apparatus of the present invention, the determination unit uses, as at least the determination index information, general word list information generated based on the appearance degree of the document information in the document.
この発明によれば、所定時間幅における地名と関連語候補とを含む文書の数をカウントし、文書情報の文書中における出現度合いに基づいて生成した一般語リスト情報を判断指標情報として用いて、関連語候補が一般語であるか否かを判断するので、適切に固有名称の関連語を判断することができる。 According to the present invention, the number of documents including place names and related word candidates in a predetermined time width is counted, and the general word list information generated based on the appearance degree of the document information in the document is used as the determination index information. Since it is judged whether a related word candidate is a general word, the related word of a proper name can be judged appropriately.
本発明によれば、固有名称の適切な関連語を登録することができる。すなわち、所定の時間幅を考慮して、所定の固有名称に対応した関連語を適切に抽出することができる。 According to the present invention, an appropriate related word having a proper name can be registered. That is, it is possible to appropriately extract related words corresponding to a predetermined unique name in consideration of a predetermined time width.
添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一部分には同一の符号を付して、重複する説明を省略する。 Embodiments of the present invention will be described with reference to the accompanying drawings. When possible, the same parts are denoted by the same reference numerals, and redundant description is omitted.
(第1実施形態)
図1は、第1実施形態の情報処理装置100の機能を示すブロック図である。図1に示される通り、この情報処理装置100は、文書情報取得部101(文書情報取得手段)、文書情報記憶部102、形態素解析部103(関連語候補決定手段)、エリア付与部104(上位項目特定手段)、ワード記憶部105、候補決定部106(関連語候補決定手段)、集計部107(集計手段)、判断部108(判断手段)、関連語登録部109(登録手段)、関連語記憶部110を含んで構成されている。なお、第1実施形態から第3実施形態では、固有名称として地名に対する関連語抽出の仕方について詳細に説明する。
(First embodiment)
FIG. 1 is a block diagram illustrating functions of the
図2は、情報処理装置100のハードウェア構成図である。図1に示される情報処理装置100は、物理的には、図2に示すように、CPU11、主記憶装置であるRAM12及びROM13、入力デバイスであるキーボード及びマウス等の入力装置14、ディスプレイ等の出力装置15、ネットワークカード等のデータ送受信デバイスである通信モジュール16、ハードディスクまたは半導体メモリ等の補助記憶装置17などを含むコンピュータシステムとして構成されている。図1における各機能は、図2に示すCPU11、RAM12等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU11の制御のもとで入力装置14、出力装置15、通信モジュール16を動作させるとともに、RAM12や補助記憶装置17におけるデータの読み出し及び書き込みを行うことで実現される。以下、図1に示す機能ブロックに基づいて各機能ブロックを説明する。
FIG. 2 is a hardware configuration diagram of the
文書情報取得部101は、ネットワークを介してWeb上の文書情報を取得する。具体的には、HTTP(HyperText Transfer Protocol)通信によりWebサーバから文書情報を取得する。文書情報の具体例としては、ブログやマイクロブログ等がある。文書情報取得部101が取得した文書情報は、文書記憶部102に格納される。
The document
文書情報記憶部102は、文書情報を格納するものである。図3に、文書情報の一例を示す。文書情報には、文書ID、文書の時間情報、文書本文が少なくとも含まれる。文書IDは、インターネット上から取得した元情報を識別するIDである。例えば、サイトのURLなどが該当する。時間情報は、文書が作成された時刻である。文書本文は、投稿された記事内容である。
The document
形態素解析部103は、文書情報記憶部102で記憶している文書情報の文書に対して形態素解析を行うことにより複数単語を抽出するものである。なお、形態素解析技術そのものについては、例えば特開平7−311769号公報に開示されているなど周知であるため、ここでは説明を省略する。
The
エリア付与部104は、形態素解析部103が解析した結果から、地名に該当する単語を特定し、当該地名からエリア(エリアID、エリア名称など)を特定する。エリアを特定する方法として、図示しないエリアと地名の対応情報を用いる方法や、外部のコンピュータに問い合わせるなどの方法がある。形態素解析されて得られた単語は、文書IDと、エリア付与部104により特定されたエリアとが関連付けられて、ワード記憶部105に格納される。ここでいうエリアは、上位項目に対応する。
The
ワード記憶部105は、形態素解析部103により形態素解析されて抽出された単語と、文書IDと、エリア付与部104が特定したエリアと、を関連付けた情報であるワード情報を格納するものである。図4に、ワード情報の一例を示す。ワード情報には、文書ID、文書の時間情報、形態素解析部103が解析した単語、及びエリアが少なくとも含まれる。また、情報処理装置100は、ワード記憶部105に記憶されている情報を参照して、地名を抽出して、抽出した地名を基準地名群として別途保持しておく。なお、当該基準地名群は、重複排除されているものとする。そして、情報処理装置100は、ワード記憶部105に記憶されている情報を参照して、地名以外の単語群を関連語候補群として別途保持しておく。なお、基準地名群は、重複排除されているものとする。また、一つの文書情報中の文書に地名が複数含まれている場合は、それぞれを地名として扱っても良い。
The
候補決定部106は、文書情報の文書に含まれている地名の関連語の候補である一又は複数の関連語候補を上記関連語候補群から決定する。具体的に、候補決定部106は、地名を含む文書中における、当該地名以外の単語を関連語候補とする。なお、候補決定部106は、地名を含まない文章中における各単語は、関連語候補として扱わない。
The
集計部107は、所定条件に合致する文書数のカウントを行う。第1実施形態では、所定時間幅(例えば、3日間)に作成された文書情報について、所定の地名が属するエリア内の文書集合を対象に、上記地名を含む文書数をカウントする(以下、当該文書数を「文書数A」とも呼ぶ)。また、集計部107は、上記時間幅で、上記地名が属するエリア内の文書集合を対象に、候補決定部106が決定した単語を含む文書数をカウントする(以下、当該文書数を「文書数B」とも呼ぶ)。さらに、集計部107は、上記時間幅に作成された文書情報について、上記地名が属するエリア内の文書集合を対象に、上記地名と上記候補決定部106が決定した単語の両方を含む文書数をカウントする(以下、当該文書数を「文書数C」とも呼ぶ)。
The
判断部108は、関連語候補それぞれが地名の関連語となるか否かを判断する。第1実施形態では、集計部107がカウントした集計結果である、文書数A、文書数B、及び文書数Cを用いて、以下の式(1)に基づいてダイス係数を算出し、当該算出結果が閾値以上であれば、地名の関連語として判断し、関連語登録部109が、地名と、関連語候補とを関連付けた情報を登録する。一方、判断部108は、上記ダイス係数の算出結果が閾値未満であれば、関連語候補が関連語ではないと判断し、関連語として登録する対象から除外する。このように、判断部108は、ダイス係数が小さい単語を閾値処理することにより、一般的な単語(例えば「今日」、「私」など)を関連語の登録対象から除外することができる。
ダイス係数sim=2×文書数C/(文書数A+文書数B) ・・・(1)
The
Dice coefficient sim = 2 × number of documents C / (number of documents A + number of documents B) (1)
関連語登録部109は、地名と、判断部108によって関連語と判断された関連語候補とを含む情報を関連語記憶部110へ登録する。
The related
関連語記憶部110は、図5に示すように、地名と、関連語と、エリア(エリアIDまたはエリア名称)とを含む情報を記憶する。情報処理装置100は、関連語記憶部110に記憶されている情報を用いて、地名(ランドマークも含む)の関連語を情報出力する。具体的には、情報処理装置100は、ブログ等に入力された地名のランキングを出力した際に、当該地名の関連語を出力する。これにより、情報処理装置100は、人気のある場所に対応する地名の関連語を出力することができる。
As illustrated in FIG. 5, the related
このように構成された情報処理装置100の動作について説明する。図6は、情報処理装置100の処理を示すフローチャートである。まず、文書情報取得部101は、文書情報を取得し、当該文書情報が文書情報記憶部102に記憶される(S1)。そして、形態素解析部103は、文書情報記憶部102で記憶している文書情報の文書を形態素解析して、単語を抽出する(S2)。エリア付与部104は、形態素解析部103による処理結果から、文書本文に地名を含む単語を特定し、当該地名に対応するエリアを特定する。そして、エリア付与部104が特定したエリアと各形態素解析により抽出された文書本文の単語と、文書IDとが対応付けられた情報がワード記憶部105に記憶される(S3)。また、情報処理装置100は、ワード記憶部105に記憶されている情報を参照して、当該地名を抽出して、基準地名群を別途保持しておく。そして、情報処理装置100は、ワード記憶部105に記憶されている情報を参照して、地名以外の単語群を関連語候補群として別途保持しておく。
An operation of the
候補決定部106は、基準地名群の任意の一の地名を基準地名とする。また、候補決定部106は、関連語候補群のいずれか一つを関連語候補とする(S4)。そして、集計部107は、文書数A(あるエリアpおよびある時間幅tにおける文書集合を対象に、基準地名である地名nを含む文書数)を算出し(S5)、文書数B(あるエリアpおよびある時間幅tにおける文書集合を対象に、関連語候補の単語wを含む文書数)を算出し(S6)、文書数C(あるエリアpおよびある時間幅tにおける文書集合を対象に、地名nと単語wを含む文書数)を算出する(S7)。そして、判断部108は、文書数A、文書数B、及び文書数Cを用いてダイス係数を算出し(S8)、当該ダイス係数が所定の閾値以上であれば(S9;Yes)、関連語候補が関連語であると判断する。そして、関連語登録部109は、地名と、関連語と、エリアIDとが対応付けられた情報を関連語情報として、関連語情報記憶部110に記憶する(S10)。一方、ダイス係数が所定の閾値未満であれば(S9;No)、判断部108は、関連語候補を関連語ではないと判断し、関連語の登録対象から除外する(S11)。
The
続いて、候補決定部106は、新たな関連語候補を検索する。具体的には、基準地名について、全ての関連語候補を判断していない場合(S12;Yes)、関連語候補群から次の一の関連語候補を判断対象として決定し(S13)、ステップS5へ移動する。
Subsequently, the
候補決定部106は、基準地名について、全ての関連語候補を判断した場合、すなわち、基準地名について、判断していない関連語候補がない場合(S12;No)、基準地名群から次の一の基準地名を検索する。具体的には、候補決定部106は、基準地名群に、次の基準地名があるか否か判断する。そして、判断した結果、次の基準地名があれば(S14;Yes)、候補決定部106は、当該地名を基準地名とし、関連語候補群から任意の一の関連語候補を判断対象の関連語候補として決定し(S15)、ステップS5へ移動し、ここで決定された基準地名、関連語候補に基づいて当該関連語候補が関連語であるか否かの判断処理を行う。
When all the related word candidates are determined for the reference place name, that is, when there is no related word candidate that has not been determined for the reference place name (S12; No), the
候補決定部106は、基準地名群における、次の基準地名がなければ(S14;No)、関連語候補となる単語がないと判断し、処理を終了する。
If there is no next reference place name in the reference place name group (S14; No), the
以上説明したように、情報処理装置100は、基準地名と関連語候補とのすべての組み合わせについて、上述文書数A〜Cを算出して、それら文書数を用いて地名に対応する関連語を判断することができる。すなわち、ある文書情報の文書に含まれる地名(固有名称)を特定して、当該地名に対応する単語を含む文書数だけでなく、当該単語が一般的であるか否かを判断するための情報を用いて、地名と関連度の高い単語であるかを判断しているので、適切に関連語を抽出することができる。
As described above, the
また、情報処理装置100は、所定の時間幅の間の文書情報のみを対象としているので、例えば、直近に使用されている関連語を特定することができる。すなわち、情報処理装置100は、時間的に特徴のある関連語を特定することができる。
In addition, since the
さらに、情報処理装置100は、同一エリア内に対応する文書情報の内、関連語候補を含む文書数を判断指標情報として算出しているので、同一エリア全般で頻繁に使用されている単語であれば、関連語として判断せず、あるエリア内の限られた箇所で頻繁に使用されていれば、当該箇所の地名の関連語として判断する。したがって、情報処理装置100は、地名と関連度合いの高い単語である関連語、すなわち地理的に特徴のある関連語を抽出することができる。
Furthermore, since the
つぎに、本実施形態の情報処理装置100および関連語判断方法の作用効果について説明する。本実施形態の情報処理装置100によれば、文書情報取得部101は、文書及び時刻情報が関連付けられている文書情報を取得し、形態素解析部103は、取得した文書情報の文書を解析し、候補決定部106は、文書情報の文書中に含まれている地名における関連語の候補を決定する。集計部107は、所定時間幅に生成された文書情報の内、関連語候補及び地名を含む文書の数を集計し、判断部108は、当該集計による結果と、関連語候補が一般語であるか否かを判断するための指標情報である判断指標情報を用いて、関連語候補が地名の関連語であるか否かを判断し、関連語である場合には、関連語登録部109は、地名の関連語と、地名とを関連付けた情報を登録する。これにより、情報処理装置100は、地名(固有名称)の適切な関連語を抽出することができる。すなわち、一般語を除去して、所定の時間幅における、地名(固有名称)に対応する関連語を抽出することができる。
Next, functions and effects of the
また、本実施形態の情報処理装置100において、エリア付与部104は、文書情報の文書に含められた地名に対応するエリアを特定し、当該文書情報とエリアとを紐づける。また、判断部108は、所定時間幅における、エリアが紐づけられた文書情報の内、関連語候補を含む文書の数を少なくとも判断指標情報として用いる。このように、情報処理装置100は、エリアが紐づけられている文書情報における関連語候補を含む文書数に基づいて、関連語候補が地名の関連語となるか否かを判断するので、適切に地名の関連語を判断することができる。
In the
(第2実施形態)
引き続き、本発明の第2実施形態に係る情報処理装置1Aについて、図1を参照しながら説明する。図1に示しているように、第1実施形態の情報処理装置100の構成要素の内、集計部107Aと判断部108Aのみが異なる処理を行い、他の構成要素は同一である。以下では、主に、第1実施形態との相違点について説明する。
(Second Embodiment)
Next, an information processing apparatus 1A according to the second embodiment of the present invention will be described with reference to FIG. As shown in FIG. 1, only the totaling unit 107A and the
集計部107Aは、所定時間幅(例えば、3日間)で、所定の地名が属するエリア内の文書集合を対象に、上記地名を含む文書数(すなわち、文書数A)をカウントする。また、集計部107Aは、所定時間幅における、候補決定部106が決定した単語を含む文書数をカウントする(以下、当該文書数を「文書数B1」とも呼ぶ)。さらに、集計部107Aは、所定時間幅で、上記地名が属するエリア内の文書集合を対象に、上記地名と候補決定部106が決定した単語の両方を含む文書数(すなわち、文書数C)をカウントする。さらに、集計部107Aは、所定時間幅における文書において、候補決定部106が決定した単語が出現する回数をカウントする(以下、当該出現回数を「出現回数D」とも呼ぶ)。
The counting unit 107A counts the number of documents including the place name (that is, the number of documents A) for a document set in an area to which the given place name belongs in a predetermined time width (for example, 3 days). The totaling unit 107A counts the number of documents including the word determined by the
判断部108Aは、関連語候補が地名の関連語となるか否かを判断する。第2実施形態では、集計部107Aがカウントした集計結果である、文書数A、文書数B1、及び文書数Cを用いてダイス係数を算出し、文書数B1と、出現回数Dとを用いて、tf・idfを算出し、ダイス係数とtf・idfとを演算したスコアを算出する(具体例として、ダイス係数とtf・idfとを積算したスコア)。当該算出結果が閾値以上であれば、判断部108Aが、関連語候補を地名の関連語として判断し、関連語登録部109は、地名と、関連語候補と、エリアとを関連付けた情報を関連語記憶部110へ登録する。一方、判断部108は、上記ダイス係数の算出結果が閾値未満であれば、関連語候補が関連語ではないと判断し、関連語として登録する対象から除外する。
The
続いて、図7を参照して、第2実施形態の情報処理装置100Aの動作について説明する。図7は、第2実施形態における情報処理装置100Aの処理内容を示すフローチャートである。
Subsequently, the operation of the
ステップS21〜ステップS25、ステップS27、ステップS33〜ステップS38の処理内容はそれぞれ、第1実施形態のフローチャート(図6)におけるステップS1〜ステップS5、ステップS7、ステップS10〜ステップS14と同様である。 The processing contents of Steps S21 to S25, Step S27, and Steps S33 to S38 are the same as Steps S1 to S5, Step S7, and Steps S10 to S14 in the flowchart (FIG. 6) of the first embodiment, respectively.
第1実施形態と同様に、文書情報取得、形態素解析、エリア付与、そして候補決定の処理がなされる(S21〜S24)。そして、集計部107は、文書数A(あるエリアpおよびある時間幅tにおける文書集合を対象に、基準地名である地名nを含む文書数)を算出する(S25)。また、集計部107Aは、文書数B1(全エリアを対象にある時間幅tにおける文書集合を対象に、関連語候補の単語wを含む文書数)を算出する(S26)。また、集計部107Aは、文書数C(あるエリアpおよびある時間幅tにおける文書集合を対象に、地名nと単語wを含む文書数)を算出する(S27)。さらに、集計部107Aは、出現回数D(全エリアを対象にある時間幅tにおける文書集合を対象に、関連語候補の単語wの出現数)を算出する(S28)。そして、判断部108Aは、文書数A、文書数B1、及び文書数Cを用いて、以下に示す式(2)に基づいてダイス係数を算出する(S29)。
ダイス係数sim1=2×文書数C/(文書数A+文書数B1) ・・・(2)
As in the first embodiment, document information acquisition, morphological analysis, area assignment, and candidate determination are performed (S21 to S24). Then, the totaling
Dice coefficient sim1 = 2 × number of documents C / (number of documents A + number of documents B1) (2)
また、判断部108Aは、ステップS30において、以下に示す式(3)に基づいて文書数B1と、出現回数Dとを用いて、tf・idfを算出する(S30)。なお、式(3)におけるNは、全文書数を意味する。
tf・idf=出現回数D×log(N/文書数B1) ・・・(3)
In step S30, the
tf · idf = number of appearances D × log (N / number of documents B1) (3)
判断部108Aは、ダイス係数sim1とtf・idfとからスコアを算出し(S31)、判断部108Aは、当該スコアの値と閾値とを比較して、関連語候補を関連語として登録するか否かを判断する(S32)。
The
ここで、判断部108Aが、スコアが閾値以上であると判断すると、関連語候補を関連語として登録し(S33)、閾値以上ではないと判断すると、関連語として登録しない(S34)。そして、基準地名と関連語候補のすべての組み合わせについて上述処理を繰り返して行い、地名に対する関連語を登録する(S35〜S38)。
If the
つぎに、第2実施形態の情報処理装置100Aの作用効果について説明する。本実施形態の情報処理装置100Aにおいて、判断部108は、所定の時間幅における、全文書数(N)と関連語候補を含む文書数(文書数B1)との比較情報を少なくとも判断指標情報として用いる。このように、情報処理装置100Aは、所定の時間幅における、全文書数と、関連語候補を含む文書数との比較情報を参照することにより、関連語候補が一般語であるか否かを判断することができるので、適切に地名(固有名称)の関連語を判断することができる。
Next, operational effects of the
(第3実施形態)
引き続き、本発明の第3実施形態に係る情報処理装置100Bについて、図8を参照しながら説明する。図8は、第3実施形態に係る情報処理装置100Bの機能的構成を示すブロック図である。第1実施形態の情報処理装置100の構成要素の内、集計部107Bと判断部108Bが異なり、さらに一般語リスト生成部111を備える。
(Third embodiment)
The
一般語リスト生成部111は、文書情報取得部101が取得した文書情報の文書中に頻出(例えば、所定値以上含められているなど)する単語を一般語としてリスト化する。
The general word
集計部107Bは、所定時間幅で、所定の地名が属するエリア内の文書集合を対象に、当該地名と関連語候補である単語の両方を含む文書数(文書数C)をカウントする。 The counting unit 107B counts the number of documents (document number C) including both the place name and a word that is a related word candidate for a set of documents in an area to which the given place name belongs in a predetermined time width.
判断部108Bは、地名毎に、集計部107Bによる集計数が多い順にソートしておき、集計数が所定値以上の関連語候補のリストを生成し、当該生成した関連語候補のリストの内、一般語リストに無い関連語候補を関連語として判断する。
The
続いて、図9を参照して、第2実施形態の情報処理装置100Bの動作について説明する。図9は、第3実施形態における情報処理装置100Bの処理内容を示すフローチャートである。
Next, the operation of the
ステップS41〜ステップS45の処理内容はそれぞれ、第1実施形態のフローチャート(図6)におけるステップS1〜ステップS5と同様である。 The processing contents of steps S41 to S45 are the same as those of steps S1 to S5 in the flowchart (FIG. 6) of the first embodiment.
そして、集計部107Bは、文書数C(あるエリアpおよびある時間幅tにおける文書集合を対象に、地名nと単語wを含む文書数)を算出し、集計結果を得る(S46)。 Then, the totaling unit 107B calculates the number of documents C (the number of documents including the place name n and the word w for a document set in a certain area p and a certain time width t), and obtains a totaling result (S46).
続いて、候補決定部106は、新たな関連語候補を検索する。具体的には、基準地名について、全ての関連語候補を判断していない場合(S47;Yes)、関連語候補群から次の一の関連語候補を判断対象として決定し(S48)、ステップS46へ移動する。
Subsequently, the
候補決定部106は、基準地名について、全ての関連語候補を判断した場合、すなわち、基準地名について、判断していない関連語候補がない場合(S47;No)、新たな基準地名を検索する。具体的には、候補決定部106は、基準地名群における次の基準地名があるか否か判断する。そして、判断した結果、次の基準地名があれば(S49;Yes)、候補決定部106は、当該地名を基準地名とし、関連語候補群から任意の一の関連語候補を決定し(S50)、ステップS46へ移動する。
When all the related word candidates are determined for the reference place name, that is, when there is no related word candidate that is not determined for the reference place name (S47; No), the
候補決定部106は、基準地名群における、次の基準地名がなければ(S49;No)、全ての基準地名と関連語候補との組について判断したことになるので、関連語候補となる単語がないと判断する。判断部108Bは、地名毎に、集計部107Bによる集計数が多い順にソートしておき、集計数が所定値以上の関連語候補のリストを生成し(S51)、関連語候補のリストの各関連語候補が一般語リストに含まれているか否かを判断し(S49)、一般語リストに含まれていなければ(S52;Yes)、関連語登録部109は、地名と、関連語と判断された関連語候補と、エリアIDとが対応付けられた情報を関連語として、関連語情報記憶部110に記憶する(S53)。一方、一般語リストに含まれていれば(S52;No)、判断部108Bは、関連語候補を関連語ではないと判断し、関連語として登録する対象から除外する(S54)。
If there is no next reference place name in the reference place name group (S49; No), the
つぎに、本実施形態の情報処理装置100Bの作用効果について説明する。本発明の情報処理装置100Bにおいて、判断部108Bは、文書情報中における出現度合いに基づいて生成した一般語リスト情報を判断指標情報として用いる。このように、情報処理装置100Bは、所定時間幅における地名と関連語候補とを含む文書数をカウントし、文書情報の文書中における出現度合いに基づいて生成した一般語リスト情報を判断指標情報として用いて、関連語候補が地名の関連語となるか否かを判断するので、適切に地名の関連語を判断することができる。
Next, operational effects of the
以上、本発明の好適な実施形態について説明したが、本発明は上記実施形態に限定されないことは言うまでもない。 As mentioned above, although preferred embodiment of this invention was described, it cannot be overemphasized that this invention is not limited to the said embodiment.
例えば、上記実施形態では、地名に対応する関連語を登録する構成としたが、これに限られることはない。例えば、他の固有名称(例えば、人名、映画のタイトル等)に対応する関連語を登録するようにしても良い。なお、人名の上位項目は、人の分類情報(所属組織など)になり、映画の上位項目は、映画のジャンルになる。 For example, in the above embodiment, the related word corresponding to the place name is registered. However, the present invention is not limited to this. For example, related words corresponding to other unique names (for example, personal names, movie titles, etc.) may be registered. It should be noted that the upper item of the person name is the person's classification information (affiliation organization, etc.), and the upper item of the movie is the genre of the movie.
100…情報処理装置、101…文書情報取得部、102…文書情報記憶部、103…形態素解析部、104…エリア付与部、105…ワード記憶部、106…候補決定部、107…集計部、108…判断部、109…関連語登録部、110…関連語記憶部
DESCRIPTION OF
Claims (5)
前記文書情報取得手段が取得した文書情報中の文書を解析し、当該文書中に含まれている固有名称における関連語の候補である関連語候補を決定する関連語候補決定手段と、
所定時間幅に生成された文書情報の内、前記関連語候補及び前記固有名称を含む文書の数を集計する集計手段と、
前記集計手段による集計結果と、前記関連語候補が一般語であるか否かを判断するための指標情報である判断指標情報とを用いて、前記関連語候補が前記固有名称の関連語であるか否かの判断をする判断手段と、
前記判断手段が判断した結果、関連語である場合には、前記固有名称の関連語と、前記固有名称とを関連付けた情報を登録する登録手段と、を備えることを特徴とする情報処理装置。 Document information acquisition means for acquiring document information associated with the document and time information;
Analyzing a document in the document information acquired by the document information acquisition means, and a related word candidate determination means for determining a related word candidate that is a related word candidate in the proper name included in the document;
Aggregating means for aggregating the number of documents including the related word candidate and the unique name among the document information generated in a predetermined time width;
The related word candidate is a related word of the unique name by using the counting result by the counting means and determination index information that is index information for determining whether the related word candidate is a general word. A determination means for determining whether or not,
An information processing apparatus comprising: registration means for registering information relating the related word of the unique name and the unique name if the result of the determination by the determining means is a related word.
前記判断手段は、所定時間幅における、前記固有名称に対応する上位項目が紐づけられた文書情報の内、前記関連語候補を含む文書の数を少なくとも前記判断指標情報として用いることを特徴とする請求項1に記載の情報処理装置。 Further comprising an upper item specifying means for specifying an upper item of the unique name corresponding to the unique name included in the document in the document information, and linking the document information with the upper item;
The determination means uses, as at least the determination index information, the number of documents including the related word candidates in document information in which a higher-level item corresponding to the unique name is linked in a predetermined time width. The information processing apparatus according to claim 1.
前記文書情報ステップで取得した文書情報中の文書を解析し、当該文書中に含まれている固有名称における関連語の候補である関連語候補を決定する関連語候補決定ステップと、
所定時間幅に生成された文書情報の内、前記関連語候補及び前記固有名称を含む文書の数を集計する集計ステップと、
前記集計ステップによる集計結果と、前記関連語候補が一般語であるか否かを判断するための指標情報である判断指標情報とを用いて、前記関連語候補が前記固有名称の関連語であるか否かの判断をする判断ステップと、
前記判断ステップで判断した結果、関連語である場合には、前記固有名称の関連語と、前記固有名称とを関連付けた情報を登録する登録ステップと、
を備える関連語判断方法。
A document information acquisition step for acquiring document information associated with the document and time information;
Analyzing a document in the document information acquired in the document information step, and determining a related word candidate that is a related word candidate in a specific name included in the document; and
A totaling step of counting the number of documents including the related word candidate and the unique name in the document information generated in a predetermined time width;
The related word candidate is a related word of the unique name, using the counting result obtained by the counting step and determination index information that is index information for determining whether the related word candidate is a general word. A determination step for determining whether or not,
As a result of the determination in the determination step, if it is a related word, a registration step of registering information relating the related word of the unique name and the unique name;
A related word judgment method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012129763A JP2013254366A (en) | 2012-06-07 | 2012-06-07 | Information processing device and related word determination method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012129763A JP2013254366A (en) | 2012-06-07 | 2012-06-07 | Information processing device and related word determination method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013254366A true JP2013254366A (en) | 2013-12-19 |
Family
ID=49951817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012129763A Pending JP2013254366A (en) | 2012-06-07 | 2012-06-07 | Information processing device and related word determination method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013254366A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015225492A (en) * | 2014-05-28 | 2015-12-14 | 日本電信電話株式会社 | Local topic word extraction device, local topic word extraction method, and local topic word extraction program |
JP2018092367A (en) * | 2016-12-02 | 2018-06-14 | 日本放送協会 | Related word extracting device and program |
-
2012
- 2012-06-07 JP JP2012129763A patent/JP2013254366A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015225492A (en) * | 2014-05-28 | 2015-12-14 | 日本電信電話株式会社 | Local topic word extraction device, local topic word extraction method, and local topic word extraction program |
JP2018092367A (en) * | 2016-12-02 | 2018-06-14 | 日本放送協会 | Related word extracting device and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11847612B2 (en) | Social media profiling for one or more authors using one or more social media platforms | |
CN103177075B (en) | The detection of Knowledge based engineering entity and disambiguation | |
CN102473190B (en) | Keyword assignment to a web page | |
US9483462B2 (en) | Generating training data for disambiguation | |
US20110040769A1 (en) | Query-URL N-Gram Features in Web Ranking | |
US10152478B2 (en) | Apparatus, system and method for string disambiguation and entity ranking | |
US8515986B2 (en) | Query pattern generation for answers coverage expansion | |
US20110307432A1 (en) | Relevance for name segment searches | |
US8793120B1 (en) | Behavior-driven multilingual stemming | |
US7962523B2 (en) | System and method for detecting templates of a website using hyperlink analysis | |
CN103294778A (en) | Method and system for pushing messages | |
US20150120708A1 (en) | Information aggregation, classification and display method and system | |
US10127322B2 (en) | Efficient retrieval of fresh internet content | |
WO2012077423A1 (en) | Retrieval device, retrieval system, retrieval method, retrieval program, and computer-readable recording medium storing retrieval program | |
KR101638535B1 (en) | Method of detecting issue patten associated with user search word, server performing the same and storage medium storing the same | |
CN110245357B (en) | Main entity identification method and device | |
Cui et al. | Personalized microblog recommendation using sentimental features | |
US9705972B2 (en) | Managing a set of data | |
US20130230248A1 (en) | Ensuring validity of the bookmark reference in a collaborative bookmarking system | |
JP2013254366A (en) | Information processing device and related word determination method | |
KR20110094563A (en) | The apparatus and method for searching related keyword of user-defined search keyword based using relationship of link-keywords in web documents | |
Cao et al. | Extraction of informative blocks from web pages | |
KR20120090131A (en) | Method, system and computer readable recording medium for providing search results | |
KR101402339B1 (en) | System and method of managing document | |
Huang et al. | Web content adaptation for mobile device: A fuzzy-based approach |