JP2011103059A - Technical term extraction device and program - Google Patents
Technical term extraction device and program Download PDFInfo
- Publication number
- JP2011103059A JP2011103059A JP2009257660A JP2009257660A JP2011103059A JP 2011103059 A JP2011103059 A JP 2011103059A JP 2009257660 A JP2009257660 A JP 2009257660A JP 2009257660 A JP2009257660 A JP 2009257660A JP 2011103059 A JP2011103059 A JP 2011103059A
- Authority
- JP
- Japan
- Prior art keywords
- word
- document
- contributor
- general term
- bias score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 119
- 238000004364 calculation method Methods 0.000 claims abstract description 29
- 230000000877 morphologic effect Effects 0.000 claims abstract description 17
- 230000004044 response Effects 0.000 claims abstract description 3
- 239000000284 extract Substances 0.000 claims description 18
- 238000000034 method Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 10
- 238000012790 confirmation Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、専門用語抽出装置プログラムに関する。 The present invention relates to a technical term extraction device program.
昨今、ソーシャルネットワークサービスやニュースグループにおけるコミュニティでは、様々な話題が議論されており、発言者の間で活発なコミュニケーションがなされている。その中で、特定の分野に詳しい専門家が発言している場合もあり、個々人が何の分野に詳しいのかという情報は、コミュニケーションを円滑に行う上で重要な情報である。ソーシャルネットワークサービスでは、自分が所属しているコミュニティが公表されていることが多い。しかし、所属しているコミュニティの情報だけでは十分ではなく、個々人が実際にどのような話題に関心があるのかを知ることが望まれる。 In recent years, various topics have been discussed in social network services and communities in newsgroups, and active communication is carried out among speakers. Among them, experts who are familiar with a specific field may speak, and information on what field an individual is familiar with is important information for smooth communication. In social network services, the community to which you belong is often announced. However, information on the community to which they belong is not enough, and it is desirable to know what topics each person is actually interested in.
個々人がどの分野に詳しいのかを知るための機能としては、Know−who機能(専門家検索機能)が挙げられる。Know−who機能の実現には、2つのアプローチがある。一つは、特定のキーワードで検索された文書群のなかで、文書の著書として最も重みが高い人を専門家と判断する方法である。もう一つは、個人を特徴づけるキーワードを明示的に抽出する方法である。 As a function for knowing in which field an individual is familiar, there is a Know-how function (expert search function). There are two approaches to realizing the Know-how function. One is a method of determining a person who has the highest weight as a document book among a group of documents searched with a specific keyword as an expert. The other is a method of explicitly extracting keywords that characterize individuals.
例えば、特許文献1では、カテゴリ付き文書集合から、専門用語を抽出する専門用語抽出装置が開示されている。また、特許文献1では、文書内容に、部門名、人名、メールアドレスなどが付与された文書を、カテゴリ付き文書とし、カテゴリと関連が深い用語を抽出する方法が開示されている。特に、複数のカテゴリが付与された文書集合から、専門用語を抽出する方法が開示されている。
For example,
特許文献1では、1つの文書に複数のカテゴリが付与されることで、カテゴリごとに出現する単語の偏りの度合いが低下し、一定の閾値以上を専門用語と判断する場合などに専門用語から漏れてしまうことを防止している。
In
しかし、上記特許文献1では、専門用語らしくない単語が上位にランキングされる場合を考慮していない。ここで、専門用語らしくない単語とは、複数のカテゴリについて専門用語らしさを示すスコアが閾値以上の単語である。また、特許文献1では、カテゴリが人名か組織かなどカテゴリの性質に特化した違いを考慮していないという問題があった。
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、コミュニティ内のメンバーの発言をもとに、一般用語を除外して個人を特徴づけるキーワードを抽出することが可能な、新規かつ改良された専門用語抽出装置およびプログラムを提供することにある。
However,
Therefore, the present invention has been made in view of the above problems, and an object of the present invention is to extract keywords that characterize individuals by excluding general terms based on the comments of members in the community. It is an object of the present invention to provide a new and improved terminology extraction device and program that can be used.
上記課題を解決するために、本発明のある観点によれば、投稿者の操作に応じて入力された文書を形態素解析する形態素解析部と、前記文書に含まれる単語間、単語と投稿者との間、単語と該投稿者が属する投稿先グループとの間の偏りスコアを計算する偏りスコア計算部と、前記偏りスコアの値に応じて、前記文書に含まれている一般用語を抽出する一般用語抽出部と、前記一般用語抽出部により抽出された前記一般用語を前記文書から除いて、個人の特徴を示すキーワードを抽出するインデックス抽出部と、を備えることを特徴とする、専門用語抽出装置が提供される。 In order to solve the above problems, according to an aspect of the present invention, a morphological analysis unit that performs morphological analysis on a document input in accordance with a contributor's operation, a word and a contributor between words included in the document A bias score calculation unit for calculating a bias score between a word and a posting destination group to which the poster belongs, and a general term included in the document in accordance with the value of the bias score A technical term extraction device comprising: a term extraction unit; and an index extraction unit that extracts a keyword indicating an individual characteristic by removing the general term extracted by the general term extraction unit from the document. Is provided.
また、専門用語抽出装置は、投稿者の操作に応じて入力された文書と、投稿者と、投稿者の属する投稿先グループとを関連付けて記憶している記憶部を備えてもよい。 In addition, the technical term extraction device may include a storage unit that stores a document input in accordance with a contributor's operation, a contributor, and a posting destination group to which the contributor belongs.
また、前記偏りスコア計算部は、前記偏りスコアをカイ二乗値によって計算してもよい。 Further, the bias score calculation unit may calculate the bias score using a chi-square value.
また、前記一般用語抽出部は、投稿者と単語または該投稿者が属する投稿先グループと単語との組み合わせのうち、前記偏りスコアの値が所定の値以下であり、複数の投稿者または複数の投稿先グループと関連がある単語を一般用語として抽出してもよい。 In addition, the general term extraction unit has a bias score value that is equal to or less than a predetermined value among a combination of a poster and a word or a posting destination group to which the poster belongs and a word. Words related to the posting destination group may be extracted as general terms.
また、前記偏りスコア計算部は、前記一般用語として抽出された単語を除いて、前記偏りスコアを再度計算し、前記一般用語抽出部は、投稿者と単語または該投稿者が属する投稿先グループと単語との組み合わせのうち、該偏りスコアの値が所定の値以下であり、複数の投稿者または複数の投稿先グループと関連がある単語を一般用語として再度抽出してもよい。 In addition, the bias score calculation unit calculates the bias score again except for the word extracted as the general term, and the general term extraction unit calculates the poster and the word or the posting destination group to which the poster belongs. Of the combinations with words, the bias score value may be equal to or less than a predetermined value, and a word related to a plurality of contributors or a plurality of posting destination groups may be extracted again as a general term.
また、前記インデックス抽出部は、投稿者と単語との間の偏りスコアの値が所定の値以上である単語を、個人の特徴を示すキーワードとして抽出してもよい。 The index extraction unit may extract a word having a bias score value between a poster and a word that is equal to or greater than a predetermined value as a keyword indicating personal characteristics.
また、前記インデックス抽出部は、前記投稿先グループの特徴を示す単語を抽出し、投稿者と該投稿者の属する投稿先グループとの間の偏りスコアの値が所定の値以上の投稿先グループの特徴を示す単語を、個人の特徴を示すキーワードとして抽出してもよい。 In addition, the index extraction unit extracts a word indicating the characteristics of the posting destination group, and the bias score between the posting person and the posting destination group to which the posting person belongs is a predetermined value or more. A word indicating a feature may be extracted as a keyword indicating an individual feature.
また、前記インデックス抽出部は、前記抽出した投稿先グループの特徴を示す単語のうち、該単語を含む文書が投稿された期間と、投稿者が前記投稿先グループで投稿した期間とが対応する場合に、該単語を個人の特徴を示すキーワードとして抽出してもよい。 The index extraction unit may include a period in which a document including the word is posted and a period in which the poster has posted in the posting group among words indicating the characteristics of the extracted posting group. In addition, the words may be extracted as keywords indicating individual characteristics.
また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、投稿者の操作に応じて入力された文書を形態素解析する形態素解析部と、前記文書に含まれる単語間、単語と投稿者との間、単語と該投稿者が属する投稿先グループとの間の偏りスコアを計算する偏りスコア計算部と、前記偏りスコアの値応じて、前記文書に含まれている一般用語を抽出する一般用語抽出部と、前記一般用語抽出部により抽出された前記一般用語を前記文書から除いて、個人の特徴を示すキーワードを抽出するインデックス抽出部と、を備えることを特徴とする、専門用語抽出装置として機能させるための、プログラムが提供される。 In order to solve the above-described problem, according to another aspect of the present invention, a computer uses a morphological analysis unit that performs a morphological analysis on a document input in accordance with a contributor's operation, and a word between words included in the document. A bias score calculation unit for calculating a bias score between a word and a poster, a word and a posting destination group to which the poster belongs, and a general score included in the document according to the value of the bias score A general term extraction unit that extracts terms; and an index extraction unit that extracts keywords indicating individual characteristics by removing the general terms extracted by the general term extraction unit from the document. A program for functioning as a technical term extraction device is provided.
以上説明したように本発明によれば、コミュニティ内のメンバーの発言をもとに、一般用語を除外して個人を特徴づけるキーワードを抽出することができる。 As described above, according to the present invention, keywords that characterize individuals can be extracted based on the remarks of members in a community, excluding general terms.
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。 Exemplary embodiments of the present invention will be described below in detail with reference to the accompanying drawings. In addition, in this specification and drawing, about the component which has the substantially same function structure, duplication description is abbreviate | omitted by attaching | subjecting the same code | symbol.
また、以下に示す順序に従って、当該「発明を実施するための形態」を説明する。
〔1〕本実施形態の目的
〔2〕第1実施形態
〔2−1〕専門用語抽出装置の機能構成
〔2−2〕専門用語抽出処理の詳細
〔3〕第2実施形態
〔3−1〕専門用語抽出装置の機能構成
〔3−2〕専門用語抽出処理の詳細
Further, the “detailed description of the embodiments” will be described in the order shown below.
[1] Purpose of this embodiment [2] First embodiment [2-1] Functional configuration of technical term extraction device [2-2] Details of technical term extraction processing [3] Second embodiment [3-1] Functional configuration of technical term extraction device [3-2] Details of technical term extraction processing
〔1〕本実施形態の目的
まず、本発明の実施形態の目的について説明する。昨今、ソーシャルネットワークサービスやニュースグループにおけるコミュニティでは、様々な話題が議論されており、発言者の間で活発なコミュニケーションがなされている。その中で、特定の分野に詳しい専門家が発言している場合もあり、個々人が何の分野に詳しいのかという情報は、コミュニケーションを円滑に行う上で重要な情報である。ソーシャルネットワークサービスでは、自分が所属しているコミュニティが公表されていることが多い。しかし、所属しているコミュニティの情報だけでは十分ではなく、個々人が実際にどのような話題に関心があるのかを知ることが望まれる。
[1] Object of this embodiment First, the object of the embodiment of the present invention will be described. In recent years, various topics have been discussed in social network services and communities in newsgroups, and active communication is carried out among speakers. Among them, experts who are familiar with a specific field may speak, and information on what field an individual is familiar with is important information for smooth communication. In social network services, the community to which you belong is often announced. However, information on the community to which they belong is not enough, and it is desirable to know what topics each person is actually interested in.
個々人がどの分野に詳しいのかを知るための機能としては、Know−who機能(専門家検索機能)が挙げられる。Know−who機能の実現には、2つのアプローチがある。一つは、特定のキーワードで検索された文書群のなかで、文書の著書として最も重みが高い人を専門家と判断する方法である。もう一つは、個人を特徴づけるキーワードを明示的に抽出する方法である。 As a function for knowing in which field an individual is familiar, there is a Know-how function (expert search function). There are two approaches to realizing the Know-how function. One is a method of determining a person who has the highest weight as a document book among a group of documents searched with a specific keyword as an expert. The other is a method of explicitly extracting keywords that characterize individuals.
例えば、カテゴリ付き文書集合から、専門用語を抽出する専門用語抽出装置が開示されている。また、当該装置では、文書内容に、部門名、人名、メールアドレスなどが付与された文書を、カテゴリ付き文書とし、カテゴリと関連が深い用語を抽出する方法が開示されている。特に、複数のカテゴリが付与された文書集合から、専門用語を抽出する方法が開示されている。 For example, a technical term extraction device that extracts technical terms from a document set with categories is disclosed. In addition, this apparatus discloses a method of extracting a term having a close relationship with a category by setting a document with a department name, a person's name, an e-mail address, etc. to the document content as a document with a category. In particular, a method for extracting technical terms from a document set to which a plurality of categories are assigned is disclosed.
上記装置では、1つの文書に複数のカテゴリが付与されることで、カテゴリごとに出現する単語の偏りの度合いが低下し、一定の閾値以上を専門用語と判断する場合などに専門用語から漏れてしまうことを防止している。しかし、上記装置では、専門用語らしくない単語が上位にランキングされる場合を考慮していない。ここで、専門用語らしくない単語とは、複数のカテゴリについて専門用語らしさを示すスコアが閾値以上の単語である。また、上記装置では、カテゴリが人名か組織かなどカテゴリの性質に特化した違いを考慮していないという問題があった。 In the above device, by assigning a plurality of categories to one document, the degree of bias of words appearing in each category is reduced, and when a certain threshold or more is judged as a technical term, it is omitted from the technical term. Is prevented. However, the above apparatus does not consider the case where words that are not technical terms are ranked higher. Here, a word that does not look like a technical term is a word that has a score that indicates that it is like a technical term for a plurality of categories. In addition, the above apparatus has a problem that it does not take into account differences specific to the nature of the category, such as whether the category is a person name or an organization.
そこで、上記のような事情を一着眼点として本発明の実施形態にかかる専門用語抽出装置1が創作されるに至った。本実施形態にかかる専門用語抽出装置1によれば、コミュニティ内のメンバーの発言をもとに、一般用語を除外して個人を特徴づけるキーワードを抽出することが可能となる。本実施形態では、コミュニティとは、投稿者が属する投稿先のグループを意味する。例えば、ソーシャルネットワークや掲示板においては、メンバーはコミュニティに所属しているため、コミュニティの専門用語は、コミュニティに所属しているメンバーの専門を示すといえる。そこで、コミュニティとメンバーの発言などに含まれる単語、メンバーと単語、単語間の関係を考慮して、一般用語を除外して個人を特徴付けるキーワードの拡張を行っている。
Therefore, the technical
〔2〕第1実施形態
以上、本発明の実施形態の目的について説明した。次に、図1を参照して、本実施形態にかかる専門用語抽出装置1の機能構成について説明する。なお、専門用語抽出装置1の機能構成を説明するに際し、適宜、図2〜図9を参照する。専門用語抽出装置1としては、例えば、パーソナルコンピュータ等のコンピュータ装置(ノート型、デスクトップ型を問わない。)を例示できるが、かかる例に限定されず、携帯電話やPDA(Personal Digital Assistant)などで構成してもよい。
[2] First Embodiment The object of the embodiment of the present invention has been described above. Next, a functional configuration of the technical
〔2−1〕専門用語抽出装置の機能構成
図1の機能構成を説明する前に、専門用語抽出装置1のハードウェア構成の一例について説明する。専門用語抽出装置1は、例えば、CPU(Central Processing Unit)と、ROM(Read Only Memory)と、RAM(Random Access Memory)と、入力装置と、出力装置と、ストレージ装置(HDD)などを備える。
[2-1] Functional Configuration of Technical Term Extraction Device Before describing the functional configuration of FIG. 1, an example of a hardware configuration of the technical
CPUは、演算処理装置および制御装置として機能し、各種プログラムに従って専門用語抽出装置1の動作全般を制御する。また、CPUは、マイクロプロセッサであってもよい。ROMは、CPUが使用するプログラムや演算パラメータ等を記憶する。RAMは、CPUの実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一次記憶する。これらはCPUバスなどから構成されるホストバスにより相互に接続されている。
The CPU functions as an arithmetic processing device and a control device, and controls the overall operation of the technical
入力装置は、例えば、マウス、キーボード、タッチパネル、ボタン、マイク、スイッチおよびレバーなどユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、CPUに出力する入力制御回路などから構成されている。 The input device includes, for example, an input means for a user to input information, such as a mouse, keyboard, touch panel, button, microphone, switch, and lever, and input control that generates an input signal based on the input by the user and outputs the input signal to the CPU. It consists of a circuit.
出力装置は、例えば、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Display)装置およびランプなどの表示装置と、スピーカおよびヘッドホンなどの音声出力装置で構成される。 The output device includes, for example, a display device such as a CRT (Cathode Ray Tube) display device, a liquid crystal display (LCD) device, an OLED (Organic Light Emitting Display) device and a lamp, and an audio output device such as a speaker and headphones. .
ストレージ装置は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含むことができる。ストレージ装置は、例えば、HDD(Hard Disk Drive)で構成される。このストレージ装置は、ハードディスクを駆動し、CPUが実行するプログラムや各種データを格納する。 The storage device can include a storage medium, a recording device that records data on the storage medium, a reading device that reads data from the storage medium, a deletion device that deletes data recorded on the storage medium, and the like. The storage device is composed of, for example, an HDD (Hard Disk Drive). This storage device drives a hard disk and stores programs executed by the CPU and various data.
以上、専門用語抽出装置1のハードウェア構成について説明した。次に、図1を参照して、専門用語抽出装置1の機能構成について説明する。図1に示したように、専門用語抽出装置1は、入力部10、形態素解析部20、偏りスコア計算部30、一般用語抽出部40、インデックス抽出部50、確認表示部60、カテゴリ付き文書記憶部70、形態素一時記憶部80、共起リスト一時記憶部90、出現数一時記憶部100、偏りスコア一時記憶部110、一般用語一時記憶部120、インデックス格納部130などを備える。
Heretofore, the hardware configuration of the technical
入力部10は、上記した入力装置により構成される。専門用語抽出装置1のユーザは、該入力部10を操作することにより、専門用語抽出装置1に対して各種のデータを入力したり処理動作を指示したりすることができる。具体的には、ユーザ操作に応じて、個人を特徴付けるキーワードの抽出要求を受け付ける機能を有する。
The
形態素解析部20は、入力部10を介してユーザから専門用語抽出の要求を受け付けると、カテゴリ付き文書記憶部70に記憶されているテキスト情報を形態素解析する機能を有する。カテゴリとしては、文書を投稿した作成者、文書が投稿されたコミュニティやトピックなどが存在する。ここで、図2を参照して、カテゴリ付き文書記憶部70の記憶内容について説明する。図2は、カテゴリ付き文書記憶部70の記憶内容について説明する説明図である。
The
図2に示したように、カテゴリ付き文書記憶部70は、文書ID、コミュニティID、トピックID、投稿者ID、投稿時刻、投稿内容の各項目を保有する。ニュースグループやソーシャルネットワークシステムに対する投稿は、コミュニティ内のトピックに対して行われる。トピックとは、各コミュニティ(またはニュースグループ)に投稿された個々の話題に対応し、一つの話題に対して複数の発言を投稿することができるものである。個々のトピックは、トピックIDによって識別される。また、各投稿は、文書IDによって識別される。
As shown in FIG. 2, the category-added
各投稿は、文書IDによって識別される。投稿者IDは投稿者を識別する投稿者のID、投稿時刻は投稿が行われた時刻を格納する。投稿内容項目は、投稿されたテキスト情報を格納する。例えば、図3のR71(文書ID=d1)は、投稿者m1がトピックt1に「(特集)プログラミング言語..」という内容の投稿を、「2008年12月11日12:00」に行ったことを示す。 Each post is identified by a document ID. The contributor ID stores the contributor ID for identifying the contributor, and the post time stores the time when the post was made. The posted content item stores posted text information. For example, in R71 (document ID = d1) in FIG. 3, the poster m1 posted “(Special Feature) Programming Language...” On the topic t1 on “December 11, 2008 12:00”. It shows that.
図1に戻り、形態素解析部20は、投稿された文書のテキスト情報に対して形態素解析を行う機能を有する。形態素解析部20は、テキスト情報を形態素解析した結果を形態素一時記憶部80に記憶する。形態素解析部20は、形態素解析結果のうち、一般名詞、サ変名詞を形態素一時記憶部80に格納する。
Returning to FIG. 1, the
ここで、図3を参照して、形態素一時記憶部80の記憶内容について説明する。図3は、形態素一時記憶部80の記憶内容について説明する説明図である。図3に示したように、形態素解析した結果805は、文書ID801、コミュニティID802、トピックID803、投稿者ID804に関連付けて記憶される。図2に示したカテゴリ付き文書記憶部70に記憶されているレコードR71を形態素解析した結果が、図3に示した形態素一時記憶部80に記憶されているレコードR81である。形態素解析部20は、形態素解析した結果を偏りスコア計算部30に提供する。
Here, the stored contents of the morpheme
図1に戻り、偏りスコア計算部30は、形態素解析部20において処理された形態素解析結果を用いて、各文書においてどのような単語が出現したかを、共起リスト一時記憶部90および出現数一時記憶部100に格納する。さらに、単語間や、単語とカテゴリとの間のカイ二乗値やシンプソン値を偏りスコアとして計算する。共起リスト一時記憶部90および出現数一時記憶部100の記憶内容については、後で詳細に説明する。
Returning to FIG. 1, the bias
偏りスコア計算部30は、単語の組み合わせや、投稿者IDと単語の組み合わせや、コミュニティIDと単語の組み合わせについて、カイ二乗値を計算するために、各組み合わせについて出現数を計算する。出現数の計算については、後で詳細に説明する。偏りスコア計算部30は、共起リスト一時記憶部90および出現数一時記憶部100の記憶内容を用いて単語の組み合わせ、投稿者と単語の組み合わせ、コミュニティIDと単語の組み合わせについてカイ二乗値を計算する。
The bias
カイ二乗値の計算方法については、後で詳細に説明する。偏りスコア計算部30は、計算された偏りスコアを偏りスコア一時記憶部110に格納する。偏りスコア一時記憶部110に格納される内容については、後で詳細に説明する。また、偏りスコア計算部30は、計算した結果を一般用語抽出部40に提供する。
A method for calculating the chi-square value will be described later in detail. The bias
一般用語抽出部40は、偏りスコア計算部30で計算された結果を用いて、偏りが少ない単語を一般用語として抽出する。一般用語抽出部40は、偏りスコア一時記憶部110に記憶されたレコードについて、所定の条件を満たすレコードを抽出する。一般用語抽出部40によるレコードの抽出処理については後で詳細に説明する。一般用語抽出部40は、抽出した一般用語を、一般用語一時記憶部120に格納する。図4に示したように、一般用語一時記憶部120には、例えば、「特集」という単語が一般用語として格納される。また、一般用語抽出部40は、抽出した一般用語をインデックス抽出部50に提供する。
The general
図1に戻り、インデックス抽出部50は、偏りスコア計算部30で計算された偏りスコア値をもとに、カテゴリと単語の間の偏りスコアと、単語間の偏りスコアから、各カテゴリのインデックスを抽出する。インデックス抽出部50により抽出されるインデックスが、個人の特徴を特徴づけるキーワードとなる。さらに、インデックス格納部130は、インデックス格納部130に抽出したインデックスを格納する。
Returning to FIG. 1, the
図5に示したように、インデックス格納部130には、投稿者ID1301と、専門用語1302とスコア1304が関連付けて記憶される。これにより、個人(各投稿者1301)を特徴付ける単語(専門用語1302)が抽出される。さらに、スコア1304により、個人と単語とがどれくらい関連が深いのかがわかる。また、インデックス格納部130に格納されたインデックス(専門用語1302)が、インデックスを付与された当人に承認されているのか否かを示す承認有無1305も格納される。
As shown in FIG. 5, the
図1に戻り、確認表示部60は、インデックス格納部130に格納されたインデックスが正しいか否かを、インデックスが付与された当人に表示画面を介して確認する機能を有する。例えば、図6に示したように、表示画面に当人を特徴付けるインデックスとして、「○○言語」や「C++」のインデックス(専門用語)を承認するか否かを確認画面に表示して、確認を求める。
Returning to FIG. 1, the
ユーザの入力に応じて、「承認」が選択された場合には、上記したインデックス格納部130の承認有無項目が「未承認」から「承認」に更新される。一方、ユーザの入力に応じて、「拒否」が選択された場合には、上記したインデックス格納部130の承認有無項目が「未承認」から「拒否」に更新される。
When “approval” is selected in accordance with user input, the approval / non-approval item in the
なお、上記した形態素解析部20、偏りスコア計算部30、一般用語抽出部40、インデックス抽出部50は、コンピュータにより構成され、その動作は、上記したROMに記憶されたプログラムをもとに、CPUで実行される。また、インデックス格納部130は、上記したストレージ装置(HDD)により構成され、カテゴリ付き文書記憶部70、形態素一時記憶部80、共起リスト一時記憶部90、出現数一時記憶部100、偏りスコア一時記憶部110、一般用語一時記憶部120は、上記したストレージ装置(HDD)またはRAMにより構成される。
The
〔2−2〕専門用語抽出処理の詳細
以上、本実施形態にかかる専門用語抽出装置1の機能構成について説明した。次に、図7および図8を参照して、専門用語抽出装置1における専門用語抽出処理の詳細について説明する。なお、専門用語抽出処理の詳細を説明するに際して、適宜、図9〜図11を参照する。図7は、専門用語抽出処理の詳細を示すフローチャートである。
[2-2] Details of Technical Term Extraction Processing The functional configuration of the technical
図7に示したように、まず、入力部10は、インデックスの作成要求を受け付ける(S100)。そして、ステップS100において、入力部10によりインデックスの作成要求が受け付けられると、形態素解析部20は、上記した図2のカテゴリ付き文書記憶部70のテキストデータに対して形態素解析を実行する(S110)。
As shown in FIG. 7, first, the
形態素解析部20は、カテゴリ付き文書記憶部70の投稿内容項目に対して形態素解析を行う。形態素解析結果のうち、一般名詞、サ変名詞を図3に示した形態素一時記憶部80に格納する。上記したように、図2に示したカテゴリ付き文書記憶部70に記憶されているレコードR71を形態素解析した結果が、図3に示した形態素一時記憶部80に記憶されているレコードR81である。
The
偏りスコア計算部30は、単語の組み合わせ、投稿者IDと単語の組み合わせ、投稿者IDと単語の組み合わせ、コミュニティIDと単語の組み合わせについて、カイ二乗値を計算する。そのためにまず、各組み合わせの出現数を計算する。ここで、図8を参照して、各組み合わせの出現数を計算する処理について説明する。図8は、各組み合わせの出現数を計算する処理の詳細を示すフローチャートである。
The bias
図8に示したように、偏りスコア計算部30は、形態素一時記憶部80に記憶されている各レコードについて、共起数を計算する対象となる集合を形成する(S1200)。集合の要素は、コミュニティID、投稿者ID、単語とする。例えば、図3のレコードR81では、{c1、m1、特集、プログラミング、言語}を要素とする。
As shown in FIG. 8, the bias
そして、ステップS1200で形成された集合の要素について、要素数2の冪集合を作成する(S1210)。例えば、図3のレコードR81においては、{{c1、m1}、{c1、特集}、{c1、プログラミング}、{c1、言語}、{m1、特集}、{m1、プログラミング}、{m1、言語}、{特集、プログラミング}、{特集、言語}、{言語、プログラミング}}が要素となる。 Then, for the elements of the set formed in step S1200, a cocoon set with 2 elements is created (S1210). For example, in the record R81 of FIG. 3, {{c1, m1}, {c1, special feature}, {c1, programming}, {c1, language}, {m1, special feature}, {m1, programming}, {m1, Language}, {special feature, programming}, {special feature, language}, {language, programming}}.
そして、ステップS1210で計算された要素について、出現数を加算する(S1220)。具体的には、ステップS1210で計算された要素について、出現する毎に、図9に示した共起リスト一時記憶部90の対応するレコードに出現数を加算する。同時に、図10に示した出現数一時記憶部100の対応するレコードにも出現数を加算する。
Then, the number of appearances is added to the element calculated in step S1210 (S1220). Specifically, each time the element calculated in step S1210 appears, the number of appearances is added to the corresponding record in the co-occurrence list
図9に示したように、共起リスト一時記憶部90には、コミュニティID901、投稿者ID902、単語1903、単語2904の各項目のうち、2つの項目に値が入っており、その2つの値から組み合わせが構成されている。出現数905は、各項目の出現数を示す。
As shown in FIG. 9, in the co-occurrence list
また、図10に示したように、出現数一時記憶部100には、コミュニティID1001、投稿者ID1002、単語11003の各項目が、対応する要素名を示している。また、出現数1004は、各要素の出現数を示す。
Further, as shown in FIG. 10, in the appearance number
例えば、図9に示した共起リスト一時記憶部90のレコードR701は、全文書中に対して、ステップS1210で冪集合を作成した際、(コミュニティc1、プログラミング)の組み合わせを持つ冪集合が2回出現したことを示す。以上、各組み合わせの出現数を計算する処理について説明した。
For example, in the record R701 in the co-occurrence list
図7に戻り、専門用語抽出処理の説明を続ける。ステップS120において組み合わせ数を計算した後、偏りスコア計算部30は、単語の組み合わせ、コミュニティIDと単語の組み合わせについて、カイ二乗値を計算する。単語X(またはコミュニティX、または投稿者X)と単語Yのカイ二乗値は次の数式1により計算される。
Returning to FIG. 7, the description of the technical term extraction process will be continued. After calculating the number of combinations in step S120, the bias
ここで、Nは全要素数であり、本実施形態では、図9の共起リスト一時記憶部90の全レコード数である。また、O11、O12、O21、O22は、次の通りである。
Here, N is the total number of elements, and in this embodiment, is the total number of records in the co-occurrence list
O11:〔単語Xと単語Yとが共起した要素数〕(または、〔コミュニティXと単語Yが共起した要素数〕、または、〔投稿者Xと単語Yが共起した要素数〕)
図9の共起リスト一時記憶部90の各レコードの出現数が対応している。
O22:〔単語Xも単語Yもどちらも出現しない要素数〕(または、〔コミュニティX以外の文書で、単語Yが出現しない要素数〕、または、〔投稿者Xによって投稿されなかった文書のうち、単語Yが出現しない要素数〕)
(すなわち、O22=N−O11−O12−O21)
O12:〔単語Xのみ出現し、単語Xが出現しない要素数〕(または、〔コミュニティXの文書のうち、単語Yが出現しなかった要素数〕、または、〔投稿者Xによって投稿された文書数のうち、単語Yが出現しなかった要素数〕)
O21:〔単語Yのみ出現し、単語Xが出現しない要素数〕(または、〔コミュニティX以外の文書のうち、単語Yが出現した要素数〕、または、〔投稿者Xによって投稿されなかった文書数のうち、単語Yが出現した要素数〕)
O 11 : [number of elements in which word X and word Y co-occurred] (or [number of elements in which community X and word Y co-occurd] or [number of elements in which poster X and word Y co-occurd] )
The number of appearances of each record in the co-occurrence list
O 22 : [the number of elements in which neither word X nor word Y appears] (or [the number of elements in which word Y does not appear in documents other than community X], or [the number of documents not posted by contributor X] Number of elements in which word Y does not appear])
(That is, O 22 = N—O 11 —O 12 —O 21 )
O 12 : [Number of elements in which only the word X appears but the word X does not appear] (or [Number of elements in the community X document in which the word Y did not appear) or [Posted by the contributor X Number of elements in which the word Y did not appear in the number of documents])
O 21 : [Number of elements in which only word Y appears, and word X does not appear] (or [Number of elements in which word Y appears in documents other than community X], or [not posted by contributor X Number of elements in which word Y appears in the number of documents])
また、コミュニティXと投稿者Yとのカイ二乗値も同様に計算される。この場合、
O11:〔コミュニティXの文書のうち、投稿者Yの要素数〕
O22:〔コミュニティX以外の文書で、投稿者Y以外の要素数〕
O12:〔コミュニティXの文書のうち、投稿者Y以外の要素数〕
O21:〔コミュニティX以外の文書で、投稿者Yの要素数〕
となる。
Further, the chi-square value of the community X and the contributor Y is calculated in the same manner. in this case,
O 11 : [Number of elements of contributor Y in community X documents]
O 22 : [number of elements other than contributor Y in documents other than community X]
O 12 : [number of elements other than the contributor Y in the community X document]
O 21 : [number of elements of contributor Y in documents other than community X]
It becomes.
O11、O12、O21、O22は、図9および図10の共起リスト一時記憶部90および出現数一時記憶部100を用いて計算することができる。例えば、図10では、単語「プログラミング」の要素数は「22」である。また、コミュニティ「c1」の要素数は「80」である。コミュニティ「c1」と単語「プログラミング」のカイ二乗値を計算するための、O11、O12、O21、O22は、次の通りになる。ただし、全要素数を1000とする。
O 11 , O 12 , O 21 , and O 22 can be calculated using the co-occurrence list
O11:2(図9のレコードR91の出現数)
O12:78(コミュニティ「c1」の文書のうち「プログラミング」を含まない要素数:図10のレコードR101の出現数−図9のレコードR91の出現数=80−2)
O21:20(コミュニティ「c1」以外の文書のうち「プログラミング」を含む要素数:図10のレコードR102の出現数−図9のレコードR91の出現数=22−2)
O22:900(O11、O12、O21以外の文書=1000−2−78−20)
O 11 : 2 (number of appearances of record R91 in FIG. 9)
O 12 : 78 (number of elements not including “programming” in documents of community “c1”: number of appearances of record R101 in FIG. 10−number of appearances of record R91 in FIG. 9 = 80-2)
O 21 : 20 (number of elements including “programming” in documents other than community “c1”: number of appearances of record R102 in FIG. 10−number of appearances of record R91 in FIG. 9 = 22-2)
O 22 : 900 (documents other than O 11 , O 12 , and O 21 = 1000-2-78-20)
したがって、カイ二乗値は、
{1000×(2×900−78×20)2}/{(2+78)×(2+20)×(78+900)×(20+900)}≒0.036
となる。
Therefore, the chi-square value is
{1000 × (2 × 900−78 × 20) 2 } / {(2 + 78) × (2 + 20) × (78 + 900) × (20 + 900)} ≈0.036
It becomes.
上記カイ二乗値の計算を、単語間の組み合わせ、単語と投稿者との組み合わせ、単語とコミュニティの組み合わせ、コミュニティと投稿者との組み合わせで実行する。ただし、O11が1以下の場合は、ほとんど共起が起こらないため、計算の対象外とする。結果として、偏りスコアとしてのカイ二乗値を取得できるため、図11に示した偏りスコア一時記憶部110にカイ二乗値を格納する。
The calculation of the chi-square value is executed for combinations of words, combinations of words and posters, combinations of words and communities, and combinations of communities and posters. However, when O 11 is 1 or less, since co-occurrence hardly occurs, it is excluded from calculation. As a result, since the chi-square value as the bias score can be acquired, the chi-square value is stored in the bias score
そして、ステップS130において偏りスコアを計算した後、一般用語抽出部40は、ステップS130で計算されたカイ二乗値に基づいて、一般用語を抽出する(S140)。まず、偏りスコア一時記憶部110から、次の2つの条件を満たすレコードを、一般用語を示すレコードとして抽出する。
(条件1)カイ二乗値が1.0以下、かつ、単語1項目に値が存在している、かつ、コミュニティID項目または投稿者IDに値があること
(条件2)条件1を満たすレコードについて、単語1項目をキーとして集約した際に、単語1項目が同一値のレコードが3レコード以上存在すること
And after calculating a bias score in step S130, the general
(Condition 1) The chi-square value is 1.0 or less, the
上記条件を満たすレコードは、例えば、次のSQLにより得ることができる。
select 単語1,count(*) from 偏りスコア一時記憶部
where カイ二乗値 ≦ 1.0 AND (コミュニティID is not
null OR 投稿者ID is not null)AND 単語1 is not null group by 単語1 having count(*) ≧ 3;
A record that satisfies the above conditions can be obtained by the following SQL, for example.
select
where chi-square ≤ 1.0 AND (community ID is not
null OR contributor ID is not null) AND
例えば、図11には、条件1を満たすレコードとして、レコードR111、R112、113が該当する。条件2も満たすので、一般用語として単語「特集」が得られる。そして、得られた単語を、上記した図4に示す一般用語一時記憶部120に記憶する。
For example, in FIG. 11, records R111, R112, and 113 correspond to records that satisfy
次に、ステップS140において抽出した一般用語を排除して、偏りスコアを再度計算するために、偏りスコア一時記憶部110をクリアする(S150)。そして、偏りスコア計算部30は、ステップS140において抽出した一般用語を除いて、カイ二乗値の計算を再度実行する(S160)。ステップS160における偏りスコアの再計算処理は、ステップS120およびステップS130において実行した処理と同様であるため、詳細な説明は省略する。ただし、ステップS120において、共起リスト一時記憶部90および出現数一時記憶部100を作成する際に、単語1項目または単語2項目に、一般用語一時記憶部120と同じ単語が含まれている場合には、その要素については作成しない。
Next, in order to eliminate the general terms extracted in step S140 and calculate the bias score again, the bias score
ステップS160においてカイ二乗値を再計算した結果を、偏りスコア一時記憶部110に格納する。例えば、単語「特集」が一般用語と判断されているため、図11のR114の(c1、特集)の組み合わせは格納されないこととなる。
The result of recalculating the chi-square value in step S160 is stored in the bias score
次に、一般用語抽出部40は、ステップS140と同様の条件により、一般用語を抽出する(S170)。そして、ステップS170で得られた一般用語を一般用語一時記憶部120に追加する。そして、偏りスコアを再計算するか否かを判断する(S180)。ステップS180においては、例えば、「偏りスコアを1回だけ再計算すること」との条件としていたとする。ステップS180において、「偏りスコアを1回だけ再計算すること」の条件を満たす場合にはステップS190を実行する。一方、ステップS180において、「偏りスコアを1回だけ再計算すること」の条件を満たさない場合には、ステップS150からステップS170の処理を繰り返す。
Next, the general
ステップS190において、インデックス抽出部50は、コミュニティの専門用語を抽出する(S190)。インデックス抽出部50は、コミュニティの専門用語を抽出するため、偏りスコア一時記憶部110のデータについて、コミュニティごとに偏りスコアが大きい順にソートする。これは、例えば、次のSQLにより得ることができる。
In step S190, the
select コミュニティID,単語1,カイ二乗値 from 偏りスコア一時記憶部 where カイ二乗値 > 1.0 AND コミュニティID is not null AND 単語1 is not null order by コミュニティID,カイ二乗値 desc;
select community ID,
例えば、図11に格納されたデータでは、コミュニティID、単語1、カイ二乗値の順で、
c1,○○言語,100
c3,検索システム,80
などのデータを得ることができる。このデータから、コミュニティc1の専門用語は、「○○言語」、コミュニティc3の専門用語は「検索システム」であることがわかる。
For example, in the data stored in FIG. 11, in the order of community ID,
c1, OO language, 100
c3, search system, 80
Data such as can be obtained. From this data, it can be seen that the technical term of the community c1 is “XX language” and the technical term of the community c3 is “search system”.
次に、インデックス抽出部50は、メンバーの専門用語を抽出する(S200)。ステップS200においては、偏りスコア一時記憶部110のデータについて、投稿者IDごとに、偏りスコアが大きい順にソートする。これは、例えば次のSQLにより得ることができる。
Next, the
select 投稿者ID,単語1,カイ二乗値 from 偏りスコア一時記憶部 where カイ二乗値 > 1.0 AND 投稿者ID is not null AND 単語1 is not null order by 投稿者ID,カイ二乗値 desc;
select contributor ID,
例えば、図11に格納されたデータでは、投稿者ID、単語1、カイ二乗値の順で、
m1、○○言語、100
などのデータが得られる。したがって、メンバーm1の専門用語は、「○○言語」であることがわかる。インデックス抽出部50は、上記の得られたデータを、インデックス格納部130に格納する。インデックス格納部130は、上記したように、図5に示したデータを格納している。図5のスコア1304には、カイ二乗値が格納される。例えば、図11に示したデータでは、図5のレコードR131が追加されることとなる。
For example, in the data stored in FIG. 11, in the order of contributor ID,
m1, OO language, 100
Data such as is obtained. Therefore, it can be seen that the technical term of the member m1 is “XX language”. The
そして、インデックス抽出部50は、メンバーとコミュニティの関連度を判断する(S210)。ステップS210において、偏りスコア一時記憶部110のデータについて、コミュニティIDと投稿者IDごとに、偏りスコアが大きい順にソートする。これは、例えば、次のSQLにより得ることができる。
And the
select コミュニティID,投稿者ID,カイ二乗値 from 偏りスコア一時記憶部 where カイ二乗値 > 1.0 AND コミュニティID is not null AND 投稿者ID is not null order by 投稿者ID,コミュニティID,カイ二乗値 desc; select community ID, contributor ID, chi-square value from bias score temporary storage part where chi-square value> 1.0 AND community ID is not null AND contributor ID is not null order by contributor ID, community ID, chi-square value dessc;
例えば、図11に格納されたデータでは、コミュニティID、投稿者ID、カイ二乗値の順で、
c1、m9、70
などのデータが得られる。したがって、コミュニティc1とメンバーm9とは関係が深いと判断することができる。
For example, in the data stored in FIG. 11, in the order of community ID, contributor ID, chi-square value,
c1, m9, 70
Data such as is obtained. Therefore, it can be determined that the community c1 and the member m9 are deeply related.
インデックス抽出部50は、ステップS210において関係が深いと判断されたコミュニティについて、ステップS190で得られたコミュニティの専門用語を、インデックス格納部130に格納する(S220)。
The
例えば、上記したように、コミュニティc1とメンバーm9とは関連が深いので、ステップS200で抽出されたコミュニティc1の専門用語「○○言語」を、メンバーm9の専門用語として格納する。ここで追加されたデータは、図5のレコードR132となる。スコア1304には、コミュニティc1とメンバーm9の間のカイ二乗値が格納される。
For example, as described above, since the community c1 and the member m9 are deeply related, the technical term “XX language” of the community c1 extracted in step S200 is stored as the technical term of the member m9. The data added here becomes a record R132 in FIG. The
インデックス抽出部50は、ステップS220までに追加されたデータについて、単語間の関連が強い組み合わせを抽出してインデックス格納部130に追加する(S230)。単語間の関連が強い組み合わせについては、例えば、次のSQLにより得られる。以下の例では、カイ二乗値の閾値は50としているが、かかる例に限定されない。
The
select 単語1,単語2,カイ二乗値 from 偏りスコア一時記憶部
where カイ二乗値 > 50 AND 単語 is not null AND 単語1 is not null and (単語1 in (‘○○言語’) or 単語2 in (‘○○言語’) order by カイ二乗値 desc;
select
where chi-square value> 50 AND word is not null AND
上記SQLにより得られた結果として、図11のレコードR115が抽出され、関連語として「C++」を得ることができる。得られた関連語を、図5のレコードR133、R134に示すようにインデックス格納部130に格納する。
As a result obtained by the above SQL, the record R115 in FIG. 11 is extracted, and “C ++” can be obtained as a related word. The obtained related terms are stored in the
以上、インデックス格納部130へのインデックスの登録処理について説明した。上記したように、図5に示したインデックス格納部130には、登録されたデータ毎に承認有無1305の項目を設けている。承認有無1305の項目が「未承認」の場合には、メンバーに確認入力を要求する。例えば、該当メンバーがソーシャルネットワークシステムにログインした際などに、確認表示部60に図6に示すインデックスの確認画面を表示して、メンバーに確認入力を要求する。
The index registration process in the
以上、専門用語抽出処理の詳細について説明した。本実施形態では、コミュニティと単語、メンバーと単語、単語間の関係を表す値として、カイ二乗値を計算する。そして、複数のコミュニティやメンバーにおいて専門用語であると判断された単語でも所定の条件をもとに専門用語らしくない(一般用語)と判断して、再度、コミュニティと単語、メンバーと単語、単語間の関係を計算することにより、高精度に専門用語を抽出することが可能となる。 The details of the technical term extraction processing have been described above. In this embodiment, a chi-square value is calculated as a value representing the relationship between the community and the word, the member and the word, and the word. And even if a word is judged to be a technical term in multiple communities or members, it is judged not to be a technical term (general term) based on a predetermined condition. By calculating the relationship, it is possible to extract technical terms with high accuracy.
また、メンバーと単語との関係の強さによって専門用語を抽出するのみでなく、コミュニティとメンバーとの関係、コミュニティと単語との関係を考慮することによりメンバーの専門用語を抽出することも可能となる。すなわち、自身で投稿した文書などに含まれていない専門用語も、コミュニティとの関係で自身の専門用語とすることができるため、個人を特徴付ける複数の専門用語を関連付けることが可能となる。 In addition to extracting technical terms based on the strength of the relationship between members and words, it is also possible to extract technical terms of members by considering the relationship between communities and members, and the relationship between communities and words. Become. In other words, technical terms that are not included in the documents posted by the user can also be used as technical terms of their own in relation to the community, so that it is possible to associate a plurality of technical terms that characterize individuals.
〔3〕第2実施形態
次に、本発明の第2実施形態について説明する。第1実施形態では、コミュニティと関連の深い単語を、コミュニティと関連が深いメンバーを特徴付ける単語として設定した。しかし、第1実施形態では、その単語がいつ出現したかという時間的な条件を考慮していない。例えば、第1実施形態では、メンバーが投稿した期間内において、関連付けられた単語が一度も出現しなかった場合でも、メンバーを特徴付ける単語として設定されてしまう。そこで、本実施形態では、メンバーがコミュニティにおいて投稿した時期も考慮して、メンバーを特徴付ける単語の抽出を行っている点で第1実施形態と異なっている。以下では、第1実施形態と異なる点について特に説明し、第1実施形態と同様な点については詳細な説明は省略する。
[3] Second Embodiment Next, a second embodiment of the present invention will be described. In the first embodiment, words that are closely related to the community are set as words that characterize members that are closely related to the community. However, the first embodiment does not consider the temporal condition of when the word appears. For example, in the first embodiment, even if the associated word never appears within the period posted by the member, it is set as a word characterizing the member. Therefore, the present embodiment is different from the first embodiment in that a word characterizing the member is extracted in consideration of the time when the member posted in the community. Hereinafter, differences from the first embodiment will be particularly described, and detailed description of points similar to those of the first embodiment will be omitted.
〔3−1〕専門用語抽出装置の機能構成
本実施形態にかかる専門用語抽出装置2の機能構成は、第1実施形態にかかる専門用語抽出装置1の機能構成とほぼ同様なため、詳細な説明は省略する。本実施形態では、インデックス抽出部50が、コミュニティの専門用語を抽出する際に、メンバーの当該コミュニティにおける投稿期間を考慮する点で第1実施形態と異なっている。インデックス抽出部50によるコミュニティの専門用語抽出処理については、後述する専門用語抽出処理の説明で詳細に説明する。
[3-1] Functional Configuration of Technical Term Extraction Device The functional configuration of the technical
〔3−2〕専門用語抽出処理の詳細
本実施形態における専門用語抽出処理は、第1実施形態とはコミュニティの専門用語の抽出方法が異なっているため、異なる点について特に詳細に説明し、第1実施形態と同様の処理については詳細な説明を省略する。
[3-2] Details of Terminology Extraction Processing The terminology extraction processing in the present embodiment is different from the first embodiment in terms of community terminology extraction methods. Detailed description of the same processing as that of the first embodiment will be omitted.
本実施形態における専門用語抽出処理では、第1実施形態における図7のステップ190のコミュニティの専門用語の抽出処理に代えて、図12に示した処理が実行される。図12には、本実施形態におけるコミュニティの専門用語の抽出処理の詳細を示すフローチャートである。 In the technical term extraction process in the present embodiment, the process shown in FIG. 12 is executed in place of the community technical term extraction process in step 190 of FIG. 7 in the first embodiment. FIG. 12 is a flowchart showing details of the process for extracting the technical terms of the community in the present embodiment.
図12に示したように、インデックス抽出部50は、ステップS210で関係が深いと判断されたコミュニティについて、次の条件によりステップS190で得られたコミュニティの専門用語をインデックス格納部130に格納する。
(条件)コミュニティにおいて、当該専門用語が出現した期間と、メンバーの当該コミュニティでの投稿期間が重なっていること
As shown in FIG. 12, the
(Condition) In the community, the period in which the technical term appears and the member's posting period in the community overlap.
上記条件を満たすために、インデックス抽出部50は、まず、コミュニティ専門用語の出現期間を計算する(S2000)。例えば、コミュニティc1の専門用語「○○言語」は、図3の形態素一時記憶部80において、文書d3、d4のレコードに出現している。図3の形態素一時記憶部80の文書IDと、図2のカテゴリ付き文書記憶部70の文書IDとが対応しているため、図2の投稿時刻「2008年12月11日」から「2008年12月14日」までが出現期間となる。
In order to satisfy the above conditions, the
そして、メンバー(投稿者)のコミュニティにおける投稿期間を算出する(S2010)。図2のカテゴリ付き文書記憶部70において、投稿者m1は、コミュニティc1で、「2008年12月11日」(文書d1)から「2008年12月14日」(文書d4)まで投稿していることがわかる。
Then, the posting period in the community of the member (contributor) is calculated (S2010). In the category-added
ステップS2000において取得した期間と、ステップ2010において取得した期間が重なっている場合には、当該コミュニティの専門用語を、インデックス格納部130に格納する。上記した例では、コミュニティの専門用語の出現期間とメンバーの投稿期間とが重複しているため、専門用語「○○言語」は、インデックス格納部130に格納される。
When the period acquired in step S2000 and the period acquired in step 2010 overlap, the technical term of the community is stored in the
以上、第2実施形態について説明した。本実施形態では、第1実施形態では考慮されなかった単語の出現期間という時間的な条件が考慮されている。これにより、コミュニティと関連の深い単語を、コミュニティと関連の強いメンバーを特徴付ける単語として設定する際の精度をより向上させることが可能となる。 The second embodiment has been described above. In the present embodiment, the temporal condition of the appearance period of words that is not considered in the first embodiment is considered. As a result, it is possible to further improve the accuracy when setting a word closely related to the community as a word characterizing a member strongly related to the community.
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。 The preferred embodiments of the present invention have been described in detail above with reference to the accompanying drawings, but the present invention is not limited to such examples. It is obvious that a person having ordinary knowledge in the technical field to which the present invention pertains can come up with various changes or modifications within the scope of the technical idea described in the claims. Of course, it is understood that these also belong to the technical scope of the present invention.
例えば、上記実施形態では、コミュニティとメンバー、メンバーと単語、単語間の関係を示す値としてカイ二乗値を用いているが、本発明はかかる例に限定されない。例えば、 単語関の関連の強さを算出するために、相互情報量などを用いてもよい。 For example, in the above embodiment, the chi-square value is used as a value indicating the relationship between the community and the member, the member and the word, and the word, but the present invention is not limited to such an example. For example, mutual information may be used to calculate the strength of relations between words.
また、一般用語を除いて偏りスコアを再計算する際に、閾値や出現頻度などについても再度計算するようにしてもよい。 Further, when recalculating the bias score excluding general terms, the threshold value and the appearance frequency may be calculated again.
また、コミュニティごとにコミュニティを特徴付ける単語を抽出しているが、かかる例に限定されず、関連のある複数のコミュニティについて、該コミュニティを特徴付ける単語を抽出するようにしてもよい。 Moreover, although the word which characterizes a community is extracted for every community, it is not limited to this example, You may make it extract the word which characterizes this community about several related communities.
また、例えば、本明細書の専門用語抽出装置1の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。すなわち、専門用語抽出装置1の処理における各ステップは、異なる処理であっても並列的に実行されてもよい。
Further, for example, each step in the processing of the technical
また、専門用語抽出装置1などに内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上述した専門用語抽出装置1の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。
Further, it is possible to create a computer program for causing hardware such as the CPU, ROM and RAM incorporated in the technical
1、2 専門用語抽出装置
10 入力部
20 形態素解析部
30 偏りスコア計算部
40 一般用語抽出部
50 インデックス抽出部
60 確認表示部
70 カテゴリ付き文書記憶部
80 形態素一時記憶部
90 共起リスト一時記憶部
100 出現数一時記憶部
110 偏りスコア一時記憶部
120 一般用語一時記憶部
130 インデックス格納部
DESCRIPTION OF
Claims (9)
前記文書に含まれる単語間、単語と投稿者との間、単語と該投稿者が属する投稿先グループとの間の偏りスコアを計算する偏りスコア計算部と、
前記偏りスコアの値に応じて、前記文書に含まれている一般用語を抽出する一般用語抽出部と、
前記一般用語抽出部により抽出された前記一般用語を前記文書から除いて、個人の特徴を示すキーワードを抽出するインデックス抽出部と、
を備えることを特徴とする、専門用語抽出装置。 A morphological analysis unit that performs a morphological analysis on a document input in accordance with a contributor's operation;
A bias score calculation unit that calculates a bias score between words included in the document, between a word and a contributor, between a word and a posting destination group to which the contributor belongs;
A general term extraction unit that extracts a general term included in the document according to a value of the bias score;
An index extraction unit for extracting a keyword indicating an individual characteristic by removing the general term extracted by the general term extraction unit from the document;
A technical term extraction device comprising:
前記偏りスコアをカイ二乗値によって計算することを特徴とする、請求項1に記載の専門用語抽出装置。 The bias score calculation unit
The technical term extraction device according to claim 1, wherein the bias score is calculated by a chi-square value.
投稿者と単語または該投稿者が属する投稿先グループと単語との組み合わせのうち、前記偏りスコアの値が所定の値以下であり、複数の投稿者または複数の投稿先グループと関連がある単語を一般用語として抽出することを特徴とする、請求項1に記載の専門用語抽出装置。 The general term extraction unit includes:
Of the combinations of a poster and a word or a posting destination group to which the poster belongs and a word, the bias score is less than or equal to a predetermined value, and a word related to a plurality of posters or a plurality of posting groups The technical term extraction device according to claim 1, wherein the terminology is extracted as a general term.
前記一般用語として抽出された単語を除いて、前記偏りスコアを再度計算し、
前記一般用語抽出部は、
投稿者と単語または該投稿者が属する投稿先グループと単語との組み合わせのうち、該偏りスコアの値が所定の値以下であり、複数の投稿者または複数の投稿先グループと関連がある単語を一般用語として再度抽出することを特徴とする、請求項4に記載の専門用語抽出装置。 The bias score calculation unit
Excluding the word extracted as the general term, recalculating the bias score,
The general term extraction unit includes:
Of the combinations of a poster and a word or a posting destination group to which the poster belongs and a word, the bias score value is less than or equal to a predetermined value, and a word related to a plurality of posters or a plurality of posting destination groups 5. The technical term extraction device according to claim 4, wherein the terminology is extracted again as a general term.
投稿者と単語との間の偏りスコアの値が所定の値以上である単語を、個人の特徴を示すキーワードとして抽出することを特徴とする、請求項1に記載の専門用語抽出装置。 The index extraction unit
The technical term extraction device according to claim 1, wherein a word having a bias score value between a poster and a word that is equal to or greater than a predetermined value is extracted as a keyword indicating an individual characteristic.
前記投稿先グループの特徴を示す単語を抽出し、投稿者と該投稿者の属する投稿先グループとの間の偏りスコアの値が所定の値以上の投稿先グループの特徴を示す単語を、個人の特徴を示すキーワードとして抽出することを特徴とする、請求項1に記載の専門用語抽出装置。 The index extraction unit
A word indicating the characteristics of the posting destination group is extracted, and the word indicating the characteristics of the posting destination group having a bias score value between the poster and the posting destination group to which the poster belongs belongs to The technical term extraction device according to claim 1, wherein the technical term extraction device is extracted as a keyword indicating a feature.
前記抽出した投稿先グループの特徴を示す単語のうち、該単語を含む文書が投稿された期間と、投稿者が前記投稿先グループで投稿した期間とが対応する場合に、該単語を個人の特徴を示すキーワードとして抽出することを特徴とする、請求項7に記載の専門用語抽出装置。 The index extraction unit
Among the words indicating the characteristics of the extracted posting destination group, when a period in which a document including the word is posted corresponds to a period in which the poster has posted in the posting destination group, the word is an individual characteristic. The technical term extraction device according to claim 7, wherein the terminology is extracted as a keyword indicating.
投稿者の操作に応じて入力された文書を形態素解析する形態素解析部と、
前記文書に含まれる単語間、単語と投稿者との間、単語と該投稿者が属する投稿先グループとの間の偏りスコアを計算する偏りスコア計算部と、
前記偏りスコアの値応じて、前記文書に含まれている一般用語を抽出する一般用語抽出部と、
前記一般用語抽出部により抽出された前記一般用語を前記文書から除いて、個人の特徴を示すキーワードを抽出するインデックス抽出部と、
を備えることを特徴とする、専門用語抽出装置として機能させるための、プログラム。 Computer
A morphological analysis unit that performs a morphological analysis on a document input in accordance with a contributor's operation;
A bias score calculation unit that calculates a bias score between words included in the document, between a word and a contributor, between a word and a posting destination group to which the contributor belongs;
A general term extraction unit that extracts a general term included in the document according to a value of the bias score;
An index extraction unit for extracting a keyword indicating an individual characteristic by removing the general term extracted by the general term extraction unit from the document;
A program for functioning as a terminology extraction device, comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009257660A JP2011103059A (en) | 2009-11-11 | 2009-11-11 | Technical term extraction device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009257660A JP2011103059A (en) | 2009-11-11 | 2009-11-11 | Technical term extraction device and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011103059A true JP2011103059A (en) | 2011-05-26 |
Family
ID=44193366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009257660A Withdrawn JP2011103059A (en) | 2009-11-11 | 2009-11-11 | Technical term extraction device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011103059A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013134713A (en) * | 2011-12-27 | 2013-07-08 | Kddi Corp | Link generation device, link generation method, and link generation program |
JP2017215714A (en) * | 2016-05-31 | 2017-12-07 | 富士ゼロックス株式会社 | Information processor and information processing program |
US10331674B2 (en) | 2014-08-21 | 2019-06-25 | Fujitsu Limited | Information processing method, information processing apparatus and storage medium to determine ranking of registrants |
WO2020059123A1 (en) * | 2018-09-21 | 2020-03-26 | 富士通株式会社 | Determination method and determination program |
-
2009
- 2009-11-11 JP JP2009257660A patent/JP2011103059A/en not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013134713A (en) * | 2011-12-27 | 2013-07-08 | Kddi Corp | Link generation device, link generation method, and link generation program |
US10331674B2 (en) | 2014-08-21 | 2019-06-25 | Fujitsu Limited | Information processing method, information processing apparatus and storage medium to determine ranking of registrants |
JP2017215714A (en) * | 2016-05-31 | 2017-12-07 | 富士ゼロックス株式会社 | Information processor and information processing program |
WO2020059123A1 (en) * | 2018-09-21 | 2020-03-26 | 富士通株式会社 | Determination method and determination program |
JPWO2020059123A1 (en) * | 2018-09-21 | 2021-04-30 | 富士通株式会社 | Judgment method and judgment program |
JP7010383B2 (en) | 2018-09-21 | 2022-01-26 | 富士通株式会社 | Judgment method and judgment program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11886517B2 (en) | Graphical user interface for presentation of events | |
US8099415B2 (en) | Method and apparatus for assessing similarity between online job listings | |
JP5346841B2 (en) | Document classification system, document classification program, and document classification method | |
US9183535B2 (en) | Social network model for semantic processing | |
US11455301B1 (en) | Method and system for identifying entities | |
US8024176B2 (en) | System, method and apparatus for prediction using minimal affix patterns | |
JP5332477B2 (en) | Automatic generation of term hierarchy | |
US8010539B2 (en) | Phrase based snippet generation | |
CA2638558C (en) | Topic word generation method and system | |
JP5313337B2 (en) | Providing search results for mobile computing devices | |
EP2657852A1 (en) | Method and device for filtering harmful information | |
US8924852B2 (en) | Apparatus, method, and program for supporting processing of character string in document | |
US20060190435A1 (en) | Document retrieval using behavioral attributes | |
KR101511656B1 (en) | Ascribing actionable attributes to data that describes a personal identity | |
US20110112824A1 (en) | Determining at least one category path for identifying input text | |
JP2010157178A (en) | Computer system for creating term dictionary with named entities or terminologies included in text data, and method and computer program therefor | |
US20160196313A1 (en) | Personalized Question and Answer System Output Based on Personality Traits | |
US20080162528A1 (en) | Content Management System and Method | |
US6618722B1 (en) | Session-history-based recency-biased natural language document search | |
US11574287B2 (en) | Automatic document classification | |
WO2012096388A1 (en) | Unexpectedness determination system, unexpectedness determination method, and program | |
EP4187463A1 (en) | An artificial intelligence powered digital meeting assistant | |
JP2011103059A (en) | Technical term extraction device and program | |
JP6576847B2 (en) | Analysis system, analysis method, and analysis program | |
JP5218409B2 (en) | Related information search system and related information search method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20130205 |