JP6279354B2 - Topic identification device and topic identification method - Google Patents
Topic identification device and topic identification method Download PDFInfo
- Publication number
- JP6279354B2 JP6279354B2 JP2014042168A JP2014042168A JP6279354B2 JP 6279354 B2 JP6279354 B2 JP 6279354B2 JP 2014042168 A JP2014042168 A JP 2014042168A JP 2014042168 A JP2014042168 A JP 2014042168A JP 6279354 B2 JP6279354 B2 JP 6279354B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- topic
- information
- words
- sentence information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 118
- 239000000470 constituent Substances 0.000 claims description 82
- 238000000605 extraction Methods 0.000 claims description 54
- 239000000284 extract Substances 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 21
- 238000001914 filtration Methods 0.000 claims description 17
- 239000000203 mixture Substances 0.000 claims description 2
- 230000000877 morphologic effect Effects 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 101150027973 hira gene Proteins 0.000 description 2
- 230000000699 topical effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、話題特定装置、および話題特定方法に関する。 The present invention relates to a topic identification device and a topic identification method.
次のような話題語抽出装置が知られている。この話題語抽出装置では、ソーシャル・メディアサーバから取得した書き込み情報から、指示代名詞、挨拶に用いられる単語、時節に関連する単語を排除して重要単語を抽出し、抽出した重要単語ごとに算出した重要度に基づいて話題語を抽出する(例えば、特許文献1)。 The following topic word extraction devices are known. In this topic word extraction device, important words are extracted from written information obtained from social media servers by excluding pronouns, words used for greetings, words related to time, and calculated for each extracted important word A topic word is extracted based on importance (for example, patent document 1).
しかしながら、書き込み情報のような文章には、複数の単語が含まれており、これらの単語が関連して1つの話題を構成していることが多い。このため、文章内の重要単語を抽出しただけでは、文章の話題を特定するための話題語を精度高く抽出できない可能性があった。 However, sentences such as written information include a plurality of words, and these words often constitute one topic in association with each other. For this reason, there is a possibility that a topic word for specifying a topic of a sentence cannot be extracted with high accuracy only by extracting an important word in the sentence.
本発明による話題特定装置は、ユーザによって投稿された文章情報を蓄積した投稿情報を取得する投稿情報取得手段と、投稿情報取得手段によって取得された投稿情報を解析して、投稿情報に含まれる単語を抽出する単語抽出手段と、単語抽出手段によって抽出された各単語に対して、投稿情報内における出現頻度を算出する出現頻度算出手段と、出現頻度算出手段によって算出された各単語ごとの出現頻度に基づいて、出現頻度が上位となるあらかじめ設定された所定数の単語を上位頻出単語として特定する上位頻出単語特定手段と、上位頻出単語特定手段によって特定された上位頻出単語のそれぞれについて、上位頻出単語に含まれる他の単語との間のつながりの強さを示す2単語間のつながり強度を算出するつながり強度算出手段と、つながり強度算出手段によって算出されたつながり強度があらかじめ設定された所定の閾値以上の上位頻出単語の組み合わせを、上位頻出単語ペアとして抽出する上位頻出単語ペア抽出手段と、上位頻出単語ペア抽出手段によって抽出された上位頻出単語ペアのうち、つながり強度が最も大きい上位頻出単語ペアを構成する2つの単語を、投稿情報に含まれる話題を構成するコアとなる単語(以下「コア単語」と呼ぶ)として特定するコア単語特定手段と、コア単語特定手段によって特定された2つのコア単語のそれぞれについて、つながり強度算出手段で算出されたつながり強度が所定の閾値以上の上位頻出単語をコア単語に関連する関連単語として特定する関連単語特定手段と、コア単語特定手段によって特定された2つのコア単語と、関連単語特定手段によって特定された関連単語とを、話題を構成する1組の話題構成単語群として特定する話題構成単語群特定手段とを備えることを特徴とする。
本発明による話題特定方法は、ユーザによって投稿された文章情報を蓄積した投稿情報を取得する投稿情報取得手順と、投稿情報取得手順で取得した投稿情報を解析して、投稿情報に含まれる単語を抽出する単語抽出手順と、単語抽出手順で抽出した各単語に対して、投稿情報内における出現頻度を算出する出現頻度算出手順と、出現頻度算出手順で算出した各単語ごとの出現頻度に基づいて、出現頻度が上位となるあらかじめ設定された所定数の単語を上位頻出単語として特定する上位頻出単語特定手順と、上位頻出単語特定手順で特定した上位頻出単語のそれぞれについて、上位頻出単語に含まれる他の単語との間のつながりの強さを示す2単語間のつながり強度を算出するつながり強度算出手順と、つながり強度算出手順で算出したつながり強度があらかじめ設定された所定の閾値以上の上位頻出単語の組み合わせを、上位頻出単語ペアとして抽出する上位頻出単語ペア抽出手順と、上位頻出単語ペア抽出手順で抽出した上位頻出単語ペアのうち、つながり強度が最も大きい上位頻出単語ペアを構成する2つの単語を、投稿情報に含まれる話題を構成するコアとなる単語(以下「コア単語」と呼ぶ)として特定するコア単語特定手順と、コア単語特定手順で特定した2つのコア単語のそれぞれについて、つながり強度算出手順で算出したつながり強度が所定の閾値以上の上位頻出単語をコア単語に関連する関連単語として特定する関連単語特定手順と、コア単語特定手順で特定した2つのコア単語と、関連単語特定手順で特定した関連単語とを、話題を構成する1組の話題構成単語群として特定する話題構成単語群特定手順とをコンピュータに実行させるための方法である。
A topic identification device according to the present invention includes a posting information acquisition unit that acquires posting information in which text information posted by a user is accumulated, and a word included in the posting information by analyzing the posting information acquired by the posting information acquisition unit. The word extraction means for extracting the appearance frequency, the appearance frequency calculation means for calculating the appearance frequency in the posted information for each word extracted by the word extraction means, and the appearance frequency for each word calculated by the appearance frequency calculation means Based on the above, an upper frequent word specifying means for specifying a predetermined number of words having a higher appearance frequency as an upper frequent word and an upper frequent word specified by the upper frequent word specifying means A connection strength calculating means for calculating a connection strength between two words indicating the strength of a connection between other words included in the word; By means of an upper frequent word pair extracting means for extracting, as upper frequent word pairs, a combination of upper frequent words having a connection strength calculated by the path strength calculating means that is equal to or higher than a predetermined threshold set in advance, and by an upper frequent word pair extracting means. Among the extracted top frequent word pairs, two words constituting the top frequent word pair having the highest connection strength are used as core words (hereinafter referred to as “core words”) constituting the topic included in the posted information. For each of the core word identification means to be identified and the two core words identified by the core word identification means, an association that relates the upper frequent words whose connection strength calculated by the connection strength calculation means is a predetermined threshold or more to the core word A related word specifying means for specifying as a word, two core words specified by the core word specifying means, A related word identified by communicating word specifying means, characterized in that it comprises a topic structure word group specifying means for specifying a set of topics constituent words that constitute the subject.
The topic identification method according to the present invention includes a posting information acquisition procedure for acquiring posting information that accumulates text information posted by a user, and analyzing the posting information acquired in the posting information acquisition procedure to determine a word included in the posting information. Based on the word extraction procedure to be extracted, the appearance frequency calculation procedure for calculating the appearance frequency in the post information for each word extracted in the word extraction procedure, and the appearance frequency for each word calculated in the appearance frequency calculation procedure The upper frequent word specifying procedure for specifying a predetermined number of words having a higher appearance frequency as a higher frequent word and the higher frequent word specified in the higher frequent word specifying procedure are included in the higher frequent word. The connection strength calculation procedure for calculating the connection strength between two words indicating the strength of the connection between other words and the connection strength calculation procedure. Out of the top frequent word pair extraction procedure that extracts a combination of top frequent words that are greater than or equal to a predetermined threshold that has a predetermined strength as a top frequent word pair, and the top frequent word pair extracted in the top frequent word pair extraction procedure, A core word specifying procedure for specifying two words constituting the top frequent word pair having the highest connection strength as core words (hereinafter referred to as “core words”) constituting a topic included in the posted information; For each of the two core words specified in the specifying procedure, a related word specifying procedure for specifying, as a related word related to the core word, an upper frequent word whose connection strength calculated in the connection strength calculating procedure is equal to or higher than a predetermined threshold, and the core word A set of topic structures that constitute a topic, with the two core words specified in the specifying procedure and the related words specified in the related word specifying procedure. A method for executing the topic structure word group specific procedures on a computer for identifying a group of words.
本発明によれば、2単語間のつながり強度が最も大きい上位頻出単語ペアを構成する2つの単語を、コア単語として特定するとともに、コア単語のそれぞれについて、つながり強度が所定の閾値以上の上位頻出単語を関連単語として特定して、特定した2つのコア単語と関連単語とを話題を構成する1組の話題構成単語群として特定するようにしたので、ユーザによって投稿された文章に含まれる複数の単語のつながり強度を加味して、精度高く話題を特定するための単語を抽出することができる。 According to the present invention, two words constituting a top frequent word pair having the largest connection strength between two words are identified as core words, and the top frequent occurrences having a connection strength of a predetermined threshold or more for each of the core words. Since a word is specified as a related word, and the specified two core words and related words are specified as a set of topic constituent words constituting a topic, a plurality of words included in a sentence posted by the user A word for specifying a topic with high accuracy can be extracted in consideration of the connection strength of words.
図1は、本実施の形態における話題特定装置100の一実施の形態の構成を示すブロック図である。話題特定装置100としては、例えば、サーバ装置やパソコン等の情報処理装置が用いられ、図1は、話題特定装置100としてサーバ装置を用いた場合の一実施の形態の構成を示している。話題特定装置100は、操作部材101と、接続IF(インターフェース)102と、制御装置103と、記録装置104とを備えている。
FIG. 1 is a block diagram showing a configuration of an embodiment of the
操作部材101は、話題特定装置100の操作者によって操作される種々の装置、例えばキーボードやマウスを含む。
The
接続IF102は、話題特定装置100をLANやインターネット等の通信回線に接続するためのインターフェースであり、例えば、LANに有線で接続するための有線LANモジュールや、LANに無線で接続するための無線LANモジュールなどが用いられる。
The connection IF 102 is an interface for connecting the
制御装置103は、CPU、メモリ、およびその他の周辺回路によって構成され、話題特定装置100の全体を制御する。なお、制御装置103を構成するメモリは、例えばSDRAM等の揮発性のメモリである。このメモリは、CPUがプログラム実行時にプログラムを展開するためのワークメモリや、データを一時的に記録するためのバッファメモリとして使用される。
The
記録装置104は、話題特定装置100が蓄える種々のデータや、制御装置103が実行するためのプログラムのデータ等を記録するための記録装置であり、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)等が用いられる。なお、記録装置104に記録されるプログラムのデータは、CD−ROMやDVD−ROMなどの記録媒体に記録されて提供されたり、ネットワークを介して提供され、操作者が取得したプログラムのデータを記録装置104にインストールすることによって、制御装置103がプログラムを実行できるようになる。
The
本実施の形態における話題特定装置100では、WEB上で文章を入力して公開することができるサービスを利用して、ユーザが投稿し、公開した文章を対象として解析を行い、現在、どのような内容が主な話題として投稿されているかを特定するための処理を実行する。WEB上で文章を入力して公開することができるサービスとしては、例えばTwitter(登録商標)のような、ユーザが短文を投稿してWEB上に公開することができるサービスを想定する。
The
ユーザが投稿した文章を対象とした解析を行うために、本実施の形態では、制御装置103は、あらかじめ上記のようなサービスを提供するサービス事業者が運営する外部サーバから、ユーザによって投稿された文章情報を蓄積した投稿情報を取得する。例えば、話題特定装置100には、サービス事業者が運営する外部サーバから投稿情報を取得するためのAPI(アプリケーションプログラミングインターフェース)が実装されており、制御装置103は、あらかじめ設定された所定時間間隔でAPIを起動し、接続IF102を介して外部サーバから投稿情報を取得して、記録装置104に記録する。
In this embodiment, in order to perform an analysis on the text posted by the user, the
制御装置103は、記録装置104に記録されている投稿情報を対象として、投稿情報から、後述する処理で特定する話題構成単語群の特定に必要のない文章情報を除去するためのフィルタリング処理を実行する。これによって、投稿情報から話題の特定とは関係がない可能性が高い文章情報が除去される。なお、本実施の形態では、フィルタリング処理として、以下のような判定処理を行って、投稿内容がニュースであるもの、広告であるもの、リツイートされたもの、機械的に大量に投稿されたもの(bot)、話題特定目的に適さないもの、内容が他の文章と重複するもの、ひらがな率が所定値以下であるものを不要な文章情報として除去するものとする。
The
投稿内容がニュースであるか否かの判定処理は、投稿内容がニュースである場合の文章パターンをリスト化したニュースパターンリストをあらかじめ用意しておき、制御装置103は、ニュースパターンリストを参照して、投稿情報に含まれる各文章情報に対して正規表現によるパターンマッチングを行い、文章情報にマッチした文字列があれば、その文章情報はニュースであると判定して、投稿情報から除去する。また、ニュースを投稿する投稿者のアカウントをリスト化したニュースアカウントリストをあらかじめ用意しておき、制御装置103は、ニュースアカウントリストを参照して、投稿情報内にニュースアカウントリストに含まれるアカウントが投稿した文章情報があれば、その文章情報はニュースであると判定して、投稿情報から除去する。
In determining whether the posted content is news, a news pattern list that lists sentence patterns when the posted content is news is prepared in advance, and the
投稿内容が広告であるか否かの判定処理は、投稿内容が広告である場合の文章パターンをリスト化した広告パターンリストをあらかじめ用意しておき、制御装置103は、広告パターンリストを参照して、投稿情報に含まれる各文章情報に対して正規表現によるパターンマッチングを行い、文章情報にマッチした文字列があれば、その文章情報は広告であると判定して、投稿情報から除去する。また、広告を投稿する投稿者のアカウントをリスト化した広告アカウントリストをあらかじめ用意しておき、制御装置103は、広告アカウントリストを参照して、投稿情報内に広告カウントリストに含まれるアカウントが投稿した文章情報があれば、その文章情報は広告であると判定して、投稿情報から除去する。
The process for determining whether or not the posted content is an advertisement is prepared in advance with an advertisement pattern list that lists sentence patterns when the posted content is an advertisement. The
投稿内容がリツイートされたものであるか否かの判定処理は、各文章情報について、本文が「RT」から始まっていれば、その文章情報はリツイートされたものであると判定して、投稿情報から除去する。 Whether the posted content is retweeted or not is determined. If the text starts with “RT” for each text information, it is determined that the text information is retweeted, and the posted information Remove from.
投稿内容が機械的に大量に投稿されたもの(bot)であるか否かの判定処理は、投稿内容がbotである場合の文章パターンをリスト化したbotパターンリストをあらかじめ用意しておき、制御装置103は、botパターンリストを参照して、投稿情報に含まれる各文章情報に対して正規表現によるパターンマッチングを行い、文章情報にマッチした文字列があれば、その文章情報はbotであると判定して、投稿情報から除去する。また、botを投稿する投稿者のアカウントをリスト化したbotアカウントリストをあらかじめ用意しておき、制御装置103は、botアカウントリストを参照して、投稿情報内にbotアカウントリストに含まれるアカウントが投稿した文章情報があれば、その文章情報はbotであると判定して、投稿情報から除去する。また、botを投稿する投稿者のプロフィール文として使用される可能性が高い文章パターンをリスト化したbotプロフィール文リストをあらかじめ用意しておき、制御装置103は、botプロフィール文リストを参照して、投稿者のプロフィール文に対して正規表現によるパターンマッチングを行い、プロフィール文にマッチした文字列があれば、その投稿者が投稿した文章情報はbotであると判定して、投稿情報から除去する。また、制御装置103は、投稿者のアカウント名の別名として設定されたスクリーンネームに「bot」という文字列が含まれている場合には、その投稿者が投稿した文章情報はbotであると判定して、投稿情報から除去する。
Whether or not the posted content is mechanically posted in large quantities (bots) is determined by preparing a bot pattern list that lists sentence patterns when the posted content is bot in advance. The
投稿内容が本実施の形態における話題特定目的に適さないものであるか否かの判定処理は、制御装置103は、各文章情報に対して、本文からURL、スクリーンネーム、メールアドレスを除去し、残った本文にあらかじめ設定されたキーワードが含まれていなければ、その文章情報は話題特定目的に適さないものであると判定して、投稿情報から除去する。
In the determination process of whether or not the posted content is not suitable for the topic identification purpose in the present embodiment, the
投稿内容が他の文章と重複するものであるか否かの判定処理は、制御装置103は、各文章情報ごとに本文内容をハッシュ値に逐一変換し、同一のハッシュ値を持つものは文面が重複する文章情報とみなし、1件を残し他の文章情報は投稿情報から除去する。
In the process of determining whether or not the posted content overlaps with other text, the
投稿内容がひらがな率が所定値以下であるものであるか否かの判定処理は、制御装置103は、各文章情報に対して、本文全体の文字数に対する本文に含まれるひらがな文字数の割合を算出し、算出した割合が所定割合以下、例えば10%以下である場合には、その文章情報はひらがな率が所定値以下であると判定して、投稿情報から除去する。
In the process of determining whether or not the posted content has a hiragana rate equal to or lower than a predetermined value, the
制御装置103は、上述したようにフィルタリング処理を施した後の投稿情報を対象として、以下のように処理を行う。
The
制御装置103は、投稿情報に含まれる文章情報を対象として、形態素解析処理を行い、特定の品詞の単語のみを抽出するとともに、抽出した特定の品詞の単語の中からあらかじめ設定された除去対象の文字または文字列を除去する。本実施の形態では、制御装置103は、公知の形態素解析エンジンを利用して、投稿情報から名詞、形容詞、形容動詞を抽出した上で、抽出した単語の中から非自立語、数字1文字、アルファベット1文字を除去対象語として特定して除去する。なお、形態素解析処理によって抽出した単語が自立した自立語であるか非自立語であるかは、形態素解析処理において判断され、抽出された各単語には、それぞれが自立語であるか非自立語であるかを示す情報が付されていて、制御装置103は、該情報に基づいて非自立語を特定して除去するものとする。
The
「ゴールは近いようだ」という文章情報を例に、本実施の形態における特定の品詞の抽出処理と、除去対象語の除去処理について説明する。例えば、「ゴールは近いようだ」の文章情報は、形態素解析処理により、「ゴール」、「は」、「近い」、「よう」、「だ」の5つの単語に分割された上で、「ゴール」は名詞、「は」は助詞、係助詞、「近い」は形容詞、「よう」は名詞、「だ」は助動詞と解析され、処理結果として名詞、形容詞、形容動詞である「ゴール」、「近い」、「よう」が抽出される。抽出された各単語には、「ゴール」と「近い」は自立語、「よう」は非自立語を示す情報が付されており、制御装置103は、非自立語である「よう」を除去する。これによって、「ゴールは近いようだ」という文章情報からは、最終的に「ゴール」と「近い」の2単語が以下に説明する話題構成単語を特定するための処理で処理対象となる単語として抽出される。
A specific part-of-speech extraction process and a removal target word removal process according to the present embodiment will be described using sentence information “goal seems close” as an example. For example, the sentence information “Goal seems close” is divided into five words “Goal”, “Ha”, “Close”, “Yo”, “Da” by morphological analysis processing, `` Goal '' is a noun, `` ha '' is a particle, a coordinator, `` close '' is an adjective, `` yo '' is a noun, `` da '' is an auxiliary verb, and the result is a noun, adjective, adjective verb `` goal '', “Near” and “Yo” are extracted. Each extracted word is attached with information indicating “goal” and “close” as independent words and “yo” as non-independent words, and the
制御装置103は、投稿情報から上記処理で処理対象として抽出した各単語の出現頻度を算出し、出現頻度が上位のものから10件を、すなわち出願頻度が上位の10単語を上位頻出単語として特定する。
The
制御装置103は、特定した上位頻出単語のそれぞれについて、上位頻出単語に含まれる他の単語との間のつながりの強さを示す2単語間のつながり強度を算出する。具体的には、制御装置103は、次式(1)により、単語Aと単語Bの2単語間のつながりの強さを示す指標値R(A,B)を算出する。これにより、上位頻出単語である10単語のそれぞれにつき、全ての2単語間の組み合わせについて、計45通りのつながり指標値R(A,B)が算出される。なお、次式(1)において、Uは投稿情報に含まれる文章情報の数を表す変数であり、df(A)は単語Aを含む文章情報の数を表す変数であり、df(B)は単語Bを含む文章情報の数を表す変数であり、df(A∩B)は単語Aと単語Bの両方を含む文章情報の数を表す変数である。
制御装置103は、式(1)により算出した45通りの指標値R(A,B)を偏差値に変換することによって、2単語間のつながり強度を算出する。
The
制御装置103は、2単語間のつながり強度があらかじめ設定された閾値以上の上位頻出単語の組み合わせを、上位頻出単語ペアとして抽出する。そして、抽出した上位頻出単語ペアのうち、つながり強度が最も大きい上位頻出単語ペアを構成する2つの単語を、投稿情報に含まれる主な話題を構成するコアとなる単語(以下「コア単語」と呼ぶ)として特定する。さらに、特定した2つのコア単語のそれぞれについて、つながり強度が所定の閾値以上の上位頻出単語を、コア単語に関連する関連単語として特定する。制御装置103は、このようにして特定した2つのコア単語と、それらに関連する関連単語とを、話題を構成する1組の話題構成単語群として特定する。
The
制御装置103は、1組の話題構成単語群を特定した後は、既にコア単語として特定した上位頻出単語と既に関連単語として特定された単語を除いて、残った上位頻出単語ペアのうち、つながり強度が最も大きい上位頻出単語ペアを構成する2つの単語を新たなコア単語として特定するとともに、既にコア単語として特定した上位頻出単語を除いた上位頻出単語の中から上記新たなコア単語に対する関連単語を特定することにより、二組目以降の話題構成単語群を特定していく。制御装置103は、この話題構成単語群を特定するための処理を、上位頻出単語ペアが特定できなくなるまで繰り返す。
After identifying a set of topic constituent words, the
2単語間のつながり強度の算出例と、それに基づく話題構成単語群の特定例について、図2を用いて説明する。図2に示す例では、「日本」、「政党」、「国民」、「秘密保護法」、「議員」、「首相」、「政権」、「政治」、「反対」、「法案」の10単語が上位頻出単語として特定され、それぞれ2単語間のつながり強度として、式(1)で算出した指標値の偏差値が算出されている。ここでは、上位頻出単語ペアを抽出するための閾値、および関連単語を特定するための閾値として、いずれも偏差値49.0が設定されている場合を例に、話題構成単語群の特定方法について説明する。 A calculation example of the connection strength between two words and a specific example of a topic constituent word group based on the calculation will be described with reference to FIG. In the example shown in FIG. 2, “Japan”, “Political Party”, “National”, “Secret Protection Act”, “Deputy Member”, “Prime Minister”, “Government”, “Politics”, “Opposition”, “Bill” A word is identified as an upper frequent word, and the deviation value of the index value calculated by equation (1) is calculated as the connection strength between the two words. Here, the topic constituent word group specifying method will be described by taking, as an example, a case in which a deviation value 49.0 is set as a threshold for extracting a top frequent word pair and a threshold for specifying a related word. explain.
この図2に示す例においては、2単語間のつながり強度が閾値である49.0以上であって、つながり強度が最も大きい上位頻出単語の組み合わせは、符号2aで示す「政党」と「政権」の組み合わせとなる。制御装置103は、この「政党」と「政権」の組み合わせを1つ目の上位頻出単語ペアとして抽出し、「政党」と「政権」をコア単語として特定する。
In the example shown in FIG. 2, the combination of the top frequent words having the largest connection strength between the two words having a connection strength of 49.0 or more as the threshold is “Political Party” and “Government” indicated by
制御装置103は、コア単語として特定した「政党」と「政権」のそれぞれについて、つながり強度が閾値である49.0以上の関連単語を特定する。図2の例では、「政党」に対しては、つながり強度が55,1である「首相」が関連単語として特定され、「政権」に対しては、つながり強度が55,2である「国民」が関連単語として特定される。制御装置103は、この結果に基づき、「政党」、「政権」、「首相」、「国民」の4つの単語を1組目の話題構成単語群として特定する。
The
次に、既にコア単語、関連単語として特定した「政党」、「政権」、「首相」、「国民」を除いた上位頻出単語のうち、2単語間のつながり強度が閾値である49.0以上であって、つながり強度が最も大きい上位頻出単語の組み合わせは、符号2bで示す「秘密保護法」と「反対」の組み合わせとなる。制御装置103は、この「秘密保護法」と「反対」の組み合わせを2つ目の上位頻出単語ペアとして抽出し、「秘密保護法」と「反対」をコア単語として特定する。
Next, among the top frequent words excluding “Political Party”, “Government”, “Prime Minister”, and “National” that have already been identified as core words and related words, the connection strength between the two words is a threshold value of 49.0 or more The combination of the top frequent words having the highest connection strength is a combination of “secret protection method” and “opposite” indicated by
制御装置103は、コア単語として特定した「秘密保護法」と「反対」のそれぞれについて、既にコア単語として特定した「政党」、「政権」、「秘密保護法」、「反対」を除いた上位頻出単語以外の中から、つながり強度が閾値である49.0以上の関連単語を特定する。図2の例では、「秘密保護法」に対しては、つながり強度が51,3である「首相」と49.0である「法案」が関連単語として特定され、「反対」に対しては、つながり強度が49.8である「国民」と49.3である「法案」が関連単語として特定される。制御装置103は、この結果に基づき、「秘密保護法」、「反対」、「首相」、「法案」、「国民」の5つの単語を2組目の話題構成単語群として特定する。
For each of the “secret protection law” and “opposite” specified as the core word, the
図2に示す例では、この段階で更なる上位頻出単語ペアの抽出ができないため、制御装置103は、話題構成単語群の特定を終了する。これにより、1組目の話題構成単語群により、「政党」、「政権」、「首相」、「国民」の4つの単語が投稿情報に含まれる文章情報で主に話題となっている1つ目の単語群であることが特定される。また、2組目の話題構成単語群により、「秘密保護法」、「反対」、「首相」、「法案」、「国民」の5つの単語が投稿情報に含まれる文章情報で主に話題となっている2つ目の単語群であることが特定される。
In the example illustrated in FIG. 2, since it is not possible to extract a higher-rank frequent word pair at this stage, the
制御装置103は、記録装置104に記録されている投稿情報の中から、上述した処理によって特定した話題構成単語群に含まれるコア単語と関連単語とに基づいて、話題構成単語群に対応する話題にマッチする文章情報を話題文章情報として抽出する。以下、制御装置103によって実行される話題文章情報を抽出するための処理について説明する。
The
制御装置103は、話題構成単語群に含まれるコア単語の数と関連単語の数の合計に対する、文章情報に含まれる重複を排除したコア単語の数と関連単語の数の合計の割合を話題構成単語の網羅率として算出する。具体的には、投稿情報に含まれる「秘密保護法が成立した。この法案は国民の多くが反対している」という文章情報と、「秘密保護法には反対だ。これだけ多くの国民が判定しているのに可決されるのはおかしい。もっと国民の意見を尊重すべきだ。」という文章情報を例に、網羅率の算出例について説明する。
The
1組目の話題構成単語群についてみると、「秘密保護法が成立した。この法案は国民の多くが反対している」という文章情報には、「政党」、「政権」、「首相」、「国民」の4つの単語のうち「国民」が1つ含まれる。この場合、1/4=0.25となり、網羅率は25%と算出される。また、「秘密保護法には反対だ。これだけ多くの国民が判定しているのに可決されるのはおかしい。もっと国民の意見を尊重すべきだ。」という文章情報には、「国民」が2つ含まれる。この場合、「国民」は重複しているため、重複を排除して1つとし、1/4=0.25となり、網羅率は25%と算出される。 Looking at the first group of topical word groups, the text information that “the secret protection law was enacted. Many of the citizens are against this bill” includes “party”, “government”, “prime”, Of the four words “national”, one “national” is included. In this case, 1/4 = 0.25, and the coverage rate is calculated as 25%. In addition, in the text information that says, “We are against the confidentiality protection law. It is strange that many people judge it. It is strange that we should respect the opinions of the people.” Two are included. In this case, since “National” is duplicated, the number of duplicates is eliminated to be one, 1/4 = 0.25, and the coverage rate is calculated as 25%.
次に2組目の話題構成単語群についてみると、「秘密保護法が成立した。この法案は国民の多くが反対している」という文章情報には、「秘密保護法」、「反対」、「首相」、「法案」、「国民」の5つの単語のうち「秘密保護法」、「反対」、「法案」、「国民」の4つが各1つずつ含まれる。この場合、4/5=0.8となり、網羅率は80%と算出される。また、「秘密保護法には反対だ。これだけ多くの国民が判定しているのに可決されるのはおかしい。もっと国民の意見を尊重すべきだ。」という文章情報には、「秘密保護法」、「反対」が各1つずつ含まれ、「国民」が2つ含まれる。この場合、「国民」は重複しているため、重複を排除して1つとし、3/5=0.6となり、網羅率は60%と算出される。 Next, looking at the second set of topical word groups, the text information that “the secret protection law was enacted. Many of the citizens are against this bill” includes “secret protection law”, “opposition” Of the five words "Prime Minister", "Bill", and "National", each of the four words "Secret Protection Law", "Opposite", "Bill", and "National" is included. In this case, 4/5 = 0.8, and the coverage rate is calculated as 80%. In addition, the text information that says, “I am against the Secret Protection Law. It is strange that many people have judged it. It should be passed. ”And“ opposite ”are included one by one, and two“ nationals ”are included. In this case, since “National” is duplicated, the number of duplicates is eliminated to be one, 3/5 = 0.6, and the coverage rate is calculated as 60%.
制御装置103は、また、話題構成単語群に含まれるコア単語と関連単語のうちの少なくとも1つの単語を含む文章情報を対象として、以下に示すように各文章情報にスコア付けを行う。本実施の形態では、制御装置103は、各文章情報を対象として単語頻度スコア、名詞含有率スコア、ひらがな含有率スコアの3つのスコアを算出し、これら3つのスコアに基づいて文章情報にスコア付けを行う。
The
まず、単語頻度スコアの算出方法について説明する。制御装置103は、投稿情報内の話題構成単語群に含まれるコア単語と関連単語のうちの少なくとも1つの単語を含む文章情報を対象文章情報として、上述した処理と同様に、対象文章情報から名詞、形容詞、形容動詞を抽出し、抽出した単語の中から非自立語、数字1文字、アルファベット1文字を除去した後の単語について、全ての対象文章情報に含まれる各単語の出現頻度を算出し、出願頻度が高い単語ほど重みが高くなるように、各単語に対して重み値を設定する。制御装置103は、対象文章情報のそれぞれについて、各対象文章情報に含まれる単語に設定された重み値を加算することによって単語頻度スコアを算出する。
First, a method for calculating a word frequency score will be described. The
次に、名詞含有率スコアについて説明する。制御装置103は、対象文章情報のそれぞれについて、各対象文章情報に含まれる単語の数と、各対象文章情報に含まれる名詞の数とに基づいて、次式(2)により各対象文章情報の名詞含有率を算出する。
名詞含有率=名詞の数/全単語数 ・・・(2)
制御装置103は、次式(3)に示すように、式(2)で算出した名刺含有率の逆数を名詞含有率スコアとして算出する。
名詞含有率スコア=1/名詞含有率 ・・・(3)
Next, the noun content rate score will be described. Based on the number of words included in each target sentence information and the number of nouns included in each target sentence information, the
Noun content rate = number of nouns / total number of words (2)
As shown in the following equation (3), the
Noun content score = 1 / Noun content rate (3)
次に、ひらがな含有率スコアについて説明する。制御装置103は、対象文章情報のそれぞれについて、各対象文章情報に含まれる文字数と、各対象文章情報に含まれるひらがなの数とに基づいて、次式(4)により各対象文章情報のひらがな含有率スコアを算出する。
ひらがな含有率スコア=ひらがなの文字数/全文字数 ・・・(4)
Next, the hiragana content rate score will be described. For each target sentence information, the
Hiragana content score = Hiragana character count / total character count (4)
制御装置103は、上述した処理で算出した単語頻度スコア、名詞含有率スコア、ひらがな含有率スコアに基づいて、次式(5)により各文章情報のスコアScore(di)を算出する。なお、次式(5)において、Scorefreq(di)は単語頻度スコアを示す変数であり、Scorenoun(di)は名詞含有率スコアを示す変数であり、Scorehira(di)はひらがな含有率スコアを示す変数である。また、α、β、γは、それぞれ混合比であり、ここではα=β=γ=1/3として、単語頻度スコア、名詞含有率スコア、ひらがな含有率スコアを同じ比率で掛けあわせることとする。
Score(di)=Scorefreq(di)α・Scorenoun(di)β・Scorehira(di)γ ・・・(5)
Based on the word frequency score, the noun content rate score, and the hiragana content rate score calculated in the above-described processing, the
Score (di) = Score freq (di) α · Score noun (di) β · Score hira (di) γ (5)
制御装置103は、上述した網羅率とスコアとに基づいて、それぞれの話題構成単語群ごとに、その話題構成単語群が表す話題にマッチした文章情報を投稿情報から抽出する。なお、ここでの文章情報の抽出数はあらかじめ設定されており、例えば、各話題構成単語群ごとに3つずつの文章情報を抽出するものとする。
Based on the above-described coverage rate and score, the
投稿情報からそれぞれの話題構成単語群が表す話題にマッチした文章情報を抽出するために、制御装置103は、まず網羅率があらかじめ設定された閾値よりも高い文章情報を抽出数を満たすように抽出する。この段階で、設定された抽出数分の文章情報が抽出できた場合には、抽出を完了する。
In order to extract sentence information matching the topic represented by each topic constituent word group from the posted information, the
制御装置103は、抽出した文章情報が設定された抽出数を満たない場合には、さらに式(5)により算出したスコアがあらかじめ設定された閾値よりも高い文章情報を抽出数を満たすように抽出する。
When the extracted text information does not satisfy the set number of extractions, the
制御装置103は、それぞれの話題構成単語群ごとに、網羅率とスコアとに基づいて文章情報を抽出した場合には、話題構成単語群ごとに、抽出した話題文章情報を一覧表示した話題文章抽出結果情報を生成する。話題文章抽出結果情報は、例えば、図3に示すように、話題構成単語群に含まれる各単語を列挙した上で、これらの単語によって表される話題に沿った文章情報として抽出した話題文章情報を表示したテキストファイルとして生成される。図3においては、1つ目の話題(話題1)として、政党/政権/首相/国民の話題構成単語群が列挙され、その下に話題1にマッチする3つの話題文章情報が表示されている。また、2つ目の話題(話題2)として、秘密保護法/反対/首相/法案/国民の話題構成単語群が列挙され、その下に話題2にマッチする3つの話題文章情報が表示されている例を示している。なお、制御装置103は、話題構成単語群を抽出できない場合や、網羅率とスコアとに基づく文章情報を1件も抽出できないときは、投稿情報には主な話題が存在しなかったことを示すテキストメッセージを表示して、話題文章抽出結果情報を生成すればよい。
When the sentence information is extracted based on the coverage rate and the score for each topic constituent word group, the
上述した処理によって生成された話題文章抽出結果情報を、現在、どのような話題が投稿されているかを把握したい企業や人物に対して提供するようにすれば、本実施の形態における話題特定装置100で生成した話題文章抽出結果情報を有効に活用することができる。また、制御装置103は、所定時間間隔で話題文章抽出結果情報を作成して、あらかじめ登録されているメールアドレスに対して送信するようにすれば、常に、どのような話題が投稿されているかに関する最新の情報を希望者に配信することができる。
If the topic sentence extraction result information generated by the above-described processing is provided to a company or person who wants to know what topic is currently posted, the
図4は、本実施の形態における話題特定装置100で実行される処理の流れを示すフローチャートである。図4に示す処理は、話題文章抽出結果情報の作成タイミングになると起動するプログラムとして、制御装置103によって実行される。なお、図4に示す処理において、上述した投稿情報のフィルタリング処理は既に完了しており、記録装置104には、フィルタリング後の投稿情報が記録されているものとする。
FIG. 4 is a flowchart showing a flow of processing executed by the
ステップS10において、制御装置103は、投稿情報に含まれる文章情報を対象として、形態素解析処理を行い、投稿情報から名詞、形容詞、形容動詞を抽出し、さらに上述した除去対象語を除去して処理対象とする単語を抽出する。その後、ステップS20へ進む。
In step S10, the
ステップS20では、制御装置103は、投稿情報から抽出した各単語の出現頻度を算出し、出現頻度が上位の10件を上位頻出単語として特定する。その後、ステップS30へ進む。
In step S <b> 20, the
ステップS30では、制御装置103は、ステップS20で特定した上位頻出単語のそれぞれについて、上位頻出単語に含まれる他の単語との間のつながりの強さを示す2単語間のつながり強度を算出する。その後、ステップS40へ進む。
In step S30, the
ステップS40では、制御装置103は、2単語間のつながり強度があらかじめ設定された閾値以上の上位頻出単語の組み合わせを、上位頻出単語ペアとして抽出する。その後、ステップS50へ進む。
In step S40, the
ステップS50では、制御装置103は、ステップS40で抽出した上位頻出単語ペアのうち、つながり強度が最も大きい上位頻出単語ペアを構成する2つの単語をコア単語として特定するとともに、特定した2つのコア単語のそれぞれについて、つながり強度が所定の閾値以上の上位頻出単語を、コア単語に関連する関連単語として特定して、特定した2つのコア単語と、それらに関連する関連単語とを、話題を構成する1組の話題構成単語群として特定する。その後、ステップS60へ進む。
In step S50, the
ステップS60では、制御装置103は、上述したように、既にコア単語として特定した上位頻出単語を除いて、さらに上位頻出単語ペアが特定できるか否かを判定する。ステップS60で肯定判断した場合には、ステップS40へ戻る。これに対して、ステップS60で否定判断した場合には、ステップS70へ進む。
In step S60, as described above, the
ステップS70では、制御装置103は、上述したように、話題構成単語群ごとに、話題構成単語群に含まれるコア単語の数と関連単語の数の合計に対する、文章情報に含まれる重複を排除したコア単語の数と関連単語の数の合計の割合を話題構成単語の網羅率として算出する。その後、ステップS80へ進む。
In step S70, as described above, for each topic constituent word group, the
ステップS80では、制御装置103は、上述したように、話題構成単語群ごとに、話題構成単語群に含まれるコア単語と関連単語のうちの少なくとも1つの単語を含む文章情報を対象として、単語頻度スコア、名詞含有率スコア、ひらがな含有率スコアを算出し、式(5)により各文章情報のスコアScore(di)を算出する。その後、ステップS90へ進む。
In step S80, as described above, for each topic constituent word group, the
ステップS90では、制御装置103は、上述したように、算出した網羅率とスコアとに基づいて、それぞれの話題構成単語群ごとに、その話題構成単語群が表す話題にマッチした文章情報を投稿情報から抽出する。その後、ステップS100へ進む。
In step S90, as described above, the
ステップS100では、制御装置103は、話題構成単語群ごとに、抽出した話題文章情報を一覧表示した話題文章抽出結果情報を生成して、記録装置104に記録する。その後、処理を終了する。
In step S <b> 100, the
以上説明した本実施の形態によれば、以下のような作用効果を得ることができる。
(1)制御装置103は、ユーザによって投稿された文章情報を蓄積した投稿情報を取得し、取得した投稿情報を解析して投稿情報に含まれる単語を抽出し、抽出した各単語に対して、投稿情報内における出現頻度を算出し、算出した各単語ごとの出現頻度に基づいて、出現頻度が上位となるあらかじめ設定された所定数の単語を上位頻出単語として特定するようにした。そして、制御装置103は、特定した上位頻出単語のそれぞれについて、上位頻出単語に含まれる他の単語との間のつながりの強さを示す2単語間のつながり強度を算出し、算出したつながり強度があらかじめ設定された所定の閾値以上の上位頻出単語の組み合わせを、上位頻出単語ペアとして抽出し、抽出した上位頻出単語ペアのうち、つながり強度が最も大きい上位頻出単語ペアを構成する2つの単語をコア単語として特定し、特定した2つのコア単語のそれぞれについて、つながり強度が所定の閾値以上の上位頻出単語をコア単語に関連する関連単語として特定し、特定した2つのコア単語と関連単語とを、話題を構成する1組の話題構成単語群として特定するようにした。これによって、ユーザによって投稿された文章情報に含まれる複数の単語のつながり強度を加味して、精度高く、ユーザが投稿した主な話題を特定するための単語を抽出することができる。
According to the present embodiment described above, the following operational effects can be obtained.
(1) The
(2)制御装置103は、既にコア単語、関連単語として特定された単語を除いて、残った上位頻出単語ペアのうち、つながり強度が最も大きい上位頻出単語ペアを構成する2つの単語をコア単語として特定し、これをコア単語を特定可能な上位頻出単語ペアがなくなるまで繰り返すようにした。これによって、投稿情報に複数の話題に関する文章情報が含まれている場合に、それら複数の話題に対して、それぞれコア単語を特定することができる。
(2) The
(3)制御装置103は、既にコア単語として特定されたコア単語を除いた上位頻出単語の中から関連単語を特定するようにした。これによって、既にコア単語として特定された上位頻出単語が、他の話題の関連単語として重複して特定されることを防ぐことができる。
(3) The
(4)制御装置103は、投稿情報に含まれる名詞、形容詞、形容動詞を選択して投稿情報から単語を抽出するようにした。これによって、話題を構成する可能性が高い品詞の単語に限定して、話題構成単語群の特定を行うことができる。
(4) The
(5)制御装置103は、投稿情報から名詞、形容詞、形容動詞を抽出した上で、抽出した単語の中から非自立語、数字1文字、アルファベット1文字を除去対象語として特定して除去するようにした。これによって、処理対象とする単語を話題を構成する可能性が高い単語に絞り込んで、話題を構成する単語の抽出精度を向上させることができる。また、処理対象とする単語を絞り込むことで、制御装置103の処理負荷を低減させるとともに、処理速度を向上させることができる。
(5) The
(6)制御装置103は、特定した話題構成単語群に含まれるコア単語と関連単語とに基づいて、投稿情報の中から、話題構成単語群に対応する話題にマッチする文章情報を話題文章情報として抽出するようにした。これによって、ユーザによって投稿された文章情報の中から、多くのユーザが投稿した主な話題にマッチする文章情報を特定することができる。
(6) Based on the core word and the related word included in the identified topic constituent word group, the
(7)制御装置103は、話題構成単語群に含まれるコア単語の数と関連単語の数の合計に対する、文章情報に含まれる重複を排除したコア単語の数と関連単語の数の合計の割合を話題構成単語の網羅率として算出し、網羅率が高い所定数の文章情報を話題文章情報として抽出するようにした。これによって、文章中におけるコア単語と関連単語の網羅率が高い文章情報は、より話題構成単語群によって表される話題を反映した文章情報であることを加味して、投稿情報の中から、多くのユーザが投稿した主な話題にマッチする文章情報を精度高く抽出することができる。
(7) The
(8)制御装置103は、話題構成単語群に含まれるコア単語と関連単語のうちの少なくとも1つの単語を含む文章情報を対象文章情報とし、対象文章情報に含まれる各単語の出現頻度に基づいて、各単語に対して重み値を設定し、対象文章情報に含まれる単語に設定された重み値を加算することによって単語頻度スコアを算出し、対象文章情報に含まれる単語の数に対する対象文章情報に含まれる名詞の数に基づいて、対象文章情報における名詞含有率スコアを算出し、対象文章情報に含まれる文字数に対する対象文章情報に含まれるひらがなの数に基づいて、対象文章情報におけるひらがな含有率スコアを算出し、単語頻度スコア、名詞含有率スコア、ひらがな含有率スコアに基づいてスコアを算出し、スコアが高い所定数の文章情報を話題文章情報として抽出するようにした。これによって、文章内における単語の出現頻度に基づく重み付け、文章内における名詞の含有率、文章内におけるひらがなの含有率を加味して、主な話題にマッチする文章情報の抽出精度を向上させることができる。
(8) The
(9)制御装置103は、対象文章情報に含まれる名詞、形容詞、形容動詞から非自立語、数字1文字、アルファベット1文字を除去した後の単語を対象として、単語頻度スコアを算出するようにした。これによって、話題を構成する可能性が高い品詞の単語に限定して、単語頻度スコアを算出することができる。また、単語頻度スコアの算出対象とする単語を絞り込むことで、制御装置103の処理負荷を低減させるとともに、処理速度を向上させることができる。
(9) The
(10)制御装置103は、話題構成単語群ごとに、話題文章情報を一覧表示した話題文章抽出結果情報を生成して、記録装置104に記録するようにした。これによって、話題構成単語群ごとに、それらの単語群に基づいて特定される話題に沿ったものとして、どのような文章情報が投稿されているかを一覧表示して記録することができる。
(10) The
(11)制御装置103は、投稿情報から話題構成単語群の特定に必要のない文章情報を除去するためのフィルタリング処理を実行し、フィルタリング後の投稿情報を対象として話題構成単語群を特定するようにした。このように、あらかじめ投稿情報から話題構成単語群の特定に必要のない文章情報を除去しておくことにより、話題構成単語群の特定精度を向上させることができる。
(11) The
―変形例―
なお、上述した実施の形態の話題特定装置100は、以下のように変形することもできる。
(1)上述した実施の形態では、制御装置103は、外部サーバから取得した投稿情報に対してフィルタリング処理を実行し、投稿内容がニュースであるもの、広告であるもの、リツイートされたもの、機械的に大量に投稿されたもの(bot)、話題特定目的に適さないもの、内容が他の文章と重複するもの、ひらがな率が所定値以下であるものを不要な文章情報として除去する例について説明した。しかしながら、これらのフィルタリング処理による除去対象は一例であって、話題構成単語群の特定に必要のない文章情報として、その他の文章情報も存在する場合には、それらもフィルタリング処理の対象とすればよい。
-Modification-
Note that the
(1) In the above-described embodiment, the
(2)上述した実施の形態では、制御装置103は、投稿情報から話題構成単語群の特定に必要のない文章情報を除去するためのフィルタリング処理を実行し、フィルタリング後の投稿情報を対象として話題構成単語群を特定する例について説明した。しかしながら、フィルタリング処理を行わずに、外部サーバから取得した投稿情報をそのまま用いて話題構成単語群を特定するようにしてもよい。
(2) In embodiment mentioned above, the
(3)上述した実施の形態では、制御御装置103は、投稿情報から抽出した各単語の出現頻度を算出し、出現頻度が上位のものから10件を上位頻出単語として特定する例について説明した。しかしながら、上位頻出単語の特定件数は10件に限定されず、この件数は話題特定装置100の運営者が任意に変更できるようにしてもよい。
(3) In the above-described embodiment, the
(4)上述した実施の形態では、制御装置103は、式(1)により算出した45通りの指標値R(A,B)を偏差値に変換することによって、2単語間のつながり強度を算出する例について説明した。しかしながら、式(1)により算出した指標値R(A,B)をそのまま2単語間のつながり強度として用いてもよいし、式(1)により算出した指標値R(A,B)に対して、偏差値以外の評価値を算出して、その算出結果を2単語間のつながり強度として用いてもよい。
(4) In the embodiment described above, the
(5)上述した実施の形態では、上位頻出単語ペアを抽出するための偏差値の閾値、および関連単語を抽出するための偏差値の閾値は、いずれも49.0である例について説明した。しかしながら、この閾値は、49.0に限定されるものではなく、実験結果や運用結果に基づいて、上位頻出単語ペアや関連単語の抽出精度を上げるための閾値が見つかった場合には、その数値を閾値として設定すればよい。また、上位頻出単語ペアを抽出するための偏差値の閾値と関連単語を抽出するための偏差値の閾値は、共通の値であってもよいし、それぞれ個別に設定できるようにしてもよい。 (5) In the above-described embodiment, the example in which the threshold value of the deviation value for extracting the upper frequent word pair and the threshold value of the deviation value for extracting the related word is 49.0 has been described. However, this threshold value is not limited to 49.0. If a threshold value for improving the extraction accuracy of upper frequent word pairs and related words is found based on experimental results and operation results, the numerical value is used. May be set as a threshold value. Further, the threshold value of the deviation value for extracting the top frequent word pairs and the threshold value of the deviation value for extracting the related word may be a common value or may be set individually.
(6)上述した実施の形態では、制御装置103は、網羅率とスコアとに基づいて、それぞれの話題構成単語群ごとに、その話題構成単語群が表す話題にマッチした文章情報を投稿情報から抽出する例について説明した。しかしながら、制御装置103は、網羅率とスコアのいずれか一方のみに基づいて、それぞれの話題構成単語群ごとに、その話題構成単語群が表す話題にマッチした文章情報を投稿情報から抽出するようにしてもよい。
(6) In the above-described embodiment, the
(7)上述した実施の形態では、制御装置103は、投稿情報に含まれる文章情報を対象として形態素解析処理を行い、投稿情報から名詞、形容詞、形容動詞を抽出した上で、抽出した単語の中から非自立語、数字1文字、アルファベット1文字を除去対象語として特定して除去することにより、話題構成単語を特定するための処理で処理対象とする単語を抽出するようにした。また、制御装置103は、単語頻度スコアを算出するに当たって、投稿情報内の話題構成単語群に含まれるコア単語と関連単語のうちの少なくとも1つの単語を含む文章情報を対象文章情報として、対象文章情報から名詞、形容詞、形容動詞を抽出し、抽出した単語の中から非自立語、数字1文字、アルファベット1文字を除去した後の単語を対象として、全ての対象文章情報に含まれる各単語の出現頻度を算出するようにした。しかしながら、制御装置103は、これらの処理において、名詞、形容詞、形容動詞のみを抽出するのみで、抽出した単語の中から非自立語、数字1文字、アルファベット1文字を除去する処理は行わなくてもよい。
(7) In embodiment mentioned above, the
なお、本発明の特徴的な機能を損なわない限り、本発明は、上述した実施の形態における構成に何ら限定されない。また、上述の実施の形態と複数の変形例を組み合わせた構成としてもよい。 Note that the present invention is not limited to the configurations in the above-described embodiments as long as the characteristic functions of the present invention are not impaired. Moreover, it is good also as a structure which combined the above-mentioned embodiment and a some modification.
100 話題特定装置
101 操作部材
102 接続IF
103 制御装置
104 記録装置
100
103
Claims (24)
前記投稿情報取得手段によって取得された前記投稿情報を解析して、前記投稿情報に含まれる単語を抽出する単語抽出手段と、
前記単語抽出手段によって抽出された各単語に対して、前記投稿情報内における出現頻度を算出する出現頻度算出手段と、
前記出現頻度算出手段によって算出された各単語ごとの出現頻度に基づいて、前記出現頻度が上位となるあらかじめ設定された所定数の単語を上位頻出単語として特定する上位頻出単語特定手段と、
前記上位頻出単語特定手段によって特定された前記上位頻出単語のそれぞれについて、前記上位頻出単語に含まれる他の単語との間のつながりの強さを示す2単語間のつながり強度を算出するつながり強度算出手段と、
前記つながり強度算出手段によって算出された前記つながり強度があらかじめ設定された所定の閾値以上の上位頻出単語の組み合わせを、上位頻出単語ペアとして抽出する上位頻出単語ペア抽出手段と、
前記上位頻出単語ペア抽出手段によって抽出された前記上位頻出単語ペアのうち、前記つながり強度が最も大きい前記上位頻出単語ペアを構成する2つの単語を、前記投稿情報に含まれる話題を構成するコアとなる単語(以下「コア単語」と呼ぶ)として特定するコア単語特定手段と、
前記コア単語特定手段によって特定された2つの前記コア単語のそれぞれについて、前記つながり強度算出手段で算出された前記つながり強度が所定の閾値以上の前記上位頻出単語を前記コア単語に関連する関連単語として特定する関連単語特定手段と、
前記コア単語特定手段によって特定された2つの前記コア単語と、前記関連単語特定手段によって特定された前記関連単語とを、前記話題を構成する1組の話題構成単語群として特定する話題構成単語群特定手段とを備えることを特徴とする話題特定装置。 Post information acquisition means for acquiring post information accumulating text information posted by the user;
Analyzing the posted information acquired by the posted information acquiring means, and extracting a word included in the posted information;
Appearance frequency calculating means for calculating the appearance frequency in the posted information for each word extracted by the word extracting means;
Based on the appearance frequency for each word calculated by the appearance frequency calculation means, a high-frequency word specifying means for specifying a predetermined number of words having a high appearance frequency as a high-frequency word;
For each of the top frequent words specified by the top frequent word specifying means, a connection strength calculation that calculates the strength of the connection between two words indicating the strength of the connection with the other words included in the top frequent words. Means,
Upper frequent word pair extraction means for extracting a combination of upper frequent words having a connection strength calculated by the connection strength calculation means equal to or higher than a predetermined threshold value as a higher frequent word pair;
Of the top frequent word pairs extracted by the top frequent word pair extraction means, two words constituting the top frequent word pair having the largest connection strength, a core constituting a topic included in the post information, and Core word specifying means for specifying as a word (hereinafter referred to as “core word”),
For each of the two core words specified by the core word specifying means, the higher-order frequent word whose connection strength calculated by the connection strength calculation means is equal to or higher than a predetermined threshold is used as a related word related to the core word. Related word identification means to identify;
Topic constituent word group for specifying the two core words specified by the core word specifying means and the related word specified by the related word specifying means as a set of topic constituent word groups constituting the topic A topic specifying device comprising: a specifying unit.
前記コア単語特定手段は、既に前記コア単語または前記関連単語として特定された単語を含む前記上位頻出単語ペアを除いて、残った前記上位頻出単語ペアのうち、前記つながり強度が最も大きい上位頻出単語ペアを構成する2つの単語を、前記コア単語として特定し、これを前記コア単語を特定可能な前記上位頻出単語ペアがなくなるまで繰り返すことを特徴とする話題特定装置。 In the topic identification device according to claim 1,
The core word specifying means excludes the upper frequent word pair that already includes the core word or the word identified as the related word, and among the remaining upper frequent word pairs, the upper frequent word having the highest connection strength 2. A topic identification device characterized in that two words constituting a pair are identified as the core word, and this is repeated until there is no higher frequent word pair that can identify the core word.
前記関連単語特定手段は、既に前記コア単語として特定された単語を除いた前記上位頻出単語の中から前記関連単語を特定することを特徴とする話題特定装置。 In the topic identification device according to claim 2,
The related word specifying means specifies the related word from the upper frequent words excluding the word already specified as the core word.
前記単語抽出手段は、前記投稿情報に含まれる名詞、形容詞、形容動詞を選択して前記投稿情報から単語を抽出することを特徴とする話題特定装置。 In the topic specific device according to any one of claims 1 to 3,
The topic identifying device, wherein the word extracting unit selects a noun, an adjective, and an adjective verb included in the posted information and extracts a word from the posted information.
前記単語抽出手段は、前記投稿情報から抽出した単語から非自立語、数字1文字、アルファベット1文字を除去することを特徴とする話題特定装置。 In the topic identification device according to claim 4,
The topic identifying device, wherein the word extracting means removes a non-independent word, a single character, and a single alphabet from the word extracted from the posted information.
前記投稿情報の中から、前記話題構成単語群特定手段によって特定された前記話題構成単語群に含まれる前記コア単語と前記関連単語とに基づいて、前記話題構成単語群に対応する前記話題にマッチする文章情報を話題文章情報として抽出する話題文章情報抽出手段をさらに備えることを特徴とする話題特定装置。 In the topic identification device according to any one of claims 1 to 5,
Matches the topic corresponding to the topic constituent word group based on the core word and the related word included in the topic constituent word group specified by the topic constituent word group specifying unit from the posted information. A topic identification device further comprising topic sentence information extraction means for extracting sentence information to be extracted as topic sentence information.
前記話題文章情報抽出手段は、前記話題構成単語群特定手段によって特定された前記話題構成単語群に含まれる前記コア単語の数と前記関連単語の数の合計に対する、前記文章情報に含まれる重複を排除した前記コア単語の数と前記関連単語の数の合計の割合を話題構成単語の網羅率として算出し、前記網羅率が高い所定数の前記文章情報を前記話題文章情報として抽出することを特徴とする話題特定装置。 In the topic identification device according to claim 6,
The topic sentence information extraction unit is configured to detect the overlap included in the sentence information with respect to the total number of the core words and the number of related words included in the topic component word group specified by the topic component word group specifying unit. A ratio of the total number of the excluded core words and related words is calculated as a coverage rate of topic constituent words, and a predetermined number of the sentence information having a high coverage rate is extracted as the topic sentence information. Topic identification device.
前記話題文章情報抽出手段は、前記話題構成単語群特定手段によって特定された前記話題構成単語群に含まれる前記コア単語と前記関連単語のうちの少なくとも1つの単語を含む文章情報を対象文章情報とし、前記対象文章情報に含まれる各単語の出現頻度に基づいて、各単語に対して重み値を設定し、前記対象文章情報に含まれる単語に設定された重み値を加算することによって単語頻度スコアを算出し、前記対象文章情報に含まれる単語の数に対する前記対象文章情報に含まれる名詞の数に基づいて、前記対象文章情報における名詞含有率スコアを算出し、前記対象文章情報に含まれる文字数に対する前記対象文章情報に含まれるひらがなの数に基づいて、前記対象文章情報におけるひらがな含有率スコアを算出し、前記単語頻度スコア、前記名詞含有率スコア、前記ひらがな含有率スコアに基づいて文章情報抽出用スコアを算出し、前記文章情報抽出用スコアが高い所定数の前記文章情報を前記話題文章情報として抽出することを特徴とする話題特定装置。 In the topic identification device according to claim 6 or 7,
The topic sentence information extracting means uses sentence information including at least one of the core word and the related word included in the topic constituent word group specified by the topic constituent word group specifying means as target sentence information. Based on the appearance frequency of each word included in the target sentence information, a word frequency score is set by setting a weight value for each word and adding the weight value set for the word included in the target sentence information. The noun content rate score in the target sentence information is calculated based on the number of nouns included in the target sentence information with respect to the number of words included in the target sentence information, and the number of characters included in the target sentence information Hiragana content rate score in the target sentence information is calculated based on the number of hiragana included in the target sentence information for the word sentence score A sentence information extraction score is calculated based on the noun content ratio score and the hiragana content ratio score, and a predetermined number of the sentence information having a high sentence information extraction score is extracted as the topic sentence information. Topic identification device.
前記話題文章情報抽出手段は、前記対象文章情報に含まれる名詞、形容詞、形容動詞を対象として、前記単語頻度スコアを算出することを特徴とする話題特定装置。 In the topic identification device according to claim 8,
The topic identifying device, wherein the topic sentence information extracting means calculates the word frequency score for nouns, adjectives and adjective verbs included in the target sentence information.
前記話題文章情報抽出手段は、前記対象文章情報に含まれる名詞、形容詞、形容動詞から非自立語、数字1文字、アルファベット1文字を除去した後に、前記単語頻度スコアを算出することを特徴とする話題特定装置。 In the topic identification device according to claim 9,
The topic sentence information extracting unit calculates the word frequency score after removing non-independent words, one number character, and one alphabetic character from nouns, adjectives and adjective verbs included in the target sentence information. Topic identification device.
前記話題構成単語群特定手段によって特定された前記話題構成単語群ごとに、前記話題文章情報抽出手段によって抽出された前記話題文章情報を一覧表示した話題文章抽出結果情報を生成する話題文章抽出結果情報生成手段と、
前記話題文章抽出結果情報生成手段によって生成された前記話題文章抽出結果情報を記録装置に記録する話題文章抽出結果情報記録手段をさらに備えることを特徴とする話題特定装置。 In the topic specific device according to any one of claims 6 to 10,
Topic sentence extraction result information for generating topic sentence extraction result information displaying a list of the topic sentence information extracted by the topic sentence information extracting means for each topic constituent word group specified by the topic constituent word group specifying means Generating means;
A topic identifying device further comprising topic sentence extraction result information recording means for recording the topic sentence extraction result information generated by the topic sentence extraction result information generating means in a recording device.
前記投稿情報から前記話題構成単語群の特定に必要のない前記文章情報を除去するためのフィルタリング処理を実行するフィルタリング手段をさらに備えることを特徴とする話題特定装置。 In the topic specific device according to any one of claims 1 to 11,
A topic identification device further comprising filtering means for performing a filtering process for removing the sentence information that is not necessary for identifying the topic constituent word group from the posted information.
前記投稿情報取得手順で取得した前記投稿情報を解析して、前記投稿情報に含まれる単語を抽出する単語抽出手順と、
前記単語抽出手順で抽出した各単語に対して、前記投稿情報内における出現頻度を算出する出現頻度算出手順と、
前記出現頻度算出手順で算出した各単語ごとの出現頻度に基づいて、前記出現頻度が上位となるあらかじめ設定された所定数の単語を上位頻出単語として特定する上位頻出単語特定手順と、
前記上位頻出単語特定手順で特定した前記上位頻出単語のそれぞれについて、前記上位頻出単語に含まれる他の単語との間のつながりの強さを示す2単語間のつながり強度を算出するつながり強度算出手順と、
前記つながり強度算出手順で算出した前記つながり強度があらかじめ設定された所定の閾値以上の上位頻出単語の組み合わせを、上位頻出単語ペアとして抽出する上位頻出単語ペア抽出手順と、
前記上位頻出単語ペア抽出手順で抽出した前記上位頻出単語ペアのうち、前記つながり強度が最も大きい前記上位頻出単語ペアを構成する2つの単語を、前記投稿情報に含まれる話題を構成するコアとなる単語(以下「コア単語」と呼ぶ)として特定するコア単語特定手順と、
前記コア単語特定手順で特定した2つの前記コア単語のそれぞれについて、前記つながり強度算出手順で算出した前記つながり強度が所定の閾値以上の前記上位頻出単語を前記コア単語に関連する関連単語として特定する関連単語特定手順と、
前記コア単語特定手順で特定した2つの前記コア単語と、前記関連単語特定手順で特定した前記関連単語とを、前記話題を構成する1組の話題構成単語群として特定する話題構成単語群特定手順とをコンピュータに実行させるための話題特定方法。 Post information acquisition procedure for acquiring post information that accumulates text information posted by the user,
Analyzing the posting information acquired in the posting information acquisition procedure, and extracting a word included in the posting information;
For each word extracted in the word extraction procedure, an appearance frequency calculation procedure for calculating an appearance frequency in the post information;
Based on the appearance frequency for each word calculated in the appearance frequency calculation procedure, an upper frequent word identification procedure that identifies a predetermined number of words that are higher in appearance frequency as upper frequent words,
For each of the top frequent words identified in the top frequent word identification procedure, a connection strength calculation procedure for calculating a connection strength between two words indicating the strength of the connection with other words included in the top frequent words When,
An upper frequent word pair extraction procedure for extracting a combination of upper frequent words having a connection strength calculated in the connection strength calculation procedure equal to or higher than a predetermined threshold value as a higher frequent word pair;
Of the top frequent word pairs extracted in the top frequent word pair extraction procedure, the two words constituting the top frequent word pair having the largest connection strength serve as the core constituting the topic included in the posted information. A core word identification procedure for identifying as a word (hereinafter referred to as a “core word”);
For each of the two core words specified by the core word specifying procedure, the upper frequent words having the connection strength calculated by the connection strength calculation procedure equal to or higher than a predetermined threshold are specified as related words related to the core word. Related word identification procedure,
Topic constituent word group specifying procedure for specifying the two core words specified by the core word specifying procedure and the related word specified by the related word specifying procedure as a set of topic constituent word groups constituting the topic Topic identification method to make computer execute.
前記コア単語特定手順は、既に前記コア単語または前記関連単語として特定された単語を含む前記上位頻出単語ペアを除いて、残った前記上位頻出単語ペアのうち、前記つながり強度が最も大きい上位頻出単語ペアを構成する2つの単語を、前記コア単語として特定し、これを前記コア単語を特定可能な前記上位頻出単語ペアがなくなるまで繰り返すことを特徴とする話題特定方法。 In the topic identification method according to claim 13,
In the core word specifying procedure, the top frequent words having the highest connection strength among the remaining top frequent word pairs, excluding the top frequent word pairs that already include the core word or the words identified as the related words. 2. A topic identification method characterized in that two words constituting a pair are identified as the core word, and this is repeated until there is no higher frequent word pair that can identify the core word.
前記関連単語特定手順は、既に前記コア単語として特定された単語を除いた前記上位頻出単語の中から前記関連単語を特定することを特徴とする話題特定方法。 In the topic identification method of Claim 14,
In the related word specifying procedure, the related word is specified from the upper frequent words excluding the word already specified as the core word.
前記単語抽出手順は、前記投稿情報に含まれる名詞、形容詞、形容動詞を選択して前記投稿情報から単語を抽出することを特徴とする話題特定方法。 In the topic specific method as described in any one of Claims 13-15,
In the word extracting procedure, a noun, an adjective, and an adjective verb included in the posted information are selected and a word is extracted from the posted information.
前記単語抽出手順は、前記投稿情報から抽出した単語から非自立語、数字1文字、アルファベット1文字を除去することを特徴とする話題特定方法。 The topic identification method according to claim 16,
The word identifying procedure includes removing a non-independent word, a single numeral, and a single alphabet from a word extracted from the posted information.
前記投稿情報の中から、前記話題構成単語群特定手順で特定した前記話題構成単語群に含まれる前記コア単語と前記関連単語とに基づいて、前記話題構成単語群に対応する前記話題にマッチする文章情報を話題文章情報として抽出する話題文章情報抽出手順をさらに有することを特徴とする話題特定方法。 In the topic identification method as described in any one of Claims 13-17,
Matches the topic corresponding to the topic constituent word group based on the core word and the related word included in the topic constituent word group specified by the topic constituent word group specifying procedure from the posted information. A topic identification method further comprising a topic sentence information extraction procedure for extracting sentence information as topic sentence information.
前記話題文章情報抽出手順は、前記話題構成単語群特定手順で特定した前記話題構成単語群に含まれる前記コア単語の数と前記関連単語の数の合計に対する、前記文章情報に含まれる重複を排除した前記コア単語の数と前記関連単語の数の合計の割合を話題構成単語の網羅率として算出し、前記網羅率が高い所定数の前記文章情報を前記話題文章情報として抽出することを特徴とする話題特定方法。 The topic identification method according to claim 18,
The topic sentence information extraction procedure excludes duplication included in the sentence information with respect to the total number of the core words and related words included in the topic constituent word group specified in the topic constituent word group specifying procedure. Calculating a ratio of the total number of the core words and the number of related words as a coverage rate of topic constituent words, and extracting a predetermined number of the sentence information having a high coverage rate as the topic sentence information, Topic identification method.
前記話題文章情報抽出手順は、前記話題構成単語群特定手順で特定した前記話題構成単語群に含まれる前記コア単語と前記関連単語のうちの少なくとも1つの単語を含む文章情報を対象文章情報とし、前記対象文章情報に含まれる各単語の出現頻度に基づいて、各単語に対して重み値を設定し、前記対象文章情報に含まれる単語に設定された重み値を加算することによって単語頻度スコアを算出し、前記対象文章情報に含まれる単語の数に対する前記対象文章情報に含まれる名詞の数に基づいて、前記対象文章情報における名詞含有率スコアを算出し、前記対象文章情報に含まれる文字数に対する前記対象文章情報に含まれるひらがなの数に基づいて、前記対象文章情報におけるひらがな含有率スコアを算出し、前記単語頻度スコア、前記名詞含有率スコア、前記ひらがな含有率スコアに基づいて文章情報抽出用スコアを算出し、前記文章情報抽出用スコアが高い所定数の前記文章情報を前記話題文章情報として抽出することを特徴とする話題特定方法。 In the topic identification method according to claim 18 or 19,
The topic sentence information extraction procedure uses sentence information including at least one of the core word and the related word included in the topic constituent word group specified in the topic constituent word group specifying procedure as target sentence information, Based on the appearance frequency of each word included in the target sentence information, a weight value is set for each word, and a word frequency score is obtained by adding the weight value set to the word included in the target sentence information. Calculating, based on the number of nouns included in the target sentence information relative to the number of words included in the target sentence information, calculating a noun content rate score in the target sentence information, and for the number of characters included in the target sentence information Based on the number of hiragana included in the target sentence information, the hiragana content rate score in the target sentence information is calculated, the word frequency score, the name Topic specification characterized in that a sentence information extraction score is calculated based on a content ratio score and the hiragana content ratio score, and a predetermined number of the sentence information having a high sentence information extraction score is extracted as the topic sentence information Method.
前記話題文章情報抽出手順は、前記対象文章情報に含まれる名詞、形容詞、形容動詞を対象として、前記単語頻度スコアを算出することを特徴とする話題特定方法。 In the topic identification method according to claim 20,
The topic sentence information extraction procedure calculates the word frequency score for nouns, adjectives and adjective verbs included in the target sentence information.
前記話題文章情報抽出手順は、前記対象文章情報に含まれる名詞、形容詞、形容動詞から非自立語、数字1文字、アルファベット1文字を除去した後に、前記単語頻度スコアを算出することを特徴とする話題特定方法。 In the topic identification method according to claim 21,
The topic sentence information extraction procedure calculates the word frequency score after removing non-independent words, one number character, and one alphabetic character from nouns, adjectives, and adjective verbs included in the target sentence information. Topic identification method.
前記話題構成単語群特定手順で特定した前記話題構成単語群ごとに、前記話題文章情報抽出手順で抽出した前記話題文章情報を一覧表示した話題文章抽出結果情報を生成する話題文章抽出結果情報生成手順と、
前記話題文章抽出結果情報生成手順で生成した前記話題文章抽出結果情報を記録装置に記録する話題文章抽出結果情報記録手順をさらに有することを特徴とする話題特定方法。 In the topic specific method as described in any one of Claims 18-22,
A topic sentence extraction result information generation procedure for generating topic sentence extraction result information that lists the topic sentence information extracted in the topic sentence information extraction procedure for each topic constituent word group specified in the topic composition word group specification procedure When,
A topic identification method further comprising a topic sentence extraction result information recording procedure for recording the topic sentence extraction result information generated in the topic sentence extraction result information generation procedure in a recording device.
前記投稿情報から前記話題構成単語群の特定に必要のない前記文章情報を除去するためのフィルタリング処理を実行するフィルタリング手順をさらに有することを特徴とする話題特定方法。 In the topic identification method as described in any one of Claims 13-23,
A topic identification method further comprising a filtering procedure for performing filtering processing for removing the sentence information that is not necessary for identifying the topic constituent word group from the posted information.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014042168A JP6279354B2 (en) | 2014-03-04 | 2014-03-04 | Topic identification device and topic identification method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014042168A JP6279354B2 (en) | 2014-03-04 | 2014-03-04 | Topic identification device and topic identification method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015169969A JP2015169969A (en) | 2015-09-28 |
JP6279354B2 true JP6279354B2 (en) | 2018-02-14 |
Family
ID=54202696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014042168A Active JP6279354B2 (en) | 2014-03-04 | 2014-03-04 | Topic identification device and topic identification method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6279354B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106708880B (en) * | 2015-11-16 | 2020-05-22 | 北京国双科技有限公司 | Topic associated word acquisition method and device |
JP6529133B2 (en) * | 2016-01-29 | 2019-06-12 | Kddi株式会社 | Apparatus, program and method for analyzing the evaluation of topics in multiple regions |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005141428A (en) * | 2003-11-05 | 2005-06-02 | Nippon Telegr & Teleph Corp <Ntt> | Word string extracting method and device, and recording medium with word string extracting program recorded |
JP5884740B2 (en) * | 2011-02-15 | 2016-03-15 | 日本電気株式会社 | Time-series document summarization apparatus, time-series document summarization method, and time-series document summarization program |
JP5295295B2 (en) * | 2011-03-14 | 2013-09-18 | ヤフー株式会社 | Analysis apparatus and method |
-
2014
- 2014-03-04 JP JP2014042168A patent/JP6279354B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015169969A (en) | 2015-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107437038B (en) | Webpage tampering detection method and device | |
US9471644B2 (en) | Method and system for scoring texts | |
US9063983B1 (en) | Detecting name-triggering queries | |
US8676795B1 (en) | Dynamic visual representation of phrases | |
EP2896162B1 (en) | Determining additional information associated with geographic location information | |
CN104346396B (en) | Data processing method, device, terminal and system for instant messaging client | |
JP5930217B2 (en) | Method for detecting expressions that can be dangerous expressions depending on a specific theme, electronic device for detecting the expressions, and program for the electronic device | |
CN102682120B (en) | Method and device for acquiring essential article commented on network | |
CN102542063B (en) | Content filtering method, device and system | |
US8965867B2 (en) | Measuring and altering topic influence on edited and unedited media | |
US20130024389A1 (en) | Method and apparatus for extracting business-centric information from a social media outlet | |
JP6048977B2 (en) | Site summary method, site summary system, information processing apparatus, and program | |
CN109840300A (en) | Internet public opinion analysis method, apparatus, equipment and computer readable storage medium | |
JP6279354B2 (en) | Topic identification device and topic identification method | |
JP6036331B2 (en) | Management method, management device, and management program | |
JPWO2016121127A1 (en) | Data evaluation system, data evaluation method, and data evaluation program | |
JP2020129239A (en) | Post Analysis System, Post Analysis Device, and Post Analysis Method | |
JP2017091436A (en) | Feature word selection device | |
JP3227155U (en) | Message filtering system for filtering and managing user-generated text content on social networks | |
Ahmed et al. | Information network analysis to understand the evolution of online social networking sites in the context of India, Pakistan, and Bangladesh | |
JP6059683B2 (en) | Local topic word extraction device, local topic word extraction method, and local topic word extraction program | |
Sharma et al. | Extraction, summariz ation and sentiment analysis of trending topics on twitter | |
KR101523746B1 (en) | Method for providing a map based on sensitivity information | |
US20230004619A1 (en) | Providing smart web links | |
JP2011118797A (en) | Mobile cgm analysis system, method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170223 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171220 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6279354 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |