JP2006172424A - Information processor and information processing method - Google Patents
Information processor and information processing method Download PDFInfo
- Publication number
- JP2006172424A JP2006172424A JP2005238599A JP2005238599A JP2006172424A JP 2006172424 A JP2006172424 A JP 2006172424A JP 2005238599 A JP2005238599 A JP 2005238599A JP 2005238599 A JP2005238599 A JP 2005238599A JP 2006172424 A JP2006172424 A JP 2006172424A
- Authority
- JP
- Japan
- Prior art keywords
- topic
- message
- time
- word
- messages
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、掲示板システムやチャットシステムなどのコミュニケーションシステムに係る情報処理装置および情報処理方法に関する。 The present invention relates to an information processing apparatus and an information processing method related to a communication system such as a bulletin board system and a chat system.
掲示板システムやチャットシステムにおいては、頻繁にアクセスしたくなる、利用者を引き付けるコミュニケーションの場の作成が求められている。利用者をコミュニケーションの場に引き付けるには、有益な情報や新しい話題、娯楽性に富んだ面白いメッセージのやりとりなどがその場で発生することが必要である。 In bulletin board systems and chat systems, it is required to create a place for communication that attracts users who want to access frequently. In order to attract users to the place of communication, useful information, new topics, and exchanges of interesting and entertaining messages need to occur on the spot.
上記有益な情報等を場に発生させるには、同じ興味をもつ利用者のメッセージが流れるチャネルへ、興味を同じくする多くの利用者を呼び込むことが重要である。なぜなら情報源を多様にでき、人々による日々の情報発見による多くの新しい情報の提供やさまざまな解決案の提案、いろいろな観点からの議論や会話の合いの手などが発生するからである。 In order to generate the above-mentioned useful information in the field, it is important to attract many users who have the same interest in the channel through which messages of users having the same interest flow. This is because information sources can be diversified, and many new information is provided by people's daily discovery of information, proposals for various solutions, discussions and conversations from various viewpoints, etc. occur.
チャネルへ利用者を呼び込む従来の技術として、非特許文献1に参照される技術が知られている。この技術は各チャネルに対して、そのチャネルの中から話題を選択し、そのチャネルの話題として利用者へ提示する。
As a conventional technique for attracting a user to a channel, a technique referred to Non-Patent
具体的には用意された品詞のパタンにマッチする語の列を話題とみなしてチャネル内のメッセージから抜きだす。たとえば、用意するパタンは名詞の連続や名詞間が「の」でつながる文字列等、利用者の興味を引くパタンである。そして、それら抜き出した話題に対して目新しくそのチャネルの最新のメッセージの付近でより密に発生しているほど高いスコアを付与し、スコアの高いものを選択する。 Specifically, a sequence of words that match the prepared part-of-speech pattern is regarded as a topic and extracted from the message in the channel. For example, the prepared pattern is a pattern that attracts the user's interest, such as a string of nouns or a character string in which nouns are connected by “no”. Then, a higher score is given to the extracted topic as it is generated more closely in the vicinity of the latest message of the channel, and a higher score is selected.
この手法は、抜き出した話題の中から目新しくて最新のメッセージの付近でより密に発生しているものを順に選択することにより、そのチャネルの利用者間の流行の兆しとなる話題や現在利用者間で興味が強まっている話題等、利用者にとって有用かつ新鮮で複数の他の利用者と話しができ、かつ表現的に利用者の興味を引くチャネル内の話題を利用者に提示できるため、各チャネルへの利用者の呼び込みに優れている。
上述した従来技術においては、チャネル毎にそのチャネルの最新メッセージを基準として話題のスコアを求めるため、チャネル間で話題の比較ができない。そのため、以下の解決すべき課題を有する。 In the above-described prior art, topic scores are obtained for each channel based on the latest message of the channel, and thus it is not possible to compare topics between channels. Therefore, it has the following problems to be solved.
たとえば、一カ月間新しいメッセージが発生していないチャネルの話題と現在新しいメッセージが続々と発生しているチャネルの話題が同じスコアとなることがある。そのため、一カ月前に行なわれたコンサートの前売り券の入手の仕方等、情報が古くなっていて役に立たない話題をもつチャネルや、最近誰もそのチャネルにメッセージを流していない寂れて他の利用者と話しができないチャネルへの利用者を導いてしまっていた。 For example, the topic of a channel for which a new message has not occurred for a month and the topic of a channel for which new messages are continuously generated may have the same score. Therefore, channels with topics that are out of date and useless, such as how to obtain advance tickets for concerts held a month ago, and other users who have not sent messages to those channels recently. Led users to channels that could not talk to.
また、メッセージの発生間隔が短いチャネルの話題と発生間隔が長いチャネルの話題が同じスコアになる場合がある。たとえば、数分間で数十メッセージが発生するチャネルの中で発生した話題と1日1メッセージ程度しか発生しないチャネルの中で発生した話題は、発生パタン(たとえば、最新のメッセージが同じ投稿時刻の2つのチャネルにおいて、最新の3メッセージのみに初めて同じ話題が現れるパタン)が同じであれば同じスコアとなる。そのため、なかなかメッセージが発生せず、レスポンスに時間がかかるチャネルへ利用者を誘導してしまっていた。
Further, the topic of a channel with a short message generation interval and the topic of a channel with a long generation interval may have the same score. For example, a topic generated in a channel in which several tens of messages are generated in a few minutes and a topic generated in a channel in which only about one message is generated per day are represented by occurrence patterns (for example, the latest message has the
本発明は、上記の課題に鑑みてなされたもので、その目的とするところは、各チャネルの各話題に対して目新しく最近密に発生しているものほど高い値となるチャネル間で比較可能なスコア付けを行うことが可能であり、更には逐次メッセージが追加される場合においても高速にそれら処理を行う情報処理装置および情報処理方法を提供することにある。 The present invention has been made in view of the above-mentioned problems, and the object of the present invention is to compare between channels that have higher values as newer and more recent occurrences for each topic of each channel. An object of the present invention is to provide an information processing apparatus and an information processing method that can perform scoring and that perform such processing at high speed even when messages are sequentially added.
課題を解決するために、請求項1に記載の本発明は、時刻が関連づけされているメッセージを保持するメッセージ保持部と、前記メッセージ保持部に保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各話題に対して指定された時刻を基準としたスコアを求めるスコア計算部と、を有し、前記スコア計算部は、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求める。
In order to solve the problem, the present invention according to
このような請求項1においては、情報処理装置にメッセージ保持部とスコア計算部を設け、前記メッセージ保持部は時刻が関連づけされているメッセージを保持し、前記スコア計算部は、前記メッセージ保持部に保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、各メッセージの各話題に対して指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求める。
In such a
スコア計算部が、各メッセージの各話題に対して指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求めることにより、チャネル間でスコア計算の基準点を同一にし、かつ、メッセージ間隔をチャネル間で共通のスケールで計ることができるため、チャネル間で比較可能なスコアを求めることが可能となる。 The score calculation unit has a difference between the time specified for each topic of each message and the time associated with the message as a denominator component, and the associated time is newer than the message and the topic is selected. By calculating the density of the topic using an expression having the number of messages to be included in the numerator component, and obtaining the representative value of the density as the topic score for each topic, the score calculation reference point is made the same between channels. In addition, since the message interval can be measured on a common scale between channels, it is possible to obtain a score that can be compared between channels.
また、請求項2に記載の本発明は、時刻が関連づけられているメッセージを保持するメッセージ保持部と、前記メッセージ保持部に保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各メッセージの各話題に対して、当該メッセージに関連づけられている時刻および関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を関連づけるインデックス作成部と、前記インデックス作成部の結果を保持するインデックス保持部と、前記インデックス保持部で保持されている話題に対して指定された時刻を基準としたスコアを求めるスコア計算部と、を有し、前記スコア計算部は、前記インデックス保持部を参照し、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求める。 According to a second aspect of the present invention, there is provided a message holding unit that holds a message associated with a time, and each message held in the message holding unit is divided into words. A sequence of words that match a predetermined pattern from the sequence is extracted as a topic from each message, and for each topic of each message, the time associated with the message and the associated time are extracted from the message. An index creating unit associating the number of new messages including the topic, an index holding unit holding the result of the index creating unit, and a time specified for the topic held in the index holding unit as a reference A score calculation unit for obtaining a score obtained by the score calculation unit, For each topic of each message, the difference between the specified time and the time associated with the message has a denominator component, and the associated time is newer than the message and includes the topic The density of the topic is obtained using an expression having the number of messages as a component of the numerator, and a representative value of the density is obtained as a topic score for each topic.
このような請求項2においては、情報処理装置にメッセージ保持部とインデックス作成部とインデックス保持部とスコア計算部を設け、前記メッセージ保持は時刻が関連づけられているメッセージを保持し、前記インデックス作成部は前記メッセージ保持部に保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各メッセージの各話題に対して、当該メッセージに関連づけられている時刻および関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を関連づけ、前記インデックス保持部は前記インデックス作成部の結果を保持し、前記スコア計算部は、前記インデックス保持部を参照し、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求める。 In such a second aspect, the information processing apparatus includes a message holding unit, an index creating unit, an index holding unit, and a score calculating unit, wherein the message holding holds a message associated with a time, and the index creating unit Divides each message held in the message holding unit into words, extracts a word string that matches a predetermined pattern from the divided word strings as a topic from each message, For each topic, the time associated with the message and the number of messages whose associated time is newer than the message and includes the topic, the index holding unit holds the result of the index creating unit , The score calculation unit refers to the index holding unit, and each message For each topic, the difference between the specified time and the time associated with the message is a denominator component, and the number of messages with the associated time that is newer than the message and includes the topic The density of the topic is obtained using an expression of the component, and the representative value of the density is obtained as the topic score for each topic.
インデックス作成部が話題や話題のスコアの計算に利用する値を求め、インデックス保持部がインデックス作成部が求めたものを記憶することにより、時刻が指定される都度それら値を求める処理は不要となる。更に、スコア計算部が、前記インデックス保持を参照し、各メッセージの各話題に対して指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求めることにより、チャネル間でスコア計算の基準点を同一にし、かつ、メッセージ間隔をチャネル間で共通のスケールで計ることができる。以上より、チャネル間で比較可能なスコアを時刻の指定に応じて高速に求めることが可能となる。 The index creation unit obtains the values used for calculating the topic and the topic score, and the index holding unit stores the values obtained by the index creation unit, so that the process of obtaining these values each time the time is specified becomes unnecessary. . Further, the score calculation unit refers to the index holding, and uses the difference between the time specified for each topic of each message and the time associated with the message as a denominator component, and the associated time By calculating the density of the topic using an equation having the number of messages that are newer than the message and including the topic as a component of the numerator, and obtaining a representative value of the density as a topic score for each topic, The same score calculation reference point and the message interval can be measured on a common scale between channels. As described above, a score that can be compared between channels can be obtained at high speed according to the designation of time.
また、請求項3に記載の本発明は、関連づけられている時刻が新しい順に最大N件のメッセージにおける各メッセージの各話題に対する話題情報を保持し、前記話題情報は当該話題と当該メッセージに関連づけられている時刻および関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を含むことを特徴とするインデックス保持部と、時刻が関連づけられているメッセージが入力されると、前記入力されたメッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を話題として抽出し、前記抽出された各話題に対して、前記インデックス保持部に保持されている当該話題と一致する話題を有する話題情報の前記メッセージの数を1増加させ、あるいは、前記入力されたメッセージに関連づけられている時刻と、前記関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を0とした話題情報を作成し、前記インデックス保持部に追加し、前記追加処理の前で前記インデックス保持部にメッセージ数N件に対する話題情報が保持されている場合は、関連づけられている時刻が最も古いメッセージから生成された話題情報を削除するインデックス更新部と、前記インデックス保持部で保持されている話題に対して指定された時刻を基準としたスコアを求めるスコア計算部と、を有し、前記スコア計算部は、前記インデックス保持部を参照し、各メッセージの各話題に対して指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求める。 Further, the present invention according to claim 3 holds topic information for each topic of each message in a maximum of N messages in ascending order of associated time, and the topic information is associated with the topic and the message. An index holding unit characterized in that it includes the number of messages that are newer than the message and include the topic, and the message associated with the time is input. The message is divided into words, a word sequence that matches a predetermined pattern is extracted as a topic from the divided word sequence, and the extracted topic is held in the index holding unit. The number of the topic information having a topic that matches the topic that is being increased by 1 or the input A topic information in which the number of messages associated with a message and the number of messages including the topic are newer than the message and the associated time is created, added to the index holding unit, When topic information for N messages is stored in the index storage unit before, an index update unit that deletes topic information generated from a message with the oldest associated time, and the index storage unit A score calculation unit that obtains a score based on a specified time for a topic that is held, the score calculation unit refers to the index holding unit, and for each topic of each message The difference between the specified time and the time associated with the message is related to the denominator component. That time obtains the density of the topics using the equation with the number of messages to the components of the molecules comprising the new and the topic from the message, it obtains a representative value of the density for each topic as a score of the topic.
このような請求項3においては、情報処理装置にインデックス保持部とインデックス更新部とスコア計算部を設け、前記インデックス保持部は、関連づけられている時刻が新しい順に最大N件のメッセージにおける各メッセージの各話題に対する当該メッセージに関連づけられている時刻および関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を示す話題情報を保持し、前記インデックス更新部はメッセージが入力されると、前記入力されたメッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を話題として抽出し、前記抽出された各話題に対して、前記インデックス保持部に保持されている当該話題と一致する話題を有する話題情報の前記メッセージの数を1増加させ、また、前記入力されたメッセージに関連づけられている時刻、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を0とした話題情報を作成し、前記インデックス保持部に追加し、前記追加処理の前で前記インデックス保持部にメッセージ数N件に対する話題情報が保持されている場合は、関連づけられている時刻が最も古いメッセージから生成された話題情報を削除し、前記スコア計算部は、前記インデックス保持部を参照し、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求める。 In such a third aspect, the information processing apparatus is provided with an index holding unit, an index updating unit, and a score calculation unit, and the index holding unit is configured to store each message in a maximum of N messages in ascending order of associated time. The topic associated with the message for each topic and the associated time is newer than the message and holds topic information indicating the number of messages including the topic, and the index update unit receives a message, The input message is divided into words, a word sequence that matches a predetermined pattern is extracted as a topic from the divided word sequence, and the index holding unit for each extracted topic The number of messages of topic information having a topic that matches the topic held in And generating topic information in which the time associated with the input message, the associated time is newer than the message and the number of messages including the topic is zero, and the index holding unit And when topic information for N messages is held in the index holding unit before the adding process, the topic information generated from the message with the oldest associated time is deleted, and the score The calculation unit refers to the index holding unit, and uses the difference between the designated time and the time associated with the message for each topic of each message as a denominator component, and the associated time is The topic using an expression that has the number of messages that are newer than the message and include the topic as a component of the numerator Calculated density, obtaining the representative value of the density as a score of the topic for each topic.
インデックス保持部が話題や話題のスコアの計算に利用する値を保持し、インデックス更新部がメッセージが入力されると、前記入力されたメッセージを語に分割し、前記分割されたメッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を話題として抽出し、前記抽出された各話題に対して、前記インデックス保持部に保持されている当該話題と一致する話題を有する話題情報の前記メッセージの数を1増加させ、また、前記入力されたメッセージに関連づけられている時刻、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を0とした話題情報を作成し、前記インデックス保持部に追加し、前記追加処理の前で前記インデックス保持部にメッセージ数N件に対する話題情報が保持されている場合は、関連づけられている時刻が最も古いメッセージから生成された話題情報を削除することにより、メッセージ追加時に話題や話題のスコアの計算に必要となる情報全てを求めず、メッセージの追加により影響がでる範囲のみ情報を求めるので、話題や話題のスコア計算に利用する値を高速に求めることができる。 The index holding unit holds values used for calculating topics and topic scores, and when the index update unit receives a message, the input message is divided into words, and the divided message is divided into words. Then, a word sequence that matches a predetermined pattern is extracted as a topic from the divided word sequence, and the extracted topic matches the topic held in the index holding unit. The number of messages of topic information having a topic to be increased by one, and the time associated with the input message, the number of messages associated with the topic that is newer than the message and includes the topic Topic information is created, added to the index holding unit, and the number of messages in the index holding unit is set to N before the adding process. If the topic information is stored, the topic information generated from the message with the oldest associated time is deleted, so that all the information necessary for calculating the topic and topic score when adding a message is obtained. First, information is obtained only in a range that is affected by the addition of a message, so that a topic or a value used for topic score calculation can be obtained at high speed.
インデックス保持部が話題や話題のスコアの計算に利用する値を保持することにより、時刻が指定される都度、話題やスコアを求めるのに利用する値を求める処理が不要となる。スコア計算部が、前記インデックス保持を参照し、各メッセージの各話題に対して指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求めることにより、チャネル間でスコア計算の基準点を同一にし、かつ、メッセージ間隔をチャネル間で共通のスケールで計ることができる。以上より、逐次メッセージが追加される場合においても時刻の指定に応じて高速にチャネル間で比較可能なスコアを求めることが可能となる。 By holding the value used by the index holding unit for calculating the topic or topic score, the process for obtaining the value used for obtaining the topic or score each time is specified becomes unnecessary. The score calculation unit refers to the index holding, and uses the difference between the time specified for each topic of each message and the time associated with the message as a denominator component, and the associated time is Score between channels by calculating the density of the topic using an equation with the number of messages that are newer than the message and including the topic as a component of the numerator, and obtaining the representative value of the density as the topic score for each topic. The calculation reference point is the same, and the message interval can be measured on a common scale between channels. As described above, even when messages are sequentially added, it is possible to obtain a score that can be compared between channels at high speed according to the designation of time.
また、請求項4に記載の本発明は、時刻が関連づけされているメッセージを保持するメッセージ保持部と、前記メッセージ保持部に保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各話題に対して指定された時刻を基準としたスコアを求めるスコア計算部を有し、前記スコア計算部は、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求める。 According to a fourth aspect of the present invention, there is provided a message holding unit for holding a message associated with a time, and dividing each message held in the message holding unit into words. A score calculation unit that extracts a sequence of words that match a pattern given in advance from the sequence as a topic from each message, and obtains a score based on a time specified for each topic, the score calculation unit Is the difference between the specified time for each topic of each message and the time associated with the message as a denominator component, and the time associated with each word constituting the topic Finds the value of the topic using an expression having the number of messages that are newer than the message and include the word as a component of the numerator, and the representative value of the value for each topic is the topic score. And determined.
このような請求項4においては、請求項1においてスコア計算部の代わりに、各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、各メッセージの各話題に対して指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を分子の構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求めるスコア計算部を設ける。発明4のスコア計算部で、話題のスコアを当該話題が出現したメッセージより新しい時刻が関連づけられているメッセージにおいて、当該話題を構成する各語の当該語が含まれるメッセージ数を用いて求めることにより、話題が出願した後、省略形のように話題の部分文字列として表されて話題がメッセージの中で完全に同じ形で現れないメッセージに対しても話題のスコア付が可能となる。 In such a fourth aspect, instead of the score calculation unit in the first aspect, each message is divided into words, and a string of words that match a pattern given in advance from the divided word string is assigned to each message. As a topic, the difference between the time specified for each topic in each message and the time associated with the message is used as a denominator component, and is associated with each word constituting the topic. A score calculation unit that obtains the value of the topic using an expression having the number of messages that are newer than the message and includes the word as a component of the numerator, and obtains the representative value of the value as the topic score for each topic Is provided. The score calculation unit of the invention 4 obtains the topic score by using the number of messages including the word of each word constituting the topic in a message associated with a newer time than the message in which the topic appears. After a topic is filed, topic scoring is possible even for a message that is expressed as a partial character string of the topic, such as an abbreviation, and the topic does not appear in the exact same form in the message.
また、請求項5に記載の本発明は、時刻が関連づけられているメッセージを保持するメッセージ保持部と、前記メッセージ保持部に保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各メッセージの各話題に対して、当該メッセージに関連づけられている時刻および当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を関連づけるインデックス作成部と、前記インデックス作成部の結果を保持するインデックス保持部と、前記インデックス保持部で保持されている話題に対して指定された時刻を基準としたスコアを求めるスコア計算部と、を有し、前記スコア計算部は、前記インデックス保持部を参照し、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を分子の構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求める。 Further, the present invention according to claim 5, a message holding unit that holds a message associated with time, and each message held in the message holding unit is divided into words, and the divided words A sequence of words that match a pattern given in advance from the sequence is extracted as a topic from each message, and for each topic of each message, the time associated with the message and each word constituting the topic The index creation unit for associating the number of messages whose associated time is newer than the message and includes the word, the index retention unit for retaining the result of the index creation unit, and the index retention unit A score calculation unit that obtains a score based on a time designated for a topic, and the score calculation Refers to the index holding unit, and uses the difference between the specified time and the time associated with the message for each topic of each message as a denominator component, for each word constituting the topic. The value of the topic is obtained by using an expression having a numerator component of the number of messages having a newer time than the message and including the word, and the representative value of the value is set as the topic score for each topic. Ask.
このような請求項5においては、請求項2においてインデックス保持部とインデックス作成部とスコア計算部の代わりに、各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各メッセージの各話題に対して、当該メッセージに関連づけられている時刻および当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を関連づけるインデックス作成部と、前記インデックス作成部の結果を保持するインデックス保持部と、前記インデックス保持部を参照し、前記インデックス保持部で保持されている各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を分子の構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求めるスコア計算部を設ける。発明5のインデックス作成部とインデックス保持部とスコア計算部で、各メッセージの各話題に対する当該話題を当該話題を構成する各語に対して当該語の当該メッセージより関連づけられている時刻が新しくかつ当該語を含むメッセージを含む数を処理し、インデックス保持部にインデックス作成部の結果を保持することにより、話題が出現した後、省略形のように話題の部分文字列として表されて話題がメッセージの中で完全に同じ形では現れないメッセージに対しても高速な話題のスコア付が可能となる。 In such a fifth aspect, instead of the index holding unit, the index creation unit, and the score calculation unit in the second aspect, each message is divided into words, and a pattern given in advance from the divided word sequence is obtained. A string of matching words is extracted as a topic from each message, and for each topic of each message, there is a time associated with the message and a time associated with each word constituting the topic. An index creation unit that associates the number of messages that are newer than the message and include the word, an index storage unit that holds the result of the index creation unit, and the index storage unit, and is held by the index storage unit Each topic of each message is associated with the specified time and the message. Using a formula that has the difference in time as a denominator component, and for each word constituting the topic, the associated time is newer than the message and the number of messages including the word is a numerator component A score calculation unit for obtaining the topic value and obtaining a representative value of the value as a topic score is provided for each topic. In the index creation unit, the index holding unit, and the score calculation unit according to the fifth aspect, the topic associated with each topic of each message is related to each word constituting the topic and the time associated with the message of the word is new and By processing the number of messages containing words and holding the result of the index creation unit in the index holding unit, after the topic appears, the topic is expressed as a substring of the topic as an abbreviation Among them, high-speed topic scoring is possible even for messages that do not appear in exactly the same form.
また、請求項6に記載の本発明は、関連づけられている時刻が新しい順に最大N件のメッセージにおける各メッセージの各話題に対する話題情報を保持し、前記話題情報は当該話題と当該メッセージに関連づけられている時刻および当該話題を構成する語および前記各語の、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を含むことを特徴とするインデックス保持部と、時刻が関連づけられているメッセージが入力されると、前記入力されたメッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を話題として抽出し、前記入力されたメッセージに含まれる前記各語に対して、前記インデックス保持部に保持されている当該語を有する話題情報の当該語の前記メッセージ数を1増加させ、また、前記抽出された各話題に対して、前記入力されたメッセージに関連づけられている時刻と、および当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を0とした話題情報を作成し、前記インデックス保持部に追加し、前記追加処理の前で前記インデックス保持部にメッセージ数N件に対する話題情報が保持されている場合は、関連づけられている時刻が最も古いメッセージから生成された話題情報を削除するインデックス更新部と、前記インデックス保持部で保持されている話題に対して指定された時刻を基準としたスコアを求めるスコア計算部を有し、前記スコア計算部は、前記インデックス保持部を参照し、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を分子の構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求める。 The present invention according to claim 6 holds topic information for each topic of each message in a maximum of N messages in the order of newest associated time, and the topic information is associated with the topic and the message. And an index holding unit characterized in that the time associated with each word includes the number of messages that are newer than the message and include the word. The inputted message is divided into words, a word string that matches a predetermined pattern is extracted as a topic from the divided word string, and the inputted message For each word included in the word, the mem- ber of the word of the topic information having the word held in the index holding unit. The number of sages is increased by 1, and the time associated with the input message for each extracted topic and the time associated with each word constituting the topic are Topic information that is newer than the message and includes 0 messages including the word is created and added to the index holding unit. Before the adding process, topic information for N messages is held in the index holding unit. If the index update unit deletes the topic information generated from the message with the oldest associated time, and the time specified for the topic held in the index holding unit A score calculation unit for obtaining a score, wherein the score calculation unit refers to the index holding unit and applies to each topic of each message; The difference between the specified time and the time associated with the message is a denominator component, and for each word constituting the topic, the associated time is newer than the message and the word The value of the topic is obtained using an expression having the number of messages including “” as a numerator component, and the representative value of the value is obtained as the topic score for each topic.
このような請求項6においては、請求項3においてインデックス保持部とインデックス更新部とスコア計算部の代わりに、関連づけられている時刻が新しい順に最大N件のメッセージにおける各メッセージの各話題に対する話題情報を保持し、前記話題情報は当該話題と当該メッセージに関連づけられている時刻および当該話題を構成する語および前記各語の、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を含むことを特徴とするインデックス保持部と、メッセージが入力されると、前記入力されたメッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を話題として抽出し、前記入力されたメッセージに含まれる前記各語に対して、前記インデックス保持部に保持されている当該語を有する話題情報の当該語の前記メッセージ数を1増加させ、また、前記抽出された各話題に対して、前記入力されたメッセージに関連づけられている時刻、および当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を0とした話題情報を作成し、前記インデックス保持部に追加し、前記追加処理の前で前記インデックス保持部にメッセージ数N件に対する話題情報が保持されている場合は、関連づけられている時刻が最も古いメッセージから生成された話題情報を削除するインデックス更新部と、前記インデックス保持部を参照し、前記インデックス保持部で保持されている各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を分子の構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求めるスコア計算部を設ける。 In such a sixth aspect, instead of the index holding unit, the index update unit, and the score calculation unit in claim 3, the topic information for each topic of each message in the maximum N messages in the order of the associated time. The topic information includes the time associated with the topic and the message, the words constituting the topic, and the number of messages in which the associated time of each word is newer than the message and includes the word. When the message is input, the index holding unit characterized in that the input message is divided into words, and a word string that matches a predetermined pattern from the divided word strings Extracted as a topic, and for each word included in the input message, the index holding unit The number of messages of the word of the topic information having the word held is increased by 1, and the time associated with the input message and the topic are set for each extracted topic. For each constituent word, topic information is created with the associated time being newer than the message and the number of messages including the word is zero, added to the index holding unit, and before the adding process When topic information for N messages is stored in the index storage unit, refer to the index update unit that deletes topic information generated from the message with the oldest associated time, and the index storage unit , The designated time for each topic of each message held in the index holding unit and the message The associated time difference is the denominator component, and for each word constituting the topic, the associated time is newer than the message and the number of messages containing the word is the numerator component. A score calculation unit is provided for obtaining the value of the topic using an equation and obtaining the representative value of the value as the topic score for each topic.
請求項6のインデックス作成部とインデックス保持部とスコア計算部で、各メッセージの各話題に対する当該話題を構成する各語に対して当該語の当該メッセージより関連づけられている時刻が新しくかつ当該語を含むメッセージを含む数を処理し、インデックス更新部がメッセージの追加時にインデックス保持部の情報を全てではなく、1部を更新することにより、話題が出現した後、省略形のように話題の部分文字列として表されて話題がメッセージの中で完全に同じ形では現れず、逐次追加されるメッセージに対しても高速な話題のスコア付が可能となる。 In the index creation unit, the index holding unit, and the score calculation unit according to claim 6, the time associated with the message of the word is new to each word constituting the topic for each topic of each message, and the word is After the topic has appeared by processing the number including the message and the index update unit updates one part instead of all the information in the index holding unit when adding a message, the partial character of the topic like an abbreviation The topics are represented as columns, and the topics do not appear in the same form in the message, and high-speed topic scoring is possible even for messages that are added sequentially.
また、請求項7に記載の本発明は、請求項1〜3のうちのいずれかにおいて、処理するメッセージの中で各話題が出現したメッセージの数を保持する話題出現数保持部を有し、各話題のスコアを前記話題出現保持部の当該話題に対するメッセージの数を分母の構成要素とする式で重みづけして求める。
Further, the present invention described in claim 7 has a topic appearance number holding unit that holds the number of messages in which each topic appears in messages to be processed in any one of
また、請求項8に記載の本発明は、請求項4〜6のうちのいずれかにおいて、処理するメッセージの中で各語が出現したメッセージの数を保持する語出現数保持部を有し、各話題のスコアを、当該話題を構成する各語の関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を前記語出現保持部の当該語に対するメッセージの数を分母の構成要素とする式で重みづけして求める。 Moreover, the present invention according to claim 8 has a word appearance number holding unit for holding the number of messages in which each word appears in the message to be processed in any one of claims 4 to 6, The score of each topic, the time associated with each word constituting the topic is newer than the message and the number of messages including the word is the number of messages for the word in the word appearance holding unit and the denominator component Weighted with the following formula.
このような請求項7、8では、請求項1〜3、また、請求項4〜6のいずれかにおいて、話題出現数保持部や語出現数保持部で処理するメッセージの中で各話題や各話題を構成する各語が出現したメッセージの数を保持し、スコア計算部で各話題のスコアを、当該話題に対する前記メッセージの数を分母の構成要素とする式や当該話題を構成する各語の関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を前記語出現保持部の当該語に対するメッセージの数を分母の構成要素とする式で重みづけして求めることにより、多くのメッセージ話される一般的な話題のスコアを小さくすることができ、珍しい話題を優先することができる。
In such Claims 7 and 8, in any one of
また、請求項9に記載の本発明は、時刻が関連づけされているメッセージを保持する段階と、前記保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各話題に対して指定された時刻を基準としたスコアを求める段階と、を有し、前記スコアを求める段階は、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求める。 According to a ninth aspect of the present invention, there is provided a step of holding a message associated with a time, and dividing each held message into words, which are given in advance from the divided word strings. Extracting a sequence of words that match the pattern from each message as a topic, and obtaining a score based on a time designated for each topic, and obtaining the score includes: For each topic, the difference between the specified time and the time associated with the message is a denominator component, and the number of messages with the associated time that is newer than the message and includes the topic The density of the topic is obtained using an expression of the component, and the representative value of the density is obtained as the topic score for each topic.
また、請求項10に記載の本発明は、時刻が関連づけられているメッセージを保持する段階と、前記保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各メッセージの各話題に対して、当該メッセージに関連づけられている時刻および関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を関連づける段階と、前記関連づけられた結果を保持する段階と、前記保持されている関連づけられた結果中における話題に対して指定された時刻を基準としたスコアを求める段階と、を有し、前記スコアを求める段階は、前記保持されている関連づけられた結果を参照し、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求める。 According to a tenth aspect of the present invention, there is provided a step of holding a message associated with a time, and dividing each of the held messages into words, which are given in advance from the divided word sequence. A string of words matching the pattern is extracted as a topic from each message, and for each topic of each message, the time associated with the message and the associated time are newer than the message and include the topic Associating the number of messages, retaining the associated result, and determining a score based on a specified time for a topic in the retained associated result. Then, the step of obtaining the score refers to the stored associated result and refers to the topic for each topic of each message. The difference between the received time and the time associated with the message is the denominator component, and the associated time is newer than the message and the number of messages containing the topic is the numerator component. Thus, the density of the topic is obtained, and a representative value of the density is obtained as a topic score for each topic.
また、請求項11に記載の本発明は、関連づけられている時刻が新しい順に最大N件のメッセージにおける各メッセージの各話題に対する話題情報を保持する段階を有し、前記話題情報は当該話題と当該メッセージに関連づけられている時刻および関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を含むことを特徴とし、時刻が関連づけられているメッセージが入力されると、前記入力されたメッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を話題として抽出し、前記抽出された各話題に対して、前記保持されている当該話題と一致する話題を有する話題情報の前記メッセージの数を1増加させ、あるいは、前記入力されたメッセージに関連づけられている時刻、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を0とした話題情報を作成し、前記保持されている話題情報へ追加し、前記追加処理の前で前記インデックス保持部にメッセージ数N件に対する話題情報が保持されている場合は、関連づけられている時刻が最も古いメッセージから生成された話題情報を削除する段階と、保持されている話題に対して指定された時刻を基準としたスコアを求める段階を有し、前記スコアを求める段階においては、前記保持されている話題情報を参照し、各メッセージの各話題に対して指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求める。
Further, the present invention according to
また、請求項12に記載の本発明は、時刻が関連づけされているメッセージを保持する段階と、前記保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各話題に対して指定された時刻を基準としたスコアを求める段階を有し、前記スコアを求める段階において、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求める。
The invention according to
また、請求項13に記載の本発明は、時刻が関連づけられているメッセージを保持する段階と、前記保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各メッセージの各話題に対して、当該メッセージに関連づけられている時刻および当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を関連づける段階と、前記関連づけられた結果を保持する段階と、前記保持されている結果中の話題に対して指定された時刻を基準としたスコアを求める段階と、を有し、前記スコアを求める段階において、前記保持されている関連づけられた結果を参照し、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求める。 Further, the present invention according to claim 13 is a step of holding a message associated with a time, and dividing each of the held messages into words, given in advance from the divided word sequence A sequence of words that match the pattern is extracted as a topic from each message, and each topic of the message is associated with the time associated with the message and each word constituting the topic. Associating the number of messages that are newer than the message and containing the word, retaining the associated result, and based on the time specified for the topic in the retained result Obtaining a score, wherein in the step of obtaining the score, each story of each message is referred to with reference to the stored associated result. For each word constituting the topic, the associated time is newer than the message and the difference between the designated time and the time associated with the message is a denominator component. The value of the topic is obtained using an expression having the number of messages including a word as a component, and the representative value of the value is obtained as the topic score for each topic.
また、請求項14に記載の本発明は、関連づけられている時刻が新しい順に最大N件のメッセージにおける各メッセージの各話題に対する話題情報を保持する段階を有し、前記話題情報は当該話題と当該メッセージに関連づけられている時刻および当該話題を構成する語および前記各語の、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を含むことを特徴とし、時刻が関連づけられているメッセージが入力されると、前記入力されたメッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を話題として抽出し、前記入力されたメッセージに含まれる前記各語に対して、前記保持されている当該語を有する話題情報の当該語の前記メッセージ数を1増加させ、また、前記抽出された各話題に対して、前記入力されたメッセージに関連づけられている時刻、および当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を0とした話題情報を作成し、前記話題情報に追加し、前記追加処理の前で前記インデックス保持部にメッセージ数N件に対する話題情報が保持されている場合は、関連づけられている時刻が最も古いメッセージから生成された話題情報を削除する段階と、前記保持されている話題情報の話題に対して指定された時刻を基準としたスコアを求める段階と、を有し、前記スコアを求める段階は、前記保持されている話題情報を参照し、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を分子の構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求める。 Further, the present invention according to claim 14 includes a step of holding topic information for each topic of each message in a maximum of N messages in ascending order of associated time, wherein the topic information includes the topic and the topic The time associated with the message, the words constituting the topic, and the associated time of each word include the number of messages that are newer than the message and include the word. When the message is input, the input message is divided into words, and a word sequence that matches a predetermined pattern is extracted as a topic from the divided word sequence, and the input message is extracted. For each word included, increase the number of messages for the word in the topic information having the held word by one, A message associated with the input message for each extracted topic, and a message associated with each word constituting the topic, the associated time being newer than the message and including the word If the topic information for the number N of messages is held in the index holding unit before the adding process, topic information with 0 as the number of messages is created and added to the topic information. Deleting the topic information generated from the oldest message, and obtaining a score based on the time specified for the topic of the retained topic information, and obtaining the score The step refers to the topic information held and associates the message with the designated time for each topic of each message. Using a formula that has the difference in time as a denominator component, and for each word constituting the topic, the associated time is newer than the message and the number of messages including the word is a numerator component A value of the topic is obtained, and a representative value of the value is obtained as a topic score for each topic.
また、請求項15に記載の本発明は、請求項9〜11のうちのいずれかにおいて、処理するメッセージの中で各話題が出現したメッセージの数を保持する話題出現数を保持する段階を有し、各話題のスコアを前記話題出現保持部の当該話題に対するメッセージの数を分母の構成要素とする式で重みづけして求める。
Further, the present invention according to
また、請求項16に記載の本発明は、請求項12〜14のうちのいずれかにおいて、処理するメッセージの中で各語が出現したメッセージの数を保持する段階を有し、各話題のスコアを、当該話題を構成する各語の関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を前記語出現保持部の当該語に対するメッセージの数を分母の構成要素とする式で重みづけして求める。
Further, the present invention according to claim 16 has the step of holding the number of messages in which each word appears in the message to be processed in any one of
本発明によれば、各チャネルの各話題に対して目新しく最近密に発生しているものほど高い値となるチャネル間で比較可能なスコア付けを行うことが可能であり、更には逐次メッセージが追加される場合においても高速にそれら処理を行う情報処理装置および情報処理方法を提供することができる。 According to the present invention, it is possible to perform scoring that can be compared between channels that have higher values as newer and more recent occurrences for each topic of each channel, and further, sequential messages are added Even in such a case, it is possible to provide an information processing apparatus and an information processing method that perform these processes at high speed.
以下、本発明の実施の形態を図面を用いて説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
<第1の実施の形態>
図1は本発明に係る情報処理装置の第1の実施の形態を示す。図1の情報処理装置1はメッセージ保持部11とスコア計算部12から構成される。
<First Embodiment>
FIG. 1 shows a first embodiment of an information processing apparatus according to the present invention. The
メッセージ保持部11は、時刻が関連づけされているメッセージを保持する。メッセージ保持部11の例を図2に示す。
The
また、図20はスコア計算部12の構成図である。このスコア計算部12は外部より時刻を取得する時刻取得部201と、取得した時刻を記憶する時刻記憶部202と、メッセージに順序を付与するメッセージ順序付与部203と順序が付与されたメッセージを記憶する順序付与済みメッセージ記憶部204と、メッセージを語に分割する語分割装置205と、話題を表すパタンを記憶するパタン記憶部206と、メッセージ群中の各メッセージから話題を抽出し、各メッセージの各話題の当該メッセージより順序が後のメッセージでの参照数を求める話題抽出部207とそれら参照数を記憶する話題カウンタ記憶部208と、話題のスコアを算出するスコア算出部209から構成される。
FIG. 20 is a configuration diagram of the
図3はスコア計算部12の処理フローの例である。以下に処理フローを説明する。
FIG. 3 is an example of a processing flow of the
《スコア計算部処理フロー》
S31順序付与処理(メッセージ順序付与部)
メッセージ保持部に保持されているメッセージを関係づけられている時刻でソートし、時刻が古い順にメッセージ1...メッセージNと順序付けし、前記順序が付与されたメッセージ群を順序付与済みメッセージ記憶部へ出力する。
<Score calculation section processing flow>
S31 order assignment processing (message order assignment section)
The messages held in the message holding unit are sorted according to the associated time, and the messages are assigned in order from oldest time to
S32指定時刻取得処理(時刻取得部)において、入力記憶部より外部より指定された時刻を読み込み、時刻記憶部へ前記時刻を出力する。 In S32 designated time acquisition processing (time acquisition unit), the time specified from the outside is read from the input storage unit, and the time is output to the time storage unit.
S33初期設定処理(話題抽出部)において、
(1)順序付与済みメッセージ記憶部よりメッセージ群を読み込む。
(2)N=前記読み込みメッセージ数とし、処理カウンタi=1とする。
In S33 initial setting process (topic extraction unit),
(1) A message group is read from the order-assigned message storage unit.
(2) N = the number of read messages, and process counter i = 1.
S34話題抽出処理完了判定処理(話題抽出部)において、i > N (全てのメッセージに対して処理完了)ならS37へ処理が進む。
S35話題抽出処理(話題抽出部)において、
(1)メッセージiを語分割装置へ出力し、語skと品詞や辞書登録の有無等の語情報 tk の対[sk, tk]を要素とするリストL=[[s1, t1], [s2, t2], ...](メッセージiの先頭の語から順にs1, s2)を取得する。
(2)パタン記憶部からパタンを読み込み、前記パタンをPとする。
(3)メッセージ内の話題を記憶するためのリストR、話題候補を記憶するための文字列s、語情報文字列を記憶するための文字列tを用意し、R=[]、s=""、t=""とする。
※リストに対する「+」は前のリストの要素を後ろのリストの前方要素として追加する。 (例)[a, b] + [c ]= [a, b, c], [a, b] +[ [c] ]= [a, b, [c]]、[[a, b], [c, d]] + [e] = [[a, b], [c, d], e]
文字列に対する+は前の文字列の終端に後ろの文字列をアペンドする。
(例)"ab" + "c" = "abc"
(4)j = 1
(5) j ≦Lの要素数 でなければS36(1)へ処理が進む。
(6) t = t + tj
(7) t にPにマッチしない部分が存在する場合(9)へ処理が進む。
(8) s = s + sj、 t = t + tj とし、(11)へ処理が進む。
(9) s = ""であれば t = "" として(11)へ処理が進む。
(10)R = R + [s]、 s = ""、 t = ""。
(11) j = j + 1として、(5)へ処理が進む。
In S34 topic extraction process completion determination process (topic extraction unit), if i> N (process complete for all messages), the process proceeds to S37.
In S35 topic extraction processing (topic extraction unit),
(1) The message i is output to the word segmentation device, and the list L = [[s1, t1], [s2] with the pair [sk, tk] of the word information tk such as the word sk and the part of speech or the presence / absence of dictionary registration , t2], ...] (s1, s2 in order from the first word of message i).
(2) A pattern is read from the pattern storage unit, and the pattern is set to P.
(3) A list R for storing topics in a message, a character string s for storing topic candidates, and a character string t for storing word information character strings are prepared, and R = [], s = "", T ="".
* “+” For list adds the element of the previous list as the forward element of the subsequent list. (Example) [a, b] + [c] = [a, b, c], [a, b] + [[c]] = [a, b, [c]], [[a, b], [c, d]] + [e] = [[a, b], [c, d], e]
+ For a character string appends the following character string to the end of the previous character string.
(Example) "ab" + "c" = "abc"
(4) j = 1
(5) If j ≦ L is not satisfied, the process proceeds to S36 (1).
(6) t = t + tj
(7) If there is a part that does not match P in t, the process proceeds to (9).
(8) s = s + sj, t = t + tj, and the process proceeds to (11).
(9) If s = “”, the process proceeds to (11) with t = “”.
(10) R = R + [s], s = “”, t = “”.
(11) As j = j + 1, the process proceeds to (5).
S36話題カウンタ更新処理(話題抽出部)において、
(1)メッセージi中の各話題(Rの要素)に対して値0をもつカウンタと、メッセージiに関連づけられている時刻をもつメッセージi用の話題カウンタを作成し、話題カウンタ記憶部へ出力する。
(2)話題カウンタ記憶部中のメッセージ1〜メッセージi-1用の話題カウンタ
におけるメッセージi中の各話題(Rの要素)の値を読み込み、前記読み込んだ値
それぞれに対して1加算した値を話題カウンタ記憶部に出力する。
(3) i = i + 1 とし、S34へ。
In S36 topic counter update processing (topic extraction unit),
(1) Create a counter with a
(2) Read the value of each topic (R element) in message i in the topic counter for
(3) Set i = i + 1 and go to S34.
S37スコア算出処理(スコア算出部)において、
(1)時刻記憶部から指定時刻を、話題カウンタ記憶部から各メッセージの各話題の値、各メッセージの話題カウンタに関連付けられている時刻をそれぞれ読み込み、各メッセージの各話題に対して、前記話題の値を構成要素にもち、指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもつ式でスコアを求める。
(2)各話題に対してS37の(1)で求めた当該話題のスコアの値の中から代表値を決定し、各話題とその代表値を話題スコア値記憶部へ出力する。
In S37 score calculation processing (score calculation unit),
(1) A specified time is read from the time storage unit, a value of each topic of each message, and a time associated with the topic counter of each message are read from the topic counter storage unit. The score is obtained by an expression having the difference between the designated time and the time associated with the message as the denominator component.
(2) For each topic, a representative value is determined from the score values of the topic obtained in S37 (1), and each topic and its representative value are output to the topic score value storage unit.
S32では、外部よりスコア計算の基準となる時刻Tを指定する。たとえば、「13:50」を指定する。S35(1)では、たとえば形態素解析装置や辞書を用いて辞書に登録されている文字列で区切ることによりメッセージを語に分割する。 In S32, a time T serving as a reference for score calculation is designated from the outside. For example, “13:50” is specified. In S35 (1), for example, the message is divided into words by dividing it with a character string registered in the dictionary using a morphological analyzer or a dictionary.
S35(2)〜(11)では、S35(1)の結果を用いて予め定義されている品詞のパタン(例えば名詞の連続や、名詞と名詞が「の」でつながる文字列を表す正規表現(名詞(の)?)+名詞)や辞書に登録されている文字列の連続や、辞書に登録されている文字が「の」でつながるパタン等にマッチする語の列を話題として抽出する。 In S35 (2) to (11), a part-of-speech pattern that is defined in advance using the result of S35 (1) (for example, a regular expression representing a string of nouns or a string in which nouns are connected by “no”). Noun (no ??) + noun) or a sequence of character strings registered in the dictionary, or a string of words that match a pattern in which the characters registered in the dictionary are connected by "no" are extracted as topics.
図3のS36(1)では以下のカウンタを作成する。 In S36 (1) of FIG. 3, the following counters are created.
[13:40、[[wb、0]、[wd、0]、[we、0]]]
今関連づけられている時刻が「13:40」のメッセージmiにおいて話題wb、wd、weがあった場合、図3のS36(2)では時刻「13:38」が関連づけられているメッセージmi-1用の値0の話題wa、wb、woのカウンタが存在した場合、話題wbのカウンタを1増やし、以下の状態にする。
[13:40, [[w b, 0], [w d, 0], [w e, 0]]]
Topical w b in the message m i of time associated now "13:40", w d, if there is w e, is S36 (2) At time "13:38" in FIG. 3 is associated If there is a counter of topic w a , w b , w o with a value of 0 for message m i−1 , the counter of topic w b is incremented by 1 to the following state.
[13:38、[[wa、0]、[wb、1]、[wo、0]]]
図3のS37(1)のスコア計算部では、メッセージmiの話題wjに対して、前記カウンタCmi,wjを構成要素にもち、指定された前記時刻Tとメッセージmiに関連づけられている時刻tmiの差を分母の構成要素にもつ式で求められる値を用いて、前記話題のスコアscoremi,wjを求める。たとえば、以下の式を用いることができる。
[13:38, [[w a, 0], [w b, 1], [w o, 0]]]
The score calculator of S37 (1) in FIG. 3, with respect to the topic w j of the message m i, the counter C mi, has a component of wj, associated with the specified the time T and the message m i The topic score score mi, wj is obtained by using a value obtained by an expression having a difference of a certain time t mi as a denominator component. For example, the following formula can be used.
scoremi,wj=Cmi,wj/(T−tmi)
1つの話題に対して複数のスコアが求められるので、たとえば、一番古いメッセージのスコアをもってその話題のスコアとしたり、一番高いスコアをその話題のスコアとして採用してもよい(S37(2))。
score mi, wj = C mi, wj / (T-t mi )
Since a plurality of scores are obtained for one topic, for example, the score of the oldest message may be used as the score of the topic, or the highest score may be adopted as the score of the topic (S37 (2)). ).
一番古いメッセージのスコアを採用した場合は、話題が現れてから指定された時刻までの間の話題が出現するメッセージの密度を求めることになるので、スコアの高いものほど話題が出現してから指定されてた時刻までに密に話されているものとなり、盛り上がっている話題として提供することに好適である。 When the score of the oldest message is adopted, since the density of messages in which the topic appears until the specified time after the topic appears, the higher the score, the more the topic appears. It will be spoken closely by the designated time, and is suitable for providing as a hot topic.
また、最大のスコアを選択した場合、指定された時刻を起点として各話題が最も密に現れている区間での密度を求めていることになるので、スコアが高いものを指定された時刻付近で盛り上がっている話題として提供することに好適である。 In addition, when the highest score is selected, the density is calculated in the section where each topic appears most densely starting from the specified time, so the one with the highest score is near the specified time. It is suitable for providing as a hot topic.
なお、スコアは関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数が大きい話題を優先するために、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を表す前記カウンタの値を分子の分母の構成要素とし、話題の新鮮さを減少させるために指定された時刻とメッセージに関連づけられている時刻の差を分母の構成要素にもたせているので、前記メッセージ数を分子の構成要素、前記時刻の差を分母にもつ式であれば、前記式に限定されるものではない。 In order to prioritize a topic whose associated time is newer than the message and has a large number of messages including the topic, the score is the number of messages whose associated time is newer than the message and includes the topic. Since the value of the counter to represent is a component of the denominator of the numerator and the difference between the time specified to reduce the freshness of the topic and the time associated with the message is also given to the component of the denominator, the message The expression is not limited to the above expression as long as the expression has a number as a numerator and the time difference as a denominator.
たとえば、図3の310の時点の各メッセージの各話題のカウンタを以下とする。 For example, the counter of each topic of each message at time 310 in FIG.
m1:[13:38、[[wa、1]、[wb、3]、[wc、1]]]
m2:[13:40、[[wb、2]、[wd、0]、[we、0]]]
m3:[13:48、[[wb、1]、[wc、0]、[wf、1]]]
m4:[13:49、[[wa、0]、[wb、0]、[wf、0]]]
この場合、時刻T=13:50が指定された場合の各メッセージの各話題のスコアは以下のようになる。
m 2: [13:40, [[ w b, 2], [w d, 0], [w e, 0]]]
m 3 : [13:48, [[w b , 1], [w c , 0], [w f , 1]]]
m 4 : [13:49, [[w a , 0], [w b , 0], [w f , 0]]]
In this case, the score of each topic of each message when time T = 13: 50 is designated is as follows.
各話題において最大のスコアを選択した場合、話題のスコアは以下のようになる。 When the maximum score is selected for each topic, the topic score is as follows.
wa=1/12、wb=1/2、wc=1/12、wd=0、we=0、wf=1/2
図3のS37(2)では、上記話題とそのスコアを出力する。
w a = 1/12, w b = 1/2, w c = 1/12, w d = 0, w e = 0, w f = 1/2
In S37 (2) of FIG. 3, the topic and its score are output.
ここで上記メッセージm1〜m4と内容が同じで、それぞれ時刻12:38、12:40、12:48、12:49が関連づけられたメッセージがメッセージ保持部11に保持されている場合、時刻13:50の指定に対する話題のスコアは以下のようになる。
Here, when the messages m 1 to m 4 have the same contents and the messages 12:38, 12:40, 12:48, and 12:49 are associated with each other, the
wa=1/72、wb=3/72、wc=1/72、wd=0、we=0、wf=1/62
また、上記メッセージm1〜m4と内容が同じで、それぞれ時刻13:00、13:10、13:30、13:49が関連づけられたメッセージがメッセージ保持部11に保持されている場合、時刻13:50の指定に対する話題のスコアは以下のようになる。
w a = 1/72, w b = 3/72, w c = 1/72, w d = 0, w e = 0, w f = 1/62
In addition, when the messages m 1 to m 4 have the same contents and the messages 13:00, 13:10, 13:30, and 13:49 are associated with the messages, respectively, The topic scores for the 13:50 designation are:
wa=1/50、wb=3/50、wc=1/50、wd=0、we=0、wf=1/20
このように、本発明の情報処理装置では、同じ内容のメッセージであっても、指定された時刻に近く短い期間にメッセージが発生した場合の話題の方に高いスコアを与えることが可能である。チャネル毎に本発明の情報処理装置を設け、話題のスコアを計算することにより、チャネル相互で比較可能なスコアを話題に付与することが可能となる。
w a = 1/50, w b = 3/50, w c = 1/50, w d = 0, w e = 0, w f = 1/20
As described above, the information processing apparatus according to the present invention can give a higher score to a topic when a message is generated in a short period of time near a designated time even if the messages have the same contents. By providing the information processing apparatus of the present invention for each channel and calculating the topic score, it is possible to give a score that can be compared between channels to the topic.
なお、同一の時刻が関連づけられているメッセージが複数存在する場合は、たとえば、入力順序やメッセージの順序を表す識別子等を用いて、前記メッセージの順序を決定し、単位時間を当該メッセージに関連づけられているメッセージの数で等分した値を当該関連づけられている時刻にメッセージの順序順に逐次加算した値を前記各メッセージに関連づけられている時刻とみなして、スコアを算出すればよい。例えばメッセージ順序付与部において、メッセージに関連付けされている時刻を前記逐次加算した値に置換し、S32〜S37の処理を行うことにより前記スコアの算出は可能である。 When there are a plurality of messages associated with the same time, for example, the order of the messages is determined using an input order or an identifier indicating the order of the messages, and the unit time is associated with the message. A score may be calculated by regarding a value obtained by sequentially adding a value obtained by equally dividing the number of messages in the associated time in order of messages as a time associated with each message. For example, the score can be calculated by replacing the time associated with the message with the sequentially added value in the message order assigning unit and performing the processes of S32 to S37.
<第2の実施の形態>
図4は本発明の係わる情報処理装置の第2の実施の形態を示す。メッセージ保持部は第1の実施の形態のメッセージ保持部と同じである。図21はインデックス作成部41の構成図である。図5はインデックス作成部の処理フローの例である。図間で同じ記号は同じ装置や処理を表す。図5のS51(図21の211)では話題カウンタ記憶部に記憶されている各メッセージの各話題の以下のようなカウンタ情報をインデックス保持部に出力する。
<Second Embodiment>
FIG. 4 shows a second embodiment of the information processing apparatus according to the present invention. The message holding unit is the same as the message holding unit of the first embodiment. FIG. 21 is a configuration diagram of the
[13:38、[[wa、1]、[wb、3]、[wc、1]]]
[13:40、[[wb、2]、[wd、0]、[we、0]]]
[13:48、[[wb、1]、[wc、0]、[wf、1]]]
[13:49、[[wa、0]、[wb、0]、[wf、0]]]
図22はスコア計算部43の構成例である。図6はスコア計算部43の処理フローの例である。以下処理フローを説明する。
[13:38, [[w a , 1], [w b , 3], [w c , 1]]]
[13:40, [[w b, 2], [w d, 0], [w e, 0]]]
[13:48, [[w b , 1], [w c , 0], [w f , 1]]]
[13:49, [[w a, 0], [w b, 0], [w f, 0]]]
FIG. 22 is a configuration example of the
《スコア計算部処理フロー》
S61停止チェック処理において、制御部は処理停止フラグがonかチェックし、フラグがonであれば処理を終了する。
<Score calculation section processing flow>
In the S61 stop check process, the control unit checks whether the process stop flag is on. If the flag is on, the control unit ends the process.
S62指定時刻取得処理(時刻取得部)において、入力記憶部より外部より指定された時刻を読み込み、時刻記憶部へ前記時刻を出力する。時刻を出力後、制御部に出力完了を通知する。制御部はスコア算出部へ処理開始を指示する。その後、S63へ処理が進む。 In S62 designated time acquisition processing (time acquisition unit), the time specified from the outside is read from the input storage unit, and the time is output to the time storage unit. After outputting the time, the control unit is notified of the completion of output. The control unit instructs the score calculation unit to start processing. Thereafter, the process proceeds to S63.
S63スコア算出処理(スコア算出部)において、
(1)時刻記憶部から指定時刻を、インデックス保持部から各メッセージの各話題の値、各メッセージの話題カウンタに関連付けられている時刻をそれぞれ読み込み、各メッセージの各話題に対して、前記話題の値を構成要素にもち、指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもつ式でスコアを求める。
In S63 score calculation processing (score calculation unit),
(1) Read the specified time from the time storage unit, the value of each topic of each message from the index holding unit, and the time associated with the topic counter of each message, respectively, and for each topic of each message, A score is obtained by an expression having a value as a component and having a difference between a designated time and a time associated with the message as a component of the denominator.
(2)各話題に対してS63の(1)で求めた当該話題のスコアの値の中から代表値を決定し、各話題とその代表値を出力記憶部へ出力する。その後、制御部へ処理完了を通知する。その後、S61へ処理が進む。 (2) For each topic, a representative value is determined from the score values of the topic obtained in (1) of S63, and each topic and its representative value are output to the output storage unit. Thereafter, the control unit is notified of the completion of processing. Thereafter, the process proceeds to S61.
スコア算出時にインデックス保持部42に保持されているカウンタ情報を参照することにより、時刻が指定される都度、第一の実施形態のスコア算出部の動作フローS31、S33〜S36を繰り返す必要がないため、指定された時刻に対する各話題のチャネル間での比較可能なスコアを高速に求めることが可能となる。
By referring to the counter information held in the
<第3の実施の形態>
図7は本発明に係わる情報処理装置の第3の実施の形態を示す。図8はインデックス保持部72が最大3件のメッセージに対する話題情報を保持する場合の例である。スコア計算部73は第2の実施の形態の図4のスコア計算部43と同等である。図23はインデックス更新部の構成例である。図9はインデックス更新部71の処理フローの例を示す。
<Third Embodiment>
FIG. 7 shows a third embodiment of the information processing apparatus according to the present invention. FIG. 8 shows an example in which the
以下に処理フローを説明する。 The processing flow will be described below.
《インデックス更新部処理フロー》
S91停止チェック処理において、制御部は処理停止フラグがonかチェックし、フラグがonであれば処理を終了する。
<Processing flow for updating the index>
In the S91 stop check process, the control unit checks whether the process stop flag is on, and if the flag is on, the process ends.
S92メッセージ取得処理(メッセージ取得部)において、 入力記憶部よりメッセージを読み込みメッセージ記憶部へ出力する。処理の完了を制御部へ通知する。制御部は話題抽出部へ処理開始を指示する。その後S93へ処理が進む。 In S92 message acquisition processing (message acquisition unit), a message is read from the input storage unit and output to the message storage unit. The control unit is notified of the completion of processing. The control unit instructs the topic extraction unit to start processing. Thereafter, the process proceeds to S93.
S93話題抽出処理(話題抽出部)において、
(1)メッセージ記憶部よりメッセージを読み込みメッセージmとする。
(2)メッセージmを語分割装置へ出力し、語skと品詞や辞書登録の有無等の語情報 tk の対[sk, tk]を要素とするリストL=[[s1, t1], [s2, t2], ...](メッセージiの先頭の語から順にs1, s2)を取得する。パタン記憶部からパタンを読み込み、前記パタンをPとする。
(3)メッセージ内の話題を記憶するためのリストR、話題候補を記憶するための文字列s、語情報文字列を記憶するための文字列tを用意し、R=[]、s=""、t=""とする。
(4)j = 1
(5) j ≦Lの要素数でなければS94(1)へ処理が進む。
(6) t = t + tj
(7) t にPにマッチしない部分が存在する場合(9)へ処理が進む。
(8) s = s + sj、 t = t + tj とし、(11)へ処理が進む。
(9) s = ""であれば t = "" として(11)へ処理が進む。
(10)R = R + [s]、 S = ""、 t = ""。
(11) j = j + 1として、(5)へ処理が進む。
In S93 topic extraction processing (topic extraction unit),
(1) A message is read from the message storage unit and set as a message m.
(2) The message m is output to the word segmenting device, and the list L = [[s1, t1], [s2] having the pair [sk, tk] of the word information tk such as word sk and part of speech and dictionary registration , t2], ...] (s1, s2 in order from the first word of message i). A pattern is read from the pattern storage unit, and the pattern is set to P.
(3) A list R for storing topics in a message, a character string s for storing topic candidates, and a character string t for storing word information character strings are prepared, and R = [], s = "", T ="".
(4) j = 1
(5) If j ≦ L is not satisfied, the process proceeds to S94 (1).
(6) t = t + tj
(7) If there is a part that does not match P in t, the process proceeds to (9).
(8) s = s + sj, t = t + tj, and the process proceeds to (11).
(9) If s = “”, the process proceeds to (11) with t = “”.
(10) R = R + [s], S = “”, t = “”.
(11) As j = j + 1, the process proceeds to (5).
S94話題カウンタ更新処理(話題抽出部)において、
(1)インデックス保持部にメッセージ数N件未満に対する話題カウンタが保持されている場合(2)へ処理が進む。そうでなければ(3)へ処理が進む。
(2)関連付けられている時刻が最も古いメッセージから生成された話題カウンタを削除する。その後(3)へ処理が進む。
(3)インデックス保持部中の各メッセージの話題カウンタにおけるメッセージm中の各話題(Rの要素)の値を読み込み、前記読み込んだ値それぞれに対して1加算した値を話題カウンタ記憶部に出力する。
(4)メッセージm中の各話題(Rの要素)に対して値0をもつカウンタと、メッセージmに関連づけられている時刻をもつメッセージm用の話題カウンタを作成し、インデックス保持部へ追加する。その後S91へ処理が進む。S94(1)のNは、インデックス保持部が保持するメッセージ数の上限である。
In S94 topic counter update processing (topic extraction unit),
(1) When a topic counter for less than N messages is held in the index holding unit, the process proceeds to (2). Otherwise, the process proceeds to (3).
(2) Delete the topic counter generated from the message with the oldest associated time. Thereafter, the process proceeds to (3).
(3) Read the value of each topic (element of R) in the message m in the topic counter of each message in the index holding unit, and output a value obtained by adding 1 to each of the read values to the topic counter storage unit .
(4) Create a counter with a value of 0 for each topic (element of R) in message m and a topic counter for message m with the time associated with message m, and add them to the index holding unit . Thereafter, the process proceeds to S91. N in S94 (1) is the upper limit of the number of messages held by the index holding unit.
インデックス保持部72が最大3件(S94(1)においてN=3)のメッセージに対する話題カウンタを保持し、インデックス保持部が図8の状態において、時刻13:49が関連付けられた話題wa, wb, wfを含むメッセージMが入力された場合の、インデックス更新部71の動作を以下に説明する。
The
S94(1)においてN=3として説明を行う。メッセージ取得部は入力記憶部よりメッセージMを読み込み、メッセージ記憶部にメッセージMを出力し、処理の完了を制御部へ通知する。制御部は話題抽出部に処理開始を通知する(S91)。 In S94 (1), description will be made assuming that N = 3. The message acquisition unit reads the message M from the input storage unit, outputs the message M to the message storage unit, and notifies the control unit of the completion of processing. The control unit notifies the topic extraction unit of the start of processing (S91).
話題抽出部は、メッセージ記憶部よりメッセージを読み込み、メッセージを語に分割する(S93(1)、(2))し、話題を抽出する(S93(2)〜(11))。 The topic extraction unit reads a message from the message storage unit, divides the message into words (S93 (1), (2)), and extracts a topic (S93 (2) to (11)).
インデックス保持部には3件のメッセージに対する話題カウンタが保持されているため、S94(2)の処理を実施する。関連づけられている時刻が最も古い[13:38, [[wa, 0], [wb, 2]、[wc, 1]]]を削除する。メッセージmに含まれる話題wa, wb, wfに対するインデックス保持部に保持される話題カウンタのカウンタを1増加させる(S94の(3))。インデックス保持部に保持される情報の例を以下に示す。 Since the topic holding counter for the three messages is held in the index holding unit, the process of S94 (2) is performed. [13:38, [[wa, 0], [wb, 2], [wc, 1]]] with the oldest associated time is deleted. The counter of the topic counter held in the index holding unit for the topics wa, wb, wf included in the message m is incremented by 1 ((3) in S94). An example of information held in the index holding unit is shown below.
[13:40、[[wb、2]、[wd、0]、[we、0]]]
[13:48、[[wb、1]、[wc、0]、[wf、1]]]
図9のS94(4)でメッセージMに対する話題情報[13:49、[[wa、0]、[wb、0]、[wf、0]]]をインデックス保持部に追加し、インデックス保持部72は以下のようになる。
[13:40, [[w b, 2], [w d, 0], [w e, 0]]]
[13:48, [[w b , 1], [w c , 0], [w f , 1]]]
The topic information [13:49, [[w a , 0], [w b , 0], [w f , 0]]] for the message M is added to the index holding unit in S94 (4) of FIG. The holding
[13:40、[[wb、2]、[wd、0]、[we、0]]]
[13:48、[[wb、1]、[wc、0]、[wf、1]]]
[13:49、[[wa、0]、[wb、0]、[wf、0]]]
スコア計算部73は第2の実施の形態の図4のスコア計算部43であり、時刻が指定されるとインデックス保持部72を参照し、各話題のスコアを求め、出力する。
[13:40, [[w b, 2], [w d, 0], [w e, 0]]]
[13:48, [[w b , 1], [w c , 0], [w f , 1]]]
[13:49, [[w a, 0], [w b, 0], [w f, 0]]]
The
インデックス更新部71がメッセージが追加される都度、追加されてたメッセージのみ語分割、話題抽出を行うため、関連づけられている時刻が古い順に本発明の情報処理装置にチャネル毎にメッセージを入力することにより、逐次メッセージが追加される場合においても時刻の指定に応じて高速にチャネル間で比較可能なスコアを求めることが可能となる。
Each time the
なお、インデックス保持部72に、話題をキーとし、各メッセージの各話題のカウンタへのポインタのリストを値とするハッシュを設ければ、追加されたメッセージが有する各話題に対してインデックス保持部72に保持される話題情報のカウンタを高速に更新可能となり、メッセージ追加時のインデックス更新をより高速に行うことが可能である。
If the
<第4の実施の形態>
図10は本発明に係わる情報処理装置の第4の実施の形態を示す。スコア計算部101と第一の実施形態のメッセージ保持部11から構成される。図24はスコア計算部101の構成例である。スコア計算部は外部より時刻を取得する時刻取得部と、メッセージに順序を付与するメッセージ順序付与部と順序が付与されたメッセージを記憶する順序付与済みメッセージ記憶部と、メッセージを語に分割する語分割装置と、話題を表すパタンを記憶するパタン記憶部と、メッセージ群中の各メッセージから話題を抽出し、各メッセージの各話題の各語の当該メッセージより順序が後のメッセージでの参照数を求める構成語情報付き話題抽出部と前記参照数を記憶する構成語情報付き話題カウンタ記憶部と、話題のスコアを算出する構成語情報付きスコア算出部から構成される。図11はスコア計算部101の処理フローの例である。以下に処理フローの詳細を示す。
<Fourth embodiment>
FIG. 10 shows a fourth embodiment of the information processing apparatus according to the present invention. The
《スコア計算部処理フロー》
S111順序付与処理(メッセージ順序付与部)において、メッセージ保持部に保持されているメッセージを関係づけられている時刻でソートし、時刻が古い順にメッセージ1...メッセージNと順序付けし、前記順序が付与されたメッセージ群を順序付与済みメッセージ記憶部へ出力する。
<Score calculation section processing flow>
In S111 order assignment processing (message order assignment section), the messages held in the message holding section are sorted according to the associated time, and the messages are ordered in the order of oldest as
S112指定時刻取得処理(時刻取得部)において、入力記憶部より外部より指定された時刻を読み込み、時刻記憶部へ前記時刻を出力する。 In S112 designated time acquisition processing (time acquisition unit), the time specified from the outside is read from the input storage unit, and the time is output to the time storage unit.
S113初期設定処理(構成語情報付き話題抽出部)において、
(1)順序付与済みメッセージ記憶部よりメッセージ群を読み込む。
(2)N=前記読み込みメッセージ数とし、処理カウンタi=1とする。
S114話題抽出処理完了判定処理(構成語情報付き話題抽出部)において、i > N (全てのメッセージに対して処理完了)ならS117へ処理が進む。
In S113 initial setting processing (topic extraction unit with constituent word information),
(1) A message group is read from the order-assigned message storage unit.
(2) N = the number of read messages, and process counter i = 1.
In S114 topic extraction processing completion determination processing (topic extraction unit with constituent word information), if i> N (processing is completed for all messages), the processing proceeds to S117.
S115構成語情報付き話題抽出処理(構成語情報付き話題抽出部)において、
(1)メッセージiを語分割装置へ出力し、語skと品詞や辞書登録の有無等の語情報 tj の対[sk, tk]を要素とするリストL=[[s1, t1], [s2, t2], ...](メッセージiの先頭の語から順にs1, s2)を取得する。
(2)パタン記憶部からパタンを読み込み、前記パタンをPとする。
(3)メッセージ内の話題を記憶するためのリストR、話題候補を記憶するための文字列s、語情報文字列を記憶するための文字列t、各話題を構成する語を記憶するためのリストU、メッセージ内の語を記憶するためのリストQを用意し、R=[]、s=""、t=""、U=[]、Q=[]とする。
(4)j = 1
(5) j ≦Lの要素数 でなければS115へ処理が進む。
(6) t = t + tj
(7) t にPにマッチしない部分が存在する場合(9)へ処理が進む。
(8) s = s + sj、 t = t + tj 、U = U + [sj] とし、(11)へ処理が進む。
(9) s = ""であれば t = "" として(11)へ処理が進む。
(10)R = R + [[ s, U]]、 s = ""、 t = ""、U = []。
(11)sj ∈Qであれば(13)へ処理が進む。
(12) Q = Q + [sj]。
(13) j = j + 1として、(5)へ処理が進む。
In S115 topic extraction processing with constituent word information (topic extracting unit with constituent word information),
(1) The message i is output to the word segmentation device, and the list L = [[s1, t1], [s2] having a pair [sk, tk] of the word information tj such as the word sk and the part of speech or the presence / absence of dictionary registration , t2], ...] (s1, s2 in order from the first word of message i).
(2) A pattern is read from the pattern storage unit, and the pattern is set to P.
(3) A list R for storing topics in a message, a character string s for storing topic candidates, a character string t for storing word information character strings, and a word constituting each topic A list U and a list Q for storing words in the message are prepared, and R = [], s = "", t = "", U = [], Q = [].
(4) j = 1
(5) If j ≦ L is not satisfied, the process proceeds to S115.
(6) t = t + tj
(7) If there is a part that does not match P in t, the process proceeds to (9).
(8) s = s + sj, t = t + tj, U = U + [sj], and the process proceeds to (11).
(9) If s = “”, the process proceeds to (11) with t = “”.
(10) R = R + [[s, U]], s = “”, t = “”, U = [].
(11) If sj εQ, the process proceeds to (13).
(12) Q = Q + [sj].
(13) As j = j + 1, the process proceeds to (5).
S116構成語情報付き話題カウンタ更新処理(構成語情報付き話題抽出部)において、
(1)メッセージi中の各話題の各構成語(R = [[s1, [u11, u12...]], [s2, [u21, ...]], ...] のuxy)に対して値を0にもつカウンタとメッセージiに関連づけられている時刻とメッセージiに含まれる語をもつメッセージi用の構成語情報付き話題カウンタを作成し、構成語情報付き話題カウンタ記憶部へ出力する。
(2)構成語情報付き話題カウンタ記憶部中のメッセージ1〜メッセージi-1用の構成語情報付き話題カウンタにおけるメッセージi中の各語(Qの要素)の値を読み込み、前記読み込んだ値それぞれに対して1加算した値を構成語情報付き話題カウンタ記憶部に出力する。
(3)i = i + 1とし、S114へ処理が進む。
S116 In topic counter update processing with constituent word information (topic extracting unit with constituent word information),
(1) In each constituent word (R = [[s1, [u11, u12 ...]], [s2, [u21, ...]], ...] in message i) On the other hand, a topic counter with constituent word information is created for a message i having a counter with a value of 0 and the time associated with message i and the word included in message i, and output to the topic counter storage section with constituent word information To do.
(2) Read the value of each word (element of Q) in message i in the topic counter with constituent word information for
(3) i = i + 1 and the process proceeds to S114.
S117構成語情報付きスコア算出処理(構成語情報付きスコア算出部)において、
(1)時刻記憶部から指定時刻を、構成語情報付き話題カウンタ記憶部から各メッセージの各話題を構成する各語の値、各メッセージに対する構成語情報付き話題カウンタに関連付けられている時刻をそれぞれ読み込み、各メッセージの各話題に対し、当該話題を構成する語に対するカウンタの値を分子の構成要素にもち、指定された前記時刻と当該メッセージに関連付けられている時刻の差を分母の構成要素にもつ式でスコアを求める。
(2)各話題に対してS117の(1)で求めた当該話題のスコアの値の中から代表値を決定し、各話題とその代表値を話題スコア値記憶部へ出力する。
S116(1)では以下のカウンタおよびリストを作成する。
[13:40、[[wb、[[b11、0]、[b12、0]、[b13、0]]]、[wd、[[d11、0]、[d12、0]]]、
[we、[[e11、0]、[e12、0]、[e13、0]]]]、
[b11、b12、b13、d12、d12、e11、e12、e13、o21、o22、o11]]
S117 In the score calculation process with constituent word information (score calculator with constituent word information),
(1) The designated time from the time storage unit, the value of each word constituting each topic of each message from the topic counter storage unit with constituent word information, and the time associated with the topic counter with constituent word information for each message, respectively For each topic of each message, the counter value for the word constituting the topic is used as the numerator component, and the difference between the specified time and the time associated with the message is used as the denominator component. Find the score with the formula.
(2) For each topic, a representative value is determined from the score values of the topic obtained in (1) of S117, and each topic and its representative value are output to the topic score value storage unit.
In S116 (1), the following counters and lists are created.
[13:40, [[w b , [[b 11 , 0], [b 12 , 0], [b 13 , 0]]], [w d , [[d 11 , 0], [d 12 , 0]]],
[w e, [[e 11 , 0], [
[b 11, b 12, b 13,
今関連づけられている時刻が「13:40」のメッセージmiにおいて話題wb、wd、weがあり、それぞれの話題を構成する語が、b11、b12、b13、d11、d12、e11、e12、e13であり、メッセージmiに含まれる語がb11、b12、b13、d11、d12、e11、e12、e13、o11、o21、o22の場合、S116(2)では時刻「13:38」が関連づけられているメッセージmi-1用の値0の話題wa、wb、wcのカウンタが存在した場合、メッセージmiに語b11、b12、b13が含まれるため、メッセージmi-1用の話題wbの語b11、b12、b13のカウンタを1増やし、以下の状態にする。
Topical w b in the message m i of time associated now "13:40", has w d, w e, words constituting each topic, b 11, b 12, b 13,
[13:38、[[wa、[[a11、0]、[a12、0]]]、[wb、[[b11、1]、[b12、1]、[b13、1]]]、
[wc、[[c11、0]、[c12、0]]]]、
[a11、a12、b11、b12、b13、c11、c12、o11、o12、o13]]
ここで、図11のS112で時刻Tが指定されているとする。図11のS115(1)のスコア計算では、メッセージmiの話題wkに対して、当該話題構成する語tk∈wjに対するカウンタの値Cmi,wj,tkを分子の構成要素にもち、指定された前記時刻Tとメッセージmiに関連づけられている時刻tmiの差を分母の構成要素にもつ式で求められている値を用いて、前記話題のスコアscoremi,wjを求める。
[13:38, [[w a, [[a 11, 0], [a 12, 0]]], [w b, [[
[w c , [[c 11 , 0], [c 12 , 0]]]],
[a 11, a 12, b 11,
Here, it is assumed that the time T is designated in S112 of FIG. The score calculation of S115 (1) in FIG. 11, has relative topic w k messages m i, the value C mi of counters for word t k ∈w j constituting the topic, wj, the tk to the components of the molecule , using the values given by equation with the difference between the time t mi associated with the specified the time T and the message m i to the components of the denominator, score score mi of the topics, determine the wj.
たとえば、以下の式を用いることができる。|wj|はwjを構成する語の数を表す。ここで構成する語は単純にメッセージ分割S115(1)で得られる語全てとしてもよいし、辞書に登録されているもののみとしてもよい。また形態素解析を用いた場合は、名詞のみというようにある品詞のもののみとしてもよい。
第1の実施の形態と同様、1つの話題に対して複数のスコアが求められるので、たとえば関連づけられている時刻が最も古いメッセージの話題のスコアもってその話題のスコアとしたり、一番高いスコアをその話題のスコアとして採用してもよい。 As in the first embodiment, since a plurality of scores are obtained for one topic, for example, the topic score of the message with the oldest associated time is used as the topic score, or the highest score is obtained. You may employ | adopt as the score of the topic.
たとえば、図11のS115(1)の時点の各メッセージの各話題の各種のカウンタを以下とする。 For example, various counters for each topic of each message at the time of S115 (1) in FIG.
m1:[13:38、[[wa、[[a11、1]、[a12、1]]]、
[wb、[b11、3]、[b12、3]、[b13、3]]]、
[wc、[[c11、1]、[c12、1]]]]、
[a11、a12、b11、b12、b13、c11、c12、o11、o12、o13]]
m2:[13:40、[[wb、[[b11、2]、[b12、2]、[b13、2]]]、
[wd、[[d11、1]、[d12、0]]]、
[we、[[e11、0]、[e12、0]、[e13、0]]]]、
[b11、b12、b13、d11、d12、e11、e12、e13、o21、o22、o11]]
m3:[13:48、[[wb、[[b11、1]、[b12、1]、[b13、1]]]、
[wc、[[c11、c12]]、[wf、[f11、f12]]]、
[b11、b12、b13、c11、c12、f11、f12、d11、o31、o22、o13]]
m4:[13:49、[[wa、[[a11、0]、[a12、0]]]、
[wb、[[b11、b12、b13]]、[wf、[f11、f12]]]、
[a11、a12、b11、b13、b13、f11、f12、o41、o42、o31]]
この場合、時刻T=13:50が指定された場合の各メッセージの各話題のスコアは以下のようになる。
[w b , [b 11 , 3], [b 12 , 3], [b 13 , 3]]],
[w c , [[c 11 , 1], [c 12 , 1]]]],
[a 11, a 12, b 11,
m 2 : [13:40, [[w b , [[b 11 , 2], [b 12 , 2], [b 13 , 2]]],
[w d , [[d 11 , 1], [d 12 , 0]]],
[w e, [[e 11 , 0], [
[b 11, b 12, b 13,
m 3 : [13:48, [[w b , [[b 11 , 1], [b 12 , 1], [b 13 , 1]]],
[w c , [[c 11 , c 12 ]], [w f , [f 11 , f 12 ]]],
[b 11, b 12, b 13,
m 4: [13:49, [[ w a, [[a 11, 0], [a 12, 0]]],
[w b, [[b 11 , b 12, b 13]], [w f, [
[a 11, a 12, b 11, b 13, b 13,
In this case, the score of each topic of each message when time T = 13: 50 is designated is as follows.
各話題において最大のスコアを選択した場合、話題のスコアを以下のようになる。 When the maximum score is selected for each topic, the topic score is as follows.
wa=1/12、wb=3/12、wc=1/12、wd=1/20、we=0、wf=1/2
図11のS115(2)では、上記話題とそのスコアを出力する。
w a = 1/12, w b = 3/12, w c = 1/12, w d = 1/20, w e = 0, w f = 1/2
In S115 (2) of FIG. 11, the topic and its score are output.
ここで上記メッセージm1〜m4と内容が同じで、それぞれ時刻12:38、12:40、12:48、12:49が関連づけられたメッセージがメッセージ保持部11に保持されている場合、時刻13:50の指定に対する話題のスコアは以下のようになる。
Here, when the messages m 1 to m 4 have the same contents and the messages 12:38, 12:40, 12:48, and 12:49 are associated with each other, the
wa=1/72、wb=3/72、wc=1/72、wd=1/140、we=0、wf=1/62
また、上記メッセージm1〜m4と内容が同じで、それぞれ時刻13:00、13:10、13:30、13:49が関連づけられたメッセージがメッセージ保持部11に保持されている場合、時刻13:50の指定に対する話題のスコアは以下のようになる。
w a = 1/72, w b = 3/72, w c = 1/72, w d = 1/140, w e = 0, w f = 1/62
In addition, when the messages m 1 to m 4 have the same contents and the messages 13:00, 13:10, 13:30, and 13:49 are associated with the messages, respectively, The topic scores for the 13:50 designation are:
wa=1/50、wb=3/50、wc=1/50、wd=1/80、we=0、wf=1/20
このように、本発明の情報処理装置では、同じ内容のメッセージであっても、指定された時刻に近く短い期間にメッセージが発生した場合の話題の方に高いスコアを与えることが可能である。チャネル毎に本発明の情報処理装置を設け、話題のスコアを計算することにより、チャネル相互で比較可能なスコアを話題に付与することが可能となる。
w a = 1/50, w b = 3/50, w c = 1/50, w d = 1/80, w e = 0, w f = 1/20
As described above, the information processing apparatus according to the present invention can give a higher score to a topic when a message is generated in a short period of time near a designated time even if the messages have the same contents. By providing the information processing apparatus of the present invention for each channel and calculating the topic score, it is possible to give a score that can be compared between channels to the topic.
更に、メッセージm3において、メッセージm2の話題wdを構成する語d11が含まれるため、第1の実施の形態ではスコアが0であった話題wdにスコアをつけることが可能となっている。語を用いることにより、より細かいスコアづけが可能となり、話題が出現した後、省略形のように話題の部分文字列として表されて話題がメッセージの中で完全に同じ形で現れないメッセージに対しても話題のスコア付が可能となる。 Furthermore, the message m 3, because it contains a word d 11 constituting the topic w d message m 2, in the first embodiment becomes possible scoring the topic w d score was 0 ing. By using words, more detailed scoring is possible, and after a topic appears, a message that is expressed as a substring of the topic, such as an abbreviation, and the topic does not appear in the exact same form in the message Even topical scores are possible.
上記の例では話題のスコアは語のカウンタの値の平均をもとに求めたが、平均をとらずに加算のみしてもよい。多くの語から構成される話題に対するスコアを高くしたい場合は加算のみにするのが好適である。 In the above example, the topic score is obtained based on the average of the word counter values, but it may be only added without taking the average. If it is desired to increase the score for a topic composed of many words, it is preferable to add only.
前記実施の形態における各メッセージの語のリストは、本来の処理には不要であるが、動作例をわかりやすくするために用いた。 The word list of each message in the above embodiment is not necessary for the original processing, but is used for easy understanding of the operation example.
<第5の実施の形態>
図12は本発明の係わる情報処理装置の第5の実施の形態を示す。メッセージ保持部は第一の実施の形態のメッセージ保持部と同じである。図25はインデックス作成部121の構成図である。図13はインデックス作成部の処理フローの例である。図間で同じ記号は同じ装置や処理を表す。図13のS131(図25の251)では話題カウンタ記憶部に記憶されている各メッセージの各話題を構成する各語の以下のような話題カウンタ情報をインデックス保持部に出力する。
<Fifth embodiment>
FIG. 12 shows a fifth embodiment of an information processing apparatus according to the present invention. The message holding unit is the same as the message holding unit of the first embodiment. FIG. 25 is a configuration diagram of the
[13:38、[[wa、[[a11、1]、[a12、1]]]、[wb、[b11、3]、[b12、3]、[b13、3]]]、
[wc、[[c11、1]、[c12、1]]]]、
[a11、a12、b11、b12、b13、c11、c12、o11、o12、o13]]
[13:40、[[wb、[[b11、2]、[b12、2]、[b13、2]]]、[wd、[[d11、1]、[d12、0]]]、
[we、[[e11、0]、[e12、0]、[e13、0]]]]、
[b11、b12、b13、d11、d12、e11、e12、e13、o21、o22、o11]]
[13:48、[[wb、[[b11、1]、[b12、1]、[b13、1]]]、
[wc、[[c11、c12]]、[wf、[f11、f12]]]、
[b11、b12、b13、c11、c12、f11、f12、d11、o31、o22、o13]]
[13:49、[[wa、[[a11、0]、[a12、0]]]、
[wb、[[b11、b12、b13]]、[wf、[f11、f12]]]、
[a11、a12、b11、b13、b13、f11、f12、o41、o42、o31]]
図26はスコア計算部123の構成例である。図14はスコア計算部123の処理フローの例である。以下処理フローを説明する。
[13:38, [[w a, [[a 11, 1], [a 12, 1]]], [w b, [
[w c , [[c 11 , 1], [c 12 , 1]]]],
[a 11, a 12, b 11,
[13:40, [[w b , [[b 11 , 2], [b 12 , 2], [b 13 , 2]]], [w d , [[d 11 , 1], [d 12 , 0]]],
[w e, [[e 11 , 0], [
[b 11, b 12, b 13,
[13:48, [[w b , [[b 11 , 1], [b 12 , 1], [b 13 , 1]]],
[w c , [[c 11 , c 12 ]], [w f , [f 11 , f 12 ]]],
[b 11, b 12, b 13,
[13:49, [[w a, [[a 11, 0], [a 12, 0]]],
[w b, [[b 11 , b 12, b 13]], [w f, [
[a 11, a 12, b 11, b 13, b 13,
FIG. 26 shows a configuration example of the
《スコア計算部処理フロー》
S141停止チェック処理において、制御部は処理停止フラグがonかチェックし、フラグがonであれば処理を終了する。
<Score calculation section processing flow>
In the S141 stop check process, the control unit checks whether the process stop flag is on. If the flag is on, the control unit ends the process.
S142指定時刻取得処理(時刻取得部)において、入力記憶部より外部より指定された時刻を読み込み、時刻記憶部へ前記時刻を出力する。時刻を出力後、制御部に出力完了を通知する。制御部は構成語情報付きスコア算出部へ処理開始を指示する。その後S143へ処理が進む。 In S142 designated time acquisition processing (time acquisition unit), the time specified from the outside is read from the input storage unit, and the time is output to the time storage unit. After outputting the time, the control unit is notified of the completion of output. The control unit instructs the score calculation unit with constituent word information to start processing. Thereafter, the process proceeds to S143.
S143構成語情報付きスコア算出処理(構成語情報付きスコア算出部)において、
(1)時刻記憶部から指定時刻を、インデックス保持部から各メッセージの各話題を構成する各語の値、各メッセージに対する構成語情報付き話題カウンタに関連付けられている時刻をそれぞれ読み込み、各メッセージの各話題に対し、当該話題を構成する語に対するカウンタの値を分子の構成要素にもち、指定された前記時刻と当該メッセージに関連付けられている時刻の差を分母の構成要素にもつ式でスコアを求める。
(2)各話題に対してS143の(1)で求めた当該話題のスコアの値の中から代表値を決定し、各話題とその代表値を出力記憶部へ出力する。その後、制御部へ処理完了を通知する。その後S141へ処理が進む。
S143 In the score calculation process with constituent word information (score calculator with constituent word information),
(1) Read the specified time from the time storage unit, read the value of each word constituting each topic of each message from the index holding unit, and the time associated with the topic counter with constituent word information for each message, For each topic, the counter value for the word constituting the topic is a numerator component, and the score is expressed by an expression having the difference between the specified time and the time associated with the message as a denominator component. Ask.
(2) For each topic, a representative value is determined from the score values of the topic obtained in (1) of S143, and each topic and its representative value are output to the output storage unit. Thereafter, the control unit is notified of the completion of processing. Thereafter, the process proceeds to S141.
スコア計算時にインデックス保持部に保持されている構成語情報付きカウンタ情報を参照することにより、時刻が指定される都度、第4の実施の形態の構成語情報付きスコア計算部の動作フローS111、S113〜S116を繰り返す必要がないため、話題が出現した後、省略形のように話題の部分文字列として表されて話題がメッセージの中で完全に同じ形では現れないメッセージに対しても、指定された時刻に対する各話題のチャネル間で比較可能なスコアを高速に求めることが可能となる。 By referring to the counter information with constituent word information held in the index holding unit at the time of score calculation, each time the time is specified, the operation flows S111 and S113 of the score calculating unit with constituent word information of the fourth embodiment Since it is not necessary to repeat ~ S116, after a topic appears, it is specified even for a message that is expressed as a partial character string of the topic, such as an abbreviation, and the topic does not appear in the exact same form in the message. It is possible to quickly obtain a score that can be compared between channels of each topic for a given time.
<第6の実施の形態>
図15は本発明に係わる情報処理装置の第6の実施の形態を示す。図16はインデックス保持部152が最大3件のメッセージに対する構成語情報付き話題カウンタを保持する場合の例である。スコア計算部153は第5の実施の形態の形態の図12のスコア計算部123と同等である。図17はインデックス更新部151の処理フローの例を示す。以下に処理フローの詳細を示す。
<Sixth Embodiment>
FIG. 15 shows a sixth embodiment of the information processing apparatus according to the present invention. FIG. 16 shows an example when the
また、図27はインデックス更新部151の構成図を示す。インデックス更新部151は、制御部271と、メッセージ取得部232と、メッセージ記憶部233と、語分割部205と、パタン記憶部206と、構成語情報付き話題抽出部272と、から構成されている。さらにインデックス更新部151には、入力記憶部300と、インデックス保持部152が接続されている。
FIG. 27 shows a configuration diagram of the
《インデックス更新部処理フロー》
S171停止チェック処理において、制御部は処理停止フラグがonかチェックし、フラグがonであれば処理を終了する。
<Processing flow for updating the index>
In the S171 stop check process, the control unit checks whether the process stop flag is on. If the flag is on, the control unit ends the process.
S172メッセージ取得処理(メッセージ取得部)において、入力記憶部よりメッセージを読み込みメッセージ記憶部へ出力する。処理の完了を制御部へ通知する。制御部は話題抽出部へ処理開始を指示する。その後S173へ処理が進む。 In S172 message acquisition processing (message acquisition unit), a message is read from the input storage unit and output to the message storage unit. The control unit is notified of the completion of processing. The control unit instructs the topic extraction unit to start processing. Thereafter, the process proceeds to S173.
S173構成語情報付き話題抽出処理(構成語情報付き話題抽出部)において、
(1)メッセージ記憶部よりメッセージを読み込みメッセージmとする。
(2)メッセージmを語分割装置へ出力し、語skと品詞や辞書登録の有無等の語情報 tj の対[sk, tk]を要素とするリストL=[[s1, t1], [s2, t2], ...](メッセージiの先頭の語から順にs1, s2)を取得する。
(3)パタン記憶部からパタンを読み込み、前記パタンをPとする。
(4)メッセージ内の話題を記憶するためのリストR、話題候補を記憶するための文字列s、語情報文字列を記憶するための文字列t、各話題を構成する語を記憶するためのリストU、メッセージ内の語を記憶するためのリストQを用意し、R=[]、s=""、t=""、U=[]、Q=[]とする。
(5)j = 1
(6) j ≦Lの要素数でなければS174へ処理が進む。
(7) t = t + tj
(8) t にPにマッチしない部分が存在する場合(10)へ処理が進む。
(9) s = s + sj、 t = t + tj 、U = U + [sj] とし、(12)へ処理が進む。
(10) s = ""であれば t = "" として(12)へ処理が進む。
(11)R = R + [[ s, U]]、 s = ""、 t = ""、U = []。
(12)sj ∈Qであれば(13)へ処理が進む。
(13) Q = Q + [sj]。
(14) j = j + 1として、(6)へ処理が進む。
S173 In topic extraction processing with constituent word information (topic extracting section with constituent word information),
(1) A message is read from the message storage unit and set as a message m.
(2) The message m is output to the word segmenting device, and the list L = [[s1, t1], [s2] having a pair [sk, tk] of the word information tj such as the word sk and the part of speech or dictionary registration. , t2], ...] (s1, s2 in order from the first word of message i).
(3) A pattern is read from the pattern storage unit, and the pattern is set to P.
(4) A list R for storing topics in a message, a character string s for storing topic candidates, a character string t for storing word information character strings, and a word for composing each topic A list U and a list Q for storing words in the message are prepared, and R = [], s = "", t = "", U = [], Q = [].
(5) j = 1
(6) If j ≦ L is not satisfied, the process proceeds to S174.
(7) t = t + tj
(8) If there is a part that does not match P in t, the process proceeds to (10).
(9) s = s + sj, t = t + tj, U = U + [sj], and the process proceeds to (12).
(10) If s = “”, t = “” and the process proceeds to (12).
(11) R = R + [[s, U]], s = “”, t = “”, U = [].
(12) If sj ∈Q, the process proceeds to (13).
(13) Q = Q + [sj].
(14) As j = j + 1, the process proceeds to (6).
S174構成語情報付き話題カウンタ更新処理(構成語情報付き話題抽出部)において、
(1)インデックス保持部にメッセージ数N件未満に対する構成語情報付き話題カウンタが保持されている場合(2)へ処理が進む。そうでなければ(3)へ処理が進む。
(2)関連付けられている時刻が最も古いメッセージから生成された構成語情報付き話題カウンタを削除する。その後(3)へ処理が進む。
(3)インデックス保持部中の各メッセージの構成語情報付き話題カウンタにおけるメッセーmi中の各語(Qの要素)の値を読み込み、前記読み込んだ値それぞれに対して1加算した値を構成語情報付き話題カウンタ記憶部に出力する。
(4)メッセージm中の各話題の各構成語(R = [[s1, [u11, u12...]], [s2, [u21, ...]], ...] のuxy)に対して値を0にもつカウンタとメッセージiに関連づけられている時刻とメッセージmに含まれる語をもつメッセージm用の構成語情報付き話題カウンタを作成し、インデックス保持部へ追加する。その後S171へ処理が進む。
In S174 topic counter update processing with constituent word information (topic extracting unit with constituent word information),
(1) If the index holding unit holds topic counters with constituent word information for less than N messages, the process proceeds to (2). Otherwise, the process proceeds to (3).
(2) Delete the topic counter with constituent word information generated from the message with the oldest associated time. Thereafter, the process proceeds to (3).
(3) The value of each word (element of Q) in the message mi in the topic counter with constituent word information of each message in the index holding unit is read, and the value obtained by adding 1 to each of the read values is constituent word information Output to the topic counter storage unit.
(4) To each constituent word of each topic in message m (R = [[s1, [u11, u12 ...]], [s2, [u21, ...]], ...] uxy) On the other hand, a counter having a value of 0, a time counter associated with message i having a time associated with message i, and a word included in message m are created and added to the index holding unit. Thereafter, the process proceeds to S171.
S174(1)のNは、インデックス保持部が構成語情報付き話題カウンタを保持するメッセージ数の上限である。 N in S174 (1) is the upper limit of the number of messages that the index holding unit holds the topic counter with constituent word information.
インデックス保持部152が最大3件のメッセージに対する話題情報を保持し、インデックス保持部152が図16の状態において、時刻13:49が関連づけられた話題wa、wb、wf、語a11、a12、b11、b12、b13、f11、f12、o41、o42、o31を含むメッセージMを受信した場合の、インデックス更新部151の動作を以下に説明する。
The
メッセージMを語分割し(図17のS173(2))、話題を抽出する(図17のS173(3)〜(14))。インデックス保持部152には上限である3件のメッセージに対する話題情報が保持されているため、S174(2)の処理を実施する。関連づけられている時刻が最も古い[13:38、[[wa、[[a11、0]、[a12、0]]]、[wb、[b11、2]、[b12、2]、[b13、2]]]、[wc、[[c11、1]、[c12、1]]]]、[a11、a12、b11、b12、b13、c11、c12、o11、o12、o13]]を削除する。メッセージMに含まれる語を含むインデックス保持部152に保持される各メッセージの各話題における当該語のカウンタの値を1増加させる(図17のS174(3))。インデックス保持部152に保持される情報の例を以下に示す。
The message M is divided into words (S173 (2) in FIG. 17), and topics are extracted (S173 (3) to (14) in FIG. 17). Since topic information for three messages, which is the upper limit, is held in the
[13:40、[[wb、[[b11、2]、[b12、2]、[b13、2]]]、[wd、[[d11、1]、[d12、0]]]、
[we、[[e11、0]、[e12、0]、[e13、0]]]]、
[b11、b12、b13、d11、d12、e11、e12、e13、o21、o22、o11]]
[13:48、[[wb、[[b11、1]、[b12、1]、[b13、1]]]、
[wc、[[c11、c12]]、[wf、[f11、f12]]]、
[b11、b12、b13、c11、c12、f11、f12、d11、o31、o22、o13]]
図17のS174(4)でメッセージMに対する話題情報[13:49、[[wa、[[a11、0]、[a12、0]]]、[wb、[[b11、b12、b13]]、[wf、[f11、f12]]]、
[a11、a12、b11、b13、b13、f11、f12、o41、o42、o31]]
をインデックス保持部に追加し、インデックス保持部152は以下のようになる。
[13:40, [[w b , [[b 11 , 2], [b 12 , 2], [b 13 , 2]]], [w d , [[d 11 , 1], [d 12 , 0]]],
[w e, [[e 11 , 0], [
[b 11, b 12, b 13,
[13:48, [[w b , [[b 11 , 1], [b 12 , 1], [b 13 , 1]]],
[w c , [[c 11 , c 12 ]], [w f , [f 11 , f 12 ]]],
[b 11, b 12, b 13,
Topic information [13:49 for the message M in S174 (4) in FIG. 17, [[w a, [ [a 11, 0], [a 12, 0]]], [w b, [[
[a 11, a 12, b 11, b 13, b 13,
Is added to the index holding unit, and the
[13:40、[[wb、[[b11、2]、[b12、2]、[b13、2]]]、[wd、[[d11、1]、[d12、0]]]、
[we、[[e11、0]、[e12、0]、[e13、0]]]]、
[b11、b12、b13、d11、d12、e11、e12、e13、o21、o22、o11]]
[13:48、[[wb、[[b11、1]、[b12、1]、[b13、1]]]、
[wc、[[c11、c12]]、[wf、[f11、f12]]]、
[b11、b12、b13、c11、c12、f11、f12、d11、o31、o22、o13]]
[13:49、[[wa、[[a11、0]、[a12、0]]]、
[wb、[[b11、b12、b13]]、[wf、[f11、f12]]]、
[a11、a12、b11、b13、b13、f11、f12、o41、o42、o31]]
スコア計算部153は第5の実施の形態の図12のスコア計算部123であり、時刻が指定されるとインデックス保持部152を参照し、各話題のスコアを求め、出力する。
[13:40, [[w b , [[b 11 , 2], [b 12 , 2], [b 13 , 2]]], [w d , [[d 11 , 1], [d 12 , 0]]],
[w e, [[e 11 , 0], [
[b 11, b 12, b 13,
[13:48, [[w b , [[b 11 , 1], [b 12 , 1], [b 13 , 1]]],
[w c , [[c 11 , c 12 ]], [w f , [f 11 , f 12 ]]],
[b 11, b 12, b 13,
[13:49, [[w a, [[a 11, 0], [a 12, 0]]],
[w b, [[b 11 , b 12, b 13]], [w f, [
[a 11, a 12, b 11, b 13, b 13,
The
インデックス更新部151がメッセージが追加される都度、追加されてたメッセージのみ語分割、話題抽出を行うため、関連づけられている時刻が古い順に本発明の情報処理装置にチャネル毎にメッセージを入力することにより、逐次メッセージが追加される場合においても話題が出現した後、省略形のように話題の部分文字列として表されて話題がメッセージの中で完全に同じ形では現れないメッセージに対して時刻の指定に応じて高速にチャネル間で比較可能なスコアを求めることが可能となる。
Each time the
なお、インデックス保持部152に、語をキーとし、各メッセージの各話題の各語のカウンタへのポインタのリストを値とするハッシュを設ければ、追加されたメッセージが有する各語に対してインデックス保持部152に保持される話題情報のカウンタを高速に更新可能となり、メッセージ追加時のインデックス更新をより高速に行うことが可能である。
In addition, if the
<第7の実施の形態>
図18(a)、(b)、(c)は本発明に係わる情報処理装置の第7の実施の形態を示す。スコア計算部182、インデックス作成部183、インデックス更新部186は、各メッセージを処理する際、第1〜3の実施の形態の処理に加え、各話題が出現したメッセージの数(DF)をカウントし、話題出現保持部181に記録していく。図28はスコア計算部182、図29はインデックス作成部183、図30はスコア計算部185、図31はインデックス更新部186の構成例を示す図である。
<Seventh embodiment>
18A, 18B and 18C show a seventh embodiment of the information processing apparatus according to the present invention. When processing each message, the
以下にスコア計算部182、インデックス作成部183、スコア計算部185、インデックス更新部186の処理フローの例を示す。
An example of the processing flow of the
《スコア計算部182処理フロー》
S182−1(スコア計算部182における処理ステップの1番目をS182−1と記す。以下同様。)順序付与処理(メッセージ順序付与部)において、メッセージ保持部に保持されているメッセージを関係づけられている時刻でソートし、時刻が古い順にメッセージ1...メッセージNと順序付けし、前記順序が付与されたメッセージ群を順序付与済みメッセージ記憶部へ出力する。
<<
S182-1 (The first processing step in the
S182−2指定時刻取得処理(時刻取得部)において、入力記憶部より外部より指定された時刻を読み込み、時刻記憶部へ前記時刻を出力する。 In S182-2 designated time acquisition processing (time acquisition unit), the time specified from the outside is read from the input storage unit, and the time is output to the time storage unit.
S182−3初期設定処理(話題抽出部)において、
(1)順序付与済みメッセージ記憶部よりメッセージ群を読み込む。
(2)N=前記読み込みメッセージ数とし、処理カウンタi=1とする。
In S182-3 initial setting processing (topic extraction unit),
(1) A message group is read from the order-assigned message storage unit.
(2) N = the number of read messages, and process counter i = 1.
S182−4話題抽出処理完了判定処理(話題抽出部)において、i > N (全てのメッセージに対して処理完了)ならS182−7へ処理が進む。 In S182-4 topic extraction processing completion determination processing (topic extraction unit), if i> N (processing is completed for all messages), the processing proceeds to S182-7.
S182−5話題抽出処理(話題抽出部)において、
(1)メッセージiを語分割装置へ出力し、語skと品詞や辞書登録の有無等の語情報 tk の対[sk, tk]を要素とするリストL=[[s1, t1], [s2, t2], ...](メッセージiの先頭の語から順にs1, s2)を取得する。
(2)パタン記憶部からパタンを読み込み、前記パタンをPとする。
(3)メッセージ内の話題を記憶するためのリストR、話題候補を記憶するための文字列s、語情報文字列を記憶するための文字列tを用意し、R=[]、s=""、t=""、Q=[]とする。とする。
(4)j = 1
(5) j ≦Lの要素数 でなければS36(1)へ処理が進む。
(6) t = t + tj
(7) t にPにマッチしない部分が存在する場合(9)へ処理が進む。
(8) s = s + sj、 t = t + tj とし、(11)へ処理が進む。
(9) s = ""であれば t = "" として(11)へ処理が進む。
(10)R = R + [s]、 s = ""、 t = ""。
(11) j = j + 1として、(5)へ処理が進む。
(12)話題出現保持部181に記憶されているRの各要素に対する値を読み出し、各値を1加算し、話題出現保持部181に記録されているRの各要素の値を前記加算後のそれぞれの値に更新する。話題出現保持部181に記録されていないRの要素に対しては、話題出現保持部181に前記要素の値を格納する領域を作成し、前記領域に値1を出力する。
In S182-5 topic extraction processing (topic extraction unit),
(1) The message i is output to the word segmentation device, and the list L = [[s1, t1], [s2] with the pair [sk, tk] of the word information tk such as the word sk and the part of speech or the presence / absence of dictionary registration , t2], ...] (s1, s2 in order from the first word of message i).
(2) A pattern is read from the pattern storage unit, and the pattern is set to P.
(3) A list R for storing topics in a message, a character string s for storing topic candidates, and a character string t for storing word information character strings are prepared, and R = [], s = "", T ="", Q = []. And
(4) j = 1
(5) If j ≦ L is not satisfied, the process proceeds to S36 (1).
(6) t = t + tj
(7) If there is a part that does not match P in t, the process proceeds to (9).
(8) s = s + sj, t = t + tj, and the process proceeds to (11).
(9) If s = “”, the process proceeds to (11) with t = “”.
(10) R = R + [s], s = “”, t = “”.
(11) As j = j + 1, the process proceeds to (5).
(12) Read the value for each element of R stored in the topic
S182−6話題カウンタ更新処理(話題抽出部)において、
(1)メッセージi中の各話題(Rの要素)に対して値0をもつカウンタと、メッセージiに関連づけられている時刻をもつメッセージi用の話題カウンタを作成し、話題カウンタ記憶部へ出力する。
(2)話題カウンタ記憶部中のメッセージ1〜メッセージi-1用の話題カウンタにおけるメッセージi中の各話題(Rの要素)の値を読み込み、前記読み込んだ値それぞれに対して1加算した値を話題カウンタ記憶部に出力する。
(3) i = i + 1 とし、S182−4へ処理が進む。
In S182-6 topic counter update processing (topic extraction unit),
(1) Create a counter with a
(2) Read the value of each topic (R element) in message i in the topic counter for
(3) Set i = i + 1, and the process proceeds to S182-4.
S182−7スコア算出処理(スコア算出部)において、
(1)時刻記憶部から指定時刻を、話題カウンタ記憶部から各メッセージの各話題の値と各メッセージに対する話題カウンタに関連付けられている時刻を、話題出現保持部から各話題の値をそれぞれ読み込み、各メッセージの各話題に対して、話題カウンタ記憶部から読み出された前記話題の値を話題出現保持部から読み出された前記話題の値を分母の構成要素とする式で重み付けした値を分子の構成要素とし、指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもつ式でスコアを求める。
(2)各話題に対してS182−7の(1)で求めた当該話題のスコアの値の中から代表値を決定し、各話題とその代表値を話題スコア値記憶部へ出力する。
In S182-7 score calculation processing (score calculation unit),
(1) Read the designated time from the time storage unit, read the topic value of each message from the topic counter storage unit and the time associated with the topic counter for each message, and read the value of each topic from the topic appearance holding unit, For each topic of each message, the numerator is a value obtained by weighting the topic value read from the topic counter storage unit with an expression having the topic value read from the topic appearance holding unit as a denominator component. A score is obtained by an expression having a difference between a designated time and a time associated with the message as a component of the denominator.
(2) For each topic, a representative value is determined from the score values of the topic obtained in (1) of S182-7, and each topic and its representative value are output to the topic score value storage unit.
《インデックス作成部183処理フロー》
S183−1順序付与処理(メッセージ順序付与部)において、メッセージ保持部に保持されているメッセージを関係づけられている時刻でソートし、時刻が古い順にメッセージ1...メッセージNと順序付けし、前記順序が付与されたメッセージ群を順序付与済みメッセージ記憶部へ出力する。
<< Processing Flow of
In the S183-1 order assignment process (message order assignment unit), the messages held in the message holding unit are sorted by the associated time, and the messages are sorted in order from oldest message to
S183−2指定時刻取得処理(時刻取得部)において、入力記憶部より外部より指定された時刻を読み込み、時刻記憶部へ前記時刻を出力する。 In S183-2 designated time acquisition processing (time acquisition unit), the time specified from the outside is read from the input storage unit, and the time is output to the time storage unit.
S182−3初期設定処理(話題抽出部)において、
(1)順序付与済みメッセージ記憶部よりメッセージ群を読み込む。
(2)N=前記読み込みメッセージ数とし、処理カウンタi=1とする。
In S182-3 initial setting processing (topic extraction unit),
(1) A message group is read from the order-assigned message storage unit.
(2) N = the number of read messages, and process counter i = 1.
S183−4話題抽出処理完了判定処理(話題抽出部)において、i > N (全てのメッセージに対して処理完了)ならS183−7へ処理が進む。 In S183-4 topic extraction processing completion determination processing (topic extraction unit), if i> N (processing is completed for all messages), the processing proceeds to S183-7.
S183−5話題抽出処理(話題抽出部)において、
(1)メッセージiを語分割装置へ出力し、語skと品詞や辞書登録の有無等の語情報 tj の対[sk, tk]を要素とするリストL=[[s1, t1], [s2, t2], ...](メッセージiの先頭の語から順にs1, s2)を取得する。
(2)パタン記憶部からパタンを読み込み、前記パタンをPとする。
(3)メッセージ内の話題を記憶するためのリストR、話題候補を記憶するための文字列s、語情報文字列を記憶するための文字列tを用意し、R=[]、s=""、t=""、Q=[]とする。とする。
(4)j = 1
(5) j ≦Lの要素数 でなければ(12)へ処理が進む。
(6) t = t + tj
(7) t にPにマッチしない部分が存在する場合(9)へ処理が進む。
(8) s = s + sj、 t = t + tj とし、(11)へ処理が進む。
(9) s = ""であれば t = "" として(11)へ処理が進む。
(10)R = R + [s]、 s = ""、 t = ""。
(11) j = j + 1として、(5)へ処理が進む。
(12)話題出現保持部181に記憶されているRの各要素に対する値を読み出し、各値を1加算し、話題出現保持部181に記録されているRの各要素の値を前記加算後のそれぞれの値に更新する。話題出現保持部181に記録されていないRの要素に対しては、話題出現保持部181に前記要素の値を格納する領域を作成し、前記領域に値1を出力する。その後S183−6へ処理が進む。
In S183-5 topic extraction processing (topic extraction unit),
(1) The message i is output to the word segmentation device, and the list L = [[s1, t1], [s2] having a pair [sk, tk] of the word information tj such as the word sk and the part of speech or the presence / absence of dictionary registration , t2], ...] (s1, s2 in order from the first word of message i).
(2) A pattern is read from the pattern storage unit, and the pattern is set to P.
(3) A list R for storing topics in a message, a character string s for storing topic candidates, and a character string t for storing word information character strings are prepared, and R = [], s = "", T ="", Q = []. And
(4) j = 1
(5) If j ≦ L is not satisfied, the process proceeds to (12).
(6) t = t + tj
(7) If there is a part that does not match P in t, the process proceeds to (9).
(8) s = s + sj, t = t + tj, and the process proceeds to (11).
(9) If s = “”, the process proceeds to (11) with t = “”.
(10) R = R + [s], s = “”, t = “”.
(11) As j = j + 1, the process proceeds to (5).
(12) Read the value for each element of R stored in the topic
S183−6話題カウンタ更新処理(話題抽出部)において、
(1)メッセージi中の各話題(Rの要素)に対して値0をもつカウンタと、メッセージiに関連づけられている時刻をもつメッセージi用の話題カウンタを作成し、話題カウンタ記憶部へ出力する。
(2)話題カウンタ記憶部中のメッセージ1〜メッセージi-1用の話題カウンタにおけるメッセージi中の各話題(Rの要素)の値を読み込み、前記読み込んだ値それぞれに対して1加算した値を話題カウンタ記憶部に出力する。
(3) i = i + 1 とし、S183−4へ処理が進む。
In S183-6 topic counter update processing (topic extraction unit),
(1) Create a counter with a
(2) Read the value of each topic (R element) in message i in the topic counter for
(3) Set i = i + 1, and the process proceeds to S183-4.
S183−7出力処理(出力部)において、 各メッセージの各話題の値、各メッセージに関連付けられている時刻を話題カウンタ記憶部から読み出し、インデックス保持部へ出力する。 In S183-7 output processing (output unit), the value of each topic of each message and the time associated with each message are read from the topic counter storage unit and output to the index holding unit.
《スコア計算部185処理フロー》
S185−1停止チェック処理において、制御部は処理停止フラグがonかチェックし、フラグがonであれば処理を終了する。
<<
In the S185-1 stop check process, the control unit checks whether the process stop flag is on, and ends the process if the flag is on.
S185−2指定時刻取得処理(時刻取得部)において、入力記憶部より外部より指定された時刻を読み込み、時刻記憶部へ前記時刻を出力する。時刻を出力後、制御部に出力完了を通知する。制御部はスコア算出部へ処理開始を指示する。その後S185−3へ処理が進む。 In S185-2 designated time acquisition processing (time acquisition unit), the time specified from the outside is read from the input storage unit, and the time is output to the time storage unit. After outputting the time, the control unit is notified of the completion of output. The control unit instructs the score calculation unit to start processing. Thereafter, the process proceeds to S185-3.
S185−3スコア算出処理(スコア算出部)において、
(1)時刻記憶部から指定時刻を、インデックス保持部から各メッセージの各話題の値と各メッセージに対する話題カウンタに関連付けられている時刻を、話題出現保持部から各話題の値をそれぞれ読み込み、各メッセージの各話題に対して、インデックス保持部から読み出された前記話題の値を話題出現保持部から読み出された前記話題の値を分母の構成要素とする式で重み付けした値を分子の構成要素とし、指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもつ式でスコアを求める。
(2)各話題に対してS185−3の(1)で求めた当該話題のスコアの値の中から代表値を決定し、各話題とその代表値を出力記憶部へ出力する。その後、制御部へ処理完了を通知する。その後S185−1へ処理が進む。
In S185-3 score calculation processing (score calculation unit),
(1) Read the designated time from the time storage unit, read the value of each topic of each message from the index holding unit and the time associated with the topic counter for each message, and read the value of each topic from the topic appearance holding unit, For each topic of the message, the value of the topic read from the index holding unit is weighted with an expression having the topic value read from the topic appearance holding unit as a denominator component. The score is obtained by an expression having the difference between the specified time and the time associated with the message as an element in the denominator component.
(2) For each topic, a representative value is determined from the score values of the topic obtained in (1) of S185-3, and each topic and its representative value are output to the output storage unit. Thereafter, the control unit is notified of the completion of processing. Thereafter, the process proceeds to S185-1.
《インデックス更新部186処理フロー》
S186−1停止チェック処理において、制御部は処理停止フラグがonかチェックし、フラグがonであれば処理を終了する。
<< Process Flow of
In the S186-1 stop check process, the control unit checks whether the process stop flag is on. If the flag is on, the control unit ends the process.
S186−2メッセージ取得処理(メッセージ取得部)において、入力記憶部よりメッセージを読み込みメッセージ記憶部へ出力する。処理の完了を制御部へ通知する。制御部は話題抽出部へ処理開始を指示する。その後S186−3へ処理が進む。 In S186-2 message acquisition processing (message acquisition unit), a message is read from the input storage unit and output to the message storage unit. The control unit is notified of the completion of processing. The control unit instructs the topic extraction unit to start processing. Thereafter, the process proceeds to S186-3.
S186−3話題抽出処理(話題抽出部)において、
(1)メッセージ記憶部よりメッセージを読み込みメッセージmとする。
(2)メッセージmを語分割装置へ出力し、語skと品詞や辞書登録の有無等の語情報 tj の対[sk, tk]を要素とするリストL=[[s1, t1], [s2, t2], ...](メッセージiの先頭の語から順にs1, s2)を取得する。
パタン記憶部からパタンを読み込み、前記パタンをPとする。
(3)メッセージ内の話題を記憶するためのリストR、話題候補を記憶するための文字列s、語情報文字列を記憶するための文字列tを用意し、R=[]、s=""、t=""とする。
(4)j = 1
(5) j ≦Lの要素数 でなければ(12)へ。
(6) t = t + tj
(7) t にPにマッチしない部分が存在する場合(9)へ。
(8) s = s + sj、 t = t + tj とし、(11)へ。
(9) s = ""であれば t = "" として(11)へ。
(10)R = R +[ s]、 S = ""、 t = ""。
(11) j = j + 1として、(5)へ。
(12)話題出現保持部181に記憶されているRの各要素に対する値を読み出し、各値を1加算し、話題出現保持部181に記録されているRの各要素の値を前記加算後のそれぞれの値に更新する。話題出現保持部181に記録されていないRの要素に対しては、話題出現保持部181に前記要素の値を格納する領域を作成し、前記領域に値1を出力する。その後S186−4へ処理が進む。
In S186-3 topic extraction processing (topic extraction unit),
(1) A message is read from the message storage unit and set as a message m.
(2) The message m is output to the word segmenting device, and the list L = [[s1, t1], [s2] having a pair [sk, tk] of the word information tj such as the word sk and the part of speech or dictionary registration. , t2], ...] (s1, s2 in order from the first word of message i).
A pattern is read from the pattern storage unit, and the pattern is set to P.
(3) A list R for storing topics in a message, a character string s for storing topic candidates, and a character string t for storing word information character strings are prepared, and R = [], s = "", T ="".
(4) j = 1
(5) If j ≤ number of elements, go to (12).
(6) t = t + tj
(7) If there is a part that does not match P in t, go to (9).
(8) Set s = s + sj, t = t + tj, and go to (11).
(9) If s = "", set t = "" and go to (11).
(10) R = R + [s], S = “”, t = “”.
(11) As j = j + 1, go to (5).
(12) Read the value for each element of R stored in the topic
S186−4話題カウンタ更新処理(話題抽出部)において、
(1)インデックス保持部にメッセージ数N件未満に対する話題カウンタが保持されている場合(2)へ処理が進む。そうでなければ(3)へ処理が進む。
(2)関連付けられている時刻が最も古いメッセージから生成された話題カウンタを削除する。その後(3)へ処理が進む。
(3)インデックス保持部中の各メッセージの話題カウンタにおけるメッセージm中の各話題(Rの要素)の値を読み込み、前記読み込んだ値それぞれに対して1加算した値を話題カウンタ記憶部に出力する。
(4)メッセージm中の各話題(Rの要素)に対して値0をもつカウンタと、メッセージmに関連づけられている時刻をもつメッセージm用の話題カウンタを作成し、インデックス保持部へ追加する。その後S186−1へ処理が進む。
In S186-4 topic counter update processing (topic extraction unit),
(1) When a topic counter for less than N messages is held in the index holding unit, the process proceeds to (2). Otherwise, the process proceeds to (3).
(2) Delete the topic counter generated from the message with the oldest associated time. Thereafter, the process proceeds to (3).
(3) Read the value of each topic (element of R) in the message m in the topic counter of each message in the index holding unit, and output a value obtained by adding 1 to each of the read values to the topic counter storage unit .
(4) Create a counter with a value of 0 for each topic (element of R) in message m and a topic counter for message m with the time associated with message m, and add them to the index holding unit . Thereafter, the process proceeds to S186-1.
インデックス更新部186においては、規定メッセージ数に達して古いメッセージに対する話題カウンタを削除する際(S186−4(2))、話題出現保持部における削除するメッセージに含まれる話題に対する領域から値を読み出し、前記それぞれの値を1減算し、話題出現保持部における前記各領域に出力してもよい。
In the
スコア計算部182、185は、182−7、185−3においてメッセージmiの話題wjに対して、前記カウンタCmi,wjを話題出現数保持部181に保持されている話題wjに対する値DFwjを分母の構成要素とする式で重みづけして指定された時刻Tに対する各メッセージの各話題のスコアを求める。たとえば、以下の式を用いることができる。
The
scoremi,wj=(Cmi,wj/DFwj)/(T−tmi)
第1の実施の形態と同様、各話題のスコアとして一番高いスコアを採用した場合、第1の実施の形態の話題スコア
wa=1/12、wb=1/2、wc=1/12、wd=0、we=0、wf=1/2
は、出現メッセージ数がDFwa=2、DFwb=4、DFwc=2、DFwd=1、DFwe=1、DFwf=2であるので、
wa=1/24、wb=1/8、wc=1/24、wd=0、we=0、wf=1/4
となり、指定された時刻の周辺で密に現れ、より珍しい話題である話題wfのスコアを頻繁に現れる話題wbより高くすることが可能である。
score mi, wj = (C mi, wj / DF wj ) / (T-t mi )
Similar to the first embodiment, when the highest score is adopted as the score of each topic, the topic score w a = 1/12, w b = 1/2, w c = 1 in the first embodiment. / 12, w d = 0, w e = 0, w f = 1/2
Since the number of occurrences message is DF wa = 2, DF wb = 4, DF wc = 2, DF wd = 1, DF we = 1, DF wf = 2,
w a = 1/24, w b = 1/8, w c = 1/24, w d = 0, w e = 0, w f = 1/4
Thus, the score of the topic w f that appears densely around the designated time and is a more unusual topic can be made higher than the score of the topic w b that appears frequently.
なお、話題出現保持部181の更新を行わず、予め与えられている値を利用してもよい。
Note that a value given in advance may be used without updating the topic
<第8の実施の形態>
図19(a)、(b), (c)は本発明に係わる情報処理装置の第8の実施の形態を示す。スコア計算部192、インデックス更新部193、インデックス更新部194、スコア計算部195は、各メッセージを処理する際、第4〜第6の実施の形態の処理に加え、各語が出現したメッセージの数(DF)をカウントし、語出現保持部191に記録していく。図32はスコア計算部192、図33はインデックス作成部193、図34はスコア計算部195、図35はインデックス更新部196の構成の一例をそれぞれ示す図である。
<Eighth Embodiment>
19A, 19B, and 19C show an eighth embodiment of the information processing apparatus according to the present invention. When the
以下にスコア計算部192、インデックス作成部193、スコア計算部195、インデックス更新部196の処理フローの例を示す。
An example of the processing flow of the
《スコア計算部192処理フロー》
S192−1順序付与処理(メッセージ順序付与部)において、メッセージ保持部に保持されているメッセージを関係づけられている時刻でソートし、時刻が古い順にメッセージ1...メッセージNと順序付けし、前記順序が付与されたメッセージ群を順序付与済みメッセージ記憶部へ出力する。
<<
In S192-1 order assignment processing (message order assignment unit), the messages held in the message holding unit are sorted by the associated time, and the messages are ordered in the order of
S192−2指定時刻取得処理(時刻取得部)において、入力記憶部より外部より指定された時刻を読み込み、時刻記憶部へ前記時刻を出力する。 In S192-2 designated time acquisition processing (time acquisition unit), the time specified from the outside is read from the input storage unit, and the time is output to the time storage unit.
S192−3初期設定処理(構成語情報付き話題抽出部)において、
(1)順序付与済みメッセージ記憶部よりメッセージ群を読み込む。
(2)N=前記読み込みメッセージ数とし、処理カウンタi=1とする。
In S192-3 initial setting processing (topic extraction unit with constituent word information),
(1) A message group is read from the order-assigned message storage unit.
(2) N = the number of read messages, and process counter i = 1.
S192−4話題抽出処理完了判定処理(構成語情報付き話題抽出部)において、
i > N (全てのメッセージに対して処理完了)ならS192−7へ処理が進む。
In S192-4 topic extraction processing completion determination processing (topic extraction unit with constituent word information),
If i> N (processing is completed for all messages), the process proceeds to S192-7.
S192−5構成語情報付き話題抽出処理(構成語情報付き話題抽出部)において、
(1)メッセージiを語分割装置へ出力し、語skと品詞や辞書登録の有無等の語情報 tj の対[sk, tk]を要素とするリストL=[[s1, t1], [s2, t2], ...](メッセージiの先頭の語から順にs1, s2)を取得する。
(2)パタン記憶部からパタンを読み込み、前記パタンをPとする。
(3)メッセージ内の話題を記憶するためのリストR、話題候補を記憶するための文字列s、語情報文字列を記憶するための文字列t、各話題を構成する語を記憶するためのリストU、メッセージ内の語を記憶するためのリストQを用意し、R=[]、s=""、t=""、U=[]、Q=[]とする。
(4)j = 1
(5) j ≦Lの要素数 でなければ(14)へ処理が進む。
(6) t = t + tj
(7) t にPにマッチしない部分が存在する場合(9)へ処理が進む。
(8) s = s + sj、 t = t + tj 、U = U + [sj] とし、(11)へ処理が進む。
(9) s = ""であれば t = "" として(11)へ処理が進む。
(10)R = R + [[ s, U]]、 s = ""、 t = ""、U = []。
(11)sj ∈Qであれば(13)へ処理が進む。
(12) Q = Q + [sj]。
(13) j = j + 1として、(5)へ処理が進む。
(14)語出現保持部191に記憶されているQの各要素に対する値を読み出し、各値を1加算し、語出現保持部191に記録されているQの各要素の値を前記加算後のそれぞれの値に更新する。語出現保持部191に記録されていないQの要素に対しては、語出現保持部191に前記要素の値を格納する領域を作成し、前記領域に値1を出力する。その後S192−6へ処理が進む。
In S192-5 topic extraction processing with constituent word information (topic extracting section with constituent word information),
(1) The message i is output to the word segmentation device, and the list L = [[s1, t1], [s2] having a pair [sk, tk] of the word information tj such as the word sk and the part of speech or the presence / absence of dictionary registration , t2], ...] (s1, s2 in order from the first word of message i).
(2) A pattern is read from the pattern storage unit, and the pattern is set to P.
(3) A list R for storing topics in a message, a character string s for storing topic candidates, a character string t for storing word information character strings, and a word constituting each topic A list U and a list Q for storing words in the message are prepared, and R = [], s = "", t = "", U = [], Q = [].
(4) j = 1
(5) If j ≦ L is not satisfied, the process proceeds to (14).
(6) t = t + tj
(7) If there is a part that does not match P in t, the process proceeds to (9).
(8) s = s + sj, t = t + tj, U = U + [sj], and the process proceeds to (11).
(9) If s = “”, the process proceeds to (11) with t = “”.
(10) R = R + [[s, U]], s = “”, t = “”, U = [].
(11) If sj εQ, the process proceeds to (13).
(12) Q = Q + [sj].
(13) As j = j + 1, the process proceeds to (5).
(14) Read the value for each element of Q stored in the word
S192−6構成語情報付き話題カウンタ更新処理(構成語情報付き話題抽出部)において、
(1)メッセージi中の各話題の各構成語(R = [[s1, [u11, u12...]], [s2, [u21, ...]], ...] のuxy)に対して値を0にもつカウンタとメッセージiに関連づけられている時刻とメッセージiに含まれる語をもつメッセージi用の構成語情報付き話題カウンタを作成し、構成語情報付き話題カウンタ記憶部へ出力する。
(2)構成語情報付き話題カウンタ記憶部中のメッセージ1〜メッセージi-1用の構成語情報付き話題カウンタにおけるメッセージi中の各語(Qの要素)の値を読み込み、前記読み込んだ値それぞれに対して1加算した値を構成語情報付き話題カウンタ記憶部に出力する。
(3)i = i + 1とし、S192−4へ処理が進む。
In S192-6 topic counter update processing with constituent word information (topic extracting unit with constituent word information),
(1) In each constituent word (R = [[s1, [u11, u12 ...]], [s2, [u21, ...]], ...] in message i) On the other hand, a topic counter with constituent word information is created for a message i having a counter with a value of 0 and the time associated with message i and the word included in message i, and output to the topic counter storage section with constituent word information To do.
(2) Read the value of each word (element of Q) in message i in the topic counter with constituent word information for
(3) Set i = i + 1, and the process proceeds to S192-4.
S192−7構成語情報付きスコア算出処理(構成語情報付きスコア算出部)において、
(1)時刻記憶部から指定時刻を、構成語情報付き話題カウンタ記憶部から各メッセージの各話題を構成する各語の値と各メッセージに対する構成語情報付き話題カウンタに関連付けられている時刻を、語出現保持部から各語の値をそれぞれ読み込み、各メッセージの各話題に対し、構成語情報付き話題カウンタ記憶部から読み出された前記話題を構成する語の値を語出現保持部から読み出された前記話題を構成する語の値を分母の構成要素とする式で重み付けした値を分子の構成要素にもち、指定された前記時刻と当該メッセージに関連付けられている時刻の差を分母の構成要素にもつ式でスコアを求める。
(2)各話題に対してS117の(1)で求めた当該話題のスコアの値の中から代表値を決定し、各話題とその代表値を話題スコア値記憶部へ出力する。
In the S192-7 score calculation process with constituent word information (score calculator with constituent word information),
(1) The designated time from the time storage unit, the value of each word constituting each topic of each message from the topic counter storage unit with constituent word information, and the time associated with the topic counter with constituent word information for each message, The value of each word is read from the word appearance holding unit, and the value of the word constituting the topic read from the topic counter storage unit with constituent word information is read from the word appearance holding unit for each topic of each message. A value obtained by weighting the value of a word constituting the topic with an expression having a denominator component as a denominator component is used as a numerator component, and the difference between the designated time and the time associated with the message is configured as a denominator. Find the score with the expression of the element.
(2) For each topic, a representative value is determined from the score values of the topic obtained in (1) of S117, and each topic and its representative value are output to the topic score value storage unit.
《インデックス作成部193処理フロー》
S193−1順序付与処理(メッセージ順序付与部)において、メッセージ保持部に保持されているメッセージを関係づけられている時刻でソートし、時刻が古い順にメッセージ1...メッセージNと順序付けし、前記順序が付与されたメッセージ群を順序付与済みメッセージ記憶部へ出力する。
<< Process Flow of
In S193-1 order assigning process (message order assigning unit), the messages held in the message holding unit are sorted according to the associated time, and the messages are ordered in the order of
S193−2指定時刻取得処理(時刻取得部)において、入力記憶部より外部より指定された時刻を読み込み、時刻記憶部へ前記時刻を出力する。 In S193-2 designated time acquisition processing (time acquisition unit), the time specified from the outside is read from the input storage unit, and the time is output to the time storage unit.
S193−3初期設定処理(構成語情報付き話題抽出部)において、
(1)順序付与済みメッセージ記憶部よりメッセージ群を読み込む。
(2)N=前記読み込みメッセージ数とし、処理カウンタi=1とする。
In S193-3 initial setting processing (topic extraction unit with constituent word information),
(1) A message group is read from the order-assigned message storage unit.
(2) N = the number of read messages, and process counter i = 1.
S193−4話題抽出処理完了判定処理(構成語情報付き話題抽出部)において、i > N (全てのメッセージに対して処理完了)ならS193−7へ処理が進む。 In S193-4 topic extraction processing completion determination processing (topic extraction unit with constituent word information), if i> N (processing is completed for all messages), the processing proceeds to S193-7.
S193−5構成語情報付き話題抽出処理(構成語情報付き話題抽出部)において、
(1)メッセージiを語分割装置へ出力し、語skと品詞や辞書登録の有無等の語情報 tkの対[sk, tk]を要素とするリストL=[[s1, t1], [s2, t2], ...](メッセージiの先頭の語から順にs1, s2)を取得する。
(2)パタン記憶部からパタンを読み込み、前記パタンをPとする。
(3)メッセージ内の話題を記憶するためのリストR、話題候補を記憶するための文字列s、語情報文字列を記憶するための文字列t、各話題を構成する語を記憶するためのリストU、メッセージ内の語を記憶するためのリストQを用意し、R=[]、s=""、t=""、U=[]、Q=[]とする。
(4)j = 1
(5) j ≦Lの要素数でなければ(14)へ処理が進む。
(6) t = t + tj
(7) t にPにマッチしない部分が存在する場合(9)へ処理が進む。
(8) s = s + sj、 t = t + tj 、U = U + [sj] とし、(11)へ処理が進む。
(9) s = ""であれば t = "" として(11)へ処理が進む。
(10)R = R + [[ s, U]]、 s = ""、 t = ""、U = []。
(11)sj ∈Qであれば(13)へ処理が進む。
(12) Q = Q + [sj]。
(13) j = j + 1として、(5)へ処理が進む。
(14)語出現保持部191に記憶されているQの各要素に対する値を読み出し、各値を1加算し、語出現保持部191に記録されているQの各要素の値を前記加算後のそれぞれの値に更新する。語出現保持部191に記録されていないQの要素に対しては、語出現保持部191に前記要素の値を格納する領域を作成し、前記領域に値1を出力する。その後S193−6へ処理が進む。
In S193-5 topic extraction processing with constituent word information (topic extraction unit with constituent word information),
(1) Output message i to a word segmenter, list L = [[s1, t1], [s2] with word [sk], [part of speech], word information such as presence / absence of dictionary registration, etc. , t2], ...] (s1, s2 in order from the first word of message i).
(2) A pattern is read from the pattern storage unit, and the pattern is set to P.
(3) A list R for storing topics in a message, a character string s for storing topic candidates, a character string t for storing word information character strings, and a word constituting each topic A list U and a list Q for storing words in the message are prepared, and R = [], s = "", t = "", U = [], Q = [].
(4) j = 1
(5) If j ≦ L is not satisfied, the process proceeds to (14).
(6) t = t + tj
(7) If there is a part that does not match P in t, the process proceeds to (9).
(8) s = s + sj, t = t + tj, U = U + [sj], and the process proceeds to (11).
(9) If s = “”, the process proceeds to (11) with t = “”.
(10) R = R + [[s, U]], s = “”, t = “”, U = [].
(11) If sj εQ, the process proceeds to (13).
(12) Q = Q + [sj].
(13) As j = j + 1, the process proceeds to (5).
(14) Read the value for each element of Q stored in the word
S193−6構成語情報付き話題カウンタ更新処理(構成語情報付き話題抽出部)において、
(1)メッセージi中の各話題の各構成語(R = [[s1, [u11, u12...]], [s2, [u21, ...]], ...] のuxy)に対して値を0にもつカウンタとメッセージiに関連づけられている時刻とメッセージiに含まれる語をもつメッセージi用の構成語情報付き話題カウンタを作成し、構成語情報付き話題カウンタ記憶部へ出力する。
(2)構成語情報付き話題カウンタ記憶部中のメッセージi-1用の構成語情報付き話題カウンタにおけるメッセージi中の各語(Qの要素)の値を読み込み、前記読み込んだ値それぞれに対して1加算した値を構成語情報付き話題カウンタ記憶部に出力する。
(3)i = i + 1とし、S193−4へ処理が進む。
In S193-6 topic counter update processing with constituent word information (topic extracting unit with constituent word information),
(1) In each constituent word (R = [[s1, [u11, u12 ...]], [s2, [u21, ...]], ...] in message i) On the other hand, a topic counter with constituent word information is created for a message i having a counter with a value of 0 and the time associated with message i and the word included in message i, and output to the topic counter storage section with constituent word information To do.
(2) Read the value of each word (Q element) in message i in the topic counter with constituent word information for message i-1 in the topic counter storage unit with constituent word information, and for each of the read values The value added by 1 is output to the topic counter storage unit with constituent word information.
(3) Set i = i + 1, and the process proceeds to S193-4.
S193−7出力処理(出力部)において、 各メッセージの各話題とその構成語の値、各メッセージに関連付けられている時刻を構成語情報付き話題カウンタ記憶部から読み出し、インデックス保持部へ出力する。 In S193-7 output processing (output unit), each topic of each message, the value of its constituent word, and the time associated with each message are read from the topic counter storage unit with constituent word information and output to the index holding unit.
《スコア計算部195処理フロー》
S195−1停止チェック処理において、制御部は処理停止フラグがonかチェックし、フラグがonであれば処理を終了する。
<<
In the S195-1 stop check process, the control unit checks whether the process stop flag is on. If the flag is on, the control unit ends the process.
S195−2指定時刻取得処理(時刻取得部)において、入力記憶部より外部より指定された時刻を読み込み、時刻記憶部へ前記時刻を出力する。時刻を出力後、制御部に出力完了を通知する。制御部は構成語情報付きスコア算出部へ処理開始を指示する。その後S195−3へ処理が進む。 In S195-2 designated time acquisition processing (time acquisition unit), the time specified from the outside is read from the input storage unit, and the time is output to the time storage unit. After outputting the time, the control unit is notified of the completion of output. The control unit instructs the score calculation unit with constituent word information to start processing. Thereafter, the process proceeds to S195-3.
S195−3構成語情報付きスコア算出処理(構成語情報付きスコア算出部)において、
(1)時刻記憶部から指定時刻を、構成語情報付き話題カウンタ記憶部から各メッセージの各話題を構成する各語の値と各メッセージに対する構成語情報付き話題カウンタに関連付けられている時刻を、語出現保持部から各語の値をそれぞれ読み込み、各メッセージの各話題に対し、構成語情報付き話題カウンタ記憶部から読み出された前記話題を構成する語の値を語出現保持部から読み出された前記話題を構成する語の値を分母の構成要素とする式で重み付けした値を分子の構成要素にもち、指定された前記時刻と当該メッセージに関連付けられている時刻の差を分母の構成要素にもつ式でスコアを求める。
(2)各話題に対してS195−3の(1)で求めた当該話題のスコアの値の中から代表値を決定し、各話題とその代表値を出力記憶部へ出力する。その後、制御部へ処理完了を通知する。その後S195−1へ処理が進む。
In S195-3 score calculation processing with constituent word information (score calculating section with constituent word information),
(1) The designated time from the time storage unit, the value of each word constituting each topic of each message from the topic counter storage unit with constituent word information, and the time associated with the topic counter with constituent word information for each message, The value of each word is read from the word appearance holding unit, and the value of the word constituting the topic read from the topic counter storage unit with constituent word information is read from the word appearance holding unit for each topic of each message. A value obtained by weighting the value of a word constituting the topic with an expression having a denominator component as a denominator component is used as a numerator component, and the difference between the designated time and the time associated with the message is configured as a denominator. Find the score with the expression of the element.
(2) For each topic, a representative value is determined from the score values of the topic obtained in (1) of S195-3, and each topic and its representative value are output to the output storage unit. Thereafter, the control unit is notified of the completion of processing. Thereafter, the process proceeds to S195-1.
《インデックス更新部196処理フロー》
S196−1停止チェック処理において、制御部は処理停止フラグがonかチェックし、フラグがonであれば処理を終了する。
<< Process Flow of
In the S196-1 stop check process, the control unit checks whether the process stop flag is on, and ends the process if the flag is on.
S196−2メッセージ取得処理(メッセージ取得部)において、入力記憶部よりメッセージを読み込みメッセージ記憶部へ出力する。処理の完了を制御部へ通知する。制御部は話題抽出部へ処理開始を指示する。その後S196−3へ処理が進む。 In S196-2 message acquisition processing (message acquisition unit), a message is read from the input storage unit and output to the message storage unit. The control unit is notified of the completion of processing. The control unit instructs the topic extraction unit to start processing. Thereafter, the process proceeds to S196-3.
S196−3構成語情報付き話題抽出処理(構成語情報付き話題抽出部)において、
(1)メッセージ記憶部よりメッセージを読み込みメッセージmとする。
(2)メッセージmを語分割装置へ出力し、語skと品詞や辞書登録の有無等の語情報 tj の対[sk, tk]を要素とするリストL=[[s1, t1], [s2, t2], ...](メッセージiの先頭の語から順にs1, s2)を取得する。
(3)パタン記憶部からパタンを読み込み、前記パタンをPとする。
(4)メッセージ内の話題を記憶するためのリストR、話題候補を記憶するための文字列s、語情報文字列を記憶するための文字列t、各話題を構成する語を記憶するためのリストU、メッセージ内の語を記憶するためのリストQを用意し、R=[]、s=""、t=""、U=[]、Q=[]とする。
(5)j = 1
(6) j ≦Lの要素数 でなければ(15)へ処理が進む。
(7) t = t + tj
(8) t にPにマッチしない部分が存在する場合(10)へ処理が進む。
(9) s = s + sj、 t = t + tj 、U = U + [sj] とし、(12)へ処理が進む。
(10) s = ""であれば t = "" として(12)へ処理が進む。
(11)R = R + [[ s, U]]、 s = ""、 t = ""、U = []。
(12)sj ∈Qであれば(13)へ処理が進む。
(13) Q = Q + [sj]。
(14) j = j + 1として、(6)へ処理が進む。
(15)語出現保持部191に記憶されているQの各要素に対する値を読み出し、各値を1加算し、語出現保持部191に記録されているQの各要素の値を前記加算後のそれぞれの値に更新する。語出現保持部191に記録されていないQの要素に対しては、語出現保持部191に前記要素の値を格納する領域を作成し、前記領域に値1を出力する。その後S196−4へ処理が進む。
In S196-3 topic extraction processing with constituent word information (topic extracting section with constituent word information),
(1) A message is read from the message storage unit and set as a message m.
(2) The message m is output to the word segmenting device, and the list L = [[s1, t1], [s2] having a pair [sk, tk] of the word information tj such as the word sk and the part of speech or dictionary registration. , t2], ...] (s1, s2 in order from the first word of message i).
(3) A pattern is read from the pattern storage unit, and the pattern is set to P.
(4) A list R for storing topics in a message, a character string s for storing topic candidates, a character string t for storing word information character strings, and a word for composing each topic A list U and a list Q for storing words in the message are prepared, and R = [], s = "", t = "", U = [], Q = [].
(5) j = 1
(6) If j ≦ L, the process proceeds to (15).
(7) t = t + tj
(8) If there is a part that does not match P in t, the process proceeds to (10).
(9) s = s + sj, t = t + tj, U = U + [sj], and the process proceeds to (12).
(10) If s = “”, t = “” and the process proceeds to (12).
(11) R = R + [[s, U]], s = “”, t = “”, U = [].
(12) If sj ∈Q, the process proceeds to (13).
(13) Q = Q + [sj].
(14) As j = j + 1, the process proceeds to (6).
(15) Read the value for each element of Q stored in the word
S196−4構成語情報付き話題カウンタ更新処理(構成語情報付き話題抽出部)
(1)インデックス保持部にメッセージ数N件未満に対する構成語情報付き話題カウンタが保持されている場合(2)へ処理が進む。そうでなければ(3)へ処理が進む。
(2)関連付けられている時刻が最も古いメッセージから生成された構成語情報付き話題カウンタを削除する。(3)へ処理が進む。
(3)インデックス保持部中の各メッセージの構成語情報付き話題カウンタにおけるメッセーmi中の各語(Qの要素)の値を読み込み、前記読み込んだ値それぞれに対して1加算した値を構成語情報付き話題カウンタ記憶部に出力する。
(4)メッセージm中の各話題の各構成語(R = [[s1, [u11, u12...]], [s2, [u21, ...]], ...] のuxy)に対して値を0にもつカウンタとメッセージiに関連づけられている時刻とメッセージmに含まれる語をもつメッセージm用の構成語情報付き話題カウンタを作成し、インデックス保持部へ追加する。S196−1へ処理が進む。
S196-4 Topic counter update process with constituent word information (topic extraction unit with constituent word information)
(1) If the index holding unit holds topic counters with constituent word information for less than N messages, the process proceeds to (2). Otherwise, the process proceeds to (3).
(2) Delete the topic counter with constituent word information generated from the message with the oldest associated time. The process proceeds to (3).
(3) The value of each word (element of Q) in the message mi in the topic counter with constituent word information of each message in the index holding unit is read, and the value obtained by adding 1 to each of the read values is constituent word information Output to the topic counter storage unit.
(4) To each constituent word of each topic in message m (R = [[s1, [u11, u12 ...]], [s2, [u21, ...]], ...] uxy) On the other hand, a counter having a value of 0, a time counter associated with message i having a time associated with message i, and a word included in message m are created and added to the index holding unit. The process proceeds to S196-1.
インデックス更新部196においては、規定メッセージ数に達して古いメッセージ用の話題情報を削除する際、削除するメッセージに含まれる語の数を1減算してもよい。
In the
スコア計算部192、195は、192−7、195−3においてメッセージmiの話題wjに対して、各メッセージの各話題の当該話題を構成する語用の前記カウンタCmi,wj,tkを語出現保持部191に保持されている語tkに対する値DFtkを分母の構成要素とする式で重みづけして指定された時刻Tに対する各メッセージの各話題のスコアを求める。たとえば、以下の式を用いることができる。
たとえば、以下のような話題と語を含むメッセージを対象とした場合について説明する。 For example, a case where a message including the following topics and words is targeted will be described.
[13:40、[[wa、[[a11、3]、[a12、2]]]、[wb、[[b11、1]、[b12、0]]]]、[a11、a12、b11、b12、o21、o22、]]
[13:45、[[wa、[[a11、3]、[a12、2]]]]、[a11、a12、o11、o12、]]
[13:48、[a11、b12、o31、o32、]]
[13:49、[[wa、[[a11、0]、[a12、0]]]]、[a11、a12、b11、o11、o12、]]
時刻Tとして「13:50」が指定された場合に対して、各話題のスコアとして一番高いスコアを採用した場合、話題を構成する下記の各語の語の出現メッセージ数
DFa11=4、DFa13=3、DFb11=2、DFb12=2
を用いて、話題のスコアは
wa=1/12、wb=1/10
となる。
[13:40, [[w a, [[a 11, 3], [a 12, 2]]], [w b, [[
[13:45, [[w a, [[a 11, 3], [a 12, 2]]]], [a 11, a 12,
[13:48, [a 11, b 12,
[13:49, [[w a, [[a 11, 0], [a 12, 0]]]], [a 11, a 12,
When “13:50” is designated as the time T, when the highest score is adopted as the score of each topic, the number of appearance messages of words of the following words constituting the topic DF a11 = 4, DF a13 = 3, DF b11 = 2 and DF b12 = 2
The topic score is w a = 1/12, w b = 1/10.
It becomes.
以上より、本発明により、指定された時刻の周辺で密に現れ、より珍しい話題であり、話題が出現した後、省略形のように話題の部分文字列として表されて話題がメッセージの中で完全に同じ形では現れない話題である話題wbのスコアを頻繁に現れる話題waより高くすることが可能である。 From the above, according to the present invention, it appears densely around the specified time, is a more unusual topic, and after the topic appears, the topic is represented in the message as a substring of the topic as an abbreviation. It is possible to make the score of the topic w b that is a topic that does not appear in the same form higher than the topic w a that frequently appears.
なお、語出現保持部191の更新を行わず、予め与えられている値を利用してもよい。
Note that a value given in advance may be used without updating the word
以上説明した本発明の実施の形態によれば、チャネル間で話題のスコアを比較可能となるので、全てのチャネルの話題に対して、スコアの高い順にならべた話題の一覧を利用者に提示したり、スコアの高い話題をもつ順に並べたチャネルの一覧を利用者に提示することにより、有用で新鮮な話題で複数の利用者と話しができるチャネルへの呼び込みを優先的に行なうことが可能となり、利用者は提示されたチャネルを訪れることにより、流行の兆しや世の中の動きと関係する有益な情報の入手が可能となる。また白熱した会話を眺めたり会話に参加できたり、充実した時間を過ごすことができる。 According to the embodiment of the present invention described above, the topic scores can be compared between channels, so a list of topics arranged in descending order of scores is presented to the user for all channel topics. Or presenting a list of channels arranged in the order of topics with high scores to the user, it is possible to give priority to channels that can talk to multiple users on useful and fresh topics. By visiting the presented channel, users can obtain useful information related to signs of epidemic and movements in the world. You can also spend a fulfilling time watching the heated conversation and participating in the conversation.
1、4、7、10、12、15 情報処理装置
11 メッセージ保持部
12、43、73、101、123、153、182、185、192、195 スコア計算部
41、72、121、183、193 インデックス作成部
42、72、122、152 インデックス保持部
151、186、196 インデックス更新部
181 話題出現保持部
191 語出現保持部
1, 4, 7, 10, 12, 15
Claims (16)
前記メッセージ保持部に保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各話題に対して指定された時刻を基準としたスコアを求めるスコア計算部と、を有し、
前記スコア計算部は、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求めること
を特徴とする情報処理装置。 A message holding unit for holding a message associated with a time;
Each message held in the message holding unit is divided into words, a word sequence that matches a predetermined pattern is extracted from each message as a topic from the divided word sequence, and for each topic A score calculation unit that obtains a score based on the specified time,
The score calculation unit has a difference between the specified time and the time associated with the message for each topic of each message as a denominator component, and the associated time is newer than the message and An information processing apparatus characterized in that a density of a topic is obtained using an expression having the number of messages including the topic as a component of a numerator, and a representative value of the density is obtained as a topic score for each topic.
前記メッセージ保持部に保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各メッセージの各話題に対して、当該メッセージに関連づけられている時刻および関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を関連づけるインデックス作成部と、
前記インデックス作成部の結果を保持するインデックス保持部と、
前記インデックス保持部で保持されている話題に対して指定された時刻を基準としたスコアを求めるスコア計算部と、を有し、
前記スコア計算部は、前記インデックス保持部を参照し、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求めること
を特徴とする情報処理装置。 A message holding unit for holding a message associated with a time;
Dividing each message held in the message holding unit into words, extracting a word sequence that matches a predetermined pattern from the divided word sequence as a topic from each message, each message of each message An index creating unit for associating a topic with a time associated with the message and a number of messages that are newer than the message and include the topic;
An index holding unit for holding the result of the index creation unit;
A score calculation unit that obtains a score based on the time specified for the topic held in the index holding unit,
The score calculation unit refers to the index holding unit, and is associated with each topic of each message by using a difference between the designated time and the time associated with the message as a denominator component. Obtaining the density of the topic using an expression having the number of messages that are newer than the message and including the topic as a component of the numerator, and obtaining a representative value of the density as a topic score for each topic. Information processing apparatus.
時刻が関連づけられているメッセージが入力されると、前記入力されたメッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を話題として抽出し、前記抽出された各話題に対して、前記インデックス保持部に保持されている当該話題と一致する話題を有する話題情報の前記メッセージの数を1増加させ、あるいは、前記入力されたメッセージに関連づけられている時刻と、前記関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を0とした話題情報を作成し、前記インデックス保持部に追加し、前記追加処理の前で前記インデックス保持部にメッセージ数N件に対する話題情報が保持されている場合は、関連づけられている時刻が最も古いメッセージから生成された話題情報を削除するインデックス更新部と、
前記インデックス保持部で保持されている話題に対して指定された時刻を基準としたスコアを求めるスコア計算部と、を有し、
前記スコア計算部は、前記インデックス保持部を参照し、各メッセージの各話題に対して指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求めること
を特徴とする情報処理装置。 The topic information for each topic of each message in a maximum of N messages in ascending order of the associated time is held, and the topic information is related to the topic, the time associated with the message, and the associated time. An index holding unit characterized by including the number of messages that are newer and include the topic;
When a message associated with a time is input, the input message is divided into words, a word sequence that matches a predetermined pattern is extracted as a topic from the divided word sequence, For each extracted topic, the number of messages of topic information having a topic that matches the topic held in the index holding unit is increased by 1, or associated with the input message. Topic information in which the number of messages whose time and the associated time are newer than the message and include the topic is 0 is created, added to the index holding unit, and the index holding unit before the adding process If the topic information for N messages is stored in the message, it is generated from the message with the oldest associated time. And the index update section that you want to delete the topic information,
A score calculation unit that obtains a score based on the time specified for the topic held in the index holding unit,
The score calculation unit refers to the index holding unit, and uses the difference between the time specified for each topic of each message and the time associated with the message as a denominator component, and the associated time The density of the topic is obtained using an expression having the number of messages newer than the message and including the topic as a numerator component, and the representative value of the density is obtained as the topic score for each topic. Information processing device.
前記メッセージ保持部に保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各話題に対して指定された時刻を基準としたスコアを求めるスコア計算部を有し、
前記スコア計算部は、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求めること
を特徴とする情報処理装置。 A message holding unit for holding a message associated with a time;
Each message held in the message holding unit is divided into words, a word sequence that matches a predetermined pattern is extracted from each message as a topic from the divided word sequence, and for each topic A score calculation unit for obtaining a score based on the specified time,
The score calculation unit has a difference between the specified time for each topic of each message and the time associated with the message as a denominator component, and associates with each word constituting the topic The value of the topic is obtained using an expression having the number of messages that are newer than the message and including the word as a component of the numerator, and the representative value of the value is obtained as the topic score for each topic. An information processing apparatus characterized by the above.
前記メッセージ保持部に保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各メッセージの各話題に対して、当該メッセージに関連づけられている時刻および当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を関連づけるインデックス作成部と、
前記インデックス作成部の結果を保持するインデックス保持部と、
前記インデックス保持部で保持されている話題に対して指定された時刻を基準としたスコアを求めるスコア計算部と、を有し、
前記スコア計算部は、前記インデックス保持部を参照し、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を分子の構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求めること
を特徴とする情報処理装置。 A message holding unit for holding a message associated with a time;
Dividing each message held in the message holding unit into words, extracting a word sequence that matches a predetermined pattern from the divided word sequence as a topic from each message, each message of each message An index creating unit that associates the number of messages that are related to the topic with the time associated with the message and each word constituting the topic, and the associated time is newer than the message and includes the word;
An index holding unit for holding the result of the index creation unit;
A score calculation unit that obtains a score based on the time specified for the topic held in the index holding unit,
The score calculation unit refers to the index holding unit, and uses the difference between the designated time and the time associated with the message for each topic of each message as a denominator component to configure the topic. The time value associated with each word is newer than the message and the value of the topic is obtained using an expression having the number of messages including the word as a component of the numerator, and the representative value of the value is determined for each topic. An information processing apparatus characterized by being obtained as a topic score.
時刻が関連づけられているメッセージが入力されると、前記入力されたメッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を話題として抽出し、前記入力されたメッセージに含まれる前記各語に対して、前記インデックス保持部に保持されている当該語を有する話題情報の当該語の前記メッセージ数を1増加させ、また、前記抽出された各話題に対して、前記入力されたメッセージに関連づけられている時刻と、および当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を0とした話題情報を作成し、前記インデックス保持部に追加し、前記追加処理の前で前記インデックス保持部にメッセージ数N件に対する話題情報が保持されている場合は、関連づけられている時刻が最も古いメッセージから生成された話題情報を削除するインデックス更新部と、
前記インデックス保持部で保持されている話題に対して指定された時刻を基準としたスコアを求めるスコア計算部を有し、
前記スコア計算部は、前記インデックス保持部を参照し、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を分子の構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求めること
を特徴とする情報処理装置。 The topic information for each topic of each message in a maximum of N messages in ascending order of the associated time is held, and the topic information includes the time associated with the topic and the message, the words constituting the topic, and the topic An index holding unit characterized in that the associated time of each word is newer than the message and includes the number of messages including the word;
When a message associated with a time is input, the input message is divided into words, a word sequence that matches a predetermined pattern is extracted as a topic from the divided word sequence, For each word included in the input message, the number of messages of the word in the topic information having the word held in the index holding unit is increased by 1, and each extracted topic On the other hand, for the time associated with the input message and each word constituting the topic, the associated time is newer than the message and the number of messages including the word is 0. Topic information is created, added to the index holding unit, and topic information for N messages is held in the index holding unit before the adding process. If it is, the index update section that you want to delete the topic information generated from the time associated with the oldest message,
A score calculation unit for obtaining a score based on a time specified for a topic held in the index holding unit;
The score calculation unit refers to the index holding unit, and uses the difference between the designated time and the time associated with the message for each topic of each message as a denominator component to configure the topic. For each word, the value of the topic is determined using an expression having the associated number of messages that is newer than the message and the number of messages including the word as a component of the numerator, and the representative value of the value for each topic An information processing apparatus characterized by obtaining a score as a topic score.
前記保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各話題に対して指定された時刻を基準としたスコアを求める段階と、を有し、
前記スコアを求める段階は、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求めること
を特徴とする情報処理方法。 Holding a message with an associated time,
Each of the held messages is divided into words, and a word sequence that matches a predetermined pattern is extracted from each message as a topic, and specified for each topic. Obtaining a score based on time, and
The step of obtaining the score has a difference between the designated time and the time associated with the message for each topic of each message as a denominator component, and the associated time is newer than the message. An information processing method, comprising: calculating a density of a topic using an expression having a number of messages including the topic as a component of a numerator; and obtaining a representative value of the density as a topic score for each topic.
前記保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各メッセージの各話題に対して、当該メッセージに関連づけられている時刻および関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を関連づける段階と、
前記関連づけられた結果を保持する段階と、
前記保持されている関連づけられた結果中における話題に対して指定された時刻を基準としたスコアを求める段階と、を有し、
前記スコアを求める段階は、前記保持されている関連づけられた結果を参照し、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求めること
を特徴とする情報処理方法。 Holding a message with an associated time;
Dividing each held message into words, extracting a sequence of words that match a predetermined pattern from each segmented word sequence as a topic from each message, for each topic of each message Associating a time associated with the message and a number of messages that are newer than the message and that include the topic;
Holding the associated result;
Obtaining a score based on a specified time for a topic in the held associated result; and
The step of obtaining the score refers to the held associated result, and uses the difference between the designated time and the time associated with the message for each topic of each message as a denominator component. The associated time is newer than the message and the number of messages including the topic is used as an element of the numerator to obtain the density of the topic, and the representative value of the density for each topic is the topic score. An information processing method characterized by
時刻が関連づけられているメッセージが入力されると、前記入力されたメッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を話題として抽出し、前記抽出された各話題に対して、前記保持されている当該話題と一致する話題を有する話題情報の前記メッセージの数を1増加させ、あるいは、前記入力されたメッセージに関連づけられている時刻、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を0とした話題情報を作成し、前記保持されている話題情報へ追加し、前記追加処理の前で前記インデックス保持部にメッセージ数N件に対する話題情報が保持されている場合は、関連づけられている時刻が最も古いメッセージから生成された話題情報を削除する段階と、
保持されている話題に対して指定された時刻を基準としたスコアを求める段階を有し、
前記スコアを求める段階においては、前記保持されている話題情報を参照し、各メッセージの各話題に対して指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求めること
を特徴とする情報処理方法。 It has a step of storing topic information for each topic of each message in a maximum of N messages in ascending order of associated time, and the topic information is associated with the time associated with the topic and the message. Including the number of messages whose time is newer than the message and includes the topic,
When a message associated with a time is input, the input message is divided into words, a word sequence that matches a predetermined pattern is extracted as a topic from the divided word sequence, For each extracted topic, the number of messages of topic information having a topic that matches the held topic is increased by 1, or the time associated with the input message is associated The topic information with a newer time than the message and the number of messages including the topic is created, added to the retained topic information, and the number of messages is stored in the index holding unit before the adding process. When topic information for N cases is held, the topic information generated from the message with the oldest associated time is deleted. And the floor,
Obtaining a score based on a specified time for a topic held;
In the step of obtaining the score, referring to the retained topic information, the difference between the time specified for each topic of each message and the time associated with the message is a denominator component, The density of the topic is obtained by using an expression having the number of messages whose associated time is newer than the message and includes the topic as a component of the numerator, and the representative value of the density is obtained as a topic score for each topic. An information processing method characterized by this.
前記保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各話題に対して指定された時刻を基準としたスコアを求める段階を有し、
前記スコアを求める段階において、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求めること
を特徴とする情報処理方法。 Holding a message with an associated time,
Each of the held messages is divided into words, and a word sequence that matches a predetermined pattern is extracted from each message as a topic, and specified for each topic. Having a stage for obtaining a score based on time,
In the step of obtaining the score, the difference between the designated time and the time associated with the message for each topic of each message has a denominator component, and for each word constituting the topic, The value of the topic is obtained by using an expression having the number of messages whose associated time is newer than the message and includes the word as a component of the numerator, and the representative value of the value is obtained as the topic score for each topic. An information processing method characterized by this.
前記保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各メッセージの各話題に対して、当該メッセージに関連づけられている時刻および当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を関連づける段階と、
前記関連づけられた結果を保持する段階と、
前記保持されている結果中の話題に対して指定された時刻を基準としたスコアを求める段階と、を有し、
前記スコアを求める段階において、前記保持されている関連づけられた結果を参照し、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求めること
を特徴とする情報処理方法。 Holding a message with an associated time;
Dividing each held message into words, extracting a sequence of words that match a predetermined pattern from each segmented word sequence as a topic from each message, for each topic of each message Associating the time associated with the message and each word constituting the topic with the number of messages with the associated time newer than the message and including the word;
Holding the associated result;
Obtaining a score based on a specified time for the topic in the held result, and
In the step of obtaining the score, the stored associated result is referred to, and the difference between the designated time and the time associated with the message is used as a denominator component for each topic of each message. Then, for each word constituting the topic, the value of the topic is obtained using an expression having the number of messages including the word and the associated time is newer than the message. An information processing method characterized in that a representative value is obtained as a topic score.
時刻が関連づけられているメッセージが入力されると、前記入力されたメッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を話題として抽出し、前記入力されたメッセージに含まれる前記各語に対して、前記保持されている当該語を有する話題情報の当該語の前記メッセージ数を1増加させ、また、前記抽出された各話題に対して、前記入力されたメッセージに関連づけられている時刻、および当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を0とした話題情報を作成し、前記話題情報に追加し、前記追加処理の前で前記インデックス保持部にメッセージ数N件に対する話題情報が保持されている場合は、関連づけられている時刻が最も古いメッセージから生成された話題情報を削除する段階と、
前記保持されている話題情報の話題に対して指定された時刻を基準としたスコアを求める段階と、を有し、
前記スコアを求める段階は、前記保持されている話題情報を参照し、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を分子の構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求めること
を特徴とする情報処理方法。 It has a step of storing topic information for each topic of each message in a maximum of N messages in ascending order of associated time, and the topic information constitutes the topic and the time associated with the message and the topic And the number of messages in which the associated time of each word is newer than the message and includes the word,
When a message associated with a time is input, the input message is divided into words, a word sequence that matches a predetermined pattern is extracted as a topic from the divided word sequence, For each word included in the input message, the message number of the word of the topic information having the retained word is increased by 1, and for each extracted topic, For each word constituting the topic and the time associated with the input message, topic information is created in which the associated time is newer than the message and the number of messages including the word is zero. , Added to the topic information, and when the topic information for the number N of messages is held in the index holding unit before the adding process, Comprising the steps of: time to remove the topic information generated from the oldest message that,
Obtaining a score based on a specified time for the topic of the topic information held,
The step of obtaining the score refers to the retained topic information, and has a difference between the designated time and the time associated with the message for each topic of each message as a denominator component, For each word that constitutes the topic, the value of the topic is determined using an expression having the associated number of messages that are newer than the message and the number of messages including the word as a component of the numerator. An information processing method characterized in that a representative value is obtained as a topic score.
The number of messages in which each word appears in the message to be processed is held, and the score of each topic is determined based on the time associated with each word constituting the topic and newer than the message. The information processing according to any one of claims 12 to 14, wherein the number of messages included is calculated by weighting with an expression having the number of messages for the word in the word appearance holding unit as a constituent element of a denominator. Method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005238599A JP2006172424A (en) | 2004-11-18 | 2005-08-19 | Information processor and information processing method |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004335058 | 2004-11-18 | ||
JP2005238599A JP2006172424A (en) | 2004-11-18 | 2005-08-19 | Information processor and information processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006172424A true JP2006172424A (en) | 2006-06-29 |
Family
ID=36673073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005238599A Pending JP2006172424A (en) | 2004-11-18 | 2005-08-19 | Information processor and information processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006172424A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009048394A (en) * | 2007-08-20 | 2009-03-05 | Nippon Telegr & Teleph Corp <Ntt> | Inter-document distance computation apparatus, inter-document distance computation method, program and recording medium |
US9346971B2 (en) | 2009-07-15 | 2016-05-24 | Technical University Of Denmark | Polymer coating comprising 2-methoxyethyl acrylate units synthesized by surface-initiated atom transfer radical polymerization |
-
2005
- 2005-08-19 JP JP2005238599A patent/JP2006172424A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009048394A (en) * | 2007-08-20 | 2009-03-05 | Nippon Telegr & Teleph Corp <Ntt> | Inter-document distance computation apparatus, inter-document distance computation method, program and recording medium |
US9346971B2 (en) | 2009-07-15 | 2016-05-24 | Technical University Of Denmark | Polymer coating comprising 2-methoxyethyl acrylate units synthesized by surface-initiated atom transfer radical polymerization |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109154940B (en) | Learning new words | |
JP4985974B2 (en) | COMMUNICATION SUPPORT METHOD, SYSTEM, AND SERVER DEVICE | |
KR100996311B1 (en) | Method and system for detecting spam user created contentucc | |
CN107657056B (en) | Method and device for displaying comment information based on artificial intelligence | |
JP2019505913A (en) | Specific expression recognition for chat data | |
TWI465941B (en) | A translation processing apparatus, a translation processing program, a computer-readable recording medium having a translation processing program, and a translation processing method | |
US20190151758A1 (en) | Unique virtual entity creation based on real world data sources | |
Kim et al. | Misinformation and hate speech: The case of anti-Asian hate speech during the COVID-19 pandemic | |
CN110457672A (en) | Keyword determines method, apparatus, electronic equipment and storage medium | |
CN106803035A (en) | A kind of password conjecture set creation method and password cracking method based on username information | |
US20140225899A1 (en) | Method of animating sms-messages | |
KR20070106553A (en) | Message character string output system, control method thereof, and information storage medium | |
JP2006172424A (en) | Information processor and information processing method | |
JP2010026773A (en) | Geographical feature information extraction method and system | |
JP7333931B2 (en) | Post analysis system, post analysis device and post analysis method | |
JP2010170324A (en) | Apparatus for supporting knowledge sharing, and method and program thereof | |
JP2017091436A (en) | Feature word selection device | |
JP4403859B2 (en) | Emotion matching device | |
CN110941638A (en) | Application classification rule base construction method, application classification method and device | |
Hämäläinen | User names in Finnish online communities | |
JP2009093581A (en) | Control system for synonym search | |
Roldán-Robles et al. | A conceptual architecture for content analysis about abortion using the Twitter platform | |
JP2006323654A (en) | Topic extraction method and device, program and storage medium | |
Diao-Klaeger et al. | Slogans as Part of Burkina Faso’s Linguistic Landscape During the Insurrection in 2014 | |
Angles | Translating Queer in Japan: Affective Identification and Translation in the ‘Gay Boom'of the 1990s |