JP2006172424A - Information processor and information processing method - Google Patents

Information processor and information processing method Download PDF

Info

Publication number
JP2006172424A
JP2006172424A JP2005238599A JP2005238599A JP2006172424A JP 2006172424 A JP2006172424 A JP 2006172424A JP 2005238599 A JP2005238599 A JP 2005238599A JP 2005238599 A JP2005238599 A JP 2005238599A JP 2006172424 A JP2006172424 A JP 2006172424A
Authority
JP
Japan
Prior art keywords
topic
message
time
word
messages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005238599A
Other languages
Japanese (ja)
Inventor
Megumi Ishii
恵 石井
Minako Izawa
味奈子 井沢
Ryoji Kataoka
良治 片岡
Koichi Ushijima
浩一 牛島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005238599A priority Critical patent/JP2006172424A/en
Publication of JP2006172424A publication Critical patent/JP2006172424A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide an information processor and information processing method capable of keeping a score on each topic of each channel and comparing between the channels wherein the topic, which is newer and occurs more heavily in recent days, scores a higher value, and processing at a high speed when a message is sequentially added. <P>SOLUTION: The information processor includes a message holding part for holding the message with a time related, and a score calculating part for dividing each of the messages held by the message holding part into words, extracting a string of the words matching to a pattern previously given from a string of the divided words from each of the messages as the topic, and obtaining the score on each of the topics with a specified time as a reference. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、掲示板システムやチャットシステムなどのコミュニケーションシステムに係る情報処理装置および情報処理方法に関する。   The present invention relates to an information processing apparatus and an information processing method related to a communication system such as a bulletin board system and a chat system.

掲示板システムやチャットシステムにおいては、頻繁にアクセスしたくなる、利用者を引き付けるコミュニケーションの場の作成が求められている。利用者をコミュニケーションの場に引き付けるには、有益な情報や新しい話題、娯楽性に富んだ面白いメッセージのやりとりなどがその場で発生することが必要である。   In bulletin board systems and chat systems, it is required to create a place for communication that attracts users who want to access frequently. In order to attract users to the place of communication, useful information, new topics, and exchanges of interesting and entertaining messages need to occur on the spot.

上記有益な情報等を場に発生させるには、同じ興味をもつ利用者のメッセージが流れるチャネルへ、興味を同じくする多くの利用者を呼び込むことが重要である。なぜなら情報源を多様にでき、人々による日々の情報発見による多くの新しい情報の提供やさまざまな解決案の提案、いろいろな観点からの議論や会話の合いの手などが発生するからである。   In order to generate the above-mentioned useful information in the field, it is important to attract many users who have the same interest in the channel through which messages of users having the same interest flow. This is because information sources can be diversified, and many new information is provided by people's daily discovery of information, proposals for various solutions, discussions and conversations from various viewpoints, etc. occur.

チャネルへ利用者を呼び込む従来の技術として、非特許文献1に参照される技術が知られている。この技術は各チャネルに対して、そのチャネルの中から話題を選択し、そのチャネルの話題として利用者へ提示する。   As a conventional technique for attracting a user to a channel, a technique referred to Non-Patent Document 1 is known. For each channel, this technique selects a topic from the channel and presents it to the user as the topic of the channel.

具体的には用意された品詞のパタンにマッチする語の列を話題とみなしてチャネル内のメッセージから抜きだす。たとえば、用意するパタンは名詞の連続や名詞間が「の」でつながる文字列等、利用者の興味を引くパタンである。そして、それら抜き出した話題に対して目新しくそのチャネルの最新のメッセージの付近でより密に発生しているほど高いスコアを付与し、スコアの高いものを選択する。   Specifically, a sequence of words that match the prepared part-of-speech pattern is regarded as a topic and extracted from the message in the channel. For example, the prepared pattern is a pattern that attracts the user's interest, such as a string of nouns or a character string in which nouns are connected by “no”. Then, a higher score is given to the extracted topic as it is generated more closely in the vicinity of the latest message of the channel, and a higher score is selected.

この手法は、抜き出した話題の中から目新しくて最新のメッセージの付近でより密に発生しているものを順に選択することにより、そのチャネルの利用者間の流行の兆しとなる話題や現在利用者間で興味が強まっている話題等、利用者にとって有用かつ新鮮で複数の他の利用者と話しができ、かつ表現的に利用者の興味を引くチャネル内の話題を利用者に提示できるため、各チャネルへの利用者の呼び込みに優れている。
石井恵、中渡瀬秀一、富田準二、「名詞句と単語の勢いを用いた話題抽出手法の提案」、情報処理学会第160回自然言語処理研究会予稿集2004−NL−160、2004年3月5日、情報研報Vol.2004、No.23、pp.79−84
This method selects a topic that is new and is more closely generated near the latest message from the extracted topics in order, so that a topic that indicates a trend among users of the channel or a current user. It is useful for users, such as topics that are becoming more and more interesting, and can talk to multiple other users and present topics in channels that attract users' interest in terms of expression. Excellent for attracting users to each channel.
Megumi Ishii, Shuichi Nakawatase, Junji Tomita, "Proposal of Topic Extraction Method Using Noun Phrase and Word Momentum", Proc. Of the IPSJ 160th Natural Language Processing Study Group, 2004-NL-160, March 2004 5th, Information Lab Vol. 2004, no. 23, pp. 79-84

上述した従来技術においては、チャネル毎にそのチャネルの最新メッセージを基準として話題のスコアを求めるため、チャネル間で話題の比較ができない。そのため、以下の解決すべき課題を有する。   In the above-described prior art, topic scores are obtained for each channel based on the latest message of the channel, and thus it is not possible to compare topics between channels. Therefore, it has the following problems to be solved.

たとえば、一カ月間新しいメッセージが発生していないチャネルの話題と現在新しいメッセージが続々と発生しているチャネルの話題が同じスコアとなることがある。そのため、一カ月前に行なわれたコンサートの前売り券の入手の仕方等、情報が古くなっていて役に立たない話題をもつチャネルや、最近誰もそのチャネルにメッセージを流していない寂れて他の利用者と話しができないチャネルへの利用者を導いてしまっていた。   For example, the topic of a channel for which a new message has not occurred for a month and the topic of a channel for which new messages are continuously generated may have the same score. Therefore, channels with topics that are out of date and useless, such as how to obtain advance tickets for concerts held a month ago, and other users who have not sent messages to those channels recently. Led users to channels that could not talk to.

また、メッセージの発生間隔が短いチャネルの話題と発生間隔が長いチャネルの話題が同じスコアになる場合がある。たとえば、数分間で数十メッセージが発生するチャネルの中で発生した話題と1日1メッセージ程度しか発生しないチャネルの中で発生した話題は、発生パタン(たとえば、最新のメッセージが同じ投稿時刻の2つのチャネルにおいて、最新の3メッセージのみに初めて同じ話題が現れるパタン)が同じであれば同じスコアとなる。そのため、なかなかメッセージが発生せず、レスポンスに時間がかかるチャネルへ利用者を誘導してしまっていた。   Further, the topic of a channel with a short message generation interval and the topic of a channel with a long generation interval may have the same score. For example, a topic generated in a channel in which several tens of messages are generated in a few minutes and a topic generated in a channel in which only about one message is generated per day are represented by occurrence patterns (for example, the latest message has the same posting time 2 In one channel, if the same pattern appears for the first time only in the latest three messages, the same score is obtained. For this reason, messages are not easily generated, and users are guided to channels that take time to respond.

本発明は、上記の課題に鑑みてなされたもので、その目的とするところは、各チャネルの各話題に対して目新しく最近密に発生しているものほど高い値となるチャネル間で比較可能なスコア付けを行うことが可能であり、更には逐次メッセージが追加される場合においても高速にそれら処理を行う情報処理装置および情報処理方法を提供することにある。   The present invention has been made in view of the above-mentioned problems, and the object of the present invention is to compare between channels that have higher values as newer and more recent occurrences for each topic of each channel. An object of the present invention is to provide an information processing apparatus and an information processing method that can perform scoring and that perform such processing at high speed even when messages are sequentially added.

課題を解決するために、請求項1に記載の本発明は、時刻が関連づけされているメッセージを保持するメッセージ保持部と、前記メッセージ保持部に保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各話題に対して指定された時刻を基準としたスコアを求めるスコア計算部と、を有し、前記スコア計算部は、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求める。   In order to solve the problem, the present invention according to claim 1, the message holding unit holding a message associated with a time, and dividing each message held in the message holding unit into words, A score calculation unit that extracts a word sequence that matches a pattern given in advance from the divided word sequence as a topic from each message, and obtains a score based on a time specified for each topic; The score calculation unit has a difference between the designated time and the time associated with the message for each topic of each message as a denominator component, and the associated time is obtained from the message. The density of the topic is obtained using an expression having the number of new messages including the topic as a component of the numerator, and the representative value of the density is used as the topic score for each topic. Mel.

このような請求項1においては、情報処理装置にメッセージ保持部とスコア計算部を設け、前記メッセージ保持部は時刻が関連づけされているメッセージを保持し、前記スコア計算部は、前記メッセージ保持部に保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、各メッセージの各話題に対して指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求める。   In such a claim 1, the information processing apparatus includes a message holding unit and a score calculation unit, the message holding unit holds a message associated with a time, and the score calculation unit is provided in the message holding unit. Each retained message is divided into words, a word sequence that matches a predetermined pattern is extracted as a topic from each message, and specified for each topic of each message. Using a formula that has the difference between the current time and the time associated with the message as the denominator component, and the associated time is newer than the message and the number of messages containing the topic as the numerator component. The density of the topic is obtained, and the representative value of the density is obtained as the topic score for each topic.

スコア計算部が、各メッセージの各話題に対して指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求めることにより、チャネル間でスコア計算の基準点を同一にし、かつ、メッセージ間隔をチャネル間で共通のスケールで計ることができるため、チャネル間で比較可能なスコアを求めることが可能となる。   The score calculation unit has a difference between the time specified for each topic of each message and the time associated with the message as a denominator component, and the associated time is newer than the message and the topic is selected. By calculating the density of the topic using an expression having the number of messages to be included in the numerator component, and obtaining the representative value of the density as the topic score for each topic, the score calculation reference point is made the same between channels. In addition, since the message interval can be measured on a common scale between channels, it is possible to obtain a score that can be compared between channels.

また、請求項2に記載の本発明は、時刻が関連づけられているメッセージを保持するメッセージ保持部と、前記メッセージ保持部に保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各メッセージの各話題に対して、当該メッセージに関連づけられている時刻および関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を関連づけるインデックス作成部と、前記インデックス作成部の結果を保持するインデックス保持部と、前記インデックス保持部で保持されている話題に対して指定された時刻を基準としたスコアを求めるスコア計算部と、を有し、前記スコア計算部は、前記インデックス保持部を参照し、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求める。   According to a second aspect of the present invention, there is provided a message holding unit that holds a message associated with a time, and each message held in the message holding unit is divided into words. A sequence of words that match a predetermined pattern from the sequence is extracted as a topic from each message, and for each topic of each message, the time associated with the message and the associated time are extracted from the message. An index creating unit associating the number of new messages including the topic, an index holding unit holding the result of the index creating unit, and a time specified for the topic held in the index holding unit as a reference A score calculation unit for obtaining a score obtained by the score calculation unit, For each topic of each message, the difference between the specified time and the time associated with the message has a denominator component, and the associated time is newer than the message and includes the topic The density of the topic is obtained using an expression having the number of messages as a component of the numerator, and a representative value of the density is obtained as a topic score for each topic.

このような請求項2においては、情報処理装置にメッセージ保持部とインデックス作成部とインデックス保持部とスコア計算部を設け、前記メッセージ保持は時刻が関連づけられているメッセージを保持し、前記インデックス作成部は前記メッセージ保持部に保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各メッセージの各話題に対して、当該メッセージに関連づけられている時刻および関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を関連づけ、前記インデックス保持部は前記インデックス作成部の結果を保持し、前記スコア計算部は、前記インデックス保持部を参照し、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求める。   In such a second aspect, the information processing apparatus includes a message holding unit, an index creating unit, an index holding unit, and a score calculating unit, wherein the message holding holds a message associated with a time, and the index creating unit Divides each message held in the message holding unit into words, extracts a word string that matches a predetermined pattern from the divided word strings as a topic from each message, For each topic, the time associated with the message and the number of messages whose associated time is newer than the message and includes the topic, the index holding unit holds the result of the index creating unit , The score calculation unit refers to the index holding unit, and each message For each topic, the difference between the specified time and the time associated with the message is a denominator component, and the number of messages with the associated time that is newer than the message and includes the topic The density of the topic is obtained using an expression of the component, and the representative value of the density is obtained as the topic score for each topic.

インデックス作成部が話題や話題のスコアの計算に利用する値を求め、インデックス保持部がインデックス作成部が求めたものを記憶することにより、時刻が指定される都度それら値を求める処理は不要となる。更に、スコア計算部が、前記インデックス保持を参照し、各メッセージの各話題に対して指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求めることにより、チャネル間でスコア計算の基準点を同一にし、かつ、メッセージ間隔をチャネル間で共通のスケールで計ることができる。以上より、チャネル間で比較可能なスコアを時刻の指定に応じて高速に求めることが可能となる。   The index creation unit obtains the values used for calculating the topic and the topic score, and the index holding unit stores the values obtained by the index creation unit, so that the process of obtaining these values each time the time is specified becomes unnecessary. . Further, the score calculation unit refers to the index holding, and uses the difference between the time specified for each topic of each message and the time associated with the message as a denominator component, and the associated time By calculating the density of the topic using an equation having the number of messages that are newer than the message and including the topic as a component of the numerator, and obtaining a representative value of the density as a topic score for each topic, The same score calculation reference point and the message interval can be measured on a common scale between channels. As described above, a score that can be compared between channels can be obtained at high speed according to the designation of time.

また、請求項3に記載の本発明は、関連づけられている時刻が新しい順に最大N件のメッセージにおける各メッセージの各話題に対する話題情報を保持し、前記話題情報は当該話題と当該メッセージに関連づけられている時刻および関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を含むことを特徴とするインデックス保持部と、時刻が関連づけられているメッセージが入力されると、前記入力されたメッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を話題として抽出し、前記抽出された各話題に対して、前記インデックス保持部に保持されている当該話題と一致する話題を有する話題情報の前記メッセージの数を1増加させ、あるいは、前記入力されたメッセージに関連づけられている時刻と、前記関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を0とした話題情報を作成し、前記インデックス保持部に追加し、前記追加処理の前で前記インデックス保持部にメッセージ数N件に対する話題情報が保持されている場合は、関連づけられている時刻が最も古いメッセージから生成された話題情報を削除するインデックス更新部と、前記インデックス保持部で保持されている話題に対して指定された時刻を基準としたスコアを求めるスコア計算部と、を有し、前記スコア計算部は、前記インデックス保持部を参照し、各メッセージの各話題に対して指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求める。   Further, the present invention according to claim 3 holds topic information for each topic of each message in a maximum of N messages in ascending order of associated time, and the topic information is associated with the topic and the message. An index holding unit characterized in that it includes the number of messages that are newer than the message and include the topic, and the message associated with the time is input. The message is divided into words, a word sequence that matches a predetermined pattern is extracted as a topic from the divided word sequence, and the extracted topic is held in the index holding unit. The number of the topic information having a topic that matches the topic that is being increased by 1 or the input A topic information in which the number of messages associated with a message and the number of messages including the topic are newer than the message and the associated time is created, added to the index holding unit, When topic information for N messages is stored in the index storage unit before, an index update unit that deletes topic information generated from a message with the oldest associated time, and the index storage unit A score calculation unit that obtains a score based on a specified time for a topic that is held, the score calculation unit refers to the index holding unit, and for each topic of each message The difference between the specified time and the time associated with the message is related to the denominator component. That time obtains the density of the topics using the equation with the number of messages to the components of the molecules comprising the new and the topic from the message, it obtains a representative value of the density for each topic as a score of the topic.

このような請求項3においては、情報処理装置にインデックス保持部とインデックス更新部とスコア計算部を設け、前記インデックス保持部は、関連づけられている時刻が新しい順に最大N件のメッセージにおける各メッセージの各話題に対する当該メッセージに関連づけられている時刻および関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を示す話題情報を保持し、前記インデックス更新部はメッセージが入力されると、前記入力されたメッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を話題として抽出し、前記抽出された各話題に対して、前記インデックス保持部に保持されている当該話題と一致する話題を有する話題情報の前記メッセージの数を1増加させ、また、前記入力されたメッセージに関連づけられている時刻、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を0とした話題情報を作成し、前記インデックス保持部に追加し、前記追加処理の前で前記インデックス保持部にメッセージ数N件に対する話題情報が保持されている場合は、関連づけられている時刻が最も古いメッセージから生成された話題情報を削除し、前記スコア計算部は、前記インデックス保持部を参照し、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求める。   In such a third aspect, the information processing apparatus is provided with an index holding unit, an index updating unit, and a score calculation unit, and the index holding unit is configured to store each message in a maximum of N messages in ascending order of associated time. The topic associated with the message for each topic and the associated time is newer than the message and holds topic information indicating the number of messages including the topic, and the index update unit receives a message, The input message is divided into words, a word sequence that matches a predetermined pattern is extracted as a topic from the divided word sequence, and the index holding unit for each extracted topic The number of messages of topic information having a topic that matches the topic held in And generating topic information in which the time associated with the input message, the associated time is newer than the message and the number of messages including the topic is zero, and the index holding unit And when topic information for N messages is held in the index holding unit before the adding process, the topic information generated from the message with the oldest associated time is deleted, and the score The calculation unit refers to the index holding unit, and uses the difference between the designated time and the time associated with the message for each topic of each message as a denominator component, and the associated time is The topic using an expression that has the number of messages that are newer than the message and include the topic as a component of the numerator Calculated density, obtaining the representative value of the density as a score of the topic for each topic.

インデックス保持部が話題や話題のスコアの計算に利用する値を保持し、インデックス更新部がメッセージが入力されると、前記入力されたメッセージを語に分割し、前記分割されたメッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を話題として抽出し、前記抽出された各話題に対して、前記インデックス保持部に保持されている当該話題と一致する話題を有する話題情報の前記メッセージの数を1増加させ、また、前記入力されたメッセージに関連づけられている時刻、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を0とした話題情報を作成し、前記インデックス保持部に追加し、前記追加処理の前で前記インデックス保持部にメッセージ数N件に対する話題情報が保持されている場合は、関連づけられている時刻が最も古いメッセージから生成された話題情報を削除することにより、メッセージ追加時に話題や話題のスコアの計算に必要となる情報全てを求めず、メッセージの追加により影響がでる範囲のみ情報を求めるので、話題や話題のスコア計算に利用する値を高速に求めることができる。   The index holding unit holds values used for calculating topics and topic scores, and when the index update unit receives a message, the input message is divided into words, and the divided message is divided into words. Then, a word sequence that matches a predetermined pattern is extracted as a topic from the divided word sequence, and the extracted topic matches the topic held in the index holding unit. The number of messages of topic information having a topic to be increased by one, and the time associated with the input message, the number of messages associated with the topic that is newer than the message and includes the topic Topic information is created, added to the index holding unit, and the number of messages in the index holding unit is set to N before the adding process. If the topic information is stored, the topic information generated from the message with the oldest associated time is deleted, so that all the information necessary for calculating the topic and topic score when adding a message is obtained. First, information is obtained only in a range that is affected by the addition of a message, so that a topic or a value used for topic score calculation can be obtained at high speed.

インデックス保持部が話題や話題のスコアの計算に利用する値を保持することにより、時刻が指定される都度、話題やスコアを求めるのに利用する値を求める処理が不要となる。スコア計算部が、前記インデックス保持を参照し、各メッセージの各話題に対して指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求めることにより、チャネル間でスコア計算の基準点を同一にし、かつ、メッセージ間隔をチャネル間で共通のスケールで計ることができる。以上より、逐次メッセージが追加される場合においても時刻の指定に応じて高速にチャネル間で比較可能なスコアを求めることが可能となる。   By holding the value used by the index holding unit for calculating the topic or topic score, the process for obtaining the value used for obtaining the topic or score each time is specified becomes unnecessary. The score calculation unit refers to the index holding, and uses the difference between the time specified for each topic of each message and the time associated with the message as a denominator component, and the associated time is Score between channels by calculating the density of the topic using an equation with the number of messages that are newer than the message and including the topic as a component of the numerator, and obtaining the representative value of the density as the topic score for each topic. The calculation reference point is the same, and the message interval can be measured on a common scale between channels. As described above, even when messages are sequentially added, it is possible to obtain a score that can be compared between channels at high speed according to the designation of time.

また、請求項4に記載の本発明は、時刻が関連づけされているメッセージを保持するメッセージ保持部と、前記メッセージ保持部に保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各話題に対して指定された時刻を基準としたスコアを求めるスコア計算部を有し、前記スコア計算部は、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求める。   According to a fourth aspect of the present invention, there is provided a message holding unit for holding a message associated with a time, and dividing each message held in the message holding unit into words. A score calculation unit that extracts a sequence of words that match a pattern given in advance from the sequence as a topic from each message, and obtains a score based on a time specified for each topic, the score calculation unit Is the difference between the specified time for each topic of each message and the time associated with the message as a denominator component, and the time associated with each word constituting the topic Finds the value of the topic using an expression having the number of messages that are newer than the message and include the word as a component of the numerator, and the representative value of the value for each topic is the topic score. And determined.

このような請求項4においては、請求項1においてスコア計算部の代わりに、各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、各メッセージの各話題に対して指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を分子の構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求めるスコア計算部を設ける。発明4のスコア計算部で、話題のスコアを当該話題が出現したメッセージより新しい時刻が関連づけられているメッセージにおいて、当該話題を構成する各語の当該語が含まれるメッセージ数を用いて求めることにより、話題が出願した後、省略形のように話題の部分文字列として表されて話題がメッセージの中で完全に同じ形で現れないメッセージに対しても話題のスコア付が可能となる。   In such a fourth aspect, instead of the score calculation unit in the first aspect, each message is divided into words, and a string of words that match a pattern given in advance from the divided word string is assigned to each message. As a topic, the difference between the time specified for each topic in each message and the time associated with the message is used as a denominator component, and is associated with each word constituting the topic. A score calculation unit that obtains the value of the topic using an expression having the number of messages that are newer than the message and includes the word as a component of the numerator, and obtains the representative value of the value as the topic score for each topic Is provided. The score calculation unit of the invention 4 obtains the topic score by using the number of messages including the word of each word constituting the topic in a message associated with a newer time than the message in which the topic appears. After a topic is filed, topic scoring is possible even for a message that is expressed as a partial character string of the topic, such as an abbreviation, and the topic does not appear in the exact same form in the message.

また、請求項5に記載の本発明は、時刻が関連づけられているメッセージを保持するメッセージ保持部と、前記メッセージ保持部に保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各メッセージの各話題に対して、当該メッセージに関連づけられている時刻および当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を関連づけるインデックス作成部と、前記インデックス作成部の結果を保持するインデックス保持部と、前記インデックス保持部で保持されている話題に対して指定された時刻を基準としたスコアを求めるスコア計算部と、を有し、前記スコア計算部は、前記インデックス保持部を参照し、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を分子の構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求める。   Further, the present invention according to claim 5, a message holding unit that holds a message associated with time, and each message held in the message holding unit is divided into words, and the divided words A sequence of words that match a pattern given in advance from the sequence is extracted as a topic from each message, and for each topic of each message, the time associated with the message and each word constituting the topic The index creation unit for associating the number of messages whose associated time is newer than the message and includes the word, the index retention unit for retaining the result of the index creation unit, and the index retention unit A score calculation unit that obtains a score based on a time designated for a topic, and the score calculation Refers to the index holding unit, and uses the difference between the specified time and the time associated with the message for each topic of each message as a denominator component, for each word constituting the topic. The value of the topic is obtained by using an expression having a numerator component of the number of messages having a newer time than the message and including the word, and the representative value of the value is set as the topic score for each topic. Ask.

このような請求項5においては、請求項2においてインデックス保持部とインデックス作成部とスコア計算部の代わりに、各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各メッセージの各話題に対して、当該メッセージに関連づけられている時刻および当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を関連づけるインデックス作成部と、前記インデックス作成部の結果を保持するインデックス保持部と、前記インデックス保持部を参照し、前記インデックス保持部で保持されている各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を分子の構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求めるスコア計算部を設ける。発明5のインデックス作成部とインデックス保持部とスコア計算部で、各メッセージの各話題に対する当該話題を当該話題を構成する各語に対して当該語の当該メッセージより関連づけられている時刻が新しくかつ当該語を含むメッセージを含む数を処理し、インデックス保持部にインデックス作成部の結果を保持することにより、話題が出現した後、省略形のように話題の部分文字列として表されて話題がメッセージの中で完全に同じ形では現れないメッセージに対しても高速な話題のスコア付が可能となる。   In such a fifth aspect, instead of the index holding unit, the index creation unit, and the score calculation unit in the second aspect, each message is divided into words, and a pattern given in advance from the divided word sequence is obtained. A string of matching words is extracted as a topic from each message, and for each topic of each message, there is a time associated with the message and a time associated with each word constituting the topic. An index creation unit that associates the number of messages that are newer than the message and include the word, an index storage unit that holds the result of the index creation unit, and the index storage unit, and is held by the index storage unit Each topic of each message is associated with the specified time and the message. Using a formula that has the difference in time as a denominator component, and for each word constituting the topic, the associated time is newer than the message and the number of messages including the word is a numerator component A score calculation unit for obtaining the topic value and obtaining a representative value of the value as a topic score is provided for each topic. In the index creation unit, the index holding unit, and the score calculation unit according to the fifth aspect, the topic associated with each topic of each message is related to each word constituting the topic and the time associated with the message of the word is new and By processing the number of messages containing words and holding the result of the index creation unit in the index holding unit, after the topic appears, the topic is expressed as a substring of the topic as an abbreviation Among them, high-speed topic scoring is possible even for messages that do not appear in exactly the same form.

また、請求項6に記載の本発明は、関連づけられている時刻が新しい順に最大N件のメッセージにおける各メッセージの各話題に対する話題情報を保持し、前記話題情報は当該話題と当該メッセージに関連づけられている時刻および当該話題を構成する語および前記各語の、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を含むことを特徴とするインデックス保持部と、時刻が関連づけられているメッセージが入力されると、前記入力されたメッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を話題として抽出し、前記入力されたメッセージに含まれる前記各語に対して、前記インデックス保持部に保持されている当該語を有する話題情報の当該語の前記メッセージ数を1増加させ、また、前記抽出された各話題に対して、前記入力されたメッセージに関連づけられている時刻と、および当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を0とした話題情報を作成し、前記インデックス保持部に追加し、前記追加処理の前で前記インデックス保持部にメッセージ数N件に対する話題情報が保持されている場合は、関連づけられている時刻が最も古いメッセージから生成された話題情報を削除するインデックス更新部と、前記インデックス保持部で保持されている話題に対して指定された時刻を基準としたスコアを求めるスコア計算部を有し、前記スコア計算部は、前記インデックス保持部を参照し、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を分子の構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求める。   The present invention according to claim 6 holds topic information for each topic of each message in a maximum of N messages in the order of newest associated time, and the topic information is associated with the topic and the message. And an index holding unit characterized in that the time associated with each word includes the number of messages that are newer than the message and include the word. The inputted message is divided into words, a word string that matches a predetermined pattern is extracted as a topic from the divided word string, and the inputted message For each word included in the word, the mem- ber of the word of the topic information having the word held in the index holding unit. The number of sages is increased by 1, and the time associated with the input message for each extracted topic and the time associated with each word constituting the topic are Topic information that is newer than the message and includes 0 messages including the word is created and added to the index holding unit. Before the adding process, topic information for N messages is held in the index holding unit. If the index update unit deletes the topic information generated from the message with the oldest associated time, and the time specified for the topic held in the index holding unit A score calculation unit for obtaining a score, wherein the score calculation unit refers to the index holding unit and applies to each topic of each message; The difference between the specified time and the time associated with the message is a denominator component, and for each word constituting the topic, the associated time is newer than the message and the word The value of the topic is obtained using an expression having the number of messages including “” as a numerator component, and the representative value of the value is obtained as the topic score for each topic.

このような請求項6においては、請求項3においてインデックス保持部とインデックス更新部とスコア計算部の代わりに、関連づけられている時刻が新しい順に最大N件のメッセージにおける各メッセージの各話題に対する話題情報を保持し、前記話題情報は当該話題と当該メッセージに関連づけられている時刻および当該話題を構成する語および前記各語の、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を含むことを特徴とするインデックス保持部と、メッセージが入力されると、前記入力されたメッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を話題として抽出し、前記入力されたメッセージに含まれる前記各語に対して、前記インデックス保持部に保持されている当該語を有する話題情報の当該語の前記メッセージ数を1増加させ、また、前記抽出された各話題に対して、前記入力されたメッセージに関連づけられている時刻、および当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を0とした話題情報を作成し、前記インデックス保持部に追加し、前記追加処理の前で前記インデックス保持部にメッセージ数N件に対する話題情報が保持されている場合は、関連づけられている時刻が最も古いメッセージから生成された話題情報を削除するインデックス更新部と、前記インデックス保持部を参照し、前記インデックス保持部で保持されている各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を分子の構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求めるスコア計算部を設ける。   In such a sixth aspect, instead of the index holding unit, the index update unit, and the score calculation unit in claim 3, the topic information for each topic of each message in the maximum N messages in the order of the associated time. The topic information includes the time associated with the topic and the message, the words constituting the topic, and the number of messages in which the associated time of each word is newer than the message and includes the word. When the message is input, the index holding unit characterized in that the input message is divided into words, and a word string that matches a predetermined pattern from the divided word strings Extracted as a topic, and for each word included in the input message, the index holding unit The number of messages of the word of the topic information having the word held is increased by 1, and the time associated with the input message and the topic are set for each extracted topic. For each constituent word, topic information is created with the associated time being newer than the message and the number of messages including the word is zero, added to the index holding unit, and before the adding process When topic information for N messages is stored in the index storage unit, refer to the index update unit that deletes topic information generated from the message with the oldest associated time, and the index storage unit , The designated time for each topic of each message held in the index holding unit and the message The associated time difference is the denominator component, and for each word constituting the topic, the associated time is newer than the message and the number of messages containing the word is the numerator component. A score calculation unit is provided for obtaining the value of the topic using an equation and obtaining the representative value of the value as the topic score for each topic.

請求項6のインデックス作成部とインデックス保持部とスコア計算部で、各メッセージの各話題に対する当該話題を構成する各語に対して当該語の当該メッセージより関連づけられている時刻が新しくかつ当該語を含むメッセージを含む数を処理し、インデックス更新部がメッセージの追加時にインデックス保持部の情報を全てではなく、1部を更新することにより、話題が出現した後、省略形のように話題の部分文字列として表されて話題がメッセージの中で完全に同じ形では現れず、逐次追加されるメッセージに対しても高速な話題のスコア付が可能となる。   In the index creation unit, the index holding unit, and the score calculation unit according to claim 6, the time associated with the message of the word is new to each word constituting the topic for each topic of each message, and the word is After the topic has appeared by processing the number including the message and the index update unit updates one part instead of all the information in the index holding unit when adding a message, the partial character of the topic like an abbreviation The topics are represented as columns, and the topics do not appear in the same form in the message, and high-speed topic scoring is possible even for messages that are added sequentially.

また、請求項7に記載の本発明は、請求項1〜3のうちのいずれかにおいて、処理するメッセージの中で各話題が出現したメッセージの数を保持する話題出現数保持部を有し、各話題のスコアを前記話題出現保持部の当該話題に対するメッセージの数を分母の構成要素とする式で重みづけして求める。   Further, the present invention described in claim 7 has a topic appearance number holding unit that holds the number of messages in which each topic appears in messages to be processed in any one of claims 1 to 3, The score of each topic is obtained by weighting with an expression having the number of messages for the topic in the topic appearance holding unit as a denominator component.

また、請求項8に記載の本発明は、請求項4〜6のうちのいずれかにおいて、処理するメッセージの中で各語が出現したメッセージの数を保持する語出現数保持部を有し、各話題のスコアを、当該話題を構成する各語の関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を前記語出現保持部の当該語に対するメッセージの数を分母の構成要素とする式で重みづけして求める。   Moreover, the present invention according to claim 8 has a word appearance number holding unit for holding the number of messages in which each word appears in the message to be processed in any one of claims 4 to 6, The score of each topic, the time associated with each word constituting the topic is newer than the message and the number of messages including the word is the number of messages for the word in the word appearance holding unit and the denominator component Weighted with the following formula.

このような請求項7、8では、請求項1〜3、また、請求項4〜6のいずれかにおいて、話題出現数保持部や語出現数保持部で処理するメッセージの中で各話題や各話題を構成する各語が出現したメッセージの数を保持し、スコア計算部で各話題のスコアを、当該話題に対する前記メッセージの数を分母の構成要素とする式や当該話題を構成する各語の関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を前記語出現保持部の当該語に対するメッセージの数を分母の構成要素とする式で重みづけして求めることにより、多くのメッセージ話される一般的な話題のスコアを小さくすることができ、珍しい話題を優先することができる。   In such Claims 7 and 8, in any one of Claims 1 to 3 and Claims 4 to 6, each topic or each of the messages processed in the topic appearance number holding unit or the word appearance number holding unit The number of messages in which each word constituting the topic appears is retained, the score of each topic is calculated by the score calculation unit, the number of the messages for the topic is an element of the denominator, and each word constituting the topic Many messages are obtained by weighting the number of messages that have a newer associated time than the message and include the word with an expression having the number of messages for the word in the word appearance holding unit as a denominator component. The score of a general topic to be spoken can be reduced, and a rare topic can be prioritized.

また、請求項9に記載の本発明は、時刻が関連づけされているメッセージを保持する段階と、前記保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各話題に対して指定された時刻を基準としたスコアを求める段階と、を有し、前記スコアを求める段階は、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求める。   According to a ninth aspect of the present invention, there is provided a step of holding a message associated with a time, and dividing each held message into words, which are given in advance from the divided word strings. Extracting a sequence of words that match the pattern from each message as a topic, and obtaining a score based on a time designated for each topic, and obtaining the score includes: For each topic, the difference between the specified time and the time associated with the message is a denominator component, and the number of messages with the associated time that is newer than the message and includes the topic The density of the topic is obtained using an expression of the component, and the representative value of the density is obtained as the topic score for each topic.

また、請求項10に記載の本発明は、時刻が関連づけられているメッセージを保持する段階と、前記保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各メッセージの各話題に対して、当該メッセージに関連づけられている時刻および関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を関連づける段階と、前記関連づけられた結果を保持する段階と、前記保持されている関連づけられた結果中における話題に対して指定された時刻を基準としたスコアを求める段階と、を有し、前記スコアを求める段階は、前記保持されている関連づけられた結果を参照し、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求める。   According to a tenth aspect of the present invention, there is provided a step of holding a message associated with a time, and dividing each of the held messages into words, which are given in advance from the divided word sequence. A string of words matching the pattern is extracted as a topic from each message, and for each topic of each message, the time associated with the message and the associated time are newer than the message and include the topic Associating the number of messages, retaining the associated result, and determining a score based on a specified time for a topic in the retained associated result. Then, the step of obtaining the score refers to the stored associated result and refers to the topic for each topic of each message. The difference between the received time and the time associated with the message is the denominator component, and the associated time is newer than the message and the number of messages containing the topic is the numerator component. Thus, the density of the topic is obtained, and a representative value of the density is obtained as a topic score for each topic.

また、請求項11に記載の本発明は、関連づけられている時刻が新しい順に最大N件のメッセージにおける各メッセージの各話題に対する話題情報を保持する段階を有し、前記話題情報は当該話題と当該メッセージに関連づけられている時刻および関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を含むことを特徴とし、時刻が関連づけられているメッセージが入力されると、前記入力されたメッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を話題として抽出し、前記抽出された各話題に対して、前記保持されている当該話題と一致する話題を有する話題情報の前記メッセージの数を1増加させ、あるいは、前記入力されたメッセージに関連づけられている時刻、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を0とした話題情報を作成し、前記保持されている話題情報へ追加し、前記追加処理の前で前記インデックス保持部にメッセージ数N件に対する話題情報が保持されている場合は、関連づけられている時刻が最も古いメッセージから生成された話題情報を削除する段階と、保持されている話題に対して指定された時刻を基準としたスコアを求める段階を有し、前記スコアを求める段階においては、前記保持されている話題情報を参照し、各メッセージの各話題に対して指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求める。   Further, the present invention according to claim 11 has a step of storing topic information for each topic of each message in a maximum of N messages in ascending order of associated time, and the topic information includes the topic and the topic The time associated with the message and the number of messages that are newer than the message and include the topic are included, and when the message associated with the time is input, the input A message is divided into words, a word sequence that matches a predetermined pattern is extracted as a topic from the divided word sequence, and for each of the extracted topics, the retained topic and The number of the topic information having a matching topic is increased by 1, or associated with the input message. Create topic information in which the number of messages whose associated time is newer than the message and includes the topic is 0, add the topic information to the retained topic information, and retain the index before the adding process If topic information for the number N of messages is held in the part, the step of deleting the topic information generated from the message with the oldest associated time and the time specified for the held topic In the step of obtaining the score, the stored topic information is referred to, and a time designated for each topic of each message is associated with the message. A message that has a difference in the current time as a denominator component and the associated time is newer than the message and includes the topic Calculated density of the topics using the equation with the number to the components of the molecule, finding a representative value of the density as a score of the topic for each topic.

また、請求項12に記載の本発明は、時刻が関連づけされているメッセージを保持する段階と、前記保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各話題に対して指定された時刻を基準としたスコアを求める段階を有し、前記スコアを求める段階において、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求める。   The invention according to claim 12 is the step of holding a message associated with a time, and dividing each of the held messages into words, which is given in advance from the divided word sequence Extracting a sequence of words that match the pattern from each message as a topic, and obtaining a score based on a time designated for each topic, and in each step of obtaining the score, each topic of each message For each word constituting the topic, the associated time is newer than the message and the difference between the designated time and the time associated with the message is a denominator component. The value of the topic is obtained using an expression having the number of messages including words as a component of the numerator, and the representative value of the value is obtained as the topic score for each topic.

また、請求項13に記載の本発明は、時刻が関連づけられているメッセージを保持する段階と、前記保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各メッセージの各話題に対して、当該メッセージに関連づけられている時刻および当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を関連づける段階と、前記関連づけられた結果を保持する段階と、前記保持されている結果中の話題に対して指定された時刻を基準としたスコアを求める段階と、を有し、前記スコアを求める段階において、前記保持されている関連づけられた結果を参照し、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求める。   Further, the present invention according to claim 13 is a step of holding a message associated with a time, and dividing each of the held messages into words, given in advance from the divided word sequence A sequence of words that match the pattern is extracted as a topic from each message, and each topic of the message is associated with the time associated with the message and each word constituting the topic. Associating the number of messages that are newer than the message and containing the word, retaining the associated result, and based on the time specified for the topic in the retained result Obtaining a score, wherein in the step of obtaining the score, each story of each message is referred to with reference to the stored associated result. For each word constituting the topic, the associated time is newer than the message and the difference between the designated time and the time associated with the message is a denominator component. The value of the topic is obtained using an expression having the number of messages including a word as a component, and the representative value of the value is obtained as the topic score for each topic.

また、請求項14に記載の本発明は、関連づけられている時刻が新しい順に最大N件のメッセージにおける各メッセージの各話題に対する話題情報を保持する段階を有し、前記話題情報は当該話題と当該メッセージに関連づけられている時刻および当該話題を構成する語および前記各語の、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を含むことを特徴とし、時刻が関連づけられているメッセージが入力されると、前記入力されたメッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を話題として抽出し、前記入力されたメッセージに含まれる前記各語に対して、前記保持されている当該語を有する話題情報の当該語の前記メッセージ数を1増加させ、また、前記抽出された各話題に対して、前記入力されたメッセージに関連づけられている時刻、および当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を0とした話題情報を作成し、前記話題情報に追加し、前記追加処理の前で前記インデックス保持部にメッセージ数N件に対する話題情報が保持されている場合は、関連づけられている時刻が最も古いメッセージから生成された話題情報を削除する段階と、前記保持されている話題情報の話題に対して指定された時刻を基準としたスコアを求める段階と、を有し、前記スコアを求める段階は、前記保持されている話題情報を参照し、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を分子の構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求める。   Further, the present invention according to claim 14 includes a step of holding topic information for each topic of each message in a maximum of N messages in ascending order of associated time, wherein the topic information includes the topic and the topic The time associated with the message, the words constituting the topic, and the associated time of each word include the number of messages that are newer than the message and include the word. When the message is input, the input message is divided into words, and a word sequence that matches a predetermined pattern is extracted as a topic from the divided word sequence, and the input message is extracted. For each word included, increase the number of messages for the word in the topic information having the held word by one, A message associated with the input message for each extracted topic, and a message associated with each word constituting the topic, the associated time being newer than the message and including the word If the topic information for the number N of messages is held in the index holding unit before the adding process, topic information with 0 as the number of messages is created and added to the topic information. Deleting the topic information generated from the oldest message, and obtaining a score based on the time specified for the topic of the retained topic information, and obtaining the score The step refers to the topic information held and associates the message with the designated time for each topic of each message. Using a formula that has the difference in time as a denominator component, and for each word constituting the topic, the associated time is newer than the message and the number of messages including the word is a numerator component A value of the topic is obtained, and a representative value of the value is obtained as a topic score for each topic.

また、請求項15に記載の本発明は、請求項9〜11のうちのいずれかにおいて、処理するメッセージの中で各話題が出現したメッセージの数を保持する話題出現数を保持する段階を有し、各話題のスコアを前記話題出現保持部の当該話題に対するメッセージの数を分母の構成要素とする式で重みづけして求める。   Further, the present invention according to claim 15 has the step of maintaining the number of topic appearances that holds the number of messages in which each topic appears in the messages to be processed. Then, the score of each topic is obtained by weighting with an expression having the number of messages for the topic in the topic appearance holding unit as a constituent element of the denominator.

また、請求項16に記載の本発明は、請求項12〜14のうちのいずれかにおいて、処理するメッセージの中で各語が出現したメッセージの数を保持する段階を有し、各話題のスコアを、当該話題を構成する各語の関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を前記語出現保持部の当該語に対するメッセージの数を分母の構成要素とする式で重みづけして求める。   Further, the present invention according to claim 16 has the step of holding the number of messages in which each word appears in the message to be processed in any one of claims 12 to 14, and the score of each topic , The time associated with each word constituting the topic is newer than the message, and the number of messages including the word is weighted with an expression having the number of messages for the word in the word appearance holding unit as a denominator component And ask.

本発明によれば、各チャネルの各話題に対して目新しく最近密に発生しているものほど高い値となるチャネル間で比較可能なスコア付けを行うことが可能であり、更には逐次メッセージが追加される場合においても高速にそれら処理を行う情報処理装置および情報処理方法を提供することができる。   According to the present invention, it is possible to perform scoring that can be compared between channels that have higher values as newer and more recent occurrences for each topic of each channel, and further, sequential messages are added Even in such a case, it is possible to provide an information processing apparatus and an information processing method that perform these processes at high speed.

以下、本発明の実施の形態を図面を用いて説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

<第1の実施の形態>
図1は本発明に係る情報処理装置の第1の実施の形態を示す。図1の情報処理装置1はメッセージ保持部11とスコア計算部12から構成される。
<First Embodiment>
FIG. 1 shows a first embodiment of an information processing apparatus according to the present invention. The information processing apparatus 1 in FIG. 1 includes a message holding unit 11 and a score calculation unit 12.

メッセージ保持部11は、時刻が関連づけされているメッセージを保持する。メッセージ保持部11の例を図2に示す。   The message holding unit 11 holds a message associated with a time. An example of the message holding unit 11 is shown in FIG.

また、図20はスコア計算部12の構成図である。このスコア計算部12は外部より時刻を取得する時刻取得部201と、取得した時刻を記憶する時刻記憶部202と、メッセージに順序を付与するメッセージ順序付与部203と順序が付与されたメッセージを記憶する順序付与済みメッセージ記憶部204と、メッセージを語に分割する語分割装置205と、話題を表すパタンを記憶するパタン記憶部206と、メッセージ群中の各メッセージから話題を抽出し、各メッセージの各話題の当該メッセージより順序が後のメッセージでの参照数を求める話題抽出部207とそれら参照数を記憶する話題カウンタ記憶部208と、話題のスコアを算出するスコア算出部209から構成される。   FIG. 20 is a configuration diagram of the score calculation unit 12. The score calculation unit 12 stores a time acquisition unit 201 that acquires time from the outside, a time storage unit 202 that stores the acquired time, a message order addition unit 203 that assigns an order to messages, and a message that is given an order. A topic-assigned message storage unit 204, a word dividing device 205 that divides the message into words, a pattern storage unit 206 that stores a pattern representing a topic, and a topic from each message in the message group, A topic extraction unit 207 that calculates the number of references in a message that is later in order than the message of each topic, a topic counter storage unit 208 that stores the number of references, and a score calculation unit 209 that calculates a topic score.

図3はスコア計算部12の処理フローの例である。以下に処理フローを説明する。   FIG. 3 is an example of a processing flow of the score calculation unit 12. The processing flow will be described below.

《スコア計算部処理フロー》
S31順序付与処理(メッセージ順序付与部)
メッセージ保持部に保持されているメッセージを関係づけられている時刻でソートし、時刻が古い順にメッセージ1...メッセージNと順序付けし、前記順序が付与されたメッセージ群を順序付与済みメッセージ記憶部へ出力する。
<Score calculation section processing flow>
S31 order assignment processing (message order assignment section)
The messages held in the message holding unit are sorted according to the associated time, and the messages are assigned in order from oldest time to message 1... Message N, and the message group to which the order is given is assigned to the already assigned message storage unit. Output to.

S32指定時刻取得処理(時刻取得部)において、入力記憶部より外部より指定された時刻を読み込み、時刻記憶部へ前記時刻を出力する。   In S32 designated time acquisition processing (time acquisition unit), the time specified from the outside is read from the input storage unit, and the time is output to the time storage unit.

S33初期設定処理(話題抽出部)において、
(1)順序付与済みメッセージ記憶部よりメッセージ群を読み込む。
(2)N=前記読み込みメッセージ数とし、処理カウンタi=1とする。
In S33 initial setting process (topic extraction unit),
(1) A message group is read from the order-assigned message storage unit.
(2) N = the number of read messages, and process counter i = 1.

S34話題抽出処理完了判定処理(話題抽出部)において、i > N (全てのメッセージに対して処理完了)ならS37へ処理が進む。
S35話題抽出処理(話題抽出部)において、
(1)メッセージiを語分割装置へ出力し、語skと品詞や辞書登録の有無等の語情報 tk の対[sk, tk]を要素とするリストL=[[s1, t1], [s2, t2], ...](メッセージiの先頭の語から順にs1, s2)を取得する。
(2)パタン記憶部からパタンを読み込み、前記パタンをPとする。
(3)メッセージ内の話題を記憶するためのリストR、話題候補を記憶するための文字列s、語情報文字列を記憶するための文字列tを用意し、R=[]、s=""、t=""とする。
※リストに対する「+」は前のリストの要素を後ろのリストの前方要素として追加する。 (例)[a, b] + [c ]= [a, b, c], [a, b] +[ [c] ]= [a, b, [c]]、[[a, b], [c, d]] + [e] = [[a, b], [c, d], e]
文字列に対する+は前の文字列の終端に後ろの文字列をアペンドする。
(例)"ab" + "c" = "abc"
(4)j = 1
(5) j ≦Lの要素数 でなければS36(1)へ処理が進む。
(6) t = t + tj
(7) t にPにマッチしない部分が存在する場合(9)へ処理が進む。
(8) s = s + sj、 t = t + tj とし、(11)へ処理が進む。
(9) s = ""であれば t = "" として(11)へ処理が進む。
(10)R = R + [s]、 s = ""、 t = ""。
(11) j = j + 1として、(5)へ処理が進む。
In S34 topic extraction process completion determination process (topic extraction unit), if i> N (process complete for all messages), the process proceeds to S37.
In S35 topic extraction processing (topic extraction unit),
(1) The message i is output to the word segmentation device, and the list L = [[s1, t1], [s2] with the pair [sk, tk] of the word information tk such as the word sk and the part of speech or the presence / absence of dictionary registration , t2], ...] (s1, s2 in order from the first word of message i).
(2) A pattern is read from the pattern storage unit, and the pattern is set to P.
(3) A list R for storing topics in a message, a character string s for storing topic candidates, and a character string t for storing word information character strings are prepared, and R = [], s = "", T ="".
* “+” For list adds the element of the previous list as the forward element of the subsequent list. (Example) [a, b] + [c] = [a, b, c], [a, b] + [[c]] = [a, b, [c]], [[a, b], [c, d]] + [e] = [[a, b], [c, d], e]
+ For a character string appends the following character string to the end of the previous character string.
(Example) "ab" + "c" = "abc"
(4) j = 1
(5) If j ≦ L is not satisfied, the process proceeds to S36 (1).
(6) t = t + tj
(7) If there is a part that does not match P in t, the process proceeds to (9).
(8) s = s + sj, t = t + tj, and the process proceeds to (11).
(9) If s = “”, the process proceeds to (11) with t = “”.
(10) R = R + [s], s = “”, t = “”.
(11) As j = j + 1, the process proceeds to (5).

S36話題カウンタ更新処理(話題抽出部)において、
(1)メッセージi中の各話題(Rの要素)に対して値0をもつカウンタと、メッセージiに関連づけられている時刻をもつメッセージi用の話題カウンタを作成し、話題カウンタ記憶部へ出力する。
(2)話題カウンタ記憶部中のメッセージ1〜メッセージi-1用の話題カウンタ
におけるメッセージi中の各話題(Rの要素)の値を読み込み、前記読み込んだ値
それぞれに対して1加算した値を話題カウンタ記憶部に出力する。
(3) i = i + 1 とし、S34へ。
In S36 topic counter update processing (topic extraction unit),
(1) Create a counter with a value 0 for each topic (element of R) in message i and a topic counter for message i with the time associated with message i, and output to topic counter storage To do.
(2) Read the value of each topic (R element) in message i in the topic counter for messages 1 to i-1 in the topic counter storage unit, and add 1 to each of the read values Output to the topic counter storage unit.
(3) Set i = i + 1 and go to S34.

S37スコア算出処理(スコア算出部)において、
(1)時刻記憶部から指定時刻を、話題カウンタ記憶部から各メッセージの各話題の値、各メッセージの話題カウンタに関連付けられている時刻をそれぞれ読み込み、各メッセージの各話題に対して、前記話題の値を構成要素にもち、指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもつ式でスコアを求める。
(2)各話題に対してS37の(1)で求めた当該話題のスコアの値の中から代表値を決定し、各話題とその代表値を話題スコア値記憶部へ出力する。
In S37 score calculation processing (score calculation unit),
(1) A specified time is read from the time storage unit, a value of each topic of each message, and a time associated with the topic counter of each message are read from the topic counter storage unit. The score is obtained by an expression having the difference between the designated time and the time associated with the message as the denominator component.
(2) For each topic, a representative value is determined from the score values of the topic obtained in S37 (1), and each topic and its representative value are output to the topic score value storage unit.

S32では、外部よりスコア計算の基準となる時刻Tを指定する。たとえば、「13:50」を指定する。S35(1)では、たとえば形態素解析装置や辞書を用いて辞書に登録されている文字列で区切ることによりメッセージを語に分割する。   In S32, a time T serving as a reference for score calculation is designated from the outside. For example, “13:50” is specified. In S35 (1), for example, the message is divided into words by dividing it with a character string registered in the dictionary using a morphological analyzer or a dictionary.

S35(2)〜(11)では、S35(1)の結果を用いて予め定義されている品詞のパタン(例えば名詞の連続や、名詞と名詞が「の」でつながる文字列を表す正規表現(名詞(の)?)+名詞)や辞書に登録されている文字列の連続や、辞書に登録されている文字が「の」でつながるパタン等にマッチする語の列を話題として抽出する。   In S35 (2) to (11), a part-of-speech pattern that is defined in advance using the result of S35 (1) (for example, a regular expression representing a string of nouns or a string in which nouns are connected by “no”). Noun (no ??) + noun) or a sequence of character strings registered in the dictionary, or a string of words that match a pattern in which the characters registered in the dictionary are connected by "no" are extracted as topics.

図3のS36(1)では以下のカウンタを作成する。   In S36 (1) of FIG. 3, the following counters are created.

[13:40、[[wb、0]、[wd、0]、[we、0]]]
今関連づけられている時刻が「13:40」のメッセージmiにおいて話題wb、wd、weがあった場合、図3のS36(2)では時刻「13:38」が関連づけられているメッセージmi-1用の値0の話題wa、wb、woのカウンタが存在した場合、話題wbのカウンタを1増やし、以下の状態にする。
[13:40, [[w b, 0], [w d, 0], [w e, 0]]]
Topical w b in the message m i of time associated now "13:40", w d, if there is w e, is S36 (2) At time "13:38" in FIG. 3 is associated If there is a counter of topic w a , w b , w o with a value of 0 for message m i−1 , the counter of topic w b is incremented by 1 to the following state.

[13:38、[[wa、0]、[wb、1]、[wo、0]]]
図3のS37(1)のスコア計算部では、メッセージmiの話題wjに対して、前記カウンタCmi,wjを構成要素にもち、指定された前記時刻Tとメッセージmiに関連づけられている時刻tmiの差を分母の構成要素にもつ式で求められる値を用いて、前記話題のスコアscoremi,wjを求める。たとえば、以下の式を用いることができる。
[13:38, [[w a, 0], [w b, 1], [w o, 0]]]
The score calculator of S37 (1) in FIG. 3, with respect to the topic w j of the message m i, the counter C mi, has a component of wj, associated with the specified the time T and the message m i The topic score score mi, wj is obtained by using a value obtained by an expression having a difference of a certain time t mi as a denominator component. For example, the following formula can be used.

scoremi,wj=Cmi,wj/(T−tmi
1つの話題に対して複数のスコアが求められるので、たとえば、一番古いメッセージのスコアをもってその話題のスコアとしたり、一番高いスコアをその話題のスコアとして採用してもよい(S37(2))。
score mi, wj = C mi, wj / (T-t mi )
Since a plurality of scores are obtained for one topic, for example, the score of the oldest message may be used as the score of the topic, or the highest score may be adopted as the score of the topic (S37 (2)). ).

一番古いメッセージのスコアを採用した場合は、話題が現れてから指定された時刻までの間の話題が出現するメッセージの密度を求めることになるので、スコアの高いものほど話題が出現してから指定されてた時刻までに密に話されているものとなり、盛り上がっている話題として提供することに好適である。   When the score of the oldest message is adopted, since the density of messages in which the topic appears until the specified time after the topic appears, the higher the score, the more the topic appears. It will be spoken closely by the designated time, and is suitable for providing as a hot topic.

また、最大のスコアを選択した場合、指定された時刻を起点として各話題が最も密に現れている区間での密度を求めていることになるので、スコアが高いものを指定された時刻付近で盛り上がっている話題として提供することに好適である。   In addition, when the highest score is selected, the density is calculated in the section where each topic appears most densely starting from the specified time, so the one with the highest score is near the specified time. It is suitable for providing as a hot topic.

なお、スコアは関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数が大きい話題を優先するために、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を表す前記カウンタの値を分子の分母の構成要素とし、話題の新鮮さを減少させるために指定された時刻とメッセージに関連づけられている時刻の差を分母の構成要素にもたせているので、前記メッセージ数を分子の構成要素、前記時刻の差を分母にもつ式であれば、前記式に限定されるものではない。   In order to prioritize a topic whose associated time is newer than the message and has a large number of messages including the topic, the score is the number of messages whose associated time is newer than the message and includes the topic. Since the value of the counter to represent is a component of the denominator of the numerator and the difference between the time specified to reduce the freshness of the topic and the time associated with the message is also given to the component of the denominator, the message The expression is not limited to the above expression as long as the expression has a number as a numerator and the time difference as a denominator.

たとえば、図3の310の時点の各メッセージの各話題のカウンタを以下とする。   For example, the counter of each topic of each message at time 310 in FIG.

1:[13:38、[[wa、1]、[wb、3]、[wc、1]]]
2:[13:40、[[wb、2]、[wd、0]、[we、0]]]
3:[13:48、[[wb、1]、[wc、0]、[wf、1]]]
4:[13:49、[[wa、0]、[wb、0]、[wf、0]]]
この場合、時刻T=13:50が指定された場合の各メッセージの各話題のスコアは以下のようになる。

Figure 2006172424
m 1 : [13:38, [[w a , 1], [w b , 3], [w c , 1]]]
m 2: [13:40, [[ w b, 2], [w d, 0], [w e, 0]]]
m 3 : [13:48, [[w b , 1], [w c , 0], [w f , 1]]]
m 4 : [13:49, [[w a , 0], [w b , 0], [w f , 0]]]
In this case, the score of each topic of each message when time T = 13: 50 is designated is as follows.
Figure 2006172424

各話題において最大のスコアを選択した場合、話題のスコアは以下のようになる。   When the maximum score is selected for each topic, the topic score is as follows.

a=1/12、wb=1/2、wc=1/12、wd=0、we=0、wf=1/2
図3のS37(2)では、上記話題とそのスコアを出力する。
w a = 1/12, w b = 1/2, w c = 1/12, w d = 0, w e = 0, w f = 1/2
In S37 (2) of FIG. 3, the topic and its score are output.

ここで上記メッセージm1〜m4と内容が同じで、それぞれ時刻12:38、12:40、12:48、12:49が関連づけられたメッセージがメッセージ保持部11に保持されている場合、時刻13:50の指定に対する話題のスコアは以下のようになる。 Here, when the messages m 1 to m 4 have the same contents and the messages 12:38, 12:40, 12:48, and 12:49 are associated with each other, the message holding unit 11 holds the time. The topic scores for the 13:50 designation are:

a=1/72、wb=3/72、wc=1/72、wd=0、we=0、wf=1/62
また、上記メッセージm1〜m4と内容が同じで、それぞれ時刻13:00、13:10、13:30、13:49が関連づけられたメッセージがメッセージ保持部11に保持されている場合、時刻13:50の指定に対する話題のスコアは以下のようになる。
w a = 1/72, w b = 3/72, w c = 1/72, w d = 0, w e = 0, w f = 1/62
In addition, when the messages m 1 to m 4 have the same contents and the messages 13:00, 13:10, 13:30, and 13:49 are associated with the messages, respectively, The topic scores for the 13:50 designation are:

a=1/50、wb=3/50、wc=1/50、wd=0、we=0、wf=1/20
このように、本発明の情報処理装置では、同じ内容のメッセージであっても、指定された時刻に近く短い期間にメッセージが発生した場合の話題の方に高いスコアを与えることが可能である。チャネル毎に本発明の情報処理装置を設け、話題のスコアを計算することにより、チャネル相互で比較可能なスコアを話題に付与することが可能となる。
w a = 1/50, w b = 3/50, w c = 1/50, w d = 0, w e = 0, w f = 1/20
As described above, the information processing apparatus according to the present invention can give a higher score to a topic when a message is generated in a short period of time near a designated time even if the messages have the same contents. By providing the information processing apparatus of the present invention for each channel and calculating the topic score, it is possible to give a score that can be compared between channels to the topic.

なお、同一の時刻が関連づけられているメッセージが複数存在する場合は、たとえば、入力順序やメッセージの順序を表す識別子等を用いて、前記メッセージの順序を決定し、単位時間を当該メッセージに関連づけられているメッセージの数で等分した値を当該関連づけられている時刻にメッセージの順序順に逐次加算した値を前記各メッセージに関連づけられている時刻とみなして、スコアを算出すればよい。例えばメッセージ順序付与部において、メッセージに関連付けされている時刻を前記逐次加算した値に置換し、S32〜S37の処理を行うことにより前記スコアの算出は可能である。   When there are a plurality of messages associated with the same time, for example, the order of the messages is determined using an input order or an identifier indicating the order of the messages, and the unit time is associated with the message. A score may be calculated by regarding a value obtained by sequentially adding a value obtained by equally dividing the number of messages in the associated time in order of messages as a time associated with each message. For example, the score can be calculated by replacing the time associated with the message with the sequentially added value in the message order assigning unit and performing the processes of S32 to S37.

<第2の実施の形態>
図4は本発明の係わる情報処理装置の第2の実施の形態を示す。メッセージ保持部は第1の実施の形態のメッセージ保持部と同じである。図21はインデックス作成部41の構成図である。図5はインデックス作成部の処理フローの例である。図間で同じ記号は同じ装置や処理を表す。図5のS51(図21の211)では話題カウンタ記憶部に記憶されている各メッセージの各話題の以下のようなカウンタ情報をインデックス保持部に出力する。
<Second Embodiment>
FIG. 4 shows a second embodiment of the information processing apparatus according to the present invention. The message holding unit is the same as the message holding unit of the first embodiment. FIG. 21 is a configuration diagram of the index creation unit 41. FIG. 5 is an example of the processing flow of the index creation unit. The same symbols in the drawings represent the same devices and processes. In S51 of FIG. 5 (211 of FIG. 21), the following counter information of each topic of each message stored in the topic counter storage unit is output to the index holding unit.

[13:38、[[wa、1]、[wb、3]、[wc、1]]]
[13:40、[[wb、2]、[wd、0]、[we、0]]]
[13:48、[[wb、1]、[wc、0]、[wf、1]]]
[13:49、[[wa、0]、[wb、0]、[wf、0]]]
図22はスコア計算部43の構成例である。図6はスコア計算部43の処理フローの例である。以下処理フローを説明する。
[13:38, [[w a , 1], [w b , 3], [w c , 1]]]
[13:40, [[w b, 2], [w d, 0], [w e, 0]]]
[13:48, [[w b , 1], [w c , 0], [w f , 1]]]
[13:49, [[w a, 0], [w b, 0], [w f, 0]]]
FIG. 22 is a configuration example of the score calculation unit 43. FIG. 6 is an example of a processing flow of the score calculation unit 43. The processing flow will be described below.

《スコア計算部処理フロー》
S61停止チェック処理において、制御部は処理停止フラグがonかチェックし、フラグがonであれば処理を終了する。
<Score calculation section processing flow>
In the S61 stop check process, the control unit checks whether the process stop flag is on. If the flag is on, the control unit ends the process.

S62指定時刻取得処理(時刻取得部)において、入力記憶部より外部より指定された時刻を読み込み、時刻記憶部へ前記時刻を出力する。時刻を出力後、制御部に出力完了を通知する。制御部はスコア算出部へ処理開始を指示する。その後、S63へ処理が進む。   In S62 designated time acquisition processing (time acquisition unit), the time specified from the outside is read from the input storage unit, and the time is output to the time storage unit. After outputting the time, the control unit is notified of the completion of output. The control unit instructs the score calculation unit to start processing. Thereafter, the process proceeds to S63.

S63スコア算出処理(スコア算出部)において、
(1)時刻記憶部から指定時刻を、インデックス保持部から各メッセージの各話題の値、各メッセージの話題カウンタに関連付けられている時刻をそれぞれ読み込み、各メッセージの各話題に対して、前記話題の値を構成要素にもち、指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもつ式でスコアを求める。
In S63 score calculation processing (score calculation unit),
(1) Read the specified time from the time storage unit, the value of each topic of each message from the index holding unit, and the time associated with the topic counter of each message, respectively, and for each topic of each message, A score is obtained by an expression having a value as a component and having a difference between a designated time and a time associated with the message as a component of the denominator.

(2)各話題に対してS63の(1)で求めた当該話題のスコアの値の中から代表値を決定し、各話題とその代表値を出力記憶部へ出力する。その後、制御部へ処理完了を通知する。その後、S61へ処理が進む。 (2) For each topic, a representative value is determined from the score values of the topic obtained in (1) of S63, and each topic and its representative value are output to the output storage unit. Thereafter, the control unit is notified of the completion of processing. Thereafter, the process proceeds to S61.

スコア算出時にインデックス保持部42に保持されているカウンタ情報を参照することにより、時刻が指定される都度、第一の実施形態のスコア算出部の動作フローS31、S33〜S36を繰り返す必要がないため、指定された時刻に対する各話題のチャネル間での比較可能なスコアを高速に求めることが可能となる。   By referring to the counter information held in the index holding unit 42 at the time of score calculation, it is not necessary to repeat the operation flows S31 and S33 to S36 of the score calculation unit of the first embodiment every time the time is specified. Thus, it is possible to quickly obtain a comparable score between channels of each topic at a specified time.

<第3の実施の形態>
図7は本発明に係わる情報処理装置の第3の実施の形態を示す。図8はインデックス保持部72が最大3件のメッセージに対する話題情報を保持する場合の例である。スコア計算部73は第2の実施の形態の図4のスコア計算部43と同等である。図23はインデックス更新部の構成例である。図9はインデックス更新部71の処理フローの例を示す。
<Third Embodiment>
FIG. 7 shows a third embodiment of the information processing apparatus according to the present invention. FIG. 8 shows an example in which the index holding unit 72 holds topic information for up to three messages. The score calculation unit 73 is equivalent to the score calculation unit 43 of FIG. 4 of the second embodiment. FIG. 23 shows a configuration example of the index update unit. FIG. 9 shows an example of the processing flow of the index update unit 71.

以下に処理フローを説明する。 The processing flow will be described below.

《インデックス更新部処理フロー》
S91停止チェック処理において、制御部は処理停止フラグがonかチェックし、フラグがonであれば処理を終了する。
<Processing flow for updating the index>
In the S91 stop check process, the control unit checks whether the process stop flag is on, and if the flag is on, the process ends.

S92メッセージ取得処理(メッセージ取得部)において、 入力記憶部よりメッセージを読み込みメッセージ記憶部へ出力する。処理の完了を制御部へ通知する。制御部は話題抽出部へ処理開始を指示する。その後S93へ処理が進む。   In S92 message acquisition processing (message acquisition unit), a message is read from the input storage unit and output to the message storage unit. The control unit is notified of the completion of processing. The control unit instructs the topic extraction unit to start processing. Thereafter, the process proceeds to S93.

S93話題抽出処理(話題抽出部)において、
(1)メッセージ記憶部よりメッセージを読み込みメッセージmとする。
(2)メッセージmを語分割装置へ出力し、語skと品詞や辞書登録の有無等の語情報 tk の対[sk, tk]を要素とするリストL=[[s1, t1], [s2, t2], ...](メッセージiの先頭の語から順にs1, s2)を取得する。パタン記憶部からパタンを読み込み、前記パタンをPとする。
(3)メッセージ内の話題を記憶するためのリストR、話題候補を記憶するための文字列s、語情報文字列を記憶するための文字列tを用意し、R=[]、s=""、t=""とする。
(4)j = 1
(5) j ≦Lの要素数でなければS94(1)へ処理が進む。
(6) t = t + tj
(7) t にPにマッチしない部分が存在する場合(9)へ処理が進む。
(8) s = s + sj、 t = t + tj とし、(11)へ処理が進む。
(9) s = ""であれば t = "" として(11)へ処理が進む。
(10)R = R + [s]、 S = ""、 t = ""。
(11) j = j + 1として、(5)へ処理が進む。
In S93 topic extraction processing (topic extraction unit),
(1) A message is read from the message storage unit and set as a message m.
(2) The message m is output to the word segmenting device, and the list L = [[s1, t1], [s2] having the pair [sk, tk] of the word information tk such as word sk and part of speech and dictionary registration , t2], ...] (s1, s2 in order from the first word of message i). A pattern is read from the pattern storage unit, and the pattern is set to P.
(3) A list R for storing topics in a message, a character string s for storing topic candidates, and a character string t for storing word information character strings are prepared, and R = [], s = "", T ="".
(4) j = 1
(5) If j ≦ L is not satisfied, the process proceeds to S94 (1).
(6) t = t + tj
(7) If there is a part that does not match P in t, the process proceeds to (9).
(8) s = s + sj, t = t + tj, and the process proceeds to (11).
(9) If s = “”, the process proceeds to (11) with t = “”.
(10) R = R + [s], S = “”, t = “”.
(11) As j = j + 1, the process proceeds to (5).

S94話題カウンタ更新処理(話題抽出部)において、
(1)インデックス保持部にメッセージ数N件未満に対する話題カウンタが保持されている場合(2)へ処理が進む。そうでなければ(3)へ処理が進む。
(2)関連付けられている時刻が最も古いメッセージから生成された話題カウンタを削除する。その後(3)へ処理が進む。
(3)インデックス保持部中の各メッセージの話題カウンタにおけるメッセージm中の各話題(Rの要素)の値を読み込み、前記読み込んだ値それぞれに対して1加算した値を話題カウンタ記憶部に出力する。
(4)メッセージm中の各話題(Rの要素)に対して値0をもつカウンタと、メッセージmに関連づけられている時刻をもつメッセージm用の話題カウンタを作成し、インデックス保持部へ追加する。その後S91へ処理が進む。S94(1)のNは、インデックス保持部が保持するメッセージ数の上限である。
In S94 topic counter update processing (topic extraction unit),
(1) When a topic counter for less than N messages is held in the index holding unit, the process proceeds to (2). Otherwise, the process proceeds to (3).
(2) Delete the topic counter generated from the message with the oldest associated time. Thereafter, the process proceeds to (3).
(3) Read the value of each topic (element of R) in the message m in the topic counter of each message in the index holding unit, and output a value obtained by adding 1 to each of the read values to the topic counter storage unit .
(4) Create a counter with a value of 0 for each topic (element of R) in message m and a topic counter for message m with the time associated with message m, and add them to the index holding unit . Thereafter, the process proceeds to S91. N in S94 (1) is the upper limit of the number of messages held by the index holding unit.

インデックス保持部72が最大3件(S94(1)においてN=3)のメッセージに対する話題カウンタを保持し、インデックス保持部が図8の状態において、時刻13:49が関連付けられた話題wa, wb, wfを含むメッセージMが入力された場合の、インデックス更新部71の動作を以下に説明する。   The index holding unit 72 holds topic counters for a maximum of three messages (N = 3 in S94 (1)), and when the index holding unit is in the state of FIG. 8, the topics wa, wb, The operation of the index update unit 71 when a message M including wf is input will be described below.

S94(1)においてN=3として説明を行う。メッセージ取得部は入力記憶部よりメッセージMを読み込み、メッセージ記憶部にメッセージMを出力し、処理の完了を制御部へ通知する。制御部は話題抽出部に処理開始を通知する(S91)。   In S94 (1), description will be made assuming that N = 3. The message acquisition unit reads the message M from the input storage unit, outputs the message M to the message storage unit, and notifies the control unit of the completion of processing. The control unit notifies the topic extraction unit of the start of processing (S91).

話題抽出部は、メッセージ記憶部よりメッセージを読み込み、メッセージを語に分割する(S93(1)、(2))し、話題を抽出する(S93(2)〜(11))。   The topic extraction unit reads a message from the message storage unit, divides the message into words (S93 (1), (2)), and extracts a topic (S93 (2) to (11)).

インデックス保持部には3件のメッセージに対する話題カウンタが保持されているため、S94(2)の処理を実施する。関連づけられている時刻が最も古い[13:38, [[wa, 0], [wb, 2]、[wc, 1]]]を削除する。メッセージmに含まれる話題wa, wb, wfに対するインデックス保持部に保持される話題カウンタのカウンタを1増加させる(S94の(3))。インデックス保持部に保持される情報の例を以下に示す。   Since the topic holding counter for the three messages is held in the index holding unit, the process of S94 (2) is performed. [13:38, [[wa, 0], [wb, 2], [wc, 1]]] with the oldest associated time is deleted. The counter of the topic counter held in the index holding unit for the topics wa, wb, wf included in the message m is incremented by 1 ((3) in S94). An example of information held in the index holding unit is shown below.

[13:40、[[wb、2]、[wd、0]、[we、0]]]
[13:48、[[wb、1]、[wc、0]、[wf、1]]]
図9のS94(4)でメッセージMに対する話題情報[13:49、[[wa、0]、[wb、0]、[wf、0]]]をインデックス保持部に追加し、インデックス保持部72は以下のようになる。
[13:40, [[w b, 2], [w d, 0], [w e, 0]]]
[13:48, [[w b , 1], [w c , 0], [w f , 1]]]
The topic information [13:49, [[w a , 0], [w b , 0], [w f , 0]]] for the message M is added to the index holding unit in S94 (4) of FIG. The holding unit 72 is as follows.

[13:40、[[wb、2]、[wd、0]、[we、0]]]
[13:48、[[wb、1]、[wc、0]、[wf、1]]]
[13:49、[[wa、0]、[wb、0]、[wf、0]]]
スコア計算部73は第2の実施の形態の図4のスコア計算部43であり、時刻が指定されるとインデックス保持部72を参照し、各話題のスコアを求め、出力する。
[13:40, [[w b, 2], [w d, 0], [w e, 0]]]
[13:48, [[w b , 1], [w c , 0], [w f , 1]]]
[13:49, [[w a, 0], [w b, 0], [w f, 0]]]
The score calculation unit 73 is the score calculation unit 43 of FIG. 4 according to the second embodiment. When a time is specified, the score calculation unit 73 refers to the index holding unit 72 and obtains and outputs a score for each topic.

インデックス更新部71がメッセージが追加される都度、追加されてたメッセージのみ語分割、話題抽出を行うため、関連づけられている時刻が古い順に本発明の情報処理装置にチャネル毎にメッセージを入力することにより、逐次メッセージが追加される場合においても時刻の指定に応じて高速にチャネル間で比較可能なスコアを求めることが可能となる。   Each time the index update unit 71 adds a message, only the added message is word-divided and topic extraction is performed. Therefore, the messages are input to the information processing apparatus of the present invention for each channel in ascending order of the associated time. Thus, even when messages are sequentially added, it is possible to obtain a score that can be compared between channels at high speed according to the designation of time.

なお、インデックス保持部72に、話題をキーとし、各メッセージの各話題のカウンタへのポインタのリストを値とするハッシュを設ければ、追加されたメッセージが有する各話題に対してインデックス保持部72に保持される話題情報のカウンタを高速に更新可能となり、メッセージ追加時のインデックス更新をより高速に行うことが可能である。   If the index holding unit 72 is provided with a hash having a topic as a key and a list of pointers to counters of each topic of each message as a value, the index holding unit 72 for each topic included in the added message. It is possible to update the counter of the topic information held in the message at high speed, and to update the index when adding a message at a higher speed.

<第4の実施の形態>
図10は本発明に係わる情報処理装置の第4の実施の形態を示す。スコア計算部101と第一の実施形態のメッセージ保持部11から構成される。図24はスコア計算部101の構成例である。スコア計算部は外部より時刻を取得する時刻取得部と、メッセージに順序を付与するメッセージ順序付与部と順序が付与されたメッセージを記憶する順序付与済みメッセージ記憶部と、メッセージを語に分割する語分割装置と、話題を表すパタンを記憶するパタン記憶部と、メッセージ群中の各メッセージから話題を抽出し、各メッセージの各話題の各語の当該メッセージより順序が後のメッセージでの参照数を求める構成語情報付き話題抽出部と前記参照数を記憶する構成語情報付き話題カウンタ記憶部と、話題のスコアを算出する構成語情報付きスコア算出部から構成される。図11はスコア計算部101の処理フローの例である。以下に処理フローの詳細を示す。
<Fourth embodiment>
FIG. 10 shows a fourth embodiment of the information processing apparatus according to the present invention. The score calculation unit 101 and the message holding unit 11 of the first embodiment are configured. FIG. 24 is a configuration example of the score calculation unit 101. The score calculation unit includes a time acquisition unit that acquires time from the outside, a message order assignment unit that assigns an order to messages, an order-added message storage unit that stores messages with an order, and a word that divides the message into words The topic is extracted from each message in the message group, and the dividing device, the pattern storage unit that stores the pattern representing the topic, and the number of references in the message in the order after the message of each word of each topic of each message A topic extraction unit with constituent word information to be obtained, a topic counter storage unit with constituent word information for storing the reference number, and a score calculation unit with constituent word information for calculating a topic score. FIG. 11 is an example of a processing flow of the score calculation unit 101. Details of the processing flow are shown below.

《スコア計算部処理フロー》
S111順序付与処理(メッセージ順序付与部)において、メッセージ保持部に保持されているメッセージを関係づけられている時刻でソートし、時刻が古い順にメッセージ1...メッセージNと順序付けし、前記順序が付与されたメッセージ群を順序付与済みメッセージ記憶部へ出力する。
<Score calculation section processing flow>
In S111 order assignment processing (message order assignment section), the messages held in the message holding section are sorted according to the associated time, and the messages are ordered in the order of oldest as message 1 ... message N. The assigned message group is output to the order-assigned message storage unit.

S112指定時刻取得処理(時刻取得部)において、入力記憶部より外部より指定された時刻を読み込み、時刻記憶部へ前記時刻を出力する。   In S112 designated time acquisition processing (time acquisition unit), the time specified from the outside is read from the input storage unit, and the time is output to the time storage unit.

S113初期設定処理(構成語情報付き話題抽出部)において、
(1)順序付与済みメッセージ記憶部よりメッセージ群を読み込む。
(2)N=前記読み込みメッセージ数とし、処理カウンタi=1とする。
S114話題抽出処理完了判定処理(構成語情報付き話題抽出部)において、i > N (全てのメッセージに対して処理完了)ならS117へ処理が進む。
In S113 initial setting processing (topic extraction unit with constituent word information),
(1) A message group is read from the order-assigned message storage unit.
(2) N = the number of read messages, and process counter i = 1.
In S114 topic extraction processing completion determination processing (topic extraction unit with constituent word information), if i> N (processing is completed for all messages), the processing proceeds to S117.

S115構成語情報付き話題抽出処理(構成語情報付き話題抽出部)において、
(1)メッセージiを語分割装置へ出力し、語skと品詞や辞書登録の有無等の語情報 tj の対[sk, tk]を要素とするリストL=[[s1, t1], [s2, t2], ...](メッセージiの先頭の語から順にs1, s2)を取得する。
(2)パタン記憶部からパタンを読み込み、前記パタンをPとする。
(3)メッセージ内の話題を記憶するためのリストR、話題候補を記憶するための文字列s、語情報文字列を記憶するための文字列t、各話題を構成する語を記憶するためのリストU、メッセージ内の語を記憶するためのリストQを用意し、R=[]、s=""、t=""、U=[]、Q=[]とする。
(4)j = 1
(5) j ≦Lの要素数 でなければS115へ処理が進む。
(6) t = t + tj
(7) t にPにマッチしない部分が存在する場合(9)へ処理が進む。
(8) s = s + sj、 t = t + tj 、U = U + [sj] とし、(11)へ処理が進む。
(9) s = ""であれば t = "" として(11)へ処理が進む。
(10)R = R + [[ s, U]]、 s = ""、 t = ""、U = []。
(11)sj ∈Qであれば(13)へ処理が進む。
(12) Q = Q + [sj]。
(13) j = j + 1として、(5)へ処理が進む。
In S115 topic extraction processing with constituent word information (topic extracting unit with constituent word information),
(1) The message i is output to the word segmentation device, and the list L = [[s1, t1], [s2] having a pair [sk, tk] of the word information tj such as the word sk and the part of speech or the presence / absence of dictionary registration , t2], ...] (s1, s2 in order from the first word of message i).
(2) A pattern is read from the pattern storage unit, and the pattern is set to P.
(3) A list R for storing topics in a message, a character string s for storing topic candidates, a character string t for storing word information character strings, and a word constituting each topic A list U and a list Q for storing words in the message are prepared, and R = [], s = "", t = "", U = [], Q = [].
(4) j = 1
(5) If j ≦ L is not satisfied, the process proceeds to S115.
(6) t = t + tj
(7) If there is a part that does not match P in t, the process proceeds to (9).
(8) s = s + sj, t = t + tj, U = U + [sj], and the process proceeds to (11).
(9) If s = “”, the process proceeds to (11) with t = “”.
(10) R = R + [[s, U]], s = “”, t = “”, U = [].
(11) If sj εQ, the process proceeds to (13).
(12) Q = Q + [sj].
(13) As j = j + 1, the process proceeds to (5).

S116構成語情報付き話題カウンタ更新処理(構成語情報付き話題抽出部)において、
(1)メッセージi中の各話題の各構成語(R = [[s1, [u11, u12...]], [s2, [u21, ...]], ...] のuxy)に対して値を0にもつカウンタとメッセージiに関連づけられている時刻とメッセージiに含まれる語をもつメッセージi用の構成語情報付き話題カウンタを作成し、構成語情報付き話題カウンタ記憶部へ出力する。
(2)構成語情報付き話題カウンタ記憶部中のメッセージ1〜メッセージi-1用の構成語情報付き話題カウンタにおけるメッセージi中の各語(Qの要素)の値を読み込み、前記読み込んだ値それぞれに対して1加算した値を構成語情報付き話題カウンタ記憶部に出力する。
(3)i = i + 1とし、S114へ処理が進む。
S116 In topic counter update processing with constituent word information (topic extracting unit with constituent word information),
(1) In each constituent word (R = [[s1, [u11, u12 ...]], [s2, [u21, ...]], ...] in message i) On the other hand, a topic counter with constituent word information is created for a message i having a counter with a value of 0 and the time associated with message i and the word included in message i, and output to the topic counter storage section with constituent word information To do.
(2) Read the value of each word (element of Q) in message i in the topic counter with constituent word information for message 1 to message i-1 in the topic counter storage unit with constituent word information, and each of the read values 1 is added to the topic counter storage unit with constituent word information.
(3) i = i + 1 and the process proceeds to S114.

S117構成語情報付きスコア算出処理(構成語情報付きスコア算出部)において、
(1)時刻記憶部から指定時刻を、構成語情報付き話題カウンタ記憶部から各メッセージの各話題を構成する各語の値、各メッセージに対する構成語情報付き話題カウンタに関連付けられている時刻をそれぞれ読み込み、各メッセージの各話題に対し、当該話題を構成する語に対するカウンタの値を分子の構成要素にもち、指定された前記時刻と当該メッセージに関連付けられている時刻の差を分母の構成要素にもつ式でスコアを求める。
(2)各話題に対してS117の(1)で求めた当該話題のスコアの値の中から代表値を決定し、各話題とその代表値を話題スコア値記憶部へ出力する。
S116(1)では以下のカウンタおよびリストを作成する。
[13:40、[[wb、[[b11、0]、[b12、0]、[b13、0]]]、[wd、[[d11、0]、[d12、0]]]、
[we、[[e11、0]、[e12、0]、[e13、0]]]]、
[b11、b12、b13、d12、d12、e11、e12、e13、o21、o22、o11]]
S117 In the score calculation process with constituent word information (score calculator with constituent word information),
(1) The designated time from the time storage unit, the value of each word constituting each topic of each message from the topic counter storage unit with constituent word information, and the time associated with the topic counter with constituent word information for each message, respectively For each topic of each message, the counter value for the word constituting the topic is used as the numerator component, and the difference between the specified time and the time associated with the message is used as the denominator component. Find the score with the formula.
(2) For each topic, a representative value is determined from the score values of the topic obtained in (1) of S117, and each topic and its representative value are output to the topic score value storage unit.
In S116 (1), the following counters and lists are created.
[13:40, [[w b , [[b 11 , 0], [b 12 , 0], [b 13 , 0]]], [w d , [[d 11 , 0], [d 12 , 0]]],
[w e, [[e 11 , 0], [e 12, 0], [e 13, 0]]]],
[b 11, b 12, b 13, d 12, d 12, e 11, e 12, e 13, o 21, o 22, o 11]]

今関連づけられている時刻が「13:40」のメッセージmiにおいて話題wb、wd、weがあり、それぞれの話題を構成する語が、b11、b12、b13、d11、d12、e11、e12、e13であり、メッセージmiに含まれる語がb11、b12、b13、d11、d12、e11、e12、e13、o11、o21、o22の場合、S116(2)では時刻「13:38」が関連づけられているメッセージmi-1用の値0の話題wa、wb、wcのカウンタが存在した場合、メッセージmiに語b11、b12、b13が含まれるため、メッセージmi-1用の話題wbの語b11、b12、b13のカウンタを1増やし、以下の状態にする。 Topical w b in the message m i of time associated now "13:40", has w d, w e, words constituting each topic, b 11, b 12, b 13, d 11, d 12, e 11, a e 12, e 13, a message m words contained in the i is b 11, b 12, b 13 , d 11, d 12, e 11, e 12, e 13, o 11, o In the case of 21 and o 22 , in S116 (2), if there are counters of topics w a , w b , and w c having a value of 0 for the message m i−1 associated with the time “13:38”, the message since the word to m i b 11, b 12, b 13 are included, the counter of the message m topic for i-1 w b word b 11, b 12, b 13 increased by one to the following conditions.

[13:38、[[wa、[[a11、0]、[a12、0]]]、[wb、[[b11、1]、[b12、1]、[b13、1]]]、
[wc、[[c11、0]、[c12、0]]]]、
[a11、a12、b11、b12、b13、c11、c12、o11、o12、o13]]
ここで、図11のS112で時刻Tが指定されているとする。図11のS115(1)のスコア計算では、メッセージmiの話題wkに対して、当該話題構成する語tk∈wjに対するカウンタの値Cmi,wj,tkを分子の構成要素にもち、指定された前記時刻Tとメッセージmiに関連づけられている時刻tmiの差を分母の構成要素にもつ式で求められている値を用いて、前記話題のスコアscoremi,wjを求める。
[13:38, [[w a, [[a 11, 0], [a 12, 0]]], [w b, [[b 11, 1], [b 12, 1], [b 13, 1]]],
[w c , [[c 11 , 0], [c 12 , 0]]]],
[a 11, a 12, b 11, b 12, b 13, c 11, c 12, o 11, o 12, o 13]]
Here, it is assumed that the time T is designated in S112 of FIG. The score calculation of S115 (1) in FIG. 11, has relative topic w k messages m i, the value C mi of counters for word t k ∈w j constituting the topic, wj, the tk to the components of the molecule , using the values given by equation with the difference between the time t mi associated with the specified the time T and the message m i to the components of the denominator, score score mi of the topics, determine the wj.

たとえば、以下の式を用いることができる。|wj|はwjを構成する語の数を表す。ここで構成する語は単純にメッセージ分割S115(1)で得られる語全てとしてもよいし、辞書に登録されているもののみとしてもよい。また形態素解析を用いた場合は、名詞のみというようにある品詞のもののみとしてもよい。

Figure 2006172424
For example, the following formula can be used. | W j | represents the number of words constituting w j . The words configured here may simply be all the words obtained in the message division S115 (1), or only those registered in the dictionary. When morphological analysis is used, only nouns may be used, such as only nouns.
Figure 2006172424

第1の実施の形態と同様、1つの話題に対して複数のスコアが求められるので、たとえば関連づけられている時刻が最も古いメッセージの話題のスコアもってその話題のスコアとしたり、一番高いスコアをその話題のスコアとして採用してもよい。   As in the first embodiment, since a plurality of scores are obtained for one topic, for example, the topic score of the message with the oldest associated time is used as the topic score, or the highest score is obtained. You may employ | adopt as the score of the topic.

たとえば、図11のS115(1)の時点の各メッセージの各話題の各種のカウンタを以下とする。   For example, various counters for each topic of each message at the time of S115 (1) in FIG.

1:[13:38、[[wa、[[a11、1]、[a12、1]]]、
[wb、[b11、3]、[b12、3]、[b13、3]]]、
[wc、[[c11、1]、[c12、1]]]]、
[a11、a12、b11、b12、b13、c11、c12、o11、o12、o13]]
2:[13:40、[[wb、[[b11、2]、[b12、2]、[b13、2]]]、
[wd、[[d11、1]、[d12、0]]]、
[we、[[e11、0]、[e12、0]、[e13、0]]]]、
[b11、b12、b13、d11、d12、e11、e12、e13、o21、o22、o11]]
3:[13:48、[[wb、[[b11、1]、[b12、1]、[b13、1]]]、
[wc、[[c11、c12]]、[wf、[f11、f12]]]、
[b11、b12、b13、c11、c12、f11、f12、d11、o31、o22、o13]]
4:[13:49、[[wa、[[a11、0]、[a12、0]]]、
[wb、[[b11、b12、b13]]、[wf、[f11、f12]]]、
[a11、a12、b11、b13、b13、f11、f12、o41、o42、o31]]
この場合、時刻T=13:50が指定された場合の各メッセージの各話題のスコアは以下のようになる。

Figure 2006172424
m 1: [13:38, [[ w a, [[a 11, 1], [a 12, 1]]],
[w b , [b 11 , 3], [b 12 , 3], [b 13 , 3]]],
[w c , [[c 11 , 1], [c 12 , 1]]]],
[a 11, a 12, b 11, b 12, b 13, c 11, c 12, o 11, o 12, o 13]]
m 2 : [13:40, [[w b , [[b 11 , 2], [b 12 , 2], [b 13 , 2]]],
[w d , [[d 11 , 1], [d 12 , 0]]],
[w e, [[e 11 , 0], [e 12, 0], [e 13, 0]]]],
[b 11, b 12, b 13, d 11, d 12, e 11, e 12, e 13, o 21, o 22, o 11]]
m 3 : [13:48, [[w b , [[b 11 , 1], [b 12 , 1], [b 13 , 1]]],
[w c , [[c 11 , c 12 ]], [w f , [f 11 , f 12 ]]],
[b 11, b 12, b 13, c 11, c 12, f 11, f 12, d 11, o 31, o 22, o 13]]
m 4: [13:49, [[ w a, [[a 11, 0], [a 12, 0]]],
[w b, [[b 11 , b 12, b 13]], [w f, [f 11, f 12]]],
[a 11, a 12, b 11, b 13, b 13, f 11, f 12, o 41, o 42, o 31]]
In this case, the score of each topic of each message when time T = 13: 50 is designated is as follows.
Figure 2006172424

各話題において最大のスコアを選択した場合、話題のスコアを以下のようになる。   When the maximum score is selected for each topic, the topic score is as follows.

a=1/12、wb=3/12、wc=1/12、wd=1/20、we=0、wf=1/2
図11のS115(2)では、上記話題とそのスコアを出力する。
w a = 1/12, w b = 3/12, w c = 1/12, w d = 1/20, w e = 0, w f = 1/2
In S115 (2) of FIG. 11, the topic and its score are output.

ここで上記メッセージm1〜m4と内容が同じで、それぞれ時刻12:38、12:40、12:48、12:49が関連づけられたメッセージがメッセージ保持部11に保持されている場合、時刻13:50の指定に対する話題のスコアは以下のようになる。 Here, when the messages m 1 to m 4 have the same contents and the messages 12:38, 12:40, 12:48, and 12:49 are associated with each other, the message holding unit 11 holds the time. The topic scores for the 13:50 designation are:

a=1/72、wb=3/72、wc=1/72、wd=1/140、we=0、wf=1/62
また、上記メッセージm1〜m4と内容が同じで、それぞれ時刻13:00、13:10、13:30、13:49が関連づけられたメッセージがメッセージ保持部11に保持されている場合、時刻13:50の指定に対する話題のスコアは以下のようになる。
w a = 1/72, w b = 3/72, w c = 1/72, w d = 1/140, w e = 0, w f = 1/62
In addition, when the messages m 1 to m 4 have the same contents and the messages 13:00, 13:10, 13:30, and 13:49 are associated with the messages, respectively, The topic scores for the 13:50 designation are:

a=1/50、wb=3/50、wc=1/50、wd=1/80、we=0、wf=1/20
このように、本発明の情報処理装置では、同じ内容のメッセージであっても、指定された時刻に近く短い期間にメッセージが発生した場合の話題の方に高いスコアを与えることが可能である。チャネル毎に本発明の情報処理装置を設け、話題のスコアを計算することにより、チャネル相互で比較可能なスコアを話題に付与することが可能となる。
w a = 1/50, w b = 3/50, w c = 1/50, w d = 1/80, w e = 0, w f = 1/20
As described above, the information processing apparatus according to the present invention can give a higher score to a topic when a message is generated in a short period of time near a designated time even if the messages have the same contents. By providing the information processing apparatus of the present invention for each channel and calculating the topic score, it is possible to give a score that can be compared between channels to the topic.

更に、メッセージm3において、メッセージm2の話題wdを構成する語d11が含まれるため、第1の実施の形態ではスコアが0であった話題wdにスコアをつけることが可能となっている。語を用いることにより、より細かいスコアづけが可能となり、話題が出現した後、省略形のように話題の部分文字列として表されて話題がメッセージの中で完全に同じ形で現れないメッセージに対しても話題のスコア付が可能となる。 Furthermore, the message m 3, because it contains a word d 11 constituting the topic w d message m 2, in the first embodiment becomes possible scoring the topic w d score was 0 ing. By using words, more detailed scoring is possible, and after a topic appears, a message that is expressed as a substring of the topic, such as an abbreviation, and the topic does not appear in the exact same form in the message Even topical scores are possible.

上記の例では話題のスコアは語のカウンタの値の平均をもとに求めたが、平均をとらずに加算のみしてもよい。多くの語から構成される話題に対するスコアを高くしたい場合は加算のみにするのが好適である。   In the above example, the topic score is obtained based on the average of the word counter values, but it may be only added without taking the average. If it is desired to increase the score for a topic composed of many words, it is preferable to add only.

前記実施の形態における各メッセージの語のリストは、本来の処理には不要であるが、動作例をわかりやすくするために用いた。   The word list of each message in the above embodiment is not necessary for the original processing, but is used for easy understanding of the operation example.

<第5の実施の形態>
図12は本発明の係わる情報処理装置の第5の実施の形態を示す。メッセージ保持部は第一の実施の形態のメッセージ保持部と同じである。図25はインデックス作成部121の構成図である。図13はインデックス作成部の処理フローの例である。図間で同じ記号は同じ装置や処理を表す。図13のS131(図25の251)では話題カウンタ記憶部に記憶されている各メッセージの各話題を構成する各語の以下のような話題カウンタ情報をインデックス保持部に出力する。
<Fifth embodiment>
FIG. 12 shows a fifth embodiment of an information processing apparatus according to the present invention. The message holding unit is the same as the message holding unit of the first embodiment. FIG. 25 is a configuration diagram of the index creation unit 121. FIG. 13 is an example of the processing flow of the index creation unit. The same symbols in the drawings represent the same devices and processes. In S131 of FIG. 13 (251 of FIG. 25), the following topic counter information of each word constituting each topic of each message stored in the topic counter storage unit is output to the index holding unit.

[13:38、[[wa、[[a11、1]、[a12、1]]]、[wb、[b11、3]、[b12、3]、[b13、3]]]、
[wc、[[c11、1]、[c12、1]]]]、
[a11、a12、b11、b12、b13、c11、c12、o11、o12、o13]]
[13:40、[[wb、[[b11、2]、[b12、2]、[b13、2]]]、[wd、[[d11、1]、[d12、0]]]、
[we、[[e11、0]、[e12、0]、[e13、0]]]]、
[b11、b12、b13、d11、d12、e11、e12、e13、o21、o22、o11]]
[13:48、[[wb、[[b11、1]、[b12、1]、[b13、1]]]、
[wc、[[c11、c12]]、[wf、[f11、f12]]]、
[b11、b12、b13、c11、c12、f11、f12、d11、o31、o22、o13]]
[13:49、[[wa、[[a11、0]、[a12、0]]]、
[wb、[[b11、b12、b13]]、[wf、[f11、f12]]]、
[a11、a12、b11、b13、b13、f11、f12、o41、o42、o31]]
図26はスコア計算部123の構成例である。図14はスコア計算部123の処理フローの例である。以下処理フローを説明する。
[13:38, [[w a, [[a 11, 1], [a 12, 1]]], [w b, [b 11, 3], [b 12, 3], [b 13, 3 ]]],
[w c , [[c 11 , 1], [c 12 , 1]]]],
[a 11, a 12, b 11, b 12, b 13, c 11, c 12, o 11, o 12, o 13]]
[13:40, [[w b , [[b 11 , 2], [b 12 , 2], [b 13 , 2]]], [w d , [[d 11 , 1], [d 12 , 0]]],
[w e, [[e 11 , 0], [e 12, 0], [e 13, 0]]]],
[b 11, b 12, b 13, d 11, d 12, e 11, e 12, e 13, o 21, o 22, o 11]]
[13:48, [[w b , [[b 11 , 1], [b 12 , 1], [b 13 , 1]]],
[w c , [[c 11 , c 12 ]], [w f , [f 11 , f 12 ]]],
[b 11, b 12, b 13, c 11, c 12, f 11, f 12, d 11, o 31, o 22, o 13]]
[13:49, [[w a, [[a 11, 0], [a 12, 0]]],
[w b, [[b 11 , b 12, b 13]], [w f, [f 11, f 12]]],
[a 11, a 12, b 11, b 13, b 13, f 11, f 12, o 41, o 42, o 31]]
FIG. 26 shows a configuration example of the score calculation unit 123. FIG. 14 is an example of the processing flow of the score calculation unit 123. The processing flow will be described below.

《スコア計算部処理フロー》
S141停止チェック処理において、制御部は処理停止フラグがonかチェックし、フラグがonであれば処理を終了する。
<Score calculation section processing flow>
In the S141 stop check process, the control unit checks whether the process stop flag is on. If the flag is on, the control unit ends the process.

S142指定時刻取得処理(時刻取得部)において、入力記憶部より外部より指定された時刻を読み込み、時刻記憶部へ前記時刻を出力する。時刻を出力後、制御部に出力完了を通知する。制御部は構成語情報付きスコア算出部へ処理開始を指示する。その後S143へ処理が進む。   In S142 designated time acquisition processing (time acquisition unit), the time specified from the outside is read from the input storage unit, and the time is output to the time storage unit. After outputting the time, the control unit is notified of the completion of output. The control unit instructs the score calculation unit with constituent word information to start processing. Thereafter, the process proceeds to S143.

S143構成語情報付きスコア算出処理(構成語情報付きスコア算出部)において、
(1)時刻記憶部から指定時刻を、インデックス保持部から各メッセージの各話題を構成する各語の値、各メッセージに対する構成語情報付き話題カウンタに関連付けられている時刻をそれぞれ読み込み、各メッセージの各話題に対し、当該話題を構成する語に対するカウンタの値を分子の構成要素にもち、指定された前記時刻と当該メッセージに関連付けられている時刻の差を分母の構成要素にもつ式でスコアを求める。
(2)各話題に対してS143の(1)で求めた当該話題のスコアの値の中から代表値を決定し、各話題とその代表値を出力記憶部へ出力する。その後、制御部へ処理完了を通知する。その後S141へ処理が進む。
S143 In the score calculation process with constituent word information (score calculator with constituent word information),
(1) Read the specified time from the time storage unit, read the value of each word constituting each topic of each message from the index holding unit, and the time associated with the topic counter with constituent word information for each message, For each topic, the counter value for the word constituting the topic is a numerator component, and the score is expressed by an expression having the difference between the specified time and the time associated with the message as a denominator component. Ask.
(2) For each topic, a representative value is determined from the score values of the topic obtained in (1) of S143, and each topic and its representative value are output to the output storage unit. Thereafter, the control unit is notified of the completion of processing. Thereafter, the process proceeds to S141.

スコア計算時にインデックス保持部に保持されている構成語情報付きカウンタ情報を参照することにより、時刻が指定される都度、第4の実施の形態の構成語情報付きスコア計算部の動作フローS111、S113〜S116を繰り返す必要がないため、話題が出現した後、省略形のように話題の部分文字列として表されて話題がメッセージの中で完全に同じ形では現れないメッセージに対しても、指定された時刻に対する各話題のチャネル間で比較可能なスコアを高速に求めることが可能となる。   By referring to the counter information with constituent word information held in the index holding unit at the time of score calculation, each time the time is specified, the operation flows S111 and S113 of the score calculating unit with constituent word information of the fourth embodiment Since it is not necessary to repeat ~ S116, after a topic appears, it is specified even for a message that is expressed as a partial character string of the topic, such as an abbreviation, and the topic does not appear in the exact same form in the message. It is possible to quickly obtain a score that can be compared between channels of each topic for a given time.

<第6の実施の形態>
図15は本発明に係わる情報処理装置の第6の実施の形態を示す。図16はインデックス保持部152が最大3件のメッセージに対する構成語情報付き話題カウンタを保持する場合の例である。スコア計算部153は第5の実施の形態の形態の図12のスコア計算部123と同等である。図17はインデックス更新部151の処理フローの例を示す。以下に処理フローの詳細を示す。
<Sixth Embodiment>
FIG. 15 shows a sixth embodiment of the information processing apparatus according to the present invention. FIG. 16 shows an example when the index holding unit 152 holds topic counters with constituent word information for a maximum of three messages. The score calculation unit 153 is equivalent to the score calculation unit 123 of FIG. 12 according to the fifth embodiment. FIG. 17 shows an example of the processing flow of the index update unit 151. Details of the processing flow are shown below.

また、図27はインデックス更新部151の構成図を示す。インデックス更新部151は、制御部271と、メッセージ取得部232と、メッセージ記憶部233と、語分割部205と、パタン記憶部206と、構成語情報付き話題抽出部272と、から構成されている。さらにインデックス更新部151には、入力記憶部300と、インデックス保持部152が接続されている。   FIG. 27 shows a configuration diagram of the index update unit 151. The index update unit 151 includes a control unit 271, a message acquisition unit 232, a message storage unit 233, a word division unit 205, a pattern storage unit 206, and a topic extraction unit 272 with constituent word information. . Further, an input storage unit 300 and an index holding unit 152 are connected to the index update unit 151.

《インデックス更新部処理フロー》
S171停止チェック処理において、制御部は処理停止フラグがonかチェックし、フラグがonであれば処理を終了する。
<Processing flow for updating the index>
In the S171 stop check process, the control unit checks whether the process stop flag is on. If the flag is on, the control unit ends the process.

S172メッセージ取得処理(メッセージ取得部)において、入力記憶部よりメッセージを読み込みメッセージ記憶部へ出力する。処理の完了を制御部へ通知する。制御部は話題抽出部へ処理開始を指示する。その後S173へ処理が進む。   In S172 message acquisition processing (message acquisition unit), a message is read from the input storage unit and output to the message storage unit. The control unit is notified of the completion of processing. The control unit instructs the topic extraction unit to start processing. Thereafter, the process proceeds to S173.

S173構成語情報付き話題抽出処理(構成語情報付き話題抽出部)において、
(1)メッセージ記憶部よりメッセージを読み込みメッセージmとする。
(2)メッセージmを語分割装置へ出力し、語skと品詞や辞書登録の有無等の語情報 tj の対[sk, tk]を要素とするリストL=[[s1, t1], [s2, t2], ...](メッセージiの先頭の語から順にs1, s2)を取得する。
(3)パタン記憶部からパタンを読み込み、前記パタンをPとする。
(4)メッセージ内の話題を記憶するためのリストR、話題候補を記憶するための文字列s、語情報文字列を記憶するための文字列t、各話題を構成する語を記憶するためのリストU、メッセージ内の語を記憶するためのリストQを用意し、R=[]、s=""、t=""、U=[]、Q=[]とする。
(5)j = 1
(6) j ≦Lの要素数でなければS174へ処理が進む。
(7) t = t + tj
(8) t にPにマッチしない部分が存在する場合(10)へ処理が進む。
(9) s = s + sj、 t = t + tj 、U = U + [sj] とし、(12)へ処理が進む。
(10) s = ""であれば t = "" として(12)へ処理が進む。
(11)R = R + [[ s, U]]、 s = ""、 t = ""、U = []。
(12)sj ∈Qであれば(13)へ処理が進む。
(13) Q = Q + [sj]。
(14) j = j + 1として、(6)へ処理が進む。
S173 In topic extraction processing with constituent word information (topic extracting section with constituent word information),
(1) A message is read from the message storage unit and set as a message m.
(2) The message m is output to the word segmenting device, and the list L = [[s1, t1], [s2] having a pair [sk, tk] of the word information tj such as the word sk and the part of speech or dictionary registration. , t2], ...] (s1, s2 in order from the first word of message i).
(3) A pattern is read from the pattern storage unit, and the pattern is set to P.
(4) A list R for storing topics in a message, a character string s for storing topic candidates, a character string t for storing word information character strings, and a word for composing each topic A list U and a list Q for storing words in the message are prepared, and R = [], s = "", t = "", U = [], Q = [].
(5) j = 1
(6) If j ≦ L is not satisfied, the process proceeds to S174.
(7) t = t + tj
(8) If there is a part that does not match P in t, the process proceeds to (10).
(9) s = s + sj, t = t + tj, U = U + [sj], and the process proceeds to (12).
(10) If s = “”, t = “” and the process proceeds to (12).
(11) R = R + [[s, U]], s = “”, t = “”, U = [].
(12) If sj ∈Q, the process proceeds to (13).
(13) Q = Q + [sj].
(14) As j = j + 1, the process proceeds to (6).

S174構成語情報付き話題カウンタ更新処理(構成語情報付き話題抽出部)において、
(1)インデックス保持部にメッセージ数N件未満に対する構成語情報付き話題カウンタが保持されている場合(2)へ処理が進む。そうでなければ(3)へ処理が進む。
(2)関連付けられている時刻が最も古いメッセージから生成された構成語情報付き話題カウンタを削除する。その後(3)へ処理が進む。
(3)インデックス保持部中の各メッセージの構成語情報付き話題カウンタにおけるメッセーmi中の各語(Qの要素)の値を読み込み、前記読み込んだ値それぞれに対して1加算した値を構成語情報付き話題カウンタ記憶部に出力する。
(4)メッセージm中の各話題の各構成語(R = [[s1, [u11, u12...]], [s2, [u21, ...]], ...] のuxy)に対して値を0にもつカウンタとメッセージiに関連づけられている時刻とメッセージmに含まれる語をもつメッセージm用の構成語情報付き話題カウンタを作成し、インデックス保持部へ追加する。その後S171へ処理が進む。
In S174 topic counter update processing with constituent word information (topic extracting unit with constituent word information),
(1) If the index holding unit holds topic counters with constituent word information for less than N messages, the process proceeds to (2). Otherwise, the process proceeds to (3).
(2) Delete the topic counter with constituent word information generated from the message with the oldest associated time. Thereafter, the process proceeds to (3).
(3) The value of each word (element of Q) in the message mi in the topic counter with constituent word information of each message in the index holding unit is read, and the value obtained by adding 1 to each of the read values is constituent word information Output to the topic counter storage unit.
(4) To each constituent word of each topic in message m (R = [[s1, [u11, u12 ...]], [s2, [u21, ...]], ...] uxy) On the other hand, a counter having a value of 0, a time counter associated with message i having a time associated with message i, and a word included in message m are created and added to the index holding unit. Thereafter, the process proceeds to S171.

S174(1)のNは、インデックス保持部が構成語情報付き話題カウンタを保持するメッセージ数の上限である。   N in S174 (1) is the upper limit of the number of messages that the index holding unit holds the topic counter with constituent word information.

インデックス保持部152が最大3件のメッセージに対する話題情報を保持し、インデックス保持部152が図16の状態において、時刻13:49が関連づけられた話題wa、wb、wf、語a11、a12、b11、b12、b13、f11、f12、o41、o42、o31を含むメッセージMを受信した場合の、インデックス更新部151の動作を以下に説明する。 The index holding unit 152 holds topic information for a maximum of three messages. When the index holding unit 152 is in the state of FIG. 16, the topic w a , w b , w f , the word a 11 , associated with the time 13:49, a 12, b 11, b 12 , b 13, f 11, f 12, o 41, o 42, when receiving the message M containing o 31, illustrating the operation of the index update section 151 below.

メッセージMを語分割し(図17のS173(2))、話題を抽出する(図17のS173(3)〜(14))。インデックス保持部152には上限である3件のメッセージに対する話題情報が保持されているため、S174(2)の処理を実施する。関連づけられている時刻が最も古い[13:38、[[wa、[[a11、0]、[a12、0]]]、[wb、[b11、2]、[b12、2]、[b13、2]]]、[wc、[[c11、1]、[c12、1]]]]、[a11、a12、b11、b12、b13、c11、c12、o11、o12、o13]]を削除する。メッセージMに含まれる語を含むインデックス保持部152に保持される各メッセージの各話題における当該語のカウンタの値を1増加させる(図17のS174(3))。インデックス保持部152に保持される情報の例を以下に示す。 The message M is divided into words (S173 (2) in FIG. 17), and topics are extracted (S173 (3) to (14) in FIG. 17). Since topic information for three messages, which is the upper limit, is held in the index holding unit 152, the process of S174 (2) is performed. Associated with that time is the oldest [13:38, [[w a, [[a 11, 0], [a 12, 0]]], [w b, [b 11, 2], [b 12, 2], [b 13 , 2]]], [w c , [[c 11 , 1], [c 12 , 1]]]], [a 11 , a 12 , b 11 , b 12 , b 13 , c 11 , c 12 , o 11 , o 12 , o 13 ]] are deleted. The counter value of the word in each topic of each message held in the index holding unit 152 including the word included in the message M is incremented by 1 (S174 (3) in FIG. 17). An example of information held in the index holding unit 152 is shown below.

[13:40、[[wb、[[b11、2]、[b12、2]、[b13、2]]]、[wd、[[d11、1]、[d12、0]]]、
[we、[[e11、0]、[e12、0]、[e13、0]]]]、
[b11、b12、b13、d11、d12、e11、e12、e13、o21、o22、o11]]
[13:48、[[wb、[[b11、1]、[b12、1]、[b13、1]]]、
[wc、[[c11、c12]]、[wf、[f11、f12]]]、
[b11、b12、b13、c11、c12、f11、f12、d11、o31、o22、o13]]
図17のS174(4)でメッセージMに対する話題情報[13:49、[[wa、[[a11、0]、[a12、0]]]、[wb、[[b11、b12、b13]]、[wf、[f11、f12]]]、
[a11、a12、b11、b13、b13、f11、f12、o41、o42、o31]]
をインデックス保持部に追加し、インデックス保持部152は以下のようになる。
[13:40, [[w b , [[b 11 , 2], [b 12 , 2], [b 13 , 2]]], [w d , [[d 11 , 1], [d 12 , 0]]],
[w e, [[e 11 , 0], [e 12, 0], [e 13, 0]]]],
[b 11, b 12, b 13, d 11, d 12, e 11, e 12, e 13, o 21, o 22, o 11]]
[13:48, [[w b , [[b 11 , 1], [b 12 , 1], [b 13 , 1]]],
[w c , [[c 11 , c 12 ]], [w f , [f 11 , f 12 ]]],
[b 11, b 12, b 13, c 11, c 12, f 11, f 12, d 11, o 31, o 22, o 13]]
Topic information [13:49 for the message M in S174 (4) in FIG. 17, [[w a, [ [a 11, 0], [a 12, 0]]], [w b, [[b 11, b 12 , b 13 ]], [w f , [f 11 , f 12 ]]],
[a 11, a 12, b 11, b 13, b 13, f 11, f 12, o 41, o 42, o 31]]
Is added to the index holding unit, and the index holding unit 152 is as follows.

[13:40、[[wb、[[b11、2]、[b12、2]、[b13、2]]]、[wd、[[d11、1]、[d12、0]]]、
[we、[[e11、0]、[e12、0]、[e13、0]]]]、
[b11、b12、b13、d11、d12、e11、e12、e13、o21、o22、o11]]
[13:48、[[wb、[[b11、1]、[b12、1]、[b13、1]]]、
[wc、[[c11、c12]]、[wf、[f11、f12]]]、
[b11、b12、b13、c11、c12、f11、f12、d11、o31、o22、o13]]
[13:49、[[wa、[[a11、0]、[a12、0]]]、
[wb、[[b11、b12、b13]]、[wf、[f11、f12]]]、
[a11、a12、b11、b13、b13、f11、f12、o41、o42、o31]]
スコア計算部153は第5の実施の形態の図12のスコア計算部123であり、時刻が指定されるとインデックス保持部152を参照し、各話題のスコアを求め、出力する。
[13:40, [[w b , [[b 11 , 2], [b 12 , 2], [b 13 , 2]]], [w d , [[d 11 , 1], [d 12 , 0]]],
[w e, [[e 11 , 0], [e 12, 0], [e 13, 0]]]],
[b 11, b 12, b 13, d 11, d 12, e 11, e 12, e 13, o 21, o 22, o 11]]
[13:48, [[w b , [[b 11 , 1], [b 12 , 1], [b 13 , 1]]],
[w c , [[c 11 , c 12 ]], [w f , [f 11 , f 12 ]]],
[b 11, b 12, b 13, c 11, c 12, f 11, f 12, d 11, o 31, o 22, o 13]]
[13:49, [[w a, [[a 11, 0], [a 12, 0]]],
[w b, [[b 11 , b 12, b 13]], [w f, [f 11, f 12]]],
[a 11, a 12, b 11, b 13, b 13, f 11, f 12, o 41, o 42, o 31]]
The score calculation unit 153 is the score calculation unit 123 of FIG. 12 according to the fifth embodiment. When a time is specified, the index holding unit 152 is referred to, and the score of each topic is obtained and output.

インデックス更新部151がメッセージが追加される都度、追加されてたメッセージのみ語分割、話題抽出を行うため、関連づけられている時刻が古い順に本発明の情報処理装置にチャネル毎にメッセージを入力することにより、逐次メッセージが追加される場合においても話題が出現した後、省略形のように話題の部分文字列として表されて話題がメッセージの中で完全に同じ形では現れないメッセージに対して時刻の指定に応じて高速にチャネル間で比較可能なスコアを求めることが可能となる。   Each time the index update unit 151 adds a message, only the added message is divided into words and the topic is extracted. Therefore, the messages are input for each channel to the information processing apparatus of the present invention in ascending order of the associated time. Thus, even when messages are added sequentially, the topic appears as a substring of the topic, such as an abbreviation, and the time of the message is not displayed in the exact same form in the message. It becomes possible to obtain a score that can be compared between channels at high speed according to the designation.

なお、インデックス保持部152に、語をキーとし、各メッセージの各話題の各語のカウンタへのポインタのリストを値とするハッシュを設ければ、追加されたメッセージが有する各語に対してインデックス保持部152に保持される話題情報のカウンタを高速に更新可能となり、メッセージ追加時のインデックス更新をより高速に行うことが可能である。   In addition, if the index holding unit 152 is provided with a hash having a word as a key and a list of pointers to each word counter of each topic of each message as a value, an index is assigned to each word included in the added message. The topic information counter held in the holding unit 152 can be updated at high speed, and the index can be updated more quickly when a message is added.

<第7の実施の形態>
図18(a)、(b)、(c)は本発明に係わる情報処理装置の第7の実施の形態を示す。スコア計算部182、インデックス作成部183、インデックス更新部186は、各メッセージを処理する際、第1〜3の実施の形態の処理に加え、各話題が出現したメッセージの数(DF)をカウントし、話題出現保持部181に記録していく。図28はスコア計算部182、図29はインデックス作成部183、図30はスコア計算部185、図31はインデックス更新部186の構成例を示す図である。
<Seventh embodiment>
18A, 18B and 18C show a seventh embodiment of the information processing apparatus according to the present invention. When processing each message, the score calculation unit 182, the index creation unit 183, and the index update unit 186 count the number of messages (DF) in which each topic appears in addition to the processing of the first to third embodiments. Then, it is recorded in the topic appearance holding unit 181. 28 shows an example of the configuration of the score calculation unit 182, FIG. 29 shows the configuration of the index creation unit 183, FIG. 30 shows the score calculation unit 185, and FIG.

以下にスコア計算部182、インデックス作成部183、スコア計算部185、インデックス更新部186の処理フローの例を示す。   An example of the processing flow of the score calculation unit 182, the index creation unit 183, the score calculation unit 185, and the index update unit 186 is shown below.

《スコア計算部182処理フロー》
S182−1(スコア計算部182における処理ステップの1番目をS182−1と記す。以下同様。)順序付与処理(メッセージ順序付与部)において、メッセージ保持部に保持されているメッセージを関係づけられている時刻でソートし、時刻が古い順にメッセージ1...メッセージNと順序付けし、前記順序が付与されたメッセージ群を順序付与済みメッセージ記憶部へ出力する。
<< Score Calculation Unit 182 Process Flow >>
S182-1 (The first processing step in the score calculation unit 182 is denoted as S182-1. The same applies hereinafter.) In the ordering process (message ordering unit), the messages held in the message holding unit are related to each other. The messages are sorted in order from oldest time to message 1 ... message N, and the message group to which the order is assigned is output to the assigned message storage unit.

S182−2指定時刻取得処理(時刻取得部)において、入力記憶部より外部より指定された時刻を読み込み、時刻記憶部へ前記時刻を出力する。   In S182-2 designated time acquisition processing (time acquisition unit), the time specified from the outside is read from the input storage unit, and the time is output to the time storage unit.

S182−3初期設定処理(話題抽出部)において、
(1)順序付与済みメッセージ記憶部よりメッセージ群を読み込む。
(2)N=前記読み込みメッセージ数とし、処理カウンタi=1とする。
In S182-3 initial setting processing (topic extraction unit),
(1) A message group is read from the order-assigned message storage unit.
(2) N = the number of read messages, and process counter i = 1.

S182−4話題抽出処理完了判定処理(話題抽出部)において、i > N (全てのメッセージに対して処理完了)ならS182−7へ処理が進む。   In S182-4 topic extraction processing completion determination processing (topic extraction unit), if i> N (processing is completed for all messages), the processing proceeds to S182-7.

S182−5話題抽出処理(話題抽出部)において、
(1)メッセージiを語分割装置へ出力し、語skと品詞や辞書登録の有無等の語情報 tk の対[sk, tk]を要素とするリストL=[[s1, t1], [s2, t2], ...](メッセージiの先頭の語から順にs1, s2)を取得する。
(2)パタン記憶部からパタンを読み込み、前記パタンをPとする。
(3)メッセージ内の話題を記憶するためのリストR、話題候補を記憶するための文字列s、語情報文字列を記憶するための文字列tを用意し、R=[]、s=""、t=""、Q=[]とする。とする。
(4)j = 1
(5) j ≦Lの要素数 でなければS36(1)へ処理が進む。
(6) t = t + tj
(7) t にPにマッチしない部分が存在する場合(9)へ処理が進む。
(8) s = s + sj、 t = t + tj とし、(11)へ処理が進む。
(9) s = ""であれば t = "" として(11)へ処理が進む。
(10)R = R + [s]、 s = ""、 t = ""。
(11) j = j + 1として、(5)へ処理が進む。
(12)話題出現保持部181に記憶されているRの各要素に対する値を読み出し、各値を1加算し、話題出現保持部181に記録されているRの各要素の値を前記加算後のそれぞれの値に更新する。話題出現保持部181に記録されていないRの要素に対しては、話題出現保持部181に前記要素の値を格納する領域を作成し、前記領域に値1を出力する。
In S182-5 topic extraction processing (topic extraction unit),
(1) The message i is output to the word segmentation device, and the list L = [[s1, t1], [s2] with the pair [sk, tk] of the word information tk such as the word sk and the part of speech or the presence / absence of dictionary registration , t2], ...] (s1, s2 in order from the first word of message i).
(2) A pattern is read from the pattern storage unit, and the pattern is set to P.
(3) A list R for storing topics in a message, a character string s for storing topic candidates, and a character string t for storing word information character strings are prepared, and R = [], s = "", T ="", Q = []. And
(4) j = 1
(5) If j ≦ L is not satisfied, the process proceeds to S36 (1).
(6) t = t + tj
(7) If there is a part that does not match P in t, the process proceeds to (9).
(8) s = s + sj, t = t + tj, and the process proceeds to (11).
(9) If s = “”, the process proceeds to (11) with t = “”.
(10) R = R + [s], s = “”, t = “”.
(11) As j = j + 1, the process proceeds to (5).
(12) Read the value for each element of R stored in the topic appearance holding unit 181, add 1 to each value, and set the value of each element of R recorded in the topic appearance holding unit 181 after the addition Update to each value. For the R element not recorded in the topic appearance holding unit 181, an area for storing the value of the element is created in the topic appearance holding unit 181, and a value 1 is output to the area.

S182−6話題カウンタ更新処理(話題抽出部)において、
(1)メッセージi中の各話題(Rの要素)に対して値0をもつカウンタと、メッセージiに関連づけられている時刻をもつメッセージi用の話題カウンタを作成し、話題カウンタ記憶部へ出力する。
(2)話題カウンタ記憶部中のメッセージ1〜メッセージi-1用の話題カウンタにおけるメッセージi中の各話題(Rの要素)の値を読み込み、前記読み込んだ値それぞれに対して1加算した値を話題カウンタ記憶部に出力する。
(3) i = i + 1 とし、S182−4へ処理が進む。
In S182-6 topic counter update processing (topic extraction unit),
(1) Create a counter with a value 0 for each topic (element of R) in message i and a topic counter for message i with the time associated with message i, and output to topic counter storage To do.
(2) Read the value of each topic (R element) in message i in the topic counter for messages 1 to i-1 in the topic counter storage unit, and add 1 to each of the read values Output to the topic counter storage unit.
(3) Set i = i + 1, and the process proceeds to S182-4.

S182−7スコア算出処理(スコア算出部)において、
(1)時刻記憶部から指定時刻を、話題カウンタ記憶部から各メッセージの各話題の値と各メッセージに対する話題カウンタに関連付けられている時刻を、話題出現保持部から各話題の値をそれぞれ読み込み、各メッセージの各話題に対して、話題カウンタ記憶部から読み出された前記話題の値を話題出現保持部から読み出された前記話題の値を分母の構成要素とする式で重み付けした値を分子の構成要素とし、指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもつ式でスコアを求める。
(2)各話題に対してS182−7の(1)で求めた当該話題のスコアの値の中から代表値を決定し、各話題とその代表値を話題スコア値記憶部へ出力する。
In S182-7 score calculation processing (score calculation unit),
(1) Read the designated time from the time storage unit, read the topic value of each message from the topic counter storage unit and the time associated with the topic counter for each message, and read the value of each topic from the topic appearance holding unit, For each topic of each message, the numerator is a value obtained by weighting the topic value read from the topic counter storage unit with an expression having the topic value read from the topic appearance holding unit as a denominator component. A score is obtained by an expression having a difference between a designated time and a time associated with the message as a component of the denominator.
(2) For each topic, a representative value is determined from the score values of the topic obtained in (1) of S182-7, and each topic and its representative value are output to the topic score value storage unit.

《インデックス作成部183処理フロー》
S183−1順序付与処理(メッセージ順序付与部)において、メッセージ保持部に保持されているメッセージを関係づけられている時刻でソートし、時刻が古い順にメッセージ1...メッセージNと順序付けし、前記順序が付与されたメッセージ群を順序付与済みメッセージ記憶部へ出力する。
<< Processing Flow of Index Creation Unit 183 >>
In the S183-1 order assignment process (message order assignment unit), the messages held in the message holding unit are sorted by the associated time, and the messages are sorted in order from oldest message to message 1 ... message N. The message group to which the order is assigned is output to the order-added message storage unit.

S183−2指定時刻取得処理(時刻取得部)において、入力記憶部より外部より指定された時刻を読み込み、時刻記憶部へ前記時刻を出力する。   In S183-2 designated time acquisition processing (time acquisition unit), the time specified from the outside is read from the input storage unit, and the time is output to the time storage unit.

S182−3初期設定処理(話題抽出部)において、
(1)順序付与済みメッセージ記憶部よりメッセージ群を読み込む。
(2)N=前記読み込みメッセージ数とし、処理カウンタi=1とする。
In S182-3 initial setting processing (topic extraction unit),
(1) A message group is read from the order-assigned message storage unit.
(2) N = the number of read messages, and process counter i = 1.

S183−4話題抽出処理完了判定処理(話題抽出部)において、i > N (全てのメッセージに対して処理完了)ならS183−7へ処理が進む。   In S183-4 topic extraction processing completion determination processing (topic extraction unit), if i> N (processing is completed for all messages), the processing proceeds to S183-7.

S183−5話題抽出処理(話題抽出部)において、
(1)メッセージiを語分割装置へ出力し、語skと品詞や辞書登録の有無等の語情報 tj の対[sk, tk]を要素とするリストL=[[s1, t1], [s2, t2], ...](メッセージiの先頭の語から順にs1, s2)を取得する。
(2)パタン記憶部からパタンを読み込み、前記パタンをPとする。
(3)メッセージ内の話題を記憶するためのリストR、話題候補を記憶するための文字列s、語情報文字列を記憶するための文字列tを用意し、R=[]、s=""、t=""、Q=[]とする。とする。
(4)j = 1
(5) j ≦Lの要素数 でなければ(12)へ処理が進む。
(6) t = t + tj
(7) t にPにマッチしない部分が存在する場合(9)へ処理が進む。
(8) s = s + sj、 t = t + tj とし、(11)へ処理が進む。
(9) s = ""であれば t = "" として(11)へ処理が進む。
(10)R = R + [s]、 s = ""、 t = ""。
(11) j = j + 1として、(5)へ処理が進む。
(12)話題出現保持部181に記憶されているRの各要素に対する値を読み出し、各値を1加算し、話題出現保持部181に記録されているRの各要素の値を前記加算後のそれぞれの値に更新する。話題出現保持部181に記録されていないRの要素に対しては、話題出現保持部181に前記要素の値を格納する領域を作成し、前記領域に値1を出力する。その後S183−6へ処理が進む。
In S183-5 topic extraction processing (topic extraction unit),
(1) The message i is output to the word segmentation device, and the list L = [[s1, t1], [s2] having a pair [sk, tk] of the word information tj such as the word sk and the part of speech or the presence / absence of dictionary registration , t2], ...] (s1, s2 in order from the first word of message i).
(2) A pattern is read from the pattern storage unit, and the pattern is set to P.
(3) A list R for storing topics in a message, a character string s for storing topic candidates, and a character string t for storing word information character strings are prepared, and R = [], s = "", T ="", Q = []. And
(4) j = 1
(5) If j ≦ L is not satisfied, the process proceeds to (12).
(6) t = t + tj
(7) If there is a part that does not match P in t, the process proceeds to (9).
(8) s = s + sj, t = t + tj, and the process proceeds to (11).
(9) If s = “”, the process proceeds to (11) with t = “”.
(10) R = R + [s], s = “”, t = “”.
(11) As j = j + 1, the process proceeds to (5).
(12) Read the value for each element of R stored in the topic appearance holding unit 181, add 1 to each value, and set the value of each element of R recorded in the topic appearance holding unit 181 after the addition Update to each value. For the R element not recorded in the topic appearance holding unit 181, an area for storing the value of the element is created in the topic appearance holding unit 181, and a value 1 is output to the area. Thereafter, the process proceeds to S183-6.

S183−6話題カウンタ更新処理(話題抽出部)において、
(1)メッセージi中の各話題(Rの要素)に対して値0をもつカウンタと、メッセージiに関連づけられている時刻をもつメッセージi用の話題カウンタを作成し、話題カウンタ記憶部へ出力する。
(2)話題カウンタ記憶部中のメッセージ1〜メッセージi-1用の話題カウンタにおけるメッセージi中の各話題(Rの要素)の値を読み込み、前記読み込んだ値それぞれに対して1加算した値を話題カウンタ記憶部に出力する。
(3) i = i + 1 とし、S183−4へ処理が進む。
In S183-6 topic counter update processing (topic extraction unit),
(1) Create a counter with a value 0 for each topic (element of R) in message i and a topic counter for message i with the time associated with message i, and output to topic counter storage To do.
(2) Read the value of each topic (R element) in message i in the topic counter for messages 1 to i-1 in the topic counter storage unit, and add 1 to each of the read values Output to the topic counter storage unit.
(3) Set i = i + 1, and the process proceeds to S183-4.

S183−7出力処理(出力部)において、 各メッセージの各話題の値、各メッセージに関連付けられている時刻を話題カウンタ記憶部から読み出し、インデックス保持部へ出力する。   In S183-7 output processing (output unit), the value of each topic of each message and the time associated with each message are read from the topic counter storage unit and output to the index holding unit.

《スコア計算部185処理フロー》
S185−1停止チェック処理において、制御部は処理停止フラグがonかチェックし、フラグがonであれば処理を終了する。
<< Score Calculation Unit 185 Process Flow >>
In the S185-1 stop check process, the control unit checks whether the process stop flag is on, and ends the process if the flag is on.

S185−2指定時刻取得処理(時刻取得部)において、入力記憶部より外部より指定された時刻を読み込み、時刻記憶部へ前記時刻を出力する。時刻を出力後、制御部に出力完了を通知する。制御部はスコア算出部へ処理開始を指示する。その後S185−3へ処理が進む。   In S185-2 designated time acquisition processing (time acquisition unit), the time specified from the outside is read from the input storage unit, and the time is output to the time storage unit. After outputting the time, the control unit is notified of the completion of output. The control unit instructs the score calculation unit to start processing. Thereafter, the process proceeds to S185-3.

S185−3スコア算出処理(スコア算出部)において、
(1)時刻記憶部から指定時刻を、インデックス保持部から各メッセージの各話題の値と各メッセージに対する話題カウンタに関連付けられている時刻を、話題出現保持部から各話題の値をそれぞれ読み込み、各メッセージの各話題に対して、インデックス保持部から読み出された前記話題の値を話題出現保持部から読み出された前記話題の値を分母の構成要素とする式で重み付けした値を分子の構成要素とし、指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもつ式でスコアを求める。
(2)各話題に対してS185−3の(1)で求めた当該話題のスコアの値の中から代表値を決定し、各話題とその代表値を出力記憶部へ出力する。その後、制御部へ処理完了を通知する。その後S185−1へ処理が進む。
In S185-3 score calculation processing (score calculation unit),
(1) Read the designated time from the time storage unit, read the value of each topic of each message from the index holding unit and the time associated with the topic counter for each message, and read the value of each topic from the topic appearance holding unit, For each topic of the message, the value of the topic read from the index holding unit is weighted with an expression having the topic value read from the topic appearance holding unit as a denominator component. The score is obtained by an expression having the difference between the specified time and the time associated with the message as an element in the denominator component.
(2) For each topic, a representative value is determined from the score values of the topic obtained in (1) of S185-3, and each topic and its representative value are output to the output storage unit. Thereafter, the control unit is notified of the completion of processing. Thereafter, the process proceeds to S185-1.

《インデックス更新部186処理フロー》
S186−1停止チェック処理において、制御部は処理停止フラグがonかチェックし、フラグがonであれば処理を終了する。
<< Process Flow of Index Update Unit 186 >>
In the S186-1 stop check process, the control unit checks whether the process stop flag is on. If the flag is on, the control unit ends the process.

S186−2メッセージ取得処理(メッセージ取得部)において、入力記憶部よりメッセージを読み込みメッセージ記憶部へ出力する。処理の完了を制御部へ通知する。制御部は話題抽出部へ処理開始を指示する。その後S186−3へ処理が進む。   In S186-2 message acquisition processing (message acquisition unit), a message is read from the input storage unit and output to the message storage unit. The control unit is notified of the completion of processing. The control unit instructs the topic extraction unit to start processing. Thereafter, the process proceeds to S186-3.

S186−3話題抽出処理(話題抽出部)において、
(1)メッセージ記憶部よりメッセージを読み込みメッセージmとする。
(2)メッセージmを語分割装置へ出力し、語skと品詞や辞書登録の有無等の語情報 tj の対[sk, tk]を要素とするリストL=[[s1, t1], [s2, t2], ...](メッセージiの先頭の語から順にs1, s2)を取得する。
パタン記憶部からパタンを読み込み、前記パタンをPとする。
(3)メッセージ内の話題を記憶するためのリストR、話題候補を記憶するための文字列s、語情報文字列を記憶するための文字列tを用意し、R=[]、s=""、t=""とする。
(4)j = 1
(5) j ≦Lの要素数 でなければ(12)へ。
(6) t = t + tj
(7) t にPにマッチしない部分が存在する場合(9)へ。
(8) s = s + sj、 t = t + tj とし、(11)へ。
(9) s = ""であれば t = "" として(11)へ。
(10)R = R +[ s]、 S = ""、 t = ""。
(11) j = j + 1として、(5)へ。
(12)話題出現保持部181に記憶されているRの各要素に対する値を読み出し、各値を1加算し、話題出現保持部181に記録されているRの各要素の値を前記加算後のそれぞれの値に更新する。話題出現保持部181に記録されていないRの要素に対しては、話題出現保持部181に前記要素の値を格納する領域を作成し、前記領域に値1を出力する。その後S186−4へ処理が進む。
In S186-3 topic extraction processing (topic extraction unit),
(1) A message is read from the message storage unit and set as a message m.
(2) The message m is output to the word segmenting device, and the list L = [[s1, t1], [s2] having a pair [sk, tk] of the word information tj such as the word sk and the part of speech or dictionary registration. , t2], ...] (s1, s2 in order from the first word of message i).
A pattern is read from the pattern storage unit, and the pattern is set to P.
(3) A list R for storing topics in a message, a character string s for storing topic candidates, and a character string t for storing word information character strings are prepared, and R = [], s = "", T ="".
(4) j = 1
(5) If j ≤ number of elements, go to (12).
(6) t = t + tj
(7) If there is a part that does not match P in t, go to (9).
(8) Set s = s + sj, t = t + tj, and go to (11).
(9) If s = "", set t = "" and go to (11).
(10) R = R + [s], S = “”, t = “”.
(11) As j = j + 1, go to (5).
(12) Read the value for each element of R stored in the topic appearance holding unit 181, add 1 to each value, and set the value of each element of R recorded in the topic appearance holding unit 181 after the addition Update to each value. For the R element not recorded in the topic appearance holding unit 181, an area for storing the value of the element is created in the topic appearance holding unit 181, and a value 1 is output to the area. Thereafter, the process proceeds to S186-4.

S186−4話題カウンタ更新処理(話題抽出部)において、
(1)インデックス保持部にメッセージ数N件未満に対する話題カウンタが保持されている場合(2)へ処理が進む。そうでなければ(3)へ処理が進む。
(2)関連付けられている時刻が最も古いメッセージから生成された話題カウンタを削除する。その後(3)へ処理が進む。
(3)インデックス保持部中の各メッセージの話題カウンタにおけるメッセージm中の各話題(Rの要素)の値を読み込み、前記読み込んだ値それぞれに対して1加算した値を話題カウンタ記憶部に出力する。
(4)メッセージm中の各話題(Rの要素)に対して値0をもつカウンタと、メッセージmに関連づけられている時刻をもつメッセージm用の話題カウンタを作成し、インデックス保持部へ追加する。その後S186−1へ処理が進む。
In S186-4 topic counter update processing (topic extraction unit),
(1) When a topic counter for less than N messages is held in the index holding unit, the process proceeds to (2). Otherwise, the process proceeds to (3).
(2) Delete the topic counter generated from the message with the oldest associated time. Thereafter, the process proceeds to (3).
(3) Read the value of each topic (element of R) in the message m in the topic counter of each message in the index holding unit, and output a value obtained by adding 1 to each of the read values to the topic counter storage unit .
(4) Create a counter with a value of 0 for each topic (element of R) in message m and a topic counter for message m with the time associated with message m, and add them to the index holding unit . Thereafter, the process proceeds to S186-1.

インデックス更新部186においては、規定メッセージ数に達して古いメッセージに対する話題カウンタを削除する際(S186−4(2))、話題出現保持部における削除するメッセージに含まれる話題に対する領域から値を読み出し、前記それぞれの値を1減算し、話題出現保持部における前記各領域に出力してもよい。   In the index update unit 186, when the topic counter is deleted for the old message after reaching the specified number of messages (S186-4 (2)), the value is read from the area for the topic included in the message to be deleted in the topic appearance holding unit, The respective values may be decremented by 1 and output to each area in the topic appearance holding unit.

スコア計算部182、185は、182−7、185−3においてメッセージmiの話題wjに対して、前記カウンタCmi,wjを話題出現数保持部181に保持されている話題wjに対する値DFwjを分母の構成要素とする式で重みづけして指定された時刻Tに対する各メッセージの各話題のスコアを求める。たとえば、以下の式を用いることができる。   The score calculation units 182 and 185 obtain the value DFwj for the topic wj held in the topic appearance number holding unit 181 with respect to the topic wj of the message mi in 182-7 and 185-3. The score of each topic of each message with respect to the time T specified by weighting with a formula as a component is obtained. For example, the following formula can be used.

scoremi,wj=(Cmi,wj/DFwj)/(T−tmi
第1の実施の形態と同様、各話題のスコアとして一番高いスコアを採用した場合、第1の実施の形態の話題スコア
a=1/12、wb=1/2、wc=1/12、wd=0、we=0、wf=1/2
は、出現メッセージ数がDFwa=2、DFwb=4、DFwc=2、DFwd=1、DFwe=1、DFwf=2であるので、
a=1/24、wb=1/8、wc=1/24、wd=0、we=0、wf=1/4
となり、指定された時刻の周辺で密に現れ、より珍しい話題である話題wfのスコアを頻繁に現れる話題wbより高くすることが可能である。
score mi, wj = (C mi, wj / DF wj ) / (T-t mi )
Similar to the first embodiment, when the highest score is adopted as the score of each topic, the topic score w a = 1/12, w b = 1/2, w c = 1 in the first embodiment. / 12, w d = 0, w e = 0, w f = 1/2
Since the number of occurrences message is DF wa = 2, DF wb = 4, DF wc = 2, DF wd = 1, DF we = 1, DF wf = 2,
w a = 1/24, w b = 1/8, w c = 1/24, w d = 0, w e = 0, w f = 1/4
Thus, the score of the topic w f that appears densely around the designated time and is a more unusual topic can be made higher than the score of the topic w b that appears frequently.

なお、話題出現保持部181の更新を行わず、予め与えられている値を利用してもよい。   Note that a value given in advance may be used without updating the topic appearance holding unit 181.

<第8の実施の形態>
図19(a)、(b), (c)は本発明に係わる情報処理装置の第8の実施の形態を示す。スコア計算部192、インデックス更新部193、インデックス更新部194、スコア計算部195は、各メッセージを処理する際、第4〜第6の実施の形態の処理に加え、各語が出現したメッセージの数(DF)をカウントし、語出現保持部191に記録していく。図32はスコア計算部192、図33はインデックス作成部193、図34はスコア計算部195、図35はインデックス更新部196の構成の一例をそれぞれ示す図である。
<Eighth Embodiment>
19A, 19B, and 19C show an eighth embodiment of the information processing apparatus according to the present invention. When the score calculation unit 192, the index update unit 193, the index update unit 194, and the score calculation unit 195 process each message, the number of messages in which each word appears in addition to the processing of the fourth to sixth embodiments. (DF) is counted and recorded in the word appearance holding unit 191. 32 shows an example of the configuration of the score calculation unit 192, FIG. 33 shows an example of the configuration of the index creation unit 193, FIG. 34 shows an example of the configuration of the score calculation unit 195, and FIG.

以下にスコア計算部192、インデックス作成部193、スコア計算部195、インデックス更新部196の処理フローの例を示す。   An example of the processing flow of the score calculation unit 192, the index creation unit 193, the score calculation unit 195, and the index update unit 196 is shown below.

《スコア計算部192処理フロー》
S192−1順序付与処理(メッセージ順序付与部)において、メッセージ保持部に保持されているメッセージを関係づけられている時刻でソートし、時刻が古い順にメッセージ1...メッセージNと順序付けし、前記順序が付与されたメッセージ群を順序付与済みメッセージ記憶部へ出力する。
<< Score Calculation Unit 192 Processing Flow >>
In S192-1 order assignment processing (message order assignment unit), the messages held in the message holding unit are sorted by the associated time, and the messages are ordered in the order of oldest message 1 ... message N. The message group to which the order is assigned is output to the order-added message storage unit.

S192−2指定時刻取得処理(時刻取得部)において、入力記憶部より外部より指定された時刻を読み込み、時刻記憶部へ前記時刻を出力する。   In S192-2 designated time acquisition processing (time acquisition unit), the time specified from the outside is read from the input storage unit, and the time is output to the time storage unit.

S192−3初期設定処理(構成語情報付き話題抽出部)において、
(1)順序付与済みメッセージ記憶部よりメッセージ群を読み込む。
(2)N=前記読み込みメッセージ数とし、処理カウンタi=1とする。
In S192-3 initial setting processing (topic extraction unit with constituent word information),
(1) A message group is read from the order-assigned message storage unit.
(2) N = the number of read messages, and process counter i = 1.

S192−4話題抽出処理完了判定処理(構成語情報付き話題抽出部)において、
i > N (全てのメッセージに対して処理完了)ならS192−7へ処理が進む。
In S192-4 topic extraction processing completion determination processing (topic extraction unit with constituent word information),
If i> N (processing is completed for all messages), the process proceeds to S192-7.

S192−5構成語情報付き話題抽出処理(構成語情報付き話題抽出部)において、
(1)メッセージiを語分割装置へ出力し、語skと品詞や辞書登録の有無等の語情報 tj の対[sk, tk]を要素とするリストL=[[s1, t1], [s2, t2], ...](メッセージiの先頭の語から順にs1, s2)を取得する。
(2)パタン記憶部からパタンを読み込み、前記パタンをPとする。
(3)メッセージ内の話題を記憶するためのリストR、話題候補を記憶するための文字列s、語情報文字列を記憶するための文字列t、各話題を構成する語を記憶するためのリストU、メッセージ内の語を記憶するためのリストQを用意し、R=[]、s=""、t=""、U=[]、Q=[]とする。
(4)j = 1
(5) j ≦Lの要素数 でなければ(14)へ処理が進む。
(6) t = t + tj
(7) t にPにマッチしない部分が存在する場合(9)へ処理が進む。
(8) s = s + sj、 t = t + tj 、U = U + [sj] とし、(11)へ処理が進む。
(9) s = ""であれば t = "" として(11)へ処理が進む。
(10)R = R + [[ s, U]]、 s = ""、 t = ""、U = []。
(11)sj ∈Qであれば(13)へ処理が進む。
(12) Q = Q + [sj]。
(13) j = j + 1として、(5)へ処理が進む。
(14)語出現保持部191に記憶されているQの各要素に対する値を読み出し、各値を1加算し、語出現保持部191に記録されているQの各要素の値を前記加算後のそれぞれの値に更新する。語出現保持部191に記録されていないQの要素に対しては、語出現保持部191に前記要素の値を格納する領域を作成し、前記領域に値1を出力する。その後S192−6へ処理が進む。
In S192-5 topic extraction processing with constituent word information (topic extracting section with constituent word information),
(1) The message i is output to the word segmentation device, and the list L = [[s1, t1], [s2] having a pair [sk, tk] of the word information tj such as the word sk and the part of speech or the presence / absence of dictionary registration , t2], ...] (s1, s2 in order from the first word of message i).
(2) A pattern is read from the pattern storage unit, and the pattern is set to P.
(3) A list R for storing topics in a message, a character string s for storing topic candidates, a character string t for storing word information character strings, and a word constituting each topic A list U and a list Q for storing words in the message are prepared, and R = [], s = "", t = "", U = [], Q = [].
(4) j = 1
(5) If j ≦ L is not satisfied, the process proceeds to (14).
(6) t = t + tj
(7) If there is a part that does not match P in t, the process proceeds to (9).
(8) s = s + sj, t = t + tj, U = U + [sj], and the process proceeds to (11).
(9) If s = “”, the process proceeds to (11) with t = “”.
(10) R = R + [[s, U]], s = “”, t = “”, U = [].
(11) If sj εQ, the process proceeds to (13).
(12) Q = Q + [sj].
(13) As j = j + 1, the process proceeds to (5).
(14) Read the value for each element of Q stored in the word appearance holding unit 191, add 1 to each value, and set the value of each element of Q recorded in the word appearance holding unit 191 to the value after the addition Update to each value. For an element of Q that is not recorded in the word appearance holding unit 191, an area for storing the value of the element is created in the word appearance holding unit 191, and a value 1 is output to the area. Thereafter, the process proceeds to S192-6.

S192−6構成語情報付き話題カウンタ更新処理(構成語情報付き話題抽出部)において、
(1)メッセージi中の各話題の各構成語(R = [[s1, [u11, u12...]], [s2, [u21, ...]], ...] のuxy)に対して値を0にもつカウンタとメッセージiに関連づけられている時刻とメッセージiに含まれる語をもつメッセージi用の構成語情報付き話題カウンタを作成し、構成語情報付き話題カウンタ記憶部へ出力する。
(2)構成語情報付き話題カウンタ記憶部中のメッセージ1〜メッセージi-1用の構成語情報付き話題カウンタにおけるメッセージi中の各語(Qの要素)の値を読み込み、前記読み込んだ値それぞれに対して1加算した値を構成語情報付き話題カウンタ記憶部に出力する。
(3)i = i + 1とし、S192−4へ処理が進む。
In S192-6 topic counter update processing with constituent word information (topic extracting unit with constituent word information),
(1) In each constituent word (R = [[s1, [u11, u12 ...]], [s2, [u21, ...]], ...] in message i) On the other hand, a topic counter with constituent word information is created for a message i having a counter with a value of 0 and the time associated with message i and the word included in message i, and output to the topic counter storage section with constituent word information To do.
(2) Read the value of each word (element of Q) in message i in the topic counter with constituent word information for message 1 to message i-1 in the topic counter storage unit with constituent word information, and each of the read values 1 is added to the topic counter storage unit with constituent word information.
(3) Set i = i + 1, and the process proceeds to S192-4.

S192−7構成語情報付きスコア算出処理(構成語情報付きスコア算出部)において、
(1)時刻記憶部から指定時刻を、構成語情報付き話題カウンタ記憶部から各メッセージの各話題を構成する各語の値と各メッセージに対する構成語情報付き話題カウンタに関連付けられている時刻を、語出現保持部から各語の値をそれぞれ読み込み、各メッセージの各話題に対し、構成語情報付き話題カウンタ記憶部から読み出された前記話題を構成する語の値を語出現保持部から読み出された前記話題を構成する語の値を分母の構成要素とする式で重み付けした値を分子の構成要素にもち、指定された前記時刻と当該メッセージに関連付けられている時刻の差を分母の構成要素にもつ式でスコアを求める。
(2)各話題に対してS117の(1)で求めた当該話題のスコアの値の中から代表値を決定し、各話題とその代表値を話題スコア値記憶部へ出力する。
In the S192-7 score calculation process with constituent word information (score calculator with constituent word information),
(1) The designated time from the time storage unit, the value of each word constituting each topic of each message from the topic counter storage unit with constituent word information, and the time associated with the topic counter with constituent word information for each message, The value of each word is read from the word appearance holding unit, and the value of the word constituting the topic read from the topic counter storage unit with constituent word information is read from the word appearance holding unit for each topic of each message. A value obtained by weighting the value of a word constituting the topic with an expression having a denominator component as a denominator component is used as a numerator component, and the difference between the designated time and the time associated with the message is configured as a denominator. Find the score with the expression of the element.
(2) For each topic, a representative value is determined from the score values of the topic obtained in (1) of S117, and each topic and its representative value are output to the topic score value storage unit.

《インデックス作成部193処理フロー》
S193−1順序付与処理(メッセージ順序付与部)において、メッセージ保持部に保持されているメッセージを関係づけられている時刻でソートし、時刻が古い順にメッセージ1...メッセージNと順序付けし、前記順序が付与されたメッセージ群を順序付与済みメッセージ記憶部へ出力する。
<< Process Flow of Index Creation Unit 193 >>
In S193-1 order assigning process (message order assigning unit), the messages held in the message holding unit are sorted according to the associated time, and the messages are ordered in the order of oldest message 1 ... message N. The message group to which the order is assigned is output to the order-added message storage unit.

S193−2指定時刻取得処理(時刻取得部)において、入力記憶部より外部より指定された時刻を読み込み、時刻記憶部へ前記時刻を出力する。   In S193-2 designated time acquisition processing (time acquisition unit), the time specified from the outside is read from the input storage unit, and the time is output to the time storage unit.

S193−3初期設定処理(構成語情報付き話題抽出部)において、
(1)順序付与済みメッセージ記憶部よりメッセージ群を読み込む。
(2)N=前記読み込みメッセージ数とし、処理カウンタi=1とする。
In S193-3 initial setting processing (topic extraction unit with constituent word information),
(1) A message group is read from the order-assigned message storage unit.
(2) N = the number of read messages, and process counter i = 1.

S193−4話題抽出処理完了判定処理(構成語情報付き話題抽出部)において、i > N (全てのメッセージに対して処理完了)ならS193−7へ処理が進む。   In S193-4 topic extraction processing completion determination processing (topic extraction unit with constituent word information), if i> N (processing is completed for all messages), the processing proceeds to S193-7.

S193−5構成語情報付き話題抽出処理(構成語情報付き話題抽出部)において、
(1)メッセージiを語分割装置へ出力し、語skと品詞や辞書登録の有無等の語情報 tkの対[sk, tk]を要素とするリストL=[[s1, t1], [s2, t2], ...](メッセージiの先頭の語から順にs1, s2)を取得する。
(2)パタン記憶部からパタンを読み込み、前記パタンをPとする。
(3)メッセージ内の話題を記憶するためのリストR、話題候補を記憶するための文字列s、語情報文字列を記憶するための文字列t、各話題を構成する語を記憶するためのリストU、メッセージ内の語を記憶するためのリストQを用意し、R=[]、s=""、t=""、U=[]、Q=[]とする。
(4)j = 1
(5) j ≦Lの要素数でなければ(14)へ処理が進む。
(6) t = t + tj
(7) t にPにマッチしない部分が存在する場合(9)へ処理が進む。
(8) s = s + sj、 t = t + tj 、U = U + [sj] とし、(11)へ処理が進む。
(9) s = ""であれば t = "" として(11)へ処理が進む。
(10)R = R + [[ s, U]]、 s = ""、 t = ""、U = []。
(11)sj ∈Qであれば(13)へ処理が進む。
(12) Q = Q + [sj]。
(13) j = j + 1として、(5)へ処理が進む。
(14)語出現保持部191に記憶されているQの各要素に対する値を読み出し、各値を1加算し、語出現保持部191に記録されているQの各要素の値を前記加算後のそれぞれの値に更新する。語出現保持部191に記録されていないQの要素に対しては、語出現保持部191に前記要素の値を格納する領域を作成し、前記領域に値1を出力する。その後S193−6へ処理が進む。
In S193-5 topic extraction processing with constituent word information (topic extraction unit with constituent word information),
(1) Output message i to a word segmenter, list L = [[s1, t1], [s2] with word [sk], [part of speech], word information such as presence / absence of dictionary registration, etc. , t2], ...] (s1, s2 in order from the first word of message i).
(2) A pattern is read from the pattern storage unit, and the pattern is set to P.
(3) A list R for storing topics in a message, a character string s for storing topic candidates, a character string t for storing word information character strings, and a word constituting each topic A list U and a list Q for storing words in the message are prepared, and R = [], s = "", t = "", U = [], Q = [].
(4) j = 1
(5) If j ≦ L is not satisfied, the process proceeds to (14).
(6) t = t + tj
(7) If there is a part that does not match P in t, the process proceeds to (9).
(8) s = s + sj, t = t + tj, U = U + [sj], and the process proceeds to (11).
(9) If s = “”, the process proceeds to (11) with t = “”.
(10) R = R + [[s, U]], s = “”, t = “”, U = [].
(11) If sj εQ, the process proceeds to (13).
(12) Q = Q + [sj].
(13) As j = j + 1, the process proceeds to (5).
(14) Read the value for each element of Q stored in the word appearance holding unit 191, add 1 to each value, and set the value of each element of Q recorded in the word appearance holding unit 191 to the value after the addition Update to each value. For an element of Q that is not recorded in the word appearance holding unit 191, an area for storing the value of the element is created in the word appearance holding unit 191, and a value 1 is output to the area. Thereafter, the process proceeds to S193-6.

S193−6構成語情報付き話題カウンタ更新処理(構成語情報付き話題抽出部)において、
(1)メッセージi中の各話題の各構成語(R = [[s1, [u11, u12...]], [s2, [u21, ...]], ...] のuxy)に対して値を0にもつカウンタとメッセージiに関連づけられている時刻とメッセージiに含まれる語をもつメッセージi用の構成語情報付き話題カウンタを作成し、構成語情報付き話題カウンタ記憶部へ出力する。
(2)構成語情報付き話題カウンタ記憶部中のメッセージi-1用の構成語情報付き話題カウンタにおけるメッセージi中の各語(Qの要素)の値を読み込み、前記読み込んだ値それぞれに対して1加算した値を構成語情報付き話題カウンタ記憶部に出力する。
(3)i = i + 1とし、S193−4へ処理が進む。
In S193-6 topic counter update processing with constituent word information (topic extracting unit with constituent word information),
(1) In each constituent word (R = [[s1, [u11, u12 ...]], [s2, [u21, ...]], ...] in message i) On the other hand, a topic counter with constituent word information is created for a message i having a counter with a value of 0 and the time associated with message i and the word included in message i, and output to the topic counter storage section with constituent word information To do.
(2) Read the value of each word (Q element) in message i in the topic counter with constituent word information for message i-1 in the topic counter storage unit with constituent word information, and for each of the read values The value added by 1 is output to the topic counter storage unit with constituent word information.
(3) Set i = i + 1, and the process proceeds to S193-4.

S193−7出力処理(出力部)において、 各メッセージの各話題とその構成語の値、各メッセージに関連付けられている時刻を構成語情報付き話題カウンタ記憶部から読み出し、インデックス保持部へ出力する。   In S193-7 output processing (output unit), each topic of each message, the value of its constituent word, and the time associated with each message are read from the topic counter storage unit with constituent word information and output to the index holding unit.

《スコア計算部195処理フロー》
S195−1停止チェック処理において、制御部は処理停止フラグがonかチェックし、フラグがonであれば処理を終了する。
<< Score Calculation Unit 195 Process Flow >>
In the S195-1 stop check process, the control unit checks whether the process stop flag is on. If the flag is on, the control unit ends the process.

S195−2指定時刻取得処理(時刻取得部)において、入力記憶部より外部より指定された時刻を読み込み、時刻記憶部へ前記時刻を出力する。時刻を出力後、制御部に出力完了を通知する。制御部は構成語情報付きスコア算出部へ処理開始を指示する。その後S195−3へ処理が進む。   In S195-2 designated time acquisition processing (time acquisition unit), the time specified from the outside is read from the input storage unit, and the time is output to the time storage unit. After outputting the time, the control unit is notified of the completion of output. The control unit instructs the score calculation unit with constituent word information to start processing. Thereafter, the process proceeds to S195-3.

S195−3構成語情報付きスコア算出処理(構成語情報付きスコア算出部)において、
(1)時刻記憶部から指定時刻を、構成語情報付き話題カウンタ記憶部から各メッセージの各話題を構成する各語の値と各メッセージに対する構成語情報付き話題カウンタに関連付けられている時刻を、語出現保持部から各語の値をそれぞれ読み込み、各メッセージの各話題に対し、構成語情報付き話題カウンタ記憶部から読み出された前記話題を構成する語の値を語出現保持部から読み出された前記話題を構成する語の値を分母の構成要素とする式で重み付けした値を分子の構成要素にもち、指定された前記時刻と当該メッセージに関連付けられている時刻の差を分母の構成要素にもつ式でスコアを求める。
(2)各話題に対してS195−3の(1)で求めた当該話題のスコアの値の中から代表値を決定し、各話題とその代表値を出力記憶部へ出力する。その後、制御部へ処理完了を通知する。その後S195−1へ処理が進む。
In S195-3 score calculation processing with constituent word information (score calculating section with constituent word information),
(1) The designated time from the time storage unit, the value of each word constituting each topic of each message from the topic counter storage unit with constituent word information, and the time associated with the topic counter with constituent word information for each message, The value of each word is read from the word appearance holding unit, and the value of the word constituting the topic read from the topic counter storage unit with constituent word information is read from the word appearance holding unit for each topic of each message. A value obtained by weighting the value of a word constituting the topic with an expression having a denominator component as a denominator component is used as a numerator component, and the difference between the designated time and the time associated with the message is configured as a denominator. Find the score with the expression of the element.
(2) For each topic, a representative value is determined from the score values of the topic obtained in (1) of S195-3, and each topic and its representative value are output to the output storage unit. Thereafter, the control unit is notified of the completion of processing. Thereafter, the process proceeds to S195-1.

《インデックス更新部196処理フロー》
S196−1停止チェック処理において、制御部は処理停止フラグがonかチェックし、フラグがonであれば処理を終了する。
<< Process Flow of Index Update Unit 196 >>
In the S196-1 stop check process, the control unit checks whether the process stop flag is on, and ends the process if the flag is on.

S196−2メッセージ取得処理(メッセージ取得部)において、入力記憶部よりメッセージを読み込みメッセージ記憶部へ出力する。処理の完了を制御部へ通知する。制御部は話題抽出部へ処理開始を指示する。その後S196−3へ処理が進む。   In S196-2 message acquisition processing (message acquisition unit), a message is read from the input storage unit and output to the message storage unit. The control unit is notified of the completion of processing. The control unit instructs the topic extraction unit to start processing. Thereafter, the process proceeds to S196-3.

S196−3構成語情報付き話題抽出処理(構成語情報付き話題抽出部)において、
(1)メッセージ記憶部よりメッセージを読み込みメッセージmとする。
(2)メッセージmを語分割装置へ出力し、語skと品詞や辞書登録の有無等の語情報 tj の対[sk, tk]を要素とするリストL=[[s1, t1], [s2, t2], ...](メッセージiの先頭の語から順にs1, s2)を取得する。
(3)パタン記憶部からパタンを読み込み、前記パタンをPとする。
(4)メッセージ内の話題を記憶するためのリストR、話題候補を記憶するための文字列s、語情報文字列を記憶するための文字列t、各話題を構成する語を記憶するためのリストU、メッセージ内の語を記憶するためのリストQを用意し、R=[]、s=""、t=""、U=[]、Q=[]とする。
(5)j = 1
(6) j ≦Lの要素数 でなければ(15)へ処理が進む。
(7) t = t + tj
(8) t にPにマッチしない部分が存在する場合(10)へ処理が進む。
(9) s = s + sj、 t = t + tj 、U = U + [sj] とし、(12)へ処理が進む。
(10) s = ""であれば t = "" として(12)へ処理が進む。
(11)R = R + [[ s, U]]、 s = ""、 t = ""、U = []。
(12)sj ∈Qであれば(13)へ処理が進む。
(13) Q = Q + [sj]。
(14) j = j + 1として、(6)へ処理が進む。
(15)語出現保持部191に記憶されているQの各要素に対する値を読み出し、各値を1加算し、語出現保持部191に記録されているQの各要素の値を前記加算後のそれぞれの値に更新する。語出現保持部191に記録されていないQの要素に対しては、語出現保持部191に前記要素の値を格納する領域を作成し、前記領域に値1を出力する。その後S196−4へ処理が進む。
In S196-3 topic extraction processing with constituent word information (topic extracting section with constituent word information),
(1) A message is read from the message storage unit and set as a message m.
(2) The message m is output to the word segmenting device, and the list L = [[s1, t1], [s2] having a pair [sk, tk] of the word information tj such as the word sk and the part of speech or dictionary registration. , t2], ...] (s1, s2 in order from the first word of message i).
(3) A pattern is read from the pattern storage unit, and the pattern is set to P.
(4) A list R for storing topics in a message, a character string s for storing topic candidates, a character string t for storing word information character strings, and a word for composing each topic A list U and a list Q for storing words in the message are prepared, and R = [], s = "", t = "", U = [], Q = [].
(5) j = 1
(6) If j ≦ L, the process proceeds to (15).
(7) t = t + tj
(8) If there is a part that does not match P in t, the process proceeds to (10).
(9) s = s + sj, t = t + tj, U = U + [sj], and the process proceeds to (12).
(10) If s = “”, t = “” and the process proceeds to (12).
(11) R = R + [[s, U]], s = “”, t = “”, U = [].
(12) If sj ∈Q, the process proceeds to (13).
(13) Q = Q + [sj].
(14) As j = j + 1, the process proceeds to (6).
(15) Read the value for each element of Q stored in the word appearance holding unit 191, add 1 to each value, and set the value of each element of Q recorded in the word appearance holding unit 191 to the value after the addition Update to each value. For an element of Q that is not recorded in the word appearance holding unit 191, an area for storing the value of the element is created in the word appearance holding unit 191, and a value 1 is output to the area. Thereafter, the process proceeds to S196-4.

S196−4構成語情報付き話題カウンタ更新処理(構成語情報付き話題抽出部)
(1)インデックス保持部にメッセージ数N件未満に対する構成語情報付き話題カウンタが保持されている場合(2)へ処理が進む。そうでなければ(3)へ処理が進む。
(2)関連付けられている時刻が最も古いメッセージから生成された構成語情報付き話題カウンタを削除する。(3)へ処理が進む。
(3)インデックス保持部中の各メッセージの構成語情報付き話題カウンタにおけるメッセーmi中の各語(Qの要素)の値を読み込み、前記読み込んだ値それぞれに対して1加算した値を構成語情報付き話題カウンタ記憶部に出力する。
(4)メッセージm中の各話題の各構成語(R = [[s1, [u11, u12...]], [s2, [u21, ...]], ...] のuxy)に対して値を0にもつカウンタとメッセージiに関連づけられている時刻とメッセージmに含まれる語をもつメッセージm用の構成語情報付き話題カウンタを作成し、インデックス保持部へ追加する。S196−1へ処理が進む。
S196-4 Topic counter update process with constituent word information (topic extraction unit with constituent word information)
(1) If the index holding unit holds topic counters with constituent word information for less than N messages, the process proceeds to (2). Otherwise, the process proceeds to (3).
(2) Delete the topic counter with constituent word information generated from the message with the oldest associated time. The process proceeds to (3).
(3) The value of each word (element of Q) in the message mi in the topic counter with constituent word information of each message in the index holding unit is read, and the value obtained by adding 1 to each of the read values is constituent word information Output to the topic counter storage unit.
(4) To each constituent word of each topic in message m (R = [[s1, [u11, u12 ...]], [s2, [u21, ...]], ...] uxy) On the other hand, a counter having a value of 0, a time counter associated with message i having a time associated with message i, and a word included in message m are created and added to the index holding unit. The process proceeds to S196-1.

インデックス更新部196においては、規定メッセージ数に達して古いメッセージ用の話題情報を削除する際、削除するメッセージに含まれる語の数を1減算してもよい。   In the index updating unit 196, when topic information for an old message is deleted after reaching the specified number of messages, the number of words included in the message to be deleted may be decremented by one.

スコア計算部192、195は、192−7、195−3においてメッセージmiの話題wjに対して、各メッセージの各話題の当該話題を構成する語用の前記カウンタCmi,wj,tkを語出現保持部191に保持されている語tkに対する値DFtkを分母の構成要素とする式で重みづけして指定された時刻Tに対する各メッセージの各話題のスコアを求める。たとえば、以下の式を用いることができる。

Figure 2006172424
Score calculation unit 192,195, to the topic w j of the message m i in 192-7,195-3, the counter C mi for words constituting the topic of each topic for each message, wj, the tk The score of each topic of each message for the specified time T is obtained by weighting the value DF tk for the word t k held in the word appearance holding unit 191 with an expression having a denominator component. For example, the following formula can be used.
Figure 2006172424

たとえば、以下のような話題と語を含むメッセージを対象とした場合について説明する。   For example, a case where a message including the following topics and words is targeted will be described.

[13:40、[[wa、[[a11、3]、[a12、2]]]、[wb、[[b11、1]、[b12、0]]]]、[a11、a12、b11、b12、o21、o22、]]
[13:45、[[wa、[[a11、3]、[a12、2]]]]、[a11、a12、o11、o12、]]
[13:48、[a11、b12、o31、o32、]]
[13:49、[[wa、[[a11、0]、[a12、0]]]]、[a11、a12、b11、o11、o12、]]
時刻Tとして「13:50」が指定された場合に対して、各話題のスコアとして一番高いスコアを採用した場合、話題を構成する下記の各語の語の出現メッセージ数
DFa11=4、DFa13=3、DFb11=2、DFb12=2
を用いて、話題のスコアは
a=1/12、wb=1/10
となる。
[13:40, [[w a, [[a 11, 3], [a 12, 2]]], [w b, [[b 11, 1], [b 12, 0]]]], [ a 11, a 12, b 11 , b 12, o 21, o 22,]]
[13:45, [[w a, [[a 11, 3], [a 12, 2]]]], [a 11, a 12, o 11, o 12,]]
[13:48, [a 11, b 12, o 31, o 32,]]
[13:49, [[w a, [[a 11, 0], [a 12, 0]]]], [a 11, a 12, b 11, o 11, o 12,]]
When “13:50” is designated as the time T, when the highest score is adopted as the score of each topic, the number of appearance messages of words of the following words constituting the topic DF a11 = 4, DF a13 = 3, DF b11 = 2 and DF b12 = 2
The topic score is w a = 1/12, w b = 1/10.
It becomes.

以上より、本発明により、指定された時刻の周辺で密に現れ、より珍しい話題であり、話題が出現した後、省略形のように話題の部分文字列として表されて話題がメッセージの中で完全に同じ形では現れない話題である話題wbのスコアを頻繁に現れる話題waより高くすることが可能である。 From the above, according to the present invention, it appears densely around the specified time, is a more unusual topic, and after the topic appears, the topic is represented in the message as a substring of the topic as an abbreviation. It is possible to make the score of the topic w b that is a topic that does not appear in the same form higher than the topic w a that frequently appears.

なお、語出現保持部191の更新を行わず、予め与えられている値を利用してもよい。   Note that a value given in advance may be used without updating the word appearance holding unit 191.

以上説明した本発明の実施の形態によれば、チャネル間で話題のスコアを比較可能となるので、全てのチャネルの話題に対して、スコアの高い順にならべた話題の一覧を利用者に提示したり、スコアの高い話題をもつ順に並べたチャネルの一覧を利用者に提示することにより、有用で新鮮な話題で複数の利用者と話しができるチャネルへの呼び込みを優先的に行なうことが可能となり、利用者は提示されたチャネルを訪れることにより、流行の兆しや世の中の動きと関係する有益な情報の入手が可能となる。また白熱した会話を眺めたり会話に参加できたり、充実した時間を過ごすことができる。   According to the embodiment of the present invention described above, the topic scores can be compared between channels, so a list of topics arranged in descending order of scores is presented to the user for all channel topics. Or presenting a list of channels arranged in the order of topics with high scores to the user, it is possible to give priority to channels that can talk to multiple users on useful and fresh topics. By visiting the presented channel, users can obtain useful information related to signs of epidemic and movements in the world. You can also spend a fulfilling time watching the heated conversation and participating in the conversation.

本発明の第1の実施の形態を実現するための構成を示す。The structure for implement | achieving the 1st Embodiment of this invention is shown. 本発明の第1の実施の形態におけるメッセージ保持部に保持されるデータを示す。The data hold | maintained at the message holding | maintenance part in the 1st Embodiment of this invention are shown. 本発明の第1の実施の形態におけるスコア計算部の処理フローを示す。The processing flow of the score calculation part in the 1st Embodiment of this invention is shown. 本発明の第2の実施の形態を実現するための構成を示す。The structure for implement | achieving the 2nd Embodiment of this invention is shown. 本発明の第2の実施の形態におけるインデックス作成部の処理フローを示す。The processing flow of the index preparation part in the 2nd Embodiment of this invention is shown. 本発明の第2の実施の形態におけるスコア計算部の処理フローを示す。The processing flow of the score calculation part in the 2nd Embodiment of this invention is shown. 本発明の第3の実施の形態を実現するための構成を示す。The structure for implement | achieving the 3rd Embodiment of this invention is shown. 本発明の第3の実施の形態におけるインデックス保持部が保持するデータを示す。The data which the index holding part in the 3rd Embodiment of this invention hold | maintains are shown. 本発明の第3の実施の形態におけるインデックス更新部の処理フローを示す。The processing flow of the index update part in the 3rd Embodiment of this invention is shown. 本発明の第4の実施の形態を実現するための構成を示す。The structure for implement | achieving the 4th Embodiment of this invention is shown. 本発明の第4の実施の形態におけるスコア計算部の処理フローを示す。The processing flow of the score calculation part in the 4th Embodiment of this invention is shown. 本発明の第5の実施の形態を実現するための構成を示す。The structure for implement | achieving the 5th Embodiment of this invention is shown. 本発明の第5の実施の形態におけるインデックス作成部の処理フローを示す。The processing flow of the index preparation part in the 5th Embodiment of this invention is shown. 本発明の第5の実施の形態におけるスコア計算部の処理フローを示す。The processing flow of the score calculation part in the 5th Embodiment of this invention is shown. 本発明の第6の実施の形態を実現するための構成を示す。The structure for implement | achieving the 6th Embodiment of this invention is shown. 本発明の第6の実施の形態におけるインデックス保持部は保持するデータを示す。The index holding unit in the sixth embodiment of the present invention indicates data to be held. 本発明の第6の実施の形態におけるインデックス更新部の処理フローを示す。The processing flow of the index update part in the 6th Embodiment of this invention is shown. 本発明の第7の実施の形態を実現するための構成を示す。The structure for implement | achieving the 7th Embodiment of this invention is shown. 本発明の第8の実施の形態を実現するための構成を示す。The structure for implement | achieving the 8th Embodiment of this invention is shown. 実施の形態に係るスコア計算部の構成図を示す。The block diagram of the score calculation part which concerns on embodiment is shown. 実施の形態に係るインデックス作成部の構成図を示す。The block diagram of the index preparation part which concerns on embodiment is shown. 実施の形態に係るスコア計算部の構成例を示す。The structural example of the score calculation part which concerns on embodiment is shown. 実施の形態に係るインデックス更新部の構成例を示す。The structural example of the index update part which concerns on embodiment is shown. 実施の形態に係るスコア計算部の構成例を示す。The structural example of the score calculation part which concerns on embodiment is shown. 実施の形態に係るインデックス作成部の構成図を示す。The block diagram of the index preparation part which concerns on embodiment is shown. 実施の形態に係るスコア計算部の構成例を示す。The structural example of the score calculation part which concerns on embodiment is shown. 実施の形態に係るインデックス更新部の構成図を示す。The block diagram of the index update part which concerns on embodiment is shown. 実施の形態に係るスコア計算部を示す。The score calculation part which concerns on embodiment is shown. 実施の形態に係るインデックス作成部を示す。The index production part which concerns on embodiment is shown. 実施の形態に係るスコア計算部を示す。The score calculation part which concerns on embodiment is shown. 実施の形態に係るインデックス更新部の構成例を示す。The structural example of the index update part which concerns on embodiment is shown. 実施の形態に係るスコア計算部を示す。The score calculation part which concerns on embodiment is shown. 実施の形態に係るインデックス作成部を示す。The index production part which concerns on embodiment is shown. 実施の形態に係るスコア計算部を示す。The score calculation part which concerns on embodiment is shown. 実施の形態に係るインデックス更新部の構成の一例を示す。An example of the structure of the index update part which concerns on embodiment is shown.

符号の説明Explanation of symbols

1、4、7、10、12、15 情報処理装置
11 メッセージ保持部
12、43、73、101、123、153、182、185、192、195 スコア計算部
41、72、121、183、193 インデックス作成部
42、72、122、152 インデックス保持部
151、186、196 インデックス更新部
181 話題出現保持部
191 語出現保持部
1, 4, 7, 10, 12, 15 Information processing device 11 Message holding unit 12, 43, 73, 101, 123, 153, 182, 185, 192, 195 Score calculation unit 41, 72, 121, 183, 193 Index Creation unit 42, 72, 122, 152 Index holding unit 151, 186, 196 Index update unit 181 Topic appearance holding unit 191 Word appearance holding unit

Claims (16)

時刻が関連づけされているメッセージを保持するメッセージ保持部と、
前記メッセージ保持部に保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各話題に対して指定された時刻を基準としたスコアを求めるスコア計算部と、を有し、
前記スコア計算部は、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求めること
を特徴とする情報処理装置。
A message holding unit for holding a message associated with a time;
Each message held in the message holding unit is divided into words, a word sequence that matches a predetermined pattern is extracted from each message as a topic from the divided word sequence, and for each topic A score calculation unit that obtains a score based on the specified time,
The score calculation unit has a difference between the specified time and the time associated with the message for each topic of each message as a denominator component, and the associated time is newer than the message and An information processing apparatus characterized in that a density of a topic is obtained using an expression having the number of messages including the topic as a component of a numerator, and a representative value of the density is obtained as a topic score for each topic.
時刻が関連づけられているメッセージを保持するメッセージ保持部と、
前記メッセージ保持部に保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各メッセージの各話題に対して、当該メッセージに関連づけられている時刻および関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を関連づけるインデックス作成部と、
前記インデックス作成部の結果を保持するインデックス保持部と、
前記インデックス保持部で保持されている話題に対して指定された時刻を基準としたスコアを求めるスコア計算部と、を有し、
前記スコア計算部は、前記インデックス保持部を参照し、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求めること
を特徴とする情報処理装置。
A message holding unit for holding a message associated with a time;
Dividing each message held in the message holding unit into words, extracting a word sequence that matches a predetermined pattern from the divided word sequence as a topic from each message, each message of each message An index creating unit for associating a topic with a time associated with the message and a number of messages that are newer than the message and include the topic;
An index holding unit for holding the result of the index creation unit;
A score calculation unit that obtains a score based on the time specified for the topic held in the index holding unit,
The score calculation unit refers to the index holding unit, and is associated with each topic of each message by using a difference between the designated time and the time associated with the message as a denominator component. Obtaining the density of the topic using an expression having the number of messages that are newer than the message and including the topic as a component of the numerator, and obtaining a representative value of the density as a topic score for each topic. Information processing apparatus.
関連づけられている時刻が新しい順に最大N件のメッセージにおける各メッセージの各話題に対する話題情報を保持し、前記話題情報は当該話題と当該メッセージに関連づけられている時刻および関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を含むことを特徴とするインデックス保持部と、
時刻が関連づけられているメッセージが入力されると、前記入力されたメッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を話題として抽出し、前記抽出された各話題に対して、前記インデックス保持部に保持されている当該話題と一致する話題を有する話題情報の前記メッセージの数を1増加させ、あるいは、前記入力されたメッセージに関連づけられている時刻と、前記関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を0とした話題情報を作成し、前記インデックス保持部に追加し、前記追加処理の前で前記インデックス保持部にメッセージ数N件に対する話題情報が保持されている場合は、関連づけられている時刻が最も古いメッセージから生成された話題情報を削除するインデックス更新部と、
前記インデックス保持部で保持されている話題に対して指定された時刻を基準としたスコアを求めるスコア計算部と、を有し、
前記スコア計算部は、前記インデックス保持部を参照し、各メッセージの各話題に対して指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求めること
を特徴とする情報処理装置。
The topic information for each topic of each message in a maximum of N messages in ascending order of the associated time is held, and the topic information is related to the topic, the time associated with the message, and the associated time. An index holding unit characterized by including the number of messages that are newer and include the topic;
When a message associated with a time is input, the input message is divided into words, a word sequence that matches a predetermined pattern is extracted as a topic from the divided word sequence, For each extracted topic, the number of messages of topic information having a topic that matches the topic held in the index holding unit is increased by 1, or associated with the input message. Topic information in which the number of messages whose time and the associated time are newer than the message and include the topic is 0 is created, added to the index holding unit, and the index holding unit before the adding process If the topic information for N messages is stored in the message, it is generated from the message with the oldest associated time. And the index update section that you want to delete the topic information,
A score calculation unit that obtains a score based on the time specified for the topic held in the index holding unit,
The score calculation unit refers to the index holding unit, and uses the difference between the time specified for each topic of each message and the time associated with the message as a denominator component, and the associated time The density of the topic is obtained using an expression having the number of messages newer than the message and including the topic as a numerator component, and the representative value of the density is obtained as the topic score for each topic. Information processing device.
時刻が関連づけされているメッセージを保持するメッセージ保持部と、
前記メッセージ保持部に保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各話題に対して指定された時刻を基準としたスコアを求めるスコア計算部を有し、
前記スコア計算部は、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求めること
を特徴とする情報処理装置。
A message holding unit for holding a message associated with a time;
Each message held in the message holding unit is divided into words, a word sequence that matches a predetermined pattern is extracted from each message as a topic from the divided word sequence, and for each topic A score calculation unit for obtaining a score based on the specified time,
The score calculation unit has a difference between the specified time for each topic of each message and the time associated with the message as a denominator component, and associates with each word constituting the topic The value of the topic is obtained using an expression having the number of messages that are newer than the message and including the word as a component of the numerator, and the representative value of the value is obtained as the topic score for each topic. An information processing apparatus characterized by the above.
時刻が関連づけられているメッセージを保持するメッセージ保持部と、
前記メッセージ保持部に保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各メッセージの各話題に対して、当該メッセージに関連づけられている時刻および当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を関連づけるインデックス作成部と、
前記インデックス作成部の結果を保持するインデックス保持部と、
前記インデックス保持部で保持されている話題に対して指定された時刻を基準としたスコアを求めるスコア計算部と、を有し、
前記スコア計算部は、前記インデックス保持部を参照し、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を分子の構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求めること
を特徴とする情報処理装置。
A message holding unit for holding a message associated with a time;
Dividing each message held in the message holding unit into words, extracting a word sequence that matches a predetermined pattern from the divided word sequence as a topic from each message, each message of each message An index creating unit that associates the number of messages that are related to the topic with the time associated with the message and each word constituting the topic, and the associated time is newer than the message and includes the word;
An index holding unit for holding the result of the index creation unit;
A score calculation unit that obtains a score based on the time specified for the topic held in the index holding unit,
The score calculation unit refers to the index holding unit, and uses the difference between the designated time and the time associated with the message for each topic of each message as a denominator component to configure the topic. The time value associated with each word is newer than the message and the value of the topic is obtained using an expression having the number of messages including the word as a component of the numerator, and the representative value of the value is determined for each topic. An information processing apparatus characterized by being obtained as a topic score.
関連づけられている時刻が新しい順に最大N件のメッセージにおける各メッセージの各話題に対する話題情報を保持し、前記話題情報は当該話題と当該メッセージに関連づけられている時刻および当該話題を構成する語および前記各語の、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を含むことを特徴とするインデックス保持部と、
時刻が関連づけられているメッセージが入力されると、前記入力されたメッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を話題として抽出し、前記入力されたメッセージに含まれる前記各語に対して、前記インデックス保持部に保持されている当該語を有する話題情報の当該語の前記メッセージ数を1増加させ、また、前記抽出された各話題に対して、前記入力されたメッセージに関連づけられている時刻と、および当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を0とした話題情報を作成し、前記インデックス保持部に追加し、前記追加処理の前で前記インデックス保持部にメッセージ数N件に対する話題情報が保持されている場合は、関連づけられている時刻が最も古いメッセージから生成された話題情報を削除するインデックス更新部と、
前記インデックス保持部で保持されている話題に対して指定された時刻を基準としたスコアを求めるスコア計算部を有し、
前記スコア計算部は、前記インデックス保持部を参照し、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を分子の構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求めること
を特徴とする情報処理装置。
The topic information for each topic of each message in a maximum of N messages in ascending order of the associated time is held, and the topic information includes the time associated with the topic and the message, the words constituting the topic, and the topic An index holding unit characterized in that the associated time of each word is newer than the message and includes the number of messages including the word;
When a message associated with a time is input, the input message is divided into words, a word sequence that matches a predetermined pattern is extracted as a topic from the divided word sequence, For each word included in the input message, the number of messages of the word in the topic information having the word held in the index holding unit is increased by 1, and each extracted topic On the other hand, for the time associated with the input message and each word constituting the topic, the associated time is newer than the message and the number of messages including the word is 0. Topic information is created, added to the index holding unit, and topic information for N messages is held in the index holding unit before the adding process. If it is, the index update section that you want to delete the topic information generated from the time associated with the oldest message,
A score calculation unit for obtaining a score based on a time specified for a topic held in the index holding unit;
The score calculation unit refers to the index holding unit, and uses the difference between the designated time and the time associated with the message for each topic of each message as a denominator component to configure the topic. For each word, the value of the topic is determined using an expression having the associated number of messages that is newer than the message and the number of messages including the word as a component of the numerator, and the representative value of the value for each topic An information processing apparatus characterized by obtaining a score as a topic score.
処理するメッセージの中で各話題が出現したメッセージの数を保持する話題出現数保持部を有し、各話題のスコアを前記話題出現保持部の当該話題に対するメッセージの数を分母の構成要素とする式で重みづけして求めることを特徴とする請求項1〜3のうちのいずれかに記載の情報処理装置。   It has a topic appearance number holding unit that holds the number of messages in which each topic appears in the message to be processed, and the score of each topic is the number of messages for the topic of the topic appearance holding unit as a denominator component The information processing apparatus according to claim 1, wherein the information processing apparatus is obtained by weighting with an expression. 処理するメッセージの中で各語が出現したメッセージの数を保持する語出現数保持部を有し、各話題のスコアを、当該話題を構成する各語の関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を前記語出現保持部の当該語に対するメッセージの数を分母の構成要素とする式で重みづけして求めることを特徴とする請求項4〜6のうちのいずれかに記載の情報処理装置。   It has a word appearance number holding unit that holds the number of messages in which each word appears in the message to be processed, and the time associated with each word constituting the topic is newer than the message. The number of messages including the word is obtained by weighting the number of messages corresponding to the word in the word appearance holding unit with an expression having a denominator as a constituent element. The information processing apparatus described. 時刻が関連づけされているメッセージを保持する段階と、
前記保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各話題に対して指定された時刻を基準としたスコアを求める段階と、を有し、
前記スコアを求める段階は、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求めること
を特徴とする情報処理方法。
Holding a message with an associated time,
Each of the held messages is divided into words, and a word sequence that matches a predetermined pattern is extracted from each message as a topic, and specified for each topic. Obtaining a score based on time, and
The step of obtaining the score has a difference between the designated time and the time associated with the message for each topic of each message as a denominator component, and the associated time is newer than the message. An information processing method, comprising: calculating a density of a topic using an expression having a number of messages including the topic as a component of a numerator; and obtaining a representative value of the density as a topic score for each topic.
時刻が関連づけられているメッセージを保持する段階と、
前記保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各メッセージの各話題に対して、当該メッセージに関連づけられている時刻および関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を関連づける段階と、
前記関連づけられた結果を保持する段階と、
前記保持されている関連づけられた結果中における話題に対して指定された時刻を基準としたスコアを求める段階と、を有し、
前記スコアを求める段階は、前記保持されている関連づけられた結果を参照し、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求めること
を特徴とする情報処理方法。
Holding a message with an associated time;
Dividing each held message into words, extracting a sequence of words that match a predetermined pattern from each segmented word sequence as a topic from each message, for each topic of each message Associating a time associated with the message and a number of messages that are newer than the message and that include the topic;
Holding the associated result;
Obtaining a score based on a specified time for a topic in the held associated result; and
The step of obtaining the score refers to the held associated result, and uses the difference between the designated time and the time associated with the message for each topic of each message as a denominator component. The associated time is newer than the message and the number of messages including the topic is used as an element of the numerator to obtain the density of the topic, and the representative value of the density for each topic is the topic score. An information processing method characterized by
関連づけられている時刻が新しい順に最大N件のメッセージにおける各メッセージの各話題に対する話題情報を保持する段階を有し、前記話題情報は当該話題と当該メッセージに関連づけられている時刻および関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を含むことを特徴とし、
時刻が関連づけられているメッセージが入力されると、前記入力されたメッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を話題として抽出し、前記抽出された各話題に対して、前記保持されている当該話題と一致する話題を有する話題情報の前記メッセージの数を1増加させ、あるいは、前記入力されたメッセージに関連づけられている時刻、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を0とした話題情報を作成し、前記保持されている話題情報へ追加し、前記追加処理の前で前記インデックス保持部にメッセージ数N件に対する話題情報が保持されている場合は、関連づけられている時刻が最も古いメッセージから生成された話題情報を削除する段階と、
保持されている話題に対して指定された時刻を基準としたスコアを求める段階を有し、
前記スコアを求める段階においては、前記保持されている話題情報を参照し、各メッセージの各話題に対して指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、関連づけられている時刻が当該メッセージより新しくかつ当該話題を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の密度を求め、話題毎に前記密度の代表値を話題のスコアとして求めること
を特徴とする情報処理方法。
It has a step of storing topic information for each topic of each message in a maximum of N messages in ascending order of associated time, and the topic information is associated with the time associated with the topic and the message. Including the number of messages whose time is newer than the message and includes the topic,
When a message associated with a time is input, the input message is divided into words, a word sequence that matches a predetermined pattern is extracted as a topic from the divided word sequence, For each extracted topic, the number of messages of topic information having a topic that matches the held topic is increased by 1, or the time associated with the input message is associated The topic information with a newer time than the message and the number of messages including the topic is created, added to the retained topic information, and the number of messages is stored in the index holding unit before the adding process. When topic information for N cases is held, the topic information generated from the message with the oldest associated time is deleted. And the floor,
Obtaining a score based on a specified time for a topic held;
In the step of obtaining the score, referring to the retained topic information, the difference between the time specified for each topic of each message and the time associated with the message is a denominator component, The density of the topic is obtained by using an expression having the number of messages whose associated time is newer than the message and includes the topic as a component of the numerator, and the representative value of the density is obtained as a topic score for each topic. An information processing method characterized by this.
時刻が関連づけされているメッセージを保持する段階と、
前記保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各話題に対して指定された時刻を基準としたスコアを求める段階を有し、
前記スコアを求める段階において、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を分子の構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求めること
を特徴とする情報処理方法。
Holding a message with an associated time,
Each of the held messages is divided into words, and a word sequence that matches a predetermined pattern is extracted from each message as a topic, and specified for each topic. Having a stage for obtaining a score based on time,
In the step of obtaining the score, the difference between the designated time and the time associated with the message for each topic of each message has a denominator component, and for each word constituting the topic, The value of the topic is obtained by using an expression having the number of messages whose associated time is newer than the message and includes the word as a component of the numerator, and the representative value of the value is obtained as the topic score for each topic. An information processing method characterized by this.
時刻が関連づけられているメッセージを保持する段階と、
前記保持されている各メッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を各メッセージから話題として抽出し、前記各メッセージの各話題に対して、当該メッセージに関連づけられている時刻および当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を関連づける段階と、
前記関連づけられた結果を保持する段階と、
前記保持されている結果中の話題に対して指定された時刻を基準としたスコアを求める段階と、を有し、
前記スコアを求める段階において、前記保持されている関連づけられた結果を参照し、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求めること
を特徴とする情報処理方法。
Holding a message with an associated time;
Dividing each held message into words, extracting a sequence of words that match a predetermined pattern from each segmented word sequence as a topic from each message, for each topic of each message Associating the time associated with the message and each word constituting the topic with the number of messages with the associated time newer than the message and including the word;
Holding the associated result;
Obtaining a score based on a specified time for the topic in the held result, and
In the step of obtaining the score, the stored associated result is referred to, and the difference between the designated time and the time associated with the message is used as a denominator component for each topic of each message. Then, for each word constituting the topic, the value of the topic is obtained using an expression having the number of messages including the word and the associated time is newer than the message. An information processing method characterized in that a representative value is obtained as a topic score.
関連づけられている時刻が新しい順に最大N件のメッセージにおける各メッセージの各話題に対する話題情報を保持する段階を有し、前記話題情報は当該話題と当該メッセージに関連づけられている時刻および当該話題を構成する語および前記各語の、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を含むことを特徴とし、
時刻が関連づけられているメッセージが入力されると、前記入力されたメッセージを語に分割し、前記分割された語の列から予め与えられたパタンにマッチする語の列を話題として抽出し、前記入力されたメッセージに含まれる前記各語に対して、前記保持されている当該語を有する話題情報の当該語の前記メッセージ数を1増加させ、また、前記抽出された各話題に対して、前記入力されたメッセージに関連づけられている時刻、および当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージの数を0とした話題情報を作成し、前記話題情報に追加し、前記追加処理の前で前記インデックス保持部にメッセージ数N件に対する話題情報が保持されている場合は、関連づけられている時刻が最も古いメッセージから生成された話題情報を削除する段階と、
前記保持されている話題情報の話題に対して指定された時刻を基準としたスコアを求める段階と、を有し、
前記スコアを求める段階は、前記保持されている話題情報を参照し、各メッセージの各話題に対して前記指定された時刻と当該メッセージに関連づけられている時刻の差を分母の構成要素にもち、当該話題を構成する各語に対して、関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を分子の構成要素に持つ式を用いて当該話題の値を求め、話題毎に前記値の代表値を話題のスコアとして求めること
を特徴とする情報処理方法。
It has a step of storing topic information for each topic of each message in a maximum of N messages in ascending order of associated time, and the topic information constitutes the topic and the time associated with the message and the topic And the number of messages in which the associated time of each word is newer than the message and includes the word,
When a message associated with a time is input, the input message is divided into words, a word sequence that matches a predetermined pattern is extracted as a topic from the divided word sequence, For each word included in the input message, the message number of the word of the topic information having the retained word is increased by 1, and for each extracted topic, For each word constituting the topic and the time associated with the input message, topic information is created in which the associated time is newer than the message and the number of messages including the word is zero. , Added to the topic information, and when the topic information for the number N of messages is held in the index holding unit before the adding process, Comprising the steps of: time to remove the topic information generated from the oldest message that,
Obtaining a score based on a specified time for the topic of the topic information held,
The step of obtaining the score refers to the retained topic information, and has a difference between the designated time and the time associated with the message for each topic of each message as a denominator component, For each word that constitutes the topic, the value of the topic is determined using an expression having the associated number of messages that are newer than the message and the number of messages including the word as a component of the numerator. An information processing method characterized in that a representative value is obtained as a topic score.
処理するメッセージの中で各話題が出現したメッセージの数を保持する話題出現数を保持する段階を有し、各話題のスコアを前記話題出現保持部の当該話題に対するメッセージの数を分母の構成要素とする式で重みづけして求めることを特徴とする請求項9〜11のうちのいずれかに記載の情報処理方法。   A step of holding the number of topics that holds the number of messages in which each topic appears in the message to be processed, and the score of each topic is a component of the denominator of the number of messages for the topic in the topic appearance holding unit The information processing method according to any one of claims 9 to 11, wherein the information is obtained by weighting with an expression. 処理するメッセージの中で各語が出現したメッセージの数を保持する段階を有し、各話題のスコアを、当該話題を構成する各語の関連づけられている時刻が当該メッセージより新しくかつ当該語を含むメッセージ数を前記語出現保持部の当該語に対するメッセージの数を分母の構成要素とする式で重みづけして求めることを特徴とする請求項12〜14のうちのいずれかに記載の情報処理方法。

The number of messages in which each word appears in the message to be processed is held, and the score of each topic is determined based on the time associated with each word constituting the topic and newer than the message. The information processing according to any one of claims 12 to 14, wherein the number of messages included is calculated by weighting with an expression having the number of messages for the word in the word appearance holding unit as a constituent element of a denominator. Method.

JP2005238599A 2004-11-18 2005-08-19 Information processor and information processing method Pending JP2006172424A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005238599A JP2006172424A (en) 2004-11-18 2005-08-19 Information processor and information processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004335058 2004-11-18
JP2005238599A JP2006172424A (en) 2004-11-18 2005-08-19 Information processor and information processing method

Publications (1)

Publication Number Publication Date
JP2006172424A true JP2006172424A (en) 2006-06-29

Family

ID=36673073

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005238599A Pending JP2006172424A (en) 2004-11-18 2005-08-19 Information processor and information processing method

Country Status (1)

Country Link
JP (1) JP2006172424A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009048394A (en) * 2007-08-20 2009-03-05 Nippon Telegr & Teleph Corp <Ntt> Inter-document distance computation apparatus, inter-document distance computation method, program and recording medium
US9346971B2 (en) 2009-07-15 2016-05-24 Technical University Of Denmark Polymer coating comprising 2-methoxyethyl acrylate units synthesized by surface-initiated atom transfer radical polymerization

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009048394A (en) * 2007-08-20 2009-03-05 Nippon Telegr & Teleph Corp <Ntt> Inter-document distance computation apparatus, inter-document distance computation method, program and recording medium
US9346971B2 (en) 2009-07-15 2016-05-24 Technical University Of Denmark Polymer coating comprising 2-methoxyethyl acrylate units synthesized by surface-initiated atom transfer radical polymerization

Similar Documents

Publication Publication Date Title
JP4985974B2 (en) COMMUNICATION SUPPORT METHOD, SYSTEM, AND SERVER DEVICE
CN104933113B (en) A kind of expression input method and device based on semantic understanding
Park et al. Emoticon style: Interpreting differences in emoticons across cultures
KR100996311B1 (en) Method and system for detecting spam user created contentucc
CN107657056B (en) Method and device for displaying comment information based on artificial intelligence
JP2019505913A (en) Specific expression recognition for chat data
US20190151758A1 (en) Unique virtual entity creation based on real world data sources
Kim et al. Misinformation and hate speech: The case of anti-Asian hate speech during the COVID-19 pandemic
KR20110026218A (en) Apparatus and method for inputting text message and its program stored in recording medium
CN106803035A (en) A kind of password conjecture set creation method and password cracking method based on username information
JPWO2007138911A1 (en) Character costume determination device, character costume determination method, and character costume determination program
US8028028B2 (en) Message character string output system, control method thereof, and information storage medium
JP5224453B2 (en) Geographic feature information extraction method and system
WO2014203402A1 (en) Information providing device, information providing method, and program
JP2006172424A (en) Information processor and information processing method
JP7333931B2 (en) Post analysis system, post analysis device and post analysis method
Gunawan et al. Building automatic customer complaints filtering application based on Twitter in Bahasa Indonesia
JP2017091436A (en) Feature word selection device
JP4403859B2 (en) Emotion matching device
CN110941638A (en) Application classification rule base construction method, application classification method and device
JP2010170324A (en) Apparatus for supporting knowledge sharing, and method and program thereof
Diao-Klaeger et al. Slogans as Part of Burkina Faso’s Linguistic Landscape During the Insurrection in 2014
KR100912026B1 (en) Message character string output system, its control method, and information storage medium
JP2015007922A (en) Information processing device, information processing method, and program
CN111401060B (en) Method and device for generating interference words, electronic equipment and storage medium