JP4396444B2 - Phrase extraction device and program - Google Patents
Phrase extraction device and program Download PDFInfo
- Publication number
- JP4396444B2 JP4396444B2 JP2004238605A JP2004238605A JP4396444B2 JP 4396444 B2 JP4396444 B2 JP 4396444B2 JP 2004238605 A JP2004238605 A JP 2004238605A JP 2004238605 A JP2004238605 A JP 2004238605A JP 4396444 B2 JP4396444 B2 JP 4396444B2
- Authority
- JP
- Japan
- Prior art keywords
- program
- time
- broadcast
- attention
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、語句抽出装置及びプログラムに係り、特に、テレビ番組やラジオ番組等の特定の時刻に開始される事象に関する話題を提供する際に、番組について記載された文書情報をインターネット等のネットワークに接続された1つ以上の情報提供サーバから取得し、番組の注目度に応じて話題となる語句を抽出し、提供するための語句抽出装置及びプログラムに関する。 The present invention relates to a phrase extractor及 beauty programs, in particular, in providing topic of events to start at a time, such as television programs and radio programs, a network such as the Internet document information described for the program obtained from one or more information providing servers connected to, extracts phrases become the subject in response to the attention of the program, regarding the phrase extractor及 beauty program for providing.
近年、インターネットなどのコンピュータネットワークの発達に伴い、大量の電子化された文書情報が次々と蓄積され続けている。特に、掲示板やblog(ブログ)サービスを利用して個人が自分の興味のある事柄に対して感想や意見を発信することが容易に行なえるようになってきた。従って、ニュースや掲示板、blogなど、次々と発信される情報を数多く収集して解析すれば、最新の話題になっているニュースや出来事を把握することが可能となる。 In recent years, with the development of computer networks such as the Internet, a large amount of electronic document information has been accumulated one after another. In particular, it has become possible for individuals to easily send their opinions and opinions on matters of interest using bulletin boards and blog services. Therefore, by collecting and analyzing a lot of information that is sent one after another, such as news, bulletin boards, and blogs, it is possible to grasp the latest news and events.
従来、複数の情報提供サーバから発信された情報を、話題毎のカテゴリで分類し、その話題の時間遷移を提示・検索する情報潮流検索方法が提案されている。この情報潮流検索方法では、ある期間において発信された文書集合から類似した文書同士を集め、カテゴリに割り当てるという処理を行なっている(例えば、特許文献1参照)。そのため、類似する文書が複数発信されてからしかカテゴリが割り当てられないため、話題となる情報が初めて発信されてから時間が経過した後でしか、話題を提示することができない。 Conventionally, there has been proposed an information flow search method in which information transmitted from a plurality of information providing servers is classified into categories for each topic, and the time transition of the topic is presented and searched. In this information flow search method, processing is performed in which similar documents are collected from a document set transmitted in a certain period and assigned to a category (for example, see Patent Document 1). For this reason, since a category is assigned only after a plurality of similar documents are transmitted, the topic can be presented only after a lapse of time since the information on the topic is transmitted for the first time.
また、個人の興味の中には、番組等の特定の日時に開始される事象も含まれており、大抵は、事象を体験した後にその感想や意見が記述され、発信される。そのため、番組が終了した後でしか話題を提示することができない。 In addition, the personal interest includes an event that starts at a specific date and time such as a program. Usually, after experiencing the event, the impression and opinion are described and transmitted. Therefore, the topic can be presented only after the program ends.
現在では、番組を視聴しながら掲示板等に書き込みを行なう場合もあるが、わずかな文書情報しかない時点で話題を提示することができない。
前述のように、従来の技術では、すでに番組が終了した後でしか話題を提供できず、これから話題になる可能性がある最新の番組情報をいち早く提供することができない。 As described above, in the conventional technique, a topic can be provided only after the program has already ended, and the latest program information that may become a topic cannot be provided quickly.
本発明は、上記の点に鑑みなされたもので、特定の時刻に開始される事象に対して、事象が開始される以前に、利用者が興味をひく語句を提供することが可能な語句抽出装置及びプログラムを提供することを目的とする。 The present invention has been made in view of the above points, and it is possible to extract a phrase that allows a user to provide an interesting phrase for an event that starts at a specific time before the event is started. and to provide a device及 beauty program.
図1は、本発明の原理を説明するための図である。 FIG. 1 is a diagram for explaining the principle of the present invention.
本発明は、テレビ番組やラジオ番組等の特定の時刻に開始される事象に関する話題を、ネットワークで公開されている文書情報や、番組のスケジュールが記録された番組表から抽出して提供するために用いられる語句抽出装置における、語句抽出方法において、
時刻情報を持つ文書を格納する文書情報蓄積手段から読み出された時刻情報を持つ文書の集合から、番組タイトルを含む文書を検索して抽出し、番組別に番組別文書情報蓄積手段に格納する番組別文書抽出ステップ(ステップ1)と、
抽出した文書から、番組の開始日時から番組の放送周期に応じた所定の注目度算出期間内の時刻情報を持つ文書を番組毎に集計し、集計した文書数を番組の注目度として番組注目度テーブルに格納する番組別注目度算出ステップ(ステップ2)と、
前記番組注目度テーブルを参照し、前回の放送で注目度の高い番組を選択し、該番組の次回の放送に際し、該番組の放送前で放送開始時刻までの予め設定した時間内である場合には、番組表が格納された番組表蓄積手段から該番組のサブタイトルあるいは概要を取得し、形態素解析を行い、語句の出現位置や文字数に基づいて語句を抽出し、該番組の放送後で放送開始時刻から予め設定した時間内である場合には、前記番組別文書情報蓄積手段に格納されている文書を形態素解析し、語句毎に出現する文書数を求め、出現する文書数が多い語句を抽出する語句抽出ステップ(ステップ3)と、を行なう。
This onset Ming, a topic related to events that are start at a specific time, such as television programs and radio programs, and document information that has been published in the network, the schedule of the program is to provide extracts from the program table that has been recorded In the phrase extraction method in the phrase extraction device used for
A program that searches and extracts a document including a program title from a set of documents having time information read from a document information storage unit that stores documents having time information, and stores the program in a document information storage unit for each program. A separate document extraction step (step 1);
From the extracted documents , documents having time information within a predetermined attention level calculation period corresponding to the broadcast period of the program from the program start date and time are totaled for each program, and the program attention level is set as the program attention level. Attention level calculation step (step 2) for each program stored in the table,
When the program attention level table is referenced, a program with a high degree of attention is selected in the previous broadcast, and the next broadcast of the program is within a preset time before the broadcast of the program until the broadcast start time Acquires the subtitle or outline of the program from the program guide storage means storing the program guide, performs morphological analysis, extracts words and phrases based on the appearance position and number of characters of the phrases, and starts broadcasting after the program broadcasts If it is within the preset time from the time, the document stored in the program-specific document information storage means is subjected to morphological analysis, the number of documents appearing for each phrase is obtained, and the phrases having a large number of appearing documents are extracted. And a word extraction step (step 3).
本発明は、番組別注目度算出ステップ(ステップ2)において、注目度算出期間に検索要求された検索語から、検索語を入力した利用者を特定する情報を用いて、同一利用者が短い時間間隔で複数回同じキーワードを入力した場合には1回とカウントすることにより、番組に関連する検索語の利用人数を集計し、文書数の集計値との加算値を番組の注目度として番組注目度テーブルに格納する。 This onset Ming, in the program-specific attention degree calculation step (step 2), the search request search term to the attention degree calculation period, using the information specifying the user who has entered the search term, the same user is short by counting and once when you enter multiple times the same keyword in the time interval, aggregate search terms using the number of which related to the turn of sets, the sum of the aggregate value of the document number as the target of the program Store in the program attention level table .
本発明は、番組別注目度算出ステップ(ステップ2)において、新しい番組について高い注目度を設定する。 This onset Ming, in the program-specific attention degree calculating step (step 2), to set a high degree of attention for the new program.
本発明は、語句抽出ステップ(ステップ3)において、
番組放送周期に応じて放送開始までの最大期間を予め設定しておき、
これから放送される番組の開始日時と現在日時から放送開始までの期間を求め、該放送開始までの期間が最大期間を超えない番組に対して、語句の抽出を行なう。
This onset Ming, in the phrase extraction step (Step 3),
The maximum period until the start of broadcasting is set in advance according to the program broadcasting cycle,
The start date and time of the program to be broadcast and the period from the current date and time to the start of broadcast are obtained, and words and phrases are extracted for the program whose period until the start of the broadcast does not exceed the maximum period.
図2は、本発明の原理構成図である。 FIG. 2 is a principle configuration diagram of the present invention.
本発明(請求項1)は、テレビ番組やラジオ番組等の特定の時刻に開始される事象に関する話題を、ネットワークで公開されている文書情報や、番組のスケジュールが記録された番組表から抽出して提供するために用いられる語句抽出装置であって、
時刻情報を持つ文書を格納する文書情報蓄積手段202から読み出された時刻情報を持つ文書の集合から、番組タイトルを含む文書を検索して抽出し、番組別に番組別文書情報蓄積手段103に格納する番組別文書抽出手段101と、
抽出した文書から、番組の開始日時から番組の放送周期に応じた所定の注目度算出期間内の時刻情報を持つ文書を番組毎に集計し、集計した文書数を番組の注目度として番組注目度テーブルに格納する番組別注目度算出手段102と、
番組注目度テーブルを参照し、前回の放送で注目度の高い番組を選択し、該番組の次回の放送に際し、該番組の放送前で放送開始時刻までの予め設定した時間内である場合には、番組表が格納された番組表蓄積手段203から該番組のサブタイトルあるいは概要を取得し、形態素解析を行い、語句の出現位置や文字数に基づいて語句を抽出し、該番組の放送後で放送開始時刻から予め設定した時間内である場合には、番組別文書情報蓄積手段103に格納されている文書を形態素解析し、語句毎に出現する文書数を求め、出現する文書数が多い語句を抽出する語句抽出手段104と、を有する。
The present invention (Claim 1 ) extracts a topic related to an event that starts at a specific time such as a television program or a radio program from document information published on the network or a program table on which a program schedule is recorded. A phrase extraction device used to provide
A document including a program title is searched and extracted from a set of documents having time information read from the document
From the extracted documents , documents having time information within a predetermined attention level calculation period corresponding to the broadcast period of the program from the program start date and time are totaled for each program, and the program attention level is set as the program attention level. Attention level calculation means 102 for each program stored in the table;
When the program attention level table is referenced, a program with a high degree of attention is selected in the previous broadcast, and the next broadcast of the program is within a preset time before the broadcast of the program until the broadcast start time The subtitle or outline of the program is acquired from the program guide storage means 203 in which the program guide is stored, morphological analysis is performed, the phrase is extracted based on the appearance position and the number of characters of the phrase, and the broadcast starts after the program is broadcast If it is within a preset time from the time, the morphological analysis is performed on the document stored in the program-specific document
本発明(請求項2)は、番組別注目度算出手段102において、
注目度算出期間に検索要求された検索語から、検索語を入力した利用者を特定する情報を用いて、同一利用者が短い時間間隔で複数回同じキーワードを入力した場合には1回とカウントすることにより、番組に関連する検索語の利用人数を集計し、文書数の集計値との加算値を番組の注目度として番組注目度テーブルに格納する手段を含む。
According to the present invention (claim 2 ), the program-specific attention level calculating means 102
When the same user inputs the same keyword a plurality of times at short time intervals using the information for specifying the user who has input the search word from the search words requested during the attention degree calculation period , it is counted once. by aggregates search terms occupancy of associated turn sets includes means for storing the program of interest degree table the sum of the aggregate number of documents as a target of the program.
本発明(請求項3)は、番組別注目度算出手段102において、新しい番組について高い注目度を設定する。 In the present invention (claim 3 ), the attention level calculation means 102 for each program sets a high attention level for a new program.
本発明(請求項4)は、語句抽出手段104において、
番組放送周期に応じて放送開始までの最大期間を予め設定しておき、
これから放送される番組の開始日時と現在日時から放送開始までの期間を求め、該放送開始までの期間が最大期間を超えない番組に対して、語句の抽出を行なう手段を含む。
According to the present invention (claim 4 ), in the phrase extracting means 104,
The maximum period until the start of broadcasting is set in advance according to the program broadcasting cycle,
Means for obtaining a start date and time of a program to be broadcast and a period from the current date and time to the start of the broadcast, and extracting a phrase for a program whose period until the start of the broadcast does not exceed the maximum period.
本発明(請求項5)は、請求項1乃至4のいずれか1項に記載の語句抽出装置を構成する各手段としてコンピュータを機能させるための語句抽出プログラムである。
The present invention (Claim 5 ) is a phrase extraction program for causing a computer to function as each means constituting the phrase extraction apparatus according to any one of
上記のように、本発明によれば、テレビ番組やラジオ番組等の特定の時刻に開始される番組の注目度を算出し、これから開始される番組については、内容を紹介した番組表の中から語句を抽出することで、番組が開始される前に話題になる可能性のある情報を提供することができる。 As described above, according to the present invention, the degree of attention of a program that starts at a specific time such as a TV program or a radio program is calculated, and the program that is to be started is calculated from the program table that introduces the contents. By extracting the phrase, it is possible to provide information that may become a topic before the program is started.
また、番組が開始されてからは、番組を見ている人々が発信する文書情報から、話題になっている語句を抽出し提供することができる。 In addition, after the program is started, it is possible to extract and provide a topical phrase from document information transmitted by people watching the program.
以下、図面と共に本発明の実施の形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図3は、本発明の一実施の形態における語句抽出装置の構成図である。 FIG. 3 is a block diagram of the phrase extracting device in one embodiment of the present invention.
同図に示す語句抽出装置100には、外部記憶装置として、検索語蓄積部201、文書情報蓄積部202、番組情報蓄積部203、語句蓄積部204が接続され、検索語蓄積部201、文書情報蓄積部202、番組情報蓄積部203からの情報を入力とし、語句蓄積部204に抽出した語句を出力するものである。
The
語句抽出装置100は、番組情報抽出部101、番組注目度算出・蓄積部102、番組別文書情報蓄積部103、語句抽出部104から構成され、番組情報抽出部101には、検索語蓄積部201、文書情報蓄積部202が接続され、番組注目度算出・蓄積部102には、番組情報蓄積部203が接続される。
The
検索語蓄積部201には、インターネット上で検索サービスを提供する検索サイトにおいて、利用者により入力された検索語が収集され、検索要求された時刻と共に蓄積されている。検索語は、利用者が関心を持っている情報を検索する手掛かりとして入力する語であるから、定期的に検索語を収集し、解析することで、利用者の関心が高かった情報を知ることができる。
The search
文書情報蓄積部202には、ホームページや、blog、掲示板などインターネット上で公開されている文書情報から、新しく生成された文書情報や更新された文書情報を収集し、作成日時や更新日時などの時刻情報と共に蓄積されている。これらの文書情報からは、番組を視聴した人々の番組に対する感想等を収集することができる。また、テレビ局が番組のホームページを提供している場合には、番組の最新内容を収集することができる。
The document
番組情報蓄積部203には、テレビ番組表の情報が蓄積されている。テレビ番組表は、放送日、曜日、ジャンル、番組開始時間、番組終了時間、番組タイトル、サブタイトル、概要文、などの番組に関する情報から構成されており、同じ番組タイトルでも放送日毎に別々に蓄積されている。番組情報蓄積部203には、1週間程度先までのテレビ番組表の情報が蓄積されているものとする。
The program
語句抽出装置100の番組注目度算出・蓄積部102には、定期的に番組情報蓄積部203から番組情報を取得し、番組タイトル別に管理する。図4に番組注目度算出・蓄積部102で蓄積される番組別集計結果テーブル500と番組注目度テーブル510の例を示す。図4(a)は、番組別集計結果テーブル500の構成例であり、番組情報蓄積部203から最新の番組情報を取得し、番組タイトル別に番組情報を管理している。番組別集計結果テーブル500は、番組ID501、番組タイトル502、周期503、開始日時504、終了日時505、注目度算出日時506、集計データ507から構成される。
The program attention degree calculation /
番組ID501は、番組を識別するための一意な番号であり、番組タイトル502は、テレビ番組の番組名である。番組タイトル502が同じ番組については、同じ番組IDで管理する。周期503は、テレビ番組が定期的な番組(毎週、毎日)の場合に、何日周期かを記録している(例えば、毎週放送される番組は7日周期であり、「7」が記録されている)。開始日時504は、番組の放送開始日時、終了日時505は、番組の放送終了日時、注目度算出日時506は、開始日時504へ周期503に応じた期間を加算した値で、番組の注目度を算出する日時を示している。集計データ507は、番組の注目度を算出する際に使用するデータであり、一定期間毎のデータを特定の期間分蓄積することができる。また、集計データ507の値から図4(b)に示すような番組注目度のランキングを生成し番組注目度テーブル510に蓄積する。番組注目度テーブル510は、ランク511、番組ID512、注目度513を格納する。
The
番組が定期的に放送される場合は、注目度が算出された後に次の放送時間に更新される。例えば、図4(a)において、番組ID“0000101”の番組タイトル『情報A』という番組は、毎日18:00に放送開始し、18:27に放送終了する番組であるとすると、注目度算出日時「2004年1月21日12:00:00」を過ぎると、次の放送時間(開始時刻2004年1月21日18:00、終了時刻2004年1月21日18:27)に更新される。 When a program is broadcast regularly, it is updated to the next broadcast time after the attention level is calculated. For example, in FIG. 4A, if a program with the program title “Information A” with a program ID “0000101” is a program that starts broadcasting at 18:00 and ends at 18:27 every day, the degree of attention is calculated. When the date and time “January 21, 2004, 12:00: 00” has passed, it is updated to the next broadcast time (start time, January 21, 2004, 18:00, end time, January 21, 2004, 18:27). The
番組情報抽出部101は、番組注目度算出・蓄積部102における処理とは独立に、テレビ番組に関する情報をどれくらいの間隔で利用者に提供したいかにより、特定の期間を定め、定めた特定の期間おきに処理を行う。
The program
まず、番組情報抽出部101は、番組注目度算出・蓄積部102から番組タイトルを取得し、検索語蓄積部201から取得した検索語から番組タイトル毎に番組タイトルに一致する検索語を集計する。また、文書情報蓄積部202から取得した文書情報から、番組タイトルを含む文書情報を番組のタイトル毎に集計する。そして、検索語から集計した番組タイトル集計値と文書情報から集計した番組タイトルの集計値とを加算し、番組注目度算出・蓄積部102の番組別集計結果テーブル500に記録する。また、番組に関連した文書情報を番組毎に整理して番組別文書情報蓄積部103に記録する。
First, the program
語句抽出部104は、番組情報抽出部101の処理終了後、番組注目度算出・蓄積部102から注目度の高い番組タイトルを取得し、注目度の高い番組の開始時刻が予め設定した時間内に開始される場合、番組情報蓄積部203から番組のサブタイトルや概要文を取得し、話題となる語句を抽出して語句蓄積部204に出力する。また、注目度の高い番組の放送開始後は、番組別文書情報蓄積部103から文書情報を取得し、話題を表す語句を抽出し、語句蓄積部204に出力する。
After the processing of the program
図5に語句蓄積部204に出力される語句の蓄積例を示す。語句抽出部104で抽出された語句903は、番組タイトル901、番組の開始日時902に対応付けられて語句蓄積部204に蓄積される。
FIG. 5 shows an example of storage of words output to the
このように、定期的に番組情報抽出部101と語句抽出部104の処理を実行することにより、注目度の高い番組と、その番組の話題を表す語句が、次々と語句蓄積部204に出力される。語句蓄積部204には、番組開始日時902が記録されているので、今放送されている注目番組でどのような語句が話題になっているか、あるいは、これからどのような注目番組が放送されるのか、といった情報提供が可能になる。
As described above, by periodically executing the processing of the program
次に、番組情報抽出部101の処理の流れを図6を用いて説明する。
Next, the processing flow of the program
図6は、本発明の一実施の形態における番組情報抽出部の処理のフローチャートである。 FIG. 6 is a flowchart of the process of the program information extraction unit in one embodiment of the present invention.
番組情報抽出部101の処理は、定期的(例えば15分おき)に実行される。まず、番組注目度算出・蓄積部102から、番組タイトルを取得する(ステップ101)。ここで指定する時刻範囲は15分おきに処理が実行される場合であれば、現在時刻より前の15分間とし、次回指定する時刻範囲は、今回指定した時刻範囲に連続した15分間とする。
The processing of the program
次に、検索語蓄積部201から時刻範囲を指定して検索語を取得し(ステップ102)、番組タイトルと一致する検索語を、番組タイトル毎に集計する(ステップ103)。検索語は、同一利用者が複数回入力することが考えられる。そのため、検索語を入力した利用者を特定する情報(例えば、WebブラウザのCookie情報)により、同一利用者が短い時間間隔で複数回同じキーワードを入力した場合は1回とカウントすることにより、検索語毎の入力人数を集計する(ステップ104)。 Next, a search word is acquired by designating a time range from the search word storage unit 201 (step 102), and search words that match the program title are tabulated for each program title (step 103). It is conceivable that the same user inputs the search term multiple times. Therefore, if the same user inputs the same keyword multiple times at short time intervals based on information that identifies the user who entered the search word (for example, cookie information of the Web browser), the search is counted as one The number of input persons for each word is totaled (step 104).
次に、文書情報蓄積部202からも時刻範囲を指定して文書情報を取得し、番組に関連する文書情報を選び出し、番組タイトル毎に文書数を集計する。ここで指定する時刻範囲は、ステップ102で指定した時刻範囲と同じ時刻範囲である。
Next, the document information is acquired from the document
番組に関連した文書情報は番組毎に整理して番組別文書情報蓄積部103に記録する(ステップ105)。番組に関連する文書を選択する方法として、番組タイトルが含まれる文書情報を検索する方法がある。この方法では、番組タイトルが一般的に別の文脈で利用されない言葉の場合には(例えば、『ポケットモンスター』)、高速に処理できる点で有効である。しかし、番組タイトルは省略される場合が多いので(例えば、『ポケットモンスター』は「ポケモン」と略されることが多い)、番組タイトルの省略形や別名なども番組注目度算出・蓄積部102に蓄積しておくことにより、より多くの文書情報を選別することができる。
Document information related to the program is organized for each program and recorded in the program-specific document information storage unit 103 (step 105). As a method of selecting a document related to a program, there is a method of searching for document information including a program title. This method is effective in that the program title can be processed at high speed when the program title is not generally used in another context (for example, “Pocket Monster”). However, since the program title is often omitted (for example, “Pocket Monster” is often abbreviated as “Pokemon”), the program title abbreviation and alias are also stored in the program attention calculation /
また、番組タイトルが番組以外の文脈で利用される場合には、番組タイトルを含むという条件だけで文書情報を選別してしまうと、番組に関係しない文書情報が混入してしまうという問題がある。番組に関連する文書情報は、番組タイトルに周辺に「見る」、「放送する」、「言う」、「やる」などといった単語が存在する場合が多く、これらの単語が存在する場合に、番組に関連している文書情報として選別することができる。 Further, when the program title is used in a context other than the program, there is a problem that document information not related to the program is mixed if the document information is selected only under the condition that the program title is included. Document information related to a program often includes words such as “view”, “broadcast”, “say”, “do”, etc. in the vicinity of the program title. It can be selected as related document information.
また、蓄積の方法としては、番組ID毎に文書情報を格納する領域を設定し、その領域内に時刻情報との対応がとれるように文書情報に時刻を含むファイル名を付けるなどして蓄積する。 As an accumulation method, an area for storing document information is set for each program ID, and the document information is accumulated by adding a file name including the time so that the correspondence with the time information can be taken in the area. .
そして、番組タイトル毎に検索語の集計値と文書情報から集計した文書数集計値とを加算し、番組注目度算出・蓄積部102の番組別集計結果テーブル500の集計データ507に記録する(ステップ106)。検索語の集計値は、番組タイトルで検索要求をした利用者の数であり、番組に関心をもった人の数といえる。また、文書数の集計値についても番組に対する感想や意見を文書にしている点から番組に関心を持った人の数を表している。つまり、集計データ507には、番組に関心をもった人の数が期間毎に蓄積されることになる。
Then, for each program title, the total value of the search terms and the total number of documents counted from the document information are added and recorded in the
次に、番組注目度算出・蓄積部102における処理について、番組別集計結果テーブル500の管理処理と、番組注目度算出・処理に分けて説明する。まず、番組別集計結果テーブル500の管理処理について図7を用いて説明する。
Next, the processing in the program attention level calculation /
図7は、本発明の一実施の形態における番組別集計結果テーブルの管理処理のフローチャートである。 FIG. 7 is a flowchart of the management processing of the program-by-program total result table according to the embodiment of the present invention.
番組注目度算出・蓄積部102は、定期的に番組情報蓄積部203から指定する期間に開始される番組情報集合を取得する(ステップ201)。番組情報蓄積部203の情報登録・更新が1日に1度であれば、番組情報蓄積部203の情報登録・更新処理の後、1日に1度実行すればよい。また、指定する期間は現在時刻から120時間(5日)以内といったように、これから開始される番組情報を指定する。取得した番組情報集合から開始時刻が古い番組順に1つずつ取り出し、以下の処理を行う。
The program attention degree calculation /
始めに、番組注目度算出・蓄積部102は、番組情報集合から番組タイトルを取り出し、番組別集計結果テーブル500の番組タイトル502に存在するかを調べる(ステップ202)。存在しない場合は、新しい番組の情報であり、番組別蓄積結果テーブル500に追加する(ステップ203)。この際、新しい番組の周期情報は不明であるため「0」を記録する。番組タイトル502に既に番組タイトルが存在する場合は、番組別集計テーブル500の周期503が「0」であるか調べ「0」である場合は(ステップ204、Yes)、番組別集計テーブル500に蓄積されている開始日時504と、番組情報集合から番組の開始日時を取り出し、周期を算出して周期503を更新する(ステップ205)。
First, the program attention level calculation /
続いて、注目度算出済みかどうかを調べ(ステップ206)、注目度算出済みの場合(ステップ206、Yes)のみ番組別集計テーブル500の開始日時504、終了日時505、注目度算出日時506を更新する(ステップ207)。注目度算出日時506は、開始日時504へ周期503に応じた注目度算出期間を加算して記録する。注目度算出期間は、番組が放送されてから人々の間で話題に上り、その後話題が一段落するまでの期間とし、過去の集計データに対して推移を調べることで予め求めておく。例えば、周期が1日の番組では18時間、周期が7日の番組では72時間といった値を予め設定しておく。また、新しい番組や1回しか放送されない番組の注目度算出期間も予め設定しておく。このように、番組の開始日時と周期に応じて注目度算出期間を設定することにより、1回の放送毎に注目度を算出することが可能となる。
Subsequently, it is checked whether or not the attention level has been calculated (step 206). When the attention level has already been calculated (
番組ID“0000101”の番組タイトル「情報A」という番組は、開始日時「2004年1月20日18:00」、周期が「1」日であり、周期が1日の番組の注目度算出期間=18時間とすると、注目度算出日時は、「2004年1月21日12:00:00」となる。 The program with the program ID “0000101” with the program title “information A” has a start date “January 20, 2004, 18:00”, a period of “1” day, and a period of interest calculation period of the program with a period of one day = 18 hours, the attention degree calculation date and time is “January 21, 2004, 12:00:00”.
また、例えば、ステップ201において毎日放送される番組が複数取得された場合には、取得された番組の中で一番古い開始時刻を持つ番組が、前回の放送に対する注目度算出が終了した後でステップ207において記録され、次に古い開始時刻をもつ番組は、ステップ206において注目度算出が終了するまで記録されない。
For example, when a plurality of programs broadcast every day are acquired in
また、注目度算出済みかどうかを調べる方法としては、注目度算出処理が実行された際に、注目度算出日時506を空にすることで実現している。別の方法としては番組別集計結果テーブル500に注目度算出済みかどうかを表す項目を追加する方法がある。
Further, as a method for checking whether or not the attention level has been calculated, the attention level calculation date and
番組情報蓄積部203から取得した番組情報集合全てに対して、処理が終了するまでステップ202〜ステップ207の処理を繰り返し、全ての番組が処理済みになると(ステップ208、Yes)一連の処理が終了する。
For all the program information sets acquired from the program
次に、図8を用いて番組注目度算出・処理の流れを説明する。 Next, the flow of program attention calculation / processing will be described with reference to FIG.
図8は、本発明の一実施の形態における番組注目度算出・処理のフローチャートである。 FIG. 8 is a flowchart of program attention level calculation / processing in an embodiment of the present invention.
番組注目度算出・蓄積部102による、番組注目度算出・処理は、番組タイトル毎の1回の放送に対する注目度を算出する目的で実行され、算出された注目度は、次回同じ番組タイトルの番組が放送される際に利用される。テレビ番組は30分や1時間といった単位で構成されることが多いため、30分間隔で処理を実行する。30分という時間間隔以外で実行しても問題ないが、次の放送開始日時までに注目度を算出する必要がある。
The program attention level calculation /
番組注目度算出・蓄積部102は、30分間隔で番組別集計テーブル500から注目度算出日時506が現在日時より古い番組を検索し、番組ID501の集合を取得する(ステップ301)。番組ID集合から番組IDを1つ取り出し、番組IDに対応する開始日時504から注目度算出日時506までの集計データを加算し、注目度とする。注目度の算出が終了した時点で、注目度算出日時を空に変更する(ステップ302)。
The program attention level calculation /
次に、番組情報蓄積部203を番組タイトルで検索し(ステップ303)、次回放送の番組情報がある場合は(ステップ304、Yes)、開始日時504、終了日時505を取得し、注目度算出日時506を設定する(ステップ305)。
Next, the program
ステップ301で取得した番組ID集合の全てを処理し終えたら(ステップ306、Yes)、番組IDの注目度を大きな値順に並べ替え、ランク付けして番組注目度テーブル510に蓄積する(ステップ307)。ここで、蓄積された注目度は、番組タイトル毎に1回の放送でどれくらいの人々が関心を持ったかを示す値となる。以上の処理により算出される注目度は周期性をもった番組だけであり、新しい番組や1回しか放送されない番組の注目度は算出できない。そこで、新しい番組や1回しか放送されない番組をステップ307で算出したランクの上位に挿入する(ステップ308)。
When all of the program ID sets acquired in step 301 have been processed (
このように、新しい番組や1回しか放送されない番組の注目度を高くすることで、番組を視聴した人々が記載した文書情報から話題を抽出して提供することが可能となる。番組の注目度は、1回の放送の度に算出するので、今回のランクが次回に影響することはない。 Thus, by increasing the degree of attention of a new program or a program that is broadcast only once, it becomes possible to extract and provide topics from document information described by people who have watched the program. Since the attention level of the program is calculated for each broadcast, the current rank does not affect the next time.
次に、語句抽出部104の処理の流れについて図9を用いて説明する。
Next, the processing flow of the
図9は、本発明の一実施の形態における語句抽出部の処理のフローチャートである。 FIG. 9 is a flowchart of the processing of the phrase extraction unit in one embodiment of the present invention.
語句抽出部104による処理は、番組情報抽出部101の処理終了後実行される。即ち、番組情報抽出部101の処理が15分おきであれば、語句抽出部103の処理も15分おきに実行される。
The processing by the
定期的に番組注目度算出・蓄積部102の番組注目度テーブル510から注目度の高い番組ID512を上位N件取得し、番組別集計結果テーブル500から注目度の高い番組IDに該当する番組タイトル502、開始日時504、注目度算出日時506、周期503を取得する(ステップ401)。番組IDと開始日時、注目度算出日時、周期を1つ取り出し(ステップ402)、現在日時が、開始日時より新しく、注目度算出日時以前であるという条件を満たすかどうか調べる(ステップ403)。注目度算出日時は、開始日時に、周期に応じて設定した期間を加算した日時であり、番組が放送された後、人々の間で話題が一段落する日時である。そこで、ステップ403の条件を満たす場合(ステップ403、Yes)は、番組別文書情報蓄積部103から人々が記述した文書情報を取得し、話題を表す語句を抽出する。番組IDにより番組別文書情報蓄積部103の格納領域を特定し、開始日時から現在日時までの文書情報を時刻情報と対応付けて取得する(ステップ404)。
The top
取得した文書情報から、話題を表す語句を抽出し、番組タイトルと開始日時とを対応付けて語句蓄積部204へ出力する。
A phrase representing a topic is extracted from the acquired document information, and the program title and the start date / time are associated with each other and output to the
ステップ403の条件を満たさない場合(ステップ403、No)は、これから放送される番組であり、近い未来に放送される番組を選択するために期間Tを設定する(ステップ406)。期間Tは、周期的に放送される番組の場合に、(周期−注目度算出期間−注目度算出処理の間隔)より小さい値に設定する。注目度算出処理の間隔を、前述の番組注目度算出・処理の例で示した30分とすると、例えば、毎日放送される番組の場合は注目度算出期間=18時間であるため、
24−18−0.5=5.5
時間未満、毎週放送される番組の場合は、
168−72−0.5=95.5
時間未満の値を設定する。そして、番組の開始日時が現在日時より新しく、現在日時+期間Tより古い番組を選択し(ステップ407、Yes)、番組情報蓄積部203から番組タイトルと開始日時が一致する番組情報のサブタイトルまたは、概要文を取得する。サブタイトルは、番組内容を的確に表した語句であるため、サブタイトルの方が概要文よりも番組内容を伝えやすい。そこで、サブタイトルがある場合には、サブタイトルを取得し、サブタイトルがない場合には概要文を取得する(ステップ408)。
When the condition of
24-18-0.5 = 5.5
For programs that are broadcast less than an hour and weekly,
168-72-0.5 = 95.5
Set a value less than the time. Then, a program whose start date and time is newer than the current date and time and older than the current date and time + period T is selected (
取得した情報から語句を抽出し、番組タイトルと開始日時とを対応付けて語句蓄積部204へ出力する。期間Tは、注目度の高い番組の情報を、放送日時のどれくらい前から提供できるかに影響する。例えば、期間Tを3時間に設定した場合、今から3時間以内に開始される注目度の高い番組の情報を提供することができる。また、毎週放送される番組に対して期間Tを24時間と設定した場合、「明日のこの時間に、何か注目されている番組はないかな?」という利用者に対して注目度の高い番組を提供することが可能となる。
A phrase is extracted from the acquired information, and the program title is associated with the start date and time and output to the
ステップ401で取得したN件の番組すべてに対し処理を実施し、全ての番組が処理済みになると(ステップ410、Yes)、一連の処理を終了する。 Processing is performed for all the N programs acquired in step 401, and when all the programs have been processed (step 410, Yes), a series of processing ends.
次に、図10に、図6、図8、図9の各処理の起動タイミングの例を、番組ID“0000101”の番組「情報A」を例にとって説明する。 Next, FIG. 10 illustrates an example of the start timing of each process in FIGS. 6, 8, and 9, taking the program “information A” with the program ID “0000101” as an example.
番組ID“0000101”は、図4より開始日時504(a)が「2004年1月20日18:00:00」であり、周期503が“1”であるため毎日放送される番組である。開始日時504と周期503により、図7のステップ207において、既に注目度算出日時が算出されている(毎日放送されている番組の場合、注目度算出期間=18時間とすると、注目度算出日時506(a)は「2004年1月21日12:00:00」となる)。番組「情報A」が注目度の高い番組であるとすると、番組情報抽出部101の処理(図6)と語句抽出部104の処理(図9が、例えば15分おきに実行されており、話題を表す語句の出力が順次行なわれている。また、15分おきに図6のステップ106により、図4の集計データ507に集計値が蓄積されている。
The program ID “0000101” is a program that is broadcast every day because the start date and time 504 (a) is “January 20, 2004 18: 00: 00: 00” and the
注目度算出日時「2004年1月21日12:00:00」を過ぎて初めて、番組注目度算出・処理(図8)が実行されると、開始日時504(a)「2004年1月20日18:00:00」から注目度算出日時506(a)「2004年1月21日12:00:00」までの集計データ507が加算されて番組注目度テーブル510に記録される(ステップ302)。
When the program attention level calculation / processing (FIG. 8) is executed for the first time after the attention level calculation date “January 21, 2004 12:00: 00”, the start date 504 (a) “January 20, 2004 Date of interest calculation date and time 506 (a) “
また、番組タイトルに基づいて、番組情報蓄積部203を検索し、次回の番組情報(開始日時(b)「2004年1月21日18:00:00」、終了日時(b)「2004年1月21日18:27:00」)が取得できると、開始日時、終了日時を更新し、次回の注目度算出日時(b)を計算し、番組別集計結果テーブル500に記録する(ステップ305)。
Further, the program
前回の開始日時(a)「2004年1月20日18:00:00」から注目度算出日時(a)「2004年1月21日12:00:00」までは、語句抽出部104の処理ステップ403の条件に一致し、文書情報蓄積部103から語句を抽出する(ステップ404,405)。
From the previous start date / time (a) “January 20, 2004 18: 00: 00: 00” to the attention degree calculation date / time (a) “January 21, 2004 12: 00: 00: 00”, the processing of the phrase extraction unit 104 A phrase is extracted from the document
次回開始日時「2004年1月21日18:00:00」の期間T=3時間前になると、ステップ407の条件に一致し、番組情報蓄積部203から語句を抽出する(ステップ408,409)。
When the next start date and time “January 21, 2004, 18:00:00” period T = 3 hours ago, the condition of
このように周期的に放送される番組に対して、前回放送の注目度が高い番組については、放送前からこれから話題になるであろう語句を提供することが可能となる。 With respect to a program that is broadcast periodically in this way, a program that has a high level of attention in the previous broadcast can be provided with a word that will become a topic before the broadcast.
より具体的に、図4の番組注目度算出・蓄積部102の蓄積例を用いて、語句抽出部104の処理の流れを説明する。
More specifically, the processing flow of the
現在日時を「2004年01月20日19:15」とし、注目度の高い番組IDを「0000103」、「0000105」として、以下の説明を行なう。 The following explanation will be given on the assumption that the current date and time is “January 20, 2004 19:15”, and the program IDs with high attention are “0000103” and “0000105”.
まず、番組ID「0000103」と開始日時「2004年01月20日19:00:00」注目度算出日時「2004年01月23日19:00:00」を番組別集計結果テーブル500から取り出す(ステップ402)。番組ID501「0000103」がステップ403の条件(開始日時≦現在日時≦注目度算出日時)を満たすか調べ、条件を満たすため、番組別文書情報蓄積部103から文書情報を取得する(ステップ404)。文書情報から語句を抽出し、番組タイトル「アニメC」と開始日時「2004年01月20日 19:00:00」とを対応付けて語句蓄積部204に出力する(ステップ405)。
First, the program ID “0000103” and the start date and time “January 20, 2004, 19:00:00” and the attention degree calculation date and time “January 23, 2004, 19:00:00” are taken out from the program total result table 500 ( Step 402). Whether the
次に、番組ID「0000105」と、開始日時「2004年01月20日 21:00:00」を取り出す。ステップ403の条件を満たすか調べ、条件を満たさないため、ステップ406において期間Tを設定する。ここで期間Tは、毎日放送される番組の場合3時間、毎週放送される番組の場合24時間に予め設定されているものとする。番組ID501「0000105」は、周期503が「7」であり、毎週放送される番組であるから期間Tを24時間とし(ステップ406)、ステップ407の条件(現在日時<開始日時<現在日時+T)を満たすか調べる。ステップ407の条件を満たすため、番組情報蓄積部203から番組の概要文を取得する(ステップ408)。概要文から語句を抽出し、番組タイトル502「ドラマE」と開始時刻504「2004年01月20日 21:00:00」とを対応付けて語句蓄積部204に出力する(ステップ409)。
Next, the program ID “0000105” and the start date “January 20, 2004 21:00:00” are extracted. It is checked whether or not the condition of
次に、ステップ405における語句の抽出方法について、より詳細に説明する。 Next, the phrase extraction method in step 405 will be described in more detail.
ステップ405では、ステップ404で取得した文書情報集合のそれぞれの文書内容に対して、形態素解析処理を行い、個々の品詞や句読点などの形態素に分解する。分解した形態素から、名詞、複数の名詞が連続する複合名詞、「小泉政権の支持率」のような連続した語全体で名詞と同じ働きをする名詞句を抽出する。名詞、複合名詞、名詞句は、話題を表す言葉として動詞や形容詞などに比べ適しているためである。以下の説明では、名詞、複合名詞、名詞句を総称して語句と呼ぶ。全ての文書情報から語句を抽出した後、語句毎に出現する文書数を集計する。ここで、タイトルに含まれる語句は、集計の対象から外す。ステップ105において、番組タイトルの省略形や別名を利用した場合は、省略形や別名も集計の対象から外す。ステップ105において、番組タイトルの省略形や別名を利用した場合は、省略形や別名も集計の対象から外す。残った語句の中から、より多くの文書情報に出現していた語句M件を、話題を表す語句として抽出する。図5の語句蓄積部205では、番組タイトル「アニメC」に対応付けられて蓄積されている語句「○○シティ」、「さとしピンチ」、「ピカチューの必殺技」などがステップ405で抽出された語句の例である。
In step 405, morpheme analysis processing is performed on each document content of the document information set acquired in step 404, and the document contents are decomposed into morphemes such as individual parts of speech and punctuation marks. From the decomposed morphemes, nouns, compound nouns in which a plurality of nouns are continuous, and noun phrases that function in the same way as nouns are extracted for the entire consecutive words such as “Koizumi administration support rate”. This is because nouns, compound nouns, and noun phrases are more suitable than verbs and adjectives as words representing topics. In the following description, nouns, compound nouns, and noun phrases are collectively referred to as words. After extracting words from all document information, the number of documents appearing for each word is totaled. Here, the words included in the title are excluded from aggregation. If an abbreviation or alias name of the program title is used in
また、ステップ409における語句抽出方法では、ステップ405と異なり、1つの文書情報(サブタイトルや概要文)から語句を抽出する処理になるため、より多くの文書情報で使われている語句が話題を表す語句とする方法は適していない。そこで、次のような処理を行う。
Also, the phrase extraction method in
まず、ステップ405と同様に形態素解析処理を行い、名詞、複合名詞、名詞句(=語句)を抽出する。概要文は文の先頭に伝えたい重要な情報が記載される性質を持っているため、抽出した語句に対して先頭に出現するほど高い評価値Aを与える。また、文字数が多いほど正確な情報を伝えることができるため、文字数が多いほど高い評価値Bを与える。評価値AとBから最も評価値の高い語句を抽出する。図5では、番組タイトル901「ドラマE」に対応付けられて蓄積されている「△△と再会」が、ステップ409で抽出された語句の例である。
First, similarly to step 405, morphological analysis processing is performed to extract nouns, compound nouns, and noun phrases (= words). Since the summary sentence has the property that important information to be conveyed at the beginning of the sentence is described, a higher evaluation value A is given to the extracted word / phrase as it appears at the beginning. Moreover, since more accurate information can be conveyed as the number of characters increases, a higher evaluation value B is given as the number of characters increases. The word with the highest evaluation value is extracted from the evaluation values A and B. In FIG. 5, “ΔΔ and reunion” stored in association with the
また、本発明は、上記の図6、図7、図8、図9の動作をプログラムとして構築し、語句抽出装置として利用されるコンピュータにインストールして実行する、または、ネットワークを介して流通させることも可能である。 In the present invention, the operations shown in FIGS. 6, 7, 8, and 9 are constructed as a program and installed in a computer used as a phrase extracting device to be executed or distributed through a network. It is also possible.
また、構築されたプログラムを語句抽出装置として利用されるコンピュータに接続されるハードディスクや、フレキシブルディスク、CD−ROMに格納しておき、コンピュータにインストールして実行させることも可能である。 It is also possible to store the constructed program in a hard disk, a flexible disk, or a CD-ROM connected to a computer used as a phrase extraction device, and install and execute the program on the computer.
なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。 The present invention is not limited to the above-described embodiments and examples, and various modifications and applications can be made within the scope of the claims.
本発明は、テレビ番組やラジオ番組などの特定の時刻に開始される番組の注目度に応じて話題となる語句を利用する技術に適用可能である。 The present invention can be applied to a technique that uses a topical phrase according to the degree of attention of a program started at a specific time such as a television program or a radio program.
100 語句抽出装置
101 番組別文書抽出手段、番組情報抽出部
102 番組注目度算出・手段、番組注目度算出・蓄積部
103 番組別文書情報蓄積手段、番組別文書情報蓄積部
104 語句抽出手段、語句抽出部
201 検索語蓄積部
202 文書情報蓄積手段、文書情報蓄積部
203 番組表蓄積手段、番組情報蓄積部
204 語句蓄積手段、語句蓄積部
500 番組別集計結果テーブル
501 番組ID
502 番組タイトル
503 周期
504 開始日時
505 終了日時
506 注目度算出日時
507 集計データ
510 番組注目度テーブル
511 ランク
512 番組ID
513 注目度
901 番組タイトル
902 開始日時
903 語句
100
502
513
Claims (5)
時刻情報を持つ文書を格納する文書情報蓄積手段から読み出された時刻情報を持つ文書の集合から、番組タイトルを含む文書を検索して抽出し、番組別に番組別文書情報蓄積手段に格納する番組別文書抽出手段と、
抽出した文書から、番組の開始日時から番組の放送周期に応じた所定の注目度算出期間内の時刻情報を持つ文書を番組毎に集計し、集計した文書数を番組の注目度として番組注目度テーブルに格納する番組別注目度算出手段と、
前記番組注目度テーブルを参照し、前回の放送で注目度の高い番組を選択し、該番組の次回の放送に際し、該番組の放送前で放送開始時刻までの予め設定した時間内である場合には、番組表が格納された番組表蓄積手段から該番組のサブタイトルあるいは概要を取得し、形態素解析を行い、語句の出現位置や文字数に基づいて語句を抽出し、該番組の放送後で放送開始時刻から予め設定した時間内である場合には、前記番組別文書情報蓄積手段に格納されている文書を形態素解析し、語句毎に出現する文書数を求め、出現する文書数が多い語句を抽出する語句抽出手段と、
を有することを特徴とする語句抽出装置。 Extract words used to extract and provide topics related to events that start at a specific time, such as TV programs and radio programs, from document information published on the network and program schedules that record program schedules A device ,
A program that searches and extracts a document including a program title from a set of documents having time information read from a document information storage unit that stores documents having time information, and stores the program in a document information storage unit for each program. A separate document extraction means ;
From the extracted documents , documents having time information within a predetermined attention level calculation period corresponding to the broadcast period of the program from the program start date and time are totaled for each program, and the program attention level is set as the program attention level. Attention level calculation means for each program stored in the table;
When the program attention level table is referenced, a program with a high degree of attention is selected in the previous broadcast, and the next broadcast of the program is within a preset time before the broadcast of the program until the broadcast start time Acquires the subtitle or outline of the program from the program guide storage means storing the program guide, performs morphological analysis, extracts words and phrases based on the appearance position and number of characters of the phrases, and starts broadcasting after the program broadcasts If it is within the preset time from the time, the document stored in the program-specific document information storage means is subjected to morphological analysis, the number of documents appearing for each phrase is obtained, and the phrases having a large number of appearing documents are extracted. A word extraction means to
The phrase extraction apparatus characterized by having a.
前記注目度算出期間に検索要求された検索語から、検索語を入力した利用者を特定する情報を用いて、同一利用者が短い時間間隔で複数回同じキーワードを入力した場合には1回とカウントすることにより、番組に関連する検索語の利用人数を集計し、前記文書数の集計値との加算値を番組の注目度として番組注目度テーブルに格納する手段を含む請求項1記載の語句抽出装置。 The program attention level calculating means includes :
When the same user inputs the same keyword a plurality of times at short time intervals using the information specifying the user who has input the search word from the search words requested for the attention degree calculation period , once by counting, it counts the search terms occupancy of associated turn sets, according to claim 1 further comprising a means for storing the program of interest degree table the sum of the total value of the number of documents as a target of the program Phrase extraction device .
新しい番組について高い注目度を設定する請求項1または2記載の語句抽出装置。 The program attention level calculating means includes:
Claim 1 or phrase extraction apparatus 2 according to set a high degree of attention for the new program.
番組放送周期に応じて放送開始までの最大期間を予め設定しておき、
これから放送される番組の開始日時と現在日時から放送開始までの期間を求め、該放送開始までの期間が前記最大期間を超えない番組に対して、語句の抽出を行なう手段を含む請求項1記載の語句抽出装置。 The phrase extracting means is
The maximum period until the start of broadcasting is set in advance according to the program broadcasting cycle,
Seek time to broadcast begins at a start date and the current date and time of the program to be broadcast therefrom, with respect to program time to the broadcast start does not exceed the maximum period, according to claim 1 further comprising a means for phrase extraction phrase extraction device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004238605A JP4396444B2 (en) | 2004-08-18 | 2004-08-18 | Phrase extraction device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004238605A JP4396444B2 (en) | 2004-08-18 | 2004-08-18 | Phrase extraction device and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006059024A JP2006059024A (en) | 2006-03-02 |
JP4396444B2 true JP4396444B2 (en) | 2010-01-13 |
Family
ID=36106460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004238605A Expired - Fee Related JP4396444B2 (en) | 2004-08-18 | 2004-08-18 | Phrase extraction device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4396444B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4755122B2 (en) * | 2007-02-16 | 2011-08-24 | 日本電信電話株式会社 | Image dictionary generation method, apparatus, and program |
WO2010103916A1 (en) * | 2009-03-13 | 2010-09-16 | コニカミノルタホールディングス株式会社 | Device for presentation of characteristic words in document and program giving priority of characteristic words |
JP2013196141A (en) * | 2012-03-16 | 2013-09-30 | Ntt Docomo Inc | Terminal device, information display system and information display method |
-
2004
- 2004-08-18 JP JP2004238605A patent/JP4396444B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006059024A (en) | 2006-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9008489B2 (en) | Keyword-tagging of scenes of interest within video content | |
US20200192935A1 (en) | Segmentation Of Video According To Narrative Theme | |
EP2405369B1 (en) | Automatic segmentation of video | |
US10380626B2 (en) | System and method for evaluating search queries to identify titles for content production | |
WO2019085355A1 (en) | Public sentiment clustering analysis method for internet news, application server, and computer-readable storage medium | |
CA2635420C (en) | An automated media analysis and document management system | |
CN105653705B (en) | Hot event searching method and device | |
WO2006019101A1 (en) | Content-related information acquiring device, method and program | |
JP4227072B2 (en) | Recommended program providing method, recommended program providing apparatus and recommended program providing program | |
CN102265276A (en) | Context-based recommender system | |
JP6429382B2 (en) | Content recommendation device and program | |
JP2004178240A (en) | Content providing system, content providing method and content providing program | |
JP2007256992A (en) | Content specifying method and device | |
US8838616B2 (en) | Server device for creating list of general words to be excluded from search result | |
JP4496900B2 (en) | Event information extraction apparatus and program | |
JP2006318398A (en) | Vector generation method and device, information classifying method and device, and program, and computer readable storage medium with program stored therein | |
JP2003173352A (en) | Retrieval log analysis method and device, document information retrieval method and device, retrieval log analysis program, document information retrieval program and storage medium | |
JP4396444B2 (en) | Phrase extraction device and program | |
JP5415369B2 (en) | Program search device and program search program | |
JP2008236155A (en) | Information processing apparatus and method, and program | |
JP2005301432A (en) | Latest information providing method, system, and program | |
KR101220080B1 (en) | Method and system for providing reprsentation words of real-time popular keyword | |
JP2003173351A (en) | Method, device, program and storage medium for analysis, collection and retrieval of information | |
JP5727846B2 (en) | Series item group extraction system, series item group extraction method, and series item group extraction program | |
JP2009110291A (en) | Information providing server and information providing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060720 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090630 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090821 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090929 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091012 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121030 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121030 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131030 Year of fee payment: 4 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |