JP2009048482A - Information extraction apparatus, information extraction method, and information extraction program - Google Patents

Information extraction apparatus, information extraction method, and information extraction program Download PDF

Info

Publication number
JP2009048482A
JP2009048482A JP2007215098A JP2007215098A JP2009048482A JP 2009048482 A JP2009048482 A JP 2009048482A JP 2007215098 A JP2007215098 A JP 2007215098A JP 2007215098 A JP2007215098 A JP 2007215098A JP 2009048482 A JP2009048482 A JP 2009048482A
Authority
JP
Grant status
Application
Patent type
Prior art keywords
broadcast
program
information
expression candidate
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007215098A
Other languages
Japanese (ja)
Inventor
Takeshi Kobayakawa
健 小早川
Original Assignee
Nippon Hoso Kyokai <Nhk>
日本放送協会
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide an information extraction apparatus for highly accurately extracting objective information. <P>SOLUTION: The information extraction apparatus for extracting information of a broadcast reference portion which is a portion referring to a broadcasted program from reaction data including opinions, requests, impressions, etc. to the broadcasted program from viewers or the like includes: an expression candidate extraction means for extracting expressions based on the number of times of appearances or appearance probability of a word or a collocation which is the candidate of the broadcast reference portion in each broadcast program by identification information of each broadcast program which is previously added to the reaction data; and a broadcast reference portion extraction means for extracting a difference between a set of expression candidates of at least one other broadcast program and a set of expression candidates of a previously set broadcast program out of sets of expression candidates which are candidates of broadcast reference portions of each broadcast program obtained by the expression candidate extraction means and extracting the information of a reference portion to the previously set broadcast program. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、情報抽出装置、情報抽出方法、及び情報抽出プログラムに係り、特に、高精度に目的とする情報を抽出するための情報抽出装置、情報抽出方法、及び情報抽出プログラムに関する。 The present invention relates to an information extraction device, the information extraction method, and relates to information extraction program, in particular, the information extracting device for extracting information of interest with high accuracy, information extraction method, and an information extraction program.

従来、放送番組等を視聴した視聴者等が番組に対して寄せられる意見や要望等の視聴者の反響文から番組の評判分析が行われ、その結果に基づいて新たな番組等を制作して視聴者の現在の嗜好に適合した番組が提供される。 Traditionally, broadcast programs and the like viewers like you watched the reputation analysis from the echo statements of the viewer's program of opinions and requests, etc. Asked for a program is carried out, to produce new programs and the like on the basis of the results program that conforms to the current preferences of the viewer is provided.

ここで、従来の評判分析は、反響文から「肯定的な意見」、「否定的な意見」、「番組を見て考えたこと」、「知ったこと」、「番組への要望」、「質問」、「その他の意見」等の典型的なカテゴリに分類して分析を行う手法がある。 Here, traditional reputation analysis, "positive opinion" from the echo statement, "negative opinion", "it was thought watching a program", "know things", "demand for programs", " questions ", there is a method to perform the analysis is classified into typical categories such as" other opinion ". また、その場合には、予め感想や要望等の種類を表現するのに用いられる語句を設定した語群からなる辞書を用意しておき、感想や要望の対象となる語句と辞書との2つの構成により分類が行われていた。 Also, in that case, pre-impression or a phrase used to represent the type of requests, such as providing a dictionary of words group that has been set in advance, the comments and requests subject to phrase dictionary and two of the classified by the configuration has been carried out. なお、予め設定される辞書には、主に動詞や形容詞等の用言の表現が中心に集められ、それぞれに良い反響、悪い反響といった極性が割り振られたり、反響の良さが数値化されたりしている。 Note that the dictionary is set in advance, mainly collected in the central representation of predicates, such as verbs and adjectives, good echo respectively, or polarity is allocated such bad echo, the goodness of reverberation or be quantified ing.

また、従来では、反響文のテキストに含まれる意見情報には、例えば、感想や要望の対象やその部分、属性、及びそれに対する評価値という形で構造化できるものが多く、これらの関係を用いて、対象から属性に至る階層関係を同定することで、意見の収集や要約に役立たせる手法がある(例えば、非特許文献1参照。)。 Further, conventionally, in the opinion information included in the text of the echo statement, for example, subject or portion thereof thoughts and wishes, attributes, and a number that can be structured in the form of evaluation values ​​therefor, using these relationships Te, be to identify the hierarchical relationships that lead to the attribute from the target, there is a method to aid in the collection and summary views (e.g., see non-Patent Document 1.).

また、感想や要望の対象は、予めわかっている商品名や店名等の特定の語を登録するという方法が用いられてきた(例えば、非特許文献2参照。)。 Also, the subject of comments and requests, a method of registering a particular word, such as product names and store name known in advance have been used (for example, Non-Patent Document 2 see.). 非特許文献2に示される手法は、例えば、候補となる評価対象を、辞書を用いて同定し、次に評価値と対となる評価対象を抽出して、評価対象が店名でなければ、店名にたどりつくまで評価対象間の階層関係を同定するものである。 Technique shown in Non-Patent Document 2, for example, the evaluation as a candidate, were identified using a dictionary, it extracts the evaluation target which then becomes the evaluation value and the pair, if the evaluation object is not a store name, store name it is intended to identify the hierarchical relationship between the evaluation target to get to.

更に、感想や要望の対象が句や節等の埋め込み文になっているときには、事前に商品名等として登録することができず、そのために埋め込み文の検出手法(例えば、特許文献1、2参照。)等を用いる必要があった。 In addition, when the subject of comments and requests are made to the embedded statement of such clause or clauses it can not be pre-registered as a trade name, and the like, the detection method of statement embedded in order that (for example, see Patent Documents 1 and 2 .), and the like had to be used.
特開昭63−213065号公報 JP-A-63-213065 JP 特開平03−022171号公報 JP 03-022171 discloses

ところで、反響文から放送番組に対する評判を分析する場合は、感想や要望の対象が多種多様になり、対象の全てを辞書等に事前に登録することは困難であった。 By the way, if you want to analyze the reputation for the broadcast program from the echo statement, the object of the thoughts and desires is a wide variety, it has been difficult to register in advance all of the target in the dictionary or the like. 特に、放送番組が特定の商品を扱ったものではなく、より複雑なものを扱った放送である場合には、これらの放送言及部分は単語の範囲を超えて句や節になることがあり、その可能性を事前に網羅することは不可能であった。 In particular, not to broadcast programs dealing with specific product, in the case of broadcasting dealing with more complex, these broadcast mentioned parts may be beyond the scope of words become phrases or clauses, it has not been possible to cover the possibility in advance.

また、反響文の1つ1つを個別に分析するため、反響の多かった部分等の目的とする情報を効率よく、高精度に特定することができなかった。 Further, in order to analyze each one of the echo statements individually, the information of interest, such as frequent partial echoic efficiently can not be specified with high accuracy.

本発明は、上述した問題点に鑑みなされたものであり、高精度に目的とする情報を抽出するための情報抽出装置、情報抽出方法、及び情報抽出プログラムを提供することを目的とする。 The present invention has been made in view of the above problems, and an object thereof is to provide a highly accurate information extraction device for extracting information of interest, the information extraction method, and the information extraction program.

上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。 In order to solve the above problems, the present invention employs means for solving the problems has the following characteristics.

請求項1に記載された発明は、放送された番組に対する視聴者等からの意見や要望、感想等を含む反響データから、前記番組に対して言及された部分である放送言及部分の情報を抽出する情報抽出装置において、前記反響データに予め付加される放送番組毎の識別情報により、放送番組毎の前記放送言及部分となる候補である単語又は連語の出現回数又は出現確率に基づく表現を抽出する表現候補抽出手段と、前記表現候補抽出手段により得られる放送番組毎の放送言及部分の候補となる前記表現候補の集合のうち、予め設定された放送番組の表現候補の集合から、少なくとも1つの他の放送番組の表現候補の集合との差分を抽出し、前記予め設定された放送番組に対する言及部分の情報を抽出する放送言及部分抽出手段とを有する、ことを The invention described in claim 1, extracted opinions and requests from the viewer or the like for broadcasted program, the echo data including comments like, the information of the broadcast mentioned parts are mentioned portion to said program an information extraction device which, by the identification information for each broadcast program in advance added to the echo data, extracts the representation based on the appearance frequency or probability of occurrence of a word or phrase is a candidate to be the broadcast mentioned portion of each broadcast program and expression candidate extraction means, among the set of expression candidate that are candidates for broadcast mentioned portion of each broadcast program obtained by the expression candidate extraction means, from a set of expression candidate preset broadcast program, at least one other of extracting the difference between the set of expression candidate broadcasting program, and a broadcast mentioned portion extracting means for extracting the information mentioned portions against preset broadcast program, that 徴とする。 And butterflies.

請求項1記載の発明によれば、高精度に目的とする情報を抽出することができる。 According to the first aspect of the invention, it is possible to extract the information of interest with high accuracy. これにより、例えば、ある放送番組において反響の多かった部分等を効率よく、高精度に特定することができる。 Thus, for example, and the like frequent partial echoic in broadcast programs with efficiency, can be identified with high accuracy.

請求項2に記載された発明は、前記表現候補抽出手段は、前記反響データに含まれる単語に対してn−gramを用いて出現確率を求め、前記出現確率に基づいて前記単語の前後が連続することが必然か否かの検定を行い、必然か否かの検定を表す量である検定量が予め設定された有意水準を超えていれば、前記表現候補として前記反響データに含まれる単語又は連語を抽出する、ことを特徴とする。 The invention described in claim 2, wherein the expression candidate extraction means obtains the occurrence probability with n-gram for the word contained in the echo data, continuous before and after the word based on the occurrence probability it performs test whether inevitable that, if beyond the significance level amount inspection is set in advance is an amount representing the inevitable whether the assay, the words included in the echo data as the expression candidate or extracting the complex word, characterized in that.

請求項2記載の発明によれば、n単語の連鎖について、n−gramという形態で出現確率を計算することで、全てのn−gramについて個別にその連鎖する出現が偶然によるものなのか、それとも偶然よりも強い確率で出現したものなのかを検定し、単語の連鎖が必然と判断されたn−gramを放送言及部分と感想や要望、感想等の種類を表す表現候補として抽出することができる。 According to the second aspect of the present invention, the n words of the chain, to calculate the occurrence probabilities in the form of n-gram, seemingly appearance to the chain separately for every n-gram by chance, or to test whether something that appeared in the strong probability than by chance, the words of the chain is broadcast mentioned part and the thoughts and desires of the n-gram it is determined that the inevitable, can be extracted as a representation candidate representing the kind of impressions, etc. .

請求項3に記載された発明は、前記表現候補抽出手段は、抽出された表現候補の出現回数を生成し、前記検定量と共に慣用表現データベースとして蓄積し、前記放送言及部分抽出手段は、前記慣用表現データベースに登録された複数の放送番組の表現候補の集合から、予め設定された放送番組に対する前記放送言及部分を抽出する、ことを特徴とする。 Been present invention, the expression candidate extraction unit according to claim 3, generates a number of occurrences of the extracted expression candidate, accumulated as common representation database with the test weight, the broadcast mentioned portion extraction means, the conventional from the set of expression candidate of the plurality of broadcast programs registered in the representation database, it extracts the broadcast mentioned portions against preset broadcast program, characterized in that.

請求項3記載の発明によれば、多量の反響文から統計的な特徴を用いて放送言及部分を特定することができる。 According to the third aspect of the present invention, it is possible to specify the broadcast mentioned moieties using statistical features from a large amount of echo statement.

請求項4に記載された発明は、放送された番組を視聴した視聴者からの反響文章から放送番組を特定し、対応する識別情報を付加した反響データを生成し、放送反響データベースとして登録する放送反響データ生成手段を有する、ことを特徴とする。 The invention described in claim 4, identifying the broadcast program from the echo sentence from viewers who view broadcasted program, to generate the echo data by adding the corresponding identification information is registered as broadcasting echo database broadcast having echo data generating means, characterized in that.

請求項4記載の発明によれば、予め識別情報を含む放送反響データをデータベースに蓄積しておくことにより、効率的に放送番組毎の反響データを抽出することができる。 According to the fourth aspect of the present invention, by previously storing the broadcast echo data including advance identification information in the database, it is possible to extract the echo data for each efficiently broadcast programs.

請求項5に記載された発明は、放送された番組に対する視聴者等からの意見や要望、感想等を含む反響データから、前記番組に対して言及された部分である放送言及部分の情報を抽出する情報抽出方法において、前記反響データに予め付加される放送番組毎の識別情報により、放送番組毎の前記放送言及部分となる候補である単語又は連語の出現回数又は出現確率に基づく表現を抽出する表現候補抽出ステップと、前記表現候補抽出ステップにより得られる放送番組毎の放送言及部分の候補となる前記表現候補の集合のうち、予め設定された放送番組の表現候補の集合から、少なくとも1つの他の放送番組の表現候補の集合との差分を抽出し、前記予め設定された放送番組に対する言及部分の情報を抽出する放送言及部分抽出ステップとを有 The invention described in claim 5, extracted opinions and requests from the viewer or the like for broadcasted program, the echo data including comments like, the information of the broadcast mentioned parts are mentioned portion to said program an information extraction method for, by the identification information for each broadcast program in advance added to the echo data, extracts the representation based on the appearance frequency or probability of occurrence of a word or phrase is a candidate to be the broadcast mentioned portion of each broadcast program and expression candidate extraction step, out of the set of expression candidate that are candidates for broadcast mentioned portion of each broadcast program obtained by the expression candidate extraction step, from the set of expression candidate preset broadcast program, at least one other to extract a difference between the set of expression candidate broadcast programs, have a broadcast mentioned portion extraction step of extracting the information of the mentioned parts relative to a preset broadcast program る、ことを特徴とする。 That, characterized in that.

請求項5記載の発明によれば、高精度に目的とする情報を抽出することができる。 According to the invention described in claim 5, it is possible to extract the information of interest with high accuracy. これにより、例えば、ある放送番組において反響の多かった部分等を効率よく、高精度に特定することができる。 Thus, for example, and the like frequent partial echoic in broadcast programs with efficiency, can be identified with high accuracy.

請求項6に記載された発明は、前記表現候補抽出ステップは、前記反響データに含まれる単語に対してn−gramを用いて出現確率を求め、前記出現確率に基づいて前記単語の前後が連続することが必然か否かの検定を行い、必然か否かの検定を表す量である検定量が予め設定された有意水準を超えていれば、前記表現候補として前記反響データに含まれる単語又は連語を抽出する、ことを特徴とする。 The invention described in claim 6, wherein the expression candidate extraction step obtains the occurrence probability with n-gram for the word contained in the echo data, continuous before and after the word based on the occurrence probability it performs test whether inevitable that, if beyond the significance level amount inspection is set in advance is an amount representing the inevitable whether the assay, the words included in the echo data as the expression candidate or extracting the complex word, characterized in that.

請求項6記載の発明によれば、n単語の連鎖について、n−gramという形態で出現確率を計算することで、全てのn−gramについて個別にその連鎖する出現が偶然によるものなのか、それとも偶然よりも強い確率で出現したものなのかを検定し、単語の連鎖が必然と判断されたn−gramを放送言及部分と感想や要望、感想等の種類を表す表現候補として抽出することができる。 According to the sixth aspect of the present invention, the n words of the chain, to calculate the occurrence probabilities in the form of n-gram, seemingly appearance to the chain separately for every n-gram by chance, or to test whether something that appeared in the strong probability than by chance, the words of the chain is broadcast mentioned part and the thoughts and desires of the n-gram it is determined that the inevitable, can be extracted as a representation candidate representing the kind of impressions, etc. .

請求項7に記載された発明は、前記表現候補抽出ステップは、抽出された表現候補の出現回数を生成し、前記検定量と共に慣用表現データベースとして蓄積し、前記放送言及部分抽出ステップは、前記慣用表現データベースに登録された複数の放送番組の表現候補の集合から、予め設定された放送番組に対する前記放送言及部分を抽出する、ことを特徴とする。 Invention, the expression candidate extraction step according to claim 7, generates a number of occurrences of the extracted expression candidate, accumulated as common representation database with the test weight, the broadcast mentioned portion extraction step, the customary from the set of expression candidate of the plurality of broadcast programs registered in the representation database, it extracts the broadcast mentioned portions against preset broadcast program, characterized in that.

請求項7記載の発明によれば、多量の反響文から統計的な特徴を用いて放送言及部分を特定することができる。 According to the invention described in claim 7, it is possible to identify the broadcast mentioned moieties using statistical features from a large amount of echo statement.

請求項8に記載された発明は、放送された番組を視聴した視聴者からの反響文章から放送番組を特定し、対応する識別情報を付加した反響データを生成し、放送反響データベースとして登録する放送反響データ生成ステップを有する、ことを特徴とする。 The invention described in claim 8, identifies the broadcast program from the echo sentence from viewers who view broadcasted program, to generate the echo data by adding the corresponding identification information is registered as broadcasting echo database broadcast having echo data generating step, characterized in that.

請求項8記載の発明によれば、予め識別情報を含む放送反響データをデータベースに蓄積しておくことにより、効率的に放送番組毎の反響データを抽出することができる。 According to the invention of claim 8, wherein, by previously storing the broadcast echo data including advance identification information in the database, it is possible to extract the echo data for each efficiently broadcast programs.

請求項9に記載された発明は、放送された番組に対する視聴者等からの意見や要望、感想等を含む反響データから、前記番組に対して言及された部分である放送言及部分の情報を抽出する情報抽出プログラムにおいて、コンピュータを、前記反響データに予め付加される放送番組毎の識別情報により、放送番組毎の前記放送言及部分となる候補である単語又は連語の出現回数又は出現確率に基づく表現を抽出する表現候補抽出手段、及び、前記表現候補抽出手段により得られる放送番組毎の放送言及部分の候補となる前記表現候補の集合のうち、予め設定された放送番組の表現候補の集合から、少なくとも1つの他の放送番組の表現候補の集合との差分を抽出し、前記予め設定された放送番組に対する言及部分の情報を抽出する放送言及部分 The invention described in claim 9, extracted opinions and requests from the viewer or the like for broadcasted program, the echo data including comments like, the information of the broadcast mentioned parts are mentioned portion to said program in the information extraction program, a computer, by the identification information for each broadcast program in advance added to the echo data, based on the appearance frequency or probability of occurrence of a word or phrase is a candidate to be the broadcast mentioned portion of each broadcast program representation the expression candidate extraction means for extracting, and, among the set of expression candidate that are candidates for broadcast mentioned portion of each broadcast program obtained by the expression candidate extraction means, from a set of expression candidate preset broadcast program, broadcasting mentioned portion for extracting information references portion of the at least one extracting a difference between a set of expression candidate other broadcast programs, the preset broadcast program 出手段として機能させる。 To function as a detection means.

請求項9記載の発明によれば、高精度に目的とする情報を抽出することができる。 According to the invention of claim 9, it is possible to extract the information of interest with high accuracy. これにより、例えば、ある放送番組において反響の多かった部分等を効率よく、高精度に特定することができる。 Thus, for example, and the like frequent partial echoic in broadcast programs with efficiency, can be identified with high accuracy. また、実行プログラムをコンピュータにインストールすることにより、容易に目的とする情報の抽出を実現することができる。 Furthermore, installing the execution program to a computer, it can be realized easily extract information of interest.

本発明によれば、高精度に目的とする情報を抽出することができる。 According to the present invention, it is possible to extract the information of interest with high accuracy. これにより、例えば、ある放送番組において反響の多かった部分等を効率よく、高精度に特定することができる。 Thus, for example, and the like frequent partial echoic in broadcast programs with efficiency, can be identified with high accuracy.

<本発明の概要> <Overview of the present invention>
本発明は、反響文の1つ1つを個別に分析するのではなく、多量の反響文から統計的な特徴を用いて放送言及部分を特定する方法を用いる。 The present invention does not separately analyze one one first echo statement, a method for identifying a broadcast mentioned moieties using statistical features from a large amount of echo statement. 具体的には、まず、個々の反響文を形態素解析等によって単語に分かち書きし、それらの単語を集計して単語毎に出現確率を算定する。 Specifically, first, word-separated words individual echo statement by the morphological analysis or the like, to calculate the probability for each word by aggregating those words. このとき、n単語の連鎖についてもn−gramという形態で出現確率を計算する。 At this time, also calculates the occurrence probabilities in the form of n-gram for n word chain. ここで、全てのn−gramについて個別にその連鎖する出現が偶然によるものなのか、それとも偶然よりも強い確率で出現したものなのかを検定する。 Here, the appearance of the chain separately for all of the n-gram seemingly due to chance, or to test whether something that appeared in the strong probability than by chance. この検定で単語の連鎖が必然と判断されたn−gramは、放送言及部分と感想や要望、感想等の種類を表す表現として列挙される。 The n-gram word chain is determined necessarily in assay, broadcasting refers portion and comments and requests are listed as an expression indicating the type of feedback or the like.

一方で、別の放送回についても同様の処理を行うと、別の放送回に対する放送言及部分と感想や要望、感想等の種類を表す表現が列挙される。 On the other hand, when the same processing for another episode, the broadcast mentioned portion and comments and requests for another episode, the representation of the type of feedback such as are enumerated. これら2つの列挙された集合の差分を抽出することにより、着目した放送回における放送言及部分を特定することができる。 By extracting these two enumerated difference of the set, it is possible to identify a broadcast mentioned portion in episode focusing.

以下に、上述したような特徴を有する本発明における情報抽出装置、情報抽出方法、及び情報抽出プログラムを好適に実施した形態について、図面を用いて詳細に説明する。 Hereinafter, the information extracting device of the present invention having the features described above, the information extraction method, and suitably implement the embodiment of the information extraction program will be described in detail with reference to the drawings. なお、以下に示す実施形態では、抽出される情報の一例として、放送番組を視聴した視聴者からの反響データを入力し、その反響データから着目した放送番組における放送言及部分を抽出するものとする。 In the embodiments described below, as an example of the information extracted, enter the echo data from viewers who watched a broadcast program, and extracts a broadcast mentioned portion of the broadcast program that focuses from the echo data .

<装置構成> <Device Configuration>
図1は、本実施形態における情報抽出装置の一構成例を示す図である。 Figure 1 is a diagram showing one configuration example of an information extracting device of the present embodiment. 図1に示す情報抽出装置10は、入力手段11と、出力手段12と、蓄積手段13と、放送反響データ生成手段14と、表現候補抽出手段15と、放送言及部分抽出手段16と、送受信手段17と、制御手段18とを有するよう構成されている。 Information extraction apparatus 10 shown in FIG. 1 includes an input unit 11, an output unit 12, a storage unit 13, a broadcast echo data generation means 14, the expression candidate extraction unit 15, a broadcast mentioned portion extracting means 16, transmitting and receiving means 17, is configured to have a control unit 18.

入力手段11は、使用者等からの放送反響データの生成指示や、表現候補の抽出指示、放送言及部分の抽出指示等の各処理の入力を受け付ける。 Input means 11 accepts generation instruction and broadcast echo data from a user or the like, extraction instruction of expression candidate, the input of each processing of the extracted instruction or the like of the broadcast mentioned parts. なお、入力手段11は、例えばキーボードや、マウス等のポインティングデバイス、マイク等の音声入力デバイス等からなる。 The input unit 11 is, for example, a keyboard, a pointing device such as a mouse, consisting of a voice input device such as a microphone.

出力手段12は、入力手段11により入力された各指示内容や、各指示内容に基づいて生成された放送反響データ、表現候補、放送言及部分等の内容を表示したり、音声を出力する。 The output means 12, and the instruction contents input by the input unit 11, the broadcast echo data generated based on the instruction content, expression candidate, and view the contents, such as broadcasting mentioned portion, and outputs the sound. なお、出力手段12は、ディスプレイやスピーカ等からなる。 The output unit 12 comprises a display, a speaker, or the like.

蓄積手段13は、放送反響データ生成手段14にて生成された放送反響データを含む放送反響データベース21と、表現候補抽出部15にて抽出された表現候補を含む慣用表現データベース22等を蓄積する。 Storage means 13, a broadcast echo database 21 including the broadcast echo data generated by the broadcast echo data generation unit 14 stores the common representation database 22 or the like containing a representation candidates extracted by expression candidate extraction unit 15. また、蓄積手段13は、放送反響データ生成手段14において、視聴者からの反響文等の入力情報から放送番組を特定し、特定した放送番組に対応する番組ID等の識別情報を付加するために番組情報(番組名(タイトル)、放送回等)とIDとが対となった番組一覧テーブル等を蓄積する。 The storage unit 13, the broadcast echo data generation unit 14, to add identification information such as program ID identifying the broadcast program from input information such as the echo statement from viewers, corresponding to the specified broadcast program program information (program name (title), broadcasting times, etc.) and the ID is to accumulate the program list table or the like which became a pair.

なお、蓄積手段13は、上述した各種データを通信ネットワーク等に接続された外部装置等から取得することもできる。 Incidentally, the storage unit 13 can also be obtained from an external device or the like connected to various data described above to the communication network or the like. また、蓄積手段13は、例えば、文字情報や、その他の情報の集合物であり、それらの情報を検索することができるように体系的に構成されている。 The storage unit 13 is, for example, text information, a collection of other information, it is systematically arranged to be able to search for the information.

放送反響データ生成手段14は、視聴者等から電子メールやWebブラウザ画面等を用いて入力された放送番組に対する意見、要望、感想等の反響文から放送反響データを生成する。 Broadcast echo data generation means 14, opinion on the broadcast program that has been input by using the e-mail and Web browser screen or the like from the audience, etc., the desire, to produce a broadcast echo data from the echo statements of impressions, and the like. 具体的には、放送反響データ生成手段14は、視聴者が入力した反響データに対して放送番組を識別するための識別情報等を付加して放送反響データを生成し、生成した放送反響データを放送反響データベース21として蓄積手段13に蓄積させる。 Specifically, the broadcast echo data generation unit 14 generates a broadcast echo data by adding the identification information for identifying a broadcast program against echo data viewer input, the generated broadcast echo data It is accumulated in the accumulating unit 13 as a broadcast echo database 21. したがって、放送反響データベース21は、例えば、反響の対象となる放送番組のIDと反響の内容等とからなるレコードから構成される。 Therefore, the broadcast echo database 21, for example, a record consisting of the ID of the broadcast program to be echoed to the contents, etc. of the echo. なお、放送反響データ生成手段14における放送反響データの生成例の詳細については後述する。 Will be described later in detail an example of generating the broadcast echo data in the broadcast echo data generating unit 14.

表現候補抽出手段15は、放送反響データベース21に蓄積されている放送番組毎の放送反響データ全体を抽出し、抽出された放送反響データを放送番組毎に入力して、放送言及部分となる表現候補の集合を抽出する。 Expression candidate extraction unit 15 extracts the entire broadcast echo data for each broadcast program stored in the broadcast echo database 21, by entering the extracted broadcast echo data to each broadcast program, expression candidate to be broadcast mentioned part to extract a set of. また、表現候補抽出手段15は、着目していない他の放送番組に対する放送反響データに対しても放送言及部分となる表現候補の集合を抽出する。 Furthermore, expression candidate extraction unit 15 extracts a set of expression candidate to be broadcast mentioned portions against broadcast echo data for other broadcast programs that are not focused.

また、表現候補抽出手段15は、抽出した放送番組毎の表現候補の集合について、表現候補の単語や連語(句、節等)に対して出現回数の統計値や後述する検定量tを生成し、慣用表現データベース22として蓄積手段13に登録させる。 Furthermore, expression candidate extraction unit 15, for a set of the extracted expression candidate for each broadcast program has to generate a test statistic t to statistics or below the number of occurrences for the word or phrase of expression candidate (clause clause etc.) , it is registered in the storage unit 13 as a common representation database 22.

なお、表現候補抽出手段15における表現候補の抽出例の詳細については後述する。 Will be described in detail later example of extraction of a representation candidates in expression candidate extraction unit 15.

放送言及部分抽出手段16は、慣用表現データベース22に登録された放送番組毎の表現候補の集合のうち、着目したある放送番組における表現候補の集合から、他の少なくとも1つの放送番組の表現候補の集合との差分を抽出する。 Broadcasting mentioned portion extraction unit 16, among the set of expression candidate for each broadcast program registered in the common representation database 22, the set of expression candidate at a broadcast program that focuses, the expression candidate of at least one other broadcast program to extract the difference between the set. したがって、放送言及部分抽出手段16により出力された差分が、着目した放送に対する放送言及部分の集合となる。 Therefore, the difference output by the broadcast mentioned portion extracting means 16, a set of broadcasting mentioned portion to the broadcast focused.

また、放送言及部分抽出手段16は、例えば、抽出された着目した放送番組における放送言及部分と、着目した放送番組におけるセリフ等の情報を形態素解析した単語や句、節等とを照合することで、ある番組に対する反響部分の番組中のどこにあったのかを明確に把握することができる。 The broadcast mentioned portion extracting means 16, for example, a broadcasting mentioned portion of the extracted broadcast program that focuses the word or phrase to the morphological analysis information words and the like in a broadcast program that focuses and collates the section like , it is possible to clearly understand whether there was anywhere in the echo part of the program for a program. これにより、反響の内容を高精度に取得することができ、その結果を反映して使用者の嗜好情報等に適した高精度な番組を制作して提供することができる。 Thus, it is possible to obtain the contents of the echo highly accurately, it can be provided by producing a highly accurate program suited to the preference information of the user to reflect the results.

なお、放送言及部分抽出手段16における言及部分抽出例の詳細については後述する。 Will be described later in detail referring part extracting example in broadcasting mentioned portion extracting means 16.

送受信手段17は、通信ネットワーク等を介してデータの送受信可能な外部装置から放送反響データ、放送反響データベース21、慣用表現データベース22等を取得したり、表現候補、放送言及部分等の各種データを送信するための通信インタフェイスである。 Transmitting and receiving means 17, transmitting broadcast echo data via a communication network such as from the transmitting and receiving an external device capable of data, broadcast echo database 21, or obtain a common representation database 22 and the like, expression candidate, various data such as broadcast mentioned part a communication interface for.

制御手段18は、情報抽出装置10における各機能構成全体の制御を行う。 Control means 18 controls the entire functional components of the information extractor 10. 具体的には、制御手段18は、入力手段11により入力されたユーザからの入力情報に基づいて放送反響データを生成したり、表現候補や放送言及部分を抽出したり、各構成部により得られる各種データを送受信手段17により送受信させたり、各種データを受信する等の制御を行う。 Specifically, the control means 18, and generate a broadcast echo data based on input information from the user input by the input means 11, and extracting the expression candidate and broadcasting mentioned portion, obtained by the respective components or to transmit and receive various data by the transmitting and receiving unit 17 performs control such receiving various data.

<放送反響データ生成手段14における放送反響データの生成例> <Generation Example of broadcast echo data in the broadcast echo data generating unit 14>
次に、放送反響データ生成手段14における放送反響データの生成例について説明する。 It will now be described an example of generating the broadcast echo data in the broadcast echo data generating unit 14. 本実施形態における放送反響データは、例えば、視聴者等からの電子メールや、インターネット等におけるWebブラウザ画面等から視聴者により投稿された番組アンケート等に含まれる反響文から放送反響データを生成する。 Broadcast echo data in the present embodiment, for example, and e-mail from viewers, etc., to produce a broadcast echo data from the echo statements that are included in the program questionnaire or the like which is posted by the viewer from the Web browser screen or the like on the Internet and the like.

ここで、図2は、反響文を取得する一例を示す図である。 Here, FIG. 2 is a diagram showing an example of acquiring the echo statement. 例えば、電子メールにより反響文を取得する場合には、図2(a)に示すように、予め設定された宛先31や件名32、本文33等に記載されている内容から番組名に相当する部分(語句)を抽出する。 For example, the portion in the case of obtaining the echo statements by e-mail, as shown in FIG. 2 (a), corresponding destination 31 or subject 32 is set in advance, from what is described in the text 33, etc. to the program name to extract the (phrase). これは、例えば、予め番組情報(番組名、放送回等)と、番組情報に対応するIDとからなる番組一覧テーブル等を用意しておき、反響文と照合することで、どの番組に対する反響文であるかを取得することができる。 This is, for example, pre-program information (program name, broadcasting times, etc.) and prepares the program list table or the like, which consists of an ID corresponding to the program information, by matching the echo statement, echoing statements on which program it can be obtained if it is. なお、例えば、電子メールの宛て先31のアドレスを番組毎に個別に設定しておくことにより、番組を容易に識別することができる。 Incidentally, for example, by setting individually for each program the address of the destination 31 of the e-mail, it is possible to easily identify the program.

また、番組が識別されると、それぞれの番組毎に予め設定された番組ID等の識別情報を本文33に付加して放送反響データとして放送反響データベース21に蓄積する。 Further, when the program is identified, storing the broadcast echo database 21 as a broadcast echo data identification information such as a preset program ID for each program in addition to body 33.

また、視聴者がインターネット等を介してWebブラウザ画面から反響文を投稿するような場合には、図2(b)に示すように、番組名を選択する選択ボックス34に予め番組名の一覧が表示され、その表示結果から投稿する番組名を選択することができ、その選択された番組名に対応する番組ID等の識別情報を、投稿入力領域35に入力された反響文に付加して放送反響データベース21に蓄積する。 In addition, if the audience is like to post the echo statement from the Web browser screen via the Internet or the like, as shown in FIG. 2 (b), is in advance a list of program names in the selection box 34 to select a program name appears, it is possible to select a program name to be posted by the display results, the identification information such as a program ID corresponding to the selected program name, is added to the echo statements entered Reviewed input region 35 broadcasts accumulating reflections database 21.

また、例えば、図2(b)に示すように、Webブラウザ画面によりデータを入力させる場合には、性別や年代(年齢)等を選択させる領域を設けておき、視聴者に選択させるようにしてもよい。 Further, for example, as shown in FIG. 2 (b), in the case where the input data by the Web browser screen, may be provided a region for selecting the gender and age (age), etc., so as to be selected by the viewer it may be. これを放送反響データベース21に登録することで、放送言及部分を性別や年代別に取得することができ、より詳細に番組の反響に対する分析を行うことができる。 By registering this in the broadcast echo database 21, a broadcast mentioned portions can be obtained by gender and age, can be analyzed for the program of the reverberant greater detail.

なお、上述した手法により放送反響データベース21に放送反響データを登録する以外にもFAXや電話等で送られてきた反響をオペレータ等により手入力により入力して反響データを生成したり、電話により得られる音声データから既存の音声認識処理等を行うことで反響データを取得し、その取得した結果から上述したように番組名に相当する部分を抽出し、抽出した番組名のIDを付加して放送反響データとして放送反響データベース21に登録することもできる。 Incidentally, or generate echo data reverberation also sent by FAX or telephone, etc. In addition to registering the broadcast echo data to the broadcast echoing database 21 by the method described above by entering a manual input by an operator or the like, obtained by telephone acquires echo data in the audio data to perform the existing voice recognition processing and the like to be broadcast by extracting a portion corresponding to the program name as described above from the obtained results, adds the ID of the extracted program name It can also be registered in the broadcast echo database 21 as echo data. また、放送反響データベース21には、上述した番組識別情報の他にレコード毎を識別するシーケンシャル番号等も付加して登録することができる。 Further, the broadcast echo database 21 may be registered by adding also identifies a sequential number or the like every record in addition to the program identification information described above.

なお、放送反響データ生成手段14は、上述したように反響文に放送番組毎の識別情報を付加して生成した放送反響データを放送反響データベース21に登録するだけでなく、例えば、反響文に対して既存の言語解析処理等を行うことで、意見の分類、用言、体言、用言・体言以外の語/不完全な形の用言、意見の種類(肯定的な意見/否定的な意見/考えたこと/知ったこと/要望/質問/その他の意見/意見でないもの等)、意見の対象等の情報を放送反響データベース21に登録してもよい。 Incidentally, broadcast echo data generating means 14 not only registers the broadcast echo data generated by adding identification information for each broadcast program reflections statement as described above the broadcast echo database 21, for example, to echo statement Te by performing an existing language analysis processing, and the like, classification of opinion, verb, substantive, verb-substantive other than the word / incomplete form of the verb, the type of opinion (positive opinion / negative opinion / thought was that / knew it / demand / questions / other opinion / is not an opinion, etc.), it may be registered in the information of the target or the like of the opinion to broadcast echo database 21.

ここで、図3は、番組反響データベースの一例を示す図である。 Here, FIG. 3 is a diagram showing an example of the program echo database. なお、図3に示す例では、ある番組ID(図3では、A01)に対する反響文に対して言語解析処理等により得られる所定の項目に分類分けされている。 In the example shown in FIG. 3, are classified (in FIG. 3, A01) is the program ID to the predetermined item obtained by the language analysis processing on the echo statement for.

図3に示す番組反響データベースの項目としては、例えば、「番組ID」、「シーケンシャル番号」、「意見の内容」、「意見の分類」、「用言」、「体言」、「用言・体言以外の語/不完全な形の用言」、「意見の種類(肯定的な意見/否定的な意見/考えた事/知った事/要望/質問/その他の意見/意見でないもの等)」、「意見の対象」等がある。 As items of the program echo database shown in Figure 3, for example, "program ID", "sequential number", "the contents of the opinion", "Classification of opinion", "verb", "nominal", "verb-nominal predicate "of the word / incomplete forms other than," the type of opinion (positive opinion / negative opinion / thought was that / knew it / demand / questions / other opinion / is not an opinion, etc.). " , and the like "subject of opinion". なお、本発明においては、この項目に限定されず、例えば、性別や年代等の項目を入力することもできる。 In the present invention, not limited to this field, for example, it may be input fields, such as gender and age.

<表現候補抽出手段15における表現候補の抽出例> <Extraction Example representation candidates in expression candidate extraction unit 15>
次に、表現候補抽出手段15における表現候補の抽出例について説明する。 Next, a description will be given example of extracting representation candidates in expression candidate extraction unit 15. 表現候補抽出手段15は、上述したように、放送反響データベース21に蓄積されている放送番組毎の反響全体を抽出し、抽出された放送反響データを放送番組毎に入力して、それぞれ放送言及部分の表現候補の集合を取得する。 Expression candidate extraction unit 15, as described above, the broadcast echo and the whole was extracted echo for each broadcast program stored in the database 21, by entering the extracted broadcast echo data to each broadcast program, broadcast mentioned parts respectively to get the set of representation candidate.

なお、本実施形態では、n単語の連鎖についてもn−gramという形態で出現確率を計算し、全てのn−gramについて個別にその連鎖する出現が偶然によるものなのか、それとも偶然よりも強い確率で出現したものなのかを検定する。 In the present embodiment, also computes the probability in the form of n-gram for n word chain, strong or appearance to the chain separately for every n-gram a thing due to chance, or than chance probability in to test whether the appearance was something of. また、この検定で単語の連鎖が必然と判断されたn−gramは、放送言及部分と感想や要望、感想等の種類を表す表現として出力する。 Further, the word of the chain in this assay is n-gram it is determined necessarily outputs a representation of the broadcast mentioned portion and comments and requests, kind thoughts like.

ここで、表現候補抽出のアルゴリズムとして、例えば、予め設定されたn−gramに対して、以下に示す式(1)により検定量tを計算し、単語が連続することが必然か否かの検定で有意水準を超えていれば、表現候補として保持する。 Here, as an algorithm for expression candidate extraction, for example, with respect to a preset n-gram, and calculates a test statistic t by formula (1) shown below, the word continuous is whether naturally-test in if it exceeds the level of significance, to hold as expression candidate.

なお、上述した式(1)において、Nは単語総数を示し、wは単語を示し、p (w …w )は、n−gramの出現確率を示し、p(w)は、単語wの出現頻度を示している。 In the equation (1) above, N is the indicated word total number, w is indicated words, p n (w 1 ... w n) represents the probability of occurrence of n-gram, p (w), the word It shows the frequency of occurrence of w.

次に、上述した式(1)を用いて表現候補を抽出する例についてフローチャートを用いて詳細に説明する。 It will now be described in detail with reference to the flowchart for an example of extracting the expressed candidate using Equation (1) described above. 図4は、表現候補抽出処理の一例を示すフローチャートである。 Figure 4 is a flowchart illustrating an example of expression candidate extraction process. 図4に示す表現候補の抽出処理では、一例として、10−gram(連語数10)までの表現候補を抽出する例を示すが連語数については任意に調整することができる。 In the extraction process of expression candidate shown in FIG. 4, as an example, it is possible to show examples of extracting a representation candidates up to 10-gram (collocations number 10) optionally adjusted for the number of complex word. したがって、まず、n=10として(S01)、n−gramの中から1つの単語w を選択する(S02)。 Therefore, first, n = 10 as (S01), selects one word w n from the n-gram (S02). 次に、w の出現確率p を計算する(S03)。 Then, to calculate the probability p n of w n (S03). また、w を1−gramに分解し、その出現確率の積p を計算する(S04)。 Also, decomposing w n to 1-gram, calculate the product p 1 of the occurrence probability (S04). 更に、上述した式(1)によりp とp とから検定量tを計算する(S05)。 Moreover, to calculate the test statistic t from p 1 and the p n by Equation (1) described above (S05).

ここで、S05の処理にて計算された検定量tが予め設定される有意水準を超えているか否かを判断し(S06)、検定量tが有意水準を超えている場合(S06において、YES)、w を候補として採択する(S07)。 Here, it is determined whether it exceeds the significance level calculated test statistic t in the process of S05 is set in advance (S06), when (S06 where test statistic t is greater than the significance level, YES ), to adopt a w n as a candidate (S07). また、S07の処理が終了後、又は、S06の処理において検定量tが有意水準を超えていない場合(S06において、NO)、次に、N>n単語なるNに対してw がw の部分文字列であるか否かを判断する(S08)。 Further, after the processing of S07 is completed, or, (in S06, NO) if the test statistic t does not exceed the significance level in the processing of S06, then, N> w for n word becomes N n is w N determines whether a substring (S08).

ここで、N>nなるNに対してw がw の部分文字列である場合(S08において、YES)、w を候補から除外する(S09)。 Here, (in S08, YES) when w n with respect to N> n becomes N is a substring of w N, excluding the w n from candidates (S09). また、w がw の部分文字列でない場合(S08において、NO)、w を候補として出力する(S10)。 Furthermore, (in S08, NO) if w n is not a substring of w N, and outputs the w n as candidates (S10).

次に、処理していないw が存在するか否かを判断し(S11)、処理していないw が存在する場合(S11において、NO)、S02に戻り、S02の処理において、まだ処理していないw を選択して後続の処理を継続して行う。 Next, it is determined whether or not processing w n is present (S11), (in S11, NO) If the process is non w n is present, the process returns to S02, in the processing of S02, unprocessed Choose a w n that is not done to continue the subsequent processing.

また、処理していないw が存在しない場合(S11において、YES)、nの値から1減算する(S12)。 Furthermore, (in S11, YES) if w n not treated does not exist, 1 is subtracted from the value of n (S12). ここで、n=1か否かを判断し(S13)、nの値が1でない場合は、S02の処理に戻り後続の処理を継続する。 Here, it is determined whether n = 1 or not (S13), if the value of n is not 1, and continues the subsequent processing returns to the processing of S02. また、S13の処理において、n=1の場合(S13において、YES)には、処理を終了する。 Further, in the processing of S13, (in S13, YES) when n = 1, the CPU ends the process.

上述した処理により、例えば、2−gramから10−gram(連続する2〜10単語)までの長さの放送言及部分の候補を抽出することができる。 The above-described processing, for example, can extract candidate broadcasting mentioned part of the length from 2-gram to 10-gram (2 to 10 consecutive words). 具体的には、nが10から2になるまでループを繰り返しながらnを1つずつ減少させていき、全てのn−gramに対して、上述した式(1)により検定量tを計算し、単語が連続することが必然か否かの検定を有意水準に基づいて行うことで、表現候補を抽出することができる。 Specifically, n is gradually decreased one by one n repeating the loop until the 2 to 10, for all n-gram, the test statistic t calculated by the above-mentioned formula (1), by the word continuous is carried out based on the significance level of the test whether naturally, it is possible to extract the expression candidate.

また、ある2つの候補が重なった表現を持つ場合、w がw の部分文字列であるときにw を除外することによって、単語列の長い方の候補を残して短い方の部分表現に相当する候補は除外される。 Also, if having a representation of overlapping are two candidates, by w n to exclude w n when a substring of w N, shorter subexpressions leaving candidates longer of word strings corresponding candidate is excluded. このようにして、最後まで残った候補を表現候補として慣用表現データベース22に出力する。 In this manner, it outputs to the conventional representation database 22 the last remaining candidates as expression candidate. また、表現候補抽出手段15は、上述した表現候補抽出処理を放送番組毎に行い、着目していない放送番組から抽出された表現候補等を慣用表現データベース22に出力する。 Furthermore, expression candidate extraction unit 15 performs the expression candidate extraction process described above for each broadcast program, and outputs a focused and non representation candidates such as extracted from the broadcast program to the common representation database 22. なお、表現候補抽出手段15は、慣用表現データベース22に表現候補を登録する際、例えば、その表現候補の出現回数の統計値や検定量t等を表現候補に付加して登録する。 Incidentally, the expression candidate extraction unit 15, when registering the expression candidate with conventional representation database 22, for example, and registers the additional statistics and test weight t like number of occurrences of that representation candidate expression candidate.

ここで、図5は、慣用表現データベースの一例を示す図である。 Here, FIG. 5 is a diagram showing an example of a conventional representation database. なお、図5(a)〜(c)は、それぞれ異なる番組に対する反響文について、上述した表現候補の抽出を行った結果を示している。 Incidentally, FIG. 5 (a) ~ (c), for the echo statements for different programs, shows the results of extraction of the expression candidate described above. なお、図5については、形態素解析処理により単語毎に分かち書きされたものが登録されている。 Note that FIG. 5, those word-separated in each word is registered by the morphological analysis.

また、表現候補抽出手段15は、出現回数又は検定量tの値が所定の値以上の単語や連語等を放送言及部分の表現候補として出力する。 Furthermore, expression candidate extraction unit 15, the value of the appearance frequency or test statistic t is output as expression candidate broadcasting mentioned portions a predetermined value or more words and collocations and the like. 例えば、出現回数が5以上等の予め設定された抽出条件に基づいて出現確率の高い単語を放送言及部分の表現候補として出力することができる。 For example, it is possible to output a high word of occurrence probability based on the preset extraction conditions such as occurrence count of 5 or more as expressed candidate broadcasting mentioned parts.

また、検定量tについても、例えば、自由度無限大で、有意水準0.5%の(片側)検定値である2.576を予め設定された下限として、この抽出条件に基づいて出現確率の高い単語を放送言及部分の表現候補として出力することができる。 Further, the test statistic t may, for example, degrees of freedom infinity, as a preset lower limit at a significance level of 0.5% (one-sided) test value 2.576, the occurrence probability based on the extraction condition it is possible to output a high word as a representation candidate of the broadcast mentioned part. 更に、出現回数の上限と下限を設定してもよい(例えば、出現回数が1〜2回のもの等)。 Furthermore, it may set an upper limit and a lower limit number of occurrences (e.g., those number of occurrences of 1-2 times, etc.). これにより、特殊な反響内容等を取得することができる。 As a result, it is possible to get a special echo the contents, and the like.

なお、慣用表現データベース22の項目としては、例えば、「出現回数」、「検定量t」、及び、「n−gramの出現確率を行った対象文章」等から構成されるが、本発明においてはこれに限定されない。 As the items of the idiomatic expressions database 22, for example, "number of occurrences", "test statistic t", and consists of such "target sentence was probability of n-gram" is, in the present invention but it is not limited to this.

<放送言及部分抽出手段16における言及部分抽出例> <Mention portion extraction example in a broadcasting mentioned portion extracting unit 16>
次に、放送言及部分抽出手段16における言及部分抽出例について、説明する。 Next, referring part extracting example in broadcasting mentioned portion extracting unit 16 will be described. 放送言及部分抽出手段16は、着目したある放送番組において、表現候補抽出手段15にて抽出した表現候補の集合に対して他の放送回から検出された表現候補の集合との差分を取ることによって放送言及部分を特定する。 Broadcasting mentioned portion extraction means 16, in some broadcast program that focuses, by taking the difference between the set of representation candidates detected from other broadcast times for a set of expression candidate extracted in expression candidate extraction unit 15 to identify the broadcast mentioned part.

ここで、図6は、放送言及部分を抽出する様子を説明するための一例を示す図である。 Here, FIG. 6 is a diagram showing an example for explaining how to extract the broadcast mentioned portion. なお、図6では、抽出される放送言及部分を模式的に示している。 In FIG. 6, the broadcast mentioned portion to be extracted is schematically shown. 図6に示すように、上述の表現候補抽出手段15の処理により、着目したある1回の放送に対する表現候補の集合41が抽出されるが、その中から他の放送番組から抽出される表現候補の集合42,43に含まれる表現候補は除外し、残った表現候補を、その放送番組に固有の放送言及部分として出力する。 As shown in FIG. 6, the process of expression candidate extraction unit 15 described above, expression candidate is set 41 representation candidates for broadcast of a certain time that focuses are extracted, extracted from another broadcasting program from its representation candidates included in the set 42 and 43 were excluded, the remaining expression candidate, and outputs to the broadcast programs as a specific broadcasting mentioned parts.

なお、図6の例では、他の放送から抽出される複数の表現候補の集合42,43について差分を抽出しているが、本発明においてはこれに限定されず他の少なくとも1つの放送番組から抽出される表現候補の集合を用いることができる。 In the example of FIG. 6, are extracted difference for the set 43 of a plurality of expression candidate extracted from other broadcast from at least one other broadcast program is not limited thereto in the present invention are extracted can be used the set of expression candidate.

また、放送言及部分抽出手段16は、その放送回に対する特徴的な表現だけを抽出するために、他の放送回や他の放送番組で検出された表現候補の集合との差分をとり、最終的に差分で残った表現を元の反響文と照合することによって、ある放送番組において反響の多かった部分等を効率よく、高精度に特定することができる。 The broadcast mentioned portion extraction means 16 to extract only the characteristic representation for that episode, takes the difference between the set of detected expression candidate with another episode or other broadcast programs, the final the remaining represented by the difference by matching the original echo statement efficiently such frequent partial echoic in broadcast programs with, it can be identified with high accuracy.

したがって、放送言及部分抽出手段16は、着目しているある放送番組からの表現候補の集合に対して、上述した図5(a)〜(c)に示すような慣用表現データベース22に蓄積されている表現候補の集合の差分を取得することによって、着目している放送に対する放送言及部分を高精度に抽出することができる。 Therefore, the broadcast mentioned portion extraction means 16, the set of expression candidate from one broadcast program of interest, stored in the common representation database 22, as shown in FIG. 5 described above (a) ~ (c) by obtaining the difference between the set of expression candidate who is, it is possible to extract the broadcast mentioned portion to the broadcast of interest with high accuracy.

ここで、図7は、表現候補の集合の差分により得られる放送言及部分の一例を示す図である。 Here, FIG. 7 is a diagram showing an example of a broadcast referred moiety obtained by difference of a set of expression candidate. 放送言及部分抽出手段16は、上述したように着目したある1つの放送回における放送言及部分と感想や要望、感想等の種類を表す表現として列挙された表現候補の集合から、別の放送回に対して同様の処理を行って得られる放送言及部分と感想や要望、感想等の種類を表す表現候補の集合との差分を抽出することにより、図7に示すように、着目した放送回の放送言及部分を特定することができる。 Broadcasting mentioned portion extraction unit 16, the broadcast mentioned portion and comments and requests at a single episode focusing as described above, from a set of enumerated expression candidate as an expression indicating the type of feedback such as, in a separate episode by extracting the difference between the set of expression candidate representing the type of such broadcasting mentioned portion and comments and requests, impressions obtained by performing the same processing for, as shown in FIG. 7, the broadcast of episode that focuses mention portion can be identified.

<実行プログラム> <Executable>
ここで、上述した情報抽出装置10は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、マウスやキーボード、ポインティングデバイス等の入力装置、画像やデータを表示する表示部、並びに外部と通信するためのインタフェイスを備えたコンピュータによって構成することができる。 Here, the information extracting apparatus 10 described above, CPU, volatile storage medium such as RAM, non-volatile storage medium such as a ROM, a mouse and a keyboard, input devices such as a pointing device, a display unit which displays images and data , and it can be constituted by a computer having an interface for communicating with the outside.

したがって、情報抽出装置10が有する入力手段11、出力手段12、蓄積手段13、放送反響データ生成手段14、表現候補抽出手段15、放送言及部分抽出手段16、送受信手段17、及び、制御手段18における各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現可能となる。 Accordingly, the input unit 11 included in the information extraction unit 10, output unit 12, storage unit 13, the broadcast echo data generating unit 14, expression candidate extraction unit 15, the broadcast mentioned portion extracting unit 16, transceiver means 17, and, in the control unit 18 each function becomes feasible respectively by executing a program describing these functions to the CPU. また、これらのプログラムは、磁気ディスク(フロッピィーディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記録媒体に格納して頒布することもできる。 Also, these programs, a magnetic disk (floppy disk, hard disk, etc.), optical disk (CD-ROM, DVD, etc.), and can be distributed by storing in a recording medium such as a semiconductor memory.

つまり、上述した各構成における処理をコンピュータに実行させるための実行プログラムを生成し、例えば、汎用のパーソナルコンピュータやサーバ等にそのプログラムをインストールすることにより、情報抽出処理を実現することができる。 That is, to generate an execution program for executing the processes in the respective configurations described above into the computer, for example, by installing the program into a general-purpose personal computer or server, such as, it is possible to realize the information extraction process.

次に、本発明における実行プログラムによる処理手順についてフローチャートを用いて説明する。 Next, the processing procedure by the execution program of the present invention will be described with reference to a flowchart. なお、以下の処理説明では、抽出する情報の一例として上述したように着目したある放送番組に対する放送言及部分を抽出するものとするが、本発明における抽出対象については特に限定されない。 In the following process description, it is assumed that extracts a broadcast mentioned portion for a broadcast program that focuses as described above as an example of extracting information, there is no particular limitation on the extraction target in the present invention.

<情報抽出処理> <Information extraction processing>
図8は、本実施形態における情報抽出処理手順の一例を示すフローチャートである。 Figure 8 is a flow chart showing an example of the information extraction processing procedure in this embodiment. 図8において、まず、視聴者等から電子メールやWebブラウザ画面上に設けられたアンケート画面等により反響文が入力されると(S21)、放送毎の識別情報を付加した放送反響データを生成し(S22)、生成された放送反響データを放送反響データベースに登録する(S23)。 8, first, when the echo statement is entered by questionnaire screen or the like provided from the viewer or the like to an electronic mail or Web browser screen (S21), generates a broadcast echo data obtained by adding identification information of each broadcasting (S22), and registers the generated broadcast echo data to the broadcast echo database (S23).

次に、放送反響データベースに登録されている放送反響データから上述したある特定の放送番組毎の反響全体を抽出し、抽出された放送反響データを放送番組毎に入力して、放送言及部分の表現候補の集合を抽出する(S24)。 Then, the whole was extracted echo for each particular broadcasting program as described above from the broadcast echo data registered in the broadcast echo database, by entering the extracted broadcast echo data to each broadcast program, a representation of the broadcast mentioned part extracting a set of candidate (S24). また、S24の処理により抽出された表現候補は、慣用表現データベースに登録する(S25)。 Moreover, representation candidates extracted by the processing of S24, is registered in the common representation database (S25).

次に、S25の処理により登録されている慣用表現データベースを用いて、着目している放送番組の表現候補から着目していない他の放送番組の表現候補との差分を抽出し(S26)、放送言及部分を抽出する(S27)。 Next, using conventional representation database that is registered by the processing of S25, the extracted difference between the expression candidate other broadcast programs that are not focused from expression candidate broadcast programs of interest (S26), the broadcast a reference part is extracted (S27).

上述した情報抽出処理により、高精度に目的とする情報を抽出することができる。 The above-described information extraction process, it is possible to extract the information of interest with high accuracy. これにより、例えば、着目しているある放送番組において反響の多かった部分等を効率よく、高精度に特定することができる。 Thus, for example, efficiently frequent parts such echoic in some broadcast programs of interest, can be identified with high accuracy. 高精度に目的とする情報を抽出することができる。 It is possible to extract information of interest with high accuracy.

<本発明を用いた評価分析結果> <Evaluation results of the analysis using the present invention>
ここで、上述した本発明手法を用いた評価分析結果について説明する。 It will now be described assay result using the present invention method described above. なお、以下の説明では、有意水準を0.5%と設定し、1放送番組に対して916文の反響文を用いて分析を行った。 In the following description, the significance level was set to 0.5%, was analyzed using the echo statement 916 Statement for one broadcast program.

ここで、全反響文のうち、放送言及部分を正しく特定できた数(A)と、特定漏れを起こした数(B)と、誤特定を起こした数(C)とを用いて、precision=A/(A+C),recall=A/(A+B)で定義される精度を形態素単位及び文字(単語、連語)単位で評価分析した結果、precisionについては、形態素単位では50.94%、文字単位では52.71%の精度で抽出することができるようになった。 Here, of all echo statement, using the number (A) was correctly identify the broadcast mentioned portions, the number (B) which caused a particular leak, and the number (C) which caused the incorrect specification, precision = a / (a ​​+ C), recall = a / (a ​​+ B) precision morphemes and character defined in (a word, phrase) results of the assay in the unit, for precision, 50.94% in the morphemes in characters is it can now be extracted with 52.71% accuracy. また、recallは、形態素単位では18.57%、文字単位では17.98%の精度で抽出することができるようになった。 Also, recall is 18.57% in the morphemes in character units can now be extracted with 17.98% accuracy.

上述したように本発明によれば、高精度に目的とする情報を抽出することができる。 According to the present invention as described above, it is possible to extract the information of interest with high accuracy. これにより、例えば、着目しているある放送番組において反響の多かった部分等を効率よく、高精度に特定することができる。 Thus, for example, efficiently frequent parts such echoic in some broadcast programs of interest, can be identified with high accuracy.

また、評判表現の辞書を構築したり反響文の構文解析をすることなく、放送局等に寄せられた反響から放送言及部分を自動的に抽出することができる。 In addition, without the syntax analysis of building a dictionary of the reputation expression or echo statements, it is possible to automatically extract the broadcast mentioned portion from the echoes were received on the broadcast station or the like.

これにより、例えば、放送(テレビ、ラジオ、インターネット、ワンセグ等を含む)を始めとするマスコミュニケーションに対する反響を抽出する場合に、評判の対象を自動的に抽出する場面に用いることができる。 Thus, for example, a broadcast in the case of extracting echoes for mass communication, including (TV, radio, Internet, including one-segment, etc.) can be used in the scene to automatically extract the reputation of the subject.

なお、本発明を適用して抽出される情報としては、上述した実施形態に示すように放送番組に対する反響文の放送言及部分の抽出に限定されず、例えば、新聞、雑誌、食品、電気製品、携帯電話等のあらゆる商品に対する反響文に対しても対象の情報を効率的かつ高精度に抽出することができる。 As the information to be extracted by applying the present invention is not limited to the extraction of the broadcast mentioned part of the reverberant statement for broadcast programs as shown in the embodiment described above, for example, newspapers, magazines, food, electrical products, it is possible to extract information of interest to the efficient and accurate even for echo statements for any products such as cellular phones.

以上本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。 Above it has been described in detail preferred embodiments of the present invention, the present invention is not intended to be limited to the specific embodiments, within the scope of the present invention described in the claims, various modifications, it is possible to change.

本実施形態における情報抽出装置の一構成例を示す図である。 It is a diagram showing one configuration example of an information extracting device of the present embodiment. 反響文を取得する一例を示す図である。 Is a diagram showing an example of acquiring the echo statement. 番組反響データベースの一例を示す図である。 Is a diagram illustrating an example of a program echo database. 表現候補抽出処理の一例を示すフローチャートである。 Is a flowchart illustrating an example of expression candidate extraction process. 慣用表現データベースの一例を示す図である。 Is a diagram illustrating an example of a conventional representation database. 放送言及部分を抽出する様子を説明するための一例を示す図である。 Is a diagram showing an example for explaining how to extract the broadcast mentioned portion. 表現候補の集合の差分により得られる放送言及部分の一例を示す図である。 Is a diagram illustrating an example of a broadcast referred moiety obtained by difference of a set of expression candidate. 本実施形態における情報抽出処理手順の一例を示すフローチャートである。 It is a flowchart illustrating an example of the information extraction processing procedure in this embodiment.

符号の説明 DESCRIPTION OF SYMBOLS

10 情報抽出装置 11 入力手段 12 出力手段 13 蓄積手段 14 表現候補抽出手段 15 放送言及部分抽出手段 16 送受信手段 17 制御手段 21 放送反響データベース 22 慣用表現データベース 31 宛先 32 件名 33 本文 34 選択ボックス 35 投稿入力領域 41,42,43 集合 10 information extracting apparatus 11 Input unit 12 Output unit 13 accumulating means 14 representing candidate extraction unit 15 broadcasts mentioned portion extracting means 16 receiving means 17 control means 21 broadcast echoing database 22 idioms database 31 destination 32 Subject 33 Text 34 selection box 35 Post input area 41, 42 and 43 set

Claims (9)

  1. 放送された番組に対する視聴者等からの意見や要望、感想等を含む反響データから、前記番組に対して言及された部分である放送言及部分の情報を抽出する情報抽出装置において、 Opinions and requests from the viewer or the like for broadcasted program, the echo data including comments, etc., in the information extracting device for extracting information of a broadcast mentioned parts are mentioned portion to said program,
    前記反響データに予め付加される放送番組毎の識別情報により、放送番組毎の前記放送言及部分となる候補である単語又は連語の出現回数又は出現確率に基づく表現を抽出する表現候補抽出手段と、 The identification information for each broadcast program in advance added to the echo data, and the expression candidate extraction means for extracting a representation based on the appearance frequency or probability of occurrence of a word or phrase is a candidate to be the broadcast mentioned portion of each broadcast program,
    前記表現候補抽出手段により得られる放送番組毎の放送言及部分の候補となる前記表現候補の集合のうち、予め設定された放送番組の表現候補の集合から、少なくとも1つの他の放送番組の表現候補の集合との差分を抽出し、前記予め設定された放送番組に対する言及部分の情報を抽出する放送言及部分抽出手段とを有する、 Among the set of expression candidate that are candidates for broadcast mentioned portion of each broadcast program obtained by the expression candidate extraction means, from a set of expression candidate preset broadcast program, expression candidate of at least one other broadcast programs to extract the difference between the set, and a broadcasting mentioned portion extracting means for extracting the information mentioned portions against preset broadcast program,
    ことを特徴とする情報抽出装置。 Information extraction apparatus, characterized in that.
  2. 前記表現候補抽出手段は、 The expression candidate extraction means,
    前記反響データに含まれる単語に対してn−gramを用いて出現確率を求め、前記出現確率に基づいて前記単語の前後が連続することが必然か否かの検定を行い、必然か否かの検定を表す量である検定量が予め設定された有意水準を超えていれば、前記表現候補として前記反響データに含まれる単語又は連語を抽出する、 Obtains the occurrence probability with n-gram for the word contained in the echo data, the front and rear of the word is continuous based on the occurrence probability is performed necessarily whether the assay necessarily whether if beyond the significance level test statistic is an amount representing the test is set in advance, to extract a word or phrase contained in the echo data as the expression candidate,
    ことを特徴とする請求項1に記載の情報抽出装置。 Information extraction apparatus according to claim 1, characterized in that.
  3. 前記表現候補抽出手段は、抽出された表現候補の出現回数を生成し、前記検定量と共に慣用表現データベースとして蓄積し、 The expression candidate extraction means generates the number of occurrences of the extracted expression candidate, accumulated as common representation database with the test weight,
    前記放送言及部分抽出手段は、前記慣用表現データベースに登録された複数の放送番組の表現候補の集合から、予め設定された放送番組に対する前記放送言及部分を抽出する、 The broadcast mentioned portion extraction means extracts from a set of expression candidate of the plurality of broadcast programs registered in the common representation database, the broadcast mentioned portions against preset broadcast program,
    ことを特徴とする請求項2に記載の情報抽出装置。 Information extraction apparatus according to claim 2, characterized in that.
  4. 放送された番組を視聴した視聴者からの反響文章から放送番組を特定し、対応する識別情報を付加した反響データを生成し、放送反響データベースとして登録する放送反響データ生成手段を有する、 Identifying a broadcast program from echo sentence from viewers who view broadcasted program, to generate the echo data by adding the corresponding identification information, a broadcast echo data generation means for registering as a broadcast echo database,
    ことを特徴とする請求項1乃至3の何れか1項に記載の情報抽出装置。 Information extraction apparatus according to any one of claims 1 to 3, characterized in that.
  5. 放送された番組に対する視聴者等からの意見や要望、感想等を含む反響データから、前記番組に対して言及された部分である放送言及部分の情報を抽出する情報抽出方法において、 Opinions and requests from the viewer or the like for broadcasted program, the echo data including comments, etc., in the information extraction method for extracting information of a broadcast mentioned parts are mentioned portion to said program,
    前記反響データに予め付加される放送番組毎の識別情報により、放送番組毎の前記放送言及部分となる候補である単語又は連語の出現回数又は出現確率に基づく表現を抽出する表現候補抽出ステップと、 The identification information for each broadcast program in advance added to the echo data, and the expression candidate extracting a representation based on the word or number of occurrences or the occurrence probability of the collocations is a candidate to be the broadcast mentioned portion of each broadcast program,
    前記表現候補抽出ステップにより得られる放送番組毎の放送言及部分の候補となる前記表現候補の集合のうち、予め設定された放送番組の表現候補の集合から、少なくとも1つの他の放送番組の表現候補の集合との差分を抽出し、前記予め設定された放送番組に対する言及部分の情報を抽出する放送言及部分抽出ステップとを有する、 Among the set of expression candidate that are candidates for broadcast mentioned portion of each broadcast program obtained by the expression candidate extraction step, from the set of expression candidate preset broadcast program, expression candidate of at least one other broadcast programs to extract the difference between the set, and a broadcasting mentioned portion extraction step of extracting the information of the mentioned parts relative to pre-set broadcast program,
    ことを特徴とする情報抽出方法。 Information extraction method characterized by.
  6. 前記表現候補抽出ステップは、 The expression candidate extraction step,
    前記反響データに含まれる単語に対してn−gramを用いて出現確率を求め、前記出現確率に基づいて前記単語の前後が連続することが必然か否かの検定を行い、必然か否かの検定を表す量である検定量が予め設定された有意水準を超えていれば、前記表現候補として前記反響データに含まれる単語又は連語を抽出する、 Obtains the occurrence probability with n-gram for the word contained in the echo data, the front and rear of the word is continuous based on the occurrence probability is performed necessarily whether the assay necessarily whether if beyond the significance level test statistic is an amount representing the test is set in advance, to extract a word or phrase contained in the echo data as the expression candidate,
    ことを特徴とする請求項5に記載の情報抽出方法。 Information extraction method according to claim 5, characterized in that.
  7. 前記表現候補抽出ステップは、抽出された表現候補の出現回数を生成し、前記検定量と共に慣用表現データベースとして蓄積し、 The expression candidate extraction step generates a number of occurrences of the extracted expression candidate, accumulated as common representation database with the test weight,
    前記放送言及部分抽出ステップは、前記慣用表現データベースに登録された複数の放送番組の表現候補の集合から、予め設定された放送番組に対する前記放送言及部分を抽出する、 The broadcast mentioned portion extraction step extracts from a set of expression candidate of the plurality of broadcast programs registered in the common representation database, the broadcast mentioned portions against preset broadcast program,
    ことを特徴とする請求項6に記載の情報抽出方法。 Information extraction method according to claim 6, characterized in that.
  8. 放送された番組を視聴した視聴者からの反響文章から放送番組を特定し、対応する識別情報を付加した反響データを生成し、放送反響データベースとして登録する放送反響データ生成ステップを有する、 Identifying a broadcast program from echo sentence from viewers who view broadcasted program, to generate the echo data by adding the corresponding identification information, a broadcast echo data generation step of registering as a broadcast echo database,
    ことを特徴とする請求項5乃至7の何れか1項に記載の情報抽出方法。 Information extraction method according to any one of claims 5 to 7, characterized in that.
  9. 放送された番組に対する視聴者等からの意見や要望、感想等を含む反響データから、前記番組に対して言及された部分である放送言及部分の情報を抽出する情報抽出プログラムにおいて、 Opinions and requests from the viewer or the like for broadcasted program, the echo data including comments, etc., in the information extraction program for extracting information of a broadcast mentioned parts are mentioned portion to said program,
    コンピュータを、 The computer,
    前記反響データに予め付加される放送番組毎の識別情報により、放送番組毎の前記放送言及部分となる候補である単語又は連語の出現回数又は出現確率に基づく表現を抽出する表現候補抽出手段、及び、 The identification information for each broadcast program in advance added to the echo data, representing candidate extracting means for extracting a representation based on the appearance frequency or probability of occurrence of a word or phrase is a candidate to be the broadcast mentioned portion of each broadcast program, and ,
    前記表現候補抽出手段により得られる放送番組毎の放送言及部分の候補となる前記表現候補の集合のうち、予め設定された放送番組の表現候補の集合から、少なくとも1つの他の放送番組の表現候補の集合との差分を抽出し、前記予め設定された放送番組に対する言及部分の情報を抽出する放送言及部分抽出手段として機能させるための情報抽出プログラム。 Among the set of expression candidate that are candidates for broadcast mentioned portion of each broadcast program obtained by the expression candidate extraction means, from a set of expression candidate preset broadcast program, expression candidate of at least one other broadcast programs to extract the difference between the set, the information extraction program for functioning as a broadcast mentioned portion extracting means for extracting the information mentioned portions against preset broadcast program.
JP2007215098A 2007-08-21 2007-08-21 Information extraction apparatus, information extraction method, and information extraction program Pending JP2009048482A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007215098A JP2009048482A (en) 2007-08-21 2007-08-21 Information extraction apparatus, information extraction method, and information extraction program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007215098A JP2009048482A (en) 2007-08-21 2007-08-21 Information extraction apparatus, information extraction method, and information extraction program

Publications (1)

Publication Number Publication Date
JP2009048482A true true JP2009048482A (en) 2009-03-05

Family

ID=40500624

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007215098A Pending JP2009048482A (en) 2007-08-21 2007-08-21 Information extraction apparatus, information extraction method, and information extraction program

Country Status (1)

Country Link
JP (1) JP2009048482A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011048821A (en) * 2009-08-07 2011-03-10 Buzzmetrics Ltd System, method, and device for phrase mining based on relative frequency

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005165754A (en) * 2003-12-03 2005-06-23 Nec Corp Text mining analysis apparatus, text mining analysis method, and text mining analysis program
JP2007304642A (en) * 2006-05-08 2007-11-22 Nippon Hoso Kyokai <Nhk> Document data sorting device and document data sorting program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005165754A (en) * 2003-12-03 2005-06-23 Nec Corp Text mining analysis apparatus, text mining analysis method, and text mining analysis program
JP2007304642A (en) * 2006-05-08 2007-11-22 Nippon Hoso Kyokai <Nhk> Document data sorting device and document data sorting program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011048821A (en) * 2009-08-07 2011-03-10 Buzzmetrics Ltd System, method, and device for phrase mining based on relative frequency

Similar Documents

Publication Publication Date Title
Pustejovsky et al. Natural Language Annotation for Machine Learning: A guide to corpus-building for applications
US8352272B2 (en) Systems and methods for text to speech synthesis
US7310601B2 (en) Speech recognition apparatus and speech recognition method
US7917355B2 (en) Word detection
US20070299824A1 (en) Hybrid approach for query recommendation in conversation systems
US20080154883A1 (en) System and method for evaluating sentiment
US20060161423A1 (en) Systems and methods for automatically categorizing unstructured text
US20100185691A1 (en) Scalable semi-structured named entity detection
US7983902B2 (en) Domain dictionary creation by detection of new topic words using divergence value comparison
US20070078670A1 (en) Selecting high quality reviews for display
US20130311485A1 (en) Method and system relating to sentiment analysis of electronic content
US20090319449A1 (en) Providing context for web articles
US20110238408A1 (en) Semantic Clustering
US20110238410A1 (en) Semantic Clustering and User Interfaces
US7681147B2 (en) System for determining probable meanings of inputted words
US20070136048A1 (en) System for classifying words
US20090326947A1 (en) System and method for spoken topic or criterion recognition in digital media and contextual advertising
US20070078669A1 (en) Selecting representative reviews for display
US20120233207A1 (en) Systems and Methods for Enabling Natural Language Processing
US20130159277A1 (en) Target based indexing of micro-blog content
US20070185859A1 (en) Novel systems and methods for performing contextual information retrieval
US20100153094A1 (en) Topic map based indexing and searching apparatus
US20090063134A1 (en) Media Content Assessment and Control Systems
US20070208732A1 (en) Telephonic information retrieval systems and methods
US20070078814A1 (en) Novel information retrieval systems and methods

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091016

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120403

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120821