JP2007304642A - Document data sorting device and document data sorting program - Google Patents

Document data sorting device and document data sorting program Download PDF

Info

Publication number
JP2007304642A
JP2007304642A JP2006129318A JP2006129318A JP2007304642A JP 2007304642 A JP2007304642 A JP 2007304642A JP 2006129318 A JP2006129318 A JP 2006129318A JP 2006129318 A JP2006129318 A JP 2006129318A JP 2007304642 A JP2007304642 A JP 2007304642A
Authority
JP
Japan
Prior art keywords
document data
classification
metadata
expression
dividing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006129318A
Other languages
Japanese (ja)
Inventor
Takeshi Kobayakawa
健 小早川
Noriyoshi Uratani
則好 浦谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2006129318A priority Critical patent/JP2007304642A/en
Publication of JP2007304642A publication Critical patent/JP2007304642A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To improve precision of sorting document data corresponding to content, and to sort documents from a point of view of correspondence between the content and the document data. <P>SOLUTION: This document data sorting device for sorting one or more document data relevant to content based on metadata corresponding to the content is provided with a metadata dividing means for dividing a document included in the metadata by predetermined units; a document data dividing means for dividing a document included in the document data by predetermined units; a corresponding expression detecting means for detecting expression sections corresponding to at least one of the plurality of content configuring the content based on one or more divided sentences to be acquired by the metadata dividing means and one or more divided sentences to be acquired by the document data dividing means; and a corresponding expression sorting means for sorting the document data based on the detection result to be acquired by the corresponding expression detecting means. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、文書データ分類装置及び文書データ分類プログラムに係り、特に分類精度を向上させるための文書データ分類装置及び文書データ分類プログラムに関する。   The present invention relates to a document data classification device and a document data classification program, and more particularly to a document data classification device and a document data classification program for improving classification accuracy.

従来では、コンピュータ等を用いて多数の分類対象の文書データを予め設定されたキーワード等のパラメータに基づいて、文書中に含まれるキーワードにより個々に数値化し、その数値を用いて予め設定されたグループに分類する技術が知られている(例えば、特許文献1、特許文献2等参照。)。   Conventionally, a large number of document data to be classified using a computer or the like is individually digitized by keywords included in the document based on parameters such as keywords set in advance, and groups set in advance using the numerical values (See, for example, Patent Document 1 and Patent Document 2).

また、文書を数値化する従来手法は、文書に出現する単語の頻度、数値化された単語の意味を用いるものである。具体的には、例えば単語の出現頻度を用いて文書データを分類する場合、ある特定のグループに属する強さを表す単語を予め設定しておき、その単語が文書中に出現する割合をそのグループに属する強さ(尤度)とし、ある1つの文書に着目したときに最も属する強さ(尤度)の大きいグループがその文書が属するグループであるとして分類することができる。
特開平1−188934号公報 特開平5−89193号公報
Further, the conventional method for digitizing a document uses the frequency of words appearing in the document and the meaning of the digitized words. Specifically, for example, when classifying document data using the appearance frequency of a word, a word representing the strength belonging to a specific group is set in advance, and the proportion of the word appearing in the document is set as the group. Can be classified as a group to which the document belongs. The group with the highest strength (likelihood) that belongs most when a particular document is focused on.
JP-A-1-188934 JP-A-5-89193

ところで、上述した分類手法は、例えば番組等のコンテンツを視聴した視聴者等による番組に対する意見、要望等の視聴者の反響データを分類するとき等に適用することができる。   By the way, the above-described classification method can be applied, for example, when classifying viewer's reverberation data such as opinions and requests for a program by a viewer who has watched content such as a program.

しかしながら、上述した従来手法では、例えば反響データに含まれる文書のうち、どの部分が番組に対する反響であるのかを検出することが困難であった。また、検出された反響が番組全体のうち、どの部分に対するものであるかを把握することが困難であった。   However, in the conventional method described above, it is difficult to detect which part of the document included in the echo data is the echo for the program. In addition, it is difficult to grasp to which part of the entire program the detected echo is directed.

本発明は、上述した問題点に鑑みなされたものであり、分類精度を向上させるための文書データ分類装置及び文書データ分類プログラムを提供することを目的とする。   The present invention has been made in view of the above-described problems, and an object of the present invention is to provide a document data classification device and a document data classification program for improving classification accuracy.

上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。   In order to solve the above problems, the present invention employs means for solving the problems having the following characteristics.

請求項1に記載された発明は、コンテンツに対応するメタデータにより前記コンテンツに関連する1又は複数の文書データを分類分けする文書データ分類装置であって、前記メタデータに含まれる文書を所定の単位で分割するメタデータ分割手段と、前記文書データに含まれる文書を所定の単位で分割する文書データ分割手段と、前記メタデータ分割手段により得られる1又は複数の分割文と、前記文書データ分割手段により得られる1又は複数の分割文とに基づいて、前記コンテンツを構成する複数の内容のうち、少なくとも1つに対応した表現部分を検出する対応表現検出手段と、前記対応表現検出手段により得られる検出結果に基づいて、前記文書データを分類分けする対応表現分類手段とを有することを特徴とする。   The invention described in claim 1 is a document data classification device that classifies one or a plurality of document data related to the content based on metadata corresponding to the content, and the document included in the metadata is a predetermined document data. Metadata dividing means for dividing in units, document data dividing means for dividing a document included in the document data in predetermined units, one or a plurality of divided sentences obtained by the metadata dividing means, and the document data division Based on one or more divided sentences obtained by the means, the corresponding expression detecting means for detecting an expression part corresponding to at least one of the plurality of contents constituting the content, and the corresponding expression detecting means And corresponding expression classification means for classifying the document data based on the detected result.

請求項1記載の発明によれば、コンテンツに対応するメタデータと文書データとに含まれる文書を分割して比較することで対応表現部分を検出し、その検出結果に基づいて分類分けを行うことにより、文書データの分類精度を向上させることができる。   According to the first aspect of the present invention, the correspondence expression portion is detected by dividing and comparing the documents included in the metadata corresponding to the content and the document data, and classification is performed based on the detection result. As a result, the classification accuracy of the document data can be improved.

請求項2に記載された発明は、前記対応表現検出手段は、前記メタデータ分割手段により得られる1又は複数の分割文及び前記文書データ分割手段により得られる1又は複数の分割文のそれぞれについて形態素解析を行い、その解析結果を用いた係り受け解析から木構造を生成し、生成された木構造同士を比較することで、前記表現部分を検出することを特徴とする。   According to a second aspect of the present invention, the correspondence expression detection unit is configured to perform a morpheme for each of one or a plurality of divided sentences obtained by the metadata dividing unit and one or a plurality of divided sentences obtained by the document data dividing unit. Analysis is performed, a tree structure is generated from dependency analysis using the analysis result, and the expression part is detected by comparing the generated tree structures.

請求項2記載の発明によれば、係り受け解析結果から木構造を生成し、その木構造に基づいて高精度に対応表現部分を検出することができる。   According to the second aspect of the present invention, a tree structure can be generated from the dependency analysis result, and the corresponding expression portion can be detected with high accuracy based on the tree structure.

請求項3に記載された発明は、前記対応表現検出手段は、予め設定されたシソーラスに基づいて前記文書データに対して所定の種別を設定することを特徴とする。   The invention described in claim 3 is characterized in that the correspondence expression detecting means sets a predetermined type for the document data based on a preset thesaurus.

請求項3記載の発明によれば、対応表現として特徴的な表現(句)からなるシソーラスを予め設定しておくことで、容易且つ正確に種別を設定することができる。   According to the third aspect of the present invention, the type can be set easily and accurately by setting in advance a thesaurus composed of characteristic expressions (phrases) as corresponding expressions.

請求項4に記載された発明は、前記対応表現検出手段は、前記文書データ分割手段により得られる1又は複数の分割文のそれぞれについて、主張文と客観文とを判別し、判別された主張文に基づいて前記表現部分を検出することを特徴とする。   According to a fourth aspect of the present invention, the correspondence expression detecting unit discriminates an asserted sentence and an objective sentence for each of one or a plurality of divided sentences obtained by the document data dividing unit, and the determined asserted sentence The expression part is detected based on the above.

請求項4記載の発明によれば、主張文に基づいて、より高精度に表現部分の検出を行うことができる。また、主張文に基づいて文書データの種別を高精度に設定することができる。   According to the fourth aspect of the present invention, the expression part can be detected with higher accuracy based on the assertion sentence. Further, the type of document data can be set with high accuracy based on the assertion sentence.

請求項5に記載された発明は、前記対応表現分類手段により得られる分類結果を少なくともグラフ又は表により表示するための画面を生成する表示画面生成手段を有することを特徴とする。   The invention described in claim 5 is characterized by comprising display screen generation means for generating a screen for displaying at least a graph or a table of the classification results obtained by the correspondence expression classification means.

請求項5記載の発明によれば、ユーザ等に分類結果を容易に把握させることができる。   According to invention of Claim 5, a user etc. can be made to grasp | ascertain a classification result easily.

請求項6に記載された発明は、前記文書データは、各視聴者に提供された前記コンテンツに対する反響として、前記各視聴者により作成された反響データであることを特徴とする。   The invention described in claim 6 is characterized in that the document data is reverberation data created by each viewer as a reverberation for the content provided to each viewer.

請求項6記載の発明によれば、コンテンツに対する視聴者からの反響データを高精度に分類分けすることができる。   According to the sixth aspect of the present invention, it is possible to classify the echo data from the viewer for the content with high accuracy.

請求項7に記載された発明は、コンテンツに対応するメタデータにより前記コンテンツに関連する1又は複数の文書データを分類分けする文書データ分類処理をコンピュータに実行させるための文書データ分類プログラムであって、前記メタデータに含まれる文書を所定の単位で分割するメタデータ分割処理と、前記文書データに含まれる文書を所定の単位で分割する文書データ分割処理と、前記メタデータ分割処理により得られる1又は複数の分割文と、前記文書データ分割処理により得られる1又は複数の分割文とに基づいて、前記コンテンツを構成する複数の内容のうち、少なくとも1つに対応した表現部分を検出する対応表現検出処理と、前記対応表現検出処理により得られる検出結果に基づいて、前記文書データを分類分けする対応表現分類処理とをコンピュータに実行させる。   The invention described in claim 7 is a document data classification program for causing a computer to execute document data classification processing for classifying one or a plurality of document data related to the content based on metadata corresponding to the content. 1 obtained by the metadata dividing process for dividing the document included in the metadata in a predetermined unit, the document data dividing process for dividing the document included in the document data in a predetermined unit, and the metadata dividing process. Or a corresponding expression for detecting an expression portion corresponding to at least one of a plurality of contents constituting the content based on a plurality of divided sentences and one or a plurality of divided sentences obtained by the document data dividing process. A pairing process for classifying the document data based on a detection process and a detection result obtained by the correspondence expression detection process. Executing the expressions classification process on the computer.

請求項7記載の発明によれば、コンテンツに対応するメタデータと文書データとに含まれる文書を分割して比較することで対応表現部分を検出し、その検出結果に基づいて分類分けを行うことにより、文書データの分類精度を向上させることができる。また、プログラムをインストールすることにより、容易に文書データ分類処理を実現することができる。   According to the seventh aspect of the present invention, the correspondence expression portion is detected by dividing and comparing the documents included in the metadata corresponding to the content and the document data, and classification is performed based on the detection result. As a result, the classification accuracy of the document data can be improved. In addition, the document data classification process can be easily realized by installing the program.

本発明によれば、コンテンツに対応する文書データの分類精度を向上させることができると共に、コンテンツのどの部分に対応する文書データかという観点からの分類を実現することができる。   According to the present invention, it is possible to improve the classification accuracy of document data corresponding to content, and it is possible to realize classification from the viewpoint of which part of the content corresponds to document data.

<本発明の特徴>
本発明は、コンテンツに対応するメタデータに基づいて、コンテンツに関連する1又は複数の文書データを分類する。具体的には、例えば放送番組等のように複数の内容から構成されるコンテンツがあり、そのコンテンツに対する視聴者等からの反響データに含まれる1又は複数の文(文書)を、句読点や終止符等の所定の単位で分割し、その中からコンテンツの内容に最も近い表現を検出することによって、どの部分に対する反響かを検出する。
<Features of the present invention>
The present invention classifies one or a plurality of document data related to content based on metadata corresponding to the content. Specifically, for example, there is a content composed of a plurality of contents such as a broadcast program, and one or a plurality of sentences (documents) included in reverberation data from viewers or the like with respect to the contents are converted into punctuation marks, end marks, etc. The unit is divided into predetermined units, and an expression closest to the content is detected from among them.

また、最も近い表現の検出には、単語の出現頻度だけではなく、文の係り受け構造と単語の近さが用いられる。また、本発明では、分類対象文の数だけ最も近い表現が検出されるため、これを従来の分類技術で適切なグループ数に分類する。   In addition, not only the appearance frequency of a word but also the dependency structure of a sentence and the closeness of the word are used to detect the closest expression. In the present invention, since the closest expression is detected by the number of classification target sentences, this is classified into an appropriate number of groups by a conventional classification technique.

<実施の形態>
次に、上述した特徴を有する本発明における文書データ分類装置及び文書データ分類プログラムを好適に実施した形態について、図面を用いて説明する。なお、以下に示す実施の形態では、コンテンツの一例として放送番組を用い、またコンテンツに関連する文書データの一例として放送番組を視聴した視聴者からの感想、意見、要望、コメント、アンケート結果等の反響データを用いる。また文書データ分類手法の一例として上述した反響データの分類手法について説明する。
<Embodiment>
Next, a preferred embodiment of the document data classification apparatus and document data classification program according to the present invention having the above-described features will be described with reference to the drawings. In the embodiment described below, a broadcast program is used as an example of content, and an impression, an opinion, a request, a comment, a questionnaire result, etc. from a viewer who has watched the broadcast program as an example of document data related to the content. Use echo data. The above-described echo data classification technique will be described as an example of the document data classification technique.

図1は、本発明における文書データ分類装置の概略構成の一例を示す図である。図1に示す文書データ分類装置10は、放送番組メタデータ分割手段11と、視聴者反響データ分割手段12と、対応表現検出手段13と、対応表現分類手段14と、蓄積手段15と、表示画面生成手段16とを有するよう構成されている。   FIG. 1 is a diagram showing an example of a schematic configuration of a document data classification device according to the present invention. The document data classification device 10 shown in FIG. 1 includes a broadcast program metadata dividing unit 11, a viewer echo data dividing unit 12, a corresponding expression detecting unit 13, a corresponding expression classifying unit 14, a storage unit 15, and a display screen. And generating means 16.

放送番組メタデータ分割手段11は、放送番組に対応するメタデータである放送番組メタデータ21を自然文のまま入力する。つまり、放送番組メタデータ11は、番組コンテンツとして使用したメタデータのフォーマットをそのままの状態で放送番組メタデータ分割手段11に入力される。なお、上述した自然文とは、1又は複数の文を有している。更に、放送番組メタデータ内の文章とは、台詞や字幕等の他に、コンテンツのタイトル、コンテンツの詳細説明等を含んでいる。   The broadcast program metadata dividing means 11 inputs the broadcast program metadata 21 that is metadata corresponding to the broadcast program as a natural sentence. In other words, the broadcast program metadata 11 is input to the broadcast program metadata dividing unit 11 with the metadata format used as the program content intact. Note that the natural sentence described above has one or more sentences. Furthermore, the text in the broadcast program metadata includes a content title, a detailed description of the content, and the like in addition to dialogue and subtitles.

放送番組メタデータ分割手段11は、放送番組メタデータ21を入力し、入力された放送番組メタデータ21に含まれる全ての文書を所定の単位に分割する。具体的には、放送番組メタデータ分割手段11は、例えば句点、読点、終止符等を基準に文単位に分割する。また、放送番組メタデータ分割手段11は、分割されたメタデータの分割文を対応表現検出手段13に出力する。   Broadcast program metadata dividing means 11 inputs broadcast program metadata 21 and divides all documents included in the input broadcast program metadata 21 into predetermined units. Specifically, the broadcast program metadata dividing unit 11 divides the program into sentence units based on, for example, a punctuation mark, a punctuation mark, and a period mark. The broadcast program metadata dividing unit 11 outputs the divided sentence of the divided metadata to the corresponding expression detecting unit 13.

また、視聴者反響データ分割手段12は、放送番組に対する視聴者反響データ22を入力する。なお、視聴者反響データとは、放送番組を視聴した視聴者等からの感想、意見、要望、コメント、アンケート結果等であり、これらのデータは電子メールや電話あるいはFAX等で送られ、それらの文書を電子化したデータである。なお、視聴者反響データ22は、1又は複数(図1では、視聴者反響データ1,2,・・・,N)存在し、視聴者反響データ22の中には1又は複数の文を有するものとする。また、各視聴者反響データ1〜Nには、その反響データを作成した視聴者に関する情報(性別、年齢、氏名等)を有していてもよい。   Further, the viewer echo data dividing means 12 inputs the viewer echo data 22 for the broadcast program. Note that the viewer response data are impressions, opinions, requests, comments, questionnaire results, etc. from viewers who watched the broadcast program, and these data are sent by e-mail, telephone or FAX, etc. It is data that digitizes a document. Note that one or more viewer echo data 22 (viewer echo data 1, 2,..., N in FIG. 1) exist, and the viewer echo data 22 includes one or more sentences. Shall. In addition, each of the viewer echo data 1 to N may have information (gender, age, name, etc.) regarding the viewer who created the echo data.

視聴者反響データ分割手段12は、1又は複数の視聴者反響データ22を入力し、入力した視聴者反響データ22に含まれる全ての文書を所定の単位に分割する。具体的には、視聴者反響データ分割手段12は、例えば句点、読点、終止符等を基準に文単位に分割する。そのうちの1つの視聴者反響データ毎に句点、読点、終止符等を基準に1文に分割する。また、視聴者反響データ分割手段12は、分割した視聴者反響データの分割文を対応表現検出手段13に出力する。   The viewer echo data dividing means 12 receives one or a plurality of viewer echo data 22 and divides all the documents included in the input viewer echo data 22 into predetermined units. Specifically, the viewer reverberation data dividing unit 12 divides the sentence in units of sentences based on, for example, a punctuation mark, a punctuation mark, and a period end. Each of the viewer echo data is divided into one sentence based on a punctuation mark, a punctuation mark, an end mark, and the like. Further, the viewer echo data dividing unit 12 outputs the divided sentence of the divided viewer echo data to the corresponding expression detecting unit 13.

対応表現検出手段13は、放送番組メタデータ21の全分割文と、視聴者反響データ22の分割文とを比較して、それぞれの分割文に対して対応表現である近さを表す尺度(尤度)を出力する。   Corresponding expression detection means 13 compares all the divided sentences of broadcast program metadata 21 and the divided sentence of viewer echo data 22 and measures the likelihood (likelihood) of the corresponding expression for each divided sentence. Output).

ここで、図2は、本発明における分割文の比較方法を説明するための一例を示す図である。図2に示すように、対応表現検出手段13には、放送番組メタデータ分割文1〜Nと、ある視聴者反響データkにおける各分割文1〜Mが入力され、各分割文同士で対応表現の近さを表す尺度(尤度)の検出を行い、放送番組メタデータから得られる分割文数と、視聴者反響データから得られる分割文数との組み合わせの中で所定の尤度を持つ文を、その放送番組に対する視聴者の反響データであるとする。   Here, FIG. 2 is a diagram showing an example for explaining a divided sentence comparison method according to the present invention. As shown in FIG. 2, the corresponding expression detection means 13 receives broadcast program metadata divided sentences 1 to N and the divided sentences 1 to M in a certain viewer echo data k, and the corresponding expressions are divided between the divided sentences. A sentence with a predetermined likelihood among combinations of the number of divided sentences obtained from broadcast program metadata and the number of divided sentences obtained from viewer echo data. Is the viewer's echo data for the broadcast program.

なお、所定の尤度とは、例えば放送番組メタデータから得られる分割文数及び視聴者反響データから得られる分割文同士の比較において、対応表現の尤度が最もの高いものや予め設定された尤度以上のものを検出するよう設定することができる。したがって、尤度の最も高いものであれば各視聴者からの視聴者反響データ1〜Nに対して必ず1つの対応表現を検出することができる。これにより、視聴者がどのような意見が多かったか等の放送番組の全体的な評価をすることができる。   Note that the predetermined likelihood is, for example, the one with the highest likelihood of the corresponding expression in the comparison of the number of divided sentences obtained from the broadcast program metadata and the divided sentences obtained from the viewer echo data, or a preset likelihood. It can be set to detect more than likelihood. Therefore, if the likelihood is highest, one corresponding expression can always be detected for the viewer echo data 1 to N from each viewer. Thereby, it is possible to make an overall evaluation of the broadcast program such as what kind of opinions the viewer has.

また、予め設定された尤度以上の対応表現部分を検出する場合、ある視聴者反響データに対して1又は複数の対応表現を検出することができる。また、予め設定された尤度に満たない場合は、視聴者反響データに対して対応表現が検出されない。   Further, when detecting a corresponding expression part having a likelihood equal to or higher than a preset likelihood, one or a plurality of corresponding expressions can be detected with respect to a certain viewer echo data. Further, if the likelihood set in advance is not satisfied, the corresponding expression is not detected for the viewer echo data.

したがって、ある視聴者反響データ内に複数の反響(文書)が存在する場合に、それぞれの対応表現を検出することができるため、漏れのない分類を実現することができる。また、予め設定された尤度に満たない視聴者反響データは、番組とは関係のないデータであるため、分類対象から外すことができる。これにより、高精度な文書データの分類を実現することができる。   Therefore, when a plurality of reverberations (documents) exist in a certain viewer reverberation data, each corresponding expression can be detected, so that a classification without omission can be realized. In addition, since the viewer echo data that does not satisfy the preset likelihood is data unrelated to the program, it can be excluded from the classification target. As a result, highly accurate document data classification can be realized.

このように、放送番組メタデータから得られる分割文及び視聴者反響データから得られる分割文同士で比較して対応表現を検出することで、視聴者反響データに含まれる文書のうち、どの部分が番組に対する反響であるのかを検出することができる。また、その反響が番組を構成する複数の内容(例えば、番組の冒頭、序盤、中盤、終盤等)のうち、どの部分に対応する反響であるのかを高精度に検出することができる。   In this way, by comparing the segmented sentence obtained from the broadcast program metadata and the segmented sentence obtained from the viewer echo data, by detecting the corresponding expression, which part of the document included in the viewer echo data is It is possible to detect whether the response is for a program. In addition, it is possible to detect with high accuracy which part of the plurality of contents (for example, the beginning, the beginning, the middle, the end, etc.) of the program corresponds to the response.

また、対応表現検出手段13は、検出された対応表現に対して後述する対応表現分類手段14にて分類するための1つのパラメータとなる反響の種別を設定する。なお、対応表現検出手段13における対応表現検出や種別設定の具体的な説明は後述する。対応表現検出手段13は、上述した視聴者反響データに対して得られる対応表現の検出結果を対応表現分類手段14に出力する。なお、検出結果は、例えば上述した対応表現する尤度、対応表現が検出された放送番組メタデータ対応部分や視聴者反響データの対応部分、複数の視聴者反響データを識別するための識別情報、及び反響の種別等から任意に選択された少なくとも1つの情報から構成される。   Corresponding expression detection means 13 sets the type of reverberation as one parameter for classifying the detected corresponding expression by corresponding expression classification means 14 described later. A specific description of correspondence expression detection and type setting in the correspondence expression detection unit 13 will be described later. Corresponding expression detection means 13 outputs the corresponding expression detection result obtained for the above-mentioned viewer echo data to corresponding expression classification means 14. The detection result includes, for example, the likelihood of the corresponding expression described above, the broadcast program metadata corresponding part where the corresponding expression is detected, the corresponding part of the viewer echo data, identification information for identifying a plurality of viewer echo data, And at least one piece of information arbitrarily selected from the type of echo and the like.

次に、対応表現分類手段14は、対応表現検出手段13から得られた検出結果に基づいて、視聴者反響データの分類分けを行い、その分類結果23を出力する。ここで、分類結果23としては、例えば図1に示すように視聴者反響データ毎に少なくとも1つの分類が付与される。なお、対応表現分類手段14における分類結果の出力方法はこの限りではなく、例えば分類毎に視聴者反響データの一覧を出力してもよい。図3は、分類毎の視聴者反響データ一覧を出力する一例を示す図である。なお、分類手法としては、予め設定された各分類(グループ)により視聴者反響データを分類する場合には、例えば各視聴者反響データに付与された尤度等を基準に適用することができる。また、各分類(グループ)を予め設定しないで分類する場合には、例えば重心法やk−NN法等を適用することができる。   Next, the correspondence expression classification unit 14 classifies the viewer echo data based on the detection result obtained from the correspondence expression detection unit 13 and outputs the classification result 23. Here, as the classification result 23, for example, as shown in FIG. 1, at least one classification is assigned to each viewer echo data. Note that the output method of the classification result in the correspondence expression classification unit 14 is not limited to this, and for example, a list of viewer echo data may be output for each classification. FIG. 3 is a diagram illustrating an example of outputting a viewer echo data list for each classification. In addition, as a classification method, when classifying viewer echo data according to each preset classification (group), for example, the likelihood given to each viewer echo data can be applied as a reference. Moreover, when classifying without setting each classification (group) in advance, for example, a centroid method, a k-NN method, or the like can be applied.

したがって、対応表現分類手段14は、全ての視聴者反響データについて上述した分類分けを行い、幾つかに分類された分類(グルーピング)情報が付加された視聴者反響データを出力する。なお、対応表現分類手段14は、得られた分類結果を蓄積手段15及び/又は表示画面生成手段16に出力することもできる。   Therefore, the corresponding expression classification unit 14 performs the above-described classification for all the viewer echo data, and outputs the viewer echo data to which some sort of grouping information is added. The corresponding expression classification unit 14 can also output the obtained classification result to the storage unit 15 and / or the display screen generation unit 16.

蓄積手段15は、対応表現分類手段14により得られる分類された視聴者反響データを蓄積する。また、蓄積手段15は、入力された放送番組メタデータ21や視聴者反響データ22を蓄積することもでき、対応表現検出手段13により得られる検出結果等を蓄積することもできる。また、蓄積手段15に蓄積された各種データは、必要に応じて読み出すことができ、上述した放送番組メタデータ分割手段11、視聴者反響データ分割手段12、対応表現検出手段13、又は対応表現分類手段14等にて使用することができる。   The storage unit 15 stores the classified viewer echo data obtained by the corresponding expression classification unit 14. The storage unit 15 can also store the input broadcast program metadata 21 and viewer echo data 22, and can also store detection results obtained by the corresponding expression detection unit 13. Various data stored in the storage unit 15 can be read out as necessary. The broadcast program metadata dividing unit 11, the viewer echo data dividing unit 12, the corresponding expression detecting unit 13, or the corresponding expression classification described above. It can be used by means 14 or the like.

また、表示画面生成手段16は、対応表現分類手段14により得られる分類結果を表やグラフ等、ユーザ等に見やすい表示形式に編集し、生成された表示画面をディスプレイ装置等によりユーザ等に提示する。これにより、ユーザ等に分類結果を容易に把握させることができる。なお、生成される表示画面例については後述する。   Further, the display screen generation unit 16 edits the classification result obtained by the correspondence expression classification unit 14 into a display format that is easy to see for a user or the like such as a table or a graph, and presents the generated display screen to the user or the like using a display device or the like. . Thereby, a user etc. can be made to grasp | ascertain a classification result easily. An example of the generated display screen will be described later.

上述したように、文書データ分類装置10によれば、放送番組メタデータを入力して分割する手段と、視聴者反響データを入力して分割する手段と、それぞれの分割データを比較して対応表現を検出する手段と、その対応表現の近さを表す尺度(尤度)等に応じて対応する部分を分類する手段を有することにより、放送番組にメタデータが付与される場合に、そのメタデータに基づいて1又は複数の視聴者反響データの分類を高精度に行うことができる。   As described above, according to the document data classification apparatus 10, the means for inputting and dividing the broadcast program metadata, the means for inputting and dividing the viewer echo data, and the corresponding expressions by comparing the respective divided data And a means for classifying a corresponding portion according to a scale (likelihood) indicating the proximity of the corresponding expression, so that when the metadata is given to the broadcast program, the metadata 1 or a plurality of viewer echo data can be classified with high accuracy.

つまり、コンテンツに対応する文書データの分類精度を向上させることができると共に、コンテンツのどの部分に対応する文書データかという観点からの分類を実現することができる。   That is, it is possible to improve the classification accuracy of the document data corresponding to the content, and it is possible to realize the classification from the viewpoint of the document data corresponding to which part of the content.

<対応表現検出>
次に、上述した対応表現検出手段13による対応検出内容について具体的に説明する。まず、図2に示すように、放送番組メタデータ分割文1〜Nと、視聴者アンケートk分割文1〜Mとで同一内容表現を検出する際、その検出は各分割文の語句と構造で決定するため、例えば1次近似(線形近似)等を用いて同一表現を検出することができる。また、構造の違いは、木構造、線形表記等により同一表現を検出し、語句についてはデータを階層的に体系化したシソーラスやオントロジー、知識処理等により同一表現を検出することができる。また、比較する語句及び構造をSVM(サポートベクターマシン)等の2値分類器に入力することで、その表現が同一か否かを検出することもできる。
<Correspondence expression detection>
Next, the content of correspondence detection by the correspondence expression detection means 13 described above will be specifically described. First, as shown in FIG. 2, when the same content expression is detected in the broadcast program metadata divided sentences 1 to N and the viewer questionnaire k divided sentences 1 to M, the detection is based on the phrase and structure of each divided sentence. In order to determine, the same expression can be detected using, for example, linear approximation (linear approximation) or the like. In addition, the same expression can be detected by a tree structure, linear notation or the like for the difference in structure, and the same expression can be detected by a thesaurus, ontology, knowledge processing or the like in which data is hierarchically organized. It is also possible to detect whether or not the expressions are the same by inputting the words and structures to be compared to a binary classifier such as SVM (Support Vector Machine).

ここで、対応表現検出手段13は、上述したように、比較する2つの分割文に対して対応表現の近さを表す尺度(尤度)を出力する。具体的には、文の形態素解析や係り受け解析等からなる木構造の距離により尤度を決定する。また、放送番組メタデータの分割文数と、ある視聴者反響データkとの分割文数との組み合わせから得られる2文比較の出力のうち、所定の尤度を満たすものを検出する。   Here, as described above, the correspondence expression detection unit 13 outputs a scale (likelihood) representing the proximity of the correspondence expression for the two divided sentences to be compared. Specifically, the likelihood is determined based on the distance of the tree structure composed of sentence morphological analysis and dependency analysis. In addition, two sentence comparison outputs obtained from a combination of the number of divided sentences of broadcast program metadata and the number of divided sentences of certain viewer echo data k satisfy the predetermined likelihood.

ここで、具体的な例を用いて説明する。図4は、放送番組メタデータと、視聴者反響データの一例を示す図である。図4には、ある番組についての放送番組メタデータ31と、視聴者が放送番組メタデータ31に対応する番組(コンテンツ)を視聴した後の反響データ32を示している。   Here, it demonstrates using a specific example. FIG. 4 is a diagram illustrating an example of broadcast program metadata and viewer echo data. FIG. 4 shows broadcast program metadata 31 for a certain program and echo data 32 after a viewer views a program (content) corresponding to the broadcast program metadata 31.

このとき、反響データ32には、「太陽のまわりを地球が回っているなんてけしからん」という文が含まれており、この文のうち下線部の「太陽のまわりを地球が回っている」が番組メタデータ31の下線部に示された「地球が太陽のまわりを回っている」の放送番組内容の対応表現であり、「けしからん」がその反響であると判断することができる。ここで、この場合における対応表現検出について説明する。   At this time, the reverberation data 32 includes a sentence “The Earth is turning around the sun”, and the underlined part of this sentence is “The Earth is turning around the sun”. It is a corresponding expression of the content of the broadcast program “Earth is turning around the sun” shown in the underlined portion of the metadata 31, and it can be determined that “Keshakuren” is the response. Here, the correspondence expression detection in this case will be described.

図5は、本発明における形態素解析及び係り受け解析の一例を示す図である。対応表現検出手段13では、放送番組メタデータ31に含まれる「・・・地球が太陽のまわりを回っている・・・」という文に対して、図5に示すような形態素解析と形態素解析に基づく係り受け解析を行う。また同様に、反響データ32に対しても形態素解析及び係り受け解析を行う。   FIG. 5 is a diagram showing an example of morphological analysis and dependency analysis in the present invention. Corresponding expression detection means 13 performs morphological analysis and morphological analysis as shown in FIG. 5 for a sentence “... the earth is turning around the sun” included in broadcast program metadata 31. Based on dependency analysis. Similarly, morphological analysis and dependency analysis are performed on the echo data 32.

つまり、係り受けは、句の修飾関係を示しており、どの句も1つの句しか修正しないため、係り先が1つしか存在しない。そこで、係り受け解析結果のデータ構造を図5に示すように木構造で表現し、木構造間での類似性を比較する。   In other words, the dependency indicates the modification relationship of the phrases, and since each phrase corrects only one phrase, there is only one dependency destination. Therefore, the data structure of the dependency analysis result is expressed as a tree structure as shown in FIG. 5, and the similarities between the tree structures are compared.

次に、上述した係り受け解析により得られる木構造の比較により対応表現の検出を行う。図6は、木構造比較の一例を示す図である。図6に示すように、それぞれの係り受け解析から得られる木構造での比較は、例えば木の線形の構造を比較し、その差分を木構造間の距離として検出する。例えば、2つの木構造を順序木とした場合、一方から、もう一方の木構造になるために、挿入、置換、削除等のどの程度行えばよいかを検出し、その検出結果により類似度(距離)を検出する。これにより、対応表現を特徴的な単語だけでなく、その修飾関係を表す構造を統計的に学習することによって、反響データに含まれる文書のうち、番組に対応する部分がどこであるか、また番組のどの部分に対する反響かを高精度に検出することができる。したがって、高精度に反響データに対する分類を実現することができる。なお、本発明における分割文の比較手法についてはこれに限定されるものではない。   Next, correspondence expressions are detected by comparing tree structures obtained by the dependency analysis described above. FIG. 6 is a diagram illustrating an example of tree structure comparison. As shown in FIG. 6, the comparison in the tree structure obtained from each dependency analysis is performed by, for example, comparing the linear structures of the trees and detecting the difference as the distance between the tree structures. For example, if two tree structures are ordered trees, it is detected how much insertion, replacement, deletion, etc., should be performed in order to change from one to the other tree structure, and the similarity ( Distance). As a result, the correspondence expression is statistically learned not only for the characteristic words but also for the structure representing the modification relationship, so that the portion of the document included in the echo data is the part corresponding to the program, and the program It is possible to accurately detect which part of the echo is reflected. Therefore, it is possible to realize classification for echo data with high accuracy. The divided sentence comparison method in the present invention is not limited to this.

<種別設定>
次に、対応表現検出手段13における種別設定内容について具体的に説明する。対応表現検出手段13は、反響データに対して対応表現部分を検出した後、視聴者からの反響は「良い」ものであるか、または「悪い」ものであるかの種別を設定する。ここで、図7は、反響の種別を設定するための一例を示す図である。図7には、反響データ32に含まれる「息子の教育に悪いので××なんてけしからん。(××は、例えば上述した「太陽のまわりを地球が回っている」を示す。)」という文に対しての上述の形態素解析及び係り受け解析結果による木構造が示されている。
<Type setting>
Next, the type setting contents in the correspondence expression detection unit 13 will be specifically described. After detecting the corresponding expression portion for the echo data, the correspondence expression detection unit 13 sets the type of whether the echo from the viewer is “good” or “bad”. Here, FIG. 7 is a diagram illustrating an example for setting the type of echo. In FIG. 7, the sentence “XX is bad for my son ’s education because it is bad for my son.” (XX indicates, for example, “the earth is turning around the sun” described above). A tree structure based on the morphological analysis and dependency analysis results described above is shown.

ここで、この文の反響の種別を検出するために、予め設定されたシソーラスを用いる。図8は、シソーラスの一例を示す図である。図8には、主観評価を表す表現のシソーラスの一例を示している。つまり、本発明におけるシソーラスは、反響の表現として、番組の内容に対応する特徴的な表現(句)を系統的に整備し、それらのデータを階層的に体系化したものである。   Here, in order to detect the type of echo of this sentence, a preset thesaurus is used. FIG. 8 is a diagram illustrating an example of a thesaurus. FIG. 8 shows an example of a thesaurus of expressions representing subjective evaluation. That is, the thesaurus according to the present invention is a system in which characteristic expressions (phrases) corresponding to the contents of a program are systematically prepared as reverberation expressions, and these data are systematized hierarchically.

具体的には、番組の評価が「良い」に該当するシソーラス(きれい、ためになった、おもしろい、美しい、シンプルだ等)や番組の評価が「悪い」に該当するシソーラス(教育に悪影響、内容が事実でない、けしからん等)を予め設定しておくことで、高精度に反響データの種別を設定することができ、この内容に基づいて、視聴者反響データを分類分けすることができる。   Specifically, a thesaurus whose program rating is “good” (clean, useful, interesting, beautiful, simple, etc.) or a program whose program rating is “bad” (adverse education, content Is not true, and the like is set in advance, the type of the echo data can be set with high accuracy, and the viewer's echo data can be classified based on this content.

ここで、シソーラス等に予め設定される表現が番組の内容とは別に設定されていると、番組内容にあった適切な尤度が得られないため、必ずしも適切な分類をすることができない。具体的には、例えば「効率化が進んで、夜行列車が走らなくなった」は、線路付近の住民の騒音に関する放送であれば「良い反響」となり、夜行列車が好きな人向けの番組であれば「悪い反響」となる。したがって、本発明では、番組の内容に対応した表現を設定しておくことで、上述のような場合でも高精度に種別を設定することができる。   Here, if an expression preset in the thesaurus or the like is set separately from the contents of the program, an appropriate likelihood corresponding to the contents of the program cannot be obtained, and therefore an appropriate classification cannot always be performed. Specifically, for example, “Efficiency has advanced and night trains can no longer run” is a “good response” for broadcasts related to the noise of residents near the track. “Bad response”. Therefore, in the present invention, by setting the expression corresponding to the contents of the program, the type can be set with high accuracy even in the above case.

このように、形態素解析及び係り受け解析を用いた木構造により比較、木構造学習、シソーラス等を用いることで、放送番組のどの部分に対するどのような反響であるのかを高精度に検出することができる。なお、種別の種類は、良い、悪いに限定されるものではなく、反響データの内容に応じて他の種別に任意に設定することができる。   In this way, by using comparison, tree structure learning, thesaurus etc. by tree structure using morphological analysis and dependency analysis, it is possible to detect what kind of response to which part of the broadcast program with high accuracy. it can. Note that the type of type is not limited to good or bad, and can be arbitrarily set to other types according to the contents of the echo data.

<他の例>
ここで、本発明における対応表現の検出や種別の設定についてはこれに限定されるものではなく、例えば主張文の検出や同一表現の検出、文中の係り受けに対する因果関係の検出等により、番組に対して視聴者がどのような主張をしたかを判断することができる。
<Other examples>
Here, the detection of the corresponding expression and the setting of the type in the present invention are not limited to this. For example, by detecting the asserted sentence, detecting the same expression, detecting the causal relationship to the dependency in the sentence, etc. It is possible to determine what the viewer has made to the viewer.

つまり、例えば上述した図4に示す反響データ32において、放送番組メタデータと同一対応表現である「太陽のまわりを地球が回っている」は主張対象であり、「けしからん」が主張している内容となるため、この文には因果関係があり、更に主張文であると判断することができる。   That is, for example, in the echo data 32 shown in FIG. 4 described above, “the earth is turning around the sun”, which is the same expression as the broadcast program metadata, is the object of assertion, and the contents claimed by “Keshikan” Therefore, it can be determined that this sentence has a causal relationship and is a claim sentence.

また、上述した以外にも、例えば反響データのうち、分割された文が主張文と客観文のどちらの文であるかを予め設定される条件に基づいて判別し、その判別結果から主張文を用いて対応表現の検出や種別の設定を行うことができる。   In addition to the above, for example, in the echo data, it is determined whether the divided sentence is an asserted sentence or an objective sentence based on a preset condition, and the asserted sentence is determined from the determination result. The correspondence expression can be detected and the type can be set.

ここで、主張文とは、主観的な意見を述べている文であり、例えば必ずしも大勢と認識を共有できない表現や、主観表現独特の言語的特徴を有する場合等がある。なお、主張文としては、例えば「〜と思う」、「〜が好き」等が該当する。また、客観文とは、いわゆる事実を述べている部分であり、たいていは大勢と認識を共有できる表現であり、客観的表現独特の言語的特徴を有する場合もある。なお、客観文としては、例えば「事実〜である」等が該当する。なお、主張文であるか客観文であるかの判断は、予め正解データが登録されたコーパス等の学習データを作成しておき、そのコーパスを用いて判別することができる。   Here, the assertion sentence is a sentence expressing a subjective opinion. For example, the assertion sentence may have expressions that cannot be shared with many people, or may have linguistic features unique to subjective expressions. In addition, as an assertion sentence, "I think", "I like", etc. correspond, for example. In addition, an objective sentence is a part that describes a so-called fact, and is usually an expression that can be shared with many people, and may have a linguistic feature unique to the objective expression. As an objective sentence, for example, “is a fact” is applicable. Note that whether the sentence is an assertion sentence or an objective sentence can be determined by preparing learning data such as a corpus in which correct data is registered in advance and using the corpus.

つまり、視聴者反響データにおける主張文を抽出することにより、視聴者反響データ内で視聴者が最も主張したい部分(要点)を抽出することができる。また、主張文を用いて上述した木構造による検出を行うことで、より高精度に対応表現検出や種別設定を行うことができる。   That is, by extracting the assertion sentence in the viewer echo data, it is possible to extract the portion (the main point) that the viewer wants to assert most in the viewer echo data. In addition, by performing detection based on the above-described tree structure using an assertion sentence, it is possible to perform correspondence expression detection and type setting with higher accuracy.

<主張文について>
ここで、上述した主張文について具体的に説明する。主張文としては、例えば「あいまいさ・相対性」、「埋め込み文」等が存在する。
<About the claim>
Here, the claim sentence mentioned above is demonstrated concretely. As the assertion sentence, for example, there are “ambiguousness / relativeity”, “embedded sentence”, and the like.

「あいまいさ・相対性」とは、ほぼ純粋や主張(嗜好的主張)であり、例えば「りんごが好き」、「バナナが嫌い」等が該当する。また、他の例としては、外部に基準を持つ主張(倫理的主張)もあり、例えば「ゆとり教育は好ましくない」や、「学力の低下は好ましくない」等が該当する。更に、因果関係を持つ主張(論理的主張)があり、例えば「風が吹くから桶屋が儲かる」等が該当する。   “Ambiguity / relativity” is almost pure or assertive (preferred claim), for example, “I like apples”, “I don't like bananas”, etc. As another example, there is a claim having an external standard (ethical claim), for example, “clear education is not preferable”, “decrease in academic ability is not preferable”, and the like. Furthermore, there is an assertion (logical assertion) having a causal relationship, for example, “the wind blows and the candy shop makes money”.

また、「埋め込み文」としては、例えば「りんごが好きだと言っている(意見+事実)」や、「小鳥が鳴くのが好き(事実+意見)」等が該当する。   The “embedded sentence” includes, for example, “I say I like apples (opinion + facts)”, “I like ringing birds (facts + opinions)”, and the like.

また、主張文を推量(「〜かもしれない」)や可能(「〜できる」)等の助動詞や順接、逆接等の接続詞等で判定することもできる。   In addition, the asserted sentence can be determined by an auxiliary verb such as a guess (“maybe”) or possible (“can do”), a conjunctive such as forward or reverse, and the like.

なお、ある視聴者反響データ内に複数の主張表現が複数ある場合(例えば、良い意見と悪い意見が含まれる場合)には、それぞれの表現の上位グループに属するスコアの分散と、下位グループのスコアの分散とを求め、その結果から境界を設定する。したがって、視聴者反響データからの複数の種別を設定することができ、それぞれに対応する表現部分を検出することができる。なお、一般的にK個の集合に分割する方法としては、例えばK−means法等を用いることができる。   When there are a plurality of asserted expressions in a certain viewer echo data (for example, when a good opinion and a bad opinion are included), the distribution of scores belonging to the upper group of each expression and the score of the lower group The boundary is set from the result. Therefore, it is possible to set a plurality of types from the viewer echo data, and to detect the corresponding expression part. In general, as a method of dividing into K sets, for example, a K-means method or the like can be used.

<生成される表示画面例>
次に、表示画面生成手段16により生成される表示画面例について、図を用いて説明する。図9は、本発明における分類結果の表示画面の一例を示す図である。
<Example of generated display screen>
Next, an example of a display screen generated by the display screen generation unit 16 will be described with reference to the drawings. FIG. 9 is a diagram showing an example of a display screen for classification results in the present invention.

図9に示すように表示結果としては、例えば番組全体のうち、どの部分に対する反響が多かったのかを円グラフ41にて示している。また、例えば円グラフ41のうち、「中盤への反響」に対する表示領域を画面上で選択(クリック)すると、その「中盤への反響」に対する種類の分類結果とその内訳(比率)が円グラフ42により表示される。   As shown in FIG. 9, as a display result, for example, a pie chart 41 indicates which part of the entire program has a large response. Further, for example, when a display area for “resonance to the middle board” in the pie chart 41 is selected (clicked) on the screen, the classification result and the breakdown (ratio) of the types for the “resonance to the middle board” are displayed in the pie chart 42. Is displayed.

更に、円グラフ42のうち例えば「良い」に対する表示領域を選択すると、中盤への反響の「良い」の細分類とその内訳が円グラフ43により表示される。   Further, when a display area for “good”, for example, is selected from the pie chart 42, the subcategory “good” of the response to the middle board and its breakdown are displayed by the pie chart 43.

また、他の例としては、例えば「中盤への反響」に対する表示領域を画面上で選択すると中盤と分類された視聴者反響データのうち、「始め」、「中頃」、「終り」のうちのどの部分の反響であるかを示す中盤の細分類とその内訳を円グラフ44に表示させてもよい。更に、円グラフ43,44を選択することで反響の具体的な内容(反響データ全文、対応表現部分、反響データを作成した視聴者に関する情報等)を表示させることができる。   As another example, for example, when the display area for “resonance to the middle stage” is selected on the screen, among the audience reverberation data classified as the middle stage, among “start”, “middle”, and “end” The pie chart 44 may display the middle classification and its breakdown showing which part is the echo. Furthermore, by selecting the pie charts 43 and 44, the specific contents of the echo (the full text of the echo data, the corresponding expression portion, information on the viewer who created the echo data, etc.) can be displayed.

上述したように、表示画面生成手段16により分類結果を表やグラフ等で表示することで、ユーザ等に分類結果を容易に把握させることができる。なお、本発明においては、円グラフに限定されず、線グラフやレーダーグラフ等により図形表示させることもでき、また分類結果として得られる各項目とその内訳(比率)とを表形式で表示させることもできる。更に、例えば毎日、毎週放送される番組等の場合には、以前の分類結果を蓄積手段15等に蓄積しておき、そのデータから統計結果を生成して表示させてもよい。   As described above, by displaying the classification result as a table, a graph, or the like by the display screen generation unit 16, it is possible for the user or the like to easily grasp the classification result. In the present invention, it is not limited to a pie chart, it can also be displayed graphically by a line graph, a radar graph, etc., and each item obtained as a classification result and its breakdown (ratio) can be displayed in a table format. You can also. Further, for example, in the case of a program that is broadcast daily or weekly, the previous classification result may be stored in the storage means 15 and the statistical result may be generated from the data and displayed.

<実行プログラム>
ここで、上述した文書データ分類装置10は、上述した専用の装置構成等を用いて本発明における文書データ分類を行うこともできるが、各構成における処理をコンピュータに実行させるための実行プログラムを生成し、例えば汎用のパーソナルコンピュータ、サーバ等にそのプログラムをインストールすることにより、本発明における文書データ分類処理を実現することができる。
<Execution program>
Here, the document data classification device 10 described above can perform document data classification in the present invention using the dedicated device configuration described above, but generates an execution program for causing a computer to execute the processing in each configuration. For example, the document data classification process according to the present invention can be realized by installing the program in a general-purpose personal computer, server, or the like.

<ハードウェア構成>
ここで、本発明における文書データ分類処理が実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図10は、本発明における文書データ分類処理が実現可能なハードウェア構成の一例を示す図である。
<Hardware configuration>
Here, a hardware configuration example of a computer capable of executing document data classification processing according to the present invention will be described with reference to the drawings. FIG. 10 is a diagram illustrating an example of a hardware configuration capable of realizing document data classification processing according to the present invention.

図10におけるコンピュータ本体には、入力装置51と、出力装置52と、ドライブ装置53と、補助記憶装置54と、メモリ装置55と、各種制御を行うCPU(Central Processing Unit)56と、ネットワーク接続装置57とを有するよう構成されており、これらはシステムバスBで相互に接続されている。   10 includes an input device 51, an output device 52, a drive device 53, an auxiliary storage device 54, a memory device 55, a CPU (Central Processing Unit) 56 that performs various controls, and a network connection device. 57 are connected to each other by a system bus B.

入力装置51は、ユーザが操作するキーボード及びマウス等のポインティングデバイスや音声入力デバイス等を有しており、ユーザからのプログラムの実行指示等、各種操作信号、音声信号を入力する。出力装置52は、本発明における処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイやスピーカ等を有し、CPU56が有する制御プログラムにより実行経過や結果等を表示又は音声出力することができる。   The input device 51 includes a keyboard and a pointing device such as a mouse operated by the user, a voice input device, and the like, and inputs various operation signals and voice signals such as a program execution instruction from the user. The output device 52 has a display, a speaker, and the like that display various windows and data necessary for operating the computer main body for performing the processing in the present invention. Display or audio output is possible.

ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えばCD−ROM等の可搬型の記録媒体58等により提供される。プログラムを記録した記録媒体58は、ドライブ装置53にセット可能であり、記録媒体58に含まれる実行プログラムが、記録媒体58からドライブ装置53を介して補助記憶装置54にインストールされる。   In the present invention, the execution program installed in the computer main body is provided by a portable recording medium 58 such as a CD-ROM. The recording medium 58 on which the program is recorded can be set in the drive device 53, and the execution program included in the recording medium 58 is installed in the auxiliary storage device 54 from the recording medium 58 via the drive device 53.

また、ドライブ装置53は、本発明に係る実行プログラムを記録媒体58に記録することができる。これにより、その記録媒体58を用いて、他の複数のコンピュータに容易にインストールすることができ、容易に文書データ分類処理を実現することができる。   Further, the drive device 53 can record the execution program according to the present invention in the recording medium 58. As a result, the recording medium 58 can be used for easy installation on a plurality of other computers, and document data classification processing can be easily realized.

補助記憶装置54は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。また、補助記憶装置54は、上述した放送番組メタデータや視聴者反響データ、分類された視聴者反響データ等を蓄積する蓄積手段として用いることもできる。   The auxiliary storage device 54 is a storage means such as a hard disk, and can store an execution program according to the present invention, a control program provided in a computer, etc., and perform input / output as necessary. The auxiliary storage device 54 can also be used as storage means for storing the above-mentioned broadcast program metadata, viewer echo data, classified viewer echo data, and the like.

CPU56は、OS(Operating System)等の制御プログラム、及び補助記憶装置54から読み出されメモリ装置55に格納されている実行プログラム等に基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、文書データ分類処理における各処理を実現することができる。また、プログラムの実行中に必要な各種情報等は、補助記憶装置54から取得することができ、また格納することもできる。   Based on a control program such as an OS (Operating System) and an execution program read from the auxiliary storage device 54 and stored in the memory device 55, the CPU 56 inputs various calculations and data with each hardware component. Each processing in the document data classification processing can be realized by controlling processing of the entire computer such as output. Various information necessary during the execution of the program can be acquired from the auxiliary storage device 54 and stored.

ネットワーク接続装置57は、電話回線やLAN(Local Area Network)ケーブル等の通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラムを他の端末等に提供することができる。   The network connection device 57 obtains an execution program from another terminal connected to the communication network or executes the program by connecting to a communication network such as a telephone line or a LAN (Local Area Network) cable. The execution result obtained in this way or the execution program in the present invention can be provided to other terminals.

上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで文書データ分類処理を実現することができる。また、プログラムをインストールすることにより、容易に文書データ分類処理を実現することができる。   With the hardware configuration as described above, a document data classification process can be realized at a low cost without requiring a special device configuration. In addition, the document data classification process can be easily realized by installing the program.

<文書データ分類処理手順>
次に、本発明における実行プログラム(文書データ分類プログラム)を用いた文書データ分類処理手順についてフローチャートを用いて説明する。図11は、文書データ分類処理手順の一例を示すフローチャートである。
<Document data classification procedure>
Next, a document data classification process procedure using an execution program (document data classification program) according to the present invention will be described with reference to a flowchart. FIG. 11 is a flowchart illustrating an example of a document data classification processing procedure.

図11において、まず放送番組等のコンテンツに対応する放送番組メタデータを入力し(S01)、入力した放送番組メタデータに含まれる1又は複数の文書を例えば文単位等の所定の単位で分割する(S02)。次に、視聴者から得られる1又は複数の視聴者反響データを入力し(S03)、入力した視聴者反響データに含まれる1又は複数の文書を例えば文単位等の所定の単位で分割する(S04)。   In FIG. 11, first, broadcast program metadata corresponding to content such as a broadcast program is input (S01), and one or more documents included in the input broadcast program metadata are divided into predetermined units such as sentence units, for example. (S02). Next, one or a plurality of viewer echo data obtained from the viewer is input (S03), and one or a plurality of documents included in the input viewer echo data is divided into predetermined units such as sentence units (for example). S04).

次に、S02により得られる放送番組メタデータの分割文と、S04により得られるある1つの視聴者反響データの分割文とに基づいて上述したように対応表現を検出する(S05)。なお、S05においては、反響の種別の設定も行う。また、S05の処理が終了後、全ての視聴者反響データについて対応表現の検出が終了したか否かを判断する(S06)。   Next, as described above, the corresponding expression is detected based on the divided sentence of the broadcast program metadata obtained in S02 and the divided sentence of one viewer echo data obtained in S04 (S05). In S05, the echo type is also set. Further, after the process of S05 is completed, it is determined whether or not the corresponding expression has been detected for all viewer echo data (S06).

ここで、全ての視聴者反響データについて対応表現検出が終了していない場合(S06において、NO)。S05に戻り、S02により得られる放送番組メタデータの分割文と、まだ処理されていない他の視聴者反響データの分割文とに基づいて対応表現を検出する。また、S06の処理において、全ての視聴者反響データについて対応表現検出が終了した場合(S06において、YES)、視聴者反響データの分類分けを行う(S07)。   Here, when the corresponding expression detection has not been completed for all viewer echo data (NO in S06). Returning to S05, the corresponding expression is detected based on the divided sentence of the broadcast program metadata obtained in S02 and the divided sentence of other viewer echo data that has not yet been processed. Further, in the processing of S06, when the corresponding expression detection is completed for all the viewer echo data (YES in S06), the viewer echo data is classified (S07).

また、S07にて分類分けされた視聴者反響データを用いて表示画面を生成し(S08)、生成した表示画面をディスプレイ等に出力する(S09)。上述した文書データ分類処理により、文書データの分類精度を向上させることができる。また、プログラムをインストールすることにより、容易に文書データ分類処理を実現することができる。   Further, a display screen is generated using the viewer echo data classified in S07 (S08), and the generated display screen is output to a display or the like (S09). The document data classification process described above can improve the classification accuracy of document data. In addition, the document data classification process can be easily realized by installing the program.

上述したように本発明によれば、コンテンツに対応するメタデータと文書データとに含まれる文書を分割して比較することで対応表現部分を検出し、その検出結果に基づいて分類分けを行うことにより、文書データの分類精度を向上させることができる。   As described above, according to the present invention, the corresponding expression portion is detected by dividing and comparing the document included in the metadata corresponding to the content and the document data, and classification is performed based on the detection result. As a result, the classification accuracy of the document data can be improved.

これにより、例えば放送局等が、放送番組にメタデータを付与した放送を開始した場合、又は放送局以外のコンテンツ提供事業者から放送番組に対するメタデータが提供された場合に、これらのメタデータを放送番組に対する反響の分類指標に用いることで、どのような種類の反響があったかを高精度に取得することができる。したがって、放送局等は、番組反響に対して適切な分析を行うことができ、番組制作に反映させることができる。   Thus, for example, when a broadcast station or the like starts broadcasting with metadata added to a broadcast program, or when metadata for a broadcast program is provided from a content provider other than the broadcast station, these metadata are set. By using it as an index for classifying the response to a broadcast program, it is possible to obtain with high accuracy what kind of response has occurred. Therefore, the broadcasting station or the like can perform an appropriate analysis on the program response and reflect it in the program production.

なお、本発明におけるコンテンツは、ニュースやバラエティ等の一般的な番組に限定されず、例えば、動画、音楽、映画、テキスト情報等、あらゆるコンテンツに適用することができる。   The content in the present invention is not limited to general programs such as news and variety, and can be applied to any content such as moving images, music, movies, text information, and the like.

以上本発明の好ましい実施の形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。   Although the preferred embodiment of the present invention has been described in detail above, the present invention is not limited to the specific embodiment, and various modifications are possible within the scope of the gist of the present invention described in the claims. Can be changed.

本発明における文書データ分類装置の概略構成の一例を示す図である。It is a figure which shows an example of schematic structure of the document data classification device in this invention. 本発明における分割文の比較方法を説明するための一例を示す図である。It is a figure which shows an example for demonstrating the comparison method of the division sentence in this invention. 分類毎の視聴者反響データの一覧を出力する一例を示す図である。It is a figure which shows an example which outputs the list of the viewer echo data for every classification. 放送番組メタデータと、視聴者反響データの一例を示す図である。It is a figure which shows an example of broadcast program metadata and viewer echo data. 本発明における形態素解析及び係り受け解析の一例を示す図である。It is a figure which shows an example of the morphological analysis and dependency analysis in this invention. 木構造比較の一例を示す図である。It is a figure which shows an example of a tree structure comparison. 反響の種別を設定するための一例を示す図である。It is a figure which shows an example for setting the classification of reverberation. シソーラスの一例を示す図である。It is a figure which shows an example of a thesaurus. 本発明における分類結果の表示画面の一例を示す図である。It is a figure which shows an example of the display screen of the classification result in this invention. 本発明における文書データ分類処理が実現可能なハードウェア構成の一例を示す図である。It is a figure which shows an example of the hardware constitutions which can implement | achieve the document data classification | category process in this invention. 文書データ分類処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of a document data classification | category process procedure.

符号の説明Explanation of symbols

10 文書データ分類装置
11 放送番組メタデータ分割手段
12 視聴者反響データ分割手段
13 対応表現検出手段
14 対応表現分類手段
15 蓄積手段
16 表示画面生成手段
21,31 放送番組メタデータ
22 視聴者反響データ
23 分類結果
32 反響データ
41〜44 円グラフ
51 入力装置
52 出力装置
53 ドライブ装置
54 補助記憶装置
55 メモリ装置
56 CPU
57 ネットワーク接続装置
58 記録媒体
DESCRIPTION OF SYMBOLS 10 Document data classification | category apparatus 11 Broadcast program metadata division | segmentation means 12 Viewer reverberation data division | segmentation means 13 Correspondence expression detection means 14 Correspondence expression classification means 15 Storage means 16 Display screen generation means 21, 31 Broadcast program metadata 22 Viewer reverberation data 23 Classification result 32 Echo data 41 to 44 Pie chart 51 Input device 52 Output device 53 Drive device 54 Auxiliary storage device 55 Memory device 56 CPU
57 Network connection device 58 Recording medium

Claims (7)

コンテンツに対応するメタデータにより前記コンテンツに関連する1又は複数の文書データを分類分けする文書データ分類装置であって、
前記メタデータに含まれる文書を所定の単位で分割するメタデータ分割手段と、
前記文書データに含まれる文書を所定の単位で分割する文書データ分割手段と、
前記メタデータ分割手段により得られる1又は複数の分割文と、前記文書データ分割手段により得られる1又は複数の分割文とに基づいて、前記コンテンツを構成する複数の内容のうち、少なくとも1つに対応した表現部分を検出する対応表現検出手段と、
前記対応表現検出手段により得られる検出結果に基づいて、前記文書データを分類分けする対応表現分類手段とを有することを特徴とする文書データ分類装置。
A document data classification device for classifying one or a plurality of document data related to the content by metadata corresponding to the content,
Metadata dividing means for dividing a document included in the metadata by a predetermined unit;
Document data dividing means for dividing a document included in the document data by a predetermined unit;
Based on one or more divided sentences obtained by the metadata dividing means and one or more divided sentences obtained by the document data dividing means, at least one of a plurality of contents constituting the content Correspondence expression detection means for detecting a corresponding expression part;
A document data classification apparatus comprising: a correspondence expression classification unit that classifies the document data based on a detection result obtained by the correspondence expression detection unit.
前記対応表現検出手段は、
前記メタデータ分割手段により得られる1又は複数の分割文及び前記文書データ分割手段により得られる1又は複数の分割文のそれぞれについて形態素解析を行い、その解析結果を用いた係り受け解析から木構造を生成し、生成された木構造同士を比較することで、前記表現部分を検出することを特徴とする請求項1に記載の文書データ分類装置。
The correspondence expression detecting means includes
A morphological analysis is performed on each of one or more divided sentences obtained by the metadata dividing means and one or more divided sentences obtained by the document data dividing means, and a tree structure is obtained from dependency analysis using the analysis results. The document data classification apparatus according to claim 1, wherein the expression part is detected by generating and comparing the generated tree structures.
前記対応表現検出手段は、
予め設定されたシソーラスに基づいて前記文書データに対して所定の種別を設定することを特徴とする請求項1又は2に記載の文章データ分類装置。
The correspondence expression detecting means includes
3. The sentence data classification apparatus according to claim 1, wherein a predetermined type is set for the document data based on a preset thesaurus.
前記対応表現検出手段は、
前記文書データ分割手段により得られる1又は複数の分割文のそれぞれについて、主張文と客観文とを判別し、判別された主張文に基づいて前記表現部分を検出することを特徴とする請求項1乃至3の何れか1項に記載の文書データ分類装置。
The correspondence expression detecting means includes
The claim sentence and the objective sentence are discriminated for each of one or a plurality of divided sentences obtained by the document data dividing means, and the expression part is detected based on the discriminated sentence. 4. The document data classification device according to any one of items 1 to 3.
前記対応表現分類手段により得られる分類結果を少なくともグラフ又は表により表示するための画面を生成する表示画面生成手段を有することを特徴とする請求項1乃至4の何れか1項に記載の文書データ分類装置。   5. The document data according to claim 1, further comprising a display screen generation unit configured to generate a screen for displaying at least a graph or a table of the classification result obtained by the correspondence expression classification unit. Classification device. 前記文書データは、
各視聴者に提供された前記コンテンツに対する反響として、前記各視聴者により作成された反響データであることを特徴とする請求項1乃至5の何れか1項に記載の文書データ分類装置。
The document data is
The document data classification device according to claim 1, wherein the data provided by each viewer is echo data created by each viewer as a response to the content provided to each viewer.
コンテンツに対応するメタデータにより前記コンテンツに関連する1又は複数の文書データを分類分けする文書データ分類処理をコンピュータに実行させるための文書データ分類プログラムであって、
前記メタデータに含まれる文書を所定の単位で分割するメタデータ分割処理と、
前記文書データに含まれる文書を所定の単位で分割する文書データ分割処理と、
前記メタデータ分割処理により得られる1又は複数の分割文と、前記文書データ分割処理により得られる1又は複数の分割文とに基づいて、前記コンテンツを構成する複数の内容のうち、少なくとも1つに対応した表現部分を検出する対応表現検出処理と、
前記対応表現検出処理により得られる検出結果に基づいて、前記文書データを分類分けする対応表現分類処理とをコンピュータに実行させるための文書データ分類プログラム。
A document data classification program for causing a computer to execute document data classification processing for classifying one or a plurality of document data related to the content by metadata corresponding to the content,
Metadata division processing for dividing a document included in the metadata in a predetermined unit;
Document data division processing for dividing a document included in the document data in a predetermined unit;
Based on one or more divided sentences obtained by the metadata dividing process and one or more divided sentences obtained by the document data dividing process, at least one of a plurality of contents constituting the content A corresponding expression detection process for detecting a corresponding expression part;
A document data classification program for causing a computer to execute a corresponding expression classification process for classifying the document data based on a detection result obtained by the corresponding expression detection process.
JP2006129318A 2006-05-08 2006-05-08 Document data sorting device and document data sorting program Pending JP2007304642A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006129318A JP2007304642A (en) 2006-05-08 2006-05-08 Document data sorting device and document data sorting program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006129318A JP2007304642A (en) 2006-05-08 2006-05-08 Document data sorting device and document data sorting program

Publications (1)

Publication Number Publication Date
JP2007304642A true JP2007304642A (en) 2007-11-22

Family

ID=38838550

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006129318A Pending JP2007304642A (en) 2006-05-08 2006-05-08 Document data sorting device and document data sorting program

Country Status (1)

Country Link
JP (1) JP2007304642A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009048482A (en) * 2007-08-21 2009-03-05 Nippon Hoso Kyokai <Nhk> Information extraction apparatus, information extraction method, and information extraction program
JP2018198002A (en) * 2017-05-24 2018-12-13 株式会社エヌ・ティ・ティ・データ Document processing device, document processing method and program
JP2020004156A (en) * 2018-06-29 2020-01-09 富士通株式会社 Classification method, apparatus, and program
JP2020004157A (en) * 2018-06-29 2020-01-09 富士通株式会社 Classification method, apparatus, and program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002279026A (en) * 2001-03-19 2002-09-27 Nec Corp Server, method and program for presenting program interest level
WO2005069171A1 (en) * 2004-01-14 2005-07-28 Nec Corporation Document correlation device and document correlation method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002279026A (en) * 2001-03-19 2002-09-27 Nec Corp Server, method and program for presenting program interest level
WO2005069171A1 (en) * 2004-01-14 2005-07-28 Nec Corporation Document correlation device and document correlation method

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009048482A (en) * 2007-08-21 2009-03-05 Nippon Hoso Kyokai <Nhk> Information extraction apparatus, information extraction method, and information extraction program
JP2018198002A (en) * 2017-05-24 2018-12-13 株式会社エヌ・ティ・ティ・データ Document processing device, document processing method and program
JP2020004156A (en) * 2018-06-29 2020-01-09 富士通株式会社 Classification method, apparatus, and program
JP2020004157A (en) * 2018-06-29 2020-01-09 富士通株式会社 Classification method, apparatus, and program
JP7131130B2 (en) 2018-06-29 2022-09-06 富士通株式会社 Classification method, device and program
JP7139728B2 (en) 2018-06-29 2022-09-21 富士通株式会社 Classification method, device and program

Similar Documents

Publication Publication Date Title
US7788087B2 (en) System for processing sentiment-bearing text
US7788086B2 (en) Method and apparatus for processing sentiment-bearing text
TW469422B (en) System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval
US8412650B2 (en) Device and method and program of text analysis based on change points of time-series signals
CN110543592B (en) Information searching method and device and computer equipment
US9875301B2 (en) Learning multimedia semantics from large-scale unstructured data
US20090083096A1 (en) Handling product reviews
US20160071510A1 (en) Voice generation with predetermined emotion type
Kestemont et al. Weigh your words—memory-based lemmatization for Middle Dutch
JP5477635B2 (en) Information processing apparatus and method, and program
US10242033B2 (en) Extrapolative search techniques
Oramas et al. ELMD: An automatically generated entity linking gold standard dataset in the music domain
CN109508441B (en) Method and device for realizing data statistical analysis through natural language and electronic equipment
JP2007172051A (en) Reputation information-processing device, reputation information-processing method, reputation information-processing program, and recording medium
CN107844531B (en) Answer output method and device and computer equipment
JP2007304642A (en) Document data sorting device and document data sorting program
JP5224532B2 (en) Reputation information classification device and program
JP2016110256A (en) Information processing device and information processing program
Feng et al. Multiple style exploration for story unit segmentation of broadcast news video
JP4305836B2 (en) Content search display device and content search display method
CN114780712B (en) News thematic generation method and device based on quality evaluation
JP2007241881A (en) Method, device and program for creating opinion property determination database, and method, device and program for determining opinion property, and computer readable recording medium
JP2002251412A (en) Document retrieving device, method, and storage medium
JP2007183927A (en) Information processing apparatus, method and program
JP4423385B2 (en) Document classification support apparatus and computer program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081029

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110215

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110726