JP5226241B2 - How to add tags - Google Patents
How to add tags Download PDFInfo
- Publication number
- JP5226241B2 JP5226241B2 JP2007106740A JP2007106740A JP5226241B2 JP 5226241 B2 JP5226241 B2 JP 5226241B2 JP 2007106740 A JP2007106740 A JP 2007106740A JP 2007106740 A JP2007106740 A JP 2007106740A JP 5226241 B2 JP5226241 B2 JP 5226241B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- moving image
- tag
- image data
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 33
- 230000004044 response Effects 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 239000000284 extract Substances 0.000 description 8
- 238000000605 extraction Methods 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000000877 morphologic effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Description
本発明は、動画像データにタグを付与する方法、サーバ、およびプログラムに関する。 The present invention relates to a method for adding a tag to moving image data, a server, and a program.
従来、インターネット上のコンテンツには、当該コンテンツの検索を容易にするため、タグと呼ばれるキーワードを関連付けることが多い。管理サーバにより自動的に付与され、ユーザの目に触れることのないインデックスとは異なり、タグは、ユーザ自身がコンテンツを特徴付けるキーワードを登録する。このことにより、ユーザは、コンテンツの内容を把握され易くできる。更には、検索時に参照されることにより、効果的なコンテンツの提供が期待できる。 Conventionally, a keyword called a tag is often associated with content on the Internet in order to facilitate the search for the content. Unlike an index that is automatically assigned by the management server and is not visible to the user, the tag registers a keyword that characterizes the content of the user. As a result, the user can easily grasp the contents. Furthermore, provision of effective content can be expected by referring to the search.
ここで、インターネット上のコンテンツには、様々な種類のデータが含まれ、近年では、動画像データを管理するWebサイト等も存在する。このような状況において、動画像データに対する検索インデックスを作成する技術が提供されてきている。例えば、特許文献1には、映像(動画像データ)の音声からキーワードを抽出し、映像に対するインデックスを自動的に付与する装置が開示されている。
上述の技術によれば、動画像データに含まれる音声に基づいて、当該動画像データ内のシーンを検索するためのインデックスを作成するが、これは、単に動画像データに含まれるキーワードを抽出したに過ぎないため、当該動画像を特徴付けているとは限らない。そのため、他の動画像も含めた複数の動画像データの中から目的のものを選択する検索には適さない。 According to the above-described technique, an index for searching for a scene in the moving image data is created based on the sound included in the moving image data. This is simply extracted from a keyword included in the moving image data. Therefore, the moving image is not necessarily characterized. Therefore, it is not suitable for a search for selecting a target one from a plurality of moving image data including other moving images.
そこで本発明は、ある動画像データを他の複数の動画像データの中で特徴付けるためのタグを自動的に付与し、検索エンジンにより当該動画像データ、あるいは当該動画像データを含むWebページを効果的に抽出可能とする方法を提供することを目的とする。 Therefore, the present invention automatically adds a tag for characterizing a certain moving image data among a plurality of other moving image data, and the search engine effectively uses the moving image data or a Web page including the moving image data. It is an object to provide a method that enables extraction.
上記目的のため、具体的には、以下のようなものを提供する。 For the above purpose, the following are specifically provided.
(1) 動画像データにタグを付与する方法であって、
前記動画像データに含まれる音声をテキストデータに変換するステップと、
前記テキストデータからキーワードを抽出するステップと、
所定の検索システムにおける前記キーワードの重要度を算出するステップと、
算出した前記重要度が所定の条件を満たす場合に、前記キーワードを、前記動画像データのタグとして付与するステップと、を含む方法。
(1) A method of attaching a tag to moving image data,
Converting audio included in the moving image data into text data;
Extracting keywords from the text data;
Calculating the importance of the keyword in a predetermined search system;
Adding the keyword as a tag of the moving image data when the calculated importance satisfies a predetermined condition.
このような構成によれば、当該方法を実行するサーバは、動画像データに含まれる音声をテキストデータに変換し、テキストデータからキーワードを抽出し、所定の検索システムにおけるキーワードの重要度を算出し、算出した重要度が所定の条件を満たす場合に、キーワードを、動画像データのタグとして付与する。 According to such a configuration, the server that executes the method converts the voice included in the moving image data into text data, extracts the keyword from the text data, and calculates the importance of the keyword in a predetermined search system. When the calculated importance satisfies a predetermined condition, a keyword is assigned as a tag of moving image data.
このことにより、当該サーバは、動画像データの音声に含まれるキーワードのうち、検索システムにおける重要度が所定の条件を満たすもの、すなわち、当該動画像データを特徴付けるキーワードをタグとして付与できる。その結果、検索システムから得られる他のコンテンツをも考慮した情報に基づく効果的なタグを自動的に付与することができる。 Thus, the server can assign, as a tag, a keyword whose importance in the search system satisfies a predetermined condition among keywords included in the audio of the moving image data, that is, a keyword that characterizes the moving image data. As a result, an effective tag based on information in consideration of other contents obtained from the search system can be automatically assigned.
(2) 前記重要度は、前記所定の検索システムにおける、前記キーワードによる検索結果の件数に基づくことを特徴とする(1)に記載の方法。 (2) The method according to (1), wherein the importance is based on the number of search results by the keyword in the predetermined search system.
このような構成によれば、当該方法を実行するサーバは、検索システムにおける重要度として、キーワードによる検索結果の件数(ヒット数)を用いるので、より多くのWebページに登場するキーワードが動画像データに対するタグとして選択される。 According to such a configuration, since the server executing the method uses the number of search results (number of hits) based on keywords as the importance in the search system, keywords appearing on more Web pages are moving image data. Selected as the tag for.
このことにより、ユーザにとって馴染みの深いキーワードがタグ付けされることとなるため、当該動画像データ、あるいは当該動画像データを含むWebページが効果的に検索される可能性がある。 As a result, a keyword familiar to the user is tagged, so that there is a possibility that the moving image data or a Web page including the moving image data is effectively searched.
(3) 前記重要度は、前記所定の検索システムにおける、前記キーワードによる検索が実行された回数に基づくことを特徴とする(1)に記載の方法。 (3) The method according to (1), wherein the degree of importance is based on the number of times the search by the keyword is executed in the predetermined search system.
このような構成によれば、当該方法を実行するサーバは、検索システムにおける重要度として、キーワードによる検索が実行された回数(検索キーワードランキング)を用いるので、より多くユーザから検索が試みられたキーワードが動画像データのタグとして選択される。 According to such a configuration, the server that executes the method uses the number of times the search by the keyword is executed (search keyword ranking) as the importance in the search system. Is selected as a tag of moving image data.
このことにより、ユーザが頻繁に入力するキーワードが優先的にタグ付けされるため、当該動画像データ、あるいは当該動画像データを含むWebページが効果的に検索される可能性がある。 As a result, keywords frequently input by the user are preferentially tagged, so that there is a possibility that the moving image data or a Web page including the moving image data is effectively searched.
(4) 前記重要度は、前記キーワードの出現頻度に関する指標のTF(Term Frequency)とIDF(Inverse Document Frequency)の積であるTF・IDFに、更に基づくことを特徴とする(2)または(3)に記載の方法。 (4) The degree of importance is further based on TF · IDF, which is a product of TF (Term Frequency) and IDF (Inverse Document Frequency), which is an index related to the appearance frequency of the keyword (2) or (3 ) Method.
このような構成によれば、当該方法を実行するサーバは、検索システムにおける重要度として、ヒット数や検索キーワードランキングに加えて、TF・IDFというキーワードの出現頻度に基づく指標を用いる。 According to such a configuration, the server executing the method uses an index based on the appearance frequency of the keyword TF / IDF in addition to the number of hits and the search keyword ranking as the importance in the search system.
このことにより、例えば、ヒット数や検索キーワードランキングが所定の条件を満たさない場合であっても、TF・IDFにより動画像を特徴付けるキーワードであると判別されれば、当該キーワードをタグとして選択することができる。 Thus, for example, even if the number of hits or search keyword ranking does not satisfy a predetermined condition, if the keyword is characterized by the TF / IDF, the keyword is selected as a tag. Can do.
その結果、単一の指標に基づくことにより重要なキーワードを見逃す可能性を低減でき、動画像を特徴付けるタグとして抽出することができる。 As a result, the possibility of missing an important keyword can be reduced based on a single index, and it can be extracted as a tag characterizing a moving image.
(5) 前記キーワードは、複数の単語の組み合わせであることを特徴とする(1)から(4)のいずれかに記載の方法。 (5) The method according to any one of (1) to (4), wherein the keyword is a combination of a plurality of words.
このような構成によれば、当該方法を実行するサーバは、複数の単語の組み合わせについて重要度を判別してタグ付けを行う。このことにより、付与したタグが、1つの単語の場合に比べて、より内容を的確に表すことが可能となるため、検索システムにおけるヒット数や検索キーワードランキング等に基づいて選択することにより、より効果的なタグを付与できる可能性がある。 According to such a configuration, the server that executes the method performs tagging by determining the importance of combinations of a plurality of words. This makes it possible to express the content more accurately than the case where the assigned tag is a single word. Therefore, by selecting based on the number of hits, search keyword ranking, etc. in the search system, There is a possibility that an effective tag can be given.
(6) 前記キーワードが、予め記憶したカテゴリデータと所定以上の類似度を有する場合に、当該カテゴリデータを、前記動画像データのタグとして付与するステップを更に含む(1)から(5)のいずれかに記載の方法。 (6) When the keyword has a predetermined degree of similarity or more with category data stored in advance, the method further includes a step of assigning the category data as a tag of the moving image data. The method of crab.
このような構成によれば、当該方法を実行するサーバは、予め用意されたカテゴリデータとの類似度判定により、当該カテゴリデータをタグとして付与できるの。このことにより、例えば、カテゴリデータを動画像データの音声の中に含む場合に、当該動画像データを自動的にカテゴリ分類することができる。 According to such a configuration, the server that executes the method can assign the category data as a tag by determining the similarity with the category data prepared in advance. Thus, for example, when category data is included in the sound of moving image data, the moving image data can be automatically classified into categories.
(7) 前記キーワードに関して、所定の規則に基づいて分野を決定するステップと、
決定した前記分野を示すデータを、前記動画像データのタグとして付与するステップと、を更に含む(1)から(6)のいずれかに記載の方法。
(7) Regarding the keyword, determining a field based on a predetermined rule;
The method according to any one of (1) to (6), further including a step of assigning data indicating the determined field as a tag of the moving image data.
このような構成によれば、当該方法を実行するサーバは、キーワードに関して、所定の規則に基づいて分野を決定し、決定した分野を示すデータを、動画像データのタグとして付与する。 According to such a configuration, a server that executes the method determines a field based on a predetermined rule with respect to a keyword, and assigns data indicating the determined field as a tag of moving image data.
このことにより、当該サーバは、所定の規則(分野推定技術)に基づいて、予め用意されたオントロジ(分類に使用する辞書データ等)により、動画像データを分類できる。その結果、動画像データの音声情報に基づいて、自動的に分野推定し、対応するタグを付与することができる。 Thus, the server can classify the moving image data based on the ontology (such as dictionary data used for classification) prepared in advance based on a predetermined rule (field estimation technique). As a result, based on the audio information of the moving image data, the field can be automatically estimated and a corresponding tag can be assigned.
(8) 動画像データにタグを付与するサーバであって、
前記動画像データに含まれる音声をテキストデータに変換する手段と、
前記テキストデータからキーワードを抽出する手段と、
所定の検索システムにおける前記キーワードの重要度を算出する手段と、
算出した前記重要度が所定の条件を満たす場合に、前記キーワードを、前記動画像データのタグとして付与する手段と、を備えるサーバ。
(8) A server for attaching a tag to moving image data,
Means for converting audio contained in the moving image data into text data;
Means for extracting a keyword from the text data;
Means for calculating the importance of the keyword in a predetermined search system;
A server provided with the keyword as a tag of the moving image data when the calculated importance satisfies a predetermined condition.
このような構成によれば、当該サーバを運用することにより、(1)と同様の効果が期待できる。 According to such a configuration, the same effect as in (1) can be expected by operating the server.
(9) 動画像データにタグを付与させるプログラムであって、
前記動画像データに含まれる音声をテキストデータに変換するステップと、
前記テキストデータからキーワードを抽出するステップと、
所定の検索システムにおける前記キーワードの重要度を算出するステップと、
算出した前記重要度が所定の条件を満たす場合に、前記キーワードを、前記動画像データのタグとして付与するステップと、をサーバに実行させるプログラム。
(9) A program for attaching a tag to moving image data,
Converting audio included in the moving image data into text data;
Extracting keywords from the text data;
Calculating the importance of the keyword in a predetermined search system;
A program for causing a server to execute the step of assigning the keyword as a tag of the moving image data when the calculated importance satisfies a predetermined condition.
このような構成によれば、当該プログラムを当該サーバ上で実行することにより、(1)と同様の効果が期待できる。 According to such a configuration, the same effect as in (1) can be expected by executing the program on the server.
本発明によれば、ある動画像データを他の複数の動画像データの中で特徴付けるためのタグを自動的に付与し、検索エンジンにより当該動画像データ、あるいは当該動画像データを含むWebページを効果的に抽出することができる。 According to the present invention, a tag for characterizing certain moving image data among a plurality of other moving image data is automatically assigned, and the moving image data or a Web page including the moving image data is retrieved by a search engine. It can be extracted effectively.
本発明に係る好適な実施形態の一例について、図面に基づいて以下に説明する。 An example of a preferred embodiment according to the present invention will be described below based on the drawings.
[システムの全体構成]
図1は、本発明の好適な実施形態の一例に係るコンテンツ管理システムの全体構成を表す概念図である。
[System overall configuration]
FIG. 1 is a conceptual diagram showing the overall configuration of a content management system according to an example of a preferred embodiment of the present invention.
タグ決定サーバ10、検索サーバ20、コンテンツサーバ30、および端末装置40は通信回線を介して接続されている。コンテンツサーバ30において、端末装置40のユーザにより送信(投稿)されたコンテンツを管理し、コンテンツDBに記憶している。
The
ここで、ユーザから投稿されるコンテンツには動画像データが含まれている。コンテンツサーバ30は、この動画像データをタグ決定サーバ10に送信することにより、動画像データに対するタグの決定を要求する。
Here, the content posted by the user includes moving image data. The
タグ決定サーバ10は、タグを決定する際に参照する情報を取得するため、検索サーバ20に対して検索情報を要求する。検索サーバ20は、タグ決定サーバ10から受信したキーワードにより検索実行、あるいは予め収集したデータを抽出し、タグ決定サーバ10に提供する。これにより、タグ決定サーバ10は、後述する処理により動画像データに対するタグを決定し、コンテンツサーバ30に送信する。
The
このように決定したタグは、動画像データと関連付けてコンテンツDBに記憶することにより、ユーザからの要求に応じて表示させることができる。また、動画像データ、あるいは動画像データを含んだコンテンツの検索に際して、このタグが参照されるため、動画像データの内容に基づいた検索処理が可能となる。 The tag determined in this way can be displayed in response to a request from the user by storing it in the content DB in association with moving image data. Further, since this tag is referred to when searching for moving image data or content including moving image data, a search process based on the contents of moving image data is possible.
なお、本実施形態におけるコンテンツ管理システムは、複数のサーバにより実現しているが、構成はこれには限られず、タグ決定サーバ10に検索サーバ20やコンテンツサーバ30の機能を併せ持つこととしてもよい。また、タグ決定サーバ10を各機能に応じて複数のサーバに分割してもよい。
The content management system in the present embodiment is realized by a plurality of servers, but the configuration is not limited to this, and the
[機能構成]
図2は、本発明の好適な実施形態の一例に係るタグ決定サーバ10の各機能を示すブロック図である。
[Function configuration]
FIG. 2 is a block diagram showing each function of the
タグ決定サーバ10は、音声認識部110、形態素解析部120、タグ候補抽出部130、検索情報収集部140、およびタグ決定部150を備え、動画像データの入力に応じて、タグデータを出力する。
The
音声認識部110は、受信した動画像データに含まれる音声データを抽出し、既存の音声認識技術を用いてテキストデータに変換する。このことにより、動画像データが含んでいる情報が文字情報として抽出されることとなる。
The
形態素解析部120は、音声認識部110にて生成されたテキストデータについて、形態素解析し、単語に分割する。ここで、形態素解析の方法には既存の技術を用いることができる。
The
タグ候補抽出部130は、形態素解析部120により分割された単語のうち、動画像データのタグとして付与可能なもの(キーワード)を抽出する。具体的には、名詞や動詞に品詞を限定する等、予め抽出規則を決めておくことが望ましい。
The tag
検索情報収集部140は、タグ候補抽出部130にて抽出されたタグ候補の中から、実際に付与するタグを決定するための参照情報として、検索サーバ20に問い合わせを行い、検索情報を収集する(詳細は後述する)。
The search
タグ決定部150は、検索情報収集部140にて取得した検索情報を参照し、検索キーワードとして価値の高いものをタグ候補の中から抽出し、動画像データに対するタグとして決定する。このように、検索サーバ20からの情報収集により、Webの中における価値判断が可能となるため、動画像データのみから得られる情報でタグ付けする場合に比べて、より効果的な検索キーワードをタグ付けすることができる。
The
このようにして決定されたタグは、コンテンツサーバ30において動画像データと関連付けて記憶される。具体的には、例えば、図4に示すタグデータテーブルのように、動画像データ毎に複数のタグデータを記憶することが望ましい。なお、タグデータは、動画像に対して付与するとしたが、当該動画像を含むWebページに対して付与することとしてもよい。
The tag determined in this way is stored in the
[処理フロー]
図3は、本発明の好適な実施形態の一例に係るタグ決定サーバ10における、タグ決定処理の流れを示す図である。
[Processing flow]
FIG. 3 is a diagram showing a flow of tag determination processing in the
ステップS101では、タグ決定サーバ10は、コンテンツサーバ30より、タグ付け対象である動画像データを受け付け、音声認識部110に引き渡す。
In step S <b> 101, the
ステップS102では、音声認識部110は、ステップS101にて受け付けた動画像データから音声データを抽出する。動画像データには音声情報が含まれていることが多く、これを抽出することにより、当該動画像データの内容を示す情報を取得できる。
In step S102, the
ステップS103では、音声認識部110は、ステップS102にて抽出した音声データをテキストデータへ変換する。具体的には、既存の技術を用いて実現でき、文字情報(テキストデータ)にすることで後続の言語処理が可能となる。
In step S103, the
ステップS104では、形態素解析部120は、ステップS103にて生成されたテキストデータを形態素解析し、複数の単語に分解する。このことにより、動画像データの内容を示すデータとして、複数の単語が得られる。
In step S104, the
ステップS105では、タグ候補抽出部130は、ステップS104にて取得した複数の単語のうち、タグの候補となるもの(キーワード)を抽出する。具体的には、例えば、名詞や動詞等の限られた品詞を抽出することにより、タグ候補を絞り込むことができる。
In step S105, the tag
また、キーワードは複数の単語の組み合わせとしてもよく、例えば、名詞および動詞の組み合わせ等を抽出することによれば、内容をより特定できるため、タグとして適している可能性がある。その場合には、例えば、係り受け解析の技術を用いる等、単語間の関係を考慮した抽出を行うことが望ましい。 Further, the keyword may be a combination of a plurality of words. For example, by extracting a combination of nouns and verbs, etc., the content can be specified more, so that it may be suitable as a tag. In that case, it is desirable to perform extraction in consideration of the relationship between words, for example, using a dependency analysis technique.
ステップS106では、検索情報収集部140は、ステップS105にて抽出したタグ候補キーワードに基づいて、検索サーバ20から検索情報を収集する。具体的には、例えば、検索サーバ20は、タグ決定サーバ10から受信したキーワードに基づいて、Webの検索を実行する。その結果、例えば図5に示す検索件数テーブルを得る。
In step S106, the search
検索件数テーブルには、キーワードに基づく検索結果の件数(ヒット件数)を格納している。ここで、例えば、「XXレストラン」であれば、検索結果として「1234件」がヒットしたことを示している。 The number of search results based on keywords (the number of hits) is stored in the search number table. Here, for example, “XX restaurant” indicates that “1234 hits” were found as a search result.
また、検索サーバ20は、例えば図6に示すキーワード別入力回数テーブルのように、統計情報として、キーワードの入力頻度を管理することもでき、このテーブルのデータをタグ決定サーバ10に提供してもよい。
Further, the
キーワード別入力回数テーブルには、検索サーバ20において実行された検索について、キーワード毎の入力回数を年月と共に記憶している。これにより、検索サーバ20は、所定の期間内におけるキーワードの入力頻度の順位を求めることができるので、この順位をタグ決定サーバ10に提供することとしてよい。
In the keyword-specific number-of-inputs table, the number of times of input for each keyword for the search executed in the
また、検索サーバ20は、所定の周期、タイミングにおいて、この順位を求めて記憶しておいてもよい。例えば、図7のキーワード・ランキングテーブルにおいては、年月毎にキーワードの入力回数の順位(ランキング)を記憶している。
Further, the
なお、入力頻度の順位付けは、タグ決定サーバ10が行ってもよく、その場合、検索情報収集部140は、キーワード別入力回数テーブルのデータを受け取り、順位を算出する。
Note that the ranking of the input frequencies may be performed by the
ステップS107では、タグ決定部150は、ステップS106にて取得した検索情報に基づいて、キーワードの重要度を判別する。具体的には、例えば、検索件数テーブル(図5)におけるヒット件数が1000件以上であるもの、キーワード別入力回数テーブル(図6)における前月の入力回数が10000回以上であるもの、キーワード・ランキングテーブル(図7)における前月のランキングが10000位以内のもの等、予め判別条件を設定しておく。
In step S107, the
このような判別条件により、例えば、図5の検索件数テーブルを利用する場合においては、「XXレストラン」が「1234件」で1000件以上のヒット件数であるため、タグとして選択される。 For example, when using the search number table in FIG. 5 based on such a determination condition, “XX restaurant” is “1234 items” and the number of hits is 1000 or more, so it is selected as a tag.
また、図6のキーワード別入力回数テーブルを利用する場合においては、「XXレストラン」が「2007年4月」の入力回数「12345回」で10000回以上であるため、タグとして選択される。集計期間はこのように1ヶ月単位でもよいし、過去6ヶ月間等、予め設定した期間の合計値としてよい。 Further, in the case of using the keyword-specific input count table of FIG. 6, “XX restaurant” is selected as a tag because the input count “12345” of “April 2007” is 10,000 or more. The aggregation period may be in units of one month as described above, or may be a total value of preset periods such as the past six months.
また、図7のキーワード・ランキングテーブルを利用する場合においては、「XXレストラン」が「4567位」、「ZZZホテル」が「8888位」で10000位以内であるため、タグとして選択されることとなる。 In the case of using the keyword / ranking table of FIG. 7, “XX restaurant” is “4567” and “ZZZ hotel” is “888” and is within 10000, so it is selected as a tag. Become.
ここで、ヒット数やランキングが、これらの条件を満たさない場合には、例えばTF・IDFによるキーワードの重要度判定を行ってもよい。その場合、キーワードのTF・IDF値が予め記憶した閾値以上であれば、当該キーワードが動画像データを特徴付けており、重要度が高いものと判断できる。 Here, when the number of hits and the ranking do not satisfy these conditions, for example, the importance level of the keyword may be determined by TF / IDF. In this case, if the TF / IDF value of the keyword is equal to or greater than a threshold value stored in advance, it can be determined that the keyword characterizes the moving image data and has high importance.
なお、文書(当該動画像データ)中の出現頻度に関するTF値は、都度算出することとしてよいが、多数の文書集合の中での出現頻度に関するIDF値は、予め計算し、検索サーバ20に保持しておくことができる。
The TF value related to the appearance frequency in the document (the moving image data) may be calculated each time. However, the IDF value related to the appearance frequency in a large number of document sets is calculated in advance and stored in the
ステップS108では、キーワードの重要度が所定以上であると判別されたため、タグ決定部150は、当該キーワードをタグとして動画像データに付与する。具体的には、当該キーワードをコンテンツサーバ30に送信することにより、タグデータテーブル(図4)に記憶される。
In step S108, since it is determined that the importance of the keyword is equal to or higher than the predetermined value, the
ステップS109では、キーワードの重要度が所定以上でないため、タグ決定部150は、当該キーワードはタグとして相応しくないと判断し、別のタグを付与するための処理として、カテゴリの決定を行う。
In step S109, since the importance of the keyword is not greater than or equal to a predetermined value, the
具体的には、例えば、図8に示すように、予め記憶したカテゴリデータとの類似度判定(マッチング)により、キーワードと一致あるいは類似するカテゴリを決定する。また、カテゴリの決定は、このような類似度判定には限られない。例えば図9に示すように、所定のオントロジ(辞書データ等)を参照する分野推定技術を用いることにより、分野データを決定することができる。 Specifically, for example, as shown in FIG. 8, a category matching or similar to the keyword is determined by similarity determination (matching) with previously stored category data. Further, category determination is not limited to such similarity determination. For example, as shown in FIG. 9, field data can be determined by using field estimation technology that refers to a predetermined ontology (such as dictionary data).
ステップS110では、タグ決定部150は、ステップS109にて決定したカテゴリデータまたは分野データを、タグとして動画像データに付与する。具体的には、ステップS108と同様に、カテゴリデータまたは分野データをコンテンツサーバ30に送信することにより、タグデータテーブル(図4)に記憶される。
In step S110, the
なお、カテゴリや分野の決定を、ステップS107におけるキーワードの重要度判定に応じて行っているが、ステップS109〜S110は、重要度判定によらず常に行うこととしてもよい。その場合には、動画像データから抽出したキーワードと、カテゴリや分野を示すデータとが共にタグとして付与されることとなる。 The category and field are determined in accordance with the keyword importance determination in step S107, but steps S109 to S110 may be always performed regardless of the importance determination. In this case, both the keyword extracted from the moving image data and the data indicating the category and field are assigned as tags.
[サーバのハードウェア構成]
図10は、図1で説明したタグ決定サーバ10のハードウェア構成の一例を示す図である。タグ決定サーバ10は、制御部101を構成するCPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU1012等複数のCPUが追加されてもよい)、バスライン1005、通信I/F1040、メインメモリ1050、BIOS(Basic Input Output System)1060、USBポート1090、I/Oコントローラ1070、ならびにキーボードおよびマウス1100等の入力手段や表示装置1022を備える。
[Hardware configuration of server]
FIG. 10 is a diagram illustrating an example of a hardware configuration of the
I/Oコントローラ1070には、テープドライブ1072、ハードディスク1074、光ディスクドライブ1076、半導体メモリ1078、等の記憶手段を接続することができる。
Storage means such as a
BIOS1060は、タグ決定サーバ10の起動時にCPU1010が実行するブートプログラムや、タグ決定サーバ10のハードウェアに依存するプログラム等を格納する。
The
記憶部107を構成するハードディスク1074は、タグ決定サーバ10がサーバとして機能するための各種プログラムおよび本発明の機能を実行するプログラムを記憶しており、更に必要に応じて各種データベースを構成可能である。
The
光ディスクドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク1077を使用する。光ディスク1077から光ディスクドライブ1076によりプログラムまたはデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050またはハードディスク1074に提供することもできる。
As the
タグ決定サーバ10に提供されるプログラムは、ハードディスク1074、光ディスク1077、またはメモリーカード等の記録媒体に格納されて提供される。このプログラムは、I/Oコントローラ1070を介して、記録媒体から読み出され、または通信I/F1040を介してダウンロードされることによって、タグ決定サーバ10にインストールされ実行されてもよい。
The program provided to the
前述のプログラムは、内部または外部の記憶媒体に格納されてもよい。ここで、記憶部107を構成する記憶媒体としては、ハードディスク1074、光ディスク1077、またはメモリーカードの他に、MD等の光磁気記録媒体、テープ媒体を用いることができる。また、専用通信回線やインターネットに接続されたサーバシステムに設けたハードディスク1074または光ディスクライブラリ等の記憶装置を記録媒体として使用し、通信回線を介してプログラムをタグ決定サーバ10に提供してもよい。
The aforementioned program may be stored in an internal or external storage medium. Here, as a storage medium constituting the
ここで、表示装置1022は、ユーザにデータの入力を受け付ける画面を表示したり、タグ決定サーバ10による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
Here, the
ここで、入力手段は、ユーザによる入力の受け付けを行うものであり、キーボードおよびマウス1100等により構成してよい。
Here, the input means accepts input by the user, and may be configured by a keyboard, a
また、通信I/F1040は、タグ決定サーバ10を専用ネットワークまたは公共ネットワークを介して端末と接続できるようにするためのネットワーク・アダプタである。通信I/F1040は、モデム、ケーブル・モデムおよびイーサネット(登録商標)・アダプタを含んでよい。
The communication I /
以上の例は、タグ決定サーバ10について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをサーバ装置として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明したサーバにより実現される機能は、上述の方法を当該コンピュータにより実行することにより、あるいは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。
In the above example, the
また、検索サーバ20およびコンテンツサーバ30についても、タグ決定サーバ10と同様な構成を持つ。
Further, the
[端末のハードウェア構成]
端末装置40も、上述のタグ決定サーバ10と同様な構成を持つ。また、上述の例ではいわゆるコンピュータで実現した例について説明したが、更に、本発明の原理が適用可能である限り、携帯電話、PDA(Personal Data Assistant)、ゲーム機等の様々な端末で実現してよい。
[Device hardware configuration]
The
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。 As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.
10 タグ決定サーバ
20 検索サーバ
30 コンテンツサーバ
40 端末装置
110 音声認識部
120 形態素解析部
130 タグ候補抽出部
140 検索情報収集部
150 タグ決定部
DESCRIPTION OF
Claims (7)
前記動画像データに含まれる音声をテキストデータに変換するステップと、
前記テキストデータからキーワードを抽出するステップと、
抽出した前記キーワードに対して、所定のWeb検索システムへの問い合わせに応じて、少なくとも当該Web検索システムにおける前記キーワードによる検索結果の件数または前記キーワードによる検索が実行された回数を示す統計情報を含んだ検索情報を取得するステップと、
取得した前記検索情報に基づいて前記キーワードの重要度を算出するステップと、
算出した前記重要度が所定の条件を満たす場合に、前記キーワードを、前記動画像データのタグとして付与するステップと、を含む方法。 A method in which a server adds a tag to moving image data,
Converting audio included in the moving image data into text data;
Extracting keywords from the text data;
On the extracted the keyword, in response to an inquiry to a predetermined Web search systems, statistical information indicating at least the number of times that the Web Search by the system to your Keru number of search results by the keyword or the keyword is executed acquiring search information including,
Calculating the importance of the keyword based on the acquired search information;
Adding the keyword as a tag of the moving image data when the calculated importance satisfies a predetermined condition.
決定した前記分野を示すデータを、前記動画像データのタグとして付与するステップと、を更に含む請求項1から請求項4のいずれかに記載の方法。 If the importance is less than a predetermined value, determining a field based on a predetermined rule for the keyword;
Method according to data indicating the determined the art, any steps to impart, claim 1 further comprising a according to claim 4 as a tag of said moving image data.
前記動画像データに含まれる音声をテキストデータに変換する手段と、
前記テキストデータからキーワードを抽出する手段と、
抽出した前記キーワードに対して、所定のWeb検索システムへの問い合わせに応じて、少なくとも当該Web検索システムにおける前記キーワードによる検索結果の件数または前記キーワードによる検索が実行された回数を示す統計情報を含んだ検索情報を取得する手段と、
取得した前記検索情報に基づいて前記キーワードの重要度を算出する手段と、
算出した前記重要度が所定の条件を満たす場合に、前記キーワードを、前記動画像データのタグとして付与する手段と、を備えるサーバ。 A server for attaching a tag to moving image data,
Means for converting audio contained in the moving image data into text data;
Means for extracting a keyword from the text data;
On the extracted the keyword, in response to an inquiry to a predetermined Web search systems, statistical information indicating at least the number of times that the Web Search by the system to your Keru number of search results by the keyword or the keyword is executed Means for obtaining the search information included ;
Means for calculating the importance of the keyword based on the acquired search information;
A server provided with the keyword as a tag of the moving image data when the calculated importance satisfies a predetermined condition.
前記動画像データに含まれる音声をテキストデータに変換するステップと、
前記テキストデータからキーワードを抽出するステップと、
抽出した前記キーワードに対して、所定のWeb検索システムへの問い合わせに応じて、少なくとも当該Web検索システムにおける前記キーワードによる検索結果の件数または前記キーワードによる検索が実行された回数を示す統計情報を含んだ検索情報を取得するステップと、
取得した前記検索情報に基づいて前記キーワードの重要度を算出するステップと、
算出した前記重要度が所定の条件を満たす場合に、前記キーワードを、前記動画像データのタグとして付与するステップと、をサーバに実行させるプログラム。 A program for attaching a tag to moving image data,
Converting audio included in the moving image data into text data;
Extracting keywords from the text data;
On the extracted the keyword, in response to an inquiry to a predetermined Web search systems, statistical information indicating at least the number of times that the Web Search by the system to your Keru number of search results by the keyword or the keyword is executed acquiring search information including,
Calculating the importance of the keyword based on the acquired search information;
A program for causing a server to execute the step of assigning the keyword as a tag of the moving image data when the calculated importance satisfies a predetermined condition.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007106740A JP5226241B2 (en) | 2007-04-16 | 2007-04-16 | How to add tags |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007106740A JP5226241B2 (en) | 2007-04-16 | 2007-04-16 | How to add tags |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008268985A JP2008268985A (en) | 2008-11-06 |
JP5226241B2 true JP5226241B2 (en) | 2013-07-03 |
Family
ID=40048448
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007106740A Active JP5226241B2 (en) | 2007-04-16 | 2007-04-16 | How to add tags |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5226241B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104281252A (en) * | 2013-07-12 | 2015-01-14 | 联想(北京)有限公司 | Information processing method and electronic equipment |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010113558A (en) * | 2008-11-07 | 2010-05-20 | Hitachi Ltd | Word extraction device, word extraction method and receiver |
US9542934B2 (en) * | 2014-02-27 | 2017-01-10 | Fuji Xerox Co., Ltd. | Systems and methods for using latent variable modeling for multi-modal video indexing |
JP6975011B2 (en) | 2017-10-18 | 2021-12-01 | 株式会社メルカリ | Product information generation system, product information generation program and product information generation method |
CN111831854A (en) | 2020-06-03 | 2020-10-27 | 北京百度网讯科技有限公司 | Video tag generation method and device, electronic equipment and storage medium |
JP7188626B2 (en) * | 2021-03-05 | 2022-12-13 | 凸版印刷株式会社 | Electronic leaflet management device, electronic leaflet management method |
WO2022210460A1 (en) * | 2021-03-31 | 2022-10-06 | 富士フイルム株式会社 | Digital data tagging device, tagging method, program, and recording medium |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3023461B2 (en) * | 1993-06-18 | 2000-03-21 | シャープ株式会社 | Database device for non-coded information |
JPH09204437A (en) * | 1996-01-26 | 1997-08-05 | Fuji Xerox Co Ltd | Document retrieval device |
JP2000067085A (en) * | 1999-07-23 | 2000-03-03 | Sharp Corp | System for making non-coded information into data base |
JP2001167124A (en) * | 1999-12-13 | 2001-06-22 | Sharp Corp | Document classification device and recording medium recording document classifiction program |
JP2002171481A (en) * | 2000-12-04 | 2002-06-14 | Ricoh Co Ltd | Video processing apparatus |
JP2004206476A (en) * | 2002-12-25 | 2004-07-22 | Internatl Business Mach Corp <Ibm> | Database system, terminal device, retrieval database server, retrieval key input support method, and program |
JP2005050221A (en) * | 2003-07-30 | 2005-02-24 | Nec Corp | Search retrieval system in transmission and reception of telephone and e-mail |
JP4325370B2 (en) * | 2003-11-13 | 2009-09-02 | 日本電信電話株式会社 | Document-related vocabulary acquisition device and program |
JP4397264B2 (en) * | 2004-03-31 | 2010-01-13 | 株式会社野村総合研究所 | Technical literature marketability analysis system and marketability analysis program |
JP4426894B2 (en) * | 2004-04-15 | 2010-03-03 | 株式会社日立製作所 | Document search method, document search program, and document search apparatus for executing the same |
-
2007
- 2007-04-16 JP JP2007106740A patent/JP5226241B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104281252A (en) * | 2013-07-12 | 2015-01-14 | 联想(北京)有限公司 | Information processing method and electronic equipment |
CN104281252B (en) * | 2013-07-12 | 2017-12-26 | 联想(北京)有限公司 | A kind of information processing method and electronic equipment |
Also Published As
Publication number | Publication date |
---|---|
JP2008268985A (en) | 2008-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5727512B2 (en) | Cluster and present search suggestions | |
US9864741B2 (en) | Automated collective term and phrase index | |
JP4962986B2 (en) | Method, server, and program for classifying content data into categories | |
US20080319746A1 (en) | Keyword outputting apparatus and method | |
JP5226241B2 (en) | How to add tags | |
US20080086465A1 (en) | Establishing document relevance by semantic network density | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
CN109033385B (en) | Picture retrieval method, device, server and storage medium | |
US20170364495A1 (en) | Propagation of changes in master content to variant content | |
US10152478B2 (en) | Apparatus, system and method for string disambiguation and entity ranking | |
JP2012515379A (en) | Method and system for querying information | |
JP7451747B2 (en) | Methods, devices, equipment and computer readable storage media for searching content | |
WO2015188719A1 (en) | Association method and association device for structural data and picture | |
KR101651780B1 (en) | Method and system for extracting association words exploiting big data processing technologies | |
JP2009037420A (en) | Evaluation application device, program, and method for harmful content | |
JP7389330B2 (en) | Information processing program, information processing method, and information processing device | |
JP2006227823A (en) | Information processor and its control method | |
US11341138B2 (en) | Method and system for query performance prediction | |
JP2003173352A (en) | Retrieval log analysis method and device, document information retrieval method and device, retrieval log analysis program, document information retrieval program and storage medium | |
JP5014252B2 (en) | Method, server, and program for managing index data for searching content | |
JP6106489B2 (en) | Semantic analyzer and program | |
CN111144122A (en) | Evaluation processing method, evaluation processing device, computer system, and medium | |
JP2016045552A (en) | Feature extraction program, feature extraction method, and feature extraction device | |
JP2010049384A (en) | Moving image evaluation method, device, and program | |
KR101614551B1 (en) | System and method for extracting keyword using category matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090330 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110322 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110523 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110719 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111012 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20111020 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20111111 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20120910 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130314 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5226241 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160322 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |