JP6499477B2 - Ontology generation device, metadata output device, content acquisition device, ontology generation method, and ontology generation program - Google Patents
Ontology generation device, metadata output device, content acquisition device, ontology generation method, and ontology generation program Download PDFInfo
- Publication number
- JP6499477B2 JP6499477B2 JP2015038206A JP2015038206A JP6499477B2 JP 6499477 B2 JP6499477 B2 JP 6499477B2 JP 2015038206 A JP2015038206 A JP 2015038206A JP 2015038206 A JP2015038206 A JP 2015038206A JP 6499477 B2 JP6499477 B2 JP 6499477B2
- Authority
- JP
- Japan
- Prior art keywords
- content
- word
- metadata
- headwords
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 17
- 238000000547 structure data Methods 0.000 claims description 25
- 239000000284 extract Substances 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 235000013601 eggs Nutrition 0.000 description 6
- 241000238578 Daphnia Species 0.000 description 5
- 235000013305 food Nutrition 0.000 description 5
- 235000010724 Wisteria floribunda Nutrition 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 241000257465 Echinoidea Species 0.000 description 2
- 102000002322 Egg Proteins Human genes 0.000 description 2
- 108010000912 Egg Proteins Proteins 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 241000238633 Odonata Species 0.000 description 2
- 210000003278 egg shell Anatomy 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000001850 reproductive effect Effects 0.000 description 2
- 241000255969 Pieris brassicae Species 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 235000021191 food habits Nutrition 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、オントロジーの生成装置、方法及びプログラムに関する。 The present invention relates to an ontology generation apparatus, method, and program.
映像配信サービスの普及に伴い映像コンテンツの重要性が増し、様々な分野で映像コンテンツの利活用が進むと共に、コンテンツ量も増加している。
このため、コンテンツが何であるかを明確にするメタデータがコンテンツに付与されることが望ましい。コンテンツホルダは、例えば、「このコンテンツは、生物Aの産卵の映像である。」といったメタデータを付与しておくことで、映像コンテンツの内容を利用者に文章で提示できる。また、例えば「生物A」と「産卵」とを分けて定義することで、コンテンツホルダは、「生物A」に関する他のコンテンツだけでなく、「産卵」に関する複数の生物映像を関連付けて提示できる。
特許文献1では、映像コンテンツに付与されたタイトルを検索キーワードとして、特定のコミュニティサイトを検索し、得られたWebページから情報を抽出し、メタデータとして映像コンテンツに付与する方法が提案されている。
With the spread of video distribution services, the importance of video content has increased, and the use of video content has advanced in various fields, and the amount of content has also increased.
For this reason, it is desirable that metadata that clarifies what the content is is given to the content. The content holder can present the content of the video content to the user in text by adding metadata such as “This content is a spawning image of the organism A”. Also, for example, by defining “organism A” and “laying eggs” separately, the content holder can present not only other contents related to “living organism A” but also a plurality of living images related to “laying eggs” in association with each other.
ところで、メタデータの入力者は、利用されるシーン又はサービスを想像してメタデータを入力する必要がある。例えば、「生物A」とだけ入力する場合もあれば、「生物Aの産卵」と入力する場合もある。また、メタデータは、コンテンツの内容が同様であっても入力者によって定義が異なる。例えば、「生物A」の「産卵」というメタデータを入力する場合もあれば、「生物A」の「生殖」と入力する場合もある。
特許文献1の方法では、映像コンテンツについて記載されたコミュニティサイトのWebページを1つ見つけ出し、このWebページから情報を抽出する。付与されるメタデータの構造は、単一のWebページに依存するため、映像コンテンツが異なれば付与されるメタデータの定義も異なる可能性がある。
By the way, it is necessary for a person who inputs metadata to input metadata by imagining a scene or service to be used. For example, only “living organism A” may be input, or “spawning of living organism A” may be input. Moreover, the definition of metadata differs depending on the input person even if the content is the same. For example, metadata “spawning” of “organism A” may be input, and “reproduction” of “organism A” may be input.
In the method of
本発明は、複数のコンテンツで共通して利用可能なメタデータの体系を定義した知識構造データを生成できるオントロジー生成装置、方法及びプログラムを提供することを目的とする。 It is an object of the present invention to provide an ontology generation apparatus, method, and program capable of generating knowledge structure data that defines a metadata system that can be commonly used by a plurality of contents.
本発明に係るオントロジー生成装置は、指定された分野における複数の文書情報から、見出し語の階層情報を抽出する見出し抽出部と、前記見出し語に紐付く単語を前記文書情報から抽出する単語抽出部と、前記単語の類似度に基づいて、前記見出し語を統合し、当該統合された見出し語の階層情報を含む前記分野の知識構造データを生成する構造化部と、を備える。 An ontology generation device according to the present invention includes a headline extraction unit that extracts hierarchical information of headwords from a plurality of document information in a specified field, and a word extraction unit that extracts words associated with the headwords from the document information And a structuring unit that integrates the headwords based on the similarity of the words and generates knowledge structure data of the field including hierarchical information of the integrated headwords.
前記構造化部は、前記見出し語と前記単語とを関連付けた知識構造データを生成してもよい。 The structuring unit may generate knowledge structure data in which the headword and the word are associated with each other.
前記構造化部は、前記見出し語と前記単語との関連度を含む前記知識構造データを生成してもよい。 The structuring unit may generate the knowledge structure data including a degree of association between the headword and the word.
本発明に係るメタデータ出力装置は、コンテンツに関するテキストデータと、前記オントロジー生成装置により生成された前記知識構造データに含まれる単語とのマッチングにより、当該単語に関連付けられた前記見出し語の階層情報を前記知識構造データから抽出し、前記コンテンツのメタデータとして出力する出力部を備える。 The metadata output device according to the present invention provides hierarchical information of the headword associated with the word by matching the text data related to the content with the word included in the knowledge structure data generated by the ontology generation device. An output unit is provided that extracts the knowledge structure data and outputs it as metadata of the content.
前記メタデータ出力装置は、辞書データに基づいて前記単語の同類語を取得する辞書取得部を備え、前記出力部は、前記テキストデータと、前記単語又は前記同類語とのマッチングによって、当該単語に関連付けられた前記見出し語の階層情報を抽出してもよい。 The metadata output device includes a dictionary acquisition unit that acquires a synonym of the word based on dictionary data, and the output unit applies the word to the word by matching the text data with the word or the synonym. You may extract the hierarchical information of the said headword linked | related.
本発明に係るコンテンツ取得装置は、前記メタデータ出力装置により出力された前記メタデータと同一のメタデータが付与されたコンテンツを、所定のデータベースから取得する第1コンテンツ取得部を備える。 The content acquisition device according to the present invention includes a first content acquisition unit that acquires, from a predetermined database, content to which the same metadata as the metadata output by the metadata output device is assigned.
前記コンテンツ取得装置は、前記メタデータの階層情報に基づいて、当該階層情報の上位が共通する別の階層情報を前記知識構造データから抽出し、当該別の階層情報に相当するメタデータが付与されたコンテンツを、前記所定のデータベースから取得する第2コンテンツ取得部を備えてもよい。 The content acquisition apparatus extracts, from the knowledge structure data, another hierarchical information having a common upper level of the hierarchical information based on the hierarchical information of the metadata, and is given metadata corresponding to the different hierarchical information. A second content acquisition unit that acquires the acquired content from the predetermined database may be provided.
本発明に係るオントロジー生成方法は、コンピュータの制御部が、指定された分野における複数の文書情報から、見出し語の階層情報を抽出する見出し抽出ステップと、前記見出し語に紐付く単語を前記文書情報から抽出する単語抽出ステップと、前記単語の類似度に基づいて、前記見出し語を統合し、当該統合された見出し語の階層情報を含む前記分野の知識構造データを生成する構造化ステップと、を実行する。 In the ontology generation method according to the present invention, a computer control unit extracts a headword hierarchical information from a plurality of document information in a specified field, and a word associated with the headword is extracted from the document information. A word extracting step for extracting from the word, and a structuring step for integrating the headwords based on the similarity of the words and generating knowledge structure data of the field including hierarchical information of the integrated headwords. Run.
本発明に係るオントロジー生成プログラムは、コンピュータの制御部に、指定された分野における複数の文書情報から、見出し語の階層情報を抽出する見出し抽出ステップと、前記見出し語に紐付く単語を前記文書情報から抽出する単語抽出ステップと、前記単語の類似度に基づいて、前記見出し語を統合し、当該統合された見出し語の階層情報を含む前記分野の知識構造データを生成する構造化ステップと、を実行させる。 The ontology generation program according to the present invention includes a headline extraction step of extracting hierarchical information of headwords from a plurality of pieces of document information in a specified field, and a word associated with the headword in the document information. A word extracting step for extracting from the word, and a structuring step for integrating the headwords based on the similarity of the words and generating knowledge structure data of the field including hierarchical information of the integrated headwords. Let it run.
本発明によれば、複数のコンテンツで共通して利用可能なメタデータの体系を定義した知識構造データを生成できる。 According to the present invention, it is possible to generate knowledge structure data that defines a metadata system that can be commonly used by a plurality of contents.
[第1実施形態]
以下、本発明の第1実施形態について説明する。
本実施形態に係る管理サーバ1は、コンテンツホルダ又はサービスプロバイダ等がネットワークを介して又は直接アクセスする情報処理装置(コンピュータ)である。管理サーバ1は、コミュニティサイトの情報から知識構造データとしてのオントロジーを構築するオントロジー生成装置、及び映像又はWebページ等のコンテンツに対してオントロジーに基づくメタデータを付与するメタデータ出力装置として機能する。
[First Embodiment]
The first embodiment of the present invention will be described below.
The
図1は、本実施形態に係る管理サーバ1の機能構成を示す図である。
管理サーバ1は、対象指定部11と、見出し抽出部12と、単語抽出部13と、構造化部14と、辞書取得部15と、コンテンツ指定部16と、出力部17とを備える。
FIG. 1 is a diagram illustrating a functional configuration of the
The
対象指定部11は、ある分野(例えば、「生物」)における知識構造を抽出する対象となる文書情報を取得する。文書情報は、例えば、Wikipedia(登録商標)等のコミュニティサイトにおいて個々の見出し語を解説するWebページである。対象指定部11は、WebページのURLの指定入力を受け付けてページデータを取得、あるいは、利用者からCSV等のファイルで文書情報を直接受け付ける。抽出対象として、「生物」に属する複数の抽出対象が指定されることにより、対象指定部11は、「生物」全体としての特徴を得るための文書情報を取得できる。なお、単一のWebページでも、テキストをそのまま知識構造として使用できる場合は、抽出対象は単一であってもよい。
The
見出し抽出部12は、対象指定部11により取得された複数の文書情報それぞれにおける見出し語の構造を解析し、これらの文書情報から、見出し語及びその階層情報を抽出する。
The
単語抽出部13は、見出し語に紐付く単語を文書情報から抽出する。
単語抽出部13は、例えば、文書情報を形態素解析し、得られた単語のうち、使用頻度等の所定の指標(例えば、TF−IDF)に基づく重要度の高い単語を、各見出し内で使用されている特徴的な単語として抽出してよい。
The
For example, the
構造化部14は、単語の類似度に基づいて、見出し語を統合し、この統合された見出し語の階層情報を含むオントロジーを、分野毎に生成する。
例えば、生物の分野において、各文書情報は、「特徴」、「生息環境」、「分布」、「生活史」、「生殖」等、統一されていない見出し語で説明されているが、構造化部14は、類似度の高い見出し語を統合することにより、共通化及び体系化されたオントロジーを生成する。
The structuring
For example, in the field of living organisms, each document information is explained by unconventional headwords such as “feature”, “habitat”, “distribution”, “life history”, “reproduction”, etc. The
オントロジーでは、見出し語と単語とが関連付けられている。さらに、オントロジーには、複数の見出し語に対する同一単語の出現確率等に基づく、見出し語と単語との関連度が含まれる。 In the ontology, headwords and words are associated with each other. Furthermore, the ontology includes the degree of association between a headword and a word based on the appearance probability of the same word for a plurality of headwords.
図2は、本実施形態に係るオントロジーの生成過程の一例を示す図である。
まず、対象指定部11は、URLの指定に応じて、生物に関する文書情報として、「ミジンコ」、「ウニ」、「トンボ」等のWebページのテキストデータを取得している。
FIG. 2 is a diagram illustrating an example of an ontology generation process according to the present embodiment.
First, the
見出し抽出部12は、取得したテキストデータから、見出し語の階層情報として、例えば、「形態」の下位に「内部」及び「外部」を、「生態」の下位に「食性」、「生殖」及び「分布」を、それぞれ紐付けた構造データを抽出する。
From the acquired text data, the
単語抽出部13は、各見出し語に対応したテキストデータの範囲から、この見出し語を特徴付ける単語を抽出する。例えば、見出し語「食性」に対して「食べる」及び「餌」等の単語が抽出される。
The
構造化部14は、これらの見出し内の単語の類似度から異なる見出し語を1つに統合し、共通化された見出し語の階層情報を生成する。例えば、「内部形態」及び「内部構造」の2つの見出し語が抽出されている場合、これらに紐付く単語は高い確率で一致又は類似するため、2つの見出し語が1つに統合される。
The structuring
辞書取得部15は、辞書データに基づいて、オントロジーに含まれる単語の同類語を取得する。
例えば、辞書取得部15は、辞書データを用いて、オントロジーの単語に対して概念構造を付加することにより、同様の概念構造を持つ同類語を取得する。
The
For example, the
図3は、本実施形態に係る概念構造を付加したオントロジーの一例を示す図である。
このオントロジーは、「生物」を説明する際に必要となる構造や必要な単語を保持している。例えば、「外部」という概念は、上位概念に「形態」を持ち、インスタンスとして、「縮む」という動詞及び「腕」という名詞を持つという概念構造が定義できる。また、これらの集合及び辞書データから、「形態−外部」概念は、「体」に関する名詞を持つと定義されるため、「腕」と同じ概念構造を持つ「吻」又は「足」等の関連名詞が出現しても、「形態−外部」として分類できる。
なお、オントロジーは、例えば、OWL等の記述言語を用いて記述される。
FIG. 3 is a diagram illustrating an example of an ontology to which a conceptual structure according to the present embodiment is added.
This ontology holds the structure and necessary words necessary to explain “living organisms”. For example, the concept of “external” can define a conceptual structure having “form” as a superordinate concept and having a verb “shrink” and a noun “arm” as instances. In addition, from these sets and dictionary data, the “form-external” concept is defined as having a noun related to “body”, and therefore, a relationship such as “nose” or “foot” having the same conceptual structure as “arm”. Even if a noun appears, it can be classified as “form-external”.
The ontology is described using a description language such as OWL.
コンテンツ指定部16は、メタデータを付与したいコンテンツに関するテキストデータを取得する。
コンテンツは、例えば、コンテンツホルダの映像コンテンツであり、コンテンツ指定部16は、指定されたコンテンツのテキスト情報を抽出し、又はメタデータを付与したいテキスト自体の入力を受け付ける。
The
The content is, for example, video content of a content holder, and the
出力部17は、コンテンツに関するテキストデータを形態素に分解した上で、これらの形態素と、オントロジーに含まれる単語又は同類語とのマッチングを行う。このマッチングの結果により、コンテンツのテキストデータと類似度の高い単語に関連付けられた見出し語の階層情報をオントロジーから抽出し、コンテンツの内容を表すメタデータとして出力する。
このとき、出力部17は、マッチングした単語と見出し語との関連度に基づいて算出されるスコアが上位の見出し語の階層情報を抽出する。
The
At this time, the
図4は、本実施形態に係るスコアに基づくメタデータの出力方法の一例を示す図である。
この例では、コンテンツに関するテキストデータから、「背中」、「育てる」、「卵」、「産む」といった単語が抽出されている。これらを、知識構造データとマッチングすることにより、メタデータ毎のスコアが算出される。
FIG. 4 is a diagram illustrating an example of a metadata output method based on the score according to the present embodiment.
In this example, words such as “back”, “nurturing”, “egg”, and “laying” are extracted from the text data related to the content. By matching these with knowledge structure data, a score for each metadata is calculated.
例えば、「背中」とマッチングした見出し語の「内部」、「外部」、「食性」、「生殖」に対して、それぞれ関連度に応じたスコアが加算される。同様に、「育てる」、「卵」、「産む」とマッチングした見出し語に対しても、それぞれスコアが加算されていく。これらの合計スコアが最も高い見出し語「生殖」が選択され、コンテンツのメタデータとして階層情報「生態−生殖」が抽出される。 For example, a score corresponding to the degree of association is added to “inside”, “outside”, “food habit”, and “reproductive” of the headwords matching “back”. Similarly, scores are added to headwords that match “nurturing”, “egg”, and “laying”. The headword “reproduction” having the highest total score is selected, and the hierarchical information “ecology-reproduction” is extracted as the metadata of the content.
図5は、本実施形態に係る管理サーバ1によるコンテンツへのメタデータの付与処理の一例を示すフローチャートである。
この例は、自社の映像コンテンツにメタデータを付与したいコンテンツホルダにおいて管理サーバ1を利用した際の処理例である。
コンテンツホルダは、映像コンテンツを管理する上で必要となるテキスト情報を蓄積している。このテキスト情報は、例えば、番組情報や字幕情報等である。コンテンツオペレータは、管理サーバ1により、コミュニティサイトからオントロジーを取得し、映像コンテンツへメタデータを付与する。
FIG. 5 is a flowchart illustrating an example of a process for adding metadata to content by the
This example is a processing example when the
The content holder stores text information necessary for managing video content. This text information is, for example, program information or caption information. The content operator acquires an ontology from the community site by the
ステップS1において、対象指定部11は、コンテンツオペレータから、抽出したいWebページのURLの指定を受け付ける。あるいは、対象指定部11は、CSV等のファイルを取り込むことで、知識構造を解析するためのテキストデータを取得する。例えば、コミュニティサイトの「ミジンコ」を説明するWebページのURLが指定されることで、「ミジンコ」に関するテキストデータを得る。同様に、「ウニ」及び「トンボ」といった、「ミジンコ」と同一カテゴリとされる生物(動物)のWebページが指定されることで、抽出データに他の生物のデータも追加される。
In step S <b> 1, the
ステップS2において、見出し抽出部12は、コミュニティサイトから取得された抽出データの見出し構造から、見出し語の階層情報を抽出する。
ステップS3において、単語抽出部13は、ステップS2で抽出された見出し内で使用されている単語群から、見出し語を特徴づける単語群を抽出する。
In step S2, the
In step S3, the
ステップS4において、構造化部14は、ステップS2で抽出された見出し語の階層情報と、ステップS3で抽出された見出し内の特徴単語とに基づいて、知識構造データであるオントロジーを生成する。
なお、コンテンツオペレータは、見出し語の階層情報、見出し内の特徴単語、又は生成されたオントロジーを、手動により修正することも可能である。
In step S4, the
The content operator can also manually correct the hierarchical information of the headword, the feature word in the headline, or the generated ontology.
ステップS5において、コンテンツオペレータは、映像コンテンツの説明テキスト(番組情報、映像内容等)からオントロジーに基づくメタデータを付与するために、メタデータを付与したい映像コンテンツのURLを指定する。コンテンツ指定部16は、指定されたURLにより映像コンテンツに関するテキストデータを取得する。あるいは、コンテンツ指定部16は、CSV等のファイルを取り込むことで、テキストデータを取得してもよい。
In step S5, the content operator designates the URL of the video content to which metadata is to be added in order to add metadata based on the ontology from the description text (program information, video content, etc.) of the video content. The
ステップS6において、出力部17は、ステップS5で取得されたテキストデータを、形態素単位に分割する。例えば、「モンシロチョウの幼虫は、卵の殻を食べる。」というテキストを、「モンシロチョウ」、「幼虫」、「卵」、「殻」、「食べる」という形態素に分解する。
In step S6, the
ステップS7において、出力部17は、ステップS6で得られた各々の単語が、オントロジーにおいて、どの分類で最も多く利用されているかを計算し、「モンシロチョウの幼虫は、卵の殻を食べる。」に対して、例えば、「生態」−「食性」というメタデータをオントロジーから抽出して出力する。
コンテンツオペレータは、出力された「生態」−「食性」というメタデータを取得し、自身のシステムで利用できる。
In step S <b> 7, the
The content operator can acquire the output “ecological”-“food” metadata and use it in his system.
また、指定されるコンテンツは、例えば、コミュニティサイトのWebページとすることもできる。ページ作成者は、Webページを指定することでメタデータを取得し、Webページ自身を再整理することが可能となる。例えば、「ミジンコ」に関するWebページにおいて、「特徴」という見出しで形態に関する記述があった場合に、ページ作成者は、「特徴」を「形態」という共通の見出し語に定義し直すことで、Webページ自身を共通構造に基づく内容に再整理できる。 Also, the designated content can be, for example, a web page of a community site. A page creator can acquire metadata by designating a Web page and rearrange the Web page itself. For example, in a web page related to “daphnia”, if there is a description about a form under the heading “feature”, the page creator redefines “feature” as a common headword “form”, The page itself can be rearranged into content based on a common structure.
さらに、例えば、コンテンツオペレータは、学校教育用のコンテンツを制作する際の参考として、見出し語が階層化されたテキストを持つ教科書データから、目次構造や説明内容の特徴を抽出する際に管理サーバ1を利用できる。
コンテンツオペレータは、対象指定部11に対して教科書データが公開されたURLを複数指定し、コンテンツ指定部16に対して全指定することにより、構造化部14により生成された教科書のオントロジーを全て得ることができる。
ここで得られる知識構造は、例えば、中学1年生向けの理科の教科書では、「動物の生活」という目次の下位に「生物と細胞」、「動物の体」、「分類」といった目次と、これらの下位目次を特徴付ける単語である「細胞」、「分裂」、「卵生」といった特徴単語を定義したオントロジーとなる。これにより、コンテンツオペレータは、教育資料として必要となる目次や内容を把握することが可能となる。また、特定の教科書では説明されていない項目の洗い出しも可能となる。
Further, for example, when the content operator extracts the characteristics of the table of contents structure and the explanation contents from the textbook data having the text in which the headword is hierarchized as a reference when producing the content for school education, the
The content operator designates a plurality of URLs in which the textbook data is disclosed to the
The knowledge structure obtained here is, for example, a science textbook for first-year junior high school students, a table of contents such as “organisms and cells”, “animal bodies”, “classification”, etc. It is an ontology that defines characteristic words such as “cell”, “split”, and “egg” that characterize the subordinate table of contents. As a result, the content operator can grasp the table of contents and contents necessary as educational materials. Also, items that are not explained in a specific textbook can be identified.
本実施形態によれば、管理サーバ1は、分野が共通する複数の文書情報から、見出し語の階層情報及び見出し内の特徴単語を抽出し、これらを類似度に基づいて統合することにより、知識構造データとしてのオントロジーを生成する。したがって、管理サーバ1は、複数のコンテンツで共通して利用可能なメタデータの体系を定義した知識構造データを生成できる。
According to the present embodiment, the
例えば、放送番組コンテンツであれば、関連する複数のWebページから生成される、「キャスト」、「放送年」、「番組関連書籍」といった、共通して利用できる見出し語による知識構造を基に、コンテンツのメタデータを付与することで、メタデータ定義を共通化することができる。また、放送番組コンテンツには「番組関連書籍」情報が記載されるという知識構造が抽出されるので、映像コンテンツにその記載がない場合に、本当に「番組関連書籍」がないのかといった記載内容の精査も可能となる。 For example, in the case of broadcast program content, based on a knowledge structure with commonly used headwords such as “cast”, “broadcast year”, “program related book” generated from a plurality of related web pages, By adding content metadata, metadata definitions can be shared. Also, since the knowledge structure that “program related books” information is described in the broadcast program content is extracted, if the video content is not described, the description contents such as whether or not the “program related books” really exist are scrutinized. Is also possible.
知識構造データには、見出し語に関連付けられた単語が含まれるので、見出し語の階層構造それぞれの意味的内容がより具体的に表される。この結果、任意のテキストデータとのマッチングが容易となり、コンテンツに対して適切なメタデータを容易に付与できる。 Since the knowledge structure data includes words associated with headwords, the semantic content of each hierarchical structure of headwords is expressed more specifically. As a result, matching with arbitrary text data becomes easy, and appropriate metadata can be easily given to the content.
また、知識構造データには、見出し語と特徴単語との関連度が含まれるので、この関連度に基づいてコンテンツと見出し語とのマッチングの度合いがより具体的に比較できる。この結果、任意のテキストデータとのマッチングが容易となり、コンテンツに対して適切なメタデータを容易に付与できる。 Further, since the knowledge structure data includes the degree of association between the headword and the characteristic word, the degree of matching between the content and the headword can be more specifically compared based on this degree of association. As a result, matching with arbitrary text data becomes easy, and appropriate metadata can be easily given to the content.
さらに、管理サーバ1は、辞書データを用いて見出し内の単語の同類語を取得するので、コンテンツとのマッチングを概念構造に基づいて適切に行うことができる。
Furthermore, since the
このように、コンテンツホルダでは、コミュニティサイトを知識源として抽出したオントロジーを用いて、保有するコンテンツのテキスト情報に対して、構造化されたメタデータを自動的に付与することができる。これにより、コンテンツオペレータは、自身が保有するコンテンツにおいて、内容が重複しているコンテンツや不足している内容を把握することができる。また、サービスプロバイダは、Webページと映像コンテンツの補完連携といったサービス提供が可能となる。 As described above, the content holder can automatically give structured metadata to text information of the content held by using the ontology extracted from the community site as a knowledge source. As a result, the content operator can grasp the content that is duplicated or the content that is lacking in the content that the content operator owns. In addition, the service provider can provide a service such as complementary cooperation between a Web page and video content.
[第2実施形態]
以下、本発明の第2実施形態について説明する。
本実施形態に係るコンテンツサーバ2は、コンテンツホルダ又はサービスプロバイダ等においてコンテンツを管理する情報処理装置(コンピュータ)である。コンテンツサーバ2は、第1実施形態の管理サーバ1により付与されたメタデータに関連した新たなコンテンツを取得するコンテンツ取得装置として機能する。
[Second Embodiment]
Hereinafter, a second embodiment of the present invention will be described.
The
図6は、本実施形態に係るコンテンツサーバ2の機能構成を示す図である。
コンテンツサーバ2は、メタデータ取得部21と、第1コンテンツ取得部22と、第2コンテンツ取得部23とを備える。
FIG. 6 is a diagram showing a functional configuration of the
The
メタデータ取得部21は、管理サーバ1に対して自身のコンテンツ(例えば、Webページデータ)を提供し、オントロジーに基づくメタデータを取得する。
The
第1コンテンツ取得部22は、取得したメタデータと同一のメタデータが付与されたコンテンツを、所定のデータベース(コンテンツホルダ)から取得する。
The 1st
第2コンテンツ取得部23は、メタデータの階層情報に基づいて、当該階層情報の上位が共通する別の階層情報をオントロジーから抽出し、この別の階層情報に相当するメタデータが付与されたコンテンツを、所定のデータベースから取得する。
The second
図7は、本実施形態に係る関連コンテンツの取得過程の一例を示す図である。
この例は、自身のWebページに映像コンテンツを付加したいサービスプロバイダにおける処理を示している。
サービスプロバイダは、自身のWebページに、ページの内容に関連した映像コンテンツを紐付けたい場合に、コンテンツホルダが付与したメタデータを利用することで、関連コンテンツを選択できる。
FIG. 7 is a diagram illustrating an example of a related content acquisition process according to the present embodiment.
This example shows processing in a service provider who wants to add video content to his Web page.
When a service provider wants to link video content related to the contents of a page to his / her Web page, the service provider can select related content by using metadata provided by the content holder.
例えば、コンテンツホルダに富士山の文化的背景を説明した映像コンテンツ、及び富士山の気候を説明した映像コンテンツがあった場合、これらのコンテンツに、「山」−「信仰」及び「山」−「地質」というメタデータが付与されているものとする。 For example, if there are video contents explaining the cultural background of Mt. Fuji and video contents explaining the climate of Mt. Fuji in the content holder, these contents include “mountain”-“faith” and “mountain”-“geology”. It is assumed that the metadata is given.
サービスプロバイダは、富士山の紹介サイトを制作する際、その文化的背景を説明したテキストエリア31を管理サーバ1に問い合わせ、「山」−「信仰」というメタデータを取得する。
When the service provider creates an introduction site for Mt. Fuji, the service provider inquires the
サービスプロバイダは、取得したメタデータにより、見出し語32を修正すると共に、コンテンツホルダが持つ「山」−「信仰」に関連したコンテンツを検索し、リンク33を張ることができる。このとき、検索したコンテンツに付随するテキスト34が付加されてもよい。
The service provider can correct the
さらに、サービスプロバイダは、「山」−「地質」に関する映像コンテンツがあることも、メタデータの概念構造を辿ることにより把握できる。したがって、サービスプロバイダは、自身のWebページに関連した映像コンテンツだけでなく、体系的に関連した映像コンテンツを、さらに検索して表示できる。すなわち、「地質」の見出し語35、映像のリンク36及び映像に付随するテキスト37が付加される。
なお、コンテンツを検索するためのクエリは、API又はSPARQL等でよいが、これらには限られない。
Furthermore, the service provider can grasp that there is video content regarding “mountain”-“geology” by following the conceptual structure of the metadata. Therefore, the service provider can further search and display not only video content related to his / her web page but also systematically related video content. That is, a headword 35 of “geology”, a
The query for searching for content may be API or SPARQL, but is not limited thereto.
本実施形態によれば、コンテンツサーバ2は、メタデータが共通するコンテンツをデータベースから取得することにより、オントロジーを利用して複数のコンテンツを連携させて情報提供することができる。
さらに、コンテンツサーバ2は、オントロジーに基づいてメタデータの上位階層が共通する関連コンテンツを取得するので、関連情報を含めた複数のコンテンツを効率的に収集して情報量を増やせる。
According to the present embodiment, the
Furthermore, since the
このように、コンテンツサーバ2は、コミュニティサイトを知識源としたオントロジーに基づいてメタデータをコンテンツに付与することにより、コンテンツを体系化できるだけでなく、他のコンテンツと補完的に連携した新たなコンテンツを生み出すことができる。
サービスプロバイダは、コミュニティサイトの知識を利用して共通化されたメタデータや体系化されたコンテンツにより、映像百科事典といった複数のコンテンツを連携した新たなサービスを容易に提供できる。また、例えば、映像コンテンツとWebコンテンツ、映像コンテンツと映像コンテンツ、といった柔軟なコンテンツ連携が可能となる。
In this way, the
The service provider can easily provide a new service in which a plurality of contents such as a video encyclopedia are linked by using metadata and systematized contents that are shared by using knowledge of the community site. In addition, for example, flexible content linkage such as video content and Web content and video content and video content is possible.
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本実施形態に記載されたものに限定されるものではない。 As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. Further, the effects described in the present embodiment are merely a list of the most preferable effects resulting from the present invention, and the effects of the present invention are not limited to those described in the present embodiment.
前述の実施形態では、映像コンテンツ又はWebページを例にメタデータの付与方法を説明したが、コンテンツはこれらには限られず、オントロジーとのマッチングが可能なテキストデータが付与された様々なコンテンツを対象とできる。 In the above-described embodiment, the method for assigning metadata has been described using video content or a Web page as an example. However, the content is not limited to these, and various types of content to which text data that can be matched with an ontology are assigned. And can.
また、前述の管理サーバ1(オントロジー生成装置、メタデータ出力装置)及びコンテンツサーバ2(コンテンツ取得装置)の各機能は、サービス形態に応じて適宜分散又は統合されたシステムとして提供されてよい。 The functions of the management server 1 (ontology generation device, metadata output device) and the content server 2 (content acquisition device) described above may be provided as a system that is appropriately distributed or integrated depending on the service form.
本実施形態では、オントロジーの生成装置、並びにこのオントロジーを利用するメタデータ出力装置及びコンテンツ取得装置の構成と動作について説明したが、本発明はこれに限られず、各構成要素を備え、オントロジーを生成又は利用するための方法、又はプログラムとして構成されてもよい。 In the present embodiment, the configuration and operation of the ontology generation device, and the metadata output device and content acquisition device that use this ontology have been described. However, the present invention is not limited to this, and includes each component to generate an ontology. Alternatively, it may be configured as a method or program for use.
さらに、各装置の機能を実現するためのプログラムをコンピュータで読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。 Furthermore, the program for realizing the function of each device may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read by a computer system and executed.
ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータで読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。 The “computer system” here includes an OS and hardware such as peripheral devices. The “computer-readable recording medium” refers to a storage device such as a portable medium such as a flexible disk, a magneto-optical disk, a ROM, and a CD-ROM, and a hard disk built in the computer system.
さらに「コンピュータで読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでもよい。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。 Furthermore, “computer-readable recording medium” means that a program is dynamically held for a short time, like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. It is also possible to include one that holds a program for a certain time, such as a volatile memory inside a computer system that becomes a server or client in that case. Further, the program may be for realizing a part of the above-described functions, and may be capable of realizing the above-described functions in combination with a program already recorded in the computer system. .
1 管理サーバ(オントロジー生成装置、メタデータ出力装置)
2 コンテンツサーバ(コンテンツ取得装置)
11 対象指定部
12 見出し抽出部
13 単語抽出部
14 構造化部
15 辞書取得部
16 コンテンツ指定部
17 出力部
21 メタデータ取得部
22 第1コンテンツ取得部
23 第2コンテンツ取得部
1 Management server (Ontology generation device, metadata output device)
2 Content server (content acquisition device)
DESCRIPTION OF
Claims (9)
前記見出し語に紐付く単語を前記文書情報のそれぞれから抽出する単語抽出部と、
前記単語の類似度に基づいて、互いに異なる前記見出し語を1つに統合し、当該統合された見出し語の階層情報を含む前記分野の知識構造データを生成する構造化部と、を備えるオントロジー生成装置。 A headline extraction unit that extracts hierarchical information of headwords from each of a plurality of document information in a specified field;
A word extraction unit that extracts a word associated with the headword from each of the document information;
Ontology generation comprising: a structuring unit that integrates different headwords into one based on the similarity of the words and generates knowledge structure data of the field including hierarchical information of the integrated headwords apparatus.
前記出力部は、前記テキストデータと、前記単語又は前記同類語とのマッチングによって、当該単語に関連付けられた前記見出し語の階層情報を抽出する請求項4に記載のメタデータ出力装置。 A dictionary acquisition unit that acquires synonyms of the word based on dictionary data;
The metadata output device according to claim 4, wherein the output unit extracts hierarchical information of the headword associated with the word by matching the text data with the word or the similar word.
指定された分野における複数の文書情報のそれぞれから、見出し語の階層情報を抽出する見出し抽出ステップと、
前記見出し語に紐付く単語を前記文書情報のそれぞれから抽出する単語抽出ステップと、
前記単語の類似度に基づいて、互いに異なる前記見出し語を1つに統合し、当該統合された見出し語の階層情報を含む前記分野の知識構造データを生成する構造化ステップと、を実行するオントロジー生成方法。 The computer controller
A headline extraction step of extracting hierarchical information of headwords from each of a plurality of pieces of document information in a specified field;
A word extracting step of extracting a word associated with the headword from each of the document information;
An ontology that executes the structuring step of integrating the different headwords into one based on the similarity of the words and generating knowledge structure data of the field including hierarchical information of the integrated headwords Generation method.
指定された分野における複数の文書情報のそれぞれから、見出し語の階層情報を抽出する見出し抽出ステップと、
前記見出し語に紐付く単語を前記文書情報のそれぞれから抽出する単語抽出ステップと、
前記単語の類似度に基づいて、互いに異なる前記見出し語を1つに統合し、当該統合された見出し語の階層情報を含む前記分野の知識構造データを生成する構造化ステップと、を実行させるためのオントロジー生成プログラム。 In the control part of the computer,
A headline extraction step of extracting hierarchical information of headwords from each of a plurality of pieces of document information in a specified field;
A word extracting step of extracting a word associated with the headword from each of the document information;
Structuring step of integrating the different headwords into one based on the similarity of the words and generating knowledge structure data of the field including hierarchical information of the integrated headwords Ontology generation program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015038206A JP6499477B2 (en) | 2015-02-27 | 2015-02-27 | Ontology generation device, metadata output device, content acquisition device, ontology generation method, and ontology generation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015038206A JP6499477B2 (en) | 2015-02-27 | 2015-02-27 | Ontology generation device, metadata output device, content acquisition device, ontology generation method, and ontology generation program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016162054A JP2016162054A (en) | 2016-09-05 |
JP6499477B2 true JP6499477B2 (en) | 2019-04-10 |
Family
ID=56846903
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015038206A Active JP6499477B2 (en) | 2015-02-27 | 2015-02-27 | Ontology generation device, metadata output device, content acquisition device, ontology generation method, and ontology generation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6499477B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108572953B (en) * | 2017-03-07 | 2023-06-20 | 上海颐为网络科技有限公司 | Entry structure merging method |
KR102376201B1 (en) * | 2017-04-04 | 2022-03-18 | 한국전자통신연구원 | System and method for generating multimedia knowledge base |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1196177A (en) * | 1997-09-22 | 1999-04-09 | Nippon Telegr & Teleph Corp <Ntt> | Method for generating term dictionary, and storage medium recording term dictionary generation program |
JP2008102845A (en) * | 2006-10-20 | 2008-05-01 | Sony Corp | Information processing apparatus, method, and program |
JP2009140056A (en) * | 2007-12-04 | 2009-06-25 | Mitsubishi Electric Corp | Language knowledge acquisition device and language knowledge acquisition program |
JP2010146430A (en) * | 2008-12-22 | 2010-07-01 | Nec Corp | Information processor |
JP2012194676A (en) * | 2011-03-15 | 2012-10-11 | Ntt Comware Corp | Information processing system, information generation device, information providing device, information generation method, information providing method, information generation program, and information providing program |
KR20140052328A (en) * | 2012-10-24 | 2014-05-07 | 에스케이텔레콤 주식회사 | Apparatus and method for generating rdf-based sentence ontology |
JP5576003B1 (en) * | 2013-09-30 | 2014-08-20 | 楽天株式会社 | Corpus generation device, corpus generation method, and corpus generation program |
-
2015
- 2015-02-27 JP JP2015038206A patent/JP6499477B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016162054A (en) | 2016-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huistra et al. | Phrasing history: Selecting sources in digital repositories | |
US8868558B2 (en) | Quote-based search | |
KR101661198B1 (en) | Method and system for searching by using natural language query | |
CN109101533B (en) | Automated reading comprehension | |
CN103229223A (en) | Providing answers to questions using multiple models to score candidate answers | |
Steiner et al. | Evaluating a digital humanities research environment: the CULTURA approach | |
Golub et al. | Subject indexing in humanities: a comparison between a local university repository and an international bibliographic service | |
RU2698405C2 (en) | Method of search in database | |
Ménard et al. | Digital image description: a review of best practices in cultural institutions | |
Peponakis | Libraries’ metadata as data in the era of the semantic web: modeling a repository of master theses and PhD dissertations for the web of data | |
JP6499477B2 (en) | Ontology generation device, metadata output device, content acquisition device, ontology generation method, and ontology generation program | |
Sateli et al. | Semantic user profiles: Learning scholars’ competences by analyzing their publications | |
Ketelaar | Ten years of archival science | |
Huang et al. | Modeling and analyzing the topicality of art images | |
Petek | Comparing user‐generated and librarian‐generated metadata on digital images | |
Koutsomitropoulos et al. | Federated semantic search using terminological thesauri for learning object discovery | |
Artese et al. | Multilingual specialist glossaries in a framework for intangible cultural heritage | |
Dalton | Searching the Archive of Our Own: the usefulness of the tagging structure | |
Nguyen et al. | Inside ASCENT: Exploring a deep commonsense knowledge base and its usage in question answering | |
Chen et al. | Discrepancies in the portrayal of the COVID-19 vaccine in Chinese and US international media outlets: A corpus-based discursive news values analysis | |
JP2006139484A (en) | Information retrieval method, system therefor and computer program | |
Stead et al. | Editorial cartoon collections: a review of indexing challenges | |
Wynne | The role of Clarin in digital transformations in the humanities | |
Inversini et al. | Harvesting user-generated picture metadata to understand destination similarity | |
Jörgensen | Photos: Flickr, facebook and other social networking sites |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180104 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181204 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190131 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190315 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6499477 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |