JP7170082B2

JP7170082B2 - 情報を生成するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム

Info

Publication number: JP7170082B2
Application number: JP2021051976A
Authority: JP
Inventors: ワン・シュー; レン・ケシン; ヂャン・シャオハン; フォン・ジーファン; チャイ・チュングアン; ジュー・ヨン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-04-15
Filing date: 2021-03-25
Publication date: 2022-11-11
Anticipated expiration: 2041-03-25
Also published as: EP3859562A3; CN111522994A; KR102565659B1; CN111522994B; JP2021120863A; EP3859562A2; KR20210040885A; US20210216717A1; US11847164B2

Description

本出願の実施形態は、コンピュータ技術分野に関し、具体的には、ナレッジグラフ技術分野に関する。

インターネット上のビデオリソースの増加に伴い、ビデオ推薦やビデオ検索など、ビデオ関連製品が多くなってきている。

関連技術では、ビデオ検索やビデオ推薦は通常、ビデオタグ技術を用いて、ビデオリソースに対応するタグを設定する。そして、タグに基づいてビデオを推薦したり、タグに基づいてインデックスを作成したりして、ビデオの推薦や検索を実現する。通常、ビデオのタグは扁平で構造化されておらず、ビデオのタグにはビデオのセマンティック情報が含まれていないため、ビデオの推薦、検索などには適していない。

情報を生成するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムを提供する。

第１態様において、本出願の実施例は、ターゲットビデオから、人物実体語と、作品実体語と、ビデオカテゴリ実体語と、ターゲットビデオの関連コンテンツを表すためのビデオコア実体語とを含む複数のタグ実体語を取得するステップと、複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクするステップと、各タグ実体語のリンク結果に基づいて、ターゲットビデオのセマンティック情報を確定するステップと、ナレッジグラフにおけるノードとエッジとの関係に基づいて、ターゲットビデオのセマンティック情報を構造化し、ターゲットビデオの構造化されたセマンティック情報を取得するステップと、を含む、情報を生成するための方法を提供する。

第２態様において、本出願の実施例は、ターゲットビデオから、人物実体語と、作品実体語と、ビデオカテゴリ実体語と、ターゲットビデオの関連コンテンツを表すためのビデオコア実体語とを含む複数のタグ実体語を取得するように構成された取得ユニットと、複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクするように構成されたリンクユニットと、各タグ実体語のリンク結果に基づいて、ターゲットビデオのセマンティック情報を確定するように構成された確定ユニットと、ナレッジグラフにおけるノードとエッジとの関係に基づいて、ターゲットビデオのセマンティック情報を構造化し、ターゲットビデオの構造化されたセマンティック情報を取得するように構成された構造化ユニットと、を含む、情報を生成するための装置を提供する。

第３態様において、本出願の実施例は、少なくとも１つのプロセッサと、少なくとも１つのプロセッサと通信可能に接続されたメモリとを含む電子機器であって、メモリに少なくとも１つのプロセッサによって実行可能な指令が記憶されており、指令が少なくとも１つのプロセッサによって実行されると、本出願の第１態様のいずれかの実施形態に記載の方法が実行される電子機器を提供する。

第４態様において、本出願の実施例は、コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、本出願の第１態様のいずれかの実施形態に記載の方法を実施させるためのものである、非一時的コンピュータ可読記憶媒体を提供する。

第５態様では、本出願の実施例は、プロセッサにより実行されると、本出願の第１態様のいずれかの実施形態に記載の方法を実現する、コンピュータプログラムを提供する。

本出願の技術案により、ビデオのタグは構造化されておらず、ビデオのタグにはセマンティック情報が含まれていないため、ビデオタグがビデオの推薦、検索などに適用できないという課題を解決し、ビデオの推薦、検索などの効率と精度を向上させることができる。

上記説明は、本出願の実施形態の肝心または重要な特徴を認識することが意図されているわけではなく、本出願の範囲を限定するためにも使用されないことを理解されたい。本出願の他の特徴は、以下の明細書によって理解しやすくなるであろう。

図面は、本出願をよりよく理解するためのものであり、本出願への限定を構成しない。

本出願に係る情報を生成するための方法の第１の実施形態の模式図である。本実施形態に係る情報を生成するための方法におけるターゲットビデオから複数のタグ実体語を取得する一実施形態を示す図である。本出願に係る情報を生成するための方法の第２の実施形態の模式図である。本出願に係る情報を生成するための装置の一実施形態の模式図である。本出願の実施形態に係る情報を生成するための方法を実現するための電子機器のブロック図である。

以下、図面を参照して本出願の例示的な実施形態について説明する。理解を容易にするために、本出願の実施形態の様々な詳細について説明するが、それらは例示的なものにすぎないとみなされるべきである。したがって、当業者であれば、ここに記載された実施形態について本出願の範囲および趣旨から逸脱することなく、様々な変更および修正を行うことができることを認識できるであろう。同様に、以下の説明では、明確かつ簡略化にするために、公知の機能および構造の説明を省略する。

なお、衝突しないことを前提に、本明細書の実施形態および実施形態における特徴は、互いに組み合わせられてもよい。以下、添付図面を参照し、実施形態に関連して本出願を詳しく説明する。

図１は、本出願に係る情報を生成するための方法の第１の実施形態の模式図である。この情報を生成するための方法は、次のステップ（ステップ１０１～１０４）を含むことができる。

ステップ１０１：ターゲットビデオから複数のタグ実体語を取得する。
本実施形態では、情報を生成するための方法の実行主体は、情報を生成するための装置であり得る。この情報を生成するための装置は、電子実体(例えば、サーバ)であってもよいし、ソフトウェア統合によるアプリケーションであってもよい。使用時には、ターゲットビデオをこの情報を生成するための装置に入力することができる。この情報を生成するための装置は、本実施形態に係る情報を生成するための方法を用いてターゲットビデオの構造化されたセマンティック情報を生成することができる。

本実施形態では、上記実行主体は、様々な方法でターゲットビデオからタグ実体語を取得することができる。ここで、タグ実体語は認知と知覚の２つのレベルからターゲットビデオを表現することができる。例えば、上記実行主体は、ターゲットビデオを予め訓練された実体語取得モデルに入力して、該ターゲットビデオのタグ実体語を取得することができ、実体語取得モデルは、ターゲットビデオとタグ実体語との対応関係を表すために使用することができる。もちろん、上記実行主体は、ターゲットビデオのタグ実体語を他の方法で取得してもよい。

具体的には、上記タグ実体語は、少なくとも人物実体語、作品実体語、ビデオカテゴリ実体語、およびビデオコア実体語を含むことができる。上記人物実体語は、該ターゲットビデオに現れる人物(例えば、アンディ・ラウ)を示すために用いることができる。上記作品実体語は、該ターゲットビデオが属する作品の名前または該ターゲットビデオの作品名(例えば、インファナル・アフェア)を示すために用いることができる。ビデオカテゴリ実体語は、ターゲットビデオのカテゴリを表すために用いることができる。ここで、カテゴリは、映画やテレビ、香港や台湾の映画、中国大陸のバラエティ番組、中国産アニメなどを含むことができる。ビデオコア実体語は、ターゲットビデオに関連するコンテンツを表すための実体語を含むことができ、例えば、ビデオコア実体語は、ターゲットビデオに現れる音楽の音楽名、該音楽のプレイヤ、アニメキャラクタなどを含むことができる。

ステップ１０２：複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクする。

本実施形態では、予め設定されたナレッジグラフ(ｋｎｏｗｌｅｄｇｅｇｒａｐｈ、ＫＧ)は、従来技術で知られているナレッジグラフであり得る。このナレッジグラフは、複数のノード(Ｐｏｉｎｔ)を含むことができ、いくつかのノード間には、接続するエッジ(Ｅｄｇｅ)も存在する。ステップ１０１で取得された複数のタグ実体語に基づいて、複数のタグ実体語におけるいずれかのタグ実体語に対して、上記実行主体は、このタグ実体語を上記ナレッジグラフにおけるノードにリンクすることができる。これにより、上記複数のタグ実体語における各実体語はいずれもナレッジグラフにおけるノードにリンクすることができる。「タグ実体語をナレッジグラフにおけるノードにリンクする」とは、タグ実体語の文字列をナレッジグラフにおける対応するノードにマッピングすることを指し得ることを理解されたい。

ナレッジグラフは基本的にはセマンティックネットワークであり、グラフベースのデータ構造であり、ノードとエッジからなる。ナレッジグラフでは、各ノードは区別可能で独立して存在するある事物を表し、各エッジはノードとノードとの関係を表す。ノードにおける事物は、ある人、ある都市、ある植物、ある商品などであり得る。ナレッジグラフは、関係を効果的に表すための形態であり、実世界に存在する様々な事物とその関係を記述することを目的としている。したがって、タグ実体語をナレッジグラフにおけるノードにリンクすることにより、ノードとエッジとの関係からタグ実体語のセマンティック情報を取得することができる。

本実施形態のいくつかのオプションの実施形態では、タグ実体語を予め設定されたナレッジグラフにおけるノードにリンクした後、上記実行主体は、ナレッジグラフを用いて各タグ実体語を検証することにより、複数のタグ実体語の中にターゲットビデオとは無関係なタグ実体語が存在するか否かを判断することができる。具体的には、上記実行主体は、各タグ実体語のナレッジグラフへのリンク結果に基づいて、各実体タグ語に無関係実体語が存在するか否かを判断することができる。ここで、無関係実体語は、複数のタグ実体語におけるターゲットビデオに関連しない実体語であり得る。例えば、ターゲットビデオが映画「インファナル・アフェア」のセグメントであり、上記実行主体により取得された各タグ実体語には人物実体語「ジャッキー・チュン」が含まれており、この人物実体語をナレッジグラフにおける「ジャッキー・チュン」ノードにリンクした後、このノードとエッジとの関係から「ジャッキー・チュン」がターゲットビデオと無関係であると判断できる。この場合、この人物実体語はターゲットビデオに関連しないタグ実体語であると判断できる。上記実行主体は、タグ実体語が無関係実体語であることを確定した後、この無関係実体語を削除し得ることを理解されたい。この実施形態によって提供される技術案によれば、ナレッジグラフを用いて、取得した各タグ実体語を検証し、各タグ実体語からターゲットビデオと無関係な実体語を削除することにより、取得したターゲットビデオの構造化されたセマンティック情報の正確性を向上させることができる。

ステップ１０３：各タグ実体語のリンク結果に基づいて、ターゲットビデオのセマンティック情報を確定する。

本実施例では、上記実行主体は、ステップ１０２のリンク結果を取得することができるほか、各タグ実体語のリンク結果を用いて、各タグ実体語のナレッジグラフにおけるリンクノードと、このノードに接続されているエッジとノードに応じて、各タグ実体語のセマンティック情報を特定することができる。ここで、各タグ実体語のセマンティック情報を上記ターゲットビデオのセマンティック情報として確定することができる。例えば、上記タグ実体語は人物実体語「アンディ・ラウ」であり、上記実行主体はこの人物実体語をナレッジグラフにおけるノードにリンクした後、このノードに含まれる情報と、このノードにエッジを介して接続されたノードに含まれる情報、例えば、アンディ・ラウの身元情報、代表作品情報などを取得することができ、これらの情報は人物実体語のセマンティック情報である。

本実施形態のいくつかのオプションの実施形態では、上記実行主体は、各タグ実体語のリンク結果に基づいて、この各タグ実体語の属性情報を取得するステップと、各タグ実体語のリンク結果に基づいて、各タグ実体語をナレッジグラフにおけるエッジの関係に応じて拡張し、ターゲットビデオの拡張情報を取得するステップと、各タグ実体語の属性情報および拡張情報をターゲットビデオのセマンティック情報として確定するステップとにより、上記ステップ１０３を実現することができる。この実施形態では、各タグ実体語のリンク結果を用いて各タグ実体語の属性情報を取得することができる(例えば、タグ実体語は人物実体語と作品実体語を含み、人物実体語の属性情報は人物身元情報、代表作品情報などを含むことができ、作品実体語の属性情報は作品時間情報、出演者情報などを含むことができる)。そして、上記実行主体は、各タグ実体語のリンク結果を用いて、ナレッジグラフにおけるエッジとノードとの関係に応じて各タグ実体語を情報拡張することができ、拡張情報を取得することができる。例えば、タグ実体語は人物実体語(アンディ・ラウ)と作品実体語(インファナル・アフェア)を含むことができる。人物実体語(アンディ・ラウ)と作品実体語(インファナル・アフェア)の２つのタグ実体語のリンク結果を用いて、ナレッジグラフにおけるリンク結果のノードとエッジとの関係に応じて、これらの２つのタグ実体語を情報拡張し、作品における人物の役柄情報(アンディ・ラウがインファナル・アフェアで演じた役柄：劉建明)などの拡張情報を取得することができる。この実施形態によれば、ターゲットビデオのセマンティック情報をさらに拡張することができる。

ステップ１０４：ナレッジグラフにおけるノードとエッジとの関係に応じて、各ターゲットビデオのセマンティック情報を構造化し、ターゲットビデオの構造化されたセマンティック情報を取得する。

本実施形態では、上記実行主体は、ステップ１０３で取得されたセマンティック情報に基づいて、セマンティック情報のナレッジグラフに位置するノードとエッジとの関係に応じて、ターゲットビデオのセマンティック情報を構造化することができ、このターゲットビデオの構造化されたセマンティック情報を取得することができる。上記実行主体は取得した構造化されたセマンティック情報をターゲットビデオに表記し得ることを理解されたい。

図２は、本実施形態に係る情報を生成するための方法におけるターゲットビデオから複数のタグ実体語を取得する一実施形態である。上記実行主体は、具体的に次のようなステップ（ステップ２０１～２０３）により、ステップ１０１の「ターゲットビデオから複数のタグ実体語を取得する」ことを実現することができる。

ステップ２０１：ターゲットビデオに対して顔認識を行い、ターゲットビデオの人物実体語を取得する。

本実施形態では、上記実行主体は、顔認識技術を用いてターゲットビデオを認識し、ターゲットビデオから人物実体語を取得することができる。この実施形態では、上記実行主体は、予め設定された顔データベースにターゲットビデオにおける顔が含まれているか否かを判断することができる。顔データベースにターゲットビデオにおける顔が含まれていれば、上記実行主体は、ターゲットビデオにおける人物実体語を特定することができる。あるいは、上記実行主体は、ターゲットビデオまたはターゲットビデオにおける顔イメージを含むイメージフレームを予め訓練された顔認識モデルに入力し、ターゲットビデオにおける人物実体語を取得することもできる。顔認識モデルは、ターゲットビデオまたはターゲットビデオにおける顔イメージと人物実体語との対応関係を表すために用いることができる。

ステップ２０２：ターゲットビデオに対してビデオ指紋認識を行い、ターゲットビデオの作品実体語を取得する。

本実施形態では、大量の完全なソースビデオを含みかつ各ソースビデオの作品名が表記されているビデオライブラリを予め設定することができる。ビデオ指紋認識時に、ターゲットビデオとビデオライブラリにおける各ソースビデオとをマッチングすることにより、上記ターゲットビデオの作品名やターゲットビデオが属するソースビデオの作品名を確定し、ターゲットビデオの作品実体語を取得することができる。

ステップ２０３：ターゲットビデオのイメージコンテンツ、オーディオコンテンツ、およびテキストコンテンツの認識結果に基づいて、ターゲットビデオのビデオカテゴリ実体語およびビデオコア実体語を取得する。

本実施形態では、上記実行主体は、様々な方式でターゲットビデオを処理することにより、ターゲットビデオのビデオカテゴリ実体語およびビデオコア実体語とを取得することができる。具体的には、上記実行主体は、ターゲットビデオのイメージコンテンツ、オーディオコンテンツ、テキストコンテンツを様々な実施形態で処理し、ターゲットビデオのビデオカテゴリ実体語およびビデオコア実体語を取得することができる。この実施形態によって提供される複数のタグ実体語を取得する方法は、知覚と認知の２つのレベルからタグ実体語を取得することができ、タグ実体語を取得する網羅性を向上させることができる。

あるいは、上記実行主体は、ターゲットビデオから、このターゲットビデオのイメージコンテンツである複数フレームのイメージを抽出した後、ターゲットビデオのイメージコンテンツ(例えば、ターゲットビデオに現れるアニメ人物、シーンなど)を分析することにより、ターゲットビデオにおけるアニメキャラクタなどのビデオコア実体語を確定することができる。また、上記実行主体は、ターゲットビデオから、ターゲットビデオのオーディオコンテンツであるオーディオ情報を抽出した後、ターゲットビデオのオーディオコンテンツに対してテキスト変換、声紋認識などの処理を行うことにより、ターゲットビデオにおける音楽名、プレイヤなどのビデオコア実体語を確定することができる。さらに、上記実行主体は、ターゲットビデオから、ターゲットビデオのテキストコンテンツであるテキスト情報(例えば、ターゲットビデオの字幕情報)を抽出した後、ターゲットビデオのテキストコンテンツに対してセマンティック解析などの処理を行うことにより、ターゲットビデオの歌詞などのビデオコア実体語を確定することができる。ターゲットビデオのイメージコンテンツ、オーディオコンテンツ、およびテキストコンテンツのうちの少なくとも１つの認識結果から、ターゲットビデオのビデオカテゴリ実体語（例えば、香港・台湾の映画）を認識することもできることを理解されたい。

あるいは、上記実行主体は、例えばターゲットビデオの顔情報、字幕情報などの非セマンティック情報に対応するタグ実体語を取得した後、取得したタグ実体語をナレッジグラフにリンクすることにより、作品実体語、ビデオカテゴリ実体語、およびビデオコア実体語などを直接取得することができる。

上記実行主体は、ステップ２０１、ステップ２０２、およびステップ２０３のうちの少なくとも１つからターゲットビデオのタグ実体語を取得することができることを理解されたい。上記ステップ２０１、ステップ２０２、およびステップ２０３の実行順序は、優先順位を問わなくてもよく、ここでは具体的な限定がない。例えば、上記ステップ２０１、ステップ２０２、およびステップ２０３は、並列に実行されてもよい。

本出願の上記実施形態によって提供される情報を生成するための方法は、まず、ターゲットビデオから複数のタグ実体語を取得することができる。そして、複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクすることができる。さらに、各タグ実体語のリンク結果に基づいて、ターゲットビデオのセマンティック情報を確定することができる。最後に、ナレッジグラフにおけるノードとエッジとの関係に応じて、ターゲットビデオのセマンティック情報を構造化し、ターゲットビデオの構造化されたセマンティック情報を取得することができる。これにより、ビデオに構造化されたセマンティック情報を提供することが実現され、ビデオのタグが構造化されておらず、セマンティック情報が欠如しているため、ビデオタグがビデオの推薦、検索などに適用できないという課題が解決され、ビデオの推薦、検索などの効率と精度が向上される。

図３は、本出願に係る情報を生成するための方法の第２の実施形態の模式図である。この情報を生成するための方法は、以下のステップ（ステップ３０１～３０６）を含むことができる。

ステップ３０１：ターゲットビデオから複数のタグ実体語を取得する。
ステップ３０２：複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクする。

ステップ３０３：各タグ実体語のリンク結果に基づいて、ターゲットビデオのセマンティック情報を確定する。

ステップ３０４：ナレッジグラフにおけるノードとエッジとの関係に応じて、ターゲットビデオのセマンティック情報を構造化し、ターゲットビデオの構造化されたセマンティック情報を取得する。

本実施形態における上記ステップ３０１～３０４に含まれるコンテンツは、上記実施形態におけるステップ１０１～１０４に含まれるコンテンツと同様または類似しているため、ここではこれ以上説明しない。

ステップ３０５：ターゲットビデオの構造化されたセマンティック情報に基づいて、ターゲットビデオの構造化サブグラフを生成する。

本実施形態では、上記実行主体は、ステップ３０４で取得されたターゲットビデオの構造化されたセマンティック情報に基づいて、ナレッジグラフにおけるノードとエッジとの関係に応じてこのターゲットビデオの構造化サブグラフを構築することができる。この構造化サブグラフは、ノードおよびエッジを含むことができ、ターゲットビデオに含まれるセマンティック情報間の関係をノードとエッジとの関係で表すことができる。

ステップ３０６：構造化サブグラフを予め訓練されたベクトル化モデルに入力し、ターゲットビデオの構造化されたセマンティック情報のベクトルを取得する。

本実施形態では、上記実行主体は、ステップ３０５で取得されたターゲットビデオの構造化サブグラフに基づいて、取得された構造化サブグラフを予め訓練されたベクトル化モデルに入力することができる。上記ベクトル化モデルは、このターゲットビデオの構造化されたセマンティック情報のベクトルを出力することができる。ここで、ベクトル化モデルは、構造化サブグラフと構造化されたセマンティック情報のベクトルとの対応関係を表すために用いることができる。取得されたベクトルは、構造サブグラフのベクトル表現であってもよいし、構造サブグラフにおけるノードのベクトル表現であってもよい。例えば、構造サブグラフのベクトル表現はビデオ推薦サービスに用いることができ、ノードのベクトル表現はビデオ検索サービスに用いることができる。上記実行主体は、様々な手段を用いて上記ベクトル化モデルを訓練することができ、実際のニーズに応じてモデル訓練を行うことができ、これらは一意に制限されないことを理解されたい。

本実施形態のいくつかのオプションの実施形態では、上記実行主体は、グラフニューラルネットワーク(ＧｒａｐｈＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＧＮＮ)を介して上記ベクトル化モデルを訓練することができる。グラフニューラルネットワークの訓練により取得されたベクトル化モデルは、構造サブグラフを出力するベクトル表現に用いることができる。例えば、グラフニューラルネットワークは、具体的に、グラフ畳み込みニューラルネットワーク(ＧｒａｐｈＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ、ＧＣＮ)を用いて、構造サブグラフにおけるノードの属性およびノードのタグに基づいて、特定のタスクに対してエンドツーエンドでモデルパラメータを訓練することにより、上記ベクトル化モデルを取得することができる。もちろん、上記実行主体は、グラフ埋め込み(ＧｒａｐｈＥｍｂｅｄｄｉｎｇ、ＧＥ)アルゴリズムを用いて上記ベクトル化モデルを訓練することもできる。グラフ埋め込みアルゴリズムにより訓練して取得されたベクトル化モデルは、構造サブグラフにおけるノードのベクトル表現を出力するために用いることができる。例えば、グラフ埋め込みアルゴリズムは、具体的に、ノードベクトルＮｏｄｅ２Ｖｅｃの方法を用いてベクトル化モデルを訓練することができる。構造サブグラフではノードとエッジからなるネットワークには多くのパスが存在し、各ノードを接続して１本の線を形成すると、これらの結び線には、文における各単語の関係のようにノード間の相互関係が含まれている。したがって、これらのノード列を文とし、単語ベクトルｗｏｒｄ２ｖｅｃの方法で訓練を行い、すなわちノードベクトルＮｏｄｅ２Ｖｅｃの方法で訓練を行うことにより、ノードのベクトル表現を取得することができる。この実施形態は、構造サブグラフのベクトル表現を出力するためのベクトル化モデルと、ノードのベクトル表現を出力するためのベクトル化モデルとを提供することができ、出力されたターゲットビデオの構造化されたセマンティック情報のベクトルに多様性を持たせることができる。

図３から分かるように、本実施形態における情報を生成するための方法は、図１に対応する実施形態と比較して、ナレッジグラフを用いてビデオの構造化されたセマンティック情報を生成した後、対応する構造サブグラフを取得し、予め訓練されたベクトル化モデルを用いてビデオの構造化されたセマンティック情報のベクトル表現を取得することができる。これにより、生成されたビデオの構造化されたセマンティック情報はビデオ推薦やビデオ検索により良く適用できるようになり、ビデオの構造化されたセマンティック情報の実用性を向上させることができる。

図４をさらに参照すると、上記各図に示す方法の実施形態として、本出願は、様々な電子機器に具体的に適用可能な、情報を生成するための装置の一実施形態を提供する。この実施形態は、図１に示す方法の実施形態と対応する。

図４に示すように、本実施形態に係る情報を生成するための装置４００は、ターゲットビデオから、人物実体語と、作品実体語と、ビデオカテゴリ実体語と、ターゲットビデオ関連コンテンツを表すための実体語を含むビデオコア実体語と、を含む複数のタグ実体語を取得するように構成された取得ユニット４０１と、複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクするように構成されたリンクユニット４０２と、各タグ実体語のリンク結果に基づいて、ターゲットビデオのセマンティック情報を確定するように構成された確定ユニット４０３と、ナレッジグラフにおけるノードとエッジとの関係に基づいて、ターゲットビデオのセマンティック情報を構造化し、ターゲットビデオの構造化されたセマンティック情報を取得するように構成された構造化ユニット４０４と、を含む。

本実施形態のいくつかのオプションの実施形態では、装置４００は、ターゲットビデオの構造化されたセマンティック情報に基づいて、ターゲットビデオの構造化サブグラフを生成するように構成された生成ユニットと、構造化サブグラフを予め訓練された、構造化サブグラフと構造化されたセマンティック情報のベクトルとの間の対応関係を表すためのベクトル化モデルに入力し、ターゲットビデオの構造化されたセマンティック情報のベクトルを取得するように構成された入力ユニットと、をさらに含む。

本実施形態のいくつかのオプションの実施形態では、ベクトル化モデルは、グラフニューラルネットワークまたはグラフ埋め込みアルゴリズムにより訓練して取得される。

本実施形態のいくつかのオプションの実施形態では、取得ユニット４０１はさらに、ターゲットビデオに対して顔認識を行い、ターゲットビデオの人物実体語を取得し、ターゲットビデオに対してビデオ指紋認識を行い、ターゲットビデオの作品実体語を取得し、ターゲットビデオのイメージコンテンツ、オーディオコンテンツ、およびテキストコンテンツの認識結果に基づいて、ターゲットビデオのビデオカテゴリ実体語およびビデオコア実体語を取得するように構成されている。

本実施形態のいくつかのオプションの実施形態では、装置４００は、各タグ実体語のリンク結果に基づいて、各タグ実体語に複数のタグ実体語におけるターゲットビデオに関連しない実体語である無関係実体語が存在するか否かを判断するように構成された判断ユニットと、タグ実体語が無関係実体語であると判定されたことに応答して、無関係実体語を削除するように構成された削除ユニットと、をさらに含む。

本実施形態のいくつかのオプションの実施形態では、確定ユニット４０３はさらに、各タグ実体語のリンク結果に基づいて、この各タグ実体語の属性情報を取得し、各タグ実体語のリンク結果に基づいて、タグ実体語をナレッジグラフにおけるエッジの関係に応じて拡張し、ターゲットビデオの拡張情報を取得し、各タグ実体語の属性情報および拡張情報をターゲットビデオのセマンティック情報として確定するように構成されている。

装置４００に記載されている各ユニットは、図１を参照して説明された方法の各ステップに対応する。したがって、方法について説明した動作および特徴は、装置４００およびその中に含まれるユニットにも同様に適用可能であり、ここではこれ以上説明しない。

本出願の実施形態によれば、本出願はまた、電子機器および可読記憶媒体を提供する。
図５は、本出願の実施形態に係る情報を生成するための方法を実現するための電子機器のブロック図である。電子機器は、ラップトップ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、および他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことが意図されている。電子機器はまた、個人デジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様の計算装置のような様々な形態のモバイルデバイスを表すことができる。本明細書に示す構成要素、それらの接続および関係、ならびにそれらの機能は、あくまでも一例に過ぎず、本明細書に記載されたおよび/または要求される本出願の実施形態を限定することは意図されていない。

図５に示すように、この電子機器は、１つ以上のプロセッサ５０１と、メモリ５０２と、高速インターフェースおよび低速インターフェースを含む各構成要素を接続するためのインターフェースとを備える。各構成要素は、異なるバスで互いに接続されており、共通マザーボードに実装されていてもよく、必要に応じて他の方法で実装されていてもよい。プロセッサは、インターフェースに結合された表示装置などの外部入出力装置上にＧＵＩのグラフィック情報を表示するために、メモリまたはメモリ上に格納された指令を含む電子機器内で実行される指令を処理することができる。他の実施形態では、複数のプロセッサおよび/または複数のバスは、必要に応じて、複数のメモリと共に使用されてもよい。同様に、複数の電子機器を接続することができ、各電子機器は、部分的に必要な動作を(例えば、サーバアレイ、ブレードサーバのセット、またはマルチプロセッサシステムとして)提供することができる。図５では、１つのプロセッサ５０１を例に挙げている。

メモリ５０２は、本出願によって提供される非一時的コンピュータ可読記憶媒体である。メモリは、少なくとも１つのプロセッサに、本出願によって提供される情報を生成するための方法を実行させるために、少なくとも１つのプロセッサによって実行可能な指令を格納する。本出願の非一時的コンピュータ可読記憶媒体は、本出願によって提供される情報を生成するための方法をコンピュータに実行させるためのコンピュータ指令を記憶する。

メモリ５０２は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能プログラム、並びに本出願の実施形態における情報を生成するための方法に対応するプログラム指令／モジュール (例えば、図４に示す取得ユニット４０１、リンクユニット４０２、確定ユニット４０３および構造化ユニット４０４) のようなモジュールの格納に使用することができる。プロセッサ５０１は、メモリ５０２に記憶された非一時的ソフトウェアプログラム、指令、およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理を実行する。すなわち、上記方法の実施形態における情報を生成するための方法を実現する。

メモリ５０２は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションを記憶することができるプログラム記憶領域、および、情報を生成するための電子機器の使用によって生成されたデータなどを記憶することができるデータ記憶領域を含むことができる。さらに、メモリ５０２は、高速ランダムアクセスメモリを含むことができ、少なくとも１つのディスク記憶装置、フラッシュメモリデバイス、または他の非一時的固体記憶装置のような非一時的メモリを含むこともできる。いくつかの実施形態では、メモリ５０２は、任意に、情報を生成するための電子機器にネットワークを介して接続することができる、プロセッサ５０１に対して遠隔設定されたメモリを含むことができる。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、移動通信網、およびそれらの組み合わせを含むが、これらに限定されない。

情報を生成するための方法に用いる電子機器は、入力装置５０３および出力装置５０４をさらに含むことができる。プロセッサ５０１、メモリ５０２、入力装置５０３、および出力装置５０４は、バスを介してまたはその他の方式で接続されることができる。図５はバスを介して接続される例である。

入力装置５０３は、入力された数字または文字情報を受信し、情報を生成するための電子機器のユーザ設定および機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングレバー、１つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置が挙げられる。出力装置５０４は、表示装置、補助照明デバイス(例えば、ＬＥＤ)、触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。この表示装置は、液晶ディスプレイ(ＬＣＤ)、発光ダイオード(ＬＥＤ)ディスプレイ、およびプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、表示装置はタッチスクリーンであってもよい。

本明細書に記載されたシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現されることができる。これらの様々な実施形態は、１つまたは複数のコンピュータプログラム内に組み込まれることを含むことができる。この１つまたは複数のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および/または解釈されることができる。このプログラマブルプロセッサは、専用プログラマブルプロセッサであっても汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび指令を受信し、この記憶システム、この少なくとも１つの入力装置、およびこの少なくとも１つの出力装置にデータおよび指令を送信することができる。

これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、かつ高度なプロセスおよび/またはオブジェクト指向プログラミング言語、および/またはアセンブリ言語/機械語を用いて実施されることができる。本明細書で使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス(ＰＬＤ))を意味し、機械可読信号として機械命令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。

ユーザとのインタラクションを提供するために、本明細書に記載されたシステムおよび技術は、ユーザに情報を表示するための表示装置(例えば、ＣＲＴ(陰極線管)またはＬＣＤ(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを有するコンピュータ上で実施されることができる。ユーザは、キーボードおよびポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類のデバイスはまた、ユーザとのインタラクションを提供するために使用されることができる。例えば、ユーザに提供されるフィードバックは、任意の形態のセンサフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であり得る。ユーザからの入力は、任意の形態(音響入力、音声入力、または触覚入力を含む)で受信されることができる。

本明細書に記載されたシステムおよび技術は、バックグラウンド構成要素を含む計算システム(例えば、データサーバとして)、またはミドルウェア構成要素を含む計算システム(例えば、アプリケーションサーバ)、またはフロントエンド構成要素を含む計算システム(例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータが挙げられ、ユーザは、グラフィカルユーザインターフェースまたはウェブブラウザを介して、本明細書に記載されたシステムおよび技術の実施形態とインタラクションすることができる)、またはそのようなバックグラウンド構成要素、ミドルウェア構成要素、またはフロントエンド構成要素の任意の組み合わせを含む計算システムにおいて実現されることができる。システムの構成要素は、任意の形態または媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(ＬＡＮ)、広域ネットワーク(ＷＡＮ)、およびインターネットを含む。

コンピュータシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは通常、互いに離れており、通信ネットワークを介してインタラクションをする。クライアントとサーバの関係は、対応するコンピュータ上で、互いにクライアント・サーバ関係を有するコンピュータプログラムを動作させることによって生成される。

本出願の実施形態の技術案によれば、まず、ターゲットビデオから複数のタグ実体語を取得することができる。そして、複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクすることができる。さらに、各タグ実体語のリンク結果に基づいて、ターゲットビデオのセマンティック情報を確定することができる。最後に、ナレッジグラフにおけるノードとエッジとの関係に応じて、ターゲットビデオのセマンティック情報を構造化し、ターゲットビデオの構造化されたセマンティック情報を取得することができる。これにより、ビデオに構造化されたセマンティック情報を提供することが実現され、ビデオのタグが構造化されておらず、セマンティック情報が欠如しているため、ビデオタグがビデオの推薦、検索などに適用できないという従来技術の課題が解決され、ビデオの推薦、検索などの効率と精度が向上される。

上記様々な形態のプロセスを用いて、ステップを再順序付け、追加、または削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されても順次に実行されても異なる順序で実行されてもよく、本出願によって開示される技術案の所望の効果を達成さえできれば、本明細書では制限されない。

上記具体的な実施形態は、本出願の保護範囲を限定するものではない。当業者であれば、設計要求および他の要因に応じて、様々な修正、組み合わせ、再組合、および代替が可能であることが認識すべきである。本出願の趣旨および原則内で行われる任意の修正、同等の置換、および改善などは、すべて本出願の保護範囲内に含まれるべきである。

Claims

情報を生成するための装置により実行される方法であって、
人物実体語と、作品実体語と、ビデオカテゴリ実体語と、ターゲットビデオの関連コンテンツを表すためのビデオコア実体語とを含む複数のタグ実体語を前記ターゲットビデオから取得するステップと、
前記複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクするステップと、
各前記タグ実体語のリンク結果に基づいて、前記ターゲットビデオのセマンティック情報を確定するステップと、
前記ナレッジグラフにおけるノードとエッジとの関係に基づいて、前記ターゲットビデオのセマンティック情報を構造化し、前記ターゲットビデオの構造化されたセマンティック情報を取得するステップと、を含む、方法。
前記方法は、前記ターゲットビデオの構造化されたセマンティック情報を取得した後、
前記ターゲットビデオの構造化されたセマンティック情報に基づいて、前記ターゲットビデオの構造化サブグラフを生成するステップと、
前記構造化サブグラフを予め訓練されたベクトル化モデルに入力し、前記ターゲットビデオの構造化されたセマンティック情報のベクトルを取得するステップであって、前記ベクトル化モデルは、構造化サブグラフと構造化されたセマンティック情報のベクトルとの間の対応関係を表す、ステップと、をさらに含む、請求項１に記載の方法。
前記ベクトル化モデルは、グラフニューラルネットワークまたはグラフ埋め込みアルゴリズムによって訓練されて得る、請求項２に記載の方法。
前記の、複数のタグ実体語をターゲットビデオから取得するステップは、
前記ターゲットビデオに対して顔認識を行い、前記ターゲットビデオの人物実体語を取得するステップと、
前記ターゲットビデオに対してビデオ指紋認識を行い、前記ターゲットビデオの作品実体語を取得するステップと、
前記ターゲットビデオのイメージコンテンツ、オーディオコンテンツ、およびテキストコンテンツの認識結果に基づいて、前記ターゲットビデオのビデオカテゴリ実体語およびビデオコア実体語を取得するステップと、を含む、請求項１に記載の方法。
前記方法は、前記複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクした後、
各前記タグ実体語のリンク結果に基づいて、前記複数のタグ実体語のうちの前記ターゲットビデオに関連しない実体語である無関係実体語が、各前記タグ実体語に存在するか否かを判断するステップと、
前記タグ実体語が無関係実体語であると判定されたことに応答して、前記無関係実体語を削除するステップと、をさらに含む、請求項１に記載の方法。
各前記タグ実体語のリンク結果に基づいて、前記ターゲットビデオのセマンティック情報を確定するステップは、
各前記タグ実体語のリンク結果に基づいて、各前記タグ実体語の属性情報を取得するステップと、
各前記タグ実体語のリンク結果に基づいて、前記タグ実体語を前記ナレッジグラフにおけるエッジの関係に応じて拡張し、前記ターゲットビデオの拡張情報を取得するステップと、
各前記タグ実体語の属性情報および前記拡張情報を前記ターゲットビデオのセマンティック情報とするステップと、を含む、請求項１～５のいずれか１項に記載の方法。
人物実体語と、作品実体語と、ビデオカテゴリ実体語と、ターゲットビデオの関連コンテンツを表すための実体語を含むビデオコア実体語と、を含む複数のタグ実体語を前記ターゲットビデオから取得するように構成された取得ユニットと、
前記複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクするように構成されたリンクユニットと、
各前記タグ実体語のリンク結果に基づいて、前記ターゲットビデオのセマンティック情報を確定するように構成された確定ユニットと、
前記ナレッジグラフにおけるノードとエッジとの関係に基づいて、前記ターゲットビデオのセマンティック情報を構造化し、前記ターゲットビデオの構造化されたセマンティック情報を取得するように構成された構造化ユニットと、を含む、情報を生成するための装置。
前記装置は、
前記ターゲットビデオの構造化されたセマンティック情報に基づいて、前記ターゲットビデオの構造化サブグラフを生成するように構成された生成ユニットと、
前記構造化サブグラフを予め訓練されたベクトル化モデルに入力し、前記ターゲットビデオの構造化されたセマンティック情報のベクトルを取得するように構成された入力ユニットであって、前記ベクトル化モデルは、構造化サブグラフと構造化されたセマンティック情報のベクトルとの間の対応関係を表す、入力ユニットと、をさらに含む、請求項７に記載の装置。
前記ベクトル化モデルは、グラフニューラルネットワークまたはグラフ埋め込みアルゴリズムによって訓練されて得る、請求項８に記載の装置。
前記取得ユニットはさらに、
前記ターゲットビデオに対して顔認識を行い、前記ターゲットビデオの人物実体語を取得し、
前記ターゲットビデオに対してビデオ指紋認識を行い、前記ターゲットビデオの作品実体語を取得し、
前記ターゲットビデオのイメージコンテンツ、オーディオコンテンツ、およびテキストコンテンツの認識結果に基づいて、前記ターゲットビデオのビデオカテゴリ実体語およびビデオコア実体語を取得するように構成されている、請求項７に記載の装置。
前記装置は、
各前記タグ実体語のリンク結果に基づいて、前記複数のタグ実体語のうちの前記ターゲットビデオに関連しない実体語である無関係実体語が、各前記タグ実体語に存在するか否かを判断するように構成された判断ユニットと、
前記タグ実体語が無関係実体語であると判定されたことに応答して、前記無関係実体語を削除するように構成された削除ユニットと、をさらに含む、請求項７に記載の装置。
前記確定ユニットはさらに、
各前記タグ実体語のリンク結果に基づいて、各前記タグ実体語の属性情報を取得し、
各前記タグ実体語のリンク結果に基づいて、前記タグ実体語を前記ナレッジグラフにおけるエッジの関係に応じて拡張し、前記ターゲットビデオの拡張情報を取得し、
各前記タグ実体語の属性情報および前記拡張情報を前記ターゲットビデオのセマンティック情報とするように構成されている、請求項７～１１のいずれか１項に記載の装置。
少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続されたメモリとを含む電子機器であって、
前記メモリに前記少なくとも１つのプロセッサによって実行可能な指令が記憶されており、前記指令が前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに請求項１～６のいずれか１項に記載の方法が実行される電子機器。
コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令はコンピュータに請求項１～６のいずれか１項に記載の方法を実施させるためのものである、非一時的コンピュータ可読記憶媒体。
コンピュータに、請求項１～６のいずれか一項に記載の方法を実現させるためのコンピュータプログラム。