JP7170082B2 - 情報を生成するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム - Google Patents

情報を生成するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム Download PDF

Info

Publication number
JP7170082B2
JP7170082B2 JP2021051976A JP2021051976A JP7170082B2 JP 7170082 B2 JP7170082 B2 JP 7170082B2 JP 2021051976 A JP2021051976 A JP 2021051976A JP 2021051976 A JP2021051976 A JP 2021051976A JP 7170082 B2 JP7170082 B2 JP 7170082B2
Authority
JP
Japan
Prior art keywords
target video
entity
tag
video
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021051976A
Other languages
English (en)
Other versions
JP2021120863A (ja
Inventor
ワン・シュー
レン・ケシン
ヂャン・シャオハン
フォン・ジーファン
チャイ・チュングアン
ジュー・ヨン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021120863A publication Critical patent/JP2021120863A/ja
Application granted granted Critical
Publication of JP7170082B2 publication Critical patent/JP7170082B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)

Description

本出願の実施形態は、コンピュータ技術分野に関し、具体的には、ナレッジグラフ技術分野に関する。
インターネット上のビデオリソースの増加に伴い、ビデオ推薦やビデオ検索など、ビデオ関連製品が多くなってきている。
関連技術では、ビデオ検索やビデオ推薦は通常、ビデオタグ技術を用いて、ビデオリソースに対応するタグを設定する。そして、タグに基づいてビデオを推薦したり、タグに基づいてインデックスを作成したりして、ビデオの推薦や検索を実現する。通常、ビデオのタグは扁平で構造化されておらず、ビデオのタグにはビデオのセマンティック情報が含まれていないため、ビデオの推薦、検索などには適していない。
情報を生成するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムを提供する。
第1態様において、本出願の実施例は、ターゲットビデオから、人物実体語と、作品実体語と、ビデオカテゴリ実体語と、ターゲットビデオの関連コンテンツを表すためのビデオコア実体語とを含む複数のタグ実体語を取得するステップと、複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクするステップと、各タグ実体語のリンク結果に基づいて、ターゲットビデオのセマンティック情報を確定するステップと、ナレッジグラフにおけるノードとエッジとの関係に基づいて、ターゲットビデオのセマンティック情報を構造化し、ターゲットビデオの構造化されたセマンティック情報を取得するステップと、を含む、情報を生成するための方法を提供する。
第2態様において、本出願の実施例は、ターゲットビデオから、人物実体語と、作品実体語と、ビデオカテゴリ実体語と、ターゲットビデオの関連コンテンツを表すためのビデオコア実体語とを含む複数のタグ実体語を取得するように構成された取得ユニットと、複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクするように構成されたリンクユニットと、各タグ実体語のリンク結果に基づいて、ターゲットビデオのセマンティック情報を確定するように構成された確定ユニットと、ナレッジグラフにおけるノードとエッジとの関係に基づいて、ターゲットビデオのセマンティック情報を構造化し、ターゲットビデオの構造化されたセマンティック情報を取得するように構成された構造化ユニットと、を含む、情報を生成するための装置を提供する。
第3態様において、本出願の実施例は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信可能に接続されたメモリとを含む電子機器であって、メモリに少なくとも1つのプロセッサによって実行可能な指令が記憶されており、指令が少なくとも1つのプロセッサによって実行されると、本出願の第1態様のいずれかの実施形態に記載の方法が実行される電子機器を提供する。
第4態様において、本出願の実施例は、コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、本出願の第1態様のいずれかの実施形態に記載の方法を実施させるためのものである、非一時的コンピュータ可読記憶媒体を提供する。
第5態様では、本出願の実施例は、プロセッサにより実行されると、本出願の第1態様のいずれかの実施形態に記載の方法を実現する、コンピュータプログラムを提供する。
本出願の技術案により、ビデオのタグは構造化されておらず、ビデオのタグにはセマンティック情報が含まれていないため、ビデオタグがビデオの推薦、検索などに適用できないという課題を解決し、ビデオの推薦、検索などの効率と精度を向上させることができる。
上記説明は、本出願の実施形態の肝心または重要な特徴を認識することが意図されているわけではなく、本出願の範囲を限定するためにも使用されないことを理解されたい。本出願の他の特徴は、以下の明細書によって理解しやすくなるであろう。
図面は、本出願をよりよく理解するためのものであり、本出願への限定を構成しない。
本出願に係る情報を生成するための方法の第1の実施形態の模式図である。 本実施形態に係る情報を生成するための方法におけるターゲットビデオから複数のタグ実体語を取得する一実施形態を示す図である。 本出願に係る情報を生成するための方法の第2の実施形態の模式図である。 本出願に係る情報を生成するための装置の一実施形態の模式図である。 本出願の実施形態に係る情報を生成するための方法を実現するための電子機器のブロック図である。
以下、図面を参照して本出願の例示的な実施形態について説明する。理解を容易にするために、本出願の実施形態の様々な詳細について説明するが、それらは例示的なものにすぎないとみなされるべきである。したがって、当業者であれば、ここに記載された実施形態について本出願の範囲および趣旨から逸脱することなく、様々な変更および修正を行うことができることを認識できるであろう。同様に、以下の説明では、明確かつ簡略化にするために、公知の機能および構造の説明を省略する。
なお、衝突しないことを前提に、本明細書の実施形態および実施形態における特徴は、互いに組み合わせられてもよい。以下、添付図面を参照し、実施形態に関連して本出願を詳しく説明する。
図1は、本出願に係る情報を生成するための方法の第1の実施形態の模式図である。この情報を生成するための方法は、次のステップ(ステップ101~104)を含むことができる。
ステップ101:ターゲットビデオから複数のタグ実体語を取得する。
本実施形態では、情報を生成するための方法の実行主体は、情報を生成するための装置であり得る。この情報を生成するための装置は、電子実体(例えば、サーバ)であってもよいし、ソフトウェア統合によるアプリケーションであってもよい。使用時には、ターゲットビデオをこの情報を生成するための装置に入力することができる。この情報を生成するための装置は、本実施形態に係る情報を生成するための方法を用いてターゲットビデオの構造化されたセマンティック情報を生成することができる。
本実施形態では、上記実行主体は、様々な方法でターゲットビデオからタグ実体語を取得することができる。ここで、タグ実体語は認知と知覚の2つのレベルからターゲットビデオを表現することができる。例えば、上記実行主体は、ターゲットビデオを予め訓練された実体語取得モデルに入力して、該ターゲットビデオのタグ実体語を取得することができ、実体語取得モデルは、ターゲットビデオとタグ実体語との対応関係を表すために使用することができる。もちろん、上記実行主体は、ターゲットビデオのタグ実体語を他の方法で取得してもよい。
具体的には、上記タグ実体語は、少なくとも人物実体語、作品実体語、ビデオカテゴリ実体語、およびビデオコア実体語を含むことができる。上記人物実体語は、該ターゲットビデオに現れる人物(例えば、アンディ・ラウ)を示すために用いることができる。上記作品実体語は、該ターゲットビデオが属する作品の名前または該ターゲットビデオの作品名(例えば、インファナル・アフェア)を示すために用いることができる。ビデオカテゴリ実体語は、ターゲットビデオのカテゴリを表すために用いることができる。ここで、カテゴリは、映画やテレビ、香港や台湾の映画、中国大陸のバラエティ番組、中国産アニメなどを含むことができる。ビデオコア実体語は、ターゲットビデオに関連するコンテンツを表すための実体語を含むことができ、例えば、ビデオコア実体語は、ターゲットビデオに現れる音楽の音楽名、該音楽のプレイヤ、アニメキャラクタなどを含むことができる。
ステップ102:複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクする。
本実施形態では、予め設定されたナレッジグラフ(knowledge graph、KG)は、従来技術で知られているナレッジグラフであり得る。このナレッジグラフは、複数のノード(Point)を含むことができ、いくつかのノード間には、接続するエッジ(Edge)も存在する。ステップ101で取得された複数のタグ実体語に基づいて、複数のタグ実体語におけるいずれかのタグ実体語に対して、上記実行主体は、このタグ実体語を上記ナレッジグラフにおけるノードにリンクすることができる。これにより、上記複数のタグ実体語における各実体語はいずれもナレッジグラフにおけるノードにリンクすることができる。「タグ実体語をナレッジグラフにおけるノードにリンクする」とは、タグ実体語の文字列をナレッジグラフにおける対応するノードにマッピングすることを指し得ることを理解されたい。
ナレッジグラフは基本的にはセマンティックネットワークであり、グラフベースのデータ構造であり、ノードとエッジからなる。ナレッジグラフでは、各ノードは区別可能で独立して存在するある事物を表し、各エッジはノードとノードとの関係を表す。ノードにおける事物は、ある人、ある都市、ある植物、ある商品などであり得る。ナレッジグラフは、関係を効果的に表すための形態であり、実世界に存在する様々な事物とその関係を記述することを目的としている。したがって、タグ実体語をナレッジグラフにおけるノードにリンクすることにより、ノードとエッジとの関係からタグ実体語のセマンティック情報を取得することができる。
本実施形態のいくつかのオプションの実施形態では、タグ実体語を予め設定されたナレッジグラフにおけるノードにリンクした後、上記実行主体は、ナレッジグラフを用いて各タグ実体語を検証することにより、複数のタグ実体語の中にターゲットビデオとは無関係なタグ実体語が存在するか否かを判断することができる。具体的には、上記実行主体は、各タグ実体語のナレッジグラフへのリンク結果に基づいて、各実体タグ語に無関係実体語が存在するか否かを判断することができる。ここで、無関係実体語は、複数のタグ実体語におけるターゲットビデオに関連しない実体語であり得る。例えば、ターゲットビデオが映画「インファナル・アフェア」のセグメントであり、上記実行主体により取得された各タグ実体語には人物実体語「ジャッキー・チュン」が含まれており、この人物実体語をナレッジグラフにおける「ジャッキー・チュン」ノードにリンクした後、このノードとエッジとの関係から「ジャッキー・チュン」がターゲットビデオと無関係であると判断できる。この場合、この人物実体語はターゲットビデオに関連しないタグ実体語であると判断できる。上記実行主体は、タグ実体語が無関係実体語であることを確定した後、この無関係実体語を削除し得ることを理解されたい。この実施形態によって提供される技術案によれば、ナレッジグラフを用いて、取得した各タグ実体語を検証し、各タグ実体語からターゲットビデオと無関係な実体語を削除することにより、取得したターゲットビデオの構造化されたセマンティック情報の正確性を向上させることができる。
ステップ103:各タグ実体語のリンク結果に基づいて、ターゲットビデオのセマンティック情報を確定する。
本実施例では、上記実行主体は、ステップ102のリンク結果を取得することができるほか、各タグ実体語のリンク結果を用いて、各タグ実体語のナレッジグラフにおけるリンクノードと、このノードに接続されているエッジとノードに応じて、各タグ実体語のセマンティック情報を特定することができる。ここで、各タグ実体語のセマンティック情報を上記ターゲットビデオのセマンティック情報として確定することができる。例えば、上記タグ実体語は人物実体語「アンディ・ラウ」であり、上記実行主体はこの人物実体語をナレッジグラフにおけるノードにリンクした後、このノードに含まれる情報と、このノードにエッジを介して接続されたノードに含まれる情報、例えば、アンディ・ラウの身元情報、代表作品情報などを取得することができ、これらの情報は人物実体語のセマンティック情報である。
本実施形態のいくつかのオプションの実施形態では、上記実行主体は、各タグ実体語のリンク結果に基づいて、この各タグ実体語の属性情報を取得するステップと、各タグ実体語のリンク結果に基づいて、各タグ実体語をナレッジグラフにおけるエッジの関係に応じて拡張し、ターゲットビデオの拡張情報を取得するステップと、各タグ実体語の属性情報および拡張情報をターゲットビデオのセマンティック情報として確定するステップとにより、上記ステップ103を実現することができる。この実施形態では、各タグ実体語のリンク結果を用いて各タグ実体語の属性情報を取得することができる(例えば、タグ実体語は人物実体語と作品実体語を含み、人物実体語の属性情報は人物身元情報、代表作品情報などを含むことができ、作品実体語の属性情報は作品時間情報、出演者情報などを含むことができる)。そして、上記実行主体は、各タグ実体語のリンク結果を用いて、ナレッジグラフにおけるエッジとノードとの関係に応じて各タグ実体語を情報拡張することができ、拡張情報を取得することができる。例えば、タグ実体語は人物実体語(アンディ・ラウ)と作品実体語(インファナル・アフェア)を含むことができる。人物実体語(アンディ・ラウ)と作品実体語(インファナル・アフェア)の2つのタグ実体語のリンク結果を用いて、ナレッジグラフにおけるリンク結果のノードとエッジとの関係に応じて、これらの2つのタグ実体語を情報拡張し、作品における人物の役柄情報(アンディ・ラウがインファナル・アフェアで演じた役柄:劉建明)などの拡張情報を取得することができる。この実施形態によれば、ターゲットビデオのセマンティック情報をさらに拡張することができる。
ステップ104:ナレッジグラフにおけるノードとエッジとの関係に応じて、各ターゲットビデオのセマンティック情報を構造化し、ターゲットビデオの構造化されたセマンティック情報を取得する。
本実施形態では、上記実行主体は、ステップ103で取得されたセマンティック情報に基づいて、セマンティック情報のナレッジグラフに位置するノードとエッジとの関係に応じて、ターゲットビデオのセマンティック情報を構造化することができ、このターゲットビデオの構造化されたセマンティック情報を取得することができる。上記実行主体は取得した構造化されたセマンティック情報をターゲットビデオに表記し得ることを理解されたい。
図2は、本実施形態に係る情報を生成するための方法におけるターゲットビデオから複数のタグ実体語を取得する一実施形態である。上記実行主体は、具体的に次のようなステップ(ステップ201~203)により、ステップ101の「ターゲットビデオから複数のタグ実体語を取得する」ことを実現することができる。
ステップ201:ターゲットビデオに対して顔認識を行い、ターゲットビデオの人物実体語を取得する。
本実施形態では、上記実行主体は、顔認識技術を用いてターゲットビデオを認識し、ターゲットビデオから人物実体語を取得することができる。この実施形態では、上記実行主体は、予め設定された顔データベースにターゲットビデオにおける顔が含まれているか否かを判断することができる。顔データベースにターゲットビデオにおける顔が含まれていれば、上記実行主体は、ターゲットビデオにおける人物実体語を特定することができる。あるいは、上記実行主体は、ターゲットビデオまたはターゲットビデオにおける顔イメージを含むイメージフレームを予め訓練された顔認識モデルに入力し、ターゲットビデオにおける人物実体語を取得することもできる。顔認識モデルは、ターゲットビデオまたはターゲットビデオにおける顔イメージと人物実体語との対応関係を表すために用いることができる。
ステップ202:ターゲットビデオに対してビデオ指紋認識を行い、ターゲットビデオの作品実体語を取得する。
本実施形態では、大量の完全なソースビデオを含みかつ各ソースビデオの作品名が表記されているビデオライブラリを予め設定することができる。ビデオ指紋認識時に、ターゲットビデオとビデオライブラリにおける各ソースビデオとをマッチングすることにより、上記ターゲットビデオの作品名やターゲットビデオが属するソースビデオの作品名を確定し、ターゲットビデオの作品実体語を取得することができる。
ステップ203:ターゲットビデオのイメージコンテンツ、オーディオコンテンツ、およびテキストコンテンツの認識結果に基づいて、ターゲットビデオのビデオカテゴリ実体語およびビデオコア実体語を取得する。
本実施形態では、上記実行主体は、様々な方式でターゲットビデオを処理することにより、ターゲットビデオのビデオカテゴリ実体語およびビデオコア実体語とを取得することができる。具体的には、上記実行主体は、ターゲットビデオのイメージコンテンツ、オーディオコンテンツ、テキストコンテンツを様々な実施形態で処理し、ターゲットビデオのビデオカテゴリ実体語およびビデオコア実体語を取得することができる。この実施形態によって提供される複数のタグ実体語を取得する方法は、知覚と認知の2つのレベルからタグ実体語を取得することができ、タグ実体語を取得する網羅性を向上させることができる。
あるいは、上記実行主体は、ターゲットビデオから、このターゲットビデオのイメージコンテンツである複数フレームのイメージを抽出した後、ターゲットビデオのイメージコンテンツ(例えば、ターゲットビデオに現れるアニメ人物、シーンなど)を分析することにより、ターゲットビデオにおけるアニメキャラクタなどのビデオコア実体語を確定することができる。また、上記実行主体は、ターゲットビデオから、ターゲットビデオのオーディオコンテンツであるオーディオ情報を抽出した後、ターゲットビデオのオーディオコンテンツに対してテキスト変換、声紋認識などの処理を行うことにより、ターゲットビデオにおける音楽名、プレイヤなどのビデオコア実体語を確定することができる。さらに、上記実行主体は、ターゲットビデオから、ターゲットビデオのテキストコンテンツであるテキスト情報(例えば、ターゲットビデオの字幕情報)を抽出した後、ターゲットビデオのテキストコンテンツに対してセマンティック解析などの処理を行うことにより、ターゲットビデオの歌詞などのビデオコア実体語を確定することができる。ターゲットビデオのイメージコンテンツ、オーディオコンテンツ、およびテキストコンテンツのうちの少なくとも1つの認識結果から、ターゲットビデオのビデオカテゴリ実体語(例えば、香港・台湾の映画)を認識することもできることを理解されたい。
あるいは、上記実行主体は、例えばターゲットビデオの顔情報、字幕情報などの非セマンティック情報に対応するタグ実体語を取得した後、取得したタグ実体語をナレッジグラフにリンクすることにより、作品実体語、ビデオカテゴリ実体語、およびビデオコア実体語などを直接取得することができる。
上記実行主体は、ステップ201、ステップ202、およびステップ203のうちの少なくとも1つからターゲットビデオのタグ実体語を取得することができることを理解されたい。上記ステップ201、ステップ202、およびステップ203の実行順序は、優先順位を問わなくてもよく、ここでは具体的な限定がない。例えば、上記ステップ201、ステップ202、およびステップ203は、並列に実行されてもよい。
本出願の上記実施形態によって提供される情報を生成するための方法は、まず、ターゲットビデオから複数のタグ実体語を取得することができる。そして、複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクすることができる。さらに、各タグ実体語のリンク結果に基づいて、ターゲットビデオのセマンティック情報を確定することができる。最後に、ナレッジグラフにおけるノードとエッジとの関係に応じて、ターゲットビデオのセマンティック情報を構造化し、ターゲットビデオの構造化されたセマンティック情報を取得することができる。これにより、ビデオに構造化されたセマンティック情報を提供することが実現され、ビデオのタグが構造化されておらず、セマンティック情報が欠如しているため、ビデオタグがビデオの推薦、検索などに適用できないという課題が解決され、ビデオの推薦、検索などの効率と精度が向上される。
図3は、本出願に係る情報を生成するための方法の第2の実施形態の模式図である。この情報を生成するための方法は、以下のステップ(ステップ301~306)を含むことができる。
ステップ301:ターゲットビデオから複数のタグ実体語を取得する。
ステップ302:複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクする。
ステップ303:各タグ実体語のリンク結果に基づいて、ターゲットビデオのセマンティック情報を確定する。
ステップ304:ナレッジグラフにおけるノードとエッジとの関係に応じて、ターゲットビデオのセマンティック情報を構造化し、ターゲットビデオの構造化されたセマンティック情報を取得する。
本実施形態における上記ステップ301~304に含まれるコンテンツは、上記実施形態におけるステップ101~104に含まれるコンテンツと同様または類似しているため、ここではこれ以上説明しない。
ステップ305:ターゲットビデオの構造化されたセマンティック情報に基づいて、ターゲットビデオの構造化サブグラフを生成する。
本実施形態では、上記実行主体は、ステップ304で取得されたターゲットビデオの構造化されたセマンティック情報に基づいて、ナレッジグラフにおけるノードとエッジとの関係に応じてこのターゲットビデオの構造化サブグラフを構築することができる。この構造化サブグラフは、ノードおよびエッジを含むことができ、ターゲットビデオに含まれるセマンティック情報間の関係をノードとエッジとの関係で表すことができる。
ステップ306:構造化サブグラフを予め訓練されたベクトル化モデルに入力し、ターゲットビデオの構造化されたセマンティック情報のベクトルを取得する。
本実施形態では、上記実行主体は、ステップ305で取得されたターゲットビデオの構造化サブグラフに基づいて、取得された構造化サブグラフを予め訓練されたベクトル化モデルに入力することができる。上記ベクトル化モデルは、このターゲットビデオの構造化されたセマンティック情報のベクトルを出力することができる。ここで、ベクトル化モデルは、構造化サブグラフと構造化されたセマンティック情報のベクトルとの対応関係を表すために用いることができる。取得されたベクトルは、構造サブグラフのベクトル表現であってもよいし、構造サブグラフにおけるノードのベクトル表現であってもよい。例えば、構造サブグラフのベクトル表現はビデオ推薦サービスに用いることができ、ノードのベクトル表現はビデオ検索サービスに用いることができる。上記実行主体は、様々な手段を用いて上記ベクトル化モデルを訓練することができ、実際のニーズに応じてモデル訓練を行うことができ、これらは一意に制限されないことを理解されたい。
本実施形態のいくつかのオプションの実施形態では、上記実行主体は、グラフニューラルネットワーク(Graph Neural Networks、GNN)を介して上記ベクトル化モデルを訓練することができる。グラフニューラルネットワークの訓練により取得されたベクトル化モデルは、構造サブグラフを出力するベクトル表現に用いることができる。例えば、グラフニューラルネットワークは、具体的に、グラフ畳み込みニューラルネットワーク(Graph Convolutional Network、GCN)を用いて、構造サブグラフにおけるノードの属性およびノードのタグに基づいて、特定のタスクに対してエンドツーエンドでモデルパラメータを訓練することにより、上記ベクトル化モデルを取得することができる。もちろん、上記実行主体は、グラフ埋め込み(Graph Embedding、GE)アルゴリズムを用いて上記ベクトル化モデルを訓練することもできる。グラフ埋め込みアルゴリズムにより訓練して取得されたベクトル化モデルは、構造サブグラフにおけるノードのベクトル表現を出力するために用いることができる。例えば、グラフ埋め込みアルゴリズムは、具体的に、ノードベクトルNode2Vecの方法を用いてベクトル化モデルを訓練することができる。構造サブグラフではノードとエッジからなるネットワークには多くのパスが存在し、各ノードを接続して1本の線を形成すると、これらの結び線には、文における各単語の関係のようにノード間の相互関係が含まれている。したがって、これらのノード列を文とし、単語ベクトルword2vecの方法で訓練を行い、すなわちノードベクトルNode2Vecの方法で訓練を行うことにより、ノードのベクトル表現を取得することができる。この実施形態は、構造サブグラフのベクトル表現を出力するためのベクトル化モデルと、ノードのベクトル表現を出力するためのベクトル化モデルとを提供することができ、出力されたターゲットビデオの構造化されたセマンティック情報のベクトルに多様性を持たせることができる。
図3から分かるように、本実施形態における情報を生成するための方法は、図1に対応する実施形態と比較して、ナレッジグラフを用いてビデオの構造化されたセマンティック情報を生成した後、対応する構造サブグラフを取得し、予め訓練されたベクトル化モデルを用いてビデオの構造化されたセマンティック情報のベクトル表現を取得することができる。これにより、生成されたビデオの構造化されたセマンティック情報はビデオ推薦やビデオ検索により良く適用できるようになり、ビデオの構造化されたセマンティック情報の実用性を向上させることができる。
図4をさらに参照すると、上記各図に示す方法の実施形態として、本出願は、様々な電子機器に具体的に適用可能な、情報を生成するための装置の一実施形態を提供する。この実施形態は、図1に示す方法の実施形態と対応する。
図4に示すように、本実施形態に係る情報を生成するための装置400は、ターゲットビデオから、人物実体語と、作品実体語と、ビデオカテゴリ実体語と、ターゲットビデオ関連コンテンツを表すための実体語を含むビデオコア実体語と、を含む複数のタグ実体語を取得するように構成された取得ユニット401と、複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクするように構成されたリンクユニット402と、各タグ実体語のリンク結果に基づいて、ターゲットビデオのセマンティック情報を確定するように構成された確定ユニット403と、ナレッジグラフにおけるノードとエッジとの関係に基づいて、ターゲットビデオのセマンティック情報を構造化し、ターゲットビデオの構造化されたセマンティック情報を取得するように構成された構造化ユニット404と、を含む。
本実施形態のいくつかのオプションの実施形態では、装置400は、ターゲットビデオの構造化されたセマンティック情報に基づいて、ターゲットビデオの構造化サブグラフを生成するように構成された生成ユニットと、構造化サブグラフを予め訓練された、構造化サブグラフと構造化されたセマンティック情報のベクトルとの間の対応関係を表すためのベクトル化モデルに入力し、ターゲットビデオの構造化されたセマンティック情報のベクトルを取得するように構成された入力ユニットと、をさらに含む。
本実施形態のいくつかのオプションの実施形態では、ベクトル化モデルは、グラフニューラルネットワークまたはグラフ埋め込みアルゴリズムにより訓練して取得される。
本実施形態のいくつかのオプションの実施形態では、取得ユニット401はさらに、ターゲットビデオに対して顔認識を行い、ターゲットビデオの人物実体語を取得し、ターゲットビデオに対してビデオ指紋認識を行い、ターゲットビデオの作品実体語を取得し、ターゲットビデオのイメージコンテンツ、オーディオコンテンツ、およびテキストコンテンツの認識結果に基づいて、ターゲットビデオのビデオカテゴリ実体語およびビデオコア実体語を取得するように構成されている。
本実施形態のいくつかのオプションの実施形態では、装置400は、各タグ実体語のリンク結果に基づいて、各タグ実体語に複数のタグ実体語におけるターゲットビデオに関連しない実体語である無関係実体語が存在するか否かを判断するように構成された判断ユニットと、タグ実体語が無関係実体語であると判定されたことに応答して、無関係実体語を削除するように構成された削除ユニットと、をさらに含む。
本実施形態のいくつかのオプションの実施形態では、確定ユニット403はさらに、各タグ実体語のリンク結果に基づいて、この各タグ実体語の属性情報を取得し、各タグ実体語のリンク結果に基づいて、タグ実体語をナレッジグラフにおけるエッジの関係に応じて拡張し、ターゲットビデオの拡張情報を取得し、各タグ実体語の属性情報および拡張情報をターゲットビデオのセマンティック情報として確定するように構成されている。
装置400に記載されている各ユニットは、図1を参照して説明された方法の各ステップに対応する。したがって、方法について説明した動作および特徴は、装置400およびその中に含まれるユニットにも同様に適用可能であり、ここではこれ以上説明しない。
本出願の実施形態によれば、本出願はまた、電子機器および可読記憶媒体を提供する。
図5は、本出願の実施形態に係る情報を生成するための方法を実現するための電子機器のブロック図である。電子機器は、ラップトップ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、および他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことが意図されている。電子機器はまた、個人デジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様の計算装置のような様々な形態のモバイルデバイスを表すことができる。本明細書に示す構成要素、それらの接続および関係、ならびにそれらの機能は、あくまでも一例に過ぎず、本明細書に記載されたおよび/または要求される本出願の実施形態を限定することは意図されていない。
図5に示すように、この電子機器は、1つ以上のプロセッサ501と、メモリ502と、高速インターフェースおよび低速インターフェースを含む各構成要素を接続するためのインターフェースとを備える。各構成要素は、異なるバスで互いに接続されており、共通マザーボードに実装されていてもよく、必要に応じて他の方法で実装されていてもよい。プロセッサは、インターフェースに結合された表示装置などの外部入出力装置上にGUIのグラフィック情報を表示するために、メモリまたはメモリ上に格納された指令を含む電子機器内で実行される指令を処理することができる。他の実施形態では、複数のプロセッサおよび/または複数のバスは、必要に応じて、複数のメモリと共に使用されてもよい。同様に、複数の電子機器を接続することができ、各電子機器は、部分的に必要な動作を(例えば、サーバアレイ、ブレードサーバのセット、またはマルチプロセッサシステムとして)提供することができる。図5では、1つのプロセッサ501を例に挙げている。
メモリ502は、本出願によって提供される非一時的コンピュータ可読記憶媒体である。メモリは、少なくとも1つのプロセッサに、本出願によって提供される情報を生成するための方法を実行させるために、少なくとも1つのプロセッサによって実行可能な指令を格納する。本出願の非一時的コンピュータ可読記憶媒体は、本出願によって提供される情報を生成するための方法をコンピュータに実行させるためのコンピュータ指令を記憶する。
メモリ502は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能プログラム、並びに本出願の実施形態における情報を生成するための方法に対応するプログラム指令/モジュール (例えば、図4に示す取得ユニット401、リンクユニット402、確定ユニット403および構造化ユニット404) のようなモジュールの格納に使用することができる。プロセッサ501は、メモリ502に記憶された非一時的ソフトウェアプログラム、指令、およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理を実行する。すなわち、上記方法の実施形態における情報を生成するための方法を実現する。
メモリ502は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを記憶することができるプログラム記憶領域、および、情報を生成するための電子機器の使用によって生成されたデータなどを記憶することができるデータ記憶領域を含むことができる。さらに、メモリ502は、高速ランダムアクセスメモリを含むことができ、少なくとも1つのディスク記憶装置、フラッシュメモリデバイス、または他の非一時的固体記憶装置のような非一時的メモリを含むこともできる。いくつかの実施形態では、メモリ502は、任意に、情報を生成するための電子機器にネットワークを介して接続することができる、プロセッサ501に対して遠隔設定されたメモリを含むことができる。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、移動通信網、およびそれらの組み合わせを含むが、これらに限定されない。
情報を生成するための方法に用いる電子機器は、入力装置503および出力装置504をさらに含むことができる。プロセッサ501、メモリ502、入力装置503、および出力装置504は、バスを介してまたはその他の方式で接続されることができる。図5はバスを介して接続される例である。
入力装置503は、入力された数字または文字情報を受信し、情報を生成するための電子機器のユーザ設定および機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングレバー、1つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置が挙げられる。出力装置504は、表示装置、補助照明デバイス(例えば、LED)、触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。この表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、およびプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、表示装置はタッチスクリーンであってもよい。
本明細書に記載されたシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現されることができる。これらの様々な実施形態は、1つまたは複数のコンピュータプログラム内に組み込まれることを含むことができる。この1つまたは複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および/または解釈されることができる。このプログラマブルプロセッサは、専用プログラマブルプロセッサであっても汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび指令を受信し、この記憶システム、この少なくとも1つの入力装置、およびこの少なくとも1つの出力装置にデータおよび指令を送信することができる。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、かつ高度なプロセスおよび/またはオブジェクト指向プログラミング言語、および/またはアセンブリ言語/機械語を用いて実施されることができる。本明細書で使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス(PLD))を意味し、機械可読信号として機械命令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。
ユーザとのインタラクションを提供するために、本明細書に記載されたシステムおよび技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを有するコンピュータ上で実施されることができる。ユーザは、キーボードおよびポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類のデバイスはまた、ユーザとのインタラクションを提供するために使用されることができる。例えば、ユーザに提供されるフィードバックは、任意の形態のセンサフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であり得る。ユーザからの入力は、任意の形態(音響入力、音声入力、または触覚入力を含む)で受信されることができる。
本明細書に記載されたシステムおよび技術は、バックグラウンド構成要素を含む計算システム(例えば、データサーバとして)、またはミドルウェア構成要素を含む計算システム(例えば、アプリケーションサーバ)、またはフロントエンド構成要素を含む計算システム(例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータが挙げられ、ユーザは、グラフィカルユーザインターフェースまたはウェブブラウザを介して、本明細書に記載されたシステムおよび技術の実施形態とインタラクションすることができる)、またはそのようなバックグラウンド構成要素、ミドルウェア構成要素、またはフロントエンド構成要素の任意の組み合わせを含む計算システムにおいて実現されることができる。システムの構成要素は、任意の形態または媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、およびインターネットを含む。
コンピュータシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは通常、互いに離れており、通信ネットワークを介してインタラクションをする。クライアントとサーバの関係は、対応するコンピュータ上で、互いにクライアント・サーバ関係を有するコンピュータプログラムを動作させることによって生成される。
本出願の実施形態の技術案によれば、まず、ターゲットビデオから複数のタグ実体語を取得することができる。そして、複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクすることができる。さらに、各タグ実体語のリンク結果に基づいて、ターゲットビデオのセマンティック情報を確定することができる。最後に、ナレッジグラフにおけるノードとエッジとの関係に応じて、ターゲットビデオのセマンティック情報を構造化し、ターゲットビデオの構造化されたセマンティック情報を取得することができる。これにより、ビデオに構造化されたセマンティック情報を提供することが実現され、ビデオのタグが構造化されておらず、セマンティック情報が欠如しているため、ビデオタグがビデオの推薦、検索などに適用できないという従来技術の課題が解決され、ビデオの推薦、検索などの効率と精度が向上される。
上記様々な形態のプロセスを用いて、ステップを再順序付け、追加、または削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されても順次に実行されても異なる順序で実行されてもよく、本出願によって開示される技術案の所望の効果を達成さえできれば、本明細書では制限されない。
上記具体的な実施形態は、本出願の保護範囲を限定するものではない。当業者であれば、設計要求および他の要因に応じて、様々な修正、組み合わせ、再組合、および代替が可能であることが認識すべきである。本出願の趣旨および原則内で行われる任意の修正、同等の置換、および改善などは、すべて本出願の保護範囲内に含まれるべきである。

Claims (15)

  1. 情報を生成するための装置により実行される方法であって、
    人物実体語と、作品実体語と、ビデオカテゴリ実体語と、ターゲットビデオの関連コンテンツを表すためのビデオコア実体語とを含む複数のタグ実体語を前記ターゲットビデオから取得するステップと、
    前記複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクするステップと、
    各前記タグ実体語のリンク結果に基づいて、前記ターゲットビデオのセマンティック情報を確定するステップと、
    前記ナレッジグラフにおけるノードとエッジとの関係に基づいて、前記ターゲットビデオのセマンティック情報を構造化し、前記ターゲットビデオの構造化されたセマンティック情報を取得するステップと、を含む、方法。
  2. 前記方法は、前記ターゲットビデオの構造化されたセマンティック情報を取得した後、
    前記ターゲットビデオの構造化されたセマンティック情報に基づいて、前記ターゲットビデオの構造化サブグラフを生成するステップと、
    前記構造化サブグラフを予め訓練されたベクトル化モデルに入力し、前記ターゲットビデオの構造化されたセマンティック情報のベクトルを取得するステップであって、前記ベクトル化モデルは、構造化サブグラフと構造化されたセマンティック情報のベクトルとの間の対応関係を表す、ステップと、をさらに含む、請求項1に記載の方法。
  3. 前記ベクトル化モデルは、グラフニューラルネットワークまたはグラフ埋め込みアルゴリズムによって訓練されて得る、請求項2に記載の方法。
  4. 前記の、複数のタグ実体語をターゲットビデオから取得するステップは、
    前記ターゲットビデオに対して顔認識を行い、前記ターゲットビデオの人物実体語を取得するステップと、
    前記ターゲットビデオに対してビデオ指紋認識を行い、前記ターゲットビデオの作品実体語を取得するステップと、
    前記ターゲットビデオのイメージコンテンツ、オーディオコンテンツ、およびテキストコンテンツの認識結果に基づいて、前記ターゲットビデオのビデオカテゴリ実体語およびビデオコア実体語を取得するステップと、を含む、請求項1に記載の方法。
  5. 前記方法は、前記複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクした後、
    各前記タグ実体語のリンク結果に基づいて、前記複数のタグ実体語のうちの前記ターゲットビデオに関連しない実体語である無関係実体語が、各前記タグ実体語に存在するか否かを判断するステップと、
    前記タグ実体語が無関係実体語であると判定されたことに応答して、前記無関係実体語を削除するステップと、をさらに含む、請求項1に記載の方法。
  6. 各前記タグ実体語のリンク結果に基づいて、前記ターゲットビデオのセマンティック情報を確定するステップは、
    各前記タグ実体語のリンク結果に基づいて、各前記タグ実体語の属性情報を取得するステップと、
    各前記タグ実体語のリンク結果に基づいて、前記タグ実体語を前記ナレッジグラフにおけるエッジの関係に応じて拡張し、前記ターゲットビデオの拡張情報を取得するステップと、
    各前記タグ実体語の属性情報および前記拡張情報を前記ターゲットビデオのセマンティック情報とするステップと、を含む、請求項1~5のいずれか1項に記載の方法。
  7. 人物実体語と、作品実体語と、ビデオカテゴリ実体語と、ターゲットビデオの関連コンテンツを表すための実体語を含むビデオコア実体語と、を含む複数のタグ実体語を前記ターゲットビデオから取得するように構成された取得ユニットと、
    前記複数のタグ実体語におけるタグ実体語に対して、このタグ実体語を予め設定されたナレッジグラフにおけるノードにリンクするように構成されたリンクユニットと、
    各前記タグ実体語のリンク結果に基づいて、前記ターゲットビデオのセマンティック情報を確定するように構成された確定ユニットと、
    前記ナレッジグラフにおけるノードとエッジとの関係に基づいて、前記ターゲットビデオのセマンティック情報を構造化し、前記ターゲットビデオの構造化されたセマンティック情報を取得するように構成された構造化ユニットと、を含む、情報を生成するための装置。
  8. 前記装置は、
    前記ターゲットビデオの構造化されたセマンティック情報に基づいて、前記ターゲットビデオの構造化サブグラフを生成するように構成された生成ユニットと、
    前記構造化サブグラフを予め訓練されたベクトル化モデルに入力し、前記ターゲットビデオの構造化されたセマンティック情報のベクトルを取得するように構成された入力ユニットであって、前記ベクトル化モデルは、構造化サブグラフと構造化されたセマンティック情報のベクトルとの間の対応関係を表す、入力ユニットと、をさらに含む、請求項7に記載の装置。
  9. 前記ベクトル化モデルは、グラフニューラルネットワークまたはグラフ埋め込みアルゴリズムによって訓練されて得る、請求項8に記載の装置。
  10. 前記取得ユニットはさらに、
    前記ターゲットビデオに対して顔認識を行い、前記ターゲットビデオの人物実体語を取得し、
    前記ターゲットビデオに対してビデオ指紋認識を行い、前記ターゲットビデオの作品実体語を取得し、
    前記ターゲットビデオのイメージコンテンツ、オーディオコンテンツ、およびテキストコンテンツの認識結果に基づいて、前記ターゲットビデオのビデオカテゴリ実体語およびビデオコア実体語を取得するように構成されている、請求項7に記載の装置。
  11. 前記装置は、
    各前記タグ実体語のリンク結果に基づいて、前記複数のタグ実体語のうちの前記ターゲットビデオに関連しない実体語である無関係実体語が、各前記タグ実体語に存在するか否かを判断するように構成された判断ユニットと、
    前記タグ実体語が無関係実体語であると判定されたことに応答して、前記無関係実体語を削除するように構成された削除ユニットと、をさらに含む、請求項7に記載の装置。
  12. 前記確定ユニットはさらに、
    各前記タグ実体語のリンク結果に基づいて、各前記タグ実体語の属性情報を取得し、
    各前記タグ実体語のリンク結果に基づいて、前記タグ実体語を前記ナレッジグラフにおけるエッジの関係に応じて拡張し、前記ターゲットビデオの拡張情報を取得し、
    各前記タグ実体語の属性情報および前記拡張情報を前記ターゲットビデオのセマンティック情報とするように構成されている、請求項7~11のいずれか1項に記載の装置。
  13. 少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを含む電子機器であって、
    前記メモリに前記少なくとも1つのプロセッサによって実行可能な指令が記憶されており、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1~6のいずれか1項に記載の方法が実行される電子機器。
  14. コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、
    前記コンピュータ指令はコンピュータに請求項1~6のいずれか1項に記載の方法を実施させるためのものである、非一時的コンピュータ可読記憶媒体。
  15. コンピュータに、請求項1~6のいずれか一項に記載の方法を実現させためのコンピュータプログラム。
JP2021051976A 2020-04-15 2021-03-25 情報を生成するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム Active JP7170082B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010297146.2 2020-04-15
CN202010297146.2A CN111522994B (zh) 2020-04-15 2020-04-15 用于生成信息的方法和装置

Publications (2)

Publication Number Publication Date
JP2021120863A JP2021120863A (ja) 2021-08-19
JP7170082B2 true JP7170082B2 (ja) 2022-11-11

Family

ID=71901202

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021051976A Active JP7170082B2 (ja) 2020-04-15 2021-03-25 情報を生成するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム

Country Status (5)

Country Link
US (1) US11847164B2 (ja)
EP (1) EP3859562A3 (ja)
JP (1) JP7170082B2 (ja)
KR (1) KR102565659B1 (ja)
CN (1) CN111522994B (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984825A (zh) * 2020-08-28 2020-11-24 北京百度网讯科技有限公司 用于搜索视频的方法和装置
CN112084383B (zh) * 2020-09-07 2023-08-18 中国平安财产保险股份有限公司 基于知识图谱的信息推荐方法、装置、设备及存储介质
CN112131472A (zh) * 2020-09-24 2020-12-25 腾讯科技(深圳)有限公司 信息推荐方法、装置、电子设备和存储介质
CN112148843B (zh) * 2020-11-25 2021-05-07 中电科新型智慧城市研究院有限公司 文本处理方法、装置、终端设备和存储介质
CN113849575B (zh) * 2020-12-10 2022-08-09 阿里巴巴集团控股有限公司 数据处理方法、装置和系统
CN112712056A (zh) * 2021-01-14 2021-04-27 珠海格力电器股份有限公司 视频语义分析方法、装置、存储介质及电子设备
CN113157727B (zh) * 2021-05-24 2022-12-13 腾讯音乐娱乐科技(深圳)有限公司 提供召回结果的方法、设备和存储介质
CN114255427B (zh) * 2021-12-21 2023-04-18 北京百度网讯科技有限公司 视频理解方法、装置、设备以及存储介质
CN115130435B (zh) * 2022-06-27 2023-08-11 北京百度网讯科技有限公司 文档处理方法、装置、电子设备和存储介质
CN115544303A (zh) * 2022-09-30 2022-12-30 华为技术有限公司 用于确定视频的标签的方法、装置、设备及介质
CN116010636B (zh) * 2022-12-01 2023-08-11 广东工业大学 一种基于美术图像标签的检索推送方法及其用途
US11928145B1 (en) * 2022-12-09 2024-03-12 International Business Machines Corporation Creating a knowledge graph for a video
CN115828977B (zh) * 2023-02-15 2023-06-09 深圳市玄羽科技有限公司 工业互联网标签编码方法、装置、介质及电子设备
CN117113993B (zh) * 2023-10-23 2024-01-09 腾讯科技(深圳)有限公司 实体链接方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008134966A (ja) 2006-11-29 2008-06-12 Sony Corp データ管理サーバ、データ管理システム、データ管理方法およびプログラム
JP2011118803A (ja) 2009-12-07 2011-06-16 Sony Corp 情報処理装置、予測変換方法およびプログラム
JP2019074843A (ja) 2017-10-13 2019-05-16 ヤフー株式会社 情報提供装置、情報提供方法、およびプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9785639B2 (en) * 2012-04-27 2017-10-10 Mobitv, Inc. Search-based navigation of media content
JP6343337B2 (ja) * 2013-03-15 2018-06-13 ニューラ ラブス コーポレイション 知識への1段階アクセスを提供する適応ユーザインターフェースを有する知的インターネットシステム
CN107066621B (zh) * 2017-05-11 2022-11-08 腾讯科技(深圳)有限公司 一种相似视频的检索方法、装置和存储介质
CN107436922B (zh) * 2017-07-05 2021-06-08 北京百度网讯科技有限公司 文本标签生成方法和装置
US20190340255A1 (en) * 2018-05-07 2019-11-07 Apple Inc. Digital asset search techniques
CN110245259B (zh) * 2019-05-21 2021-09-21 北京百度网讯科技有限公司 基于知识图谱的视频打标签方法及装置、计算机可读介质
WO2020243116A1 (en) * 2019-05-26 2020-12-03 Vilynx, Inc. Self-learning knowledge graph
US11429778B2 (en) * 2019-08-29 2022-08-30 Rovi Guides, Inc. Systems and methods for generating personalized content
CN110427563B (zh) * 2019-08-30 2023-02-28 杭州智策略科技有限公司 一种基于知识图谱的专业领域系统冷启动推荐方法
KR20210033770A (ko) * 2019-09-19 2021-03-29 삼성전자주식회사 지식 그래프에 기초하여 콘텐트를 제공하는 방법 및 장치
CN113723166A (zh) * 2021-03-26 2021-11-30 腾讯科技(北京)有限公司 内容识别方法、装置、计算机设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008134966A (ja) 2006-11-29 2008-06-12 Sony Corp データ管理サーバ、データ管理システム、データ管理方法およびプログラム
JP2011118803A (ja) 2009-12-07 2011-06-16 Sony Corp 情報処理装置、予測変換方法およびプログラム
JP2019074843A (ja) 2017-10-13 2019-05-16 ヤフー株式会社 情報提供装置、情報提供方法、およびプログラム

Also Published As

Publication number Publication date
EP3859562A3 (en) 2021-09-29
CN111522994A (zh) 2020-08-11
KR102565659B1 (ko) 2023-08-10
CN111522994B (zh) 2023-08-01
JP2021120863A (ja) 2021-08-19
EP3859562A2 (en) 2021-08-04
KR20210040885A (ko) 2021-04-14
US20210216717A1 (en) 2021-07-15
US11847164B2 (en) 2023-12-19

Similar Documents

Publication Publication Date Title
JP7170082B2 (ja) 情報を生成するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
JP7127106B2 (ja) 質問応答処理、言語モデルの訓練方法、装置、機器および記憶媒体
KR102484617B1 (ko) 이종 그래프 노드를 표현하는 모델 생성 방법, 장치, 전자 기기, 저장 매체 및 프로그램
JP7317791B2 (ja) エンティティ・リンキング方法、装置、機器、及び記憶媒体
CN111241282B (zh) 文本主题生成方法、装置及电子设备
JP7301922B2 (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP7108675B2 (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
JP7264866B2 (ja) イベント関係の生成方法、装置、電子機器及び記憶媒体
CN111522967B (zh) 知识图谱构建方法、装置、设备以及存储介质
CN113094550B (zh) 视频检索方法、装置、设备和介质
US11508153B2 (en) Method for generating tag of video, electronic device, and storage medium
CN111563385B (zh) 语义处理方法、装置、电子设备和介质
CN112749300B (zh) 用于视频分类的方法、装置、设备、存储介质和程序产品
JP7240505B2 (ja) 音声パケット推薦方法、装置、電子機器およびプログラム
CN111241838B (zh) 文本实体的语义关系处理方法、装置及设备
JP7242994B2 (ja) ビデオイベント識別方法、装置、電子デバイス及び記憶媒体
WO2024036662A1 (zh) 一种基于数据采样的并行图规则挖掘方法及装置
CN111090991A (zh) 场景纠错方法、装置、电子设备和存储介质
JP7229291B2 (ja) データ拡張の方法及び装置、機器、記憶媒体
CN113360683A (zh) 训练跨模态检索模型的方法以及跨模态检索方法和装置
CN111353070A (zh) 视频标题的处理方法、装置、电子设备及可读存储介质
CN112527105B (zh) 人机互动方法、装置、电子设备及存储介质
CN111832313B (zh) 文本中情感搭配集合的生成方法、装置、设备和介质
JP7212714B2 (ja) 関係ネットワーク生成方法、装置、電子設備、記憶媒体、及びプログラム
US20220343182A1 (en) Article processing method, electronic device, and program product

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210421

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220817

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221031

R150 Certificate of patent or registration of utility model

Ref document number: 7170082

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150