JP2024027084A - データ検索のためのシステム、方法、及びコンピュータ可読媒体 - Google Patents

データ検索のためのシステム、方法、及びコンピュータ可読媒体 Download PDF

Info

Publication number
JP2024027084A
JP2024027084A JP2023067747A JP2023067747A JP2024027084A JP 2024027084 A JP2024027084 A JP 2024027084A JP 2023067747 A JP2023067747 A JP 2023067747A JP 2023067747 A JP2023067747 A JP 2023067747A JP 2024027084 A JP2024027084 A JP 2024027084A
Authority
JP
Japan
Prior art keywords
live streaming
search
program
vector
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023067747A
Other languages
English (en)
Inventor
アビッド サウダガール
Saudagar Abid
ハーディック タネージャ
Taneja Hardik
ヘマンス クマー アジャル
Kumar Ajaru Hemanth
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
17Live Japan Inc
Original Assignee
17Live Japan Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 17Live Japan Inc filed Critical 17Live Japan Inc
Priority to JP2023067747A priority Critical patent/JP2024027084A/ja
Publication of JP2024027084A publication Critical patent/JP2024027084A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/232Content retrieval operation locally within server, e.g. reading video streams from disk arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/239Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests
    • H04N21/2393Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests involving handling client requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • H04N21/8405Generation or processing of descriptive data, e.g. content descriptors represented by keywords

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ライブストリーミングデータ検索のためのシステム、方法及びコンピュータ可読媒体を提供する。【解決手段】方法は、検索ワードを受信する工程と、当該検索ワードを検索ベクタに変換する工程と、当該検索ベクタに一致する属性ベクタを受信する工程と、当該属性ベクタに対応する第1のライブストリーミングプログラムの情報を提供する工程とを含み、当該属性ベクタは、当該第1のライブストリーミング番組が配信されている間、当該第1のライブストリーミング番組のコンテンツに応じて変化し、コンテキスト検索結果とテキスト検索結果をリアルタイムで同時に提供する。【選択図】図3

Description

本発明は、データ検索に関し、特に、ライブストリーミングデータの検索に関する。
ライブストリーミング番組に代表されるように、インターネット上におけるリアルタイムデータが日常生活に浸透している。さまざまなプラットフォームやプロバイダーがリアルタイムにデータにアクセスするサービスを提供しており、競争も激しい。検索は、プラットフォームにとって重要な機能である。ユーザや視聴者が探しているコンテンツを効率よく、正確に、鮮やかに提供することは、コンテンツプロバイダーにとって重要である。優れた検索機能は、視聴者をできるだけ長くプラットフォーム上に留めることができる。
中国特許出願第114048351号は、テキスト・動画検索の方法を開示している。
中国特許出願第114048351号明細書
本発明の一実施態様による方法は、1以上のコンピュータによって実行されるライブストリーミングデータ検索方法であって、検索ワードを受信する工程と、当該検索ワードを検索ベクタに変換する工程と、当該検索ベクタに一致する属性ベクタを受信する工程と、当該属性ベクタに対応する第1のライブストリーミング番組の情報を提供する工程と、を含む。当該属性ベクタは、当該第1のライブストリーミング番組が配信されている間、当該第1のライブストリーミング番組のコンテンツに応じて変化する。
本発明の一実施態様によるシステムは、ライブストリーミングデータ検索用のシステムであって、1以上のプロセッサを含み、当該1以上のコンピュータプロセッサが、機械可読命令を実行して、検索ワードを受信する工程と、当該検索ワードを検索ベクタに変換する工程と、当該検索ベクタに一致する属性ベクタを受信する工程と、当該属性ベクタに対応する第1のライブストリーミング番組の情報を提供する工程と、を実行する。当該属性ベクタは、当該第1のライブストリーミング番組が配信されている間、当該第1のライブストリーミング番組のコンテンツに応じて変化する。
本発明の一実施態様によるコンピュータ可読媒体は、ライブストリーミングデータ検索のためのプログラムを含む非一時的なコンピュータ可読媒体であり、当該プログラムが、1以上のコンピュータに、検索ワードを受信する工程と、当該検索ワードを検索ベクタに変換する工程と、当該検索ベクタに一致する属性ベクタを受信する工程と、当該属性ベクタに対応する第1のライブストリーミング番組の情報を提供する工程と、を実行させる。当該属性ベクタは、当該第1のライブストリーミング番組が配信されている間、当該第1のライブストリーミング番組のコンテンツに応じて変化する。
本発明の一部の実施態様に基づく通信システムの構成を示す概略図である。 本発明の一部の実施態様に基づくサーバの例示的なブロック図である。 本発明の一部の実施態様に基づくデータ検索方法を示す例示的なフローチャートである。 本発明の一部の実施態様に基づく例示的な検索インターフェイスである。 本発明の一部の実施態様に基づく例示的な検索インターフェイスである。 本発明の一部の実施態様に基づく例示的なデータ構造である。 本発明の一部の実施態様に基づくサーバの例示的なブロック図である。 本発明の一部の実施態様に基づく例示的な検索インターフェイスである。
インターネット上のライブデータに対する従来の検索方法あるいはシステムは、いくつかの解決すべき課題に直面している。
従来の検索方法は、視聴者が入力した検索キーワードと、ライブデータの所定の属性やタグとのテキストマッチングを行うだけである。ライブデータの所定の属性やタグは、例えば、ライブストリーミング番組のストリーマープロフィール(ストリーマ名など)やストリーミングタイプなどであり、ストリーマーが入力し、ライブストリーミング番組中固定されたものである。そのため、従来の検索方法では、リアルタイムに検索結果を提供することができない。また、従来の検索方法では、検索キーワードとリアルタイムに変化するライブストリーミング番組のコンテンツとのコンテキストマッチングの検索結果を提供することができない。
図1に、本発明の一部の実施態様に基づく通信システムの構成を示す。
当該通信システム1は、コンテンツを介したインタラクションを伴うライブストリーミングサービスを提供することができる。ここで言う「コンテンツ」とは、コンピュータ装置で再生可能なデジタルコンテンツを指す。つまり、当該通信システム1は、ユーザがオンラインで他のユーザとのリアルタイムのインタラクションに参加することを可能にする。当該通信システム1は、複数のユーザ端末10と、バックエンドサーバ30と、ストリーミングサーバ40とを含む。当該ユーザ端末10、バックエンドサーバ30、及びストリーミングサーバ40は、ネットワーク90(例えばインターネットとしてもよい)を介して接続される。当該バックエンドサーバ30は、当該ユーザ端末及び(または)当該ストリーミングサーバ40の間のインタラクションを同期させるサーバとすることができる。一部の実施態様において、当該バックエンドサーバ30は、アプリケーション(APP)プロバイダーのサーバとしてもよい。当該ストリーミングサーバ40は、ストリーミングデータまたはビデオデータを処理する、または提供するためのサーバである。一部の実施態様において、当該バックエンドサーバ30と当該ストリーミングサーバ40は、独立したサーバとしてもよい。一部の実施態様において、当該バックエンドサーバ30と当該ストリーミングサーバ40は、1つのサーバに統合してもよい。一部の実施態様において、当該ユーザ端末10は、ライブストリーミングサービスのためのクライアント装置である。一部の実施態様において、当該ユーザ端末10は、視聴者、ストリーマー、アンカー、ポッドキャスター、オーディエンス、リスナーなどと呼ばれることがある。当該ユーザ端末10、バックエンドサーバ30、及びストリーミングサーバ40はそれぞれ情報処理装置の一例である。一部の実施態様において、当該ストリーミングは、ライブストリーミングまたはビデオ再生とすることができる。一部の実施態様において、ストリーミングは、オーディオストリーミング及び(または)ビデオストリーミングとすることができる。一部の実施態様において、ストリーミングは、オンラインショッピング、トークショー、タレントショー、娯楽イベント、スポーツイベント、音楽ビデオ、映画、コメディ、コンサートなどのコンテンツを含むことができる。
図2に、本発明の一部の実施態様に基づくサーバの例示的なブロック図を示す。
当該サーバ300は、受信ユニット302と、受信ユニット304と、ミキシングユニット306と、変換ユニット308と、コンテキストマッチングユニット310と、テキストマッチングユニット312と、送信ユニット314と、ミックステキストテーブル316を含む。当該サーバ300は、変換モデルデータベース200と、ストリーミングデータベース202、属性ベクタデータベース204と通信を行う。当該ストリーミングデータベース202は、属性データベース2020と、タグデータベース2022を含む。当該タグデータベース2022は、タグ生成ユニット206と通信を行う。
当該受信ユニット302は、ユーザ端末からデータまたは情報を受信するように構成される。例えば、当該受信ユニット302は、ユーザ端末から検索キーワードなどの検索要求を受信してもよい。当該検索キーワードは、当該ユーザ端末のユーザによって入力されてもよい。当該ユーザは、ライブストリーミング番組を検索しているライブストリーミングプラットフォームの視聴者であってもよい。当該検索キーワードは、当該ユーザ端末にインストールされたライブストリーミングアプリケーションの検索インターフェイス、またはページ上で、あるいはそれらを通じて入力されてもよい。当該検索キーワードは、テキスト形式であってもよい。
当該受信ユニット304は、ライブストリーミング番組のデータまたは情報を受信するように構成される。当該受信ユニット304は、当該ストリーミングデータベース202(または当該タグデータベース2022)からライブストリーミング番組のタグを受信するように構成される。一部の実施態様において、ライブストリーミング番組の当該タグは、リアルタイムで当該ライブストリーミング番組のコンテンツに応じて変化する。一部の実施態様において、当該ライブストリーミング番組の当該タグは、当該ライブストリーミング番組が配信されている間、当該ライブストリーミング番組のコンテンツに基づき変化する。配信シナリオは、ストリーマーからストリーミングサーバへの配信、ストリーミングサーバから視聴者への配信、ストリーマーから視聴者への配信のいずれであってもよい。当該受信ユニット304は、ライブストリーミング番組のコンテンツに応じて、当該ライブストリーミング番組のタグをリアルタイムで受信する。当該タグは、テキスト形式であってもよい。
当該受信ユニット304は、当該ストリーミングデータベース202(または当該属性データベース2020)から、ライブストリーミング番組の(またはそれに対応する)属性データ(または属性テキスト)を受信するように構成される。当該属性データは、テキスト形式であってもよい。ライブストリーミング番組の当該属性データは、当該ライブストリーミング番組に対応するストリームID、ストリーマー名、ストリーマー地域、ストリーマー略歴、またはストリーマー性別等の情報を含んでもよい。当該属性データは、当該ライブストリーミング番組の当該ストリーマーによって入力されてもよい。当該属性データは、当該ライブストリーミング番組の当該ストリーマーの履歴またはリアルタイムの行動に基づき、当該バックエンドサーバまたは当該ストリーミングサーバにより決定されてもよい。
当該ミキシングユニット306は、ライブストリーミング番組のタグおよびライブストリーミング番組の属性データに従って、ミックステキストを生成するように構成される。一部の実施態様において、ミキシングは、さまざまなテキスト形式のデータの整列または配列であってもよい。生成されたミックステキストは、当該ミックステキストテーブル316に格納される。一部の実施態様において、各ライブストリーミング番組に1つ以上のミックステキストが存在してもよい。当該ミックステキストテーブル316の内容の例を図6に示す。ミックステキストは、対応するタグまたは属性データに基づき、リアルタイムに変化してもよい。ミックステキストは、ライブストリーミング番組の配信中に、対応する当該ライブストリーミング番組のコンテンツに応じて変化してもよい。
当該変換ユニット308は、テキスト形式のデータ(テキスト文など)をベクタ形式のデータ(さまざまな数値を要素として有するベクタなど)に変換するように構成される。当該変換ユニット308は、BERT(Bidirectional Encoder Representations from Transformers、Transformerによる双方向のエンコード表現)やSBERT(Sentence-BERT)ワード埋め込みモデル等の変換処理に適したモデルを求めて当該変換モデルデータベース200にアクセスする。
例えば、当該変換ユニット308は、検索キーワードを検索ベクタに変換し、その後の検索処理に利用することができる。例えば、当該変換ユニット308は、ライブストリーミング番組のミックステキストを、当該ライブストリーミング番組に対応する属性ベクタに変換する。変換処理は、当該ミックステキストが変化するたびに、対応する属性ベクタもそれに応じて変化するように、リアルタイムで実行されてもよい。当該属性ベクタは、ライブストリーミング番組が配信されている間、対応する当該ライブストリーミング番組のコンテンツに応じて変化してもよい。当該属性ベクタは、当該属性ベクタデータベース204に格納される。一部の実施態様において、当該変換ユニット308は、利用可能なすべてのライブストリーミング番組の当該ミックステキストをそれぞれの属性ベクタに変換し、当該属性ベクタデータベース204に格納する。
当該コンテキストマッチングユニット310は、当該検索ベクタと当該属性ベクタデータベース204に格納された当該属性ベクタとの間でコンテキストマッチング処理を行うように構成される。一部の実施態様において、当該マッチング処理は、K近傍法(KNN)検索処理である、またはこれを含んでもよい。当該コンテキストマッチングユニット310は、当該マッチング処理において、当該属性ベクタが高い適合値(または高相関値/高マッチングスコア)となるライブストリーミング番組を提供する。
当該テキストマッチングユニット312は、検索キーワードとライブストリーミング番組の属性テキストとのテキストマッチング処理を行うように構成される。当該マッチング処理は、テキストマッチング処理またはファジーテキストマッチング処理である、またはこれを含んでもよい。例えば、Elasticsearchが提供するテキストマッチングツールやファジーテキストマッチングツールが利用されてもよい。当該テキストマッチングユニット312は、当該マッチング処理において、当該属性テキストが高い適合値(または高相関値/高マッチングスコア)となるライブストリーミング番組を提供する。
当該送信ユニット314は、ライブストリーミング番組の情報をユーザ端末に提供するように構成される。例えば、当該送信ユニット314は、当該ユーザ端末からの検索要求に基づき、コンテキストマッチング結果及び(または)テキストマッチング結果に従い、ライブストリーミング番組の情報を提供する。
当該変換モデルデータベース200は、テキスト形式のデータをベクタ形式のデータに変換するためのモデル、例えば、SBERTモデルやBERTモデルを格納するように構成される。この実施態様において、当該変換モデルデータベース200は、当該サーバ300の外部に配備される。一部の実施態様において、当該変換モデルデータベース200は、当該サーバ300の内部に配備されてもよい。
当該ストリーミングデータベース202は、当該属性データベース2020と当該タグデータベース2022を含む。
当該属性データベース2020は、ライブストリーミング番組の属性データを格納するように構成される。当該属性データは、ユーザ端末(ストリーマーのユーザ端末など)から受信されても、サーバ(ストリーミングサーバやバックエンドサーバなど)から受信されてもよい。この実施態様において、当該属性データベース2020は、当該サーバ300の外部に配備される。一部の実施態様において、当該属性データベース2020は、当該サーバ300の内部に配備されてもよい。
当該タグデータベース2022は、ライブストリーミング番組のタグを格納するように構成される。当該タグデータは、当該タグ生成ユニット206から受信されてもよい。この実施態様において、当該タグデータベース2022は、当該サーバ300の外部に配備される。一部の実施態様において、当該タグデータベース2022は、当該サーバ300の内部に配備されてもよい。
当該タグ生成ユニット206は、ライブストリーミング番組に対するタグをリアルタイムで生成するように構成される。当該タグ生成ユニット206は、ライブストリーミング番組が配信されている間、当該ライブストリーミング番組のコンテンツに基づき、当該ライブストリーミング番組のタグを生成する。ライブストリーミング番組のタグの生成は、当該ライブストリーミング番組に関して行われる画像認識処理、動作認識処理、及び(または)音声認識処理を含んでもよい。この実施態様において、当該タグ生成ユニット206は、当該サーバ300の外部に配備される。一部の実施態様において、当該タグ生成ユニット206は、当該サーバ300の内部に配備されてもよい。
当該属性ベクタデータベース204は、当該変換ユニット308により生成されるライブストリーミング番組の属性ベクタを格納するように構成される。この実施態様において、当該属性ベクタデータベース204は、当該サーバ300の外部に配備される。一部の実施態様において、当該属性ベクタデータベース204は、当該サーバ300の内部に配備されてもよい。一部の実施態様において、当該属性ベクタデータベース204は、Elasticsearchサーバに存在する。
図3に、本発明の一部の実施態様に基づくデータ検索方法を示す例示的なフローチャートを示す。
工程S300では、視聴可能なライブストリーミング番組の属性データ(または属性テキスト)を受信する。例えば、属性テキストは、当該属性データベース2020から当該受信ユニット304において受信される。
工程S302では、ライブストリーミング番組のタグを受信する。例えば、タグは、当該タグデータベース2022から当該受信ユニット304において受信される。
工程S304では、ライブストリーミング番組ごとに、1つ以上のミックステキスト(またはミックステキスト文)が生成される。例えば、各ミックステキストは、対応するタグと対応する属性テキストとを組み合わせることにより生成される。この処理は、当該ミキシングユニット306によって実行されてもよい。
工程S306では、各ミックステキストがベクタ形式に変換される。例えば、各ミックステキストは、当該変換モデルデータベース200に格納されたSBERTまたはBERTモデルを使用して、当該変換ユニット308により属性ベクタに変換される。
工程S308では、当該属性ベクタが、当該属性ベクタデータベース204に格納される。
工程S310では、検索キーワードを受信する。例えば、視聴者/ユーザによって開始された検索キーワードは、視聴者のユーザ端末から当該受信ユニット302に送信される。
工程S312では、検索キーワードがベクタ形式に変換される。例えば、当該検索キーワードは、当該変換モデルデータベース200に格納されたSBERTまたはBERTモデルを使用して、当該変換ユニット308により検索ベクタに変換される。
工程S314では、当該検索ベクタと当該属性ベクタとの間でコンテキストマッチング処理が行われる。当該処理は、当該コンテキストマッチングユニット310によって実行されてもよい。当該検索ベクタに最も適合する属性ベクタ(および対応するライブストリーミング番組)は、例えば、当該コンテキストマッチングユニット310により特定(または決定/選択/受信)される。
工程S316では、当該検索ベクタに一致するライブストリーミング番組の情報が、当該ユーザ端末に提供/送信される。これにより、当該ユーザ端末は、コンテキストマッチング結果を当該ユーザに対して表示する。
工程S318では、当該検索キーワードと工程S300で受信した当該属性テキストとの間でテキストマッチング処理が行われる。当該処理は、当該テキストマッチングユニット312により実行されてもよい。例えば、テキストマッチングや、Elasticsearchのファジーテキストマッチングツールなどが利用されてもよい。
工程S320では、各属性テキストについて、当該テキストマッチングユニット312がマッチング結果(またはマッチングスコア)と閾値とを比較する。当該閾値より大きいマッチング結果となる属性テキストがある場合、フローは工程S322に進む。当該閾値より大きいマッチング結果となる属性テキストがない場合、フローは工程S324に進む。当該閾値は、提示するライブストリーミング番組の数、ユーザ検索のフィードバック調査の結果など、実用に応じて決定することができる。
一部の実施態様において、検索キーワードに最も適合する属性テキスト(および対応するライブストリーミング番組)が、例えば、当該テキストマッチングユニット312により特定(または決定/選択/受信)される。
工程S322では、対応する属性テキストのテキストマッチング結果が当該閾値(工程S320)より大きいライブストリーミング番組の情報が、当該ユーザ端末に提供/送信される。これにより、当該ユーザ端末は、テキストマッチング結果を当該ユーザに対して表示する。一部の実施態様では、工程S316で表示されたコンテキストマッチング結果と工程S322で表示されたテキストマッチング結果は、相互にライブストリーミング番組を共有してもよい。一部の実施態様では、工程S316で表示されたコンテキストマッチング結果と工程S322で表示されたテキストマッチング結果が、異なるライブストリーミングプログラムを提供してもよい。
工程S324では、当該閾値より大きいテキストマッチング結果がないため(工程S320)、当該テキストマッチングユニット312は、すべての属性テキストについてテキストマッチングが成立していないと判断する。したがって、当該ユーザ端末は、当該ユーザに対してテキストマッチング結果を表示しない。
一部の実施態様において、テキストマッチングにより決定されたライブストリーミング番組の情報と、コンテキストマッチングにより決定されたライブストリーミング番組の情報とが、当該ユーザ端末に同時に提供される。一部の実施態様において、テキストマッチング結果の情報およびコンテキストマッチング結果の情報は、テキストマッチングによって決定されたライブストリーミング番組とコンテキストマッチングによって決定されたライブストリーミング番組が、当該検索要求を開始した当該ユーザ端末に同時に表示できるように構成される。
テキストマッチングにおける当該閾値の設定は、ユーザの意思確認の仕組みとして機能することができる。
当該検索キーワードと特定の属性テキスト(ストリーマー名やストリーマーIDなど)とのテキストマッチングの結果(またはスコア)が当該閾値より大きい場合、当該ユーザはその属性テキストを検索する意図を持っている可能性があると判断されるため、(テキストマッチングの結果に基づいて)対応するライブストリーミング番組を当該ユーザに表示することができる。
当該検索キーワードとすべての属性テキストとのテキストマッチングで、当該閾値より大きい結果(スコア)を出せない場合、当該ユーザは特定の属性テキスト(任意のストリーマー名やストリーマーIDなど)を検索する意図を持っていない可能性があると判断する。すなわち、すべてのテキストマッチング結果が当該閾値未満である場合、当該ユーザは特定のライブストリーミング番組を検索しようとするのではなく、当該検索キーワードに関連するライブストリーミング番組を検索する可能性があると判断される。したがって、この場合、コンテキストマッチング結果に基づいて提供されるライブストリーミング番組のみが当該ユーザに表示される。
図4に、本発明の一部の実施態様に基づく例示的な検索インターフェイスを示す。
当該検索インターフェイス400は、視聴者が検索キーワードを入力してライブストリーミング番組を検索できるライブストリーミングアプリケーションの検索インターフェイス(またはページ)であってもよい。視聴者は、検索キーワードを検索領域402に入力する。検索ボタンをクリックすると、検索結果領域404に検索結果が表示される。
図4に示すように、入力された当該検索キーワードは「lipstick09」(口紅09)である。当該インターフェイスには当該検索領域402が1つしかないため、当該ユーザが特定のライブストリーミング番組(または特定のストリーマー)を検索しようとしているのか、それともキーワードに関連するライブストリーミング番組を検索しようとしているのかが不明である。そこで、当該検索結果領域404には、テキストマッチング結果(ライブストリーミング番組S1)とコンテキストマッチング結果(ライブストリーミング番組S2、S3、S4)の両方が表示される。
当該ライブストリーミング番組S1がテキストマッチング結果として提供される。ストリーマー名「lipstick0907」(当該ストリーミング番組S1の1つの属性テキスト)は、当該キーワード「lipstick09」と高いテキストマッチング度(または高いマッチング相関/高いテキストマッチングスコア)を有する結果となる。したがってシステムは、当該ユーザが特定のライブストリーミング番組S1を探している可能性があると判断する。なお、この場合、S1の略歴やタグ(「音楽」、「ギター」)には、「口紅」に関連するものがないことが分かる。しかし、テキストマッチング度が高いため、当該ライブストリーミング番組S1が依然として提供される。
当該ライブストリーミング番組S2が、コンテキストマッチング結果として提供される。略歴には「リップアーティスト」というテキストが、タグには「コスメ」、「メイクアップ」というテキストが含まれている。検索処理では、これらのテキストを組み合わせてミックステキストとし、その後(例えば、BERTモデルで)属性ベクタに変換し、(例えば、KNN検索処理で)検索キーワードから変換した検索ベクタとマッチングさせる。テキスト(「リップアーティスト」、「コスメ」、「メイクアップ」)は、キーワード「lipstick09」とコンテキストが関連しているため、相関性の高いコンテキストマッチング結果となる。したがって、ライブストリーミング番組S2が提供される。
当該ライブストリーミング番組S3は、当該ライブストリーミング番組 S2と同様の理由により、コンテキストマッチング結果として提供される。当該略歴に含まれる「YSLブランド」というテキストは、当該検索キーワードとコンテキストが一致している(YSLは口紅のブランド)。この実施態様において、当該番組S2は、当該検索キーワードとコンテキストが一致するコンテンツが多いため、当該番組S3よりも高いランクとなる。
一部の実施態様において、異なるカテゴリのコンテンツまたはテキストは、マッチング度(またはマッチングスコア)を決定する際に異なる重みを付与されてもよい。「略歴」内のコンテンツは番組の一般的または長期的なスタイル/タイプを表し、「タグ」内のコンテンツは、番組のリアルタイムまたは短期的なスタイル/タイプを表していてもよい。一部の実施態様において、「略歴」内のコンテンツは、「タグ」内のコンテンツよりも大きい重みを付与されてもよい。これは、ユーザの検索に一致する一般的な特徴を持つ番組を提供したいためである。一部の実施態様において、「タグ」内のコンテンツは、「略歴」内のコンテンツよりも大きい重みを付与されてもよい。これは、そのタイミングにおいてユーザの検索に最も一致するコンテンツを有する番組を提供したいためである。
当該ライブストリーミング番組S4が、コンテキストマッチング結果として提供される。「略歴」からはギター演奏がメインの番組であることが分かるが、リアルタイムに生成された「口紅」というタグ(音声認識、画像認識、動作認識などで生成されてもよい)から、口紅に関するコンテンツが番組内で検索のタイミングに表示または言及されていることがわかる。本発明のリアルタイムコンテキストマッチング方式は、検索キーワードとコンテキストにおいて関連するが、従来のテキストマッチング方式では発見できないコンテンツを発見することができる。
図5に、本発明の一部の実施態様に基づく例示的な検索インターフェイスを示す。図5は図4と類似しているが、テキストマッチング結果とコンテキストマッチング結果が異なる領域に別々に表示されていることが異なる。
図6に、本発明の一部の実施態様に基づく例示的なデータ構造を示す。
この実施態様において、当該受信ユニット304が受信したストリーマー名、地域、バイオ、性別などの属性テキストが、当該ミックステキストテーブル316に格納される。当該受信ユニット304が受信したタグは、当該ミックステキストテーブル316に格納される。上記内容で当該ミキシングユニット306により生成された当該ミックステキストは、当該ミックステキストテーブル316に格納される。この実施態様において、当該ミックステキストは、当該属性テキストと当該タグを直線状に並べたものである。
当該ミックステキストからSBERTモデルにより変換された当該属性ベクタは、当該属性ベクタデータベース204に格納される。SBERTモデルによってベクタ変換が行われるため、属性ベクタは、384x1の次元(dimension)を有する。
図7に、本発明の一部の実施態様に基づくサーバの例示的なブロック図を示す。当該サーバ700は、コンテキスト検索ユニット710と、テキスト検索ユニット720を含む。
当該コンテキスト検索ユニット710は、コンテキスト検索またはコンテキストマッチングに関する処理を実行するように構成される。当該コンテキスト検索ユニット710は、当該変換ユニット308、当該コンテキストマッチングユニット310、検索ベクタテーブル702を含む。当該検索ベクタテーブル702は、当該変換ユニット308により当該検索キーワードから変換された検索ベクタを格納するように構成される。その後当該検索ベクタは、当該コンテキストマッチングユニット310によりアクセスされ、当該属性ベクタデータベースに格納されたライブストリーミング番組の属性ベクタと照合される。
当該テキスト検索ユニット720は、テキスト検索またはテキストマッチングに関する処理を実行するように構成される。当該テキスト検索ユニット720は、当該テキストマッチングユニット312と、当該ミックステキストテーブル316と、検索キーワードテーブル 704を含む。当該検索キーワードテーブル704は、ユーザ端末から受信した当該検索キーワードを格納するように構成される。その後、当該検索キーワードは当該テキストマッチングユニット312によりアクセスされ、当該ミックステキストテーブル316内のテキストコンテンツと照合される。当該テキストコンテンツは、ライブストリーミング番組の属性テキストやリアルタイムタグを含んでもよい。
図8に、本発明の一部の実施態様に基づく例示的な検索インターフェイスを示す。図8は図5と類似しているが、テキストマッチングがライブストリーミング番組を提供しないことが異なる。この実施態様において、属性テキストが閾値より大きいテキストマッチング度(またはテキストマッチングスコア)となり得るライブストリーミング番組が存在しない。したがって、コンテキストマッチング結果のみが表示される。
本発明は、リアルタイムコンテキスト検索およびリアルタイムテキスト検索のための方法を開示する。当該検索要求と一致するリアルタイムコンテンツのライブストリーミング番組を提供することができる。コンテキスト検索結果とテキスト検索結果を併せて提供することで、ユーザの検索意図に合致したコンテンツをより確実に提供することができる。ライブストリーミング番組の属性テキストやリアルタイムタグで形成されるミックステキストを利用することで、より包括的で動的なコンテキスト検索結果を得ることができる。
本発明で説明した処理及び手順は、明示的に説明したものに加えて、ソフトウェア、ハードウェア、またはそれらの任意の組み合わせにより実現することができる。例えば、本明細書で説明した処理および手順は、その処理および手順に対応するロジックを集積回路、揮発性メモリ、不揮発性メモリ、非一時的なコンピュータ可読媒体、磁気ディスクなどの媒体に実装することにより実現することができる。さらに、本明細書に記載された処理および手順は、その処理および手順に対応するコンピュータプログラムとして実現することができ、各種のコンピュータにより実行することができる。
さらに、上記実施態様で説明したシステムまたは方法は、固体記憶装置、光ディスク記憶装置、磁気ディスク記憶装置などの非一時的なコンピュータ可読媒体に格納されたプログラムに統合されてもよい。あるいは、プログラムは、インターネットを介してサーバからダウンロードされ、プロセッサにより実行されるものとしてもよい。
以上、本発明の技術的内容及び特徴を説明したが、本発明の属する技術分野において通常の知識を有する者であれば、本発明の教示及び開示から逸脱することなく、なお多くの変形及び修正を行うことができる。したがって、本発明の範囲は、既に開示された実施態様に限定されず、本発明から逸脱しない別の変形や修正を含み、特許請求の範囲に含まれる範囲である。
1 通信システム
10 ユーザ端末
30 バックエンドサーバ
40 ストリーミングサーバ
90 ネットワーク
200 変換モデルデータベース
202 ストリーミングデータベース
2020 属性データベース
2022 タグデータベース
204 属性ベクタデータベース
206 タグ生成ユニット
300 サーバ
302 受信ユニット
304 受信ユニット
306 ミキシングユニット
308 変換ユニット
310 コンテキストマッチングユニット
312 テキストマッチングユニット
314 送信ユニット
316 ミックステキストテーブル
S300、S302、S304、S306、S308、S310、S312、S314、S316、S318、S320、S322、S324 工程
S1、S2、S3、S4 ライブストリーミング番組
SN2、SN3、SN4 ストリーマー名
700 サーバ
702 検索ベクタテーブル
704 検索キーワードテーブル
710 コンテキスト検索ユニット
720 テキスト検索ユニット

Claims (10)

  1. ライブストリーミングデータ検索方法であって、
    検索ワードを受信する工程と、
    前記検索ワードを検索ベクタに変換する工程と、
    前記検索ベクタに一致する属性ベクタを受信する工程と、
    前記属性ベクタに対応する第1のライブストリーミング番組の情報を提供する工程と、を含み、
    前記属性ベクタが、前記第1のライブストリーミング番組が配信されている間、前記第1のライブストリーミング番組のコンテンツに応じて変化する、ことを特徴とする、ライブストリーミングデータ検索方法。
  2. さらに、
    前記検索ワードを第2のライブストリーミング番組に対応する属性テキストと照合する工程と、
    前記検索ワードと前記属性テキストとの間の照合結果が閾値より大きいと判断する工程と、
    前記第2のライブストリーミング番組の情報を前記第1のライブストリーミング番組と同時に提供する工程と、
    を含むことを特徴とする、請求項1に記載のライブストリーミングデータ検索方法。
  3. 前記検索ワードを前記検索ベクタに変換する工程が、BERTワード埋め込み処理を含む、ことを特徴とする、請求項1に記載のライブストリーミングデータ検索方法。
  4. 前記検索ベクタと前記属性ベクタ間の照合が、KNN検索処理を含む、ことを特徴とする、請求項1に記載のライブストリーミングデータ検索方法。
  5. さらに、
    前記第1のライブストリーミング番組のタグを受信する工程と、
    前記第1のライブストリーミング番組の前記タグに基づいて、ミックステキストを生成する工程と、
    前記ミックステキストをBERTモデルで前記属性ベクタに変換する工程と、を含み、
    前記第1のライブストリーミング番組が配信されている間、前記第1のライブストリーミング番組の前記タグが、前記第1のライブストリーミング番組のコンテンツに応じて変化する、ことを特徴とする、請求項1に記載のライブストリーミングデータ検索方法。
  6. さらに、
    前記第1のライブストリーミング番組に対応する属性テキストを受信する工程と、
    前記第1のライブストリーミング番組の前記タグと前記属性テキストに基づいて前記ミックステキストを生成する工程と、
    を含むことを特徴とする、請求項5に記載のライブストリーミングデータ検索方法。
  7. さらに、
    画像認識処理、動作認識処理、または音声認識処理により、前記第1のライブストリーミング番組の前記タグを生成する工程を含む、
    ことを特徴とする、請求項5に記載のライブストリーミングデータ検索方法。
  8. 前記第1のライブストリーミング番組の情報と、前記第2のライブストリーミング番組の情報が、ユーザ端末上に前記第1のライブストリーミング番組と前記第2のライブストリーミング番組を同時に表示するように構成され、前記検索ワードが前記ユーザ端末から受信される、ことを特徴とする、請求項2に記載のライブストリーミングデータ検索方法。
  9. ライブストリーミングデータ検索のためのシステムであって、1以上のプロセッサを含み、そのうち、前記1以上のプロセッサが機械可読命令を実行して、
    検索ワードを受信する工程と、
    前記検索ワードを検索ベクタに変換する工程と、
    前記検索ベクタに一致する属性ベクタを受信する工程と、
    前記属性ベクタに対応する第1のライブストリーミング番組の情報を提供する工程と、を実行し、
    前記属性ベクタが、前記第1のライブストリーミング番組が配信されている間、前記第1のライブストリーミング番組のコンテンツに応じて変化する、
    ことを特徴とする、ライブストリーミングデータ検索のためのシステム。
  10. ライブストリーミングデータ検索のためのプログラムを含む非一時的なコンピュータ可読媒体であって、そのうち、前記プログラムが、1以上のコンピュータに、
    検索ワードを受信する工程と、
    前記検索ワードを検索ベクタに変換する工程と、
    前記検索ベクタに一致する属性ベクタを受信する工程と、
    前記属性ベクタに対応する第1のライブストリーミング番組の情報を提供する工程と、を実行させ、
    前記属性ベクタが、前記第1のライブストリーミング番組が配信されている間、前記第1のライブストリーミング番組のコンテンツに応じて変化する、
    ことを特徴とする、非一時的なコンピュータ可読媒体。
JP2023067747A 2022-08-16 2023-04-18 データ検索のためのシステム、方法、及びコンピュータ可読媒体 Pending JP2024027084A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023067747A JP2024027084A (ja) 2022-08-16 2023-04-18 データ検索のためのシステム、方法、及びコンピュータ可読媒体

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022129779A JP7272571B1 (ja) 2022-08-16 2022-08-16 データ検索のためのシステム、方法、及びコンピュータ可読媒体
JP2023067747A JP2024027084A (ja) 2022-08-16 2023-04-18 データ検索のためのシステム、方法、及びコンピュータ可読媒体

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2022129779A Division JP7272571B1 (ja) 2022-08-16 2022-08-16 データ検索のためのシステム、方法、及びコンピュータ可読媒体

Publications (1)

Publication Number Publication Date
JP2024027084A true JP2024027084A (ja) 2024-02-29

Family

ID=86382543

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2022129779A Active JP7272571B1 (ja) 2022-08-16 2022-08-16 データ検索のためのシステム、方法、及びコンピュータ可読媒体
JP2023067747A Pending JP2024027084A (ja) 2022-08-16 2023-04-18 データ検索のためのシステム、方法、及びコンピュータ可読媒体

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2022129779A Active JP7272571B1 (ja) 2022-08-16 2022-08-16 データ検索のためのシステム、方法、及びコンピュータ可読媒体

Country Status (2)

Country Link
US (1) US20240064343A1 (ja)
JP (2) JP7272571B1 (ja)

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011103522A (ja) 2009-11-10 2011-05-26 Life Innovation Co Ltd 映像配信システム
CN103729407A (zh) 2013-12-09 2014-04-16 乐视网信息技术(北京)股份有限公司 一种直播流媒体的播放方法及装置
JP6603645B2 (ja) 2016-11-17 2019-11-06 日本電信電話株式会社 リソース検索装置およびリソース検索方法
US10891673B1 (en) * 2016-12-22 2021-01-12 A9.Com, Inc. Semantic modeling for search
JP7134662B2 (ja) 2018-03-20 2022-09-12 ヤフー株式会社 情報配信システム、および情報配信方法
US12002077B2 (en) * 2019-12-29 2024-06-04 Ebay Inc. Automatic listing generation for multiple items
US20230273961A1 (en) 2020-09-01 2023-08-31 Sony Group Corporation Information processing device and information processing method
US11770405B2 (en) * 2020-09-10 2023-09-26 Arbor Networks, Inc. Automated selection of DDoS countermeasures using statistical analysis
US11934795B2 (en) * 2021-01-29 2024-03-19 Oracle International Corporation Augmented training set or test set for improved classification model robustness
CN113934830B (zh) 2021-10-19 2024-08-16 平安国际智慧城市科技股份有限公司 文本检索模型训练、问答检索方法、装置、设备及介质
CN114265926A (zh) 2021-12-21 2022-04-01 深圳供电局有限公司 一种基于自然语言的素材推荐方法、系统、设备及介质
CN114493783A (zh) 2022-01-25 2022-05-13 德致商成集团有限公司 一种基于双重检索机制的商品匹配方法
CN114661928A (zh) 2022-03-14 2022-06-24 平安国际智慧城市科技股份有限公司 违规行为图像的检索方法、装置、设备及存储介质

Also Published As

Publication number Publication date
JP2024027055A (ja) 2024-02-29
US20240064343A1 (en) 2024-02-22
JP7272571B1 (ja) 2023-05-12

Similar Documents

Publication Publication Date Title
US9824150B2 (en) Systems and methods for providing information discovery and retrieval
CN109474843B (zh) 语音操控终端的方法、客户端、服务器
CN109165302B (zh) 多媒体文件推荐方法及装置
US10504039B2 (en) Short message classification for video delivery service and normalization
KR20190019041A (ko) 자연어 질의를 위한 근사적인 템플릿 매칭
KR101975511B1 (ko) 인터액티브 비디오 생성
US7904452B2 (en) Information providing server, information providing method, and information providing system
US8438145B2 (en) Methods, systems, and computer program products for determining availability of presentable content via a subscription service
CN111432282B (zh) 一种视频推荐方法及装置
US20210044870A1 (en) Representation Of Content Based On Content-Level Features
CN106888154B (zh) 音乐分享方法及系统
CN109600646B (zh) 语音定位的方法及装置、智能电视、存储介质
WO2022134689A1 (zh) 多媒体资源展示方法及装置
US10743085B2 (en) Automatic annotation of audio-video sequences
CN110741362A (zh) 音频查询的重叠处理的协调
KR102252522B1 (ko) 내용 기반 동영상 목차 자동생성 방법 및 시스템
JP7272571B1 (ja) データ検索のためのシステム、方法、及びコンピュータ可読媒体
WO2022050060A1 (ja) 情報処理装置及び情報処理方法
Black et al. A compendium of robust data structures
WO2019069997A1 (ja) 情報処理装置、画面出力方法及びプログラム
US20240290329A1 (en) Systems and methods for enhanced contextual responses with a virtual assistant
US20220124383A1 (en) Audio bullet screen processing method and device
Cao New Media and Technology Convergence
CN115273833A (zh) 语音处理方法、装置、电子设备和介质
KR20240031722A (ko) 콘텐츠 메타정보 제공방법 및 이를 이용하는 콘텐츠 배포 서버