JP6829740B2 - データ検索方法及びそのデータ検索システム - Google Patents

データ検索方法及びそのデータ検索システム Download PDF

Info

Publication number
JP6829740B2
JP6829740B2 JP2019090932A JP2019090932A JP6829740B2 JP 6829740 B2 JP6829740 B2 JP 6829740B2 JP 2019090932 A JP2019090932 A JP 2019090932A JP 2019090932 A JP2019090932 A JP 2019090932A JP 6829740 B2 JP6829740 B2 JP 6829740B2
Authority
JP
Japan
Prior art keywords
data
learning
search
character string
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019090932A
Other languages
English (en)
Other versions
JP2020042770A (ja
Inventor
シー−ハン チャン
シー−ハン チャン
兆軒 柯
兆軒 柯
國誠 藍
國誠 藍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Delta Electronics Inc
Original Assignee
Delta Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Delta Electronics Inc filed Critical Delta Electronics Inc
Publication of JP2020042770A publication Critical patent/JP2020042770A/ja
Application granted granted Critical
Publication of JP6829740B2 publication Critical patent/JP6829740B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • G06F16/437Administration of user profiles, e.g. generation, initialisation, adaptation, distribution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本開示内容は、データ検索方法及びそのデータ検索システムに関し、特に検索情報によってデータベースから対応する学習データを見つける技術である。
オンライン学習プラットフォームとは、数多くの学習データをサーバに記憶して、インターネットによってサーバに接続されて、ユーザが学習データを随時に閲覧できるネットワークサービスである。従来の各種類のオンライン学習プラットフォームにおいて、提供された学習データタイプはビデオ、オーディオ、メッセージ、ファイル又はフォーラム等を含む。
オンライン学習プラットフォームに膨大な数の学習データの数が記憶されるので、オンライン学習プラットフォームから関連する学習データを閲覧しようとすると、ユーザは自身の需要に応じて検索情報を入力する必要がある。このため、オンライン学習プラットフォームの検索メカニズムがユーザの検索情報を高精度に識別して、且つ対応する学習データをユーザに高速且つ精確的に提供することができるかどうかは、オンライン学習プラットフォームのサービス効率を決定する主要な指標である。
本開示内容の一態様は、複数の第1の学習セクションを含む第1の学習データを受信するステップと、第1の学習データを分析して、各第1の学習セクションに対応する複数の第1のキーワード文字列を生成するステップと、検索情報を受信するステップと、検索情報を分析して、検索文字列を生成するステップと、検索文字列及び第1のキーワード文字列を比較するステップと、検索文字列と一致する前記第1のキーワード文字列の対応する前記第1の学習セクションによって、検索リストを生成するステップと、を備えるデータ検索方法である。
本開示内容の他の態様は、複数の第1の学習セクションを含む第1の学習データを記憶するための記憶ユニットと、第1の学習データによって各第1の学習セクションに対応する複数の第1のキーワード文字列を生成し、更に検索情報を分析して、検索文字列を生成するための分析ユニットと、分析ユニットに電気的に接続されて、検索文字列及び前記第1のキーワード文字列を比較して、且つ検索文字列と一致する前記第1のキーワード文字列の対応する前記第1の学習セクションによって、検索リストを生成する演算ユニットと、を備えるデータ検索システムである。
これによって、データ検索システムはそれぞれ第1の学習データの各第1の学習セクションを分析して、各第1の学習セクションでインデックスのための第1のキーワード文字列を確立することができるので、後続に検索情報を受信する時、データ検索システムは検索情報と第1のキーワード文字列を比較することによって、第1の学習データの対応する第1の学習セクションを精確的に検索することができ、これによってユーザは見つけたい学習内容を迅速に閲覧し始めることができ、学習効率を大幅に向上させる。
本開示内容の一部の実施例によるデータ検索システムを示す模式図である。 本開示内容の一部の実施例による第1のサーバ及び行為データベースを示す模式図である。 本開示内容の一部の実施例によるデータ検索システムの動作方式を示す模式図である。 本開示内容の一部の実施例による第1の学習データのテキストファイルを示す模式図である。 本開示内容の一部の実施例による第1の学習データの画像画面を示す模式図である。 本開示内容の一部の実施例によるデータ検索方法を示す模式図である。
以下、図面で本発明の複数の実施形態を開示し、明らかに説明するために、数多くの実務上の細部を下記の叙述で合わせて説明する。しかしながら、理解すべきなのは、これらの実務上の細部が、本発明を制限するためのものではない。つまり、本発明の実施形態の一部においては、これらの実務上の細部は、必要としないものである。また、図面を簡略化するために、ある従来慣用の構造及び素子は、図面において簡単で模式的に示される。
本文において、ある素子が「接続」又は「結合」されると言われる場合、「電気的接続」又は「電気的結合」を指すこともある。「接続」又は「結合」は、2つ又は複数の素子同士の互いの協力操作や対話を表すことに用いてもよい。また、本文では、「第1の」、「第2の」等の用語を使用して異なる素子を説明するが、前記用語は単に同じ技術用語で説明する素子又は操作を区別するためのものである。上下文で明記されない限り、前記用語は、順番や順位を特に指し又は示唆するものでもなく、本発明を限定するものでもない。
従来のオンライン学習プラットフォームにおいて、ユーザは検索情報を入力すると、サーバは検索情報と学習データのファイル名称のみを比較して、類似した学習データを選別する。しかし、学習データの内容が巨大(例えば、2時間のビデオ)であると、ユーザは、自分のニーズに最も関連するセクションを見つけるために、依然として学習データ(例えば、プレイタイムを45分目に調整する必要がある)を手動調整する必要がある。なお、検索情報が口語的過ぎると、従来のオンライン学習プラットフォームは検索情報を識別できないので、全然関連されない学習データを検索する可能性もある。即ち、従来のオンライン学習プラットフォームの検索メカニズムは必要に応じて細かい検索を行うことができない。本開示内容によるデータ検索システム及びその方法はこの現象を改善することができる。
図1A及び図1Bを参照されたい。本開示内容はデータ検索システム100に関する。データ検索システム100は第1のサーバ110、第2のサーバ120及び記憶ユニット130を含む。第1のサーバ110は第2のサーバ120に電気的に接続されて、他の実施例において、第1のサーバ110及び第2のサーバ120の間はネットワークによって接続を確立して、データ伝送を行うことができる。記憶ユニット130はデータ記憶装置であり、例えば、フラッシュメモリ、メモリカード、ハードドライブ等がある。一部の実施例において、記憶ユニット130は独立したサーバに記憶される。他の部分の実施例において、記憶ユニット130は第1のサーバ110又は第2のサーバ120に設けられてよい。他の実施例において、第1のサーバ110と第2のサーバ120は単一のサーバに組み合わせられてよい。
本実施例において、データ検索システム100はオンライン学習サービスを提供するためのものであり、例えば、ユーザは、オンライン学習インターフェースを閲覧するために、端末装置200によって第1のサーバ110に接続されることができる。ユーザは学習内容を閲覧しようとする時、第1のサーバ110は記憶ユニット130から対応するファイルを取得することができる。第2のサーバ120は分類、管理及び統計等の機能を実行することに用いられる。しかし、本開示内容の応用形態はこれらに限定されず、データ検索システム100はビデオストリーミングプラットフォーム又はネットワークディスカッションフォーラム等に応用されてもよい。
第1のサーバ110は複数の学習データを受信することに用いられる。一部の実施例において、第1のサーバ110はインターネットによって、端末装置200で学習データを受信する。学習データはビデオ、オーディオ、メッセージ又はディスカッション文字列であってよい。説明しやすいので、本実施例において複数の学習データを第1の学習データ131a、第2の学習データ131b及び第3の学習データ131cに細分するように説明する。しかし、本開示内容はこれらに限定されず、学習データの数を任意に調整することができる。
一部の実施例において、第1のサーバ110は第1の学習データ131aを受信した後、第1の学習データ131aを記憶ユニット130のコースデータベース131にアップロードして、第1の学習データ131aが複数の第1の学習セクションを含む。前記第1の学習セクションは時間順序(例えば、第1の学習データ131aに予め設置された時間軸)に従って相互接続(又は配列)される。例えば、第1の学習データ131aが30分間のビデオファイルであると、第1の学習データ131aはそれぞれ15分間のビデオに対応する2つの第1の学習セクションを含んでよい。
図1Bに示すように、第2のサーバ120は演算ユニット121、分析ユニット122及び伝送ユニット123を含む。演算ユニット121は分析ユニット122及び伝送ユニット123に電気的に接続される。第2のサーバ120は伝送ユニット123によって第1のサーバ110と記憶ユニット130に対してデータ伝送を行う。第2のサーバ120は第1のサーバ110からの分析情報によって、記憶ユニット130から第1の学習データ131aを取得して、且つ分析処理することができ、これによって第1の学習データ131aによって各第1の学習セクションに対応する複数の第1のキーワード文字列(keyword string)を生成する。
例を挙げると、第1の学習データ131aはビデオファイルであり、且つ字幕ファイルを含む。分析ユニット122は字幕ファイルにおける文字に対して、セマンティクス分析技術(Natural Language Processing)でセマンティクス関連文字列(又は推論文字列と称する)を確立することができる。これによって、各第1の学習セクションに対応する第1のキーワード文字列、例えば、「プロジェクター、画像、原理」、「高周波信号、シャープネス、エンハンスメント」及び「プロモーション、明瞭度」を生成する。一部の実施例において、セマンティクス関連文字列は字幕ファイル内の原文であってもよいし、推論された単語であってもよく、例を挙げると、字幕ファイルには「アップル、メモリ、プロセッサ」を含むと、分析ユニット122は「スマートフォン、iphone」と自動に推論することができる。第2のサーバ120は第1のキーワード文字列を生成した後、更に第1のキーワード文字列を記憶ユニット130の分析データベース132に記憶することができる。他の部分の実施例において、第2のサーバ120は更に分析データベース132に第1の学習データ131aに対応する第1の識別コードを記憶することができ、これによって第1のキーワード文字列が第1の識別コードによって、コースデータベース131における第1の学習データ131aに対応することができる。
一部の実施例において、第1の学習データ131aは時間軸データを更に含み、各第1の学習セクションは時間軸データによって接続されて、第1の学習データ131aを構成する。第1のサーバ110は時間軸データによって、第1の学習データ131aにおける第1の学習セクションを端末装置200に精確的に伝送して、ユーザは直接に精確的な時点から第1の学習データ131aの内容を閲覧することができる。
第1のサーバ110は端末装置200から検索情報を受信する時、第1のサーバ110は検索情報を第2のサーバ120に転送する。第2のサーバ120は分析ユニット122によって検索情報を分析処理して、検索文字列を生成し、例えば、検索情報は「プロジェクターの原理」であり、第2のサーバ120はまず検索情報を句読することができ、更に分析、キャプチャー又は推論によって、検索文字列「プロジェクター、原理」を生成する。
分析ユニット122は開発者がユーザの本当の意図を了解して聞きたい質問の答えを推定するために、ユーザで提出された文字内容を解析して、文字における人、事、物、場所等の情報を抽出する。分析ユニット122は検索情報に対してハイフネーションを行い、且つ単語ベクトル(例えば、word2vec、sentece2vec等の分析モデルにより)を確立し、これによって類似文字を推測する。なお、分析ユニット122はインターネットによって、セマンティックウェブ(ontology)に接続されて、推論することができる。
一部の実施例において、分析ユニット122に自動エンコーダ122a(Auto−encoder)を含む。第2のサーバ120は複数の訓練データを受信して、且つ前記訓練データを自動エンコーダ122aに入力することができ、データ圧縮処理及び次元変換処理によって、セマンティクス分析ネットワーク(Semantic network)122bを確立する。セマンティクス分析ネットワーク122bは第1の学習データ及び検索情報に対してセマンティクス分析を行うことに用いられる。自動エンコーダ122aは深層(ディープ)学習を利用してセマンティクス分析ネットワーク122bを確立することができる。例を挙げると、訓練データは複数のもとの学習データ及び確認された複数のキーワード文字列を含み、自動エンコーダ122aはもとの学習データをセマンティクス分析した後、埋め込みベクトルに変換することができ、且つ確認された前記キーワード文字列によって、対応する重み付けパラメータを生成して、セマンティクス分析ネットワーク122bを確立する。当業者はセマンティクス分析の原理を理解し得るので、ここで繰り返して説明しない。
セマンティクス分析ユニット122は分析によって検索文字列を取得した後、演算ユニット121は検索文字列及び前記第1のキーワード文字列を比較して、且つ検索文字列と一致する第1のキーワード文字列の対応する第1の学習セクションによって、検索リストを生成することに用いられる。例を挙げると、検索文字列「プロジェクター、原理」が第1のキーワード文字列「プロジェクター、画像、原理」に類似であるので、演算ユニット122は、ユーザが参考できるように対応する第1の学習セクションによってそれらを検索リストに含める。図1Aを参照されたい。「第1の学習データ131aの1つの第1の学習セクションの対応する第1のキーワード文字列」及び「第2の学習データ131bの中の1つの第2の学習セクションの対応する第2のキーワード文字列」はすべて検索文字列に類似であると、演算ユニット121は検索リストに同時にこの2つの学習セクションを示し、且つユーザは端末装置200を操作でき、第1のサーバ110で提供されたオンライン学習インターフェースでは対応する学習セクションをクリックして、第1のサーバ110は対応する学習セクションを端末装置200(例えば、あるビデオは15分の時点から放送し始める)に提供する。
これによって、データ検索システム100はそれぞれ第1の学習データ131aの各第1の学習セクションに対してセマンティクス分析を行うことができ、これによって各第1の学習セクションでインデックスのための第1のキーワード文字列を確立し、このため、後続に検索情報を受信した時、データ検索システム100は検索情報と第1のキーワード文字列を比較して、第1の学習データ131aの中の対応する第1の学習セクションを精確的に検索することができ、これによってユーザは見つけたい学習内容を迅速に閲覧し始めることができ、学習効率を大幅に向上させる。なお、データ検索システム100は検索情報と第1のキーワード文字列の分析結果を推薦データベース134に記憶することができ、これによって特定な時刻(例えば、ユーザが1つのビデオを閲覧し終わたか又は問題を提出した時)、検索された第1の学習データ131aによって推薦情報を生成して、且つ端末装置200に伝送する。一部の実施例において、演算ユニット121は更に検索文字列及び第1のキーワード文字列の間の複数の第1の類似度を計算することに用いられる。第1の類似度とは、検索文字列と各第1のキーワード文字列の間の類似度である。例を挙げると、検索文字列は「プロジェクター、原理」であり、第1のキーワード文字列には「プロジェクター」が出現したと、第1の類似度が50%であり、「プロジェクター、原理」がすべて出現すると、第1の類似度が100%である。演算ユニット121は各第1の類似度が閾値(例えば、60%)よりも大きいかどうかを判断して、且つ第1の類似度が閾値よりも大きい第1のキーワード文字列の対応する第1の学習セクションのみを検索リストに含める。
一部の実施例において、データ検索システム100はユーザの動作を記録して「行為記録」とする。行為記録は、ビデオ視聴記録、ビデオマーク記録、メモ製作記録、評価記録、シェア記録、ディスカッションエリア記録、アップロード/編集(ビデオ)記録、ページ切り替え記録を含むが、これらに限定されない。第2のサーバ120はユーザの行為記録を参照して、検索リストにおける学習データを順位付けすることができる。
図1Aに示すように、一部の実施例において、記憶ユニット130に第1の学習データ131a、第2の学習データ131b及び第3の学習データ131cが記憶される。第2の学習データ131bは複数の第2の学習セクションを含み、且つ各第2の学習セクションにそれぞれの第2のキーワード文字列を含み、同様に、第3の学習データ131cは複数の第3の学習セクションを含み、且つ各第3の学習セクションにはそれぞれの第3のキーワード文字列を含む。ユーザは端末装置200によって、第2の学習データの中の1つの第2の学習セクションに対して、操作情報をデータ検索システム100に伝送する時、第1のサーバ110は操作情報を受信することができ、且つ対応する第2のキーワード文字列を記憶ユニット130内の行為データベース133に記憶して、対応する第2のキーワード文字列を1組の行為データと設定する。他の部分の実施例において、演算ユニット121は操作情報を受信した後、第2のキーワード文字列を行為データと記録することができる。図1Bに示すように、ユーザは異なる操作情報を数回送信した後、行為データベース133は複数の対応する行為データ133a〜133cを記録することができる。
演算ユニット121は閾値よりも大きい第1の類似度を選別した後、演算ユニット121は更に行為データベース133における行為データ133a〜133cによって、選別された第1のキーワード文字列(即ち、検索文字列と一致する)と分析計算することができ、行為データ133a〜133c及び第1のキーワード文字列の間の複数の第2の類似度(例えば、比較文句の類似度)を計算する。第2の類似度は行為データ及び各第1のキーワード文字列に対応する。例を挙げると、演算ユニット121はまず検索情報「プロジェクター」と複数の第1のキーワード文字列を比較して、2つの第1のキーワード文字列「プロジェクター、原理」及び「プロジェクター、明瞭度」を選別した後、演算ユニット121は行為データベース133に行為データ「明瞭度」が記憶され、ユーザが過去に「明瞭度」テーマに関する学習データを閲覧したことがあると表し、この時、演算ユニット121は行為データ「明瞭度」と第1のキーワード文字列「プロジェクター、明瞭度」との第2の類似度が高いと判断し、このため、演算ユニット121は検索リストを生成する時、第1のキーワード文字列「プロジェクター、明瞭度」の対応する第1の学習セクションを第1のキーワード文字列「プロジェクター、原理」の対応する第1の学習セクションの前に配列する。
他の部分の実施例において、第1のサーバ110又は第2のサーバ120は第2のキーワード文字列を行為データ133a〜133cとして記録する時、第1のサーバ110又は第2のサーバ120は更に第2のキーワード文字列が行為データベース133に記録された回数によって、それぞれ行為データ133a〜133cに対してそれぞれの重み付け値133d〜133fを記録する。例を挙げると、ユーザが第2の学習データ131bの中の1つの第2の学習セクションを3回閲覧したので、該第2の学習セクションの対応する第2のキーワード文字列が3回記録され、その対応する行為データの重み付け値が大きい(例えば、+3)。演算ユニット121は重み付け値によって、第2の類似度を調整することができる。例を挙げると、演算ユニット121が2つの第1のキーワード文字列と行為データベース133における異なる行為データ133a〜133cを比較した後、得られた2つの第2の類似度がいずれも「40%」であるが、その中の1つの第1のキーワード文字列の対応する行為データ133a〜133cの重み付け値133d〜133fが高いと、演算ユニットは対応する第2の類似度(例えば、+10%)を調整して、該第1のキーワード文字列の対応する第1の学習セクションを検索リストにおける他の第1の学習セクションの前に置く。これによって、検索リストはユーザが過去に閲覧した内容テーマによって、もっと個人的な順位付けと推薦を行う。
前記の操作命令は学習データの視聴記録、ビデオマーク記録(例えば、ユーザがビデオを「重要」とマークする)、メモ、評価、シェア動作、情報等であってよい。一部の実施例において、操作情報によって動作ユニット121が第2の学習データ131bを端末装置200に伝送して、閲覧しやすい。他の部分の実施例において、操作情報によって動作ユニット121がコースデータベース131にコメントデータを書き込む。コメントデータは第2の学習データ131bに対応して、ユーザの学習メモ、評論、評価、シェア、質問、ディスカッションエリア又はコメントであってよい。
一部の実施例において、分析ユニット122は第1の学習データ131aにおけるメタデータ(metadata)によって、第1の学習セクションを識別する。メタデータはデータプロパティ(property)を記述する情報であり、第1の学習データ131aにおけるフィールドデータと見なすことができ、例えば、1つのビデオファイルにおけるタイトル(caption)、キーワード(keywords)、要約(summary)、タグ(tags)、討論(discussion)、返答(reply)等がある。分析ユニット122はメタデータによって第1の学習セクションを識別することができ、更にそれぞれセマンティクス分析を行う。
一部の実施例において、演算ユニット121は更に単語埋め込み技術(word−embedding)を利用して、まず第1の学習データ131aにおけるメタデータにバイナリコーディングを行い、更に第1の学習データ131aを記憶ユニット130に記憶する。
前記のメタデータを利用して学習セクションを識別する方式は、第1の学習データ131aに事前に設定されたフィールドによって、学習セクションを確認する。他の部分の実施例において、演算ユニット121で分析された後、第1の学習データ131aで第1の学習セクションを分割する。例えば、演算ユニット121は第1の学習データ131aで第1のセグメンテーションマークを加えて、複数の第1の学習セクションを分割する。
図2を参照されたい。図2は本開示内容の一部の実施例において、データ検索システム100の動作方式を示す模式図である。データ検索システム100はそれぞれ第1の学習データ131a及び検索情報210を受信するためのものである。データ検索システム100は第1の学習データ131aに対して順次にセグメンテーション処理P01、バイナリコーディングP02を行った後、それをコースデータベース131に記憶して、インデックスを確立する。次に、データ検索システム100は検索情報210を受信した後、まず検索情報に対して分析処理P03(例えば、セマンティクス分析又はメタデータ分析)を行い、更にインデックスが確立された第1の学習データ131a(分析された第1のキーワード文字列を含む)と分析後の検索情報210に比較処理P04を行い、且つ行為データベース133内の行為データにより、検索リスト300を生成する。
次にセグメンテーションマークの生成方式を説明するため、同時に図1A及び図3Aを参照されたい。図3Aは本開示内容の一部の実施例による第1の学習データ131aのテキストファイルを示す模式図である。一部の実施例において、第1の学習データ131aはテキストファイルA1(例えば、字幕)を含む。第2のサーバ120は該第1の学習データ131aを受信した後、テキストファイルA1に対して分析処理を行い、例えば、セマンティクス分析方法で複数の特徴句を生成する。前記特徴句の間に順次関係を有する。次に、隣り合う特徴句の間の類似度を計算して、第1のセグメンテーションマークを生成する。
例を挙げると、テキストファイルA1を分析した後、生成した特徴句は「プロジェクターが画像信号によって発光ユニットを調整する」、「発光ユニットから出射された光線は画像画面として反射される」、「他種のタイプのプロジェクターにおいて」を含む。前記第1の句の特徴句及び第2の句の特徴句はすべて同じ単語「画像、発光」を有し、類似度が比較的高くて、第2の句の特徴句と第3の句の特徴句との類似度が比較的低い。このため、第2のサーバ120は隣り合う特徴句の類似度が所定値よりも低いと判断する時(例えば、完全に同じ単語がない又はその中の1句が回転句であり、例えば「他の実施例において…」)、第2のサーバ120は第1のセグメンテーションマークを生成する。これによってテキストファイルA1を複数の第1の学習セクションA11〜A14に区分する。
前記実施例において、テキストファイルA1はセマンティクス分析技術によって特徴句を生成することができ、且つ特徴句の間の類似度を分析するが、本開示内容はこれに限定されない。一部の実施例において、第2のサーバ120におけるプロセッサはまずテキストファイルA1に対してバイナリ処理を行ってもよく、更にデータ比較によって、類似性を判断し、これによって、特徴句を確立するか又は特徴句の間の類似度を判断する。
前記実施例におけるテキストファイルとはビデオの字幕又はメッセージの文字内容を指し、テキストファイルが「ネットワークフォーラムのディスカッション内容」であると、依然として同じ原理でセグメンテーションすることができる。類似に、第1の学習データ131aはオーディオファイルを含むと、第2のサーバ120はまず語音識別によって、テキストファイルA1を生成した後、更に分析処理し、複数の特徴句を取得する。
他の部分の実施例において、図3Bを参照されたい。第1の学習データ131bは画像ファイルB1を含む。画像ファイルB1は複数の画像画面B01〜B04を更に含む。画像画面B01〜B04はビデオファイルにおける時間順序に従って接続された複数のフレーム画面であってよい。第2のサーバ120は、第1のセグメンテーションマークを生成するように、隣り合う前記画像画面B01〜B04の類似度を判断するためのものである。例を挙げると、画像画面B01〜B02はプロジェクターを表示するための構造図であり、画像画面B03〜B04は光線投影を表示するための経路図である。画像画面B02、B03の間の類似度が比較的低いので、第2のサーバ120は画像画面B02、B03の間に第1のセグメンテーションマークを加えて、複数の第1の学習セクションB11、B12を形成することができる。
図3Aを再び参照されたい。ここで、以下のように分析ユニット122が第1のキーワード文字列を分析する方法を説明する。分析ユニット122は第1の学習データ131aにおけるテキストファイルA1に対して分析処理(例えば、セマンティクス分析)を行い、複数の特徴文字を取得する。次に、第1の学習データ131aが複数の第1の学習セクションA11〜A14又はB11〜B12に分割された後、第2のサーバ120は各第1の学習セクションA11〜A14又はB11〜B12における特徴文字の数を判断し、数が所定値よりも大きい場合、それを第1のキーワード文字列として設定する。例を挙げると、テキストファイルA1の1つの第1の学習セクションA11には「プロジェクターは画像信号によって発光ユニットを調整して、発光ユニットから出射された光線が画像画面として反射される」という内容を含む。分析ユニット122はまず前記テキストファイルを句読して、複数の単語(例えば、プロジェクター、によって、画像信号、調整…等)を選別する。そのうち、「画像」が2回出現し、「発光ユニット」が2回出現し、「プロジェクター、光線」がいずれもそれぞれ1回出現する。分析ユニット122は2回出現した特徴文字「画像、発光ユニット」を第1のキーワード文字列として設定することができる。
同様に、検索文字列を取得するように、分析ユニット122は検索情報を受信した後、まず検索情報内の文字を句読することもできる。又は、分析ユニット122は句読した後で生成した複数の単語によって、出現の回数が所定値よりも大きい単語を検索文字列として設定することができる。
図4を参照されたい。図4は本開示内容の一部の実施例によるデータ検索方法を示す模式図である。データ検索方法は以下のステップS401〜S409を含む。ステップS401において、第1のサーバ110は第1の学習データ131aを受信して、第1の学習データ131aをコースデータベース131に記憶する。第1の学習データ131aは複数の第1の学習セクションを含む。ステップS402において、第2のサーバ120は記憶ユニット130に接続され、且つ分析ユニット122によって、第1の学習データ131aを分析処理して、各第1の学習セクションに対応する第1のキーワード文字列を生成する。一部の実施例において、分析ユニット122はセマンティクス分析技術によって、第1のキーワード文字列を検索する。他の部分の実施例において、メタデータによって第1のキーワード文字列を比較して選別するように、分析ユニットは第1の学習データ131aに対してバイナリ処理を行ってもよい。
ステップS403において、第1のサーバ110は検索情報を受信し、且つ第2のサーバ120でバックエンド演算分析を行う。ステップS404において、分析ユニット122は検索情報に対してセマンティクス分析を行って、検索文字列を検索する。ステップS405において、演算ユニット121は検索文字列及び前記第1のキーワード文字列を比較して、第1の類似度を生成する。
ステップS406において、演算ユニット121は第1の類似度が閾値よりも大きいと判断する時、前記第1のキーワード文字列の対応する前記第1の学習セクションによって、検索リストを生成する。ステップS407において、行為データベース133における行為データ及びステップS406で選別された前記第1のキーワード文字列を比較して、複数の第2の類似度を生成する。ステップS408において、第2の類似度によって、検索リスト内の第1の学習セクションを順位付けする。
前記ステップは第1のデータベース131aで説明したが、他の実施例において、データ検索システム100は複数の学習データ131a〜131cを記憶した。分析ユニット122は各学習データ131a〜131cに対してセマンティクス分析を行って、対応するキーワード文字列を検索することができる。演算ユニット121は検索文字列と各学習データ131a〜131cの中の各キーワード文字列を比較して、検索文字列に対応する学習セクションを見つけることができる。例えば、第1の学習データ131aの1つの第1の学習セクションが検索文字列と最も類似であり、第2の学習データ131bの中の1つの第2の学習セクションも検索文字列に関連され、且つ演算ユニット121はこの2つの学習セクションをすべて検索リストに表示させることができる。
本発明の実施形態を前記の通りに開示したが、これは、本発明を限定するものではなく、当業者なら誰でも、本発明の精神と範囲から逸脱しない限り、多様の変更や修正を加えることができ、したがって、本発明の保護範囲は、後に付いた特許請求の範囲で指定した内容を基準とする。
100 データ検索システム
110 第1のサーバ
120 第2のサーバ
121 演算ユニット
122 分析ユニット
122a 自動エンコーダ
122b セマンティクス分析ネットワーク
123 伝送ユニット
130 記憶ユニット
131 コースデータベース
131a 第1の学習データ
131b 第2の学習データ
131c 第3の学習データ
132 分析データベース
133 行為データベース
133a、133b、133c 行為データ
133d、133e、133f 重み付け値
200 端末装置
A1 テキストファイル
A11、A12、A13、A14、A21、A22 学習セクション
B1 画像ファイル
B01、B02、B03、B04 画像画面
B11、B12 学習セクション
S401〜S408 ステップ

Claims (10)

  1. 複数の第1の学習セクションを含む第1の学習データを受信することと、
    前記第1の学習データを分析して、各第1の学習セクションに対応する複数の第1のキーワード文字列を生成することと、
    検索情報を受信することと、
    前記検索情報を分析して、検索文字列を生成することと、
    前記検索文字列及び前記第1のキーワード文字列を比較することと、
    前記検索文字列と一致する前記第1のキーワード文字列の対応する前記第1の学習セクションによって、検索リストを生成することと、
    を含むデータ検索方法であって、
    操作情報を受信して、前記操作情報が第2の学習データにおける第2の学習セクションに対応し、且つ前記第2の学習セクションが第2のキーワード文字列を含むことと、
    前記操作情報の対応する前記第2のキーワード文字列を行為データベースに記憶して、行為データとして記録することと、
    を更に含む、データ検索方法。
  2. 前記検索文字列及び前記第1のキーワード文字列の間の複数の第1の類似度を計算して、前記第1の類似度がそれぞれ前記検索文字列及び前記第1のキーワード文字列に対応することと、
    前記第1の類似度が閾値よりも大きい前記第1のキーワード文字列の対応する前記第1の学習セクションによって、前記検索リストを生成することと、
    を更に含む請求項1に記載のデータ検索方法。
  3. 前記行為データ及び前記検索文字列と一致する前記第1のキーワード文字列の間の複数の第2の類似度を計算することと、
    前記第2の類似度によって、前記検索リストにおける前記第1の学習セクションを順位付けすることと、
    を更に含む請求項に記載のデータ検索方法。
  4. 前記第2のキーワード文字列が前記行為データベースに記憶された回数によって、前記行為データの重み付け値を設定することと、
    前記重み付け値によって、前記第2の類似度を調整することと、
    を更に含む請求項に記載のデータ検索方法。
  5. 前記操作情報は前記第2の学習データを端末装置に伝送することに用いられる請求項1、3、4のいずれか一項に記載のデータ検索方法。
  6. 前記操作情報はコースデータベースにコメントデータを書き込むことに用いられ、前記コメントデータが前記第2の学習データに対応する請求項1、3のいずれか一項に記載のデータ検索方法。
  7. 複数の訓練データを受信することと、
    前記訓練データを自動エンコーダに入力して、且つデータ圧縮処理及び次元変換処理によって、セマンティクス分析ネットワークを確立することと、
    前記セマンティクス分析ネットワークを利用して、前記第1の学習データ及び前記検索情報に対してセマンティクス分析を行うことと、
    を更に含む請求項1〜のいずれか一項に記載のデータ検索方法。
  8. 前記第1の学習データを受信した後、前記第1の学習データにおけるメタデータによって、前記第1の学習セクションを識別する請求項1〜のいずれか一項に記載のデータ検索方法。
  9. 単語埋め込み技術を利用して、前記第1の学習データにおけるメタデータをバイナリコーディングすることを更に含む請求項に記載のデータ検索方法。
  10. 複数の第1の学習セクションを含む第1の学習データを記憶するための記憶ユニットと、
    前記第1の学習データによって各第1の学習セクションに対応する複数の第1のキーワード文字列を生成して、更に検索情報によって検索文字列を生成する分析ユニットと、
    前記分析ユニットに電気的に接続されて、前記検索文字列及び前記第1のキーワード文字列を比較し、且つ前記検索文字列と一致する前記第1のキーワード文字列の対応する前記第1の学習セクションによって、検索リストを生成するための演算ユニットと、
    を備え
    前記記憶ユニットは、第2の学習データを更に記憶し、前記第2の学習データは第2の学習セクションを含み、前記第2の学習セクションは第2のキーワード文字列を含み、
    操作情報を受信した後、前記演算ユニットは、前記操作情報の対応する前記第2のキーワード文字列を行為データベースに記憶して、行為データとして記録する、データ検索システム。
JP2019090932A 2018-09-07 2019-05-13 データ検索方法及びそのデータ検索システム Active JP6829740B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201862728082P 2018-09-07 2018-09-07
US62/728,082 2018-09-07
CN201910104937.6A CN110888896B (zh) 2018-09-07 2019-02-01 数据搜寻方法及其数据搜寻系统
CN201910104937.6 2019-02-01

Publications (2)

Publication Number Publication Date
JP2020042770A JP2020042770A (ja) 2020-03-19
JP6829740B2 true JP6829740B2 (ja) 2021-02-10

Family

ID=69745778

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2019090932A Active JP6829740B2 (ja) 2018-09-07 2019-05-13 データ検索方法及びそのデータ検索システム
JP2019091400A Pending JP2020042771A (ja) 2018-09-07 2019-05-14 データ分析方法及びデータ分析システム
JP2019124400A Pending JP2020042777A (ja) 2018-09-07 2019-07-03 マルチメディアデータ推薦システム及びマルチメディアデータ推薦方法

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2019091400A Pending JP2020042771A (ja) 2018-09-07 2019-05-14 データ分析方法及びデータ分析システム
JP2019124400A Pending JP2020042777A (ja) 2018-09-07 2019-07-03 マルチメディアデータ推薦システム及びマルチメディアデータ推薦方法

Country Status (4)

Country Link
JP (3) JP6829740B2 (ja)
CN (5) CN110888896B (ja)
SG (5) SG10201905236WA (ja)
TW (5) TWI699663B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI756703B (zh) * 2020-06-03 2022-03-01 南開科技大學 數位學習系統及其方法
CN117351794B (zh) * 2023-10-13 2024-06-04 浙江上国教育科技有限公司 基于云平台的在线课程管理系统

Family Cites Families (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07311539A (ja) * 1994-05-17 1995-11-28 Hitachi Ltd 教材編集支援システム
KR100250540B1 (ko) * 1996-08-13 2000-04-01 김광수 캡션 비디오 cd 재생장치를 이용한 외국어 받아쓰기 학습방법
JP2002041823A (ja) * 2000-07-27 2002-02-08 Nippon Telegr & Teleph Corp <Ntt> 情報配信装置、情報受信装置及び情報配信システム
JP3685733B2 (ja) * 2001-04-11 2005-08-24 株式会社ジェイ・フィット マルチメディアデータ検索装置、マルチメディアデータ検索方法およびマルチメディアデータ検索プログラム
JP2002341735A (ja) * 2001-05-16 2002-11-29 Alice Factory:Kk ブロードバンド・ディジタル・ラーニング・システム
CN1432932A (zh) * 2002-01-16 2003-07-30 陈雯瑄 英文测验及成绩评估方法及系统
TW200411462A (en) * 2002-12-20 2004-07-01 Hsiao-Lien Wang A method for matching information exchange on network
EP1616275A1 (en) * 2003-04-14 2006-01-18 Koninklijke Philips Electronics N.V. Method and apparatus for summarizing a music video using content analysis
JP4471737B2 (ja) * 2003-10-06 2010-06-02 日本電信電話株式会社 グループ化条件決定装置と方法およびそれを用いたキーワード拡張装置と方法ならびにコンテンツ検索システムおよびコンテンツ情報提供システムと方法ならびにプログラム
JP4426894B2 (ja) * 2004-04-15 2010-03-03 株式会社日立製作所 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP2005321662A (ja) * 2004-05-10 2005-11-17 Fuji Xerox Co Ltd 学習支援装置および方法
JP2006003670A (ja) * 2004-06-18 2006-01-05 Hitachi Ltd 教育コンテンツ提供システム
KR20070116945A (ko) * 2005-03-31 2007-12-11 코닌클리케 필립스 일렉트로닉스 엔.브이. 이전 시험에 기초한 강의 추가
US9058406B2 (en) * 2005-09-14 2015-06-16 Millennial Media, Inc. Management of multiple advertising inventories using a monetization platform
WO2008023470A1 (fr) * 2006-08-21 2008-02-28 Kyoto University Procédé de recherche de phrase, moteur de recherche de phrase, programme informatique, support d'enregistrement et stockage de document
TW200825900A (en) * 2006-12-13 2008-06-16 Inst Information Industry System and method for generating wiki by sectional time of handout and recording medium thereof
JP5010292B2 (ja) * 2007-01-18 2012-08-29 株式会社東芝 映像属性情報出力装置、映像要約装置、プログラムおよび映像属性情報出力方法
JP5158766B2 (ja) * 2007-10-23 2013-03-06 シャープ株式会社 コンテンツ選択装置、テレビジョン、コンテンツ選択プログラム及び記憶媒体
TW200923860A (en) * 2007-11-19 2009-06-01 Univ Nat Taiwan Science Tech Interactive learning system
CN101382937B (zh) * 2008-07-01 2011-03-30 深圳先进技术研究院 基于语音识别的多媒体资源处理方法及其在线教学系统
US8140544B2 (en) * 2008-09-03 2012-03-20 International Business Machines Corporation Interactive digital video library
CN101453649B (zh) * 2008-12-30 2011-01-05 浙江大学 压缩域视频流的关键帧提取方法
JP5366632B2 (ja) * 2009-04-21 2013-12-11 エヌ・ティ・ティ・コミュニケーションズ株式会社 検索サポートキーワード提示装置、方法及びプログラム
JP5493515B2 (ja) * 2009-07-03 2014-05-14 富士通株式会社 携帯端末装置、情報検索方法および情報検索プログラム
EP2524362A1 (en) * 2010-01-15 2012-11-21 Apollo Group, Inc. Dynamically recommending learning content
JP2012038239A (ja) * 2010-08-11 2012-02-23 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
US8839110B2 (en) * 2011-02-16 2014-09-16 Apple Inc. Rate conform operation for a media-editing application
CN102222227B (zh) * 2011-04-25 2013-07-31 中国华录集团有限公司 基于视频识别与提取影片图像的系统
CN102348049B (zh) * 2011-09-16 2013-09-18 央视国际网络有限公司 检测视频片断切点位置的方法及装置
CN102509007A (zh) * 2011-11-01 2012-06-20 北京瑞信在线系统技术有限公司 多媒体教学评估方法及系统、装置以及多媒体教学系统
JP5216922B1 (ja) * 2012-01-06 2013-06-19 Flens株式会社 学習支援サーバ、学習支援システム、及び学習支援プログラム
US9846696B2 (en) * 2012-02-29 2017-12-19 Telefonaktiebolaget Lm Ericsson (Publ) Apparatus and methods for indexing multimedia content
US20130263166A1 (en) * 2012-03-27 2013-10-03 Bluefin Labs, Inc. Social Networking System Targeted Message Synchronization
US9058385B2 (en) * 2012-06-26 2015-06-16 Aol Inc. Systems and methods for identifying electronic content using video graphs
TWI513286B (zh) * 2012-08-28 2015-12-11 Ind Tech Res Inst 影片續播方法及系統
CN102937972B (zh) * 2012-10-15 2016-06-22 上海外教社信息技术有限公司 一种视听字幕制作系统及方法
WO2014100893A1 (en) * 2012-12-28 2014-07-03 Jérémie Salvatore De Villiers System and method for the automated customization of audio and video media
JP6205767B2 (ja) * 2013-03-13 2017-10-04 カシオ計算機株式会社 学習支援装置、学習支援方法、学習支援プログラム、学習支援システム、およびサーバ装置
TWI549498B (zh) * 2013-06-24 2016-09-11 wu-xiong Chen Variable audio and video playback method
CN104572716A (zh) * 2013-10-18 2015-04-29 英业达科技有限公司 影音文件播放的系统及其方法
KR101537370B1 (ko) * 2013-11-06 2015-07-16 주식회사 시스트란인터내셔널 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법
US20150206441A1 (en) * 2014-01-18 2015-07-23 Invent.ly LLC Personalized online learning management system and method
CN104123332B (zh) * 2014-01-24 2018-11-09 腾讯科技(深圳)有限公司 搜索结果的显示方法及装置
US9892194B2 (en) * 2014-04-04 2018-02-13 Fujitsu Limited Topic identification in lecture videos
US20150293995A1 (en) * 2014-04-14 2015-10-15 David Mo Chen Systems and Methods for Performing Multi-Modal Video Search
JP6334431B2 (ja) * 2015-02-18 2018-05-30 株式会社日立製作所 データ分析装置、データ分析方法、およびデータ分析プログラム
US20160239155A1 (en) * 2015-02-18 2016-08-18 Google Inc. Adaptive media
CN105047203B (zh) * 2015-05-25 2019-09-10 广州酷狗计算机科技有限公司 一种音频处理方法、装置及终端
CN104978961B (zh) * 2015-05-25 2019-10-15 广州酷狗计算机科技有限公司 一种音频处理方法、装置及终端
TWI571756B (zh) * 2015-12-11 2017-02-21 財團法人工業技術研究院 用以分析瀏覽記錄及其文件之方法及其系統
CN105978800A (zh) * 2016-07-04 2016-09-28 广东小天才科技有限公司 一种向移动终端推送题目的方法、系统和服务器
CN106202453B (zh) * 2016-07-13 2020-08-04 网易(杭州)网络有限公司 一种多媒体资源推荐方法和装置
CN106231399A (zh) * 2016-08-01 2016-12-14 乐视控股(北京)有限公司 视频分割方法、设备以及系统
CN106331893B (zh) * 2016-08-31 2019-09-03 科大讯飞股份有限公司 实时字幕显示方法及系统
CN108122437A (zh) * 2016-11-28 2018-06-05 北大方正集团有限公司 自适应学习方法及装置
CN107256262B (zh) * 2017-06-13 2020-04-14 西安电子科技大学 一种基于物体检测的图像检索方法
CN107623860A (zh) * 2017-08-09 2018-01-23 北京奇艺世纪科技有限公司 多媒体数据分割方法和装置

Also Published As

Publication number Publication date
SG10201905236WA (en) 2020-04-29
CN110891202B (zh) 2022-03-25
TW202011232A (zh) 2020-03-16
SG10201906347QA (en) 2020-04-29
JP2020042777A (ja) 2020-03-19
TW202011749A (zh) 2020-03-16
SG10201907250TA (en) 2020-04-29
SG10201905532QA (en) 2020-04-29
CN110888994A (zh) 2020-03-17
SG10201905523TA (en) 2020-04-29
TWI725375B (zh) 2021-04-21
CN110889034A (zh) 2020-03-17
TW202011221A (zh) 2020-03-16
CN110888896B (zh) 2023-09-05
CN110888896A (zh) 2020-03-17
TW202011222A (zh) 2020-03-16
TWI696386B (zh) 2020-06-11
JP2020042771A (ja) 2020-03-19
TWI709905B (zh) 2020-11-11
TWI699663B (zh) 2020-07-21
CN110891202A (zh) 2020-03-17
CN110895654A (zh) 2020-03-20
TW202011231A (zh) 2020-03-16
TWI700597B (zh) 2020-08-01
JP2020042770A (ja) 2020-03-19

Similar Documents

Publication Publication Date Title
US9734261B2 (en) Context aware query selection
US20190294668A1 (en) Methods and systems for generating contextual data elements for effective consumption of multimedia
US9923860B2 (en) Annotating content with contextually relevant comments
CN112163122B (zh) 确定目标视频的标签的方法、装置、计算设备及存储介质
JP5192475B2 (ja) オブジェクト分類方法およびオブジェクト分類システム
WO2017005054A1 (zh) 视频推荐方法、服务器和存储介质
US11580181B1 (en) Query modification based on non-textual resource context
US10621187B2 (en) Methods, systems, and media for providing a media search engine
CN111274442B (zh) 确定视频标签的方法、服务器及存储介质
JP2019507417A (ja) 多変数検索のためのユーザインターフェース
TW201514845A (zh) 從網頁擷取標題及主體
US20140379719A1 (en) System and method for tagging and searching documents
US20160217171A1 (en) Methods, computer program, computer program product and indexing systems for indexing or updating index
US11126682B1 (en) Hyperlink based multimedia processing
CN113806588B (zh) 搜索视频的方法和装置
US20210151038A1 (en) Methods and systems for automatic generation and convergence of keywords and/or keyphrases from a media
JP6829740B2 (ja) データ検索方法及びそのデータ検索システム
US20190082236A1 (en) Determining Representative Content to be Used in Representing a Video
US11386163B2 (en) Data search method and data search system thereof for generating and comparing strings
CN114845149B (zh) 视频片段的剪辑方法、视频推荐方法、装置、设备及介质
US11409804B2 (en) Data analysis method and data analysis system thereof for searching learning sections
CN116483946A (zh) 数据处理方法、装置、设备及计算机程序产品
CN116662607A (zh) 信息显示方法、信息生成方法、装置、设备及存储介质
CN116578725A (zh) 一种搜索结果排序方法、装置、计算机设备和存储介质
CN117835004A (zh) 用于生成视频看点的方法、装置及计算机可读介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190513

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210122

R150 Certificate of patent or registration of utility model

Ref document number: 6829740

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250