CN110888896B - 数据搜寻方法及其数据搜寻系统 - Google Patents

数据搜寻方法及其数据搜寻系统 Download PDF

Info

Publication number
CN110888896B
CN110888896B CN201910104937.6A CN201910104937A CN110888896B CN 110888896 B CN110888896 B CN 110888896B CN 201910104937 A CN201910104937 A CN 201910104937A CN 110888896 B CN110888896 B CN 110888896B
Authority
CN
China
Prior art keywords
learning
data
search
string
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910104937.6A
Other languages
English (en)
Other versions
CN110888896A (zh
Inventor
詹诗涵
柯兆轩
蓝国诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Delta Electronics Inc
Original Assignee
Delta Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Delta Electronics Inc filed Critical Delta Electronics Inc
Priority to JP2019090932A priority Critical patent/JP6829740B2/ja
Priority to SG10201905532QA priority patent/SG10201905532QA/en
Priority to EP19188646.4A priority patent/EP3621021A1/en
Priority to US16/529,820 priority patent/US11386163B2/en
Publication of CN110888896A publication Critical patent/CN110888896A/zh
Application granted granted Critical
Publication of CN110888896B publication Critical patent/CN110888896B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • G06F16/437Administration of user profiles, e.g. generation, initialisation, adaptation, distribution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开内容是关于一种数据搜寻方法及其数据搜寻系统。该数据搜寻方法包含下列步骤:接收第一学习资料。第一学习资料包含多个第一学习区段。对第一学习资料进行分析,以产生对应于每个第一学习区段的第一关键字串。接着,接收搜寻信息,并对搜寻信息进行分析,以产生搜寻字串。比对搜寻字串及第一关键字串,并根据与搜寻字串相符的第一关键字串所对应的第一学习区段,产生搜寻清单。

Description

数据搜寻方法及其数据搜寻系统
技术领域
本公开内容关于一种数据搜寻方法及其数据搜寻系统,特别是一种能根据搜寻信息在数据库中找到对应的学习资料的技术。
背景技术
线上学习平台是指一种将众多学习资料存储于伺服器中,让使用者能通过网际网络(互联网)连线至伺服器,以随时浏览学习资料的网络服务。在现行的各类线上学习平台中,提供的学习资料类型包含影片、音频、简报、文件或论坛。
由于线上学习平台中存储的学习资料数量庞大,使用者需要根据自身需求输入搜寻信息,方能从线上学习平台中调阅到相关的学习资料。因此,线上学习平台的搜寻机制是否能精准辨识出使用者的搜寻信息,且快速而正确地提供对应的学习资料给使用者,将是决定线上学习平台的服务效能的一大关键指标。
发明内容
本公开内容的一方面为一种数据搜寻(搜索)方法。该数据搜寻方法包含下列步骤:接收第一学习资料,其中第一学习资料包含多个第一学习区段。对第一学习资料进行分析,以产生对应于每一第一学习区段的多个第一关键字串。接收搜寻信息。对搜寻信息进行分析,以产生搜寻字串。比对搜寻字串及第一关键字串。根据与搜寻字串相符的所述多个第一关键字串所对应的所述多个第一学习区段,产生搜寻清单。
本公开内容的另一方面为一种数据搜寻(搜索)系统。该数据搜寻系统包含存储单元、分析单元及运算单元。存储单元用以存储第一学习资料,其中第一学习资料包含多个第一学习区段。分析单元用以根据第一学习资料产生对应于每一第一学习区段的多个第一关键字串。分析单元还用以分析搜寻信息,以产生搜寻字串。运算单元电性连接于分析单元。运算单元用以比对搜寻字串及所述多个第一关键字串,且根据与搜寻字串相符的所述多个第一关键字串所对应的所述多个第一学习区段,产生搜寻清单。
据此,由于数据搜寻系统能分别对第一学习资料的各第一学习区段进行分析,以在各第一学习区段上建立供索引的第一关键字串,因此,后续接收到搜寻信息时,数据搜寻系统将能通过比对搜寻信息与第一关键字串,而精确地搜寻出第一学习资料所对应的第一学习区段,让使用者能快速地开始浏览想查找的学习内容,大幅提升学习效率。
附图说明
图1A为根据本公开内容的部分实施例所绘示的数据搜寻系统的示意图。
图1B为根据本公开内容的部分实施例所绘示的第一伺服器及行为数据库示意图。
图2为根据本公开内容的部分实施例所绘示的数据搜寻系统的运作方式示意图。
图3A为根据本公开内容的部分实施例所绘示的第一学习资料的文字文件示意图。
图3B为根据本公开内容的部分实施例所绘示的第一学习资料的影像画面示意图。
图4为根据本公开内容的部分实施例所绘示的数据搜寻方法的示意图。
【附图标记说明】
100 数据搜寻系统
110 第一伺服器
120 第二伺服器
121 运算单元
122 分析单元
122a 自动编码器
122b 语意分析网络
123 传输单元
130 存储单元
131 课程数据库
131a 第一学习资料
131b 第二学习资料
131c 第三学习资料
132 分析数据库
133 行为数据库
133a 行为数据
133b 行为数据
133c 行为数据
133d 权重值
133e 权重值
133f 权重值
200 终端装置
A1 文字文件
A11 学习区段
A12 学习区段
A13 学习区段
A14 学习区段
A21 学习区段
A22 学习区段
B1 影像文件
B01 影像画面
B02 影像画面
B03 影像画面
B04 影像画面
B11 学习区段
B12 学习区段
S401~S408 步骤
具体实施方式
以下将参照图示披露本申请的多个实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本申请。也就是说,在本公开内容部分实施方式中,这些实务上的细节是非必要的。此外,为简化图示起见,一些公知惯用的结构与元件在图示中将以简单示意的方式被绘示。
于本文中,当一元件被称为“连接”或“耦接”时,可指“电性连接”或“电性耦接”。“连接”或“耦接”亦可用以表示两个或多个元件间相互搭配操作或互动。此外,虽然本文中使用“第一”、“第二”、…等用语描述不同元件,该用语仅是用以区别以相同技术用语描述的元件或操作。除非上下文清楚指明,否则该用语并非特别指称或暗示次序或顺位,亦非用以限定本发明。
现有的线上学习平台中,当使用者输入搜寻信息(搜索信息)时,伺服器仅会将搜寻信息与学习资料的文件名称进行比对,以筛选出相似的学习资料。然而,若学习资料的内容庞大(例如:片长为两小时的影片),则使用者仍然需要手动调整学习资料(如:调整播放时间至第45分钟),方能找出与自身需求最相关的区段。此外,若搜寻信息过于口语化,则现有的线上学习平台亦可能会因为无法辨识搜寻信息,而搜寻出毫无关连的学习资料。亦即,现有线上学习平台的搜寻机制并根据需求进行精细检索。本公开内容提供的数据搜寻系统及其方法将能改善此一现象。
请参阅图1A及图1B所示,本公开内容是关于一种数据搜寻系统100。数据搜寻系统100包含第一伺服器110、第二伺服器120及存储单元130。第一伺服器110电性连接于第二伺服器120,而在其他实施例中,第一伺服器110及第二伺服器120间能通过网络建立连线,以进行数据传输。存储单元130为一种数据存储装置,例如:快闪存储装置、存储卡、硬盘等。在部分实施例中,存储单元130存储于独立的伺服器中。在其他部分实施例中,存储单元130可设于第一伺服器110或第二伺服器120中。在其他实施例中,第一伺服器110与第二伺服器120亦可整合为单一个伺服器。
在本实施例中,数据搜寻系统100是用以提供线上学习服务,例如:使用者可通过终端装置200连线至第一伺服器110,以浏览线上学习界面。当使用者欲浏览学习内容时,第一伺服器110能由存储单元130中取得对应的文件。第二伺服器120则用以执行分类、管理与统计等功能。然而,本公开内容的应用方式并不以此为限,数据搜寻系统100亦可应用于影音串流平台或网络讨论论坛等。
第一伺服器110用以接收数个学习资料。在部分实施例中,第一伺服器110是通过网际网络,由终端装置200接收学习资料。学习资料可为影片、声音、简报或讨论串。为便于说明,在本实施例中以将多个学习资料细分为第一学习资料131a、第二学习资料131b及第三学习资料131c进行说明。然而,本公开内容并不以此为限,学习资料的数量可任意调整。
在部分实施例中,当第一伺服器110接收第一学习资料131a后,第一伺服器110将第一学习资料131a上传至存储单元130的课程数据库131中,第一学习资料131a中包含多个第一学习区段。这些第一学习区段依照时间顺序(例如:第一学习资料131a中预设的时间轴)相互衔接(或排列)。例如:若第一学习资料131a为片长30分钟的影片文件,则第一学习资料131a可包含两个第一学习区段,每个学习区段分别对应于15分钟的片长。
如图1B所示,第二伺服器120包含运算单元121、分析单元122及传输单元123。运算单元121电性连接于分析单元122及传输单元123。第二伺服器120通过传输单元123与第一伺服器110与存储单元130进行数据传输。第二伺服器120能根据第一伺服器110传来的分析信息,由存储单元130取得第一学习资料131a,并进行分析处理,以根据第一学习资料131a产生对应于每一个第一学习区段的多个第一关键字串(keyword string)。
举例而言,第一学习资料131a为影片文件,且包含字幕文件。分析单元122能针对字幕文件中的文字,以语意分析技术(Natural Language Processing)建立出语意相关字串(或称推论字串)。以产生对应于每个第一学习区段的第一关键字串,例如:“投影器、影像、原理”、“高频信号、锐化、增强”及“提升、清晰度”。在部分实施例中,语意相关字串可为字幕文件内的原文,亦可为推论出的字词,举例而言,若字幕文件中包含“苹果、记忆体、处理器”,则分析单元122可自动推论出“智能手机、iphone”。当第二伺服器120产生第一关键字串后,第二伺服器120还能将第一关键字串存储于存储单元130的分析数据库132中。在其他部分实施例中,第二伺服器120还会在分析数据库132中存储对应于第一学习资料131a的第一辨识代码,使第一关键字串能根据第一辨识代码,对应到课程数据库131中的第一学习资料131a。
在部分实施例中,第一学习资料131a还包含时间轴数据,每个第一学习区段根据时间轴数据相衔接,以组成第一学习资料131a。第一伺服器110可根据时间轴数据,正确地将第一学习资料131a中的第一学习区段传送至终端装置200,让使用者能直接从正确的时间点开始浏览第一学习资料131a的内容。
在第一伺服器110由终端装置200处接收搜寻信息时,第一伺服器110将搜寻信息转传至第二伺服器120。第二伺服器120通过分析单元122对搜寻信息进行分析处理,以产生搜寻字串,例如:搜寻信息为“投影器的原理”,第二伺服器120能先对搜寻信息进行断句,以通过分析、撷取或推论,产生搜寻字串“投影器、原理”。
分析单元122用以解析使用者提交的文字内容,并提取文字中的人、事、物、地点等信息,让开发者能够了解使用者真正意图并推估出欲询问的问题答案。分析单元122可对搜寻信息进行断词,并建立词向量(例如:通过word2vec、sentece2vec等分析模型),以推测出相似字。此外,分析单元122可通过网际网络,连线至语义网(ontology),以进行推论。
在部分实施例中,分析单元122内包含自动编码器122a(Auto-encoder)。第二伺服器120可接收多个训练数据,并将这些训练数据输入自动编码器器122a中,以通过数据压缩处理及维度转换处理,建立语意分析网络(Semantic network)122b。语意分析网络122b用以对第一学习资料及搜寻信息进行语意分析。自动编码器122a可利用深度学习建立语意分析网络122b。举例而言,训练数据包含多个原始的学习资料以及已被确认的多个关键字串,自动编码器122a能将原始的学习资料经语意分析后,转换为嵌入向量,并根据已被确认的这些关键字串,产生对应的加权参数,以建立语意分析网络122b。由于本领域人士可理解语意分析的原理,在此不另赘述。
在语意分析单元122分析取得搜寻字串后,运算单元121用以比对搜寻字串及这些第一关键字串,并根据与搜寻字串相符的第一关键字串所对应的第一学习区段,产生搜寻清单。举例而言,搜寻字串“投影器、原理”与第一关键字串“投影器、影像、原理”相似,因此,运算单元122会将根据对应的第一学习区段列于搜寻清单上,以供使用者参考。请参阅图1A所示,若“第一学习资料131a的其中一个第一学习区段对应的第一关键字串”及“第二学习资料131b的其中一个第二学习区段对应的第二关键字串”皆与搜寻字串相似,则运算单元121将在搜寻清单上同时列出这两个学习区段,且使用者可操作终端装置200,于第一伺服器110提供的线上学习界面上点击对应的学习区段,第一伺服器110即会提供对应的学习区段给终端装置200(例如:某部影片从第15分钟的时间点开始播放)。
据此,由于数据搜寻系统100能分别对第一学习资料131a的各第一学习区段进行语意分析,以在各第一学习区段上建立供索引的第一关键字串,因此,后续接收到搜寻信息时,数据搜寻系统100将能比对搜寻信息与第一关键字串,而精确地搜寻出第一学习资料131a中所对应的第一学习区段,让使用者能快速地开始浏览想查找的学习内容,大幅提升学习效率。此外,数据搜寻系统100亦能将搜寻信息与第一关键字串的分析结果存于推荐数据库134中,以在特定时刻(如:使用者浏览完一部影片或提出问题时),根据搜寻出的第一学习数据131a产生推荐信息,并传递给终端装置200。在部分实施例中,运算单元121还用以计算搜寻字串及第一关键字串之间的多个第一相似度。第一相似度即为搜寻字串与每个第一关键字串之间的匹配度。举例而言,若搜寻字串为“投影机、原理”,第一关键字串中出现了“投影机”,则第一相似度为50%,若“投影机、原理”皆出现,则第一相似度为100%。运算单元121能判断每个第一相似度是否大于门槛值(如:60%)?并只将第一相似度大于门槛值的第一关键字串所对应的第一学习区段列在搜寻清单上。
在部分实施例中,数据搜寻系统100会将使用者的动作记录下来作为“行为纪录”。行为纪录包含但不限于:影片观看纪录、影片标记纪录、制作笔记纪录、评分纪录、分享纪录、讨论区纪录、上传/编辑(影片)纪录、切换页纪录。第二伺服器120可参照使用者的行为记录,来排序搜寻清单中的学习资料。
如图1A所示,在部分实施例中,存储单元130内存储有第一学习资料131a、第二学习资料131b及第三学习资料131c。第二学习资料131b包含多个第二学习区段,且每个第二学习区段中包含各自的第二关键字串;同理,第三学习资料131c包含多个第三学习区段,且每个第三学习区段中包含各自的第三关键字串。当使用者通过终端装置200,针对第二学习资料中的其中一个第二学习区段,传送操作信息至数据搜寻系统100时,第一伺服器110能接收操作信息,且将对应的第二关键字串存储到存储单元130内的行为数据库133中,以将对应的第二关键字串设定为一笔行为数据。在其他部分实施例中,运算单元121能在接收到操作信息后,将第二关键字串记录为行为数据。如图1B所示,当使用者在多次发出不同的操作信息后,行为数据库133即会记录多笔对应的行为数据133a~133c。
在运算单元121筛选出大于门槛值的第一相似度后,运算单元121还能根据行为数据库133中的行为数据133a~133c,与筛选出的第一关键字串(即,与搜寻字串相符)进行分析计算,计算行为数据133a~133c以及第一关键字串间的多个第二相似度(如:比对文句的相似程度)。第二相似度对应于行为数据及每一个第一关键字串。举例而言,运算单元121先比对搜寻信息“投影器”与多个第一关键字串,筛选出两个第一关键字串“投影器、原理”及“投影器、清晰度”后,运算单元121判断行为数据库133中存储有行为数据“清晰度”,代表使用者过去曾浏览过关于“清晰度”主题的学习资料,此时,运算单元121判断行为数据“清晰度”与第一关键字串“投影器、清晰度”的第二相似度较高,因此,运算单元121在产生搜寻清单时,会把第一关键字串“投影器、清晰度”所对应的第一学习区段排列在第一关键字串“投影器、原理”所对应的第一学习区段之前。
在其他部分实施例中,当第一伺服器110或第二伺服器120将第二关键字串记录为行为数据133a~133c时,第一伺服器110或第二伺服器120还会根据第二关键字串被记录至行为数据库133中的次数,分别针对行为数据133a~133c记录各自的权重值133d~133f。举例而言,使用者曾浏览过第二学习资料131b的其中一个第二学习区段三次,因此,该第二学习区段对应的第二关键字串将被记录三次,而其对应的行为数据的权重值将较大(如:+3)。运算单元121可根据权重值,来调整第二相似度。举例而言,若运算单元121将两个第一关键字串与行为数据库133中不同的行为数据133a~133c比对后,得到的两个第二相似度皆为“40%”,但其中一个第一关键字串对应的行为数据133a~133c的加权值133d~133f较高,则运算单元会将调整对应的第二相似度(例如:+10%),以将该第一关键字串对应的第一学习区段放在搜寻清单中另一个第一学习区段之前。据此,搜寻清单即可根据使用者过去浏览过的内容题材,进行更个人化的排序与推荐。
前述的操作指令可为学习资料的观看记录、影片标记记录(如:使用者标记影片为“重要”)、笔记、评分、分享动作、留言等。在部分实施例中,操作信息使运作单元121将第二学习资料131b传送至终端装置200,以便浏览。在其他部分实施例中,操作信息使运作单元121在课程数据库131中写入注解数据。注解数据对应于第二学习资料131b,可为使用者的学习笔记、评论、评分、分享、发问、讨论区或者注解。
在部分实施例中,分析单元122根据第一学习资料131a中的元数据(metadata),辨识出第一学习区段。元数据是用于描述数据属性(property)的信息,可视为第一学习资料131a中的字段数据,例如:一部影片文件中的标题(caption)、关键字(keywords)、摘要(summary)、标签(tags)、讨论(discussion)、回应(reply)等。分析单元122可根据元数据辨识出第一学习区段,再加以分别进行语意分析。
在部分实施例中,运算单元121还能利用词嵌入技术(word-embedding),先将第一学习资料131a中的元数据进行二位化(二进制)编码,再将第一学习资料131a存储至存储单元130中。
前述利用元数据辨识学习区段的方式,是根据第一学习资料131a中事先设定好的字段,确认学习区段。在其他部分实施例中,亦可由运算单元121分析后,在第一学习资料131a上划分出第一学习区段。例如:运算单元121可在第一学习资料131a中加入第一分段标记,以划分出多个第一学习区段。
请参阅图2,其为本公开内容的部分实施例中,数据搜寻系统100的运作方式示意图。数据搜寻系统100分别用以接收第一学习资料131a及搜寻信息210。数据搜寻系统100会对第一学习资料131a依序进行分段处理P01、二位化编码P02后,将其存储至课程数据库131中,以建立索引。接着,当数据搜寻系统100接收到搜寻信息210后,先对搜寻信息进行分析处理P03(如:语意分析或元数据分析),再将已建立索引的第一学习资料131a(包含分析出的第一关键字串)与分析后的搜寻信息210进行比对处理P04,并根据行为数据库133内的行为数据,产生搜寻清单300。
接下来说明分段标记的产生方式,请同时参阅图1A及图3A,图3A为根据本公开内容的部分实施例所绘示的第一学习资料131a的文字文件示意图。在部分实施例中,第一学习资料131a包含文字文件A1(例如:字幕)。第二伺服器120接收到该第一学习资料131a后,将对文字文件A1进行分析处理,例如:以语意分析方法以产生多个特征句。这些特征句之间具有先后关系。接着,判断相邻的特征句之间的相似度,以产生第一分段标记。
举例而言,文字文件A1经分析后,产生的特征句包含“投影机根据影像信号调整发光单元”、“发光单元投射出的光线会被反射为影像画面”、“在另一种类型的投影机中”。前述第一句特征句及第二句特征句皆具有相同的字词“影像、发光”,相似度较高,而第二句特征句与第三句特征句的相似度则较低。因此,当第二伺服器120判断相邻的特征句相似度低于预定值时(如:完全没有相同字词,或者其中一句为转折语句,例如“在其他实施例中…”),第二伺服器120即会产生第一分段标记。以将文字文件A1区分为多个第一学习区段A11~A14。
在前述实施例中,文字文件A1可经由语意分析技术产生特征句,且分析特征句之间的相似度,但本公开内容并不以此为限。在部分实施例中,第二伺服器120中的处理器亦可先将文字文件A1进行二位化(二进制)处理,再通过数据比对,判断相似性,以建立特征句或判断特征句之间的相似度。
前述实施例中的文字文件是指影片的字幕或简报的文字内容,而若是文字文件为“网络论坛的讨论内容”,则仍能以相同原理进行分段。相似地,若第一学习资料131a包含声音文件,则第二伺服器120可先通过语音辨识,产生文字文件A1后,再进行分析处理,以取得多个特征句。
在其他部分实施例中,请参阅图3B所示,第一学习资料131b包含影像文件B1。影像文件B1又包含多个影像画面B01~B04。影像画面B01~B04可为影片文件中依照时序衔接的多个帧画面。第二伺服器120用以判断相邻这些影像画面B01~B04的相似度,以产生第一分段标记。举例而言,影像画面B01~B02为用以显示投影机的结构图,而影像画面B03~B04用以显示光线投影的路径图。影像画面B02、B03间的相似度较低,所以第二伺服器120能在影像画面B02、B03间加入第一分段标记,以形成多个第一学习区段B11、B12。
请再次参阅图3A所示,在此说明分析单元122分析出第一关键字串的方法如后。分析单元122对第一学习资料131a中的文字文件A1进行分析处理(如:语意分析),以取得多个特征字。接着,在第一学习资料131a被划分为多个第一学习区段A11~A14或B11~B12后,第二伺服器120将会判断特征字在每一个第一学习区段A11~A14或B11~B12中的数量,当数量大于预设值时,即将其设定为第一关键字串。举例而言,在文字文件A1的一个第一学习区段A11中包含下列内容:“投影机根据影像信号调整发光单元,发光单元投射出的光线会被反射为影像画面”。分析单元122会先对前述文字文件进行断句,以筛选出多个字词(如:投影机、根据、影像信号、调整…等)。其中,“影像”出现2次、“发光单元”出现2次、“投影机、光线”皆分别出现1次。分析单元122可将出现2次的特征字“影像、发光单元”设定为第一关键字串。
同理,分析单元122在接收到搜寻信息后,亦能先对搜寻信息内的文字进行断句,以取得搜寻字串。或者分析单元122能根据断句后产生的多个字词,将出现次数大于预设值的字词设定为搜寻字串。
请参阅图4所示,其为根据本公开内容的部分实施例绘示的数据搜寻方法示意图。数据搜寻方法包含下列步骤S401~S409。在步骤S401中,第一伺服器110接收第一学习资料131a,并将第一学习资料131a存储至课程数据库131中。第一学习资料131a包含多个第一学习区段。在步骤S402中,第二伺服器120连线至存储单元130,且通过分析单元122,对第一学习资料131a进行分析处理,以产生对应于每一个第一学习区段的第一关键字串。在部分实施例中,分析单元122通过语意分析技术,搜寻出第一关键字串。在其他部分实施例中,分析单元亦可对第一学习资料131a进行二位化处理,以根据元数据比对及筛选出第一关键字串。
在步骤S403中,第一伺服器110接收搜寻信息,并交由第二伺服器120进行后台运算分析。在步骤S404中,分析单元122对搜寻信息进行语意分析,以产生搜寻字串。在步骤S405中,运算单元121比对搜寻字串及这些第一关键字串,以产生第一相似度。
在步骤S406中,当运算单元121判断第一相似度大于门槛值时,根据这些第一关键字串所对应的这些第一学习区段,产生搜寻清单。在步骤S407中,比对行为数据库133中行为数据及在步骤S406中筛选出的这些第一关键字串,以产生多个第二相似度。在步骤S408中,根据第二相似度,排序搜寻清单内的第一学习区段。
前述步骤是以第一数据库131a进行说明,但在其他实施例中,数据搜寻系统100存储有多笔学习资料131a~131c。分析单元122可对每个学习资料131a~131c进行语意分析,以搜寻出对应的关键字串。运算单元121则可将搜寻字串与每个学习资料131a~131c中的每个关键字串相比对,以找出对应于搜寻字串的学习区段。例如:第一学习资料131a的其中一个第一学习区段与搜寻字串最相近、第二学习资料131b的其中一个第二学习区段亦与搜寻字串有相关,且运算单元121能将这两个学习区段皆显示于搜寻清单中。
虽然本公开内容已以实施方式披露如上,但其并非用以限定本发明内容,任何本领域普通技术人员,在不脱离本发明内容的精神和范围内的情况下,当可作各种更动与润饰,因此本发明内容的保护范围当视随附的权利要求书所界定者为准。

Claims (17)

1.一种数据搜寻方法,包含:
接收一第一学习资料,其中该第一学习资料包含多个第一学习区段;
对该第一学习资料进行分析,以产生对应于每一第一学习区段的多个第一关键字串,每个第一关键字串包含多个特征字;
接收一搜寻信息;
对该搜寻信息进行分析,以产生一搜寻字串;
比对该搜寻字串及所述多个第一关键字串;
根据与该搜寻字串相符的所述多个第一关键字串所对应的所述多个第一学习区段,产生一搜寻清单;
接收一操作信息,其中该操作信息对应于一第二学习资料中的一第二学习区段,且该第二学习区段包含一第二关键字串,该第二关键字串包含该多个特征字中的至少一个特征字;
将该操作信息所对应的该第二关键字串存储至一行为数据库中,以记录为该至少一个特征字的一行为数据;
根据该至少一个特征字的该行为数据以及所述多个第一关键字串的特征字,计算该至少一个特征字的该行为数据以及与该搜寻字串相符的所述多个第一关键字串的特征字间的多个特征字相似度;以及
根据所述多个特征字相似度,排序该搜寻清单中的所述多个第一学习区段;
其中,所述操作信息可为使用者的学习笔记、评论、评分、分享、发问、讨论区或者注解。
2.如权利要求1所述的数据搜寻方法,还包含:
计算该搜寻字串及所述多个第一关键字串间的多个第一相似度,其中所述多个第一相似度分别对应于该搜寻字串及所述多个第一关键字串;以及
根据所述多个第一相似度大于一门槛值的所述多个第一关键字串所对应的所述多个第一学习区段,产生该搜寻清单。
3.如权利要求1所述的数据搜寻方法,还包含:
根据该第二关键字串被存储至该行为数据库中的次数,设定该行为数据的一权重值;以及
根据该权重值,调整所述多个特征字相似度。
4.如权利要求1所述的数据搜寻方法,其中该操作信息用以将该第二学习资料传送至一终端装置。
5.如权利要求1所述的数据搜寻方法,其中该操作信息用以在一课程数据库中,写入一注解数据,该注解数据对应于该第二学习资料。
6.如权利要求1所述的数据搜寻方法,还包含:
接收多个训练数据;
将所述多个训练数据输入一自动编码器,并通过数据压缩处理及维度转换处理,建立一语意分析网络;以及
利用该语意分析网络,对该第一学习资料及该搜寻信息进行语意分析。
7.如权利要求1所述的数据搜寻方法,其中在接收该第一学习资料后,根据该第一学习资料中的元数据,辨识出所述多个第一学习区段。
8.如权利要求7所述的数据搜寻方法,还包含:
利用词嵌入技术,将该第一学习资料中的元数据进行二进制编码。
9.一种数据搜寻系统,用于如权利要求1至8中任一项所述的数据搜寻方法,包含:
一存储单元,用以存储一第一学习资料,其中该第一学习资料包含多个第一学习区段;
一分析单元,用以根据该第一学习资料产生对应于每一第一学习区段的多个第一关键字串,每个第一关键字串包含多个特征字;该分析单元还用以根据一搜寻信息产生一搜寻字串;以及
一运算单元,电性连接于该分析单元,其中该运算单元用以比对该搜寻字串及所述多个第一关键字串,且根据与该搜寻字串相符的所述多个第一关键字串所对应的所述多个第一学习区段,产生一搜寻清单;
其中该分析单元还包含一自动编码器,该分析单元用以将多个训练数据输入至该自动编码器,以通过数据压缩处理及维度转换处理,建立一语意分析网络。
10.如权利要求9所述的数据搜寻系统,其中该运算单元用以计算该搜寻字串及所述多个第一关键字串间的多个第一相似度,所述多个第一相似度分别对应于该搜寻字串及所述多个第一关键字串;该运算单元用以根据所述多个第一相似度大于一门槛值的所述多个第一关键字串所对应的所述多个第一学习区段,产生该搜寻清单。
11.如权利要求9所述的数据搜寻系统,其中该存储单元还存储有一第二学习资料,该第二学习资料包含一第二学习区段,且该第二学习区段包含一第二关键字串;
其中在该运算单元接收到一操作信息后,该运算单元根据该操作信息对应的该第二学习区段,将对应的该第二关键字串存储至该存储单元的一行为数据库中,以记录为一行为数据。
12.如权利要求11所述的数据搜寻系统,其中该运算单元用以计算该行为数据以及与该搜寻字串相符的所述多个第一关键字串间的多个第二相似度,所述多个第二相似度分别对应于该行为数据以及与该搜寻字串相符的所述多个第一关键字串;该运算单元还用以根据所述多个第二相似度,排序该搜寻清单中的所述多个第一学习区段。
13.如权利要求12所述的数据搜寻系统,其中该行为数据库内还存储有一权重值,该权重值为该第二关键字串被存储至该行为数据库中的次数;该运算单元用以根据该权重值,调整所述多个第二相似度。
14.如权利要求11所述的数据搜寻系统,其中该操作信息用以将该第二学习资料传送至一终端装置。
15.如权利要求11所述的数据搜寻系统,其中,该操作信息用以在该存储单元的一课程数据库中,写入一注解数据,该注解数据对应于该第二学习资料。
16.如权利要求9所述的数据搜寻系统,其中该分析单元根据该第一学习资料中的元数据,辨识出所述多个第一学习区段。
17.如权利要求16所述的数据搜寻系统,其中该运算单元利用词嵌入技术,将该第一学习资料的元数据进行二进制编码,再将该第一学习资料存储至该存储单元中。
CN201910104937.6A 2018-09-07 2019-02-01 数据搜寻方法及其数据搜寻系统 Active CN110888896B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2019090932A JP6829740B2 (ja) 2018-09-07 2019-05-13 データ検索方法及びそのデータ検索システム
SG10201905532QA SG10201905532QA (en) 2018-09-07 2019-06-17 Data search method and data search system thereof
EP19188646.4A EP3621021A1 (en) 2018-09-07 2019-07-26 Data search method and data search system thereof
US16/529,820 US11386163B2 (en) 2018-09-07 2019-08-02 Data search method and data search system thereof for generating and comparing strings

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201862728082P 2018-09-07 2018-09-07
US62/728,082 2018-09-07

Publications (2)

Publication Number Publication Date
CN110888896A CN110888896A (zh) 2020-03-17
CN110888896B true CN110888896B (zh) 2023-09-05

Family

ID=69745778

Family Applications (5)

Application Number Title Priority Date Filing Date
CN201910105172.8A Pending CN110895654A (zh) 2018-09-07 2019-02-01 分段方法、分段系统及非暂态电脑可读取媒体
CN201910104937.6A Active CN110888896B (zh) 2018-09-07 2019-02-01 数据搜寻方法及其数据搜寻系统
CN201910105173.2A Pending CN110889034A (zh) 2018-09-07 2019-02-01 数据分析方法及数据分析系统
CN201910104946.5A Active CN110891202B (zh) 2018-09-07 2019-02-01 分段方法、分段系统及非暂态电脑可读取媒体
CN201910266133.6A Pending CN110888994A (zh) 2018-09-07 2019-04-03 多媒体数据推荐系统及多媒体数据推荐方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201910105172.8A Pending CN110895654A (zh) 2018-09-07 2019-02-01 分段方法、分段系统及非暂态电脑可读取媒体

Family Applications After (3)

Application Number Title Priority Date Filing Date
CN201910105173.2A Pending CN110889034A (zh) 2018-09-07 2019-02-01 数据分析方法及数据分析系统
CN201910104946.5A Active CN110891202B (zh) 2018-09-07 2019-02-01 分段方法、分段系统及非暂态电脑可读取媒体
CN201910266133.6A Pending CN110888994A (zh) 2018-09-07 2019-04-03 多媒体数据推荐系统及多媒体数据推荐方法

Country Status (4)

Country Link
JP (3) JP6829740B2 (zh)
CN (5) CN110895654A (zh)
SG (5) SG10201905236WA (zh)
TW (5) TWI700597B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI756703B (zh) * 2020-06-03 2022-03-01 南開科技大學 數位學習系統及其方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123332A (zh) * 2014-01-24 2014-10-29 腾讯科技(深圳)有限公司 搜索结果的显示方法及装置
CN104572716A (zh) * 2013-10-18 2015-04-29 英业达科技有限公司 影音文件播放的系统及其方法
WO2015068947A1 (ko) * 2013-11-06 2015-05-14 주식회사 시스트란인터내셔널 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법

Family Cites Families (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07311539A (ja) * 1994-05-17 1995-11-28 Hitachi Ltd 教材編集支援システム
KR100250540B1 (ko) * 1996-08-13 2000-04-01 김광수 캡션 비디오 cd 재생장치를 이용한 외국어 받아쓰기 학습방법
JP2002041823A (ja) * 2000-07-27 2002-02-08 Nippon Telegr & Teleph Corp <Ntt> 情報配信装置、情報受信装置及び情報配信システム
JP3685733B2 (ja) * 2001-04-11 2005-08-24 株式会社ジェイ・フィット マルチメディアデータ検索装置、マルチメディアデータ検索方法およびマルチメディアデータ検索プログラム
JP2002341735A (ja) * 2001-05-16 2002-11-29 Alice Factory:Kk ブロードバンド・ディジタル・ラーニング・システム
CN1432932A (zh) * 2002-01-16 2003-07-30 陈雯瑄 英文测验及成绩评估方法及系统
TW200411462A (en) * 2002-12-20 2004-07-01 Hsiao-Lien Wang A method for matching information exchange on network
WO2004090752A1 (en) * 2003-04-14 2004-10-21 Koninklijke Philips Electronics N.V. Method and apparatus for summarizing a music video using content analysis
JP4471737B2 (ja) * 2003-10-06 2010-06-02 日本電信電話株式会社 グループ化条件決定装置と方法およびそれを用いたキーワード拡張装置と方法ならびにコンテンツ検索システムおよびコンテンツ情報提供システムと方法ならびにプログラム
JP4426894B2 (ja) * 2004-04-15 2010-03-03 株式会社日立製作所 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP2005321662A (ja) * 2004-05-10 2005-11-17 Fuji Xerox Co Ltd 学習支援装置および方法
JP2006003670A (ja) * 2004-06-18 2006-01-05 Hitachi Ltd 教育コンテンツ提供システム
EP1866892A1 (en) * 2005-03-31 2007-12-19 Koninklijke Philips Electronics N.V. Augmenting lectures based on prior exams
US9058406B2 (en) * 2005-09-14 2015-06-16 Millennial Media, Inc. Management of multiple advertising inventories using a monetization platform
WO2008023470A1 (fr) * 2006-08-21 2008-02-28 Kyoto University Procédé de recherche de phrase, moteur de recherche de phrase, programme informatique, support d'enregistrement et stockage de document
TW200825900A (en) * 2006-12-13 2008-06-16 Inst Information Industry System and method for generating wiki by sectional time of handout and recording medium thereof
JP5010292B2 (ja) * 2007-01-18 2012-08-29 株式会社東芝 映像属性情報出力装置、映像要約装置、プログラムおよび映像属性情報出力方法
JP5158766B2 (ja) * 2007-10-23 2013-03-06 シャープ株式会社 コンテンツ選択装置、テレビジョン、コンテンツ選択プログラム及び記憶媒体
TW200923860A (en) * 2007-11-19 2009-06-01 Univ Nat Taiwan Science Tech Interactive learning system
CN101382937B (zh) * 2008-07-01 2011-03-30 深圳先进技术研究院 基于语音识别的多媒体资源处理方法及其在线教学系统
US8140544B2 (en) * 2008-09-03 2012-03-20 International Business Machines Corporation Interactive digital video library
CN101453649B (zh) * 2008-12-30 2011-01-05 浙江大学 压缩域视频流的关键帧提取方法
JP5366632B2 (ja) * 2009-04-21 2013-12-11 エヌ・ティ・ティ・コミュニケーションズ株式会社 検索サポートキーワード提示装置、方法及びプログラム
JP5493515B2 (ja) * 2009-07-03 2014-05-14 富士通株式会社 携帯端末装置、情報検索方法および情報検索プログラム
EP2524362A1 (en) * 2010-01-15 2012-11-21 Apollo Group, Inc. Dynamically recommending learning content
JP2012038239A (ja) * 2010-08-11 2012-02-23 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
US8839110B2 (en) * 2011-02-16 2014-09-16 Apple Inc. Rate conform operation for a media-editing application
CN102222227B (zh) * 2011-04-25 2013-07-31 中国华录集团有限公司 基于视频识别与提取影片图像的系统
CN102348049B (zh) * 2011-09-16 2013-09-18 央视国际网络有限公司 检测视频片断切点位置的方法及装置
CN102509007A (zh) * 2011-11-01 2012-06-20 北京瑞信在线系统技术有限公司 多媒体教学评估方法及系统、装置以及多媒体教学系统
JP5216922B1 (ja) * 2012-01-06 2013-06-19 Flens株式会社 学習支援サーバ、学習支援システム、及び学習支援プログラム
US9846696B2 (en) * 2012-02-29 2017-12-19 Telefonaktiebolaget Lm Ericsson (Publ) Apparatus and methods for indexing multimedia content
US20130263166A1 (en) * 2012-03-27 2013-10-03 Bluefin Labs, Inc. Social Networking System Targeted Message Synchronization
US9058385B2 (en) * 2012-06-26 2015-06-16 Aol Inc. Systems and methods for identifying electronic content using video graphs
TWI513286B (zh) * 2012-08-28 2015-12-11 Ind Tech Res Inst 影片續播方法及系統
CN102937972B (zh) * 2012-10-15 2016-06-22 上海外教社信息技术有限公司 一种视听字幕制作系统及方法
WO2014100893A1 (en) * 2012-12-28 2014-07-03 Jérémie Salvatore De Villiers System and method for the automated customization of audio and video media
JP6205767B2 (ja) * 2013-03-13 2017-10-04 カシオ計算機株式会社 学習支援装置、学習支援方法、学習支援プログラム、学習支援システム、およびサーバ装置
TWI549498B (zh) * 2013-06-24 2016-09-11 wu-xiong Chen Variable audio and video playback method
US20150206441A1 (en) * 2014-01-18 2015-07-23 Invent.ly LLC Personalized online learning management system and method
US9892194B2 (en) * 2014-04-04 2018-02-13 Fujitsu Limited Topic identification in lecture videos
US9253511B2 (en) * 2014-04-14 2016-02-02 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for performing multi-modal video datastream segmentation
JP6334431B2 (ja) * 2015-02-18 2018-05-30 株式会社日立製作所 データ分析装置、データ分析方法、およびデータ分析プログラム
US20160239155A1 (en) * 2015-02-18 2016-08-18 Google Inc. Adaptive media
CN104978961B (zh) * 2015-05-25 2019-10-15 广州酷狗计算机科技有限公司 一种音频处理方法、装置及终端
CN105047203B (zh) * 2015-05-25 2019-09-10 广州酷狗计算机科技有限公司 一种音频处理方法、装置及终端
TWI571756B (zh) * 2015-12-11 2017-02-21 財團法人工業技術研究院 用以分析瀏覽記錄及其文件之方法及其系統
CN105978800A (zh) * 2016-07-04 2016-09-28 广东小天才科技有限公司 一种向移动终端推送题目的方法、系统和服务器
CN106202453B (zh) * 2016-07-13 2020-08-04 网易(杭州)网络有限公司 一种多媒体资源推荐方法和装置
CN106231399A (zh) * 2016-08-01 2016-12-14 乐视控股(北京)有限公司 视频分割方法、设备以及系统
CN106331893B (zh) * 2016-08-31 2019-09-03 科大讯飞股份有限公司 实时字幕显示方法及系统
CN108122437A (zh) * 2016-11-28 2018-06-05 北大方正集团有限公司 自适应学习方法及装置
CN107256262B (zh) * 2017-06-13 2020-04-14 西安电子科技大学 一种基于物体检测的图像检索方法
CN107623860A (zh) * 2017-08-09 2018-01-23 北京奇艺世纪科技有限公司 多媒体数据分割方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572716A (zh) * 2013-10-18 2015-04-29 英业达科技有限公司 影音文件播放的系统及其方法
WO2015068947A1 (ko) * 2013-11-06 2015-05-14 주식회사 시스트란인터내셔널 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법
CN104123332A (zh) * 2014-01-24 2014-10-29 腾讯科技(深圳)有限公司 搜索结果的显示方法及装置

Also Published As

Publication number Publication date
TWI709905B (zh) 2020-11-11
CN110891202B (zh) 2022-03-25
JP2020042771A (ja) 2020-03-19
TWI696386B (zh) 2020-06-11
JP2020042777A (ja) 2020-03-19
SG10201905236WA (en) 2020-04-29
SG10201906347QA (en) 2020-04-29
CN110888896A (zh) 2020-03-17
TW202011749A (zh) 2020-03-16
CN110889034A (zh) 2020-03-17
SG10201907250TA (en) 2020-04-29
JP2020042770A (ja) 2020-03-19
TW202011232A (zh) 2020-03-16
CN110891202A (zh) 2020-03-17
CN110888994A (zh) 2020-03-17
TW202011221A (zh) 2020-03-16
TW202011231A (zh) 2020-03-16
CN110895654A (zh) 2020-03-20
JP6829740B2 (ja) 2021-02-10
SG10201905523TA (en) 2020-04-29
TWI699663B (zh) 2020-07-21
TW202011222A (zh) 2020-03-16
TWI725375B (zh) 2021-04-21
TWI700597B (zh) 2020-08-01
SG10201905532QA (en) 2020-04-29

Similar Documents

Publication Publication Date Title
US20190294668A1 (en) Methods and systems for generating contextual data elements for effective consumption of multimedia
CN112163122B (zh) 确定目标视频的标签的方法、装置、计算设备及存储介质
CN111274442B (zh) 确定视频标签的方法、服务器及存储介质
CN106331778B (zh) 视频推荐方法和装置
CN109743624B (zh) 视频切割方法、装置、计算机设备和存储介质
US20150296228A1 (en) Systems and Methods for Performing Multi-Modal Video Datastream Segmentation
KR102488914B1 (ko) 콘텐츠에서 키워드를 추출하고, 추출된 키워드를 이용하여 콘텐츠를 추천하는 방법, 장치 및 프로그램
CA2787103A1 (en) User communication analysis systems and methods
CN111314732A (zh) 确定视频标签的方法、服务器及存储介质
CN114297439B (zh) 一种短视频标签确定方法、系统、装置及存储介质
CN109582847B (zh) 一种信息处理方法及装置、存储介质
CN108241856B (zh) 资讯信息生成方法及设备
CN112015928A (zh) 多媒体资源的信息提取方法、装置、电子设备及存储介质
US11361759B2 (en) Methods and systems for automatic generation and convergence of keywords and/or keyphrases from a media
CN114363695B (zh) 视频处理方法、装置、计算机设备和存储介质
US11386163B2 (en) Data search method and data search system thereof for generating and comparing strings
CN110888896B (zh) 数据搜寻方法及其数据搜寻系统
CN114845149B (zh) 视频片段的剪辑方法、视频推荐方法、装置、设备及介质
US20240037941A1 (en) Search results within segmented communication session content
US11409804B2 (en) Data analysis method and data analysis system thereof for searching learning sections
CN114780757A (zh) 短媒体标签抽取方法、装置、计算机设备和存储介质
CN115618873A (zh) 数据处理方法、装置、计算机设备及存储介质
CN114443904A (zh) 视频查询方法、装置、计算机设备及计算机可读存储介质
CN111353052A (zh) 一种多媒体对象推荐方法、装置、电子设备及存储介质
de Souza Barbieri et al. Investigating Subjectivity Criterion for Multi-video Summarization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant