CN112749558B - 一种目标内容获取方法、装置、计算机设备和存储介质 - Google Patents
一种目标内容获取方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112749558B CN112749558B CN202010916857.3A CN202010916857A CN112749558B CN 112749558 B CN112749558 B CN 112749558B CN 202010916857 A CN202010916857 A CN 202010916857A CN 112749558 B CN112749558 B CN 112749558B
- Authority
- CN
- China
- Prior art keywords
- content
- target
- initial
- matched
- matching degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 191
- 239000013598 vector Substances 0.000 claims abstract description 502
- 238000000605 extraction Methods 0.000 claims description 181
- 238000012549 training Methods 0.000 claims description 138
- 230000004927 fusion Effects 0.000 claims description 78
- 238000012216 screening Methods 0.000 claims description 21
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 13
- 238000012935 Averaging Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims 2
- 230000008569 process Effects 0.000 abstract description 40
- 238000010586 diagram Methods 0.000 description 23
- 238000013473 artificial intelligence Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种目标内容获取方法、装置、计算机设备和存储介质,用于提高目标内容获取过程的准确性。该方法包括:根据至少两个目标内容匹配策略,分别获得待匹配内容与各个备选内容之间的初始匹配度,并从各个备选内容中获得初始匹配度满足初始匹配条件的初始目标内容;分别根据所述待匹配内容的特征向量、初始目标内容的特征向量和初始目标内容的至少一个初始匹配度,获得各个初始目标内容的目标匹配度;基于各个初始目标内容对应的目标匹配度,获得目标匹配度满足目标匹配条件的至少一个目标内容。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种目标内容获取方法、装置、计算机设备和存储介质。
背景技术
在自适应获取内容的场景下,例如在自适应教育领域中,为了检测学生是否掌握了某道题目的解题思路,通常可以通过与该题目具备一定相似性的相似题目对学生进行检测。目前确定相似题目的方法主要包括两种,一种是教师寻找相似题目的方法,显然该方法确定相似题目的局限性较大,且效率较低,具有较强的主观性。另一种是利用设备自动寻找相似题目的方法,该方法在确定相似题目时,仅考虑了两个题目的知识点是否一致,或题目中的词语是否一致等因素,对相似题的定义较为片面,使得确定出的相似题目序列中遗漏了大量的题目描述方式不同,或知识点标注不同,却相似性较高的题目获取相似题目的准确性较低。在其他自适应获取内容的场景下,也存在类似的问题,使得目标内容获取过程的准确性较低。
发明内容
本申请实施例提供一种目标内容获取方法、装置、计算机设备和存储介质,用于提高目标内容获取过程的准确性。
第一方面,提供一种目标内容获取方法,该方法包括:
根据至少两个目标内容匹配策略,分别获得待匹配内容与各个备选内容之间的初始匹配度,并从各个备选内容中获得初始匹配度满足初始匹配条件的初始目标内容;
分别根据所述待匹配内容的特征向量、初始目标内容的特征向量和初始目标内容的至少一个初始匹配度,获得各个初始目标内容的目标匹配度;
基于各个初始目标内容对应的目标匹配度,获得目标匹配度满足目标匹配条件的至少一个目标内容。
第二方面,提供了一种目标内容获取方法,包括:
针对各个备选内容,确定待匹配内容所属的知识点与备选内容所属的知识点之间的特征匹配度,获得所述待匹配内容与备选内容之间的知识点初始匹配度,根据知识点初始匹配度大于知识点初始匹配度预设值的备选内容,获得知识点目标题目备选集合;
针对所述知识点目标题目备选集合中每个备选内容,确定所述待匹配内容的文本向量,与备选内容的文本向量之间的距离,获得所述待匹配内容与备选内容之间的文本初始匹配度,其中,所述文本向量是根据内容的文本进行分词处理后获得的所有词语确定的;
根据知识点初始匹配度与文本初始匹配度的加权和,获得所述待匹配内容与备选内容之间的目标匹配度,并从知识点目标题目备选集合中,获得目标匹配度满足目标匹配条件的至少一个目标内容。
本申请实施例中,根据知识点初始匹配度,确定知识点与待匹配内容的知识点具有一定匹配度的备选内容,再确定知识点具有一定匹配度的备选内容,与待匹配内容之间的文本初始匹配度,从知识点和文本向量两个角度定义目标内容,使得获得的目标内容更加准确,提高了基于目标匹配度,确定目标内容的准确性。
第三方面,提供了一种目标内容获取方法,包括:
基于待匹配内容的文本、知识点和图片,获得所述待匹配内容的文本特征向量、知识点特征向量、图片特征向量和融合特征向量,其中,所述融合特征向量是将文本特征向量、知识点特征向量和图片特征向量对应位置的取值相加并求平均值获得的;
针对各个备选内容,分别基于备选内容的文本、知识点和图片,获得备选内容的文本特征向量、知识点特征向量、图片特征向量和融合特征向量;
根据所述待匹配内容的融合特征向量和各个备选内容的融合特征向量,获得各个备选内容和待匹配内容之间的目标匹配度,并从各个备选内容中,获得目标匹配度满足目标匹配条件的至少一个目标内容。
本申请实施例中,根据知识点、文本和图片,确定备选内容与待匹配内容之间的目标匹配度,从知识点、文本和图片三个角度定义目标内容,使得获得的目标内容更加准确,提高了基于目标匹配度,确定目标内容的准确性。
第四方面,提供了一种目标内容获取装置,包括:
匹配模块:用于根据至少两个目标内容匹配策略,分别获得待匹配内容与各个备选内容之间的初始匹配度;
获取模块:用于从各个备选内容中获得初始匹配度满足初始匹配条件的初始目标内容;
所述匹配模块还用于:分别根据所述待匹配内容的特征向量、初始目标内容的特征向量和初始目标内容的至少一个初始匹配度,获得各个初始目标内容的目标匹配度;
所述获取模块还用于:基于各个初始目标内容对应的目标匹配度,获得目标匹配度满足目标匹配条件的至少一个目标内容。
可选的,当所述至少一个目标内容包括至少两个时,所述获取模块,还用于:
根据各个目标内容对应的目标匹配度,获得所述待匹配内容关联的目标内容序列。
可选的,所述待匹配内容和备选内容均具有如下至少两个维度的特征,所述维度包括:知识点维度、文本维度、知识树维度和图片维度,所述至少两个目标内容匹配策略,至少包括如下两种与维度分别对应的目标内容匹配策略:
以基于待匹配内容和备选内容各自所属的知识点之间的特征匹配度筛选初始目标内容的第一匹配策略;
以基于待匹配内容和备选内容各自对应的文本向量之间的特征匹配度筛选初始目标内容的第二匹配策略;
以基于待匹配内容和备选内容各自关联的知识树之间的特征匹配度筛选初始目标内容的第三匹配策略;
以基于待匹配内容和备选内容各自的文本特征、图片特征和知识点特征而获得的特征匹配度筛选初始目标内容的第四匹配策略。
可选的,当所述目标内容匹配策略包括第一匹配策略时,针对任一个备选内容,所述匹配模块具体用于:
确定待匹配内容的知识点集合,与备选内容的知识点集合之间的知识点交集和知识点并集,其中,所述知识点集合是根据预存的知识树中,内容所属的知识点对应的叶子节点到根节点之间的所有知识点确定的,所述知识树至少包括所述待匹配内容所属的知识点和各个备选内容所属的知识点,所述知识点交集包括两个内容对应的知识点集合中相同的知识点,所述知识点并集包括两个内容对应的知识点集合中所有的知识点;
根据知识点交集中知识点的数量和知识点并集中知识点的数量之间的比值,获得待匹配内容与备选内容之间的根据第一匹配策略确定的初始匹配度。
可选的,当所述目标内容匹配策略包括第二匹配策略时,针对任一个备选内容,所述匹配模块具体用于:
根据所述待匹配内容的词语集合中每个词语的词向量,确定所述待匹配内容的文本向量,其中,所述词语集合包括对待匹配内容的文本进行分词处理后获得的所有词语,以及每个词语的词向量;
根据备选内容的词语集合中每个词语的词向量,确定备选内容的文本向量,其中,所述词语集合包括对备选内容的文本进行分词处理后获得的所有词语,以及每个词语的词向量;
根据备选内容的文本向量和所述待匹配内容的文本向量之间的距离,获得所述待匹配内容与备选内容的根据第二匹配策略确定的初始匹配度。
可选的,当所述目标内容匹配策略包括第三匹配策略时,针对任一个备选内容,所述匹配模块具体用于:
确定待匹配内容所属的知识点与备选内容所属的知识点之间的特征匹配度,获得所述待匹配内容与备选内容之间的知识点初始匹配度,根据知识点初始匹配度大于知识点初始匹配度预设值的备选内容,获得知识点目标内容备选集合;
针对所述知识点目标内容备选集合中每个备选内容,确定所述待匹配内容的文本向量,与备选内容的文本向量之间的距离,获得所述待匹配内容与备选内容之间的文本初始匹配度,其中,所述文本向量是根据内容的文本进行分词处理后获得的所有词语确定的;
根据知识点初始匹配度与文本初始匹配度的加权和,获得所述待匹配内容与备选内容的根据第三匹配策略确定的初始匹配度。
可选的,当所述目标内容匹配策略包括第四匹配策略时,所述待匹配内容与各个备选内容之间的初始匹配度,是基于已训练的第二匹配度判断模型获得的,所述第二匹配度判断模型包括特征提取网络、特征融合网络和判决网络,针对任一个备选内容,所述匹配模块具体用于:
针对每个备选内容,分别将所述待匹配内容和备选内容的文本、知识点和图片输入特征提取网络,分别获得所述待匹配内容和备选内容的文本特征向量、知识点特征向量和图片特征向量;
分别将所述待匹配内容和备选内容的文本特征向量、知识点特征向量和图片特征向量输入特征融合网络,分别获得所述待匹配内容和备选内容对应的融合特征向量,其中,融合特征向量是将文本特征向量、知识点特征向量和图片特征向量对应位置的取值相加并求平均值获得的;
将所述待匹配内容和备选内容分别对应的融合特征向量输入所述判决网络获得所述待匹配内容和备选内容的根据第四匹配策略确定的初始匹配度。
可选的,所述特征提取网络包括文本特征提取子网络、图片特征提取子网络和知识点特征提取子网络,所述特征提取网络的模型参数包括文本模型参数、知识点模型参数和图片模型参数,在分别将所述待匹配内容和备选内容的文本、图片和知识点,输入所述文本特征提取子网络、所述图片特征提取子网络和所述知识点特征提取子网络,特征提取网络是根据如下方法训练获得的,针对任一个备选内容,所述匹配模块还用于:
将备选内容的文本输入初始的文本特征提取子网络,并将备选内容的知识点输入初始的知识点特征提取网络,获得图片特征向量;
根据所述图片特征向量,预测备选内容的图片,获得备选内容的预测图片,根据备选内容的图片与预测图片之间的误差,确定图片输入特征提取网络的图片训练损失;
将备选内容的文本输入初始的文本特征提取子网络,并将备选内容的图片输入初始的图片特征提取网络,获得知识点特征向量;
根据所述知识点特征向量,预测备选内容的知识点,获得备选内容的预测知识点,根据备选内容的知识点与预测知识点之间的误差,确定知识点输入特征提取网络的知识点训练损失;
将备选内容的知识点输入初始的知识点特征提取子网络,并将备选内容的图片输入初始的图片特征提取网络,获得文本特征向量;
根据所述文本特征向量,预测备选内容的文本,获得备选内容的预测文本,根据备选内容的文本与预测文本之间的误差,确定文本输入特征提取网络的文本训练损失;
若所述图片训练损失不满足图片目标损失,则调整所述图片模型参数;若所述知识点训练损失不满足知识点目标损失,则调整所述知识点模型参数;若所述文本训练损失不满足文本目标损失,则调整所述文本模型参数;
直到图片训练损失满足所述图片目标损失,且知识点训练损失满足所述知识点目标损失,且文本训练损失满足所述文本目标损失,获得文本特征提取子网络、图片特征提取子网络和知识点特征提取子网络。
可选的,所述获取模块具体用于:
针对每个初始匹配度,确定初始匹配度大于预设值的备选内容,分别获得每个目标内容匹配策略对应的初始目标内容备选集合;
将获得的所有初始目标内容备选集合合并,并删除重复的内容,获得初始目标内容集合,所述初始目标内容集合中包括至少一个初始目标内容。
可选的,初始目标内容的目标匹配度是基于已训练的第一匹配度判断模型获得的,其中,所述第一匹配度判断模型是采用待匹配内容样本,以及标识有匹配度标签的初始目标内容样本训练得到的,所述第一匹配度判断模型包括特征向量提取网络和目标匹配度判决网络,所述特征向量提取网络包括两个特征向量提取子网络,所述两个特征向量提取子网络分别用于提取待匹配内容特征向量和初始目标内容特征向量,所述两个特征向量提取子网络的模型参数相同,针对任一个初始目标内容,所述匹配模块具体用于:
将所述待匹配内容和初始目标内容分别输入一个特征向量提取子网络,分别获得所述待匹配内容的特征向量和初始目标内容的特征向量;
将所述待匹配内容的特征向量、初始目标内容的特征向量和初始目标内容的至少一个初始匹配度输入所述目标匹配度判决网络,获得所述待匹配内容与初始目标内容之间的目标匹配度。
第五方面,提供一种目标内容获取装置,包括:
匹配模块:用于针对各个备选内容,确定待匹配内容所属的知识点与备选内容所属的知识点之间的特征匹配度,获得所述待匹配内容与备选内容之间的知识点初始匹配度;
获取模块:用于根据知识点初始匹配度大于知识点初始匹配度预设值的备选内容,获得知识点目标题目备选集合;
所述匹配模块还用于:针对所述知识点目标题目备选集合中每个备选内容,确定所述待匹配内容的文本向量,与备选内容的文本向量之间的距离,获得所述待匹配内容与备选内容之间的文本初始匹配度,其中,所述文本向量是根据内容的文本进行分词处理后获得的所有词语确定的;以及,根据知识点初始匹配度与文本初始匹配度的加权和,获得所述待匹配内容与备选内容之间的目标匹配度;
所述获取模块还用于:从知识点目标题目备选集合中,获得目标匹配度满足目标匹配条件的至少一个目标内容。
可选的,针对任一个备选内容,所述匹配模块具体用于:
确定待匹配内容的知识点集合,与备选内容的知识点集合之间的知识点交集和知识点并集,其中,所述知识点集合是根据预存的知识树中,内容所属的知识点对应的叶子节点到根节点之间的所有知识点确定的,所述知识树至少包括所述待匹配内容所属的知识点和各个备选内容所属的知识点,所述知识点交集包括两个内容对应的知识点集合中相同的知识点,所述知识点并集包括两个内容对应的知识点集合中所有的知识点;
根据知识点交集中知识点的数量和知识点并集中知识点的数量之间的比值,获得待匹配内容与备选内容之间的知识点初始匹配度。
第六方面,提供一种目标内容获取装置,包括:
匹配模块:用于基于待匹配内容的文本、知识点和图片,获得所述待匹配内容的文本特征向量、知识点特征向量、图片特征向量和融合特征向量,其中,所述融合特征向量是将文本特征向量、知识点特征向量和图片特征向量对应位置的取值相加并求平均值获得的;以及,针对各个备选内容,分别基于备选内容的文本、知识点和图片,获得备选内容的文本特征向量、知识点特征向量、图片特征向量和融合特征向量;以及,根据所述待匹配内容的融合特征向量和各个备选内容的融合特征向量,获得各个备选内容和待匹配内容之间的目标匹配度;
获取模块:用于从各个备选内容中,获得目标匹配度满足目标匹配条件的至少一个目标内容。
可选的,采用已训练的第二匹配度判断模型,获得所述待匹配内容和各个备选内容的文本特征向量、知识点特征向量和图片特征向量,以及融合特征向量,并获得备选内容和待匹配内容之间的初始匹配度,其中,所述第二匹配度判断模型包括所述特征提取网络、特征融合网络和判决网络;所述特征提取网络包括文本特征提取子网络、图片特征提取子网络和知识点特征提取子网络,所述特征提取网络的模型参数包括文本模型参数、知识点模型参数和图片模型参数,所述文本特征提取子网络、图片特征提取子网络和知识点特征提取子网络,是根据如下方法训练获得的,针对任一个备选内容,所述匹配模块还用于:
将备选内容的文本输入初始的文本特征提取子网络,并将备选内容的知识点输入初始的知识点特征提取网络,获得图片特征向量;
根据所述图片特征向量,预测备选内容的图片,获得备选内容的预测图片,根据备选内容的图片与预测图片之间的误差,确定图片输入特征提取网络的图片训练损失;
将备选内容的文本输入初始的文本特征提取子网络,并将备选内容的图片输入初始的图片特征提取网络,获得知识点特征向量;
根据所述知识点特征向量,预测备选内容的知识点,获得备选内容的预测知识点,根据备选内容的知识点与预测知识点之间的误差,确定知识点输入特征提取网络的知识点训练损失;
将备选内容的知识点输入初始的知识点特征提取子网络,并将备选内容的图片输入初始的图片特征提取网络,获得文本特征向量;
根据所述文本特征向量,预测备选内容的文本,获得备选内容的预测文本,根据备选内容的文本与预测文本之间的误差,确定文本输入特征提取网络的文本训练损失;
若所述图片训练损失不满足图片目标损失,则调整所述图片模型参数;若所述知识点训练损失不满足知识点目标损失,则调整所述知识点模型参数;若所述文本训练损失不满足文本目标损失,则调整所述文本模型参数;
直到图片训练损失满足所述图片目标损失,且知识点训练损失满足所述知识点目标损失,且文本训练损失满足所述文本目标损失,获得文本特征提取子网络、图片特征提取子网络和知识点特征提取子网络。
第七方面,一种计算机设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如第一方面、第二方面或第三方面所述的方法。
第八方面,一种存储介质,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如第一方面、第二方面或第三方面所述的方法。
本申请实施例中,根据至少两个目标内容匹配策略,分别获得待匹配内容与各个备选内容之间的初始匹配度,利用不同的目标内容匹配策略对初始目标内容进行不同角度的定义,使得在根据不同的目标内容匹配策略,从各个备选内容中筛选初始目标内容时,获得的各个初始目标内容更加全面,且,至少两个目标内容匹配策略可以同时进行,提高了筛选各个初始目标内容的效率。进一步的,将待匹配内容的特征向量、初始目标内容的特征向量和初始目标内容的至少一个初始匹配度一同作为确定初始目标内容的目标匹配度的依据,可以获得更多的与初始目标内容有关的特征,使得确定出的目标匹配度更加准确,从而,提高了确定目标内容的准确性。
附图说明
图1a为本申请实施例提供的目标内容获取方法的一种原理示意图一;
图1b为本申请实施例提供的目标内容获取方法的一种应用场景;
图1c为本申请实施例提供的目标内容获取方法的一种流程示意图一;
图2为本申请实施例提供的知识树的一种结构示意图;
图3a为本申请实施例提供的目标内容获取方法的一种原理示意图二;
图3b为本申请实施例提供的目标内容获取方法的一种原理示意图三;
图3c为本申请实施例提供的目标内容获取方法的一种原理示意图四;
图4a为本申请实施例提供的目标内容获取方法的原理示意图五;
图4b为本申请实施例提供的目标内容获取方法的原理示意图六;
图5a为本申请实施例提供的目标内容获取方法的交互示意图;
图5b为本申请实施例提供的目标内容获取方法的原理示意图七;
图6为本申请实施例提供的目标内容获取方法的流程示意图二;
图7为本申请实施例提供的目标内容获取方法的流程示意图三;
图8为本申请实施例提供的目标内容获取装置的结构示意图一;
图9为本申请实施例提供的目标内容获取装置的结构示意图二;
图10为本申请实施例提供的目标内容获取装置的结构示意图三;
图11为本申请实施例提供的计算机设备的结构示意图。
具体实施方式
为了使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
下面对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
(1)词向量:
也可以称为词向量特征,用于描述自然语言文本所包括的词语的语义特征,通常是指对自然语言表示的词语进行向量转换得到的机器能够理解的稠密向量(DenseVector)或矩阵形式,词向量是自然语言文本中的词语在机器中数值化的体现。
(2)Word2Vec模型:
Google的开源词向量工具,其可以利用文本数据中各个词语间的语义关系将词语转化为词向量,还可以利用词向量之间的语义距离关系识别出词语。
(3)有监督训练和无监督训练:
有监督训练是指通过标识有标签的样本,对神经网络模型进行训练的过程。
无监督训练是指通过没有标识标签的样本,对神经网络模型进行训练的过程。
(4)匹配度:
匹配度可以通过两个内容,在知识点、重要等级、文本描述方式或图片等一个或多个方面的相似程度来表示,两个内容所表达的含义越一致,则两个内容之间的相似程度越高。匹配度可以与相似程度成正比,即相似程度越高,则匹配度越高;或者,匹配度可以与相似程度成反比,即相似程度越低,则匹配度越高;或者,匹配度可以与相似程度之间存在预设关系,例如,相似程度的取值在第一范围内时,匹配度为第一等级对应的取值,相似程度的取值在第二范围内时,匹配度为第二等级对应的取值等。
(5)待匹配内容、目标内容和备选内容:
待匹配内容用于作为确定目标内容的参考数据。
目标内容是与待匹配内容之间符合一定匹配要求的数据,例如,目标内容与待匹配内容之间的匹配度大于预设匹配度;或者,目标内容与待匹配内容之间的匹配度在预设等级范围内等。
备选内容为具备成为目标内容的可能性的内容,例如,与目标内容属于同一集合中的内容,或与目标内容具有相同标识的内容等。
目标内容序列包括按照目标内容与待匹配内容之间的匹配度排序之后的各个目标内容。
本申请实施例涉及人工智能(Artificial Intelligence,AI)和机器学习技术,基于人工智能中的自然语言处理(natural language processing,NLP)技术和机器学习(Machine Learning,ML)而设计。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能在多个领域展开研究和应用,例如常见的智能家居、智能推荐系统、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等,相信随着技术的发展,人工智能将在更多的领域得到应用,并发挥越来越重要的价值。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。
自然语言处理技术,是计算机科学领域与人工智能领域中的一个重要方向。其研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
文本处理是自然语言处理技术中的主要过程,可以广泛应用于多种应用场景。识别文本中的排比句是文本处理的一个重要部分。例如,在作文批改过程中,如果可以识别出作文中的排比句,有利于在文采维度对作文做出更准确的评价。
下面对本申请实施例提供的技术方案的应用领域进行简单介绍。
自适应获取内容的场景有多种,例如,在教育领域中,获取与待匹配题目之间的匹配程度较大的相似题目;或者,在多媒体领域中,获取与待匹配视频或待匹配图片之间的匹配程度较大的相似视频或相似图片;或者,在学术创作领域中,获取与待匹配学术研究匹配程度较大的相似学术研究等,下面进行示例介绍。
在教育领域中,通常可以利用与待匹配题目具备一定相似性的题目,检测学生是否掌握了待匹配题目的解题思路,或者,学生可以通过进行大量具备一定相似性的题目的练习,掌握某一类型的题目的解题思路等。因此,为了使得学生可以更加有针对性的进行学习,对获得相似题目的效率、准确性和全面性等方面均有越来越高的要求。传统的获得相似题目的方法包括根据老师的教学经验,确定出一些与待匹配题目相似的题目。然而,这种人工确定相似题目的方法很大程度上依赖于老师的教学经验,局限性较大,准确性较低。传统的获得相似题目的方法还包括设备通过已训练的识别模型,自动从题库中确定出与待匹配题目相似的题目。然而,对于有监督的识别模型来说,需要大量的有标记的样本数据对识别模型进行训练,且,训练模型的时间较长;对于无监督的识别模型来说,识别模型无法根据不同的题目进行适应性的学习,使得识别模型的适应性较差。
在多媒体领域中,在多媒体平台上发布的视频或图片多种多样,当某个用户在观看了某个视频或图片之后,想了解更多与该视频或图片类似的视频或图片,因此,多媒体平台可以为用户提供多个相似视频或相似图片供用户选择。传统的方法是通过获取视频或图片关联的标签,在各个视频或图片中,确定关联了相同标签的视频或图片,并推送给用户。然而,在一些情况下,标签可能是视频或图片的发布者自己为自己的发布内容关联的词语,可能存在词语并不统一,或词语没有准确表达发布内容的关键信息等情况,从而,使得依据相同标签获取的相似视频或相似图片的准确性较低。
在学术创造领域,在某个学术研究公开时,不可避免会有一些用户盗用该学术研究,或抄袭该学术研究来牟取商业利益,在一定程度上,损害了原创作者的利益。因此,为了减少盗用或抄袭行为的出现,需要获取与学术研究类似的相似学术研究,并确定相似学术研究中是否存在盗用或抄袭行为。传统获取相似学术研究的方法是,通过关键词检索,获取标题中包括相同关键词的相似学术研究。然而,同一个语义的词语可以包括多个,且,同一个语义可以由不同的语句进行描述,使得依据相同关键词获取的相似学术研究的准确性较低。
为了解决相关技术中获取目标内容的准确性较低等问题,本申请提供一种目标内容获取方法。该方法通过不同的目标内容匹配策略,从不同的角度出发,对与待匹配内容具备一定的匹配度的内容进行定义,例如,知识点与待匹配内容的知识点相同或相近的内容,可以认为是与待匹配内容匹配的目标内容;或者,文本描述方式与待匹配内容的文本描述方式相近的内容,可以认为是与待匹配内容匹配的目标内容;或者,图片与待匹配内容的图片相同或相近的内容,可以认为是与待匹配内容匹配的目标内容;或者,可以是上述任何多种情况的结合等。
请参考图1a,为一种目标内容获取方法的原理示意图。对待匹配内容与各个备选内容进行多个目标内容匹配策略的筛选,获得每个目标内容匹配策略对应的各个初始目标内容。对各个初始目标内容进行与待匹配内容之间的目标匹配度的判断,获得至少一个目标内容。本申请实施例中,列举了四个维度的特征,所述维度包括:知识点维度、文本维度、知识树维度和图片维度。待匹配内容和备选内容均具有其中至少两个维度的特征。各个目标内容匹配策略与各个维度一一对应。本申请实施例中,列举了对应的四种目标内容匹配策略。知识点维度对应于第一匹配策略、文本维度对应于第二匹配策略、知识树维度对应于第三匹配策略,以及图片维度对应于第四匹配策略。
针对每个备选内容,下面对四种目标内容匹配策略进行具体介绍。
第一匹配策略:
基于待匹配内容和备选内容各自所属的知识点的之间的特征匹配度,筛选初始目标内容。
具体的,知识点可以是用于表征内容的关键信息的词语,例如,知识点可以是考试题目所属的知识点,或者,可以是视频或图片关联的标签,或者,可以是学术研究对应的关键字等。
对于两个内容来说,如果这两个内容分别所属的知识点相同或相近,那么这两个内容之间的相似程度较高,从而可以确定这两内容之间的特征匹配度。因此,通过确定待匹配内容所属的知识点,与备选内容所属的知识点之间的特征匹配度,获得待匹配内容与备选内容之间的初始匹配度,从而在各个备选内容中,可以筛选所属的知识点与待匹配内容所属的知识点之间的初始匹配度较高的初始目标内容,或者,可以筛选所属的知识点与待匹配内容所属的知识点之间的初始匹配度较低的初始目标内容,或者,可以筛选所属的知识点与待匹配内容所属的知识点之间的初始匹配度在同一预设范围内容的初始目标内容等。
第二匹配策略:
基于待匹配内容和备选内容各自对应的文本向量之间的特征匹配度,筛选初始目标内容。
具体的,文本向量可以用于量化内容在文字描述上特征,例如,文本向量可以是考试题目中的文本,或者,可以是视频或图片对应的标题,或者,可以是学术研究的题目等。
对于两个内容来说,如果这两个内容的文本相似,那么这两个内容之间的相似程度较高,从而可以确定这两内容之间的匹配度。因此,通过确定待匹配内容的文本向量,与备选题目的文本向量之间的特征匹配度,获得待匹配内容与备选内容之间的初始匹配度,从而在各个备选内容中,可以筛选文本与待匹配内容的本文之间初始匹配度较高的初始目标内容,或者,可以筛选文本与待匹配内容的本文之间初始匹配度较低的初始目标内容,或者,可以筛选文本与待匹配内容的本文之间初始匹配度在同一预设范围内容的初始目标内容等。
第三匹配策略:
基于待匹配内容和备选内容各自关联的知识树之间的特征匹配度,筛选初始目标内容。
具体的,知识树可以抽象出内容在知识点和文本上的综合特征,例如,知识树可以是考试题目中的知识点和文本的综合特征,或者,可以是视频或图片关联的标签和对应的标题的综合特征,或者,可以是学术研究对应的关键字和题目的综合特征等。
对于两个内容来说,如果这两个内容的知识点相同或相近,并且文本也相似,那么这两个内容之间的相似程度较高,从而可以确定这两内容之间的匹配度。因此,通过确定待匹配内容所属的知识点,与备选题目所属的知识点之间的特征匹配度,以及,待匹配内容的文本向量,与备选题目的文本向量之间的特征匹配度,获得待匹配内容与备选题目之间的初始匹配度,从而在各个备选内容中,可以筛选知识点和文本分别与待匹配内容的知识点和本文之间初始匹配度较高的初始目标内容,或者,可以筛选知识点和文本分别与待匹配内容的知识点和本文之间初始匹配度较低的初始目标内容,或者,可以筛选知识点和文本分别与待匹配内容的知识点和本文之间初始匹配度在同一预设范围内容的初始目标内容等。
第四匹配策略:
基于待匹配内容和备选内容各自的文本特征、图片特征和知识点特征而获得的特征匹配度,筛选初始目标内容。
具体的,对于两个内容来说,如果这两个内容的知识点相同或相近,文本也相似,并且图片也相近,那么这两个内容之间的相似程度较高,从而可以确定这两内容之间的匹配度。因此,可以通过确定待匹配内容的知识点特征,与备选内容的知识点特征之间的特征匹配度,以及,待匹配内容的文本特征,与备选内容的文本特征之间的特征匹配度,以及,待匹配内容的图片特征,与备选内容的图片特征之间的特征匹配度,获得待匹配内容与备选内容之间的初始匹配度,从而在各个备选内容中,可以筛选知识点、文本和图片与待匹配内容的知识点、文本和图片之间初始匹配度较高的初始目标内容,或者,可以筛选知识点、文本和图片与待匹配内容的知识点、文本和图片之间相初始匹配度较低的初始目标内容,或者,可以筛选知识点、文本和图片与待匹配内容的知识点、文本和图片之间相初始匹配度在同一预设范围内容的初始目标内容等。
应当说明的是,目标内容匹配策略不限于上述四种,还可以包括其他衡量两个内容之间的匹配度的策略,例如,对于考试题目来说,题型相似或难度等级相似等,在此不再赘述。
本申请实施例中,根据至少两个目标内容匹配策略,获得初始匹配度满足初始匹配条件的初始目标内容,从不同的角度定义了待匹配内容与初始目标内容之间的初始匹配度,使得获得的各个初始目标内容中所包括的初始目标内容更加全面,减少了遗漏匹配度高的初始目标内容的情况,提高了确定初始目标内容的准确性。
进一步的,在根据至少两个目标内容匹配策略获得各个初始目标内容之后,根据待匹配内容的特征向量、初始目标内容的特征向量和根据至少两个目标内容匹配策略获得的至少一个初始匹配度,进一步确定待匹配内容与初始目标内容之间的目标匹配度。通过特征向量,确定待匹配内容的隐含表达与初始目标内容的隐含表达之间的目标匹配度,同时引入由目标内容匹配策略确定的至少一个初始匹配度等额外信息,充分利用待匹配内容包含的所有特征确定待匹配内容与初始目标内容之间的目标匹配度,使得确定出的目标匹配度更加准确,基于目标匹配度,获得的目标内容更加准确。从而,例如,目标内容为相似题目时,学生可以针对相似题目进行更加具有针对性的学习,提高学习效率等。
下面对本申请提供的目标内容获取方法的应用场景进行说明。
请参考图1b,为目标内容获取方法的一种应用场景。该应用场景中包括目标内容获取设备101、模型训练设备102和存储设备103。目标内容获取设备101和模型训练设备102之间可以通信,模型训练设备102和存储设备103之间可以通信,题目序列确定设备101和存储设备103之间可以通信。通信方式可以是有线通信,例如通过连接网线或串口线进行通信;也可以是无线通信,例如蓝牙等通信方式,具体不做限制。
目标内容获取设备101泛指用于确定待匹配内容与各个备选内容之间的匹配度,并确定目标内容的设备,例如,终端设备、服务器或客户端等。终端设备可以是手机、台式计算机或平板电脑等。客户端可以是安装在终端设备中的第三方应用程序或终端设备可以访问的网页等。模型训练设备102泛指用于有监督训练神经网络模型的设备,或无监督训练神经网络模型的设备等,例如,终端设备或服务器等。存储设备103泛指用于存储数据的设备,例如关联了数据库的终端设备或服务器等。神经网络模型是利用人工智能技术或机器学习技术设计的算法模型。
作为一种实施例,目标内容获取设备101和模型训练设备102可以是同一个设备,或者,模型训练设备102和存储设备103可以是同一个设备,或者,目标内容获取设备101和模型训练设备102可以是同一个设备,或者,目标内容获取设备101、模型训练设备102和存储设备103可以是同一个设备,具体不做限制。本申请实施例中,以目标内容获取设备101、模型训练设备102和存储设备103分别为不同的设备为例进行介绍。
下面基于图1b,对各设备之间的交互进行示例说明:
目标内容获取设备101可以向存储设备103获取各个备选内容。目标内容获取设备101在获得各个备选内容之后,可以根据至少两个目标内容匹配策略,分别获得待匹配内容与各个备选内容之间的初始匹配度。目标内容获取设备101根据各个初始匹配度,从各个备选内容中获得各个初始目标内容。其中,初始目标内容是各个备选内容中与待匹配内容之间的初始匹配度满足初始匹配条件的备选内容。
目标内容获取设备101在获得各个初始目标内容之后,针对每个初始目标内容,根据待匹配内容的特征向量、初始目标内容的特征向量和初始目标内容的至少一个初始匹配度,获得待匹配内容与初始目标内容之间的目标匹配度。目标内容获取设备101基于各个目标匹配度,确定至少一个目标内容,其中,目标内容是各个初始目标内容中与待匹配内容之间的目标匹配度满足目标匹配条件的初始目标内容。
应该说明的是,为了提高确定待匹配内容与初始目标内容之间的目标匹配度的效率,目标内容获取设备101可以提前计算各个备选内容的特征向量,目标内容获取设备101还可以将提前获得的各个备选内容的特征向量存储于存储设备103中。从而,在目标内容获取设备101确定待匹配内容与初始目标内容之间的目标匹配度时,可以直接获取各个初始目标内容对应的特征向量,不需要实时计算每个初始目标内容的特征向量,提高了确定待匹配内容与初始目标内容之间的目标匹配度的效率。且,目标内容获取设备101可以根据自身的资源使用情况,在资源使用率较低时,提前计算各个备选内容的特征向量,减少了目标内容获取设备101资源使用率较高造成的确定待匹配内容与初始目标内容之间的目标匹配度的效率较低的情况。或者,目标内容获取设备101也可以实时计算每个初始目标内容的特征向量等,具体不做限制。
本申请实施例中,目标内容获取设备101根据至少两个目标内容匹配策略,可以获得待匹配内容与各个备选内容之间的初始匹配度,从不同的目标内容匹配策略的角度,对待匹配内容与各个备选内容之间的匹配度进行衡量,使得目标内容获取设备101获得的初始目标内容更加全面。目标内容获取设备101不仅依据待匹配内容的特征向量和初始目标内容的特征向量确定待匹配内容与目标内容之间的目标匹配度,还引入了根据至少两个目标内容匹配策略,获得的至少一个初始匹配度,使得确定出的目标匹配度更加准确。从而,目标内容获取设备101基于各个初始目标内容对应的目标匹配度,获得的至少一个目标内容的准确性更高。
请参考图1c,为目标内容获取方法的一种流程示意图,下面对目标内容获取方法的流程进行具体介绍。
S101,根据至少两个目标内容匹配策略,分别获得待匹配内容与各个备选内容之间的初始匹配度,并从各个备选内容中获得初始匹配度满足初始匹配条件的初始目标内容。
根据至少两个目标内容匹配策略,分别获得待匹配内容与各个备选内容之间的初始匹配度,至少两个目标内容匹配策略可以是第一匹配策略、第二匹配策略、第三匹配策略或第四匹配策略中的至少两个,或者,可以是其他目标内容匹配策略,本申请实施例中,以目标内容匹配策略包括第一匹配策略、第二匹配策略、第三匹配策略和第四匹配策略为例进行介绍。
下面对根据每个目标内容匹配策略,获得待匹配内容与各个备选内容之间的初始匹配度,并从各个备选内容中获得初始匹配度满足初始匹配条件的初始目标内容的过程进行介绍。
S1.1,根据第一匹配策略获得待匹配内容与各个备选内容之间的初始匹配度。
根据第一匹配策略获得待匹配内容与各个备选内容之间的初始匹配度的方法有多种,下面以其中的两种为例进行介绍。
方法一:
确定各个备选内容所属的知识点,与待匹配内容所属的知识点是否相同。
具体的,获取待匹配内容所属的知识点,以及各个备选内容所属的知识点。将每个备选内容所属的知识点,与待匹配内容所属的知识点进行比对。将所属的知识点与待匹配内容所属的知识点相同的备选内容的特征匹配度确定为特征匹配度最大值,例如1;将所属的知识点与待匹配内容所属的知识点不同的备选内容的特征匹配度确定为特征匹配度最小值,例如0。根据待匹配内容与各个备选内容的特征匹配度,获得待匹配内容与各个备选内容之间的初始匹配度。
作为一种实施例,在获取待匹配内容所属的知识点,以及各个备选内容所属的知识点之前,可以预先确定并存储各个备选内容所属的知识点。从而,在获取待匹配内容所属的知识点,以及各个备选内容所属的知识点,不需要实时确定待匹配内容所属的知识点,以及各个备选内容所属的知识点,可以直接获取存储的待匹配内容所属的知识点,以及各个备选内容所属的知识点,提高了获取待匹配内容所属的知识点,以及各个备选内容所属的知识点的效率。
方法二:
根据知识树,确定待匹配内容所属的知识点,与各个备选内容所属的知识点之间的相似程度。
具体的,知识树至少包括待匹配内容所属的知识点,以及各个备选内容所属的知识点。知识树以树结构存储待匹配内容所属的知识点,以及各个备选内容所属的知识点。知识树包括一个根节点和多个叶子节点,根节点对应一个知识点,各个叶子节点对应其他不同的知识点。
在知识树中,确定待匹配内容所属的知识点对应的叶子节点,并确定叶子节点到根节点之间的所有知识点,获得待匹配内容的知识点集合。以相同的方式,针对每个备选内容,获得备选内容的知识点集合,从而可以获得各个备选内容的知识点集合。
在获得待匹配内容的知识点集合,与各个备选内容的知识点集合之后,针对每个备选内容,确定待匹配内容的知识点集合,与备选内容的知识点集合之间所有相同的知识点,获得待匹配内容的知识点集合,与备选内容的知识点集合之间的知识点交集。
在获得知识点交集之后,确定待匹配内容的知识点集合,与备选内容的知识点集合包括的所有知识点,获得待匹配内容的知识点集合,与备选内容的知识点集合之间的知识点并集。
在获得知识点交集和知识点并集之后,将知识点交集中包括的知识点的数量除以知识点并集中包括的知识点的数量,计算待匹配内容所属的知识点,与备选内容所属的知识点之间的相似程度,获得待匹配内容与备选内容之间的初始匹配度,从而可以获得待匹配内容与各个备选内容之间的初始匹配度。
请参考图2,为一种知识树的结构示意图。知识树中包括第一知识点、第二知识点、第三知识点、第四知识点、第五知识点和第六知识点。其中,第一知识点为根节点,第二知识点、第三知识点、第四知识点、第五知识点和第六知识点为不同的叶子节点。
以待匹配内容所属的知识点为第四知识点,备选内容所属的知识点为第五知识点为例,对方法二进行介绍。
确定待匹配内容所属的知识点为第四知识点,并确定第四知识点到根节点第一知识点之间所有的知识点。待匹配内容的知识点集合包括第一知识点、第二知识点和第四知识点。在获得待匹配内容的知识点集合时,可以以相同的方式,获得备选内容的知识点集合。备选内容的知识点集合包括第一知识点、第二知识点和第五知识点。在获得待匹配内容的知识点集合和备选内容的知识点集合之后,确定待匹配内容的知识点集合和备选内容的知识点集合的知识点交集和知识点并集。知识点交集包括第一知识点和第二知识点,知识点并集包括第一知识点、第二知识点、第四知识点和第五知识点。在获得知识点交集和知识点并集之后,计算知识点交集包括的知识点的数量除以知识点并集包括的知识点的数量,即2/5,获得待匹配内容与备选内容之间的初始匹配度为0.4。
作为一种实施例,待匹配内容所属的知识点,以及各个备选内容所属的知识点还可以以表结构或知识图谱结构存储,具体存储形式不做限制。
作为一种实施例,为了提高确定初始匹配度的效率,可以预先计算各个备选内容的知识点集合,并存储各个备选内容的知识点集合。在确定待匹配内容与各个备选内容之间的初始匹配度时,可以获取存储的各个备选内容的知识点集合,不需要实时计算各个备选内容的知识点集合,简化了确定初始匹配度的过程,提高了确定初始匹配度的效率。
S1.2,根据第二匹配策略获得待匹配内容与各个备选内容之间的初始匹配度。
根据第二匹配策略获得待匹配内容与各个备选内容之间的初始匹配度的方法有多种,下面以其中的两种为例进行介绍。
方法A:
确定待匹配内容的文本向量,与备选内容的文本向量之间的特征匹配度,获得待匹配内容与备选内容之间的初始匹配度。
具体的,在确定待匹配内容的文本向量时,可以对待匹配内容中的文本进行分词处理,获得待匹配内容的文本对应的至少一个词语,以及,至少一个词语中每个词语的词向量。在获得至少一个词语和每个词语的词向量之后,将每个词语的词向量对应位置的取值相加,并计算对应位置的平均值,获得待匹配内容的文本向量。以相同的方式,针对每个备选内容,获得备选内容的文本向量,从而可以获得各个备选内容的文本向量。
在获得待匹配内容的文本向量和各个备选内容的文本向量之后,针对每个别选内容,可以确定待匹配内容的文本向量,与备选内容的文本向量之间的特征匹配度。根据特征匹配度,获得待匹配内容与备选内容之间的初始匹配度,从而可以获得待匹配内容与各个备选内容之间的初始匹配度。
确定待匹配内容的文本向量,与备选内容的文本向量之间的特征匹配度的方法有多种,例如,可以计算待匹配内容的文本向量,与备选内容的文本向量之间的欧式距离,或者,可以计算待匹配内容的文本向量,与备选内容的文本向量之间的马氏距离,或者,可以计算待匹配内容的文本向量,与备选内容的文本向量之间的余弦相似度等,具体不做限制。
作为一种实施例,为了提高确定初始匹配度的效率,在确定初始匹配度之前,可以预先计算并存储各个备选内容的文本向量,从而,在确定初始匹配度时,可以直接获取存储的各个备选内容的文本向量,以提高确定初始匹配度的效率。
方法B:
确定待匹配内容的文本中包括的词语,与备选内容中包括的词语之间的特征匹配度,获得待匹配内容与备选内容之间的初始匹配度。
具体的,在确定待匹配内容的文本中包括的词语,与备选内容中包括的词语之间的特征匹配度时,可以对待匹配内容中包括的文本进行分词处理,获得待匹配内容的词语集合,以及,词语集合中每个词语的词向量,词语集合包括至少一个词语。以相同的方式,针对每个备选内容,获得备选内容的词语集合,以及,词语集合中每个词语的词向量,从而可以获得各个备选内容的词语集合,以及,对应词语集合中每个词语的词向量。待匹配内容的词语集合,与各个备选内容的词语集合中词语的数量可以相同,也可以不同。
在获得待匹配内容的词语集合和各个备选内容的词语集合之后,针对待匹配内容的词语集合中的每个词语,可以计算词向量,与备选内容的词语集合中每个词语的词向量之间的特征匹配度,获得取值最大的特征匹配度,例如1。在确定取值最大的特征匹配度对应的词语之后,在备选内容的词语集合中删除该取值最大的特征匹配度对应的词语。直到待匹配内容的词语集合中每个词语均计算完成,或者,备选内容的词语集合中不包括任何词语为止。在确定特征匹配度之后,可以确定待匹配内容的词语集合中词语的数量,以及备选内容的词语集合中词语的数量,确定其中取值最大的词语数量。在获得取值最大的词语数量之后,将获得的所有特征匹配度相加,并除以获得的取值最大的词语数量,获得待匹配内容与备选内容之间的初始匹配度,从而可以获得待匹配内容与各个备选内容之间的初始匹配度。
在计算词向量,与备选内容的词语集合中每个词语的词向量之间的特征匹配度可能的方法与上述方法A中,确定待匹配内容的文本向量,与备选内容的文本向量之间的特征匹配度的方法相同,在此不再赘述。
以待匹配内容的词语集合包括第一词语、第二词语和第三词语,如[a1,a2,a3],备选内容的词语集合包括第四词语和第五词语,如[b1,b2]为例,对方法B进行介绍。例如,分别计算第一词语a1与第四词语b1和第五词语b2之间的特征匹配度s11和s12,分别为0.6和0.5,那么,获得s12,为0.6,并删除备选内容的词语集合中的第四词语b1,当前备选内容的词语集合包括第五词语[b2]。计算第二词语与第五词语之间的特征匹配度s22,为0.9,那么,获得0.9,并删除备选内容的词语集合中的第五词语b2,当前备选内容的词语集合中不包括任何词语。确定目标题目的词语集合中词语数量len(A)为2,备选内容的词语集合中词语数量len(B)为3,获得其中词语数量最大的值,即max(len(A),len(B)),为3。通过s12和s22的和sum(s12,s22)除以max(len(A),len(B)),获得待匹配内容与备选内容之间的初始匹配度sim_AB_text,即用0.6与0.9的和1.5,除以3,获得sim_AB_text为0.5。
作为一种实施例,为了提高确定初始匹配度的效率,可以预先计算并存储各个备选内容的词语集合,以及,词语集合中每个词语的词向量以提高确定初始匹配度的效率。
S1.3,根据第三匹配策略获得待匹配内容与各个备选内容之间的初始匹配度。
确定待匹配内容关联的知识树,与备选内容关联的知识树之间的特征匹配度,获得待匹配内容与备选内容之间的初始匹配度。
可以根据步骤S1.1中确定待匹配内容与各个备选内容之间的初始匹配度的方法,确定待匹配内容与各个备选内容之间的知识点初始匹配度。在获得待匹配内容与各个备选内容之间的知识点初始匹配度之后,根据知识点初始匹配度大于知识点初始匹配度预设值的备选内容,获得知识点目标内容备选集合。
针对知识点目标内容备选集合中每个备选内容,根据步骤S1.2中确定待匹配内容与备选内容之间的初始匹配度的方法,确定待匹配内容与各个备选内容之间的文本初始匹配度。在获得待匹配内容与各个备选内容之间的文本初始匹配度之后,确定知识点初始匹配度与文本初始匹配度的加权和,获得待匹配内容与知识点目标内容备选集合中每个备选内容之间的初始匹配度。其中,在计算加权和的时候,权重系数可以是根据经验值预先设置的,或者,可以是需求设置的,具体不做限制。
例如,知识点初始匹配度sim_AB_kc为0.6,文本初始匹配度sim_AB_text为0.7,权重系数lambda为0.5,那么加权后的知识点初始匹配度为lambda*sim_AB_kc,加权后的文本初始匹配度为(1-lambda)*sim_AB_text,从而,获得初始匹配度sim_AB为0.3与0.35的和,为0.65。
S1.4,根据第四匹配策略获得待匹配内容与各个备选内容之间的初始匹配度。
确定待匹配内容的文本特征、图片特征和知识点特征,与各个备选内容的文本特征、图片特征和知识点特征之间的特征匹配度,获得待匹配内容与各个备选内容之间的初始匹配度。
确定待匹配内容的文本特征、图片特征和知识点特征,与各个备选内容的文本特征、图片特征和知识点特征之间的特征匹配度的方法有多种,可以基于S1.1、S1.2和图像处理技术,如边缘特征提取技术等,确定待匹配内容的文本特征、图片特征和知识点特征,以及,各个备选内容的文本特征、图片特征和知识点特征,并根据S1.2介绍的确定待匹配内容的文本向量,与备选内容的文本向量之间的特征匹配度的方法,确定待匹配内容的文本特征、图片特征和知识点特征,与各个备选内容的文本特征、图片特征和知识点特征之间的特征匹配度。对文本特征、图片特征和知识点特征对应的特征匹配度进行加权平均处理后,获得待匹配内容与各个备选内容之间的初始匹配度。
或者,可以基于第二匹配度判断模型确定待匹配内容的文本特征、图片特征和知识点特征,与各个备选内容的文本特征、图片特征和知识点特征之间的特征匹配度,下面对基于第二匹配度判断模型确定的方法进行具体介绍。
第二匹配度判断模型可以是基于各个备选内容训练得到的。请参考图3a,为第二匹配度判断模型的一种原理示意图。第二匹配度判断模型可以包括特征提取网络、特征融合网络和判决网络。特征提取网络可以包括知识点特征子图子网络、文本特征提取子网络和图片特征提取子网络。特征提取网络用于提取题目的文本特征向量、知识点特征向量和图片特征向量。其中,文本特征向量、知识点特征向量和图片特征向量的维度统一。特征融合网络用于将特征提取网络提取的文本特征向量、知识点特征向量和图片特征向量融合,获得融合特征向量。判决网络用于对特征融合网络获得的融合特征向量进行判决,获得初始匹配度。
在根据第二匹配度判断模型获得待匹配内容与各个备选内容之间的特征匹配度之前,需要先获得已训练的第二匹配度判断模型。下面先对训练第二匹配度判断模型的过程进行介绍,请参考图3b,为一种训练第二匹配度判断模型的原理示意图。
在获得备选内容的知识点、文本和图片之后,将备选内容的知识点输入知识点特征提取子网络,将备选内容的文本输入文本特征提取子网络,即覆盖(mask)图片,获得预测图片特征向量。根据图片特征向量,对备选题目的图片进行预测,获得备选内容的预测图片。将备选内容的知识点输入知识点特征提取子网络,将备选内容的图片输入图片特征提取子网络,即覆盖(mask)文本,获得备选内容的文本特征向量。根据备选内容的文本特征向量,对备选内容的文本进行预测,获得备选内容的预测文本。将备选内容的文本输入文本特征提取子网络,将备选内容的图片输入图片特征提取子网络,即覆盖(mask)知识点,获得知识点特征向量。根据知识点特征向量,对备选内容的知识点进行预测,获得备选内容的预测知识点。
根据备选内容的图片与获得的预测图片之间的误差,计算图片特征提取子网络的图片训练损失。如果图片训练损失没有达到图片目标损失,那么调整图片特征提取子网络的图片模型参数。根据备选内容的文本与获得的预测文本之间的误差,计算文本特征提取子网络的文本训练损失。如果文本训练损失没有达到文本目标损失,那么调整文本特征提取子网络的文本模型参数。根据备选内容的知识点与获得的预测知识点之间的误差,计算知识点特征提取子网络的知识点训练损失。如果知识点训练损失没有达到知识点目标损失,那么调整知识点特征提取子网络的知识点模型参数。
在调整了知识点特征提取子网络的知识点模型参数、文本特征提取子网络的文本模型参数或图片特征提取子网络的图片模型参数中的一种或多种之后,可以利用下一个备选题目继续对特征提取网络进行训练,直到知识点特征提取子网络的知识点训练损达到知识点目标损失、文本特征提取子网络的文本训练损达到文本目标损失,且图片特征提取子网络的图片训练损失均达到图片目标损失为止。
作为一种实施例,在获得图片训练损失、文本训练损失和知识点训练损失之后,可以将图片训练损失、文本训练损失和知识点训练损失进行归一化处理,将图片训练损失、文本训练损失和知识点训练损失转化为统一维度的值。请参考图3c,为一种训练第二匹配度判断模型的原理示意图。在获得归一化之后的图片训练损失、文本训练损失和知识点训练损失之后,对图片训练损失、文本训练损失和知识点训练损失进行求和处理,如果图片训练损失、文本训练损失和知识点训练损失之和不满足目标训练损失,那么调整图片特征提取子网络的图片模型参数、文本特征提取子网络的文本模型参数和知识点特征提取子网络的知识点模型参数。
在知识点特征提取子网络的知识点训练损达到知识点目标损失、文本特征提取子网络的文本训练损达到文本目标损失,且图片特征提取子网络的图片训练损失均达到图片目标损失时,获取当前知识点特征提取子网络的知识点模型参数、当前文本特征提取子网络的文本模型参数和当前图片特征提取子网络的图片模型参数,获得已训练的第二相似题目判断模型。
作为一种实施例,文本特征提取子网络可以是word2vec网络模型,知识点特征提取子网络或图片特征提取子网络可以是自编码(autoencoder)网络模型。
作为一种实施例,根据备选内容的文本与备选内容的预测文本之间的误差,计算文本特征提取子网络的文本训练损失的过程可以通过逻辑回归模型(softmax)实现。
作为一种实施例,根据备选内容的知识点与备选内容的预测知识点之间的误差,计算知识点特征提取子网络的知识点训练损失的过程可以通过L2损失函数实现。
作为一种实施例,根据备选内容的图片与备选内容的预测图片之间的误差,计算图片特征提取子网络的图片训练损失的过程可以通过L2损失函数实现。
作为一种实施例,知识点特征向量、文本特征向量和图片特征向量均可以是一个向量,也可以是多个向量。
下面对基于第二匹配度判断模型,确定待匹配内容与备选内容之间的初始匹配度进行具体介绍,请继续参考图3a。
将待匹配内容输入第二匹配度判断模型的特征提取网络,可以获得待匹配内容的知识点特征向量、文本特征向量和图片特征向量。在获得待匹配内容的知识点特征向量、文本特征向量和图片特征向量之后,将知识点特征向量、文本特征向量和图片特征向量输入第二匹配度判断模型的特征融合网络,特征融合网络将知识点特征向量、文本特征向量和图片特征向量对应位置上的取值相加,并计算对应位置上的平均值,获得待匹配内容的融合特征向量。以相同的方法,获得各个备选内容的融合特征向量。
在获得待匹配内容的融合特征向量和备选内容的融合特征向量之后,确定待匹配内容的融合特征向量,与备选内容的融合特征向量之间的特征匹配度,获得待匹配内容与各个备选内容之间的初始匹配度。其中,确定待匹配内容的融合特征向量,与备选内容的融合特征向量之间的匹配度可能的方法,与S1.2的方法A中,确定待匹配内容的文本向量,与备选内容的文本向量之间的特征匹配度的方法相同,在此不再赘述。
S1.5,从各个备选内容中获得初始匹配度满足初始匹配条件的初始目标内容。
在获得各个备选内容与待匹配内容之间的初始匹配度之后,可以根据初始匹配条件,在各个备选内容中,确定各个初始匹配度是否满足初始匹配条件,将满足初始匹配条件的备选内容作为初始目标内容,获得各个初始目标内容。
初始匹配条件可以包括第一匹配策略、第二匹配策略、第三匹配策略或第四匹配策略中的一种或多种对应的初始匹配条件。例如,初始匹配条件包括初始匹配度大于预设初始匹配阈值;或者,初始匹配度,小于预设初始匹配阈值;或者,初始匹配度在预设初始匹配范围内等。
本申请实施例中,以初始匹配条件包括第一匹配策略、第二匹配策略、第三匹配策略和第四匹配策略对应的初始匹配条件为例进行介绍。根据第一匹配策略对应的初始匹配条件,筛选各个备选内容,获得第一匹配策略对应的初始目标内容备选集合,初始目标内容备选集合中包括各个第一匹配策略对应的初始目标内容,以及相应的初始匹配度。以相同的方式,根据第二匹配策略对应的初始匹配条件,获得第二匹配策略对应的初始目标内容备选集合,初始目标内容备选集合中包括各个第二匹配策略对应的初始目标内容,以及相应的初始匹配度。根据第三匹配策略对应的初始匹配条件,获得第三匹配策略对应的初始目标内容备选集合,初始目标内容备选集合中包括各个第三匹配策略对应的初始目标内容,以及相应的初始匹配度。根据第四匹配策略对应的初始匹配条件,获得第四匹配策略对应的初始目标内容备选集合,初始目标内容备选集合中包括各个第四匹配策略对应的初始目标内容,以及相应的初始匹配度。
在获得各个目标内容匹配策略对应的初始目标内容备选集合之后,将所有目标内容匹配策略对应的初始目标内容备选集合合并,并删除重复的初始目标内容,获得初始目标内容集合。初始目标内容集合中包括各个初始目标内容,以及至少一个初始匹配度。
如果各个目标内容匹配策略对应的初始目标内容备选集合中,某一初始目标内容仅包含在其中一个初始目标内容备选集合中,那么获得的初始目标内容集合中仅包括该初始目标内容对应的一个初始匹配度。如果各个目标内容匹配策略对应的初始目标内容备选集合中,某一初始目标内容包含在其中两个初始目标内容备选集合中,那么在合并各个初始目标内容备选集合时,删除与该初始目标内容重复的初始目标内容,保留该初始目标内容的初始匹配度,获得的初始目标内容集合中包括该初始目标内容对应的两个初始匹配度等,在此不一一列举。
作为一种实施例,S1.1~S1.4的执行顺序可以是任意的,不做具体限制。
S102,分别根据所述待匹配内容的特征向量、初始目标内容的特征向量和初始目标内容的至少一个初始匹配度,获得各个初始目标内容的目标匹配度。
在获得各个初始目标内容之后,可以根据已训练的第一匹配度判断模型,确定待匹配内容与各个初始目标内容之间的目标匹配度。第一匹配度判断模型是根据目标题目样本以及标识有匹配度标签的相似题目样本训练得到的。请参考图4a,为第一匹配度判断模型的一种原理示意图。第一匹配度判断模型包括特征向量提取网络和目标匹配度判决网络,特征向量提取网络包括两个特征向量提取子网络。
下面先对训练第一匹配度判断模型的过程进行简单介绍。
针对每个目标内容样本,将待匹配内容样本输入一个特征向量提取子网络,获得待匹配内容样本的特征向量。将目标内容样本输入另一个特征向量提取子网络,获得目标内容样本的特征向量。将待匹配内容样本的特征向量、目标内容样本的特征向量以及待匹配内容样本与目标内容样本之间的至少一个初始匹配度输入目标匹配度判决网络,获得待匹配内容样本与目标内容样本的训练目标匹配度。并根据训练目标匹配度和匹配度标签,确定待匹配内容特征向量提取子网络、目标内容特征向量提取子网络和目标匹配度判决网络的训练损失,如果训练损失没有达到目标损失,那么调整待匹配内容特征向量提取子网络、目标内容特征向量提取子网络和目标匹配度判决网络的模型参数,直到训练损失达到目标损失为止。根据当前待匹配内容特征向量提取子网络、目标内容特征向量提取子网络和目标匹配度判决网络的模型参数,获得已训练的第一匹配度判断模型。通过采用不同的特征向量提取模型对待匹配内容样本和目标内容样本进行特征提取,可以同时获得待匹配内容样本的特征向量,和目标内容样本的特征向量,提高了获得特征向量的效率。
作为一种实施例,待匹配内容特征向量提取子网络和目标内容特征向量提取子网络可以是双向编码器表征量(bidirectional encoder representations fromtransformers,bert)模型。第一匹配度判断模型可以是双塔模型。
作为一种实施例,待匹配内容特征向量提取子网络的模型参数和目标内容特征向量提取子网络的模型参数在可以共享,因此,在训练模型参数时,可以同时进行训练,通过参数共享的方式训练特征向量提取模块,可以减少需要训练的模型参数,提高训练效率。
下面对利用已训练的第一匹配度判断模型,确定目标匹配度的过程进行介绍。
针对各个初始目标内容中每个初始目标内容,将待匹配内容输入待匹配内容特征向量提取子网络,获得待匹配内容的特征向量。将初始目标内容输入目标内容特征向量提取子网络,获得初始目标内容的特征向量。将待匹配内容的特征向量、初始目标内容的特征向量,以及待匹配内容与初始目标内容之间的至少一个初始匹配度输入目标匹配度判决网络,获得待匹配内容与初始目标内容之间的目标匹配度。
以bert模型为特征向量提取子网络,“0/1”网络为判决网络为例,对获得待匹配内容与各个初始目标内容之间的目标匹配度的过程进行介绍。
请参考图4b,为第一匹配度判断模型的一种原理示意图。将待匹配内容输入一个bert模型,获得待匹配内容的特征向量A,初始目标内容输入另一个bert模型,获得初始目标内容的特征向量B。其中,两个bert模型的模型参数共享。将特征向量A、特征向量B、根据第三匹配策略确定的初始匹配度,以及根据第四匹配策略确定的初始匹配度输入“0/1”网络,获得待匹配内容与初始目标内容之间的目标匹配度。
S103,基于各个初始目标内容对应的目标匹配度,获得目标匹配度满足目标匹配条件的至少一个目标内容。
在获得待匹配内容与各个初始目标内容之间的目标匹配度之后,确定各个目标匹配度是否满足目标匹配条件。在各个初始目标内容中,将目标匹配度是否满足目标匹配条件的初始目标内容,确定为目标内容,获得至少一个目标内容。
目标匹配条件可以是目标匹配度大于预设目标匹配阈值;或者,可以是目标匹配度小于预设目标匹配阈值;或者,可以是目标匹配度在预设目标匹配范围内等。
作为一种实施例,在获得待匹配内容与各个初始目标内容之间的目标匹配度之后,可以根据目标匹配度,对各个初始目标内容进行排序,获得初始目标内容序列。在获得初始目标内容序列之后,确定目标匹配度满足目标匹配条件的初始目标内容,将初始目标内容确定为目标内容,获得待匹配内容关联的目标内容序列。或者,在获得至少一个目标内容之后,可以根据目标匹配度,对各个目标内容进行排序,获得待匹配内容关联的目标内容序列。
作为一种实施例,在获得至少一个目标内容之后,或者,在获得待匹配内容关联的目标内容序列之后,可以对每个目标内容执行相应的业务处理流程。例如,当目标内容为相似题目时,按照目标内容序列中目标内容的顺序,依次输出每个目标内容,以使学生可以按照与匹配度由高到低,或由低到高的顺序,进行相似题目的练习;或者,当目标内容为相似视频时,按照目标内容序列中目标内容的顺序,以匹配度由高到低,或由低到高的顺序,在列表中向用户展示相似视频等。
请参考图5a,为本申请实施例涉及的目标内容获取设备101、模型训练设备102和存储设备103之间的交互过程示意图。下面基于图1b的应用场景,并结合图5a,以自适应教育场景下,待匹配内容为目标题目,目标内容为相似题目为例,对本申请实施例中的目标内容获取方法进行介绍。
S501,存储设备103向目标内容获取设备101发送各个备选题目。
目标题目和各个备选题目可以是在同一个题目集合中,题目集合中的任一题目均可以作为目标题目,除了目标题目以外的其他题目为各个备选题目;或者,目标题目和各个备选题目可以是在不同的题目集合中,具体不做限制。
存储设备103中可以存储各个备选题目。各个备选题目可以包括同一个学科关联的题目,或者,可以包括不同的学科关联的题目等,具体不做限制。
目标内容获取设备101可以向存储设备103获取各个备选题目。例如,目标内容获取设备101向存储设备103发送指示信息,用于指示存储设备103向目标内容获取设备101发送各个备选题目,目标内容获取设备101接收存储设备103发送的各个备选题目。
S502,目标内容获取设备101根据至少两个目标内容匹配策略,分别获得目标题目与各个备选题目之间的初始匹配度。
目标内容获取设备101在获得各个备选题目之后,可以根据至少两个目标内容匹配策略,分别获得目标题目与各个备选题目之间的初始匹配度,使得目标内容获取设备101可以更加全面的在各个备选题目中筛选初始匹配度满足初始匹配条件的相似题目。至少两个目标内容匹配策略可以包括前文介绍的第一匹配策略、第二匹配策略、第三匹配策略或第四匹配策略种的两种或三种或四种。例如,至少两个目标内容匹配策略包括第一匹配策略和第三匹配策略;或者,至少两个目标内容匹配策略包括第一匹配策略、第二匹配策略和第三匹配策略;或者,至少两个目标内容匹配策略包括第一匹配策略、第二匹配策略、第三匹配策略和第四匹配策略等。
对于不同的目标内容匹配策略,获得目标题目与各个备选题目之间的初始匹配度的方法不同,下面对获得目标题目与各个备选题目之间的初始匹配度方法进行具体介绍。
S2.1,当目标内容匹配策略包括第一匹配策略时,目标内容获取设备101获得目标题目与各个备选题目之间的初始匹配度。
目标内容获取设备101确定目标题目所属的知识点,与备选题目所属的知识点之间的特征匹配度,获得目标题目与备选题目之间的初始匹配度。获得目标题目与备选题目之间的初始匹配度的方法有多种,下面以前文介绍的方法一和方法二为例进行介绍。
方法一:
目标内容获取设备101确定各个备选题目所属的知识点,与目标题目所属的知识点是否相同。
具体的,目标内容获取设备101获取各个备选题目所属的知识点,将每个备选题目所属的知识点,与目标题目所属的知识点进行比对。目标内容获取设备101将所属的知识点与目标题目所属的知识点相同的备选题目的特征匹配度确定为特征匹配度最大值,例如1;将所属的知识点与目标题目所属的知识点不同的备选题目的特征匹配度确定为特征匹配度最小值。目标内容获取设备101获得目标题目与各个备选题目之间的初始匹配度。
作为一种实施例,各个备选题目所属的知识点可以存储于存储设备103中,在目标内容匹配策略包括第一匹配策略时,目标内容获取设备101可以向存储设备103获取各个备选题目所属的知识点,或者,目标内容获取设备101可以在向存储设备103获取各个备选题目的同时,获取各个备选题目所属的知识点等,具体不做限制。
方法二:
目标内容获取设备101根据知识树,确定目标题目所属的知识点,与各个备选题目所属的知识点之间的相似程度。
具体的,知识树至少包括目标题目所属的知识点,以及各个备选题目所属的知识点。与知识树相关的内容可以参照前文的论述,在此不再赘述。目标内容获取设备101在知识树中,确定目标题目所属的知识点对应的叶子节点,并确定叶子节点到根节点之间的所有知识点,获得目标题目的知识点集合。以相同的方式,针对每个备选题目,目标内容获取设备101确定备选题目的知识点集合,获得各个备选题目的知识点集合。
目标内容获取设备101确定目标题目的知识点集合,与备选题目的知识点集合中所有相同的知识点,获得目标题目的知识点集合,与备选题目的知识点集合之间的知识点交集。目标内容获取设备101确定目标题目的知识点集合,与备选题目的知识点集合中包括的所有知识点,获得目标题目的知识点集合,与备选题目的知识点集合之间的知识点并集。
目标内容获取设备101将知识点交集中包括的知识点的数量除以知识点并集中包括的知识点的数量,获得目标题目所属的知识点,与备选题目所属的知识点之间的相似程度,即目标题目与备选题目之间的初始匹配度。
作为一种实施例,知识树可以存储于存储设备103中,在基于方法二确定目标题目与各个备选题目之间的初始匹配度之前,目标内容获取设备101可以向存储设备103获得预存的知识树。
作为一种实施例,为了提高确定初始匹配度的效率,目标内容获取设备101可以预先计算各个备选题目的知识点集合,并将各个备选题目的知识点集合存储于存储设备103中。目标内容获取设备101在确定目标题目与各个备选题目之间的初始匹配度时,可以向存储设备103获取各个备选题目的知识点集合,不需要实时计算各个备选题目的知识点集合,简化了确定初始匹配度的过程,提高了确定初始匹配度的效率。且,目标内容获取设备101可以在资源使用率较低时,计算各个备选题目的知识点集合,提高了资源使用的合理性,减少了资源使用率较高,造成的确定初始匹配度出现延迟的情况。
S2.2,当相似题目匹配策略包括第二匹配策略时,目标内容获取设备101获得目标题目与各个备选题目之间的初始匹配度。
目标内容获取设备101确定目标题目的文本向量,与备选题目的文本向量之间的特征匹配度,获得目标题目与备选题目之间的初始匹配度。获得目标题目与备选题目之间的初始匹配度的方法有多种,下面以前文介绍的方法A和方法B为例进行介绍。
方法A:
目标内容获取设备101确定目标题目的文本向量,与备选题目的文本向量之间的特征匹配度,获得目标题目与备选题目之间的初始匹配度。
具体的,目标内容获取设备101可以对目标题目的文本进行分词处理,获得目标题目的文本对应的至少一个词语,以及,至少一个词语中每个词语的词向量。目标内容获取设备101将至少一个词语中每个词语的词向量对应位置的取值相加,并计算对应位置的平均值,获得目标题目的文本向量。以相同的方式,目标内容获取设备101确定各个备选题目的文本向量。目标内容获取设备101确定目标题目的文本向量,与备选题目的文本向量之间的特征匹配度,获得目标题目与备选题目之间的初始匹配度。
目标内容获取设备101确定目标题目的文本向量,与备选题目的文本向量之间的特征匹配度的方法有多种,例如,目标内容获取设备101计算目标题目的文本向量,与备选题目的文本向量之间的欧式距离,或者,目标内容获取设备101计算目标题目的文本向量,与备选题目的文本向量之间的马氏距离,或者,目标内容获取设备101计算目标题目的文本向量,与备选题目的文本向量之间的余弦相似度等,具体不做限制。
作为一种实施例,为了提高确定初始匹配度的效率,目标内容获取设备101同样可以预先计算各个备选题目的文本向量,并存储于存储设备103中,在此不再赘述。
方法B:
目标内容获取设备101确定目标题目包括的词语,与备选题目包括的词语之间的特征匹配度,获得目标题目与备选题目之间的初始匹配度。
具体的,目标内容获取设备101可以对目标题目的文本进行分词处理,获得目标题目的词语集合,以及,词语集合中每个词语的词向量,词语集合包括至少一个词语。以相同的方式,获得备选题目的词语集合,以及,词语集合中每个词语的词向量。目标题目的词语集合,和备选题目的词语集合中词语的数量可以相同,也可以不同。
针对目标题目的词语集合中的每个词语,目标内容获取设备101计算词向量,与备选题目的词语集合中每个词语的词向量之间的特征匹配度,获得取值最大的特征匹配度,并在备选题目的词语集合中删除该特征匹配度对应的词语。直到目标题目的词语集合中每个词语均计算完成,或者,备选题目的词语集合中不包括任何词语为止。目标内容获取设备101确定目标题目的词语集合中词语的数量,以及备选题目的词语集合中词语的数量,获得其中取值最大的词语数量。目标内容获取设备101将获得的所有特征匹配度相加,并除以获得的取值最大的词语数量,获得目标题目与备选题目之间的初始匹配度。
目标内容获取设备101计算词向量,与备选题目的词语集合中每个词语的词向量之间的特征匹配度可能的方法与上述方法A中,目标内容获取设备101确定目标题目的文本向量,与备选题目的文本向量之间的特征匹配度的方法相同,在此不再赘述。
作为一种实施例,为了提高确定初始匹配度的效率,目标内容获取设备101同样可以预先获得各个备选题目的词语集合,以及,词语集合中每个词语的词向量,并存储于存储设备103中,在此不再赘述。
S2.3,当目标内容匹配策略包括第三匹配策略时,目标内容获取设备101获得目标题目与各个备选题目之间的初始匹配度。
目标内容获取设备101确定目标题目关联的知识树,与备选题目关联的知识树之间的特征匹配度,获得目标题目与备选题目之间的初始匹配度。
目标内容获取设备101可以根据步骤S2.1中确定目标题目与各个备选题目之间的初始匹配度的方法,确定目标题目与各个备选题目之间的知识点初始匹配度。目标内容获取设备101在获得目标题目与各个备选题目之间的知识点初始匹配度之后,根据知识点初始匹配度大于知识点初始匹配度预设值的备选题目,获得知识点目标内容备选集合。
目标内容获取设备101针对知识点目标内容备选集合中每个备选题目,根据步骤S2.2中确定目标题目与备选题目之间的初始匹配度的方法,确定目标题目与备选题目之间的文本初始匹配度。目标内容获取设备101在获得目标题目与备选题目之间的文本初始匹配度之后,确定知识点初始匹配度与文本初始匹配度的加权和,获得目标题目与知识点目标内容备选集合中每个备选题目之间的初始匹配度。其中,在计算加权和的时候,权重系数可以是根据经验值预先设置的,或者,可以是需求设置的,具体不做限制。
S2.4,当目标内容匹配策略包括第四匹配策略时,目标内容获取设备101获得目标题目与各个备选题目之间的初始匹配度。
目标内容获取设备101确定目标题目的文本特征、图片特征和知识点特征,与备选题目的文本特征、图片特征和知识点特征之间的特征匹配度,获得目标题目与备选题目之间的初始匹配度。
目标内容获取设备101可以基于第二匹配度判断模型获得目标题目与各个备选题目之间的特征匹配度。第二匹配度判断模型可以是基于各个备选题目训练得到的。目标内容获取设备101在根据第二匹配度判断模型获得目标题目与各个备选题目之间的特征匹配度之前,需要先获得已训练的第二匹配度判断模型。训练过程可以由模型训练设备102执行。与第二匹配度判断模型相关的内容可以参照前文介绍的内容,在此不再赘述。
在模型训练设备102获得已训练的第二相似题目判断模型之后,可以向目标内容获取设备101发送已训练的第二匹配度判断模型。目标内容获取设备101接收已训练的第二匹配度判断模型之后,可以通过接收的第二匹配度判断模型确定题目的知识点特征向量、文本特征向量和图片特征向量。
以备选题目为“参考图img,假设三角形ABC是等腰三角形,边AB是边BC长度的2倍,求三角形ABC的面积。知识点:等腰三角形,三角形的面积”为例,对训练过程进行介绍,请参考图5b,为训练第二匹配度判断模型的一种原理示意图。
模型训练设备102将“知识点:等腰三角形,三角形的面积”输入知识点特征提取子网络,将“假设三角形ABC是等腰三角形,边AB是边BC长度的2倍,求三角形ABC的面积”输入文本特征提取子网络,获得图片特征向量W11。模型训练设备102根据图片特征向量,获得备选题目的参考图片。模型训练设备102根据备选题目的图片与备选题目的参考图片之间的误差,计算图片特征提取子网络的图片训练损失(L2-loss)。如果图片训练损失没有达到图片目标损失,那么模型训练设备102调整图片特征提取子网络的图片模型参数,如图5b(1)。
模型训练设备102将“知识点:等腰三角形,三角形的面积”输入知识点特征提取子网络,将“图img”输入图片特征提取子网络,获得备选题目的文本特征向量W21、W22和W23。模型训练设备102根据备选题目的文本特征向量,获得备选题目的参考文本。模型训练设备102文本训练损失(loss)。如果文本训练损失没有达到文本目标损失,那么模型训练设备102调整文本特征提取子网络的文本模型参数,如图5b(2)。
模型训练设备102将“假设三角形ABC是等腰三角形,边AB是边BC长度的2倍,求三角形ABC的面积”输入文本特征提取子网络,将“图img”输入图片特征提取子网络,获得知识点特征向量W31和W32。模型训练设备102根据知识点特征向量,获得备选题目的参考知识点。模型训练设备102备选题目的知识点与备选题目的参考知识点之间的误差,计算知识点特征提取子网络的知识点训练损失(L2-loss)。如果知识点训练损失没有达到知识点目标损失,那么模型训练设备102调整知识点特征提取子网络的知识点模型参数,如图5b(3)。
下面对目标内容获取设备101基于第二匹配度判断模型,确定目标题目与备选题目之间的初始匹配度进行具体介绍,请继续参考图3a。
目标内容获取设备101将目标题目输入第二匹配度判断模型,获得目标题目的知识点特征向量、文本特征向量和图片特征向量。目标内容获取设备101将知识点特征向量、文本特征向量和图片特征向量输入特征融合网络,将知识点特征向量、文本特征向量和图片特征向量对应位置上的取值相加,并计算对应位置上的平均值,获得目标题目的融合特征向量。以相同的方法,目标内容获取设备101获得各个备选题目的融合特征向量。
目标内容获取设备101确定目标题目的融合特征向量,与备选题目的融合特征向量之间的特征匹配度,获得目标题目与各个备选题目之间的初始匹配度。其中,目标内容获取设备101确定目标题目的融合特征向量,与备选题目的融合特征向量之间的特征匹配度可能的方法,与S2.2的方法A中,目标内容获取设备101确定目标题目的文本向量,与备选题目的文本向量之间的特征匹配度的方法相同,在此不再赘述。
以目标题目的文本特征向量为V11、V12和V13,图片特征向量为V21、V22和V23,知识点特征向量为V31和V32为例,对目标内容获取设备101确定目标题目于备选题目之间的初始匹配度的过程进行介绍。
目标内容获取设备101将目标题目的文本、图片和知识点输入第二匹配度判断模块的特征提取网络,获得目标题目的文本特征向量为V11、V12和V13,图片特征向量为V21、V22和V23,以及,知识点特征向量为V31和V32。目标内容获取设备101将目标题目的文本特征向量,图片特征向量,以及,知识点特征向量输入第二匹配度判断模块的特征融合网络,计算V11、V12、V13、V21、V22、V23、V31和V32的和,并求平均值,获得融合特征向量M1。目标内容获取设备101将融合特征向量M1,以及备选题目的融合特征向量M2输入第二匹配度判断模块的判决网络,获得目标题目与备选题目之间的初始匹配度。
S503,目标内容获取设备101从各个备选题目中筛选相似题目,获得包含各个相似题目的目标内容备选集合。
针对根据至少两个目标内容匹配策略,获得的每个目标内容匹配策略对应的初始匹配度。目标内容获取设备101可以在备选集合中,确定初始匹配度满足初始匹配条件的备选题目,例如确定初始匹配度大于初始匹配度预设值的备选题目,获得目标内容备选集合。目标内容获取设备101将获得的每个目标内容备选集合合并,并删除其中重复的题目,获得目标内容集合。目标内容集合包括各个初始匹配度满足初始匹配条件的备选题目,以及每个备选题目对应的至少一个初始匹配度。
下面以至少两个目标内容匹配策略包括第一匹配策略、第二匹配策略、第三匹配策略和第四匹配策略为例进行介绍。
目标内容获取设备101根据第一匹配策略,获得目标题目与各个备选题目之间的初始匹配度之后,可以在各个备选题目中确定初始匹配度大于第一阈值的备选题目。目标内容获取设备101筛选出初始匹配度大于第一阈值的备选题目之后,获得第一目标内容备选集合。
目标内容获取设备101根据第二匹配策略,获得目标题目与各个备选题目之间的初始匹配度之后,可以在各个备选题目中确定初始匹配度大于第二阈值的备选题目。目标内容获取设备101筛选出初始匹配度大于第二阈值的备选题目之后,获得第二目标内容备选集合。
目标内容获取设备101根据第三匹配策略,获得目标题目与各个备选题目之间的初始匹配度之后,可以在各个备选题目中确定初始匹配度大于第三阈值的备选题目。目标内容获取设备101筛选出初始匹配度大于第三阈值的备选题目之后,获得第三目标内容备选集合。
目标内容获取设备101根据第四匹配策略,获得目标题目与各个备选题目之间的初始匹配度之后,可以在各个备选题目中确定初始匹配度大于第四阈值的备选题目。目标内容获取设备101筛选出初始匹配度大于第四阈值的备选题目之后,获得第四目标内容备选集合。
目标内容获取设备101将第一目标内容备选集合、第二目标内容备选集合、第三目标内容备选集合和第四目标内容备选集合中的备选题目合并,并删除其中重复的备选题目,获得目标内容集合。目标内容集合包括各个初始匹配度大于各个阈值的备选题目,以及每个备选题目对应的至少一个初始匹配度。
S504,目标内容获取设备101获取第一匹配度判断模型。
目标内容获取设备101可以向模型训练设备103获取第一匹配度判断模型,用于确定目标题目与目标内容集合中每个相似题目之间的目标匹配度。第一匹配度判断模型是根据目标题目样本以及标识有匹配度标签的相似题目样本训练得到的。第一匹配度判断模型的训练过程可以由模型训练设备103执行,与第一匹配度判断模型相关的内容可以参照前文的论述,在此不再赘述。
在模型训练设备103获得已训练的第一匹配度判断模型之后,可以向目标内容获取设备101发送第一匹配度判断模型。目标内容获取设备101在接收第一匹配度判断模型之后,可以通过第一匹配度判断模型确定目标题目与各个相似题目之间的目标匹配度。
S505,目标内容获取设备101获得目标题目与各个相似题目之间的目标匹配度。
针对目标内容集合中每个相似题目,目标内容获取设备101将目标题目输入待匹配内容特征向量提取子网络,获得目标题目的特征向量。将相似题目输入目标内容特征向量提取子网络,获得相似题目的特征向量。模型训练设备103将目标题目的特征向量、相似题目的特征向量以及目标题目与相似题目之间的至少一个初始匹配度输入目标匹配度判决网络,获得目标题目与相似题目的目标匹配度。
S506,目标内容获取设备101根据各个相似题目对应的目标匹配度,获得目标题目关联的目标内容序列。
目标内容获取设备101根据各个相似题目对应的目标匹配度,对相似题目排序,获得排序后的各相似题目。目标内容获取设备101可以获取排在预设位置之前的所有相似题目,生成目标内容序列。目标内容序列中包括至少一个相似题目。
S507,目标内容获取设备101基于目标内容序列,执行目标题目关联的业务处理流程。
目标内容获取设备101执行目标题目关联的业务处理流程可以包括多种方式,例如,目标内容获取设备101可以依次输出目标内容序列中的每个相似题目,从而,可以按照与目标题目相似程度由高到低,或由低到高的顺序,学生可以依次获得目标内容序列中的每个相似题目,使得学生可以进行循序渐进的练习。
或者,目标内容获取设备101可以依次输出目标内容序列中,与目标题目相似程度在一定范围内的相似题目,使得学生可以进行有针对性的学习。
作为一种实施例,步骤S501、S504和S506为可选的步骤。
基于同一发明构思,本申请实施例提供一种目标内容获取方法,请参考图6,为目标内容获取方法的一种流程示意图。
S601,针对各个备选内容,确定待匹配内容所属的知识点与备选内容所属的知识点之间的特征匹配度,获得待匹配内容与备选内容之间的知识点初始匹配度。具体过程可以参照S1.3中介绍的内容,在此不再赘述。
S602,根据知识点初始匹配度大于知识点初始匹配度预设值的备选内容,获得知识点目标内容备选集合。具体过程可以参照S1.3中介绍的内容,在此不再赘述。
S603,针对知识点目标内容备选集合中每个备选内容,确定待匹配内容的文本向量,与备选内容的文本向量之间的距离,获得待匹配内容与备选内容之间的文本初始匹配度。具体过程可以参照S1.3中介绍的内容,在此不再赘述。
S604,根据知识点初始匹配度与文本初始匹配度的加权和,获得待匹配内容与备选内容之间的目标匹配度。具体过程可以参照S1.3中介绍的内容,在此不再赘述。
S605,从知识点目标内容备选集合中,获得目标匹配度满足目标匹配条件的至少一个目标内容。具体过程可以参照S103中介绍的内容,在此不再赘述。
下面基于图1b,以自适应教育场景下,待匹配内容为目标题目,目标内容为相似题目为例,对该目标内容获取方法进行示例介绍。
S2.1,目标内容获取设备101针对各个备选题目,确定目标题目所属的知识点与备选题目所属的知识点之间的特征匹配度,获得目标题目与备选题目之间的知识点初始匹配度,根据知识点初始匹配度大于知识点初始匹配度预设值的备选题目,获得知识点目标内容备选集合。其中,步骤S3.1中确定知识点初始匹配度的过程与步骤S2.1的过程相同,在此不再赘述。
S2.2,针对知识点目标内容备选集合中每个备选题目,确定目标题目的文本向量,与备选题目的文本向量之间的距离,获得目标题目与备选题目之间的文本初始匹配度。其中,步骤S3.2中确定文本初始匹配度的过程与步骤S2.2的过程相同,在此不再赘述。
S2.3,将知识点初始匹配度与文本初始匹配度的加权和,获得所述目标题目与备选题目之间的目标匹配度,并从知识点目标内容备选集合中筛选目标匹配度满足目标匹配条件的相似题目,获得包含各个相似题目的相似题目集合。其中,步骤S3.3中确定目标匹配度的过程与步骤S2.3的过程相同,在此不再赘述。
S2.4,基于目标匹配度,从知识点目标内容备选集合中筛选目标匹配度满足目标匹配条件的相似题目。步骤S2.4的过程与步骤S506~S507的过程相同,在此不再赘述。
基于同一发明构思,本申请实施例提供一种目标内容获取方法,请参考图7,为目标内容获取方法的一种流程示意图。
S701,基于待匹配内容的文本、知识点和图片,获得待匹配内容的文本特征向量、知识点特征向量、图片特征向量和融合特征向量。具体过程可以参照S1.4中介绍的内容,在此不再赘述。
S702,针对各个备选内容,分别基于备选内容的文本、知识点和图片,获得备选内容的文本特征向量、知识点特征向量、图片特征向量和融合特征向量。具体过程可以参照S1.4中介绍的内容,在此不再赘述。
S703,根据待匹配内容的融合特征向量和各个备选内容的融合特征向量,获得各个备选内容和待匹配内容之间的目标匹配度。具体过程可以参照S1.4中介绍的内容,在此不再赘述。
S705,从各个备选内容中,获得目标匹配度满足目标匹配条件的至少一个目标内容。具体过程可以参照S103中介绍的内容,在此不再赘述。
下面基于图1b,以自适应教育场景下,待匹配内容为目标题目,目标内容为相似题目为例,对该目标内容获取方法进行示例介绍。
S4.1,目标内容获取设备101基于目标题目的文本、知识点和图片,获得目标题目的文本特征向量、知识点特征向量和图片特征向量和融合特征向量。步骤S4.1中获得文本特征向量、知识点特征向量和图片特征向量和融合特征向量的过程与步骤S2.4的过程相同,在此不再赘述。
S4.2,目标内容获取设备101针对各个备选题目,分别基于备选题目的文本、知识点和图片,获得备选题目的文本特征向量、知识点特征向量和图片特征向量和融合特征向量。步骤S4.2的过程与步骤S2.4的过程相同,在此不再赘述。
S4.3,目标内容获取设备101根据目标题目的融合特征向量和各个备选题目的融合特征向量,获得各个备选题目和目标题目之间的目标匹配度,并。步骤S4.3的过程与步骤S505的过程相同,在此不再赘述。
S4.4,基于目标匹配度,从各个备选题目中获得目标匹配度满足目标匹配条件的至少一个相似题目。步骤S4.4的过程与步骤S506~S507的过程相同,在此不再赘述。
基于同一发明构思,本申请实施例提供一种目标内容获取装置,该装置相当于前文论述的目标内容获取设备101,能够实现前述目标内容获取方法对应的功能。请参考图8,该装置包括匹配模块801和获取模块802,其中:
匹配模块801:用于根据至少两个目标内容匹配策略,分别获得待匹配内容与各个备选内容之间的初始匹配度;
获取模块802:用于从各个备选内容中获得初始匹配度满足初始匹配条件的初始目标内容;
匹配模块801还用于:分别根据待匹配内容的特征向量、初始目标内容的特征向量和初始目标内容的至少一个初始匹配度,获得各个初始目标内容的目标匹配度;
获取模块802还用于:基于各个初始目标内容对应的目标匹配度,获得目标匹配度满足目标匹配条件的至少一个目标内容。
在一种可能的实施例中,当至少一个目标内容包括至少两个时,获取模块802,还用于:
根据各个目标内容对应的目标匹配度,获得待匹配内容关联的目标内容序列。
在一种可能的实施例中,待匹配内容和备选内容均具有如下至少两个维度的特征,维度包括:知识点维度、文本维度、知识树维度和图片维度,至少两个目标内容匹配策略,至少包括如下两种与维度分别对应的目标内容匹配策略:
以基于待匹配内容和备选内容各自所属的知识点之间的特征匹配度筛选初始目标内容的第一匹配策略;
以基于待匹配内容和备选内容各自对应的文本向量之间的特征匹配度筛选初始目标内容的第二匹配策略;
以基于待匹配内容和备选内容各自关联的知识树之间的特征匹配度筛选初始目标内容的第三匹配策略;
以基于待匹配内容和备选内容各自的文本特征、图片特征和知识点特征而获得的特征匹配度筛选初始目标内容的第四匹配策略。
在一种可能的实施例中,当目标内容匹配策略包括第一匹配策略时,针对任一个备选内容,匹配模块801具体用于:
确定待匹配内容的知识点集合,与备选内容的知识点集合之间的知识点交集和知识点并集,其中,知识点集合是根据预存的知识树中,内容所属的知识点对应的叶子节点到根节点之间的所有知识点确定的,知识树至少包括待匹配内容所属的知识点和各个备选内容所属的知识点,知识点交集包括两个内容对应的知识点集合中相同的知识点,知识点并集包括两个内容对应的知识点集合中所有的知识点;
根据知识点交集中知识点的数量和知识点并集中知识点的数量之间的比值,获得待匹配内容与备选内容之间的根据第一匹配策略确定的初始匹配度。
在一种可能的实施例中,当目标内容匹配策略包括第二匹配策略时,针对任一个备选内容,匹配模块801具体用于:
根据待匹配内容的词语集合中每个词语的词向量,确定待匹配内容的文本向量,其中,词语集合包括对待匹配内容的文本进行分词处理后获得的所有词语,以及每个词语的词向量;
根据备选内容的词语集合中每个词语的词向量,确定备选内容的文本向量,其中,词语集合包括对备选内容的文本进行分词处理后获得的所有词语,以及每个词语的词向量;
根据备选内容的文本向量和待匹配内容的文本向量之间的距离,获得待匹配内容与备选内容的根据第二匹配策略确定的初始匹配度。
在一种可能的实施例中,当目标内容匹配策略包括第三匹配策略时,针对任一个备选内容,匹配模块801具体用于:
确定待匹配内容所属的知识点与备选内容所属的知识点之间的特征匹配度,获得待匹配内容与备选内容之间的知识点初始匹配度,根据知识点初始匹配度大于知识点初始匹配度预设值的备选内容,获得知识点目标内容备选集合;
针对知识点目标内容备选集合中每个备选内容,确定待匹配内容的文本向量,与备选内容的文本向量之间的距离,获得待匹配内容与备选内容之间的文本初始匹配度,其中,文本向量是根据内容的文本进行分词处理后获得的所有词语确定的;
根据知识点初始匹配度与文本初始匹配度的加权和,获得待匹配内容与备选内容的根据第三匹配策略确定的初始匹配度。
在一种可能的实施例中,当目标内容匹配策略包括第四匹配策略时,待匹配内容与各个备选内容之间的初始匹配度,是基于已训练的第二匹配度判断模型获得的,第二匹配度判断模型包括特征提取网络、特征融合网络和判决网络,针对任一个备选内容,匹配模块801具体用于:
针对每个备选内容,分别将待匹配内容和备选内容的文本、知识点和图片输入特征提取网络,分别获得待匹配内容和备选内容的文本特征向量、知识点特征向量和图片特征向量;
分别将待匹配内容和备选内容的文本特征向量、知识点特征向量和图片特征向量输入特征融合网络,分别获得待匹配内容和备选内容对应的融合特征向量,其中,融合特征向量是将文本特征向量、知识点特征向量和图片特征向量对应位置的取值相加并求平均值获得的;
将待匹配内容和备选内容分别对应的融合特征向量输入判决网络获得待匹配内容和备选内容的根据第四匹配策略确定的初始匹配度。
在一种可能的实施例中,特征提取网络包括文本特征提取子网络、图片特征提取子网络和知识点特征提取子网络,特征提取网络的模型参数包括文本模型参数、知识点模型参数和图片模型参数,在分别将待匹配内容和备选内容的文本、图片和知识点,输入文本特征提取子网络、图片特征提取子网络和知识点特征提取子网络,特征提取网络是根据如下方法训练获得的,针对任一个备选内容,匹配模块801还用于:
将备选内容的文本输入初始的文本特征提取子网络,并将备选内容的知识点输入初始的知识点特征提取网络,获得图片特征向量;
根据图片特征向量,预测备选内容的图片,获得备选内容的预测图片,根据备选内容的图片与预测图片之间的误差,确定图片输入特征提取网络的图片训练损失;
将备选内容的文本输入初始的文本特征提取子网络,并将备选内容的图片输入初始的图片特征提取网络,获得知识点特征向量;
根据知识点特征向量,预测备选内容的知识点,获得备选内容的预测知识点,根据备选内容的知识点与预测知识点之间的误差,确定知识点输入特征提取网络的知识点训练损失;
将备选内容的知识点输入初始的知识点特征提取子网络,并将备选内容的图片输入初始的图片特征提取网络,获得文本特征向量;
根据文本特征向量,预测备选内容的文本,获得备选内容的预测文本,根据备选内容的文本与预测文本之间的误差,确定文本输入特征提取网络的文本训练损失;
若图片训练损失不满足图片目标损失,则调整图片模型参数;若知识点训练损失不满足知识点目标损失,则调整知识点模型参数;若文本训练损失不满足文本目标损失,则调整文本模型参数;
直到图片训练损失满足图片目标损失,且知识点训练损失满足知识点目标损失,且文本训练损失满足文本目标损失,获得文本特征提取子网络、图片特征提取子网络和知识点特征提取子网络。
在一种可能的实施例中,获取模块802具体用于:
针对每个初始匹配度,确定初始匹配度大于预设值的备选内容,分别获得每个目标内容匹配策略对应的初始目标内容备选集合;
将获得的所有初始目标内容备选集合合并,并删除重复的内容,获得初始目标内容集合,初始目标内容集合中包括至少一个初始目标内容。
在一种可能的实施例中,初始目标内容的目标匹配度是基于已训练的第一匹配度判断模型获得的,其中,第一匹配度判断模型是采用待匹配内容样本,以及标识有匹配度标签的初始目标内容样本训练得到的,第一匹配度判断模型包括特征向量提取网络和目标匹配度判决网络,特征向量提取网络包括两个特征向量提取子网络,两个特征向量提取子网络分别用于提取待匹配内容特征向量和初始目标内容特征向量,两个特征向量提取子网络的模型参数相同,针对任一个初始目标内容,匹配模块801具体用于:
将待匹配内容和初始目标内容分别输入一个特征向量提取子网络,分别获得待匹配内容的特征向量和初始目标内容的特征向量;
将待匹配内容的特征向量、初始目标内容的特征向量和初始目标内容的至少一个初始匹配度输入目标匹配度判决网络,获得待匹配内容与初始目标内容之间的目标匹配度。
基于同一发明构思,本申请实施例提供一种目标内容获取装置,该装置相当于前文论述的目标内容获取设备101,能够实现前述目标内容获取方法对应的功能。请参考图9,该装置包括匹配模块901和获取模块902,其中:
匹配模块901:用于针对各个备选内容,确定待匹配内容所属的知识点与备选内容所属的知识点之间的特征匹配度,获得待匹配内容与备选内容之间的知识点初始匹配度;
获取模块902:用于根据知识点初始匹配度大于知识点初始匹配度预设值的备选内容,获得知识点目标题目备选集合;
匹配模块901还用于:针对知识点目标题目备选集合中每个备选内容,确定待匹配内容的文本向量,与备选内容的文本向量之间的距离,获得待匹配内容与备选内容之间的文本初始匹配度,其中,文本向量是根据内容的文本进行分词处理后获得的所有词语确定的;以及,根据知识点初始匹配度与文本初始匹配度的加权和,获得待匹配内容与备选内容之间的目标匹配度;
获取模块902还用于:从知识点目标题目备选集合中,获得目标匹配度满足目标匹配条件的至少一个目标内容。
在一种可能的实施例中,针对任一个备选内容,匹配模块901具体用于:
确定待匹配内容的知识点集合,与备选内容的知识点集合之间的知识点交集和知识点并集,其中,知识点集合是根据预存的知识树中,内容所属的知识点对应的叶子节点到根节点之间的所有知识点确定的,知识树至少包括待匹配内容所属的知识点和各个备选内容所属的知识点,知识点交集包括两个内容对应的知识点集合中相同的知识点,知识点并集包括两个内容对应的知识点集合中所有的知识点;
根据知识点交集中知识点的数量和知识点并集中知识点的数量之间的比值,获得待匹配内容与备选内容之间的知识点初始匹配度。
基于同一发明构思,本申请实施例提供一种目标内容获取装置,该装置相当于前文论述的目标内容获取设备101,能够实现前述目标内容获取方法对应的功能。请参考图10,该装置包括匹配模块1001和获取模块1002,其中:
匹配模块1001:用于基于待匹配内容的文本、知识点和图片,获得待匹配内容的文本特征向量、知识点特征向量、图片特征向量和融合特征向量,其中,融合特征向量是将文本特征向量、知识点特征向量和图片特征向量对应位置的取值相加并求平均值获得的;以及,针对各个备选内容,分别基于备选内容的文本、知识点和图片,获得备选内容的文本特征向量、知识点特征向量、图片特征向量和融合特征向量;以及,根据待匹配内容的融合特征向量和各个备选内容的融合特征向量,获得各个备选内容和待匹配内容之间的目标匹配度;
获取模块1002:用于从各个备选内容中,获得目标匹配度满足目标匹配条件的至少一个目标内容。
在一种可能的实施例中,采用已训练的第二匹配度判断模型,获得待匹配内容和各个备选内容的文本特征向量、知识点特征向量和图片特征向量,以及融合特征向量,并获得备选内容和待匹配内容之间的初始匹配度,其中,第二匹配度判断模型包括特征提取网络、特征融合网络和判决网络;特征提取网络包括文本特征提取子网络、图片特征提取子网络和知识点特征提取子网络,特征提取网络的模型参数包括文本模型参数、知识点模型参数和图片模型参数,文本特征提取子网络、图片特征提取子网络和知识点特征提取子网络,是根据如下方法训练获得的,针对任一个备选内容,匹配模块1001还用于:
将备选内容的文本输入初始的文本特征提取子网络,并将备选内容的知识点输入初始的知识点特征提取网络,获得图片特征向量;
根据图片特征向量,预测备选内容的图片,获得备选内容的预测图片,根据备选内容的图片与预测图片之间的误差,确定图片输入特征提取网络的图片训练损失;
将备选内容的文本输入初始的文本特征提取子网络,并将备选内容的图片输入初始的图片特征提取网络,获得知识点特征向量;
根据知识点特征向量,预测备选内容的知识点,获得备选内容的预测知识点,根据备选内容的知识点与预测知识点之间的误差,确定知识点输入特征提取网络的知识点训练损失;
将备选内容的知识点输入初始的知识点特征提取子网络,并将备选内容的图片输入初始的图片特征提取网络,获得文本特征向量;
根据文本特征向量,预测备选内容的文本,获得备选内容的预测文本,根据备选内容的文本与预测文本之间的误差,确定文本输入特征提取网络的文本训练损失;
若图片训练损失不满足图片目标损失,则调整图片模型参数;若知识点训练损失不满足知识点目标损失,则调整知识点模型参数;若文本训练损失不满足文本目标损失,则调整文本模型参数;
直到图片训练损失满足图片目标损失,且知识点训练损失满足知识点目标损失,且文本训练损失满足文本目标损失,获得文本特征提取子网络、图片特征提取子网络和知识点特征提取子网络。
基于同一发明构思,本申请实施例提供一种计算机设备,下面对该计算机设备1100进行介绍。
请参照图11,上述目标内容获取装置可以运行在计算机设备1100上,目标内容获取程序的当前版本和历史版本以及目标内容获取程序对应的应用软件可以安装在计算机设备1100上,该计算机设备1100包括显示单元1140、处理器1180以及存储器1120,其中,显示单元1140包括显示面板1141,用于显示由用户交互操作界面等。
在一种可能的实施例中,可以采用液晶显示器(Liquid Crystal Display,LCD)或有机发光二极管OLED(Organic Light-Emitting Diode)等形式来配置显示面板1141。
处理器1180用于读取计算机程序,然后执行计算机程序定义的方法,例如处理器1180读取目标内容获取程序或文件等,从而在该计算机设备1100上运行目标内容获取程序,在显示单元1140上显示对应的界面。处理器1180可以包括一个或多个通用处理器,还可包括一个或多个DSP(Digital Signal Processor,数字信号处理器),用于执行相关操作,以实现本申请实施例所提供的技术方案。
存储器1120一般包括内存和外存,内存可以为随机存储器(RAM),只读存储器(ROM),以及高速缓存(CACHE)等。外存可以为硬盘、光盘、USB盘、软盘或磁带机等。存储器1120用于存储计算机程序和其他数据,该计算机程序包括各客户端对应的应用程序等,其他数据可包括操作系统或应用程序被运行后产生的数据,该数据包括系统数据(例如操作系统的配置参数)和用户数据。本申请实施例中程序指令存储在存储器1120中,处理器1180执行存储其中1120中的程序指令,实现前文图论述的任意的一种目标内容获取方法。
上述显示单元1140用于接收输入的数字信息、字符信息或接触式触摸操作/非接触式手势,以及产生与计算机设备1100的用户设置以及功能控制有关的信号输入等。具体地,本申请实施例中,该显示单元1140可以包括显示面板1141。显示面板1141例如触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在显示面板1141上或在显示面板1141的操作),并根据预先设定的程式驱动相应的连接装置。
在一种可能的实施例中,显示面板1141可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测玩家的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1180,并能接收处理器1180发来的命令并加以执行。
其中,显示面板1141可以采用电阻式、电容式、红外线以及表面声波等多种类型实现。除了显示单元1140,计算机设备1100还可以包括输入单元1130,输入单元1130可以包括图形输入设备1131和其他输入设备1132,其中其他输入设备可以但不限于包括物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
除以上之外,计算机设备1100还可以包括用于给其他模块供电的电源1190、音频电路1160、近场通信模块1170和RF电路1110。计算机设备1100还可以包括一个或多个传感器1150,例如加速度传感器、光传感器、压力传感器等。音频电路1160具体包括扬声器1161和麦克风1162等,例如计算机设备1100可以通过麦克风1162采集用户的声音,进行相应的操作等。
作为一种实施例,处理器1180的数量可以是一个或多个,处理器1180和存储器1120可以是耦合设置,也可以是相对独立设置。
作为一种实施例,图11中的处理器1180可以用于实现如图8、图9或图10中的匹配模块和获取模块的功能。
作为一种实施例,图11中的处理器1180可以用于实现前文论述的目标内容获取设备101对应的功能。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (15)
1.一种目标内容获取方法,其特征在于,包括:
根据至少两个目标内容匹配策略,分别获得待匹配内容与各个备选内容之间的初始匹配度,并根据获得的各个初始匹配度,从所述各个备选内容中确定满足初始目标内容的至少两个初始目标内容备选集合;其中每个初始目标内容备选集合对应一个目标内容匹配策略,且所述每个初始目标内容备选集合包括的备选内容满足所述一个目标内容匹配策略对应的初始匹配条件;
对所述至少两个初始目标内容备选集合进行合并和重复过滤处理,获得初始目标内容集合,所述初始目标内容集合包括多个初始目标内容,以及每个初始目标内容对应的至少两个初始匹配度;
分别根据所述待匹配内容的特征向量、初始目标内容的特征向量和初始目标内容的至少两个初始匹配度,获得所述初始目标内容集合中各个初始目标内容的目标匹配度;
基于所述各个初始目标内容对应的目标匹配度,获得目标匹配度满足目标匹配条件的至少一个目标内容。
2.根据权利要求1所述的方法,其特征在于,所述待匹配内容和备选内容均具有如下至少两个维度的特征,所述维度包括:知识点维度、文本维度、知识树维度和图片维度,所述至少两个目标内容匹配策略,至少包括如下两种与维度分别对应的目标内容匹配策略:
以基于待匹配内容和备选内容各自所属的知识点之间的特征匹配度筛选初始目标内容的第一匹配策略;
以基于待匹配内容和备选内容各自对应的文本向量之间的特征匹配度筛选初始目标内容的第二匹配策略;
以基于待匹配内容和备选内容各自关联的知识树之间的特征匹配度筛选初始目标内容的第三匹配策略;
以基于待匹配内容和备选内容各自的文本特征、图片特征和知识点特征而获得的特征匹配度筛选初始目标内容的第四匹配策略。
3.根据权利要求2所述的方法,其特征在于,当所述目标内容匹配策略包括第一匹配策略时,所述分别获得待匹配内容与各个备选内容之间的初始匹配度,针对任一个备选内容,具体包括:
确定待匹配内容的知识点集合,与备选内容的知识点集合之间的知识点交集和知识点并集,其中,所述知识点集合是根据预存的知识树中,内容所属的知识点对应的叶子节点到根节点之间的所有知识点确定的,所述知识树至少包括所述待匹配内容所属的知识点和各个备选内容所属的知识点,所述知识点交集包括两个内容对应的知识点集合中相同的知识点,所述知识点并集包括两个内容对应的知识点集合中所有的知识点;
根据知识点交集中知识点的数量和知识点并集中知识点的数量之间的比值,获得待匹配内容与备选内容之间的根据第一匹配策略确定的初始匹配度。
4.根据权利要求2所述的方法,其特征在于,当所述目标内容匹配策略包括第二匹配策略时,所述分别获得待匹配内容与各个备选内容之间的初始匹配度,针对任一个备选内容,具体包括:
根据所述待匹配内容的词语集合中每个词语的词向量,确定所述待匹配内容的文本向量,其中,所述词语集合包括对待匹配内容的文本进行分词处理后获得的所有词语,以及每个词语的词向量;
根据备选内容的词语集合中每个词语的词向量,确定备选内容的文本向量,其中,所述词语集合包括对备选内容的文本进行分词处理后获得的所有词语,以及每个词语的词向量;
根据备选内容的文本向量和所述待匹配内容的文本向量之间的距离,获得所述待匹配内容与备选内容的根据第二匹配策略确定的初始匹配度。
5.根据权利要求2所述的方法,其特征在于,当所述目标内容匹配策略包括第三匹配策略时,所述分别获得待匹配内容与各个备选内容之间的初始匹配度,针对任一个备选内容,具体包括:
确定待匹配内容所属的知识点与备选内容所属的知识点之间的特征匹配度,获得所述待匹配内容与备选内容之间的知识点初始匹配度,根据知识点初始匹配度大于知识点初始匹配度预设值的备选内容,获得知识点目标内容备选集合;
针对所述知识点目标内容备选集合中每个备选内容,确定所述待匹配内容的文本向量,与备选内容的文本向量之间的距离,获得所述待匹配内容与备选内容之间的文本初始匹配度,其中,所述文本向量是根据内容的文本进行分词处理后获得的所有词语确定的;
根据知识点初始匹配度与文本初始匹配度的加权和,获得所述待匹配内容与备选内容的根据第三匹配策略确定的初始匹配度。
6.根据权利要求2所述的方法,其特征在于,当所述目标内容匹配策略包括第四匹配策略时,所述待匹配内容与各个备选内容之间的初始匹配度,是基于已训练的第二匹配度判断模型获得的,所述第二匹配度判断模型包括特征提取网络、特征融合网络和判决网络,其中,所述分别获得待匹配内容与各个备选内容之间的初始匹配度,针对任一个备选内容,具体包括:
针对每个备选内容,分别将所述待匹配内容和备选内容的文本、知识点和图片输入特征提取网络,分别获得所述待匹配内容和备选内容的文本特征向量、知识点特征向量和图片特征向量;
分别将所述待匹配内容和备选内容的文本特征向量、知识点特征向量和图片特征向量输入特征融合网络,分别获得所述待匹配内容和备选内容对应的融合特征向量,其中,融合特征向量是将文本特征向量、知识点特征向量和图片特征向量对应位置的取值相加并求平均值获得的;
将所述待匹配内容和备选内容分别对应的融合特征向量输入所述判决网络获得所述待匹配内容和备选内容的根据第四匹配策略确定的初始匹配度。
7.根据权利要求1~6任一项所述的方法,其特征在于,初始目标内容的目标匹配度是基于已训练的第一匹配度判断模型获得的,其中,所述第一匹配度判断模型是采用待匹配内容样本,以及标识有匹配度标签的初始目标内容样本训练得到的,所述第一匹配度判断模型包括特征向量提取网络和目标匹配度判决网络,所述特征向量提取网络包括两个特征向量提取子网络,所述两个特征向量提取子网络分别用于提取待匹配内容特征向量和初始目标内容特征向量,所述两个特征向量提取子网络的模型参数相同,其中,分别根据所述待匹配内容的特征向量、初始目标内容的特征向量和初始目标内容的至少两个初始匹配度,获得初始目标内容的目标匹配度,针对任一个初始目标内容,具体包括:
将所述待匹配内容和初始目标内容分别输入一个特征向量提取子网络,分别获得所述待匹配内容的特征向量和初始目标内容的特征向量;
将所述待匹配内容的特征向量、初始目标内容的特征向量和初始目标内容的至少两个初始匹配度输入所述目标匹配度判决网络,获得所述待匹配内容与初始目标内容之间的目标匹配度。
8.一种目标内容获取方法,其特征在于,包括:
针对各个备选内容,确定待匹配内容所属的知识点与备选内容所属的知识点之间的特征匹配度,获得所述待匹配内容与备选内容之间的知识点初始匹配度,根据知识点初始匹配度大于知识点初始匹配度预设值的备选内容,获得知识点目标题目备选集合;
针对所述知识点目标题目备选集合中每个备选内容,确定所述待匹配内容的文本向量,与备选内容的文本向量之间的距离,获得所述待匹配内容与备选内容之间的文本初始匹配度,其中,所述文本向量是根据内容的文本进行分词处理后获得的所有词语确定的;
根据知识点初始匹配度与文本初始匹配度的加权和,获得所述待匹配内容与备选内容之间的目标匹配度,并从知识点目标题目备选集合中,获得目标匹配度满足目标匹配条件的至少一个目标内容。
9.根据权利要求8所述的方法,其特征在于,确定待匹配内容所属的知识点与备选内容所属的知识点之间的匹配度,获得所述待匹配内容与备选内容之间的知识点初始匹配度,针对任一个备选内容,具体包括:
确定待匹配内容的知识点集合,与备选内容的知识点集合之间的知识点交集和知识点并集,其中,所述知识点集合是根据预存的知识树中,内容所属的知识点对应的叶子节点到根节点之间的所有知识点确定的,所述知识树至少包括所述待匹配内容所属的知识点和各个备选内容所属的知识点,所述知识点交集包括两个内容对应的知识点集合中相同的知识点,所述知识点并集包括两个内容对应的知识点集合中所有的知识点;
根据知识点交集中知识点的数量和知识点并集中知识点的数量之间的比值,获得待匹配内容与备选内容之间的知识点初始匹配度。
10.一种目标内容获取方法,其特征在于,包括:
基于待匹配内容的文本、知识点和图片,获得所述待匹配内容的文本特征向量、知识点特征向量、图片特征向量和融合特征向量,其中,所述融合特征向量是将文本特征向量、知识点特征向量和图片特征向量对应位置的取值相加并求平均值获得的;
针对各个备选内容,分别基于备选内容的文本、知识点和图片,获得备选内容的文本特征向量、知识点特征向量、图片特征向量和融合特征向量;
根据所述待匹配内容的融合特征向量和各个备选内容的融合特征向量,获得各个备选内容和待匹配内容之间的目标匹配度,并从各个备选内容中,获得目标匹配度满足目标匹配条件的至少一个目标内容。
11.一种目标内容获取装置,其特征在于,包括:
匹配模块:用于根据至少两个目标内容匹配策略,分别获得待匹配内容与各个备选内容之间的初始匹配度,并根据获得的各个初始匹配度,从所述各个备选内容中确定满足初始目标内容的至少两个初始目标内容备选集合;其中每个初始目标内容备选集合对应一个目标内容匹配策略,且所述每个初始目标内容备选集合包括的备选内容满足所述一个目标内容匹配策略对应的初始匹配条件;
获取模块:用于对所述至少两个初始目标内容备选集合进行合并和重复过滤处理,获得初始目标内容集合,所述初始目标内容集合包括多个初始目标内容,以及每个初始目标内容对应的至少两个初始匹配度;
所述匹配模块还用于:分别根据所述待匹配内容的特征向量、初始目标内容的特征向量和初始目标内容的至少两个初始匹配度,获得所述初始目标内容集合中各个初始目标内容的目标匹配度;
所述获取模块还用于:基于所述各个初始目标内容对应的目标匹配度,获得目标匹配度满足目标匹配条件的至少一个目标内容。
12.一种目标内容获取装置,其特征在于,包括:
匹配模块:用于针对各个备选内容,确定待匹配内容所属的知识点与备选内容所属的知识点之间的特征匹配度,获得所述待匹配内容与备选内容之间的知识点初始匹配度;
获取模块:用于根据知识点初始匹配度大于知识点初始匹配度预设值的备选内容,获得知识点目标题目备选集合;
所述匹配模块还用于:针对所述知识点目标题目备选集合中每个备选内容,确定所述待匹配内容的文本向量,与备选内容的文本向量之间的距离,获得所述待匹配内容与备选内容之间的文本初始匹配度,其中,所述文本向量是根据内容的文本进行分词处理后获得的所有词语确定的;以及,根据知识点初始匹配度与文本初始匹配度的加权和,获得所述待匹配内容与备选内容之间的目标匹配度;
所述获取模块还用于:从知识点目标题目备选集合中,获得目标匹配度满足目标匹配条件的至少一个目标内容。
13.一种目标内容获取装置,其特征在于,包括:
匹配模块:用于基于待匹配内容的文本、知识点和图片,获得所述待匹配内容的文本特征向量、知识点特征向量、图片特征向量和融合特征向量,其中,所述融合特征向量是将文本特征向量、知识点特征向量和图片特征向量对应位置的取值相加并求平均值获得的;以及,针对各个备选内容,分别基于备选内容的文本、知识点和图片,获得备选内容的文本特征向量、知识点特征向量、图片特征向量和融合特征向量;以及,根据所述待匹配内容的融合特征向量和各个备选内容的融合特征向量,获得各个备选内容和待匹配内容之间的目标匹配度;
获取模块:用于从各个备选内容中,获得目标匹配度满足目标匹配条件的至少一个目标内容。
14.一种计算机设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如权利要求1~7、8~9或10中任一项所述的方法。
15.一种存储介质,其特征在于,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1~7、8~9或10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010916857.3A CN112749558B (zh) | 2020-09-03 | 2020-09-03 | 一种目标内容获取方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010916857.3A CN112749558B (zh) | 2020-09-03 | 2020-09-03 | 一种目标内容获取方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112749558A CN112749558A (zh) | 2021-05-04 |
CN112749558B true CN112749558B (zh) | 2023-11-24 |
Family
ID=75645372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010916857.3A Active CN112749558B (zh) | 2020-09-03 | 2020-09-03 | 一种目标内容获取方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112749558B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113420077B (zh) * | 2021-06-10 | 2024-01-30 | 浙江大华技术股份有限公司 | 一种数据处理方法、装置、设备及介质 |
CN117271712A (zh) * | 2023-11-21 | 2023-12-22 | 上海爱可生信息技术股份有限公司 | 基于向量数据库的检索方法、系统及电子设备 |
CN117271700B (zh) * | 2023-11-23 | 2024-02-06 | 武汉蓝海科创技术有限公司 | 集成智能学习功能的设备使用与维修知识库的构建系统 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004164079A (ja) * | 2002-11-11 | 2004-06-10 | Just Syst Corp | データ分析装置及び方法、並びにプログラム |
CN107168967A (zh) * | 2016-03-07 | 2017-09-15 | 阿里巴巴集团控股有限公司 | 目标知识点的获取方法及装置 |
AU2016201929A1 (en) * | 2016-03-29 | 2017-10-19 | Canon Kabushiki Kaisha | System and method for modifying display of augmented reality content |
WO2018071525A1 (en) * | 2016-10-16 | 2018-04-19 | Ebay Inc. | Personal assistant with visual multi-turn dialog |
CN108959516A (zh) * | 2018-06-28 | 2018-12-07 | 北京百度网讯科技有限公司 | 会话消息处理方法和装置 |
CN109543032A (zh) * | 2018-10-26 | 2019-03-29 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN109740126A (zh) * | 2019-01-04 | 2019-05-10 | 平安科技(深圳)有限公司 | 文本匹配方法、装置及存储介质、计算机设备 |
CN110263150A (zh) * | 2019-03-05 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、计算机设备及存储介质 |
CN110263324A (zh) * | 2019-05-16 | 2019-09-20 | 华为技术有限公司 | 文本处理方法、模型训练方法和装置 |
CN110362671A (zh) * | 2019-07-16 | 2019-10-22 | 安徽知学科技有限公司 | 题目推荐方法、设备和存储介质 |
CN110472145A (zh) * | 2019-07-25 | 2019-11-19 | 维沃移动通信有限公司 | 一种内容推荐方法和电子设备 |
CN110598002A (zh) * | 2019-08-14 | 2019-12-20 | 广州视源电子科技股份有限公司 | 知识图库构建方法、装置、计算机存储介质和电子设备 |
CN111158641A (zh) * | 2019-12-31 | 2020-05-15 | 中国科学院软件研究所 | 一种基于语义分析和文本挖掘的事务类功能点自动识别方法及相应存储介质与电子装置 |
CN111259144A (zh) * | 2020-01-16 | 2020-06-09 | 中国平安人寿保险股份有限公司 | 多模型融合文本匹配方法、装置、设备和存储介质 |
CN111444357A (zh) * | 2020-03-24 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 内容信息确定方法、装置、计算机设备及存储介质 |
-
2020
- 2020-09-03 CN CN202010916857.3A patent/CN112749558B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004164079A (ja) * | 2002-11-11 | 2004-06-10 | Just Syst Corp | データ分析装置及び方法、並びにプログラム |
CN107168967A (zh) * | 2016-03-07 | 2017-09-15 | 阿里巴巴集团控股有限公司 | 目标知识点的获取方法及装置 |
AU2016201929A1 (en) * | 2016-03-29 | 2017-10-19 | Canon Kabushiki Kaisha | System and method for modifying display of augmented reality content |
WO2018071525A1 (en) * | 2016-10-16 | 2018-04-19 | Ebay Inc. | Personal assistant with visual multi-turn dialog |
CN108959516A (zh) * | 2018-06-28 | 2018-12-07 | 北京百度网讯科技有限公司 | 会话消息处理方法和装置 |
CN109543032A (zh) * | 2018-10-26 | 2019-03-29 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN109740126A (zh) * | 2019-01-04 | 2019-05-10 | 平安科技(深圳)有限公司 | 文本匹配方法、装置及存储介质、计算机设备 |
CN110263150A (zh) * | 2019-03-05 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、计算机设备及存储介质 |
CN110263324A (zh) * | 2019-05-16 | 2019-09-20 | 华为技术有限公司 | 文本处理方法、模型训练方法和装置 |
CN110362671A (zh) * | 2019-07-16 | 2019-10-22 | 安徽知学科技有限公司 | 题目推荐方法、设备和存储介质 |
CN110472145A (zh) * | 2019-07-25 | 2019-11-19 | 维沃移动通信有限公司 | 一种内容推荐方法和电子设备 |
CN110598002A (zh) * | 2019-08-14 | 2019-12-20 | 广州视源电子科技股份有限公司 | 知识图库构建方法、装置、计算机存储介质和电子设备 |
CN111158641A (zh) * | 2019-12-31 | 2020-05-15 | 中国科学院软件研究所 | 一种基于语义分析和文本挖掘的事务类功能点自动识别方法及相应存储介质与电子装置 |
CN111259144A (zh) * | 2020-01-16 | 2020-06-09 | 中国平安人寿保险股份有限公司 | 多模型融合文本匹配方法、装置、设备和存储介质 |
CN111444357A (zh) * | 2020-03-24 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 内容信息确定方法、装置、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Multimodal intelligence: Representation learning, information fusion, and applications;Zhang Chao 等;《IEEE Journal of Selected Topics in Signal Processing》;第14卷(第3期);478-493 * |
融合知识图谱的关系分类研究;施隈隈;《中国优秀硕士学位论文全文数据库信息科技辑》(第10期);I138-945 * |
Also Published As
Publication number | Publication date |
---|---|
CN112749558A (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108846126B (zh) | 关联问题聚合模型的生成、问答式聚合方法、装置及设备 | |
CN108647233B (zh) | 一种用于问答系统的答案排序方法 | |
US10942958B2 (en) | User interface for a query answering system | |
CN112163165B (zh) | 信息推荐方法、装置、设备及计算机可读存储介质 | |
CN112749558B (zh) | 一种目标内容获取方法、装置、计算机设备和存储介质 | |
CN111553162B (zh) | 一种意图识别的方法以及相关装置 | |
WO2021121198A1 (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
KR20210076110A (ko) | 이미지 영역을 찾기 위한 방법, 모델 훈련 방법 및 관련 장치 | |
JP6912588B2 (ja) | 画像分類出力分布のフィルタリングを伴う画像認識 | |
KR102040400B1 (ko) | 머신러닝을 이용한 사용자 맞춤형 문제 제공 시스템 및 방법 | |
CN111898374B (zh) | 文本识别方法、装置、存储介质和电子设备 | |
RU2664481C1 (ru) | Способ и система выбора потенциально ошибочно ранжированных документов с помощью алгоритма машинного обучения | |
US11947920B2 (en) | Man-machine dialogue method and system, computer device and medium | |
CN111625715B (zh) | 信息提取方法、装置、电子设备及存储介质 | |
JP7488871B2 (ja) | 対話推薦方法、装置、電子機器、記憶媒体ならびにコンピュータプログラム | |
CN111666416A (zh) | 用于生成语义匹配模型的方法和装置 | |
CN111563158A (zh) | 文本排序方法、排序装置、服务器和计算机可读存储介质 | |
CN111737432A (zh) | 一种基于联合训练模型的自动对话方法和系统 | |
CN115114974A (zh) | 一种模型蒸馏方法、装置、计算机设备和存储介质 | |
CN112131401A (zh) | 一种概念知识图谱构建方法和装置 | |
CN115204156A (zh) | 关键词提取方法及装置 | |
WO2023173554A1 (zh) | 坐席违规话术识别方法、装置、电子设备、存储介质 | |
CN113392179A (zh) | 文本标注方法及装置、电子设备、存储介质 | |
CN113705191A (zh) | 样本语句的生成方法、装置、设备及存储介质 | |
CN114519397B (zh) | 基于对比学习的实体链接模型的训练方法、装置、设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |