CN114357123A - 基于层次结构的数据匹配方法、装置、设备及存储介质 - Google Patents
基于层次结构的数据匹配方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114357123A CN114357123A CN202210269832.8A CN202210269832A CN114357123A CN 114357123 A CN114357123 A CN 114357123A CN 202210269832 A CN202210269832 A CN 202210269832A CN 114357123 A CN114357123 A CN 114357123A
- Authority
- CN
- China
- Prior art keywords
- matching
- node
- text
- sim
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种基于层次结构的数据匹配方法、装置、设备及存储介质,包括:步骤1:构建具备层次结构的技能树;步骤2:获取用户输入的当下查询文本,并基于技能树自动匹配最相似的知识点以及最相似的路径信息;步骤3:将最相似的知识点以及最相似的路径信息返回给用户。基于构建的技能树层次结构,将当下查询文本自动匹配到最相关的知识点和路径信息,本发明的匹配算法能有效提高层次化结构文本匹配的效果及效率。
Description
技术领域
本发明涉及数据匹配技术领域,尤其涉及一种基于层次结构的数据匹配方法、装置、设备及存储介质。
背景技术
现有的层次化结构文本匹配一般采用常见的两种方法进行匹配,一种是逐一匹配法,另一种是基于决策树思想的方法。
其中,逐一匹配法通过将查询文本与层次结构中的每个部分分别进行计算,并找出最相似的部分作为最终的匹配结果,但是,该方法未考虑层次结构中各个部分之间的关系;
决策树思想的方法,该方法使用决策树的思想,从层次结构的顶端开始匹配,通过不断决策缩小搜索范围,并最终匹配到与查询文本最相近的部分,但是该方法从层次结构的顶端开始匹配,只考虑了上文的信息,而没有考虑下文的信息,会导致匹配到的结果粒度过粗;而且,该方法未利用查询文本对层次结构进行优化和剪枝,匹配时会影响效果和效率。
此外,常见的文本相似度计算算法都较为单一,虽然都有各自的优点,但是也存在较为明显的缺点。例如:交并比是基于词袋模型进行计算的,没有考虑词序信息; 编辑距离虽然考虑了词序信息,但是却未考虑词语的权重,无法判断哪个词更重要。
以上问题,使得在进行文本相似度计算的过程中,存在匹配效果以及效率低下的情况。
因此,本发明提出一种基于层次结构的数据匹配方法、装置、设备及存储介质。
发明内容
基于此,有必要针对上述问题,提出了一种基于层次结构的数据匹配方法、装置、设备及存储介质。
本发明提出一种基于层次结构的数据匹配方法,包括:
步骤1:构建具备层次结构的技能树;
步骤2:获取用户输入的当下查询文本,并基于所述技能树自动匹配最相似的知识点以及最相似的路径信息;
步骤3:将所述最相似的知识点以及最相似的路径信息返回给所述用户。
优选地,基于所述技能树自动匹配最相似的知识点以及最相似的路径信息,包括:
基于所述当下查询文本与技能树中不同节点的节点文本,构建文本匹配算法,获得文本匹配结果;
确定所述技能树的层次结构,并按照所述层次结构的树结构信息,构建基于窗口滑动的加权路径匹配算法,获得加权路径匹配结果;
构建基于关键词过滤的技能树剪枝算法,获得剪枝结果;
基于文本匹配结果、加权路径匹配结果以及剪枝结果,匹配得到最相似的知识点以及最相似的路径信息。
优选地,构建基于关键词过滤的技能树剪枝算法,获得剪枝结果,包括:
向所述技能树的每个节点匹配两个关键词集合,其中,第一关键词集合为对应节点必须包含的关键词,第二关键词集合为对应节点不能包含的关键词;
基于所述当下查询文本和每个节点的两个关键词集合对所述技能树进行剪枝,去掉未能匹配的子树;
基于剪枝后的技能树,计算与查询文本最相似的的知识点以及最相似的路径信息。
优选地,基于所述当下查询文本与技能树中不同节点的节点文本,构建文本匹配算法,获得文本匹配结果,包括:
获取初始交并比算法,并基于词语权重对所述初始交并比算法进行改进,得到改进交并比算法;
IoU=sum(Tq⋂Tn)/sum(Tq⋃Tn)
其中,IoU表示改进交并比算法;Tq表示初始交并比算法中与当下查询文本Sq相关的词序列Wq对应的权重序列,且Tq=(t11,t12,t13,…,t1a),Tn表示初始交并比算法中与节点文本Sn相关的词序列Wn对应的权重序列,且Tn=(t21,t22,t23,…,t2b);t1a表示权重序列Tq中的第a个词汇的权重;t2b表示权重序列Tn中的第b个词汇的权重;sum()表示求和函数;
将所述改进交并比算法与距离编辑比算法进行加权融合;
sim(Sq,Sn)=α*lr+(1-α)*IoU
lr=(len-ldistword)/len
其中,len=|Wq|+|Wn|,ldistword为两个词序列Wq和Wn之间的类编辑距离;lr表示距离编辑比算法;α表示距离编辑比算法的加权值;1-α表示改进交并比算法的加权值;len表示词序列Wq与词序列Wn中词语的数量之和;|Wq|表示词序列Wq中词语的数量;|Wn|表示词序列Wn中词语的数量;sim(Sq,Sn)表示加权融合后的算法,且表示当下查询文本与所述技能树中对应单个节点的相似度;
基于加权融合后的算法,计算所述当下查询文本与所述技能树中单个节点的相似度,进而得到文本匹配结果。
优选地,确定所述技能树的层次结构,并按照所述层次结构的树结构信息,构建基于窗口滑动的加权路径匹配算法,获得加权路径匹配结果,包括:
确定所述技能树对应的节点路径,且表示为P={Sn1,Sn2,…Snx};
计算所述节点路径中每个节点与所述当下查询文本之间的相似度,即Psim_set={sim(Sq,Sn1),sim(Sq,Sn2),…,sim(Sq,Snx)},其中,sim(Sq,Snx),其中,sim(Sq,Snx)表示当下查询文本Sq与节点路径中第x个节点文本Snx的相似度;Psim_set表示所述节点路径中每个节点与所述当下查询文本之间的相似度集合;
裁剪所述节点路径中尾部相似度为0的节点,得到
Psim_set_new={sim(Sq,Sn1),sim(Sq,Sn2),…,sim(Sq,Sny)},y≤x;
Psim_set_new表示去除相似度为0的节点后的相似度集合;sim(Sq,Sny)表示当下查询文本Sq与节点路径中第y个节点文本Sny的相似度,y表示Psim_set_new集合对应的节点文本个数,且一个节点对应一个节点文本;
将Psim_set_new中离散的相似度值进行融合,得到所述节点路径和当下查询文本之间的相似度sim(Sq,P)1;
基于窗口滑动机制,对所述技能树的路径上下文节点对应的信息进行融入,并对相似度sim(Sq,P)1进行优化;
其中,γ∈[0,0.5]是上下文节点的权重;sim(Sq,Sn(i-1))表示所述当下查询文本Sq与Psim_set_new集合中第i-1个节点文本Sn(i-1)之间的相似度;sim(Sq,Sn(i+1))表示所述当下查询文本Sq与Psim_set_new集合中第i+1个节点文本Sn(i+1)之间的相似度;
基于优化后的算法sim(Sq,P)2,获得加权路径匹配结果。
优选地,基于所述当下查询文本和每个节点的两个关键词集合对所述技能树进行剪枝,去掉未能匹配的子树,包括:
获取所述当下查询文本的文本属性,并基于所述文本属性,从预设数据库,确定与所述文本属性相关的匹配链表;
基于所述匹配链表对对应节点的两个关键词集合中的所有关键词进行先后排序,并按照所述匹配链表中的最小匹配词,确定排序后的第一关键词集合中的第一匹配起点,同时,确定排序后的第二关键集合中的第二匹配起点;
基于所述第一匹配起点,确定对应节点的第一待保留分支,基于所述第二匹配起点,确定对应节点的第二待保留分支;
基于词汇分解模型,对所述当下查询文本进行词汇分解,并随机筛选一个分词与第一待保留分支以及第二待保留分支中的关键词进行逐个匹配,获得该分词的匹配程度,并根据程度-标签列表,向对应分词以及相关子分支设置第一匹配标签;对剩余分词进行归类处理,若所有剩余分词都为同一类,则对所述剩余分词进行同步分析,并基于所述程度-标签列表分别向每个剩余分词以及相关子分支设置第二匹配标签;
若不为同类类,对每个子类进行同步分析,并基于所述程度-标签列表分别向每个子类中的每个剩余分词以及相关子分支设置第三匹配标签;
基于标签设置结果,对所述第一待保留分支以及第二待保留分支中未设置标签的子分支剪枝,进而得到剪枝后的技能树。
优选地,将所述最相似的知识点以及最相似的路径信息返回给所述用户的过程中,还包括:
对所述最相似的知识点以及最相似的路径信息的信息对进行确定;
若所述信息对为1对,获取所述用户的第一展示需求;
基于所述第一展示需求,对所述最相似的知识点以及最相似的路径信息进行展示调整,并输出给所述用户的用户端展示;
若所述信息对不为1对,获取所述用户的第二展示需求,同时,获取每对信息对中最相似的路径信息中涉及到的词汇匹配数量以及匹配节点,得到词汇数量差别范围[ɡ1,ɡ2]和节点数量差别范围[ɡ3,ɡ4];
ɡ1=min(|x1j1-x2j2|,j1=1,2,3,…,J;j2=1,2,3,…,J,且j2≠j1)
ɡ2=max(|x1j1-x2j2|,j1=1,2,3,…,J;j2=1,2,3,…,J,且j2≠j1)
ɡ3=min(|x3j3-x4j4|,j3=1,2,3,…,J;j4=1,2,3,…,J,且j3≠j4)
ɡ4=max(|x3j3-x4j4|,j3=1,2,3,…,J;j4=1,2,3,…,J,且j3≠j4)
其中,max()表示最大函数;min()表示最小函数;J1表示信息对个总个数;x1j1表示第j1个信息对涉及到的对应词汇匹配数量;x2j2表示第j2个信息对涉及到的对应词汇匹配数量;x3j3表示第j3个信息对涉及到的匹配节点的个数;x4j4表示第j4个信息对涉及到的匹配节点的个数;
确定精度小数个数F;
其中,∝1表示针对词汇匹配的第一权重;∝2表示针对节点匹配的第二权重;[ ]表示取整函数;h1表示对匹配词汇的调整参数,一般取值为1,h2表示对匹配节点的调整参数,一般取值为1;
获取基于剪枝后的技能树进行匹配过程的初始匹配精度,并基于精度小数个数F,对所述初始匹配精度进行精度扩展;
对扩展后的精度重新确定多个信息对的最大相似情况,如果还存在相同的相似情况,将相同的相似情况进行并列输出,同时,结合所述用户的第二展示需求进行展示调整,并输出显示;
否则,进行从大到小排序,并结合所述用户的第二展示需求进行展示调整,并输出显示。
一种基于层次结构的数据匹配装置,所述装置包括:
构建模块,用于构建具备层次结构的技能树;
获取模块,用于获取用户输入的当下查询文本,并基于所述技能树自动匹配最相似的知识点以及最相似的路径信息;
返回模块,用于将所述最相似的知识点以及最相似的路径信息返回给所述用户。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
步骤1:构建具备层次结构的技能树;
步骤2:获取用户输入的当下查询文本,并基于所述技能树自动匹配最相似的知识点以及最相似的路径信息;
步骤3:将所述最相似的知识点以及最相似的路径信息返回给所述用户。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
本发明提出一种基于层次结构的数据匹配方法,包括:
步骤1:构建具备层次结构的技能树;
步骤2:获取用户输入的当下查询文本,并基于所述技能树自动匹配最相似的知识点以及最相似的路径信息;
步骤3:将所述最相似的知识点以及最相似的路径信息返回给所述用户。
与现有技术相比,本申请的有益效果如下:
(1) 充分融合基于词袋模型的集合匹配方法与基于序列的匹配方法,共同提升文本匹配效果。本方案提出了一种基于TF-IDF权重的交并比算法,并进一步融合词级别的编辑距离算法,在文本的相似度计算中,可有效捕捉关键词以及句子的语序信息,进而提升文本相似度计算的效果;
(2) 本方案提出了一种基于窗口滑动的加权路径匹配算法,充分考虑了节点的上下文信息,并根据知识点的粒度分配节点的权重,可有效提升查询文本和路径的匹配准确率,进而提升查询文本和知识点的匹配效果;
(3) 本方案还提出了一种基于关键词过滤的技能树剪枝算法,裁剪掉与查询文本明显不相关的子树,可进一步提升匹配的效率和效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中基于层次结构的数据匹配方法的应用环境图;
图2为一个实施例中结构图;
图3为一个实施例中基于层次结构的数据匹配方法的流程图;
图4为一个实施例中基于层次结构的数据匹配装置的结构框图;
图5为一个实施例中计算机设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为一个实施例中基于层次结构的数据匹配方法的应用环境图。参照图1,该基于层次结构的数据匹配方法方法应用于数据匹配系统。该数据匹配系统包括终端110和服务器120。终端110和服务器120通过网络连接,终端110具体可以是台式终端或移动终端,移动终端具体可以是手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端110和服务器120用于执行方法对应的步骤。
本发明是一种基于层次结构的数据匹配算法,层次结构具体实现为一棵多叉树,多叉树中的每个节点是一个用文本描述的知识点技能,且层数越深,知识点的粒度越细,如图2所示,后文简称为技能树。给定一棵技能树,针对一个用户输入的查询本文,自动匹配出最相似的知识点以及技能树路径信息返回给用户。
如图3所示,在一个实施例中,提供了一种基于层次结构的数据匹配方法。该方法既可以应用于终端,也可以应用于服务器,本实施例以应用于终端举例说明。该基于层次结构的数据匹配方法,具体包括如下步骤:
步骤1:构建具备层次结构的技能树;
步骤2:获取用户输入的当下查询文本,并基于所述技能树自动匹配最相似的知识点以及最相似的路径信息;
步骤3:将所述最相似的知识点以及最相似的路径信息返回给所述用户。
上述技术方案的有益效果是:基于构建的技能树层次结构,将当下查询文本自动匹配到最相关的知识点和路径信息,本发明的匹配算法能有效提高层次化结构文本匹配的效果及效率。
在一个实施例中,基于所述技能树自动匹配最相似的知识点以及最相似的路径信息,包括:
基于所述当下查询文本与技能树中不同节点的节点文本,构建文本匹配算法,获得文本匹配结果;
确定所述技能树的层次结构,并按照所述层次结构的树结构信息,构建基于窗口滑动的加权路径匹配算法,获得加权路径匹配结果;
构建基于关键词过滤的技能树剪枝算法,获得剪枝结果;
基于文本匹配结果、加权路径匹配结果以及剪枝结果,匹配得到最相似的知识点以及最相似的路径信息。
上述技术方案的有益效果是:通过构建不同的算法,来对技能树进行优化调整,保证当下查询文本对应匹配的有效性以及效果的显著性。
在一个实施例中,构建基于关键词过滤的技能树剪枝算法,获得剪枝结果,包括:
向所述技能树的每个节点匹配两个关键词集合,其中,第一关键词集合为对应节点必须包含的关键词,第二关键词集合为对应节点不能包含的关键词;
基于所述当下查询文本和每个节点的两个关键词集合对所述技能树进行剪枝,去掉未能匹配的子树;
基于剪枝后的技能树,计算与查询文本最相似的的知识点以及最相似的路径信息。
该实施例中,基于实施例2以及实施例5构建得到对应的加权路径匹配算法之后,可以计算出查询文本与技能树中所有路径之间的相似度,取出相似度最高的路径作为匹配结果,其中该路径的最后一个节点就是最终匹配到的知识点(从Psim_set_new中选取,即裁剪后的路径)。该计算的复杂度和叶子节点的数目呈正相关,但在实际的场景中,有一些明显匹配不上的情况,例如一个查询文本中如果包含或不包含某个词,就一定匹配不上以某个中间节点为跟节点的子树,故为了提升计算的效率和效果,设置了实施例3的基础方案。
上述技术方案的有益效果是:通过对技能树进行剪枝,提高了计算的效率以及效果。
在一个实施例中,基于所述当下查询文本与技能树中不同节点的节点文本,构建文本匹配算法,获得文本匹配结果,包括:
获取初始交并比算法,并基于词语权重对所述初始交并比算法进行改进,得到改进交并比算法;
IoU=sum(Tq⋂Tn)/sum(Tq⋃Tn)
其中,IoU表示改进交并比算法;Tq表示初始交并比算法中与当下查询文本Sq相关的词序列Wq对应的权重序列,且Tq=(t11,t12,t13,…,t1a),Tn表示初始交并比算法中与节点文本Sn相关的词序列Wn对应的权重序列,且Tn=(t21,t22,t23,…,t2b);t1a表示权重序列Tq中的第a个词汇的权重;t2b表示权重序列Tn中的第b个词汇的权重;sum()表示求和函数;
将所述改进交并比算法与距离编辑比算法进行加权融合;
sim(Sq,Sn)=α*lr+(1-α)*IoU
lr=(len-ldistword)/len
其中,len=|Wq|+|Wn|,ldistword为两个词序列Wq和Wn之间的类编辑距离;lr表示距离编辑比算法;α表示距离编辑比算法的加权值;1-α表示改进交并比算法的加权值;len表示词序列Wq与词序列Wn中词语的数量之和;|Wq|表示词序列Wq中词语的数量;|Wn|表示词序列Wn中词语的数量;sim(Sq,Sn)表示加权融合后的算法,且表示当下查询文本与所述技能树中对应单个节点的相似度;
基于加权融合后的算法,计算所述当下查询文本与所述技能树中单个节点的相似度,进而得到文本匹配结果。
该实施例中,通过对当下查询文本为Sq和节点文本Sn这两段文本进行中文分词,并基于词性和词用词词典进行停用词过滤,去掉连词、介词、拟声词等无实际意义的虚词,此外,为了提升词语表义的准确性,根据词性组合模式,将相邻的词语有选择性地合并成bigram词组。经过上述特征选择,最终得到Sq和Sn的词序列Wq=(w1,w2,w3,…,wa)和Wn=(w1,w2,w3,…,wb)。
该实施例中,为了衡量文本中每个词语的重要性,采用TF-IDF算法,从CSDN海量博客数据中统计得出一个TF-IDF权重词典,记为T。则词序列Wq和Wn对应的权重序列分别为Tq=(t11,t12,t13,…,t1a)和Tn=(t21,t22,t23,…,t2b)。
该实施例中,将所述改进交并比算法与距离编辑比算法进行加权融合是因为由于改进交并比没有考虑词序信息,而编辑距离考虑的词顺序信息。
上述技术方案的有益效果是:首先改进交并比算法,采用了基于词语权重的交并比,并进一步融合交并比与编辑距离比,提升文本匹配的效果。
在一个实施例中,确定所述技能树的层次结构,并按照所述层次结构的树结构信息,构建基于窗口滑动的加权路径匹配算法,获得加权路径匹配结果,包括:
确定所述技能树对应的节点路径,且表示为P={Sn1,Sn2,…Snx};
计算所述节点路径中每个节点与所述当下查询文本之间的相似度,即Psim_set={sim(Sq,Sn1),sim(Sq,Sn2),…,sim(Sq,Snx)},其中,sim(Sq,Snx),其中,sim(Sq,Snx)表示当下查询文本Sq与节点路径中第x个节点文本Snx的相似度;Psim_set表示所述节点路径中每个节点与所述当下查询文本之间的相似度集合;
裁剪所述节点路径中尾部相似度为0的节点,得到
Psim_set_new={sim(Sq,Sn1),sim(Sq,Sn2),…,sim(Sq,Sny)},y≤x;
Psim_set_new表示去除相似度为0的节点后的相似度集合;sim(Sq,Sny)表示当下查询文本Sq与节点路径中第y个节点文本Sny的相似度,y表示Psim_set_new集合对应的节点文本个数,且一个节点对应一个节点文本;
将Psim_set_new中离散的相似度值进行融合,得到所述节点路径和当下查询文本之间的相似度sim(Sq,P)1;
基于窗口滑动机制,对所述技能树的路径上下文节点对应的信息进行融入,并对相似度sim(Sq,P)1进行优化;
其中,γ∈[0,0.5]是上下文节点的权重;sim(Sq,Sn(i-1))表示所述当下查询文本Sq与Psim_set_new集合中第i-1个节点文本Sn(i-1)之间的相似度;sim(Sq,Sn(i+1))表示所述当下查询文本Sq与Psim_set_new集合中第i+1个节点文本Sn(i+1)之间的相似度;
基于优化后的算法sim(Sq,P)2,获得加权路径匹配结果。
该实施例中,由于实施例3中阐述了单个节点与查询文本之间的相似性算法,由于技能树是层次结构,故需要将树结构信息也融入到匹配算法中。本实施例将以根节点到叶子节点的路径为单位,将匹配算法转化为路径与查询文本之间的相似度计算。其中路径是包含树结构信息的节点序列。
该实施例中,去除尾部相似度值为0的节点,是因为尾部为0的节点表示的知识点粒度太细,而当前查询文本可能粒度较粗。
该实施例中,由于离根节点越远的节点粒度越细,即知识点越明确,故在最终加权的时候,离根节点越远的节点权重越大。具体而言,可根据节点的层号(根节点的层号为1)给节点赋予权重。
该实施例中,路径P是节点序列,节点是有序的,即节点之间是有上下文关系的。上下文关系对于匹配的准确性至关重要,例如单独分析一个词的含义,和把词再放在一句话进行分析是不一样的,后者的含义更加准确。
该实施例中,在实际操作中,窗口大小设置为3。
上述技术方案的有益效果是:通过去除相似度为0的尾节点,保证粒度的准确性,保证节点路径的有效性,通过计算不同路径与对应查询文本的相似度,且后续通过上下节点对相似度进行优化,更加高效和准确地从技能树中匹配到与用户查询文本最相近的路径和知识点。
在一个实施例中,基于所述当下查询文本和每个节点的两个关键词集合对所述技能树进行剪枝,去掉未能匹配的子树,包括:
获取所述当下查询文本的文本属性,并基于所述文本属性,从预设数据库,确定与所述文本属性相关的匹配链表;
基于所述匹配链表对对应节点的两个关键词集合中的所有关键词进行先后排序,并按照所述匹配链表中的最小匹配词,确定排序后的第一关键词集合中的第一匹配起点,同时,确定排序后的第二关键集合中的第二匹配起点;
基于所述第一匹配起点,确定对应节点的第一待保留分支,基于所述第二匹配起点,确定对应节点的第二待保留分支;
基于词汇分解模型,对所述当下查询文本进行词汇分解,并随机筛选一个分词与第一待保留分支以及第二待保留分支中的关键词进行逐个匹配,获得该分词的匹配程度,并根据程度-标签列表,向对应分词以及相关子分支设置第一匹配标签;对剩余分词进行归类处理,若所有剩余分词都为同一类,则对所述剩余分词进行同步分析,并基于所述程度-标签列表分别向每个剩余分词以及相关子分支设置第二匹配标签;
若不为同类类,对每个子类进行同步分析,并基于所述程度-标签列表分别向每个子类中的每个剩余分词以及相关子分支设置第三匹配标签;
基于标签设置结果,对所述第一待保留分支以及第二待保留分支中未设置标签的子分支剪枝,进而得到剪枝后的技能树。
该实施例中,比如当下查询文本与人工智能属性相关,则,从预设数据库中匹配与人工智能相关的匹配链表,且预设数据库中是包括不同属性对应的链表在内的,且链表是包括该属性相关的各类词汇在内的,且包括与该属性相关的最大匹配词以及最小匹配词在内。
该实施例中,按照链表来对集合中的关键词进行先后排序,是为了对该集合中的词汇进行初步过滤,进而来确定匹配起点,其中,匹配起点可以是与最小匹配词相关的词汇当前所处的位置。
该实施例中,由于每个节点是存在两个节点的,因此,在确定出匹配起点之后,可以过滤一部分词汇,进而来对一些分支进行裁剪,得到待保留分析。
该实施例中,词汇分解模型是预先训练好的,且训练样本是由各种查询文本以及文本分解后的信息作为样本的。
该实施例中,比如存在分词1、分词2、分词3,随机筛选一个分词1,与待保留分支涉及的关键词逐个匹配,保证与分支中的每个词汇的匹配程度,进而来得到匹配标签。
该实施例中,同步分析,是为了节省逐一匹配的时间,节省时间。
上述技术方案的有益效果是:通过根据文本属性,来确定链表,进而来对技能树进行第一次剪枝,且后续通过关键词的匹配,来实现第二次剪枝,其中,通过同步分析,提高了标签匹配效率,基于标签,来对不同的子分支进行剪枝,可以有效的保证技能树的处理高效性。
在一个实施例中,将所述最相似的知识点以及最相似的路径信息返回给所述用户的过程中,还包括:
对所述最相似的知识点以及最相似的路径信息的信息对进行确定;
若所述信息对为1对,获取所述用户的第一展示需求;
基于所述第一展示需求,对所述最相似的知识点以及最相似的路径信息进行展示调整,并输出给所述用户的用户端展示;
若所述信息对不为1对,获取所述用户的第二展示需求,同时,获取每对信息对中最相似的路径信息中涉及到的词汇匹配数量以及匹配节点,得到词汇数量差别范围[ɡ1,ɡ2]和节点数量差别范围[ɡ3,ɡ4];
ɡ1=min(|x1j1-x2j2|,j1=1,2,3,…,J;j2=1,2,3,…,J,且j2≠j1)
ɡ2=max(|x1j1-x2j2|,j1=1,2,3,…,J;j2=1,2,3,…,J,且j2≠j1)
ɡ3=min(|x3j3-x4j4|,j3=1,2,3,…,J;j4=1,2,3,…,J,且j3≠j4)
ɡ4=max(|x3j3-x4j4|,j3=1,2,3,…,J;j4=1,2,3,…,J,且j3≠j4)
其中,max()表示最大函数;min()表示最小函数;J1表示信息对个总个数;x1j1表示第j1个信息对涉及到的对应词汇匹配数量;x2j2表示第j2个信息对涉及到的对应词汇匹配数量;x3j3表示第j3个信息对涉及到的匹配节点的个数;x4j4表示第j4个信息对涉及到的匹配节点的个数;
确定精度小数个数F;
其中,∝1表示针对词汇匹配的第一权重;∝2表示针对节点匹配的第二权重;[ ]表示取整函数;h1表示对匹配词汇的调整参数,一般取值为1,h2表示对匹配节点的调整参数,一般取值为1;
获取基于剪枝后的技能树进行匹配过程的初始匹配精度,并基于精度小数个数F,对所述初始匹配精度进行精度扩展;
对扩展后的精度重新确定多个信息对的最大相似情况,如果还存在相同的相似情况,将相同的相似情况进行并列输出,同时,结合所述用户的第二展示需求进行展示调整,并输出显示;
否则,进行从大到小排序,并结合所述用户的第二展示需求进行展示调整,并输出显示。
该实施例中,第一展示需求以及第二展示需求,是指的用户想要观看到一个最后效果,比如:路径1中涉及的词汇信息量为100,涉及的节点数量为3,路径2涉及到的词汇信息量为90,涉及到的节点数量为8,路径3涉及到的词汇信息量为70,涉及到的节点数量为7,此时,对应的ɡ1=10,ɡ2=30,ɡ3=1,ɡ4=5。
如果此时只存在路径1和路径2,对应的ɡ1=ɡ2=10,对应的ɡ3=ɡ4=5。
该实施例中,通过按照精度重新对最大相似情况进行确定,来保证精确性。
该实施例中,比如初始匹配精度为0.1.精度小数个数F为2,此时,精度扩展后的精度为0.001。
上述技术方案的有益效果是:当存在多对最大相似的情况时,通过获取路径中的词汇数量以及节点数量,来确定数量范围,进而计算精确度小数个数,是为了更好的对相似度进行更加精细化,以此来确定出最为相似的知识点和路径,保证获取的准确性。
在一个实施例中,本发明提出一种基于层次结构的数据匹配装置,如图4所示,包括:
构建模块,用于构建具备层次结构的技能树;
获取模块,用于获取用户输入的当下查询文本,并基于所述技能树自动匹配最相似的知识点以及最相似的路径信息;
返回模块,用于将所述最相似的知识点以及最相似的路径信息返回给所述用户。
上述技术方案的有益效果是:基于构建的技能树层次结构,将当下查询文本自动匹配到最相关的知识点和路径信息,本发明的匹配算法能有效提高层次化结构文本匹配的效果及效率。
图5示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端,也可以是服务器。如图5所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现年龄识别方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行年龄识别方法。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
步骤1:构建具备层次结构的技能树;
步骤2:获取用户输入的当下查询文本,并基于所述技能树自动匹配最相似的知识点以及最相似的路径信息;
步骤3:将所述最相似的知识点以及最相似的路径信息返回给所述用户。
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
步骤1:构建具备层次结构的技能树;
步骤2:获取用户输入的当下查询文本,并基于所述技能树自动匹配最相似的知识点以及最相似的路径信息;
步骤3:将所述最相似的知识点以及最相似的路径信息返回给所述用户。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于层次结构的数据匹配方法,其特征在于,包括:
步骤1:构建具备层次结构的技能树;
步骤2:获取用户输入的当下查询文本,并基于所述技能树自动匹配最相似的知识点以及最相似的路径信息;
步骤3:将所述最相似的知识点以及最相似的路径信息返回给所述用户。
2.如权利要求1所述的基于层次结构的数据匹配方法,其特征在于,基于所述技能树自动匹配最相似的知识点以及最相似的路径信息,包括:
基于所述当下查询文本与技能树中不同节点的节点文本,构建文本匹配算法,获得文本匹配结果;
确定所述技能树的层次结构,并按照所述层次结构的树结构信息,构建基于窗口滑动的加权路径匹配算法,获得加权路径匹配结果;
构建基于关键词过滤的技能树剪枝算法,获得剪枝结果;
基于文本匹配结果、加权路径匹配结果以及剪枝结果,匹配得到最相似的知识点以及最相似的路径信息。
3.如权利要求2所述的基于层次结构的数据匹配方法,其特征在于,构建基于关键词过滤的技能树剪枝算法,获得剪枝结果,包括:
向所述技能树的每个节点匹配两个关键词集合,其中,第一关键词集合为对应节点必须包含的关键词,第二关键词集合为对应节点不能包含的关键词;
基于所述当下查询文本和每个节点的两个关键词集合对所述技能树进行剪枝,去掉未能匹配的子树;
基于剪枝后的技能树,计算与查询文本最相似的知识点以及最相似的路径信息。
4.如权利要求2所述的基于层次结构的数据匹配方法,其特征在于,基于所述当下查询文本与技能树中不同节点的节点文本,构建文本匹配算法,获得文本匹配结果,包括:
获取初始交并比算法,并基于词语权重对所述初始交并比算法进行改进,得到改进交并比算法;
IoU=sum(Tq⋂Tn)/sum(Tq⋃Tn)
其中,IoU表示改进交并比算法;Tq表示初始交并比算法中与当下查询文本Sq相关的词序列Wq对应的权重序列,且Tq=(t11,t12,t13,…,t1a),Tn表示初始交并比算法中与节点文本Sn相关的词序列Wn对应的权重序列,且Tn=(t21,t22,t23,…,t2b);t1a表示权重序列Tq中的第a个词汇的权重;t2b表示权重序列Tn中的第b个词汇的权重;sum()表示求和函数;
将所述改进交并比算法与距离编辑比算法进行加权融合;
sim(Sq,Sn)=α*lr+(1-α)*IoU
lr=(len-ldistword)/len
其中,len=|Wq|+|Wn|,ldistword为两个词序列Wq和Wn之间的类编辑距离;lr表示距离编辑比算法;α表示距离编辑比算法的加权值;1-α表示改进交并比算法的加权值;len表示词序列Wq与词序列Wn中词语的数量之和;|Wq|表示词序列Wq中词语的数量;|Wn|表示词序列Wn中词语的数量;sim(Sq,Sn)表示加权融合后的算法,且表示当下查询文本与所述技能树中对应单个节点的相似度;
基于加权融合后的算法,计算所述当下查询文本与所述技能树中单个节点的相似度,进而得到文本匹配结果。
5.如权利要求2所述的基于层次结构的数据匹配方法,其特征在于,确定所述技能树的层次结构,并按照所述层次结构的树结构信息,构建基于窗口滑动的加权路径匹配算法,获得加权路径匹配结果,包括:
确定所述技能树对应的节点路径,且表示为P={Sn1,Sn2,…Snx};
计算所述节点路径中每个节点与所述当下查询文本之间的相似度,即Psim_set={sim(Sq,Sn1),sim(Sq,Sn2),…,sim(Sq,Snx)},其中,sim(Sq,Snx),其中,sim(Sq,Snx)表示当下查询文本Sq与节点路径中第x个节点文本Snx的相似度;Psim_set表示所述节点路径中每个节点与所述当下查询文本之间的相似度集合;
裁剪所述节点路径中尾部相似度为0的节点,得到
Psim_set_new={sim(Sq,Sn1),sim(Sq,Sn2),…,sim(Sq,Sny)},y≤x;
Psim_set_new表示去除相似度为0的节点后的相似度集合;sim(Sq,Sny)表示当下查询文本Sq与节点路径中第y个节点文本Sny的相似度,y表示Psim_set_new集合对应的节点文本个数,且一个节点对应一个节点文本;
将Psim_set_new中离散的相似度值进行融合,得到所述节点路径和当下查询文本之间的相似度sim(Sq,P)1;
基于窗口滑动机制,对所述技能树的路径上下文节点对应的信息进行融入,并对相似度sim(Sq,P)1进行优化;
其中,γ∈[0,0.5]是上下文节点的权重;sim(Sq,Sn(i-1))表示所述当下查询文本Sq与Psim_set_new集合中第i-1个节点文本Sn(i-1)之间的相似度;sim(Sq,Sn(i+1))表示所述当下查询文本Sq与Psim_set_new集合中第i+1个节点文本Sn(i+1)之间的相似度;
基于优化后的算法sim(Sq,P)2,获得加权路径匹配结果。
6.如权利要求1所述的基于层次结构的数据匹配方法,其特征在于,基于所述当下查询文本和每个节点的两个关键词集合对所述技能树进行剪枝,去掉未能匹配的子树,包括:
获取所述当下查询文本的文本属性,并基于所述文本属性,从预设数据库,确定与所述文本属性相关的匹配链表;
基于所述匹配链表对应节点的两个关键词集合中的所有关键词进行先后排序,并按照所述匹配链表中的最小匹配词,确定排序后的第一关键词集合中的第一匹配起点,同时,确定排序后的第二关键集合中的第二匹配起点;
基于所述第一匹配起点,确定对应节点的第一待保留分支,基于所述第二匹配起点,确定对应节点的第二待保留分支;
基于词汇分解模型,对所述当下查询文本进行词汇分解,并随机筛选一个分词与第一待保留分支以及第二待保留分支中的关键词进行逐个匹配,获得该分词的匹配程度,并根据程度-标签列表,向对应分词以及相关子分支设置第一匹配标签;对剩余分词进行归类处理,若所有剩余分词都为同一类,则对所述剩余分词进行同步分析,并基于所述程度-标签列表分别向每个剩余分词以及相关子分支设置第二匹配标签;
若不为同类,对每个子类进行同步分析,并基于所述程度-标签列表分别向每个子类中的每个剩余分词以及相关子分支设置第三匹配标签;
基于标签设置结果,对所述第一待保留分支以及第二待保留分支中未设置标签的子分支剪枝,进而得到剪枝后的技能树。
7.如权利要求1所述的基于层次结构的数据匹配方法,其特征在于,将所述最相似的知识点以及最相似的路径信息返回给所述用户的过程中,还包括:
对所述最相似的知识点以及最相似的路径信息的信息对进行确定;
若所述信息对为1对,获取所述用户的第一展示需求;
基于所述第一展示需求,对所述最相似的知识点以及最相似的路径信息进行展示调整,并输出给所述用户的用户端展示;
若所述信息对不为1对,获取所述用户的第二展示需求,同时,获取每对信息对中最相似的路径信息中涉及到的词汇匹配数量以及匹配节点,得到词汇数量差别范围[ɡ1,ɡ2]和节点数量差别范围[ɡ3,ɡ4];
ɡ1=min(|x1j1-x2j2|,j1=1,2,3,…,J;j2=1,2,3,…,J,且j2≠j1)
ɡ2=max(|x1j1-x2j2|,j1=1,2,3,…,J;j2=1,2,3,…,J,且j2≠j1)
ɡ3=min(|x3j3-x4j4|,j3=1,2,3,…,J;j4=1,2,3,…,J,且j3≠j4)
ɡ4=max(|x3j3-x4j4|,j3=1,2,3,…,J;j4=1,2,3,…,J,且j3≠j4)
其中,max()表示最大函数;min()表示最小函数;J1表示信息对个总个数;x1j1表示第j1个信息对涉及到的对应词汇匹配数量;x2j2表示第j2个信息对涉及到的对应词汇匹配数量;x3j3表示第j3个信息对涉及到的匹配节点的个数;x4j4表示第j4个信息对涉及到的匹配节点的个数;
确定精度小数个数F;
其中,∝1表示针对词汇匹配的第一权重;∝2表示针对节点匹配的第二权重;[ ]表示取整函数;h1表示对匹配词汇的调整参数,一般取值为1,h2表示对匹配节点的调整参数,一般取值为1;
获取基于剪枝后的技能树进行匹配过程的初始匹配精度,并基于精度小数个数F,对所述初始匹配精度进行精度扩展;
对扩展后的精度重新确定多个信息对的最大相似情况,如果还存在相同的相似情况,将相同的相似情况进行并列输出,同时,结合所述用户的第二展示需求进行展示调整,并输出显示;
否则,进行从大到小排序,并结合所述用户的第二展示需求进行展示调整,并输出显示。
8.一种基于层次结构的数据匹配装置,其特征在于,用于执行权利要求1-7中任一所述的基于层次结构的数据匹配方法的步骤。
9.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
10.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210269832.8A CN114357123B (zh) | 2022-03-18 | 2022-03-18 | 基于层次结构的数据匹配方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210269832.8A CN114357123B (zh) | 2022-03-18 | 2022-03-18 | 基于层次结构的数据匹配方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114357123A true CN114357123A (zh) | 2022-04-15 |
CN114357123B CN114357123B (zh) | 2022-06-10 |
Family
ID=81094617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210269832.8A Active CN114357123B (zh) | 2022-03-18 | 2022-03-18 | 基于层次结构的数据匹配方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114357123B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150088793A1 (en) * | 2013-09-20 | 2015-03-26 | Linkedln Corporation | Skills ontology creation |
CN105701253A (zh) * | 2016-03-04 | 2016-06-22 | 南京大学 | 中文自然语言问句语义化的知识库自动问答方法 |
CN106844350A (zh) * | 2017-02-15 | 2017-06-13 | 广州索答信息科技有限公司 | 一种短文本语义相似度的计算方法 |
CN112380360A (zh) * | 2020-11-12 | 2021-02-19 | 浙江工业大学 | 异构信息网络中基于元路径的节点查询方法 |
CN112766507A (zh) * | 2021-01-20 | 2021-05-07 | 河海大学 | 基于嵌入式和候选子图剪枝的复杂问题知识库问答方法 |
-
2022
- 2022-03-18 CN CN202210269832.8A patent/CN114357123B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150088793A1 (en) * | 2013-09-20 | 2015-03-26 | Linkedln Corporation | Skills ontology creation |
CN105701253A (zh) * | 2016-03-04 | 2016-06-22 | 南京大学 | 中文自然语言问句语义化的知识库自动问答方法 |
CN106844350A (zh) * | 2017-02-15 | 2017-06-13 | 广州索答信息科技有限公司 | 一种短文本语义相似度的计算方法 |
CN112380360A (zh) * | 2020-11-12 | 2021-02-19 | 浙江工业大学 | 异构信息网络中基于元路径的节点查询方法 |
CN112766507A (zh) * | 2021-01-20 | 2021-05-07 | 河海大学 | 基于嵌入式和候选子图剪枝的复杂问题知识库问答方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114357123B (zh) | 2022-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110874531B (zh) | 一种话题分析方法、装置和存储介质 | |
CN109858010B (zh) | 领域新词识别方法、装置、计算机设备和存储介质 | |
CN109299480B (zh) | 基于上下文语境的术语翻译方法及装置 | |
CN106649783B (zh) | 一种同义词挖掘方法和装置 | |
CN110888990B (zh) | 文本推荐方法、装置、设备及介质 | |
CN108829799A (zh) | 基于改进lda主题模型的文本相似度计算方法及系统 | |
EP1687738A2 (en) | Clustering of text for structuring of text documents and training of language models | |
CN110377725B (zh) | 数据生成方法、装置、计算机设备及存储介质 | |
CN109299245B (zh) | 知识点召回的方法和装置 | |
CN112215008A (zh) | 基于语义理解的实体识别方法、装置、计算机设备和介质 | |
CN110232112A (zh) | 文章中关键词提取方法及装置 | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN110309504B (zh) | 基于分词的文本处理方法、装置、设备及存储介质 | |
CN111325030A (zh) | 文本标签构建方法、装置、计算机设备和存储介质 | |
CN111368061A (zh) | 短文本过滤方法、装置、介质及计算机设备 | |
CN110532569B (zh) | 一种基于中文分词的数据碰撞方法及系统 | |
CN116804998A (zh) | 基于医学语义理解的医学术语检索方法和系统 | |
CN111382570A (zh) | 文本实体识别方法、装置、计算机设备及存储介质 | |
CN112036175A (zh) | 领域文本情绪识别方法、装置、计算机设备及存储介质 | |
CN113239193A (zh) | 一种文本挖掘方法及系统 | |
CN114357123B (zh) | 基于层次结构的数据匹配方法、装置、设备及存储介质 | |
CN111680146A (zh) | 确定新词的方法、装置、电子设备及可读存储介质 | |
CN108475265B (zh) | 获取未登录词的方法与装置 | |
CN109918661B (zh) | 同义词获取方法及装置 | |
CN117194607A (zh) | 基于自然语言的搜索方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |