CN116680367A - 数据匹配方法、数据匹配装置及计算机可读存储介质 - Google Patents
数据匹配方法、数据匹配装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN116680367A CN116680367A CN202310976036.2A CN202310976036A CN116680367A CN 116680367 A CN116680367 A CN 116680367A CN 202310976036 A CN202310976036 A CN 202310976036A CN 116680367 A CN116680367 A CN 116680367A
- Authority
- CN
- China
- Prior art keywords
- matching
- text file
- word
- target text
- word vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims abstract description 146
- 230000011218 segmentation Effects 0.000 claims abstract description 28
- 238000012216 screening Methods 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 26
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 4
- 238000013526 transfer learning Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000032683 aging Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 235000008694 Humulus lupulus Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了数据匹配方法、数据匹配装置及计算机可读存储介质,其中,所述数据匹配方法包括以下步骤:将匹配条件进行分词,并确定分词后的所述匹配条件的第一词向量集,以及数据库中各个文章的第二词向量集;根据所述第一词向量集的第一词向量与所述第二词向量集的第二词向量,确定所述匹配条件与各个所述文本文件之间的余弦相似度;确定所述余弦相似度中,大于或等于预设余弦相似阈值的目标余弦相似度,并基于所述目标余弦相似度匹配目标文本文件。本发明通过将匹配条件进行分词,基于分词后的搜索内容查询符合匹配条件的数据,以解决当前搜索结果相关度较低的问题。
Description
技术领域
本发明涉及数据识别领域,尤其涉及数据匹配方法、数据匹配装置及计算机可读存储介质。
背景技术
搜索排序算法在众多搜索引擎上和商业系统上都有广泛的应用。最常见的信息搜索排序方式为:输入关键字,通过搜索召回+排序的方式获取相应的数据。
在相关的检索排序方案中,通常采用关键词完全匹配的规则优先,分词结果相关在后的方式对搜索结果进行排序。然而,此类搜索排序方式对应的搜索结果差强人意,例如输入“城市A的金融机构”时,若数据库的所有文章均不存在“城市A的金融机构”的字样,则会在数据库中分别检索“城市A”以及“金融机构”的相关文章,检索结果就变成“城市A”的相关内容或“金融机构”的相关内容,也即得到的检索结果与想要查询的信息并不相关。因此,当前的搜索排序方式存在搜索结果相关度较低的问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种数据匹配方法、数据匹配装置及计算机可读存储介质,解决现有技术中搜索结果相关度较低的问题。
为实现上述目的,本发明提供一种数据匹配方法,所述数据匹配方法包括以下步骤:
根据匹配条件的分词处理结果,确定所述匹配条件对应的第一词向量集,以及确定数据库中保存的文本文件对应的第二词向量集;
根据所述第一词向量集的第一词向量与所述第二词向量集的第二词向量,确定所述匹配条件与各个所述文本文件之间的余弦相似度;
确定所述余弦相似度中,大于或等于预设余弦相似阈值的目标余弦相似度,并基于所述目标余弦相似度匹配目标文本文件。
可选地,所述根据匹配条件的分词处理结果,确定所述匹配条件对应的第一词向量集,以及确定数据库中保存的文本文件对应的第二词向量集的步骤之前,还包括:
构建所述数据库中所述文本文件的关键词之间的知识图谱;
根据所述文本文件的目标关键词在所述知识图谱中与其他关键词的关系边数,确定所述关键词的初始权重系数;
基于所述初始权重系数以及预设迭代公式,确定所述文本文件的网页优先级。
可选地,所述根据匹配条件的分词处理结果,确定所述匹配条件对应的第一词向量集,以及确定数据库中保存的文本文件对应的第二词向量集的步骤之前,还包括:
基于bert预训练模型对所述文本文件的数据源进行分词处理及语料迁移学习,得到所述文本文件的每一个词的词向量;
通过kmeans聚类算法以及词语频率算法对所述每一个词的词向量进行聚类处理,筛选得到所述第二词向量集。
可选地,所述确定所述余弦相似度中,大于或等于预设余弦相似阈值的目标余弦相似度,并基于所述目标余弦相似度匹配目标文本文件的步骤之后,还包括:
确定所述目标文本文件的网页优先级;
根据所述匹配条件对应的城市关联信息、所述目标文本文件的发布时间和/或所述目标文本文件的网页优先级,对所述目标文本文件进行筛选排序。
可选地,所述根据所述匹配条件对应的城市关联信息、所述目标文本文件的发布时间和/或所述目标文本文件的网页优先级,对所述目标文本文件进行筛选排序的步骤之前,还包括:
获取所述匹配条件关联的IP地址和/或时间戳;
基于所述IP地址确定所述城市关联信息和/或获取到所述时间戳后,确定所述目标文本文件的发布时间。
可选地,所述根据所述匹配条件对应的城市关联信息、所述目标文本文件的发布时间和/或所述目标文本文件的网页优先级,对所述目标文本文件进行筛选排序的步骤包括:
根据所述城市关联信息提高满足所述城市关联信息的所述目标文本文件的城市优先级,随后根据所述城市优先级对所述目标文本文件进行降序排序;和/或
根据所述发布时间的先后顺序对所述目标文本文件进行降序排序;和/或
根据所述网页优先级对所述目标文本文件进行降序排序。
可选地,所述根据所述第一词向量集的第一词向量与所述第二词向量集的第二词向量,确定所述匹配条件与各个所述文本文件之间的余弦相似度的步骤包括:
将所述第一词向量集的各个第一词向量,分别与所述第二词向量集的各个第二词向量相乘,得到第三向量集;
将所述第三向量集的各个第三词向量相加后,依次与所述第一词向量集的第一总数以及第二词向量集的第二总数相除,得到所述余弦相似度。
可选地,所述确定所述余弦相似度中,大于或等于预设余弦相似阈值的目标余弦相似度,并基于所述目标余弦相似度匹配目标文本文件的步骤之后,还包括:
接收到图数据库的cypher查询对应的字段查询条件时,提高满足所述字段查询条件的所述目标文本文件的筛选优先级;
基于所述筛选优先级对所述目标文本文件进行降序排序。
此外,为实现上述目的,本发明还提供一种数据匹配装置,所述数据匹配装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据匹配程序,所述数据匹配程序被所述处理器执行时实现如上所述的数据匹配方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据匹配程序,所述数据匹配程序被处理器执行时实现如上所述的数据匹配方法的步骤。
本发明实施例提供了数据匹配方法、数据匹配装置及计算机可读存储介质,首先将得到的匹配条件进行分词处理,并确定分词后的所述匹配条件的第一词向量集,以及数据库中各个文章的第二词向量集,随后根据所述第一词向量集的第一词向量与所述第二词向量集的第二词向量,确定所述匹配条件与各个所述文本文件之间的余弦相似度,接着确定所述余弦相似度中,大于或等于预设余弦相似阈值的目标余弦相似度,并基于所述目标余弦相似度匹配目标文本文件。可以看出,在获取到匹配条件后,对其进行分词处理进而得到匹配条件对应的词向量集,随后根据词向量集的第一词向量与文章中的第二词向量计算余弦相似度,将大于或等于余弦相似阈值的目标余弦相似度对应的文本文件作为目标文本文件,基于此可以保障用户搜索到的内容能够符合当前输入的匹配条件,避免检索到的内容与用户需求结果大相径庭,提高了检索结果的相关度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明数据匹配方法的第一实施例的流程示意图;
图2为是本发明数据匹配方法的第二实施例的流程示意图;
图3为本发明数据匹配方法的知识图谱中各个关键词的连接示意图;
图4为本发明数据匹配方法的第三实施例的流程示意图;
图5是本发明数据匹配方法的各个实施例的终端硬件结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在相关的检索排序方案中,通常采用关键词完全匹配的规则优先,分词结果相关在后的方式对搜索结果进行排序。然而,此类搜索排序方式对应的搜索结果差强人意,例如输入“城市A的金融机构”时,若数据库的所有文章均不存在“城市A的金融机构”的字样,则会在数据库中分别检索“城市A”以及“金融机构”的相关文章,检索结果就变成“城市A”的相关内容或“金融机构”的相关内容,也即得到的检索结果与想要查询的信息并不相关。因此,当前的搜索排序方式存在搜索结果相关度较低的问题。
为解决上述缺陷,本发明实施例提出一种数据匹配方法,其主要解决方案包括以下步骤:
将匹配条件进行分词,并确定分词后的所述匹配条件的第一词向量集,以及数据库中各个文章的第二词向量集;
根据所述第一词向量集的第一词向量与所述第二词向量集的第二词向量,确定所述匹配条件与各个所述文本文件之间的余弦相似度;
确定所述余弦相似度中,大于或等于预设余弦相似阈值的目标余弦相似度,并基于所述目标余弦相似度匹配目标文本文件。
为了更好地理解上述技术方案,下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整地传达给本领域的技术人员。
请参照图1,图1为本发明数据匹配方法的第一实施例的流程示意图。
本实施例的方案适用于政务领域相关的数据库检索。具体的,在本实施例中,数据匹配方法包括以下步骤:
步骤S10,根据匹配条件的分词处理结果,确定所述匹配条件对应的第一词向量集,以及确定数据库中保存的文本文件对应的第二词向量集;
在本实施例中,匹配条件指的是进行数据检索时由用户或机器输入的检索关键字,该匹配条件可以是一个字如“路”、可以是单个词语如“道路”也可以是一段话如“城市A的道路绿化”等。文本文件指的是数据库中未筛选处理的所有文章内容,例如数据库中的待检索的文章,在本方案中通常以网页形式展示。第一词向量集指的是匹配条件分词后各个关键字对应的向量集合,若关键词仅为一个,第一词向量集仅包含一个词向量。第二词向量集指的是一篇文章中至少20个关键词对应的向量集合。需要说明的是,每一篇文章都有独立的第二词向量集,也即不同的文章,其对应的第二词向量集不同。而至少20个关键词的设置是为了提高检索结果的相关度,提高文章包含的搜索概率而设置的,在实际应用时,可以根据具体实施场景进行关键词数量的缩减或增加。
在接收到匹配条件后,需要对该匹配条件进行分词筛选处理,例如去掉“着、了、的”的影响,得到单个词语,进而根据预设的算法计算匹配条件的第一词向量集,随后可获取数据库中各个文本文件的关键词对应的第二词向量集。
示例性的,匹配条件为“城市A的绿化”,分词后变为“城市A、绿化”,而匹配条件对应的第一词向量集为“q1,q2”,其中q1,q2均大于零小于1。而文本文件的第二词向量集可以是“w1,w2……w20”。可以理解的是,若是匹配条件为“绿化”,则第一词向量集的元素只有“q1”。
可以理解的是,对匹配条件进行分词处理,并得到分词后各个关键词对应的词向量的方式可以采用现有技术执行,在这里对分词处理的方式不做过多赘述。
可选地,获取到文本文件的匹配条件之前,需要基于bert预训练模型对所述文本文件的数据源进行分词处理及语料迁移学习,得到所述文本文件的每一个词的词向量,随后通过kmeans聚类算法以及词语频率算法对所述每一个词的词向量进行聚类处理,筛选得到所述第二词向量集。而通过kmeans聚类算法对词向量进行处理,能够筛选出符合实际计算要求的关键词对应的第二词向量集,保障文本文件中关键词抽取的准确率。
步骤S20,根据所述第一词向量集的第一词向量与所述第二词向量集的第二词向量,确定所述匹配条件与各个所述文本文件之间的余弦相似度;
在本实施例中,余弦相似度是一组数据集合,并非是单个数据。例如待检索的文章的数量有100篇时,计算得到的余弦相似度的数据有100组。
具体的,在本实施例中,计算所述余弦相似度的方式也即步骤S20可以包括:
步骤S21,将所述第一词向量集的各个第一词向量,分别与所述第二词向量集的各个第二词向量相乘,得到第三向量集;
步骤S22,将所述第三向量集的各个第三词向量相加后,依次与所述第一词向量集的第一总数以及第二词向量集的第二总数相除,得到所述余弦相似度。
示例性的,若第一词向量集为,m为第一词向量的个数,第二词向量集为/>,将第一词向量集的各个第一词向量分别与第二词向量集的各个第二词向量相乘得到的结果也即第三向量集为:
,基于此,在将第三向量集的各个子元素相加后,依次除以第一词向量的个数m以及第二词向量集的个数20时,可以用以下公式表示:
,其中,/>表示余弦相似度,v表示匹配条件的关键字,m大于等于0。
基于上述公式,可以计算匹配条件的关键词对应的词向量与文本文件中各个关键词对应的词向量之间的余弦相似度的总和的平均值。
可以理解的是,该计算方式是对其中一篇文章进行计算处理,在得到第一篇文章的余弦相似度后,可以重复执行上述计算方式,得到所有文章的余弦相似度。
步骤S30,确定所述余弦相似度中,大于或等于预设余弦相似阈值的目标余弦相似度,并基于所述目标余弦相似度匹配目标文本文件。
在本实施例中,计算得到余弦相似度后,可以按照的大小从大到小降序排列,若预设余弦相似阈值为p,选择余弦相似度大于p的目标余弦相似度,将目标余弦相似度对应的文章(文本文件)作为目标文本文件。其中,p值在0到1之间,可以根据具体应用场景进行设置,若不设置,则p默认为0。
可选地,在筛选得到目标文本文件后,还可以根据预先设定的排序规则对目标文本文件进行排序处理,也即步骤S30之后还包括:
步骤S40,接收到图数据库的cypher查询对应的字段查询条件时,提高满足所述字段查询条件的所述目标文本文件的筛选优先级;
步骤S50,基于所述筛选优先级对所述目标文本文件进行降序排序。
可以理解的是,可以通过接口选择的方式为用户提供相应的接口,并基于接口对应的筛选条件提高筛选优先级,也即在输出所述目标文本文件时,根据筛选优先级进行降序输出。
示例性的,若接收到的字段查询条件为“S市优先”,此时可以提高目标文本文件中,包含S市的关键词的筛选优先级,筛选优先级可以是数字、字母等具备明确的逻辑顺序或大小顺序的数据。例如目标文本文件中筛选优先级对应的数值均为40,此时可以根据目标文本文件中“S市”一词的频率提高筛选优先级的数值,每出现一次,将优先级数值+2,最后根据筛选优先级的数值大小进行降序排序。
需要说明的是,上述数据仅用于解释说明,并非是对本发明的限定。
在本实施例公开的技术方案中,通过匹配条件对应的分词结果的词向量与文章的词向量之间的余弦相似度计算出符合匹配条件的目标文本文件,通过设置文章的至少20个关键词的词向量,保障余弦相似度计算的准确性,进一步保障了基于余弦相似度进行筛选处理得到的目标文本文件能够满足搜索需求,提高了搜索结果的相关度,除此之外还能够根据预设的筛选条件对符合条件的目标文本文件进行排序处理,保障搜索结果中排在前列的文章能够满足搜索需求。
参照图2,在第二实施例中,基于第一实施例,步骤S10之前,还包括:
步骤S60,构建所述数据库中所述文本文件的关键词之间的知识图谱;
在本实施例中,为优化数据库的数据查询速度,可以在数据库之间构建关键词的知识图谱,其中,相较于传统的网页与网页之间的同构知识图谱,本实施例的基于数据库构建的知识图谱为异构知识图谱。
步骤S70,根据所述文本文件的目标关键词在所述知识图谱中与其他关键词的关系边数,确定所述关键词的初始权重系数;
具体的,根据每个关键字与其他关键字关联的关系边数比上最大关联边数,得到初始权重系数。请参照图3,关键词A与其他关键词存在关联的边数有一条(关键词C),而在图3所示的关键词连接示意图中,最大关联边数有4条(关键词C与其他关键词的关联边数),基于此可以确定关键词A的初始权重为1/4。需要说明的是,上述参数仅用于解释说明,并非是对方案的具体限定,初始权重的数据可以根据实际应用场景配置,或添加相应的条件生成。
步骤S80,基于所述初始权重系数以及预设迭代公式,确定所述文本文件的网页优先级。
网页优先级为文本文件的PageRank(一种网页重要程度排名),可以理解的是,文本文件的PageRank值越大,进行排序时,对应的目标文本文件会优先排在前列。
在本实施例中,选定目标关键词的初始权重后,可以根据目标关键词与其他关键存在1跳关系的关系边数进行迭代计算,得到各个关键词的PageRank值(网页优先级),也可以根据目标关键词与其他关键词存在2跳关系以内的关系边数进行迭代计算。
具体的,在一可选实施方式中,将目标关键词与其他关键词的节点查询放宽至2跳查询时,请继续参照图3,在需要对关键词A的权重进行迭代计算进而得到待检索文件中,关键词A对应的PageRank值时,基于2跳查询条件,可以确定与关键词A存在关系的其他关键词为关键词B、关键词C、关键词D以及关键词F,此时,可以通过如下公式对关键词A的PageRank值进行迭代计算:
,
其中,S(Vi)是关键词i的PageRank值,d是阻尼系数,通常默认设置为0.85,In(Vi)为知识图谱中存在与关键词i有不大于2跳关系的其他关键词,|out(Vj)|是关键词j中有不大于2跳关系的关键词的集合个数。
示例性的,请继续参照图3,基于上述公式,若VA,VB,Vc,等均表示关键词A、B以及C对应的初始权重,基于此,可以确定关键词A的PageRank值为:
VA=(1-0.85)+Vb/3+Vc/6+VD/6+VF/5。
在本实施例公开的技术方案中,通过构建文本文件中各个关键词的知识图谱,基于知识图谱的数据关系对文本文件的各个关键词的PageRank值进行计算,进一步得到文本文件的网页优先级。在该过程中充分利用了待检索文本中各个关键词的相关关系,并基于知识图谱中描绘的图结构的邻接关系对文本文件的关键词的PageRank值进行迭代计算,进而可以进一步精细化各个关键词之间的关系,使得目标文本文件基于PageRank值进行排序的目标文本文件更符合检索需求,提高排序后的搜索结果与搜索内容的相关度。
请参照图4,在第三实施例中,基于第一实施例,步骤S30之后,还包括:
步骤S90,确定所述目标文本文件的网页优先级;
在本实施例中,获取到的目标文本文件中,也会存在相关度较低的文章,因此,为提高搜索结果的相关性,需要对目标文本文件做进一步的排序处理。在一种可选的排序方式中,可以基于目标文本文件的网页优先级也即pagerank进行排序。其中,网页优先级可以是整个目标文本文件的PageRank值,也可以是目标文本文件中与匹配条件存在关联的关键词的PageRank值。
步骤S100,根据所述匹配条件对应的城市关联信息、所述目标文本文件的发布时间和/或所述目标文本文件的网页优先级,对所述目标文本文件进行筛选排序。
除了基于目标文本文件的PageRank值进行排序外,还可联合其他优先排序规则对目标文本文件做进一步的排序处理。具体的,该步骤之前,还可以先获取匹配条件关联的IP地址(Internet Protoco address,互联网协议地址)和/或时间戳,并基于所述IP地址确定所述城市关联信息,和/或获取到所述时间戳后,确定所述目标文本文件的发布时间。也即,在截取到匹配条件对应的数据包后,可以基于该数据包的信息获取匹配条件关联的IP地址,或者基于该数据包获取数据包发送的时间戳,也可同时获取IP地址和时间戳。
在获取到的IP地址后,可以根据IP地址确定城市关联信息,例如IP地址为“S市”时,可以生成多种与S市关联的城市信息,生成同省的城市关联信息为“G市、D市、F市、S市”,生成同等经济发展水平的城市关联信息为“B市、H市、G市、S市”等。基于此,可以根据城市关联信息提高满足所述城市关联信息的目标文本文件的城市优先级,并根据城市优先级对所述目标文本文件进行降序排序,例如生成的城市关联信息为“G市、D市、F市、S市”时,可以将目标文本文件中,包含该城市信息的城市优先级对应系数提高,并根据所述提高后的数据进行降序排序。其中,若不设置城市关联信息,则可以直接根据IP地址对应的城市直接提高目标文本文件的优先级。
可选地,还可以在获取到时间戳后,确定目标文本文件的发布时间,并根据所述发布时间的先后顺序对所述目标文本文件进行降序排序。还可直接根据网页优先级对目标文本文件进行降序排序。
在一种可选实现方式中,可以同时基于所述IP地址对应的城市优先级以及时间戳对应的发布时间对目标文本文件进行降序排序,例如先基于城市优先级进行降序排序后,可以进一步根据发布时间进行降序排序,随后可以根据目标文本文件的PageRank值对排序后的目标文本文件做进一步的排序处理,进而通过多次排序处理,使得输出的排序结果更符合匹配条件需求,进一步提高搜索结果的相关度。
可选地,还可根据目标文本文件的时效性进行降序处理,具体的,在确定目标文本文件后,可以读取所述目标文本文件记载的日志信息,若所述日志信息中包含所述目标文本文件的有效期限时,确定超出所述有效期限的无效文章,并将所述无效文章对应的时效优先级置空,并基于所述时效优先级对所述目标文本文件进行降序排序。
在本实施例公开的技术方案中,在获取到符合余弦相似度的目标文本文件后,可以基于匹配条件对应的IP地址和/或时间戳得到城市关联信息和/或目标文本文件的发布时间,并基于城市关联信息和/或发布时间对目标文本文件作排序处理,随后直接根据目标文本文件的PageRank值,做二次排序处理,进而使得搜索排序后输出的结果满足匹配条件需求,进而提高了搜索结果的相关度。
参照图5,图5为本发明实施例方案涉及的硬件运行环境的终端结构示意图。
如图5所示,该终端可以包括:处理器1001,例如中央处理器(Central ProcessingUnit,CPU),通信总线1002、网络接口1003,存储器1004。其中,通信总线1002用于实现这些组件之间的连接通信。网络接口1003可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1004可以是高速的RAM存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1004可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图5中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图5所示,作为一种计算机存储介质的存储器1004中可以包括操作系统、数据存储模块、网络通信模块以及数据匹配程序。
在图5所示的终端中,网络接口1003主要用于连接后台服务器,与后台服务器进行数据通信;处理器1001可以调用存储器1004中存储的数据匹配程序,并执行以下操作:
根据匹配条件的分词处理结果,确定所述匹配条件对应的第一词向量集,以及确定数据库中保存的文本文件对应的第二词向量集;
根据所述第一词向量集的第一词向量与所述第二词向量集的第二词向量,确定所述匹配条件与各个所述文本文件之间的余弦相似度;
确定所述余弦相似度中,大于或等于预设余弦相似阈值的目标余弦相似度,并基于所述目标余弦相似度匹配目标文本文件。
进一步地,处理器1001可以调用存储器1004中存储的数据匹配程序,还执行以下操作:
构建所述数据库中所述文本文件的关键词之间的知识图谱;
根据所述文本文件的目标关键词在所述知识图谱中与其他关键词的关系边数,确定所述关键词的初始权重系数;
基于所述初始权重系数以及预设迭代公式,确定所述文本文件的网页优先级。
进一步地,处理器1001可以调用存储器1004中存储的数据匹配程序,还执行以下操作:
基于bert预训练模型对所述文本文件的数据源进行分词处理及语料迁移学习,得到所述文本文件的每一个词的词向量;
通过kmeans聚类算法以及词语频率算法对所述每一个词的词向量进行聚类处理,筛选得到所述第二词向量集。
进一步地,处理器1001可以调用存储器1004中存储的数据匹配程序,还执行以下操作:
确定所述目标文本文件的网页优先级;
根据所述匹配条件对应的城市关联信息、所述目标文本文件的发布时间和/或所述目标文本文件的网页优先级,对所述目标文本文件进行筛选排序。
进一步地,处理器1001可以调用存储器1004中存储的数据匹配程序,还执行以下操作:
获取所述匹配条件关联的IP地址和/或时间戳;
基于所述IP地址确定所述城市关联信息和/或获取到所述时间戳后,确定所述目标文本文件的发布时间。
进一步地,处理器1001可以调用存储器1004中存储的数据匹配程序,还执行以下操作:
根据所述城市关联信息提高满足所述城市关联信息的所述目标文本文件的城市优先级,随后根据所述城市优先级对所述目标文本文件进行降序排序;和/或
根据所述发布时间的先后顺序对所述目标文本文件进行降序排序;和/或
根据所述网页优先级对所述目标文本文件进行降序排序。
进一步地,处理器1001可以调用存储器1004中存储的数据匹配程序,还执行以下操作:
将所述第一词向量集的各个第一词向量,分别与所述第二词向量集的各个第二词向量相乘,得到第三向量集;
将所述第三向量集的各个第三词向量相加后,依次与所述第一词向量集的第一总数以及第二词向量集的第二总数相除,得到所述余弦相似度。
进一步地,处理器1001可以调用存储器1004中存储的数据匹配程序,还执行以下操作:
接收到图数据库的cypher查询对应的字段查询条件时,提高满足所述字段查询条件的所述目标文本文件的筛选优先级;
基于所述筛选优先级对所述目标文本文件进行降序排序。
此外,本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可以存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被控制终端中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有数据匹配程序,所述数据匹配程序被处理器执行时实现如上实施例所述的数据匹配方法的各个步骤。
需要说明的是,由于本申请实施例提供的存储介质,为实施本申请实施例的方法所采用的存储介质,故而基于本申请实施例所介绍的方法,本领域所属人员能够了解该存储介质的具体结构及变形,故而在此不再赘述。凡是本申请实施例的方法所采用的存储介质都属于本申请所欲保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框,以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二,以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种数据匹配方法,其特征在于,所述数据匹配方法包括:
根据匹配条件的分词处理结果,确定所述匹配条件对应的第一词向量集,以及确定数据库中保存的文本文件对应的第二词向量集;
根据所述第一词向量集的第一词向量与所述第二词向量集的第二词向量,确定所述匹配条件与各个所述文本文件之间的余弦相似度;
确定所述余弦相似度中,大于或等于预设余弦相似阈值的目标余弦相似度,并基于所述目标余弦相似度匹配目标文本文件。
2.如权利要求1所述的数据匹配方法,其特征在于,所述根据匹配条件的分词处理结果,确定所述匹配条件对应的第一词向量集,以及确定数据库中保存的文本文件对应的第二词向量集的步骤之前,还包括:
构建所述数据库中所述文本文件的关键词之间的知识图谱;
根据所述文本文件的目标关键词在所述知识图谱中与其他关键词的关系边数,确定所述关键词的初始权重系数;
基于所述初始权重系数以及预设迭代公式,确定所述文本文件的网页优先级。
3.如权利要求1所述的数据匹配方法,其特征在于,所述根据匹配条件的分词处理结果,确定所述匹配条件对应的第一词向量集,以及确定数据库中保存的文本文件对应的第二词向量集的步骤之前,还包括:
基于bert预训练模型对所述文本文件的数据源进行分词处理及语料迁移学习,得到所述文本文件的每一个词的词向量;
通过kmeans聚类算法以及词语频率算法对所述每一个词的词向量进行聚类处理,筛选得到所述第二词向量集。
4.如权利要求1所述的数据匹配方法,其特征在于,所述确定所述余弦相似度中,大于或等于预设余弦相似阈值的目标余弦相似度,并基于所述目标余弦相似度匹配目标文本文件的步骤之后,还包括:
确定所述目标文本文件的网页优先级;
根据所述匹配条件对应的城市关联信息、所述目标文本文件的发布时间和/或所述目标文本文件的网页优先级,对所述目标文本文件进行筛选排序。
5.如权利要求4所述的数据匹配方法,其特征在于,所述根据所述匹配条件对应的城市关联信息、所述目标文本文件的发布时间和/或所述目标文本文件的网页优先级,对所述目标文本文件进行筛选排序的步骤之前,还包括:
获取所述匹配条件关联的IP地址和/或时间戳;
基于所述IP地址确定所述城市关联信息和/或获取到所述时间戳后,确定所述目标文本文件的发布时间。
6.如权利要求5所述的数据匹配方法,其特征在于,所述根据所述匹配条件对应的城市关联信息、所述目标文本文件的发布时间和/或所述目标文本文件的网页优先级,对所述目标文本文件进行筛选排序的步骤包括:
根据所述城市关联信息提高满足所述城市关联信息的所述目标文本文件的城市优先级,随后根据所述城市优先级对所述目标文本文件进行降序排序;和/或
根据所述发布时间的先后顺序对所述目标文本文件进行降序排序;和/或
根据所述网页优先级对所述目标文本文件进行降序排序。
7.如权利要求1所述的数据匹配方法,其特征在于,所述根据所述第一词向量集的第一词向量与所述第二词向量集的第二词向量,确定所述匹配条件与各个所述文本文件之间的余弦相似度的步骤包括:
将所述第一词向量集的各个第一词向量,分别与所述第二词向量集的各个第二词向量相乘,得到第三向量集;
将所述第三向量集的各个第三词向量相加后,依次与所述第一词向量集的第一总数以及第二词向量集的第二总数相除,得到所述余弦相似度。
8.如权利要求1所述的数据匹配方法,其特征在于,所述确定所述余弦相似度中,大于或等于预设余弦相似阈值的目标余弦相似度,并基于所述目标余弦相似度匹配目标文本文件的步骤之后,还包括:
接收到图数据库的cypher查询对应的字段查询条件时,提高满足所述字段查询条件的所述目标文本文件的筛选优先级;
基于所述筛选优先级对所述目标文本文件进行降序排序。
9.一种数据匹配装置,其特征在于,所述数据匹配装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据匹配程序,所述数据匹配程序被所述处理器执行时实现如权利要求1至8中任一项所述的数据匹配方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据匹配程序,所述数据匹配程序被处理器执行时实现如权利要求1至8中任一项所述的数据匹配方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310976036.2A CN116680367B (zh) | 2023-08-04 | 2023-08-04 | 数据匹配方法、数据匹配装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310976036.2A CN116680367B (zh) | 2023-08-04 | 2023-08-04 | 数据匹配方法、数据匹配装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116680367A true CN116680367A (zh) | 2023-09-01 |
CN116680367B CN116680367B (zh) | 2023-11-24 |
Family
ID=87789535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310976036.2A Active CN116680367B (zh) | 2023-08-04 | 2023-08-04 | 数据匹配方法、数据匹配装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116680367B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080243835A1 (en) * | 2007-03-28 | 2008-10-02 | Fujitsu Limited | Program, method and apparatus for web page search |
CN110390044A (zh) * | 2019-06-11 | 2019-10-29 | 平安科技(深圳)有限公司 | 一种相似网络页面的搜索方法及设备 |
CN112364647A (zh) * | 2020-11-24 | 2021-02-12 | 南方电网海南数字电网研究院有限公司 | 一种基于余弦相似度算法的查重方法 |
CN112417091A (zh) * | 2020-10-16 | 2021-02-26 | 北京斗米优聘科技发展有限公司 | 一种文本检索方法及装置 |
US20210397617A1 (en) * | 2020-06-19 | 2021-12-23 | Robert Bosch Gmbh | Computer-implemented method for keyword search in a knowledge graph |
CN114090735A (zh) * | 2021-11-18 | 2022-02-25 | 金蝶云科技有限公司 | 一种文本匹配方法、装置、设备及存储介质 |
-
2023
- 2023-08-04 CN CN202310976036.2A patent/CN116680367B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080243835A1 (en) * | 2007-03-28 | 2008-10-02 | Fujitsu Limited | Program, method and apparatus for web page search |
CN110390044A (zh) * | 2019-06-11 | 2019-10-29 | 平安科技(深圳)有限公司 | 一种相似网络页面的搜索方法及设备 |
US20210397617A1 (en) * | 2020-06-19 | 2021-12-23 | Robert Bosch Gmbh | Computer-implemented method for keyword search in a knowledge graph |
CN112417091A (zh) * | 2020-10-16 | 2021-02-26 | 北京斗米优聘科技发展有限公司 | 一种文本检索方法及装置 |
CN112364647A (zh) * | 2020-11-24 | 2021-02-12 | 南方电网海南数字电网研究院有限公司 | 一种基于余弦相似度算法的查重方法 |
CN114090735A (zh) * | 2021-11-18 | 2022-02-25 | 金蝶云科技有限公司 | 一种文本匹配方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116680367B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10936765B2 (en) | Graph centrality calculation method and apparatus, and storage medium | |
CN109033101B (zh) | 标签推荐方法及装置 | |
US9946753B2 (en) | Method and system for document indexing and data querying | |
CN104750798B (zh) | 一种应用程序的推荐方法和装置 | |
WO2020019562A1 (zh) | 搜索排序方法、装置、电子设备和存储介质 | |
EP3608798A1 (en) | Group search method based on social network, device, server and storage medium | |
US10810458B2 (en) | Incremental automatic update of ranked neighbor lists based on k-th nearest neighbors | |
CN111666468A (zh) | 一种基于团簇属性在社交网络中搜索个性化影响力社区的方法 | |
US20190042893A1 (en) | Incremental clustering of a data stream via an orthogonal transform based indexing | |
CN108287850B (zh) | 文本分类模型的优化方法及装置 | |
US11361195B2 (en) | Incremental update of a neighbor graph via an orthogonal transform based indexing | |
CN113407702B (zh) | 员工合作关系强度量化方法、系统、计算机和存储介质 | |
CN113139383A (zh) | 一种文档排序方法、系统、电子设备及存储介质 | |
CN109918661B (zh) | 同义词获取方法及装置 | |
CN116680367B (zh) | 数据匹配方法、数据匹配装置及计算机可读存储介质 | |
CN108170665B (zh) | 基于综合相似度的关键词拓展方法和装置 | |
CN112243247A (zh) | 基站优化优先级确定方法、装置及计算设备 | |
US10803053B2 (en) | Automatic selection of neighbor lists to be incrementally updated | |
CN111639099A (zh) | 全文索引方法及系统 | |
CN112270199A (zh) | 基于CGAN方法的个性化语义空间关键字Top-K查询方法 | |
US20180225291A1 (en) | Identifying Documents | |
CN111694929B (zh) | 基于数据图谱的搜索方法、智能终端和可读存储介质 | |
CN108182201B (zh) | 基于重点关键词的应用拓展方法和装置 | |
CN117829044B (zh) | 一种eda约束检测系统 | |
CN114817315B (zh) | 数据处理方法以及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |