CN113626559B - 基于语义的网络文档智能检索的方法及系统 - Google Patents
基于语义的网络文档智能检索的方法及系统 Download PDFInfo
- Publication number
- CN113626559B CN113626559B CN202110833954.0A CN202110833954A CN113626559B CN 113626559 B CN113626559 B CN 113626559B CN 202110833954 A CN202110833954 A CN 202110833954A CN 113626559 B CN113626559 B CN 113626559B
- Authority
- CN
- China
- Prior art keywords
- key
- network resource
- identification
- sample
- strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000012545 processing Methods 0.000 claims description 21
- 238000001514 detection method Methods 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 abstract description 5
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000579895 Chlorostilbon Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000010976 emerald Substances 0.000 description 1
- 229910052876 emerald Inorganic materials 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供的基于语义的网络文档智能检索的方法及系统,通过获取不同关键策略下同一种类网络资源文档之间的识别内容以及预先设置的关键策略下不同种类网络资源文档之间的识别内容,使得可以将第一网络资源文档与同一种类下的预先设置的关键策略进行智能检索,再与预先设置的关键策略的另一种类的网络资源文档进行智能检索,然后通过第二识别内容与第二网络资源文档进行智能检索,可实现不同种类的第一网络资源文档和第二网络资源文档之间的智能检索,而且无论实现何种关键策略下不同种类的网络资源文档之间的智能检索,皆只需要进行在预先设置的关键策略下不同种类的网络资源文档之间的智能检索向量,提高智能检索结果的准确度。
Description
技术领域
本申请涉及数据检索技术领域,具体而言,涉及基于语义的网络文档智能检索的方法及系统。
背景技术
随着信息化不断的进步,相关网络文档信息不断的递增,数据库中存储的信息量越来越完整,这样有利于用户的解决各种各样的难题,提高工作效率。
但是,由于信息量过多就可能导致网络文档信息的筛选十分的困难,筛选不到对应的相关网络文档信息,从而降低相关网络文档信息不能快速的进行检索。
发明内容
鉴于此,本申请提供了基于语义的网络文档智能检索的方法及系统。
第一方面,提供一种基于语义的网络文档智能检索的方法,包括:
获取第一网络资源文档和第二网络资源文档,其中,所述第一网络资源文档为第一种类网络资源文档,所述第二网络资源文档为第二种类网络资源文档;
以及获取不同关键策略下所述第一种类网络资源文档之间的第一识别内容、不同关键策略下所述第二种类网络资源文档之间的第二识别内容、以及预先设置的关键策略下所述第一种类网络资源文档和第二种类网络资源文档之间的第三识别内容;
利用所述第一识别内容、第二识别内容和第三识别内容,对所述第一网络资源文档和第二网络资源文档进行智能检索。
进一步地,所述第一识别内容和第二识别内容皆是基于所述不同关键策略下的网络资源文档之间的相关系数和至少一个许可范围的误差量得到的;
和/或,所述第一网络资源文档的检测关键策略为第一关键策略,所述第二网络资源文档的检测关键策略为第二关键策略;
所述第一识别内容为所述第一关键策略到第一预先设置的关键策略下所述第一种类网络资源文档的识别内容,所述第二识别内容为第二预先设置的关键策略到所述第二关键策略下所述第二种类网络资源文档的识别内容,所述第三识别内容为所述第一预先设置的关键策略下所述第一种类网络资源文档与第二预先设置的关键策略下所述第二种类网络资源文档之间的识别内容。
进一步地,所述获取不同关键策略下所述第一种类网络资源文档之间的第一识别内容,或获取不同关键策略下所述第二种类网络资源文档之间的第二识别内容,包括:
以第一关键策略为样本关键策略、第一预先设置的关键策略为样本预先设置的关键策略、第一种类网络资源文档为样本种类网络资源文档、第一识别内容为样本识别内容,或者,以第二关键策略为样本关键策略、第二预先设置的关键策略为样本预先设置的关键策略、第二种类网络资源文档为样本种类网络资源文档、第二识别内容为样本识别内容;
从候选关键策略集中选出至少一个第一候选关键策略,其中,所述第一候选关键策略与所述样本关键策略之差不大于预先设置的差值;
对于每个所述第一候选关键策略,获取所述第一候选关键策略与样本预先设置的关键策略之间所述样本种类网络资源文档的第一识别数据;
基于所述第一识别数据,得到所述样本识别内容;
其中,所述至少一个第一候选关键策略为所述候选关键策略集中最相似所述样本关键策略且不为所述样本关键策略的两个候选关键策略;
和/或,所述候选关键策略集中每毗连两个候选关键策略之间的差值不小于预先设置的关键策略队列;
和/或,在所述样本识别内容为第一识别内容的前提下,所述第一识别数据为由所述第一候选关键策略到第一预先设置的关键策略下所述第一种类网络资源文档的识别数据,在所述样本识别内容为第二识别内容的前提下,所述第一识别数据为由所述第二预先设置的关键策略到第一候选关键策略下所述第二种类网络资源文档的识别数据;
其中,所述基于所述第一识别数据,得到所述样本识别内容,包括:
基于所述第一识别数据,得到所述样本关键策略与样本预先设置的关键策略之间样本种类网络资源文档的第二识别数据,其中,所述第一识别数据和第二识别数据皆包括相关系数和误差量;
利用所述第二识别数据,得到所述样本识别内容。
进一步地,所述第一候选关键策略为两个;所述基于所述第一识别数据,得到所述样本关键策略与样本预先设置的关键策略之间样本种类网络资源文档的第二识别数据,包括:
获取所述样本关键策略与较小候选关键策略之间的第一关键策略差异以及所述两个第一候选关键策略之间的第二关键策略差异,其中,所述较小候选关键策略为所述两个第一候选关键策略中的目标值;
利用所述第一识别数据中的相关系数、所述第一关键策略差异以及所述第二关键策略差异,得到第二识别数据中的相关系数;
以及利用所述第一识别数据中的误差量、所述第一关键策略差异以及所述第二关键策略差异,得到第二识别数据中的误差量;
其中,所述两个第一候选关键策略的第一识别数据包括较大的第一候选关键策略的第一相关系数和第一误差量,以及较小的第一候选关键策略的第二相关系数和第二误差量;所述利用所述第一识别数据中的相关系数、所述第一关键策略差异以及所述第二关键策略差异,得到第二识别数据中的相关系数,包括:
将所述第一关键策略差异与权重系数差的集合与所述第二关键策略差异之间的区分度加上所述第二相关系数,得到所述第二识别数据中的相关系数,其中,所述权重系数差为所述第一相关系数和第二相关系数之差;
所述利用所述第一识别数据中的误差量、所述第一关键策略差异以及所述第二关键策略差异,得到第二识别数据中的误差量,包括:
将所述第一关键策略差异与许可误差的集合与所述第二关键策略差异之间的区分度加上所述第二误差量,得到第二识别数据中的误差量,其中,所述许可误差为所述第一误差量和第二误差量之差。
进一步地,所述获取所述第一候选关键策略与样本预先设置的关键策略之间所述样本种类网络资源文档的第一识别数据,包括:
将第一候选关键策略、样本预先设置的关键策略、以及所述候选关键策略集中位于所述第一候选关键策略与所述样本预先设置的关键策略之间的候选关键策略,作为第二候选关键策略;
利用每毗连所述第二候选关键策略下的所述样本种类网络资源文档之间的第一候选识别内容,得到第二候选识别内容;其中,所述第二候选识别内容为所述第一候选关键策略与样本预先设置的关键策略之间所述样本种类网络资源文档的识别内容;
基于所述第二候选识别内容,得到所述第一识别数据;
其中,所述利用每毗连所述第二候选关键策略下的所述样本种类网络资源文档之间的第一候选识别内容,得到第二候选识别内容,包括:
若所述样本种类网络资源文档为第一种类网络资源文档,则将所述第二候选关键策略依照从小到大顺序排布,若所述样本种类网络资源文档为第二种类网络资源文档,则将所述第二候选关键策略依照从小到大顺序排布;
将所述排布下每毗连所述第二候选关键策略对应的所述第一候选识别内容进行组合,得到所述第二候选识别内容,其中,所述毗连第二候选关键策略对应的所述第一候选识别内容为由所述毗连第二候选关键策略中的上一个第二候选关键策略到后一第二候选关键策略下样本种类网络资源文档的识别内容。
第二方面,提供一种基于语义的网络文档智能检索的系统,包括数据筛选端和数据处理终端,所述数据筛选端和所述数据处理终端通信连接,所述数据处理终端具体用于:
获取第一网络资源文档和第二网络资源文档,其中,所述第一网络资源文档为第一种类网络资源文档,所述第二网络资源文档为第二种类网络资源文档;
以及获取不同关键策略下所述第一种类网络资源文档之间的第一识别内容、不同关键策略下所述第二种类网络资源文档之间的第二识别内容、以及预先设置的关键策略下所述第一种类网络资源文档和第二种类网络资源文档之间的第三识别内容;
利用所述第一识别内容、第二识别内容和第三识别内容,对所述第一网络资源文档和第二网络资源文档进行智能检索。
进一步地,所述数据处理终端具体用于:
所述第一识别内容和第二识别内容皆是基于所述不同关键策略下的网络资源文档之间的相关系数和至少一个许可范围的误差量得到的;
和/或,所述第一网络资源文档的检测关键策略为第一关键策略,所述第二网络资源文档的检测关键策略为第二关键策略;
所述第一识别内容为所述第一关键策略到第一预先设置的关键策略下所述第一种类网络资源文档的识别内容,所述第二识别内容为第二预先设置的关键策略到所述第二关键策略下所述第二种类网络资源文档的识别内容,所述第三识别内容为所述第一预先设置的关键策略下所述第一种类网络资源文档与第二预先设置的关键策略下所述第二种类网络资源文档之间的识别内容。
进一步地,所述获取不同关键策略下所述第一种类网络资源文档之间的第一识别内容,或获取不同关键策略下所述第二种类网络资源文档之间的第二识别内容,包括:
以第一关键策略为样本关键策略、第一预先设置的关键策略为样本预先设置的关键策略、第一种类网络资源文档为样本种类网络资源文档、第一识别内容为样本识别内容,或者,以第二关键策略为样本关键策略、第二预先设置的关键策略为样本预先设置的关键策略、第二种类网络资源文档为样本种类网络资源文档、第二识别内容为样本识别内容;
从候选关键策略集中选出至少一个第一候选关键策略,其中,所述第一候选关键策略与所述样本关键策略之差不大于预先设置的差值;
对于每个所述第一候选关键策略,获取所述第一候选关键策略与样本预先设置的关键策略之间所述样本种类网络资源文档的第一识别数据;
基于所述第一识别数据,得到所述样本识别内容;
其中,所述数据处理终端具体用于:
所述至少一个第一候选关键策略为所述候选关键策略集中最相似所述样本关键策略且不为所述样本关键策略的两个候选关键策略;
和/或,所述候选关键策略集中每毗连两个候选关键策略之间的差值不小于预先设置的关键策略队列;
和/或,在所述样本识别内容为第一识别内容的前提下,所述第一识别数据为由所述第一候选关键策略到第一预先设置的关键策略下所述第一种类网络资源文档的识别数据,在所述样本识别内容为第二识别内容的前提下,所述第一识别数据为由所述第二预先设置的关键策略到第一候选关键策略下所述第二种类网络资源文档的识别数据;
其中,所述数据处理终端具体用于:
基于所述第一识别数据,得到所述样本关键策略与样本预先设置的关键策略之间样本种类网络资源文档的第二识别数据,其中,所述第一识别数据和第二识别数据皆包括相关系数和误差量;
利用所述第二识别数据,得到所述样本识别内容。
进一步地,所述数据处理终端具体用于:
获取所述样本关键策略与较小候选关键策略之间的第一关键策略差异以及所述两个第一候选关键策略之间的第二关键策略差异,其中,所述较小候选关键策略为所述两个第一候选关键策略中的目标值;
利用所述第一识别数据中的相关系数、所述第一关键策略差异以及所述第二关键策略差异,得到第二识别数据中的相关系数;
以及利用所述第一识别数据中的误差量、所述第一关键策略差异以及所述第二关键策略差异,得到第二识别数据中的误差量;
其中,所述数据处理终端具体用于:
将所述第一关键策略差异与权重系数差的集合与所述第二关键策略差异之间的区分度加上第二相关系数,得到所述第二识别数据中的相关系数,其中,所述权重系数差为第一相关系数和第二相关系数之差;
所述利用所述第一识别数据中的误差量、所述第一关键策略差异以及所述第二关键策略差异,得到第二识别数据中的误差量,包括:
将所述第一关键策略差异与许可误差的集合与所述第二关键策略差异之间的区分度加上第二误差量,得到第二识别数据中的误差量,其中,所述许可误差为第一误差量和第二误差量之差。
进一步地,所述数据处理终端具体用于:
将第一候选关键策略、样本预先设置的关键策略、以及所述候选关键策略集中位于所述第一候选关键策略与所述样本预先设置的关键策略之间的候选关键策略,作为第二候选关键策略;
利用每毗连所述第二候选关键策略下的所述样本种类网络资源文档之间的第一候选识别内容,得到第二候选识别内容;其中,所述第二候选识别内容为所述第一候选关键策略与样本预先设置的关键策略之间所述样本种类网络资源文档的识别内容;
基于所述第二候选识别内容,得到所述第一识别数据;
其中,所述数据处理终端具体用于:
若所述样本种类网络资源文档为第一种类网络资源文档,则将所述第二候选关键策略依照从小到大顺序排布,若所述样本种类网络资源文档为第二种类网络资源文档,则将所述第二候选关键策略依照从小到大顺序排布;
将所述排布下每毗连所述第二候选关键策略对应的所述第一候选识别内容进行组合,得到所述第二候选识别内容,其中,所述毗连第二候选关键策略对应的所述第一候选识别内容为由所述毗连第二候选关键策略中的上一个第二候选关键策略到后一第二候选关键策略下样本种类网络资源文档的识别内容。
本申请实施例所提供的基于语义的网络文档智能检索的方法及系统,在实现不同种类的第一网络资源文档和第二网络资源文档之间的智能检索的过程中,通过获取不同关键策略下同一种类网络资源文档之间的识别内容以及预先设置的关键策略下不同种类网络资源文档之间的识别内容,使得可以将第一网络资源文档与同一种类下的预先设置的关键策略进行智能检索,再与预先设置的关键策略的另一种类的网络资源文档进行智能检索,然后通过第二识别内容与第二网络资源文档进行智能检索,通过上述链式智能检索方式,可实现不同种类的第一网络资源文档和第二网络资源文档之间的智能检索,而且无论实现何种关键策略下不同种类的网络资源文档之间的智能检索,皆只需要进行在预先设置的关键策略下不同种类的网络资源文档之间的智能检索向量,提高智能检索结果的准确度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种基于语义的网络文档智能检索的方法的流程图。
图2为本申请实施例所提供的一种基于语义的网络文档智能检索的装置的框图。
图3为本申请实施例所提供的一种基于语义的网络文档智能检索的系统的架构图。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本申请技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
请参阅图1,示出了一种基于语义的网络文档智能检索的方法,该方法可以包括以下步骤100-步骤300所描述的技术方案。
步骤100,获取第一网络资源文档和第二网络资源文档。
示例性的,所述第一网络资源文档为第一种类网络资源文档,所述第二网络资源文档为第二种类网络资源文档。
步骤200,以及获取不同关键策略下所述第一种类网络资源文档之间的第一识别内容、不同关键策略下所述第二种类网络资源文档之间的第二识别内容、以及预先设置的关键策略下所述第一种类网络资源文档和第二种类网络资源文档之间的第三识别内容。
步骤300,利用所述第一识别内容、第二识别内容和第三识别内容,对所述第一网络资源文档和第二网络资源文档进行智能检索。
可以理解,在执行上述步骤100-步骤300所描述的技术方案时,在实现不同种类的第一网络资源文档和第二网络资源文档之间的智能检索的过程中,通过获取不同关键策略下同一种类网络资源文档之间的识别内容以及预先设置的关键策略下不同种类网络资源文档之间的识别内容,使得可以将第一网络资源文档与同一种类下的预先设置的关键策略进行智能检索,再与预先设置的关键策略的另一种类的网络资源文档进行智能检索,然后通过第二识别内容与第二网络资源文档进行智能检索,通过上述链式智能检索方式,可实现不同种类的第一网络资源文档和第二网络资源文档之间的智能检索,而且无论实现何种关键策略下不同种类的网络资源文档之间的智能检索,皆只需要进行在预先设置的关键策略下不同种类的网络资源文档之间的智能检索向量,提高智能检索结果的准确度。
在一种可替换的实施例中,可以包括以下步骤q1-步骤q3所描述的技术方案。
步骤q1,所述第一识别内容和第二识别内容皆是基于所述不同关键策略下的网络资源文档之间的相关系数和至少一个许可范围的误差量得到的。
步骤q2,和/或,所述第一网络资源文档的检测关键策略为第一关键策略,所述第二网络资源文档的检测关键策略为第二关键策略。
步骤q3,所述第一识别内容为所述第一关键策略到第一预先设置的关键策略下所述第一种类网络资源文档的识别内容,所述第二识别内容为第二预先设置的关键策略到所述第二关键策略下所述第二种类网络资源文档的识别内容,所述第三识别内容为所述第一预先设置的关键策略下所述第一种类网络资源文档与第二预先设置的关键策略下所述第二种类网络资源文档之间的识别内容。
可以理解,在执行上述步骤q1-步骤q3所描述的技术方案时,通过不同关键策略下的网络资源文档之间的相关系数,从而有效地提高识别内容的精度。
在一种可替换的实施例中,发明人发现,获取不同关键策略下所述第一种类网络资源文档之间的第一识别内容时,存在样本识别内容步骤准确的问题,从而难以准确地获取不同关键策略下所述第一种类网络资源文档之间的第一识别内容,或获取不同关键策略下所述第二种类网络资源文档之间的第二识别内容时,存在样本识别内容不在准确的问题,从而难以准确地获取不同关键策略下所述第二种类网络资源文档之间的第二识别内容,为了改善上述技术问题,步骤200所描述的获取不同关键策略下所述第一种类网络资源文档之间的第一识别内容,或获取不同关键策略下所述第二种类网络资源文档之间的第二识别内容的步骤,具体可以包括以下步骤w1-步骤w4所描述的技术方案。
步骤w1,以第一关键策略为样本关键策略、第一预先设置的关键策略为样本预先设置的关键策略、第一种类网络资源文档为样本种类网络资源文档、第一识别内容为样本识别内容,或者,以第二关键策略为样本关键策略、第二预先设置的关键策略为样本预先设置的关键策略、第二种类网络资源文档为样本种类网络资源文档、第二识别内容为样本识别内容。
步骤w2,从候选关键策略集中选出至少一个第一候选关键策略。
举例而言,所述第一候选关键策略与所述样本关键策略之差不大于预先设置的差值。
步骤w3,对于每个所述第一候选关键策略,获取所述第一候选关键策略与样本预先设置的关键策略之间所述样本种类网络资源文档的第一识别数据。
步骤w4,基于所述第一识别数据,得到所述样本识别内容。
可以理解,在执行上述步骤w1-步骤w4所描述的技术方案时,获取不同关键策略下所述第一种类网络资源文档之间的第一识别内容时,改善样本识别内容步骤准确的问题,从而能够准确地获取不同关键策略下所述第一种类网络资源文档之间的第一识别内容,或获取不同关键策略下所述第二种类网络资源文档之间的第二识别内容时,改善样本识别内容不在准确的问题,从而能够准确地获取不同关键策略下所述第二种类网络资源文档之间的第二识别内容。
在一种可替换的实施例中,具体可以包括以下步骤e1-步骤e3所描述的技术方案。
步骤e1,所述至少一个第一候选关键策略为所述候选关键策略集中最相似所述样本关键策略且不为所述样本关键策略的两个候选关键策略。
步骤e2,和/或,所述候选关键策略集中每毗连两个候选关键策略之间的差值不小于预先设置的关键策略队列。
步骤e3,和/或,在所述样本识别内容为第一识别内容的前提下,所述第一识别数据为由所述第一候选关键策略到第一预先设置的关键策略下所述第一种类网络资源文档的识别数据,在所述样本识别内容为第二识别内容的前提下,所述第一识别数据为由所述第二预先设置的关键策略到第一候选关键策略下所述第二种类网络资源文档的识别数据。
可以理解,在执行上述步骤e1-步骤e3所描述的技术方案时,通过精确地获得样本关键策略且不为所述样本关键策略的两个候选关键策略,从而提高识别数据的精度。
在一种可替换的实施例中,基于所述第一识别数据时,存在第二识别数据不精确的问题,从而难以精确地得到所述样本识别内容,为了改善上述技术问题,步骤w4所描述的基于所述第一识别数据,得到所述样本识别内容的步骤,具体可以包括以下步骤w41和步骤w42所描述的技术方案。
步骤w41,基于所述第一识别数据,得到所述样本关键策略与样本预先设置的关键策略之间样本种类网络资源文档的第二识别数据。
举例而言,所述第一识别数据和第二识别数据皆包括相关系数和误差量。
步骤w42,利用所述第二识别数据,得到所述样本识别内容。
可以理解,在执行上述步骤w41和步骤w42所描述的技术方案时,基于所述第一识别数据时,改善第二识别数据不精确的问题,从而能够精确地得到所述样本识别内容。
在一种可替换的实施例中,发明人发现,第一候选关键策略为两个;所述基于所述第一识别数据时,存在关键策略差异不准确的问题,从而难以准确地得到所述样本关键策略与样本预先设置的关键策略之间样本种类网络资源文档的第二识别数据,为了改善上述技术问题,步骤w41所描述的第一候选关键策略为两个;所述基于所述第一识别数据,得到所述样本关键策略与样本预先设置的关键策略之间样本种类网络资源文档的第二识别数据的步骤,具体可以包括以下步骤r1-步骤r3所描述的技术方案。
步骤r1,获取所述样本关键策略与较小候选关键策略之间的第一关键策略差异以及所述两个第一候选关键策略之间的第二关键策略差异。
举例而言,所述较小候选关键策略为所述两个第一候选关键策略中的目标值。
步骤r2,利用所述第一识别数据中的相关系数、所述第一关键策略差异以及所述第二关键策略差异,得到第二识别数据中的相关系数。
步骤r3,以及利用所述第一识别数据中的误差量、所述第一关键策略差异以及所述第二关键策略差异,得到第二识别数据中的误差量。
可以理解,在执行上述步骤r1-步骤r3所描述的技术方案时,第一候选关键策略为两个;所述基于所述第一识别数据时,改善关键策略差异不准确的问题,从而能够准确地得到所述样本关键策略与样本预先设置的关键策略之间样本种类网络资源文档的第二识别数据。
在一种可替换的实施例中,发明人发现,两个第一候选关键策略的第一识别数据包括较大的第一候选关键策略的第一相关系数和第一误差量,以及较小的第一候选关键策略的第二相关系数和第二误差量;所述利用所述第一识别数据中的相关系数、所述第一关键策略差异以及所述第二关键策略差异时,存在权重系数差不准确的问题,从而难以准确地得到第二识别数据中的相关系数,为了改善上述技术问题,步骤r2所描述的两个第一候选关键策略的第一识别数据包括较大的第一候选关键策略的第一相关系数和第一误差量,以及较小的第一候选关键策略的第二相关系数和第二误差量;所述利用所述第一识别数据中的相关系数、所述第一关键策略差异以及所述第二关键策略差异,得到第二识别数据中的相关系数的步骤,具体可以包括以下步骤r21所描述的技术方案。
步骤r21,将所述第一关键策略差异与权重系数差的集合与所述第二关键策略差异之间的区分度加上所述第二相关系数,得到所述第二识别数据中的相关系数。
比如,所述权重系数差为所述第一相关系数和第二相关系数之差。
可以理解,在执行上述步骤r21所描述的技术方案时,两个第一候选关键策略的第一识别数据包括较大的第一候选关键策略的第一相关系数和第一误差量,以及较小的第一候选关键策略的第二相关系数和第二误差量;所述利用所述第一识别数据中的相关系数、所述第一关键策略差异以及所述第二关键策略差异时,改善权重系数差不准确的问题,从而能够准确地得到第二识别数据中的相关系数。
在一种可替换的实施例中,发明人发现,利用所述第一识别数据中的误差量、所述第一关键策略差异以及所述第二关键策略差异时,存在许可误差不准确的问题,从而难以准确地得到第二识别数据中的误差量,为了改善上述技术问题,步骤r3所描述的利用所述第一识别数据中的误差量、所述第一关键策略差异以及所述第二关键策略差异,得到第二识别数据中的误差量的步骤,具体可以包括以下步骤r31所描述的技术方案。
步骤r31,将所述第一关键策略差异与许可误差的集合与所述第二关键策略差异之间的区分度加上所述第二误差量,得到第二识别数据中的误差量。
示例性的,所述许可误差为所述第一误差量和第二误差量之差。
可以理解,在执行上述步骤r31所描述的技术方案时,利用所述第一识别数据中的误差量、所述第一关键策略差异以及所述第二关键策略差异时,改善许可误差不准确的问题,从而能够准确地得到第二识别数据中的误差量。
在一种可替换的实施例中,发明人发现,获取所述第一候选关键策略与样本预先设置的关键策略之间所述样本种类网络资源文档的第一识别数据时,存在候选关键策略不准确的问题,从而难以准确地获取所述第一候选关键策略与样本预先设置的关键策略之间所述样本种类网络资源文档的第一识别数据,为了改善上述技术问题,步骤w3所描述的获取所述第一候选关键策略与样本预先设置的关键策略之间所述样本种类网络资源文档的第一识别数据的步骤,具体可以包括以下步骤w31-步骤w33所描述的技术方案。
步骤w31,将第一候选关键策略、样本预先设置的关键策略、以及所述候选关键策略集中位于所述第一候选关键策略与所述样本预先设置的关键策略之间的候选关键策略,作为第二候选关键策略。
步骤w32,利用每毗连所述第二候选关键策略下的所述样本种类网络资源文档之间的第一候选识别内容,得到第二候选识别内容。
示例性的,所述第二候选识别内容为所述第一候选关键策略与样本预先设置的关键策略之间所述样本种类网络资源文档的识别内容。
步骤w33,基于所述第二候选识别内容,得到所述第一识别数据。
可以理解,在执行上述步骤w31-步骤w33所描述的技术方案时,获取所述第一候选关键策略与样本预先设置的关键策略之间所述样本种类网络资源文档的第一识别数据时,改善候选关键策略不准确的问题,从而能够准确地获取所述第一候选关键策略与样本预先设置的关键策略之间所述样本种类网络资源文档的第一识别数据。
在一种可替换的实施例中,发明人发现,利用每毗连所述第二候选关键策略下的所述样本种类网络资源文档之间的第一候选识别内容时,存在顺序排布错误的问题,从而难以准确地得到第二候选识别内容,为了改善上述技术问题,步骤w32所描述的利用每毗连所述第二候选关键策略下的所述样本种类网络资源文档之间的第一候选识别内容,得到第二候选识别内容的步骤,具体可以包括以下步骤a1和步骤a2所描述的技术方案。
步骤a1,若所述样本种类网络资源文档为第一种类网络资源文档,则将所述第二候选关键策略依照从小到大顺序排布,若所述样本种类网络资源文档为第二种类网络资源文档,则将所述第二候选关键策略依照从小到大顺序排布。
步骤a2,将所述排布下每毗连所述第二候选关键策略对应的所述第一候选识别内容进行组合,得到所述第二候选识别内容,其中,所述毗连第二候选关键策略对应的所述第一候选识别内容为由所述毗连第二候选关键策略中的上一个第二候选关键策略到后一第二候选关键策略下样本种类网络资源文档的识别内容。
可以理解,在执行上述步骤a1和步骤a2所描述的技术方案时,利用每毗连所述第二候选关键策略下的所述样本种类网络资源文档之间的第一候选识别内容时,改善顺序排布错误的问题,从而能够准确地得到第二候选识别内容。
在一种可能的实施例中,发明人发现,获取预先设置的关键策略下所述第一种类网络资源文档和第二种类网络资源文档之间的第三识别内容时,存在若干关联内容集合不准确的问题,从而难以准确地获得获取预先设置的关键策略下所述第一种类网络资源文档和第二种类网络资源文档之间的第三识别内容,为了改善上述技术问题,步骤200所描述的获取预先设置的关键策略下所述第一种类网络资源文档和第二种类网络资源文档之间的第三识别内容的步骤,具体可以包括以下步骤s1-步骤s3所描述的技术方案。
步骤s1,获取所述第一预先设置的关键策略下的第三网络资源文档和所述第二预先设置的关键策略下的第四网络资源文档。
示例性的,所述第三网络资源文档为第一种类网络资源文档,所述第四网络资源文档为第二种类网络资源文档。
步骤s2,确定所述第三网络资源文档和第四网络资源文档中的若干关联内容集合。
示例性的,所述关联内容集合是利用预先设置的关联模型关联得到的,或者是基于网络资源文档分别在所述第三网络资源文档和第四网络资源文档中挑选的关键描述内容确定的。
步骤s3,利用所述若干关联内容集合,得到所述第三识别内容。
可以理解,在执行上述步骤s1-步骤s3所描述的技术方案时,获取预先设置的关键策略下所述第一种类网络资源文档和第二种类网络资源文档之间的第三识别内容时,避免若干关联内容集合不准确的问题,从而能够准确地获得获取预先设置的关键策略下所述第一种类网络资源文档和第二种类网络资源文档之间的第三识别内容。
在一种可能的实施例中,发明人发现,利用所述第一识别内容、第二识别内容和第三识别内容,对所述第一网络资源文档和第二网络资源文档进行智能检索时,存在识别内容不准确的问题,从而难以准确地进行智能检索,步骤300所描述的利用所述第一识别内容、第二识别内容和第三识别内容,对所述第一网络资源文档和第二网络资源文档进行智能检索的步骤,具体可以包括以下步骤f1所描述的技术方案。
步骤f1,将所述第一识别内容、第二识别内容以及第三识别内容组合,作为所述第一网络资源文档与第二网络资源文档之间的智能检索向量。
可以理解,在执行上述步骤f1所描述的技术方案时,利用所述第一识别内容、第二识别内容和第三识别内容,对所述第一网络资源文档和第二网络资源文档进行智能检索时,改善识别内容不准确的问题,从而能够准确地进行智能检索。
在上述基础上,请结合参阅图2,提供了一种基于语义的网络文档智能检索的装置200,应用于数据处理终端,所述装置包括:
网络资源获取模块210,用于获取第一网络资源文档和第二网络资源文档,其中,所述第一网络资源文档为第一种类网络资源文档,所述第二网络资源文档为第二种类网络资源文档;
识别内容获取模块220,用于以及获取不同关键策略下所述第一种类网络资源文档之间的第一识别内容、不同关键策略下所述第二种类网络资源文档之间的第二识别内容、以及预先设置的关键策略下所述第一种类网络资源文档和第二种类网络资源文档之间的第三识别内容;
网络资源检索模块230,用于利用所述第一识别内容、第二识别内容和第三识别内容,对所述第一网络资源文档和第二网络资源文档进行智能检索。
在上述基础上,请结合参阅图3,示出了一种基于语义的网络文档智能检索的系统300,包括互相之间通信的处理器310和存储器320,所述处理器310用于从所述存储器320中读取计算机程序并执行,以实现上述的方法。
在上述基础上,还提供了一种计算机可读存储介质,其上存储的计算机程序在运行时实现上述的方法。
综上,基于上述方案,在实现不同种类的第一网络资源文档和第二网络资源文档之间的智能检索的过程中,通过获取不同关键策略下同一种类网络资源文档之间的识别内容以及预先设置的关键策略下不同种类网络资源文档之间的识别内容,使得可以将第一网络资源文档与同一种类下的预先设置的关键策略进行智能检索,再与预先设置的关键策略的另一种类的网络资源文档进行智能检索,然后通过第二识别内容与第二网络资源文档进行智能检索,通过上述链式智能检索方式,可实现不同种类的第一网络资源文档和第二网络资源文档之间的智能检索,而且无论实现何种关键策略下不同种类的网络资源文档之间的智能检索,皆只需要进行在预先设置的关键策略下不同种类的网络资源文档之间的智能检索向量,提高智能检索结果的准确度。
应当理解,上述所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本申请的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本申请的限定。虽然此处并没有明确说明,本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。
同时,本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本申请披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有适应性的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史文件除外,对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是,如果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一致或冲突的地方,以本申请的描述、定义和/或术语的使用为准。
最后,应当理解的是,本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此,作为示例而非限制,本申请实施例的替代配置可视为与本申请的教导一致。相应地,本申请的实施例不仅限于本申请明确介绍和描述的实施例。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (2)
1.一种基于语义的网络文档智能检索的方法,其特征在于,包括:
获取第一网络资源文档和第二网络资源文档,其中,所述第一网络资源文档为第一种类网络资源文档,所述第二网络资源文档为第二种类网络资源文档;
以及获取不同关键策略下所述第一种类网络资源文档之间的第一识别内容、不同关键策略下所述第二种类网络资源文档之间的第二识别内容、以及预先设置的关键策略下所述第一种类网络资源文档和第二种类网络资源文档之间的第三识别内容;
利用所述第一识别内容、第二识别内容和第三识别内容,对所述第一网络资源文档和第二网络资源文档进行智能检索;
所述第一识别内容和第二识别内容皆是基于所述不同关键策略下的网络资源文档之间的相关系数和至少一个许可范围的误差量得到的;
和/或,所述第一网络资源文档的检测关键策略为第一关键策略,所述第二网络资源文档的检测关键策略为第二关键策略;
所述第一识别内容为所述第一关键策略到第一预先设置的关键策略下所述第一种类网络资源文档的识别内容,所述第二识别内容为第二预先设置的关键策略到所述第二关键策略下所述第二种类网络资源文档的识别内容,所述第三识别内容为所述第一预先设置的关键策略下所述第一种类网络资源文档与第二预先设置的关键策略下所述第二种类网络资源文档之间的识别内容;
所述获取不同关键策略下所述第一种类网络资源文档之间的第一识别内容,或获取不同关键策略下所述第二种类网络资源文档之间的第二识别内容,包括:
以第一关键策略为样本关键策略、第一预先设置的关键策略为样本预先设置的关键策略、第一种类网络资源文档为样本种类网络资源文档、第一识别内容为样本识别内容,或者,以第二关键策略为样本关键策略、第二预先设置的关键策略为样本预先设置的关键策略、第二种类网络资源文档为样本种类网络资源文档、第二识别内容为样本识别内容;
从候选关键策略集中选出至少一个第一候选关键策略,其中,所述第一候选关键策略与所述样本关键策略之差不大于预先设置的差值;
对于每个所述第一候选关键策略,获取所述第一候选关键策略与样本预先设置的关键策略之间所述样本种类网络资源文档的第一识别数据;
基于所述第一识别数据,得到所述样本识别内容;
其中,所述至少一个第一候选关键策略为所述候选关键策略集中最相似所述样本关键策略且不为所述样本关键策略的两个候选关键策略;
和/或,所述候选关键策略集中每毗连两个候选关键策略之间的差值不小于预先设置的关键策略队列;
和/或,在所述样本识别内容为第一识别内容的前提下,所述第一识别数据为由所述第一候选关键策略到第一预先设置的关键策略下所述第一种类网络资源文档的识别数据,在所述样本识别内容为第二识别内容的前提下,所述第一识别数据为由所述第二预先设置的关键策略到第一候选关键策略下所述第二种类网络资源文档的识别数据;
其中,所述基于所述第一识别数据,得到所述样本识别内容,包括:
基于所述第一识别数据,得到所述样本关键策略与样本预先设置的关键策略之间样本种类网络资源文档的第二识别数据,其中,所述第一识别数据和第二识别数据皆包括相关系数和误差量;
利用所述第二识别数据,得到所述样本识别内容;
所述第一候选关键策略为两个;所述基于所述第一识别数据,得到所述样本关键策略与样本预先设置的关键策略之间样本种类网络资源文档的第二识别数据,包括:
获取所述样本关键策略与较小候选关键策略之间的第一关键策略差异以及两个第一候选关键策略之间的第二关键策略差异,其中,所述较小候选关键策略为所述两个第一候选关键策略中的目标值;
利用所述第一识别数据中的相关系数、所述第一关键策略差异以及所述第二关键策略差异,得到第二识别数据中的相关系数;
以及利用所述第一识别数据中的误差量、所述第一关键策略差异以及所述第二关键策略差异,得到第二识别数据中的误差量;
其中,所述两个第一候选关键策略的第一识别数据包括较大的第一候选关键策略的第一相关系数和第一误差量,以及较小的第一候选关键策略的第二相关系数和第二误差量;所述利用所述第一识别数据中的相关系数、所述第一关键策略差异以及所述第二关键策略差异,得到第二识别数据中的相关系数,包括:
将所述第一关键策略差异与权重系数差的集合与所述第二关键策略差异之间的区分度加上所述第二相关系数,得到所述第二识别数据中的相关系数,其中,所述权重系数差为所述第一相关系数和第二相关系数之差;
所述利用所述第一识别数据中的误差量、所述第一关键策略差异以及所述第二关键策略差异,得到第二识别数据中的误差量,包括:
将所述第一关键策略差异与许可误差的集合与所述第二关键策略差异之间的区分度加上所述第二误差量,得到第二识别数据中的误差量,其中,所述许可误差为所述第一误差量和第二误差量之差;
所述获取所述第一候选关键策略与样本预先设置的关键策略之间所述样本种类网络资源文档的第一识别数据,包括:
将第一候选关键策略、样本预先设置的关键策略、以及所述候选关键策略集中位于所述第一候选关键策略与所述样本预先设置的关键策略之间的候选关键策略,作为第二候选关键策略;
利用每毗连所述第二候选关键策略下的所述样本种类网络资源文档之间的第一候选识别内容,得到第二候选识别内容;其中,所述第二候选识别内容为所述第一候选关键策略与样本预先设置的关键策略之间所述样本种类网络资源文档的识别内容;
基于所述第二候选识别内容,得到所述第一识别数据;
其中,所述利用每毗连所述第二候选关键策略下的所述样本种类网络资源文档之间的第一候选识别内容,得到第二候选识别内容,包括:
若所述样本种类网络资源文档为第一种类网络资源文档,则将所述第二候选关键策略依照从小到大顺序排布,若所述样本种类网络资源文档为第二种类网络资源文档,则将所述第二候选关键策略依照从小到大顺序排布;
将所述排布下每毗连所述第二候选关键策略对应的所述第一候选识别内容进行组合,得到所述第二候选识别内容,其中,毗连第二候选关键策略对应的所述第一候选识别内容为由所述毗连第二候选关键策略中的上一个第二候选关键策略到后一第二候选关键策略下样本种类网络资源文档的识别内容。
2.一种基于语义的网络文档智能检索的系统,其特征在于,包括数据筛选端和数据处理终端,所述数据筛选端和所述数据处理终端通信连接,所述数据处理终端具体用于:
获取第一网络资源文档和第二网络资源文档,其中,所述第一网络资源文档为第一种类网络资源文档,所述第二网络资源文档为第二种类网络资源文档;
以及获取不同关键策略下所述第一种类网络资源文档之间的第一识别内容、不同关键策略下所述第二种类网络资源文档之间的第二识别内容、以及预先设置的关键策略下所述第一种类网络资源文档和第二种类网络资源文档之间的第三识别内容;
利用所述第一识别内容、第二识别内容和第三识别内容,对所述第一网络资源文档和第二网络资源文档进行智能检索;
所述数据处理终端具体用于:
所述第一识别内容和第二识别内容皆是基于所述不同关键策略下的网络资源文档之间的相关系数和至少一个许可范围的误差量得到的;
和/或,所述第一网络资源文档的检测关键策略为第一关键策略,所述第二网络资源文档的检测关键策略为第二关键策略;
所述第一识别内容为所述第一关键策略到第一预先设置的关键策略下所述第一种类网络资源文档的识别内容,所述第二识别内容为第二预先设置的关键策略到所述第二关键策略下所述第二种类网络资源文档的识别内容,所述第三识别内容为所述第一预先设置的关键策略下所述第一种类网络资源文档与第二预先设置的关键策略下所述第二种类网络资源文档之间的识别内容;
所述获取不同关键策略下所述第一种类网络资源文档之间的第一识别内容,或获取不同关键策略下所述第二种类网络资源文档之间的第二识别内容,包括:
以第一关键策略为样本关键策略、第一预先设置的关键策略为样本预先设置的关键策略、第一种类网络资源文档为样本种类网络资源文档、第一识别内容为样本识别内容,或者,以第二关键策略为样本关键策略、第二预先设置的关键策略为样本预先设置的关键策略、第二种类网络资源文档为样本种类网络资源文档、第二识别内容为样本识别内容;
从候选关键策略集中选出至少一个第一候选关键策略,其中,所述第一候选关键策略与所述样本关键策略之差不大于预先设置的差值;
对于每个所述第一候选关键策略,获取所述第一候选关键策略与样本预先设置的关键策略之间所述样本种类网络资源文档的第一识别数据;
基于所述第一识别数据,得到所述样本识别内容;
其中,所述数据处理终端具体用于:
所述至少一个第一候选关键策略为所述候选关键策略集中最相似所述样本关键策略且不为所述样本关键策略的两个候选关键策略;
和/或,所述候选关键策略集中每毗连两个候选关键策略之间的差值不小于预先设置的关键策略队列;
和/或,在所述样本识别内容为第一识别内容的前提下,所述第一识别数据为由所述第一候选关键策略到第一预先设置的关键策略下所述第一种类网络资源文档的识别数据,在所述样本识别内容为第二识别内容的前提下,所述第一识别数据为由所述第二预先设置的关键策略到第一候选关键策略下所述第二种类网络资源文档的识别数据;
其中,所述数据处理终端具体用于:
基于所述第一识别数据,得到所述样本关键策略与样本预先设置的关键策略之间样本种类网络资源文档的第二识别数据,其中,所述第一识别数据和第二识别数据皆包括相关系数和误差量;
利用所述第二识别数据,得到所述样本识别内容;
所述数据处理终端具体用于:
获取所述样本关键策略与较小候选关键策略之间的第一关键策略差异以及两个第一候选关键策略之间的第二关键策略差异,其中,所述较小候选关键策略为所述两个第一候选关键策略中的目标值;
利用所述第一识别数据中的相关系数、所述第一关键策略差异以及所述第二关键策略差异,得到第二识别数据中的相关系数;
以及利用所述第一识别数据中的误差量、所述第一关键策略差异以及所述第二关键策略差异,得到第二识别数据中的误差量;
其中,所述数据处理终端具体用于:
将所述第一关键策略差异与权重系数差的集合与所述第二关键策略差异之间的区分度加上第二相关系数,得到所述第二识别数据中的相关系数,其中,所述权重系数差为第一相关系数和第二相关系数之差;
所述利用所述第一识别数据中的误差量、所述第一关键策略差异以及所述第二关键策略差异,得到第二识别数据中的误差量,包括:
将所述第一关键策略差异与许可误差的集合与所述第二关键策略差异之间的区分度加上第二误差量,得到第二识别数据中的误差量,其中,所述许可误差为第一误差量和第二误差量之差;
所述数据处理终端具体用于:
将第一候选关键策略、样本预先设置的关键策略、以及所述候选关键策略集中位于所述第一候选关键策略与所述样本预先设置的关键策略之间的候选关键策略,作为第二候选关键策略;
利用每毗连所述第二候选关键策略下的所述样本种类网络资源文档之间的第一候选识别内容,得到第二候选识别内容;其中,所述第二候选识别内容为所述第一候选关键策略与样本预先设置的关键策略之间所述样本种类网络资源文档的识别内容;
基于所述第二候选识别内容,得到所述第一识别数据;
其中,所述数据处理终端具体用于:
若所述样本种类网络资源文档为第一种类网络资源文档,则将所述第二候选关键策略依照从小到大顺序排布,若所述样本种类网络资源文档为第二种类网络资源文档,则将所述第二候选关键策略依照从小到大顺序排布;
将所述排布下每毗连所述第二候选关键策略对应的所述第一候选识别内容进行组合,得到所述第二候选识别内容,其中,毗连第二候选关键策略对应的所述第一候选识别内容为由所述毗连第二候选关键策略中的上一个第二候选关键策略到后一第二候选关键策略下样本种类网络资源文档的识别内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110833954.0A CN113626559B (zh) | 2021-07-23 | 2021-07-23 | 基于语义的网络文档智能检索的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110833954.0A CN113626559B (zh) | 2021-07-23 | 2021-07-23 | 基于语义的网络文档智能检索的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113626559A CN113626559A (zh) | 2021-11-09 |
CN113626559B true CN113626559B (zh) | 2024-02-27 |
Family
ID=78380798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110833954.0A Active CN113626559B (zh) | 2021-07-23 | 2021-07-23 | 基于语义的网络文档智能检索的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113626559B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101634983A (zh) * | 2008-07-21 | 2010-01-27 | 华为技术有限公司 | 一种文本分类方法和装置 |
CN105279231A (zh) * | 2015-09-22 | 2016-01-27 | 中国传媒大学 | 一种音乐资源聚合搜索的方法 |
CN112507068A (zh) * | 2020-11-30 | 2021-03-16 | 北京百度网讯科技有限公司 | 文档查询方法、装置、电子设备和存储介质 |
-
2021
- 2021-07-23 CN CN202110833954.0A patent/CN113626559B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101634983A (zh) * | 2008-07-21 | 2010-01-27 | 华为技术有限公司 | 一种文本分类方法和装置 |
CN105279231A (zh) * | 2015-09-22 | 2016-01-27 | 中国传媒大学 | 一种音乐资源聚合搜索的方法 |
CN112507068A (zh) * | 2020-11-30 | 2021-03-16 | 北京百度网讯科技有限公司 | 文档查询方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113626559A (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378554B (zh) | 一种医疗信息智能交互的方法及系统 | |
CN114168747A (zh) | 基于云服务的知识库构建方法及系统 | |
CN116112746B (zh) | 在线教育直播视频压缩方法及系统 | |
CN113626559B (zh) | 基于语义的网络文档智能检索的方法及系统 | |
CN115373688B (zh) | 一种软件开发线程的优化方法、系统及云平台 | |
CN113626538B (zh) | 基于大数据的医疗信息智能分类的方法及系统 | |
CN117037982A (zh) | 一种医疗大数据信息智能采集方法及系统 | |
CN116204681A (zh) | 一种短视频发布信息检测方法、系统及云平台 | |
CN115687618A (zh) | 基于人工智能的用户意图分析方法及系统 | |
US11119761B2 (en) | Identifying implicit dependencies between code artifacts | |
CN113626429B (zh) | 基于元数据的智能化范围急救医疗知识库构建方法及系统 | |
CN113609362B (zh) | 基于5g的数据管理方法及系统 | |
CN113645063B (zh) | 基于边缘计算的智能集成数据的方法及系统 | |
CN115563153B (zh) | 基于人工智能的任务批量处理方法、系统及服务器 | |
CN115409510B (zh) | 一种在线交易安全系统及方法 | |
CN113610117B (zh) | 基于深度数据的水下传感数据处理方法及系统 | |
CN113608596B (zh) | 一种服务器智能冷却方法及系统 | |
CN113611425B (zh) | 基于软件定义的智能化区域医疗集成数据库的方法及系统 | |
CN114611478B (zh) | 一种基于人工智能的信息处理方法、系统及云平台 | |
CN114691830B (zh) | 一种基于大数据的网络安全分析方法及系统 | |
CN115756576B (zh) | 软件开发包的翻译方法及软件开发系统 | |
CN116468534A (zh) | 一种集体经济组织信用信息等级分析方法及系统 | |
CN115495017B (zh) | 一种基于大数据的数据存储方法及系统 | |
CN115292301B (zh) | 基于人工智能的任务数据异常监测处理方法及系统 | |
CN113643701B (zh) | 一种智能识别语音控制家居的方法及统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |