CN1783069A - 用于文件数据分析的方法及系统 - Google Patents

用于文件数据分析的方法及系统 Download PDF

Info

Publication number
CN1783069A
CN1783069A CNA2005100735282A CN200510073528A CN1783069A CN 1783069 A CN1783069 A CN 1783069A CN A2005100735282 A CNA2005100735282 A CN A2005100735282A CN 200510073528 A CN200510073528 A CN 200510073528A CN 1783069 A CN1783069 A CN 1783069A
Authority
CN
China
Prior art keywords
file
data analysis
references object
document data
technical words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005100735282A
Other languages
English (en)
Other versions
CN100419755C (zh
Inventor
杜维武
林炳宏
李月青
陈君仪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiwan Semiconductor Manufacturing Co TSMC Ltd
Original Assignee
Taiwan Semiconductor Manufacturing Co TSMC Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiwan Semiconductor Manufacturing Co TSMC Ltd filed Critical Taiwan Semiconductor Manufacturing Co TSMC Ltd
Publication of CN1783069A publication Critical patent/CN1783069A/zh
Application granted granted Critical
Publication of CN100419755C publication Critical patent/CN100419755C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种用于文件数据分析的方法及系统,所述用于文件数据分析的系统,包含词库、解析器、及处理器。该词库是储存多个技术词汇及用以定义该技术词汇之间关系的关系指数。该解析器是分别从第一文件及第二文件中撷取出第一及第二对象阶层,其中该第一及第二对象阶层分别包含多个第一及第二参考对象。该处理器是于该词库中搜寻与该第一及第二参考对象对应的技术词汇,并依据搜寻得到的该技术词汇所对应的该关系指数,决定该第一及第二参考对象之间的关联评比。

Description

用于文件数据分析的方法及系统
技术领域
本发明是有关于数据分析,特别是有关于用以分析文献之间内容关联程度的方法与系统。
背景技术
传统的文件分析,是借由使用者,以人力进行一技术文件(例如一专利文件)和其它技术文件的分析比较。该使用者阅读欲比较的文件,分析其内容,并借由绘制图表等方式来协助推导出被分析文件之间的关联程度。此种传统的文件分析方法,不但耗时且容易出错。而且,此种分析方法所得出的比较结果,多是依据使用者主观判断而来,所以不同的使用者常会得出迥异的结果。
另外尚有一些所谓的“文件分析”方法,其是依据被分析文件所包含的一些类别信息来进行分析。例如,专利文件是基于专利权人、发明人、及国别等信息而被分类。此所谓的“分析”的依据,是与被分析文件的内容无关,因此其所得到的“分析”结果,实际上也无法对于被分析文件内容之间的关系有所提示。
发明内容
本发明是有关于数据分析,特别是有关于用以分析文献之间内容关联程度的方法与系统。
本发明提供一种用于文件数据分析的系统。该系统包含词库、解析器、及处理器。该词库是储存多个技术词汇及用以定义该技术词汇之间关系的关系指数。该解析器是分别从第一文件及第二文件中撷取出第一及第二对象阶层,其中该第一及第二对象阶层分别包含多个第一及第二参考对象。该处理器是于该词库中搜寻与该第一及第二参考对象对应的技术词汇,并依据搜寻得到的该技术词汇所对应的该关系指数,决定该第一及第二参考对象之间的关联评比。
本发明所述的用于文件数据分析的系统,该第一文件为专利文件,其包含一组专利权项,且每一专利权项与该第一对象阶层的一节点对应。
本发明所述的用于文件数据分析的系统,该第二文件是为专利文件、期刊文献、技术文献其中之一。
本发明所述的用于文件数据分析的系统,该第一参考对象对应于一加权系数。
本发明所述的用于文件数据分析的系统,该处理器依据该对应的技术词汇的关系指数,决定该第二参考对象与该第一参考对象之间的关联分数。
本发明所述的用于文件数据分析的系统,该处理器将该关联分数与对应的加权系数相乘,以取得该第二参考对象的加权关联分数。
本发明所述的用于文件数据分析的系统,该处理器将该第二参考对象的该加权关联分数加总,以决定该第一及第二文件间的该关联评比。
本发明并提供一种用于文件数据分析的方法。该方法首先提供一词库,其储存多个技术词汇及用以定义该技术词汇之间关系的关系指数。并提供欲加以分析的第一文件及第二文件。继之,分别从第一文件及第二文件中撷取出第一及第二对象阶层,其中该第一及第二对象阶层分别包含多个第一及第二参考对象。再于该词库中搜寻与该第一及第二参考对象对应的技术词汇,并依据搜寻得到的该技术词汇所对应的该关系指数,决定该第一及第二参考对象之间的关联评比。
本发明所述的用于文件数据分析的方法,进一步将一加权系数指定予该第一参考对象。
本发明所述的用于文件数据分析的方法,进一步依据该对应的技术词汇的关系指数,决定该第二参考对象与该第一参考对象之间的关联分数。
本发明所述的用于文件数据分析的方法,进一步将该关联分数与对应的加权系数相乘,以取得该第二参考对象的加权关联分数。
本发明所述的用于文件数据分析的方法,进一步将该第二参考对象的该加权关联分数加总,以决定该第一及第二文件间的该关联评比。
上述方法是可以借由将储存于计算机可读取储存媒体的计算机程序加载计算机系统中而实现。
附图说明
图1显示依据本发明实施例系统的示意图;
图2显示本发明文件数据分析方法的流程图;
图3显示依据本发明实施例的技术词汇配置示意图;
图4显示依据本发明实施例的计算机系统的示意图。
具体实施方式
为了让本发明的目的、特征及优点能更明显易懂,下文特举较佳实施例,并配合所附图1至图4,做详细的说明。本发明说明书提供不同的实施例来说明本发明不同实施方式的技术特征。其中,实施例中的各元件的配置是为说明之用,并非用以限制本发明。且实施例中图式标号的部分重复,是为了简化说明,并非意指不同实施例之间的关联性。
图1显示依据本发明实施例的文件数据分析系统的示意图。本发明系统10是用以比较第一文件和第二文件,并决定两文件之间的关联程度。系统10包含词库11、解析器13、以及处理器15。
词库11储存多个技术词汇及用以定义该技术词汇之间关系的关系指数。其中,上述技术词汇是可以不同方式储存配置。例如,属于同一技术领域的技术词汇可以储存为一字汇群集,并依据各字汇与特定概念的关联程度,分别指定其维度(dimension)。当欲将第一文件和第二文件进行比对时,先将该二文件透过类似如网络12的数据传输途径传送至系统10。其中该第一文件可以为专利文件,其包含一组专利权项,且每一专利权项与该第一对象阶层的一节点对应。该第一文件可以由客户端14提供。而该第二文件是由数据库16中撷取而来,其可以为专利文件、期刊文献、技术文献其中之一。该第一文件和第二文件传送到系统10时,是借由接口(interface)17接收,并转送至解析器,以进行进一步的分析。
解析器13处理该第一文件,并从该第一文件中撷取出第一对象阶层,其中该第一对象阶层包含多个第一参考对象。该第一对象阶层主要是由该第一文件的特定部分分析得出(例如专利文件中权利要求的部分),其可以包含多个分支,每一分支又包含多个节点。每一该第一参考对象是对应于一加权系数。
同样地,解析器13处理该第二文件,并从该第二文件中撷取出第二对象阶层,其中该第二对象阶层包含多个第二参考对象。该第二对象阶层可以包含多个分支,每一分支又包含多个节点。
解析器13所得出的上述第一及第二对象阶层数据,被传送到处理器15,以进行进一步分析。处理器15是于词库11中搜寻与该第一及第二参考对象对应的技术词汇,并依据搜寻得到的该技术词汇所对应的该关系指数,决定该第一及第二参考对象之间的关联评比。处理器15并依据该对应的技术词汇的关系指数,决定该第二参考对象与该第一参考对象之间的关联分数,再将该关联分数与对应的加权系数相乘,以取得该第二参考对象的加权关联分数。处理器15是借由将该第一及第二参考对象的该加权关联分数加总,以决定该第一及第二文件间的该关联评比。上述关联评比数据透过网络12传送到客户端14。
参见图2,其显示本发明文件数据分析方法的流程图。提供和某一特定技术领域相关的多个技术词汇,如步骤S20。例如,提供和半导体制造相关的技术词汇,并将该等技术词汇以网络型态互相关联储存之。该网络可以设置储存于一多维空间中,其中每一维度是用以界定一技术词汇的一种特性。例如,当该网络设置于一三维空间中时,该空间具有的三个维度分别用以界定某一技术词汇在制程、设备和装置三方面的特性。该等技术词汇是依据其所具有的技术意义来加以储存安排。
依据每一技术词汇的意义,在对应的维度上,针对属于同一技术领域的技术词汇,赋予每一技术词汇一指数,如步骤S21。其中,上述技术词汇是可以不同方式储存配置。例如,属于同一技术领域的技术词汇可以储存为一字汇群集,并依据各字汇与特定概念的关联程度,分别指定其维度(dimension)。每一技术词汇可以借由一向量(X,Y,Z)来加以识别,其中X、Y、Z分别表示该技术词汇于设备维度、装置维度和制程维度的指数量值,如图3所示。而两个不同技术词汇之间的关系指数,是可以借由计算该两技术词汇在该三维空间中的“距离”来决定。例如某一技术词汇在设备维度、装置维度和制程维度的指数量值分别为3、1、20,则该技术词汇对应的向量值为(3,1,20)。而另一技术词汇在设备维度、装置维度和制程维度的指数量值分别为3、10、10,则该技术词汇对应的向量值为(3,10,10)。且该两技术词汇之间的关系指数,是为该三维空间中(3,1,20)及(3,10,10)两点的距离,其是为
Figure A20051007352800091
提供欲加以分析比较的第一文件及第二文件,如步骤S23。其中该第一文件可以为专利文件,其包含一组专利权项,且每一专利权项与该第一对象阶层的一节点对应。该第一文件可以由客户端提供,或直接从一专利数据库中撷取而来。而该第二文件是可以由一数据库中撷取而来,或是从网络上下载等,其可以为专利文件、期刊文献、技术文献其中之一。
继之,该第一文件传送给一解析器处理,并从该第一文件中撷取出第一对象阶层,其中该第一对象阶层包含多个第一参考对象,如步骤S241。该第一对象阶层主要是由该第一文件的特定部分分析得出(例如专利文件中权利要求的部分),其可以包含多个分支,每一分支又包含多个节点。在步骤S243中,每一该第一参考对象是被赋予一加权系数。例如,该第一文件为一专利说明书,而其权利要求中每一独立权利要求和其从属权利要求构成一对象阶层的多个分支及节点。
该第二文件也以类似上述的方法处理,并从该第二文件中撷取出第二对象阶层,其中该第二对象阶层包含多个第二参考对象。该第二对象阶层可以包含多个分支,每一分支又包含多个节点,如步骤S245。
步骤S251和S255分别于词库中搜寻与该第一及第二参考对象对应的技术词汇。如上所述,每一技术词汇可以借由一向量(X,Y,Z)来加以识别,其中X、Y、Z分别表示该技术词汇于设备维度、装置维度和制程维度的指数量值,如图3所示。而每一参考对象可以借由其所对应的技术词汇的向量来加以识别。不同参考对象之间的关系可以借由该参考对象所对应的技术词汇间的关系来推定,而两个不同技术词汇之间的关系指数,又可以借由计算该两技术词汇在该三维空间中的“距离”来决定。因此,该第二参考对象与该第一参考对象之间的关联分数,是可以依据该两参考对象所对应的技术词汇间的关系来推定,亦即,可以借由该参考对象所对应的技术词汇在该三维空间中的“距离”来决定。在步骤S26中,依据上述说明决定该第一文件和该第二文件的第一参考对象和第二参考对象之间的关联分数。
如上所述,该第一文件的每一参考对象,都依据其对该分析比较程序的目的的重要性,而被赋予一加权系数。在步骤S27中,将该第一参考对象该关联分数与对应的加权系数相乘,以得到该第一参考对象的加权关联分数。在步骤S28中,将该第一及第二参考对象的该加权关联分数加总,以得到该第一文件和该第二文件之间的关联评比。由该第一文件中的不同权利要求中所取得的参考对象,是可以赋予不同的加权系数,而该权利要求所对应的加权系数,是借由上述关联分数与对应的加权系数相乘的步骤,而纳入该第一及第二文件关联程度的分析程序中。
上述处理方法是可以借由将储存于计算机可读取储存媒体的计算机程序加载计算机系统中而实现。
如图4所示,上述文件数据分析方法是能借由计算机程序,存于储存媒体中,且当计算机程序加载计算机系统执行时,可以实现本发明的文件数据分析的方法。该方法适用于分析类似如专利说明书等技术文件之间的关联程度。上述计算机程序包括:技术词汇接收模块41、分析文件接收模块43、文件解析模块45、技术词汇比对模块47、以及关联评比决定模块49。
技术词汇接收模块41接收多个技术词汇及用以定义该技术词汇之间关系的关系指数。分析文件接收模块43接收欲进行分析的第一文件及第二文件。文件解析模块45分别从第一文件及第二文件中撷取出第一及第二对象阶层,其中该第一及第二对象阶层分别包含多个第一及第二参考对象。技术词汇比对模块47于该词库中搜寻与该第一及第二参考对象对应的技术词汇。关联评比决定模块49依据搜寻得到的该技术词汇所对应的该关系指数,决定该第一及第二参考对象之间的关联评比。
以上所述仅为本发明较佳实施例,然其并非用以限定本发明的范围,任何熟悉本项技术的人员,在不脱离本发明的精神和范围内,可在此基础上做进一步的改进和变化,因此本发明的保护范围当以本申请的权利要求书所界定的范围为准。
附图中符号的简单说明如下:
系统:10
词库:11
解析器:13
处理器:15
接口:17
数据库:16
客户端:14
网络:12

Claims (12)

1、一种用于文件数据分析的系统,所述用于文件数据分析的系统包括:
词库,其储存多个技术词汇及用以定义该技术词汇之间关系的关系指数;
解析器,其是分别从第一文件及第二文件中撷取出第一及第二对象阶层,其中该第一及第二对象阶层分别包含多个第一及第二参考对象;以及
处理器,其是于该词库中搜寻与该第一及第二参考对象对应的技术词汇,并依据搜寻得到的该技术词汇所对应的该关系指数,决定该第一及第二参考对象之间的关联评比。
2、根据权利要求1所述的用于文件数据分析的系统,其特征在于:该第一文件为专利文件,其包含一组专利权项,且每一专利权项与该第一对象阶层的一节点对应。
3、根据权利要求1所述的用于文件数据分析的系统,其特征在于:该第二文件是为专利文件、期刊文献、技术文献其中之一。
4、根据权利要求1所述的用于文件数据分析的系统,其特征在于:该第一参考对象对应于一加权系数。
5、根据权利要求1所述的用于文件数据分析的系统,其特征在于:该处理器依据该对应的技术词汇的关系指数,决定该第二参考对象与该第一参考对象之间的关联分数。
6、根据权利要求5所述的用于文件数据分析的系统,其特征在于:该处理器将该关联分数与对应的加权系数相乘,以取得该第二参考对象的加权关联分数。
7、根据权利要求6所述的用于文件数据分析的系统,其特征在于:该处理器将该第二参考对象的该加权关联分数加总,以决定该第一及第二文件间的该关联评比。
8、一种用于文件数据分析的方法,所述用于文件数据分析的方法包括:
提供一词库,其储存多个技术词汇及用以定义该技术词汇之间关系的关系指数;
提供第一文件及第二文件;
分别从第一文件及第二文件中撷取出第一及第二对象阶层,其中该第一及第二对象阶层分别包含多个第一及第二参考对象;以及
于该词库中搜寻与该第一及第二参考对象对应的技术词汇,并依据搜寻得到的该技术词汇所对应的该关系指数,决定该第一及第二参考对象之间的关联评比。
9、根据权利要求8所述的用于文件数据分析的方法,其特征在于:进一步将一加权系数指定予该第一参考对象。
10、根据权利要求8所述的用于文件数据分析的方法,其特征在于:进一步依据该对应的技术词汇的关系指数,决定该第二参考对象与该第一参考对象之间的关联分数。
11、根据权利要求10所述的用于文件数据分析的方法,其特征在于:进一步将该关联分数与对应的加权系数相乘,以取得该第二参考对象的加权关联分数。
12、根据权利要求10所述的用于文件数据分析的方法,其特征在于:进一步将该第二参考对象的该加权关联分数加总,以决定该第一及第二文件间的该关联评比。
CNB2005100735282A 2004-11-29 2005-06-02 用于文件数据分析的方法及系统 Active CN100419755C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/999,047 2004-11-29
US10/999,047 US20060117252A1 (en) 2004-11-29 2004-11-29 Systems and methods for document analysis

Publications (2)

Publication Number Publication Date
CN1783069A true CN1783069A (zh) 2006-06-07
CN100419755C CN100419755C (zh) 2008-09-17

Family

ID=36568564

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100735282A Active CN100419755C (zh) 2004-11-29 2005-06-02 用于文件数据分析的方法及系统

Country Status (3)

Country Link
US (1) US20060117252A1 (zh)
CN (1) CN100419755C (zh)
TW (1) TW200617713A (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7984047B2 (en) * 2005-04-12 2011-07-19 Jesse David Sukman System for extracting relevant data from an intellectual property database
US9959582B2 (en) 2006-04-12 2018-05-01 ClearstoneIP Intellectual property information retrieval
US8620936B2 (en) * 2008-05-05 2013-12-31 The Boeing Company System and method for a data dictionary
US20100287177A1 (en) * 2009-05-06 2010-11-11 Foundationip, Llc Method, System, and Apparatus for Searching an Electronic Document Collection
US20100287148A1 (en) * 2009-05-08 2010-11-11 Cpa Global Patent Research Limited Method, System, and Apparatus for Targeted Searching of Multi-Sectional Documents within an Electronic Document Collection
US8364679B2 (en) * 2009-09-17 2013-01-29 Cpa Global Patent Research Limited Method, system, and apparatus for delivering query results from an electronic document collection
US20110082839A1 (en) * 2009-10-02 2011-04-07 Foundationip, Llc Generating intellectual property intelligence using a patent search engine
US20110119250A1 (en) * 2009-11-16 2011-05-19 Cpa Global Patent Research Limited Forward Progress Search Platform
US20110295861A1 (en) * 2010-05-26 2011-12-01 Cpa Global Patent Research Limited Searching using taxonomy
US11222052B2 (en) * 2011-02-22 2022-01-11 Refinitiv Us Organization Llc Machine learning-based relationship association and related discovery and
US10303999B2 (en) * 2011-02-22 2019-05-28 Refinitiv Us Organization Llc Machine learning-based relationship association and related discovery and search engines
US8626682B2 (en) * 2011-02-22 2014-01-07 Thomson Reuters Global Resources Automatic data cleaning for machine learning classifiers
TWI643079B (zh) * 2017-01-04 2018-12-01 國立臺北護理健康大學 文獻分類方法與電腦可讀取媒體
US11687826B2 (en) * 2019-08-29 2023-06-27 Accenture Global Solutions Limited Artificial intelligence (AI) based innovation data processing system

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9220404D0 (en) * 1992-08-20 1992-11-11 Nat Security Agency Method of identifying,retrieving and sorting documents
EP0856175A4 (en) * 1995-08-16 2000-05-24 Univ Syracuse SYSTEM AND METHOD FOR RETURNING MULTI-LANGUAGE DOCUMENTS USING A SEMANTIC VECTOR COMPARISON
JP3597370B2 (ja) * 1998-03-10 2004-12-08 富士通株式会社 文書処理装置および記録媒体
US7813915B2 (en) * 2000-09-25 2010-10-12 Fujitsu Limited Apparatus for reading a plurality of documents and a method thereof
US6931399B2 (en) * 2001-06-26 2005-08-16 Igougo Inc. Method and apparatus for providing personalized relevant information
US20050108200A1 (en) * 2001-07-04 2005-05-19 Frank Meik Category based, extensible and interactive system for document retrieval
US7260773B2 (en) * 2002-03-28 2007-08-21 Uri Zernik Device system and method for determining document similarities and differences
US20040133560A1 (en) * 2003-01-07 2004-07-08 Simske Steven J. Methods and systems for organizing electronic documents

Also Published As

Publication number Publication date
CN100419755C (zh) 2008-09-17
US20060117252A1 (en) 2006-06-01
TW200617713A (en) 2006-06-01

Similar Documents

Publication Publication Date Title
CN1783069A (zh) 用于文件数据分析的方法及系统
US8065307B2 (en) Parsing, analysis and scoring of document content
CN1240011C (zh) 应用于操作系统的文件分类管理系统及方法
Tao et al. Reverse nearest neighbor search in metric spaces
US7243109B2 (en) Scheme for creating a ranked subject matter expert index
Chakrabarti et al. Page-level template detection via isotonic smoothing
CN1290036C (zh) 根据机器可读词典建立概念知识的计算机系统及方法
US9043331B2 (en) System and method for indexing documents on the world-wide web
US20050021545A1 (en) Very-large-scale automatic categorizer for Web content
CN101079056A (zh) 一种搜索方法和系统
WO2008073784A1 (en) Web site structure analysis
CN101079031A (zh) 一种网页主题提取系统和方法
CA2510761A1 (en) Automated taxonomy generation
CN1818908A (zh) 一种在搜索引擎中应用搜索者反馈信息的方法
KR20070102035A (ko) 문서 분류 시스템 및 그 방법
Barrio et al. Sampling strategies for information extraction over the deep web
CN102955812A (zh) 一种构建索引库的方法、装置及查询方法和装置
CN1253815C (zh) 计算机在中文数据中识别中文姓名的方法
CN112597370A (zh) 指定需求范围的网页信息自主搜集筛选系统
Duhan et al. A novel approach for organizing web search results using ranking and clustering
CN111782699A (zh) 一种基于用户历史瓦片浏览记录的兴趣点智能搜索方法
Shekhar et al. An architectural framework of a crawler for retrieving highly relevant web documents by filtering replicated web collections
CN110245275A (zh) 一种大规模相似新闻标题快速归一化方法
CN115730039A (zh) 基于ElasticSearch的智能检索加速方法、设备及存储介质
CN1677389A (zh) 一种基于关键字搜索的移动互联网智能信息搜索引擎

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant