CN102279893B - 文献群组多对多自动分析 - Google Patents

文献群组多对多自动分析 Download PDF

Info

Publication number
CN102279893B
CN102279893B CN201110277690.1A CN201110277690A CN102279893B CN 102279893 B CN102279893 B CN 102279893B CN 201110277690 A CN201110277690 A CN 201110277690A CN 102279893 B CN102279893 B CN 102279893B
Authority
CN
China
Prior art keywords
retrieval
result
document
condition
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110277690.1A
Other languages
English (en)
Other versions
CN102279893A (zh
Inventor
裘钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suoyi Interactive Beijing Information Technology Co ltd
Original Assignee
Suoyi Interactive Beijing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suoyi Interactive Beijing Information Technology Co ltd filed Critical Suoyi Interactive Beijing Information Technology Co ltd
Priority to CN201110277690.1A priority Critical patent/CN102279893B/zh
Publication of CN102279893A publication Critical patent/CN102279893A/zh
Priority to US13/622,401 priority patent/US20130073510A1/en
Application granted granted Critical
Publication of CN102279893B publication Critical patent/CN102279893B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种对文献群组多对多自动分析的方法,步骤一、输入第一检索条件,获得第一检索结果;步骤二、输入第二检索条件,获得第二检索结果;步骤三、输入第一检索结果和第二检索结果的匹配关系;步骤四、根据第一检索结果、第二检索结果以及第一检索结果和第二检索结果的匹配关系,获得一个或多个检索结果匹配对,该匹配对包括第一文献和第二文献,该第一文献属于第一检索结果,该第二文献属于第二检索结果;步骤五、对至少一个或多个匹配对中属于第一检索结果、第二检索结果的文献分别或共同进行分析,获得分析结果。

Description

文献群组多对多自动分析
技术领域
本发明涉及一种对文献群组多对多自动分析的方法和系统,尤其涉及利用语义检索技术对文献群组进行多对多自动分析的方法和系统。
背景技术
随着智能语义技术的发展,使得文献的自动语义检索成为可能,即只需要输入目标文献,然后根据目标文献与数据库中的文献之间的语义相关,就能自动获得与目标文献语义相关的文献。
但目前现有技术中一般都是对单篇文献的语义检索,而没有对文献群组进行多对多自动处理和深度分析的技术。
而往往一些深度分析是需要对一组文献与另一组文献之间的比较分析才能得出合理的结论。例如,要知道Microsoft(A)与Apple(B)公司专利群组之间的竞争关系,如A、B双方竞争(相关)关系,如双方竞争创新能力、双方竞争技术领域、双方竞争技术的优势与劣势等复杂多对多关系。但现有技术只能对该两组专利进行单方、孤立、片面的分析,如图1。所以,针对现在高度竞争的科学技术的发展和全方位信息获取的需要,特别需要一种技术能多对多自动处理文献群组;自动发现和建立群组间多对多相关(竞争)关系。
发明内容
本发明提供了一种对文献群组多对多自动分析的方法,步骤一、输入第一检索条件,获得第一检索结果;步骤二、输入第二检索条件,获得第二检索结果;步骤三、输入第一检索结果和第二检索结果的匹配关系;步骤四、根据第一检索结果、第二检索结果以及第一检索结果和第二检索结果的匹配关系,获得一个或多个检索结果匹配对,该匹配对包括第一文献和第二文献,该第一文献属于第一检索结果,该第二文献属于第二检索结果;步骤五、对至少一个或多个匹配对中属于第一检索结果、第二检索结果的文献分别或共同进行分析,获得分析结果。
本发明还提供了一种对文献群组多对多自动分析的系统,包括:输入第一检索条件,获得第一检索结果的装置;输入第二检索条件,获得第二检索结果的装置;输入第一检索结果和第二检索结果的匹配关系,该匹配关系是第一检索结果与第二检索结果之间的语义相关度下限值,获得第一检索结果和第二检索结果的匹配关系的装置;根据第一检索结果、第二检索结果以及第一检索结果和第二检索结果的匹配关系,获得一个或多个检索结果匹配对的装置,该匹配对包括第一文献和第二文献,该第一文献属于第一检索结果,该第二文献属于第二检索结果;对至少一个或多个匹配对中属于第一检索结果、第二检索结果的文献分别或共同进行分析,获得分析结果的装置。
附图说明
图1是现有技术只能对两文献群组进行单方、孤立、片面的传统分析;
图2是根据本发明第一实施例的流程图,包括对文献群组多对多自动分析的基本流程;
图3是根据本发明第二实施例的流程图,包括对文献群组多对多自动分析的优选流程;
图4是根据本发明第三实施例的流程图,包括对文献群组多对多自动分析的另一个优选流程;
图5是根据本发明1-3实施例中第五步骤的优选流程。
图6是根据本发明实施例计算A群组文献中任意一个第一文献与B群组文献中任意一个第二文献的语义相关度的一个具体应用案例;
图7是根据本发明实施例的一个具体应用案例的匹配情况;
图8是根据本发明实施例的一个具体应用案例的匹配结果情况;
图9是根据本发明实施例的一个具体应用的系统输出。
具体描述
文献
文献是用文字、图形、符号、声频、视频等技术手段记录人类知识的一种载体,或理解为固化在一定物质载体上的知识。也可以理解为古今一切社会史料的总称。现在通常理解为图书、期刊等各种出版物的总和。文献是记录、积累、传播和继承知识的最有效手段,是人类社会活动中获取情报的最基本、最主要的来源,也是交流传播情报的最基本手段。正因为如此,人们把文献称为情报工作的物质基础。
文献除了记录的知识以外,还包括其他属性,主要包括提交人,提交单位,提交时间,公开时间,提交单位地点等内容。
语义检索
语义检索是一种全新的信息检索方式,是在现有的信息检索技术以及模型上发展而来的。语义检索和信息检索的不同,就在于语义检索强调了语义,不会和信息检索一样,只是基于字面的机械匹配,它从文章的语义、概念出发,能够揭示文章的内在含义。做到了语义和概念层次上的标引工作,且语义检索提高了查全率和查准率,降低了用户的负担。
布尔检索
布尔检索是数据库检索最基本的方法,是用逻辑“或”(+、OR)、逻辑″与″(×、AND)、逻辑″非″(-、NOT)等运算符在数据库中对相关文献的定性选择的方法。
(1)逻辑″或″(+、OR):用来组配相同概念的词,文献中凡含有″A″或者″B″检索词或者同时含有检索词″A″和″B″的文献均为命中文献。组配方式:A+B,表示检索含有″A″词,或含有″B″词,或同时包含″A″、″B″两词的文章。这样的组配可以放宽范围,扩增检索结果,提高查全率。
(2)逻辑″与″(*、AND):检索时,数据库中同时含有检索词″A″和检索词″B″的文献才是命中文献。组配方式:A×B,表示检索必须同时含有″A″、″B″两词的文章。这样的组配增加了限制条件,即增加检索的专指性,可以缩小范围,减少文献输出量,提高查准率。
(3)逻辑″非″(-、NOT):数据库中凡含有检索词″A″而不要检索词″B″的文献,为命中文献,是用来检索时排除某些检索词的。组配方式:A-B,表示检索出含有″A″词而不含有″B″词的文章,用于排除不希望出现的检索词,能够缩小命中文献范围,增强检索的准确性。
图2是根据本发明第一实施例的流程图,包括对文献群组多对多自动分析的基本流程。步骤21、输入第一检索条件,获得第一检索结果,该第一检索条件可以是布尔检索条件,也可以是语义检索条件,也可以是布尔检索条件和语义检索条件的组合;步骤22、输入第二检索条件,获得第二检索结果,该第二检索条件可以是布尔检索条件,也可以是语义检索条件,也可以是布尔检索条件和语义检索条件的组合;步骤23、输入第一检索结果和第二检索结果的匹配关系;步骤24、根据第一检索结果、第二检索结果以及第一检索结果和第二检索结果的匹配关系,获得一个或多个检索结果匹配对,该匹配对包括第一文献和第二文献,该第一文献属于第一检索结果,该第二文献属于第二检索结果;步骤25、对至少一个或多个匹配对中属于第一检索结果、第二检索结果的文献分别或共同进行分析,获得分析结果。
图3是根据本发明第二实施例的流程图,包括对文献群组多对多自动分析的优选流程。步骤31、输入第一检索条件,获得第一检索结果,该第一检索条件可以是布尔检索条件,也可以是语义检索条件,也可以是布尔检索条件和语义检索条件的组合;步骤32、输入第二检索条件,获得第二检索结果,该第二检索条件可以是布尔检索条件,也可以是语义检索条件,也可以是布尔检索条件和语义检索条件的组合;步骤33、输入第一检索结果和第二检索结果的匹配关系,该匹配关系是第一检索结果与第二检索结果之间的语义相关度下限值;步骤34、计算第一检索结果中任意一个第一文献与第二检索结果中任意一个第二文献的语义相关度,如果相关度大于或等于该相关度下限值则提取该第一文献和第二文献组成一个匹配对;步骤35、对至少一个或多个匹配对中属于第一检索结果、第二检索结果的文献分别或共同进行分析,获得分析结果。
图4是根据本发明第三实施例的流程图,包括对文献群组多对多自动分析的另一个优选流程。步骤41、输入第一检索条件,获得第一检索结果,该第一检索条件可以是布尔检索条件,也可以是语义检索条件,也可以是布尔检索条件和语义检索条件的组合;步骤42、输入第二检索条件,获得第二检索结果,该第二检索条件可以是布尔检索条件,也可以是语义检索条件,也可以是布尔检索条件和语义检索条件的组合;步骤43、输入第一检索结果和第二检索结果的匹配关系,该匹配关系是第一检索结果与第二检索结果之间的语义相关度下限值以及第一检索结果与第二检索结果之间的除了语义相关度以外其他属性之间的匹配条件,该匹配条件包括以下条件中的一个或多个:公开时间的先后关系,提交时间的先后关系,文献提交人之间的关系,文献提交地点之间的关系,文献提交人所属单位之间的关系,文献提交人所属单位文献数;步骤44、计算第一检索结果中任意一个第一文献与第二检索结果中任意一个第二文献的语义相关度以及计算其他属性的匹配条件是否满足,如果相关度大于或等于该相关度下限值并且其他匹配条件满足则提取该第一文献和第二文献组成一个匹配对,优选的其他匹配条件是第一检索结果中文献的提交时间要早于第二检索结果中文献的提交时间或者第一检索结果中文献的提交时间要晚于第二检索结果中文献的提交时间;步骤45、对至少一个或多个匹配对中属于第一检索结果、第二检索结果的文献分别或共同进行分析,获得分析结果。
图5是根据本发明1-3实施例中第五步骤的优选流程图,包括对匹配对进行分析,获得分析结果:步骤51、根据文献的一个或多个属性进行统计,该属性包括以下内容:提交人、提交单位、提交时间、公开时间、技术领域、提交单位地点、相关文献在匹配对中出现次数等,获得统计值;步骤52、将第一检索结果与第二检索结果中文献之间的语义相关度作为权重参与统计分析,即如果相关度为90%,则统计技术时,计入0.9。
图6是根据本发明实施例的计算A群组文献中任意一个第一文献与B群组文献中任意一个第二文献的语义相关度的一个具体应用案例。A群组文献是由第一检索条件获得第一检索结果,共5个文献。B群组文献是由第二检索条件获得第二检索结果,共4个文献。并分别计算了A群组文献中任意一个第一文献与B群组文献中任意一个第二文献的语义相关度。
图7是根据本发明实施例的一个具体应用案例的匹配结果情况。本具体应用中,将语义相关度下限值设置为90%,所以,相关度大于或等于90%的匹配对保留,其余的则删除。结果可得,
A群组文献为A1、A2、A3、A4、A5,A群组文献数为5;
A群组文献与B群组文献的匹配对为(A1,B1)、(A1,B2)、(A2,B2)、(A2,B4)、(A4,B1)、(A5,B1)、(A5,B4),表示A1与B1,B2的相关度都是大与等于90%、A2与B2,B4的相关度都是大与等于90%、A4与B1的相关度大与等于90%和A5与B1,B4的相关度都是大与等于90%,以上都是匹配对,同时A3与B1、B2、B3和B4的相关度都是小与90%,不成为匹配对。更进一步,A1在匹配对中出现次数为2,定义为命中数2,同样,A2命中数为2,A4命中数为1,A5命中数为2,显然,A3命中数为0;
A与B竞争文献组为(A1、A2、A4、A5),A与B竞争文献数为4;
A与B竞争系数为,A与B竞争文献数/A组文献数=4/5;
B群组文献为B1、B2、B3、B4,B群组文献数为4;
B群组文献与A组文献的匹配对为(B1,A1)、(B1,A4)、(B1,A5)、(B2,A1)、(B2,A2)、(B4,A2)、(B4,A5),表示B1与A1,A4,A5的相关度都是大与等于90%、B2与A1,A2的相关度都是大与等于90%和B4与A2,A5的相关度大与等于90%,都是匹配对,同时B3与A1、A2、A3、A4和A5的相关度都是小与90%,不成为匹配对。更进一步,B1在匹配对中出现次数为3,命中数为3,同样,B2命中数为2,B4命中数为2,显然,B3命中数为0;;
B与A竞争文献为(B1、B2、B4),B与A竞争文献数为3;
B与A竞争系数为,B与A竞争文献数/B组文献数=3/4。
图8是根据本发明实施例的一个具体应用案例的分析结果。根据相关竞争文献间提交时间关系,再将相关竞争文献组各分成两部分。如,在A与B竞争文献组中4个文献为(A1、A2、A4、A5),A领先B提交的(创新)文献部分为(A1、A2、A4),文献数为3;则A领先B的创新系数为3/4;同样,在B与A竞争文献组中3个文献为(B1、B2、B4),B领先A提交的(创新)文献部分为(B1,B4),文献数为2;则B领先A创新系数为2/3。创新系数=领先创新文献数/竞争文献数。
图9是根据本发明实施例的一个具体应用的系统输出。输入的多对多匹配关系是,对A中每一个专利A[i],从B中找出所有在A[i]申请日之后,并且与A[i]相关度大于96的前3位的非A专利。本实例中,A群组是所有海尔中国专利申请3,865件,B群组是所有非海尔中国专利申请共4,101,462件。在本例中,根据本发明实施例的具体应用系统依据上述输入多对多匹配关系,自动发现海尔专利申请公开号CN2602365,标题为“多温区直冷式电冰箱”,申请日为2003/01/07以相关度98%、98%、98%分别与CN2685782、CN2727660、CN2705762相关。而且,该3个专利申请的申请日(2004/04/02、2004/0831、2004/05/19)都在2003/01/07之后。同时,系统自动发现该3个专利申请在匹配对中出现次数,即命中数分别为4、2、3,表示CN2685782除了与CN2602365相关外,还与3个在其申请日之前的其它海尔专利申请相关。从分析角度来看,这是值得关注的。

Claims (12)

1.一种对文献群组多对多自动分析的方法,其特征在于:
步骤一、输入第一检索条件,获得第一检索结果;
步骤二、输入第二检索条件,获得第二检索结果;
步骤三、输入第一检索结果和第二检索结果的匹配关系,其中,输入第一检索结果和第二检索结果的匹配关系包括:输入第一检索结果和和第二检索结果语义相关度下限值;
步骤四、根据第一检索结果、第二检索结果以及第一检索结果与第二检索结果的匹配关系,获得至少一个或多个检索结果匹配对,该匹配对包括第一文献和第二文献,该第一文献属于第一检索结果,该第二文献属于第二检索结果;
步骤五、对至少一个或多个匹配对中属于第一检索结果、第二检索结果的文献分别或共同进行分析,获得分析结果。
2.如权利要求1所述的方法,其特征在于:输入第一检索结果和第二检索结果的匹配关系还包括:输入第一检索结果和第二检索结果之间除了语义相关度以外其他属性之间的匹配条件。
3.如权利要求2所述的方法,其特征在于:除了语义相关度以外其他属性之间的匹配条件包括以下条件中的一个或多个:公开时间的先后关系,提交时间的先后关系,文献提交人之间的关系,文献提交地点之间的关系,文献提交人所属单位之间的关系,文献提交人所属单位文献数。
4.如权利要求1-3中任意一个方法,其特征在于:对所述的至少一个或多个匹配对中属于第一检索结果、第二检索结果的文献分别或共同进行分析,获得分析结果,包括:根据文献的一个或多个属性进行统计,该属性包括以下内容:提交人,提交单位,提交时间,公开时间,技术领域,提交单位地点,相关文献在匹配对中出现次数。
5.如权利要求4的方法,其特征在于:所述的对匹配对进行分析,获得分析结果,还包括:第一检索结果与第二检索结果中文献之间的语义相关度作为权重参与统计分析。
6.如权利要求1-3中任意一个方法,其特征在于:所述第一检索条件和第二检索条件是:布尔检索条件、语义检索条件或布尔检索条件与语义检索条件的组合。
7.一种对文献群组多对多自动分析的系统,其特征在于:
输入第一检索条件,获得第一检索结果的装置;
输入第二检索条件,获得第二检索结果的装置;
输入第一检索结果和第二检索结果,获得第一检索结果和第二检索结果的匹配关系的装置,其中,输入第一检索结果和第二检索结果的匹配关系的装置包括:输入第一检索结果和和第二检索结果语义相关度下限值;
根据第一检索结果、第二检索结果以及第一检索结果和第二检索结果的匹配关系,获得一个或多个检索结果匹配对的装置,该匹配对包括第一文献和第二文献,该第一文献属于第一检索结果,该第二文献属于第二检索结果;
对至少一个或多个匹配对中属于第一检索结果、第二检索结果的文献分别或共同进行分析,获得分析结果的装置。
8.如权利要求7所述的系统,其特征在于:输入第一检索结果和第二检索结果的匹配关系还包括:输入第一检索结果和第二检索结果之间除了语义相关度以外其他属性之间的匹配条件。
9.如权利要求8所述的系统,其特征在于:除了语义相关度以外其他属性之间的匹配条件包括以下条件中的一个或多个:公开时间的先后关系,提交时间的先后关系,文献提交人之间的关系,文献提交地点之间的关系,文献提交人所属单位之间的关系,文献提交人所属单位文献数。
10.如权利要求7-9中任意一个的系统,其特征在于:对所述的至少一个或多个匹配对中属于第一检索结果、第二检索结果的文献分别或共同进行分析,获得分析结果,包括:根据文献的一个或多个属性进行统计,该属性包括以下内容:提交人,提交单位,提交时间,公开时间,技术领域,提交单位地点,相关文献在匹配对中出现次数。
11.如权利要求10的系统,其特征在于:所述的对匹配对进行统计分析,获得分析结果,还包括:第一检索结果与第二检索结果中文献之间的语义相关度作为权重参与统计分析。
12.如权利要求7-9中任意一个的系统,其特征在于:所述第一检索条件和第二检索条件是:布尔检索条件、语义检索条件或布尔检索条件与语义检索条件的组合。
CN201110277690.1A 2011-09-19 2011-09-19 文献群组多对多自动分析 Active CN102279893B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201110277690.1A CN102279893B (zh) 2011-09-19 2011-09-19 文献群组多对多自动分析
US13/622,401 US20130073510A1 (en) 2011-09-19 2012-09-19 Method for automatically retrieving and analyzing multiple groups of documents by mining many-to-many relationships

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110277690.1A CN102279893B (zh) 2011-09-19 2011-09-19 文献群组多对多自动分析

Publications (2)

Publication Number Publication Date
CN102279893A CN102279893A (zh) 2011-12-14
CN102279893B true CN102279893B (zh) 2015-07-22

Family

ID=45105335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110277690.1A Active CN102279893B (zh) 2011-09-19 2011-09-19 文献群组多对多自动分析

Country Status (2)

Country Link
US (1) US20130073510A1 (zh)
CN (1) CN102279893B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294699A (zh) * 2012-02-24 2013-09-11 联想(北京)有限公司 一种筛选对象的方法及电子设备
JP5954742B2 (ja) * 2013-07-23 2016-07-20 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 文書を検索する装置及び方法
CN110209779B (zh) * 2018-02-05 2021-11-30 索意互动(北京)信息技术有限公司 一种客户端、服务器、检索方法及其系统
CN110968680B (zh) * 2018-09-29 2023-07-04 索意互动(北京)信息技术有限公司 一种客户端、服务器、检索方法及其系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1828610A (zh) * 2006-04-13 2006-09-06 北大方正集团有限公司 一种改进的基于文档结构的文档相似性度量方法
CN101681348A (zh) * 2007-02-15 2010-03-24 塞科普公司 用于文档分析的基于语义的方法和装置
CN101763343A (zh) * 2008-12-23 2010-06-30 上海晨鸟信息科技有限公司 一种支持格式比对和剽窃检查的文档编辑器原理与方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6957229B1 (en) * 2000-01-10 2005-10-18 Matthew Graham Dyor System and method for managing personal information
US20030028564A1 (en) * 2000-12-19 2003-02-06 Lingomotors, Inc. Natural language method and system for matching and ranking documents in terms of semantic relatedness
GB2391967A (en) * 2002-08-16 2004-02-18 Canon Kk Information analysing apparatus
US7734627B1 (en) * 2003-06-17 2010-06-08 Google Inc. Document similarity detection
US20060253423A1 (en) * 2005-05-07 2006-11-09 Mclane Mark Information retrieval system and method
US7809551B2 (en) * 2005-07-01 2010-10-05 Xerox Corporation Concept matching system
US7716226B2 (en) * 2005-09-27 2010-05-11 Patentratings, Llc Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects
US20070198952A1 (en) * 2006-02-21 2007-08-23 Pittenger Robert A Methods and systems for authoring of a compound document following a hierarchical structure
JP2007241459A (ja) * 2006-03-06 2007-09-20 Fuji Xerox Co Ltd ドキュメントデータ分析装置
CN101616101B (zh) * 2008-06-26 2012-01-18 阿里巴巴集团控股有限公司 一种用户信息过滤方法及装置
US8468143B1 (en) * 2010-04-07 2013-06-18 Google Inc. System and method for directing questions to consultants through profile matching
US9489350B2 (en) * 2010-04-30 2016-11-08 Orbis Technologies, Inc. Systems and methods for semantic search, content correlation and visualization
US20120016863A1 (en) * 2010-07-16 2012-01-19 Microsoft Corporation Enriching metadata of categorized documents for search
US9418150B2 (en) * 2011-01-11 2016-08-16 Intelligent Medical Objects, Inc. System and process for concept tagging and content retrieval

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1828610A (zh) * 2006-04-13 2006-09-06 北大方正集团有限公司 一种改进的基于文档结构的文档相似性度量方法
CN101681348A (zh) * 2007-02-15 2010-03-24 塞科普公司 用于文档分析的基于语义的方法和装置
CN101763343A (zh) * 2008-12-23 2010-06-30 上海晨鸟信息科技有限公司 一种支持格式比对和剽窃检查的文档编辑器原理与方法

Also Published As

Publication number Publication date
US20130073510A1 (en) 2013-03-21
CN102279893A (zh) 2011-12-14

Similar Documents

Publication Publication Date Title
US8990241B2 (en) System and method for recommending queries related to trending topics based on a received query
Xu et al. Multiple granulation rough set approach to ordered information systems
US9235646B2 (en) Method and system for a search engine for user generated content (UGC)
US9684713B2 (en) Methods and systems for retrieval of experts based on user customizable search and ranking parameters
CN109710728A (zh) 新闻话题自动发现方法
Uddin et al. A framework to explore the knowledge structure of multidisciplinary research fields
US20160098444A1 (en) Corpus Management Based on Question Affinity
WO2012124608A1 (ja) 話題抽出装置及びプログラム
JP6394388B2 (ja) 同義関係判定装置、同義関係判定方法、及びそのプログラム
US20160162574A1 (en) Computer-implemented method of and system for searching an inverted index having a plurality of posting lists
US20150310068A1 (en) Reinforcement Learning Based Document Coding
CN102279893B (zh) 文献群组多对多自动分析
CN103942268A (zh) 搜索与应用相结合的方法、设备以及应用接口
CN110083703A (zh) 一种基于引用网络和文本相似度网络的文献聚类方法
Tran et al. Text clustering using frequent weighted utility itemsets
Li et al. Efficiently mining high quality phrases from texts
CN106980639B (zh) 短文本数据聚合系统及方法
Quan et al. Feature-level sentiment analysis by using comparative domain corpora
TW201126359A (en) Keyword evaluation systems and methods
Sharma Study of sentiment analysis using hadoop
Pujari et al. Tag recommendation by link prediction based on supervised machine learning
CN106156182A (zh) 将微博话题词分类到具体领域的方法和设备
CN103678355B (zh) 文本挖掘方法和文本挖掘装置
Chaa et al. New technique to deal with verbose queries in social book search
EP4002151A1 (en) Data tagging and synchronisation system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant