CN107562753A - 一种基于索引词的分析方法与装置 - Google Patents
一种基于索引词的分析方法与装置 Download PDFInfo
- Publication number
- CN107562753A CN107562753A CN201610509743.0A CN201610509743A CN107562753A CN 107562753 A CN107562753 A CN 107562753A CN 201610509743 A CN201610509743 A CN 201610509743A CN 107562753 A CN107562753 A CN 107562753A
- Authority
- CN
- China
- Prior art keywords
- index terms
- statistics
- condition
- document
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于索引词的分析方法和装置,具体包括:接收用户输入的第一检索条件,根据所述第一检索条件在索引词数据库进行检索,生成与所述第一检索条件相匹配的至少一个第一索引词;根据所述第一索引词以及基于该第一索引词的第一统计数据生成第一索引词列表;接收用户输入的第二检索条件,获取该第二检索条件的第二统计数据;第一、三统计数据包括含有索引词的文献的数量以及相应的文献列表;基于文献列表进行逻辑与运算,以获取满足所述第一检索条件和第二检索条件的第三统计数据,所述第三统计数据包括文献数量。本发明基于索引词以及后台的文献列表实现了索引词的选取以及文献和技术的统计、分析。
Description
技术领域
本发明涉及信息搜索与分析技术领域,尤其涉及一种基于索引词的分析方法与装置。
背景技术
目前信息搜索方面,尤其是文献搜索方面,主要有两个检索手段,其中一个检索手段就是将查询请求中的关键词、分类号、申请人等字段与文献的标引字段进行匹配,得到检索结果,这一方面需要对文献进行深加工,尤其是关键词字段的标引需要进行深度开发;一方面需要信息搜索人员对于关键词有很好的扩展能力。这种检索方式要求用户必须输入需要匹配的字段内容。为了改善这种局限性,现有技术还提出了另一种检索手段语义检索,即根据词条向量表以及查询请求生成查询向量,根据词条向量表以及关键词-文档矩阵生成文档向量,计算上述两个向量的相似度来进行语义检索,当然也有通过专家建立庞杂的知识本体库,通过知识本题库自动扩展出关键词,根据输入的关键词以及扩展出的关键词生成概念向量,然后计算概念向量和文档向量的相似度来进行语义检索。
上述检索方式中匹配过程均是由系统自动完成,用户根本无法知道匹配是如何进行的,当然也就无法对匹配过程进行控制,以至于对检索产生的各种噪声无能为力。
发明内容
鉴于上述问题,提出了本发明以便克服上述问题或者至少部分地解决上述问题。
本发明提供一种基于索引词的分析方法,该方法包括:
接收用户输入的第一检索条件,根据所述第一检索条件在索引词数据库进行检索,生成与所述第一检索条件相匹配的至少一个第一索引词;
根据所述第一索引词以及基于该第一索引词的第一统计数据生成第一索引词列表,所述第一统计数据包括含有该第一索引词的文献的数量以及相应的第一文献列表;
接收用户输入的第二检索条件,获取该第二检索条件的第二统计数据,所述第二统计数据包括满足该第二检索条件的文献的数量以及相应的第二文献列表;
将所述第一文献列表和所述第二文献列表进行逻辑与运算,以获取满足所述第一检索条件和第二检索条件的第三统计数据,所述第三统计数据包括文献数量。
可选的,该方法还包括:显示所述第一索引词以及含有该第一索引词的文献的数量;在每个所述第一索引词下,显示所述第二检索条件以及第三统计数据中的文献数量。
可选的,该方法还包括:
根据用户对第一统计数据或者第三统计数据的触发操作,相应根据所述第一统计数据或者第三统计数据获取文献集。
可选的,该第二检索条件为一个第二索引词或者具有逻辑或关系的两个以上第二索引词。
可选的,所述第二检索条件包括统配索引词,所述统配索引词对应多个第二索引词。
可选的,在每个所述第一索引词下,显示所述第二检索条件以及第三统计数据中的文献数量,具体为:
在每个所述第一索引词下,并列显示每个第二索引词以及对应的文献数量。
可选的,第二检索条件为具有逻辑与关系的至少两个第二索引词;在每个所述第一索引词下,显示所述第二检索条件以及第三统计数据中的文献数量,具体为:在每个所述第一索引词下,显示所述至少两个第二索引词以及对应的第三统计数据中的文献数量,
可选的,根据用户对第一统计数据或者第三统计数据的触发操作,对相应的文献列表进行IPC、申请人、发明人、引用、被引用和/或国家项目的分析并显示分析结果。
可选的,该方法还包括:
接收用户输入的过滤条件,所述过滤条件包括申请人、国家、地域、分类号、发明人、时间、法律状态中的至少一项;
根据所述过滤条件对第一统计数据、第三统计数据进行过滤;
显示过滤条件以及对应的过滤后的第一统计数据、第三统计数据。
可选的,含有第一索引词的文献的数量以及相应的第一文献列表、含有第二索引词的文献的数量以及相应的第二文献列表预先获取。
可选的,该方法还包括:
接收用户输入的第一标记条件,所述第一标记条件为对文献集的可检索字段的限定条件;
确定第一索引词和/或第二索引词中满足所述第一标记条件的索引词;
对满足所述第一标记条件的索引词进行第一突出显示。
可选的,该方法还包括:
接收用户输入的第n标记条件,所述第n标记条件为对文献集的可检索字段的限定条件,n为大于1的整数;
确定满足第一标记条件、……或第n-1标记条件的索引词中哪些索引词满足所述第n标记条件,对满足所述第n标记条件的索引词进行第二突出显示。
确定不满足第一标记条件、……或第n-1标记条件的索引词中哪些索引词满足所述第n标记条件,对其中满足所述第n标记条件的索引词进行第三突出显示。
本发明还提供一种基于索引词的分析装置,该装置包括:
输入单元,用于接收用户输入的第一检索条件、第二检索条件;
索引词检索单元,用于根据所述第一检索条件在索引词数据库进行检索,获取与所述第一检索条件相匹配的至少一个第一索引词,根据所述第二检索条件在索引词数据库进行检索,获取与所述第二检索条件相匹配的至少一个第二索引词;
第一索引词列表生成单元,用于根据所述第一索引词以及基于该第一索引词的第一统计数据生成第一索引词列表,所述第一统计数据包括含有该第一索引词的文献的数量以及相应的第一文献列表;
第二统计数据获取单元,用于根据所述第二索引词获取对应该第二检索条件的第二统计数据,所述第二统计数据包括满足该第二检索条件的文献的数量以及相应的第二文献列表;
运算处理单元,用于将所述第一文献列表和所述第二文献列表进行逻辑与运算,以获取满足所述第一检索条件和第二检索条件的第三统计数据,所述第三统计数据包括文献数量。
可选的,该装置还包括:显示单元,用于显示所述第一索引词以及含有该第一索引词的文献的数量;还用于在每个所述第一索引词下,显示所述第二检索条件以及第三统计数据中的文献数量。
可选的,该装置还包括:
文献获取单元,用于根据用户对第一统计数据或者第三统计数据的触发操作,相应根据所述第一统计数据或者第三统计数据获取文献集。
可选的,所述显示单元在每个所述第一索引词下,并列显示每个第二索引词以及对应的文献数量。
可选的,在第二检索条件为具有逻辑与关系的至少两个第二索引词时,所述显示单元在每个所述第一索引词下,显示所述至少两个第二索引词以及对应的第三统计数据中的文献数量,
可选的,所述输入单元,接收用户对第一统计数据或者第三统计数据的触发操作,该装置还包括分析单元,用于基于所述触发操作,对相应的统计数据的文献列表进行IPC、申请人和/或国家项目的分析,并将分析结果传送给所述显示单元。
可选的,所述输入单元,接收用户输入的过滤条件,所述过滤条件包括申请人、国家、地域、分类号、发明人、时间、法律状态中的至少一项;该装置还包括:过滤单元,用于根据所述过滤条件对第一统计数据、第三统计数据进行过滤;所述显示单元用于显示过滤条件以及对应的过滤后的第一统计数据、第三统计数据。
可选的,所述接收单元用于接收用户输入的第一标记条件,所述第一标记条件为对文献集的可检索字段的限定条件;该装置还包括:
第一突出显示单元,用于确定第一索引词和/或第二索引词中满足所述第一标记条件的索引词,并对满足所述第一标记条件的索引词进行第一突出显示。
可选的,所述接收单元用于接收用户输入的第n标记条件,所述第n标记条件为对文献集的可检索字段的限定条件,n为大于1的整数;该装置还包括:
第二突出显示单元,用于确定满足第一标记条件、……或第n-1标记条件的索引词中哪些索引词满足所述第n标记条件,对满足所述第n标记条件的索引词进行第二突出显示;
第三突出显示单元,用于确定不满足第一标记条件、……或第n-1标记条件的索引词中哪些索引词满足所述第n标记条件,对其中满足所述第n标记条件的索引词进行第三突出显示。
本申请实施例中提供的技术方案,本发明基于索引词以及后台的文献列表实现了索引词的选取以及文献和技术的统计、分析。至少具有如下技术效果或优点:
能够显示与用户关心的检索条件相关的第一索引词以及相应的文献统计数量,用户可据此对这些第一索引词进行选择或者去除掉属于噪声的索引词,
能够显示第二索引词与上述各个第一索引词进行逻辑与运算后的统计数量,从而根据统计数量了解第一索引词、第二索引词同时在专利文献中的使用情况。
能够通过触发统计数量获取对应的文献集,从而使得用户可根据宏观数据直接切入到具体文献,进行技术上深层次的检索或者分析。
能够根据各种过滤条件(包括申请人、发明人、关键词、分类号、法律状态等等可据其对文献进行检索的各种字段)对索引词进行过滤,以获取到最终想要的索引词,并据此直接获取文献集或者对专利数据库进行检索或者分析。
能够根据标记条件对索引词进行标记,对符合所述标记条件的索引词进行突出显示,尤其能够对满足之前的标记条件和当前的标记条件的索引词进行有区分地突出显示。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的基于索引词的分析方法的流程图;
图2示出了全文中的索引词;
图3示出了主权利要求中的索引词;
图4-7示出了根据本发明一个实施例的索引词标记结果图;
图8示出根据本发明一个实施例的基于索引词的分析装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明提供一种基于索引词的分析方法,如图1所示,该方法包括:
S1.接收用户输入的第一检索条件,根据所述第一检索条件在索引词数据库进行检索,生成与所述第一检索条件相匹配的至少一个第一索引词;
该第一检索条件可以是关键词,如果是关键词,那么可根据该关键词在索引词数据库进行语义检索,以获取与该关键词具有一定相关度的索引词,即第一索引词;该第一检索条件也可以是一个文献号或者多个文献号,如果是文献号,那么可以根据该文献号所对应的文献,抽取其技术要素,具体可有两种途径,一种是图2所示,将专利文献的全文索引词作为第一索引词,另一种是如图3所示,从将主权利要求中的关键索引词作为第一索引词,当然本申请也不局限于上述两种通过文献号来获取索引词的途径,比如通过从摘要获取、发明内容部分获取、背景技术部分获取的索引词;甚至是人工标引词。索引词来自文献的不同部分,所反映的技术点会有所不同。如果文献对所标引的索引词有区分,比如索引词分从权利要求书中提取的、从背景技术部分提取、从发明内容部分提取的、从实施例部分提取的、从摘要部分提取的,那么还可根据索引词的提取来自不同的部分,来进行不同用途的索引词应用。至于上述各部分索引词是如何产生的,索引词可以是针对每篇文献人为提前加工的,也可以是系统针对每篇文献根据预定的算法进行自动标引的。除了人工标引,现在应用较多的技术手段是先利用分词法,对语句进行分词,然后通过语义相关度自动获取索引词;本申请不做详细说明。第一检索条件也不局限上面提及的关键词、文献号,任何用于检索文献集的检索条件均可以作为第一检索条件。因为文献集对应有一定的索引词,只要能获取到文献集,就能够获取到文献集所对应的索引词。
S2.根据所述第一索引词以及基于该第一索引词的第一统计数据生成第一索引词列表,所述第一统计数据包括含有该第一索引词的文献的数量以及相应的第一文献列表;
作为一种优选实施方式,为了提高检索、分析的速度,基于第一索引词的第一统计数据预先生成。在文献数据库、索引词数据库有更新时,即将索引词与各文献进行匹配,生成统计数据,在这种方式下,统计数据就构成索引词数据库的一部分。如此能够使得在显示索引词以及与索引词相关的统计数据时,非常快速。当然,统计数据也可根据检索条件实时地进行获取。所述统计数据可包括含有第一索引词的文献的数量。因为根据该数量用户即可确定一个索引词被使用的频率,从而确定这个索引词是否需要选用。作为另一种优选实施方式,所述统计数据还可包括申请人的数量,通过申请人的数量,可以确定索引词被使用的广度,从而帮助估算索引词在检索和分析中的作用。所述统计数据还可包括发生权利转移的文献数量、基于地域、国别的文献统计数量等等。所述统计数据还可包括索引词第一次在文献中出现的时间,即第一篇文献引用该索引词的申请日,不得不说,这是一个很重要的指标,这个时间反映了索引词所代表的技术最早出现的时间。
上面只是对第三统计数据进行例举,第三统计数据并不局限于上面所列出的,任何对文献集进行统计的数据(包括各种项目)都可作为所述统计数据。具体在显示第一统计数据时,具体哪些数据项目可以由用户在设置界面进行设置,或者按照默认设置进行显示。为了进一步对第一索引词进行过滤、选择或者标记,该统计数据还可包括与所述数量相对应的文献列表,文献列表可包括文献号、申请人、申请日、公开日、授权日、发明人、地域、转移信息等等因素,因此可通过这些因素对第一索引词进行过滤、标记。比如可通过申请人因素对索引词进行过滤,并显示过滤后的统计数量。举例来说,用户输入过滤限定条件为ann/三星,那么可以将在三星申请的专利文献中出现的索引词过滤出来,并将相应的文献数量进行显示。
作为一种优选实施方式,在用户输入第一检索条件后,为用户显示第一索引词列表,为用户显示第一索引词和所述统计的包含该第一索引词的文献数量。在显示时,可以是在每个第一索引词的左面或者右面显示所述统计的包含该第一索引词的文献数量;也可以是在每个第一索引词的下面显示所述统计的包含该第一索引词的文献数量。作为另一种优选实施方式,除了在仅靠第一索引词的地方显示包含该第一索引词的文献数量,为用户显示与所述索引词对应的申请人数量,从而对索引词在文献中的出现情况提供更多层面的支持。
S3.接收用户输入的第二检索条件,获取该第二检索条件的第二统计数据,所述第二统计数据包括满足该第二检索条件的文献的数量以及相应的第二文献列表;
利用所述第二检索条件对前述第一索引词进行进一步的信息补充。第二检索条件优选是关键词,在用户输入第二检索条件后,检索/分析系统直接将关键词与索引词数据库中的索引词进行匹配,将匹配成功的索引词,作为第二索引词。具体地,该第二检索条件可以为一个关键词或者具有逻辑(包括与、或、与非)关系的两个以上的关键词,也可以是包括统配字符的关键词。第二检索条件最终反映到第二索引词上,可能是一个索引词,也可能是多个索引词。
根据所述第二索引词获取包含所述第二索引词的文献的数量以及文献列表(第二文献列表)。作为一种优选实施方式,为了提高检索、分析的速度,基于第二索引词的第二统计数据预先生成,即在文献数据库、索引词数据库有更新时,即将第二索引词与各文献进行匹配,生成所述第二统计数据。如此能够使得在显示索引词以及索引词相关的统计数据时,非常快速。所述第二统计数据至少包括含有第二索引词的文献的数量。因为根据该数量用户即可确定一个第二索引词被使用的频率,从而确定这个第二索引词是否需要选用。作为另一种优选实施方式,所述第二统计数据还可包括申请人的数量,通过申请人的数量,可以确定第二索引词被使用的广度,从而帮助估算索引词在检索和分析中的作用。为了进一步对第二索引词进行过滤,该第二统计数据还可包括与所述数量相对应的文献列表,文献列表可包括关键词、文献号、申请人、申请日、公开日、授权日、发明人、地域、转移信息等等因素,因此可通过这些因素对第二索引词进行过滤、标记。比如可通过申请人因素对索引词进行过滤,并显示过滤后的统计数量。举例来说,用户输入过滤限定条件为ann/三星,那么可以将在三星申请的专利文献中出现的第二索引词过滤出来。
实际上,第一索引词、第二索引词均为索引词数据库中的索引词元素,在这点上是没有区别的。作为一种优选的实施方式,在预先构建的索引词数据库中,存储每个索引词以及该索引词相对应的统计数据。通过上面步骤S1,S2的描述可以看出,通过第一检索条件获取第一索引词的过程,处理逻辑方式多样,获取的第一索引词的数量可能比较多,因此将最重要的检索分析点作为第一检索条件,以获得全面的相关的索引词信息。而通过第二检索条件获取第二索引词的过程主要是词条匹配的方式,这主要是考虑到第二索引词是对于文献的进一步的限定条件,主要是用来反映在包含各个不同的第一索引词的文献中有哪些文献还包括了第二索引词,因此一般第二索引词的数量不宜过多,优选是第二检索条件为关键词,通过第二检索条件获取第二索引词的处理方式优选是进行词条匹配。
可以进一步对第二索引词进行过滤,由于第二统计数据包括与所述数量相对应的文献列表,文献列表可包括文献号、申请人、申请日、公开日、授权日、发明人、地域、转移信息等等因素,因此可通过这些因素对第二索引词进行过滤、标记。比如可通过申请人因素对索引词进行过滤,并显示过滤后的统计数量。举例来说,用户输入过滤限定条件为ann/三星,那么可以将在三星申请的专利文献中出现的索引词过滤出来,并将相应的文献数量进行显示。
获取第二索引词以及与所述第二索引词相对应的第二统计数据。所述第二统计数据包括包含有所述第二索引词的文献的数量以及相应的第二文献列表。
S4.将所述第一文献列表和所述第二文献列表进行逻辑与运算,以获取满足所述第一检索条件和第二检索条件的第三统计数据,所述第三统计数据包括文献数量。
将所述第一文献列表和所述第二文献列表进行逻辑与运算,作为一种优选实施方式,根据第一文献列表包含的文献号以及第二文献列表包含的文献号,进行逻辑与运算,即遍历第二文献列表中每篇文献的文献号,选取并统计哪些文献号在第一文献列表中出现,从而获得第三文献列表,获取到第三文献列表后,通过所述第三文献列表即可获取到相应的统计数据,如文献数量、申请人数量等等,甚至是权利转移数量,任何对文献集进行统计的数据都可作为所述第三统计数据所包括的内容。为用户显示第二索引词和所述第三统计数据。在显示时,可以是在每个第一索引词的下方显示所述第二索引词以及相应的第三统计数据,所述第三统计数据可包括:依据第三文献列表统计的文献数量、申请人数量、发生专利权转移的文献数量、基于地域、国别的文献统计数量;上面只是对第三统计数据进行例举,第三统计数据并不局限于上面所列出的,只要是对文献进行统计的数据(包括各种项目)均可作为第三统计数据;具体在显示第三统计数据时,具体哪些数据项目可以由用户在设置界面进行设置,或者按照默认设置进行显示。在每个所述第一索引词下,显示所述第二检索条件以及第三统计数据中的文献数量。一种具体的显示方式是在每个第一索引词的下面显示第二索引词以及所述第三统计数据中的文献数量,所述第二索引词与所述第三统计数据中的文献数量同行显示。作为另一种优选实施方式,还可将所述第三统计数据中的文献数量、申请人数量显示在第二索引词的旁边,从而对第一索引词、第二索引共同在文献中的出现情况提供更多层面的支持。
作为另一种实施方式,在每个所述第一索引词下,并列显示每个第二索引词以及对应的第三统计数据。一种具体实施方式是在每个所述第一索引词下,显示所述第二检索条件以及第三统计数据中的文献数量。
作为另一种实施方式是,显示所述第一索引词以及含有该第一索引词的文献的数量;在每个所述第一索引词下,显示所述第二检索条件以及第三统计数据中的文献数量,通过这种情况可以简洁地显示出在各种条件下每个第一索引词对应的文献集的统计数据,为进一步检索和分析提供了宏观、客观的基础。
在索引词列表中,第一统计数据、第三统计数据并不是静态数据,而是可触发点击的。根据用户对第一统计数据或者第三统计数据的触发操作,相应根据所述第一统计数据或者第三统计数据获取文献集,即在索引词数据库、进行索引词处理的检索/分析装置与进行文献检索、分析的文献检索/分析系统之间建立有接口或者通道,从而将可见索引词列表界面切换至检索分析界面,方便基于统计的数据直接进行更深入的检索和分析。根据用户对第一统计数据或者第三统计数据的触发操作,对相应的文献列表进行IPC、申请人、发明人、国别、地域、引用和被引用等各种项目的分析并显示分析结果,此处项目是指文献的各种可检索、分析的字段。
可选的,该方法还包括:接收用户输入的过滤条件,所述过滤条件包括申请人、国家、地域、分类号、发明人、时间、法律状态中的至少一项;根据所述过滤条件对第一统计数据、第三统计数据进行过滤;显示过滤条件以及对应的过滤后的第一统计数据、第三统计数据。值得特别说明的是,时间包括申请日、公开日、优先权日等时间信息。
确定第一索引词和/或第二索引词中满足所述第一标记条件的索引词,并对满足所述第一标记条件的索引词进行第一突出显示,即不管对于第一索引词还是对于第一索引词和第二索引词,用户通过输入第一标记条件,对符合标记条件的索引词进行突出显示,所述第一标记条件为对文献集的可检索字段的限定条件。如图4所示,输入第一检索条件“自动驾驶”,获取到第一索引词,为了了解哪些索引词在google申请的专利里出现,可输入标记条件“ann/google”,对在google申请的专利文献中出现的第一索引词进行突出显示,比如可通过字体颜色突出显示或者进行通过填充索引词颜色进行突出显示,作为一种优选的实施方式,如图4,可利用粉色进行突出显示。也可在生成第二索引词后,对第一索引词进行标记,如图5所示。通过这样的技术手段,用户可以很直观地在索引词列表中识别出关注的索引词。
实际上用户在了解和分析技术点时,或者为了进一步检索和分析而选取索引词时,经常会有多个关注点,又希望了解这些不同关注点之间的关联。为了解决这个技术问题,本申请提出根据多个不同的标记条件关联地显示与所述多个不同的标记条件相应的索引词。本申请并不局限于第一次标记和第二次标记,三次以上的标记也是可以的。即用户输入第n标记条件,所述第n标记条件为对文献集的可检索字段的限定条件,n为大于1的整数;确定满足第一标记条件、……或第n-1标记条件的索引词中哪些索引词满足所述第n标记条件,对满足所述第n标记条件的索引词进行第二突出显示;第三突出显示单元,用于确定不满足第一标记条件、……或第n-1标记条件的索引词中哪些索引词满足所述第n标记条件,对其中满足所述第n标记条件的索引词进行第三突出显示。作为一种具体实施方式,记录之前的满足第一、第二、……第n-1标记条件的索引词A,记录当前的满足第n标记条件的索引词B,对索引词A以及索引词B的词集进行逻辑与运算处理,从而得到满足所有标记条件的索引词B’和仅满足当前索引条件的索引词B”。
举一个实施例,用户想知道在自动驾驶方面百度申请的专利文献涉及了哪些索引词(相当于主题),并且想知道百度申请的专利文献涉及的索引词中哪些是google已经布局过的,哪些是google没有布局过的,哪些用户只需要在上述图4的所显示的索引词基础上,输出“ann/baidu”,便可生成图6,图6中,勾选的索引词中,带黄色标记的是在google和baidu申请的专利文献中都出现过,而带粉色标记的是在google申请的专利文献中没有出现过,而仅仅在baidu申请的专利文献中出现。通过这样的区分显示,用户可以很快的识别出哪些主题是google和百度都涉及的,哪些是google没有涉及而百度涉及了的,从而对专利分析提供非常客观又直观地基础。
索引词能够反映技术方向、技术点,本申请在索引词反映技术内容的基础上,还可统计出引用索引词中的专利文献中申请量最多的预定几位申请人,当然可统计出引用索引词的文献所属的IPC分类号中最多的预定几个IPC(国际专利分类号)分类号,在此只例举两个,当然不仅这两个,只要是文献可统计的因素均作为统计对象,并将位于top的预定数量对象列出并显示在屏幕上。如图4-7所示,对于自动驾驶,统计出申请量最多的4位申请人,4位申请人可点击触发,如图7所示,从而可作为标记索引词的条件或者过滤索引词的条件。主要的实现手段就是对索引词对应的文献列表进行各种因素的统计,比如申请人、分类号、申请时间、转移人,受让人、发明人、同族等等。
本发明还提供一种基于索引词的分析装置,如图8所示,该装置包括:
接收单元100,用于接收用户输入的第一检索条件、第二检索条件;
索引词检索单元200,用于根据所述第一检索条件在索引词数据库进行检索,获取与所述第一检索条件相匹配的至少一个第一索引词,根据所述第二检索条件在索引词数据库进行检索,获取与所述第二检索条件相匹配的至少一个第二索引词;所述索引词数据库存储有索引词,优选的,还可存储有每个索引词相关的文献统计数据;获取与所述第一检索条件相匹配的至少一个第一索引词时,可通过布尔算法获取,也可利用词汇向量通过语义相关度进行获取。
第一索引词列表生成单元300,用于根据所述第一索引词以及基于该第一索引词的第一统计数据生成第一索引词列表,所述第一统计数据包括含有该第一索引词的文献的数量以及相应的第一文献列表,具体对于统计数据的说明在前面已经充分阐述,在此不再赘述。
第二统计数据获取单元400,获取该第二检索条件的第二统计数据,所述第二统计数据包括满足该第二检索条件的文献的数量以及相应的第二文献列表;
运算处理单元500,用于将所述第一文献列表和所述第二文献列表进行逻辑与运算,以获取满足所述第一检索条件和第二检索条件的第三统计数据,所述第三统计数据包括文献数量。
该检索/分析装置可以浏览器,也可以是客户端。如果是客户端,由于索引词数据库设置在客户端,那么第一索引词以及第二统计数据、第二索引词以及第三统计数据的获取会极其快速,且不需要一定连接至网络。如果是浏览器,因为索引词以及统计数据的预先构建,浏览器本地与浏览器服务器的交互也非常快速。
本发明还提出一种终端,能够与上述作为服务器端的上述检索/分析装置进行通信,该终端包括:输入单元,用于输入所述第一检索条件、第二检索条件;显示单元,用于显示所述第一索引词以及含有该第一索引词的文献的数量,所述显示单元还用于在每个所述第一索引词下,显示所述第二检索条件以及第三统计数据中的文献数量。作为一种优选的实施方式,所述显示单元在每个所述第一索引词下,并列显示每个第二索引词以及对应的文献数量。作为一种实施方式,在第二检索条件为具有逻辑与关系的至少两个第二索引词时,所述显示单元在每个所述第一索引词下,显示所述至少两个第二索引词以及对应的第三统计数据中的文献数量。所述输入单元,用于使用户对第一统计数据或者第三统计数据进行触发操作,该终端装置还可包括分析单元,用于基于所述触发操作,对相应的统计数据的文献列表进行IPC、申请人和/或国家项目的分析,并将分析结果传送给所述显示单元。当然,如果文献列表并没有存在本地,那么分析单元位于服务器端。
该检索/分析装置还包括:文献获取单元,用于根据用户对第一统计数据或者第三统计数据的触发操作,相应根据所述第一统计数据或者第三统计数据获取文献集。
在本申请提出的终端装置中,所述输入单元,还用于使用户输入过滤条件,所述过滤条件包括申请人、国家、地域、分类号、发明人、时间、法律状态中的至少一项;该终端装置还包括:过滤单元,用于根据所述过滤条件对第一统计数据、第三统计数据进行过滤;所述显示单元用于显示过滤条件以及对应的过滤后的第一统计数据、第三统计数据。作为另一种实施方式,所述过滤单元也可设置在服务器端。所述过滤单元、分析单元设置在服务器端还是客户端,主要是考虑终端的存储能力和处理能力以及网络流量消耗,如果终端的存储能力和处理能力足以保证将文献列表存储在本地,并能够进行基于文献列表的分析,那么优选的,所述过滤单元、分析单元设置在终端,这样方式反映速度迅速,且节省网络流量,如果终端的存储能力和处理能力不足,那么所述过滤单元、分析单元设置在终端,这样终端和服务器的交互次数会较多,但对于简配的终端非常适合。
本申请实施例中提供的技术方案,至少具有如下技术效果或优点:
能够显示与用户关心的检索条件相关的第一索引词以及相应的文献统计数据,能够显示用户可据此对这些第一索引词进行选择或者去除掉属于噪声的索引词。
能够显示第二索引词与上述各个第一索引词进行逻辑与运算后的统计数量,从而根据统计数量了解第一索引词、第二索引词同时在专利文献中的使用情况。
能够通过触发统计数量获取对应的文献集,从而使得用户可根据宏观数据直接切入到具体文献,进行技术上深层次的检索或者分析。
能够根据标记条件对索引词进行标记,对符合所述标记条件的索引词进行突出显示,尤其能够对满足之前的标记条件和当前的标记条件的索引词进行有区分地突出显示。
能够根据各种过滤条件(包括申请人、发明人、关键词、分类号、法律状态等等可据其对文献进行检索的各种字段)对索引词进行过滤,以获取到最终想要的索引词,并据此直接获取文献集或者对专利数据库进行检索或者分析。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网关、代理服务器、系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (21)
1.一种基于索引词的分析方法,其特征在于,该方法包括:
接收用户输入的第一检索条件,根据所述第一检索条件在索引词数据库进行检索,生成与所述第一检索条件相匹配的至少一个第一索引词;
根据所述第一索引词以及基于该第一索引词的第一统计数据生成第一索引词列表,所述第一统计数据包括含有该第一索引词的文献的数量以及相应的第一文献列表;
接收用户输入的第二检索条件,获取满足该第二检索条件的索引词以及相应的第二统计数据,所述第二统计数据包括满足该第二检索条件的文献的数量以及相应的第二文献列表;
将所述第一文献列表和所述第二文献列表进行逻辑与运算,以获取满足所述第一检索条件和第二检索条件的第三统计数据,所述第三统计数据包括文献数量。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:显示所述第一索引词以及含有该第一索引词的文献的数量;在每个所述第一索引词下,显示所述第二检索条件以及第三统计数据中的文献数量。
3.根据权利要求1或2所述的方法,其特征在于,该方法还包括:
根据用户对第一统计数据或者第三统计数据的触发操作,相应根据所述第一统计数据或者第三统计数据获取文献集。
4.根据权利要求1-3任一项所述的方法,其特征还在于,该第二检索条件为一个第二索引词或者具有逻辑或关系的两个以上第二索引词。
5.根据权利要求1-3所述的方法,所述第二检索条件包括统配索引词,所述统配索引词对应多个第二索引词。
6.根据权利要求4或5所述的方法,在每个所述第一索引词下,显示所述第二检索条件以及第三统计数据中的文献数量,具体为:
在每个所述第一索引词下,并列显示每个第二索引词以及对应的文献数量。
7.根据权利要求1-3任一项所述的方法,第二检索条件为具有逻辑与关系的至少两个第二索引词;在每个所述第一索引词下,显示所述第二检索条件以及第三统计数据中的文献数量,具体为:在每个所述第一索引词下,显示所述至少两个第二索引词以及对应的第三统计数据中的文献数量。
8.根据权利要求1-7任一项所述的方法,根据用户对第一统计数据或者第三统计数据的触发操作,对相应的文献列表进行IPC、申请人、发明人、引用、被引用和/或国家项目的分析并显示分析结果。
9.根据权利要求1-7任一项所述的方法,该方法还包括:
接收用户输入的过滤条件,所述过滤条件包括申请人、国家、地域、分类号、发明人、时间、法律状态中的至少一项;
根据所述过滤条件对第一统计数据、第三统计数据进行过滤;
显示过滤条件以及对应的过滤后的第一统计数据、第三统计数据。
10.根据权利要求1-9任一项所述的方法,预先获取含有第一索引词的文献的数量以及相应的第一文献列表、含有第二索引词的文献的数量以及相应的第二文献列表。
11.根据权利要求1-10任一项所述的方法,其特征还在于,该方法还包括:接收用户输入的第一标记条件,所述第一标记条件为对文献集的可检索字段的限定条件;
确定第一索引词和/或第二索引词中满足所述第一标记条件的索引词;
对满足所述第一标记条件的索引词进行第一突出显示。
12.根据权利要求11所述的方法,其特征还在于,该方法还包括:接收用户输入的第n标记条件,所述第n标记条件为对文献集的可检索字段的限定条件,n为大于1的整数;
确定满足第一标记条件、……或第n-1标记条件的索引词中哪些索引词满足所述第n标记条件,对满足所述第n标记条件的索引词进行第二突出显示;
确定不满足第一标记条件、……或第n-1标记条件的索引词中哪些索引词满足所述第n标记条件,对其中满足所述第n标记条件的索引词进行第三突出显示。
13.一种基于索引词的分析装置,其特征在于,该装置包括:
接收单元,用于接收用户输入的第一检索条件、第二检索条件;
索引词检索单元,用于根据所述第一检索条件在索引词数据库进行检索,获取与所述第一检索条件相匹配的至少一个第一索引词,根据所述第二检索条件在索引词数据库进行检索,获取与所述第二检索条件相匹配的至少一个第二索引词;
第一索引词列表生成单元,用于根据所述第一索引词以及基于该第一索引词的第一统计数据生成第一索引词列表,所述第一统计数据包括含有该第一索引词的文献的数量以及相应的第一文献列表;
第二统计数据获取单元,用于获取满足该第二检索条件的第二索引词以及相应的第二统计数据,所述第二统计数据包括满足该第二检索条件的文献的数量以及相应的第二文献列表;
运算处理单元,用于将所述第一文献列表和所述第二文献列表进行逻辑与运算,以获取满足所述第一检索条件和第二检索条件的第三统计数据,所述第三统计数据包括文献数量。
14.根据权利要求13所述的装置,其特征在于,该装置还包括:显示单元,用于显示所述第一索引词以及含有该第一索引词的文献的数量;还用于在每个所述第一索引词下,显示所述第二检索条件以及第三统计数据中的文献数量。
15.根据权利要求13或14所述的装置,其特征在于,该装置还包括:
文献获取单元,用于根据用户对第一统计数据或者第三统计数据的触发操作,相应根据所述第一统计数据或者第三统计数据获取文献集。
16.根据权利要求13-15任一项所述的装置,其特征还在于,所述显示单元在每个所述第一索引词下,并列显示每个第二索引词以及对应的文献数量。
17.根据权利要求13-16任一项所述的装置,在第二检索条件为具有逻辑与关系的至少两个第二索引词时,所述显示单元在每个所述第一索引词下,显示所述至少两个第二索引词以及对应的第三统计数据中的文献数量。
18.根据权利要求13-17任一项所述的装置,所述接收单元还用于接收用户对第一统计数据或者第三统计数据的触发操作,该装置还包括分析单元,用于基于所述触发操作,对相应的统计数据的文献列表进行IPC、申请人、发明人、引用、被引用和/或国家项目的分析,并将分析结果传送给所述显示单元。
19.根据权利要求13-18任一项所述的装置,
所述接收单元,还用于接收用户输入的过滤条件,所述过滤条件包括申请人、国家、地域、分类号、发明人、时间、法律状态中的至少一项;
该装置还包括:过滤单元,用于根据所述过滤条件对第一统计数据、第三统计数据进行过滤;所述显示单元用于显示过滤条件以及对应的过滤后的第一统计数据、第三统计数据。
20.根据权利要求13-19任一项所述的装置,其特征还在于,所述接收单元还用于接收用户输入的第一标记条件,所述第一标记条件为对文献集的可检索字段的限定条件;该装置还包括:
第一突出显示单元,用于确定第一索引词和/或第二索引词中满足所述第一标记条件的索引词,并对满足所述第一标记条件的索引词进行第一突出显示。
21.根据权利要求20所述的装置,其特征还在于,所述接收单元还用于接收用户输入的第n标记条件,所述第n标记条件为对文献集的可检索字段的限定条件,n为大于1的整数;该装置还包括:
第二突出显示单元,用于确定满足第一标记条件、……或第n-1标记条件的索引词中哪些索引词满足所述第n标记条件,对满足所述第n标记条件的索引词进行第二突出显示;
第三突出显示单元,用于确定不满足第一标记条件、……或第n-1标记条件的索引词中哪些索引词满足所述第n标记条件,对其中满足所述第n标记条件的索引词进行第三突出显示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610509743.0A CN107562753B (zh) | 2016-06-30 | 2016-06-30 | 一种基于索引词的分析方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610509743.0A CN107562753B (zh) | 2016-06-30 | 2016-06-30 | 一种基于索引词的分析方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107562753A true CN107562753A (zh) | 2018-01-09 |
CN107562753B CN107562753B (zh) | 2020-04-17 |
Family
ID=60969525
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610509743.0A Active CN107562753B (zh) | 2016-06-30 | 2016-06-30 | 一种基于索引词的分析方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107562753B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502618A (zh) * | 2018-05-16 | 2019-11-26 | 北京理工大学 | 一种文献大数据的可视化方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101451854A (zh) * | 2007-12-07 | 2009-06-10 | 爱信艾达株式会社 | 检索装置、导航装置以及检索程序 |
US20090259629A1 (en) * | 2008-04-15 | 2009-10-15 | Yahoo! Inc. | Abbreviation handling in web search |
CN101833511A (zh) * | 2010-03-29 | 2010-09-15 | 瑞斯康达科技发展股份有限公司 | 数据管理方法、装置和系统 |
CN102067124A (zh) * | 2008-06-18 | 2011-05-18 | 日立系统解决方案有限公司 | 文档搜索系统 |
CN105320772A (zh) * | 2015-11-02 | 2016-02-10 | 武汉大学 | 一种专利查重的关联论文查询方法 |
-
2016
- 2016-06-30 CN CN201610509743.0A patent/CN107562753B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101451854A (zh) * | 2007-12-07 | 2009-06-10 | 爱信艾达株式会社 | 检索装置、导航装置以及检索程序 |
US20090259629A1 (en) * | 2008-04-15 | 2009-10-15 | Yahoo! Inc. | Abbreviation handling in web search |
CN102067124A (zh) * | 2008-06-18 | 2011-05-18 | 日立系统解决方案有限公司 | 文档搜索系统 |
CN101833511A (zh) * | 2010-03-29 | 2010-09-15 | 瑞斯康达科技发展股份有限公司 | 数据管理方法、装置和系统 |
CN105320772A (zh) * | 2015-11-02 | 2016-02-10 | 武汉大学 | 一种专利查重的关联论文查询方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502618A (zh) * | 2018-05-16 | 2019-11-26 | 北京理工大学 | 一种文献大数据的可视化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107562753B (zh) | 2020-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chadegani et al. | A comparison between two main academic literature collections: Web of Science and Scopus databases | |
Collins et al. | Parallel tag clouds to explore and analyze faceted text corpora | |
Koch et al. | VarifocalReader—in-depth visual analysis of large text documents | |
US9454528B2 (en) | Method and system for creating ordered reading lists from unstructured document sets | |
US20150032728A1 (en) | System and method of generating a set of search results | |
US20140279584A1 (en) | Evaluating Intellectual Property with a Mobile Device | |
KR101566616B1 (ko) | 빅데이터 처리를 통한 광고의사결정시스템 및 방법 | |
KR20180072167A (ko) | 유사특허 추출 시스템 및 그 방법 | |
JP2011154668A (ja) | ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法 | |
EP2506152A1 (en) | Apparatus and method for analyzing research information about a researcher, and computer-readable storage medium for storing computer-executable program for the method | |
WO2006110832A2 (en) | System for extracting relevant data from an intellectual property database | |
CA2895511A1 (en) | Systems and methods for patent-related document analysis and searching | |
CA2710413A1 (en) | Systems, methods, and software for an intellectual property relationship warehouse and monitor | |
EP3147801A1 (en) | System and method for concept-based search summaries | |
CN106599215A (zh) | 一种基于深度学习的问句生成方法和问句生成系统 | |
Schebesta | Content Analysis Software in Legal Research: A Proof of Concept Using ATLAS. ti. | |
US20210149979A1 (en) | System and Method for Accessing and Managing Cognitive Knowledge | |
US20190179839A1 (en) | Methods for evaluating term support in patent-related documents | |
KR101803150B1 (ko) | 빅데이터를 이용한 중요 판례 추출 및 정리 방법 | |
US8881007B2 (en) | Method and system for visual cues to facilitate navigation through an ordered set of documents | |
WO2022150421A1 (en) | Systems and methods for informative graphical search | |
CN107562753A (zh) | 一种基于索引词的分析方法与装置 | |
KR101730883B1 (ko) | 코멘트 데이터의 계층화된 정보를 시각화하는 장치 및 방법 | |
CN107608965A (zh) | 书籍主人公姓名的提取方法、电子设备及存储介质 | |
Liebig et al. | Connecting the Dots in Million-Nodes Knowledge Graphs with SemSpect. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |