CN107368494A - 一种文献分析方法与系统 - Google Patents

一种文献分析方法与系统 Download PDF

Info

Publication number
CN107368494A
CN107368494A CN201610317915.4A CN201610317915A CN107368494A CN 107368494 A CN107368494 A CN 107368494A CN 201610317915 A CN201610317915 A CN 201610317915A CN 107368494 A CN107368494 A CN 107368494A
Authority
CN
China
Prior art keywords
index terms
index
terms
user
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610317915.4A
Other languages
English (en)
Inventor
裘钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suoyi Interactive Beijing Information Technology Co ltd
Original Assignee
Suoyi Interactive Beijing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suoyi Interactive Beijing Information Technology Co ltd filed Critical Suoyi Interactive Beijing Information Technology Co ltd
Priority to CN201610317915.4A priority Critical patent/CN107368494A/zh
Publication of CN107368494A publication Critical patent/CN107368494A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Abstract

本发明公开了一种文献分析方法及相应的系统,该方法包括:接收用户输入的第一检索条件,根据所述第一检索条件在索引词数据库进行语义检索,生成与所述第一检索条件相匹配的索引词;根据所述索引词以及基于所述索引词的统计数据生成第一索引词列表并进行显示,所显示的索引词是可操作地;根据用户对索引词的操作生成操作后的索引词;基于所述索引词和/或操作后的索引词,在文献数据库进行检索,并记录对应的检索式和第一检索结果。本发明实现了可控性的选择索引词,能够进行主题方面的深入挖掘、拓展和分析,同时能保证用户获取到用户真正想要的展示结果。

Description

一种文献分析方法与系统
技术领域
本发明涉及信息搜索与分析技术领域,尤其涉及一种文献分析方法与系统。
背景技术
目前信息搜索方面,尤其是文献搜索方面,主要有两个检索手段,其中一个检索手段就是将查询请求中的关键词、分类号、申请人等字段与文献的标引字段进行匹配,得到检索结果,这一方面需要对文献进行深加工,尤其是关键词字段的标引需要进行深度开发;一方面需要信息搜索人员对于关键词有很好的扩展能力。这种检索方式要求用户必须输入需要匹配的字段内容。为了改善这种局限性,现有技术还提出了另一种检索手段语义检索,即根据词条向量表以及查询请求生成查询向量,根据词条向量表以及关键词-文档矩阵生成文档向量,计算上述两个向量的相似度来进行语义检索,当然也有通过专家建立庞杂的知识本体库,通过知识本题库自动扩展出关键词,根据输入的关键词以及扩展出的关键词生成概念向量,然后计算概念向量和文档向量的相似度来进行语义检索。
上述检索方式中匹配过程均是由系统自动完成,用户根本无法知道匹配是如何进行的,当然也就无法对匹配过程进行控制,以至于对检索产生的各种噪声无能为力,也无法对检索结果进行各种主题分析。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的文献分析方法以及系统。
接收用户输入的第一检索条件,根据所述第一检索条件在索引词数据库进行语义检索,生成与所述第一检索条件相匹配的索引词;
根据所述索引词生以及基于所述索引词的统计数据成索引词列表;
显示所述索引词列表,其中所显示的索引词是可操作地。
可选的,根据所述索引词生成索引词列表,具体为根据所述索引词和与其对应的文献数量生成索引词列表,其中所述文献数量是根据所述索引词统计得出的。
可选的,根据所述索引词以及基于该索引词的统计数据生成索引词列表,具体为根据所述索引词和与其对应的申请人个数生成索引词列表,其中所述申请人个数是根据所述索引词统计得出的。
可选的,根据所述索引词生成索引词列表,包括:根据语义对索引词进行聚类,按照聚类形成的类别生成索引词列表。
可选的,该方法还包括:
接收用户对所显示的索引词的扩展操作,在索引词数据库进行第二语义检索,生成与扩展操作的索引词相匹配的索引词;
对与扩展操作的索引词相匹配的索引词进行与第一索引词列表相关的去重处理;
根据与扩展操作的索引词相匹配、去重后的索引词生成第二索引词列表并进行显示,其中所述第二索引词列表中的索引词是可操作地。
可选的,该方法还包括:
基于用户输入的第一标记条件,对满足所述第一标记条件的索引词进行第一标记;和/或
基于用户输入的第二标记条件,对所述检索结果中满足所述第二标记条件的文献对应的索引词进行第二标记;
可选的,该方法还包括:
基于用户对所述索引词的选择操作,进行第三标记或者取消标记;或
基于用户对所述索引词的反选操作,进行第四标记;或
基于用户对所选择的索引词的删除动作,删除所选择的索引词。
可选的,该方法在步骤:显示所述索引词列表,之后还包括:
接收用户添加的第二索引词,在索引词列表添加索引词。
可选的,该方法在步骤:显示所述索引词列表,具体为:按照所述索引词与所述第一检索条件的相关度对所述索引词进行排序、显示。
可选的,该方法在步骤:显示所述索引词列表,之后还包括:
对所述索引词按照首字的首字母顺序、尾字的首字母顺序、或者包括索引词的文献数量进行重排序。
可选的,该方法还包括:根据标记的索引词以及对应的文献数量生成可视化地图。
可选的,该方法还包括:根据标记的索引词,构建包含预定字段的检索式;
根据所述检索式进行检索并生成第二检索结果;
控制显示所述第二检索结果;
建立地图上的所述索引词、第一检索结果、第二检索结果与所记录的检索式、包含预定字段的检索式之间的超链接关系。
本发明还提供一种文献分析系统,该系统包括:
输入单元,用于接收用户输入的第一检索条件;
词条语义检索单元,用于根据所述第一检索条件在索引词数据库进行语义检索,生成与所述第一检索条件相匹配的索引词;
索引词列表生成单元,用于根据所述索引词以及基于所述索引词的统计数据生成索引词列表;
显示单元,用于显示所述第一索引词列表;
索引词处理单元,用于对所显示的索引词进行处理所述显示单元适用于显示处理后的索引词。
可选的,所述索引词列表生成单元,用于根据所述索引词和与其对应的文献数量生成索引词列表,其中所述文献数量是根据所述索引词统计得出的。
可选的,所述索引词列表生成单元,用于根据所述索引词和与其对应的申请人个数生成索引词列表,其中所述申请人个数是根据所述索引词统计得出的。
可选的,该系统还包括聚类单元,用于根据语义对索引词进行聚类,所述索引词列表生成单元按照所述聚类形成的类别生成所述索引词列表。
可选的,所述索引词处理单元包括:
词条扩展子单元,用于根据用户操作的一个所述索引词,在索引词数据库进行第二语义检索,生成与用户操作的索引词相匹配的索引词;
去重子单元,用于对与用户操作的索引词相匹配的索引词进行与第一索引词列表相关的去重处理;
第二索引词列表显示单元,用于根据与用户操作的索引词相匹配、去重后的索引词生成第二索引词列表并进行显示,所显示的索引词是可操作地。
可选的,所述索引词处理单元包括:
第一标记单元,用于基于用户输入的第一标记条件,对满足所述第一标记条件的索引词进行第一标记;和/或
第二标记单元,基于用户输入的第二标记条件,对所述检索结果中满足所述第二标记条件的文献对应的索引词进行第二标记。
可选的,所述索引词处理单元包括:
选择子单元,用于基于用户对所述索引词的选择操作,进行第三标记或者取消标记
反选子单元,用于基于用户对已标记索引词的反选操作,进行第四标记;
删除子单元,用于基于用户对所选择的索引词的删除动作,删除所选择的索引词。
可选的,该系统包括索引词添加单元,用于在索引词列表添加索引词。
可选的,所述索引词处理单元包括:排序子单元,用于按照所述索引词与所述第一检索条件的相关度对所述索引词进行排序。
可选的,所述索引词处理单元包括:重排序子单元,用于对所述索引词按照首字的首字母顺序、尾字的首字母顺序、或者包括索引词的文献数量进行重排序。
可选的,该系统包括地图显示控制单元,用于根据标记的索引词以及对应的第一检索结果生成可视化地图。
可选的,所述地图显示控制单元具体包括:
检索式构建子单元,用于根据标记的索引词,构建包含预定字段的检索式;
检索子单元,用于根据所述检索式进行检索并生成第二检索结果;
第二检索结果显示控制子单元,用于控制显示所述第二检索结果;
超链接子单元,用于建立地图上的所述索引词、第一检索结果、第二检索结果与所记录的检索式、包含预定字段的检索式之间的超链接关系。
本申请实施例中提供的技术方案,至少具有如下技术效果或优点:
在本申请实施例中,通过在索引词数据库内对输入的检索词进行语义检索,可向用户展现与该检索词相关联的所有索引词或者主题,以及与每个索引词或者主题相关联的文献数量。用户依此可进行主动选择或者补充索引词或者主题,从而能保证用户最终获得的检索结果是用户真正想要的结果。
在本申请实施例中,通过将任何一个与该检索词相关联的索引词作为第二检索词进行语义检索,可进一步获取与该第二检索词语义关联的索引词以及与该索引词关联的文献数量,用户依此可进行主题方面的深入挖掘、拓展,同时能保证用户进一步获取到用户真正想要的检索结果。
在本申请实施例中,通过在将索引词以及与其对应的检索结果可视化地显示在地图上,地图显示考虑了各个索引词两两之间的相关度,以及包含索引词的预定检索式的检索结果,用户可直观的看到各个不同主题的分布情况以及发展状态(可通过各种不同的检索结果来反映)。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明一个实施例的文献分析方法的流程图;
图2示出了本发明一个实施例的索引词列表;
图3示出了本发明一个实施例的按照关键词对索引词进行了标记的索引词列表;
图4示出了本发明一个实施例按照申请人对索引词进行了标记的索引词列表;
图5示出了本发明一个实施例的利用中文关键词进行语义检索获取的索引词列表;
图6示出了本发明一个实施例的地图;
图7为本发明提出的文献分析系统的结构框图;
图8为本发明一种实施例中索引词处理单元的具体结构框图;
图9为本发明一种实施例中地图显示控制单元的具体结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明提供了一种文献分析方法,如图1所示,该方法主要包括:
S1.接收用户输入的第一检索条件,根据所述第一检索条件在索引词数据库进行语义检索,生成与所述第一检索条件相匹配的索引词;
S2.根据所述索引词以及基于所述索引词的统计数据生成索引词列表;
优选的,根据所述索引词和与其对应的文献数量生成索引词列表,其中所述文献数量是根据所述索引词统计得出的;优选的,根据所述索引词和与其对应的申请人数量生成索引词列表,其中所述文献数量是根据所述索引词统计得出的;也可根据上述文献数量和申请人数量生成索引词列表。
S3.显示所述索引词列表,其中所显示的索引词是可操作地。
本发明通过在索引词数据库内对输入的第一检索条件(优选关键词)进行语义检索,可向用户展现与该关键词相关联的所有索引词或者主题,以及与每个索引词或者主题相关联的文献数量。本发明另辟蹊径,根据第一检索条件(即查询请求)在索引词数据库进行语义检索,将检索得到的索引词进行显示,以与用户互动。本发明通过上述技术手段将传统的检索过程一分为二,以对索引词进行标记、补充或者删除等操作,将检索的过程可控制化,为专业的专利信息分析提供了基础。索引词对应的文献数量的统计分析可通过两种方式来实现,一种是根据文献与所述索引词是否匹配(可利用布尔算法),另一种是根据对文献分词后的分词与所述索引词是否匹配,来统计与所述索引词对应的文献数量。
用户对索引词的操作包括但不限于:1)根据用户对一个所述索引词的扩展操作,在索引词数据库进行第二语义检索,生成与用户扩展操作的索引词相匹配的第二类索引词,继而根据所述第二类索引词生成第二索引词列表;2)基于用户输入的第一标记条件,对满足所述第一标记条件的索引词进行第一标记;3)基于用户输入的第二标记条件,对所述检索结果中满足所述第二标记条件的文献对应的索引词进行第二标记;4)基于用户对所述索引词的选择操作,进行第三标记或者取消标记;5)基于用户对所述索引词的反选操作,进行第四标记;6)基于用户对所选择的索引词的删除动作,删除所选择的索引词;7)接收用户添加的第三类索引词,在索引词列表添加新的索引词。
本发明提供可对索引词操作的各种方式,用户依此可对索引词进行选择标记或者按照所输入的条件进行标记、或者补充索引词或者主题,从而将用户需要的索引词从语义检索结果中剥离出来。这些索引词能够为下一步进行的生成可视化地图数据提供相对准确的数据基础。保证用户最终获得的检索结果是用户真正想要的结果。
作为具体实施方式,接收用户输入的第一检索条件“互联网安全”,在索引词数据库进行语义检索,生成如图2所示的索引词列表,所述索引词列表优选的方式是在索引词的右边显示文献数据库中包含该索引词的文献数量。文献数量可作为索引词是否被标记的因素之一。一般来说,文献数量反映该索引词所代表的主题技术发展的程度,文献数量越大,该主题技术发展越成熟,相反,文献数量越小,该主题技术有可能是新兴技术,还未有充分发展,当然,也可有可能是冷门技术。作为另一种具体实施方式,在索引词列表中的索引词的右边显示文献数据库中包含该索引词的文献对应的申请人数量。申请人数量能够反映一个领域竞争的激烈程度以及技术传播的广度。因此申请人数量是考虑索引词的一个非常重要的因素。
在本发明的一个实施例中,为每个索引词列表中显示的索引词设置选择框,如此任何一个索引词都可以被标记或者删除,比如索引词列表中的“自行协商”主题,不被认为是与互联网安全相关的主题,或者不被认为是需要关注的方面,那么可通过其前面的选择框标记该索引词,然后对其执行删除操作,如图2所示,删除操作按钮可为索引词列表右上方的标记有的按钮。
除了手动标记,本发明还提供限制标记方式,具体如关键词标记方式、申请人途径标记方式、文献数量限制标记方式等。特别需要说明的是,虽然是对索引词标记,但是限制因素除了可以是对索引词的限制,也可以是对索引词对应的具体文献的限制,反过来作为对索引词的限制。作为一种具体实施例,用户可在用于标记(选中)的输入框内,输入对索引词的限定,如图3所示,具体如“网关”,即只标记含有“网关”的索引词,关键词标记方式支持模糊字符。作为另一种具体实施例,如图4所示,用户可在用于标记(选中)的输入框内,输入对申请人的限定“ann/奇智or奇虎”,那么根据此限定只标记其对应有奇虎或者奇智申请人申请的文献所涉及的索引词。通过诸如此类的限制,用户可只获取、关注选定申请人的文献所涉及的索引词对应的专利文献,为用户分析竞争对手所涉及的技术领域提供数据基础。
本申请实施例不仅提出了对索引词进行限制的操作方式,还提出了对索引词进行扩展的方式。比如用户可手动输入索引词,通过添加操作将其添加至索引词列表,只要添加到索引词列表,终端便可自动依据该索引词在预定文献数据库内进行检索并生成检索结果,并将检索结果和所述索引词一同显示在索引词列表中,检索结果为用户提供了进一步操作该索引词的数据基础。另一种方式为扩展索引词列表,即根据第一索引词列表中的某一索引词在索引词数据库进行第二次语义检索以检索到相应的索引词,并生成第二索引词列表等。所述第二索引词列表与第一索引词列表类似,是可操作地。但在进行第二次语义检索获得相应的索引词后系统会自动判断哪些索引词在第一索引词列表已经出现,并去掉重复的索引词,利用不重复的索引词在预定文献数据库进行检索,生成第二检索结果,再依据所述不重复的索引词以及相应的第二检索结果,生成所述第二索引词列表,并进行显示。以此类推,第二索引词列表中的索引词也可被操作,即像第一索引词列表中的索引词一样,可被选择、标记、反选、删除等,也可被用于进一步进行语义检索,再生成第三索引词列表,扩展的次数并不受任何限制。
用户通过上述提供的技术手段对索引词进行标记、删除、扩展,以及在索引词列表中显示检索结果等技术手段可进行索引词所表示的主题方面的甄选、挖掘、拓展,能保证用户进一步获取到用户真正想要的检索结果和以及地图展示结果。
默认地,按照所述索引词与所述第一检索条件的相关度对第一索引词列表、所述第二索引词列表中的索引词进行排序和显示。本发明还提供多种排序方式,比如可对所述索引词按照首字的首字母顺序、尾字的首字母顺序、或者包括索引词的文献数量进行重排序。作为一种具体实施例,如图5所示,通过在索引词列表的右上角设置按钮来对索引词列表中的索引词进行各种不同排序方式的切换,图5下方的索引词列表是按照首字的首字母顺序进行了重排序。
本发明创新性了建立了各种不同数据库的索引词之间的语义关联关系,使得索引词的语义匹配不受文献数据库的语言限制。如图6所示,在检索词为中文时,如果用户预先选择的数据库为外文文献数据库,那么在进行语义检索时,索引词列表会列出外文索引词。
上述内容非常详尽地说明了索引词的标记以及扩展、排序方面的内容,相信本领域技术人员根据上述内容已经能够知晓如何实施。那么接下来,具体说明用户如何直观地看到索引词背后的文献情况,以及各个索引词所代表的主题之间的相关联程度,每个索引词背后的文献的申请人状况以及具体申请量状况等。因此,本发明提供的文献分析方法还包括:根据标记的索引词以及对应的检索结果生成可视化地图。在所述可视化地图中,根据索引词两两之间的相关度确定索引词之间的距离,根据索引词背后的文献数量确定显示的颜色,从某种程度上,索引词之间的相关度能够反映出不同技术主题之间的亲疏关系,文件数量能够反映出一个技术主题的发展程度,从而使得地图能够直观地表达出不同主题的技术布局脉路和技术发展状况。
为了在地图上显示更丰富的信息以及使地图能够活动起来,作为一种实施方式,本发明提出的文献分析方法还包括:根据标记的索引词,构建包含预定字段的检索式,在此暂将这种检索式称为第四检索式,以与其他的检索式相区别。根据所述检索式进行检索并生成第四检索结果;在地图上控制显示所述第四检索结果;作为另一种实施方式,根据标记的索引词,进行预定项目的统计分析;在地图上控制显示统计分析结果,并根据所述统计分析结果生成检索式,在此暂将这种检索式称为第五检索式,以与其他的检索式相区别。上述两种实施方式也单独实施,也可同时实施,第四检索结果和统计分析结果在地图上可通过柱状图、圆饼图等图形的方式进行显示,由此很大程度上丰富了地图显示的内容。本发明突破性地建立地图上的所述索引词、第一检索结果、第二检索结果、第三检索结果、统计分析结果与所记录的检索式、包含预定字段的检索式、第三检索式之间的超链接关系,从而将地图上的直观显示结果和各种检索式对应的文献数据库中的具体文献集建立起链接关系,从而地图不仅能够显示丰富的直观信息,而且能通过超链接关系直接运行对应检索式,从而与检索结果对应的文献集直接关联,从而使得地图上各种量化的数字以及具体名称均有具体的文献集进行支撑,这对于准确的数据分析提供了巨大支撑。作为一个具体实施例,构建预定检索式以获取和每个索引词相关的近三年申请量最大的前四位申请人及其对应的申请量,构建检索式以获取和每个索引词相关的近10年的申请量。其中在地图上通过柱状图和文字相结合的方式动态显示近三年居前四位的申请人以及其分别的申请量,在地图上通过柱状图动态显示和每个索引词相关的近10年的申请量。如图6所示,获取近三年有关索引词“互联网安全”的专利申请中申请量居前四位的申请人各自的申请量。发现“奇智软件”居首位,那么通过激活申请人“奇智软件”,便可直接激活检索式n/"互联网安全"and ann/"奇智软件"and db/4的运行检索进程,获取其在近3年申请的专利文献集。本发明不仅仅停留在获取的统计分析结果以及检索结果数量上,而是利用一张地图把无数的可用于分析的检索式贯穿起来了。
不仅索引词列表上的索引词可以进一步扩展,地图上的索引词可被激活,以直接生成以所激活的索引词所代表的主题为中心的地图,具体方法可为:在索引词数据库内执行语义检索;获取语义相匹配的第三索引词,然后根据所述第三索引词在预定文献进行检索;根据所述第三索引词以及对应的检索结果,生成第二地图。从而在观看分析一张地图时,对于关注的主题,可进一步直接生成地图,对与其相关的主题和检索结果进行深度分析。
本发明还提供一种文献分析系统,如图7所示,该系统包括:
输入单元10,用于接收用户输入的第一检索条件;
词条语义检索单元20,用于根据所述第一检索条件在索引词数据库进行语义检索,生成与所述第一检索条件相匹配的索引词;
索引词列表生成单元30,用于根据所述索引词以及基于所述索引词的统计数据生成索引词列表,显示单元40,用于显示所述第一索引词列表;
优选的,用于根据所述索引词和与其对应的文献数量生成索引词列表,其中所述文献数量是根据所述索引词统计得出的;如此,用户通过所述索引词列表便可直观地看到索引词对应的文献数量,从而可确定索引词是对应热门技术,还是冷门技术,是充分发展技术,还是新兴技术,是普遍使用技术术语,还是个别使用等等。
作为另一种优选的实施方式,在索引词列表中的索引词的右边显示文献数据库中包含该索引词的文献对应的申请人数量。申请人数量能够反映一个领域竞争的激烈程度以及技术传播的广度。因此申请人数量是考虑索引词的一个非常重要的因素。
索引词处理单元50,用于对所显示的索引词进行处理。所述文献分析系统利用相互交互的用户终端和服务器交互实现,在具体实现时,可通过在用户端安装客户端程序来实现,也可通过浏览器实现,当然也不限制于此,只要是能够实现本发明所提出的方法的装置、系统均属于本发明的范畴内。
为了对用户特别关注的索引词进行进一步语义检索,以拓展索引词的范围,如图8所示,所述索引词处理单元50包括:
第二词条检索子单元501,用于根据用户操作的一个所述索引词,在索引词数据库进行第二语义检索,生成与用户操作的索引词相匹配的索引词;
去重子单元502,用于对与用户操作的索引词相匹配的索引词进行与第一索引词列表相关的去重处理;
第二索引词列表显示子单元503,用于根据与用户操作的索引词相匹配、去重后的索引词生成第二索引词列表并进行显示,所显示的索引词是可操作地。
本发明提供对索引词进行标记的手段,在实际分析文献的过程中,总会用户特别关注的方面,或者特别不关注的方面,为了去除噪声,保留有用的索引词,所述索引词处理单元包括50:
第一标记子单元505,用于基于用户输入的第一标记条件,对满足所述第一标记条件的索引词进行第一标记;和/或
第二标记子单元506,基于用户输入的第二标记条件,对所述检索结果中满足所述第二标记条件的文献对应的索引词进行第二标记。
所述索引词处理单元50还可包括:
选择子单元507,用于基于用户对所述索引词的选择操作,进行第三标记或者取消标记;和/或
反选子单元508,用于基于用户对已标记索引词的反选操作,进行第四标记;和/或
删除子单元509,基于用户对所选择的索引词的删除动作,删除所选择的索引词。
该索引词处理单元50还可包括索引词添加单元510,用于在索引词列表添加索引词,以借助用户经验进行索引词的补充、拓展和完善。
本发明为索引词的显示提供默认排序方式和多种其他排序方式,方便用户对索引词进行标记、分析。所述索引词处理单元50包括:排序单元(图中未示出),用于按照所述索引词与所述第一检索条件的相关度对所述索引词进行排序。所述索引词处理单元50还可包括:重排序单元511,用于对所述索引词按照首字的首字母顺序、尾字的首字母顺序、或者包括索引词的文献数量进行重排序。
优选的,所述索引词列表显示单元将所述索引词和与其对应的检索结果一同在索引词列表中显示。
该系统可地图显示控制单元60,用于根据标记的索引词以及对应的第一检索结果生成可视化地图。
如图9所示,所述地图显示控制单元60具体包括:
检索式构建子单元601,用于根据标记的索引词,构建包含预定字段的检索式;
检索子单元602,用于根据所述包含预定字段的检索式进行检索并生成第二检索结果;
第二检索结果显示控制子单元603,用于控制显示所述第二检索结果;
超链接子单元604,用于建立地图上的所述索引词、第一检索结果、第二检索结果与所记录的检索式、包含预定字段的检索式之间的超链接关系。
本申请实施例中提供的技术方案,至少具有如下技术效果或优点:
在本申请实施例中,通过在索引词数据库内对输入的检索词进行语义检索,可向用户展现与该检索词相关联的所有索引词或者主题,以及与每个索引词或者主题相关联的文献数量。用户依此可进行主动选择或者补充索引词或者主题,从而能保证用户最终获得的检索结果是用户真正想要的结果。
在本申请实施例中,通过将任何一个与该检索词相关联的索引词作为第二检索词进行语义检索,可进一步获取与该第二检索词语义关联的索引词以及与该索引词关联的文献数量,用户依此可进行主题方面的深入挖掘、拓展,同时能保证用户进一步获取到用户真正想要的检索结果。
在本申请实施例中,通过在将索引词以及与其对应的检索结果可视化地显示在地图上,地图显示考虑了各个索引词两两之间的相关度,以及包含索引词的预定检索式的检索结果,用户可直观的看到各个不同主题的分布情况以及发展状态(可通过各种不同的检索结果来反映)。
由于本实施例所介绍的文献分析系统为实施本申请实施例中文献分析的方法所采用的装置,故而基于本申请实施例中所介绍的方法,本领域所属技术人员能够了解本实施例的文献分析系统的具体实施方式以及其各种变化形式,所以在此对于该文献分析系统如何实现本申请实施例中的文献分析方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中文献分析的方法所采用的装置、系统,都属于本申请所欲保护的范围。
在此提供的分析方法和具体的检索、显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。本领域那些技术人员可以理解,可以对实施例中的系统中的单元进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的单元组合成一个模块或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个单元部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网关、代理服务器、系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (24)

1.一种文献分析方法,其特征在于,该方法包括:
接收用户输入的第一检索条件,根据所述第一检索条件在索引词数据库进行语义检索,生成与所述第一检索条件相匹配的索引词;
根据所述索引词以及基于该索引词的统计数据生成索引词列表;
显示所述索引词列表,其中所显示的索引词是可操作地。
2.根据权利要求1所述的方法,其特征还在于,根据所述索引词以及基于该索引词的统计数据生成索引词列表,包括:根据所述索引词和与其对应的文献数量生成索引词列表,其中所述文献数量是根据所述索引词统计得出的。
3.根据权利要求1或2所述的方法,其特征还在于,根据所述索引词以及基于该索引词的统计数据生成索引词列表,包括:根据所述索引词和与其对应的申请人个数生成索引词列表,其中所述申请人个数是根据所述索引词统计得出的。
4.根据权利要求1-3任一项所述的方法,其特征还在于,根据所述索引词以及基于该索引词的统计数据生成索引词列表,包括:根据语义对索引词进行聚类,按照聚类形成的类别生成索引词列表。
5.根据权利要求1-4任一项所述的方法,该方法还包括:
接收用户对所显示的索引词的扩展操作,在索引词数据库进行第二语义检索,生成与扩展操作的索引词相匹配的索引词;
对与扩展操作的索引词相匹配的索引词进行与第一索引词列表相关的去重处理;
根据与扩展操作的索引词相匹配、去重后的索引词生成第二索引词列表并进行显示,其中所述第二索引词列表中的索引词是可操作地。
6.根据权利要求1-5任一项所述的方法,其特征在于,该方法还包括:
基于用户输入的第一标记条件,对满足所述第一标记条件的索引词进行第 一标记;和/或
基于用户输入的第二标记条件,对所述检索结果中满足所述第二标记条件的文献对应的索引词进行第二标记。
7.根据权利要求1-6任一项所述的方法,其特征在于,该方法还包括:
基于用户对所述索引词的选择操作,进行第三标记或者取消标记;或
基于用户对所述索引词的反选操作,进行第四标记;或
基于用户对所选择的索引词的删除动作,删除所选择的索引词。
8.根据权利要求1-7任一项所述的方法,其特征在于,该方法在步骤:显示所述索引词列表,之后还包括:
接收用户添加的第二索引词,在索引词列表添加索引词。
9.根据权利要求1-8任一项所述的方法,其特征在于,该方法在步骤:显示所述索引词列表,具体为:按照所述索引词与所述第一检索条件的相关度对所述索引词进行排序、显示。
10.根据权利要求1-9任一项所述的方法,其特征在于,该方法在步骤:显示所述索引词列表,之后还包括:
对所述索引词按照首字的首字母顺序、尾字的首字母顺序、或者包括索引词的文献数量进行重排序。
11.根据权利要求1-10任一项所述的方法,其特征还在于,该方法还包括:根据标记的索引词以及对应的文献数量生成可视化地图。
12.根据权利要求11所述的方法,其特征还在于,该方法还包括:根据标记的索引词,构建包含预定字段的检索式;
根据所述检索式进行检索并生成第二检索结果;
控制显示所述第二检索结果;
建立地图上的所述索引词、第一检索结果、第二检索结果与所记录的检索式、包含预定字段的检索式之间的超链接关系。
13.一种文献分析系统,其特征在于,该系统包括:
输入单元,用于接收用户输入的第一检索条件;
词条语义检索单元,用于根据所述第一检索条件在索引词数据库进行语义检索,生成与所述第一检索条件相匹配的索引词;
索引词列表生成单元,用于根据所述索引词以及基于该索引词的统计数据生成索引词列表;
显示单元,用于显示所述第一索引词列表;
索引词处理单元,用于对所显示的索引词进行处理所述显示单元适用于显示处理后的索引词。
14.根据权利要求13所述的文献分析系统,所述索引词列表生成单元,用于根据所述索引词和与其对应的文献数量生成索引词列表,其中所述文献数量是根据所述索引词统计得出的。
15.根据权利要求13或14所述的文献分析系统,所述索引词列表生成单元,用于根据所述索引词和与其对应的申请人个数生成索引词列表,其中所述申请人个数是根据所述索引词统计得出的。
16.根据权利要求13-15任一项所述的文献分析系统,其特征还在于,该系统还包括聚类单元,用于根据语义对索引词进行聚类,所述索引词列表生成单元按照所述聚类形成的类别生成所述索引词列表。
17.根据权利要求13-16任一项所述的系统,其特征还在于,所述索引词处理单元包括:
词条扩展子单元,用于根据用户操作的一个所述索引词,在索引词数据库进行第二语义检索,生成与用户操作的索引词相匹配的索引词;
去重子单元,用于对与用户操作的索引词相匹配的索引词进行与第一索引词列表相关的去重处理;
第二索引词列表显示单元,用于根据与用户操作的索引词相匹配、去重后的索引词生成第二索引词列表并进行显示,所显示的索引词是可操作地。
18.根据权利要求13-17任一项所述的系统,其特征还在于,所述索引词 处理单元包括:
第一标记单元,用于基于用户输入的第一标记条件,对满足所述第一标记条件的索引词进行第一标记;和/或
第二标记单元,基于用户输入的第二标记条件,对所述检索结果中满足所述第二标记条件的文献对应的索引词进行第二标记。
19.根据权利要求13-18任一项所述的方法,其特征在于,所述索引词处理单元包括:
选择子单元,用于基于用户对所述索引词的选择操作,进行第三标记或者取消标记
反选子单元,用于基于用户对已标记索引词的反选操作,进行第四标记;
删除子单元,用于基于用户对所选择的索引词的删除动作,删除所选择的索引词。
20.根据权利要求13-19任一项所述的系统,其特征在于,该系统包括索引词添加单元,用于在索引词列表添加索引词。
21.根据权利要求13-20任一项所述的系统,其特征在于,所述索引词处理单元包括:排序子单元,用于按照所述索引词与所述第一检索条件的相关度对所述索引词进行排序。
22.根据权利要求13-21任一项所述的系统,其特征在于,所述索引词处理单元包括:重排序子单元,用于对所述索引词按照首字的首字母顺序、尾字的首字母顺序、或者包括索引词的文献数量进行重排序。
23.根据权利要求13-22任一项所述的系统,其特征还在于,该系统包括地图显示控制单元,用于根据标记的索引词以及对应的第一检索结果生成可视化地图。
24.根据权利要求23所述的系统,其特征还在于,所述地图显示控制单元具体包括:
检索式构建子单元,用于根据标记的索引词,构建包含预定字段的检索式;
检索子单元,用于根据所述检索式进行检索并生成第二检索结果;
第二检索结果显示控制子单元,用于控制显示所述第二检索结果;
超链接子单元,用于建立地图上的所述索引词、第一检索结果、第二检索结果与所记录的检索式、包含预定字段的检索式之间的超链接关系。
CN201610317915.4A 2016-05-12 2016-05-12 一种文献分析方法与系统 Pending CN107368494A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610317915.4A CN107368494A (zh) 2016-05-12 2016-05-12 一种文献分析方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610317915.4A CN107368494A (zh) 2016-05-12 2016-05-12 一种文献分析方法与系统

Publications (1)

Publication Number Publication Date
CN107368494A true CN107368494A (zh) 2017-11-21

Family

ID=60304101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610317915.4A Pending CN107368494A (zh) 2016-05-12 2016-05-12 一种文献分析方法与系统

Country Status (1)

Country Link
CN (1) CN107368494A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220867A (zh) * 2021-05-07 2021-08-06 湖南通远网络股份有限公司 一种基于人工智能的全平台文献自动检索系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021851A (zh) * 2006-02-14 2007-08-22 富士施乐株式会社 文本检索装置、检索方法、记录文本检索程序的记录介质
CN101208694A (zh) * 2005-04-25 2008-06-25 株式会社Ipb 信息解析报告书自动生成装置、信息解析报告书自动生成程序以及信息解析报告书自动生成方法
CN101246492A (zh) * 2008-02-26 2008-08-20 华中科技大学 基于自然语言的全文检索系统
CN101251854A (zh) * 2008-03-19 2008-08-27 深圳先进技术研究院 一种生成检索词条的方法及数据检索方法和系统
CN104636468A (zh) * 2015-02-10 2015-05-20 广州供电局有限公司 数据查询分析方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101208694A (zh) * 2005-04-25 2008-06-25 株式会社Ipb 信息解析报告书自动生成装置、信息解析报告书自动生成程序以及信息解析报告书自动生成方法
CN101021851A (zh) * 2006-02-14 2007-08-22 富士施乐株式会社 文本检索装置、检索方法、记录文本检索程序的记录介质
CN101246492A (zh) * 2008-02-26 2008-08-20 华中科技大学 基于自然语言的全文检索系统
CN101251854A (zh) * 2008-03-19 2008-08-27 深圳先进技术研究院 一种生成检索词条的方法及数据检索方法和系统
CN104636468A (zh) * 2015-02-10 2015-05-20 广州供电局有限公司 数据查询分析方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
白光清: "《专利审查研究 第6辑》", 30 April 2015, 知识产权出版社 *
赵蕴华: "《服务于科技创新的专利分析实践与案例》", 31 August 2015, 科学技术文献出版社 *
陈仲伯: "《专利信息分析利用与创新》", 31 July 2012, 知识产权出版社 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220867A (zh) * 2021-05-07 2021-08-06 湖南通远网络股份有限公司 一种基于人工智能的全平台文献自动检索系统

Similar Documents

Publication Publication Date Title
JP6480925B2 (ja) 識別されたエンティティーに基づく属性値の取り出し
JP6680763B2 (ja) 結果文書セットに関する推定関連性指示子を表示するため及びクエリ可視化を表示するためのシステム及び方法
JP6448207B2 (ja) ビジュアル検索の構築、文書のトリアージおよびカバレッジの追跡
US9009162B1 (en) Method for search disambiguation using hashtags having context data associated therewith
US9444706B2 (en) Bringing attention to an activity
JP2019514124A (ja) 視覚化可能な結果リストを提供するシステム及び方法
KR20130009987A (ko) 친구의 상태를 표시하는 방법, 시스템 및 컴퓨터 기록매체
WO2007027644A2 (en) Internet search engine with browser tools
WO2011088521A2 (en) Improved searching using semantic keys
US20120317141A1 (en) System and method for ordering of semantic sub-keys
EP2354975A1 (en) Automatic association of informational entities
US20160335358A1 (en) Processing search queries and generating a search result page including search object related information
WO2015198112A1 (en) Processing search queries and generating a search result page including search object related information
JP2012198710A (ja) カテゴリ分類処理装置、カテゴリ分類処理方法、カテゴリ分類処理プログラム記録媒体、カテゴリ分類処理システム
Itoh et al. Visualization for changes in relationships between historical figures in chronicles
CN107368494A (zh) 一种文献分析方法与系统
KR102317634B1 (ko) 지식 그래프 기반 정보 검색 시스템 및 정보 검색 방법
US20160335365A1 (en) Processing search queries and generating a search result page including search object information
US10963476B2 (en) Searching and visualizing data for a network search based on relationships within the data
KR100718745B1 (ko) 텍스트 마이닝을 이용한 특허 검색 시스템 및 그 방법
TWI582624B (zh) 用於感知情境並推薦資訊之電子計算裝置、其方法及其電腦程式產品
JP2009199576A (ja) 文書解析支援装置、文書解析支援方法、プログラム及び記録媒体
WO2015198115A1 (en) Method of and a system for determining linked objects
Teague-Rector et al. Designing search: effective search interfaces for academic library web sites
Ahn et al. Analyzing user behavior patterns in adaptive exploratory search systems with lifeflow

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171121

RJ01 Rejection of invention patent application after publication