CN106294639B - 基于语义的跨语言专利新创性预判分析方法 - Google Patents
基于语义的跨语言专利新创性预判分析方法 Download PDFInfo
- Publication number
- CN106294639B CN106294639B CN201610626873.2A CN201610626873A CN106294639B CN 106294639 B CN106294639 B CN 106294639B CN 201610626873 A CN201610626873 A CN 201610626873A CN 106294639 B CN106294639 B CN 106294639B
- Authority
- CN
- China
- Prior art keywords
- chinese
- english
- keywords
- similarity
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明公开了一种基于语义的跨语言专利新创性预判分析方法,包括:读取维基百科的分类信息,对文章标题、消歧页和重定向页抽取关键词、同义词和相关词,构建跨语言语义网络结构;在待审核的中文专利抽取中文关键词,在跨语言知识库中读取其相关词,并将多个中文关键词及其相关词组合拓展,形成多组中文查询词,并翻译成对应的英文查询词进行检索,得到多篇相似英文文档;抽取英文关键词,作相似度计算,进行新创性预判,采用层次聚类构建树状图,输出最相似的一类英文文档。本发明能够形成跨语言对比策略,将大大提高专利撰写和审查的效率,缩短申报和审批时间,提高申报和审查效率,具有广泛的推广价值。
Description
技术领域
本发明涉及计算机领域中的自然语言处理范畴。更具体地说,本发明涉及一种基于语义的跨语言专利新创性预判分析方法。
背景技术
目前我国发明专利的撰写和审核还是采取人工方式进行,庞大的申报数量给专利撰写和审核人员带来了巨大的工作负荷。特别是实质审查阶段,需要审查员在全世界范围内,查找与待审核专利相同或相近的,并且公开日期在此专利申请日之前的专利文献、论文等一切公开的材料,进行比对,据此做出是否具有新颖性和创造性的判断,进而决定是否给予授权。这个过程首先需要进行相似专利和文献的检索,然后进行同语言和跨语言的内容比对,特别是跨语言的内容比对相对较难。
2003年,日本国立情报学研究所在第三届NTCIR(Research Infrastructure forComparative Evaluation of Information Retrieval and Access Technologies)会议举办了针对日语、韩语、汉语和英文跨语言专利检索研讨会,该会议在专利跨语言检索研究方向起到很大的促进作用;之后的NTCIR-8的专利研讨会中,主要对专利技术功效分析、专利聚类分析和专利质量分析进行了研究;近年来,国内外相继诞生了一些针对企业和用户的专利分析软件,如美国德雷赛尔大学信息科学与技术学院开发的CiteSpace、THOMSON公司软件分析工具Derwent Analyticssm、国家知识产权局知识产权出版社开发的PIAS专利信息分析系统、东方灵盾中外专利检索及战略分析平台和中国科学院专利在线分析系统等。而从发明专利撰写员和审查员的需求角度,开展的发明专利新颖性和创造性(业内简称为新创性,本申报书后续均使用该简称)分析研究未见报道,跨语言专利新创性分析研究更是空白。因此,为了适应日益增长的发明专利撰写和审核需求,我国急需研究智能的相似专利跨语言比对技术,增强专利撰写和审查的准确率并为专利撰写员和审核员的工作提供辅助支持。
跨语言文本相似度计算方法是专利新创新预判中的关键内容,可以归结为两大类方法:一类是把源语言关键短语翻译成目标语言的语句,这样跨语言任务就变成了单语言任务;另外一类是在两种语言之间自动地构建转换空间,然后将词语映射到转换空间来完成相似度计算。第一类可能会存在有些词无法找到译文的问题,第二类需要选用合适的方法构建转换空间。在满足能够获取到新词译文的前提下,构建本体、语义网络等知识库进行相似度计算是需要进一步探索的问题。
发明内容
本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。
本发明还有一个目的是提供一种基于语义的跨语言专利新创性预判分析方法,其能够形成跨语言对比策略将大大提高专利撰写和审查的效率,缩短申报和审批时间,提高申报和审查效率,具有广泛的推广价值。
为了实现根据本发明的这些目的和其它优点,提供了一种基于语义的跨语言专利新创性预判分析方法,包括:
步骤一、构建基于维基百科的跨语言知识库:读取维基百科的分类信息,对文章标题、消歧页和重定向页抽取关键词、同义词和相关词,构建包含类别、文章、关键词词表的跨语言语义网络结构;
步骤二、检索相似英文文档:在待审核的中文专利抽取中文关键词,在跨语言知识库中读取其相关词,并将多个中文关键词及其相关词组合拓展,形成多组中文查询词,并翻译成对应的英文查询词进行检索,得到多篇相似英文专利和相似英文文献;
步骤三、新创性预判:对每一篇英文文档抽取英文关键词,基于矩阵相似度的统计算法,对待审核的中文专利和每一篇英文文档作相似度计算,对待审核的中文专利进行新创性预判,采用层次聚类构建树状图,输出与待审核的中文专利最相似的一类英文文档。
优选的是,所述的基于语义的跨语言专利新创性预判分析方法,对文章标题、消歧页和重定向页抽取关键词、同义词和相关词具体包括:在维基百科中搜索关键词判断是否为消歧页或重定向页,如果为消歧页,抽取同类别的关键词作相关词;如果为重定向页,抽取近义词作相关词;如果不是消歧页或重定向页,抽取词条本身作关键词,并通过词频统计、名称术语、以及上下文特征提取的形式抽取相关词。
优选的是,所述的基于语义的跨语言专利新创性预判分析方法,将多个中文关键词及其相关词组合拓展的具体方式为:将每个中文关键词与其任一相关词两两结合,形成多个中文词对,将至少两个中文词对分别组合,形成多组中文查询词。
优选的是,所述的基于语义的跨语言专利新创性预判分析方法,还包括对抽取的相关词进行贡献度计算,去除贡献度低于预设阈值的相关词,贡献度通过计算概率得到。
优选的是,所述的基于语义的跨语言专利新创性预判分析方法,步骤一中,还包括在维基百科读取关键词对应的英文译词,并存储在跨语言知识库中;
步骤二中,将中文查询词翻译成对应的英文查询词通过自动查询双语词典、Web资源、跨语言知识库中的一种或多种实现。
优选的是,所述的基于语义的跨语言专利新创性预判分析方法,步骤二中,在待审核的中文专利抽取中文关键词是在名称、摘要、权利要求书以及说明书四部分分别抽取,步骤三中,在英文专利抽取英文关键词是在名称、摘要、权利要求书以及说明书四部分分别抽取,在英文文献抽取英文关键词是在名称、摘要两部分抽取;
在英文专利和英文文献抽取英文关键词通过词频统计、名称术语、以及上下文特征提取的形式实现。
优选的是,所述的基于语义的跨语言专利新创性预判分析方法,步骤三中,对待审核的中文专利和每一篇英文文档作相似度计算是根据局部相似度和整体相似度线性加和得到,
计算待审核的中文专利与相似英文专利中名称、摘要、权利要求书以及说明书的局部相似度和全文的整体相似度,以及待审核的中文专利与相似英文文献中名称、摘要的局部相似度和全文的整体相似度;
局部相似度和整体相似度是通过对中文关键词、英文关键词分别构建特征向量,基于矩阵相似度的统计算法得到的。
优选的是,所述的基于语义的跨语言专利新创性预判分析方法,对待审核的中文专利进行新创性预判的具体方法为:
英文专利相似度公式为:
英文文献相似度公式为:
新创性预判公式为:
Ni=1-max(si(n)),对所有的n<i,
其中,Si(n)是第i个中文专利与其他n个相似英文专利或英文科技文献的相似度。
优选的是,所述的基于语义的跨语言专利新创性预判分析方法,步骤三中,在采用层次聚类构建树状图之前还包括:去除相似度低于预设阈值的英文文档,得到近似英文文档集合。
优选的是,所述的基于语义的跨语言专利新创性预判分析方法,步骤三中,采用层次聚类构建树状图具体包括:
将待审核的中文专利与近似英文文档集合,将每一个近似英文文档作为一个类别,构建树状图,计算任意两个类别之间的距离,若k=1,寻找距离最小的两个类别并合并,计算与其他类别之间的距离,并构建新的树状图,至k=n,输出与待审核的中文专利最相似的一类文档。
本发明至少包括以下有益效果:本发明构建构建基于维基百科的跨语言知识库,形成关键词、译文、相关词、文章、类别的映射关系,为后续研究作知识准备,实现跨语言相似专利及文献的检索,基于单语言文本相似度计算的研究成果,从内容和结构上比较中英专利文本的异同,使用适当的新创性度量模型和算法,做出专利是否具有新创性的预判,通过文本聚类把最相似的一类英文专利和文献推荐给专利撰写员或审查员,缩小人工检索范围,辅助专利撰写员和审查员做出最终的新创性判定。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1为本发明的流程示意图;
图2为本发明的中文关键词的选择和拓展示意图;
图3为本发明所述中英文语义网络的示意图;
图4为本发明抽取相关词的示意图;
图5为本发明的相似度计算的流程图;
图6为本发明对相似英文专利的局部比对示意图;
图7为本发明对相似英文文献的局部比对示意图;
图8为本发明层次聚类的流程图;
图9为本发明的框架图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不配出一个或多个其它元件或其组合的存在或添加。
如图1、2、9所示,一种基于语义的跨语言专利新创性预判分析方法,包括:
步骤一、读取维基百科的分类信息,通过在关键词界面、消歧页或重定向页抽取短语,获取词条的至少一个相关词,建立类别、文章、关键词词表之间的映射关系,构建中文语义网络结构;维基百科(Wikipedia)已成为互联网上一个最大的最广泛使用的免费百科全书。它拥有数百万的百科全书解释页面,按照概念分类和语义关系建立了分类索引,在解释页面之间添加了丰富的反映语义关系的引用链接,包含了丰富的中文和英文的语义知识,还能同时查询同义词和近义词,非常适合作为语义网络构建的知识源。根据专利分析的需要,本课题选取维基百科网中的分类图(抽取分类信息)、文章标题(抽取关键词)、页面重定向(抽取同义词)、超链接(抽取语义网络信息)等信息。构建包含分类-文章-关键词词表的层次语义网络结构,如图3所示。
步骤二、在待审核的中文专利的各部分通过词频统计、名称术语、以及上下文特征提取的形式分别抽取至少一个中文关键词,读取每一个中文关键词在跨语言知识库中的相关词,形成多个包括一个中文关键词和相应的中文相关词的集合;中文专利的各部分的划分可采取多种形式,可根据各文件(摘要、权利要求书、说明书)、各段落(每n个自然段)等。对待审核的中文专利,首先要抽取出代表该文档内容的查询词,然后通过多种翻译技术把查询词翻译成英文,最后用英文查询词去图书馆搜索引擎检索出相关的英文专利和相关科技文献。专利与科技文献是由术语、短语组成的,把它们作为最小的单位从文本中抽取出来是进行后续研究的基础。因此,中英文术语、多词短语抽取的准确性会对后续研究产生直接的影响。如图2所示,从众多的中文短语中选出能代表该专利内容的查询词,维基百科网中的文章按照分类进行组织,每个分类下面有多篇文章,每篇文章中都有一个以标题为主要关键词的超链接文本和重定向页面。图3构建的中英文语义网络中,记录每篇文章的所属的分类,并分析其超链接文本和重定向文本,从中提取关键词的相关词。
其中,根据中文关键词的分类确定该中文关键词的惟一分类的方法为:筛选具有惟一分类和至少一个分类的中文关键词,将具有惟一分类的中文关键词词分为第一组,例如,将具有至少一个分类的中文关键词分为第二组,统计第一组分类的总数与各分类的频数,并计算各分类的频率,
对第二组中的中文关键词逐一归类,若任一中文关键词的多个分类落入第一组的分类中,取频率高的分类为该中文关键词的惟一分类,然后将该中文关键词归类至第一组,进行下一个中文关键词的归类。例如,待审核的中文专利是一篇关于苹果手机的专利,第一组的关键词“iphone”落入惟一分类“手机”,“美国华盛顿邮报”落入惟一分类“媒体”,“手机”分类的频率为0.6,“媒体”的分类频率为0.08,此外,第二组的关键词“苹果”对应“手机”“水果”“媒体”三个分类,第一组的分类中仅包括“手机”和“媒体”而不包括“水果”,且“手机”的频率高于“媒体”,则判定“苹果”的惟一分类为“手机”,然后归入第一组,对下一个第二组的关键词进行归类。
步骤三、将每个第一集合中的中文关键词与其任一中文相关词两两结合,每个中文关键词a0对应至少一个中文相关词a1、a2、a3…an等等,形成的中文词对为a0+a1、a0+a2、a0+a3…a0+an,将至少两个第一集合的中文词对a0+a1、a0+a2、a0+a3…a0+an与b0+b1、b0+b2、b0+b3…b0+bn或c0+c1、c0+c2、c0+c3…c0+cn等等分别组合,形成多组中文查询词;
步骤四、将中文查询词采用各种形式的工具翻译成对应的英文查询词,对每一组英文查询词自动放入校图书馆的搜索引擎进行检索,得到多篇相似英文专利和相似英文文献;
步骤五、在每一篇相似英文专利和相似英文文献的各部分分别抽取至少一个英文关键词;英文专利和英文文献的各部分的划分可采取多种形式,可根据各文件(摘要、权利要求书、说明书)、各段落(每n个自然段)等;
步骤六、对待审核的中文专利的中文关键词、任一相似英文专利或相似英文文献的英文关键词分别构建特征向量,基于矩阵相似度的统计算法,计算待审核的中文专利与每一篇相似英文专利、相似英文文献的各部分的,结合单语言文本相似度计算的研究成果,分析中英专利的结构区别,从内容和结构上比较中英专利文本的异同,通过计算一个中文专利与英文专利及英文文献的跨语言相似度来进行量化,相似度越大,区别就越小;
步骤七、取所有相似英文专利、相似英文文献的相似度,对待审核的中文专利进行新创预判,新创指数的高低代表对本篇待审核的中文专利的预判,收集相似度超过预设阈值的相似英文专利或相似英文文献,形成近似英文文档集合;
步骤八、将待审核的中文专利与近似英文文档集合,采用层次聚类构建树状图,并输出与待审核的中文专利最相似的一类文档。在新创性预判的基础上,通过文本聚类把最相似的一类英文专利和文献推荐给专利撰写员或审查员,既能提高效率,又能保证准确率。
其中,所述的基于语义的跨语言专利新创性预判分析方法,如图4所示,对文章标题、消歧页和重定向页抽取关键词、同义词和相关词具体包括:在维基百科中搜索关键词判断是否为消歧页或重定向页,如果为消歧页,抽取同类别的关键词作相关词;如果为重定向页,抽取近义词作相关词;如果不是消歧页或重定向页,抽取词条本身作关键词,并通过词频统计、名称术语、以及上下文特征提取的形式抽取相关词,上下文特征包括:分别读取各段落词条的前后单词,如果前单词或后单词个数不超过1个,抽取作相关词;如果前单词或后单词个数大于1个不超过3个,抽取N-gram特征词作相关词;如果前单词或后单词个数超过3个,抽取前后各3个单词并去除停用词,作相关词。
统计的方法同样是相似度计算的主流方法,使用的特征越多,对性能的提升会有帮助,因此本课题使用多种特征进行相似度计算,特征提取包括:
①本身特征:包括候选关键词本身、词性、命名实体识别;
②语义特征:同义词、相关词、贡献度、所属类别等;
③上下文特征:包括词特征(候选关键词的前三个单词和后三个单词(去除停用词)、N元词(N-Gram)特征(与候选关键词距离不超过3的单词序列中,提取N-gram特征)和位置特征(提取候选关键词前一个单词和后一个单词)。
其中,所述的基于语义的跨语言专利新创性预判分析方法,将多个中文关键词及其相关词组合拓展的具体方式为:将每个中文关键词与其任一相关词两两结合,形成多个中文词对,将至少两个中文词对分别组合,形成多组中文查询词。每个中文关键词a0对应至少一个中文相关词a1、a2、a3…an等等,形成的中文词对为a0+a1、a0+a2、a0+a3…a0+an,将至少两个中文词对a0+a1、a0+a2、a0+a3…a0+an与b0+b1、b0+b2、b0+b3…b0+bn或c0+c1、c0+c2、c0+c3…c0+cn等等分别组合,形成多组中文查询词。
将至少两个中文词对分别组合具体为:当中文关键词的个数≤3个时,将每两个中文词对分别组合;当3<中文关键词的个数≤5个时,将每三个中文词对分别组合;当5<中文关键词的个数≤8个时,将四个中文词对分别组合;当中文关键词的个数>8个时,将五个中文词对分别组合。
例如,当中文关键词的个数为2个时,分别为a0、b0,a0的中文词对为a0+a1、a0+a2,a0+a3,b0的第一集合的中文词对为b0+b1、b0+b2、b0+b3,形成的查询词为[a0+a1、a0+a2、b0+b1、b0+b2]、[a0+a1、a0+a2、b0+b1、b0+b3]、[a0+a1、a0+a2、b0+b2、b0+b3]、[a0+a3、a0+a3、b0+b1、b0+b2]、[a0+a1、a0+a3、b0+b1、b0+b3]、[a0+a1、a0+a3、b0+b2、b0+b3]、[a0+a2、a0+a3、b0+b1、b0+b2]、[a0+a2、a0+a3、b0+b1、b0+b3]、[a0+a2、a0+a3、b0+b2、b0+b3]。
其中,所述的基于语义的跨语言专利新创性预判分析方法,还包括对抽取的相关词进行贡献度计算,去除贡献度低于预设阈值的相关词,贡献度通过计算概率得到。贡献度为一个词条对另一个词条的出现有多大贡献,贡献度通过计算概率得到如表1所示,去除贡献度低于预设阈值的相关词。
表1
中文词条 | 相关词语及贡献度 | 英文词条 | 相关词语及贡献度 | 类别 |
古董 | 考古(0.4),拍卖(0.34) | antique | curios(0.4),americana(0.67) | 艺术 |
手机 | 苹果(0.2),移动(0.75) | cellphone | mobile phone(0.4),call(0.76) | 技术 |
其中,所述的基于语义的跨语言专利新创性预判分析方法,步骤一中,还包括在维基百科读取关键词对应的英文译词,并存储在跨语言知识库中;步骤二中,将中文查询词翻译成对应的英文查询词通过自动查询双语词典、Web资源、跨语言知识库中的一种或多种实现。专利文本是结构化的文本,其组成具有固定的结构形式。虽然中英文专利的内容在结构安排的顺序上略有不同,但不难根据关键词找到相对应的内容。如果根据每个组成部分分别进行中英比对,针对性更强,对新创性预判更加有利;但是,把整个文本分成不同的组成部分,各个组成部分段落较小,对上下文关联的考虑不足。据此,本发明提出局部与整体相结合的比对策略。
其中,所述的基于语义的跨语言专利新创性预判分析方法,步骤二中,在待审核的中文专利抽取中文关键词是在名称、摘要、权利要求书以及说明书四部分分别抽取,步骤三中,在英文专利抽取英文关键词是在名称、摘要、权利要求书以及说明书四部分分别抽取,在英文文献抽取英文关键词是在名称、摘要两部分抽取;
在英文专利和英文文献抽取英文关键词通过词频统计、名称术语、以及上下文特征提取的形式实现。
其中,所述的基于语义的跨语言专利新创性预判分析方法,如图5所示,步骤三中,对待审核的中文专利和每一篇英文文档作相似度计算是根据局部相似度和整体相似度线性加和得到,
计算待审核的中文专利与相似英文专利中名称、摘要、权利要求书以及说明书的局部相似度和全文的整体相似度,以及待审核的中文专利与相似英文文献中名称、摘要的局部相似度和全文的整体相似度;
局部相似度和整体相似度是通过对中文关键词、英文关键词分别构建特征向量,基于矩阵相似度的统计算法得到的。
对于英文专利,如图6所示,局部:把专利文本分成四个组成部份,对每个组成部分各自抽取术语和多词短语,并按中英文本分别存放;整体:把整个文档看成一个整体,进行术语、多词短语抽取,把抽取结果单独存放。局部与整体结合:在进行中英专利、文献比对时,先对局部策略产生的结果进行比对,然后在结合整体抽取的结果进行综合考量。
对于英文文献,如图7所示,没有专利文本中的“Description”(权利说明书)和“Claim”(权利要求书),只有“Title”(标题)和“Abstract”(摘要)与中文专利具有对应关系。
其中,所述的基于语义的跨语言专利新创性预判分析方法,对待审核的中文专利进行新创性预判的具体方法为:
对中文关键词、英文关键词分别构建特征向量,形成N个样本点,生成N×N的相似度矩阵S,相似度公式为:矩阵S中的样本点i和样本点j的相似度dij:
其中,特征向量的维度为n,xik为样本点i特征向量中的第k个特征值,xjk为样本点j特征向量中的第k个特征值;
英文专利相似度公式为:
英文文献相似度公式为:
新创性预判公式为:
Ni=1-max(si(n)),对所有的n<i,
其中,Si(n)是第i个中文专利与其他n个相似英文专利或英文科技文献的相似度。
其中,所述的基于语义的跨语言专利新创性预判分析方法,步骤三中,在采用层次聚类构建树状图之前还包括:去除相似度低于预设阈值的英文文档,得到近似英文文档集合。
其中,所述的基于语义的跨语言专利新创性预判分析方法,对于经过预判具有新创性的中文发明专利,还需要进行人工的验证。为了节省人工审查时间,本发明采用聚类方法把与欲审查专利最相似的一类英文文献推荐给审查员,采用层次聚类模型和算法,使用跨语言语义网络的语义知识,实现跨语言文档的聚类,如图8所示,步骤三中,采用层次聚类构建树状图具体包括:
将待审核的中文专利与近似英文文档集合,将每一个近似英文文档作为一个类别,构建树状图,计算任意两个类别之间的距离,若k=1,寻找距离最小的两个类别并合并,计算与其他类别之间的距离,并构建新的树状图,至k=n,输出与待审核的中文专利最相似的一类文档。
名词解释:
①新创性:对欲授权的发明专利,分析其技术是否原创,是否符合专利法的新颖性和创造性的要求。
②新颖性:对已授权的发明专利,分析其技术是否陈旧,是否值得购买或使用。
本发明从服务于我国专利撰写和审查的需求角度出发,选取了审查过程中较难的跨语言专利检索及新创性审核部分,旨在通过相似专利的跨语言(中-英)智能检索和深度对比分析,给出欲审查的中文发明专利是否具有新创性的预判。因为发明专利的主要内容是文本描述,所以,本发明只做文本对比分析,不包含图片的对比。本发明的主要研究内容包含如下几个方面:
(1)专利语义模型及不同语言描述的专利语义模型的映射与匹配技术研究
专利的新创性判断需要对文本进行深层分析,除了采用常规的词组、词、词性、概率等特征之外,还需使用语义知识,以增强对比分析的准确率。语义因为包含了更深层次的知识,在数据挖掘领域被广泛采用。近年来,互联网日渐成为获取大规模语料的重要途径。维基百科(Wikipedia)已成为互联网上一个最大的最广泛使用的免费百科全书。它拥有数百万的百科全书解释页面,按照概念分类和语义关系建立了分类索引,在解释页面之间添加了丰富的反映语义关系的引用链接,包含了丰富的中文和英文的语义知识,还能同时查询同义词和近义词,非常适合作为语义网络构建的知识源。本发明将建立基于维基百科的跨语言语义知识网络,作为后续研究的知识准备;在此基础上,研究专利的语义模型及不同语言描述的专利语义模型的映射和匹配。
(2)基于专利语义模型的跨语言(中-英)相似专利检索技术研究
专利新创性判断需要与之前的所有相似文献进行比对,首先需要检索出和欲审核的中文专利相似的英文科技文献,检索的准确率和全面性将直接影响新创性判断的正确与否。我们将在建立的跨语言语义网络和专利语义模型的基础上,实现跨语言相似专利及文献的检索。
(3)基于专利语义相似性的跨语言(中-英)专利新创性预判
跨语言专利文本的新创性分析在以往鲜有研究,跨语言专利文本相似度计算也没有直接可参考的文献,我们结合单语言文本相似度计算的研究成果,分析中英专利的结构区别,从内容和结构上比较中英专利文本的异同,使用适当的新创性度量模型和算法,做出专利是否具有新创性的预判。
(4)基于文本聚类的跨语言(中-英)相似专利及文献的推荐
发明专利新创性审核是一个复杂的过程,整个过程还需要人工的参与。智能分析与人工的结合,既能提高效率,又能保证准确率。因此,本发明在新创性预判的基础上,通过文本聚类把最相似的一类英文专利和文献推荐给专利撰写员或审查员,缩小人工检索范围,辅助专利撰写员和审查员做出最终的新创性判定。
这里说明的设备数量和处理规模是用来简化本发明的说明的。对本发明的应用、修改和变化对本领域的技术人员来说是显而易见的。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
Claims (1)
1.一种基于语义的跨语言专利新创性预判分析方法,其特征在于,包括:
步骤一、构建基于维基百科的跨语言知识库:读取维基百科的分类信息,对文章标题、消歧页和重定向页抽取关键词、同义词和相关词,构建包含类别、文章、关键词词表的跨语言语义网络结构;
步骤二、检索相似英文文档:在待审核的中文专利抽取中文关键词,在跨语言知识库中读取其相关词,并将多个中文关键词及其相关词组合拓展,形成多组中文查询词,并翻译成对应的英文查询词进行检索,得到多篇相似英文专利和相似英文文献;
根据中文关键词的分类确定该中文关键词的惟一分类的方法为:筛选具有惟一分类和至少一个分类的中文关键词,将具有惟一分类的中文关键词词分为第一组,将具有至少一个分类的中文关键词分为第二组,统计第一组分类的总数与各分类的频数,并计算各分类的频率,对第二组中的中文关键词逐一归类,若任一中文关键词的多个分类落入第一组的分类中,取频率高的分类为该中文关键词的惟一分类,然后将该中文关键词归类至第一组,进行下一个中文关键词的归类;
将多个中文关键词及其相关词组合拓展的具体方式为:将每个中文关键词与其任一相关词两两结合,形成多个中文词对,将至少两个中文词对分别组合,形成多组中文查询词;
步骤三、新创性预判:对每一篇英文文档抽取英文关键词,基于矩阵相似度的统计算法,对待审核的中文专利和每一篇英文文档作相似度计算,对待审核的中文专利进行新创性预判,采用层次聚类构建树状图,输出与待审核的中文专利最相似的一类英文文档;
对文章标题、消歧页和重定向页抽取关键词、同义词和相关词具体包括:在维基百科中搜索关键词判断是否为消歧页或重定向页,如果为消歧页,抽取同类别的关键词作相关词;如果为重定向页,抽取近义词作相关词;如果不是消歧页或重定向页,抽取词条本身作关键词,并通过词频统计、名称术语、以及上下文特征提取的形式抽取相关词;
还包括对抽取的相关词进行贡献度计算,去除贡献度低于预设阈值的相关词,贡献度通过计算概率得到;
步骤一中,还包括在维基百科读取关键词对应的英文译词,并存储在跨语言知识库中;
步骤二中,将中文查询词翻译成对应的英文查询词通过自动查询双语词典、Web资源、跨语言知识库中的一种或多种实现;
步骤二中,在待审核的中文专利抽取中文关键词是在名称、摘要、权利要求书以及说明书四部分分别抽取,步骤三中,在英文专利抽取英文关键词是在名称、摘要、权利要求书以及说明书四部分分别抽取,在英文文献抽取英文关键词是在名称、摘要两部分抽取;
在英文专利和英文文献抽取英文关键词通过词频统计、名称术语、以及上下文特征提取的形式实现;
步骤三中,对待审核的中文专利和每一篇英文文档作相似度计算是根据局部相似度和整体相似度线性加和得到,
计算待审核的中文专利与相似英文专利中名称、摘要、权利要求书以及说明书的局部相似度和全文的整体相似度,以及待审核的中文专利与相似英文文献中名称、摘要的局部相似度和全文的整体相似度;
局部相似度和整体相似度是通过对中文关键词、英文关键词分别构建特征向量,基于矩阵相似度的统计算法得到的;
对待审核的中文专利进行新创性预判的具体方法为:
英文专利相似度公式为:
英文文献相似度公式为:
新创性预判公式为:
Ni=1-max(si(n)),对所有的n<i,
其中,Si(n)是第i个中文专利与其他n个相似英文专利或英文科技文献的相似度;
步骤三中,在采用层次聚类构建树状图之前还包括:去除相似度低于预设阈值的英文文档,得到近似英文文档集合;
步骤三中,采用层次聚类构建树状图具体包括:
将待审核的中文专利与近似英文文档集合,将每一个近似英文文档作为一个类别,构建树状图,计算任意两个类别之间的距离,若k=1,寻找距离最小的两个类别并合并,计算与其他类别之间的距离,并构建新的树状图,至k=n,输出与待审核的中文专利最相似的一类文档。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610626873.2A CN106294639B (zh) | 2016-08-01 | 2016-08-01 | 基于语义的跨语言专利新创性预判分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610626873.2A CN106294639B (zh) | 2016-08-01 | 2016-08-01 | 基于语义的跨语言专利新创性预判分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106294639A CN106294639A (zh) | 2017-01-04 |
CN106294639B true CN106294639B (zh) | 2020-04-21 |
Family
ID=57664953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610626873.2A Active CN106294639B (zh) | 2016-08-01 | 2016-08-01 | 基于语义的跨语言专利新创性预判分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106294639B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107169124B (zh) * | 2017-05-31 | 2020-10-02 | 上海海笛数字出版科技有限公司 | 一种双语双解词典的查询方法 |
CN108763445B (zh) * | 2018-05-25 | 2019-09-17 | 厦门智融合科技有限公司 | 专利知识库的构建方法、装置、计算机设备和存储介质 |
CN110555198B (zh) * | 2018-05-31 | 2023-05-23 | 北京百度网讯科技有限公司 | 用于生成文章的方法、装置、设备和计算机可读存储介质 |
CN109344224A (zh) * | 2018-09-18 | 2019-02-15 | 江苏润桐数据服务有限公司 | 一种专利检索自动去噪方法和装置 |
CN109408822A (zh) * | 2018-10-30 | 2019-03-01 | 中译语通科技股份有限公司 | 一种跨语言图书相关度分析方法及系统 |
CN109726263B (zh) * | 2018-12-30 | 2021-07-02 | 广西财经学院 | 基于特征词加权关联模式挖掘的跨语言译后混合扩展方法 |
CN111242494B (zh) * | 2019-06-13 | 2023-04-07 | 内蒙古大学 | 一种基于博弈论的专利侵权检测方法及系统 |
CN110457690A (zh) * | 2019-07-26 | 2019-11-15 | 南京邮电大学 | 一种专利创造性的判断方法 |
CN112559734B (zh) * | 2019-09-26 | 2023-10-17 | 中国科学技术信息研究所 | 简报生成方法、装置、电子设备及计算机可读存储介质 |
JP7457531B2 (ja) * | 2020-02-28 | 2024-03-28 | 株式会社Screenホールディングス | 類似度算出装置、類似度算出プログラム、および、類似度算出方法 |
CN111597793B (zh) * | 2020-04-20 | 2023-06-16 | 中山大学 | 基于sao-adv结构的论文创新性的测度方法 |
CN112287217B (zh) * | 2020-10-23 | 2023-08-04 | 平安科技(深圳)有限公司 | 医学文献检索方法、装置、电子设备及存储介质 |
CN115221872B (zh) * | 2021-07-30 | 2023-06-02 | 苏州七星天专利运营管理有限责任公司 | 一种基于近义扩展的词汇扩展方法和系统 |
CN115878760B (zh) * | 2023-02-10 | 2023-05-23 | 北京知呱呱科技服务有限公司 | 一种基于图匹配的跨语种专利检索方法及系统 |
CN116304110B (zh) * | 2023-03-30 | 2023-09-08 | 重庆工业职业技术学院 | 使用英语词汇数据构建知识图谱的工作方法 |
CN117350302B (zh) * | 2023-11-04 | 2024-04-02 | 湖北为华教育科技集团有限公司 | 一种基于语义分析的语言撰写文本纠错方法、系统及人机交互装置 |
CN117493585B (zh) * | 2023-12-29 | 2024-03-22 | 安徽大学 | 一种基于大语言模型的数据检索系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1282934A (zh) * | 1999-07-30 | 2001-02-07 | 松下电器产业株式会社 | 相似字选取和文件检索的方法和系统 |
CN101369279A (zh) * | 2008-09-19 | 2009-02-18 | 江苏大学 | 一种基于计算机检索系统的学术论文相似度的检测方法 |
CN103544326A (zh) * | 2013-11-14 | 2014-01-29 | 上海交通大学 | 基于译文特征与内容的中英文跨语种抄袭识别方法 |
CN104731810A (zh) * | 2013-12-20 | 2015-06-24 | 上海兵飞软件有限公司 | 专利检索相似度排序的方法 |
CN105320772A (zh) * | 2015-11-02 | 2016-02-10 | 武汉大学 | 一种专利查重的关联论文查询方法 |
CN105608079A (zh) * | 2014-11-04 | 2016-05-25 | 上海兵飞软件有限公司 | 一种世界专利检索法 |
CN105630821A (zh) * | 2014-11-04 | 2016-06-01 | 上海兵飞软件有限公司 | 一种针对权利要求的专利快速检索法 |
CN105630822A (zh) * | 2014-11-04 | 2016-06-01 | 上海兵飞软件有限公司 | 一种专利检索相似内容标红法 |
CN105677634A (zh) * | 2015-07-18 | 2016-06-15 | 孙维国 | 一种从学术文献中提取语义相似且语法规范句子的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1174332C (zh) * | 2000-03-10 | 2004-11-03 | 松下电器产业株式会社 | 转换表达方式的方法和装置 |
US8595166B2 (en) * | 2009-09-24 | 2013-11-26 | Pacific Metrics Corporation | System, method, and computer-readable medium for plagiarism detection |
-
2016
- 2016-08-01 CN CN201610626873.2A patent/CN106294639B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1282934A (zh) * | 1999-07-30 | 2001-02-07 | 松下电器产业株式会社 | 相似字选取和文件检索的方法和系统 |
CN101369279A (zh) * | 2008-09-19 | 2009-02-18 | 江苏大学 | 一种基于计算机检索系统的学术论文相似度的检测方法 |
CN103544326A (zh) * | 2013-11-14 | 2014-01-29 | 上海交通大学 | 基于译文特征与内容的中英文跨语种抄袭识别方法 |
CN104731810A (zh) * | 2013-12-20 | 2015-06-24 | 上海兵飞软件有限公司 | 专利检索相似度排序的方法 |
CN105608079A (zh) * | 2014-11-04 | 2016-05-25 | 上海兵飞软件有限公司 | 一种世界专利检索法 |
CN105630821A (zh) * | 2014-11-04 | 2016-06-01 | 上海兵飞软件有限公司 | 一种针对权利要求的专利快速检索法 |
CN105630822A (zh) * | 2014-11-04 | 2016-06-01 | 上海兵飞软件有限公司 | 一种专利检索相似内容标红法 |
CN105677634A (zh) * | 2015-07-18 | 2016-06-15 | 孙维国 | 一种从学术文献中提取语义相似且语法规范句子的方法 |
CN105320772A (zh) * | 2015-11-02 | 2016-02-10 | 武汉大学 | 一种专利查重的关联论文查询方法 |
Non-Patent Citations (1)
Title |
---|
基于译文特征与译文内容的中英文跨语种抄袭识别技术研究;袁松翔;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120715(第7期);论文正文第17-18、22、24-62页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106294639A (zh) | 2017-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106294639B (zh) | 基于语义的跨语言专利新创性预判分析方法 | |
CN107180045B (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
CN108197117B (zh) | 一种基于文档主题结构与语义的中文文本关键词提取方法 | |
US9280535B2 (en) | Natural language querying with cascaded conditional random fields | |
CN109960756B (zh) | 新闻事件信息归纳方法 | |
Manjari et al. | Extractive Text Summarization from Web pages using Selenium and TF-IDF algorithm | |
KR20160060253A (ko) | 자연어 질의 응답 시스템 및 방법 | |
WO2012159558A1 (zh) | 基于语意识别的自然语言处理方法、装置和系统 | |
CN111061828B (zh) | 一种数字图书馆知识检索方法及装置 | |
US20050065920A1 (en) | System and method for similarity searching based on synonym groups | |
CN103678287A (zh) | 一种关键词翻译统一的方法 | |
Jia et al. | A Chinese unknown word recognition method for micro-blog short text based on improved FP-growth | |
Huang et al. | Mining large-scale comparable corpora from Chinese-English news collections | |
Watrin et al. | An N-gram frequency database reference to handle MWE extraction in NLP applications | |
Juan | An effective similarity measurement for FAQ question answering system | |
CN109992647B (zh) | 一种内容搜索方法及装置 | |
CN106776590A (zh) | 一种获取词条译文的方法及系统 | |
TWI446191B (zh) | Word matching and information query method and device | |
Zeng | Exploration and study of multilingual thesauri automation construction for digital libraries in China | |
CN106708808B (zh) | 一种信息挖掘方法及装置 | |
CN116414939B (zh) | 基于多维度数据的文章生成方法 | |
Hellín et al. | A Comparative Study on R Packages for Text Mining | |
Thanadechteemapat et al. | Thai word segmentation for visualization of thai web sites | |
Shannaq | Adapt clustering methods for arabic documents | |
Zhang et al. | Research on domain term dictionary construction based on Chinese Wikipedia |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230407 Address after: 210017 No. 223 Simon Street, Jiangsu, Nanjing Patentee after: JIANGSU ENERGY TECH DEVELOPMENT Co.,Ltd. Address before: No. 99 Jiangning Road, Nanjing District hirokage 211169 cities in Jiangsu Province Patentee before: JINLING INSTITUTE OF TECHNOLOGY |
|
TR01 | Transfer of patent right |