CN107247780A - 一种基于知识本体的专利文献相似性度量方法 - Google Patents

一种基于知识本体的专利文献相似性度量方法 Download PDF

Info

Publication number
CN107247780A
CN107247780A CN201710436963.XA CN201710436963A CN107247780A CN 107247780 A CN107247780 A CN 107247780A CN 201710436963 A CN201710436963 A CN 201710436963A CN 107247780 A CN107247780 A CN 107247780A
Authority
CN
China
Prior art keywords
keyword
word
patent document
weight
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710436963.XA
Other languages
English (en)
Inventor
李建宏
张华平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201710436963.XA priority Critical patent/CN107247780A/zh
Publication of CN107247780A publication Critical patent/CN107247780A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于知识本体的专利文献相似性度量方法,涉及面向专利文本的自然语言信息处理技术领域;该方法依据专利文献结构特点、位置特征和关键词特征提取核心技术方案;构建专利分类号主题词词间关系模型;根据分类号主题词词间关系模型构建领域词典并以之对核心技术方案分词和去停用词;主题词词间关系结合以TF‑IDF作为TextRank词初始权重提取关键词和权重;训练FastText模型,生成词向量;根据关键词、词权重和词向量,计算EMD距离,得出语义距离。对比现有技术,本发明解决了传统专利文献相似性度量方法未充分考虑专利文本结构特点,领域特点,词间关系特点及语义近似表述不一致导致的相似度低的问题。

Description

一种基于知识本体的专利文献相似性度量方法
技术领域
本发明公开了一种基于知识本体的专利文献相似性度量方法及使用该方法的专利文献主题词语义检索系统,涉及面向专利文本的自然语言信息处理技术领域。
背景技术
现今的社会是一个信息型社会,海量的数据在社会的各个领域产生,如何能从海量数据中挖掘出有价值的信息一直是学术界研究的热点。专利作为一种特殊的信息战略资源,是国家战略资源的发展一个重要的组成部分。
专利信息记载着人类社会发明创造的成就,其将技术性、法律性和经济性集合于一体,是当代社会中最重要的技术知识宝库。专利具有新颖性,创造性和实用性的特点,随着世界经济和技术的竞争越来越激烈,专利因其作为国家科技创新成果的重要表现形式和载体,具有非常高的知识含量,成为推动现代社会进步和经济技术发展的重要杠杆。
专利检索是专利行业中最常用的工具,包括专利申请人、审查员以及从事专利运营活动的相关企业都会用到,能否将最相关的专利从数千万的文献中检索出来是衡量一个专利检索工具的重要因素。
目前比较常见的专利文献检索方式主要有:传统的基于布尔逻辑的检索技术,需要制定合适的检索策略,编写复杂的检索式,检索效率较低,如soopat专利搜索引擎;比较流行的基于概念的相似度计算,主要包括向量空间模型(Vector Space Model,VSM)和概率模型(Probabilistic Model),基于统计分析词共现信息,完成检索关键词的语义扩展,如国家知识产权局专利检索与服务系统中的语义检索模块。但是,上述两种方式在检索过程中,均未充分考虑专利文献本身数据的特点,造成查全和查准率低,检索不方便等问题。
发明内容
本发明的主要目的是提供一种基于知识本体的专利文献相似性度量方法及使用该方法的专利文献关键词语义检索系统,在基于传统的基于概念的检索方法的基础上,进一步挖掘专利文本的数据特点,提高专利文献表示的全面性、深入性和准确性,同时通过相关手段,进一步提高专利文献相似性或者相关性计算的准确率。
本发明的目的是通过以下技术方案实现的:
一种基于知识本体的专利文献相似性度量方法,包括以下步骤:
步骤一,根据专利文献结构特点、位置特征和关键词特征,从专利全文文本中提取核心技术方案信息;
作为优选,所述核心技术方案信息包括标题,分类号,发明解决的技术问题,达到的有益效果,技术方案应用的领域,权利要求中的发明内容。
作为优选,所述专利全文文本为XML格式,符合国家知识产权局公布的CN-TXTS-10-A数据编码规范,包括著录项目、摘要、权利要求书、说明书、说明书附图和索引信息。
步骤二,构建专利文献分类号主题词词间关系模型;
基于专利文献数据集,人工提取每篇专利文献的主题词和分类号,建立分类号与主题词联系,同时结合主题词的语义信息和领域表达方式特点,建立主题词之间的相关关系:上、下位关系,同义关系和近义关系。利用分类号主题词之间的联系以及主题词相互间的关系,构建分类号主题词词间关系模型。
作为优选,所述主题词词间关系模型为一个有向图结构,图的结点为主题词,主题词的属性包括分类号、该主题词的同义词和近义词,如果主题词之间存在直接上、下位关系,则有一条连接两个词的有向边,起点为下位词,终点为上位词,权重为常量w,大小介于0到1之间,本方案中w的值为0.8。
步骤三,基于步骤二构建的分类号主题词词间关系模型生成领域词典,使用领域词典对核心技术方案信息的文本分词,使用停用词库对分词结果去停用词,得到语料文本;
其中,由分类号主题词关系模型得出领域词典,领域信息由分类号唯一决定,不同的分类号划分为不同的领域,根据核心技术方案的分类号,采用对应的领域词典分词。停用词库由常见的限定词、介词或副词等无实际检索意义的词组成,通过去停用词节省存储空间和提高检索效率。
步骤四,使用关键词提取工具,提取步骤三中得到的语料文本中的关键词及其权重;
作为优选,所述关键词提取方法为:首先,训练语料文本的TF-IDF模型,然后,使用TextRank方法提取关键词及词权重,其中词初始权重为其TF-IDF值,TextRank方法中迭代次数范围为5-20。
步骤五,基于步骤四得到的关键词,提取经过训练的词向量模型中对应的词向量;
作为优选,经过训练的词向量模型为使用词嵌入工具对专利文献数据集训练而得。
作为优选,所述词嵌入工具为Word2Vec或FastText。
训练词向量的实施步骤为:针对专利文献数据集中的每一篇专利文本,结合上述步骤一中的方法得出核心技术方案信息;利用上述步骤三中的方法处理核心技术方案信息,得到分词和去停用词后的结果,最终每篇专利文本处理成以空格分割的连续若干词;使用词嵌入工具,将处理的结果作为输入,即可训练出词向量模型,在词向量模型中,每个词被量化为一个向量,向量的维度一般50-100,本方案中向量维度为100。
步骤六,基于步骤四和步骤五得到的关键词,词权重和词向量信息,得出该专利文献的量化表示其中pi为第i个关键词,为pi的词权重,为pi的词向量;1≤i≤n,n为关键词的总数量;
步骤七,使用EMD(Earth Moving Distance)工具,计算不同专利文献的量化表示之间的距离,关键EMD距离越小,语义越近似。
作为优选,所述使用EMD计算不同专利文献的量化表示之间的距离的步骤为:
步骤7-1,存在专利文献di和dj的量化表示结果为特征词集合setp,setp为di和dj中关键词的并集;
步骤7-2,由di、dj和setp,将专利文献di和dj的量化表示结果转变为其中p'i和p'j为setp中的元素,如果di中存在p'i,则否则为0,如果dj中存在p'j,则否则为0;
步骤7-3,由d'i、d'j和setp构造特征距离矩阵{mij},其中 为向量之间的余弦值;
步骤7-4,根据d'i,d'j和{mij},使用EMD工具计算d'i和d'j之间的特征分布距离,该特征分布距离即EMD距离。
有益效果
本发明在基于传统的基于概念的检索方法的基础上,通过进一步挖掘专利文本的数据特点:引入位置特征和关键词相似度特征,提取专利核心技术方案;构建专利分类号主题词模型,丰富技术主题关键词的语义信息和领域信息;将专利文本量化表示为由关键词、词权重和词向量为元组信息的集合,通过使用EMD工具来计算文本量化结果之间的距离,进一步得出专利文献的相似度,提高了专利文献表示的全面性、深入性和准确性,提高了专利数据的检索结果的准确度和相关度。
此外,本发明提供的语义相似主题词推荐功能,可以帮助用户在检索过程中及时调整搜索关键词,加快检索速度;命中结果集分类号分布信息,可以帮助确定搜索文本的分类号信息,对专利分类员分类业务起到帮助作用。
附图说明
图1为本发明实施例一种基于知识本体的专利文献相似性度量方法流程示意图;
图2为专利文献结构图提取准确度示意图;
图3为分类号主题词模型示意图;
图4为专利文献关键词语义检索结果示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。
实施例1
如图1所示为一种基于知识本体的专利文献相似性度量方法的流程示意图,该方法包括以下步骤:
步骤1),根据专利文献结构特点、位置特征和关键词特征提取核心技术方案信息;
此处,专利文献结构特点为专利文献说明书的类目与其XML文件标签之间的对应关系;位置特征为提取核心技术方案信息所在的文档中的段落信息,如发明内容第一段,关键词特征为提取核心技术方案信息类目的特殊描述词语,如优化、改进、解决等。
众所周知,《中华人民共各国专利法》规定:申请发明或者实用新型专利的,应当提交请求书、说明书及其摘要和权利要求书等文件。说明书应当对发明或者实用新型作出清楚、完整的说明,以所属技术领域人员能够实现为准,并且说明书应当包括下列内容:技术领域、背景技术、发明内容、附图说明和具体实施方式。权利要求书应当以说明书为依据,清楚、简要地限定要求专利保护的范围。
因此,本实施例就以上述法规作为依据,设定核心技术方案信息包括以下内容:标题,分类号,发明解决的技术问题,达到的有益效果,技术方案应用的领域,权利要求中的发明内容信息等。当上述法规变化的时候,可以根据法规内容的调整调整相应的核心技术方案信息。当然,对于其它的很多应用场合,也都可以类推地根据相关规定构建核心技术方案信息。
由于专利文本一般具有标准的结构化特征,因此可以利用该特点,采用位置特征和关键词相似度匹配等技术,提取出专利文本的上述核心技术方案信息,主要包括:加入关键技术特征的标题、专利要解决的技术问题、所达到的有益效果、专利技术可以应用的领域信息、专利的核心技术方案等。本实施例中,基于位置特征和关键词匹配技术提取核心技术方案信息的方法见表1,根据位置特征在专利文本的特定位置,查找匹配关键词特征,即可以提取出专利文本的核心技术信息。
目前,专利文本大部分是XML格式,因此,需要对XML格式的文本进行解析,分析其中各个不同类目的标签路径信息,根据标签路径提取文本,结合表1的位置特征和关键词特征信息,即可提取特定类目的信息。基于此,针对国家知识产权局专利局公布的专利XML文本,分析结构信息,表2中包含专利文本各个类目的XPATH信息。
表1提取核心技术方案信息的位置特征和关键词特征
表2专利文本各类目标签路径信息
结合表1中的位置特征和表2中的类目与标签路径的对应关系,解析专利文本XML文件,获取对应类目的文本信息。利用表1中的关键词进行相似度匹配,提取对应类目的文本数据。对比提取出的文本数据和人工深加工的数据,使用最长字串算法,计算准确度如附图2所示,标题,分类号和技术问题准确率达到80%以上,有益效果,用途领域和核心方案的准确率在70%-80%之间,说明本步骤的根据专利文献结构特点、位置特征和关键词特征提取核心技术方案信息方案的高度可行性。
步骤2),构建专利文献分类号主题词词间关系模型;
基于专利文献数据集,人工提取每篇专利文献的主题词和分类号,建立分类号与主题词联系,同时结合主题词的语义信息和领域表达方式特点,建立主题词之间的相关关系:上、下位关系,同义关系和近义关系。利用分类号主题词之间的联系以及主题词相互间的关系,构建分类号主题词词间关系模型,如附图3所示为以主题词“电容传感器”为例说明主题词词间关系模型。
分词结果的好坏很大程度上决定后续关键词提取、信息检索等步骤,由于专利文献有很强的领域特性,存在构成技术特征的主题词在不同的领域表述相同而含义不同的现象。因此,本发明建立了分类号主题词模型,该模型为一个有向图结构,图的结点为主题词,主题词的属性包括分类号,同义词,近义词等,如果主题词词之间存在直接上、下位关系,则有一条连接两个词的有向边,起点为下位词,终点为上位词,权重为常量w,大小介于0到1之间,本实施例中w=0.8。附图3为所述有向图中每个节点的属性信息,由领域特征和关系特征构成,领域特征主要通过分类号体现,关系特征通过族首词、上位词、下位词和同义词体现。基于此模型,一方面可以实现针对不同领域的专利文本,采用不同的领域词典进行分词,可以进一步提高分词的准确度,另一方面,加入了主题词的关系特征,可以对主题词进一步进行语义扩展。
步骤3),根据步骤2中分类号主题词词间关系模型生成领域词典以及由常见的介词、语气词等无实际意义的词构成的停用词库,对步骤一中提取的核心技术方案文本分词和去停用词,得到语料文本;
分词过程包括:根据关系模型中的领域特征,提取分类号和主题词信息,生成由分类号标识的领域词典,结合当前专利文本的分类号信息,依据该分类号的领域词典,使用中文分词工具对核心技术方案文本进行分词,实施方案中选取的中文分词工具为结巴分词;
去停用词过程包括:对分词结果中的所有词汇,查询是否出现在停用词库中,如果出现,则过滤掉。
步骤4),使用关键词提取工具,提取语料文本中的关键词及其权重;
TF-IDF算法和TextRank算法均可以用于提取文本的关键词。
TF-IDF是一种基于统计的模型的算法,其中TF为词频,特指某一个词在指定文档中出现的频率,IDF为逆文档频率,即数据集文档的总数与包含该词的文档数的比的对数,本算法的思想是某一个词在文档中出现的次数越多,其TF权重就越高,同时包含该词的文档数越多,其IDF权重就越小,既考虑本片中词的重要度,也考虑了全局中该词的区分度。但是其问题在于:TF权重部分仅考虑了词的统计频率,忽略了词与词之间的联系;IDF基于整个语料库计算,忽略了语料库的类别信息。
TextRank是一种基于图结构的模型,由PageRank的思想演化而来,其主要思想是:初始化图的顶点为文档中所有的词,默认顶点的权重为1或者词总数的倒数,针对特定词w,可以给其后大小为span的窗口内的各个词投票,同时增加一条从该特定词连接窗口内其余词的边,并将该条边的权重设置为1,如果该条边已经存在,则将该边的权重加1,计算公式为公式(2),经过特定次迭代后,每个顶点的权重代表该词的重要程度。本算法的优势在于一定程度上考虑了词的位置关系,不足之处为:初始化的时候每个词的权重相等。基于此,本实施例将TF-IDF计算的词权重信息引入TextRank中,作为词的初始权重,具体计算公式为公式(1),其中Vi为文本中的词,n为迭代次数,实验结果表明,n的范围应为5-20,d为阻尼系数,方案中,阻尼系数设置为0.85,wji为词Vj到Vi的边的权重,Wn(Vi)为第n次迭代的权重结果,W1通过TF-IDF的权重进行迭代计算。试验结果表明,使用该方法后,可以一定程度上改善TextRank提取的关键词的准确度,准确率提高了5%,如表3所示,准确率为提取结果中准确数据量与结果集数量之间的比值,召回率为提取结果中准确数量与标准数据准确数量的比值,F-值使用公式(2)计算,其中p为准确率,q为召回率。
表3引入TF-IDF作为初始权重的TextRank关键词提取准确度
不限于此,本领域技术人员还可以类似的通过其他关键词提取工具提取关键词及其权重。
步骤五,基于步骤四得到的关键词,提取经过训练的词向量模型中对应的词向量;
本步骤中经过训练的词向量模型为使用词嵌入工具对专利文献数据集训练而得。
词嵌入工具为:Word2Vec或FastText。
训练词向量的实施步骤为:针对专利文献数据集中的每一篇专利文本,结合上述步骤一中的方法得出核心技术方案信息;利用上述步骤三中的方法处理核心技术方案信息,得到分词和去停用词后的结果,最终每篇专利文本处理成以空格分割的连续若干词;使用词嵌入工具,将处理的结果作为输入,即可训练出词向量模型,在词向量模型中,每个词被量化为一个向量,向量的维度一般50-100,本实施例中向量维度为100。
FastText是2016年Facebook推出一个用于文本分类和计算词向量的工具,其优点在于模型简单,训练速度快。与常用的Word2Vec的CBOW模型在结构上是一样的,不同之处在于Word2Vec目标是通过当前词的前后若干的词来预测当前词,在使用层次SoftMax的时候,Huffman树的叶子节点处是训练语料里所有词的词向量;而FastText在进行文本分类时,Huffman树叶子节点处是每一个类别标签的词向量,但是在训练过程中,每一个词也会得出对应的词向量。本实验采用FastText作为词向量的训练模型,主要由于FastText可以实现ngram切分,将长词通过ngram切分为几个短词,这样对于未登录词也可以通过切出来的ngram词向量合并为一个词,表4是分别通过FastText模型和Word2Vec模型计算一组特征词,计算最相似的前20个词,可见,对比FastText模型和Word2Vec模型计算的结果,可以发现FastText的结果一方面词意更接近,计算结果均与汉字编码相关,另一方面相似度更高,Word2Vec的相似度分布在0.899-0.916之间,FastText的相似度分布在0.934-0.963之间,因此,FastText效果更优。
表4 FastText和Word2Vec最相似词对比
步骤6),基于上述得到的关键词,词权重和词向量信息,得出专利文本的量化表示其中pi为关键词,为词权重,为词向量;
步骤7),使用EMD(Earth Moving Distance)工具,计算不同专利文本的量化表示之间的距离,EMD距离越小,语义更近似。
EMD(Earth Moving Distance)算法为评估特征空间中两个多维分布之间的不相似性的方法,利用单个特征之间的距离成本及各自的权重,EMD可以将各特征的距离转变为特征集合分布的距离。其优点在于:如果文本中的主题词表达不同,但是语义距离接近,词向量余弦值小,则理论上主题词集合的距离也会小。
本实施例中,专利文献之间EMD距离的计算通过以下过程实现:
基于步骤6完成专利文献di和dj的量化表示结果为特征词集合setp,setp中元素为di和dj中关键词的并集;由di、dj和setp,专利文献di和dj的量化表示结果转变为其中p'i和p'j为setp中的元素,如果di中存在p'i,则否则为0,如果dj中存在p'j,则否则为0,setp中元素的总数为N,0≤i≤N,0≤j≤N;由d'i、d'j和setp构造特征距离矩阵{mij},其中为向量之间的余弦值;根据d'i,d'j和{mij},使用公式(3)到公式(8)完成专利文献EMD距离的计算,其中,公式(3)中的P为d'i,Q为d'j,F为矩阵{fij},fij满足公式(5)到公式(8)的约束,得到fij后使用公式(4)得到专利文献之间的EMD距离。
fij≥0,i=1,2,...N;j=1,2,...N (5)
表5为检索文本与语料集中专利文本之间EMD距离最小的前5条的计算结果,其中,检索文本为若干空格分开的词,语料集为若干篇专利文献,计算结果包括标题和EMD距离。分析检索结果,可以发现:语义上近似的文本其EMD距离更小,所以,可以使用EMD距离衡量文本之间语义相似程度,EMD值越大,语义越不相关,EMD值越小,语义越近似。
表5 EMD距离计算结果
实施例2
使用基于知识本体的专利文献相似性度量方法的专利文献关键词语义检索系统,包括以下模块:关键词输入模块,关键词语义扩展模块,检索引擎匹配相关词模块,语义距离计算模块,相关信息统计模块,结果展示模块。
关键词输入模块用于接收用户输入的文本,生成关键词集合。本模块接收的输入可以是由空格分隔的关键词或一段文本,如果输入为空格分隔的关键词,以空格为分隔符,提取每一个关键词组成关键词集合;如果输入为一段文本,结合步骤三中的方法,如果用户输入的文本无领域信息,则采用由所有主题词构成的全领域词典,对输入的文本处理,进行分词和去停用词操作,将得到的词组成关键词集合;否则采用领域词典对输入的文本处理,进行分词和去停用词操作,将得到的词组成关键词集合。
关键词语义扩展模块,根据关键词输入模块的关键词集合进行语义扩展得到相关词集合,该集合中每个元素由相关词和该相关词的相关性权重组成。
作为优选,本实施例通过如下三种方式进行关键词语义扩展:
1、基于步骤五训练的词向量模型,利用词向量训练工具,以关键词输入模块得到的关键词集合为输入,即可得出与关键词集合最相关的若干词汇及相关性的权重,权重范围为0到1,权重越大,越相关,实施方案中取最相关10条词汇作为扩展结果;
2、使用主题词词间关系模型得出关键词集合中所有词的上位词和下位词,即在主题词词间关系模型的有向图中,如果关键词集合中的词为图中一个结点的主题词,则取出与该结点存在连接关系的结点中的主题词作为相关词,相关词权重为图中连接两个词的边权重,实施方案中边权重取0.8;
3、针对关键词输入模块得到的关键词集合,如果关键词在相关词集合中不存在,则加入相关词集合,并设置其相关性权重为1。
上述三种优选方案,可单独实施,也可相互结合实施,根据扩展得到的相关词及相关性权重信息,得到相关词集合。
检索引擎匹配相关词模块,使用全文检索引擎对基于已有专利文献构建的全文索引根据关键词语义扩展模块输出的相关词集合中的相关词进行检索,得到命中专利文献结果集,集合中的每个元素为一个二元组(weightj,docj),其中weightj为第j个命中文档权重,其是根据文档中包含的语义扩展模块输出的相关词的权重求和取平均计算而得,docj为第j个命中文档的量化表示;
语义距离计算模块,通过公式(9)计算关键词输入模块输入内容与检索引擎匹配相关词模块输出的命中专利文献结果集中的专利文献的相似度距离sim,其中doci为输入文本的量化表示:
sim=weightj*EMD(doci,docj) (9)
其中,docj的量化表示同实施例1中步骤6)中的量化表示;EMD()函数计算过程同实施例1中步骤7)中EMD距离的计算过程。
相关信息统计模块,统计检索相似专利文献过程的相关信息,统计的信息包括数据总量,检索时间,命中结果总数,命中结果分类号分布,语义扩展的相关词及权重等。
展示模块,在屏幕上展示与关键词输入模块输入内容相似的检索结果及相关信息,展示的信息包括:对命中的专利文献按照相似度由高到低显示,即sim值由低到高显示,相关信息统计模块统计的相关信息的展示。
附图4为一个网页页面,包括输入框,可以输入关键词或一段文本,点击检索按钮后,用户可以得到按照相似度排序的专利文献信息,如标题,申请号,技术方案等信息,同时页面右侧分为三块,第一块为本次检索结果信息,如检索关键词,命中结果,使用时间,数据总量;第二块为检索技术主题词推荐,包括一系列相关词及相关度,即语义扩展模块输出的相关词及权重;第三块为检索结果中专利文本的领域分布,包括分类号及数量。
综上所述,本发明方法基于专利文献数据特点建模,提供一种简单有效的专利文献相似性度量方法,该方法以及基于该方法构建的系统可以应用于专利文献的检索、审查、分类和分析等相关业务领域,检索相关专利文献和评价技术方案相关性等。
为了说明本发明的内容和实施方法,本说明书给出了具体实施例:使用基于知识本体的专利文献相似性度量方法的专利文献关键词语义检索系统。本实施例中引入的细节的目的不是限制权利要求书的范围,而是帮助理解本发明所述方法。本领域的技术人员应理解:在不脱离本发明及其权利要求的精神和范围内,对最佳实施例步骤的各种修改、变化或替换都是可能的。因此,本发明不应局限于最佳实施例及附图所公开的内容。

Claims (10)

1.一种基于知识本体的专利文献相似性度量方法,其特征在于,包括以下步骤:
步骤一,根据专利文献结构特点、位置特征和关键词特征从专利全文文本中提取核心技术方案信息;
步骤二,构建专利文献分类号主题词词间关系模型;
步骤三,根据分类号主题词关系模型生成领域词典,使用领域词典对核心技术方案信息的文本分词,使用停用词库对分词结果去停用词,得到语料文本;
步骤四,使用关键词提取工具,提取语料文本中的关键词和词权重;
步骤五,基于步骤四得到的关键词,提取经过训练的词向量模型中对应的词向量;
步骤六,基于上述得到的关键词,词权重和词向量信息,得出该专利文献的量化表示其中pi为第i个关键词,为pi的词权重,为pi的词向量;1≤i≤n,n为关键词的总数;
步骤七,使用EMD工具,计算不同专利文献的量化表示之间的距离,EMD距离越小,语义越近似。
2.根据权利要求1所述的一种基于知识本体的专利文献相似性度量方法,其特征在于,所述步骤一中的核心技术方案信息包括标题,分类号,发明解决的技术问题,达到的有益效果,技术方案应用的领域,权利要求中的发明内容。
3.根据权利要求1所述的一种基于知识本体的专利文献相似性度量方法,其特征在于,所述专利全文文本为XML格式,符合国家知识产权局公布的CN-TXTS-10-A数据编码规范,包括著录项目、摘要、权利要求书、说明书、说明书附图和索引信息。
4.根据权利要求1所述的一种基于知识本体的专利文献相似性度量方法,其特征在于,作为优选,所述主题词词间关系模型为一个有向图结构,图的结点为主题词,主题词的属性包括分类号、该主题词的同义词和近义词,如果主题词之间存在直接上、下位关系,则有一条连接两个词的有向边,起点为下位词,终点为上位词,权重为常量w,大小介于0到1之间。
5.根据权利要求1所述的一种基于知识本体的专利文献相似性度量方法,其特征在于,所述步骤二中的主题词词间关系模型为一个有向图结构,图的结点为叙词,叙词的属性包括分类号,同义词,近义词等,如果词之间存在直接上、下位关系,则有一条连接两个词的有向边,起点为下位词,终点为上位词,权重为常量w,大小介于0到1之间。
6.根据权利要求1所述的一种基于知识本体的专利文献相似性度量方法,其特征在于,所述w=0.8。
7.根据权利要求1所述的一种基于知识本体的专利文献相似性度量方法,其特征在于,所述步骤四中的关键词提取方法为:首先,训练语料文本的TF-IDF模型,然后,使用TextRank方法提取关键词及词权重,其中词初始权重为其TF-IDF值,TextRank方法中迭代次数范围为5-20。
8.根据权利要求1-7任一所述的一种基于知识本体的专利文献相似性度量方法,其特征在于,所述步骤七中的使用EMD计算不同专利文献的量化表示之间的距离的步骤为:
步骤7-1,存在文档di和dj量化结果为di={(pi,wi,vi)}和dj={(pj,wj,vj)},特征词集合setp,元素为di和dj中关键词的并集;
步骤7-2,由di、dj和setp,将专利文献di和dj的量化表示结果转变为其中p′i和p′j为setp中的元素,如果di中存在p′i,则否则为0,如果dj中存在p′j,则否则为0;
步骤7-3,由d′i、d′j和setp构造特征距离矩阵{mij},其中 为向量之间的余弦值;
步骤7-4,根据d′i,d′j和{mij},使用EMD工具计算d′i和d′j之间的特征分布距离,该特征分布距离即EMD距离。
9.一种专利文献关键词语义检索系统,其特征在于,包括关键词输入模块,关键词语义扩展模块,检索引擎匹配相关词模块,语义距离计算模块,相关信息统计模块,结果展示模块;
关键词输入模块用于接收用户输入的文本,生成关键词集合;
关键词语义扩展模块,根据关键词输入模块的关键词集合进行语义扩展得到相关词集合,该集合中每个元素由相关词和该相关词的相关性权重组成;
检索引擎匹配相关词模块,使用全文检索引擎对基于已有专利文献构建的全文索引根据关键词语义扩展模块输出的相关词集合中的相关词进行检索,得到命中专利文献结果集,集合中的每个元素为一个二元组(weightj,docj),其中weightj为第j个命中文档权重,其是根据文档中包含的语义扩展模块输出的相关词的权重求和取平均计算而得,docj为第j个命中文档的量化表示;
语义距离计算模块,通过下述公式计算关键词输入模块输入内容与检索引擎匹配相关词模块输出的命中专利文献结果集中的专利文献的相似度距离sim,其中doci为输入文本的量化表示:
sim=weightj*EMD(doci,docj);
相关信息统计模块,统计检索相似专利文献过程的相关信息;
结果展示模块,在屏幕上展示与关键词输入模块输入内容相似的检索结果及相关信息。
10.根据权利要求9所述的一种专利文献关键词语义检索系统,其特征在于在所述关键词输入模块输入的内容为一系列由空格分隔的关键词或一段文本;所述语义扩展通过如下三种方式单独或相互结合实施进行关键词语义扩展:
(1)基于权利要求1步骤五所述训练的词向量模型,利用词向量训练工具,以关键词输入模块得到的关键词集合为输入,得出与关键词集合最相关的若干词汇及相关性的权重,权重范围为0到1,权重越大,越相关;
(2)使用权利要求1所述主题词词间关系模型得出关键词集合中所有词的上位词和下位词及其与上位词或下位词之间的权重;
(3)针对关键词输入模块得到的关键词集合,如果关键词在相关词集合中不存在,则加入相关词集合,并设置其相关性权重为1;
所述量化表示同权利要求1所述步骤6;
所述相关信息统计模块统计的信息包括数据总量,检索时间,命中结果总数,命中结果分类号分布,语义扩展的相关词及权重;
所述结果展示模块展示的信息包括:对命中的专利文献按照相似度由高到低显示和相关信息统计模块统计的相关信息的展示。
CN201710436963.XA 2017-06-12 2017-06-12 一种基于知识本体的专利文献相似性度量方法 Pending CN107247780A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710436963.XA CN107247780A (zh) 2017-06-12 2017-06-12 一种基于知识本体的专利文献相似性度量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710436963.XA CN107247780A (zh) 2017-06-12 2017-06-12 一种基于知识本体的专利文献相似性度量方法

Publications (1)

Publication Number Publication Date
CN107247780A true CN107247780A (zh) 2017-10-13

Family

ID=60017935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710436963.XA Pending CN107247780A (zh) 2017-06-12 2017-06-12 一种基于知识本体的专利文献相似性度量方法

Country Status (1)

Country Link
CN (1) CN107247780A (zh)

Cited By (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844558A (zh) * 2017-10-31 2018-03-27 金蝶软件(中国)有限公司 一种分类信息的确定方法以及相关装置
CN107844478A (zh) * 2017-11-20 2018-03-27 山东浪潮云服务信息科技有限公司 一种专利文件的处理方法及装置
CN108009152A (zh) * 2017-12-04 2018-05-08 陕西识代运筹信息科技股份有限公司 一种基于Spark-Streaming的文本相似性分析的数据处理方法和装置
CN108304480A (zh) * 2017-12-29 2018-07-20 东软集团股份有限公司 一种文本相似度确定方法、装置及设备
CN108710610A (zh) * 2018-05-17 2018-10-26 北京东港瑞宏科技有限公司 一种基于电子发票的数据挖掘方法
CN108804423A (zh) * 2018-05-30 2018-11-13 平安医疗健康管理股份有限公司 医疗文本特征提取与自动匹配方法和系统
CN108804421A (zh) * 2018-05-28 2018-11-13 中国科学技术信息研究所 文本相似性分析方法、装置、电子设备及计算机存储介质
CN108829822A (zh) * 2018-06-12 2018-11-16 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
CN108874755A (zh) * 2018-06-28 2018-11-23 电子科技大学 基于MeSH的医学文献集相似性度量方法
CN108898321A (zh) * 2018-07-09 2018-11-27 西北工业大学 一种基于语义模板的制造技术问题标准冲突参数获取方法
CN109064221A (zh) * 2018-07-20 2018-12-21 广州市丰申网络科技有限公司 基于大数据技术的关键词广告智能投放方法及设备
CN109165291A (zh) * 2018-06-29 2019-01-08 厦门快商通信息技术有限公司 一种文本匹配方法及电子设备
CN109271632A (zh) * 2018-09-14 2019-01-25 重庆邂智科技有限公司 一种监督的词向量学习方法
CN109522549A (zh) * 2018-10-30 2019-03-26 云南电网有限责任公司信息中心 基于Web采集与文本特征均衡分布的语料库构建方法
CN109582759A (zh) * 2018-11-15 2019-04-05 中电科大数据研究院有限公司 一种衡量公文相似性的方法
CN109597932A (zh) * 2018-11-20 2019-04-09 咪咕文化科技有限公司 一种查找产品的方法、终端和计算机可读存储介质
CN109636221A (zh) * 2018-12-20 2019-04-16 安徽经邦软件技术有限公司 一种基于自然语言处理的风控识别方法
CN109684630A (zh) * 2018-12-05 2019-04-26 南京邮电大学 专利相似性的对比分析方法
CN109903198A (zh) * 2019-01-24 2019-06-18 南京邮电大学 专利对比分析方法
CN110019669A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
CN110019668A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
CN110020189A (zh) * 2018-06-29 2019-07-16 武汉掌游科技有限公司 一种基于中文相似性计算的文章推荐方法
CN110019670A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
CN110083674A (zh) * 2019-03-04 2019-08-02 温州涌润信息科技有限公司 一种知识产权信息处理方法和装置
CN110110047A (zh) * 2019-04-30 2019-08-09 中国农业科学院农业信息研究所 基于tf-idf和领域词典的主题内容聚合分析方法
CN110175220A (zh) * 2019-05-16 2019-08-27 镇江市高等专科学校 一种基于关键词位置结构分布的文档相似性度量方法及系统
CN110263343A (zh) * 2019-06-24 2019-09-20 北京理工大学 基于短语向量的关键词抽取方法及系统
CN110335114A (zh) * 2019-06-28 2019-10-15 香港乐蜜有限公司 产品的分类方法、装置及设备
CN110457435A (zh) * 2019-07-26 2019-11-15 南京邮电大学 一种专利新颖性分析系统及其分析方法
CN110532354A (zh) * 2019-08-27 2019-12-03 腾讯科技(深圳)有限公司 内容的检索方法及装置
CN110727745A (zh) * 2019-04-24 2020-01-24 中国科学院地理科学与资源研究所 一种基于叙词表的词汇相关度计算方法及装置
CN110737750A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 分析文本受众的数据处理方法、装置与电子设备
CN110852097A (zh) * 2019-10-15 2020-02-28 平安科技(深圳)有限公司 特征词提取方法、文本相似度计算方法、装置和设备
CN110895556A (zh) * 2018-09-13 2020-03-20 深圳市蓝灯鱼智能科技有限公司 文本检索方法和装置、存储介质及电子装置
CN111027306A (zh) * 2019-12-23 2020-04-17 园宝科技(武汉)有限公司 一种基于关键词抽取和词移距离的知识产权匹配技术
CN111104794A (zh) * 2019-12-25 2020-05-05 同方知网(北京)技术有限公司 一种基于主题词的文本相似度匹配方法
CN111373386A (zh) * 2017-11-07 2020-07-03 株式会社Fronteo 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序
CN111552783A (zh) * 2020-04-30 2020-08-18 深圳前海微众银行股份有限公司 内容分析查询方法、装置、设备和计算机存储介质
CN111597412A (zh) * 2020-04-27 2020-08-28 必圈信息技术(湖北)有限公司 一种基于ElasticSearch实现多维度智能搜索相关数据的系统和方法
CN111709238A (zh) * 2020-06-04 2020-09-25 中国地质大学(北京) 一种基于地学专家知识的网页地学相关性计算方法
CN112136126A (zh) * 2018-03-23 2020-12-25 株式会社半导体能源研究所 文件检索系统、文件检索方法、程序以及非暂时性计算机可读存储介质
CN112307055A (zh) * 2019-07-26 2021-02-02 傲为信息技术(江苏)有限公司 技术类开放式数字资产的检索方法
CN112328736A (zh) * 2020-11-13 2021-02-05 首都师范大学 一种主题词表构建方法、系统及计算机存储介质
CN112417154A (zh) * 2020-11-25 2021-02-26 上海创米科技有限公司 确定文献相似度的方法和装置
CN112507684A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 用于检测原创文本的方法、装置、电子设备及存储介质
CN112559668A (zh) * 2020-08-23 2021-03-26 同济大学 一种基于聚类的专利地图制作与表示方法
CN113010695A (zh) * 2021-04-19 2021-06-22 华北电力大学 一种适用于继电保护装置缺陷分析的专业词典构建方法
CN113053387A (zh) * 2021-02-26 2021-06-29 上海声通信息科技股份有限公司 一种支持语义理解的语音录入系统
CN113330441A (zh) * 2019-05-31 2021-08-31 株式会社艾飒木兰 一种专利文章生成装置、专利文章生成方法以及专利文章生成程序
CN114580557A (zh) * 2022-03-10 2022-06-03 北京中知智慧科技有限公司 基于语义分析的文献相似度确定方法及装置
CN114780690A (zh) * 2022-06-20 2022-07-22 成都信息工程大学 基于多模态矩阵向量表示的专利文本检索方法及装置
CN115713085A (zh) * 2022-10-31 2023-02-24 北京市农林科学院 文献主题内容分析方法及装置
CN115934897A (zh) * 2023-01-09 2023-04-07 北京知呱呱科技服务有限公司 一种专利用途改写的数据深加工方法及计算机设备
CN116776854A (zh) * 2023-08-25 2023-09-19 湖南汇智兴创科技有限公司 在线多版本文献内容关联方法、装置、设备及介质
CN117725229A (zh) * 2024-01-08 2024-03-19 中国科学技术信息研究所 一种知识组织体系辅助更新方法
CN117725229B (zh) * 2024-01-08 2024-07-09 中国科学技术信息研究所 一种知识组织体系辅助更新方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070244881A1 (en) * 2006-04-13 2007-10-18 Lg Electronics Inc. System, method and user interface for retrieving documents
CN101692240A (zh) * 2009-08-14 2010-04-07 北京中献电子技术开发中心 一种基于规则的专利摘要自动抽取和关键词标引方法
CN104199809A (zh) * 2014-04-24 2014-12-10 江苏大学 一种专利文本向量的语义表示方法
CN104657350A (zh) * 2015-03-04 2015-05-27 中国科学院自动化研究所 融合隐式语义特征的短文本哈希学习方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070244881A1 (en) * 2006-04-13 2007-10-18 Lg Electronics Inc. System, method and user interface for retrieving documents
CN101692240A (zh) * 2009-08-14 2010-04-07 北京中献电子技术开发中心 一种基于规则的专利摘要自动抽取和关键词标引方法
CN104199809A (zh) * 2014-04-24 2014-12-10 江苏大学 一种专利文本向量的语义表示方法
CN104657350A (zh) * 2015-03-04 2015-05-27 中国科学院自动化研究所 融合隐式语义特征的短文本哈希学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴多坚: ""基于word2vec的中文文本相似度研究与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王秀红 等: ""综合位置和语义权重的专利文本向量表示方法"", 《信息系统》 *

Cited By (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019669B (zh) * 2017-10-31 2021-06-29 北京国双科技有限公司 一种文本检索方法及装置
CN110019669A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
CN110019668A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
CN110019670A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
CN107844558A (zh) * 2017-10-31 2018-03-27 金蝶软件(中国)有限公司 一种分类信息的确定方法以及相关装置
CN111373386A (zh) * 2017-11-07 2020-07-03 株式会社Fronteo 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序
CN107844478A (zh) * 2017-11-20 2018-03-27 山东浪潮云服务信息科技有限公司 一种专利文件的处理方法及装置
CN107844478B (zh) * 2017-11-20 2020-12-04 浪潮卓数大数据产业发展有限公司 一种专利文件的处理方法及装置
CN108009152A (zh) * 2017-12-04 2018-05-08 陕西识代运筹信息科技股份有限公司 一种基于Spark-Streaming的文本相似性分析的数据处理方法和装置
CN108304480A (zh) * 2017-12-29 2018-07-20 东软集团股份有限公司 一种文本相似度确定方法、装置及设备
CN112136126A (zh) * 2018-03-23 2020-12-25 株式会社半导体能源研究所 文件检索系统、文件检索方法、程序以及非暂时性计算机可读存储介质
US12019636B2 (en) 2018-03-23 2024-06-25 Semiconductor Energy Laboratory Co., Ltd. Document search system, document search method, program, and non-transitory computer readable storage medium
CN108710610A (zh) * 2018-05-17 2018-10-26 北京东港瑞宏科技有限公司 一种基于电子发票的数据挖掘方法
CN108804421B (zh) * 2018-05-28 2022-04-15 中国科学技术信息研究所 文本相似性分析方法、装置、电子设备及计算机存储介质
CN108804421A (zh) * 2018-05-28 2018-11-13 中国科学技术信息研究所 文本相似性分析方法、装置、电子设备及计算机存储介质
CN108804423B (zh) * 2018-05-30 2023-09-08 深圳平安医疗健康科技服务有限公司 医疗文本特征提取与自动匹配方法和系统
CN108804423A (zh) * 2018-05-30 2018-11-13 平安医疗健康管理股份有限公司 医疗文本特征提取与自动匹配方法和系统
CN108829822B (zh) * 2018-06-12 2023-10-27 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
CN108829822A (zh) * 2018-06-12 2018-11-16 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
CN108874755A (zh) * 2018-06-28 2018-11-23 电子科技大学 基于MeSH的医学文献集相似性度量方法
CN109165291B (zh) * 2018-06-29 2021-07-09 厦门快商通信息技术有限公司 一种文本匹配方法及电子设备
CN110020189A (zh) * 2018-06-29 2019-07-16 武汉掌游科技有限公司 一种基于中文相似性计算的文章推荐方法
CN109165291A (zh) * 2018-06-29 2019-01-08 厦门快商通信息技术有限公司 一种文本匹配方法及电子设备
CN110737750A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 分析文本受众的数据处理方法、装置与电子设备
CN108898321A (zh) * 2018-07-09 2018-11-27 西北工业大学 一种基于语义模板的制造技术问题标准冲突参数获取方法
CN108898321B (zh) * 2018-07-09 2021-08-24 西北工业大学 一种基于语义模板的制造技术问题标准冲突参数获取方法
CN109064221B (zh) * 2018-07-20 2021-04-27 广州市丰申网络科技有限公司 基于大数据技术的关键词广告智能投放方法及设备
CN109064221A (zh) * 2018-07-20 2018-12-21 广州市丰申网络科技有限公司 基于大数据技术的关键词广告智能投放方法及设备
CN110895556A (zh) * 2018-09-13 2020-03-20 深圳市蓝灯鱼智能科技有限公司 文本检索方法和装置、存储介质及电子装置
CN110895556B (zh) * 2018-09-13 2023-07-28 北京蓝灯鱼智能科技有限公司 文本检索方法和装置、存储介质及电子装置
CN109271632A (zh) * 2018-09-14 2019-01-25 重庆邂智科技有限公司 一种监督的词向量学习方法
CN109522549A (zh) * 2018-10-30 2019-03-26 云南电网有限责任公司信息中心 基于Web采集与文本特征均衡分布的语料库构建方法
CN109522549B (zh) * 2018-10-30 2022-06-10 云南电网有限责任公司信息中心 基于Web采集与文本特征均衡分布的语料库构建方法
CN109582759B (zh) * 2018-11-15 2021-10-22 中电科大数据研究院有限公司 一种衡量公文相似性的方法
CN109582759A (zh) * 2018-11-15 2019-04-05 中电科大数据研究院有限公司 一种衡量公文相似性的方法
CN109597932A (zh) * 2018-11-20 2019-04-09 咪咕文化科技有限公司 一种查找产品的方法、终端和计算机可读存储介质
CN109684630A (zh) * 2018-12-05 2019-04-26 南京邮电大学 专利相似性的对比分析方法
CN109636221A (zh) * 2018-12-20 2019-04-16 安徽经邦软件技术有限公司 一种基于自然语言处理的风控识别方法
CN109903198A (zh) * 2019-01-24 2019-06-18 南京邮电大学 专利对比分析方法
CN110083674A (zh) * 2019-03-04 2019-08-02 温州涌润信息科技有限公司 一种知识产权信息处理方法和装置
CN110727745A (zh) * 2019-04-24 2020-01-24 中国科学院地理科学与资源研究所 一种基于叙词表的词汇相关度计算方法及装置
CN110110047A (zh) * 2019-04-30 2019-08-09 中国农业科学院农业信息研究所 基于tf-idf和领域词典的主题内容聚合分析方法
CN110175220A (zh) * 2019-05-16 2019-08-27 镇江市高等专科学校 一种基于关键词位置结构分布的文档相似性度量方法及系统
CN113330441A (zh) * 2019-05-31 2021-08-31 株式会社艾飒木兰 一种专利文章生成装置、专利文章生成方法以及专利文章生成程序
CN110263343B (zh) * 2019-06-24 2021-06-15 北京理工大学 基于短语向量的关键词抽取方法及系统
CN110263343A (zh) * 2019-06-24 2019-09-20 北京理工大学 基于短语向量的关键词抽取方法及系统
CN110335114A (zh) * 2019-06-28 2019-10-15 香港乐蜜有限公司 产品的分类方法、装置及设备
CN112307055A (zh) * 2019-07-26 2021-02-02 傲为信息技术(江苏)有限公司 技术类开放式数字资产的检索方法
CN110457435A (zh) * 2019-07-26 2019-11-15 南京邮电大学 一种专利新颖性分析系统及其分析方法
WO2021017633A1 (zh) * 2019-07-26 2021-02-04 南京瑞祥信息技术有限公司 技术类开放式数字资产的检索方法
CN110532354B (zh) * 2019-08-27 2023-01-06 腾讯科技(深圳)有限公司 内容的检索方法及装置
CN110532354A (zh) * 2019-08-27 2019-12-03 腾讯科技(深圳)有限公司 内容的检索方法及装置
CN110852097A (zh) * 2019-10-15 2020-02-28 平安科技(深圳)有限公司 特征词提取方法、文本相似度计算方法、装置和设备
CN110852097B (zh) * 2019-10-15 2022-02-01 平安科技(深圳)有限公司 特征词提取方法、文本相似度计算方法、装置和设备
CN111027306A (zh) * 2019-12-23 2020-04-17 园宝科技(武汉)有限公司 一种基于关键词抽取和词移距离的知识产权匹配技术
CN111104794B (zh) * 2019-12-25 2023-07-04 同方知网数字出版技术股份有限公司 一种基于主题词的文本相似度匹配方法
CN111104794A (zh) * 2019-12-25 2020-05-05 同方知网(北京)技术有限公司 一种基于主题词的文本相似度匹配方法
CN111597412B (zh) * 2020-04-27 2023-08-22 必圈信息技术(湖北)有限公司 一种基于ElasticSearch实现多维度智能搜索相关数据的系统和方法
CN111597412A (zh) * 2020-04-27 2020-08-28 必圈信息技术(湖北)有限公司 一种基于ElasticSearch实现多维度智能搜索相关数据的系统和方法
CN111552783A (zh) * 2020-04-30 2020-08-18 深圳前海微众银行股份有限公司 内容分析查询方法、装置、设备和计算机存储介质
CN111709238B (zh) * 2020-06-04 2023-04-07 中国地质大学(北京) 一种基于地学专家知识的网页地学相关性计算方法
CN111709238A (zh) * 2020-06-04 2020-09-25 中国地质大学(北京) 一种基于地学专家知识的网页地学相关性计算方法
CN112559668A (zh) * 2020-08-23 2021-03-26 同济大学 一种基于聚类的专利地图制作与表示方法
CN112328736A (zh) * 2020-11-13 2021-02-05 首都师范大学 一种主题词表构建方法、系统及计算机存储介质
CN112417154A (zh) * 2020-11-25 2021-02-26 上海创米科技有限公司 确定文献相似度的方法和装置
CN112507684A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 用于检测原创文本的方法、装置、电子设备及存储介质
CN112507684B (zh) * 2020-11-30 2023-09-22 北京百度网讯科技有限公司 用于检测原创文本的方法、装置、电子设备及存储介质
CN113053387A (zh) * 2021-02-26 2021-06-29 上海声通信息科技股份有限公司 一种支持语义理解的语音录入系统
CN113010695A (zh) * 2021-04-19 2021-06-22 华北电力大学 一种适用于继电保护装置缺陷分析的专业词典构建方法
CN114580557A (zh) * 2022-03-10 2022-06-03 北京中知智慧科技有限公司 基于语义分析的文献相似度确定方法及装置
CN114780690A (zh) * 2022-06-20 2022-07-22 成都信息工程大学 基于多模态矩阵向量表示的专利文本检索方法及装置
CN115713085A (zh) * 2022-10-31 2023-02-24 北京市农林科学院 文献主题内容分析方法及装置
CN115713085B (zh) * 2022-10-31 2023-11-07 北京市农林科学院 文献主题内容分析方法及装置
CN115934897A (zh) * 2023-01-09 2023-04-07 北京知呱呱科技服务有限公司 一种专利用途改写的数据深加工方法及计算机设备
CN116776854A (zh) * 2023-08-25 2023-09-19 湖南汇智兴创科技有限公司 在线多版本文献内容关联方法、装置、设备及介质
CN116776854B (zh) * 2023-08-25 2023-11-03 湖南汇智兴创科技有限公司 在线多版本文献内容关联方法、装置、设备及介质
CN117725229A (zh) * 2024-01-08 2024-03-19 中国科学技术信息研究所 一种知识组织体系辅助更新方法
CN117725229B (zh) * 2024-01-08 2024-07-09 中国科学技术信息研究所 一种知识组织体系辅助更新方法

Similar Documents

Publication Publication Date Title
CN107247780A (zh) 一种基于知识本体的专利文献相似性度量方法
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
Rahutomo et al. Semantic cosine similarity
Berant et al. Semantic parsing via paraphrasing
CN108549634A (zh) 一种中文专利文本相似度计算方法
CN107122413A (zh) 一种基于图模型的关键词提取方法及装置
CN103207860B (zh) 舆情事件的实体关系抽取方法和装置
CN110020189A (zh) 一种基于中文相似性计算的文章推荐方法
CN109408642A (zh) 一种基于距离监督的领域实体属性关系抽取方法
CN110134925A (zh) 一种中文专利文本相似度计算方法
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN102637192A (zh) 一种自然语言问答的方法
CN104484374B (zh) 一种创建网络百科词条的方法及装置
CN102033919A (zh) 文本关键词提取方法及系统
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN106156272A (zh) 一种基于多源语义分析的信息检索方法
CN108874896B (zh) 一种基于神经网络和幽默特征的幽默识别方法
CN103207905A (zh) 一种基于目标文本的计算文本相似度的方法
CN109783806B (zh) 一种利用语义解析结构的文本匹配方法
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN102750316A (zh) 基于语义共现模型的概念关系标签抽取方法
CN111414763A (zh) 一种针对手语计算的语义消歧方法、装置、设备及存储装置
CN103646112A (zh) 利用了网络搜索的依存句法的领域自适应方法
CN107092605A (zh) 一种实体链接方法及装置
CN112036178A (zh) 一种配网实体相关的语义搜索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171013