CN107315738B - 一种文本信息的创新度评估方法 - Google Patents

一种文本信息的创新度评估方法 Download PDF

Info

Publication number
CN107315738B
CN107315738B CN201710543194.3A CN201710543194A CN107315738B CN 107315738 B CN107315738 B CN 107315738B CN 201710543194 A CN201710543194 A CN 201710543194A CN 107315738 B CN107315738 B CN 107315738B
Authority
CN
China
Prior art keywords
innovation
keyword
text
probability
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710543194.3A
Other languages
English (en)
Other versions
CN107315738A (zh
Inventor
郭伟
张盘龙
鹿旭东
崔立真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201710543194.3A priority Critical patent/CN107315738B/zh
Publication of CN107315738A publication Critical patent/CN107315738A/zh
Application granted granted Critical
Publication of CN107315738B publication Critical patent/CN107315738B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本信息的创新度评估方法,对爬取的文本数据进行分词预处理;使用预处理数据训练LDA模型,实现以行业为主题的分类,用以把不同行业的文本进行区分,使得训练好的模型包含每个行业类别的关键词的模型文件;按照时间顺序,构建一个由预处理数据里的抽取的关键知识和技术信息组成的知识网络,并且每隔固定时间不断更新;使用按照时间排序的预处理数据,提取每一篇文献的属性信息,并构建一个文献文本结构网络,并确定各个文献的创新类型;利用训练好的LDA模型分析专利数据里面的技术和知识关键词分别属于的行业,综合文献文本结构网络的属性信息,构成多维度指标以评估创新度。

Description

一种文本信息的创新度评估方法
技术领域
本发明涉及一种文本信息的创新度评估方法。
背景技术
随着信息技术的不断进步与发展,使得人们可以轻易而快速的获取大量的文献来满足人们阅读与学习的需求。目前对于各种各样的文献的创新度却无法正确衡量。
例如专利等的创新度,还是依靠人力来进行检索、分析,需要对人员进行专业的培训,并且人员进行检索和创新度评价的速度比较缓慢且需要不同级别的审核、补充检索,面对目前大量的文献资料,审查人员的压力较大且有可能耽误审查进度,造成授权延后,复审和无效事项较多。
另外,企业在进行创新工作时,应用大数据作为分析和计划的基础,需要分辨和查看分析有价值的数据。而如何衡量一篇文献的价值,是一个非常困难的事情,之前人们经常通过人工进行阅读标记的方法,来区别和标注出来有价值,创新性好的文章。但是对于大数据来说,几百万或者上千万的文献数据,通过人工来进行分析创新性显然是不可取的,因为实现的难度非常大,而且每年都会有大量的文献出现,所以需要自动分析文章内容创新性。
发明内容
本发明为了解决上述问题,提出了一种文本信息的创新度评估方法,本发明根据文本分析技术实现对固定结构的文本进行创新性衡量。
为了实现上述目的,本发明采用如下技术方案:
一种文本信息的创新度评估方法,包括以下步骤:
(1)对爬取的文本数据进行分词预处理;
(2)使用预处理数据训练LDA模型,实现以行业为主题的分类,用以把不同行业的文本进行区分,使得训练好的模型包含每个行业类别的关键词的模型文件;
(3)按照时间顺序,构建一个由预处理数据里的抽取的关键知识和技术信息组成的知识网络,并且每隔固定时间不断更新;
(4)使用按照时间排序的预处理数据,提取每一篇文献的时间、名称、作者、浏览量和下载量的属性信息,并构建一个文献文本结构网络,并确定各个文献的创新类型;
(5)利用训练好的LDA模型分析专利数据里面的技术和知识关键词分别属于的行业,综合文献文本结构网络的属性信息,构成多维度指标以评估创新度。
所述步骤(1)中,构建Keras深度学习模型,包括1层Embedding层,1层LSTM和1个Dense输出层,目标函数使用交叉熵,优化函数使用adam。
所述步骤(2)中,使用预处理的数据训练Word2vector模型,用以计算词与词之间的相关性,确定各个词语属于相关行业的概率。
所述步骤(2)中,当判断出的各个行业的所述概率进行从大到小排序,得到概率序列,取前n个概率最大的序列,计算各个概率所占的比例,删除小于阈值的行业。
所述步骤(3)中,将所有的文献文本数据首先按照时间顺序进行排序,然后抽取每一个文本数据里面所使用的知识和技术名词,包括技术方案里面使用的算法的名称。
所述步骤(3)中,遍历文献的创新点或关键部分,提取每个段落中的关键词,形成关键词组合,以表明使用的知识和技术方案。
所述步骤(3)中,利用TF-IDF提取关键词,具体包括:
(3-1)计算每个词在文献中出现的词频;
(3-2)计算逆文档率IDF;
(3-3)将词频和逆文档率相乘,计算TF-IDF,得到每个词的TF-IDF值,然后按照数值大小降序排列,提取前m位的为关键词。
所述步骤(3)中,将新的文献中提取的关键词跟已有的知识网络包含的关键词进行比较,若某个关键词已经存在于知识网络中,则跳过去;若知识网络中不存在,则将抽取的时间和该关键词收录到知识网络之中。
所述步骤(4)中,使用贝叶斯概率模型计算区分专利创新类型。
进一步的,查询该文献发表时间之前已有的相关技术和理论知识,若该文献中出现新的知识或技术则属于原始创新;若该文献里面都是以前已有的技术和知识,但出现了改进方法和技术方案,则属于改进创新;若该文献都是已有的技术和知识,但是从文章结构网络中,以前没有出现过该文献的组合,则属于集成创新。
所述步骤(5)中,将得出的该专利所属的创新类型,使用的创新方法,结合抽取出来的作者、浏览量和下载量作为多维度指标。
与现有技术相比,本发明的有益效果为:
(1)本发明能够自动分析确定专利的创新类型和使用的创新方法;使用多维度表示评价文献的创新性,实现了对文献的创新性高低的定性分析;
(2)本发明提取效果好,可以作为创新度评价时的参考结果,有助于减少审查时间,也有助于维护、更新知识库和文献数据库,同时,也能够更好的对文献所属领域、做出的贡献进行提取,以方便其他人阅读、学习和借鉴。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1是本发明的步骤一流程示意图;
图2是本发明的步骤一分词模型图;
图3是本发明的流程示意图;
图4是本发明的分析创新度的过程示意图。
具体实施方式:
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
以对专利进行创新度的评估为例进行详细描述,具体包括:
步骤一:对爬取的万方数据库专利数据进行分词预处理。
1.数据预处理过程
目前,深度学习在自然语言处理领域取得了非常显著的成绩,对于分词、词性标注和命名实体识别这些自然语言处理的基础领域有非常良好的应用。本步骤通过构建一个深度学习的模型来对数据进行分词预处理。Keras是一个高度模块化的深度学习框架,通过Python进行编程,封装大量的函数模块接口,这样,通过调用这些模块就可以未完成模型搭建。
中文分词可以通过将自然语言文本划分成词语序列实现,当前文本序列标记是最主流的方法,即通过使用BMES这四个标签去标记句子中的每一个字。(B是词首,M是词中,E是词尾,S是单字词;例如苹果BE,广电局BME)
步骤二:使用预处理数据训练LDA模型,实现以行业为主题的分类,用以把不同行业的专利进行区分,训练的结果是可以计算某一专利所属的行业,训练好的模型包含每个行业类别的关键词的模型文件。
使用预处理的数据训练Word2vector模型,用以计算词与词之间的相关性。
LDA是一种可以提取文档隐含主题的算法,本专利通过使用谷歌公开的LDA算法,直接将预处理好的专利数据文件地址写入该程序,即可得到训练好的LDA模型。考虑专利数据本身就是按照行业分类之后的,所以设置LDA主题数量与爬取专利数据行业数量相同。另外为了方便后续工作,对不同行业进行人工编号,不同的行业开头第一个字符不同,例如规定自然语言处理NLP领域,行业编号为3。
Word2vector是谷歌开发的一个开源的用来实现计算自然语言领域文本相关性的工具,本专利直接使用开源的程序,录入预处理数据进行训练。训练好的Word2vector就可以直接用来计算两个词之间的相关性,即输入一个词,给出该词相关性从大到小的排序的词的序列,并包括相关性值得大小,因为Word2vector使用三角函数来计算相关性,所以相关性的值是一个0到1的实数。
本步骤的最后结果是,使用训练好的LDA模型可以得出每个专利属于各个行业的概率。使用训练好的Word2vector模型,经过计算,可以得出知识和技术等名词属于某个行业的概率,例如:轮胎属于车辆行业概率为0.83,属于玩具行业为0.17。并且得到每一个专利所属的行业中概率最高的三个行业。本专利规定,对于知识和技术等名词以及专利,确定其所属行业的方法如下:
1.将所有得出的概率ai(属于行业i的概率)进行从大到小排序,得到概率序列,例如,[aj,ak,am...al]。
2.取出序列中前三个概率最大的值[aj,ak,am],行业就在j、k、m这三个里面进行选择。
3.分别计算三个概率所占的比例,
Figure BDA0001342367670000061
其中bi表示第i个概率所占比例。
4.比较bi值的打小,若存在bi小于0.1,则认为属于第i行业的概率很小,于是舍弃第i行业,认定属于剩余的行业。
5.所以,本专利对于一个专利或者一个知识、技术名词进行行业分类时,最终区分的结果包括三种情况:只属于一个行业,属于两个行业,属于三个行业。将该专利、知识或者技术名词,所属行业编号,以及属于该行业的比例作为一条记录进行保存。
步骤三:按照时间顺序,构建一个由预处理数据里的抽取的关键知识和技术信息组成的知识网络,并且每隔固定时间不断更新。
1.知识网络构建的策略。
将所有的专利数据首先按照时间顺序进行排序,然后抽取每一个专利数据里面所使用的知识和技术名词,包括技术方案里面使用的算法的名称。
所有的知识和技术出现的最早的时间记录为该知识和技术的首次出现时间,并按照其所属行业领域对其进行编号,一个编号代表一个技术或者知识,具体的该技术或者知识是一个技术方案或者算法的组合。
例如,[NO.301 2000.9.1分词(去停用词(300)) NLP300]
另外,若对某一已经存在的技术或者知识进行了改进,融合了新的元素。则该改进知识或者技术的编号以其原始为基础,进行后续编号。
例如,[NO.3011 2005.6.3中文分词(去停用词(300),词性分析(305))NLP300]
建立专利知识网络索引,一条记录包括某一个方法的编号与其第一次出现的时间,属于的专利的编号。
建立专利方案知识网络索引,一条记录包括专利编号和所有的提取的知识、技术等关键词组合。
2.抽取关键技术和知识的方法。
爬取的专利数据都是结构化的数据,其中权利要求书内容是这个专利着重进行创新和保护的重点部分,遍历权利要求书的内容,提取每个段落中的关键词。发明内容和具体实施方式是专利实现过程与方法的描述,提取该两部分的关键词。一篇专利所有的关键词的组合就是该专利使用的知识和技术方案。
步骤四:使用按照时间排序的预处理数据,提取每一篇专利的时间,名称,作者,浏览量,下载量信息,并构建一个专利结构网络。
1.专利结构网络构建方法。
对于每一个专利数据,将它看作一个技术和知识关键词的组合方案,并将所有的专利按照该专利所属的行业进行分类,按照时间进行排序并编号。
例如,(NO.3000001 2005.6.3 一种中文分词 中科院 100000 1000 (3011 5044)NLP300)
步骤五:通过专利结构网络和知识网络,确定数据的创新类型。
1.计算确定创新类型。
(1)查询该专利时间之前已有的相关技术和理论知识,若该专利中出现新的知识或技术则属于原始创新。
(2)若该专利里面都是以前已有的技术和知识,但出现了改进方法和技术方案,则属于改进创新。
(3)若该专利都是已有的技术和知识,但是从文章结构网络中,以前没有出现过该专利的组合,则属于集成创新。
步骤六:结合训练好的LDA模型分析专利数据里面的技术和知识关键词分别属于的行业,从而确定该文章的创新方法。
1.按照其属于相同行业,相关行业和不同行业而分为三个层次。
2.利用文本数据相关性计算方法来进行确定关键词的行业。
步骤七:综合专利结构网络中的作者,浏览量,下载量属性值,结合计算出来的专利创新类型和创新方法,使用多维度指标来表示创新度。
一个专利的创新性可以由本专利构建的多维度评价标准进行体现,具体来说,通过本专利计算得出的该专利所属的创新类型,使用的创新方法,结合从专利数据之中抽取出来的关于专利的作者、浏览量和下载量这五个维度的综合,可以实现对专利创新性高低进行定性的分析。
步骤八:可视化方案。使用标签云pytagcloud的方式将文章的创新度以及抽取信息和创新类型,创新方法显示出来。
1.展示抽取的专利名称、浏览量和下载量信息。
2.展示技术和知识关键词信息,即top6关键词。
3.展示关键词所属行业的相关信息,并指出创新方法。
4.展示专利属于每一种重新类型的概率,并重点展示概率最高的类型。
5.展示对作者进行百度百科的检索结果。
6.展示最后对专利创新性的定性分析结果。
步骤一中,使用Keras搭建深度学习模型结合序列化标记实现分词。
Keras相关模块及方法介绍。
使用的Keras里面主要模块包括Optimizers(优化函数模块)、SGD(随机梯度下降)、Adam;Objectives(目标函数模块)使用误差分析方法包括均方误差和交叉熵;Activations(激活函数模块)中sigmoid用来做二分类、relu可以解决梯度消失问题、softmax可用来做多分类;Layers(网络层模块)包括CNN(卷积层)、RNN(LSTM)、embeddings;Initializations(初始化模块),用于模型参数初始化,包括均匀分布初始化、高斯分布初始化。
使用Keras进行模型搭建,实现基于RNN的中文分词,具体分为四个步骤,数据准备,模型构建,模型训练,模型测试。
首先,使用bakeoff2005里面的北京大学已经标注好的语料数据,其中train data当作训练样本,test data当作测试样本。统计训练样本的字符,将其全部映射成对应的字典索引,规定出现次数不超过3次的字符映射作为未登录词。考虑序列标记中,一个字的标签会受到上下文的影响,所以取该字的前后3个字作为特征。
然后,设计模型,本专利使用的模型由1层Embedding层,1层LSTM和1个Dense输出层构成。目标函数使用交叉熵,优化函数使用adam。本专利未使用外部语料训练的词向量,而是通过Embedding层完成从词典索引到词向量的映射。从而实现输入词典索引,输出该索引的词向量。
将词向量序列输入LSTM层,该层的输出序列结合LSTM隐层的个数输入到输出层。Densen输出层输出类别数。
参数设计。EmbeddingDim数量设置为128,RNN序列长度设置为7,LSTM隐层个数设置为100,outputDims数量设置为4,batch_sizes数值设置为128。
最后使用准备好的北京大学的训练样本数据对模型进行训练,再使用测试样本进行测试。
首先对爬取的专利数据按照时间从早到晚进行排序,然后使用训练和测试好的深度学习模型对其进行分词预处理。
步骤二中,使用训练好的LDA模型判断专利行业,具体过程如下。
获取谷歌的开源LDA程序,按照官方说明部署环境。然后将预处理的数据文件地址录入建好的LDA模型,并进行训练。
训练好的LDA模型能够计算出一个专利属于各个行业的概率,依次提取训练好的LDA模型计算出来的该专利属于各个行业的概率,将所有的概率值按照从大到小进行排序,取该序列的top3。按照上述步骤二中本专利规定的方法,取比例值bi不小于0.1的行业作为该专利所属的行业。
步骤二中,使用训练好的Word2vector模型,提取训练好的LDA模型中的包含行业类别关键词的模型文件,计算某一专利的关键词和各个行业关键词的相关性,进而计算出该专利的关键词与各个行业相关性,从而判断该专利的关键词所属的行业,主要过程如下。
一个发明专利一定是通过使用几个知识和技术组成一个方案,来解决某一方面的问题。其中,该专利所使用的知识和技术会在专利的文本内容中着重体现,所以该专利所使用的知识和技术一定是该专利文本数据的关键词。
获取谷歌的开源Word2vector程序,按照官方说明部署环境。然后将预处理的数据文件地址录入建好的Word2vector模型,并进行训练,得到训练好的Word2vector模型。
使用训练好的Word2vector模型,依次计算某一个专利各个关键词和各个行业的关键词(来自训练好的LDA模型文件)的相关性,并将相关性的值按照行业求和。取和值最大的top3行业,定义该和值为关键词属于这个行业的概率。按照上述1中所述方法,计算比例值bi,并取比例值bi不小于0.1的行业作为该关键词所属的行业。
步骤三中,提取权利要求书、发明内容和具体实施方式内容的关键词,使用TF-IDF技术实现。
根据爬取的专利数据分析结果,平均一个专利会包含2-6个知识和技术,所以本专利确定从专利中提取的关键词中,选择top6个关键词作为该专利的知识和技术的所有名词。
1.抽取预处理数据中专利的时间,由于专利数据是结构化的数据,时间的信息在数据中的位置是一定的,所以可以直接利用位置来读取。
2.TF-IDF提取关键词。
(1)计算词频(TF),词频是某个词在文章中出现的次数,本专利使用下面标准化的公式来计算词频:
Figure BDA0001342367670000121
其中,表示词wi出现的次数,n表示总词数。
计算逆文档率IDF。
Figure BDA0001342367670000123
其中,N表示所有的专利数量,
Figure BDA0001342367670000124
表示包含词wi的专利数量。
(3)计算TF-IDF。
TF-IDF=TF×IDF。
得到每个词的TF-IDF值,然后按照数值大小降序排列,位置在top6的为关键词。
3.从某一个专利提取出来top6关键词以后,跟已有的知识网络包含的关键词进行比较,若某个关键词已经存在于知识网络中,则跳过去;若知识网络中不存在,则将抽取的时间和该关键词收录到知识网络之中。
4.在完成一个专利关键词提取之后,将该专利编号、时间和其6个关键词组成的组合,收录到知识网络之中。
步骤四中,提取专利数据中的时间,名称,作者,浏览量,下载量信息。其中专利是结构化的数据,在专利的开始就包含了它的申请日、申请人、专利名称信息,只要简单地依次识别读出即可。
对于一篇专利的浏览量和下载量信息是包含在爬取的专利数据中的,可以直接使用。而对于爬取的专利数据,一个专利的前部分数据依次为名称、专利类型、申请号、申请日期、公开日、公开号、主分类号、分类号、申请人、发明人。本步骤依次逐行读取以上信息,并将该专利的名称、公开日、主分类号、申请人信息。
根据专利法规定的专利分类规则,根据获取的专利号信息,判定该专利的类别和行业。
根据获取的专利数据中的申请人信息,本专利将申请人分为三种类型:个人、公司和高校科研单位。本专利使用百度的开源接口,对爬取的申请人信息进行百度百科搜索。将搜索出来的结果,本专利规定,
(1)若搜索不出来相关结果,则只展示专利数据上的申请人信息。
(2)若搜索出申请人的百度百科信息,则提供专利申请人的百度百科的主要信息。
步骤五中,计算专利的创新类型,本专利规定原始创新类创新性最高,改进创新类创新性次之,集成创新最低。
将上述步骤提取出来的专利的关键词与知识网络进行比较,首先比较所有的关键词,如果该专利包含当前时间未录入网络中的知识或者技术名词,则确定该专利属于原始创新;
如果所有的知识和技术有包含在当前时间知识网络,但是进行了改进,结合了新的算法或者步骤,则确定该专利属于改进创新;
如果没有出现改进的情况,然后将专利的关键词组合和知识网络已有的专利组合进行比较,若这是一个全新的组合,则确定该专利属于集成创新。
对于一个专利,本专利方法提取top6关键词。首先,将该专利的时间和top6关键词提取成一条记录。然后,依次将top6关键词与本专利构建的知识网络进行检索,查询每一个关键词在知识网络中首次出现时间。若关键词在知识网络中已经出现过,则给该关键词添加一个标签表示已经存在,添加数字1;若有关键词不在知识网络中出现,则给该关键词添加数字标签3;最后,对于6个关键词这个组合,检索知识网络中当前时间前是否有这个组合存在,根据检索出来的组合,将网络中的组合不包含但是该专利组合存在的词,将其标签数字1改为数字2。
使用贝叶斯概率模型计算区分专利创新类型。本专利通过计算每一种创新类型的后验概率,选择三个类别中的概率最大的类型最为最终结果。具体公式如下:
贝叶斯公式:
Figure BDA0001342367670000151
公式中,事件Bi的概率为P(Bi),事件Bi已经发生的条件下事件A发生的概率为P(A|Bj),事件A发生的条件下事件Bi发生的概率为P(Bi|A)。
规定,若top6关键词中,若标签数值3的个数不小于1,记为事件A,则创新类型为原始创新;若标签数值3的个数为0,而标签数值2的个数不小于1,记为事件B,则创新类型为改进创新;若标签数值3的个数为0,标签数值2的个数为0,记为事件C,则创新类型为集成创新。
事件A发生的概率
Figure BDA0001342367670000152
事件B发生的概率
Figure BDA0001342367670000153
事件C发生的概率P(C)=1-P(A)-P(B)。
计算事件A、B、C个自发生的概率值之后,确定最后的创新类型,计算公式如下:
Figure BDA0001342367670000154
将P最大值的创新类型作为专利的创新类型。
步骤六中,首先通过训练好的LDA模型计算某一专利top6关键词属于所有主题的概率,对于一个关键词取概率最大值的行业作为该关键词所属的行业,并记录行业编号。
本专利规定,对于每一个行业,取训练好的LDA模型中该行业的top100关键词,使用相关性计算方法即训练好的Word2vector模型计算某一专利的top6关键词中的每一个词与各行业top100关键词的相关性的和,取其和的最大值最为该词的行业。
本专利使用每个行业的top100关键词通过训练好的Word2vector模型计算每两个行业的相关性,将行业A的100个关键词与行业B的100个关键词的相关性的和作为两个行业的相关性的值。规定最后的和的值小于1的是不相关的两个行业;规定和的值在1-10之间的,属于相关行业;规定和的值大于10的,属于同行业。
本专利计算得出某一专利top6关键词中每一个关键词所属的行业之后,使用上述计算好的行业之间的相关性,来表示关键词之间所属行业的关系。本专利规定,若计算得出top6关键词的各行业之间,存在不相关行业关系,记为事件Q;若存在相关行业关系,记为事件S;若存在同行业记为事件T。
具体的计算公式如下:
事件Q发生的概率
Figure BDA0001342367670000161
事件S发生的概率
Figure BDA0001342367670000162
事件T发生的概率P(T)=1-P(Q)-P(S)。
计算事件Q、S、T个自发生的概率值之后,确定最后的创新类型,计算公式如下:
Figure BDA0001342367670000171
将P最大值的关键词相关关系作为专利的创新方法。
步骤七中,使用多维度综合表示一篇专利的创新度,具体方法如下。
使用上述过程提到的专利的创新类型、创新方法、浏览量和下载量、以及作者五个维度来表示一个专利的创新度。其中,创新类型和创新方法经上述步骤计算得出。统计预处理数据中所有专利的浏览量和下载量,结果表明,浏览量数值0--100000,下载量数值0--9000。分别对浏览量和下载量数值进行划分层次,根据浏览量数值50000以上和下载量数值1000以上占20%,浏览量数值1000--50000和下载量数值50--1000占55%,浏览量数值0--1000和下载量数值0--50占25%,将浏览量和下载量按照上述区间依次划分为较高、中等和较低三个等级。
对于一篇新的专利,依次使用本方法训练好的LDA和Word2Vvector模型测试后,计算该专利属于每一个创新类型的概率,并选择最大概率值的类型为该专利的创新类型;再计算该专利每一个创新方法的概率,并选择最大概率值的方法为该专利的创新方法;根据该专利的浏览量和下载量,根据上述区间,确定该专利的浏览量和下载量的层次;根据该专利的作者信息,将上述步骤检百度百科检索结果记录下来,确定作者的信息。
本专利规定使用创新性高、中和低三个层次来综合定性评价一个专利的创新性,使用五维向量(创新类型,创新方法,浏览量,下载量,作者)来表示,
具体过程如下:
(1)创新类型为原始创新,则该值为3,为改进创新,则该值为2,为集成创新,则该值为1。
(2)创新方法为不同行业,则该值为3,为相关行业,则该值为2,为同行业,则该值为1。
(3)浏览量和下载量为较高,则对应值为3,为中等,则对应值为2,为较低,则对应值为1。
(4)若百度百科检索出作者的相关信息,则该值为3,若没有检索出相关信息,则该值为1。
(5)使用公式
Figure BDA0001342367670000181
表示一个专利的创新性。若创新性值>0.5,则创新性高;若0.2<创新性值≤0.5,则创新性中;若创新性值≤0.2,则创新性低。
步骤八中,实现本方法的可视化,具体方法如下:
首先,使用python的可视化云标签工具pytagcloud来进行展示相关信息,该工具是python开源的,只要按照相关教程安装配置即可使用。
展示的信息中,对于浏览量和下载量,展示具体的数值,并展示值所属的层次为较高、中等还是较低;对于作者信息,若百度百科没有相关的信息,则只展示专利数据中的作者信息,若检索出相关信息,则展示检索结果的top20字数,并展示提供链接;对于创新类型,展示该专利属于每一个类型的概率,其中概率最大的值数字字体最大;对于创新方法,展示top6关键词中每个关键词的行业,并展示使用的创新方法;对于专利的创新性层次,展示创新性值,和该值所属的层次,给出该专利创新性高、中或者低的评价结果。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (9)

1.一种文本信息的创新度评估方法,其特征是:包括以下步骤:
(1)对爬取的文本数据进行分词预处理;
(2)使用预处理数据训练隐含狄利克雷分布LDA模型,实现以行业为主题的分类,用以把不同行业的文本进行区分,使得训练好的模型包含每个行业类别的关键词的模型文件;
(3)按照时间顺序,构建一个由预处理数据里的抽取的关键知识和技术信息组成的知识网络,并且每隔固定时间不断更新;建立专利知识网络索引,一条记录包括某一个方法的编号与其第一次出现的时间,属于的专利的编号;建立专利方案知识网络索引,一条记录包括专利编号和所有的提取的知识、技术关键词组合;
(4)使用按照时间排序的预处理数据,提取每一篇文献的时间、名称、作者、浏览量和下载量的属性信息,并构建一个文献文本结构网络,并确定各个文献的创新类型;文献文本结构网络构建方法为对于每一个专利数据,将它看作一个技术和知识关键词的组合方案,并将所有的专利按照该专利所属的行业进行分类,按照时间进行排序并编号;
使用贝叶斯概率模型计算区分专利创新类型,通过计算每一种创新类型的后验概率,选择三个类别中的概率最大的类型为最终结果,具体公式如下:
贝叶斯公式:
Figure FDA0002131573860000011
其中,事件Bi的概率为P(Bi),事件Bi已经发生的条件下事件A发生的概率为P(A|Bj),事件A发生的条件下事件Bi发生的概率为P(Bi|A);n为总词数;
规定,若关键词中标签数值为3的个数不小于1,记为事件A,则创新类型为原始创新;若标签数值为3的个数为0,而标签数值为2的个数不小于1,记为事件B,则创新类型为改进创新;若标签数值为3的个数为0,标签数值为2的个数为0,记为事件C,则创新类型为集成创新;
(5)利用训练好的LDA模型分析专利数据里面的关键知识和技术信息的关键词分别属于的行业,综合文献文本结构网络的属性信息,构成多维度指标以评估创新度。
2.如权利要求1所述的一种文本信息的创新度评估方法,其特征是:所述步骤(1)中,构建Keras深度学习模型对爬取的文本数据进行分词预处理,包括1个Embedding层,1个LSTM层和1个Dense输出层,目标函数使用交叉熵,优化函数使用adam。
3.如权利要求1所述的一种文本信息的创新度评估方法,其特征是:所述步骤(2)中,还包括如下步骤:使用预处理的数据训练Word2vector模型,用以计算词与词之间的相关性,确定各个词语属于相关行业的概率。
4.如权利要求3所述的一种文本信息的创新度评估方法,其特征是:对判断出的各个行业的所述概率进行从大到小排序,得到概率序列,取前N个概率最大的序列,计算各个概率所占的比例,删除小于预设阈值的行业。
5.如权利要求1所述的一种文本信息的创新度评估方法,其特征是:所述步骤(3)中,还包括如下步骤:将所有的文献文本数据首先按照时间顺序进行排序,然后抽取每一个文本数据里面所使用的知识和技术名词,包括技术方案里面使用的算法的名称。
6.如权利要求5所述的一种文本信息的创新度评估方法,其特征是:遍历文献的创新点或关键部分,提取每个段落中的关键词,形成关键词组合,以表明使用的知识和技术方案。
7.如权利要求6所述的一种文本信息的创新度评估方法,其特征是:利用TF-IDF提取关键词,具体包括:
(3-1)计算每个词在文献中出现的词频;
(3-2)计算逆文档率IDF;
(3-3)将词频和逆文档率相乘,计算TF-IDF,得到每个词的TF-IDF值,然后按照数值大小降序排列,提取前m位为关键词。
8.如权利要求7所述的一种文本信息的创新度评估方法,其特征是:将新的文献中提取的关键词跟已有的知识网络包含的关键词进行比较,若某个关键词已经存在于知识网络中,则跳过;若知识网络中不存在,则将抽取的时间和该关键词收录到知识网络之中。
9.如权利要求1所述的一种文本信息的创新度评估方法,其特征是:所述步骤(5)中,将得出的专利所属的创新类型,结合抽取出来的作者、浏览量和下载量作为多维度指标。
CN201710543194.3A 2017-07-05 2017-07-05 一种文本信息的创新度评估方法 Active CN107315738B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710543194.3A CN107315738B (zh) 2017-07-05 2017-07-05 一种文本信息的创新度评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710543194.3A CN107315738B (zh) 2017-07-05 2017-07-05 一种文本信息的创新度评估方法

Publications (2)

Publication Number Publication Date
CN107315738A CN107315738A (zh) 2017-11-03
CN107315738B true CN107315738B (zh) 2019-10-15

Family

ID=60180590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710543194.3A Active CN107315738B (zh) 2017-07-05 2017-07-05 一种文本信息的创新度评估方法

Country Status (1)

Country Link
CN (1) CN107315738B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319702A (zh) * 2018-02-05 2018-07-24 郑州大学 一种基于创新维度与创新法则的技术创新方法
CN108829663B (zh) * 2018-05-21 2022-04-29 宁波薄言信息技术有限公司 一种文章评估方法及系统
CN108984654A (zh) * 2018-06-27 2018-12-11 无锡市人民医院 一种基于人工智能的专利创新方法及系统
CN109543945A (zh) * 2018-10-18 2019-03-29 平安科技(深圳)有限公司 企业创新评估方法及终端设备
CN111209391A (zh) * 2018-11-02 2020-05-29 北京京东尚科信息技术有限公司 信息识别模型的建立方法及系统、拦截方法及系统
CN109766440B (zh) * 2018-12-17 2023-09-01 航天信息股份有限公司 一种用于为对象文本描述确定默认分类信息的方法及系统
CN109598995B (zh) * 2019-01-08 2020-11-17 上海健坤教育科技有限公司 基于贝叶斯知识跟踪模型的智能教学系统
CN109902168B (zh) * 2019-01-25 2022-02-11 北京创新者信息技术有限公司 一种专利评价方法和系统
CN110737749B (zh) * 2019-10-11 2022-09-27 软通智慧信息技术有限公司 创业计划评价方法、装置、计算机设备及存储介质
CN110968676A (zh) * 2019-12-05 2020-04-07 天津大学 基于lda模型与lstm网络的文本数据语义时空模式探索方法
CN112765016B (zh) * 2021-01-08 2024-03-22 天翼数字生活科技有限公司 一种开源软件可用性判定方法及装置
CN115563289B (zh) * 2022-12-06 2023-03-07 中信证券股份有限公司 行业分类标签生成方法、装置、电子设备和可读介质
CN117891959B (zh) * 2024-03-15 2024-05-10 中国标准化研究院 一种基于贝叶斯网络的文献元数据储存方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126758A (zh) * 2016-08-30 2016-11-16 程传旭 用于信息处理和信息评估的云系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101741249B1 (ko) * 2016-09-01 2017-05-30 한양대학교 에리카산학협력단 카테고리 생성 시스템 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126758A (zh) * 2016-08-30 2016-11-16 程传旭 用于信息处理和信息评估的云系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Firms" knowledge profiles: Mapping patent data with unsupervised learning;Arho Suominen et al.;《Technological Forecasting and Social Change》;20170228;第115卷;第131-142页 *
基于LDA模型的国家间知识流动分析;宋凯 等;《情报杂志》;20170630;第36卷(第6期);第55-60页 *

Also Published As

Publication number Publication date
CN107315738A (zh) 2017-11-03

Similar Documents

Publication Publication Date Title
CN107315738B (zh) 一种文本信息的创新度评估方法
CN109271529B (zh) 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN110059311B (zh) 一种面向司法文本数据的关键词提取方法及系统
CN110222160B (zh) 智能语义文档推荐方法、装置及计算机可读存储介质
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN107992597B (zh) 一种面向电网故障案例的文本结构化方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
US20230195773A1 (en) Text classification method, apparatus and computer-readable storage medium
CN104794169B (zh) 一种基于序列标注模型的学科术语抽取方法及系统
CN106997382A (zh) 基于大数据的创新创意标签自动标注方法及系统
WO2008046104A9 (en) Methods and systems for knowledge discovery
CN106599032A (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN110879831A (zh) 基于实体识别技术的中医药语句分词方法
CN110750648A (zh) 一种基于深度学习和特征融合的文本情感分类方法
CN113673943B (zh) 一种基于履历大数据的人员任免辅助决策方法及系统
CN110851593B (zh) 一种基于位置与语义的复值词向量构建方法
CN112101040A (zh) 一种基于知识图谱的古代诗词语义检索方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN113312480A (zh) 基于图卷积网络的科技论文层级多标签分类方法及设备
CN109740164A (zh) 基于深度语义匹配的电力缺陷等级识别方法
CN114971730A (zh) 文案素材提取方法及其装置、设备、介质、产品
CN111444704A (zh) 基于深度神经网络的网络安全关键词抽取方法
CN113011161A (zh) 一种基于深度学习与模式匹配的人案物关联关系抽取方法
CN112784602A (zh) 基于远程监督的新闻情感实体抽取方法
CN114265935A (zh) 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant