CN109726299A - 一种不完备专利自动标引方法 - Google Patents
一种不完备专利自动标引方法 Download PDFInfo
- Publication number
- CN109726299A CN109726299A CN201811606200.6A CN201811606200A CN109726299A CN 109726299 A CN109726299 A CN 109726299A CN 201811606200 A CN201811606200 A CN 201811606200A CN 109726299 A CN109726299 A CN 109726299A
- Authority
- CN
- China
- Prior art keywords
- dictionary
- incomplete
- data
- model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明为一种不完备专利自动标引方法,属于大数据人工智能深度学习领域。该方法包含以下步骤:S1:选择专利数据源,读取专利摘要、权利要求书、说明书等相关文本数据;S2:采用Word2ver和GloVe词向量技术进行向量训练,生成词库;S3,采用ISRI词干提取器对数据进行预处理;S4:结合词库,分别采用CNN和LSTM对实验集的专利特征进行提取,建立特征模型,并验证选取出词库和特征模型;S5:结合选取的词库和特征模型,逐一对测试集的专利进行标引。本发明提出了一种不完备专利自动标引方法,能够准确、全面、快速的完成专利分类任务,有利于构建专利大数据的智能分析决策系统,有利于对专利资源的有效整合、深度分析和挖掘及应用模式创新研究。
Description
技术领域
本发明涉及一种专利自动标引方法,属于大数据人工智能领域,尤其适用于大规模的专利标引处理。
背景技术
纵观当今世界,各国高度重视战略性新兴产业的培育和发展,着力在新一轮更高层次上的竞赛中抢占先机,积极创造和有效运用知识产权。尤其是在生物医药行业领域,知识产权大数据已成为各国竞争的焦点。通常,大数据中通常蕴含着丰富的知识和价值,通过对其深层次的分析和挖掘,可以为各行业或领域提供有效的精准化科学分析和决策支持。而专利作为知识产权的重要载体,俨然已经成为了一种重要的大数据战略资源,据不完全统计,专利文献含有世界每年发明创造成果的90~95%,充分利用专利文献进行技术创新,能够有效节约60%的时间和节省40%的科研资金的投入。
在大数据时代,对专利数据的有效收集、整理、挖掘分析和应用,可以为企事业研发人员发现新产品、提供决策支持、加速研发进程等方面起到至关重要的作用。因而,在互联网+发展的大趋势下,如何利用专利大数据的价值提升我国企业在产品研发方面的科技创新能力及战略决策效率,具有非常重要的社会效益和经济价值。
目前,对于专利的标引工作更多的还是依靠人工标引或者强约束策略式标引方法,所谓的强策式标引往往是领域专家依靠自身经验制定的关键词匹配规则,来对专利进行简单的标引分类。虽然这些方法都能够在一定程度上对专利达到标引分类的目的,但是人工标引方法效率低下,人力资源成本过高,而强策略式标引方法受限于领域专家的知识,准确率和查重率往往表现很不理想。
发明内容
有鉴于此,本发明提供一种专利自主标引签分类方法,能够自动提取专利特征,准确、快速的完成专利自主标引任务。
为达到上述目的,本发明提供如下技术方案:
一种不完备专利自动标引方法,包括如下步骤:
S1:选择专利数据源,读取专利摘要、权利要求书、说明书等相关文本数据;
S2:采用词向量技术进行向量训练,生成词库
S3:对数据进行预处理;
S4:结合词库,对实验集的专利特征进行提取,建立特征模型,并验证选取出词库和特征模型;
S5:结合选取的词库和特征模型,逐一对测试集的专利进行标引。
进一步,步骤S1根据所选取的专利数据源,将其分为实验集和测试集两部分,其中,已标引部分专利数据分为实验集,未标引部分专利数据为测试集;由于数据源中专利本身往往是不完备的,因此在这里我们并不对专利本身做太多完备性约束,只要求专利本身具备摘要、权利要求书、说明书三项中的任一项即可作为训练数据。
进一步,步骤S2具体为:对S1所选的专利数据源所有的文本,分别采用Word2ver(word to vector)和GloVe(Global vectors for word representation)这两种NLP(natural language process,自然语言处理)的词向量技术,选择j种不同的词向量长度l来对每个单词或者单字进行词向量训练,生成2j个分别由N个l维词向量构成的词库,其中N为不同单词或者单字的数量。
进一步,步骤S3具体为:首先,将文本数据中的无用字符、停用词和低频词剔除;然后,根据NLP的词干提取技术,采用NLTK(natural language tool kit,自然语言处理工具包)库中的ISRI词干提取器对数据进行词干化,即将词语除去变化或衍生形式,转化为词干或原型形式的词标准化。
进一步,步骤S4采用深度学习技术,将实验集的专利按一定比例分成训练集和验证集,以及对应词库的词向量作为输入建立特征模型,具体为:
S401:根据用户需求,确定专利分类标引的类别;
S402:采用Goolge的GloVe通用词库,对训练集的采用卷积神经网络(Convolutional Neural Networks,CNN)特征模型训练,并用验证集作为基准实验;
S403:针对S2生成的不同的词库,分别采用卷积神经网络和基于Attention机制的长短期记忆网络(Long Short-Term Memory,LSTM)对训练集进行特征建模;同时,分别考虑模型是否带有国际专利分类号(IPC)属性,以及考虑神经网络层数等,对模型进行调整;
S404:采用S402的模型分别对验证集进行标引,对比基准实验的标引结果,评价特征模型训练效果,选择效果较好的词库,以及选择效果较好的参数模型作为特征模型。
进一步,步骤S5具体为:将测试集专利经过S3的预处理后,结合S404所选择的词库和特征模型,逐一对测试集的专利进行标引。
本发明的有益效果在于:本发明提供了一种不完备专利自主标引分类方法,利用NLP词向量技术建立技术领域的专业词库,利用深度学习技术自动提取专利特征,能够准确、快速的完成专利自标引任务,有利于构建专利大数据的智能分析决策系统,实现了对专利资源的有效整合、深度分析和挖掘及应用模式创新研究,具有查的“全”,查的“准”的特色。
附图说明
为了使本发明的目的、技术方案,本发明提供如下附图进行说明:
图1为一种不完备专利自动标引方法流程图;
图2为本发明实施例流程图。
具体实施方式
为使本发明的目的和技术方案更加清晰明白,下面结合附图及实施例对本发明进行详细的描述。
实施例:
针对缺乏面向医药专利的特定知识发现和挖掘模型及方法等问题,本实施例提供一种医药类英文专利自标签分类方法,结合图2,该方法包含以下步骤:
步骤一:
针对人工标引数据量小的问题,采用人工标引数据加上汤森路透的数据作为实验集,其标引结果如表1所示,按照8∶2的比例将实验集分为训练集和验证集,在这里我们并不对专利本身做太多完备性约束,只要求专利本身具备摘要、权利要求书、说明书三项中的任一项即可作为训练数据。
表1训练集的标引结果
NME | DDD | NCP | NAM | BLA | NFP | BTN | NUS | NDT | NCF | MIP | NSP |
140591 | 52872 | 35464 | 101850 | 45140 | 132418 | 84968 | 70464 | 19012 | 15222 | 8445 | 81460 |
步骤二:词库生成;
对步骤一所选的专利数据源所有的文本,分别采用Word2ver和GloVe这两种NLP的词向量技术,选择3种词向量长度分别为10、30、50来对每个单词或者单字进行词向量训练,生成6个分别由N个10、30、50维词向量构成的词库,其中N为不同单词或者单字的数量。
步骤三:对数据进行预处理;
首先,将文本数据中的无用字符、停用词和低频词剔除;
然后,根据NLP的词干提取技术,采用采用维度为2000的ISRI词干提取器对数据进行词干化,得到了词标准化后的数据集。
步骤四:对专利特征进行提取;
首先,按照用户需求,确定划分专利类别;如表1所示,已知,使用的医药专利数据集分为以下12类:NME(化合物),NDT(药物衍生物),MIP(医药中间体),NCF(晶型),NFP(制剂),NCP(组合物),NUS(用途),NSP(制备方法),NAM(诊断、分析与测定专利),DDD(给药装置),BTN(生物技术专利),BLA(生物药)。
其次,采用Goolge的GloVe通用词库,对训练集的采用卷积神经网络特征模型训练,并用验证集作为基准实验;
然后;针对步骤二的6个不同的词库,考虑到文本数据类型属于时序数据,分别采用卷积神经网络和长短期记忆网络对训练集进行特征建模;进一步考虑更细粒度分类的情形,长短期记忆网络采用基于Attention机制的向前向后长短期记忆网络(Bi-directionalLong Short-Term Memory,Bi-LSTM):同时,分别考虑模型是否带有国际专利分类号(IPC)属性,以及考虑神经网络层数等,对模型进行调整;
最后,对比基准实验结果评价词向量训练效果,选择效果最优长度为10的GloVe词向量组成的词库,以及其对应的2层不带国际专利分类号(IPC)属性的基于Attention机制的Bi-LSTM模型作为特征模型。
步骤五:
将测试集专利经过步骤三的预处理后,结合效果最优的词库和特征模型,逐一对测试集的专利进行标引。
表2本发明方法对医药专利分类结果
Precision | Recall | |
NME | 92.86% | 90.72% |
NDT | 90.17% | 87.22% |
MIP | 91.27% | 88.65% |
NCF | 94.51% | 94.70% |
NFP | 90.32% | 90.74% |
NCP | 90.29% | 83.80% |
NUS | 81.31% | 85.43% |
NSP | 86.72% | 86.50% |
NAM | 90.37% | 93.31% |
DDD | 96.39% | 96.09% |
BTN | 85.37% | 84.32% |
BLA | 84.77% | 86.32% |
如表2所示,其中,评价该分类结果的标准为查准率(Precision)和查全率(Recall),结合表3,有Precision=TP/(TP+FP),Precision=TP/(TP+FN)。
表3分类结果判定说明表
由表2可见,本发明方法在查准率和查全率上平均值分别为89.51%和88.98%,都接近90%,效果较好。
特别地,本发明方法的算法实现代码采用python,keras等,Word2ver、GloVe、ISRI、Goolge_GloVe、CNN、LTSM with Attention、Bi-LTSM witth Attention等算法均存在成熟的算法实现代码,可直接调用。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其做出各种各样的改变,而不偏离本发明权利要求书所限定的范围。
Claims (6)
1.一种不完备专利自动标引方法,其特征在于,该方法包含以下步骤:
S1:选择专利数据源,读取专利摘要、权利要求书、说明书等相关文本数据;
S2:采用词向量技术进行向量训练,生成词库
S3:对数据进行预处理;
S4:结合词库,对实验集的专利特征进行提取,建立特征模型,并验证选取出词库和特征模型;
S5:结合选取的词库和特征模型,逐一对测试集的专利进行标引。
2.根据权利要求1所述的一种不完备专利自动标引方法,其特征在于,所述的步骤S1根据所选取的专利数据源,将其分为实验集和测试集两部分,其中,已标引部分专利数据分为实验集,未标引部分专利数据为测试集;由于数据源中专利本身往往是不完备的,因此在这里我们并不对专利本身做太多完备性约束,只要求专利本身具备摘要、权利要求书、说明书三项中的任一项即可作为训练数据。
3.根据权利要求1所述的一种不完备专利自动标引方法,其特征在于,所述的步骤S2具体为:对S1所选的专利数据源所有的文本,分别采用Word2ver(word to vector)和GloVe(Global vectors for word representation)这两种NLP(natural language process,自然语言处理)的词向量技术,选择j种不同的词向量长度l来对每个单词或者单字进行词向量训练,生成2j个分别由N个l维词向量构成的词库,其中N为不同单词或者单字的数量。
4.根据权利要求1所述的一种不完备专利自动标引方法,其特征在于,所述的步骤S3具体为:首先,将文本数据中的无用字符、停用词和低频词剔除;然后,根据NLP的词干提取技术,采用NLTK(natural language tool kit,自然语言处理工具包)库中的ISRI词干提取器对数据进行词干化,即将词语除去变化或衍生形式,转化为词干或原型形式的词标准化。
5.根据权利要求1所述的一种不完备专利自动标引方法,其特征在于,所述步骤S4采用深度学习技术,将实验集的专利按一定比例分成训练集和验证集,以及对应词库的词向量作为输入建立特征模型,具体为:
S401:根据用户需求,确定专利分类标引的类别;
S402:采用Goolge的GloVe通用词库,对训练集的采用卷积神经网络(ConvolutionalNeural Networks,CNN)特征模型训练,并用验证集作为基准实验;
S403:针对S2生成的不同的词库,分别采用卷积神经网络和基于Attention机制的长短期记忆网络(Long Short-Term Memory,LSTM)对训练集进行特征建模;同时,分别考虑模型是否带有国际专利分类号(IPC)属性,以及考虑神经网络层数等,对模型进行调整;
S404:采用S402的模型分别对验证集进行标引,对比基准实验的标引结果,评价特征模型训练效果,选择效果较好的词库,以及选择效果较好的参数模型作为特征模型。
6.根据权利要求1所述的一种不完备专利自动标引方法其特征在于,所述步骤S5具体为:将测试集专利经过S3的预处理后,结合S404所选择的词库和特征模型,逐一对测试集的专利进行标引。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811606200.6A CN109726299B (zh) | 2018-12-19 | 2018-12-19 | 一种不完备专利自动标引方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811606200.6A CN109726299B (zh) | 2018-12-19 | 2018-12-19 | 一种不完备专利自动标引方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109726299A true CN109726299A (zh) | 2019-05-07 |
CN109726299B CN109726299B (zh) | 2023-03-17 |
Family
ID=66296426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811606200.6A Active CN109726299B (zh) | 2018-12-19 | 2018-12-19 | 一种不完备专利自动标引方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109726299B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110609898A (zh) * | 2019-08-19 | 2019-12-24 | 中国科学院重庆绿色智能技术研究院 | 一种面向不平衡文本数据的自分类方法 |
CN111813945A (zh) * | 2020-09-14 | 2020-10-23 | 北京星光同创科技有限公司 | 一种基于fpaa的推断加速器构建方法 |
CN112667691A (zh) * | 2021-03-16 | 2021-04-16 | 中汽数据有限公司 | 基于数据库的专利标引方法、装置、设备和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1845104A (zh) * | 2006-05-22 | 2006-10-11 | 赵开灏 | 信息智能检索加工的系统和方法 |
CN101576909A (zh) * | 2009-05-11 | 2009-11-11 | 内蒙古蒙科立软件有限责任公司 | 一种蒙古语数字化知识库系统构建方法 |
CN106383817A (zh) * | 2016-09-29 | 2017-02-08 | 北京理工大学 | 利用分布式语义信息的论文标题生成方法 |
CN107301246A (zh) * | 2017-07-14 | 2017-10-27 | 河北工业大学 | 基于超深卷积神经网络结构模型的中文文本分类方法 |
CN108763384A (zh) * | 2018-05-18 | 2018-11-06 | 北京慧闻科技发展有限公司 | 用于文本分类的数据处理方法、数据处理装置和电子设备 |
US20180349359A1 (en) * | 2017-05-19 | 2018-12-06 | salesforce.com,inc. | Natural language processing using a neural network |
CN108959252A (zh) * | 2018-06-28 | 2018-12-07 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
CN109033402A (zh) * | 2018-08-02 | 2018-12-18 | 上海应用技术大学 | 安全领域专利文本的分类方法 |
-
2018
- 2018-12-19 CN CN201811606200.6A patent/CN109726299B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1845104A (zh) * | 2006-05-22 | 2006-10-11 | 赵开灏 | 信息智能检索加工的系统和方法 |
CN101576909A (zh) * | 2009-05-11 | 2009-11-11 | 内蒙古蒙科立软件有限责任公司 | 一种蒙古语数字化知识库系统构建方法 |
CN106383817A (zh) * | 2016-09-29 | 2017-02-08 | 北京理工大学 | 利用分布式语义信息的论文标题生成方法 |
US20180349359A1 (en) * | 2017-05-19 | 2018-12-06 | salesforce.com,inc. | Natural language processing using a neural network |
CN107301246A (zh) * | 2017-07-14 | 2017-10-27 | 河北工业大学 | 基于超深卷积神经网络结构模型的中文文本分类方法 |
CN108763384A (zh) * | 2018-05-18 | 2018-11-06 | 北京慧闻科技发展有限公司 | 用于文本分类的数据处理方法、数据处理装置和电子设备 |
CN108959252A (zh) * | 2018-06-28 | 2018-12-07 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
CN109033402A (zh) * | 2018-08-02 | 2018-12-18 | 上海应用技术大学 | 安全领域专利文本的分类方法 |
Non-Patent Citations (2)
Title |
---|
WENHUI LIAO 等: "Unsupervised learning for reranking-based patent retrieval" * |
袁真富 等: "专利标引维度及其应用研究" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110609898A (zh) * | 2019-08-19 | 2019-12-24 | 中国科学院重庆绿色智能技术研究院 | 一种面向不平衡文本数据的自分类方法 |
CN111813945A (zh) * | 2020-09-14 | 2020-10-23 | 北京星光同创科技有限公司 | 一种基于fpaa的推断加速器构建方法 |
CN112667691A (zh) * | 2021-03-16 | 2021-04-16 | 中汽数据有限公司 | 基于数据库的专利标引方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109726299B (zh) | 2023-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109726299A (zh) | 一种不完备专利自动标引方法 | |
CN106528528A (zh) | 文本情感分析的方法及装置 | |
CN106651830A (zh) | 一种基于并行卷积神经网络的图像质量测试方法 | |
CN107292330A (zh) | 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法 | |
CN110163258A (zh) | 一种基于语义属性注意力重分配机制的零样本学习方法及系统 | |
CN111557015B (zh) | 专利地图显示装置及专利地图显示方法 | |
CN109840282A (zh) | 一种基于模糊理论的知识图谱优化方法 | |
CN103136355B (zh) | 一种基于自动阈值鱼群算法的文本聚类方法 | |
CN108509982A (zh) | 一种处理二分类不平衡医学数据的方法 | |
CN104391970B (zh) | 一种属性子空间加权的随机森林数据处理方法 | |
CN108304887A (zh) | 基于少数类样本合成的朴素贝叶斯数据处理系统及方法 | |
CN108763590A (zh) | 一种基于双变加权核fcm算法的数据聚类方法 | |
CN109598296A (zh) | 一种基于改进飞蛾扑火k均值聚类方法 | |
CN108446408A (zh) | 一种基于PageRank的短文本摘要方法 | |
CN108833302A (zh) | 云环境下基于模糊聚类及严格双边匹配的资源分配方法 | |
CN110119772A (zh) | 一种基于几何形状特征融合的三维模型分类方法 | |
CN106843153A (zh) | 面向工艺方案的可重用数控工艺映射方法 | |
CN102254033A (zh) | 基于熵权重的全局k-均值聚类方法 | |
CN111126865A (zh) | 一种基于科技大数据的技术成熟度判断方法和系统 | |
CN110334777A (zh) | 一种加权多视角无监督属性选择方法 | |
CN110109902A (zh) | 一种基于集成学习方法的电商平台推荐系统 | |
CN106503146A (zh) | 计算机文本的特征选择方法、分类特征选择方法及系统 | |
Sheoran et al. | Conditional generative model based predicate-aware query approximation | |
Berntson | The characterization of topology: a comparison of four topological indices for rooted binary trees | |
CN109164794B (zh) | 基于偏f值selm的多变量工业过程故障分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |