CN116795789B - 自动生成专利检索报告的方法及装置 - Google Patents
自动生成专利检索报告的方法及装置 Download PDFInfo
- Publication number
- CN116795789B CN116795789B CN202311070189.7A CN202311070189A CN116795789B CN 116795789 B CN116795789 B CN 116795789B CN 202311070189 A CN202311070189 A CN 202311070189A CN 116795789 B CN116795789 B CN 116795789B
- Authority
- CN
- China
- Prior art keywords
- information
- comparison
- layer
- model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000004458 analytical method Methods 0.000 claims abstract description 91
- 238000012549 training Methods 0.000 claims abstract description 58
- 235000019580 granularity Nutrition 0.000 claims abstract description 24
- 238000013467 fragmentation Methods 0.000 claims abstract description 22
- 238000006062 fragmentation reaction Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 20
- 238000010835 comparative analysis Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 17
- 238000005516 engineering process Methods 0.000 claims description 15
- 238000010276 construction Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 11
- 238000004806 packaging method and process Methods 0.000 claims description 8
- 238000013461 design Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 238000004873 anchoring Methods 0.000 claims description 6
- 230000000052 comparative effect Effects 0.000 claims description 5
- 230000010365 information processing Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/156—Query results presentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种自动生成专利检索报告的方法及装置,该方法包括:获取本方案信息、以及至少一件专利对比文件;对所述专利对比文件进行文本抽取,得到各文本单元;对所述文本单元进行碎片化拆分处理,得到不同粒度的信息单元;将所述信息单元输入预训练得到的对比分析模型,得到对比分析结果;根据所述专利对比文件、所述本方案信息及所述对比分析结果生成报告内容;将所述报告内容及相关信息填充到检索报告模板中,生成专利检索报告。利用本发明方案,可以提升检索报告生成的效率和准确性。
Description
技术领域
本发明涉及信息处理技术领域,具体涉及一种自动生成专利检索报告的方法及装置。
背景技术
随着全球对科技的重视,知识产权对于企业的发展起到的作用越来越大,同时在应对科技自主可控的时代背景下,企业对自身专利的申请越来越重要。在专利申请过程中,一般需要发明人提供专利检索报告及技术交底书。其中专利检索报告的编写一般包含三个阶段:一是根据交底书方向拟订关键词进行专利文献筛选;二是发明人对筛选的专利文献进行阅读分析,并提炼其关键技术信息;三是根据以上信息编写检索报告,并完成对相似专利的技术对比分析,并形成结论。
目前,大部分企业检索报告编写流程仍然是人工处理过程,这将浪费发明人大量的时间。随着信息化、数字的发展,对于检索报告的生成,辅助人工生成报告的技术主要为模板技术方案,其主要实现过程如下:(1)依据检索报告制作模板;(2)根据当前企业信息、发明人信息以及交底书方向,填充检索报告的基本信息;(3)根据检索报告对现有技术分析,预留分析内容位置;(4)预留检索报告最终结论位置;(5)当用户提交生成检索报告请求时,依据模板填充必要的信息,并自动生成检索报告word文档;(6)发明人拿到模板报告后,添加对现有技术的分析章节,同时添加结论。
上述采用模板撰写检索报告的方案,虽然节省了一定的检索报告撰写时间投入,但这种方案仅能生成通用的结构化信息,而对于技术对比分析、检索结论仍然需要发明人手工编写,这需要耗费发明人大量的时间和精力。虽然从数字化技术方向可以节省一些时间的投入,但是仍然无法解决自动提炼现有技术信息,并完成对比分析结论,仍然需要发明人投入时间和精力。
发明内容
本发明提供一种自动生成专利检索报告的方法及装置,提升专利检索报告生成的效率。
为此,本发明提供如下技术方案:
一种自动生成专利检索报告的方法,所述方法包括:
获取本方案信息、以及至少一件专利对比文件;
对所述专利对比文件进行文本抽取,得到各文本单元;
对所述文本单元进行碎片化拆分处理,得到不同粒度的信息单元;
利用所述信息单元及预训练得到的对比分析模型对所述本方案信息进行对比分析,得到对比分析结果;
根据所述专利对比文件、所述本方案信息及所述对比分析结果得到报告内容;
将所述报告内容及相关信息填充到检索报告模板中,生成专利检索报告。
可选地,所述方法还包括:制定信息单元标准;
所述对所述文本单元进行碎片化拆分处理,得到不同粒度的信息单元包括:
按照制定的信息单元标准对所述文本单元进行碎片化拆分处理,得到不同粒度的信息单元。
可选地,所述方法还包括:按照以下方式构建所述对比分析模型:
收集公开的专利检索报告信息,生成训练集;
确定对比分析模型的拓扑结构,所述拓扑结构包括:输入层、语义向量编码层、全连接层、锚定预测层、softmax层、卷积层、输出层;
利用所述训练集训练得到对比分析模型。
可选地,所述利用所述训练集训练得到对比分析模型包括:
对所述训练集进行技术方向分类,得到对应各技术方向的训练子集;
利用对应各技术方向的训练子集训练得到对应所述技术方向的对比分析模型。
可选地,所述根据所述专利对比文件、所述本方案信息及所述对比分析结果得到报告内容包括:
从所述专利对比文件中提取核心语句,根据所述核心语句生成现有技术总体概要;
根据所述本方案信息,生成本方案总体概要及核心技术概要;
将所述现有技术总体概要、所述本方案总体概要及核心技术概要、所述对比分析结果输入预先训练的语言模型,生成检索结论。
可选地,所述方法还包括:按照以下方式构建所述语言模型:
收集公开的专利检索报告及其相关的专利对比文件;
对所述相关的专利对比文件进行文本抽取及碎片化拆分处理,得到不同粒度的信息单元;
对所述信息单元进行文字分割及编码处理,得到不同类型的词汇;
对所述词汇进行封装,产生张量数据;
确定语言模型的拓扑结构,所述拓扑结构包括LSTM模型和FCN网络;
利用所述词汇及所述张量数据训练得到语言模型。
可选地,所述对所述词汇进行封装,产生张量数据包括:
将所述词汇转换为二维数组,产生张量数据。
一种自动生成专利检索报告的装置,所述装置包括:
信息获取模块,用于获取本方案信息、以及至少一件专利对比文件;
文本抽取模块,用于对所述专利对比文件进行文本抽取,得到各文本单元;
拆分模块,用于对所述文本单元进行碎片化拆分处理,得到不同粒度的信息单元;
对比分析模块,用于利用所述信息单元及预训练得到的对比分析模型对所述本方案信息进行对比分析,得到对比分析结果;
内容生成模块,用于根据所述专利对比文件、所述本方案信息及所述对比分析结果得到报告内容;
检索报告生成模块,用于将所述报告内容及相关信息填充到检索报告模板中,生成专利检索报告。
可选地,所述装置还包括:对比模型构建模块,用于构建所述对比分析模型;所述对比模型构建模块包括:
第一采集单元,用于收集公开的专利检索报告信息,生成训练集;
模型结构设计单元,用于确定对比分析模型的拓扑结构,所述拓扑结构包括:输入层、语义向量编码层、全连接层、锚定预测层、softmax层、卷积层、输出层;
第一训练单元,用于利用所述训练集训练得到对比分析模型。
可选地,所述装置还包括:语言模型构建模块,用于构建所述语言模型;所述语言模型构建模块包括:
第二采集单元,用于收集公开的专利检索报告及其相关的专利对比文件;
信息处理单元,用于对所述相关的专利对比文件进行文本抽取及碎片化拆分处理,得到不同粒度的信息单元;
文本处理单元,用于对所述信息单元进行文字分割及编码处理,得到不同类型的词汇;
封装单元,用于对所述词汇进行封装,生成张量数据;
网络设计单元,用于确定语言模型的拓扑结构,所述拓扑结构包括LSTM模型和FCN网络;
第二训练单元,用于利用所述词汇及所述张量数据训练得到语言模型。
本发明提供的自动生成专利检索报告的方法及装置,通过对检索到的专利对比文件进行文本抽取、对抽取得到的文本单元进行碎片化拆分处理,得到不同粒度的信息单元;基于这些信息单元利用对比分析模型,自动生成对比分析结果,然后利用专利对比文件、所述本方案信息及所述对比分析结果生成报告内容,将这些内容填充到检索报告模板中,生成最终的专利检索报告。利用本发明方案,无需用户自己撰写报告内容,大大节省了用户时间和精力,提升了专利检索报告的生成效率。
进一步地,本发明方案通过对专利对比文件进行碎片化处理,为机器分析提供更细粒度的信息单元,在机器进行分析时将能够提升工作效率;而且,通过BERT训练模型,可以根据碎片化信息单元提炼出技术核心,将提炼的信息单元作为对现有技术的分析,应用到检索报告中。另外,应用LSTM模型,使机器具备了写作能力,从而能够自动完成检索结论的生成。
相较于现有技术,本发明方案具有以下优点:
(1)引入专利文件碎片化处理技术,对专利文件按照五书的结构进行解析和存储说明书内容,同时可以实现五书之内按章节、段落、图表进行说明书结构化存储。对后续的分析提供了内容获取便利性,提升了检索报告生成的效率和准确性。
(2)基于分类模型、对比分析模板方案,实现了现有技术对比分析信息的生成。既可以提炼现有技术的核心关键点,同时又能按照分类实现对比分析信息的组织,降低了发明人需要阅读和分析现有说明书文档的时间成本。
(3)组合机器学习和结论模板技术,可以快速生成检索结论描述,从而完整的生成了检索报告文档,减少了发明人在非核心环节的时间投入。
附图说明
图1是本发明提供的自动生成专利检索报告的方法的一种流程图;
图2是本发明实施例中构建对比分析模型的一种流程图;
图3是本发明实施例中对比分析模型的结构示意图;
图4是本发明实施例中构建语言模型的一种流程图;
图5是本发明实施例中语言模型的一种结构示意图;
图6是本发明提供的自动生成专利检索报告的装置的一种结构示意图;
图7是本发明实施例中对比模型构建模块的一种结构示意图;
图8是本发明实施例中语言模型构建模块的一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
针对现有技术中基于人工或者半自动方式生成专利检索报告的方式存在的效率低的问题,本发明提供一种自动生成专利检索报告的方法及装置,针对检索得到的专利对比文件,对其进行文本抽取、碎片化拆分处理,得到不同粒度的信息单元,利用这些信息单元以及预训练得到的对比分析模型,得到对比分析结果,然后基于专利对比文件、本发明信息及对比分析结果生成检索结论;将所述检索结论及相关信息填充到检索报告模板中,生成专利检索报告,即只需提供本发明信息及检索得到的专利对比文件,即可自动生成专利检索报告。
如图1所示,是本发明提供的自动生成专利检索报告的方法的一种流程图。该方法包括以下步骤:
步骤101,获取本方案信息、以及至少一件专利对比文件。
专利对比文件是用户经过检索得到的文件,可以是WORD格式、PDF格式等,可以有一篇或多篇,对此本发明实施例不做限定。需要说明的是,如果是PDF格式文件,还需要通过OCR识别工具对其进行文字识别,得到整个文件的文本。如果其中有图表、图片等内容,同样也需要对图表、图片中的文字进行文字识别,得到图表文本。
本方案信息是指用户自己的技术方案的相关信息,比如可以包括但不限于以下一种或多种信息:发明名称、核心技术概要,进一步地,还可包括检索词等信息。
步骤102,对所述专利对比文件进行文本抽取,得到各文本单元。
需要说明的是,如果专利对比文件中包括图表,对图表中文字也需要进行识别提取,最终,得到整个专利对比文件的文本、图表等信息。
步骤103,对所述文本单元进行碎片化拆分处理,得到不同粒度的信息单元。
具体地,可以预先制定信息单元标准,按照制定的信息单元标准对所述文本单元进行碎片化拆分处理,得到不同粒度的信息单元。
比如,可以先将专利对比文件按照其自身结构拆分为五书,即摘要说明书、摘要附图、权利要求书、说明书、说明书附图;然后再对每书进行章节、段落拆分,得到拆分后的不同粒度的信息单元。
对于上述拆分得到的各信息单元,根据上述逻辑结构,以JSON格式描述各个信息单元,并完成数据的存储。
通过按预设的标准拆分,可以得到结构化的信息单元,而且各信息单元对应的专利对比文件的部分、章节等都会非常明确,比如要查询说明书摘要,则不需要额外的机器学习,可以根据说明书摘要对应的信息单元获取其文本。
步骤104,利用所述信息单元及预训练得到的对比分析模型对所述本方案信息进行对比分析,得到对比分析结果。
所述对比分析模型可以通过收集大量公开的专利检索报告信息训练得到。进一步地,考虑到技术方案涉及的领域非常广泛,而且不同领域的技术相关性较低,因此,为了提高对比分析模型的性能,还可以针对不同技术方向进行分类,分别建立相应的对比分析模型。相应地,对收集的公开的专利检索报告,也需要进行技术方向分类,得到对应各技术方向的训练子集,利用对应各技术方向的训练子集训练得到对应所述技术方向的对比分析模型。
需要说明的是,技术方向的划分可以根据需要来设定,可以有不同粒度,比如,可以按照专利分类号来划分,对此本发明不做限定。
在后面的描述中对所述对比分析模型的描述不再阐述是否针对特定类别,可以是按类别划分,也可以不是,具体根据用户实际需要来确定。
如图2所示,是本发明实施例中构建对比分析模型的一种流程图,包括以下步骤:
步骤201,收集公开的专利检索报告信息,生成训练集。
具体地,可以从相应网站收集一些公开的专利检索报告信息,作为初始训练数据。需要说明的是,还需要对这些数据进行一定的处理,比如,提取相关文本内容,分词、确定词向量等。另外,还需要进行人工标注等处理,比如对分词的干预、剔除干扰项、词性标注等。
步骤202,确定对比分析模型的拓扑结构,所述拓扑结构主要包括:输入层、语义向量编码层、全连接层、锚定预测层、softmax层、卷积层、输出层。
如图3所示,是本发明实施例中对比分析模型的一种结构示意图。
该对比分析模型包括:输入层、语义向量编码层、卷积层、池化层、全连接层、softmax层、1×1卷积层、输出层。其中:
在本发明实施例中,基于公开的检索报告作为输入语料,采用Bert(Bidirectional Encoder Representation from Transformers,来自变换器的双向编码器表征量)、词向量、分词等技术进行预训练模型层搭建,即语义向量编码层。编码层的输出中包含了cls向量,该向量为每一个输入信息单元的语义表示。
对于锚定预测层以任意的锚框,将其填充为高宽相同,锚框通过与卷积层进行卷积运算,得到预测信息。
接着通过池化层降低其对边界的敏感性,保证池化窗口在输入上每次滑动的区域不重叠。接着通过全连接层计算出信息含量更高的、且输出和对比说明书指标数目相同的纬度向量。通过softmax层得到每个分类的概率。为了训练目标检测模型,需要为每个锚框指定标签,所述标签包含两类信息:一是锚框所含目标的类别(标题、段落、公式、图片、表格),二是真实边界框相对锚框的偏移量。目标检测时,首先生成多个锚框,然后为每个锚框预测类别及偏移量,根据预测的偏移量调整锚框位置从而得到预测边界框,最后筛选需要输出的预测边界框,作为对比分析的主要依据。再通过1×1卷积层将每个分类的概率转换为类别向量,最后通过输出层将特征向量转置为多尺度特征模型。
步骤203,利用所述训练集训练得到对比分析模型。
当然,在实际应用中,还可以有其它模型结构,对此本发明实施例不做限定。
在上述步骤104中,需要利用上述预训练得到的对比分析模型,对本方案信息和对专利对比文件进行抽取得到的信息单元进行对比,得到对比分析结果。
需要说明的是,对比分析模型可以包括多个不同类别的技术分析模板。所述技术分析模板描述了生成对比分析结果的主要语句模型。
利用上述对比分析模型,确定对比分析结果的具体过程如下:
首先,从所述信息单元中获取专利对比文件的核心技术片段,比如,说明书摘要、发明内容,作为对现有技术的分析内容,为了描述方便,将其称为现有核心技术。
其次,对本方案信息,应用对比分析模型的分类算法,对其进行智能分类;根据分类信息,从所述对比分析模型中,获取对应类别的技术分析模板。
然后,对本方案信息进行信息抽取,得到本方案核心技术。
最后,套用所述技术分析模板,将现有核心技术、本方案核心技术等组织成技术分析结论,得到对比分析结果。
继续参照图1,在步骤105,根据所述专利对比文件、所述本方案信息及所述对比分析结果生成报告内容。
在一种非限制性实施例中,所述检索结论可以包括但不限于以下几方面:
(1)从所述专利对比文件中提取核心语句,根据所述核心语句生成现有技术总体概要;
(2)根据所述本方案信息,生成本方案总体概要及核心技术概要;
(3)将所述对比分析结果输入预先训练的语言模型,生成检索结论。
当然,在实际应用中,也可以根据用户的检索目的,调整报告内容涵盖的内容,对此本发明不做限定。
所述语言模型可以根据前面收集的公开的专利检索报告相关的专利对比文件训练得到。
如图4所示,是本发明实施例中构建语言模型的一种流程图,包括以下步骤:
步骤401,收集公开的专利检索报告及其相关的专利对比文件。
步骤402,对所述相关的专利对比文件进行文本抽取及碎片化拆分处理,得到不同粒度的信息单元。
文本抽取及碎片化拆分处理的方式可参见前面的描述,在此不再赘述。
步骤403,对所述信息单元进行文字分割及编码处理,得到不同类型的词汇。
具体地,首先依据分词算法对信息单元进行分词,去除无意义的标点符号、空格符号、回车符号等,并对分割出来的词汇按顺序进行编码,在此过程汇中将产生两个词典,分别是词汇到编码(word_code)的词典和编码到词汇(code_word)。
步骤404,对所述词汇进行封装,产生张量数据。
对词汇进行封装主要是将上述步骤403中得到的不同类型的词汇转换为二维组合,产生张量数据,即将预处理模块中产生的词汇编码序列由原来的一维数组转换为二维数组,该二维数据即为张量数据。
将所述张量数据作为样本数据进行语言模型训练。
步骤405,确定语言模型的拓扑结构,所述拓扑结构包括LSTM模型和FCN网络。
所述语言模型的功能主要是通过学习得出语言规律,进而可以自主根据分词的主题进行文本生成。
在一种非限制性实施例中,所述语言模型可以采用图5所示的结构。
如图5所示,所述语言模型选择LSTM(Long Short Term Memory,长短时记忆网络)和FCN(Fully Convolutional Networks,全卷积网络)相结合的模型结构,其中,FCN网络主要对输入的张量数据进行分类特征提取,生成词汇编码;LSTM网络主要用于处理FCN网络生成的词汇编码的长依赖关系,能够阻止因长依赖关系造成的梯度消失和梯度爆炸问题,并对词向量进行建模,构建词向量序列中的语言规律;最终输出语言预测模型。
步骤406,利用所述词汇及所述张量数据训练得到语言模型。
模型训练过程中,首先对模型参数进行初始化,根据上述步骤产生的输入数据进行运算,并进行预测,根据预测的词汇编码同真实的词汇编码进行对比分析,并计算两者之间的误差,根据误差设计损失函数,并选择适合当前模型的优化算法,对网络进行训练和优化。
比如,可以选择交叉熵函数作为损失函数,选择Adam(Adaptivemomentestimation,适应性矩估计)算法作为优化算法,之后不断地迭代训练语言模型,直至模型的损失函数达到默认设定阈值,即表示模型已经达到预期,停止模型训练。
利用上述语言模型,可以自动生成对本方案的总结以及核心技术亮点的总结。
继续参照图1,在步骤106,将所述检索结论及相关信息填充到检索报告模板中,生成专利检索报告。
所述相关信息可以根据专利检索报告的目的需求及模板中的设计内容来确定,比如可以包括但不限于以下任意一种或多种信息:用户信息、组织信息等。这些内容可以按照专利检索报告模板中的位置,进行结构化数据填充即可。
另外,将上述步骤105中得到的现有技术总体概要、本方案总体概要及核心技术概要、以及检索结论,按照模板进行相应内容的填充即可。
经过上述内容填充,可以生成完整的专利检索报告文档。
进一步地,还可以向用户提供文档下载功能,以方便用户获取该文档。
该文档可以作为正式的检索报告应用于专利提交流程,同时也可以作为发明人查看对比文档核心技术总结的说明性文档。
相应地,本发明还提供一种自动生成专利检索报告的装置,如图6所示,是该装置的一种结构示意图。
该实施例提供的自动生成专利检索报告的装置600包括以下各模块:
信息获取模块601,用于获取本方案信息、以及至少一件专利对比文件;
文本抽取模块602,用于对所述专利对比文件进行文本抽取,得到各文本单元;
拆分模块603,用于对所述文本单元进行碎片化拆分处理,得到不同粒度的信息单元;
对比分析模块604,用于将所述信息单元输入预训练得到的对比分析模型,得到对比分析结果;
内容生成模块605,用于根据所述专利对比文件、所述本方案信息及所述对比分析结果得到报告内容;
检索报告生成模块606,用于将所述报告内容及相关信息填充到检索报告模板中,生成专利检索报告。
上述内容生成模块605的一种非限定性结构可以包括以下各单元:
第一信息生成单元,用于从所述专利对比文件中提取核心语句,根据所述核心语句生成现有技术总体概要;
第二信息生成单元,用于根据所述本方案信息,生成本方案总体概要及核心技术概要;
检索结论生成单元,用于将所述现有技术总体概要、所述本方案总体概要及核心技术概要、所述对比分析结果输入预先训练的语言模型,生成检索结论。
在本发明实施例中,所述对比分析模型可以由相应的对比模型构建模块来预先根据收集的专利检索报告信息训练得到。所述对比模型构建模块可作为本装置600的一部分,也可以独立于该装置600,对此本发明不做限定。
如图7所示,是本发明实施例中对比模型构建模块的一种结构示意图。
该对比模型构建模块700包括以下各单元:
第一采集单元701,用于收集公开的专利检索报告信息,生成训练集;
模型结构设计单元702,用于确定对比分析模型的拓扑结构,所述拓扑结构包括:语义向量编码层、全连接层、锚定预测层、softmax层;
第一训练单元703,用于利用所述训练集训练得到对比分析模型。
类似地,所述语言模型可以由相应的语言模型构建模块预先根据收集的大量公开的专利检索报告及其相关的专利对比文件训练得到。所述语言模型构建模块可作为本装置600的一部分,也可以独立于该装置600,对此本发明不做限定。
如图8所示,是本发明实施例中语言模型构建模块的一种结构示意图。
该语言模型构建模块800包括以下各单元:
第二采集单元801,用于收集公开的专利检索报告及其相关的专利对比文件;
信息处理单元802,用于对所述相关的专利对比文件进行文本抽取及碎片化拆分处理,得到不同粒度的信息单元;
文本处理单元803,用于对所述信息单元进行文字分割及编码处理,得到不同类型的词汇;
封装单元804,用于对所述词汇进行封装,生成张量数据;
网络设计单元805,用于确定语言模型的拓扑结构,所述拓扑结构包括LSTM模型和FCN网络;
第二训练单元806,用于利用所述词汇及所述张量数据训练得到语言模型。
关于上述各模块及单元的其他相关描述可以参照前述本发明方法实施例中的相关描述,此处不再赘述。
本发明提供的自动生成专利检索报告的方法及装置,通过对检索到的专利对比文件进行文本抽取、对抽取得到的文本单元进行碎片化拆分处理,得到不同粒度的信息单元;基于这些信息单元利用对比分析模型,自动生成对比分析结果,然后利用专利对比文件、所述本方案信息及所述对比分析结果生成报告内容,将这些内容填充到检索报告模板中,生成最终的专利检索报告。利用本发明方案,无需用户自己撰写报告内容,大大节省了用户时间和精力。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语 “包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。而且,以上所描述的系统实施例仅仅是示意性的,其中作为分离部件说明的模块和单元可以是或者也可以不是物理上分开的,即可以位于一个网络单元上,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及系统,其仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围,本说明书内容不应理解为对本发明的限制。因此,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种自动生成专利检索报告的方法,其特征在于,所述方法包括:
获取本方案信息、以及至少一件专利对比文件;
对所述专利对比文件进行文本抽取,得到各文本单元;
将专利对比文件按照其自身结构拆分为五书,即摘要说明书、摘要附图、权利要求书、说明书、说明书附图;然后再对每书进行章节、段落拆分,得到拆分后的不同粒度的信息单元;
利用所述信息单元及预训练得到的对比分析模型对所述本方案信息进行对比分析,得到对比分析结果;
根据所述专利对比文件、所述本方案信息及所述对比分析结果得到报告内容;
将所述报告内容及相关信息填充到检索报告模板中,生成专利检索报告;
其中,所述根据所述专利对比文件、所述本方案信息及所述对比分析结果得到报告内容包括:
从所述专利对比文件中提取核心语句,根据所述核心语句生成现有技术总体概要;
根据所述本方案信息,生成本方案总体概要及核心技术概要;
将所述现有技术总体概要、所述本方案总体概要及核心技术概要、所述对比分析结果输入预先训练的语言模型,生成检索结论;
其中,所述方法还包括:按照以下方式构建所述对比分析模型:
收集公开的专利检索报告信息,生成训练集;
确定对比分析模型的拓扑结构,所述拓扑结构包括:输入层、语义向量编码层、全连接层、锚定预测层、softmax层、卷积层、输出层;对于锚定预测层以任意的锚框,将其填充为高宽相同,锚框通过与卷积层进行卷积运算,得到预测信息;接着通过池化层降低其对边界的敏感性,保证池化窗口在输入上每次滑动的区域不重叠;通过全连接层计算出信息含量更高的、且输出和对比说明书指标数目相同的纬度向量;通过softmax层得到每个分类的概率;为每个锚框指定标签,所述标签包含两类信息:一是锚框所含目标的类别,二是真实边界框相对锚框的偏移量;目标检测时,首先生成多个锚框,然后为每个锚框预测类别及偏移量,根据预测的偏移量调整锚框位置从而得到预测边界框,最后筛选需要输出的预测边界框,作为对比分析的主要依据;通过1×1卷积层将每个分类的概率转换为类别向量,最后通过输出层将特征向量转置为多尺度特征的对比分析模型;
利用所述训练集训练得到对比分析模型;
所述利用所述训练集训练得到对比分析模型包括:
对所述训练集进行技术方向分类,得到对应各技术方向的训练子集;
利用对应各技术方向的训练子集训练得到对应所述技术方向的对比分析模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:制定信息单元标准;
所述对所述文本单元进行碎片化拆分处理,得到不同粒度的信息单元包括:
按照制定的信息单元标准对所述文本单元进行碎片化拆分处理,得到不同粒度的信息单元。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:按照以下方式构建所述语言模型:
收集公开的专利检索报告及其相关的专利对比文件;
对所述相关的专利对比文件进行文本抽取及碎片化拆分处理,得到不同粒度的信息单元;
对所述信息单元进行文字分割及编码处理,得到不同类型的词汇;
对所述词汇进行封装,产生张量数据;
确定语言模型的拓扑结构,所述拓扑结构包括LSTM模型和FCN网络;
利用所述词汇及所述张量数据训练得到语言模型。
4.根据权利要求3所述的方法,其特征在于,所述对所述词汇进行封装,产生张量数据包括:
将所述词汇转换为二维数组,产生张量数据。
5.一种自动生成专利检索报告的装置,其特征在于,所述装置包括:
信息获取模块,用于获取本方案信息、以及至少一件专利对比文件;
文本抽取模块,用于对所述专利对比文件进行文本抽取,得到各文本单元;
拆分模块,用于将专利对比文件按照其自身结构拆分为五书,即摘要说明书、摘要附图、权利要求书、说明书、说明书附图;然后再对每书进行章节、段落拆分,得到不同粒度的信息单元;
对比分析模块,用于利用所述信息单元及预训练得到的对比分析模型对所述本方案信息进行对比分析,得到对比分析结果;
内容生成模块,用于根据所述专利对比文件、所述本方案信息及所述对比分析结果得到报告内容;
所述内容生成模块包括以下单元:
第一信息生成单元,用于从所述专利对比文件中提取核心语句,根据所述核心语句生成现有技术总体概要;
第二信息生成单元,用于根据所述本方案信息,生成本方案总体概要及核心技术概要;
检索结论生成单元,用于将所述现有技术总体概要、所述本方案总体概要及核心技术概要、所述对比分析结果输入预先训练的语言模型,生成检索结论;
检索报告生成模块,用于将所述报告内容及相关信息填充到检索报告模板中,生成专利检索报告;
所述装置还包括:语言模型构建模块,用于构建所述语言模型;所述语言模型构建模块包括:
第二采集单元,用于收集公开的专利检索报告及其相关的专利对比文件;
信息处理单元,用于对所述相关的专利对比文件进行文本抽取及碎片化拆分处理,得到不同粒度的信息单元;
文本处理单元,用于对所述信息单元进行文字分割及编码处理,得到不同类型的词汇;
封装单元,用于对所述词汇进行封装,生成张量数据;
网络设计单元,用于确定语言模型的拓扑结构,所述拓扑结构包括LSTM模型和FCN网络;
第二训练单元,用于利用所述词汇及所述张量数据训练得到语言模型;对比模型构建模块,用于构建所述对比分析模型;所述对比模型构建模块包括:
第一采集单元,用于收集公开的专利检索报告信息,生成训练集;
模型结构设计单元,用于确定对比分析模型的拓扑结构,所述拓扑结构包括:输入层、语义向量编码层、全连接层、锚定预测层、softmax层、卷积层、输出层;对于锚定预测层以任意的锚框,将其填充为高宽相同,锚框通过与卷积层进行卷积运算,得到预测信息;接着通过池化层降低其对边界的敏感性,保证池化窗口在输入上每次滑动的区域不重叠;通过全连接层计算出信息含量更高的、且输出和对比说明书指标数目相同的纬度向量;通过softmax层得到每个分类的概率;为每个锚框指定标签,所述标签包含两类信息:一是锚框所含目标的类别,二是真实边界框相对锚框的偏移量;目标检测时,首先生成多个锚框,然后为每个锚框预测类别及偏移量,根据预测的偏移量调整锚框位置从而得到预测边界框,最后筛选需要输出的预测边界框,作为对比分析的主要依据;通过1×1卷积层将每个分类的概率转换为类别向量,最后通过输出层将特征向量转置为多尺度特征的对比分析模型;
第一训练单元,用于利用所述训练集训练得到对比分析模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311070189.7A CN116795789B (zh) | 2023-08-24 | 2023-08-24 | 自动生成专利检索报告的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311070189.7A CN116795789B (zh) | 2023-08-24 | 2023-08-24 | 自动生成专利检索报告的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116795789A CN116795789A (zh) | 2023-09-22 |
CN116795789B true CN116795789B (zh) | 2024-04-19 |
Family
ID=88048382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311070189.7A Active CN116795789B (zh) | 2023-08-24 | 2023-08-24 | 自动生成专利检索报告的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116795789B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151052B (zh) * | 2023-11-01 | 2024-01-23 | 北京知呱呱科技有限公司 | 一种基于大语言模型和图算法的专利查询报告生成方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009065146A2 (en) * | 2007-11-15 | 2009-05-22 | Gibbs Andrew H | System and method for conducting a patent search |
CN102214171A (zh) * | 2010-04-01 | 2011-10-12 | 卢士钧 | 自动产生专利书目资料分析报告的方法及其系统 |
CN106156111A (zh) * | 2015-04-03 | 2016-11-23 | 北京中知智慧科技有限公司 | 专利文件检索方法、装置和系统 |
WO2017091829A1 (en) * | 2015-11-29 | 2017-06-01 | Vatbox, Ltd. | System and method for automatic generation of reports based on electronic documents |
CN109710574A (zh) * | 2018-12-25 | 2019-05-03 | 东软集团股份有限公司 | 一种从文献中提取关键信息的方法和装置 |
CN110941711A (zh) * | 2018-09-25 | 2020-03-31 | 深圳市蓝灯鱼智能科技有限公司 | 电子检索报告获取方法和装置、存储介质及电子装置 |
CN111368515A (zh) * | 2020-03-02 | 2020-07-03 | 中国农业科学院农业信息研究所 | 基于pdf文档碎片化的行业动态交互式报告生成方法及系统 |
CN111563160A (zh) * | 2020-04-15 | 2020-08-21 | 华南理工大学 | 基于全局语义的文本自动摘要方法、装置、介质及设备 |
CN112417139A (zh) * | 2020-11-19 | 2021-02-26 | 深圳大学 | 一种基于预训练语言模型的摘要生成方法 |
CN112650783A (zh) * | 2021-01-07 | 2021-04-13 | 甘肃省科学技术情报研究所(甘肃省科学技术发展战略研究院) | 一种科技信息检索方法及系统 |
CN113196278A (zh) * | 2018-10-13 | 2021-07-30 | 伊普拉利技术有限公司 | 训练自然语言检索系统的方法、检索系统以及对应的用途 |
CN114580556A (zh) * | 2022-03-10 | 2022-06-03 | 北京中知智慧科技有限公司 | 专利文献的预评估方法及装置 |
CN115329850A (zh) * | 2022-08-02 | 2022-11-11 | 北京百度网讯科技有限公司 | 信息比对方法、装置、电子设备及存储介质 |
CN116187163A (zh) * | 2022-12-20 | 2023-05-30 | 北京知呱呱科技服务有限公司 | 一种用于专利文件处理的预训练模型的构建方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102270244B (zh) * | 2011-08-26 | 2013-03-13 | 四川长虹电器股份有限公司 | 基于核心语句的网页内容关键词快速提取方法 |
US20140006926A1 (en) * | 2012-06-29 | 2014-01-02 | Vijaykalyan Yeluri | Systems and methods for natural language processing to provide smart links in radiology reports |
CN113168499A (zh) * | 2018-10-13 | 2021-07-23 | 伊普拉利技术有限公司 | 检索专利文档的方法 |
CN112966097A (zh) * | 2021-03-09 | 2021-06-15 | 华泰证券股份有限公司 | 一种基于nlp的上市公司财务快讯自动生成方法及系统 |
CN115617980A (zh) * | 2022-11-08 | 2023-01-17 | 云知声智能科技股份有限公司 | 一种诉讼案例检索报告生成方法及系统 |
CN116226526A (zh) * | 2023-03-03 | 2023-06-06 | 慧彦知识产权服务有限公司 | 一种知识产权智能检索平台及方法 |
-
2023
- 2023-08-24 CN CN202311070189.7A patent/CN116795789B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009065146A2 (en) * | 2007-11-15 | 2009-05-22 | Gibbs Andrew H | System and method for conducting a patent search |
CN102214171A (zh) * | 2010-04-01 | 2011-10-12 | 卢士钧 | 自动产生专利书目资料分析报告的方法及其系统 |
CN106156111A (zh) * | 2015-04-03 | 2016-11-23 | 北京中知智慧科技有限公司 | 专利文件检索方法、装置和系统 |
WO2017091829A1 (en) * | 2015-11-29 | 2017-06-01 | Vatbox, Ltd. | System and method for automatic generation of reports based on electronic documents |
CN110941711A (zh) * | 2018-09-25 | 2020-03-31 | 深圳市蓝灯鱼智能科技有限公司 | 电子检索报告获取方法和装置、存储介质及电子装置 |
CN113196278A (zh) * | 2018-10-13 | 2021-07-30 | 伊普拉利技术有限公司 | 训练自然语言检索系统的方法、检索系统以及对应的用途 |
CN109710574A (zh) * | 2018-12-25 | 2019-05-03 | 东软集团股份有限公司 | 一种从文献中提取关键信息的方法和装置 |
CN111368515A (zh) * | 2020-03-02 | 2020-07-03 | 中国农业科学院农业信息研究所 | 基于pdf文档碎片化的行业动态交互式报告生成方法及系统 |
CN111563160A (zh) * | 2020-04-15 | 2020-08-21 | 华南理工大学 | 基于全局语义的文本自动摘要方法、装置、介质及设备 |
CN112417139A (zh) * | 2020-11-19 | 2021-02-26 | 深圳大学 | 一种基于预训练语言模型的摘要生成方法 |
CN112650783A (zh) * | 2021-01-07 | 2021-04-13 | 甘肃省科学技术情报研究所(甘肃省科学技术发展战略研究院) | 一种科技信息检索方法及系统 |
CN114580556A (zh) * | 2022-03-10 | 2022-06-03 | 北京中知智慧科技有限公司 | 专利文献的预评估方法及装置 |
CN115329850A (zh) * | 2022-08-02 | 2022-11-11 | 北京百度网讯科技有限公司 | 信息比对方法、装置、电子设备及存储介质 |
CN116187163A (zh) * | 2022-12-20 | 2023-05-30 | 北京知呱呱科技服务有限公司 | 一种用于专利文件处理的预训练模型的构建方法及系统 |
Non-Patent Citations (3)
Title |
---|
专利引文的创建及其检索应用(上);李蓓 等;中国发明与专利(第02期);67-70 * |
专利智能检索的有效性分析;洪兵 等;中国发明与专利(第08期);53-56 * |
基于人工免疫的Web文本自动摘要方法研究;李士勇;现代计算机(第15期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116795789A (zh) | 2023-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783394B (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN110334186B (zh) | 数据查询方法、装置、计算机设备及计算机可读存储介质 | |
CN111190997A (zh) | 一种使用神经网络和机器学习排序算法的问答系统实现方法 | |
CN110929038A (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
KR102155768B1 (ko) | 학습을 통하여 진화하는 질의응답 데이터 셋을 이용한 쇼핑몰 질의응답 추천 서비스 제공 방법 | |
CN116821318B (zh) | 基于大语言模型的业务知识推荐方法、装置及存储介质 | |
CN113961685A (zh) | 信息抽取方法及装置 | |
CN111831789A (zh) | 一种基于多层语义特征提取结构的问答文本匹配方法 | |
CN116795789B (zh) | 自动生成专利检索报告的方法及装置 | |
CN110245227B (zh) | 文本分类的融合分类器的训练方法及设备 | |
CN111858842A (zh) | 一种基于lda主题模型的司法案例筛选方法 | |
CN113051887A (zh) | 一种公告信息元素抽取方法、系统及装置 | |
CN111078546B (zh) | 一种表达页面特征的方法和电子设备 | |
CN114936565A (zh) | 主旨信息提取方法及装置 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN115587583A (zh) | 噪声的检测方法、装置及电子设备 | |
CN115390806A (zh) | 基于双模态联合建模的软件设计模式推荐方法 | |
CN111581964A (zh) | 一种汉语古籍的主题分析方法 | |
CN113076720B (zh) | 长文本的分段方法及装置、存储介质、电子装置 | |
CN112632948B (zh) | 案件文书排序方法及相关设备 | |
CN113642569A (zh) | 非结构化数据文档处理方法及相关设备 | |
CN112749566B (zh) | 一种面向英文写作辅助的语义匹配方法及装置 | |
CN113408287B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
Sravya et al. | Text Categorization of Telugu News Headlines | |
CN114298048A (zh) | 命名实体识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |