CN117251539A - 使用生成式人工智能的专利智能检索系统 - Google Patents
使用生成式人工智能的专利智能检索系统 Download PDFInfo
- Publication number
- CN117251539A CN117251539A CN202311012242.8A CN202311012242A CN117251539A CN 117251539 A CN117251539 A CN 117251539A CN 202311012242 A CN202311012242 A CN 202311012242A CN 117251539 A CN117251539 A CN 117251539A
- Authority
- CN
- China
- Prior art keywords
- search
- retrieval
- information
- interactive
- interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 55
- 230000002452 interceptive effect Effects 0.000 claims abstract description 126
- 230000003993 interaction Effects 0.000 claims abstract description 111
- 230000014509 gene expression Effects 0.000 claims abstract description 78
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000005516 engineering process Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000012550 audit Methods 0.000 claims description 30
- 230000000007 visual effect Effects 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 9
- 238000004140 cleaning Methods 0.000 claims description 8
- 238000013500 data storage Methods 0.000 claims description 6
- 238000002789 length control Methods 0.000 claims description 4
- 239000004973 liquid crystal related substance Substances 0.000 claims description 2
- 108010001267 Protein Subunits Proteins 0.000 claims 2
- 238000000034 method Methods 0.000 description 22
- 238000012549 training Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 15
- 230000011218 segmentation Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种使用生成式人工智能的专利智能检索系统,属于专利智能检索技术领域,解决了现有专利检索系统存在的智能性不强、对检索专业的依赖性强及检索结果可控性差等问题。该系统包括:输入控制模块,用于对输入信息进行预处理,得到匹配于生成式人工智能交互模块的交互输入信息;生成式人工智能交互模块,用于对交互输入信息进行智能交互处理,得到交互输出信息;检索表达式生成模块,用于对交互输出信息是否为技术相关信息进行审核,并对审核通过的交互输出信息进行检索要素解析,得到专利检索表达式;专利智能检索模块,用于对专利检索表达式进行专利智能检索,得到专利检索结果。
Description
技术领域
本发明涉及专利智能检索技术领域,尤其涉及一种使用生成式人工智能的专利智能检索系统。
背景技术
现有的专利智能检索技术通常遵循图1中的流程,即:对专利数据库中的数据全部进行向量化处理,构建检索索引,形成专利检索数据库。对接收到的待检索内容也进行向量化处理,而后编写成专利检索系统可以接受的智能检索表达式,并基于专利检索数据库执行检索。获取到检索结果后,根据检索结果与智能检索表达式的特征匹配情况,进行打分排序,输出最终的检索结果。
一方面,常规专利检索技术中的向量化处理,即对文本内容进行解析,使用切词结果或者文字,在统计的基础上形成特有的文本特征向量。同时,切词后可能还会有同义词、近义词的联想。但是,联想或关联主要基于传统的语义网络分析或统计方式实现,其联想或关联内容往往难以形成条理化的知识解构或者知识总结。由于切词、联想或关联内容难以形成条理化的知识解构或者知识总结。当专利检索的文字高度概括、极其简单且上位(例如“智慧城市”)时,单纯的语义联想很难构成准确的检索要素向量。或者,当专利检索的文字非常繁杂、且在反复描述技术细节时,从大量文字中语义抽取出的要素内容已经完全偏离了其技术主旨,也缺乏结构性,从而使得专利检索的效果较差,甚至出现完全无法实现的困境。因此,传统的专利检索系统,严格意义上来说,只是基于文字的字或词向量生成,过程中附带有限的扩展关联能力,并不存在真实的知识解构或者知识总结能力。很难处理上述两种情况下的待检索内容。
另一方面,专利检索工作对检索人员的专业依赖性较高,对于非技术人员或跨领域的技术人员,难以整理得到匹配的专利检索表达式,从而难以保证专利检索的准确性。
以ChatGPT为代表的生成式人工智能是目前新出现的技术,其特点在于,基于大模型和海量数据的训练得到,且具有高度智能化的问答能力,具备极强的知识解构和知识总结能力。生成式人工智能在知识解构和知识总结这两方面的优点,恰好可以改善传统专利检索系统的缺陷。但是,生成式人工智能存在着返回内容及其结构不完全可控的缺点。
因此,如何在专利检索过程中,利用将生成式人工智能应用于专利智能检索,提升专利检索的智能性和降低检索专业的依赖性,并把检索结果控制在可控范围内,是目前亟需解决的技术问题。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种使用生成式人工智能的专利智能检索系统,用以解决现有专利检索系统存在的智能性不强、对检索专业的依赖性强及检索结果可控性差等问题。
本发明公开了一种使用生成式人工智能的专利智能检索系统,包括:
输入控制模块,用于对输入信息进行预处理,得到匹配于生成式人工智能交互模块的交互输入信息;
生成式人工智能交互模块,用于对交互输入信息进行智能交互处理,得到交互输出信息;
检索表达式生成模块,用于对交互输出信息是否为技术相关信息进行审核,并对审核通过的交互输出信息进行检索要素解析,得到专利检索表达式;
专利智能检索模块,用于对专利检索表达式进行专利智能检索,得到专利检索结果。
在上述方案的基础上,本发明还做出了如下改进:
进一步,所述输入控制模块用于对输入信息进行预处理,包括:对输入信息是否为检索相关问题进行审核;确定审核通过的输入信息对应的检索模式;并根据检索模式,对输入信息进行交互语句重构,得到交互输入信息。
进一步,所述输入控制模块包括:用户输入审核单元、检索模式分类单元和交互输入模板匹配单元;其中,
用户输入审核单元,用于对输入信息是否为检索相关问题进行审核,若是,输入审核通过;否则,输入审核不通过,停止检索;
检索模式分类单元,用于确定审核通过的输入信息对应的检索模式;并基于输入信息对应的检索模式,确定输入信息对应的待检索信息;其中,检索模式为知识解构模式或知识总结模式;当检索模式为知识解构模式,分离输入信息中的非检索性输入信息,得到用户有效输入信息,并将用户有效输入信息作为对应的待检索信息;当检索模式为知识总结时,直接将输入信息作为对应的待检索信息;
交互输入模板匹配单元,用于基于匹配于生成式人工智能模块的交互模板库,对待检索信息和检索模式进行交互语句重构,得到交互输入信息。
进一步,所述检索表达式生成模块包括交互输出信息审核单元和交互输出信息要素解析单元;其中,
交互输出信息审核单元,用于对交互输出信息是否为技术相关信息进行审核,若是,输出审核通过;否则,输出审核不通过,停止检索;
交互输出信息要素解析单元,用于对审核通过的交互输出信息进行检索要素解析,得到专利检索表达式。
进一步,所述交互输出信息要素解析单元包括内容分拆子单元、非检索性输出审核清理子单元和表达式生成子单元;其中,
内容分拆子单元,用于将交互输出信息分拆成非检索性输出信息和若干个检索语句;
非检索性输出审核清理子单元,用于对非检索性输出信息中与显示无关的内容进行审核清理,得到非检索性审核结果;
表达式生成子单元,用于分别将每一检索语句构建成匹配于专利智能检索模块的专利检索表达式。
进一步,所述专利智能检索系统还包括输出控制模块;
所述输出控制模块,用于对专利检索结果进行审核及输出显示控制,得到专利检索显示结果。
进一步,在所述输出控制模块中,对专利检索结果进行审核,包括:
分别判断每一专利检索表达式对应的检索结果集是否为空,
若为空,则返回为空的检索结果集对应的专利检索表达式,并标注相应专利检索表达式检索不通过的原因是检索结果集为空;
否则,判断相应专利检索表达式对应的检索结果集中所有检索结果条目的整体相似度是否超过相似度阈值,
若超过,则返回相应专利检索表达式对应的检索结果集,并标注相应专利检索表达式检索通过;
若不超过,则返回相应专利检索表达式对应的检索结果集,并标注相应专利检索表达式检索不通过的原因是检索结果集相似度不够。
进一步,所述生成式人工智能交互模块中仅包括一种生成式人工智能交互系统,此时,利用该生成式人工智能交互系统直接对交互输入信息进行智能交互处理,得到交互输出信息。
进一步,生成式人工智能交互模块中包括生成式人工智能交互系统A1到AN、综合处理单元、总结模板匹配单元及生成式人工智能交互系统B;此时,
生成式人工智能交互系统A1到AN分别对各自的交互输入信息进行智能交互处理,得到各自的交互输出子信息;
综合处理单元,用于对所有的交互输出子信息进行合并去重及长度控制,得到综合交互输出信息;
总结模板匹配单元,用于基于匹配于生成式人工智能交互系统B的总结交互模板库,对综合交互输出信息进行总结式的交互语句重构,得到总结交互输入信息;
生成式人工智能交互系统B对总结交互输入信息进行智能交互处理,得到交互输出信息。
进一步,所述专利智能检索系统还包括数据存储模块和可视化展示模块;其中,
所述数据存储模块,用于存储专利智能检索中产生的相关数据;所述相关数据包括输入信息、交互输入信息、交互输出信息、专利检索表达式、专利检索结果及专利检索显示结果;
所述可视化展示模块,用于对专利检索显示结果进行可视化展示。
与现有技术相比,本发明至少可实现如下有益效果之一:
本发明提供的一种使用生成式人工智能的专利智能检索系统,具备如下有益效果:
第一,生成式人工智能出现不久,尚未应用到专利智能检索领域,本发明提供了一种使用生成式人工智能的专利智能检索系统,原理上采用多个智能系统串联的方式来实现,配套相关的处理环节。从而实现了生成式人工智能在专利智能检索领域的应用,有效降低了专利检索对检索人员检索水平的依赖性,提升了专利检索的智能性。
第二,通过输入控制模块对输入信息进行预处理,得到匹配于生成式人工智能交互模块的交互输入信息,使得输入至生成式人工智能交互模块的交互信息可控;同时,通过检索表达式生成模块对交互输出信息进行审核,使得输入至专利检索模块的检索表达式可控,且不依赖于检索人员的检索能力,从而使得检索结果也具备较强的可控性和智能性,从而很好地解决了现有专利检索系统存在的智能性不强、对检索专业的依赖性强及检索结果可控性差的问题,有效提升了检索质量。
第三,通过对专利检索结果进行审核及输出显示控制,有效保证了最终呈现给用户的专利检索结果的可靠性和准确性,也可以控制输出显示效果,以满足用户的显示需求。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件;
图1为常规的专利检索技术的流程图;
图2为本发明实施例提供的使用生成式人工智能的专利智能检索系统的结构示意图;
图3为本发明实施例提供的另一使用生成式人工智能的专利智能检索系统的结构示意图;
图4为本发明实施例提供的生成式人工智能交互模块的第二种实现方式的结构示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本发明的一个具体实施例,公开了一种使用生成式人工智能的专利智能检索系统,结构示意图如图2和图3所示,包括:
输入控制模块,用于对输入信息进行预处理,得到匹配于生成式人工智能交互模块的交互输入信息;
生成式人工智能交互模块,用于对交互输入信息进行智能交互处理,得到交互输出信息;
检索表达式生成模块,用于对交互输出信息是否为技术相关信息进行审核,并对审核通过的交互输出信息进行检索要素解析,得到专利检索表达式;
专利智能检索模块,用于对专利检索表达式进行专利智能检索,得到专利检索结果。
与现有技术相比,在本实施例中的使用生成式人工智能的专利智能检索系统,通过输入控制模块对输入信息进行预处理,得到匹配于生成式人工智能交互模块的交互输入信息,使得输入至生成式人工智能交互模块的交互信息可控;同时,通过检索表达式生成模块对交互输出信息进行审核,使得输入至专利检索模块的检索表达式可控,且不依赖于检索人员的检索能力,从而使得检索结果也具备较强的可控性和智能性,从而很好地解决了现有专利检索系统存在的智能性不强、对检索人员的依赖性及检索结果可控性差的问题。
此外,为丰富使用生成式人工智能的专利智能检索系统的功能,使得其具备更强的应用性,该专利智能检索系统还可以包括输出控制模块、可视化展示模块和数据存储模块。其中,
输出控制模块,用于对专利检索结果进行审核及输出显示控制,得到专利检索显示结果;
可视化展示模块,用于对专利检索显示结果进行可视化展示;
所述数据存储模块,用于存储专利智能检索中产生的相关数据;所述相关数据包括用户原始的输入信息、交互输入信息、交互输出信息、专利检索表达式、专利检索结果及专利检索显示结果等,还可以存储专利智能检索中产生的其他中间相关数据。
在本实施例中,借助于上述模块之间的相互配合,共同实现使用生成式人工智能的专利智能检索。具体实现过程描述如下:
(1)输入控制模块
输入控制模块的主要目的是得到匹配于生成式人工智能交互模块的交互输入信息。为此,在本实施例中,输入控制模块用于对输入信息进行预处理,包括:对输入信息是否为检索相关问题进行审核;确定审核通过的输入信息对应的检索模式;并根据检索模式,对输入信息进行交互语句重构,得到交互输入信息。相应地,输入控制模块可以包括用户输入审核单元、检索模式分类单元和交互输入模板匹配单元。
1)用户输入审核单元
由于生成式人工智能存在容易被用户的有意性输入诱导并生成不良的回答信息的缺陷,在本实施例中,为保证输入至生成式人工智能交互模块的信息是与检索相关的内容,而不是发散性内容,因此,可以设置一个用户输入审核单元。
用户输入审核单元,用于对输入信息是否为检索相关问题进行审核,若是,输入审核通过;此时,直接将输入信息输入至检索模式分类单元;否则,输入审核不通过,停止检索;若系统中包括可视化展示模块,还可以通过可视化展示模块显示输入审核不通过(检索错误提示语)。
优选地,用户输入审核单元内置输入审核控制器及多个输入审核组件;输入审核组件可包括检索分类器、检索关键词白名单和检索关键词黑名单。
输入审核控制器用于分别基于输入审核力度及输入审核倾向控制每一输入审核组件是否生效。示例性地,当输入审核力度最大时,生效所有输入审核组件;而当输入审核力度较弱时,生效部分输入审核组件;当输入审核倾向为审核是否为检索问题时,仅生效检索分类器;当输入审核倾向为审核是否包括检索关键词白名单词汇时,仅生效检索关键词白名单;当输入审核倾向为审核是否包括检索关键词黑名单词汇时,仅生效检索关键词黑名单。
同时,若输入审核控制器生效一个输入审核组件,还将该输入审核组件的判别结果直接作为用户输入审核单元的输出结果;若输入审核控制器生效2个及以上的输入审核组件,还将生效的输入审核组件的判别结果串联后的结果(即,对生效的输入审核组件的判别结果取与操作的结果)作为用户输入审核单元的输出结果。通过生效不同的输入审核组件,以调节用户输入审核单元的审核力度。
在本实施例中,检索分类器可基于神经网络训练得到,其主要目的是对输入信息进行“是/否是检索相关问题”的二元分类判断。若是,则检索分类器的判别结果是“输入检索审核通过”;若否,则检索分类器的判别结果是“输入检索审核不通过”。检索分类器可基于通用型CNN神经网络模型获得。具体实施过程中,可事先制作大量的输入信息及其检索标签(示例性地,可设计0、1标签,其中,0代表输入信息是检索相关问题,1代表输入信息不是检索相关问题),形成检索训练样本集。并基于检索训练样本集,对检索分类器对应的神经网络进行多轮训练,训练通过后,得到可用于实际检索相关问题判断的检索分类器。
检索关键词黑名单中包含大量的检索黑名单词汇,若输入信息的切词结果(冗余性切词,即长词策略切完,再用短词策略切,两策略结果均保留)中包含检索黑名单词汇,则判别结果是“输入黑名单审核不通过”;若无,则判别结果是“输入黑名单审核通过”。检索关键词黑名单的来源可以是一般性敏感词词典或相关技术。
检索关键词白名单中包含大量的检索白名单词汇,若输入信息的切词结果(同上)中包含检索白名单词汇,则判别结果是“输入白名单审核通过”;若无,则判别结果是“输入白名单审核不通过”。可以通过专利书籍、资料及专利文献等数据总结得到检索关键词白名单。
最终,用户输入审核单元的输出结果,由检索分类器、检索关键词白名单和检索关键词黑名单的生效情况决定。
2)检索模式分类单元
检索模式分类单元的主要目的是区分当前输入信息的检索需求的实质是“知识解构”还是“知识总结”,以便匹配相应的交互输入模板,并生成相应地与生成式人工智能交互模块进行交互的交互输入信息。
检索模式分类单元,用于确定审核通过的输入信息对应的检索模式;并基于输入信息对应的检索模式,确定输入信息对应的待检索信息;
检索模式为知识解构模式或知识总结模式。其中,知识解构指用于对输入信息进行逐级分解,得到输入信息的知识分解结果;知识总结指对输入信息中包含的技术要点进行概括总结,得到若干个关键技术要点。
检索模式分类单元包括模式判断子单元和非检索性输入信息剥离子单元,各子单元的功能描述如下。
模式判断子单元,用于处理输入信息,确定输入信息对应的检索模式;并当检索模式为知识总结时,将输入信息作为待检索信息、连同输入信息对应的检索模式(知识总结)发送到交互输入模板匹配子单元;而当检索模式为知识解构时,将输入信息发送到非检索性输入信息剥离子单元。
具体实施过程中,可通过多种方式实现模式判断子单元的功能。作为其中一种可选的实施方式,预设一个用户输入文字量阈值,当输入信息的文字量大于用户输入文字量阈值时,认定是复杂信息描述,对应的检索模式为知识总结。而当输入信息的文字量不大于用户输入文字量阈值时,认定是上位概念输入,对应的检索模式为知识解构。
此外,为提升检索模式的分类效果,另外一种可选的实施方式,模式判断子单元还可采用神经网络模型实现,将其转变为知识解构和知识总结的二元分类问题。具体实施过程中,可事先制作大量的输入信息及其检索模式标签(示例性地,可设计0、1标签,其中,0代表输入信息对应的检索模式为知识解构,1代表输入信息对应的检索模式为知识总结),形成检索模式训练样本集。并基于检索模式训练样本集,对神经网络模型进行多轮训练,训练通过后,得到可用于实际检索模式判断的神经网络模型。神经网络实现方式的好处在于,如果未来生成式人工智能的应用场景(检索模式)不仅仅是知识解构和知识总结两种,或者,根据输入的情况需要更加细分的生成式人工智能的交互策略,该方法的可扩展性较强。
非检索性输入信息剥离子单元,用于分离输入信息中的非检索性输入信息,得到用户有效输入信息,将用户有效输入信息作为待检索信息、连同输入信息对应的检索模式(知识解构)发送到交互输入模板匹配子单元。此时,分离出的非检索性输入信息不再用于模式的判断、以及后续的交互和检索。例如,输入信息为“我想知道智慧城市到底有什么有意思的专利”。其实对于后续处理有用的检索类信息只是“智慧城市”四个字,其他均为非检索性输入信息(即干扰信息)。具体实现过程中,非检索性输入信息剥离子单元可采用多种方式实现。示例性地:
(1)设置停用词法:通过设置停用词表,分词之后,将停用词相关的句子段定位并剥离出来。
(2)模型训练法:按照最新的bert模型,无需分词,逐字完成句向量的构造,然后对bert模型进行训练。训练bert模型的任务,其实是“定位该句中有实际检索意义的部分”。任务训练完成之后,即可抽取到有意义的句子主干部分,而不是基于停用词的排除法,保留的句子部分会相对完整一些。即,从输入信息中分离出非检索性输入信息,得到用户有效输入信息。
3)交互输入模板匹配单元
交互输入模板匹配单元,用于基于匹配于生成式人工智能交互模块的交互模板库,对待检索信息和检索模式进行交互语句重构,得到交互输入信息。
在本实施例中,为保证生成式人工智能交互模块的交互输出可控,根据以下原则设计交互模板库中的语法规则:第一,内容可控,不含杜撰或者过多的联想内容;第二,结构可控,便于后续的分拆和对接专利检索系统;第三,长度可控,不至于造成系统的突发拥堵。在上述设计原则的基础上,充分考虑每种类型的生成式人工智能交互系统的特点,通过业务专家跟生成式人工智能交互系统进行大量的交互实验,总结得到每种类型的生成式人工智能交互系统对应的交互模板库中的多种不同形式的语法规则,从而构建相应的交互模板库。多种不同形式的语法规则可提供多种选择,尤其当后续检索结果审核单元审核不通过时,可以通过重新语法规则,达到调整交互输入信息的目的,以调节生成式人工智能交互模块的交互输出信息及后续的专利检索结果。通过这种方式设计得到的交互模板库具备很强的可扩展性。经过大量实践,本实施例还总结出了交互模板库的一种示例,描述如下:
当检索模式为知识解构时,选用的语法规则可以为:“请分项描述【待检索信息】的主要技术”。
当检索模式为知识总结时,选用的语法规则可以为:“请学习如下文字,并分项总结其中的技术要点:【待检索信息】”。
(2)生成式人工智能交互模块
生成式人工智能交互模块接收到交互输入信息后,对交互输入信息进行智能交互处理,以得到交互输出信息。在本实施例中,生成式人工智能交互模块可采用现有的ChatGPT、文心一言或chatGLM等中的至少一种生成式人工智能交互系统实现。
在本实施例中,给出了两种生成式人工智能交互模块的实现方式,描述如下:
第一种:生成式人工智能交互模块中仅包括一种生成式人工智能交互系统,此时,利用该生成式人工智能交互系统直接对交互输入信息进行智能交互处理,得到交互输出信息。
第二种:生成式人工智能交互模块中包括生成式人工智能交互系统A1到AN、综合处理单元、总结模板匹配单元及生成式人工智能交互系统B。此时,各组成的功能描述如下:
生成式人工智能交互系统A1到AN分别对各自的交互输入信息进行智能交互处理,得到各自的交互输出子信息。
综合处理单元,用于对所有的交互输出子信息进行合并去重及长度控制,得到综合交互输出信息;示例性地,综合处理单元仅做简单的合并去重(若有大量概念重复的话),以及长度控制(避免统合后的文字过长,超过生成式人工智能模型B的输入上限)。示例性地,可通过对部分交互输出子信息进行裁剪或剔除处理,实现长度的灵活控制。
总结模板匹配单元,用于基于匹配于生成式人工智能交互系统B的总结交互模板库,对综合交互输出信息进行总结式的交互语句重构,得到总结交互输入信息。示例性地,总结交互模板库中的语法规则可以是:对【综合交互输出信息】进行总结。
生成式人工智能交互系统B对总结交互输入信息进行智能交互处理,得到交互输出信息。即,生成式人工智能交互系统B是用来做二次总结的,有裁判性质,对总结交互输入信息进行总结改写,然后得到交互输出信息。因此,原则上它不应该是生成式人工智能交互系统A1到AN中的任何一个。此时,生成式人工智能交互模块的结构示意图如图4所示。
需要说明的是,由于本实施例旨在实现专利检索,因此,生成式人工智能交互系统的训练语料必须至少包含大量的科技类百科知识,且不能采用非科技类纵深领域的专用型生成式人工智能。例如,使用专利法、专利审查指南、各级专利法规细则等训练的专利领域专用问答机器人,反而不能用于该生成式人工智能交互系统的训练。
(3)检索表达式生成模块
在本实施例中,为保证专利检索表达式的生成效果,检索表达式生成模块包括交互输出信息审核单元和交互输出信息要素解析单元。
1)交互输出信息审核单元
由于生成式人工智能交互模块输出的交互输出信息一定程度上存在不可控的情况,因此,有必要在获取到交互输出信息后增加审核的操作。
交互输出信息审核单元,用于对交互输出信息是否为技术相关信息进行审核,若是,输出审核通过;此时,可以将交互输出信息输入至交互输出信息要素解析单元;否则,输出审核不通过,停止检索;若系统中包括可视化展示模块,还可以通过可视化展示模块显示交互输出信息审核不通过(检索错误提示语)。
具体实现过程中,交互输出信息审核单元内置输出审核控制器及多个输出审核组件;输出审核组件可以包括技术分类器、倾向分类器(若交互输出信息不含不良倾向,表明交互输出信息也不是技术相关问题)、输出审批关键词白名单和输出审批关键词黑名单。
输出审核控制器用于分别基于输出审核力度及输出审核倾向控制每一输出审核组件是否生效,控制方式与输入审核控制器相似。同时,若输出审核控制器生效一个输出审核组件,还将该输出审核组件的判别结果直接作为交互输出信息审核单元的输出结果;若输出审核控制器生效2个及以上的输出审核组件,还将生效的输出审核组件的判别结果串联后的结果(即,对生效的输入审核组件的判别结果取与操作的结果)作为交互输出信息审核单元的输出结果。通过生效不同的输出审核组件,以调节交互输出信息审核单元的审核力度。
技术分类器和倾向分类器均可基于神经网络训练得到。其中,技术分类器是对交互输出信息进行“是/否是技术相关问题”的二元分类判断。而倾向分类器是对交互输出信息进行“是/否包含不良倾向”的二元分类判断。技术分类器和倾向分类器可参考检索分类器的训练过程实现,此处不再赘述。此外,输出审批关键词白名单和输出审批关键词黑名单可根据实际情况进行设置,参考检索关键词白名单和检索关键词黑名单,具体过程不再赘述。
2)交互输出信息要素解析单元
交互输出信息要素解析单元,用于对审核通过的交互输出信息进行检索要素解析,得到专利检索表达式。这里,专利检索表达式对于后续的专利智能检索模块可用。交互输出信息要素解析单元包括内容分拆子单元、非检索性输出审核清理子单元和表达式生成子单元。
内容分拆子单元,用于将交互输出信息分拆成非检索性输出信息和若干个检索语句。
具体实现过程中,交互输出信息中往往包含一些非检索输出信息,例如总结,引言之类的文字,通过预先制定的非检索性信息拆分语法规则,从交互输出信息中剥离出非检索性输出信息。示例性地,判断交互输出信息中的第一句话中是否有概括性词汇或者冒号类语句,若包括,将其作为非检索性输出信息。同时,通过交互句法规则的诱导,将交互输出信息中除非检索性输出信息之外的信息分拆成多个检索语句。示例性地,可以根据交互输出信息中的分段,将交互输出信息中除非检索性输出信息之外的每一段信息分拆成一个检索语句。
非检索性输出审核清理子单元,用于对非检索性输出信息中与显示无关的内容进行审核清理,得到非检索性审核结果。示例性地,这里的审核清理包括去除与呈现无关的内容、整理结构及审核黑名单敏感词等。
表达式生成子单元,用于分别将每一检索语句构建成匹配于专利智能检索模块的专利检索表达式。
在构建匹配于专利智能检索模块的专利检索表达式的过程中,根据不同的专利智能检索系统的检索需求,在检索语句的基础上附加上检索字段或检索逻辑符等内容,拼接得到匹配于专利智能检索模块的专利检索表达式。示例性地,检索语句“1、物联网技术:物联网即物物相连的互联网,通过信息传感设备,按照约定的协议,把任何物品与互联网相连接,进行信息交换和通信,以实现对物品的智能化识别、定位、跟踪、监控和管理的一种网络。”生成的专利检索表达式可能是:
形式1(附加检索字段):
r=(1、物联网技术:物联网即物物相连的互联网,通过信息传感设备,按照约定的协议,把任何物品与互联网相连接,进行信息交换和通信,以实现对物品的智能化识别、定位、跟踪、监控和管理的一种网络。)
形式2(布尔型专利检索系统,附加检索逻辑符):
标题,摘要+=(物联网or信息传感设备or协议or通信or识别or定位or跟踪or监控)。
(4)专利智能检索模块
需要说明的是,由于交互输出信息要素解析单元得到若干个专利检索表达式,每一专利检索表达式会对应一个检索结果集。因此,专利智能检索模块完成检索后,输出的专利检索结果中包括每一专利检索表达式对应的检索结果集,每一个检索结果集包括若干项检索结果条目。
(5)输出控制模块
在得到专利检索结果后,可以根据不同的显示要求,对专利检索结果进行相应处理,以得到专利检索显示结果。示例性地,输出控制模块可以包括检索结果审核单元和结果拼接单元。
1)检索结果审核单元
检索结果审核单元,用于对专利检索结果进行审核,返回检索审核结果。
由于生成式人工智能的输出不可控,因此,需要检索结果审核单元中对专利检索结果是否适合呈现给客户进行审核。
示例性地,检索结果审核单元执行以下操作:
分别判断每一专利检索表达式对应的检索结果集是否为空(若为空,表明该专利检索表达式的检索失效),
若为空,则返回为空的检索结果集对应的专利检索表达式,并标注相应专利检索表达式检索不通过的原因是检索结果集为空;
否则,判断相应专利检索表达式对应的检索结果集中所有检索结果条目的整体相似度是否超过相似度阈值,
若超过,则返回相应专利检索表达式对应的检索结果集,并标注相应专利检索表达式检索通过;
若不超过,则返回相应专利检索表达式对应的检索结果集,并标注相应专利检索表达式检索不通过的原因是检索结果集相似度不够。
若检索审核结果中包含检索不通过的检索表达式,进行下次迭代:重新返回至交互输入模板匹配单元,重新选择交互模板库中的语法规则,并基于重新选择的语法规则对待检索信息和检索模式重新进行交互语句重构,重新得到的交互输入信息依次经过生成式人工智能交互模块、检索表达式生成模块、专利智能检索模块及输出控制模块,重新得到专利检索结果并进行审核。若检索审核结果中不包含检索不通过的检索表达式,或者,迭代次数超过最大迭代次数,停止迭代。将停止迭代时的检索审核结果发送至结果拼接模块。通过多次迭代,从而实现循环往复、逐渐逼近最优专利检索结果的效果。
2)结果拼接单元
结果拼接单元,用于根据可视化展示需求,对检索审核结果进行拼接,或者,对非检索性审核结果和检索审核结果进行组合拼接,得到专利检索显示结果。
示例性地,可视化展示方式可以是文字形式或思维导图方式。
当可视化展示方式为文字形式时,可以对非检索性审核结果和检索审核结果组合进行拼接,形成文字形式的专利检索显示结果。
当可视化展示方式为思维导图形式时,可以对检索审核结果进行思维导图有序拼接,形成思维导图形式的专利检索显示结果。由于当检索模式为知识解构时,可以形成输入信息-专利检索表达式-检索结果集的三级思维导图形式,便于客户更加直观地了解检索结果。
(6)可视化展示模块
可视化展示模块的具体过程不再赘述,采用现有方式实现即可。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种使用生成式人工智能的专利智能检索系统,其特征在于,包括:
输入控制模块,用于对输入信息进行预处理,得到匹配于生成式人工智能交互模块的交互输入信息;
生成式人工智能交互模块,用于对交互输入信息进行智能交互处理,得到交互输出信息;
检索表达式生成模块,用于对交互输出信息是否为技术相关信息进行审核,并对审核通过的交互输出信息进行检索要素解析,得到专利检索表达式;
专利智能检索模块,用于对专利检索表达式进行专利智能检索,得到专利检索结果。
2.根据权利要求1所述的使用生成式人工智能的专利智能检索系统,其特征在于,所述输入控制模块用于对输入信息进行预处理,包括:对输入信息是否为检索相关问题进行审核;确定审核通过的输入信息对应的检索模式;并根据检索模式,对输入信息进行交互语句重构,得到交互输入信息。
3.根据权利要求2所述的使用生成式人工智能的专利智能检索系统,其特征在于,所述输入控制模块包括:用户输入审核单元、检索模式分类单元和交互输入模板匹配单元;其中,
用户输入审核单元,用于对输入信息是否为检索相关问题进行审核,若是,输入审核通过;否则,输入审核不通过,停止检索;
检索模式分类单元,用于确定审核通过的输入信息对应的检索模式;并基于输入信息对应的检索模式,确定输入信息对应的待检索信息;其中,检索模式为知识解构模式或知识总结模式;当检索模式为知识解构模式,分离输入信息中的非检索性输入信息,得到用户有效输入信息,并将用户有效输入信息作为对应的待检索信息;当检索模式为知识总结时,直接将输入信息作为对应的待检索信息;
交互输入模板匹配单元,用于基于匹配于生成式人工智能模块的交互模板库,对待检索信息和检索模式进行交互语句重构,得到交互输入信息。
4.根据权利要求1-3中任一项所述的使用生成式人工智能的专利智能检索系统,其特征在于,所述检索表达式生成模块包括交互输出信息审核单元和交互输出信息要素解析单元;其中,
交互输出信息审核单元,用于对交互输出信息是否为技术相关信息进行审核,若是,输出审核通过;否则,输出审核不通过,停止检索;
交互输出信息要素解析单元,用于对审核通过的交互输出信息进行检索要素解析,得到专利检索表达式。
5.根据权利要求4所述的使用生成式人工智能的专利智能检索系统,其特征在于,所述交互输出信息要素解析单元包括内容分拆子单元、非检索性输出审核清理子单元和表达式生成子单元;其中,
内容分拆子单元,用于将交互输出信息分拆成非检索性输出信息和若干个检索语句;
非检索性输出审核清理子单元,用于对非检索性输出信息中与显示无关的内容进行审核清理,得到非检索性检索结果;
表达式生成子单元,用于分别将每一检索语句构建成匹配于专利智能检索模块的专利检索表达式。
6.根据权利要求5所述的使用生成式人工智能的专利智能检索系统,其特征在于,所述专利智能检索系统还包括输出控制模块;
所述输出控制模块,用于对专利检索结果进行审核及输出显示控制,得到专利检索显示结果。
7.根据权利要求6所述的使用生成式人工智能的专利智能检索系统,其特征在于,在所述输出控制模块中,对专利检索结果进行审核,包括:
分别判断每一专利检索表达式对应的检索结果集是否为空,
若为空,则返回为空的检索结果集对应的专利检索表达式,并标注相应专利检索表达式检索不通过的原因是检索结果集为空;
否则,判断相应专利检索表达式对应的检索结果集中所有检索结果条目的整体相似度是否超过相似度阈值,
若超过,则返回相应专利检索表达式对应的检索结果集,并标注相应专利检索表达式检索通过;
若不超过,则返回相应专利检索表达式对应的检索结果集,并标注相应专利检索表达式检索不通过的原因是检索结果集相似度不够。
8.根据权利要求1所述的使用生成式人工智能的专利智能检索系统,其特征在于,所述生成式人工智能交互模块中仅包括一种生成式人工智能交互系统,此时,利用该生成式人工智能交互系统直接对交互输入信息进行智能交互处理,得到交互输出信息。
9.根据权利要求1所述的使用生成式人工智能的专利智能检索系统,其特征在于,生成式人工智能交互模块中包括生成式人工智能交互系统A1到AN、综合处理单元、总结模板匹配单元及生成式人工智能交互系统B;此时,
生成式人工智能交互系统A1到AN分别对各自的交互输入信息进行智能交互处理,得到各自的交互输出子信息;
综合处理单元,用于对所有的交互输出子信息进行合并去重及长度控制,得到综合交互输出信息;
总结模板匹配单元,用于基于匹配于生成式人工智能交互系统B的总结交互模板库,对综合交互输出信息进行总结式的交互语句重构,得到总结交互输入信息;
生成式人工智能交互系统B对总结交互输入信息进行智能交互处理,得到交互输出信息。
10.根据权利要求6所述的使用生成式人工智能的专利智能检索系统,其特征在于,所述专利智能检索系统还包括数据存储模块和可视化展示模块;其中,
所述数据存储模块,用于存储专利智能检索中产生的相关数据;所述相关数据包括输入信息、交互输入信息、交互输出信息、专利检索表达式、专利检索结果及专利检索显示结果;
所述可视化展示模块,用于对专利检索显示结果进行可视化展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311012242.8A CN117251539B (zh) | 2023-08-11 | 2023-08-11 | 使用生成式人工智能的专利智能检索系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311012242.8A CN117251539B (zh) | 2023-08-11 | 2023-08-11 | 使用生成式人工智能的专利智能检索系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117251539A true CN117251539A (zh) | 2023-12-19 |
CN117251539B CN117251539B (zh) | 2024-04-02 |
Family
ID=89125494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311012242.8A Active CN117251539B (zh) | 2023-08-11 | 2023-08-11 | 使用生成式人工智能的专利智能检索系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117251539B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199858A (zh) * | 2014-08-14 | 2014-12-10 | 中国科学技术信息研究所 | 专利文件的检索方法和可视化专利检索系统 |
CN107748789A (zh) * | 2017-10-31 | 2018-03-02 | 清远恒成智道信息科技有限公司 | 专利检索系统 |
CN110569273A (zh) * | 2019-07-26 | 2019-12-13 | 南京邮电大学 | 一种基于相关性排序的专利检索系统及方法 |
CN111274332A (zh) * | 2020-01-19 | 2020-06-12 | 中国科学院计算技术研究所 | 一种基于知识图谱的专利智能检索方法及系统 |
CN111581349A (zh) * | 2020-04-30 | 2020-08-25 | 沃杰(北京)科技有限公司 | 专利文献的语义检索方法及系统 |
CN115794999A (zh) * | 2023-02-01 | 2023-03-14 | 北京知呱呱科技服务有限公司 | 一种基于扩散模型的专利文档查询方法及计算机设备 |
-
2023
- 2023-08-11 CN CN202311012242.8A patent/CN117251539B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199858A (zh) * | 2014-08-14 | 2014-12-10 | 中国科学技术信息研究所 | 专利文件的检索方法和可视化专利检索系统 |
CN107748789A (zh) * | 2017-10-31 | 2018-03-02 | 清远恒成智道信息科技有限公司 | 专利检索系统 |
CN110569273A (zh) * | 2019-07-26 | 2019-12-13 | 南京邮电大学 | 一种基于相关性排序的专利检索系统及方法 |
CN111274332A (zh) * | 2020-01-19 | 2020-06-12 | 中国科学院计算技术研究所 | 一种基于知识图谱的专利智能检索方法及系统 |
CN111581349A (zh) * | 2020-04-30 | 2020-08-25 | 沃杰(北京)科技有限公司 | 专利文献的语义检索方法及系统 |
CN115794999A (zh) * | 2023-02-01 | 2023-03-14 | 北京知呱呱科技服务有限公司 | 一种基于扩散模型的专利文档查询方法及计算机设备 |
Non-Patent Citations (1)
Title |
---|
梁嘉琦: "探索ChatGPT在专利检索中的应用", pages 1 - 8, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/614186523> * |
Also Published As
Publication number | Publication date |
---|---|
CN117251539B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717339A (zh) | 语义表示模型的处理方法、装置、电子设备及存储介质 | |
CN108268539A (zh) | 基于文本分析的视频匹配系统 | |
CN110321420B (zh) | 基于问句生成的智能问答系统和方法 | |
Nejat et al. | Exploring joint neural model for sentence level discourse parsing and sentiment analysis | |
CN111444330A (zh) | 提取短文本关键词的方法、装置、设备及存储介质 | |
CN111738016A (zh) | 多意图识别方法及相关设备 | |
CN110825867B (zh) | 相似文本推荐方法、装置、电子设备和存储介质 | |
CN115328756A (zh) | 一种测试用例生成方法、装置及设备 | |
US20150026184A1 (en) | Methods and systems for content management | |
CN112434164B (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
CN112100377B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN113761868B (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN107943940A (zh) | 数据处理方法、介质、系统和电子设备 | |
CN106970906A (zh) | 一种基于语句分段的语义分析方法 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN111738018A (zh) | 一种意图理解方法、装置、设备及存储介质 | |
CN114610846A (zh) | 一种启发式仿生知识嫁接策略的知识图谱扩展与补全方法 | |
Li et al. | Intention understanding in human–robot interaction based on visual-NLP semantics | |
CN106970907A (zh) | 一种语义识别方法 | |
Mondal et al. | Improved algorithms for keyword extraction and headline generation from unstructured text | |
CN117251539B (zh) | 使用生成式人工智能的专利智能检索系统 | |
CN115017271B (zh) | 用于智能生成rpa流程组件块的方法及系统 | |
CN110874408B (zh) | 模型训练方法、文本识别方法、装置及计算设备 | |
CN115906818A (zh) | 语法知识预测方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |