CN112906378A - 用于辅助文本生成的方法和设备与存储介质 - Google Patents
用于辅助文本生成的方法和设备与存储介质 Download PDFInfo
- Publication number
- CN112906378A CN112906378A CN202110346620.0A CN202110346620A CN112906378A CN 112906378 A CN112906378 A CN 112906378A CN 202110346620 A CN202110346620 A CN 202110346620A CN 112906378 A CN112906378 A CN 112906378A
- Authority
- CN
- China
- Prior art keywords
- text
- objects
- texts
- vectors
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了用于辅助文本生成的方法和设备与存储介质。该用于辅助文本生成的方法包括:获取对象集合,其中,所述对象集合包括多个对象;抽取所述多个对象中的多个第一文本,并选取所述多个第一文本中的多个第二文本;利用映射表将所述多个第二文本组合以生成组合文本。
Description
技术领域
本公开的实施例涉及文本处理领域,特别涉及一种用于辅助文本生成的方法和设备与存储介质。
背景技术
发明人在发明创造过程中,会耗费好多时间构建想法idea。并即使在有了idea之后也非常难落在纸面上或者形成文档,更别提提供一份高质量的技术交底书了。技术交底书,是发明人把他的专利技术构思写下来,供专利代理人撰写专利说明书时参考的技术文档,也是发明人与代理人之间沟通的基本素材和基础。简单地说,技术交底书就是发明人把脑袋里的构思变成文字的结果。
现有技术中,并没有任何技术可以自动生成技术交底书;也更没有在自动生成技术交底书基础上,还为研发人员提供参考信息,以使研发人员进一步完善形成高质量的技术交底书,即现有技术中并不存在辅助研发人员如果形成高质量技术交底书的技术。
发明内容
本公开至少一个实施例提供了用于辅助文本生成的方法和设备与存储介质。该用于辅助文本生成利用组合发明原则,基于用户输入的短短一段idea描述自动生成技术交底书,取得了快速生成技术交底书、并为研发人员提供参考信息,以使研发人员进一步完善形成高质量的技术交底书的有益效果。
根据本公开的第一方面,至少一个实施例提供了用于辅助文本生成的方法,所述方法包括:获取对象集合,其中,所述对象集合包括多个对象;抽取所述多个对象中的多个第一文本,并选取所述多个第一文本中的多个第二文本;利用映射表将所述多个第二文本组合以生成组合文本。
结合第一方面及其上述实现方式,获取对象集合包括:获取输入信息,其中,所述输入信息为输入文本;利用关键词检索和/或语义检索,得到与所述输入文本相关的多个对象。
结合第一方面及其上述实现方式,利用关键词检索得到与所述输入文本相关的多个对象包括:获取输入文本中的多个关键词;通过Elasticsearch到第一数据库检索与所述输入文本相关的多个专利对象,其中,所述第一数据库存储有经结巴分词的多个待检索专利对象,所述Elasticsearch根据所述结巴分词建立的词语索引对所述多个待检索专利对象进行全文检索。
结合第一方面及其上述实现方式,所述Elasticsearch被安装在多块SSD硬盘组成的raid0硬盘空间上。
结合第一方面及其上述实现方式,利用语义检索得到与所述输入文本相关的多个对象包括:利用第一语义检索得到与所述输入文本相关的多个对象,其中,利用第一语义检索得到与所述输入文本相关的多个对象包括:截取输入文本中的句文本;到第二数据库匹配与所述句文本的向量欧式距离低于阈值的多个第二向量,其中,所述向量采用WordEmbedding和TF-IDF结合的方式来表示语义,所述第二数据库存储有多个待匹配专利对象的多个第一向量,所述多个第一向量包括所述多个第二向量;得到与所述多个第二向量对应的多个专利对象;和/或利用第二语义检索得到与所述输入文本相关的多个对象,其中,利用第二语义检索得到与所述输入文本相关的多个对象包括:到第三数据库匹配与所述输入文本的向量欧式距离低于阈值的多个第三向量,其中,所述向量采用Word Embedding和TF-IDF结合的方式来表示语义,所述第三数据库存储有多个待匹配专利对象的多个第四向量,所述多个第四向量包括所述多个第三向量;得到与所述多个第三向量对应的多个专利对象。
结合第一方面及其上述实现方式,所述对象包括第一部分、第二部分和第三部分,其特征在于,抽取所述多个对象中的多个第一文本包括:抽取所述多个对象的多个第一部分中多个第一部分对象文本;抽取所述多个对象的多个第二部分中多个第二部分对象文本;抽取所述多个对象的多个第三部分中多个第三部分对象文本。
结合第一方面及其上述实现方式,所述第一部分包括技术领域部分、背景技术部分和发明内容部分,其特征在于,抽取所述多个对象的多个第一部分中多个第一部分对象文本包括:利用关键词“技术领域”或“相关领域”,抽取所述多个第一对象的多个技术领域部分中多个技术领域对象文本;利用关键词“相关背景”或“背景技术”或“技术背景”,抽取所述多个第一对象的多个背景技术部分中多个背景技术对象文本;利用关键词“发明内容”或“实用新型内容”或“公开内容”,抽取所述多个第一对象的多个发明内容部分中多个发明内容对象文本。
结合第一方面及其上述实现方式,所述第二部分包括权利要求书部分,所述权利要求书部分包括第一独立权利要求和从属权利要求,所述第一独立权利要求包括第一独立前序部分和第一独立特征部分,所述从属权利要求包括从属前序部分和从属特征部分,其特征在于,抽取所述多个对象的多个第二部分中多个第二部分对象文本包括:抽取所述多个第一对象的多个第一独立权利要求中多个第一独立前序部分对象文本;抽取所述多个第一对象的多个第一独立权利要求中多个第一独立特征部分对象文本;抽取所述多个第一对象的多个从属权利要求中多个从属特征部分对象文本,其中,抽取所述多个第一对象的多个从属权利要求中多个从属特征部分对象文本包括:将所述多个第一独立特征部分对象文本与所述多个从属权利要求的多个从属前序部分进行语义匹配,得到多个第一从属权利要求;抽取所述多个第一从属权利要求中多个从属特征部分对象文本。
结合第一方面及其上述实现方式,将所述多个第一独立特征部分对象文本与所述多个从属权利要求的多个从属前序部分进行语义匹配,得到多个第一从属权利要求包括:通过RoBERTa模型生成所述多个第一独立特征部分对象文本的多个第一独立特征部分对象文本向量;通过RoBERTa模型生成所述多个从属前序部分的多个从属前序部分对象文本向量;基于所述多个第一独立特征部分对象文本向量与所述多个从属前序部分对象文本向量的余弦相似度,匹配出与所述多个第一独立特征部分对象文本相关的多个第一从属权利要求。
结合第一方面及其上述实现方式,所述第三部分包括具体实施例部分,其特征在于,抽取所述多个对象的多个第三部分中多个第三部分对象文本包括:将所述多个第一独立特征部分对象文本与所述多个对象的多个具体实施例部分进行语义匹配;抽取所述语义匹配出的多个第一具体实施例对象文本;将所述多个从属特征部分对象文本与所述多个对象的多个具体实施例部分进行语义匹配;抽取所述语义匹配出的多个第二具体实施例对象文本。
结合第一方面及其上述实现方式,选取所述多个第一文本中的多个第二文本包括:从多个技术领域对象文本中选取至少一个技术领域对象文本;从多个背景技术对象文本中选取至少一个背景技术对象文本;从多个发明内容对象文本中选取至少一个发明内容对象文本;从多个第一独立前序部分对象文本中选取至少一个第一独立前序部分对象文本;从多个第一独立特征部分对象文本中选取至少一个第一独立特征部分对象文本;从多个从属特征部分对象文本中选取至少一个从属特征部分对象文本;从多个第一具体实施例对象文本中选取至少一个第一具体实施例对象文本;从多个第二具体实施例对象文本中选取至少一个第二具体实施例对象文本。
结合第一方面及其上述实现方式,所述组合文本包括组合文本名称、组合文本技术领域、组合文本背景技术、组合文本性能优势、组合文本方案详情;所述映射表包括:组合文本名称与第一独立前序部分对象文本映射关系,组合文本技术领域与技术领域对象文本映射关系,组合文本背景技术与背景技术对象文本映射关系,组合文本性能优势与发明内容对象文本映射关系,组合文本方案详情与第一独立特征部分对象文本、从属特征部分对象文本、第一具体实施例对象文本、第二具体实施例对象文本的映射关系;利用映射表将所述多个第二文本组合以生成组合文本包括:利用组合文本名称与第一独立前序部分对象文本映射关系,从至少一个第一独立前序部分对象文本选取目标第一独立前序部分对象文本作为组合文本名称;利用组合文本技术领域与技术领域对象文本映射关系,从至少一个技术领域对象文本选取目标技术领域对象文本作为组合文本技术领域;利用组合文本背景技术与背景技术对象文本映射关系,从至少一个背景技术对象文本选取目标背景技术对象文本作为组合文本背景技术;利用组合文本性能优势与发明内容对象文本映射关系,从至少一个发明内容对象文本选取目标发明内容对象文本作为组合文本性能优势;利用组合文本方案详情与第一独立特征部分对象文本、从属特征部分对象文本、第一具体实施例对象文本、第二具体实施例对象文本的映射关系,从至少一个第一独立特征部分对象文本选取目标第一独立特征部分对象文本,从至少一个从属特征部分对象文本选取目标从属特征部分对象文本,从至少一个第一具体实施例对象文本选取目标第一具体实施例对象文本,从至少一个第二具体实施例对象文本选取目标第二具体实施例对象文本,以此作为组合文本方案详情。
结合第一方面及其上述实现方式,组合文本方案详情包括三个一级节点和九个二级节点,每个一级节点下都包括有一级节点详情,每个二级节点下都包括有二级节点详情;所述组合文本方案详情与第一独立特征部分对象文本、从属特征部分对象文本、第一具体实施例对象文本、第二具体实施例对象文本的映射关系包括:三个一级节点与第一独立特征部分对象文本的映射关系,九个二级节点与从属特征部分对象文本的映射关系,三个一级节点详情与第一具体实施例对象文本的映射关系,九个二级节点详情与第二具体实施例对象文本的映射关系;其特征在于,从至少一个第一独立特征部分对象文本选取目标第一独立特征部分对象文本,从至少一个从属特征部分对象文本选取目标从属特征部分对象文本,从至少一个第一具体实施例对象文本选取目标第一具体实施例对象文本,从至少一个第二具体实施例对象文本选取目标第二具体实施例对象文本,以此作为组合文本方案详情还包括:利用三个一级节点与第一独立特征部分对象文本的映射关系,从至少一个第一独立特征部分对象文本选取目标第一独立特征部分对象文本作为组合文本方案详情的三个一级节点;利用九个二级节点与从属特征部分对象文本的映射关系,从至少一个从属特征部分对象文本选取目标从属特征部分对象文本作为组合文本方案详情的九个二级节点;利用三个一级节点详情与第一具体实施例对象文本的映射关系,从至少一个第一具体实施例对象文本选取目标第一具体实施例对象文本作为组合文本方案详情的三个一级节点详情;利用九个二级节点详情与第二具体实施例对象文本的映射关系,从至少一个第二具体实施例对象文本选取目标第二具体实施例对象文本作为组合文本方案详情的九个二级节点详情。
根据本公开的第二方面,至少一个实施例还提供了用于辅助文本的设备,包括:处理器;以及存储器,配置为存储计算机程序指令,所述计算机程序指令适于由所述处理器加载并执行第一方面上述用于辅助文本生成的方法。
根据本公开的另一方面,至少一个实施例还提供了用于辅助文本的系统,包括上述用于辅助文本的设备。
根据本公开的另一方面,至少一个实施例还提供了一种计算机可读的非易失性存储介质,存储计算机程序指令,当所述计算机执行所述程序指令时,执行第一方面上述用于辅助文本生成的方法。
通过本公开上述实施例,基于用户输入的短短idea获取多个对象,抽取多个对象中的多个第一文本,并选取所述多个第一文本中的多个第二文本,利用基于组合发明原则制定的映射表将所述多个第二文本组合以生成组合文本,取得了快速生成技术交底书、并为研发人员提供参考信息,以使研发人员进一步完善形成高质量的技术交底书的有益效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单地介绍,显而易见地,下面描述中的附图仅仅涉及本发明的一些实施例,而非对本发明的限制。
图1是根据本公开实施例的用于辅助文本生成的方法的流程图;
图2是根据本公开实施例的用于辅助文本的设备示意图。
具体实施方式
为了使本技术领域的人员更好地理解本公开方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本公开的至少一个实施例提供了用于辅助文本的系统,该系统至少用于辅助生成技术交底书、辅助生成专利申请文件,该系统可以包括:用于辅助文本生成的设备。本公开的至少一个实施例提供了如图2所示的用于辅助文本的设备,包括:处理器201;以及存储器202,配置为存储计算机程序指令,计算机程序指令适于由处理器加载并执行本发明所研发的用于辅助文本生成的方法。可选的,本公开的至少一个实施例提供了一种计算机可读的非易失性存储介质,存储计算机程序指令,当计算机执行程序指令时,执行本发明所研发的用于辅助文本生成的方法。
该处理器201可以为各种适用的处理器,例如实现为中央处理器、微处理器、嵌入处理器等形式,可以采用X86、ARM等架构。存储器202可以为各种适用的存储装置,例如非易失性存储装置,包括但不限于磁存储装置、半导体存储装置、光存储装置等,并且可以布置为单个存储装置、存储装置阵列或分布式存储装置,本公开的实施例对这些不作限制。
本领域普通技术人员可以理解,上述文本生成设备的结构仅为示意,其并不对文本生成设备的结构造成限定。例如,文本生成设备还可包括比图2中所示更多或者更少的组件(如传输装置)。上述的传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置包括一个网络适配器(NetworkInterfaceController,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
在上述运行环境下,本公开的至少一个实施例提供了如图1所示的用于辅助文本生成的方法流程图,可以应用于用于辅助文本生成的设备,由处理器201加载并执行,以至少解决自动生成技术交底书、自动生成专利申请文件的问题。需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。如图1所示,该方法可以包括如下步骤:
步骤S101,获取对象集合,其中,对象集合包括多个对象;
步骤S103,抽取多个对象中的多个第一文本,并选取多个第一文本中的多个第二文本;
步骤S105,利用映射表将多个第二文本组合以生成组合文本。
通过本公开上述实施例,基于用户输入的短短idea获取多个对象,抽取多个对象中的多个第一文本,并选取多个第一文本中的多个第二文本,利用基于组合发明原则制定的映射表将多个第二文本组合以生成组合文本,取得了快速生成技术交底书、并为研发人员提供参考信息,以使研发人员进一步完善形成高质量的技术交底书的有益效果。
在步骤S101中,获取对象集合可以包括:获取输入信息,其中,输入信息为输入文本;利用关键词检索和/或语义检索,得到与输入文本相关的多个对象。上述对象可以为专利对象、科技文献、论文期刊等,该专利对象为专利文献。上述输入文本可以为一段话(用T表述),即用户可将自己拟申请专利的想法或idea描述成短短的一段话。
这里,利用关键词检索得到与输入文本相关的多个对象可以包括:获取输入文本中的多个关键词;通过Elasticsearch到第一数据库检索与输入文本相关的多个专利对象,其中,第一数据库存储有经结巴分词的多个待检索专利对象,Elasticsearch根据结巴分词建立的词语索引对多个待检索专利对象进行全文检索,Elasticsearch被安装在多块SSD硬盘组成的raid0硬盘空间上。可以看出,该第一数据库是存储专利文献的全文库,应用Elasticsearch+结巴分词技术,基于一段话T到全文库进行关键词检索,获取与T相关的多个专利文献。
上述Elasticsearch是一个分布式的免费开源搜索和分析引擎,适用于包括文本、数字、地理空间、结构化和非结构化数据等在内的所有类型的数据。Elasticsearch在Apache Lucene的基础上开发而成,Elasticsearch以其简单的REST风格API、分布式特性、速度和可扩展性而闻名。结巴分词是一款非常流行中文开源分词包,具有高性能、高准确率、可扩展性等特点。我们应用Elasticsearch+结巴分词技术,结巴分词将专利文献分词,然后将分词过后的专利文献存入Elasticsearch服务器中,通过Elasticsearch全文搜索的功能检索出相关文件。这里,针对亿级数据入库难问题,可采取批量入库和断点续传等方法完成了入库;针对全文搜索慢问题,可采取将Elasticsearch安装在多块SSD硬盘组成的raid0硬盘空间上,并对Elasticsearch的配置文件进行了优化确保检索速度。
需要说明的是,RAID 0提高存储性能的原理是把连续的数据分散到多个磁盘上存取,这样,系统有数据请求就可以被多个磁盘并行的执行,每个磁盘执行属于它自己的那部分数据请求,这种数据上的并行操作可以充分利用总线的带宽,显著提高磁盘整体存取性能。而Elasticsearch的检索性能主要依赖于存放数据的读写性能,所以将Elasticsearch安装在多块SSD硬盘组成的raid0硬盘空间上就可以提升检索速度。
另外,Elasticsearch全文检索是指计算机索引程序通过扫描专利文献中的每一个词,对每一个词建立一个索引,指明该词在专利文献中出现的次数和位置。当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式,Elasticsearch全文检索具有高性能等优点。
这里,利用语义检索得到与输入文本相关的多个对象可以包括:利用第一语义检索和/或第二语义检索得到与输入文本相关的多个对象。也就是说,本方案不仅可以利用关键词检索获取与T相关的多个专利文献,还可以利用语义检索获取与T相关的多个专利文献。
其中,利用第一语义检索得到与输入文本相关的多个对象可以包括:截取输入文本中的句文本,该句文本可以为输入文本的第一句(用T1表示);到第二数据库匹配与句文本的向量欧式距离低于阈值的多个第二向量,其中,向量采用Word Embedding和TF-IDF结合的方式来表示语义,第二数据库存储有多个待匹配专利对象的多个第一向量,多个第一向量包括多个第二向量;得到与多个第二向量对应的多个专利对象。上述Word Embedding是NLP中一组语言模型和特征学习技术的总称,把词汇表中的单词或者短语映射成由实数构成的向量上(映射)。上述TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
可选的,该第二数据库可以为标题库,该标题库存储有多个待匹配专利对象的标题向量。即本方案可以计算T1的向量表示和标题库中全部标题的向量表示的欧氏距离,得到最相似的多个标题,以此获取与T相关的多个专利文献。同时,可以看出这种暴力的方法进行语义检索,耗时巨大,因此可使用Faiss(Facebook AI Similarity Search)来解决这个问题。Faiss是一个开源库,针对高维空间中的海量数据,提供了高效且可靠的检索方法。
其中,利用第二语义检索得到与输入文本相关的多个对象可以包括:到第三数据库匹配与输入文本的向量欧式距离低于阈值的多个第三向量,其中,向量采用WordEmbedding和TF-IDF结合的方式来表示语义,第三数据库存储有多个待匹配专利对象的多个第四向量,多个第四向量包括多个第三向量;得到与多个第三向量对应的多个专利对象。
可选的,该第三数据库可以为是存储专利文献的全文库,只不过各专利文献通过句向量形式存储。即本方案可以计算T的向量表示和全文库中全部句向量表示的欧氏距离,以此获取与T相关的多个专利文献。
在步骤S103中,对象包括第一部分、第二部分和第三部分。倘若该对象为专利文献的话,该第一部分为技术领域部分、背景技术部分和发明内容部分,该第二部分为权利要求书部分,该第三部分为具体实施例部分。抽取多个对象中的多个第一文本可以包括:
抽取多个对象的多个第一部分中多个第一部分对象文本。其中,第一部分包括技术领域部分、背景技术部分和发明内容部分,利用关键词“技术领域”或“相关领域”,抽取多个第一对象的多个技术领域部分中多个技术领域对象文本;利用关键词“相关背景”或“背景技术”或“技术背景”,抽取多个第一对象的多个背景技术部分中多个背景技术对象文本;利用关键词“发明内容”或“实用新型内容”或“公开内容”,抽取多个第一对象的多个发明内容部分中多个发明内容对象文本。假设在步骤S101中,基于T获取了20个专利文献的话,此处即抽取这20个专利文献的技术领域内容、背景技术内容和发明内容。
抽取多个对象的多个第二部分中多个第二部分对象文本。其中,第二部分包括权利要求书部分,权利要求书部分包括第一独立权利要求和从属权利要求,第一独立权利要求包括第一独立前序部分和第一独立特征部分,从属权利要求包括从属前序部分和从属特征部分,抽取多个第一对象的多个第一独立权利要求中多个第一独立前序部分对象文本;抽取多个第一对象的多个第一独立权利要求中多个第一独立特征部分对象文本;抽取多个第一对象的多个从属权利要求中多个从属特征部分对象文本。假设在步骤S101中,基于T获取了20个专利文献的话,此处即抽取这20个专利文献的第一独立权利要求和从属权利要求。
可选的,抽取多个第一对象的多个从属权利要求中多个从属特征部分对象文本还可以包括:将多个第一独立特征部分对象文本与多个从属权利要求的多个从属前序部分进行语义匹配,得到多个第一从属权利要求;抽取多个第一从属权利要求中多个从属特征部分对象文本。假设在步骤S101中,基于T获取了20个专利文献的话,此处即抽取这20个专利文件的从属权利要求的特征部分。
例如,将多个第一独立特征部分对象文本与多个从属权利要求的多个从属前序部分进行语义匹配,得到多个第一从属权利要求可以包括:通过RoBERTa模型生成多个第一独立特征部分对象文本的多个第一独立特征部分对象文本向量;通过RoBERTa模型生成多个从属前序部分的多个从属前序部分对象文本向量;基于多个第一独立特征部分对象文本向量与多个从属前序部分对象文本向量的余弦相似度,匹配出与多个第一独立特征部分对象文本相关的多个第一从属权利要求。上述RoBERTa模型是在BERT模型的基础上优化得到的,BERT的本质上是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示。
抽取多个对象的多个第三部分中多个第三部分对象文本。第三部分包括具体实施例部分,抽取多个对象的多个第三部分中多个第三部分对象文本可以包括:将多个第一独立特征部分对象文本与多个对象的多个具体实施例部分进行语义匹配;抽取语义匹配出的多个第一具体实施例对象文本;将多个从属特征部分对象文本与多个对象的多个具体实施例部分进行语义匹配;抽取语义匹配出的多个第二具体实施例对象文本。假设在步骤S101中,基于T获取了20个专利文献的话,此处即抽取这20个专利文件的具体实施例内容。
在步骤S103中,选取多个第一文本中的多个第二文本。例如,从多个技术领域对象文本中选取至少一个技术领域对象文本;从多个背景技术对象文本中选取至少一个背景技术对象文本;从多个发明内容对象文本中选取至少一个发明内容对象文本;从多个第一独立前序部分对象文本中选取至少一个第一独立前序部分对象文本;从多个第一独立特征部分对象文本中选取至少一个第一独立特征部分对象文本;从多个从属特征部分对象文本中选取至少一个从属特征部分对象文本;从多个第一具体实施例对象文本中选取至少一个第一具体实施例对象文本;从多个第二具体实施例对象文本中选取至少一个第二具体实施例对象文本。也就是说,假设在步骤S101中,基于T获取了20个专利文献的话,并抽取了这20个专利文件的技术领域内容、背景技术内容、发明内容、第一独立权利要求、从属权利要求和具体实施例内容的情况下,仅选取这些文本中部分例如排序前10的技术领域内容、背景技术内容、发明内容、第一独立权利要求、从属权利要求和具体实施例内容进行组合以自动生成技术交底书或自动生成专利申请文件。
需要说明的是,在步骤S103中会用到很多正则规则抽取多个第一文本以及选取多个第二文本,我们通过大量的测试以确保业务人员提出的业务规则成功转换成正则表达式。
在步骤S105中,利用映射表将多个第二文本组合以生成组合文本。该组合文本可以为自动生成的技术交底书,或者为自动生成的专利申请文件。可选的,组合文本可以包括组合文本名称、组合文本技术领域、组合文本背景技术、组合文本性能优势、组合文本方案详情。该映射表可以是基于组合发明原则制定的,该组合发明原则即多个第二文本需来源于不同文献,尤其是组合文本方案详请中的内容需来源于不同文献。可选的,该映射表可以包括:组合文本名称与第一独立前序部分对象文本映射关系,组合文本技术领域与技术领域对象文本映射关系,组合文本背景技术与背景技术对象文本映射关系,组合文本性能优势与发明内容对象文本映射关系,组合文本方案详情与第一独立特征部分对象文本、从属特征部分对象文本、第一具体实施例对象文本、第二具体实施例对象文本的映射关系。这里可以使用算法与数据结构上的一些技巧对映射表进行排列组合上的变化,最终的到想要的结果。具体的:
利用组合文本名称与第一独立前序部分对象文本映射关系,从至少一个第一独立前序部分对象文本选取目标第一独立前序部分对象文本作为组合文本名称。利用组合文本技术领域与技术领域对象文本映射关系,从至少一个技术领域对象文本选取目标技术领域对象文本作为组合文本技术领域。利用组合文本背景技术与背景技术对象文本映射关系,从至少一个背景技术对象文本选取目标背景技术对象文本作为组合文本背景技术。利用组合文本性能优势与发明内容对象文本映射关系,从至少一个发明内容对象文本选取目标发明内容对象文本作为组合文本性能优势。利用组合文本方案详情与第一独立特征部分对象文本、从属特征部分对象文本、第一具体实施例对象文本、第二具体实施例对象文本的映射关系,从至少一个第一独立特征部分对象文本选取目标第一独立特征部分对象文本,从至少一个从属特征部分对象文本选取目标从属特征部分对象文本,从至少一个第一具体实施例对象文本选取目标第一具体实施例对象文本,从至少一个第二具体实施例对象文本选取目标第二具体实施例对象文本,以此作为组合文本方案详情。
可选的,组合文本方案详情可以包括三个一级节点,每个一级节点下还包括三个二级节点。另外,每个一级节点下都包括有一级节点详情,每个二级节点下都包括有二级节点详情。组合文本方案详情与第一独立特征部分对象文本、从属特征部分对象文本、第一具体实施例对象文本、第二具体实施例对象文本的映射关系可以为:三个一级节点与第一独立特征部分对象文本的映射关系,九个二级节点与从属特征部分对象文本的映射关系,三个一级节点详情与第一具体实施例对象文本的映射关系,九个二级节点详情与第二具体实施例对象文本的映射关系。也就是说,可以利用三个一级节点与第一独立特征部分对象文本的映射关系,从至少一个第一独立特征部分对象文本选取目标第一独立特征部分对象文本作为组合文本方案详情的三个一级节点;可以利用九个二级节点与从属特征部分对象文本的映射关系,从至少一个从属特征部分对象文本选取目标从属特征部分对象文本作为组合文本方案详情的九个二级节点;可以利用三个一级节点详情与第一具体实施例对象文本的映射关系,从至少一个第一具体实施例对象文本选取目标第一具体实施例对象文本作为组合文本方案详情的三个一级节点详情;可以利用九个二级节点详情与第二具体实施例对象文本的映射关系,从至少一个第二具体实施例对象文本选取目标第二具体实施例对象文本作为组合文本方案详情的九个二级节点详情。
示例如下,假设在步骤S103中,选取了排序前10的专利文献的技术领域内容、背景技术内容、发明内容、第一独立权利要求、从属权利要求和具体实施例内容,则此处例如自动生成的技术交底书具体文本内容如下:
组合文本名称:排序第一专利文献X1的第一独立权利要求C1的前序部分;
组合文本技术领域:X1的技术领域内容;
组合文本背景技术:X1的背景技术内容;
组合文本性能优势:X1的发明内容;
组合文本第一个一级节点:C1的第一个附加技术特征C1S1(特征部分包括多个附加技术特征);
组合文本第一个一级节点详情:X1的具体实施例中与C1S1匹配的内容;
组合文本第一个一级节点下的三个二级节点:X1中与C1S1匹配的从属权利要求C2的特征部分C2S;
组合文本第一个一级节点下的三个二级节点详情:X1具体实施例中与C2S匹配的内容;
组合文本第二个一级节点:排序第二专利文献X2的第一独立权利要求Y1的第一个附加技术特征Y1S1(特征部分包括多个附加技术特征);
组合文本第二个一级节点详情:X2的具体实施例中与Y1S1匹配的内容;
组合文本第二个一级节点下的三个二级节点:X2中与Y1S1匹配的从属权利要求Y2的特征部分Y2S;
组合文本第二个一级节点下的三个二级节点详情:X2具体实施例中与Y2S匹配的内容;
组合文本第三个一级节点:排序第三专利文献X3的第一独立权利要求Z1的第一个附加技术特征Z1S1(特征部分包括多个附加技术特征);
组合文本第三个一级节点详情:X3的具体实施例中与Z1S1匹配的内容;
组合文本第三个一级节点下的三个二级节点:X3中与Z1S1匹配的从属权利要求Z2的特征部分Z2S;
组合文本第三个一级节点下的三个二级节点详情:X3具体实施例中与Z2S匹配的内容。
另外,本公开还可将在步骤S103中选取的多个(如10个)专利文献的技术领域内容、背景技术内容、发明内容、第一独立权利要求、从属权利要求和具体实施例内容都作为推荐信息推荐,用户可以利用推荐的各部分推荐信息,替换或者修改组合文本(如自动生成的技术交底书)中的各部分内容(该各部分内容包括:组合文本名称、组合文本技术领域、组合文本背景技术、组合文本性能优势、组合文本的三个一级节点,组合文本的三个一级节点详情,组合文本的九个二级节点,组合文本的九个二级节点详情)。
通过上述方式,基于用户输入的短短idea获取多个对象,抽取多个对象中的多个第一文本,并选取多个第一文本中的多个第二文本,利用基于组合发明原则制定的映射表将多个第二文本组合以生成组合文本,取得了快速生成技术交底书、并为研发人员提供参考信息,以使研发人员进一步完善形成高质量的技术交底书的有益效果。
需要说明的是,对于上述的系统、设备、方法实施例,为了简单描述,故将其都表述为一系列的动作或模块组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序或模块连接的限制,因为依据本公开,某些步骤可以采用其他顺序或者同时进行,某些模块可以采用其他连接方式。
本领域技术人员也应该知悉,说明书中所描述的实施例均属于一种实施例,上述实施例序号仅仅为了描述,所涉及的动作和模块并不一定是本公开所必须的。
在本公开的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本公开所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括易失性存储介质或非易失性存储介质,例如U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本公开的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本公开原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本公开的保护范围。
Claims (10)
1.用于辅助文本生成的方法,其特征在于,包括:
获取对象集合,其中,所述对象集合包括多个对象;
抽取所述多个对象中的多个第一文本,并选取所述多个第一文本中的多个第二文本;
利用映射表将所述多个第二文本组合以生成组合文本。
2.根据权利要求1所述的方法,其特征在于,获取对象集合包括:
获取输入信息,其中,所述输入信息为输入文本;
利用关键词检索和/或语义检索,得到与所述输入文本相关的多个对象。
3.根据权利要求2所述的方法,其特征在于,利用关键词检索得到与所述输入文本相关的多个对象包括:
获取输入文本中的多个关键词;
通过Elasticsearch到第一数据库检索与所述输入文本相关的多个专利对象,其中,所述第一数据库存储有经结巴分词的多个待检索专利对象,所述Elasticsearch根据所述结巴分词建立的词语索引对所述多个待检索专利对象进行全文检索。
4.根据权利要求3所述的方法,其特征在于,所述Elasticsearch被安装在多块SSD硬盘组成的raid0硬盘空间上。
5.根据权利要求2所述的方法,其特征在于,利用语义检索得到与所述输入文本相关的多个对象包括:
利用第一语义检索得到与所述输入文本相关的多个对象,其中,利用第一语义检索得到与所述输入文本相关的多个对象包括:截取输入文本中的句文本;到第二数据库匹配与所述句文本的向量欧式距离低于阈值的多个第二向量,其中,所述向量采用WordEmbedding和TF-IDF结合的方式来表示语义,所述第二数据库存储有多个待匹配专利对象的多个第一向量,所述多个第一向量包括所述多个第二向量;得到与所述多个第二向量对应的多个专利对象;
和/或
利用第二语义检索得到与所述输入文本相关的多个对象,其中,利用第二语义检索得到与所述输入文本相关的多个对象包括:到第三数据库匹配与所述输入文本的向量欧式距离低于阈值的多个第三向量,其中,所述向量采用Word Embedding和TF-IDF结合的方式来表示语义,所述第三数据库存储有多个待匹配专利对象的多个第四向量,所述多个第四向量包括所述多个第三向量;得到与所述多个第三向量对应的多个专利对象。
6.根据权利要求1所述的方法,所述对象包括第一部分、第二部分和第三部分,其特征在于,抽取所述多个对象中的多个第一文本包括:
抽取所述多个对象的多个第一部分中多个第一部分对象文本;
抽取所述多个对象的多个第二部分中多个第二部分对象文本;
抽取所述多个对象的多个第三部分中多个第三部分对象文本。
7.根据权利要求6所述的方法,所述第一部分包括技术领域部分、背景技术部分和发明内容部分,其特征在于,抽取所述多个对象的多个第一部分中多个第一部分对象文本包括:
利用关键词“技术领域”或“相关领域”,抽取所述多个第一对象的多个技术领域部分中多个技术领域对象文本;
利用关键词“相关背景”或“背景技术”或“技术背景”,抽取所述多个第一对象的多个背景技术部分中多个背景技术对象文本;
利用关键词“发明内容”或“实用新型内容”或“公开内容”,抽取所述多个第一对象的多个发明内容部分中多个发明内容对象文本。
8.用于辅助文本的设备,包括:
处理器;以及
存储器,配置为存储计算机程序指令,所述计算机程序指令适于由所述处理器加载并执行如权利要求1至7任一项所述的用于辅助文本生成的方法。
9.用于辅助文本的系统,包括如权利要求8所述的用于辅助文本的设备。
10.一种计算机可读的非易失性存储介质,存储计算机程序指令,当所述计算机执行所述程序指令时,执行如权利要求1至7任一项所述的用于辅助文本生成的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110346620.0A CN112906378A (zh) | 2021-03-31 | 2021-03-31 | 用于辅助文本生成的方法和设备与存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110346620.0A CN112906378A (zh) | 2021-03-31 | 2021-03-31 | 用于辅助文本生成的方法和设备与存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112906378A true CN112906378A (zh) | 2021-06-04 |
Family
ID=76109664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110346620.0A Pending CN112906378A (zh) | 2021-03-31 | 2021-03-31 | 用于辅助文本生成的方法和设备与存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112906378A (zh) |
-
2021
- 2021-03-31 CN CN202110346620.0A patent/CN112906378A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alami et al. | Unsupervised neural networks for automatic Arabic text summarization using document clustering and topic modeling | |
CN109815308B (zh) | 意图识别模型的确定及检索意图识别方法、装置 | |
Kolomiyets et al. | A survey on question answering technology from an information retrieval perspective | |
Oufaida et al. | Minimum redundancy and maximum relevance for single and multi-document Arabic text summarization | |
Allahyari et al. | Automatic topic labeling using ontology-based topic models | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
TWI656450B (zh) | 從中文語料庫提取知識的方法和系統 | |
Aznag et al. | Probabilistic topic models for web services clustering and discovery | |
CN108875065B (zh) | 一种基于内容的印尼新闻网页推荐方法 | |
CN112115716A (zh) | 一种基于多维词向量下文本匹配的服务发现方法、系统及设备 | |
EP3726401A1 (en) | Encoding textual information for text analysis | |
CN115563313A (zh) | 基于知识图谱的文献书籍语义检索系统 | |
Dubuisson Duplessis et al. | Utterance retrieval based on recurrent surface text patterns | |
Nechaev et al. | SocialLink: exploiting graph embeddings to link DBpedia entities to Twitter profiles | |
Piskorski et al. | On knowledge-poor methods for person name matching and lemmatization for highly inflectional languages | |
Sever et al. | Evaluating cross-lingual textual similarity on dictionary alignment problem | |
Li et al. | Computational linguistics literature and citations oriented citation linkage, classification and summarization | |
Mihret et al. | Sentiment Analysis Model for Opinionated Awngi Text | |
JP2013222418A (ja) | パッセージ分割方法、装置、及びプログラム | |
Wu et al. | A new approach to query segmentation for relevance ranking in web search | |
JP7122773B2 (ja) | 辞書構築装置、辞書の生産方法、およびプログラム | |
CN112906378A (zh) | 用于辅助文本生成的方法和设备与存储介质 | |
Molino et al. | Distributed representations for semantic matching in non-factoid question answering. | |
Pilaluisa et al. | Contextual word embeddings for tabular data search and integration | |
JP5342574B2 (ja) | トピックモデリング装置、トピックモデリング方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |