CN104809106A

CN104809106A - 一种专利方案的挖掘系统及挖掘方法

Info

Publication number: CN104809106A
Application number: CN201510249493.7A
Authority: CN
Inventors: 郑舫挺; 周磊; 刘海涵; 郑航坚
Original assignee: HEFEI HUIZHONG INTELLECTUAL PROPERTY MANAGEMENT Co Ltd
Current assignee: HEFEI HUIZHONG INTELLECTUAL PROPERTY MANAGEMENT Co Ltd
Priority date: 2015-05-15
Filing date: 2015-05-15
Publication date: 2015-07-29

Abstract

一种专利方案的挖掘系统，包括用户输入单元，专利数据库，语言判断模块，语义分析单元，语句转换单元，关键词提取模块，文本比较单元，报告生成单元，使用该系统可以将技术方案通过语义分析和转换，再通过关键词判断其技术领域，并比较该方案与现有专利技术，判断方案是否存在专利性，并自动生成标准专利文件和专利报告。从而达到准确充分的从技术方案中挖掘专利技术加以保护的目的。

Description

一种专利方案的挖掘系统及挖掘方法

技术领域

本发明涉及信息技术领域，具体涉及一种信息挖掘系统及挖掘方法。

背景技术

随着科技的发展，知识产权保护越来越为人所重视，而专利技术是知识产权保护的重要组成。它保护的是可应用于工业实践的创造性技术方案。人们在申请专利前需要对技术方案进行可专利性的判断，通常这种判断都是人工完成，通过与技术方案相关领域的技术人员对方案的解读、分析和对现有技术的检索和判断，完成新技术方案可专利性的判断。但是，可专利性判断的精确程度会受到技术人员经验水平和检索程度的影响，如果需要准确判断技术方案的可专利性，显然需要耗费大量的人力物力和时间。而且在确定技术方案存在可专利性之后还要花费一定的人力物力去撰写申请专利的材料。

发明内容

为解决上述问题，本发明提出一种专利方案的挖掘系统，该系统能够帮助发明人分析技术方案的可专利性，并自动生成标准专利文件和专利报告。

本发明解决上述技术问题的方案如下：

一种专利方案的挖掘系统，包括用户输入单元，用于提交用户技术方案的文本信息；

专利数据库，用于存储所有已公开专利文献的文本化数据，以及每条专利文献的技术关键词、技术领域，相近技术领域及标准化语句文档；

语言判断模块，用于判断文本语言种类；

语义分析单元，用于对文本信息进行分词解析、对分词解析的结果进行词性标记和依存文法解析；

语句转换单元，用于把依存文法解析的结果转换成标准化语句文档；

关键词提取模块，用于从分词结果中提取技术关键词；

文本比较单元，用于标准化语句文档之间的文本比对；

报告生成单元，用于生成挖掘报告。

一种专利方案的挖掘方法，包括以下步骤:

A)用户输入技术方案文本信息；

B)语义分析单元根据语言判断模块判断输入文本信息的语言种类，使用相应的语言的科技分词引擎对文本信息进行分词解析，得到包含n个分词s的文本队列Q(s₁,s₂,…,s_n)；然后，按语言读写顺序对n个分词s进行词性标记，然后，根据各分词s的词性、搭配和驱动关系，将整个队列Q做依存文法解析，得到含有依存文法标记的文本队列P；

C)语句转换单元以文本队列P中的断句标点符号为标记，把文本队列P分割为多个语句，并根据相应的语言的句式结构对每个语句进行线性文本描写转换，使得每个语句都转换成标准化语句，然后将转换后的每个语句按顺序连接，得到包含v条标准化语句S_ent的用户技术方案的标准化语句文档D[S_ent1,S_ent2,…,S_entv]；

D)通过关键词提取模块将文本队列P中的标记为介词、副词、助词以及其他非技术词语的分词s滤除，同时查询其他分词在已公开利文献数据库中的出现频率，并根据出现频率的高低从其他分词中找出技术关键词集合A[s_k1,s_k2,…,s_kl]；

E)通过检索技术关键词集合A中每个技术关键词s_k在已公开专利文献数据库中出现的频率和个数，选择技术关键词出现频率最高和出现个数最多的技术领域作为该用户技术方案的相同或最接近的技术领域，同时获取该技术领域的关联技术领域；

F)将相同或最接近的技术领域以及关联技术领域中所有已公开专利文献的权利要求按步骤B)～C)进行处理，得到相同或最接近的技术领域以及关联技术领域中所有已公开专利文献的权利要求标准化语句文档元素集合G_std[D_p1,D_p2,D_p3…,D_pm]，并存储于数据库中；

G)以标准化语句为最小比较单位，在文本比较单元中将标准化语句文档D与元素集合G_std中的所有元素逐一进行文本比较，并记录每个元素含有与标准化语句文档D中的相同标准化语句的数量，以相同标准化语句的数最多的元素作为最接近的标准技术文档D_px；然后，按照以下步骤判断技术方案的可专利性：

G1)若标准化语句文档D与最接近的标准技术文档D_px不存在文本差异，则判定技术方案无专利性，报告生成单元生成挖掘报告；否则转步骤G2)，

G2)若标准化语句文档D中含有最接近的标准技术文档D_px中不存在的至少1个标准化语句S_entx，则查找元素集合G_std中其他元素D_p中是否存在该标准化语句S_entx，如存在，则判定技术方案无专利性，同时报告生成单元生成挖掘报告，反之，则判定技术方案有专利性并通过报告生成单元生成挖掘报告，同时将标准化语句文档D作为标准专利文档输出；若最接近的标准技术文档D_px含有标准化语句文档D中所有标准化语句，且还含有其他标准化语句，则判定技术方案有专利性并通过报告生成单元生成报告，并将标准化语句文档D作为标准专利文档输出。

相较于现有技术，本发明的有益效果在于：

1)使用语义分析单元对用户输入的技术方案文本信息做分词、词性标准和依存文法解析，使得在对技术方案文本做技术关键词提取时能够降低非技术用词对提取过程的干扰，有效提高提取技术关键词的准确性，从而大大提高了对技术领域的判断；

2)使用语句转换单元将依存文法解析的结果根据相应的语言的句式结构做线性文本描写转换，使得每个语句都转换成标准化语句，得到标准化语句文档，所有对于技术方案的表述得以统一，从而便于判断技术方案的可专利性。

附图说明

图1为本发明所述一种专利方案的挖掘系统的一个具体实施方式的系统结构框图，

图2为本发明所述一种专利方案的挖掘系统的专利数据库的数据结构图，

图3为本发明所述一种专利方案的挖掘方法的一个具体实施方式的方法流程图。

具体实施方式

以下结合附图详细介绍本发明的技术方案。

如图1所示，本例为一个对中文技术方案进行专利挖掘的系统，包括：

用户输入单元，用于提交用户技术方案的中文文本信息；

专利数据库，用于存储所有已公开专利文献的文本化数据，以及每条专利文献的中文技术关键词、所属技术领域，该专利文献相近技术领域及该专利文献中文标准化语句文档，其数据结构如图2所示；

语言判断模块，用于判断文本语言种类；

语义分析单元，用于对文本信息进行中文分词解析、对分词解析的结果进行词性标记和依存文法解析；

语句转换单元，用于把依存文法解析的结果转换成中文标准化语句文档；

关键词提取模块，用于从分词结果中提取中文技术关键词；

文本比较单元，用于标准化语句文档之间的中文文本比对；

报告生成单元，用于生成挖掘报告。

参见图3，采用该系统挖掘可专利技术方案的步骤如下：

A)用户输入技术方案的中文文本信息；

B)语义分析单元根据输入文本信息的语言种类，使用上海玻森数据公司提供的玻森中文语义分词引擎对文本信息进行分词解析，得到包含n个中文分词s的中文文本队列Q(s₁,s₂,…,s_n)；然后，按中文从左到右、从上至下的语言读写顺序对n个中文分词s进行词性标记，然后，根据各分词s的词性、搭配和驱动关系，将整个队列Q做依存文法解析，得到含有依存文法标记的中文文本队列P；

C)以中文文本队列P中的中文断句标点符号，包括：逗号，句号，分号，问号，感叹号为标记，把中文文本队列P分割为多个语句，忽略每个语句中的修饰成分，根据中文句式结构中的主谓句式、省略句式和无主语句式，对每个语句进行线性文本描写转换，使得每个语句都转换成中文标准化语句，然后将转换后的每个语句按语言读写顺序连接，得到包含v条标准化语句S_ent的用户技术方案的中文标准化语句文档D[S_ent1,S_ent2,…,S_entv]；

D)将中文文本队列P中的标记为介词、副词、助词以及其他非技术词语的分词s滤除，同时查询其他分词在已公开利文献数据库中的出现频率，并根据出现频率的高低通过玻森中文语义分词引擎从其他分词中找出中文技术关键词集合A[s_k1,s_k2,…,s_kl]；

E)检索中文技术关键词集合A中每个中文技术关键词s_k在已公开专利文献数据库中出现的频率和个数，选择中文技术关键词出现频率最高和出现个数最多的技术领域作为该用户技术方案的相同或最接近的技术领域，同时查询专利数据库，获取该技术领域的关联技术领域；

F)将相同或最接近的技术领域以及关联技术领域中所有已公开专利文献的权利要求按步骤B)～C)进行处理，得到相同或最接近的技术领域以及关联技术领域中所有已公开专利文献的权利要求中文标准化语句文档集合G_std[D_p1,D_p2,D_p3…,D_pm]，并存储于数据库中；

G)以中文标准化语句为最小比较单位，将中文标准化语句文档D与元素集合G_std中的所有元素逐一进行文本比较，，并记录每个元素含有与中文标准化语句文档D中的相同中文标准化语句的数量，以相同中文标准化语句的数最多的元素作为最接近的中文标准技术文档D_px，然后，按照以下步骤判断技术方案的可专利性：

G1)若中文标准化语句文档D与最接近的中文标准技术文档D_px不存在文本差异，则判定该技术方案无专利性，报告生成单元生成挖掘报告；否则转步骤G2)，

G2)若中文标准化语句文档D中含有最接近的中文标准技术文档D_px中不存在的至少1个中文标准化语句S_entx，则查找集合G_std中其他元素是否存在该中文标准化语句S_entx，如存在，则判定技术方案无专利性，报告生成单元生成挖掘报告，反之，则判定技术方案有专利性并由报告生成单元生成挖掘报告，同时将中文标准化语句文档D作为标准专利文档输出；若最接近的中文标准技术文档D_px含有中文标准化语句文档D中所有中文标准化语句，且还含有其他中文标准化语句，则判定技术方案有专利性并生成报告，并将中文标准化语句文档D作为标准专利文档输出。

Claims

1.一种专利方案的挖掘系统，包括用户输入单元，用于提交用户技术方案的文本信息；

语言判断模块，用于判断文本语言种类；

关键词提取模块，用于从分词结果中提取技术关键词；

文本比较单元，用于标准化语句文档之间的文本比对；

报告生成单元，用于生成挖掘报告。

2.采用如权利要求1所述挖掘系统的一种专利方案的挖掘方法，包括以下步骤:

A)用户输入技术方案文本信息；