CN104809106A - 一种专利方案的挖掘系统及挖掘方法 - Google Patents
一种专利方案的挖掘系统及挖掘方法 Download PDFInfo
- Publication number
- CN104809106A CN104809106A CN201510249493.7A CN201510249493A CN104809106A CN 104809106 A CN104809106 A CN 104809106A CN 201510249493 A CN201510249493 A CN 201510249493A CN 104809106 A CN104809106 A CN 104809106A
- Authority
- CN
- China
- Prior art keywords
- statement
- document
- text
- standardization
- technical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
一种专利方案的挖掘系统,包括用户输入单元,专利数据库,语言判断模块,语义分析单元,语句转换单元,关键词提取模块,文本比较单元,报告生成单元,使用该系统可以将技术方案通过语义分析和转换,再通过关键词判断其技术领域,并比较该方案与现有专利技术,判断方案是否存在专利性,并自动生成标准专利文件和专利报告。从而达到准确充分的从技术方案中挖掘专利技术加以保护的目的。
Description
技术领域
本发明涉及信息技术领域,具体涉及一种信息挖掘系统及挖掘方法。
背景技术
随着科技的发展,知识产权保护越来越为人所重视,而专利技术是知识产权保护的重要组成。它保护的是可应用于工业实践的创造性技术方案。人们在申请专利前需要对技术方案进行可专利性的判断,通常这种判断都是人工完成,通过与技术方案相关领域的技术人员对方案的解读、分析和对现有技术的检索和判断,完成新技术方案可专利性的判断。但是,可专利性判断的精确程度会受到技术人员经验水平和检索程度的影响,如果需要准确判断技术方案的可专利性,显然需要耗费大量的人力物力和时间。而且在确定技术方案存在可专利性之后还要花费一定的人力物力去撰写申请专利的材料。
发明内容
为解决上述问题,本发明提出一种专利方案的挖掘系统,该系统能够帮助发明人分析技术方案的可专利性,并自动生成标准专利文件和专利报告。
本发明解决上述技术问题的方案如下:
一种专利方案的挖掘系统,包括用户输入单元,用于提交用户技术方案的文本信息;
专利数据库,用于存储所有已公开专利文献的文本化数据,以及每条专利文献的技术关键词、技术领域,相近技术领域及标准化语句文档;
语言判断模块,用于判断文本语言种类;
语义分析单元,用于对文本信息进行分词解析、对分词解析的结果进行词性标记和依存文法解析;
语句转换单元,用于把依存文法解析的结果转换成标准化语句文档;
关键词提取模块,用于从分词结果中提取技术关键词;
文本比较单元,用于标准化语句文档之间的文本比对;
报告生成单元,用于生成挖掘报告。
一种专利方案的挖掘方法,包括以下步骤:
A)用户输入技术方案文本信息;
B)语义分析单元根据语言判断模块判断输入文本信息的语言种类,使用相应的语言的科技分词引擎对文本信息进行分词解析,得到包含n个分词s的文本队列Q(s1,s2,…,sn);然后,按语言读写顺序对n个分词s进行词性标记,然后,根据各分词s的词性、搭配和驱动关系,将整个队列Q做依存文法解析,得到含有依存文法标记的文本队列P;
C)语句转换单元以文本队列P中的断句标点符号为标记,把文本队列P分割为多个语句,并根据相应的语言的句式结构对每个语句进行线性文本描写转换,使得每个语句都转换成标准化语句,然后将转换后的每个语句按顺序连接,得到包含v条标准化语句Sent的用户技术方案的标准化语句文档D[Sent1,Sent2,…,Sentv];
D)通过关键词提取模块将文本队列P中的标记为介词、副词、助词以及其他非技术词语的分词s滤除,同时查询其他分词在已公开利文献数据库中的出现频率,并根据出现频率的高低从其他分词中找出技术关键词集合A[sk1,sk2,…,skl];
E)通过检索技术关键词集合A中每个技术关键词sk在已公开专利文献数据库中出现的频率和个数,选择技术关键词出现频率最高和出现个数最多的技术领域作为该用户技术方案的相同或最接近的技术领域,同时获取该技术领域的关联技术领域;
F)将相同或最接近的技术领域以及关联技术领域中所有已公开专利文献的权利要求按步骤B)~C)进行处理,得到相同或最接近的技术领域以及关联技术领域中所有已公开专利文献的权利要求标准化语句文档元素集合Gstd[Dp1,Dp2,Dp3…,Dpm],并存储于数据库中;
G)以标准化语句为最小比较单位,在文本比较单元中将标准化语句文档D与元素集合Gstd中的所有元素逐一进行文本比较,并记录每个元素含有与标准化语句文档D中的相同标准化语句的数量,以相同标准化语句的数最多的元素作为最接近的标准技术文档Dpx;然后,按照以下步骤判断技术方案的可专利性:
G1)若标准化语句文档D与最接近的标准技术文档Dpx不存在文本差异,则判定技术方案无专利性,报告生成单元生成挖掘报告;否则转步骤G2),
G2)若标准化语句文档D中含有最接近的标准技术文档Dpx中不存在的至少1个标准化语句Sentx,则查找元素集合Gstd中其他元素Dp中是否存在该标准化语句Sentx,如存在,则判定技术方案无专利性,同时报告生成单元生成挖掘报告,反之,则判定技术方案有专利性并通过报告生成单元生成挖掘报告,同时将标准化语句文档D作为标准专利文档输出;若最接近的标准技术文档Dpx含有标准化语句文档D中所有标准化语句,且还含有其他标准化语句,则判定技术方案有专利性并通过报告生成单元生成报告,并将标准化语句文档D作为标准专利文档输出。
相较于现有技术,本发明的有益效果在于:
1)使用语义分析单元对用户输入的技术方案文本信息做分词、词性标准和依存文法解析,使得在对技术方案文本做技术关键词提取时能够降低非技术用词对提取过程的干扰,有效提高提取技术关键词的准确性,从而大大提高了对技术领域的判断;
2)使用语句转换单元将依存文法解析的结果根据相应的语言的句式结构做线性文本描写转换,使得每个语句都转换成标准化语句,得到标准化语句文档,所有对于技术方案的表述得以统一,从而便于判断技术方案的可专利性。
附图说明
图1为本发明所述一种专利方案的挖掘系统的一个具体实施方式的系统结构框图,
图2为本发明所述一种专利方案的挖掘系统的专利数据库的数据结构图,
图3为本发明所述一种专利方案的挖掘方法的一个具体实施方式的方法流程图。
具体实施方式
以下结合附图详细介绍本发明的技术方案。
如图1所示,本例为一个对中文技术方案进行专利挖掘的系统,包括:
用户输入单元,用于提交用户技术方案的中文文本信息;
专利数据库,用于存储所有已公开专利文献的文本化数据,以及每条专利文献的中文技术关键词、所属技术领域,该专利文献相近技术领域及该专利文献中文标准化语句文档,其数据结构如图2所示;
语言判断模块,用于判断文本语言种类;
语义分析单元,用于对文本信息进行中文分词解析、对分词解析的结果进行词性标记和依存文法解析;
语句转换单元,用于把依存文法解析的结果转换成中文标准化语句文档;
关键词提取模块,用于从分词结果中提取中文技术关键词;
文本比较单元,用于标准化语句文档之间的中文文本比对;
报告生成单元,用于生成挖掘报告。
参见图3,采用该系统挖掘可专利技术方案的步骤如下:
A)用户输入技术方案的中文文本信息;
B)语义分析单元根据输入文本信息的语言种类,使用上海玻森数据公司提供的玻森中文语义分词引擎对文本信息进行分词解析,得到包含n个中文分词s的中文文本队列Q(s1,s2,…,sn);然后,按中文从左到右、从上至下的语言读写顺序对n个中文分词s进行词性标记,然后,根据各分词s的词性、搭配和驱动关系,将整个队列Q做依存文法解析,得到含有依存文法标记的中文文本队列P;
C)以中文文本队列P中的中文断句标点符号,包括:逗号,句号,分号,问号,感叹号为标记,把中文文本队列P分割为多个语句,忽略每个语句中的修饰成分,根据中文句式结构中的主谓句式、省略句式和无主语句式,对每个语句进行线性文本描写转换,使得每个语句都转换成中文标准化语句,然后将转换后的每个语句按语言读写顺序连接,得到包含v条标准化语句Sent的用户技术方案的中文标准化语句文档D[Sent1,Sent2,…,Sentv];
D)将中文文本队列P中的标记为介词、副词、助词以及其他非技术词语的分词s滤除,同时查询其他分词在已公开利文献数据库中的出现频率,并根据出现频率的高低通过玻森中文语义分词引擎从其他分词中找出中文技术关键词集合A[sk1,sk2,…,skl];
E)检索中文技术关键词集合A中每个中文技术关键词sk在已公开专利文献数据库中出现的频率和个数,选择中文技术关键词出现频率最高和出现个数最多的技术领域作为该用户技术方案的相同或最接近的技术领域,同时查询专利数据库,获取该技术领域的关联技术领域;
F)将相同或最接近的技术领域以及关联技术领域中所有已公开专利文献的权利要求按步骤B)~C)进行处理,得到相同或最接近的技术领域以及关联技术领域中所有已公开专利文献的权利要求中文标准化语句文档集合Gstd[Dp1,Dp2,Dp3…,Dpm],并存储于数据库中;
G)以中文标准化语句为最小比较单位,将中文标准化语句文档D与元素集合Gstd中的所有元素逐一进行文本比较,,并记录每个元素含有与中文标准化语句文档D中的相同中文标准化语句的数量,以相同中文标准化语句的数最多的元素作为最接近的中文标准技术文档Dpx,然后,按照以下步骤判断技术方案的可专利性:
G1)若中文标准化语句文档D与最接近的中文标准技术文档Dpx不存在文本差异,则判定该技术方案无专利性,报告生成单元生成挖掘报告;否则转步骤G2),
G2)若中文标准化语句文档D中含有最接近的中文标准技术文档Dpx中不存在的至少1个中文标准化语句Sentx,则查找集合Gstd中其他元素是否存在该中文标准化语句Sentx,如存在,则判定技术方案无专利性,报告生成单元生成挖掘报告,反之,则判定技术方案有专利性并由报告生成单元生成挖掘报告,同时将中文标准化语句文档D作为标准专利文档输出;若最接近的中文标准技术文档Dpx含有中文标准化语句文档D中所有中文标准化语句,且还含有其他中文标准化语句,则判定技术方案有专利性并生成报告,并将中文标准化语句文档D作为标准专利文档输出。
Claims (2)
1.一种专利方案的挖掘系统,包括用户输入单元,用于提交用户技术方案的文本信息;
专利数据库,用于存储所有已公开专利文献的文本化数据,以及每条专利文献的技术关键词、技术领域,相近技术领域及标准化语句文档;
语言判断模块,用于判断文本语言种类;
语义分析单元,用于对文本信息进行分词解析、对分词解析的结果进行词性标记和依存文法解析;
语句转换单元,用于把依存文法解析的结果转换成标准化语句文档;
关键词提取模块,用于从分词结果中提取技术关键词;
文本比较单元,用于标准化语句文档之间的文本比对;
报告生成单元,用于生成挖掘报告。
2.采用如权利要求1所述挖掘系统的一种专利方案的挖掘方法,包括以下步骤:
A)用户输入技术方案文本信息;
B)语义分析单元根据语言判断模块判断输入文本信息的语言种类,使用相应的语言的科技分词引擎对文本信息进行分词解析,得到包含n个分词s的文本队列Q(s1,s2,…,sn);然后,按语言读写顺序对n个分词s进行词性标记,然后,根据各分词s的词性、搭配和驱动关系,将整个队列Q做依存文法解析,得到含有依存文法标记的文本队列P;
C)语句转换单元以文本队列P中的断句标点符号为标记,把文本队列P分割为多个语句,并根据相应的语言的句式结构对每个语句进行线性文本描写转换,使得每个语句都转换成标准化语句,然后将转换后的每个语句按顺序连接,得到包含v条标准化语句Sent的用户技术方案的标准化语句文档D[Sent1,Sent2,…,Sentv];
D)通过关键词提取模块将文本队列P中的标记为介词、副词、助词以及其他非技术词语的分词s滤除,同时查询其他分词在已公开利文献数据库中的出现频率,并根据出现频率的高低从其他分词中找出技术关键词集合A[sk1,sk2,…,skl];
E)通过检索技术关键词集合A中每个技术关键词sk在已公开专利文献数据库中出现的频率和个数,选择技术关键词出现频率最高和出现个数最多的技术领域作为该用户技术方案的相同或最接近的技术领域,同时获取该技术领域的关联技术领域;
F)将相同或最接近的技术领域以及关联技术领域中所有已公开专利文献的权利要求按步骤B)~C)进行处理,得到相同或最接近的技术领域以及关联技术领域中所有已公开专利文献的权利要求标准化语句文档元素集合Gstd[Dp1,Dp2,Dp3…,Dpm],并存储于数据库中;
G)以标准化语句为最小比较单位,在文本比较单元中将标准化语句文档D与元素集合Gstd中的所有元素逐一进行文本比较,并记录每个元素含有与标准化语句文档D中的相同标准化语句的数量,以相同标准化语句的数最多的元素作为最接近的标准技术文档Dpx;然后,按照以下步骤判断技术方案的可专利性:
G1)若标准化语句文档D与最接近的标准技术文档Dpx不存在文本差异,则判定技术方案无专利性,报告生成单元生成挖掘报告;否则转步骤G2),
G2)若标准化语句文档D中含有最接近的标准技术文档Dpx中不存在的至少1个标准化语句Sentx,则查找元素集合Gstd中其他元素Dp中是否存在该标准化语句Sentx,如存在,则判定技术方案无专利性,同时报告生成单元生成挖掘报告,反之,则判定技术方案有专利性并通过报告生成单元生成挖掘报告,同时将标准化语句文档D作为标准专利文档输出;若最接近的标准技术文档Dpx含有标准化语句文档D中所有标准化语句,且还含有其他标准化语句,则判定技术方案有专利性并通过报告生成单元生成报告,并将标准化语句文档D作为标准专利文档输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510249493.7A CN104809106A (zh) | 2015-05-15 | 2015-05-15 | 一种专利方案的挖掘系统及挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510249493.7A CN104809106A (zh) | 2015-05-15 | 2015-05-15 | 一种专利方案的挖掘系统及挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104809106A true CN104809106A (zh) | 2015-07-29 |
Family
ID=53693937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510249493.7A Pending CN104809106A (zh) | 2015-05-15 | 2015-05-15 | 一种专利方案的挖掘系统及挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104809106A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468572A (zh) * | 2015-12-07 | 2016-04-06 | 无锡曙光云计算有限公司 | 一种试卷自动拆题组卷系统及其组卷方法 |
CN106484788A (zh) * | 2016-09-19 | 2017-03-08 | 合肥清浊信息科技有限公司 | 基于行业关键词的专利检索系统 |
CN107609021A (zh) * | 2017-08-07 | 2018-01-19 | 深圳益强信息科技有限公司 | 技术秘密的秘密性判断系统 |
CN107688600A (zh) * | 2017-07-12 | 2018-02-13 | 百度在线网络技术(北京)有限公司 | 知识点挖掘方法及装置 |
CN107807916A (zh) * | 2017-09-27 | 2018-03-16 | 合肥博力生产力促进中心有限公司 | 一种基于大数据的知识产权数据检测分析系统及方法 |
CN108491384A (zh) * | 2018-03-15 | 2018-09-04 | 周慧祥 | 一种专利申请文件的辅助撰写系统 |
WO2019028629A1 (zh) * | 2017-08-07 | 2019-02-14 | 深圳益强信息科技有限公司 | 一种技术秘密的秘密性判断方法 |
WO2019028625A1 (zh) * | 2017-08-07 | 2019-02-14 | 深圳益强信息科技有限公司 | 一种技术方案可专利性的初步判断系统 |
WO2019028631A1 (zh) * | 2017-08-07 | 2019-02-14 | 深圳益强信息科技有限公司 | 一种技术秘密的相对秘密性判断方法 |
WO2019028628A1 (zh) * | 2017-08-07 | 2019-02-14 | 深圳益强信息科技有限公司 | 技术秘密的秘密性判断系统 |
CN109857793A (zh) * | 2018-12-28 | 2019-06-07 | 考拉征信服务有限公司 | 技术背景数据的处理方法、装置、电子设备及存储介质 |
CN110795550A (zh) * | 2019-10-31 | 2020-02-14 | 中山大学 | 一种提高闲聊对话系统回答丰富性的方法 |
CN111753514A (zh) * | 2020-03-19 | 2020-10-09 | 北京信聚知识产权有限公司 | 一种专利申请文本的自动生成方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102597991A (zh) * | 2009-09-26 | 2012-07-18 | 哈米什·奥格尔维 | 文档分析与关联系统及方法 |
US8706717B2 (en) * | 2009-11-13 | 2014-04-22 | Oracle International Corporation | Method and system for enterprise search navigation |
CN103824161A (zh) * | 2014-02-28 | 2014-05-28 | 惠州学院 | 一种云计算可专利技术导航系统及方法 |
CN104216979A (zh) * | 2014-09-01 | 2014-12-17 | 西北工业大学 | 中文工艺专利自动分类系统及利用该系统进行专利分类的方法 |
-
2015
- 2015-05-15 CN CN201510249493.7A patent/CN104809106A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102597991A (zh) * | 2009-09-26 | 2012-07-18 | 哈米什·奥格尔维 | 文档分析与关联系统及方法 |
US8706717B2 (en) * | 2009-11-13 | 2014-04-22 | Oracle International Corporation | Method and system for enterprise search navigation |
CN103824161A (zh) * | 2014-02-28 | 2014-05-28 | 惠州学院 | 一种云计算可专利技术导航系统及方法 |
CN104216979A (zh) * | 2014-09-01 | 2014-12-17 | 西北工业大学 | 中文工艺专利自动分类系统及利用该系统进行专利分类的方法 |
Non-Patent Citations (1)
Title |
---|
岳金媛等: "《面向专利文献的汉语分词技术研究》", 《北京大学学报(自然科学版)》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468572A (zh) * | 2015-12-07 | 2016-04-06 | 无锡曙光云计算有限公司 | 一种试卷自动拆题组卷系统及其组卷方法 |
CN106484788A (zh) * | 2016-09-19 | 2017-03-08 | 合肥清浊信息科技有限公司 | 基于行业关键词的专利检索系统 |
CN107688600A (zh) * | 2017-07-12 | 2018-02-13 | 百度在线网络技术(北京)有限公司 | 知识点挖掘方法及装置 |
WO2019028629A1 (zh) * | 2017-08-07 | 2019-02-14 | 深圳益强信息科技有限公司 | 一种技术秘密的秘密性判断方法 |
CN107609021A (zh) * | 2017-08-07 | 2018-01-19 | 深圳益强信息科技有限公司 | 技术秘密的秘密性判断系统 |
WO2019028625A1 (zh) * | 2017-08-07 | 2019-02-14 | 深圳益强信息科技有限公司 | 一种技术方案可专利性的初步判断系统 |
WO2019028631A1 (zh) * | 2017-08-07 | 2019-02-14 | 深圳益强信息科技有限公司 | 一种技术秘密的相对秘密性判断方法 |
WO2019028628A1 (zh) * | 2017-08-07 | 2019-02-14 | 深圳益强信息科技有限公司 | 技术秘密的秘密性判断系统 |
CN107807916A (zh) * | 2017-09-27 | 2018-03-16 | 合肥博力生产力促进中心有限公司 | 一种基于大数据的知识产权数据检测分析系统及方法 |
CN108491384A (zh) * | 2018-03-15 | 2018-09-04 | 周慧祥 | 一种专利申请文件的辅助撰写系统 |
CN109857793A (zh) * | 2018-12-28 | 2019-06-07 | 考拉征信服务有限公司 | 技术背景数据的处理方法、装置、电子设备及存储介质 |
CN110795550A (zh) * | 2019-10-31 | 2020-02-14 | 中山大学 | 一种提高闲聊对话系统回答丰富性的方法 |
CN110795550B (zh) * | 2019-10-31 | 2023-04-07 | 中山大学 | 一种提高闲聊对话系统回答丰富性的方法 |
CN111753514A (zh) * | 2020-03-19 | 2020-10-09 | 北京信聚知识产权有限公司 | 一种专利申请文本的自动生成方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104809106A (zh) | 一种专利方案的挖掘系统及挖掘方法 | |
CN107832229B (zh) | 一种基于nlp的系统测试用例自动生成方法 | |
Leopold et al. | Detection of naming convention violations in process models for different languages | |
WO2019051426A1 (en) | PRUNING ENGINE | |
US11526481B2 (en) | Incremental dynamic document index generation | |
US20140006429A1 (en) | Generation of technical description of report from functional description of report | |
CN103186639B (zh) | 数据生成方法及系统 | |
CN103049458B (zh) | 一种修正用户词库的方法和系统 | |
CN101241514A (zh) | 一种生成纠错数据库的方法、自动纠错的方法和系统 | |
Afreen et al. | SBVR2UML: A challenging transformation | |
CN103106211B (zh) | 客户咨询文本的情感识别方法及装置 | |
CN103927179A (zh) | 一种基于WordNet的程序可读性分析方法 | |
Xu et al. | MULAPI: A tool for API method and usage location recommendation | |
Sitaula | A hybrid algorithm for stemming of Nepali text | |
CN108008947B (zh) | 一种编程语句的智能提示方法、装置、服务器及存储介质 | |
Hamdi et al. | Automatically building a Tunisian lexicon for deverbal nouns | |
CN103677852A (zh) | 一种可扩充的类自然语言公式编辑器的设计方法 | |
CN104484156A (zh) | 多语言公式的编辑方法、编辑系统和多语言公式编辑器 | |
JP2015162004A (ja) | 開発ドキュメント間トレースリンク生成支援装置及び方法及びプログラム | |
CN108614821B (zh) | 地质资料互联互查系统 | |
CN113868375A (zh) | 基于结构化查询语言的数据查询方法、装置、设备及存储介质 | |
JP5184987B2 (ja) | 索引情報作成装置、索引情報作成方法及びプログラム | |
US20140281941A1 (en) | Classifier Designer - A Graphical System for Designing Classifiers Using Visual Representations of Example Content | |
Khaitan et al. | Rad: A scalable framework for annotator development | |
CN115905297B (zh) | 用于检索数据的方法、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C53 | Correction of patent of invention or patent application | ||
CB03 | Change of inventor or designer information |
Inventor after: Zheng Fangting Inventor after: Zheng Hangjian Inventor before: Zheng Fangting Inventor before: Zhou Lei Inventor before: Liu Haihan Inventor before: Zheng Hangjian |
|
COR | Change of bibliographic data |
Free format text: CORRECT: INVENTOR; FROM: ZHENG FANGTING ZHOU LEI LIU HAIHAN ZHENG HANGJIAN TO: ZHENG FANGTING ZHENG HANGJIAN |
|
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150729 |
|
RJ01 | Rejection of invention patent application after publication |