CN108763445A

CN108763445A - 专利知识库的构建方法、装置、计算机设备和存储介质

Info

Publication number: CN108763445A
Application number: CN201810517395.0A
Authority: CN
Inventors: 李磊; 张龙晖
Original assignee: Xiamen Smart Fusion Technology Co Ltd
Current assignee: Xiamen Smart Fusion Technology Co Ltd
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2018-11-06
Anticipated expiration: 2038-05-25
Also published as: US20210081376A1; EP3805950A4; CN108763445B; US11714787B2; WO2019223793A1; EP3805950A1

Abstract

本申请涉及一种专利知识库的构建方法、装置、计算机设备和存储介质，所述方法包括：获取专利资源数据；分析所述专利资源数据，获得显性信息和隐性信息；所述显性信息包括预设实体集中各实体的属性信息，所述隐性信息包括技术元件的实体关系；对所述隐性信息进行融合处理，并根据所述显性信息和融合处理后的所述隐性信息构建专利知识库。采用本方法能够高效地分析海量专利数据，从中提取有效且丰富地专利信息。

Description

专利知识库的构建方法、装置、计算机设备和存储介质

技术领域

本申请涉及数据处理技术领域，特别是涉及一种专利知识库的构建方法、装置、计算机设备和存储介质。

背景技术

随着不同领域的科学技术的高速发展，专利保护和应用已经构成经济活动的重要内容。越来越多的企业和研究机构通过专利布局、管理和运用来保护其核心技术。

在信息化社会，充分有效地利用各类信息资源，是进行科学研究和决策的前提条件。专利文献是当今世界上最大的技术信息源，根据国际经济发展组织(Organization forEconomic Cooperation and Development，OECD)的统计资料表明，专利文献包含了80％以上的科技知识，而大部分这类技术信息没有被刊登在其它的发行刊物。目前全世界约有一亿以上专利文献，平均每年有几百万的专利文献出版。专利文献包含了重要的研究成果、丰富的技术细节和实验数据，同时具有巨大的商业和科研价值。

在申请号为201710891269.7的中国专利申请中，提出了一种分析方法，该方法通过对专利文献进行关键字的提取，以关键字进行专利检索，提高专利检索的准确性和全面性。

在申请号为201710891276.7的中国专利申请中，提出了一种基于数据库的专利名称后台管理分析系统，该系统利用关键词提取模块对专利名称中的关键词进行提取，然后提交到数据分类模块进行分类，方便了用户对专利主题的检索。

但是，专利文献数量众多，篇幅庞大，技术与法律用语并存，用词生僻，现有的提取关键字的方法仍然无法从海量专利文献中汲取出高度概括、有效的专利信息。

发明内容

基于此，为了解决上述技术问题，本发明提供一种专利知识库的构建方法、装置、计算机设备和存储介质，能高效地分析海量专利资源数据，从中提取有效地专利信息。

一方面，本发明提供一种专利知识库的构建方法，所述方法包括：

获取专利资源数据；

分析所述专利资源数据，获得显性信息和隐性信息；所述显性信息包括预设实体集中各实体的属性信息，所述隐性信息包括技术元件的实体关系；

对所述隐性信息进行融合处理，并根据所述显性信息和融合处理后的所述隐性信息构建专利知识库。

在一个实施例中，所述专利资源数据包含专利文本，分析所述专利资源数据，获得显性信息的过程包括：

采用命名实体识别算法从所述专利文本中的结构化信息中提取所述显性信息。

在一个实施例中，所述专利资源数据包括与所述专利文本对应的附图，分析所述专利资源数据，获得隐性信息的过程包括：

通过文本图片匹配分析方法对所述专利文本和所述附图进行处理，获得所述技术元件的实体关系。

在一个实施例中，通过文本图片匹配分析方法对所述专利文本和所述附图进行处理的步骤包括：

通过图像分析算法提取所述附图中技术元件的编号及所述编号的位置信息；

提取所述专利文本中与所述编号关联的描述信息；

根据所述编号的位置信息确定所述编号之间的指向关系；

匹配所述编号、所述编号之间的指向关系以及与所述编号关联的描述信息,获得技术元件的实体关系。

在一个实施例中，通过文本图片匹配分析方法对所述专利文本和所述附图进行处理的步骤，还包括：

匹配所述编号、所述编号的位置信息以及与所述编号关联的描述信息。

在一个实施例中，所述图像分析算法包括基于深度神经网络模型的监督式学习算法。

在一个实施例中，通过基于深度神经网络模型的监督式学习算法提取所述附图中技术元件的编号及所述编号的位置信息的过程包括：

通过深度神经网络模型中的特征提取卷积网络提取所述附图的基本特征信息；

通过深度神经网络模型中的文本检测卷积网络对所述基本特征信息进行处理，检测所述编号及所属编号的位置信息。

在一个实施例中，所述深度神经网络模型的损失函数为：

其中，x表示编号的匹配矩阵，c表示检测的置信度，l表示预测的编号位置，g表示真实的编号位置，N为与真实边界框相匹配的默认边界框的数量，L_conf(x,c)表示置信度的损失；L_loc(x,l,g)表示位置信息的损失；α表示平衡系数。

在一个实施例中，提取所述专利文本中与所述编号关联的描述信息的过程包括：

通过基于双向LSTM网络模型的监督式学习算法提取所述专利文本中的命名实体；

对所述命名实体与所述编号进行关联处理，获得与所述编号关联的描述信息。

在一个实施例中，匹配所述编号、所述编号之间的指向关系以及与所述编号关联的描述信息的过程包括：

将与所述编号关联的所述描述信息映射到所述附图中的所述编号，获得各个所述描述信息之间的指向关系；

根据各个所述描述信息之间的指向关系生成关系图，并存储所述关系图。

在一个实施例中，所述隐性信息还包括技术词语的实体关系；

分析所述专利资源数据，获得隐性信息的过程，包括：

通过基于文本分析的推理算法对所述专利文本进行处理，获得所述技术词语的实体关系。

在一个实施例中，所述通过基于文本分析的推理算法对所述专利文本进行处理的过程，包括：

分别通过术语词频统计算法、共词分析算法以及术语嵌入分析算法对所述专利文本进行处理。

在一个实施例中，对所述隐性信息进行融合处理的过程包括：

依据隐性信息中包含的各个实体关系生成对应的特征向量；

根据所述特征向量，采用线性分类器对各个实体关系进行判断，计算各个实体关系为真实关系的概率；

过滤所述概率小于设定阈值的实体关系。

另一方面，本发明还提供一种专利知识库的构建装置，所述装置包括：

资源获取模块，用于获取专利资源数据；

知识提取模块，用于分析所述专利资源数据，获得显性信息和隐性信息；所述显性信息包括预设实体集中各实体的属性信息，所述隐性信息包括技术元件的实体关系；

融合处理模块，用于对所述隐性信息进行融合处理；

构建模块，用于根据所述显性信息和融合处理后的所述隐性信息构建专利知识库。

在一个实施例中，所述专利资源数据包含专利文本，知识提取模块包括结构化信息处理模块，用于采用命名实体识别算法从所述专利文本中的结构化信息中提取所述显性信息。

在一个实施例中，所述专利资源数据包括与所述专利文本对应的附图，知识提取模块还包括文本图片匹配分析模块，用于通过文本图片匹配分析方法对所述专利文本和所述附图进行处理，获得所述技术元件的实体关系。

在一个实施例中，文本图片匹配分析模块包括：

图像分析模块，用于通过图像分析算法提取所述附图中技术元件的编号及所述编号的位置信息；

描述信息提取模块，用于提取所述专利文本中与所述编号关联的描述信息；

关系确定模块，用于根据所述编号的位置信息确定所述编号之间的指向关系；

匹配模块，用于匹配所述编号、所述编号之间的指向关系以及与所述编号关联的描述信息,获得技术元件的实体关系。

在一个实施例中，所述匹配模块还用于匹配所述编号、所述编号的位置信息以及与所述编号关联的描述信息。

在一个实施例中，图像分析模块包括：

基本特征提取模块，用于通过深度神经网络模型中的特征提取卷积网络提取所述附图的基本特征信息；

文本检测模块，用于通过深度神经网络模型中的文本检测卷积网络对所述基本特征信息进行处理，检测所述编号及所属编号的位置信息。

在一个实施例中，描述信息提取模块包括：

命名实体提取模块，用于通过基于双向LSTM网络模型的监督式学习算法提取所述专利文本中的命名实体；

关联处理模块，用于对所述命名实体与所述编号进行关联处理，获得与所述编号关联的描述信息。

在一个实施例中，匹配模块包括：

映射模块，用于将与所述编号关联的所述描述信息映射到所述附图中的所述编号，获得各个所述描述信息之间的指向关系；

生成模块，用于根据各个所述描述信息之间的指向关系生成关系图，并存储所述关系图。

在一个实施例中，所述隐性信息还包括技术词语的实体关系；知识提取模块还包括文本分析模块，用于通过基于文本分析的推理算法对所述专利文本进行处理，获得所述技术词语的实体关系。

在一个实施例中，文本分析模块包括：

术语词频统计模块，用于通过术语词频统计算法对所述专利文本进行处理；

共词分析模块，用于通过共词分析算法对所述专利文本进行处理；

术语嵌入分析模块，用于通过术语嵌入分析算法对所述专利文本进行处理。

在一个实施例中，融合处理模块包括：

特征向量生成模块，用于依据隐性信息中包含的各个实体关系生成对应的特征向量；

概率计算模块，用于根据所述特征向量，采用线性分类器对各个实体关系进行判断，计算各个实体关系为真实关系的概率；

过滤模块，用于过滤所述概率小于设定阈值的实体关系。

另一方面，本发明提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取专利资源数据；

再一方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取专利资源数据；

分析所述专利资源数据，获得显性信息和隐性信息；所述显性信息包括预设实体集中各实体的属性信息，所述隐性信息包括各技术元件的实体关系；

上述专利知识库的构建方法、装置、计算机设备和存储介质，在获取专利资源数据后，从中提取表征显性知识的显性信息(例如专利权人、申请日、申请号等等)，以及分析获得表征隐性知识的隐性信息，该隐性信息包含了技术元件的实体关系，而技术元件的实体关系实质上能反映技术方案中所蕴含的技术问题信息、技术手段信息以及技术效果信息。然后通过对隐性信息的融合处理，过滤噪声数据，并根据显性信息及融合处理后的隐性信息构建专利知识库。因此，本发明能够高效地分析海量专利资源数据，从中提取有效且丰富地专利信息，具有广泛地实际应用价值。

附图说明

图1为一个实施例中专利知识库的构建方法的应用环境图；

图2为一个实施例中专利知识库的构建方法的流程示意图；

图3为另一个实施例中专利知识库的构建方法的流程示意图；

图4为一个实施例中与专利文本相对应的附图；

图5为一个实施例中文本图片匹配分析方法的流程示意图；

图6为一个实施例中提取技术元件编号及指向关系的示意图；

图7为一个实施例中匹配编号、编号之间的指向关系以及与编号关联的描述信息的流程示意图；

图8为一个实施例中依据匹配结果在附图中进行展示的效果示意图；

图9为一个实施例中深度神经网络模型结构的示意图；

图10为一个实施例中提取专利文本中与编号关联的描述信息的流程示意图；

图11为一个实施例中训练双向LSTM网络模型的示意图；

图12为一个实施例中通过术语词频统计算法对专利文本进行处理的流程示意图；

图13为一个实施例中通过共词分析算法对专利文本进行处理的流程示意图；

图14为一个实施例中通过术语嵌入分析算法对专利文本进行处理的流程示意图；

图15为一个实施例中对实体关系进行融合处理的流程示意图；

图16为一个实施例中专利知识库的构建装置的结构框图；

图17为一个实施例中知识提取模块的结构框图；

图18为一个实施例中文本图片匹配分析模块的结构框图；

图19为一个实施例中图像分析模块的结构框图；

图20为一个实施例中描述信息提取模块的结构框图；

图21为一个实施例中文本分析模块的结构框图；

图22为一个实施例中融合处理模块的结构框图；

图23为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的专利知识库的构建方法，可以应用于如图1所示的应用环境中。其中，专利知识库构建服务器102通过网络与提供专利资源数据的各类供应服务器104通过网络进行通信。其中，专利知识库构建服务器102和各类供应服务器104都可以采用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种专利知识库的构建方法，以该方法应用于图1中的专利知识库构建服务器102为例进行说明，包括以下步骤：

步骤S202，获取专利资源数据；

其中，专利资源数据是指涉及专利技术的各类数据，例如专利文本。在一个实施例中，专利资源数据还可以包括学术文献数据(如论文文本、学术文献的元数据等)、各搜索引擎(例如百度、谷歌等)提供的技术关键词数据、维基知识库数据等等，这些数据中均包含了与技术相关的信息。

专利资源数据可以从不同类型的网络资源中获取，例如图1所示，专利知识库构建服务器102从网络中不同的供应服务器104中获取专利资源数据。

此外，针对于不同类型的网络资源，可以采用不同的资源抓取策略来获得专利资源数据。

在一个实施例中，可以在获得知识产权局的认可后，通过网络爬虫来获得知识产权局官方数据库的文献数据(例如专利文本)，或者通过下载知识产权局提供的数据备份来获得相关数据。

在一个实施例中，可以使用搜索引擎(例如百度、谷歌等搜索引擎)提供的专利文本检索API(Application Programming Interface，应用程序编程接口)，获取技术关键字的数据集合；或者通过下载搜索引擎提供的专利文本的数据备份，来获取专利文本；

在一个实施例中，在获得第三方专利文本提供商的认可后，通过第三方专利文本提供商提供的API来获取相应技术关键字的数据集合。

在一个实施例中，通过下载维基知识库提供的数据备份或者维基知识库的概念层次结构来获得专利资源数据，作为专利知识库融合的备选数据源。

在一个实施例中，在获得学术文献机构的认可后，可以从学术文献机构的数据库中下载相应的学术文献数据(例如论文文本)；或者通过网络爬虫从学术文献机构的网站上获取相应的学术文献的元数据。

步骤S204，分析所述专利资源数据，获得显性信息和隐性信息；

其中，显性信息包括预设实体集中各实体的属性信息，预设实体集中的实体包括但不限于专利名称、申请日、专利权人、专利号、分类号、优先权人等实体。预设实体集中各实体的属性信息可以通过各种抽取方法从专利资源数据中直接抽取，不需进行额外的推理和信息补充。例如，对于实体“申请人”，其属性信息可能是专利权人的姓名，如“张三”、“李四”等，或者是单位名称，如“华为技术有限公司”、“苹果公司”等等。

可选的，可以通过命名实体识别算法从专利资源数据中抽取显性信息。

隐性信息是指通过推理算法分析专利资源数据后所获得的信息，隐性信息用于表征专利资源数据中所隐含的发明构思，可包含技术问题信息、解决技术问题所采用的技术手段信息，以及技术效果信息。获取隐性信息时可以利用各类专利资源数据，例如，通过分析学术文献数据作为专利文本中蕴含技术方案的补充。由于技术问题、技术手段、技术效果归根结底可以转化为技术方案中的各技术元件的之间的关系，因此，在本实施例中，隐性信息包括技术元件的实体关系。

具体的，技术元件是技术方案中存在的实体对象，技术元件可以是结构实体和功能实体，例如各种零件、功能组件、结构组件等等。技术元件的实体关系表达了一种跨越概念实体层次和类别的相互间约束或联系，主要包括包含关系、连接关系、保护关系等，例如技术元件“连接杆”连接技术元件“底座”，技术元件“电源模块”包含了技术元件“变压器”、技术元件“整流单元”以及技术元件“滤波单元”。对于技术元件的实体关系，可以通过各类文本分析方法对专利资源数据中的文本进行分析而获得。

技术元件的实体关系可以按照如下方式存储：

<IOS,OS,子>,表示“IOS”系统是操作系统“OS”的子概念；

<IOS,Iphone Operating System,全称>，表示“IOS”系统的全称是“IphoneOperating System”；

<IOS,Apple inc,拥有>，表示“IOS”被“Apple inc”拥有；

<Springboard,IOS,组件>，表示“Springboard”是“IOS”系统的组件；

<handoff,handover,同义>，表示“handoff”和“handover”是同义关系；

<ios,tasks shedule,技术>，表示“IOS”中涉及技术“tasks shedule”；

<handoff,disruption,问题>，表示“handoff”中存在“disruption”问题；

<Cellular telecommunication，handoff,父>，表示“Cellulartelecommunication”是“handoff”的父概念。

可选的，隐性信息还包含技术元件的属性信息。其中，技术元件的属性信息是指技术元件实体所具备的区别于其他概念实体的特性，例如加工特征属性(技术元件的材料、形状等等)。技术元件的属性信息可以从专利资源数据的文本中提取。

可选的，在获得显性信息和隐性信息后，可存储到专利信息实体库中作为后续处理的数据源。

步骤S206，对所述隐性信息进行融合处理，并根据所述显性信息和融合后处理的所述隐性信息构建专利知识库。

在通过对专利资源数据进行分析处理后，获得了各显性信息和隐性信息。但由于这些专利资源数据较多来源于网络资源，因此不可避免地存在一些噪声数据，特别是隐性信息，由于其获取过程需要经过推理算法分析，故包含的噪声数据会更多。因此，在本实施例中通过对隐性信息进行融合处理，过滤掉噪声数据，从中获得有效的隐性信息，然后再依据显性信息和融合处理后的隐性信息构建专利知识库。

其中，融合处理的方法有多种，例如实体关系融合法，可以找出不真实的实体关系并进行融合、过滤。

当然，对于显性信息，也可以进行融合处理，消除噪声数据。

上述专利知识库的构建方法，在获取专利资源数据后，从中提取表征直观数据的显性信息(例如专利权人、申请日、申请号等等)，以及获得表征发明构思的隐性信息，然后通过融合处理，过滤噪声数据，并基于显性信息和融合后的隐性信息构建专利知识库。因此，本发明能够高效地分析海量专利资源数据，从中提取有效且丰富地专利信息，具有广泛地实际应用价值。

在一个实施例中，参照图3所示，专利资源数据包含专利文本，分析专利资源数据，获得显性信息的过程包括：

步骤S204a，采用命名实体识别算法从所述专利文本中的结构化信息中提取所述显性信息。

其中，专利文本中的结构化信息是指专利文本中具有固定格式的数据，例如专利文本中的权利要求书、说明书、著录项目等。命名实体识别(Named Entity Recognition，NER)，又称作“专名识别”，该算法能识别文本中具有特定意义的实体，例如包括人名、地名、机构名、专有名词等。在本实施例中通过命名实体识别算法可以从专利文本中的著录项目、权利要求书等结构化信息中提取出专利名称、专利权人等实体的属性信息。

在一个实施例中，参照图3所示，专利资源数据还包括与专利文本对应的附图，分析专利资源数据，获得隐性信息的过程包括：

步骤S204b，通过文本图片匹配分析方法对所述专利文本和所述附图进行处理，获得所述技术元件实体关系。

具体的，专利资源数据中除了大量的专利文本之外，还包含很多结构性的附图。这些附图一般为白底黑边的图片，用以描述专利的内容和结构。这些附图一般会采用编号来标识技术元件的部位，并将编号与相应技术元件以曲线连接。以图4为例，该图展示了一个自动水龙头的前视图。在此图4中，每个编号都对应着水龙头的一个部位。

在本实施例中，综合考虑专利文本和附图，采用文本图片匹配分析方法进行处理，可以获得专利文本和附图中所包含的技术元件的实体关系，从而可以更全面的提取出隐性信息。

在一个实施例中，本发明还提供了一种文本图片匹配分析方法，参照图5所示，该方法包括以下步骤：

步骤S301，通过图像分析算法提取所述附图中技术元件的编号及所述编号之间的位置信息；

本实施例中通过图像分析算法可以提取附图中各技术元件的编号，并且可以获得编号的位置信息。可选的，位置信息通过编号的坐标来表示。

步骤S302，提取所述专利文本中与所述编号关联的描述信息；

在专利文本中，会对相应的附图进行简要地描述，并对每个附图上标识的技术元件及技术元件之间的关系进行详细的说明，因此专利文本中包含了与编号关联的描述信息。例如，专利文本中包含“喷水杆198”、“滤波模块293”、“第一通孔485”等描述信息。

其中，提取专利文本中描述信息的方法有多种，例如，通过命名实体识别算法及正则表达式的方法来提取。其中正则表达式又称规则表达式，是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

步骤S303，根据所述编号的位置信息确定所述编号之间的指向关系；

其中，编号之间的指向关系反映了编号所对应的技术元件之间的位置关系，例如附图中结构零件编号之间的指向关系就可以反映结构零件的位置关系、配合关系。而根据编号的位置信息确定编号之间指向关系的方法有多种，例如通过坐标运算的方法就可以计算出编号之间的指向关系。

步骤S304，匹配所述编号、所述编号之间的指向信息以及与所述编号关联的描述信息，获得技术元件的实体关系。

专利文本中与编号相关联的描述信息实质上是对与编号相对应的技术元件的描述，而编号之间的指向关系实质上反映技术元件之间的位置关系，因此匹配编号、编号之间的指向关系以及与编号关联的描述信息，就可以获得技术元件间的实体关系。

例如，参照图6所示，通过图像分析算法可以提取出编号221、编号222，并确定编号221和编号222的位置信息，即编号221对应坐标(854,654)，编号222对应坐标为(875,490)，且通过坐标运算进一步判定这两个编号之间的指向关系为内外关系，故编号所指向的技术元件之间的关系也为内外关系，即编号221所指向的技术元件的内部设有编号222所指向的技术元件。而通过文本分析可以在专利文本中找到与编号221关联的描述信息“环状接头221”，编号222关联的描述信息“喷水杆222”，因此，通过文本图片匹配分析，可以得出技术元件的实体关系：环状接头的内部设有喷水杆。该实体关系可以表达为<环状接头，喷水杆，内>，当然，但也有可能是上下左右,或输入出处关系等，此处仅为举例说明。

在一个实施例中，参照图7所示，匹配编号、编号之间的指向关系以及与编号关联的描述信息的过程包括：

步骤S304a,将与编号关联的描述信息映射到附图中的编号，获得各个描述信息之间的指向关系；

步骤S304b，根据各个描述信息之间的指向关系生成关系图，并存储所述关系图。

具体的，由于已确定了编号之间的指向关系，那么将专利文本中获取的与编号关联的描述信息映射到附图中的编号，根据该映射及已知的编号之间的指向关系，就可以确定描述信息之间的指向关系，而描述信息之间的指向关系反映了编号对应的技术元件之间的位置关系。然后采用图的形式来表述每个描述信息之间的指向关系，该图即为关系图，该关系图可以充分的反映技术元件的实体关系,可以体现技术元件之间的位置关系，将该关系图存储到专利信息实体库中，可以丰富专利信息实体的内容。

在一个实施例中，还可以匹配编号、编号的位置信息以及与编号关联的描述信息。

具体的，在获得附图中的编号、编号的位置信息以及专利文本中与编号关联的描述信息之后，即可对三者进行匹配。根据匹配结果可以生成实体关系进行存储，或者依据匹配结果在附图中的相应位置进行展示。

在一个实施例中，例如图8所示，可以在附图中编号的对应位置展示与编号关联的描述信息，例如在编号10的对应位置展示“喷口”，在编号19的对应位置展示“阀门”。

此外，依据匹配结果，还可以通过其他方式在附图中加载并展示专利文本中与编号关联的描述信息，以便于阅读者通过阅读附图便能获得关键技术信息，此处不再针对各种展示方法进行赘述。

在大多数情况下，专利文本对应的附图可视为对专利技术方案的概括性描述。采用本实施例提供的文本与图片匹配分析的方法，能够匹配附图中的编号、编号的位置信息以及专利文本中与编号关联的描述信息，进而可以丰富附图内容，阅读者可直接从专利文本对应的附图中获取关键信息，以辅助理解专利技术方案。

在一个实施例中，采用基于深度神经网络模型的监督式学习算法来分析附图。监督式学习算法需要使用一定量的训练集，为此，需要人工预先对专利文本所对应的各附图进行标注，标注内容包括编号及编号的位置信息。对附图进行标注的过程可以采用现有技术，此处不予赘述。

在通过人工标注获得训练集后，再对深度神经网络模型进行训练，得到符合需求的深度神经网络模型。而后就可以使用训练好的深度神经网络模型对新的附图进行自动标注，识别技术元件的编号和位置信息。

在一个实施例中，本发明采用的深度神经网络模型结构如图9所示。该深度神经网络模型中包含了特征提取卷积网络701和文本检测卷积网络702。

如图9所示，该深度神经网络模型结构继承了卷积神经网络中经典的VGG-16网络结构，保留了VGG-16网络结构中从conv1_1到conv5_3的网络，并将最后两层全连通网络转化为卷积网络，即conv6(图中未示出)和conv7。另外，根据Max pooling(最大池)技术，在卷积网络conv7的基础上增加了四种卷积网络(conv8到conv11)，构成特征提取卷积网络701。特征提取卷积网络701可以很好地建立图片中数字信息的本地化表示，而设计这些卷积网络是为了提取附图中的基本特征信息。

在特征提取卷积网络701之后，本实施例中还设计了文本检测卷积网络702，以检测附图中的编号及其位置信息。

在一个实施例中，仍参照图9所示，文本检测卷积网络702为6层卷积网络结构，该网络结构的输入为特征提取卷积网络701输出的基本特征信息，而该文本检测卷积网络702的输出经过一个非最大化的压缩过程，即图9中所示的非极大值抑制(non-maximumsuppression)过程，即可生成最终的编号及编号的位置信息。

在一个实施例中，文本检测卷积网络的输出包含方向性的边界框{q}或{r}，和最小的水平边界框{b}。设置b₀＝{x₀,y₀,w₀,h₀}为水平默认边界框，其中{x₀,y₀}表示水平默认边界框的中心点，w₀表示水平默认边界框的宽，而h₀表示水平默认边界框的高。b₀也可以写为或者其中各项的计算表达式为：

针对于附图中的每个位置，深度神经网络模型会输出其为文本框的概率，以及其相应的偏移量，可以根据上述计算表达式对附图中的文本框进行表示。而上述深度神经网络模型结构可以学习出附图中每一编号的最佳表示参数，即以上计算表达式中的各项参数。

在训练深度神经网络模型时，需要确定训练过程的损失函数。在一个实施例中，深度神经网络模型的损失函数为：

在一个实施例中，如图10所示，提取专利文本中与编号关联的描述信息的过程包括以下步骤S401和步骤S402：

步骤S401，通过基于双向LSTM网络模型的监督式学习算法提取专利文本中的命名实体；

在本实施例中，采用基于双向LSTM(Long Short Term Memory，长短时记忆)网络模型的监督式学习算法来对专利文本中的命名实体进行提取。由于监督式学习算法需要使用一定量的训练集，为此，需要人工预先对专利文本进行命名实体的标注。

在一个实施例中，可预先定义实体的标识符，如B表示实体开始，E表示实体结束，O表示其他信息。针对专利文本中的每一个句子，首先对其进行分词，而后针对每个词，可以采用预先定义实体的标识符对其进行标注，其示例如下：

图2描述了该专利中构建水龙头喷口的具体方法。

O O O O O O O B E O O O O

在上述示例中，“水龙头喷口”是一个命名实体，被分为了两个词“水龙头”和“喷口”。在标注时，这两个词分别被标注为了实体开始的标识符“B”和实体结束的标识符“E”。

对于训练双向LSTM网络模型的过程，在一个实施例中，可将文本和其对应的标识符可以视为两个序列。针对这两个序列，采用LSTM的前向(forward)网络和后向(backward)网络同时对两个序列的过去及将来的特征进行建模(如图11所示)。在两个序列中，分别设置一个长度为n的滑动窗口。针对每个滑动窗口的内容，利用前向和后向网络对其特征进行描述，而后使用CRF(conditional random field，条件随机场)方法对窗口内的词进行标识。CRF层有一个状态转换矩阵，利用此矩阵可以有效地识别出对过去和将来的标识。

将双向LSTM网络模型输出的概率矩阵定义为f_θ，此矩阵中每个元素表示针对句子x，其内的第t个词的标识为i的概率。针对两个滑动窗口i和j，引入[A]_i,j作为从状态i到状态j的转换分数。因此，对于一个句子沿着某个标识路径的分数g，可以通过下式进行计算：

在通过人工标注获得训练集后对双向LSTM网络模型进行训练，而后就可以使用此双向LSTM网络模型对新的专利文本进行自动标注，提取专利文本中的命名实体。

步骤S402，对所述命名实体和编号进行关联处理，获得与所述编号关联的描述信息。

在识别出命名实体之后，采用关联处理方法把编号和其相应的命名实体联系起来，获得与编号关联的描述信息。

在一个实施例中，关联处理方法可以是基于规则的方法。在专利文本中可以很容易地检测出编号，而与之相关联的命名实体一般会出现在同一个句子中，或者在编号之前，或者在编号之后。因此，制定简单的规则，将二者联系起来，然后利用此规则即可获得专利文本中与编号关联的描述信息。

在一个实施例中，在进行关联处理之前，对提取出的命名实体进行过滤处理，以提高后续处理的效率和精度，保持描述信息的准确性。

通过以上文本图片匹配分析方法，就可以获得较为充实的技术元件实体关系。

在一个实施例中，参照图3所示，隐性信息还包括技术词语的实体关系，从所述专利资源数据中提取隐性信息的过程包括：

步骤S204c，通过基于文本分析的推理算法对所述专利文本进行处理，获得所述技术词语的实体关系。

专利资源数据中大部分的信息均以文本的形式表现出来，因此针对文本的分析是构建专利知识库的重中之重，特别是针对专利文本的分析。基于文本分析的推理算法其重点是将专利文本中的重要术语、术语关系及重要技术特征提取出来，抽象出隐性信息。在本实施例中，基于文本分析的推理算法围绕技术主题展开，在技术主题的基础上提取技术词语的实体关系。

在一个实施例中，通过基于文本分析的推理算法对专利文本进行处理的过程包括：分别通过术语词频统计算法、共词分析算法以及术语嵌入分析算法对所述专利文本进行处理。其中，术语词频统计算法、共词分析算法以及术语嵌入分析算法均是现有的成熟算法。

在一个实施例中，参照图12所示，本发明提供了一种通过术语词频统计算法对专利文本进行处理的方法，该方法包括：

步骤S501，从专利文本中提取描述技术主题的技术词语；

其中，技术主题可以预先设置。例如，配置一个技术主题数据库，用于存储多个技术主题。从专利文本中可以提取描述技术主题数据库中所存储的技术主题的技术词语。

可选的，从专利文本的结构化信息(如权利要求书、发明创造名称以及说明书摘要等)中提取描述技术主题的技术词语。

步骤S502，基于词频统计，分析每个技术主题下高频技术词语的分布信息；

词频统计，即统计词语的出现频率，识别高频词语。可选的，在进行词频统计时，可选定一个时间周期进行统计，比如，针对于每年的专利文本进行分析。通过词频统计，可以得出每个技术主题下高频技术词语的分布信息。

步骤S503，将各个技术主题下的高频技术词语的分布信息转化为技术词语的实体关系进行存储。

可选的，将技术主题下的高频技术词语转化为“技术主题→年份→高频词”的关系对(用于反映技术主题、高频技术词语、年份之间的对应关系)进行存储。当然，当统计时所使用的时间周期不同时，此处所指的关系对中“年份”也可以换成其他时间周期，例如月份。

可选的，还可以进一步统计每个技术主题下高频技术词语随时间的变化情况，由此可以分析出同一技术主题下高频技术词语的发展趋势。

在一个实施例中，参照图13所示，本发明还提供了一种通过共词分析算法对专利文本进行处理的方法，该方法包括：

步骤S601，分析专利文本中技术词语的共现强度；

具体的，分析同一专利文本中技术词语的共现强度，反映词与词之间的联系。可选的，可以统计专利文本中技术词语在一个句子或一个段落中的共现次数，并根据共现次数计算共现强度。

步骤S602，基于所述共现强度抽取共词特征，转化为技术词语的实体关系进行存储。

具体的，依据技术词语的共现强度，可以采用共词网络分析、共词聚类分析、战略图分析等方法来对共词特征进行抽取，获得技术词语的实体关系。

可选的，通过计算每一对共现词(即共现的技术词语)属于任意一个技术主题的概率，可以得到每一对共现词在所有技术主题下的分布情况，然后转化为“技术主题→共现词→概率”的关系对(反映技术主题、共现词、共现词属于该技术主题的概率之间的对应关系)进行存储。

在一个实施例中，参照图14所示，本发明还提供了一种通过术语嵌入分析算法对专利文本进行处理的方法，该方法包括：

步骤S701，采用深度学习的方法，分析专利文本中技术词语之间的语义关系；

步骤S702，从专利文本中提取出语义接近的技术词语，转化为技术主题信息实体存储到专利信息实体库中。

例如，将专利文本进行离散化处理，抽取可能的技术词语，然后采用word2vec(词向量)的方式对专利文本中的每个技术词语做嵌入处理，并根据生成的嵌入向量为每个技术词语计算相近的技术词语，然后将相近的技术词语转化为技术词语的实体关系进行存储，例如，存储“技术词语→技术词语”的关系对(用于反映语意接近的技术词语)到专利信息实体库中。

对于技术主题的确定，可以采用各种现有的方法。在一个实施例中，可通过文本聚类算法来获得技术主题，例如，对专利文本进行聚类，形成多个聚簇，其中每个聚簇属于一个技术主题；然后为每一个聚簇生成主题词，该主题词用于描述技术主题。通过这种处理方式，即可以获得多个技术主题，并可以确定各专利文本所对应的技术主题。

通过以上过程可从专利资源数据中提取显性信息和隐性信息。但由于获取的专利资源数据涉及领域较为广泛，例如涉及到金融、冶金、电力工业、有机化工等诸多领域。同时，专利资源数据还可能包括了除专利文本之外的其他类型的资源数据，例如Wikipedia知识库数据，Dbpedia知识库数据等，由于很多资源数据都是来自于互联网，因此在海量的专利资源数据中，不可避免地会存在一些噪声数据。因此，在一个实施例中，本发明还提供了一种对隐性信息进行融合处理的方法，通过该方法可以过滤掉噪声数据，该方法参照图15所示，包括：

步骤S801,依据隐性信息中包含的各个实体关系生成对应的特征向量；

将隐性信息中不同的实体关系进行融合，可以获得有效的实体关系。其中，针对每一实体关系，生成相应的特征向量。

可选的，该特征向量可以是二维数字特征向量，其中第一维表示获得实体关系时所用到的专利资源数据数量的平方根，第二维表示通过评分方法给予该实体关系的分值的均值。其中评分方法可以依据实际需求选定。通过评分方法可以获得每一实体关系的多个分值，然后求取这些分值的均值，即可获得特征向量的第二维。

步骤S802，根据所述特征向量，采用线性分类器对各个实体关系进行判断，计算各个实体关系为真实关系的概率；

通过线性分类器可以对各个实体关系进行预测，判断实体关系是否为真实关系。具体的，线性分类器对实体关系所对应的特征向量进行处理，即可计算出实体关系为真实关系的概率。可选的，线性分类器可以是二元线性分类器。

步骤S803，过滤掉所述概率小于设定阈值的实体关系。

在计算出各个实体关系为真实关系的概率后，即可根据设定的阈值进行筛选、过滤。一般的，可以认为概率趋近于1的为真实关系。当然，在实际应用中，可通过设定阈值来进行衡量。若概率小于设定阈值，则认为实体关系不是真实关系，故而将其过滤。在过滤掉这些不真实的实体关系后，即可获得最终的隐性信息，其中涵盖了有效的专利知识，然后根据显性信息和融合处理后的隐性信息构建专利知识库。

通过以上构建方法，可构建最终的专利知识库。由于专利知识库的构建是以海量的网络数据为基础的，而在信息技术高速发展的今天，信息更新的速度是人力难以企及的。为此，针对信息的不断更新，专利知识库也需要不断维护。在一个实施例中，定期对专利资源数据进行抓取，以获得专利资源数据的更新，并基于新产生的专利资源数据，对已有的专利知识库进行更新。

应该理解的是，虽然各个流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图16所示，提供了一种专利知识库的构建装置，包括：资源获取模块100、知识提取模块200、融合处理模块300以及构建模块400，其中：

资源获取模块100用于获取专利资源数据；

知识提取模块200用于分析所述专利资源数据，获得显性信息和隐性信息；所述显性信息包括预设实体集中各实体的属性信息，所述隐性信息包括技术元件的实体关系；

融合处理模块300用于对所述隐性信息进行融合处理；

构建模块400用于根据所述显性信息和融合处理后的所述隐性信息构建专利知识库。

在一个实施例中，专利资源数据包含专利文本，参照图17所示，知识提取模块200包括：

结构化信息处理模块201，用于采用命名实体识别算法从所述专利文本中的结构化信息中提取所述显性信息。

在一个实施例中，所述专利资源数据包括与所述专利文本对应的附图，仍参照图17所示，知识提取模块200还包括文本图片匹配分析模块202，用于通过文本图片匹配分析方法对专利文本和附图进行处理，获得技术元件的实体关系。

在一个实施例中，参照图18所示，文本图片匹配分析模块202包括：

图像分析模块202a，用于通过图像分析算法提取所述附图中技术元件的编号及所述编号的位置信息；

描述信息提取模块202b，用于提取所述专利文本中与所述编号关联的描述信息；

关系确定模块202c，用于根据所述编号的位置信息确定所述编号之间的指向关系；

匹配模块202d，用于匹配所述编号、所述编号之间的指向信息以及与所述编号关联的描述信息，获得技术元件的实体关系。

在一个实施例中，匹配模块202d还用于匹配编号、编号的位置信息以及与编号关联的描述信息。

在一个实施例中，图像分析模块202a所采用的图像分析算法包括基于深度神经网络模型的监督式学习算法。

在一个实施例中，参照图19所示，图像分析模块202a包括：

基本特征提取模块1801，用于通过深度神经网络模型中的特征提取卷积网络提取所述附图的基本特征信息；

文本检测模块1802，用于通过深度神经网络模型中的文本检测卷积网络对所述基本特征信息进行处理，检测所述编号及所属编号的位置信息。

在一个实施例中，所述深度神经网络模型的损失函数为：

在一个实施例中，参照图20所示，描述信息提取模块202b包括：

命名实体提取模块1901，通过基于双向LSTM网络模型的监督式学习算法提取所述专利文本中的命名实体；

关联处理模块1902，用于对所述命名实体与所述编号进行关联处理，获得与所述编号关联的描述信息。

在一个实施例中，匹配模块202d包括映射模块和生成模块，其中映射模块用于将与所述编号关联的所述描述信息映射到所述附图中的所述编号，获得各个所述描述信息之间的指向关系；生成模块用于根据各个所述描述信息之间的关系生成关系图，并存储所述关系图。

在一个实施例中，所述隐性信息还包括技术词语的实体关系，仍参照图17所示，知识提取模块200还包括：

文本分析模块203，用于通过基于文本分析的推理算法对所述专利文本进行处理，获得所述技术词语的实体关系。

在一个实施例中，参照图21所示，文本分析模块203包括：

术语词频统计模块203a，用于通过术语词频统计算法对所述专利文本进行处理；

共词分析模块203b，用于通过共词分析算法对所述专利文本进行处理；

术语嵌入分析模块203c，用于通过术语嵌入分析算法对所述专利文本进行处理。

在一个实施例中，参照图22所示，融合处理模块300包括：

特征向量生成模块301，用于依据隐性信息中包含的各个实体关系生成对应的特征向量；

概率计算模块302，用于根据所述特征向量，采用线性分类器对各个实体关系进行判断，计算各个实体关系为真实关系的概率；

过滤模块303，用于过滤所述概率小于设定阈值的实体关系。

在一个实施例中，专利知识库的构建装置还包括更新模块，用于更新专利知识库。

关于专利知识库的构建装置的具体限定可以参见上文中对于专利知识库的构建方法的限定，在此不再赘述。上述专利知识库的构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图23所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种专利知识库的构建方法。

本领域技术人员可以理解，图23中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取专利资源数据；

此外，处理器执行计算机程序时还可以实现上述专利知识库的构建方法实施例中的各个步骤，此处不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取专利资源数据；

此外，计算机程序被处理器执行时还可以实现上述专利知识库的构建方法实施例中的各个步骤，此处不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种专利知识库的构建方法，所述方法包括：

获取专利资源数据；

2.根据权利要求1所述的专利知识库的构建方法，其特征在于，所述专利资源数据包含专利文本。

3.根据权利要求1所述的专利知识库的构建方法，其特征在于，分析所述专利资源数据，获得显性信息的过程包括：

4.根据权利要求3所述的专利知识库的构建方法，其特征在于，所述专利资源数据还包括与所述专利文本对应的附图，分析所述专利资源数据，获得隐性信息的过程包括：

5.根据权利要求4所述的专利知识库的构建方法，其特征在于，通过文本图片匹配分析方法对所述专利文本和所述附图进行处理的步骤包括：

提取所述专利文本中与所述编号关联的描述信息；

根据所述编号的位置信息确定所述编号之间的指向关系；

6.根据权利要求5所述的专利知识库的构建方法，其特征在于，还包括：

7.根据权利要求5或6所述的专利知识库的构建方法，其特征在于，

所述图像分析算法包括基于深度神经网络模型的监督式学习算法。

8.根据权利要求7所述的专利知识库的构建方法，其特征在于，通过基于深度神经网络模型的监督式学习算法提取所述附图中技术元件的编号及所述编号的位置信息的过程包括：

9.根据权利要求8所述的专利知识库的构建方法，其特征在于，所述深度神经网络模型的损失函数为：

10.根据权利要求5所述的专利知识库的构建方法，其特征在于，提取所述专利文本中与所述编号关联的描述信息的过程包括：

11.根据权利要求5所述的专利知识库的构建方法，其特征在于，匹配所述编号、所述编号之间的指向关系以及与所述编号关联的描述信息的过程包括：

12.根据权利要求2所述的专利知识库的构建方法，其特征在于，所述隐性信息还包括技术词语的实体关系；

分析所述专利资源数据，获得隐性信息的过程，包括：

13.根据权利要12所述的专利知识库的构建方法，其特征在于，所述通过基于文本分析的推理算法对所述专利文本进行处理的过程，包括：

分别通过术语词频统计算法、共词分析算法和/或术语嵌入分析算法对所述专利文本进行处理。

14.根据权利要求1至6中任一项所述的专利知识库的构建方法，其特征在于，对所述隐性信息进行融合处理的过程包括：

依据隐性信息中包含的各个实体关系生成对应的特征向量；

过滤所述概率小于设定阈值的实体关系。

15.一种专利知识库的构建装置，所述装置包括：

资源获取模块，用于获取专利资源数据；

融合处理模块，用于对所述隐性信息进行融合处理；

16.一种计算设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至14中任一项所述方法的步骤。

17.一种计算设备可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至14中任一项所述的方法的步骤。