CN112380856A

CN112380856A - 一种专利文本中组件命名自动提取方法、系统、终端以及可读存储介质

Info

Publication number: CN112380856A
Application number: CN202011125937.3A
Authority: CN
Inventors: 孔嘉斌; 卜和蛰; 吕剑文; 杜文轩; 刘江南
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2021-02-19
Anticipated expiration: 2040-10-20
Also published as: CN112380856B

Abstract

本发明公开了一种专利文本中组件命名自动提取方法、系统、终端以及可读存储介质，该方法包括：基于字频差值从专利文本中提取参考组件词，其中，以附图标记为右边界提取候选词，基于同一附图标记下所有候选词中每个字符位置上各个字符的字频差值选择性保留候选词得到参考组件词；提取专利文本中参考组件词的左侧词语并构建左边界词库，以左边界词库作为左边界及附图标记作为右边界提取专利文本中的组件候选词；基于组件候选词中各个字符位置上的字频差值选择性保留候选词得到组件名称；其中，保留字频差值大于字频差阈值的字符位置上字频最大的字符。本发明方法可以准确以及高效自动识别实体命名，尤其是用于解决机械领域的组件名称提取。

Description

一种专利文本中组件命名自动提取方法、系统、终端以及可读存储介质

技术领域

本发明属于自然语言处理技术领域，具体涉及一种专利文本中组件命名自动提取方法、系统、终端以及可读存储介质。

背景技术

高效、准确地从专利文本中提取机械系统组件信息，已成为自动获取专利技术方案至关重要的一环。系统组件属于技术方案的重要特征要素，在专利文献中表达为一种命名实体。目前，随着自然语言处理的发展和自动化获取知识需求的增加，从专利文本中自动识别命名实体已经受到广泛的关注。国内外许多研究者开展了相关的探索。文献1[陈秋瑗，程光，李迪，等.机械设计领域的命名实体识别研究.计算机工程与应用，2017，053(020)：100-104.]通过统计字符串之间紧密相邻程度等特征和定义不同词之间紧密相连的程度，从中文文本中识别机械领域的领域词，其调和平均数F1为83.89％。文献2[胡杰.机电产品创新设计的知识获取模型与重用方法研究.贵州：贵州大学，2018.]通过对中文专利中指定类型的组件名称进行词性标注，统计其内部词性规则，利用双向长短期记忆神经网络和条件随机场概率模型对机电产品9类命名实体进行了识别，其9类实体提取的综合调和平均数F1为83.78％。

上述基于规则、统计或者两者结合的方法，需要建立组件名称内部构词特征的模板、构建组件名称边界词和制定统计方法。然而，机械领域专利文本中的命名实体构词规律复杂，难以构建统一的组件名称词性模板。利用组件名称边界词提取方法不考虑组件名称内部词性，具有较好的领域无关性，但是单纯以数字字符和限制数字左侧字符数量提取组件名称候选词，其提取结果的粒度较大，导致组件名称提取精度较低。基于统计的提取方法，主要统计组件名称的内部构词规律，进行词频、互信息、信息熵等统计量的计算。该方法能有效提取领域术语，但需要大量的语料进行训练，特征的选择对识别效果影响较大，难以完整地提取构词特征复杂的组件名称。为了进一步提高自动识别专利文献技术特征的效率和精度，自动识别其命名实体算法的研究具有十分重要的意义。

发明内容

本发明的目的是提供一种专利文本中组件命名自动提取方法、系统、终端以及可读存储介质，所述方法可以准确以及高效自动识别实体命名，尤其是用于解决机械领域的组件名称提取。

本发明提供的一种专利文本中组件命名自动提取方法，包括如下步骤：

S1：基于字频差值从专利文本中提取参考组件词，其中，以附图标记为右边界提取候选词，并基于同一附图标记下所有候选词中每个字符位置上各个字符的字频差值选择性保留候选词得到参考组件词；

S2：提取专利文本中参考组件词的左侧词语并构建左边界词库，然后以左边界词库作为左边界以及附图标记作为右边界提取专利文本中的组件候选词；

S3：基于所述组件候选词中各个字符位置上的字频差值选择性保留候选词得到组件名称；

其中，选择性保留候选词为：保留字频差值大于字频差阈值的字符位置上字频最大的字符。

进一步优选，步骤S1和步骤S3分别对应一个字频差阈值，步骤S1中对应的字频差阈值为第一层的最优字频差阈值，获取过程为：

随机选取若干专利文本作为样本，以及获取专利文本中的组件名称并作为校对标准；

从0-1间隔m₁设置系列字频差阈值，其中，m₁的取值为经验值；

分别选用每个字频差阈值执行如下步骤A-D：

A：对所述专利文本进行预处理以及分词，然后以附图标记作为右边界提取候选词；

B：将同一附图标记下的候选词聚类并按字符位置排列，计算每个字符位置上各个字符的字频以及每个字符位置上的字频差；

其中，若某一字符的字频为1，设置其字频差为1；

C：将字频差为1的字符保留，并鉴别字符位置的字频差是否大于或等于选用的字频阈值，若大于，则保留对应字符位置上字频最大的字符；

D：将保留的字符按照原有位置排列组成得到所述附图标记下对应的组件名称；

基于校对标准计算各个字频差阈值下组件名称提取的可靠性，选择可靠性最高对应的字频差阈值作为步骤S1中的最优字频差阈值。

进一步优选，步骤S2中的左边界词库的构建过程如下：

提取专利文本中参考组件词的左侧词语；然后统计每个词语的词频；最后选择词频大于词频阈值的词语构建左边界词库。

进一步优选，步骤S1和步骤S3分别对应一个字频差阈值，步骤S2中的所述词频阈值为最优词频阈值，步骤S3中对应的字频差阈值为第二层的最优字频差阈值，其中，所述最优词频阈值以及第二层的最优字频差阈值的获取过程如下：

随机选取若干专利文本，并获取组件名称作为校对标准；

从0-0.0015间隔m₂设置系列词频阈值，其中，m₂的取值为经验值；

依次选用每个词频阈值执行如下步骤a-d：

a：按照步骤S1的方式处理专利文本获取到参考组件词，再按照权利要求3中左边界词库的构建方法构建每个词频阈值对应的左边界词库；

b：分别将各个左边界词库作为左边界以及附图标记作为右边界提取专利文本中每个词频阈值对应的组件候选词；

c：从0-1间隔m₃设置系列字频差阈值，其中，m₃的取值为经验值；

d：按照步骤S3的方式得到每个词频阈值以及每个字频差阈值对应的组件名称，并与对应的校对标准进行比对，选择出可靠性最高时对应的词频阈值以及字频差阈值作为最优词频阈值以及第二层的最优字频差阈值。

进一步优选，若步骤S1中对应的字频差阈值为第一层的最优字频差阈值，则获取所述最优词频阈值以及第二层的最优字频差阈值时，步骤a中以第一层的最优字频差阈值作为字频差阈值得到参考组件词。

进一步优选，步骤d中可靠性是以调和平均数为标准，调和平均数越高，可靠性越高，所述调和平均数的计算公式如下：

其中，F1调和平均数，P为正确率、R为召回率，且满足：

式中，EC表示与校对标准匹配后统计出的提取正确的组件个数，E表示标准组件的个数，S为提取的组件个数。

进一步优选，任意字符位置上字符的字频按照如下公式计算：

式中：CF为字符位置上字符的字频，CH-N为字符位置上字符出现的次数，CH-Z为字符位置上字符总数。

第二方面，本发明还提供一种基于所述专利文本中组件命名自动提取方法的系统，包括：

参考组件词获取模块：用于基于字频差值从专利文本中提取得到参考组件词；

组件候选词获取模块：用于提取专利文本中参考组件词的左侧词语并构建左边界词库，然后以左边界词库作为左边界以及附图标记作为右边界提取专利文本中的组件候选词；

组件命名提取模块：用于基于所述组件候选词中各个位置的字频差值选择性保留候选词得到组件命名。

第三方面，本发明还提供一种终端，包括处理器和存储器，所述存储器存储了计算机程序，所述计算机程序被处理器调用以执行：所述专利文本中组件命名自动提取方法的步骤。

第四方面，本发明还提供一种可读存储介质，存储了计算机程序，所述计算机程序被处理器调用以执行：所述专利文本中组件命名自动提取方法的步骤。

有益效果

本发明提供的所述专利文本中组件命名自动提取方法其不需要构建同一的组件名称词性模板，是基于专利文本中组件的撰写方式，结合附图标记并以字频差值为基础进行组件名称提取，本发明所述方法可以简单、高效以及准确地识别出实体命名，尤其是可以有效地提取出机械领域的组件名称。

附图说明

图1是本实施例提供的基于字频差值的参考组件词的提取流程示意图；

图2是本实施例提供的第一层的最优字频差阈值的获取流程示意图；

图3是本实施例提供的左边界词库的构建流程示意图；

图4是本实施例提供的最优词频阈值以及第二层的字频差阈值的获取流程示意图；

图5是本实施例提供的基于三个参数的最优组合下对待处理的专利文本进行自动处理的流程示意图；

图6是例2中9组不同篇数的专利的实验结果示意图；

图7是例3的实验结果示意图；

图8是例4的实验结果示意图。

具体实施方式

下面将结合实施例对本发明做进一步的说明。

本发明提供的一种专利文本中组件命名自动提取方法是基于字频差值从专利文本中自动预提取得到参考组件，然后利用参考组件提取其左侧的词语并依据词频构建左边界词库，最后以左边界词库作为左边界词、以附图标记作为右边界提取组件候选词，并基于字频差值提取得到组件名称。其中，涉及到三个参数，分别为预提取过程中的字频差阈值(CFDV-Ⅰ)，即第一层的字频差阈值、自动构建左切分词库的词频阈值(LSWF)和终提取过程中的字频差阈值(CFDV-Ⅱ)，即第二层的字频差阈值。在一些实例中，上述三个参数可以是根据经验值预先设置，本实施例中优选对此三个参数进行了优化处理以得到最优的三个参数，如下将对得到的三个最优参数的理论获取过程进行阐述，并以机械领域的专利文本为例。

(一)基于字频差值的参考组件词的提取

如图1所示，其过程包括：

步骤1.1：从专利文本中读取权利要求书、具体实施方式。

步骤2.1：对步骤1.1中的读取文本进行标准格式化处理；

步骤3.1：自动从文本中提取附图标记；

步骤4.1：对文本进行分词处理，以附图标记作为右边界预提取系统组件名称词语作为候选词；

步骤5.1：同一附图标记下候选词字频差值计算；

步骤5-1：将同一个附图标记下的候选词聚类到同一集合当中：

{S₁:[CW₁₁,CW₁₂,CW₁₃,…,CW_1m],

S₂:[CW₂₁,CW₂₂,CW₂₃,…,CW_2m],

S₃:[CW₃₁,CW₃₂,CW₃₃,…,CW_3m],

……

S_n:[CW_n1,CW_n2,CW_n3,…,CW_nm],}

其中，S₁～S_n为一篇专利中所有的附图标记，CW为候选词。

步骤5-2：将每个附图标记中的候选词字符排列为列表中：

S_n:

CW_n1＝[…,W_n1 ^o+2,W_n1 ^o+1,W_n1 ^o]

CW_n2＝[…,W_n2 ^o+2,W_n2 ^o+1,W_n2 ^o]

……

CW_nm＝[…,W_nm ^o+2,W_nm ^o+1,W_nm ^o]

其中：W为候选组件词的字符。

步骤5-3：从右往左依次计算每个附图标记下候选词每个位置上各字符的字频，其计算公式为：

步骤5-4：从右往左依次计算每个附图标记下候选组件此每个位置上的字频差值，其计算公式为：

CFDV＝CF_max-CF_min

注：若某位置上字符字频为1，则CFDV＝1。

式中：CFDV为每个位置上的字频差值，CF_max为该位置上字频的最大值，CF_min为该位置上字频的最小值。

步骤6.1：基于字频差值的组件名称预提取；

步骤6-1：从右往左判断候选组件中各个位置的字频差值是否等于1，是则将该字符暂存为组件提取结果的字符之一并循环至下一个字符位置，否则进入下一步。

步骤6-2：判断该字符位置的字频差值是否大于字频差阈值(CFDV-Ⅰ)，是则将该字符位置的字频最大的字符暂存为组件提取结果的字符之一并循环至下一个字符位置，否则停止循环并将暂存的所有字符按原有位置顺序排列成为组件提取结果。

上述步骤1.1-6.1阐述了如何就一个专利文本提取参考组件词。下述内容将结合该部分描述如何得到预提取过程中的最优字频差阈值(CFDV-Ⅰ)，

(二)第一层的最优字频差阈值

如图2所示，其过程包括：

步骤1.2：随机选取若干篇机械领域专利文本，人工获取组件名称作为校对标准；

步骤2.2：读取专利的权利要求书和具体实施方式并进行文本预处理；

步骤3.2：从0-1间隔0.05设置系列字频差值阈值(CFDV-Ⅰ)；

步骤4.2：依次选用步骤3.2中的每一个字频差值阈值(CFDV-Ⅰ)，按照(一)部分中步骤3.1-6.1的方式得到21组参考组件词；

步骤5.2：将步骤4.2提取得到的21组参考组件词，与校对标准中的标准组件进行校对，分别统计正确提取的组件个数(EC)、标准组件的个数(E)与提取得到的组件个数(S)，计算21组数据的正确率(P)、召回率(R)和调和平均数(F1)：

步骤6.2：对比21组件数据的调和平均数F1，选取其最大值所对应的字频差值阈值作为:预提取过程的最优字频差值阈值(CFDV-Ⅰ)。

(三)左边界词库的构建

如图3所示，其过程包括：

步骤1.3：随机选取若干篇机械领域专利文本；

步骤2.3：采用(二)中得到的第一层的最优字频差值阈值(CFDV-Ⅰ)，并按照(一)部分中1.1-6.1的方式提取参考组件词；

步骤3.3：将参考组件词作为右边界，提取文本中在参考组件左侧的词语，保存到左侧词库中；

步骤4.3：统计左侧词库中每个词语的词频(WF)；

步骤5.3：将词频大于词频阈值(LSWF)的词语构建成为左边界词库。

(四)最优词频阈值以及第二层的字频差阈值

如图4所示，其过程包括：

步骤1.4：随机选取若干篇机械领域专利文本，人工获取组件名称作为校对标准；

步骤2.4：按照(三)部分中的步骤2.3-步骤4.3执行；

步骤3.4：从0-0.0015间隔0.0001设置词频阈值(LSWF)，按照(三)部分中的步骤5.3执行构建出16个左边界词库。

步骤4.4：依次将步骤3.4:得到的16个左边词库作为左边界词，将附图标记作为右边界，提取得到16组系统组件候选词数据；

步骤5.4：从0-1间隔0.05设置系列字频差值阈值(CFDV-Ⅱ)；

步骤6.4：依次选用步骤5.4中的每一个字频差值阈值(CFDV-Ⅱ)，对16组系统组件候选词数据分别按照(一)部分的步骤5.1-步骤6.1的方式进行执行得到系统组件；

步骤7.4：将步骤6.4提取得到的336组系统组件，与校对标注中标准组件进行校对，分别统计正确提取的系统组件个数(EC)、标准组件的个数(E)与提取得到的系统组件个数(S)，计算336组数据的正确率(P)、召回率(R)和调和平均数(F1)。

步骤8.4：对比336组件数据的调和平均数F1，选取其最大值所对应的词频阈值和字频差值阈值作为左边界词库构建的最优词频阈值(LSWF)和终提取的最优字频差值阈值(CFDV-Ⅱ)，即第二层的最优字频差阈值。

基于上述三个最优参数的组合，如图5所示，本实施例中对待处理的专利文本进行自动处理的过程如下：

步骤1.5：根据(一)部分的方式并以第一层的最优字频差值阈值(CFDV-Ⅰ)为基础执行，得到参考组件词，譬如，第一层的最优字频差值阈值(CFDV-Ⅰ)为0.75；

步骤2.5：将上述步骤中得到的参考组件保存在文件中；

步骤3.5：在专利文本中提取上述参考组件左侧的词语，续写至左边界词库文件中并重新计算左边界词库中所有词语词频；

步骤4.5：清空左边界词库文件，并将上一步骤中词语词频大于最优词频阈值的词语保存到左边界词库中，譬如，最优词频阈值为0.0004；

步骤5.5：导入左边界词库作为左边界词，将附图标记作为右边界，提取得到系统组件候选词；

步骤6.5：按照(一)部分记载的方式以及设置的第二层的最优字频差阈值提取得到组件名称，譬如第二层的最优字频差阈值为0.5。

基于上述一种基于所述专利文本中组件命名自动提取方法，本发明还提供一种基于所述方法来实现的系统，其包括：

在一些实施例中，所述系统还包括：最优参数获取模块：用于获取第一层的最优字频差阈值(CFDV-Ⅰ)、第二层的最优字频差阈值(CFDV-Ⅱ)以及最优词频阈值(LSWF)。

应当理解，上述单元模块的具体实现过程参照方法内容，本发明在此不进行具体的赘述，且上述功能模块单元的划分仅仅是一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。同时，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

在一些实例中，本发明还提供一种终端，包括处理器和存储器，所述存储器存储了计算机程序，所述计算机程序被处理器调用以执行：所述专利文本中组件命名自动提取方法的步骤。

在一些实例中，本发明还提供一种可读存储介质，存储了计算机程序，所述计算机程序被处理器调用以执行：所述专利文本中组件命名自动提取方法的步骤。

应当理解，在本发明实施例中，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。

所述可读存储介质为计算机可读存储介质，其可以是前述任一实施例所述的控制器的内部存储单元，例如控制器的硬盘或内存。所述可读存储介质也可以是所述控制器的外部存储设备，例如所述控制器上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述可读存储介质还可以既包括所述控制器的内部存储单元也包括外部存储设备。所述可读存储介质用于存储所述计算机程序以及所述控制器所需的其他程序和数据。所述可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

应用实例：

本实施例中，随机选取1000篇机械领域中文专利用于确定三个参数，另外选取1000篇专利用于该方法的提取效果验证。

例1字频差值计算实例(以某篇专利附图标记为“32”的候选组件为例)：

例2为了保证所确定的最优CFDV-Ⅰ具有普适性，随机抽取9组不同篇数的专利进行了实验，如图6所示，确定系统组件预提取过程中的最优字频差值阈值为0.75。

例3从1000篇专利中随机抽取了500篇进行实验，确定左边界词词频(LSWF)与系统组件终提取字频差值阈值(CFDV-Ⅱ)的最优组合，由图7所示得到，LSWF＝0.0004，CFDV-Ⅱ＝0.5。

例4从1000篇专利中依次以100篇递增地随机抽取10组专利数据，采分别用CFDV-Ⅰ＝0.75进行参考组件的预提取、采用LSWF＝0.0004构建左边界词库、采用CFDV-Ⅱ＝0.5进行系统组件的终提取。实验结果如下图8所示，10次实验的平均正确率、召回率、调和平均数分别为94.77％、93.59％和94.18％。明显优与现有技术。

需要强调的是，本发明所述的实例是说明性的，而不是限定性的，因此本发明不限于具体实施方式中所述的实例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，不脱离本发明宗旨和范围的，不论是修改还是替换，同样属于本发明的保护范围。

Claims

1.一种专利文本中组件命名自动提取方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的方法，其特征在于：步骤S1和步骤S3分别对应一个字频差阈值，步骤S1中对应的字频差阈值为第一层的最优字频差阈值，获取过程为：

从0-1间隔m₁设置系列字频差阈值；

分别选用每个字频差阈值执行如下步骤A-D：

其中，若某一字符的字频为1，设置其字频差为1；

3.根据权利要求1所述的方法，其特征在于：步骤S2中的左边界词库的构建过程如下：

4.根据权利要求3所述的方法，其特征在于：步骤S1和步骤S3分别对应一个字频差阈值，步骤S2中的所述词频阈值为最优词频阈值，步骤S3中对应的字频差阈值为第二层的最优字频差阈值，其中，所述最优词频阈值以及第二层的最优字频差阈值的获取过程如下：

随机选取若干专利文本，并获取组件名称作为校对标准；

从0-0.0015间隔m₂设置系列词频阈值；

依次选用每个词频阈值执行如下步骤a-d：

c：从0-1间隔m₃设置系列字频差阈值；

5.根据权利要求4所述的方法，其特征在于：若步骤S1中对应的字频差阈值为第一层的最优字频差阈值，则获取所述最优词频阈值以及第二层的最优字频差阈值时，步骤a中以第一层的最优字频差阈值作为字频差阈值得到参考组件词。

6.根据权利要求4所述的方法，其特征在于：步骤d中可靠性是以调和平均数为标准，调和平均数越高，可靠性越高，所述调和平均数的计算公式如下：

其中，F1调和平均数，P为正确率、R为召回率，且满足：

7.根据权利要求1所述的方法，其特征在于：任意字符位置上字符的字频按照如下公式计算：

8.一种基于权利要求1-7任一项所述方法的系统，其特征在于：包括：

9.一种终端，其特征在于：包括处理器和存储器，所述存储器存储了计算机程序，所述计算机程序被处理器调用以执行：权利要求1-7任一项所述方法的步骤。

10.一种可读存储介质，其特征在于：存储了计算机程序，所述计算机程序被处理器调用以执行：权利要求1-7任一项所述方法的步骤。