CN112380856A - 一种专利文本中组件命名自动提取方法、系统、终端以及可读存储介质 - Google Patents

一种专利文本中组件命名自动提取方法、系统、终端以及可读存储介质 Download PDF

Info

Publication number
CN112380856A
CN112380856A CN202011125937.3A CN202011125937A CN112380856A CN 112380856 A CN112380856 A CN 112380856A CN 202011125937 A CN202011125937 A CN 202011125937A CN 112380856 A CN112380856 A CN 112380856A
Authority
CN
China
Prior art keywords
word frequency
frequency difference
component
word
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011125937.3A
Other languages
English (en)
Other versions
CN112380856B (zh
Inventor
孔嘉斌
卜和蛰
吕剑文
杜文轩
刘江南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202011125937.3A priority Critical patent/CN112380856B/zh
Publication of CN112380856A publication Critical patent/CN112380856A/zh
Application granted granted Critical
Publication of CN112380856B publication Critical patent/CN112380856B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种专利文本中组件命名自动提取方法、系统、终端以及可读存储介质,该方法包括:基于字频差值从专利文本中提取参考组件词,其中,以附图标记为右边界提取候选词,基于同一附图标记下所有候选词中每个字符位置上各个字符的字频差值选择性保留候选词得到参考组件词;提取专利文本中参考组件词的左侧词语并构建左边界词库,以左边界词库作为左边界及附图标记作为右边界提取专利文本中的组件候选词;基于组件候选词中各个字符位置上的字频差值选择性保留候选词得到组件名称;其中,保留字频差值大于字频差阈值的字符位置上字频最大的字符。本发明方法可以准确以及高效自动识别实体命名,尤其是用于解决机械领域的组件名称提取。

Description

一种专利文本中组件命名自动提取方法、系统、终端以及可读 存储介质
技术领域
本发明属于自然语言处理技术领域,具体涉及一种专利文本中组件命名自动提取方法、系统、终端以及可读存储介质。
背景技术
高效、准确地从专利文本中提取机械系统组件信息,已成为自动获取专利技术方案至关重要的一环。系统组件属于技术方案的重要特征要素,在专利文献中表达为一种命名实体。目前,随着自然语言处理的发展和自动化获取知识需求的增加,从专利文本中自动识别命名实体已经受到广泛的关注。国内外许多研究者开展了相关的探索。文献1[陈秋瑗,程光,李迪,等.机械设计领域的命名实体识别研究.计算机工程与应用,2017,053(020):100-104.]通过统计字符串之间紧密相邻程度等特征和定义不同词之间紧密相连的程度,从中文文本中识别机械领域的领域词,其调和平均数F1为83.89%。文献2[胡杰.机电产品创新设计的知识获取模型与重用方法研究.贵州:贵州大学,2018.]通过对中文专利中指定类型的组件名称进行词性标注,统计其内部词性规则,利用双向长短期记忆神经网络和条件随机场概率模型对机电产品9类命名实体进行了识别,其9类实体提取的综合调和平均数F1为83.78%。
上述基于规则、统计或者两者结合的方法,需要建立组件名称内部构词特征的模板、构建组件名称边界词和制定统计方法。然而,机械领域专利文本中的命名实体构词规律复杂,难以构建统一的组件名称词性模板。利用组件名称边界词提取方法不考虑组件名称内部词性,具有较好的领域无关性,但是单纯以数字字符和限制数字左侧字符数量提取组件名称候选词,其提取结果的粒度较大,导致组件名称提取精度较低。基于统计的提取方法,主要统计组件名称的内部构词规律,进行词频、互信息、信息熵等统计量的计算。该方法能有效提取领域术语,但需要大量的语料进行训练,特征的选择对识别效果影响较大,难以完整地提取构词特征复杂的组件名称。为了进一步提高自动识别专利文献技术特征的效率和精度,自动识别其命名实体算法的研究具有十分重要的意义。
发明内容
本发明的目的是提供一种专利文本中组件命名自动提取方法、系统、终端以及可读存储介质,所述方法可以准确以及高效自动识别实体命名,尤其是用于解决机械领域的组件名称提取。
本发明提供的一种专利文本中组件命名自动提取方法,包括如下步骤:
S1:基于字频差值从专利文本中提取参考组件词,其中,以附图标记为右边界提取候选词,并基于同一附图标记下所有候选词中每个字符位置上各个字符的字频差值选择性保留候选词得到参考组件词;
S2:提取专利文本中参考组件词的左侧词语并构建左边界词库,然后以左边界词库作为左边界以及附图标记作为右边界提取专利文本中的组件候选词;
S3:基于所述组件候选词中各个字符位置上的字频差值选择性保留候选词得到组件名称;
其中,选择性保留候选词为:保留字频差值大于字频差阈值的字符位置上字频最大的字符。
进一步优选,步骤S1和步骤S3分别对应一个字频差阈值,步骤S1中对应的字频差阈值为第一层的最优字频差阈值,获取过程为:
随机选取若干专利文本作为样本,以及获取专利文本中的组件名称并作为校对标准;
从0-1间隔m1设置系列字频差阈值,其中,m1的取值为经验值;
分别选用每个字频差阈值执行如下步骤A-D:
A:对所述专利文本进行预处理以及分词,然后以附图标记作为右边界提取候选词;
B:将同一附图标记下的候选词聚类并按字符位置排列,计算每个字符位置上各个字符的字频以及每个字符位置上的字频差;
其中,若某一字符的字频为1,设置其字频差为1;
C:将字频差为1的字符保留,并鉴别字符位置的字频差是否大于或等于选用的字频阈值,若大于,则保留对应字符位置上字频最大的字符;
D:将保留的字符按照原有位置排列组成得到所述附图标记下对应的组件名称;
基于校对标准计算各个字频差阈值下组件名称提取的可靠性,选择可靠性最高对应的字频差阈值作为步骤S1中的最优字频差阈值。
进一步优选,步骤S2中的左边界词库的构建过程如下:
提取专利文本中参考组件词的左侧词语;然后统计每个词语的词频;最后选择词频大于词频阈值的词语构建左边界词库。
进一步优选,步骤S1和步骤S3分别对应一个字频差阈值,步骤S2中的所述词频阈值为最优词频阈值,步骤S3中对应的字频差阈值为第二层的最优字频差阈值,其中,所述最优词频阈值以及第二层的最优字频差阈值的获取过程如下:
随机选取若干专利文本,并获取组件名称作为校对标准;
从0-0.0015间隔m2设置系列词频阈值,其中,m2的取值为经验值;
依次选用每个词频阈值执行如下步骤a-d:
a:按照步骤S1的方式处理专利文本获取到参考组件词,再按照权利要求3中左边界词库的构建方法构建每个词频阈值对应的左边界词库;
b:分别将各个左边界词库作为左边界以及附图标记作为右边界提取专利文本中每个词频阈值对应的组件候选词;
c:从0-1间隔m3设置系列字频差阈值,其中,m3的取值为经验值;
d:按照步骤S3的方式得到每个词频阈值以及每个字频差阈值对应的组件名称,并与对应的校对标准进行比对,选择出可靠性最高时对应的词频阈值以及字频差阈值作为最优词频阈值以及第二层的最优字频差阈值。
进一步优选,若步骤S1中对应的字频差阈值为第一层的最优字频差阈值,则获取所述最优词频阈值以及第二层的最优字频差阈值时,步骤a中以第一层的最优字频差阈值作为字频差阈值得到参考组件词。
进一步优选,步骤d中可靠性是以调和平均数为标准,调和平均数越高,可靠性越高,所述调和平均数的计算公式如下:
Figure BDA0002733610600000031
其中,F1调和平均数,P为正确率、R为召回率,且满足:
Figure BDA0002733610600000032
式中,EC表示与校对标准匹配后统计出的提取正确的组件个数,E表示标准组件的个数,S为提取的组件个数。
进一步优选,任意字符位置上字符的字频按照如下公式计算:
Figure BDA0002733610600000033
式中:CF为字符位置上字符的字频,CH-N为字符位置上字符出现的次数,CH-Z为字符位置上字符总数。
第二方面,本发明还提供一种基于所述专利文本中组件命名自动提取方法的系统,包括:
参考组件词获取模块:用于基于字频差值从专利文本中提取得到参考组件词;
组件候选词获取模块:用于提取专利文本中参考组件词的左侧词语并构建左边界词库,然后以左边界词库作为左边界以及附图标记作为右边界提取专利文本中的组件候选词;
组件命名提取模块:用于基于所述组件候选词中各个位置的字频差值选择性保留候选词得到组件命名。
第三方面,本发明还提供一种终端,包括处理器和存储器,所述存储器存储了计算机程序,所述计算机程序被处理器调用以执行:所述专利文本中组件命名自动提取方法的步骤。
第四方面,本发明还提供一种可读存储介质,存储了计算机程序,所述计算机程序被处理器调用以执行:所述专利文本中组件命名自动提取方法的步骤。
有益效果
本发明提供的所述专利文本中组件命名自动提取方法其不需要构建同一的组件名称词性模板,是基于专利文本中组件的撰写方式,结合附图标记并以字频差值为基础进行组件名称提取,本发明所述方法可以简单、高效以及准确地识别出实体命名,尤其是可以有效地提取出机械领域的组件名称。
附图说明
图1是本实施例提供的基于字频差值的参考组件词的提取流程示意图;
图2是本实施例提供的第一层的最优字频差阈值的获取流程示意图;
图3是本实施例提供的左边界词库的构建流程示意图;
图4是本实施例提供的最优词频阈值以及第二层的字频差阈值的获取流程示意图;
图5是本实施例提供的基于三个参数的最优组合下对待处理的专利文本进行自动处理的流程示意图;
图6是例2中9组不同篇数的专利的实验结果示意图;
图7是例3的实验结果示意图;
图8是例4的实验结果示意图。
具体实施方式
下面将结合实施例对本发明做进一步的说明。
本发明提供的一种专利文本中组件命名自动提取方法是基于字频差值从专利文本中自动预提取得到参考组件,然后利用参考组件提取其左侧的词语并依据词频构建左边界词库,最后以左边界词库作为左边界词、以附图标记作为右边界提取组件候选词,并基于字频差值提取得到组件名称。其中,涉及到三个参数,分别为预提取过程中的字频差阈值(CFDV-Ⅰ),即第一层的字频差阈值、自动构建左切分词库的词频阈值(LSWF)和终提取过程中的字频差阈值(CFDV-Ⅱ),即第二层的字频差阈值。在一些实例中,上述三个参数可以是根据经验值预先设置,本实施例中优选对此三个参数进行了优化处理以得到最优的三个参数,如下将对得到的三个最优参数的理论获取过程进行阐述,并以机械领域的专利文本为例。
(一)基于字频差值的参考组件词的提取
如图1所示,其过程包括:
步骤1.1:从专利文本中读取权利要求书、具体实施方式。
步骤2.1:对步骤1.1中的读取文本进行标准格式化处理;
步骤3.1:自动从文本中提取附图标记;
步骤4.1:对文本进行分词处理,以附图标记作为右边界预提取系统组件名称词语作为候选词;
步骤5.1:同一附图标记下候选词字频差值计算;
步骤5-1:将同一个附图标记下的候选词聚类到同一集合当中:
{S1:[CW11,CW12,CW13,…,CW1m],
S2:[CW21,CW22,CW23,…,CW2m],
S3:[CW31,CW32,CW33,…,CW3m],
……
Sn:[CWn1,CWn2,CWn3,…,CWnm],}
其中,S1~Sn为一篇专利中所有的附图标记,CW为候选词。
步骤5-2:将每个附图标记中的候选词字符排列为列表中:
Sn:
CWn1=[…,Wn1 o+2,Wn1 o+1,Wn1 o]
CWn2=[…,Wn2 o+2,Wn2 o+1,Wn2 o]
……
CWnm=[…,Wnm o+2,Wnm o+1,Wnm o]
其中:W为候选组件词的字符。
步骤5-3:从右往左依次计算每个附图标记下候选词每个位置上各字符的字频,其计算公式为:
Figure BDA0002733610600000051
式中:CF为字符位置上字符的字频,CH-N为字符位置上字符出现的次数,CH-Z为字符位置上字符总数。
步骤5-4:从右往左依次计算每个附图标记下候选组件此每个位置上的字频差值,其计算公式为:
CFDV=CFmax-CFmin
注:若某位置上字符字频为1,则CFDV=1。
式中:CFDV为每个位置上的字频差值,CFmax为该位置上字频的最大值,CFmin为该位置上字频的最小值。
步骤6.1:基于字频差值的组件名称预提取;
步骤6-1:从右往左判断候选组件中各个位置的字频差值是否等于1,是则将该字符暂存为组件提取结果的字符之一并循环至下一个字符位置,否则进入下一步。
步骤6-2:判断该字符位置的字频差值是否大于字频差阈值(CFDV-Ⅰ),是则将该字符位置的字频最大的字符暂存为组件提取结果的字符之一并循环至下一个字符位置,否则停止循环并将暂存的所有字符按原有位置顺序排列成为组件提取结果。
上述步骤1.1-6.1阐述了如何就一个专利文本提取参考组件词。下述内容将结合该部分描述如何得到预提取过程中的最优字频差阈值(CFDV-Ⅰ),
(二)第一层的最优字频差阈值
如图2所示,其过程包括:
步骤1.2:随机选取若干篇机械领域专利文本,人工获取组件名称作为校对标准;
步骤2.2:读取专利的权利要求书和具体实施方式并进行文本预处理;
步骤3.2:从0-1间隔0.05设置系列字频差值阈值(CFDV-Ⅰ);
步骤4.2:依次选用步骤3.2中的每一个字频差值阈值(CFDV-Ⅰ),按照(一)部分中步骤3.1-6.1的方式得到21组参考组件词;
步骤5.2:将步骤4.2提取得到的21组参考组件词,与校对标准中的标准组件进行校对,分别统计正确提取的组件个数(EC)、标准组件的个数(E)与提取得到的组件个数(S),计算21组数据的正确率(P)、召回率(R)和调和平均数(F1):
Figure BDA0002733610600000061
Figure BDA0002733610600000062
Figure BDA0002733610600000063
步骤6.2:对比21组件数据的调和平均数F1,选取其最大值所对应的字频差值阈值作为:预提取过程的最优字频差值阈值(CFDV-Ⅰ)。
(三)左边界词库的构建
如图3所示,其过程包括:
步骤1.3:随机选取若干篇机械领域专利文本;
步骤2.3:采用(二)中得到的第一层的最优字频差值阈值(CFDV-Ⅰ),并按照(一)部分中1.1-6.1的方式提取参考组件词;
步骤3.3:将参考组件词作为右边界,提取文本中在参考组件左侧的词语,保存到左侧词库中;
步骤4.3:统计左侧词库中每个词语的词频(WF);
步骤5.3:将词频大于词频阈值(LSWF)的词语构建成为左边界词库。
(四)最优词频阈值以及第二层的字频差阈值
如图4所示,其过程包括:
步骤1.4:随机选取若干篇机械领域专利文本,人工获取组件名称作为校对标准;
步骤2.4:按照(三)部分中的步骤2.3-步骤4.3执行;
步骤3.4:从0-0.0015间隔0.0001设置词频阈值(LSWF),按照(三)部分中的步骤5.3执行构建出16个左边界词库。
步骤4.4:依次将步骤3.4:得到的16个左边词库作为左边界词,将附图标记作为右边界,提取得到16组系统组件候选词数据;
步骤5.4:从0-1间隔0.05设置系列字频差值阈值(CFDV-Ⅱ);
步骤6.4:依次选用步骤5.4中的每一个字频差值阈值(CFDV-Ⅱ),对16组系统组件候选词数据分别按照(一)部分的步骤5.1-步骤6.1的方式进行执行得到系统组件;
步骤7.4:将步骤6.4提取得到的336组系统组件,与校对标注中标准组件进行校对,分别统计正确提取的系统组件个数(EC)、标准组件的个数(E)与提取得到的系统组件个数(S),计算336组数据的正确率(P)、召回率(R)和调和平均数(F1)。
步骤8.4:对比336组件数据的调和平均数F1,选取其最大值所对应的词频阈值和字频差值阈值作为左边界词库构建的最优词频阈值(LSWF)和终提取的最优字频差值阈值(CFDV-Ⅱ),即第二层的最优字频差阈值。
基于上述三个最优参数的组合,如图5所示,本实施例中对待处理的专利文本进行自动处理的过程如下:
步骤1.5:根据(一)部分的方式并以第一层的最优字频差值阈值(CFDV-Ⅰ)为基础执行,得到参考组件词,譬如,第一层的最优字频差值阈值(CFDV-Ⅰ)为0.75;
步骤2.5:将上述步骤中得到的参考组件保存在文件中;
步骤3.5:在专利文本中提取上述参考组件左侧的词语,续写至左边界词库文件中并重新计算左边界词库中所有词语词频;
步骤4.5:清空左边界词库文件,并将上一步骤中词语词频大于最优词频阈值的词语保存到左边界词库中,譬如,最优词频阈值为0.0004;
步骤5.5:导入左边界词库作为左边界词,将附图标记作为右边界,提取得到系统组件候选词;
步骤6.5:按照(一)部分记载的方式以及设置的第二层的最优字频差阈值提取得到组件名称,譬如第二层的最优字频差阈值为0.5。
基于上述一种基于所述专利文本中组件命名自动提取方法,本发明还提供一种基于所述方法来实现的系统,其包括:
参考组件词获取模块:用于基于字频差值从专利文本中提取得到参考组件词;
组件候选词获取模块:用于提取专利文本中参考组件词的左侧词语并构建左边界词库,然后以左边界词库作为左边界以及附图标记作为右边界提取专利文本中的组件候选词;
组件命名提取模块:用于基于所述组件候选词中各个位置的字频差值选择性保留候选词得到组件命名。
在一些实施例中,所述系统还包括:最优参数获取模块:用于获取第一层的最优字频差阈值(CFDV-Ⅰ)、第二层的最优字频差阈值(CFDV-Ⅱ)以及最优词频阈值(LSWF)。
应当理解,上述单元模块的具体实现过程参照方法内容,本发明在此不进行具体的赘述,且上述功能模块单元的划分仅仅是一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。同时,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
在一些实例中,本发明还提供一种终端,包括处理器和存储器,所述存储器存储了计算机程序,所述计算机程序被处理器调用以执行:所述专利文本中组件命名自动提取方法的步骤。
在一些实例中,本发明还提供一种可读存储介质,存储了计算机程序,所述计算机程序被处理器调用以执行:所述专利文本中组件命名自动提取方法的步骤。
应当理解,在本发明实施例中,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
所述可读存储介质为计算机可读存储介质,其可以是前述任一实施例所述的控制器的内部存储单元,例如控制器的硬盘或内存。所述可读存储介质也可以是所述控制器的外部存储设备,例如所述控制器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述可读存储介质还可以既包括所述控制器的内部存储单元也包括外部存储设备。所述可读存储介质用于存储所述计算机程序以及所述控制器所需的其他程序和数据。所述可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
应用实例:
本实施例中,随机选取1000篇机械领域中文专利用于确定三个参数,另外选取1000篇专利用于该方法的提取效果验证。
例1字频差值计算实例(以某篇专利附图标记为“32”的候选组件为例):
Figure BDA0002733610600000091
例2为了保证所确定的最优CFDV-Ⅰ具有普适性,随机抽取9组不同篇数的专利进行了实验,如图6所示,确定系统组件预提取过程中的最优字频差值阈值为0.75。
例3从1000篇专利中随机抽取了500篇进行实验,确定左边界词词频(LSWF)与系统组件终提取字频差值阈值(CFDV-Ⅱ)的最优组合,由图7所示得到,LSWF=0.0004,CFDV-Ⅱ=0.5。
例4从1000篇专利中依次以100篇递增地随机抽取10组专利数据,采分别用CFDV-Ⅰ=0.75进行参考组件的预提取、采用LSWF=0.0004构建左边界词库、采用CFDV-Ⅱ=0.5进行系统组件的终提取。实验结果如下图8所示,10次实验的平均正确率、召回率、调和平均数分别为94.77%、93.59%和94.18%。明显优与现有技术。
需要强调的是,本发明所述的实例是说明性的,而不是限定性的,因此本发明不限于具体实施方式中所述的实例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,不脱离本发明宗旨和范围的,不论是修改还是替换,同样属于本发明的保护范围。

Claims (10)

1.一种专利文本中组件命名自动提取方法,其特征在于:包括如下步骤:
S1:基于字频差值从专利文本中提取参考组件词,其中,以附图标记为右边界提取候选词,并基于同一附图标记下所有候选词中每个字符位置上各个字符的字频差值选择性保留候选词得到参考组件词;
S2:提取专利文本中参考组件词的左侧词语并构建左边界词库,然后以左边界词库作为左边界以及附图标记作为右边界提取专利文本中的组件候选词;
S3:基于所述组件候选词中各个字符位置上的字频差值选择性保留候选词得到组件名称;
其中,选择性保留候选词为:保留字频差值大于字频差阈值的字符位置上字频最大的字符。
2.根据权利要求1所述的方法,其特征在于:步骤S1和步骤S3分别对应一个字频差阈值,步骤S1中对应的字频差阈值为第一层的最优字频差阈值,获取过程为:
随机选取若干专利文本作为样本,以及获取专利文本中的组件名称并作为校对标准;
从0-1间隔m1设置系列字频差阈值;
分别选用每个字频差阈值执行如下步骤A-D:
A:对所述专利文本进行预处理以及分词,然后以附图标记作为右边界提取候选词;
B:将同一附图标记下的候选词聚类并按字符位置排列,计算每个字符位置上各个字符的字频以及每个字符位置上的字频差;
其中,若某一字符的字频为1,设置其字频差为1;
C:将字频差为1的字符保留,并鉴别字符位置的字频差是否大于或等于选用的字频阈值,若大于,则保留对应字符位置上字频最大的字符;
D:将保留的字符按照原有位置排列组成得到所述附图标记下对应的组件名称;
基于校对标准计算各个字频差阈值下组件名称提取的可靠性,选择可靠性最高对应的字频差阈值作为步骤S1中的最优字频差阈值。
3.根据权利要求1所述的方法,其特征在于:步骤S2中的左边界词库的构建过程如下:
提取专利文本中参考组件词的左侧词语;然后统计每个词语的词频;最后选择词频大于词频阈值的词语构建左边界词库。
4.根据权利要求3所述的方法,其特征在于:步骤S1和步骤S3分别对应一个字频差阈值,步骤S2中的所述词频阈值为最优词频阈值,步骤S3中对应的字频差阈值为第二层的最优字频差阈值,其中,所述最优词频阈值以及第二层的最优字频差阈值的获取过程如下:
随机选取若干专利文本,并获取组件名称作为校对标准;
从0-0.0015间隔m2设置系列词频阈值;
依次选用每个词频阈值执行如下步骤a-d:
a:按照步骤S1的方式处理专利文本获取到参考组件词,再按照权利要求3中左边界词库的构建方法构建每个词频阈值对应的左边界词库;
b:分别将各个左边界词库作为左边界以及附图标记作为右边界提取专利文本中每个词频阈值对应的组件候选词;
c:从0-1间隔m3设置系列字频差阈值;
d:按照步骤S3的方式得到每个词频阈值以及每个字频差阈值对应的组件名称,并与对应的校对标准进行比对,选择出可靠性最高时对应的词频阈值以及字频差阈值作为最优词频阈值以及第二层的最优字频差阈值。
5.根据权利要求4所述的方法,其特征在于:若步骤S1中对应的字频差阈值为第一层的最优字频差阈值,则获取所述最优词频阈值以及第二层的最优字频差阈值时,步骤a中以第一层的最优字频差阈值作为字频差阈值得到参考组件词。
6.根据权利要求4所述的方法,其特征在于:步骤d中可靠性是以调和平均数为标准,调和平均数越高,可靠性越高,所述调和平均数的计算公式如下:
Figure FDA0002733610590000021
其中,F1调和平均数,P为正确率、R为召回率,且满足:
Figure FDA0002733610590000022
式中,EC表示与校对标准匹配后统计出的提取正确的组件个数,E表示标准组件的个数,S为提取的组件个数。
7.根据权利要求1所述的方法,其特征在于:任意字符位置上字符的字频按照如下公式计算:
Figure FDA0002733610590000023
式中:CF为字符位置上字符的字频,CH-N为字符位置上字符出现的次数,CH-Z为字符位置上字符总数。
8.一种基于权利要求1-7任一项所述方法的系统,其特征在于:包括:
参考组件词获取模块:用于基于字频差值从专利文本中提取得到参考组件词;
组件候选词获取模块:用于提取专利文本中参考组件词的左侧词语并构建左边界词库,然后以左边界词库作为左边界以及附图标记作为右边界提取专利文本中的组件候选词;
组件命名提取模块:用于基于所述组件候选词中各个位置的字频差值选择性保留候选词得到组件命名。
9.一种终端,其特征在于:包括处理器和存储器,所述存储器存储了计算机程序,所述计算机程序被处理器调用以执行:权利要求1-7任一项所述方法的步骤。
10.一种可读存储介质,其特征在于:存储了计算机程序,所述计算机程序被处理器调用以执行:权利要求1-7任一项所述方法的步骤。
CN202011125937.3A 2020-10-20 2020-10-20 一种专利文本中组件命名自动提取方法、系统、终端以及可读存储介质 Active CN112380856B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011125937.3A CN112380856B (zh) 2020-10-20 2020-10-20 一种专利文本中组件命名自动提取方法、系统、终端以及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011125937.3A CN112380856B (zh) 2020-10-20 2020-10-20 一种专利文本中组件命名自动提取方法、系统、终端以及可读存储介质

Publications (2)

Publication Number Publication Date
CN112380856A true CN112380856A (zh) 2021-02-19
CN112380856B CN112380856B (zh) 2023-09-29

Family

ID=74581677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011125937.3A Active CN112380856B (zh) 2020-10-20 2020-10-20 一种专利文本中组件命名自动提取方法、系统、终端以及可读存储介质

Country Status (1)

Country Link
CN (1) CN112380856B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949254A (zh) * 2021-02-25 2021-06-11 郎丽华 专利申请文件附图标记处理系统及其处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012141783A (ja) * 2010-12-28 2012-07-26 Yahoo Japan Corp 情報処理装置、複合語抽出方法、及び複合語抽出プログラム
CN104298662A (zh) * 2014-04-29 2015-01-21 中国专利信息中心 一种基于有机物命名实体的机器翻译方法及翻译系统
CN108549639A (zh) * 2018-04-20 2018-09-18 山东管理学院 基于多特征模板修正的中医医案命名识别方法及系统
CN109408818A (zh) * 2018-10-12 2019-03-01 平安科技(深圳)有限公司 新词识别方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012141783A (ja) * 2010-12-28 2012-07-26 Yahoo Japan Corp 情報処理装置、複合語抽出方法、及び複合語抽出プログラム
CN104298662A (zh) * 2014-04-29 2015-01-21 中国专利信息中心 一种基于有机物命名实体的机器翻译方法及翻译系统
CN108549639A (zh) * 2018-04-20 2018-09-18 山东管理学院 基于多特征模板修正的中医医案命名识别方法及系统
CN109408818A (zh) * 2018-10-12 2019-03-01 平安科技(深圳)有限公司 新词识别方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
牛萍;黄德根;: "TF-IDF与规则相结合的中文关键词自动抽取研究", 小型微型计算机系统, no. 04 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949254A (zh) * 2021-02-25 2021-06-11 郎丽华 专利申请文件附图标记处理系统及其处理方法

Also Published As

Publication number Publication date
CN112380856B (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
WO2019218514A1 (zh) 网页目标信息的提取方法、装置及存储介质
CN109992664B (zh) 争议焦点的标注分类方法、装置、计算机设备和存储介质
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN111680131B (zh) 基于语义的文档聚类方法、系统及计算机设备
CN111985244B (zh) 一种针对文档内容的洗稿检测方法及装置
CN116050397B (zh) 一种长文本摘要生成方法、系统、设备及存储介质
CN112613322A (zh) 文本处理方法、装置、设备及存储介质
CN113762100B (zh) 医疗票据中名称提取及标准化方法、装置、计算设备及存储介质
CN111046660A (zh) 一种识别文本专业术语的方法及装置
CN112380856B (zh) 一种专利文本中组件命名自动提取方法、系统、终端以及可读存储介质
CN112711652B (zh) 术语标准化方法及装置
CN111797195A (zh) 配件名称识别方法、装置、计算机设备和存储介质
CN111291535A (zh) 剧本处理方法、装置、电子设备及计算机可读存储介质
CN112926577B (zh) 一种医疗票据图像结构化方法和装置、计算机可读介质
M’rabet et al. TextFlow: a text similarity measure based on continuous sequences
WO2023087702A1 (zh) 一种表格证件影像件的文本识别方法及计算设备
CN115294593A (zh) 一种图像信息抽取方法、装置、计算机设备及存储介质
CN115455969A (zh) 一种医学文本命名实体识别方法、装置、设备及存储介质
CN108875591A (zh) 文本图片匹配分析方法、装置、计算机设备和存储介质
Dhivya et al. Tablet identification using support vector machine based text recognition and error correction by enhanced n‐grams algorithm
CN110909538A (zh) 问答内容的识别方法、装置、终端设备及介质
CN117648409B (zh) 一种基于ocr的版式文件防伪识别方法
CN112686045B (zh) 文本错误检测模型的评测方法及装置
CN113688268B (zh) 图片信息抽取方法、装置、计算机设备及存储介质
CN116758565B (zh) 一种基于决策树的ocr文本还原方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant