CN112417857A - 专利文本分析方法、装置、电子设备和存储介质 - Google Patents

专利文本分析方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112417857A
CN112417857A CN202011402396.4A CN202011402396A CN112417857A CN 112417857 A CN112417857 A CN 112417857A CN 202011402396 A CN202011402396 A CN 202011402396A CN 112417857 A CN112417857 A CN 112417857A
Authority
CN
China
Prior art keywords
text
texts
category
independent
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011402396.4A
Other languages
English (en)
Inventor
郭韦良
阳晓文
张荣驰
何小莲
张欢
袁佳话
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huabin Licheng Technology Co ltd
Original Assignee
Beijing Huabin Licheng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huabin Licheng Technology Co ltd filed Critical Beijing Huabin Licheng Technology Co ltd
Priority to CN202011402396.4A priority Critical patent/CN112417857A/zh
Publication of CN112417857A publication Critical patent/CN112417857A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种专利文本分析方法、装置、电子设备和存储介质,其中方法包括:确定待分析的专利文本中的各项权要文本;将各项权要文本输入至权要分类模型,得到所述权要分类模型输出的各项权要文本的权要类别,所述权要类别为独权或从权;基于各项权要文本的权要类别,对所述专利文本进行分析;其中,所述权要分类模型是基于样本权要文本及其样本权要类别训练得到的。本发明提供的方法、装置、电子设备和存储介质,权要分类模型的应用能够自动学习独权文本和从权文本自身的特点,而无需人工设置规则,因此权要分类更加客观稳定,准确性更高、效率更优,由此进行的专利文本分析也更加准确可靠。

Description

专利文本分析方法、装置、电子设备和存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种专利文本分析方法、装置、电子设备和存储介质。
背景技术
随着科技的迅速发展,专利数据的作用越来越得到人们的重视。尤其是对于企业而言,了解对手企业的专利信息,能够为自我研发提供技术支持,规避重复研发,亦有助于自有专利的挖掘和布局。
目前的专利文本分析,多依赖于专利文本自身的结构化特点,并结合预先制定好的规则定位权利要求书,并从中区分独立权利要求和从属权利要求。然而,规则的制定完全依赖于制定人员对于专利文本撰写方式的理解,主观性极强,且制定所得的规则并不一定能够覆盖所有可能出现的情况,由此所得的专利文本分析结果准确性和可靠性很低。
发明内容
本发明提供一种专利文本分析方法、装置、电子设备和存储介质,用以解决现有的专利文本分析方法准确性和可靠性低的问题。
本发明提供一种专利文本分析方法,包括:
确定待分析的专利文本中的各项权要文本;
将各项权要文本输入至权要分类模型,得到所述权要分类模型输出的各项权要文本的权要类别,所述权要类别为独权或从权;
基于各项权要文本的权要类别,对所述专利文本进行分析;
其中,所述权要分类模型是基于样本权要文本及其样本权要类别训练得到的。
根据本发明提供一种的专利文本分析方法,所述基于各项权要文本的权要类别,对所述专利文本进行分析,包括:
基于各项独权文本,对所述专利文本进行专利分类,所述独权文本是权要类别为独权的权要文本;
和/或,基于各项从权文本,对所述专利文本进行引用关系分析,所述从权文本是权要类别为从权的权要文本。
根据本发明提供一种的专利文本分析方法,所述基于各项独权文本,对所述专利文本进行专利分类,包括:
将各项独权文本分别输入至专利分类模型,得到所述专利分类模型输出的各项独权文本的候选专利类别;
基于各项独权文本的候选专利类别,确定所述专利文本的专利类别;
其中,所述专利类别是基于样本独权文本及其样本专利类别训练得到的。
根据本发明提供一种的专利文本分析方法,所述基于各项独权文本的候选专利类别,确定所述专利文本的专利类别,包括:
基于各项独权文本的候选专利类别,以及预先设定的各个候选专利类别的权重,对各个候选专利类别进行加权,得到各个候选专利类别的得分;
将得分最高的候选专利类别作为所述专利文本的专利类别。
根据本发明提供一种的专利文本分析方法,所述基于各项从权文本,对所述专利文本进行引用关系分析,包括:
基于预设引用规则,将任一项从权文本与其之前的各项权要文本进行引用关系判断;
若未得到所述任一项从权文本的引用权要序号,则将所述任一项从权文本输入至引用分析模型中,得到所述引用分析模型输出的所述任一项从权文本的引用权要序号;
基于各项从权文本的引用权要序号,对所述专利文本进行引用关系分析;
其中,所述引用分析模型是基于样本从权文本及其引用权要序号训练得到的。
根据本发明提供一种的专利文本分析方法,所述权要分类模型的训练方法包括:
确定包括所述样本权要文本及其样本权要类别的第一训练集;
基于所述第一训练集对初始模型进行预训练,得到预训练模型;
基于所述第一训练集中所述样本权要类别与所述初始模型输出的预测权要类别不一致的部分,构建第二训练集;
基于所述第二训练集对所述预训练模型进行迭代训练,得到所述权要分类模型。
根据本发明提供一种的专利文本分析方法,所述基于所述第一训练集中所述样本权要类别与所述初始模型输出的预测权要类别不一致的部分,构建第二训练集,包括:
将所述第一训练集中所述样本权要类别与所述初始模型输出的预测权要类别不一致的部分,作为种子训练集;
基于文本相似度算法,从待标注数据集中选取与所述种子训练集中各个样本权要文本相匹配的待标注权要文本,将对应样本权要文本的样本权要类别作为所述待标注权要文本的权要类别;
将所述种子训练集,以及与所述种子训练集中各个样本权要文本相匹配的待标注权要文本及其权要类别置入所述第二训练集。
本发明还提供一种专利文本分析装置,包括:
文本确定单元,用于确定待分析的专利文本中的各项权要文本;
权要分类单元,用于将各项权要文本输入至权要分类模型,得到所述权要分类模型输出的各项权要文本的权要类别,所述权要类别为独权或从权;
专利分析单元,用于基于各项权要文本的权要类别,对所述专利文本进行分析;
其中,所述权要分类模型是基于样本权要文本及其样本权要类别训练得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述专利文本分析方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述专利文本分析方法的步骤。
本发明提供的专利文本分析方法、装置、电子设备和存储介质,通过权要分类模型的应用实现了权要文本的类别区分,相较于基于规则的权要分类方法,权要分类模型的应用能够自动学习独权文本和从权文本自身的特点,而无需人工设置规则,因此权要分类更加客观稳定,准确性更高、效率更优,由此进行的专利文本分析也更加准确可靠。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的专利文本分析方法的流程示意图之一;
图2是本发明提供的专利文本分析方法的流程示意图之二;
图3是本发明提供的引用关系树状分支图;
图4是本发明提供的权要分类模型的训练方法的流程示意图;
图5是本发明提供的一维时间序列示意图;
图6是本发明提供的专利文本分析装置的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明提供的专利文本分析方法的流程示意图之一,如图1所示,该方法包括:
步骤110,确定待分析的专利文本中的各项权要文本。
具体地,待分析的专利文本即需要进行分析的专利文本,专利文本可以是通过互联网下载所得的电子版文本,也可以是将纸质版的专利文件通过OCR(Optical CharacterRecognition,光学字符识别)所得的文本,本发明实施例对此不作具体限定。
待分析的专利文本中包含有权利要求书文本,权利要求书文本由至少一项权要文本构成,此处所指的权要文本即单条权利要求的文本。可以在得到该分析的专利文本之后,对专利文本中的权利要求书文本进行拆分,例如可以根据权利要求书文本中每项权利要求前的序号,对各项权要文本进行拆分,也可以根据每项权利要求结尾处的句号,对各项权要文本进行拆分。
步骤120,将各项权要文本输入至权要分类模型,得到权要分类模型输出的各项权要文本的权要类别,权要类别为独权或从权;其中,权要分类模型是基于样本权要文本及其样本权要类别训练得到的。
具体地,在得到待分析的专利文本中的各项权要文本后,可以将各项权要文本分别输入至权要分类模型中,由权要分类模型对输入的各项权要文本分别进行权要分类,从而输出各项权要文本分别对应的权要类别,以区分权利要求书文本中的独立权利要求和从属权利要求。
此处的权要分类模型是预先训练好的,在执行步骤120之前,可以对权要分类模型进行训练,权要分类模型的训练可以通过如下方式实现:首先收集大量样本权要文本,对样本权要文本进行基于正则的自动化标记并配合人工标记,得到样本权要文本的样本权要类别。随即,基于样本权要文本及其样本权要类别,对初始模型进行训练,并将训练所得的模型作为权要分类模型。此处,初始模型可以是BERT(Bidirectional EncoderRepresentations from Transformers)模型,也可以是其他类别的语言模型。
步骤130,基于各项权要文本的权要类别,对专利文本进行分析。
具体地,在得到各项权要文本的权要类别之后,即可针对性地对专利文本进行分析,例如可以针对专利文本中的各个独权文本,分析专利文本实际涉及的技术领域,或者专利文本实际要求保护的主题类别,还可以针对专利文本中的各个从权文本,分析从权文本的引用关系,从而得到专利文本中权利要求书文本的整体引用关系,展示权利要求书的布局思路。
本发明实施例提供的方法,通过权要分类模型的应用实现了权要文本的类别区分,相较于基于规则的权要分类方法,权要分类模型的应用能够自动学习独权文本和从权文本自身的特点,而无需人工设置规则,因此权要分类更加客观稳定,准确性更高、效率更优,由此进行的专利文本分析也更加准确可靠。
基于上述实施例,图2是本发明提供的专利文本分析方法的流程示意图之二,如图2所示,步骤130包括:
步骤131,基于各项独权文本,对专利文本进行专利分类,独权文本是权要类别为独权的权要文本。
和/或,步骤132,基于各项从权文本,对专利文本进行引用关系分析,从权文本是权要类别为从权的权要文本。
具体地,步骤131和步骤132分别是针对独权文本和从权文本的专利文本分析方法,步骤131可以在步骤132之前或者执行,也可以与步骤132同步执行,本发明实施例对此不作具体限定。
由于独权文本中包含了专利文本的核心发明构思,相对于专利文本中的各项从权文本,独权文本更能够直观地反映专利文本实际上的领域类别。因此,可以基于各项独权文本所包含的分词,或者各项独权文本所表示的语义,对专利文本进行专利分类,从而得到专利文本实际上的领域类别。
此外,由于从权文本反映的是直接或者间接引用的独权文本包含的技术方案的附加技术特征,专利文本的权利要求保护范围的判断需要以各项从权文本的引用关系作为依据。因此,针对于专利文本中的各项从权文本,可以分析各项从权文本的引用关系,从而梳理专利文本中权利要求书文本的权要架构,展示权利要求书的布局思路。
基于上述任一实施例,步骤131包括:
将各项独权文本分别输入至专利分类模型,得到专利分类模型输出的各项独权文本的候选专利类别;其中,专利类别是基于样本独权文本及其样本专利类别训练得到的。
基于各项独权文本的候选专利类别,确定专利文本的专利类别。
具体地,在利用独权文本进行专利分类时,考虑到权利要求书文本中可能包括不止一项独权文本,可以分别将各项独权文本均输入到预先训练好的专利分类模型中,由专利分类模型对输入的每项独权文本分别进行专利分类,从而确定每项独权文本可能属于的专利类别,得到并输出每项独权文本的候选专利类别。
在执行步骤131之前,可以对专利分类模型进行训练,专利分类模型的训练可以通过如下方式实现:首先收集大量样本专利文本,并抽取样本专利文本中的样本独权文本,对各个样本独权文本所属的专利类别进行标注,从而得到各个样本独权文本的样本专利类别。随即,基于样本独权文本及其样本专利类别,对初始模型进行训练,并将训练所得的模型作为专利分类模型。
进一步地,在标注各个样本独权文本所属的专利类别之前,可以预先设定技术领域内的常用术语与专利类别之间的关联关系,进而在标注时,可以根据样本独权文本中存在的常用术语,以及常用术语与专利类别之间的关联关系,并样本独权文本进行样本专利类别标注。在此过程中,还可以结合样本独权文本中各个分词的词语重要度,从而在样本独权文本中存在多个常用术语时,为具体选取与哪个常用术语相关联的专利类别提供参考。此处的词语重要度可以是通过中文分词工具、tf-idf(term frequency–inverse documentfrequency)算法和词云等得到的。
以医药领域为例,可以预先统计得到如下专利类别:化合物,序列,晶型,制剂,组合物,医药用途,载体,细胞,给药装置,制备方法,盐,酯,前药,氘代衍生物,衍生物,代谢产物,医药中间体,杂质,分析方法,制药设备,诊断试剂,医疗器械,包材,溶剂化物,其他。在此基础上,构建专利类别与常用术语之间的关联关系,例如常用术语“A pharmaceuticalcombination comprising”对应专利类别“组合物”,常用术语“A method of treating”对应专利类别“医药用途”,常用术语“一种具有式(I)的化合物”对应专利类别“化合物”,常用术语“一种制品”对应专利类别“制剂”。
结合关联关系,基于正则的自动化标注方式或者人工标注的方式设置样本独权文本的样本专利类别,从而得到专利类别训练集用于专利分类模型的训练。
考虑到同个专利文件中不同独权文本对应的候选专利类别可能不同,因此可以结合各项独权文本的候选专利类别进行综合考虑,从而确定专利文本的专利类别。
本发明实施例提供的方法,通过专利分类模型实现基于独权文本的专利分类,有助于提高专利分类的准确性和可靠性。
基于上述任一实施例,步骤131中,基于各项独权文本的候选专利类别,确定专利文本的专利类别,包括:
基于各项独权文本的候选专利类别,以及预先设定的各个候选专利类别的权重,对各个候选专利类别进行加权,得到各个候选专利类别的得分;将得分最高的候选专利类别作为专利文本的专利类别。
具体地,针对同个专利文件中不同独权文本对应的候选专利类别不尽相同的情况,可以根据预先设定好的各个候选专利类别的权重,对各项独权文本的候选专利类别进行加权,从而统计各个候选专利类别的得分。此处,各个候选专利类别的权重可以是根据对应领域内专利布局的优先级或者候选专利类别保护范围的大小设置的,例如在医药领域,可以设置候选专利类别的权重如下表所示:
表1.候选专利类别权重表
Figure BDA0002812875610000091
Figure BDA0002812875610000101
针对所有独权对应的候选专利类别,可以将同一候选专利类别的数量和权重之积作为该候选专利类别的得分。在得到各个候选专利类别的得分之后,将其中得分最高的候选专利类别作为专利文本的专利类别。
基于上述任一实施例,步骤132包括:
基于预设引用规则,将任一项从权文本与其之前的各项权要文本进行引用关系判断;
若未得到该项从权文本的引用权要序号,则将该项从权文本输入至引用分析模型中,得到引用分析模型输出的该项从权文本的引用权要序号;其中,引用分析模型是基于样本从权文本及其引用权要序号训练得到的;
基于各项从权文本的引用权要序号,对专利文本进行引用关系分析。
具体地,考虑到权利要求的引用通常具有较强的规则性,因此可以首先根据预先设置好的引用规则,即预设引用规则,对任一项从权文本,以及序号在该项从权文本之前的所有权要文本进行引用关系的正则判断,从而得到该项从权与此前所有权要文本之间是否存在引用关系。
例如,一类从权文本的引用方式是“according to any one of claims from mto n”,其中m和n为当前从权从属的之前的句子的起始序号和终止序号,例如“A compoundaccording to any one of claims 38 to 40wherein the halogen atom in the R'group-NH-S(O)2-CH2)n2-halo is bromine or chlorine”;又例如,一类从权文本的引用方式是“according to claim m”,其中m为当前从权从属的之前的句子的序号,例如“Acompound according to claim 12 in which n is the integer 1 and Alk1 is anoptionally substituted C1-6alkylene chain”。
预设引用规则可以实现多数从权文本的引用关系分析,但是考虑到仍然存在部分从权文本的引用方式并未按照通用的引用方式进行撰写,仅凭借预设引用规则可能无法识别此类从权文本的引用关系,因此会存在基于预设引用规则无法得到从权文本的引用权要序号的情况。
针对这种情况,可以将未能基于预设引用规则得到引用权要序号的从权文本输入到预先训练好的引用分析模型中,由引用分析模型对输入的从权文本进行引用分析,从而输出从权文本的引用权要序号。
在执行步骤132之前,可以对引用分析模型进行训练,引用分析模型的训练可以通过如下方式实现:首先收集大量样本专利文本,并抽取样本专利文本中的样本从权文本,对各个样本从权文本的引用关系进行标注,从而得到各个样本从权文本的引用权要序号。随即,基于样本从权文本及其引用权要序号,对初始模型进行训练,并将训练所得的模型作为引用分析模型。此处的初始模型可以是多语言条件式生成算法的mBERT模型,相较于BERT模型,mBERT更加擅长文本生成任务。
进一步地,对各个样本从权文本的引用关系的标注,可以体现为两两之间引用关系的标注,若存在引用关系则标记为“1”,不存在则标记为“0”,由此得到训练引用分析模型所需的训练集如下表所示:
表2.引用分析训练集
Figure BDA0002812875610000111
Figure BDA0002812875610000121
其中,text_a为样本从权文本,text_b为样本从权文本之前的权要序号,labels表示text_a和text_b之间是否存在引用关系。
在基于预设引用规则,或者基于预设引用规则和引用分析模型得到各个从权文本的引用权要序号之后,即可对专利文本进行引用关系分析,例如图3是本发明提供的引用关系树状分支图,可以通过图3示出的树状分支图的形式展示专利文本中的权利要求书文本的引用关系。
此外,引用分析模型的输出结果可以体现为下表示出的形式:
表3.引用分析模型的输出结果
Figure BDA0002812875610000122
其中,输入序列input sequence即从权文本,输出序列output sequence即从权文本的引用权要序号,输出序列可以是由逗号间隔的若干阿拉伯数字,也可以体现为数组的形式,例如[1,2],以便后续更方便的使用。
本发明实施例提供的方法,通过预设引用规则与引用分析模型相结合的方式进行引用关系分析,在保证引用关系分析效率的同时,保证了引用关系分析的准确性和可靠性。
基于上述任一实施例,步骤132中,基于预设引用规则,将任一项从权文本与其之前的各项权要文本进行引用关系判断,包括:若任一从权文本的序号小于预设序号阈值,则基于预设引用规则,将任一项从权文本与其之前的各项权要文本进行引用关系判断。
具体地,预设序号阈值即预先设定好的用于分析引用关系的权要序号最大值。考虑到实际操作中,如果一个从权序号过大,则为了识别该从权文本的引用关系,必须对该从权文本之前的所有权要文本是否被该从权引用进行预测分析,如果不加干涉,则此次预测将会消耗大量的计算资源和计算时间,可能会影响其他数据的计算。因此,本申请在执行步骤132之前,设置了预设序号阈值,仅当待分析的从权文本的序号小于预设序号阈值,不会对其他数据的计算产生影响时,对该从权文本进行引用关系分析。例如,预设序号阈值为100,若当前从权文本的序号为200,则不会该从权文本进行引用分析。
基于上述任一实施例,图4是本发明提供的权要分类模型的训练方法的流程示意图,如图4所示,权要分类模型的训练方法包括:
步骤310,确定包括样本权要文本及其样本权要类别的第一训练集;
步骤320,基于第一训练集对初始模型进行预训练,得到预训练模型;
步骤330,基于第一训练集中样本权要类别与初始模型输出的预测权要类别不一致的部分,构建第二训练集;
步骤340,基于第二训练集对预训练模型进行迭代训练,得到权要分类模型。
具体地,第一训练集中,样本权要文本的样本权要类别可以是基于正则的自动化标注配合人工标注得到的,例如独权可以标记为“I”,从权可以标记为“D”,在此环节下,针对部分样本权要文本带有明显的从属关系词“如权利要求1所述的方法……”、“The methodaccording to claim 1wherein the……”等,可以直接根据预先设定的关键词将此部分样本权要文本自动标“D”。
由此可以得到如下表示出的第一训练集:
表4.第一训练集标签列表
Figure BDA0002812875610000141
在得到第一训练集后,可以基于第一训练集对初始模型进行预训练,从而得到预训练后的初始模型,即预训练模型。此处,初始模型可以是bert模型。在预训练过程中,初始模型会针对第一训练集中的各个样本权要文本输出对应的预设权要类别,例如下表示出的预测结果:
表5.预训练预测结果列表
Figure BDA0002812875610000151
将第一训练集中各个样本权要文本的样本权要类别,以及在预训练阶段得到的预测权要类别进行比较,从而从中抽取中样本权要类别和预测权要类别不一致的部分。例如表4和表5中针对序号为6的样本权要文本,表4中标注的样本权要类别为D,表5中标注的预测权要类别为I。这种情况说明,对应样本权要文本中包含的从权判断词可能并不显著,权要分类难度较大,在权要分类过程中出现分类错误的概率较高。
针对这一部分在预训练过程中出错的样本,可以构建第二训练集。此处第二训练集中可以包含此部分样本,也可以既包含此部分样本,也包含与此部分样本相似的其他样本,本发明实施例对此不作具体限定。由此得到的第二训练集,相较于第一训练集,更难以区分独权和从权,因此也更适合对预训练所得的预训练模型进行微调。
在得到第二训练集之后,可以基于第二训练集对预训练模型进行微调,从而得到迭代的模型,此后每次训练均可以通过比较训练集中标注的样本权要类别和实际预测所得预测权要类别,更新第二训练集,并在更新后的第二训练集的基础上,迭代进行模型训练,最终得到权要分类模型。
基于上述任一实施例,步骤330包括:
将第一训练集中样本权要类别与初始模型输出的预测权要类别不一致的部分,作为种子训练集;
基于文本相似度算法,从待标注数据集中选取与种子训练集中各个样本权要文本相匹配的待标注权要文本,将对应样本权要文本的样本权要类别作为待标注权要文本的权要类别;
将种子训练集,以及与种子训练集中各个样本权要文本相匹配的待标注权要文本及其权要类别置入第二训练集。
具体地,在构建第二训练集时,由于上次训练过程中得到的预测权要类别与样本权要类别的部分规模较小,因此需要对训练样本进行扩充。
具体在扩充时,可以将样本权要类别与初始模型输出的预测权要类别不一致的部分作为种子训练集,在此基础上,从待标注数据集中选取出与种子训练集中的样本权要文本在文本层面上相似度较高的待标注权要文本,并直接将与之在文本层面上相似度较高的样本权要文本的样本权要类别赋值到待标注权要文本,从而实现待标注权要文本的快速标注。
此处,待标注数据集即包含有大量未确定权要类别的权要文本的集合,文本层面上的相似度可以通过语义匹配实现,例如可以基于BM25算法,借助搜索引擎框架将种子训练集中的样本权要文本作为搜索词条,对待标注数据集中的待标注权要文本行语义相似匹配。
在完成待标注权要文本的快速标注后,可以将种子训练集以及基于种子训练集标注所得的待标注权要文本及其权要类别,作为第二训练集,用于模型的迭代训练。
相似地,专利分类模型和引用分析模型的训练也可以参照上述实施例中预处理+迭代微调的训练方法执行,此处不再赘述。
基于上述任一实施例,专利分类模型的训练过程中,首先可以建立如下表所示的专利分类训练集:
表6.专利分类训练集
Figure BDA0002812875610000171
Figure BDA0002812875610000181
其中,text表示权要文本,Type为其对应的专利类别。
在基于专利分类训练集完成初始模型的预训练后,可以得到预训练阶段输出的预测结果如下表所示:
表7.专利分类预测结果
Figure BDA0002812875610000182
其中,Type为“#”的数据需要进行人工标记或者设置新的专利类型,并建立新的专利类型与对应独权文本中包含的术语之间的关联关系。在此基础上,基于此类数据构建新的训练集,用于实现预训练所得模型的迭代微调,直至得到专利分类模型。
基于上述任一实施例,在得到各个专利文本的专利类别之后,还可以基于各个专利文本的申请时间和专利类别,建立如图5所示的一维时间序列,将一维时间序列中各个时间元素标记对应的专利文本的专利类型,从而直观展示专利布局情况。
下面对本发明提供的专利文本分析装置进行描述,下文描述的专利文本分析装置与上文描述的专利文本分析方法可相互对应参照。
基于上述任一实施例,图6是本发明提供的专利文本分析装置的结构示意图,如图6所示,该装置包括文本确定单元610、权要分类单元620和专利分析单元630;
其中,文本确定单元610用于确定待分析的专利文本中的各项权要文本;
权要分类单元620用于将各项权要文本输入至权要分类模型,得到所述权要分类模型输出的各项权要文本的权要类别,所述权要类别为独权或从权;
专利分析单元630用于基于各项权要文本的权要类别,对所述专利文本进行分析;
其中,所述权要分类模型是基于样本权要文本及其样本权要类别训练得到的。
本发明实施例提供的装置,通过权要分类模型的应用实现了权要文本的类别区分,相较于基于规则的权要分类方法,权要分类模型的应用能够自动学习独权文本和从权文本自身的特点,而无需人工设置规则,因此权要分类更加客观稳定,准确性更高、效率更优,由此进行的专利文本分析也更加准确可靠。
基于上述任一实施例,专利分析单元630包括:
专利分类子单元,用于基于各项独权文本,对所述专利文本进行专利分类,所述独权文本是权要类别为独权的权要文本;
和/或,引用分析子单元,用于基于各项从权文本,对所述专利文本进行引用关系分析,所述从权文本是权要类别为从权的权要文本。
基于上述任一实施例,专利分类子单元用于:
将各项独权文本分别输入至专利分类模型,得到所述专利分类模型输出的各项独权文本的候选专利类别;
基于各项独权文本的候选专利类别,确定所述专利文本的专利类别;
其中,所述专利类别是基于样本独权文本及其样本专利类别训练得到的。
基于上述任一实施例,专利分类子单元用于:
基于各项独权文本的候选专利类别,以及预先设定的各个候选专利类别的权重,对各个候选专利类别进行加权,得到各个候选专利类别的得分;
将得分最高的候选专利类别作为所述专利文本的专利类别。
基于上述任一实施例,引用分析子单元用于:
基于预设引用规则,将任一项从权文本与其之前的各项权要文本进行引用关系判断;
若未得到所述任一项从权文本的引用权要序号,则将所述任一项从权文本输入至引用分析模型中,得到所述引用分析模型输出的所述任一项从权文本的引用权要序号;
基于各项从权文本的引用权要序号,对所述专利文本进行引用关系分析;
其中,所述引用分析模型是基于样本从权文本及其引用权要序号训练得到的。
基于上述任一实施例,该装置还包括模型训练单元,模型训练单元用于:
确定包括所述样本权要文本及其样本权要类别的第一训练集;
基于所述第一训练集对初始模型进行预训练,得到预训练模型;
基于所述第一训练集中所述样本权要类别与所述初始模型输出的预测权要类别不一致的部分,构建第二训练集;
基于所述第二训练集对所述预训练模型进行迭代训练,得到所述权要分类模型。
基于上述任一实施例,该装置还包括模型训练单元,模型训练单元用于:
将所述第一训练集中所述样本权要类别与所述初始模型输出的预测权要类别不一致的部分,作为种子训练集;
基于文本相似度算法,从待标注数据集中选取与所述种子训练集中各个样本权要文本相匹配的待标注权要文本,将对应样本权要文本的样本权要类别作为所述待标注权要文本的权要类别;
将所述种子训练集,以及与所述种子训练集中各个样本权要文本相匹配的待标注权要文本及其权要类别置入所述第二训练集。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行专利文本分析方法,该方法包括:确定待分析的专利文本中的各项权要文本;将各项权要文本输入至权要分类模型,得到所述权要分类模型输出的各项权要文本的权要类别,所述权要类别为独权或从权;基于各项权要文本的权要类别,对所述专利文本进行分析;其中,所述权要分类模型是基于样本权要文本及其样本权要类别训练得到的。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的专利文本分析方法,该方法包括:确定待分析的专利文本中的各项权要文本;将各项权要文本输入至权要分类模型,得到所述权要分类模型输出的各项权要文本的权要类别,所述权要类别为独权或从权;基于各项权要文本的权要类别,对所述专利文本进行分析;其中,所述权要分类模型是基于样本权要文本及其样本权要类别训练得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的专利文本分析方法,该方法包括:确定待分析的专利文本中的各项权要文本;将各项权要文本输入至权要分类模型,得到所述权要分类模型输出的各项权要文本的权要类别,所述权要类别为独权或从权;基于各项权要文本的权要类别,对所述专利文本进行分析;其中,所述权要分类模型是基于样本权要文本及其样本权要类别训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种专利文本分析方法,其特征在于,包括:
确定待分析的专利文本中的各项权要文本;
将各项权要文本输入至权要分类模型,得到所述权要分类模型输出的各项权要文本的权要类别,所述权要类别为独权或从权;
基于各项权要文本的权要类别,对所述专利文本进行分析;
其中,所述权要分类模型是基于样本权要文本及其样本权要类别训练得到的。
2.根据权利要求1所述的专利文本分析方法,其特征在于,所述基于各项权要文本的权要类别,对所述专利文本进行分析,包括:
基于各项独权文本,对所述专利文本进行专利分类,所述独权文本是权要类别为独权的权要文本;
和/或,基于各项从权文本,对所述专利文本进行引用关系分析,所述从权文本是权要类别为从权的权要文本。
3.根据权利要求2所述的专利文本分析方法,其特征在于,所述基于各项独权文本,对所述专利文本进行专利分类,包括:
将各项独权文本分别输入至专利分类模型,得到所述专利分类模型输出的各项独权文本的候选专利类别;
基于各项独权文本的候选专利类别,确定所述专利文本的专利类别;
其中,所述专利类别是基于样本独权文本及其样本专利类别训练得到的。
4.根据权利要求3所述的专利文本分析方法,其特征在于,所述基于各项独权文本的候选专利类别,确定所述专利文本的专利类别,包括:
基于各项独权文本的候选专利类别,以及预先设定的各个候选专利类别的权重,对各个候选专利类别进行加权,得到各个候选专利类别的得分;
将得分最高的候选专利类别作为所述专利文本的专利类别。
5.根据权利要求2所述的专利文本分析方法,其特征在于,所述基于各项从权文本,对所述专利文本进行引用关系分析,包括:
基于预设引用规则,将任一项从权文本与其之前的各项权要文本进行引用关系判断;
若未得到所述任一项从权文本的引用权要序号,则将所述任一项从权文本输入至引用分析模型中,得到所述引用分析模型输出的所述任一项从权文本的引用权要序号;
基于各项从权文本的引用权要序号,对所述专利文本进行引用关系分析;
其中,所述引用分析模型是基于样本从权文本及其引用权要序号训练得到的。
6.根据权利要求1至5中任一项所述的专利文本分析方法,其特征在于,所述权要分类模型的训练方法包括:
确定包括所述样本权要文本及其样本权要类别的第一训练集;
基于所述第一训练集对初始模型进行预训练,得到预训练模型;
基于所述第一训练集中所述样本权要类别与所述初始模型输出的预测权要类别不一致的部分,构建第二训练集;
基于所述第二训练集对所述预训练模型进行迭代训练,得到所述权要分类模型。
7.根据权利要求6所述的专利文本分析方法,其特征在于,所述基于所述第一训练集中所述样本权要类别与所述初始模型输出的预测权要类别不一致的部分,构建第二训练集,包括:
将所述第一训练集中所述样本权要类别与所述初始模型输出的预测权要类别不一致的部分,作为种子训练集;
基于文本相似度算法,从待标注数据集中选取与所述种子训练集中各个样本权要文本相匹配的待标注权要文本,将对应样本权要文本的样本权要类别作为所述待标注权要文本的权要类别;
将所述种子训练集,以及与所述种子训练集中各个样本权要文本相匹配的待标注权要文本及其权要类别置入所述第二训练集。
8.一种专利文本分析装置,其特征在于,包括:
文本确定单元,用于确定待分析的专利文本中的各项权要文本;
权要分类单元,用于将各项权要文本输入至权要分类模型,得到所述权要分类模型输出的各项权要文本的权要类别,所述权要类别为独权或从权;
专利分析单元,用于基于各项权要文本的权要类别,对所述专利文本进行分析;
其中,所述权要分类模型是基于样本权要文本及其样本权要类别训练得到的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述专利文本分析方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述专利文本分析方法的步骤。
CN202011402396.4A 2020-12-02 2020-12-02 专利文本分析方法、装置、电子设备和存储介质 Pending CN112417857A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011402396.4A CN112417857A (zh) 2020-12-02 2020-12-02 专利文本分析方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011402396.4A CN112417857A (zh) 2020-12-02 2020-12-02 专利文本分析方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN112417857A true CN112417857A (zh) 2021-02-26

Family

ID=74830045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011402396.4A Pending CN112417857A (zh) 2020-12-02 2020-12-02 专利文本分析方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112417857A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684477A (zh) * 2018-12-11 2019-04-26 北京极智感科技有限公司 一种专利文本特征提取方法及系统
CN109918642A (zh) * 2019-01-23 2019-06-21 重庆恢恢信息技术有限公司 基于委员会查询的主动学习框架的情感分析方法及系统
CN110347821A (zh) * 2019-05-29 2019-10-18 华东理工大学 一种文本类别标注的方法、电子设备和可读存储介质
CN111159414A (zh) * 2020-04-02 2020-05-15 成都数联铭品科技有限公司 文本分类方法及系统、电子设备、计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684477A (zh) * 2018-12-11 2019-04-26 北京极智感科技有限公司 一种专利文本特征提取方法及系统
CN109918642A (zh) * 2019-01-23 2019-06-21 重庆恢恢信息技术有限公司 基于委员会查询的主动学习框架的情感分析方法及系统
CN110347821A (zh) * 2019-05-29 2019-10-18 华东理工大学 一种文本类别标注的方法、电子设备和可读存储介质
CN111159414A (zh) * 2020-04-02 2020-05-15 成都数联铭品科技有限公司 文本分类方法及系统、电子设备、计算机可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BUPTDAVID: "标签传播算法(Label Propagation Algorithm)", 《HTTPS://BLOG.CSDN.NET/BUPTDAVID/ARTICLE/DETAILS/96827724》 *
LIULINA603: "adaboost、bagging、boosting的区别", 《HTTPS://BLOG.CSDN.NET/LIULINA603/ARTICLE/DETAILS/78742614》 *
徐丹: "基于权利要求书的专利快速自动分类方法", 《图书情报导引》 *

Similar Documents

Publication Publication Date Title
Sureka et al. Detecting duplicate bug report using character n-gram-based features
US11113477B2 (en) Visualizing comment sentiment
Chen et al. BigGorilla: An open-source ecosystem for data preparation and integration.
US9373075B2 (en) Applying a genetic algorithm to compositional semantics sentiment analysis to improve performance and accelerate domain adaptation
US20170300565A1 (en) System and method for entity extraction from semi-structured text documents
JP7164701B2 (ja) セマンティックテキストデータをタグとマッチングさせる方法、装置、及び命令を格納するコンピュータ読み取り可能な記憶媒体
US20120303661A1 (en) Systems and methods for information extraction using contextual pattern discovery
CN111198948A (zh) 文本分类校正方法、装置、设备及计算机可读存储介质
CN109165382B (zh) 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法
Singh et al. A decision tree based word sense disambiguation system in Manipuri language
US9734234B2 (en) System and method for rectifying a typographical error in a text file
Shcherban et al. Automatic identification of code smell discussions on stack overflow: A preliminary investigation
US11650996B1 (en) Determining query intent and complexity using machine learning
US11599580B2 (en) Method and system to extract domain concepts to create domain dictionaries and ontologies
CN108829898B (zh) Html内容页发布时间提取方法和系统
Magalhães et al. Mare: an active learning approach for requirements classification
CN112417857A (zh) 专利文本分析方法、装置、电子设备和存储介质
Panthum et al. Generating functional requirements based on classification of mobile application user reviews
CN109597879B (zh) 一种基于“引文关系”数据的业务行为关系抽取方法及装置
Lahaji et al. Unveiling sarcastic intent: Web-based detection of sarcasm in news headlines
JP5342574B2 (ja) トピックモデリング装置、トピックモデリング方法、及びプログラム
Orellana et al. Evaluating named entities recognition (NER) tools vs algorithms adapted to the extraction of locations
Butcher Contract Information Extraction Using Machine Learning
Parupalli et al. Towards automation of sense-type identification of verbs in OntoSenseNet
CA3088692C (en) Visualizing comment sentiment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination