CN112015913A - 用于训练处罚实体分类模型的方法及装置 - Google Patents

用于训练处罚实体分类模型的方法及装置 Download PDF

Info

Publication number
CN112015913A
CN112015913A CN202010884815.6A CN202010884815A CN112015913A CN 112015913 A CN112015913 A CN 112015913A CN 202010884815 A CN202010884815 A CN 202010884815A CN 112015913 A CN112015913 A CN 112015913A
Authority
CN
China
Prior art keywords
entity
penalty
sample
samples
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010884815.6A
Other languages
English (en)
Other versions
CN112015913B (zh
Inventor
陈科舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010884815.6A priority Critical patent/CN112015913B/zh
Publication of CN112015913A publication Critical patent/CN112015913A/zh
Application granted granted Critical
Publication of CN112015913B publication Critical patent/CN112015913B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书的实施例提供一种用于训练处罚实体分类模型的方法及装置。在该方法中,对处罚实体语料库中的处罚实体样本进行规则打标,得到第一已标注处罚实体样本;使用第一已标注处罚实体样本来对处罚实体语料库中的剩余处罚实体样本执行标签传播,得到第二已标注处罚实体样本;以及使用第一和第二已标注处罚实体样本来训练处罚实体分类模型。

Description

用于训练处罚实体分类模型的方法及装置
技术领域
本说明书实施例通常涉及文本处理领域,尤其涉及用于训练处罚实体分类模型的方法及装置。
背景技术
在合规监管领域,为了更好地洞察合规监管的变化态势,需要收集大量相关的处罚案例文本,对这些处罚案例文本进行分析并判断相应法律法规和监管处罚力度的变化,然后利用所分析出的合规监管信息来及时调整业务合规自查策略,发现潜在的漏洞并及时整治,从而减少不必要的损失。
在上述应用场景中会使用基于知识图谱的知识推理技术。知识图谱的节点由处罚实体构成。对处罚实体的分类是基于知识图谱进行的知识查询、知识推理的前提。通常,处罚实体包括个人和机构。在处罚案件文本中,针对处罚实体并不会区分个人和机构,由此需要根据处罚案例文本来对处罚实体进行分类。
发明内容
鉴于上述,本说明书实施例提供用于训练处罚实体分类模型的方法及装置。利用该方法和装置,通过在无需人工标注的情况下实现处罚实体分类模型的模型训练。
根据本说明书实施例的一个方面,提供一种用于训练处罚实体分类模型的方法,包括:对处罚实体语料库中的处罚实体样本进行规则打标,得到第一已标注处罚实体样本;使用所述第一已标注处罚实体样本来对所述处罚实体语料库中的剩余处罚实体样本执行标签传播,得到第二已标注处罚实体样本;以及使用所述第一和第二已标注处罚实体样本来训练处罚实体分类模型。
可选地,在上述方面的一个示例中,所述规则匹配是强规则匹配。
可选地,在上述方面的一个示例中,所述强规则匹配是基于字符长度和关键词的规则匹配。
可选地,在上述方面的一个示例中,所述标签是个人和机构名称,对处罚实体语料库中的处罚实体样本进行规则打标包括:将所述处罚实体语料库中所具有的字符串长度不大于预定长度的处罚实体样本的标签标注为个人;将大于所述预定长度的处理实体样本中的与复姓人名库匹配的处罚实体样本的标签标注为个人;对与复姓人名库不匹配的处罚实体样本进行jieba分词并标注词性,将分词词性与人名匹配或带有人名且满足词性分布规律的处罚实体样本的标签标注为个人;以及将剩余处罚实体样本中的与机构关键词库匹配的处罚实体样本的标签标注为机构。
可选地,在上述方面的一个示例中,使用所述第一已标注处罚实体样本来对所述处罚实体语料库中的剩余处罚实体样本执行标签传播包括:对参与标签传播处理的处罚实体样本进行特征提取;使用各个处罚实体样本的所提取出的特征,根据特征相似性来将所述第一已标注处罚实体样本的标签传播到所述处罚实体语料库中的剩余处罚实体样本,得到第二已标注处罚实体样本。
可选地,在上述方面的一个示例中,所述处罚实体样本的特征是词向量嵌入特征,对参与标签传播处理的处罚实体样本进行特征提取包括:对参与标签传播处理的处罚实体样本进行分词处理;统计各个处罚实体样本的分词处理结果的词频分布信息;以及根据所统计的词频分布信息,确定各个处罚实体样本的词向量嵌入特征。
可选地,在上述方面的一个示例中,所述标签传播算法包括基于标签传播的局部社区划分算法。
可选地,在上述方面的一个示例中,使用所述第一已标注处罚实体样本来对所述处罚实体语料库中的剩余处罚实体样本执行标签传播还包括:从所述第二已标注处罚实体样本中筛选出标签分布熵最小的预定数目个第二已标注处罚实体样本,使用所述第一和第二处罚实体样本来训练处罚实体分类模型包括:使用所述第一处罚实体样本和所筛选出的第二处罚实体样本来训练处罚实体分类模型。
可选地,在上述方面的一个示例中,使用所述第一已标注处罚实体样本来对所述处罚实体语料库中的剩余处罚实体样本执行标签传播包括:对所述第一已标注处罚实体样本按照已知标签的样本比例进行样本采样;以及使用所采样的已标注处罚实体样本来对所述处罚实体语料库中的剩余处罚实体样本执行标签传播。
可选地,在上述方面的一个示例中,所采样的已标注处罚实体样本中的具有中等长度的处罚实体样本的样本比例不低于预定比例。
可选地,在上述方面的一个示例中,使用所述第一已标注处罚实体样本来对所述处罚实体语料库中的剩余处罚实体样本执行标签传播是迭代处理过程,在每次迭代处理时,对所述第一已标注处罚实体样本按照已知标签的样本比例进行样本采样包括:对在前得到的已标注处罚实体样本按照已知标签的样本比例进行样本采样。
可选地,在上述方面的一个示例中,所述处罚实体分类模型包括TextCNN模型、xgBoost模型或SVM模型。
根据本说明书的实施例的另一方面,提供一种用于训练处罚实体分类模型的装置,包括:规则打标单元,对处罚实体语料库中的处罚实体样本进行规则打标,得到第一已标注处罚实体样本;标签传播单元,使用所述第一已标注处罚实体样本来对所述处罚实体语料库中的剩余处罚实体样本执行标签传播,得到第二已标注处罚实体样本;以及模型训练单元,使用所述第一和第二已标注处罚实体样本来训练处罚实体分类模型。
可选地,在上述方面的一个示例中,所述标签是个人和机构名称,所述规则打标单元:将所述处罚实体语料库中所具有的字符串长度不大于预定长度的处罚实体样本的标签标注为个人;将大于所述预定长度的处理实体样本中的与复姓人名库匹配的处罚实体样本的标签标注为个人;对与复姓人名库不匹配的处罚实体样本进行jieba分词并标注词性,将分词词性与人名匹配或带有人名且满足词性分布规律的处罚实体样本的标签标注为个人;以及将剩余处罚实体样本中的与机构关键词库匹配的处罚实体样本的标签标注为机构。
可选地,在上述方面的一个示例中,所述标签传播单元包括:特征提取模块,对参与标签传播处理的处罚实体样本进行特征提取;标签传播模块,使用各个处罚实体样本的所提取出的特征,根据特征相似性来将所述第一已标注处罚实体样本的标签传播到所述处罚实体语料库中的剩余处罚实体样本,得到第二已标注处罚实体样本。
可选地,在上述方面的一个示例中,所述处罚实体样本的特征是词向量嵌入特征,所述特征提取模块:对参与标签传播处理的处罚实体样本进行分词处理;统计各个处罚实体样本的分词处理结果的词频分布信息;以及根据所统计的词频分布信息,确定各个处罚实体样本的词向量嵌入特征。
可选地,在上述方面的一个示例中,所述装置还包括:标注样本筛选单元,从所述第二已标注处罚实体样本中筛选出标签分布熵最小的预定数目个第二已标注处罚实体样本,所述模型训练单元使用所述第一已标注处罚实体样本和所筛选的第二已标注处罚实体样本来训练处罚实体分类模型。
可选地,在上述方面的一个示例中,所述装置还包括:样本采样单元,对所述第一已标注处罚实体样本按照已知标签的样本比例进行样本采样,所述标签传播单元使用所采样的已标注处罚实体样本来对所述处罚实体语料库中的剩余处罚实体样本执行标签传播。
可选地,在上述方面的一个示例中,所采样的已标注处罚实体样本中的具有中等长度的处罚实体样本的样本比例不低于预定比例。
可选地,在上述方面的一个示例中,所述标签传播单元的处理过程是迭代处理过程,在每次迭代处理时,所述样本采样单元对在前得到的已标注处罚实体样本按照已知标签的样本比例进行样本采样。
根据本说明书的实施例的另一方面,提供一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的处罚实体分类模型训练方法。
根据本说明书的实施例的另一方面,提供一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述的处罚实体分类模型训练方法。
附图说明
通过参照下面的附图,可以实现对于本说明书内容的本质和优点的进一步理解。在附图中,类似组件或特征可以具有相同的附图标记。
图1示出了根据本说明书的实施例的用于训练处罚实体分类模型的方法的示例流程图。
图2示出了根据本说明书的实施例的处罚实体样本的规则打标过程的示例流程图。
图3示出了根据本说明书的实施例的标签传播过程的示例流程图。
图4示出了根据本说明书的实施例的处罚实体样本的特征提取过程的示例流程图。
图5示出了根据本说明书的实施例的处罚实体样本的分词数量的直方统计图。
图6示出了根据本说明书的实施例的用于训练处罚实体分类模型的装置的方框图。
图7示出了根据本说明书的实施例的标签传播单元的一个实现示例的方框图。
图8示出了根据本说明书的实施例的用于训练处罚实体分类模型的电子设备的示意图。
具体实施方式
现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。例如,所描述的方法可以按照与所描述的顺序不同的顺序来执行,以及各个步骤可以被添加、省略或者组合。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
在合规监管领域,为了更好地洞察合规监管的变化态势,需要收集大量相关的处罚案件信息,对这些处理案件信息进行分析并判断相应法律法规和监管处罚力度的变化,然后利用所分析出的合规监管信息来及时调整业务合规自查策略,发现潜在的漏洞并及时整治,从而减少不必要的损失。
在上述应用场景中会使用基于知识图谱的知识推理技术。知识图谱的节点由处罚实体构成。对处罚实体的分类是基于知识图谱进行的知识查询、知识推理的前提。通常,处罚实体包括个人和机构。在处罚案件文本中,针对处罚实体并不会区分个人和机构,由此需要根据处罚案例文本来对处罚实体进行分类。
通常情况下,处罚实体由单个词语构成并且无上下文信息。在这种情形下,传统的命名实体识别(Name Entity Recognition,NER)算法并不适用。此外,由于词语字符长度较短,很难提取文本分类中经常使用的基于统计的特征(如TFIDF)。而且,少数名族姓名、短文本公司名、错别字等因素的干扰,使得很难直接在字符统计完成分类。处罚实体样本无标签信息且缺乏公开的语料库,使得模型训练缺乏训练数据样本支撑。由此,需要利用文本分类算法对处罚实体进行分类。
基于短文本分类的方法主要包括基于规则的文本分类算法和基于模型的文本分类算法。针对人名、机构名的分类中,最直接的规则是基于实体字符串长度,例如,人名通常为2-3个字,以及机构名则会在4个字以上。但是,这种规则不适用于少数民族姓名和短文本机构名。此外,可以基于关键字来制定规则,例如,包含“公司”、“银行”等词语大概率属于机构名称,但是很难穷举所有的关键词,泛化性能较差。
基于模型的文本分类方法可以借鉴文本分类任务算法,如提取文本特征建立分类器,或采用深度学习模型如LSTM、BERT完成分类工作。但是基于模型的文本分类方法需要标注大量的训练数据样本,此外,短文本缺乏上下文的特性使得文本分类中经常使用的统计特征失效。
鉴于上述,本说明书的实施例提出一种基于半监督学习的处罚实体分类模型训练方法。在该处罚实体分类模型训练方法中,首先,分析处罚实体中的个人姓名和机构名称的分布规律,并根据分布规则建立强规则来对处罚实体语料库中的处罚实体样本进行规则打标。随后,利用规则打标后得到的已标注样本对未标注样本进行标签传播,由此实现针对处罚实体样本的自动标注。然后,利用所有标注处罚实体样本来训练处罚实体分类模型,由此在无需人工标注的情况下实现处罚实体分类模型的模型训练。
下面参照附图描述根据本说明书的实施例的用于训练处罚实体分类模型的方法及装置。
图1示出了根据本说明书的实施例的用于训练处罚实体分类模型的方法100的示例流程图。
如图1所示,在块110,对处罚实体语料库中的处罚实体样本进行规则打标,得到第一已标注处罚实体样本。处罚实体语料库可以通过对处罚案例进行文本分析并提取出处罚案例中包含的处罚实体文本来得到。所述处罚实体文本可以包括比如个人姓名或机构名称的短文本。例如,处罚实体文本的示例可以包括:“阿依古丽·阿布拉”、“浙商银行”、“云丹贡布”、“烟台东大水产养殖有限公司”、“欧阳山川”、“天安中支”等。
在本说明书的实施例中,在进行规则打标时所使用的规则匹配是强规则匹配。在一个示例中,所述强规则匹配可以是基于字符长度和关键词的规则匹配。利用强规则匹配可以确保标签标注的准确率。
图2示出了根据本说明书的实施例的处罚实体样本的规则打标过程200的示例流程图。
如图2所示,针对处罚实体语料库中的每个无标签处罚实体样本210,在220,判断该处罚实体样本所具有的字符串长度是否不大于预定长度。在一个示例中,所述预定长度例如可以为3。如果所具有的字符串长度不大于预定长度,则将该处罚实体样本标注为个人。
如果所具有的字符串长度大于预定长度,则在230,判断该处理实体样本是否与复姓人名库匹配。如果与复姓人名库匹配,则将该处罚实体样本标注为个人。这里,复姓人名库可以是预先创建的,例如,可以包括复姓人名“欧阳山川”、“东方闻英”等。可选地,在一个示例中,可以判断该处理实体样本是否与复姓人名库匹配并且所具有字符串长度是否为4,如果与复姓人名库匹配并且所具有字符串长度为4,则将该处罚实体样本标注为个人。
如果不与复姓人名库不匹配,则在240,对该处罚实体样本进行jieba分词并标注词性,然后,根据处罚实体样本的分词词性判断该处罚实体样本是否与人名匹配或者带有人名且满足词性分布规则,如果与人名匹配或者带有人名且满足词性分布规则,则将该处罚实体样本标注为个人。在上述处理中,jieba分词算法提供了分词词性预测,其中,词性“nr”代表人名、词性“ns”代表地名、以及词性“nt”代表团体名称,由此可以作为分类判断依据。
如果根据分词词性判断该处罚实体样本不与人名匹配,或者未带有人名或不满足词性分布规则,则在250,将该处罚实体样本与机构关键词库进行匹配。如果该处罚实体样本与机构关键词库匹配,则将该处罚实体样本标注为机构。否则,不对该处罚实体样本进行标签标注。
要说明的是,图2中描述的是针对单个处罚实体样本的规则打标过程。针对处罚实体语料库中的各个处罚实体样本都执行上述规则打标过程,由此得到第一已标注处罚实体样本。
在如上通过规则打标得到第一已标注处罚实体样本后,在120,使用第一已标注处罚实体样本来对处罚实体语料库中的剩余处罚实体样本执行标签传播,得到第二已标注处罚实体样本。
图3示出了根据本说明书的实施例的标签传播过程300的示例流程图。图3中示出的标签传播过程300是迭代处理过程。循环执行310到350的操作,直到满足迭代结束条件。所述迭代结束条件例如可以包括:已标注处罚实体样本数量达到预定数量,已标注处罚实体样本的样本数量达到预定数量并且样本比例达到预定值,或者达到预定迭代次数等。
具体地,如图3所示,在每次迭代处理时,在310,对已标注处罚实体样本按照已知标签的样本比例进行样本采样。在首次迭代处理时,所述已标注处罚实体样本是第一已标注处罚实体样本。在除了首次迭代处理之外的迭代处理过程,所述已标注处罚实体样本可以包括第一已标注处罚实体样本以及在前迭代处理中得到的第二已标注处罚实体。此外,可选地,在经过标签传播后还需要进行标注样本筛选处理的情况下,在前迭代处理中得到的第二已标注处罚实体包括在前迭代处理中经过标注样本筛选处理后的第二已标注处罚实体。
例如,通过分析已标注处罚实体样本可知,人名和机构名标签的比例约1:3,由此在对参与标签传播的已标注处罚实体样本进行样本采样时,使得具有人名标签和机构名标签的已标注处罚实体样本的样本比例约为1:1。利用上述处理,可以消除参与标签传播的正负样本数量不平衡而对标签传播产生的不利影响。
此外,可选地,在一个示例中,在完成样本采样后,使得所采样的已标注处罚实体样本中的具有中等长度的处罚实体样本的样本比例不低于预定比例。由于具有中等长度的处罚实体样本的样本分类最容易出错,由此可以通过加大所采样的已标注处罚实体样本中的具有中等长度的处罚实体样本的样本比例来增加训练样本中的难例样本占比。利用该训练样本来进行模型训练,可以提升处罚实体分类模型的模型精度。可选地,所述中等长度例如可以为字符串长度在4-8之间。
在320,对经过样本采样后的已标注处罚实体样本以及处罚实体语料库中的剩余未标注处罚实体样本进行特征提取。这里,经过样本采样后的已标注处罚实体样本以及处罚实体语料库中的剩余未标注处罚实体样本是该次迭代处理过程中参与标签传播处理的处罚实体样本。
图4示出了根据本说明书的实施例的处罚实体样本的特征提取过程400的示例流程图。在图4中示出的示例中,采用词向量嵌入特征作为处罚实体样本的样本特征。
如图4所示,在410,对参与标签传播处理的处罚实体样本进行分词处理。在本说明书中,可以采用任何合适的分词处理算法来对处罚实体样本进行分词处理。
在420,统计各个处罚实体样本的分词处理结果的词频分布信息。
在430,根据所统计的词频分布信息,确定各个处罚实体样本的词向量嵌入特征。
此外,可选地,在一个示例中,为了使得每个处罚实体样本的样本特征具有相同的特征维度,可以分析分词个数的统计分布,如图5中示出的直方图统计图所示。从图5的统计分布可知,99%以上的处罚实体样本的分词个数在10个以内,由此采用利用语料库预训练的word2vector词向量加载特征,每个分词的特征维度为100维,由此每个处罚实体样本的样本特征为1000维。比如,处罚实体样本“烟台东大水产养殖有限公司”的样本特征为“w2v(烟台),w2v(东大),w2v(水产),w2v(养殖),w2v(有限公司)…”。针对分词个数不足10个的处罚实体样本,以0向量补全,对于没有预训练词向量的词语,比如“东大”,则拆分为以字为粒度来加载向量,即w2v(东大)=w2v(东)+w2v(大)。对于大于10个分词的处罚实体样本,舍弃多余分词部分。由此,对于每个处罚实体,都可以得到1000维的样本特征。
在330,使用各个处罚实体样本的所提取出的特征,根据特征相似性来将已标注处罚实体样本的标签传播到处罚实体语料库中的剩余处罚实体样本,得到第二已标注处罚实体样本。在本说明书中,标签传播过程可以采用合适的标签传播算法来实现。
在一个示例中,所述标签传播算法可以包括基于标签传播的局部社区划分算法。在该标签传播算法中,在每次迭代过程中对于图结构中未标注标签的节点,将与其相连的节点中所属标签最多的标签确定为该节点的标签。在一个实力在,选取高斯核函数作为特征相似度计算的度量标准。
在340,从所得到的第二已标注处罚实体样本中筛选出标签分布熵最小的预定数目个第二已标注处罚实体样本。在本说明书中,标签分布熵也可以称为标签分布的熵。标签分布熵可以采用本领域任何合适的标签分布熵计算算法来计算出。例如,可以从所得到的第二已标注处罚实体样本中选择标签分布熵最小的M个处罚实体样本,作为已标注处罚实体样本加入下次迭代处理,即,将最确定的M个处罚实体样本作为已标注处罚实体样本加入下次迭代处理。
在350,判断是否满足迭代结束条件。如果满足迭代结束条件,则标签传播过程结束,得到经过标签传播处理后的第二已标注处理实体样本。如果未满足迭代结束条件,则返回到310,执行下一迭代处理过程。
在如上得到经过标签传播处理后的第二已标注处理实体样本后,在130,使用第一和第二已标注处罚实体样本来训练处罚实体分类模型。在本说明书的一个示例中,所述处罚实体分类模型的示例可以包括但不限于:TextCNN模型、xgBoost模型或SVM模型。在本说明书的一个示例中,处罚实体分类模型可以是有监督文本分类模型。
此外,在采用TextCNN模型的情况下,在进行模型训练时,可以按照词粒度或者字粒度来构造初始输入矩阵。以词粒度为例,依然沿用jieba分词的直方图统计结果,选取10个分词作为输入矩阵的长度,100维作为词向量维度,最终每个处罚实体文本形成10*100的矩阵作为输入矩阵。处罚实体文本的初始输入词向量通过构造词表随机化产生,词表根据所有处罚实体数据的分词结果组成来按照一定的词频阈值构建。在TextCNN模型训练时,卷积核大小选择3、4、5,输出通道为128维。
此外,由于前序标签可能在生成时会发生错误,在进行模型训练时,需要加大针对模型过拟合的预防力度。例如,可以通过在损失函数中加入L1正则项、引入Dropout的技巧来抑制模型过拟合。此外,通过减小学习率、加大样本批大小(Batch_size),也可以尽可能避免模型被少数错误标签样本误导。此外,还可以通过选用Adam优化算法来最大程度地减少错误标签带来的噪声影响。
如上参照图1到图5描述了根据本说明书的实施例的用于训练处罚实体分类模型的方法。
利用上述模型训练方法,通过分析处罚实体中的个人姓名和机构名称的分布规律,根据分布规则建立强规则来对处罚实体语料库中的处罚实体样本进行规则打标,并利用规则打标后得到的已标注样本对未标注样本进行标签传播,可以实现针对处罚实体样本的自动标注。
此外,利用上述模型训练方法,在每次标签传播时,通过基于已标注处罚实体样本的标签分布规律来对参与标签传播的已标注处罚实体样本进行采样,并使用采样后的已标注处罚实体样本来进行标签传播,从而可以实现改进的标签传播算法,避免正负样本数量不平衡而对标签传播产生不利影响。
此外,利用上述模型训练方法,结合处罚实体文本长度短的特性,没有选择时序深度学习模型,而是采用更适合处理短文本分类的TextCNN模型,可以利用TextCNN模型来获取相邻词之间的潜在分布关系,由此提升处罚实体分类模型的模型训练效率。此外,通过采取一些列参数设置和优化,可以尽可能地降低可能存在的错误标签对于模型训练的影响。
图6示出了根据本说明书的实施例的用于训练处罚实体分类模型的装置(下文中称为“模型训练装置”)600的方框图。如图6所示,模型训练装置600包括规则打标单元610、标签传播单元620和模型训练单元630。
规则打标单元610被配置为对处罚实体语料库中的处罚实体样本进行规则打标,得到第一已标注处罚实体样本。规则打标单元610的操作可以参考上面参照图1描述的110的操作。
标签传播单元620被配置为使用第一已标注处罚实体样本来对处罚实体语料库中的剩余处罚实体样本执行标签传播,得到第二已标注处罚实体样本。标签传播单元620的操作可以参考上面参照图1描述的120的操作。
模型训练单元630被配置为使用第一和第二已标注处罚实体样本来训练处罚实体分类模型。
可选地,在一个示例中,所述标签是个人和机构名称,规则打标单元610被配置为将处罚实体语料库中所具有的字符串长度不大于预定长度的处罚实体样本的标签标注为个人;将大于预定长度的处理实体样本中的与复姓人名库匹配的处罚实体样本的标签标注为个人;对与复姓人名库不匹配的处罚实体样本进行jieba分词并标注词性,将分词词性与人名匹配或带有人名且满足词性分布规律的处罚实体样本的标签标注为个人;以及将剩余处罚实体样本中的与机构关键词库匹配的处罚实体样本的标签标注为机构。
图7示出了根据本说明书的实施例的标签传播单元700的一个实现示例的方框图。如图7所示,标签传播单元700包括特征提取模块710和标签传播模块720。
特征提取模块710被配置为对参与标签传播处理的处罚实体样本进行特征提取。特征提取模块710的操作可以参考上面参照图3描述的320的操作。
标签传播模块720被配置为使用各个处罚实体样本的所提取出的特征,根据特征相似性来将第一已标注处罚实体样本的标签传播到处罚实体语料库中的剩余处罚实体样本,得到第二已标注处罚实体样本。标签传播模块720的操作可以参考上面参照图3描述的330的操作。
可选地,在一个示例中,处罚实体样本的特征可以是词向量嵌入特征。特征提取模块710被配置为对参与标签传播处理的处罚实体样本进行分词处理;统计各个处罚实体样本的分词处理结果的词频分布信息;以及根据所统计的词频分布信息,确定各个处罚实体样本的词向量嵌入特征。
此外,可选地,在一个示例中,模型训练装置600还可以包括:标注样本筛选单元(未示出)。所述样本筛选单元被配置为从第二已标注处罚实体样本中筛选出标签分布熵最小的预定数目个第二已标注处罚实体样本。相应地,模型训练单元630使用第一已标注处罚实体样本和所筛选出的第二已标注处罚实体样本来训练处罚实体分类模型。
此外,可选地,在一个示例中,模型训练装置600还可以包括样本采样单元(未示出)。所述样本采样单元被配置为对第一已标注处罚实体样本按照已知标签的样本比例进行样本采样。标签传播单元620使用所采样的已标注处罚实体样本来对处罚实体语料库中的剩余处罚实体样本执行标签传播。
此外,可选地,在一个示例中,所采样的已标注处罚实体样本中的具有中等长度的处罚实体样本的样本比例不低于预定比例。
此外,可选地,在一个示例中,标签传播单元的处理过程是迭代处理过程。在每次迭代处理时,样本采样单元对在前得到的已标注处罚实体样本按照已知标签的样本比例进行样本采样。
如上参照图1到图7,对根据本说明书实施例的模型训练方法和模型训练装置进行了描述。上面的模型训练装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。
图8示出了根据本说明书的实施例的用于实现处罚实体分类模型的模型训练过程的电子设备800的示意图。如图8所示,电子设备800可以包括至少一个处理器810、存储器(例如,非易失性存储器)820、内存830和通信接口840,并且至少一个处理器810、存储器820、内存830和通信接口840经由总线860连接在一起。至少一个处理器810执行在存储器中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器中存储计算机可执行指令,其当执行时使得至少一个处理器810:对处罚实体语料库中的处罚实体样本进行规则打标,得到第一已标注处罚实体样本;使用所述第一已标注处罚实体样本来对所述处罚实体语料库中的剩余处罚实体样本执行标签传播,得到第二已标注处罚实体样本;以及使用所述第一和第二已标注处罚实体样本来训练处罚实体分类模型。
应该理解,在存储器中存储的计算机可执行指令当执行时使得至少一个处理器810进行本说明书的各个实施例中以上结合图1-7描述的各种操作和功能。
根据一个实施例,提供了一种比如机器可读介质(例如,非暂时性机器可读介质)的程序产品。机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本说明书的各个实施例中以上结合图1-7描述的各种操作和功能。具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
本领域技术人员应当理解,上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此,本发明的保护范围应当由所附的权利要求书来限定。
需要说明的是,上述各流程和各系统结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理实体实现,或者,有些单元可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
以上各实施例中,硬件单元或模块可以通过机械方式或电气方式实现。例如,一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器,FPGA或ASIC)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。
上面结合附图阐述的具体实施方式描述了示例性实施例,但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims (22)

1.一种用于训练处罚实体分类模型的方法,包括:
对处罚实体语料库中的处罚实体样本进行规则打标,得到第一已标注处罚实体样本;
使用所述第一已标注处罚实体样本来对所述处罚实体语料库中的剩余处罚实体样本执行标签传播,得到第二已标注处罚实体样本;以及
使用所述第一和第二已标注处罚实体样本来训练处罚实体分类模型。
2.如权利要求1所述的方法,其中,所述规则匹配是强规则匹配。
3.如权利要求2所述的方法,其中,所述强规则匹配是基于字符长度和关键词的规则匹配。
4.如权利要求3所述的方法,其中,所述标签是个人和机构名称,对处罚实体语料库中的处罚实体样本进行规则打标包括:
将所述处罚实体语料库中所具有的字符串长度不大于预定长度的处罚实体样本的标签标注为个人;
将大于所述预定长度的处理实体样本中的与复姓人名库匹配的处罚实体样本的标签标注为个人;
对与复姓人名库不匹配的处罚实体样本进行jieba分词并标注词性,将分词词性与人名匹配或带有人名且满足词性分布规律的处罚实体样本的标签标注为个人;以及
将剩余处罚实体样本中的与机构关键词库匹配的处罚实体样本的标签标注为机构。
5.如权利要求1所述的方法,其中,使用所述第一已标注处罚实体样本来对所述处罚实体语料库中的剩余处罚实体样本执行标签传播包括:
对参与标签传播处理的处罚实体样本进行特征提取;
使用各个处罚实体样本的所提取出的特征,根据特征相似性来将所述第一已标注处罚实体样本的标签传播到所述处罚实体语料库中的剩余处罚实体样本,得到第二已标注处罚实体样本。
6.如权利要求5所述的方法,其中,所述处罚实体样本的特征是词向量嵌入特征,对参与标签传播处理的处罚实体样本进行特征提取包括:
对参与标签传播处理的处罚实体样本进行分词处理;
统计各个处罚实体样本的分词处理结果的词频分布信息;以及
根据所统计的词频分布信息,确定各个处罚实体样本的词向量嵌入特征。
7.如权利要求1所述的方法,其中,所述标签传播算法包括基于标签传播的局部社区划分算法。
8.如权利要求1所述的方法,其中,使用所述第一已标注处罚实体样本来对所述处罚实体语料库中的剩余处罚实体样本执行标签传播还包括:
从所述第二已标注处罚实体样本中筛选出标签分布熵最小的预定数目个第二已标注处罚实体样本,
使用所述第一和第二处罚实体样本来训练处罚实体分类模型包括:
使用所述第一处罚实体样本和所筛选出的第二处罚实体样本来训练处罚实体分类模型。
9.如权利要求1所述的方法,其中,使用所述第一已标注处罚实体样本来对所述处罚实体语料库中的剩余处罚实体样本执行标签传播包括:
对所述第一已标注处罚实体样本按照已知标签的样本比例进行样本采样;以及
使用所采样的已标注处罚实体样本来对所述处罚实体语料库中的剩余处罚实体样本执行标签传播。
10.如权利要求9所述的方法,其中,所采样的已标注处罚实体样本中的具有中等长度的处罚实体样本的样本比例不低于预定比例。
11.如权利要求9所述的方法,其中,使用所述第一已标注处罚实体样本来对所述处罚实体语料库中的剩余处罚实体样本执行标签传播是迭代处理过程,
在每次迭代处理时,对所述第一已标注处罚实体样本按照已知标签的样本比例进行样本采样包括:对在前得到的已标注处罚实体样本按照已知标签的样本比例进行样本采样。
12.如权利要求1所述的方法,其中,所述处罚实体分类模型包括TextCNN模型、xgBoost模型或SVM模型。
13.一种用于训练处罚实体分类模型的装置,包括:
规则打标单元,对处罚实体语料库中的处罚实体样本进行规则打标,得到第一已标注处罚实体样本;
标签传播单元,使用所述第一已标注处罚实体样本来对所述处罚实体语料库中的剩余处罚实体样本执行标签传播,得到第二已标注处罚实体样本;以及
模型训练单元,使用所述第一和第二已标注处罚实体样本来训练处罚实体分类模型。
14.如权利要求13所述的装置,其中,所述标签是个人和机构名称,所述规则打标单元:
将所述处罚实体语料库中所具有的字符串长度不大于预定长度的处罚实体样本的标签标注为个人;
将大于所述预定长度的处理实体样本中的与复姓人名库匹配的处罚实体样本的标签标注为个人;
对与复姓人名库不匹配的处罚实体样本进行jieba分词并标注词性,将分词词性与人名匹配或带有人名且满足词性分布规律的处罚实体样本的标签标注为个人;以及
将剩余处罚实体样本中的与机构关键词库匹配的处罚实体样本的标签标注为机构。
15.如权利要求13所述的装置,其中,所述标签传播单元包括:
特征提取模块,对参与标签传播处理的处罚实体样本进行特征提取;
标签传播模块,使用各个处罚实体样本的所提取出的特征,根据特征相似性来将所述第一已标注处罚实体样本的标签传播到所述处罚实体语料库中的剩余处罚实体样本,得到第二已标注处罚实体样本。
16.如权利要求15所述的装置,其中,所述处罚实体样本的特征是词向量嵌入特征,所述特征提取模块:
对参与标签传播处理的处罚实体样本进行分词处理;
统计各个处罚实体样本的分词处理结果的词频分布信息;以及
根据所统计的词频分布信息,确定各个处罚实体样本的词向量嵌入特征。
17.如权利要求13所述的装置,还包括:
标注样本筛选单元,从所述第二已标注处罚实体样本中筛选出标签分布熵最小的预定数目个第二已标注处罚实体样本,
所述模型训练单元使用所述第一已标注处罚实体样本和所筛选出的第二已标注处罚实体样本来训练处罚实体分类模型。
18.如权利要求13所述的装置,还包括:
样本采样单元,对所述第一已标注处罚实体样本按照已知标签的样本比例进行样本采样,
所述标签传播单元使用所采样的已标注处罚实体样本来对所述处罚实体语料库中的剩余处罚实体样本执行标签传播。
19.如权利要求18所述的装置,其中,所采样的已标注处罚实体样本中的具有中等长度的处罚实体样本的样本比例不低于预定比例。
20.如权利要求18所述的装置,其中,所述标签传播单元的处理过程是迭代处理过程,
在每次迭代处理时,所述样本采样单元对在前得到的已标注处罚实体样本按照已知标签的样本比例进行样本采样。
21.一种电子设备,包括:
至少一个处理器,以及
与所述至少一个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如权利要求1到12中任一所述的方法。
22.一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如权利要求1到12中任一所述的方法。
CN202010884815.6A 2020-08-28 2020-08-28 用于训练处罚实体分类模型的方法及装置 Active CN112015913B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010884815.6A CN112015913B (zh) 2020-08-28 2020-08-28 用于训练处罚实体分类模型的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010884815.6A CN112015913B (zh) 2020-08-28 2020-08-28 用于训练处罚实体分类模型的方法及装置

Publications (2)

Publication Number Publication Date
CN112015913A true CN112015913A (zh) 2020-12-01
CN112015913B CN112015913B (zh) 2024-06-28

Family

ID=73503817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010884815.6A Active CN112015913B (zh) 2020-08-28 2020-08-28 用于训练处罚实体分类模型的方法及装置

Country Status (1)

Country Link
CN (1) CN112015913B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930411A (zh) * 2016-04-18 2016-09-07 苏州大学 一种分类器训练方法、分类器和情感分类系统
CN105938495A (zh) * 2016-04-29 2016-09-14 乐视控股(北京)有限公司 实体关系识别方法及装置
CN107169768A (zh) * 2016-03-07 2017-09-15 阿里巴巴集团控股有限公司 异常交易数据的获取方法和装置
EP3430533A1 (en) * 2016-04-11 2019-01-23 Google LLC Related entity discovery
CN110059181A (zh) * 2019-03-18 2019-07-26 中国科学院自动化研究所 面向大规模分类体系的短文本标签方法、系统、装置
CN111159407A (zh) * 2019-12-30 2020-05-15 北京明朝万达科技股份有限公司 训练实体识别和关系分类模型的方法、装置、设备及介质
CN111310456A (zh) * 2020-02-13 2020-06-19 支付宝(杭州)信息技术有限公司 一种实体名称匹配方法、装置及设备
CN111339759A (zh) * 2020-02-21 2020-06-26 北京百度网讯科技有限公司 领域要素识别模型训练方法、装置及电子设备
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169768A (zh) * 2016-03-07 2017-09-15 阿里巴巴集团控股有限公司 异常交易数据的获取方法和装置
EP3430533A1 (en) * 2016-04-11 2019-01-23 Google LLC Related entity discovery
CN105930411A (zh) * 2016-04-18 2016-09-07 苏州大学 一种分类器训练方法、分类器和情感分类系统
CN105938495A (zh) * 2016-04-29 2016-09-14 乐视控股(北京)有限公司 实体关系识别方法及装置
CN110059181A (zh) * 2019-03-18 2019-07-26 中国科学院自动化研究所 面向大规模分类体系的短文本标签方法、系统、装置
CN111159407A (zh) * 2019-12-30 2020-05-15 北京明朝万达科技股份有限公司 训练实体识别和关系分类模型的方法、装置、设备及介质
CN111310456A (zh) * 2020-02-13 2020-06-19 支付宝(杭州)信息技术有限公司 一种实体名称匹配方法、装置及设备
CN111339759A (zh) * 2020-02-21 2020-06-26 北京百度网讯科技有限公司 领域要素识别模型训练方法、装置及电子设备
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张栋;李寿山;周国栋;: "基于答案辅助的半监督问题分类方法", 计算机工程与科学, no. 12, 15 December 2015 (2015-12-15) *
温雯;伍思杰;蔡瑞初;郝志峰;: "面向专业文献知识实体类型的抽取和标注", 中文信息学报, no. 01, 15 January 2018 (2018-01-15) *

Also Published As

Publication number Publication date
CN112015913B (zh) 2024-06-28

Similar Documents

Publication Publication Date Title
Pratt et al. What does a platypus look like? generating customized prompts for zero-shot image classification
US11113477B2 (en) Visualizing comment sentiment
CN112784578B (zh) 法律要素提取方法、装置和电子设备
CN111460820B (zh) 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置
CN108875059B (zh) 用于生成文档标签的方法、装置、电子设备和存储介质
CN109919368B (zh) 一种基于关联图的法条推荐预测系统及方法
CN110188195B (zh) 一种基于深度学习的文本意图识别方法、装置及设备
CN108021545A (zh) 一种司法文书的案由提取方法及装置
CN110738033A (zh) 报告模板生成方法、装置及存储介质
Flisar et al. Enhanced feature selection using word embeddings for self-admitted technical debt identification
CN114861636A (zh) 文本纠错模型的训练方法及装置、文本纠错方法及装置
CN113468323A (zh) 争议焦点类别及相似判断方法及系统及装置及推荐方法
CN106294689B (zh) 一种基于文本类特征选择进行降维的方法和装置
Shahina et al. A sequential labelling approach for the named entity recognition in Arabic language using deep learning algorithms
CN116680590A (zh) 基于工作说明书解析的岗位画像标签提取方法及装置
CN112015913A (zh) 用于训练处罚实体分类模型的方法及装置
CN112732908B (zh) 试题新颖度评估方法、装置、电子设备和存储介质
CN109614463B (zh) 文本匹配处理方法及装置
CN109597879B (zh) 一种基于“引文关系”数据的业务行为关系抽取方法及装置
CN113468339A (zh) 基于知识图谱的标签提取方法、系统、电子设备及介质
CN115481240A (zh) 一种数据资产质量检测方法和检测装置
CN112100336A (zh) 一种档案的保存时间鉴定方法、装置及存储介质
Dang et al. Unsupervised threshold autoencoder to analyze and understand sentence elements
Álvaro et al. Page segmentation of structured documents using 2d stochastic context-free grammars
CN116758565B (zh) 一种基于决策树的ocr文本还原方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant