CN114580398A - 文本信息提取模型生成方法、文本信息提取方法和装置 - Google Patents

文本信息提取模型生成方法、文本信息提取方法和装置 Download PDF

Info

Publication number
CN114580398A
CN114580398A CN202210251357.1A CN202210251357A CN114580398A CN 114580398 A CN114580398 A CN 114580398A CN 202210251357 A CN202210251357 A CN 202210251357A CN 114580398 A CN114580398 A CN 114580398A
Authority
CN
China
Prior art keywords
text
segmentation
target
processed
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210251357.1A
Other languages
English (en)
Inventor
何辉
贾玉红
林孙镇江
陆怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202210251357.1A priority Critical patent/CN114580398A/zh
Publication of CN114580398A publication Critical patent/CN114580398A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种文本信息提取模型生成方法、文本信息提取方法、装置、计算机设备、存储介质和计算机程序产品。所述文本信息提取模型生成方法包括:获取样本文本;对所述样本文本进行分词处理得到初始分词;对所述初始分词进行识别确定待处理分词,并获取所述待处理分词对应的目标文本;对所述目标文本中的初始分词进行重匹配得到目标分词;根据所述目标分词对初始模型进行训练得到文本信息提取模型。所述文本信息提取方法包括:获取文本信息提取模型;获取待处理文本;将所述待处理文本输入至所述文本信息提取模型中,以得到所述待处理文本对应的实体和关系。采用本方法能够提高文本识别准确性。

Description

文本信息提取模型生成方法、文本信息提取方法和装置
技术领域
本申请涉及人工智能技术领域,特别是涉及一种文本信息提取模型生成方法、文本信息提取方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
裁判文书是对案件审理过程、相关证据、适用法律法规和裁判结果的专业描述,且由于裁判文书是对案件做出具有法律约束力的书面结论,记载内容拥有大量的有价值信息,尤其针对金融风险领域具有极高的实用价值。因此,对裁判文书中关键信息进行抽取就显得尤为重要。但是由于裁判文书主要以长文形式存在,如果对其进行人工筛选将花费大量时间与精力,这种方法在成本和效率方面存在严重不足;同时,由于裁判文书中包含大量专业术语等特殊表述,因此通用NER实体抽取模型在该领域并不适用。
传统技术中,已经有较多针对裁判文书的实体抽取与实体关系的研究。其中一种方式是利用beautifulsoup模块对HTML进行解析得到txt文本,通过人工标注得到相应的数据样本,并利用谷歌开源的BERT模型作为事件类型的提取模型进行训练与预测,最终得到相应的实体结果,但是其只能针对特定结构进行预测如:被告人、被害人等精确关键字进行识别,其不能针对无此类关键词的语句进行识别比如:某某赔偿某某损失,无法确定主体与客体,且相应的人工标准成本较高,效率较低。另外一种方式是采用基于NLP学习的多分类的精准化数据分析方法,建立了相应的分类词库,用户使用关键词搜索可得到相应的字段提取,该方法没有对相应的主体客体进行识别,需要通过人工方式进行提取,相应的分类数据库对于类似:返还、偿还、代偿等字段无法准确识别;同时由于NLP文本分词会将某些文本切分过于粒度化,如:中国工商银行湖北分行某某支行,会切分成:中国、工商、银行、湖北分行、某某、支行,该分词是不想要的,其对于银行风险管控具有明显的不足。
因此,上述的识别与提取方式还有值得改进之处。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高文本识别准确性的文本信息提取模型生成方法、文本信息提取方法、装置、计算机设备、存储介质和计算机程序产品。
第一个方面,本申请提供一种文本信息提取模型生成方法,所述方法包括:
获取样本文本;
对所述样本文本进行分词处理得到初始分词;
对所述初始分词进行识别确定待处理分词,并获取所述待处理分词对应的目标文本;
对所述目标文本中的初始分词进行重匹配得到目标分词;
根据所述目标分词对初始模型进行训练得到文本信息提取模型。
在其中一个实施例中,所述对所述初始分词进行识别确定待处理分词,包括:
通过预先配置的关键词集合对所述初始分词进行模糊匹配确定待处理分词。
在其中一个实施例中,所述方法还包括:
将模糊匹配确定的且与不在所述关键词集合中的待处理分词,添加至所述关键词集合中。
在其中一个实施例中,所述获取所述待处理分词对应的目标文本,包括:
获取所述待处理分词所在的段落作为所述待处理分词对应的目标文本。
在其中一个实施例中,所述对所述目标文本中的初始分词进行重匹配得到目标分词,包括:
对所述目标文本中的初始分词进行组合得到组合分词;
通过所述组合分词在所述样本文本中的词频、所述组合分词的词长以及所述组合分词的句法结构其中至少一个,对所述组合分词进行处理得到目标分词。
在其中一个实施例中,所述根据所述目标分词对初始模型进行训练得到文本信息提取模型,包括:
在所述目标分词中确定所述待处理分词作为关系,并提取所述待处理分词对应位置的目标分词作为实体;
根据所述实体以及关系对所述初始模型进行训练得到文本信息提取模型。
第二个方面,本申请还提供一种文本信息提取方法,所述方法包括:
获取根据上述任意一个实施例中的文本信息提取模型生成方法生成的文本信息提取模型;
获取待处理文本;
将所述待处理文本输入至所述文本信息提取模型中,以得到所述待处理文本对应的实体和关系。
第三个方面,本申请还提供一种文本信息提取模型生成装置,所述装置包括:
样本文本获取模块,用于获取样本文本;
分词模块,用于对所述样本文本进行分词处理得到初始分词;
目标文本获取模块,用于对所述初始分词进行识别确定待处理分词,并获取所述待处理分词对应的目标文本;
重匹配模块,用于对所述目标文本中的初始分词进行重匹配得到目标分词;
训练模块,用于根据所述目标分词对初始模型进行训练得到文本信息提取模型。
第四个方面,本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任意一个实施例中所述的方法的步骤。
第五个方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一个实施例中所述的方法的步骤。
第六个方面,本申请还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任意一个实施例中所述的方法的步骤。
上述文本信息提取模型生成方法、文本信息提取方法、装置、计算机设备、存储介质和计算机程序产品,先对样本文本进行分词得到初始分词,然后确定初始分词中的待处理分词,这样根据待处理分词确定对应的目标文本,再对目标文本中的初始分词进行重匹配得到目标分词,使得分词结果更为准确,这样更为准确的目标分词进行训练得到的文本信息提取模型也更为准确,进而后续用该文本信息提取模型进行文本提取所得到的文本也更为准确。
附图说明
图1为一个实施例中文本信息提取模型生成方法的应用环境图;
图2为一个实施例中文本信息提取模型生成方法的流程示意图;
图3为一个实施例中文本信息提取方法的流程示意图;
图4为另一个实施例中文本信息提取生成方法的流程示意图;
图5为一个实施例中文本信息提取模型生成装置的结构框图;
图6为一个实施例中文本信息提取装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的文本信息提取模型生成方法、文本信息提取方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。
其中,服务器104可以获取到样本文本,并对样本文本进行分词处理得到初始分词,这样通过对初始分词识别可以确定待处理分词,然后获取到待处理分词所在的段落等等作为目标文本,进而对目标文本中的初始分词进行重匹配即可以获取到目标分词,从而服务器根据目标分词进行模型训练得到文本信息提取模型,例如根据目标分词通过迁移训练的方式来对初始模型进行训练得到文本信息提取模型。
更为优选地,服务器104在后续可以接收到终端102发送的待处理文本,或者是以其他的方式上传至服务器104,或者是服务器104主动爬取的待处理文本,进而通过已加载的训练完成的文本信息提取模型对待处理文本进行信息提取即可得到目标文本。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种文本信息提取模型生成方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S202:获取样本文本。
具体地,样本文本可以是指裁判文书等,本实施例中主要是对提升对判书中具体资金的流入方与流出方的识别精度。具体地,服务器可以一次获取多个样本文本以实现并行处理,例如同分配服务以均衡各个参与处理的服务器的处理量,从而实现负载均衡和并行处理。在其他的实施例中,服务器还可以串行处理等等。
S204:对样本文本进行分词处理得到初始分词。
具体地,分词处理可以是通过任意的分词算法实现,例如HMM,即隐马尔科夫模型,服务器通过其选择的至少一个分词算法对样本文本进行分词处理得到初始分词。其中需要说明的是,此处的初始分词是对样本文本的粗略的分词,其可能由于分词算法固有的属性而导致分词存在误差。在其中一个可选的实施例中,服务器可以通过多种分词算法对样本文本进行分词,并综合多种分词算法的分词结果以得到初始分词。但是本领域技术人员可以确定的是,由于分词算法的固有的误差,所得到的初始分词仍可能存在误差。
在其中一个优选的实施例中,通过分词算法对样本文本进行分词处理可以得到初始分词,以及初始分词对应的词性,这样在裁判文书信息提取的时候,可以根据词性以及后续所确定的待处理分词以得到实体以及关系,例如待处理分词一般是预先设置的关系,这样在该关系前后预设距离处所出现的目标分词即为实体,这样可以根据语义识别的结果(本申请中并不重点描述,其中语义识别可以是现有的任意一种语义识别方法)、关系以及实体得到实体以及关系。
S206:对初始分词进行识别确定待处理分词,并获取待处理分词对应的目标文本。
具体地,待处理分词是从初始分词中筛选得到的,也就是说待处理分词对应的集合是初始分词对应的集合的子集。
在其中一个可选的实施例中,服务器中可以存储有预先配置得到的关键词集合,服务器通过模糊匹配等算法将初始分词与该关键词集合中的关键词进行匹配以确定待处理分词,即与关键词集合中的关键词匹配成功的初始分词作为待处理分词。
在其中一个实施例中,目标文本是与待处理分词对应的,根据该待处理分词从样本文本中选取对应部分作为目标文本。例如目标文本可以是待处理分词所在的目标段落,当目标段落较短,例如字数低于一定值时,目标文本还可以包括目标段落之前或之后一定数量的段落。在其他的实施例中目标文本还可以是根据待处理分词所确定的预设数量的段落,或者是预设数量的行数所对应的文本,甚至是预设数量的字数所对应的文本等等。在此不具体限制目标文本的选择方式。但是为了方便操作,在一个优选的实施例中,获取待处理分词对应的目标文本,包括:获取待处理分词所在的段落作为待处理分词对应的目标文本。
S208:对目标文本中的初始分词进行重匹配得到目标分词。
具体地,目标分词是对目标文本中的初始分词进行重匹配得到的。需要说明的是,无论以何种方式确定目标文本,当目标文本中存在多个待处理分词时,则根据待处理分词确定的目标文本需要进行去重处理,以保证仅对一个目标文本进行重匹配操作。
其中重匹配是对目标文本中的初始分词进行重新匹配的方法,其主要原因是初始分词在分词时存在误差,例如“中国工商银行湖北分行某某支行”会切分成:中国、工商、银行、湖北分行、某某、支行,该分词并不是想要的,因此会利用重匹配操作进行词句的重组合。具体地,其可以对目标文本中的初始分词进行重新组合,其中组合的方式可以是任意相邻的分词进行组合,其可以是由两个相邻、三个相邻等等初始分词进行组合,在一个优选的实施例中,服务器可以预先设定初始分词组合的最大分词数量,这样避免分词过长导致处理效率降低。
其中在对初始分词组合后,服务器对组合后的初始分词(其中包括初始分词本身,以及由至少两个初始分组组合得到的组合分词)进行判定以得到目标分词,例如根据语义、在初始文本中的词频以及词长中任意一项进行判定。在一个优选的实施例中,服务器可以首先根据语义对组合后的初始分词进行筛选以删除没有具体语义的组合后的初始分词,例如服务器可以根据词性进行判断,以删除掉句子或者是无含义的组合后的初始分词。若删除后,涉及相同初始分词的组合后的初始分词(即组合分词)仅剩一个分词,则直接输出,否则服务器根据组合后的初始分词在初始文本中的词频再一次进行筛选,若是涉及相同初始分词的组合后的初始分词(即组合分词)仅剩一个分词,则直接输出,否则服务器继续根据词长进行筛选,例如选择词长最长的一个组合分词作为目标分词。这样可以准确地对样本文本进行分词处理。
S210:根据目标分词对初始模型进行训练得到文本信息提取模型。
具体地,初始模型可以是任意的模型,其可以仅是模型的架构,或者是已经训练好的对文本识别的模型,例如bert模型,这样根据目标分词通过迁移学习的方式进行训练得到文本信息提取模型。
这样通过文本信息提取模型实现对裁判文书中资金具体金额的流入与流出识别,通过创建裁判文书关键字词库、文本信息提取模型以及模糊匹配算法等,在裁判文书的资金流转场景取得很好的实体关系的抽取效果。
上述文本信息提取模型生成方法,先对样本文本进行分词得到初始分词,然后确定初始分词中的待处理分词,这样根据待处理分词确定对应的目标文本,再对目标文本中的初始分词进行重匹配得到目标分词,使得分词结果更为准确,这样更为准确的目标分词进行训练得到的文本信息提取模型也更为准确,进而后续用该文本信息提取模型进行文本提取所得到的文本也更为准确。
在其中一个实施例中,对初始分词进行识别确定待处理分词,包括:通过预先配置的关键词集合对初始分词进行模糊匹配确定待处理分词。
具体地,预先配置的关键词集合是用户预先设置的,其主要是用于描述关系的出现在裁判文书中的词,在其他的实施例中其还可以包括用于描述实体的词,在此不做具体的限定。例如“受理费”、“保全费”、“公告费”、“鉴定费”、“胜诉方”、“败诉方”、“赔偿金额”、“判决语句编号”等,由于该类关键字匹配拥有较多的同义词:例如:‘返还’、‘偿还’、‘代偿’等,因此在一个优选的实施例中,服务器针对关键字字典利用包括编辑距离法和语义法等相类似的方法,通过设置特定的阈值判别近义词,并添加至相应的关键字字典内,提高模型匹配准确性,以防遗漏重要语句。
其中,服务器通过模糊匹配的方式对初始分词进行筛选以得到待处理分词,以避免由于关键词词典内罗列的词较少而导致匹配出现遗漏的情况。
在其中一个实施例中,上述的方法还包括:将模糊匹配确定的且与不在关键词集合中的待处理分词,添加至关键词集合中。
具体地,在该实施例中为了保证关键词集合的准确性,在模糊匹配后,若是该待处理分词匹配成功,但是未存储至关键词集合中,则服务器将该待处理分词添加至关键词集合中,为后续的匹配的效率和准确性奠定基础。
在其中一个实施例中,对目标文本中的初始分词进行重匹配得到目标分词,包括:对目标文本中的初始分词进行组合得到组合分词;通过组合分词在样本文本中的词频、组合分词的词长以及组合分词的句法结构其中至少一个,对组合分词进行处理得到目标分词。
具体地,其可以对目标文本中的初始分词进行重新组合,其中组合的方式可以是任意相邻的分词进行组合,其可以是由两个相邻、三个相邻等等初始分词进行组合,在一个优选的实施例中,服务器可以预先设定初始分词组合的最大分词数量,这样避免分词过长导致处理效率降低。
其中在对初始分词组合后,服务器对组合后的初始分词(其中包括初始分词本身,以及由至少两个初始分组组合得到的组合分词)进行判定以得到目标分词,例如根据语义、在初始文本中的词频以及词长中任意一项进行判定。在一个优选的实施例中,服务器可以首先根据语义对组合后的初始分词进行筛选以删除没有具体语义的组合后的初始分词,例如服务器可以根据词性进行判断,以删除掉句子或者是无含义的组合后的初始分词。若删除后,涉及相同初始分词的组合后的初始分词(即组合分词)仅剩一个分词,则直接输出,否则服务器根据组合后的初始分词在初始文本中的词频再一次进行筛选,若是涉及相同初始分词的组合后的初始分词(即组合分词)仅剩一个分词,则直接输出,否则服务器继续根据词长进行筛选,例如选择词长最长的一个组合分词作为目标分词。这样可以准确地对样本文本进行分词处理。
为了方便本领域技术人员的理解,下面结合具体的实施例进行说明:由于裁判文书中涉及较多的公司名称、人名等因此传统的HMM模型会将公司名称切分为多个词,例如:’中国公司银行有限公司’,则被切分为’中国’、’工商’、’银行’、’有限’、’公司’五个词组成,诸如此类,因此需要对切分好的词组集合M,进行重匹配,本实施例利用关键词集合S1利用模糊匹配方法将关键词附近词组进行组合得到集合S2,并将集合S2在裁判文书T1中进行词频搜索,并对集合S2内结果进行对比,通过对比词长与词频确定新目标,其具体算法步骤如下:
首先对分词集合M对关键词集合S1附近词组进行抽取,利用模糊匹配算法获得多个组合S2。
然后利用裁判文书T1对组合S2内词组进行词频统计。
第三对比集合S2内词组的语义、词长与词频,确定新的词组word。
最后依据确定的词组,对集合M进行重组,获得新集合M1。
在其中一个实施例中,根据目标分词对初始模型进行训练得到文本信息提取模型,包括:在目标分词中确定待处理分词作为关系,并提取待处理分词对应位置的目标分词作为实体;根据实体以及关系对初始模型进行训练得到文本信息提取模型。
具体地,在本实施例中关键词集合中存储的是关系,因此待处理分词作为关系,然后将待处理分词对应位置的目标分词作为实体,根据关系和实体来进行训练以得到文本信息提取模型。
具体地,在获取新集合M1后将其拆分训练集M2、测试集M3和预测集M4。对于bert算法的实体关系抽取的文本信息提取模型的训练主要是依据训练集2、测试集M3进行训练,训练结束后:将集合M4作为bert模型tokenizer的输入;加载bert的中文与训练模型;对裁判文书进行文本预训练,获得训练完成的bert模型;对预测集M4进行实体抽取和关系抽取;存储数据。
上述实施例中,可以对裁判文书中资金流向和主体双方进行有效识别,相比其他提取方法较大的提高了精度提高,对判书中具体资金的流入方与流出方的识别精度有大幅提升,较大的提高我行的风险管控能力。
在一个实施例中,如图3所示,提供了一种文本信息提取模型生成方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S302:获取根据上述任意一个实施例中的文本信息提取模型生成方法生成的文本信息提取模型。
具体地,文本信息提取模型的训练方法可以参见上文所述,在此不再赘述。
S304:获取待处理文本。
具体地,待处理文本优选地为裁判文本。
S306:将待处理文本输入至文本信息提取模型中,以得到待处理文本对应的实体和关系。
其中服务器将裁判文本输入至文本信息提取模型中以进行实体和关系的抽取。
上述文本信息提取方法,先对样本文本进行分词得到初始分词,然后确定初始分词中的待处理分词,这样根据待处理分词确定对应的目标文本,再对目标文本中的初始分词进行重匹配得到目标分词,使得分词结果更为准确,这样更为准确的目标分词进行训练得到的文本信息提取模型也更为准确,进而后续用该文本信息提取模型进行文本提取所得到的文本也更为准确。
为了使得本领域技术人员充分理解本申请,结合图4所示,图4为一个实施例中的裁判文书提取方法的流程图,在该实施例中主要包括数据文本准备模块、关键词库模块、关键语句抽取模块、关键语句重匹配模块504以及结果存储模块。
其中,主要处理流程包括基于分词模型HMM与关键字规则的粗略分词,基于模糊匹配算法和句法结构的重匹配以确定目标分词,以及bert算法的实体关系抽取训练和实际处理过程。
预先配置的关键词集合是用户预先设置的,其主要是用于描述关系的出现在裁判文书中的词,在其他的实施例中其还可以包括用于描述实体的词,在此不做具体的限定。例如“受理费”、“保全费”、“公告费”、“鉴定费”、“胜诉方”、“败诉方”、“赔偿金额”、“判决语句编号”等,由于该类关键字匹配拥有较多的同义词:例如:‘返还’、‘偿还’、‘代偿’等,因此在一个优选的实施例中,服务器针对关键字字典利用包括编辑距离法和语义法等相类似的方法,通过设置特定的阈值判别近义词,并添加至相应的关键字字典内,提高模型匹配准确性,以防遗漏重要语句。
服务器利用常用的分词模型HMM进行语句分词与词性标注,通过建立的关键字字典集合对分词结果进行处理得到待处理分词,并将其记录为M,根据M抽取裁判文书的中相应的语段作为目标文本。
具体地,如图4中数据文本准备模块则是用于准备样本文本。关键词词库模块用于获取关键词集合。关键语句抽取模块则是通过HMM分词模块502和关键字规则模型,将文本切分并标注词性,以及对分词结果进行处理得到待处理分词,并将其记录为M,根据M抽取裁判文书的中相应的语段作为目标文本。
在确定目标文本后,则通过关键语句重匹配模块504对已切分数据进行重组,以及bert算法训练得到文本信息提取模型。
具体地,由于裁判文书中涉及较多的公司名称、人名等因此传统的HMM模型会将公司名称切分为多个词,例如:’中国公司银行有限公司’,则被切分为’中国’、’工商’、’银行’、’有限’、’公司’五个词组成,诸如此类,因此需要对切分好的词组集合M,进行重匹配,本实施例利用关键词集合S1利用模糊匹配方法将关键词附近词组进行组合得到集合S2,并将集合S2在裁判文书T1中进行词频搜索,并对集合S2内结果进行对比,通过对比词长与词频确定新目标,其具体算法步骤如下:
首先对分词集合M对关键词集合S1附近词组进行抽取,利用模糊匹配算法获得多个组合S2。
然后利用裁判文书T1对组合S2内词组进行词频统计。
第三对比集合S2内词组的语义、词长与词频,确定新的词组word。
最后依据确定的词组,对集合M进行重组,获得新集合M1。
在获取新集合M1后将其拆分训练集M2、测试集M3和预测集M4。对于bert算法的实体关系抽取的文本信息提取模型的训练主要是依据训练集2、测试集M3进行训练,训练结束后:将集合M4作为bert模型tokenizer的输入;加载bert的中文与训练模型;对裁判文书进行文本预训练,获得训练完成的bert模型;对预测集M4进行实体抽取和关系抽取;存储数据。
上述实施例中,可以对裁判文书中资金流向和主体双方进行有效识别,相比其他提取方法较大的提高了精度提高,对判书中具体资金的流入方与流出方的识别精度有大幅提升,较大的提高我行的风险管控能力。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的文本信息提取模型生成方法的文本信息提取模型生成装置,以及文本信息提取方法的文本信息提取装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个文本信息提取模型生成装置、文本信息提取装置实施例中的具体限定可以参见上文中对于文本信息提取模型生成方法、文本信息提取方法的限定,在此不再赘述。
在一个实施例中,如图5所示,提供了一种文本信息提取模型生成方法装置,包括:样本文本获取模块501、分词模块502、目标文本获取模块503、重匹配模块504和训练模块505,其中:
样本文本获取模块501,用于获取样本文本;
分词模块502,用于对样本文本进行分词处理得到初始分词;
目标文本获取模块503,用于对初始分词进行识别确定待处理分词,并获取待处理分词对应的目标文本;
重匹配模块504,用于对目标文本中的初始分词进行重匹配得到目标分词;
训练模块505,用于根据目标分词对初始模型进行训练得到文本信息提取模型。
在其中一个实施例中,上述目标文本获取模块503还用于通过预先配置的关键词集合对初始分词进行模糊匹配确定待处理分词。
在其中一个实施例中,上述装置还包括:
添加模块,用于将模糊匹配确定的且与不在关键词集合中的待处理分词,添加至关键词集合中。
在其中一个实施例中,上述目标文本获取模块503还用于包括:获取待处理分词所在的段落作为待处理分词对应的目标文本。
在其中一个实施例中,上述重匹配模块504包括:
组合单元,用于对目标文本中的初始分词进行组合得到组合分词;
目标分析获取单元,用于通过组合分词在样本文本中的词频、组合分词的词长以及组合分词的句法结构其中至少一个,对组合分词进行处理得到目标分词。
在其中一个实施例中,上述训练模块505包括:
确定单元,用于在目标分词中确定待处理分词作为关系,并提取待处理分词对应位置的目标分词作为实体;
训练单元,用于根据实体以及关系对初始模型进行训练得到文本信息提取模型。
在一个实施例中,如图6所示,提供了一种文本信息提取装置,包括:模型获取模块601、待处理文本获取模块602和提取模块603,其中:
模型获取模块601,用于获取根据上述任意一个实施例中的文本信息提取模型生成方法生成的文本信息提取模型;
待处理文本获取模块602,用于获取待处理文本;
提取模块603,用于将待处理文本输入至文本信息提取模型中,以得到待处理文本对应的实体和关系。
上述文本信息提取模型生成方法装置以及文本信息提取模型中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本文本、关键词集合以及训练得到的文本信息提取模型等等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本信息提取模型生成方法、文本信息提取方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取样本文本;对样本文本进行分词处理得到初始分词;对初始分词进行识别确定待处理分词,并获取待处理分词对应的目标文本;对目标文本中的初始分词进行重匹配得到目标分词;根据目标分词对初始模型进行训练得到文本信息提取模型。
在一个实施例中,处理器执行计算机程序时所实现的对初始分词进行识别确定待处理分词,包括:通过预先配置的关键词集合对初始分词进行模糊匹配确定待处理分词。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将模糊匹配确定的且与不在关键词集合中的待处理分词,添加至关键词集合中。
在一个实施例中,处理器执行计算机程序时所实现的获取待处理分词对应的目标文本,包括:获取待处理分词所在的段落作为待处理分词对应的目标文本。
在一个实施例中,处理器执行计算机程序时所实现的对目标文本中的初始分词进行重匹配得到目标分词,包括:对目标文本中的初始分词进行组合得到组合分词;通过组合分词在样本文本中的词频、组合分词的词长以及组合分词的句法结构其中至少一个,对组合分词进行处理得到目标分词。
在一个实施例中,处理器执行计算机程序时所实现的根据目标分词对初始模型进行训练得到文本信息提取模型,包括:在目标分词中确定待处理分词作为关系,并提取待处理分词对应位置的目标分词作为实体;根据实体以及关系对初始模型进行训练得到文本信息提取模型。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取根据上述任意一个实施例中的文本信息提取模型生成方法生成的文本信息提取模型;获取待处理文本;将待处理文本输入至文本信息提取模型中,以得到待处理文本对应的实体和关系。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取样本文本;对样本文本进行分词处理得到初始分词;对初始分词进行识别确定待处理分词,并获取待处理分词对应的目标文本;对目标文本中的初始分词进行重匹配得到目标分词;根据目标分词对初始模型进行训练得到文本信息提取模型。
在一个实施例中,计算机程序被处理器执行时所实现的对初始分词进行识别确定待处理分词,包括:通过预先配置的关键词集合对初始分词进行模糊匹配确定待处理分词。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将模糊匹配确定的且与不在关键词集合中的待处理分词,添加至关键词集合中。
在一个实施例中,计算机程序被处理器执行时所实现的获取待处理分词对应的目标文本,包括:获取待处理分词所在的段落作为待处理分词对应的目标文本。
在一个实施例中,计算机程序被处理器执行时所实现的对目标文本中的初始分词进行重匹配得到目标分词,包括:对目标文本中的初始分词进行组合得到组合分词;通过组合分词在样本文本中的词频、组合分词的词长以及组合分词的句法结构其中至少一个,对组合分词进行处理得到目标分词。
在一个实施例中,计算机程序被处理器执行时所实现的根据目标分词对初始模型进行训练得到文本信息提取模型,包括:在目标分词中确定待处理分词作为关系,并提取待处理分词对应位置的目标分词作为实体;根据实体以及关系对初始模型进行训练得到文本信息提取模型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取根据上述任意一个实施例中的文本信息提取模型生成方法生成的文本信息提取模型;获取待处理文本;将待处理文本输入至文本信息提取模型中,以得到待处理文本对应的实体和关系。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:获取样本文本;对样本文本进行分词处理得到初始分词;对初始分词进行识别确定待处理分词,并获取待处理分词对应的目标文本;对目标文本中的初始分词进行重匹配得到目标分词;根据目标分词对初始模型进行训练得到文本信息提取模型。
在一个实施例中,计算机程序被处理器执行时所实现的对初始分词进行识别确定待处理分词,包括:通过预先配置的关键词集合对初始分词进行模糊匹配确定待处理分词。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将模糊匹配确定的且与不在关键词集合中的待处理分词,添加至关键词集合中。
在一个实施例中,计算机程序被处理器执行时所实现的获取待处理分词对应的目标文本,包括:获取待处理分词所在的段落作为待处理分词对应的目标文本。
在一个实施例中,计算机程序被处理器执行时所实现的对目标文本中的初始分词进行重匹配得到目标分词,包括:对目标文本中的初始分词进行组合得到组合分词;通过组合分词在样本文本中的词频、组合分词的词长以及组合分词的句法结构其中至少一个,对组合分词进行处理得到目标分词。
在一个实施例中,计算机程序被处理器执行时所实现的根据目标分词对初始模型进行训练得到文本信息提取模型,包括:在目标分词中确定待处理分词作为关系,并提取待处理分词对应位置的目标分词作为实体;根据实体以及关系对初始模型进行训练得到文本信息提取模型。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:获取根据上述任意一个实施例中的文本信息提取模型生成方法生成的文本信息提取模型;获取待处理文本;将待处理文本输入至文本信息提取模型中,以得到待处理文本对应的实体和关系。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (11)

1.一种文本信息提取模型生成方法,其特征在于,所述方法包括:
获取样本文本;
对所述样本文本进行分词处理得到初始分词;
对所述初始分词进行识别确定待处理分词,并获取所述待处理分词对应的目标文本;
对所述目标文本中的初始分词进行重匹配得到目标分词;
根据所述目标分词对初始模型进行训练得到文本信息提取模型。
2.根据权利要求1所述的方法,其特征在于,所述对所述初始分词进行识别确定待处理分词,包括:
通过预先配置的关键词集合对所述初始分词进行模糊匹配确定待处理分词。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
将模糊匹配确定的且与不在所述关键词集合中的待处理分词,添加至所述关键词集合中。
4.根据权利要求2所述的方法,其特征在于,所述获取所述待处理分词对应的目标文本,包括:
获取所述待处理分词所在的段落作为所述待处理分词对应的目标文本。
5.根据权利要求1所述的方法,其特征在于,所述对所述目标文本中的初始分词进行重匹配得到目标分词,包括:
对所述目标文本中的初始分词进行组合得到组合分词;
通过所述组合分词在所述样本文本中的词频、所述组合分词的词长以及所述组合分词的句法结构其中至少一个,对所述组合分词进行处理得到目标分词。
6.根据权利要求1至5任意一项所述的方法,其特征在于,所述根据所述目标分词对初始模型进行训练得到文本信息提取模型,包括:
在所述目标分词中确定所述待处理分词作为关系,并提取所述待处理分词对应位置的目标分词作为实体;
根据所述实体以及关系对所述初始模型进行训练得到文本信息提取模型。
7.一种文本信息提取方法,其特征在于,所述方法包括:
获取根据权利要求1至6任意一项所述的文本信息提取模型生成方法生成的文本信息提取模型;
获取待处理文本;
将所述待处理文本输入至所述文本信息提取模型中,以得到所述待处理文本对应的实体和关系。
8.一种文本信息提取模型生成装置,其特征在于,所述装置包括:
样本文本获取模块,用于获取样本文本;
分词模块,用于对所述样本文本进行分词处理得到初始分词;
目标文本获取模块,用于对所述初始分词进行识别确定待处理分词,并获取所述待处理分词对应的目标文本;
重匹配模块,用于对所述目标文本中的初始分词进行重匹配得到目标分词;
训练模块,用于根据所述目标分词对初始模型进行训练得到文本信息提取模型。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6或7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6或7中任一项所述的方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6或7中任一项所述的方法的步骤。
CN202210251357.1A 2022-03-15 2022-03-15 文本信息提取模型生成方法、文本信息提取方法和装置 Pending CN114580398A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210251357.1A CN114580398A (zh) 2022-03-15 2022-03-15 文本信息提取模型生成方法、文本信息提取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210251357.1A CN114580398A (zh) 2022-03-15 2022-03-15 文本信息提取模型生成方法、文本信息提取方法和装置

Publications (1)

Publication Number Publication Date
CN114580398A true CN114580398A (zh) 2022-06-03

Family

ID=81774778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210251357.1A Pending CN114580398A (zh) 2022-03-15 2022-03-15 文本信息提取模型生成方法、文本信息提取方法和装置

Country Status (1)

Country Link
CN (1) CN114580398A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146191A (zh) * 2022-07-21 2022-10-04 北京天防安全科技有限公司 基于ai进行视频监控资产识别的方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992766A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 提取目标词的方法和装置
CN111161861A (zh) * 2019-12-31 2020-05-15 南京天溯自动化控制系统有限公司 用于医院后勤运维的短文本数据处理方法、装置
CN111444326A (zh) * 2020-03-30 2020-07-24 腾讯科技(深圳)有限公司 一种文本数据处理方法、装置、设备以及存储介质
US20210082437A1 (en) * 2019-09-13 2021-03-18 International Business Machines Corporation Detecting and recovering out-of-vocabulary words in voice-to-text transcription systems
CN112800201A (zh) * 2021-01-28 2021-05-14 杭州汇数智通科技有限公司 自然语言的处理方法、装置及电子设备
CN113722429A (zh) * 2021-08-11 2021-11-30 上海保链科技有限公司 数据归一化处理方法、装置、设备及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992766A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 提取目标词的方法和装置
US20210082437A1 (en) * 2019-09-13 2021-03-18 International Business Machines Corporation Detecting and recovering out-of-vocabulary words in voice-to-text transcription systems
CN111161861A (zh) * 2019-12-31 2020-05-15 南京天溯自动化控制系统有限公司 用于医院后勤运维的短文本数据处理方法、装置
CN111444326A (zh) * 2020-03-30 2020-07-24 腾讯科技(深圳)有限公司 一种文本数据处理方法、装置、设备以及存储介质
CN112800201A (zh) * 2021-01-28 2021-05-14 杭州汇数智通科技有限公司 自然语言的处理方法、装置及电子设备
CN113722429A (zh) * 2021-08-11 2021-11-30 上海保链科技有限公司 数据归一化处理方法、装置、设备及计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146191A (zh) * 2022-07-21 2022-10-04 北京天防安全科技有限公司 基于ai进行视频监控资产识别的方法、装置及电子设备

Similar Documents

Publication Publication Date Title
WO2021042503A1 (zh) 信息分类抽取方法、装置、计算机设备和存储介质
CN110021439B (zh) 基于机器学习的医疗数据分类方法、装置和计算机设备
CN110209805B (zh) 文本分类方法、装置、存储介质和计算机设备
CN109063217B (zh) 电力营销系统中的工单分类方法、装置及其相关设备
CN109992664B (zh) 争议焦点的标注分类方法、装置、计算机设备和存储介质
CN112818093B (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
CN109543007A (zh) 提问数据生成方法、装置、计算机设备和存储介质
WO2020114100A1 (zh) 一种信息处理方法、装置和计算机存储介质
CN110362798B (zh) 裁决信息检索分析方法、装置、计算机设备和存储介质
CN111651552B (zh) 结构化信息确定方法、装置和电子设备
CN111985228A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN112016294B (zh) 一种基于文本的新闻重要性评估方法、装置及电子设备
CN112395875A (zh) 一种关键词提取方法、装置、终端以及存储介质
CN114547315A (zh) 一种案件分类预测方法、装置、计算机设备及存储介质
CN114580398A (zh) 文本信息提取模型生成方法、文本信息提取方法和装置
CN112417147A (zh) 训练样本的选取方法与装置
CN117076946A (zh) 一种短文本相似度确定方法、装置及终端
EP4089568A1 (en) Cascade pooling for natural language document processing
CN114579766A (zh) 知识图谱构建方法、装置、设备、存储介质和程序产品
CN115329083A (zh) 文档分类方法、装置、计算机设备和存储介质
CN114691835A (zh) 基于文本挖掘的审计计划数据生成方法、装置和设备
CN115129864A (zh) 文本分类方法、装置、计算机设备和存储介质
CN113821571A (zh) 基于bert和改进pcnn的食品安全关系抽取方法
Lai et al. An unsupervised approach to discover media frames
CN112559739A (zh) 电力设备绝缘状态数据处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination