CN114048736A - 执行主体的提取方法、装置、存储介质和电子设备 - Google Patents
执行主体的提取方法、装置、存储介质和电子设备 Download PDFInfo
- Publication number
- CN114048736A CN114048736A CN202111229601.6A CN202111229601A CN114048736A CN 114048736 A CN114048736 A CN 114048736A CN 202111229601 A CN202111229601 A CN 202111229601A CN 114048736 A CN114048736 A CN 114048736A
- Authority
- CN
- China
- Prior art keywords
- text
- target
- sample
- clauses
- clause
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000004590 computer program Methods 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 description 39
- 238000010586 diagram Methods 0.000 description 20
- 238000012549 training Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Technology Law (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及一种执行主体的提取方法、装置、存储介质和电子设备,涉及电子信息技术领域,该方法包括:获取待处理的公告文本;提取该公告文本中包括的多个分句;将该多个分句中包括主体信息的分句作为目标分句,并对该目标分句进行预设处理,得到目标文本,该目标文本不包括该主体信息;将该目标文本输入至预先训练的识别模型,得到该识别模型输出的该目标文本对应的关联结果;若该关联结果指示该目标文本为关联,根据该目标文本包括的该主体信息确定该公告文本的执行主体。这样,能够有效提高提取公告文本中执行主体的准确率和召回率。
Description
技术领域
本公开涉及电子信息技术领域,具体地,涉及一种执行主体的提取方法、装置、存储介质和电子设备。
背景技术
司法拍卖官网会定期发布一些司法拍卖公告,有些司法拍卖公告中不会给出拍卖的主体公司(例如:抵押权人、标的物所有者等),导致这些司法拍卖公告很难与主体公司进行关联。因此,需要自动识别出司法拍卖公告中的主体公司,以便用户的查询。
目前,对于司法拍卖公告中主体公司的提取方式主要有两种,一种是将司法拍卖公告中的全部公司作为主体公司,这种方式的准确率较低。另一种是根据预先建立的抽取规则从司法拍卖公告中抽取主体公司,抽取规则的建立耗时耗力,而且很难覆盖所有的场景,导致召回率较低。
发明内容
本公开的目的是提供一种执行主体的提取方法、装置、存储介质和电子设备,用于提高提取公告文本中执行主体的准确率和召回率。
根据本公开实施例的第一方面,提供一种执行主体的提取方法,所述方法包括:获取待处理的公告文本;提取所述公告文本中包括的多个分句;将所述多个分句中包括主体信息的分句作为目标分句,并对所述目标分句进行预设处理,得到目标文本,所述目标文本不包括所述主体信息;将所述目标文本输入至预先训练的识别模型,得到所述识别模型输出的所述目标文本对应的关联结果;若所述关联结果指示所述目标文本为关联,根据所述目标文本包括的所述主体信息确定所述公告文本的执行主体。
可选地,所述提取所述公告文本中包括的多个分句,包括:删除所述公告文本中的指定符号,得到初始公告文本,所述指定符号根据所述公告文本的类型确定;按照预设的分隔符,对所述初始公告文本进行划分,得到多个所述分句。
可选地,所述将所述多个分句中包括主体信息的分句作为目标分句,包括:将每个所述分句与预先建立的主体信息集进行比较,若该分句与所述主体信息集匹配,将该分句作为所述目标分句,所述主体信息集包括多种所述主体信息;或者,对每个所述分句进行语义识别,以确定该分句中是否包括主体信息,若该分句包括主体信息,将该分句作为所述目标分句。
可选地,所述对所述目标分句进行预设处理,得到目标文本,包括:针对每个所述目标分句,删除该目标分句中的无效词,得到每个所述目标分句对应的初始文本;对多个所述初始文本进行去重处理,得到至少一个中间文本;删除所述中间文本中包括的所述主体信息,得到所述目标文本。
可选地,所述识别模型通过以下方式训练得到:获取多个样本公告文本,并根据多个所述样本公告文本确定多个样本目标文本;将所述样本目标文本作为样本输入,以得到包括多个所述样本输入的样本输入集;获取样本输出集,所述样本输出集中包括与每个所述样本输入对应的样本输出,每个所述样本输出包括对应的所述样本目标文本所属的真实关联结果;将所述样本输入集作为所述识别模型的输入,将所述样本输出集作为所述识别模型的输出,以训练所述识别模型。
可选地,所述根据多个所述样本公告文本确定多个样本目标文本,包括:提取每个所述样本公告文本中包括的多个样本分句;将所述多个样本分句中包括主体信息的样本分句作为样本目标分句,并对所述样本目标分句进行所述预设处理,得到所述样本目标文本,所述样本目标文本不包括所述主体信息。
可选地,所述方法还包括:将所述公告文本与所述执行主体进行关联;响应于针对所述执行主体的查询指令,输出所述公告文本。
根据本公开实施例的第二方面,提供一种执行主体的提取装置,所述装置包括:获取模块,用于获取待处理的公告文本;提取模块,用于提取所述公告文本中包括的多个分句;处理模块,用于将所述多个分句中包括主体信息的分句作为目标分句,并对所述目标分句进行预设处理,得到目标文本,所述目标文本不包括所述主体信息;第一确定模块,用于将所述目标文本输入至预先训练的识别模型,得到所述识别模型输出的所述目标文本对应的关联结果;第二确定模块,用于若所述关联结果指示所述目标文本为关联,根据所述目标文本包括的所述主体信息确定所述公告文本的执行主体。
可选地,所述提取模块包括:第一删除子模块,用于删除所述公告文本中的指定符号,得到初始公告文本,所述指定符号根据所述公告文本的类型确定;划分子模块,用于按照预设的分隔符,对所述初始公告文本进行划分,得到多个所述分句。
可选地,所述处理模块用于将每个所述分句与预先建立的主体信息集进行比较,若该分句与所述主体信息集匹配,将该分句作为所述目标分句,所述主体信息集包括多种所述主体信息;或者,对每个所述分句进行语义识别,以确定该分句中是否包括主体信息,若该分句包括主体信息,将该分句作为所述目标分句。
可选地,所述处理模块包括:第二删除子模块,用于针对每个所述目标分句,删除该目标分句中的无效词,得到每个所述目标分句对应的初始文本;去重子模块,用于对多个所述初始文本进行去重处理,得到至少一个中间文本;第三删除子模块,用于删除所述中间文本中包括的所述主体信息,得到所述目标文本。
可选地,所述识别模型通过以下装置训练得到:样本获取模块,用于获取多个样本公告文本,并根据多个所述样本公告文本确定多个样本目标文本;第三确定模块,用于将所述样本目标文本作为样本输入,以得到包括多个所述样本输入的样本输入集;输出集获取模块,用于获取样本输出集,所述样本输出集中包括与每个所述样本输入对应的样本输出,每个所述样本输出包括对应的所述样本目标文本所属的真实关联结果;训练模块,用于将所述样本输入集作为所述识别模型的输入,将所述样本输出集作为所述识别模型的输出,以训练所述识别模型。
可选地,所述样本获取模块包括:提取子模块,用于提取每个所述样本公告文本中包括的多个样本分句;处理子模块,用于将所述多个样本分句中包括主体信息的样本分句作为样本目标分句,并对所述样本目标分句进行所述预设处理,得到所述样本目标文本,所述样本目标文本不包括所述主体信息。
可选地,所述装置还包括:关联模块,用于将所述公告文本与所述执行主体进行关联;输出模块,用于响应于针对所述执行主体的查询指令,输出所述公告文本。
根据本公开实施例的第三方面,提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开实施例第一方面中任一项所述方法的步骤。
根据本公开实施例的第四方面,提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现本公开实施例第一方面中任一项所述方法的步骤。
通过上述技术方案,本公开首先获取待处理的公告文本;提取该公告文本中包括的多个分句;将该多个分句中包括主体信息的分句作为目标分句,并对该目标分句进行预设处理,得到目标文本,该目标文本不包括该主体信息;将该目标文本输入至预先训练的识别模型,得到该识别模型输出的该目标文本对应的关联结果;若该关联结果指示该目标文本为关联,根据该目标文本包括的该主体信息确定该公告文本的执行主体。本公开对获取的待处理的公告文本进行拆分和预设处理,得到目标文本,将该目标文本输入至识别模型,以得到该目标文本对应的关联结果,从而根据该关联结果确定该公告文本的执行主体。这样,能够有效提高提取公告文本中执行主体的准确率和召回率。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种执行主体的提取方法的流程示意图;
图2是根据一示例性实施例示出的另一种执行主体的提取方法的流程示意图;
图3是根据一示例性实施例示出的另一种执行主体的提取方法的流程示意图;
图4是根据一示例性实施例示出的一种识别模型的训练方法的流程示意图;
图5是根据一示例性实施例示出的另一种识别模型的训练方法的流程示意图;
图6是根据一示例性实施例示出的另一种执行主体的提取方法的流程示意图;
图7是根据一示例性实施例示出的一种执行主体的提取装置的结构示意图;
图8是根据一示例性实施例示出的另一种执行主体的提取装置的结构示意图;
图9是根据一示例性实施例示出的另一种执行主体的提取装置的结构示意图;
图10是根据一示例性实施例示出的一种识别模型的训练装置的结构示意图;
图11是根据一示例性实施例示出的另一种识别模型的训练装置的结构示意图;
图12是根据一示例性实施例示出的另一种执行主体的提取装置的结构示意图;
图13是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
在下文中的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
首先,对本公开的应用场景进行说明,本公开可以应用在提取公告文本中的执行主体的场景下。司法拍卖官网会定期发布一些司法拍卖公告,有些司法拍卖公告中不会给出拍卖的主体公司(例如:抵押权人、标的物所有者等),导致这些司法拍卖公告很难与主体公司进行关联。因此,需要自动识别出司法拍卖公告中的主体公司,以便用户的查询。目前,对于司法拍卖公告中主体公司的提取方式主要有两种,一种方式是将司法拍卖公告中的全部公司作为主体公司;而另一种方式是根据预先建立的抽取规则从司法拍卖公告中抽取主体公司。基于上述场景,发明人发现上述第一种提取方式由于引入了很多非主体公司,使得准确率较低;第二种提取方式中抽取规则的建立耗时耗力,而且很难覆盖所有的场景,使得召回率较低。
为了解决上述问题,本公开提供一种执行主体的提取方法、装置、存储介质和电子设备,通过对获取的待处理的公告文本进行拆分和预设处理,得到目标文本,将该目标文本输入至识别模型,以得到该目标文本对应的关联结果,从而根据该关联结果确定该公告文本的执行主体。这样,能够有效提高提取公告文本中执行主体的准确率和召回率。
下面结合具体实施例对本公开进行说明。
图1是根据一示例性实施例示出的一种执行主体的提取方法的流程示意图,如图1所示,该方法包括以下步骤:
步骤S101、获取待处理的公告文本。
举例来说,该待处理的公告文本可以通过发布该公告的网页来获取,不同的页面类型对应获取到的文本的类型是不同的。例如,若该页面类型为HTML(英文:Hyper TextMarkup Language;中文:超级文本标记语言)页面,则可以从该页面获取HTML文本作为待处理的公告文本;若该页面类型为XML(英文:Extensible Markup Language;中文:可扩展标记语言)页面,则可以从该页面获取XML文本作为待处理的公告文本。其中,公告文本可以是任意的公告信息,例如,该公告信息可以是司法拍卖公告,还可以是司法判决公告等。
步骤S102、提取该公告文本中包括的多个分句。
由于步骤S101中获取的待处理的公告文本中可能包含不利于文本内容理解的冗余信息,因此可以通过提取该公告文本中包括的多个分句来对该公告文本做初步处理。例如,冗余信息可以包括该公告文本中的代码符号和分隔符(如逗号、分号和换行符等),相应的,从该公告文本中提取的分句中不包括上述冗余信息。
步骤S103、将该多个分句中包括主体信息的分句作为目标分句,并对该目标分句进行预设处理,得到目标文本。
其中,经过预设处理的该目标文本中不包括该主体信息。
示例的,由于多个分句中可能存在不包含主体信息的分句,这些不包含主体信息的分句对于提取执行主体来说是无效信息,因此为了提高数据处理的效率,可以按照分句中是否包括主体信息,对多个分句进行筛选,筛选得到至少一个包含主体信息的目标分句。其中,该主体信息可以理解为执行主体的信息,例如,执行主体可以是公司、法人、股东等,相应的主体信息可以包括执行主体的名称(例如公司名称、法人名称等),还可以包括与执行主体相关联的信息(例如公司法人、股东等)。根据是否包括主体信息对多个分句进行筛选,既保证了该公告文本中的执行主体不会被漏掉,又避免了对无效信息的处理,能够提高提取执行主体的召回率。
进一步的,筛选得到的目标分句中还可能存在一些无效词或者一些重复的分句。因此,还可以对该目标分句进行预设处理,以进一步提高数据处理的效率。同时,由于筛选得到的每个目标分句中包含的主体信息可能是不同的,而不同的主体信息对于每个目标分句是否与执行主体关联没有影响,因此在本实施例中还可以对每个目标分句中的主体信息进行删除,以得到目标文本,即目标文本中不包括无效词和主体信息。
步骤S104、将该目标文本输入至预先训练的识别模型,得到该识别模型输出的该目标文本对应的关联结果。
其中,识别模型可以理解为预先根据大量样本进行训练的,能够对目标文本进行分类,以确定目标文本对应的关联结果的模型。识别模型能够将目标文本与预先指定的多种关联结果进行匹配,以确定目标文本与每种关联结果的匹配度。预先指定的多种关联结果可以包括关联和非关联两种,关联表示该目标文本与执行主体关联,也就是说目标文本中包括的主体信息指示的是执行主体。非关联表示该目标文本与执行主体不相关,也就是说目标文本中包括的主体信息指示的不是执行主体。识别模型可以根据匹配度高低确定目标文本对应的关联结果,即目标文本与关联的匹配度高,那么可以确定目标文本对应的关联结果为关联,目标文本与非关联的匹配度高,那么可以确定目标文本对应的关联结果为非关联。训练识别模型的大量样本中可以包括:多个正样本(即对应的关联结果为关联)和多个负样本(即对应的关联结果为非关联)。进一步的,识别模型的结构例如可以是二分类网络,也可以是CNN(英文:Convolutional Neural Networks;中文:卷积神经网络)等,本公开对此不作具体限定。
例如,以该公告文本是司法拍卖公告文本为例,若该目标文本的内容为“破产管理人”(该目标文本对应的主体信息为A),该目标文本的关联结果为关联,那么A公司即为该司法拍卖公告文本中的执行主体;若该目标文本的内容为“拍卖机构”(该目标文本对应的主体信息为B),该目标文本的关联结果为非关联,那么B公司不是该司法拍卖公告文本中的执行主体。
需要说明的是,可以将步骤S103中的得到的至少一个目标文本依次输入至预先训练的识别模型,以得到每个目标文本对应的关联结果。由于一个公告文本中可能包含一个或多个执行主体,因此,为了避免漏掉公告文本中的执行主体,可以在得到所有目标文本的关联结果后,根据全部的关联结果确定该公告文本的执行主体。
步骤S105、若该关联结果指示该目标文本为关联,根据该目标文本包括的该主体信息确定该公告文本的执行主体。
示例的,若识别模型输出的该目标文本对应的关联结果指示该目标文本为关联,则表明该目标文本中包含该公告文本的执行主体的主体信息,此时可以根据该目标文本中被删除的主体信息来确定该公告文本的执行主体。例如,可以通过预先设置的页面脚本记录每个目标文本包括的主体信息。示例的,该执行主体可以是执行主体公司的名称,还可以是该执行主体公司的法人或者股东等与该执行主体公司相关联的信息。根据该目标文本经过识别模型后得到的关联结果来确定该公告文本的执行主体,能够有效提高提取执行主体的准确率。
下面以该公告文本为司法拍卖公告为例对上述实施例进行详细说明,首先可以从发布该司法拍卖公告的网页获取待处理的公告文本,将该公告文本中的代码符号删除后可以得到该公告的内容,例如,该公告的内容为:“被执行人C名下址在XX县XX影城负一层地下商场店面255,用途:商业,地下商场店面层高约为5.8米,地上二层为游乐园管理配套用房”。之后,将该公告文本根据分隔符拆分成多个分句,可以得到拆分后的多个分句分别为“被执行人C名下址在XX县XX影城负一层地下商场店面255”、“用途:商业”、“地下商场店面层高约为5.8米”和“地上二层为游乐园管理配套用房”。之后,可以按照分句中是否包括主体信息,对拆分后的多个分句进行筛选得到包括主体信息的目标分句为“被执行人C名下址在XX县XX影城负一层地下商场店面255”。对该目标分句进行预设处理,得到目标文本为“被执行人名下址在XX县XX影城负一层地下商场店面”。之后,将该目标文本输入至识别模型,得到该目标文本对应的关联结果为关联。最后,根据该目标文本包括的主体信息确定该公告文本的执行主体为“C”。
采用上述方法,通过对获取的待处理的公告文本进行拆分和预设处理,得到目标文本,将该目标文本输入至识别模型,以得到该目标文本对应的关联结果,从而根据该关联结果确定该公告文本的执行主体。这样,能够有效提高提取公告文本中执行主体的准确率和召回率。
图2是根据一示例性实施例示出的另一种执行主体的提取方法的流程示意图,如图2所示,步骤S102中提取该公告文本中包括的多个分句可以通过以下步骤来实现:
步骤S1021、删除该公告文本中的指定符号,得到初始公告文本。
其中,该指定符号可以根据该公告文本的类型确定。
示例的,可以先根据该公告文本的类型来确定指定符号,指定符号可以理解为代码符号。例如,若该公告文本为HTML文本,那么该指定符号可以包括该HTML文本中的HTML元素(即从该HTML文本的开始标签至结束标签之间的代码),若该公告文本为XML文本,那么该指定符号可以是XML文本中的XML元素。删除该公告文本中的指定符号后得到的初始公告文本中包含该公告的全部内容(包含中英文和标点符号)。
步骤S1022、按照预设的分隔符,对该初始公告文本进行划分,得到多个该分句。
例如,可以按照预设的分隔符,将初始公告文本划分为多个分句,该分隔符可以包括逗号、换行符、问号、分号、句号和感叹号等能够分隔各个分句的标点符号。
步骤S103中将该多个分句中包括主体信息的分句作为目标分句在本实施例中可以通过以下两种实现方式得到:
在一种可能的实现方式中,可以将每个分句与预先建立的主体信息集进行比较,若该分句与该主体信息集匹配,将该分句作为该目标分句。
其中,主体信息集可以通过预先采集多种不同的主体信息来建立,主体信息集中包括多种主体信息。示例的,针对每个分句,可以先将该分句与预先建立的主体信息集进行比较,进一步的,若该分句中存在主体信息集中任意一个主体信息,那么可以确定该分句与该主体信息集匹配,并将该分句作为目标分句。
在另一种可能的实现方式中,可以对每个分句进行语义识别,以确定该分句中是否包括主体信息,若该分句包括主体信息,将该分句作为该目标分句。
示例的,针对每个分句,可以将该分句输入预先训练的语义识别模型中,以得到语义识别模型输出的该分句中的主体信息,进一步的,若该分句中包含主体信息,那么可以将该分句作为目标分句。还可以按照预设的语义识别算法对该分句进行识别,以得到语义识别算法输出的该分句中的主体信息,进一步的,若该分句中包含主体信息,那么可以将该分句作为目标分句。
图3是根据一示例性实施例示出的另一种执行主体的提取方法的流程示意图,如图3所示,步骤S103中对该目标分句进行预设处理得到目标文本可以通过以下步骤来实现:
步骤S1031、针对每个目标分句,删除该目标分句中的无效词,得到每个目标分句对应的初始文本。
其中,该无效词可以包括停用词、数字和一些特殊符号(如△)。删除该目标分句中的无效词可以有效减少数据处理中的噪音,提高数据处理的效率。
步骤S1032、对多个该初始文本进行去重处理,得到至少一个中间文本。
为了避免重复处理相同的初始文本,导致数据处理的效率降低,在本实施例中可以对多个初始文本进行去重处理,以提高数据处理的效率。也就是说,若多个初始文本中不存在相同的初始文本,那么初始文本的数量,与中间文本的数量相同。若多个初始文本中存在相同的初始文本,那么初始文本的数量,大于中间文本的数量。
步骤S1033、删除该中间文本中包括的该主体信息,得到该目标文本。
进一步的,在得到中间文本之后,还可以将中间文本中包括的该主体信息进行删除。具体的,可以用遮盖的方式来删除主体信息,例如,可以用mask来代替该中间文本中出现的该主体信息。
图4是根据一示例性实施例示出的一种识别模型的训练方法的流程示意图,如图4所示,该识别模型可以通过以下方式训练得到:
步骤S401、获取多个样本公告文本,并根据多个该样本公告文本确定多个样本目标文本。
其中,可以根据每个样本公告文本确定多个样本目标文本。相应的,多个样本公告文本可以确定的样本目标文本的数量大于多个样本公告文本的数量。根据样本公告文本确定样本目标文本的方式,与根据公告文本确定目标文本的方式相同,此处不再赘述。
步骤S402、将该样本目标文本作为样本输入,以得到包括多个该样本输入的样本输入集。
步骤S403、获取样本输出集,该样本输出集中包括与每个样本输入对应的样本输出,每个样本输出包括对应的该样本目标文本所属的真实关联结果。
举例来说,在对识别模型进行训练时,首先需要先获取样本输入集。其中,该样本输入集中包括了多个样本输入,样本输入可以为样本目标文本,样本目标文本可以根据样本公告文本来确定。进一步的,在得到样本输入集之后,可以获取样本输出集。样本输出集中包括与每个样本输入对应的样本输出,每个样本输出包括对应的样本目标文本所属的真实关联结果。其中,该真实关联结果包括关联和非关联。每个样本输出对应的样本目标文本所属的真实关联结果可以通过预设关联规则来确定。
示例的,该预设关联规则可以包括:若某个样本目标文本中存在不与主体信息关联的关键词,则该样本目标文本所属的真实关联结果为非关联;若某个样本目标文本中存在与主体信息关联的关键词,则该样本目标文本所属的真实关联结果为关联。以样本公告文本为司法拍卖公告为例,不与主体信息关联的关键词可以包括:拍卖机构、辅助拍卖机构、开户银行、存放地、生产商,摘录自机构、关于法院拍卖房屋提供按揭贷款服务商、开发商、法院委托人、地址中的机构、专门的评估机构、关于XX、XX的规定等;与主体信息关联的关键词可以包括:抵押权人,标的物所有者,案件当事人(例如被执行人、申请执行人)、破产管理人等。例如,若该样本目标文本包括“拍卖机构”,则该样本目标文本中包含不与主体信息关联的关键词,表示该样本目标文本所属的真实关联结果为非关联;若该样本目标文本包括“抵押权人”,则该样本目标文本中包含与主体信息关联的关键词,表示该样本目标文本所属的真实关联结果为关联。
步骤S404、将该样本输入集作为该识别模型的输入,将该样本输出集作为该识别模型的输出,以训练该识别模型。
示例的,在对识别模型进行训练时,可以将该样本输入集作为识别模型的输入,将样本输出集作为识别模型的输出,来训练识别模型,使得在输入样本输入集时,识别模型的输出,能够与样本输出集匹配。例如,可以根据识别模型的输出,与样本输出集确定损失量,以降低损失量为目标,利用反向传播算法来修正识别模型中的神经元参数,神经元参数例如可以是神经元的权重(英文:Weight)和偏置量(英文:Bias)。重复上述步骤,直至损失量满足预设条件,例如损失量小于预设的损失阈值,以达到训练识别模型的目的。在本实施例中,识别模型的结构例如可以是二分类网络,也可以是CNN等,本公开对此不作具体限定。
图5是根据一示例性实施例示出的另一种识别模型的训练方法流程示意图,如图5所示,步骤S401中根据多个该样本公告文本确定多个样本目标文本可以通过以下步骤来实现:
步骤S4011、提取每个样本公告文本中包括的多个样本分句。
示例的,针对每个样本公告文本,首先可以通过删除该样本公告文本中的指定符号,得到初始样本公告文本。其中,该指定符号可以根据样本公告文本的类型来确定。删除指定符号后的初始样本公告文本中包含该公告的全部内容(包含中英文和标点符号)。之后,可以按照预设的分隔符,对该初始样本公告文本进行划分,以得到多个样本分句。
步骤S4012、将该多个样本分句中包括主体信息的样本分句作为样本目标分句,并对该样本目标分句进行该预设处理,得到该样本目标文本,该样本目标文本中不包括该主体信息。
举例来说,将该多个样本分句中包括主体信息的样本分句作为样本目标分句可以通过以下两种实现方式得到:
在一种可能的实现方式中,可以将每个样本分句与预先建立的主体信息集进行比较,若该样本分句与该主体信息集匹配,将该样本分句作为该样本目标分句,该主体信息集包括多种该主体信息;
在另一种可能的实现方式中,可以对每个样本分句进行语义识别,以确定该样本分句中是否包括主体信息,若该样本分句包括主体信息,将该样本分句作为该样本目标分句。
之后,可以对该样本目标分句进行该预设处理,针对每个样本目标分句,可以删除该样本目标分句中的无效词,得到每个样本目标分句对应的初始样本文本;对多个该初始样本文本可以进行去重处理,得到至少一个中间样本文本;最后可以删除该中间样本文本中包括的该主体信息,得到该样本目标文本。
图6是根据一示例性实施例示出的另一种执行主体的提取方法的流程示意图,如图6所示,该方法还包括以下步骤:
步骤S106、将该公告文本与该执行主体进行关联。
步骤S107、响应于针对该执行主体的查询指令,输出该公告文本。
其中,在确定公告文本的执行主体之后,可以记录公告文本与该执行主体存在关联关系,即将该公告文本与该执行主体进行关联。若用户需要查询与该执行主体相关的公告信息,可以输入包含该执行主体的查询指令,相应的,接收到查询指令后,可以查询与执行主体关联的公告文本(可以是一个或多个),并将公告文本作为查询结果进行输出。
采用上述方法,通过对获取的待处理的公告文本进行拆分和预设处理,得到目标文本,将该目标文本输入至识别模型,以得到该目标文本对应的关联结果,从而根据该关联结果确定该公告文本的执行主体。这样,能够有效提高提取公告文本中执行主体的准确率和召回率。
图7是根据一示例性实施例示出的一种执行主体的提取装置的结构示意图,如图7所示,该装置700包括:
获取模块701,用于获取待处理的公告文本;
提取模块702,用于提取该公告文本中包括的多个分句;
处理模块703,用于将该多个分句中包括主体信息的分句作为目标分句,并对该目标分句进行预设处理,得到目标文本,该目标文本不包括该主体信息;
第一确定模块704,用于将该目标文本输入至预先训练的识别模型,得到该识别模型输出的该目标文本对应的关联结果;
第二确定模块705,用于若该关联结果指示该目标文本为关联,根据该目标文本包括的该主体信息确定该公告文本的执行主体。
可选地,图8是根据一示例性实施例示出的另一种执行主体的提取装置的结构示意图,如图8所示,该提取模块702包括:
第一删除子模块7021,用于删除该公告文本中的指定符号,得到初始公告文本,该指定符号根据该公告文本的类型确定;
划分子模块7022,用于按照预设的分隔符,对该初始公告文本进行划分,得到多个该分句。
可选地,该处理模块703用于将每个分句与预先建立的主体信息集进行比较,若该分句与该主体信息集匹配,将该分句作为该目标分句,该主体信息集包括多种该主体信息;或者,
对每个分句进行语义识别,以确定该分句中是否包括主体信息,若该分句包括主体信息,将该分句作为该目标分句。
可选地,图9是根据一示例性实施例示出的另一种执行主体的提取装置的结构示意图,如图9所示,该处理模块703包括:
第二删除子模块7031,用于针对每个目标分句,删除该目标分句中的无效词,得到每个目标分句对应的初始文本;
去重子模块7032,用于对多个该初始文本进行去重处理,得到至少一个中间文本;
第三删除子模块7033,用于删除该中间文本中包括的该主体信息,得到该目标文本。
可选地,图10是根据一示例性实施例示出的一种识别模型的训练装置的结构示意图,如图10所示,该识别模型可以通过以下识别模型训练的装置1000训练得到:
样本获取模块1001,用于获取多个样本公告文本,并根据多个该样本公告文本确定多个样本目标文本;
第三确定模块1002,用于将该样本目标文本作为样本输入,以得到包括多个该样本输入的样本输入集;
输出集获取模块1003,用于获取样本输出集,该样本输出集中包括与每个样本输入对应的样本输出,每个样本输出包括对应的该样本目标文本所属的真实关联结果;
训练模块1004,用于将该样本输入集作为该识别模型的输入,将该样本输出集作为该识别模型的输出,以训练该识别模型。
可选地,图11是根据一示例性实施例示出的另一种识别模型的训练装置的结构示意图,如图11所示,该样本获取模块1001包括:
提取子模块10011,用于提取每个样本公告文本中包括的多个样本分句;
处理子模块10012,用于将该多个样本分句中包括主体信息的样本分句作为样本目标分句,并对该样本目标分句进行该预设处理,得到该样本目标文本,该样本目标文本不包括该主体信息。
可选地,图12是根据一示例性实施例示出的另一种执行主体的提取装置的结构示意图,如图12所示,该装置700还包括:
关联模块706,用于将该公告文本与该执行主体进行关联;
输出模块707,用于响应于针对该执行主体的查询指令,输出该公告文本。
采用上述装置,通过对获取的待处理的公告文本进行拆分和预设处理,得到目标文本,将该目标文本输入至识别模型,以得到该目标文本对应的关联结果,从而根据该关联结果确定该公告文本的执行主体。这样,能够有效提高提取公告文本中执行主体的准确率和召回率。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图13是根据一示例性实施例示出的一种电子设备1300的框图。例如,电子设备1300可以被提供为一服务器。参照图13,电子设备1300包括处理器1322,其数量可以为一个或多个,以及存储器1332,用于存储可由处理器1322执行的计算机程序。存储器1332中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器1322可以被配置为执行该计算机程序,以执行上述的执行主体的提取方法。
另外,电子设备1300还可以包括电源组件1326和通信组件1350,该电源组件1326可以被配置为执行电子设备1300的电源管理,该通信组件1350可以被配置为实现电子设备1300的通信,例如,有线或无线通信。此外,该电子设备1300还可以包括输入/输出(I/O)接口1358。电子设备1300可以操作基于存储在存储器1332的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的执行主体的提取方法的步骤。例如,该非临时性计算机可读存储介质可以为上述包括程序指令的存储器1332,上述程序指令可由电子设备1300的处理器1322执行以完成上述的执行主体的提取方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的执行主体的方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (10)
1.一种执行主体的提取方法,其特征在于,所述方法包括:
获取待处理的公告文本;
提取所述公告文本中包括的多个分句;
将所述多个分句中包括主体信息的分句作为目标分句,并对所述目标分句进行预设处理,得到目标文本,所述目标文本不包括所述主体信息;
将所述目标文本输入至预先训练的识别模型,得到所述识别模型输出的所述目标文本对应的关联结果;
若所述关联结果指示所述目标文本为关联,根据所述目标文本包括的所述主体信息确定所述公告文本的执行主体。
2.根据权利要求1所述的方法,其特征在于,所述提取所述公告文本中包括的多个分句,包括:
删除所述公告文本中的指定符号,得到初始公告文本,所述指定符号根据所述公告文本的类型确定;
按照预设的分隔符,对所述初始公告文本进行划分,得到多个所述分句。
3.根据权利要求1所述的方法,其特征在于,所述将所述多个分句中包括主体信息的分句作为目标分句,包括:
将每个所述分句与预先建立的主体信息集进行比较,若该分句与所述主体信息集匹配,将该分句作为所述目标分句,所述主体信息集包括多种所述主体信息;或者,
对每个所述分句进行语义识别,以确定该分句中是否包括主体信息,若该分句包括主体信息,将该分句作为所述目标分句。
4.根据权利要求1所述的方法,其特征在于,所述对所述目标分句进行预设处理,得到目标文本,包括:
针对每个所述目标分句,删除该目标分句中的无效词,得到每个所述目标分句对应的初始文本;
对多个所述初始文本进行去重处理,得到至少一个中间文本;
删除所述中间文本中包括的所述主体信息,得到所述目标文本。
5.根据权利要求1所述的方法,其特征在于,所述识别模型通过以下方式训练得到:
获取多个样本公告文本,并根据多个所述样本公告文本确定多个样本目标文本;
将所述样本目标文本作为样本输入,以得到包括多个所述样本输入的样本输入集;
获取样本输出集,所述样本输出集中包括与每个所述样本输入对应的样本输出,每个所述样本输出包括对应的所述样本目标文本所属的真实关联结果;
将所述样本输入集作为所述识别模型的输入,将所述样本输出集作为所述识别模型的输出,以训练所述识别模型。
6.根据权利要求5所述的方法,其特征在于,所述根据多个所述样本公告文本确定多个样本目标文本,包括:
提取每个所述样本公告文本中包括的多个样本分句;
将所述多个样本分句中包括主体信息的样本分句作为样本目标分句,并对所述样本目标分句进行所述预设处理,得到所述样本目标文本,所述样本目标文本不包括所述主体信息。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述方法还包括:
将所述公告文本与所述执行主体进行关联;
响应于针对所述执行主体的查询指令,输出所述公告文本。
8.一种执行主体的提取装置,其特征在于,所述装置包括:
获取模块,用于获取待处理的公告文本;
提取模块,用于提取所述公告文本中包括的多个分句;
处理模块,用于将所述多个分句中包括主体信息的分句作为目标分句,并对所述目标分句进行预设处理,得到目标文本,所述目标文本不包括所述主体信息;
第一确定模块,用于将所述目标文本输入至预先训练的识别模型,得到所述识别模型输出的所述目标文本对应的关联结果;
第二确定模块,用于若所述关联结果指示所述目标文本为关联,根据所述目标文本包括的所述主体信息确定所述公告文本的执行主体。
9.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1至7中任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111229601.6A CN114048736A (zh) | 2021-10-21 | 2021-10-21 | 执行主体的提取方法、装置、存储介质和电子设备 |
CN202211047583.4A CN115329756A (zh) | 2021-10-21 | 2022-08-29 | 执行主体的提取方法、装置、存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111229601.6A CN114048736A (zh) | 2021-10-21 | 2021-10-21 | 执行主体的提取方法、装置、存储介质和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114048736A true CN114048736A (zh) | 2022-02-15 |
Family
ID=80205824
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111229601.6A Withdrawn CN114048736A (zh) | 2021-10-21 | 2021-10-21 | 执行主体的提取方法、装置、存储介质和电子设备 |
CN202211047583.4A Pending CN115329756A (zh) | 2021-10-21 | 2022-08-29 | 执行主体的提取方法、装置、存储介质和电子设备 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211047583.4A Pending CN115329756A (zh) | 2021-10-21 | 2022-08-29 | 执行主体的提取方法、装置、存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN114048736A (zh) |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582954A (zh) * | 2018-01-24 | 2019-04-05 | 广州数知科技有限公司 | 用于输出信息的方法和装置 |
CN112015859B (zh) * | 2019-05-31 | 2023-08-18 | 百度在线网络技术(北京)有限公司 | 文本的知识层次抽取方法及装置、计算机设备及可读介质 |
CN111145052A (zh) * | 2019-12-26 | 2020-05-12 | 北京法意科技有限公司 | 司法文书的结构化分析方法及系统 |
CN111523326B (zh) * | 2020-04-23 | 2023-03-17 | 北京百度网讯科技有限公司 | 实体链指方法、装置、设备以及存储介质 |
CN111859970B (zh) * | 2020-07-23 | 2022-05-17 | 北京字节跳动网络技术有限公司 | 用于处理信息的方法、装置、设备和介质 |
CN111897951A (zh) * | 2020-07-29 | 2020-11-06 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
CN112507715B (zh) * | 2020-11-30 | 2024-01-16 | 北京百度网讯科技有限公司 | 确定实体之间关联关系的方法、装置、设备和存储介质 |
CN112380868B (zh) * | 2020-12-10 | 2024-02-13 | 广东泰迪智能科技股份有限公司 | 一种基于事件三元组的信访目的多分类装置及其方法 |
CN112597312A (zh) * | 2020-12-28 | 2021-04-02 | 深圳壹账通智能科技有限公司 | 文本分类方法、装置、电子设备及可读存储介质 |
CN112906381B (zh) * | 2021-02-02 | 2024-05-28 | 北京有竹居网络技术有限公司 | 对话归属的识别方法、装置、可读介质和电子设备 |
CN112784585A (zh) * | 2021-02-07 | 2021-05-11 | 新华智云科技有限公司 | 金融公告的摘要提取方法与摘要提取终端 |
CN113010638B (zh) * | 2021-02-25 | 2024-02-09 | 北京金堤征信服务有限公司 | 实体识别模型生成方法及装置、实体提取方法及装置 |
CN113221567A (zh) * | 2021-05-10 | 2021-08-06 | 北京航天情报与信息研究所 | 司法领域命名实体及关系联合抽取方法 |
CN113220843A (zh) * | 2021-05-21 | 2021-08-06 | 天九共享网络科技集团有限公司 | 确定信息关联关系的方法、装置、存储介质和设备 |
-
2021
- 2021-10-21 CN CN202111229601.6A patent/CN114048736A/zh not_active Withdrawn
-
2022
- 2022-08-29 CN CN202211047583.4A patent/CN115329756A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
CN115329756A (zh) | 2022-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105138652B (zh) | 一种企业关联关系识别方法及系统 | |
CN113837531A (zh) | 一种基于网络评论的产品质量问题发现及风险评估方法 | |
CN110737821B (zh) | 相似事件查询的方法、装置、存储介质和终端设备 | |
CN108021582B (zh) | 互联网舆情监控方法及装置 | |
CN108416034B (zh) | 基于金融异构大数据的信息采集系统及其控制方法 | |
CN109446299B (zh) | 基于事件识别的搜索电子邮件内容的方法及系统 | |
CN113076735A (zh) | 目标信息的获取方法、装置和服务器 | |
CN112507176A (zh) | 域名侵权的自动化判定方法、装置、电子设备和存储介质 | |
CN111400448A (zh) | 对象的关联关系分析方法及装置 | |
CN113971398A (zh) | 一种面向网络安全领域实体快速识别的词典构造方法 | |
CN111506595A (zh) | 一种数据查询方法、系统及相关设备 | |
CN109672586A (zh) | 一种dpi业务流量识别方法、装置与计算机可读存储介质 | |
CN113761137B (zh) | 一种提取地址信息的方法及装置 | |
CN110955796B (zh) | 一种基于笔录信息的案件特征信息提取方法及装置 | |
CN117278675A (zh) | 一种基于意图分类的外呼方法、装置、设备及介质 | |
CN110362828B (zh) | 网络资讯风险识别方法及系统 | |
CN116578700A (zh) | 日志分类方法、日志分类装置、设备及介质 | |
CN107291952B (zh) | 一种提取有意义串的方法及装置 | |
CN114048736A (zh) | 执行主体的提取方法、装置、存储介质和电子设备 | |
CN105786929A (zh) | 一种信息监测方法及装置 | |
CN111178068B (zh) | 一种基于对话情绪检测的催收暴力倾向评价方法和装置 | |
CN109597879B (zh) | 一种基于“引文关系”数据的业务行为关系抽取方法及装置 | |
CN110147491B (zh) | 一种引流信息识别方法和装置 | |
CN113645222A (zh) | 报文流量检测方法、系统、装置及计算机可读存储介质 | |
CN111552785A (zh) | 人机交互系统数据库更新方法、装置、计算机设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220215 |