CN111858942A - 一种文本抽取方法、装置、存储介质和电子设备 - Google Patents
一种文本抽取方法、装置、存储介质和电子设备 Download PDFInfo
- Publication number
- CN111858942A CN111858942A CN202010743097.0A CN202010743097A CN111858942A CN 111858942 A CN111858942 A CN 111858942A CN 202010743097 A CN202010743097 A CN 202010743097A CN 111858942 A CN111858942 A CN 111858942A
- Authority
- CN
- China
- Prior art keywords
- text
- field
- extracted
- numerical
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 52
- 238000013145 classification model Methods 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 39
- 230000000873 masking effect Effects 0.000 claims description 59
- 238000000034 method Methods 0.000 claims description 55
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种文本抽取方法、装置、存储介质和电子设备,该文本抽取方法包括:获取待抽取文本,其中,待抽取文本包括数值字段;从待抽取文本中提取数值字段,并获取数值字段的位置;根据数值字段的位置,对待抽取文本中的数值字段进行遮罩处理,获得遮罩处理后的文本;将遮罩处理后的文本输入到预先训练好的文本分类模型中,确定数值字段的类别,其中,预先训练好的文本分类模型是根据训练数据得到的,训练数据包括多个遮罩处理后的历史文本和每个历史文本对应的历史数值字段的类别;将数值字段和数值字段的类别作为待抽取文本的抽取结果。借助于上述技术方案,本申请实施例满足了用户的需求。
Description
技术领域
本申请涉及自然语言处理技术领域,具体而言,涉及一种文本抽取方法、装置、存储介质和电子设备。
背景技术
现有的文本抽取方法是通过传统的规则模板或者命名实体识别算法对文本中的数值字段进行抽取。
在实现本发明的过程中,发明人发现现有技术中存在如下问题:现有的文本抽取方法存在着难以满足用户需求的问题。
例如,传统的规则模板仅能实现数值的匹配,无法识别数值的类别;基于机器学习或者深度模型的命名实体识别算法虽然能够识别数值的类别,但是,其也存在着识别准确率比较低的问题。
发明内容
本申请实施例的目的在于提供一种文本抽取方法、装置、存储介质和电子设备,以解决现有技术中存在着的难以满足用户需求的问题。
第一方面,本申请实施例提供了一种文本抽取方法,该文本抽取方法包括:获取待抽取文本,其中,待抽取文本包括数值字段;从待抽取文本中提取数值字段,并获取数值字段的位置;根据数值字段的位置,对待抽取文本中的数值字段进行遮罩处理,获得遮罩处理后的文本;将遮罩处理后的文本输入到预先训练好的文本分类模型中,确定数值字段的类别,其中,预先训练好的文本分类模型是根据训练数据得到的,训练数据包括多个遮罩处理后的历史文本和每个历史文本对应的历史数值字段的类别;将数值字段和数值字段的类别作为待抽取文本的抽取结果。
因此,本申请实施例通过从待抽取文本中提取数值字段,并根据数值字段的位置,对待抽取文本中的数值字段进行遮罩处理,以获得遮罩处理后的文本,以及还将遮罩处理后的文本输入到预先训练好的文本分类模型中,以确定数值字段的类别,以及还将提取出的数值字段和通过文本分类模型获得的数值字段的类别作为抽取结果,从而通过上述方案,本申请实施例不仅可实现待抽取文本中的数值字段的有效抽取,还可同时获取数值字段及其对应的类别,进而满足了用户的需求。
此外,本申请实施例通过对待抽取文本中的数值字段进行遮罩处理,可提高数值字段的类型的识别准确率。
在一个可能的实施例中,根据数值字段的位置,对待抽取文本中的数值字段进行遮罩处理,获得遮罩处理后的文本,包括:根据数值字段的位置,将待抽取文本中的数值字段替换为预设字符,获得遮罩处理后的文本。
因此,本申请实施例通过将待抽取文本中的数值字段替换为预设字符,从而便于文本分类模型进行识别,进而可提高数值字段的类型的识别准确率。
在一个可能的实施例中,数值字段包括目标数值字段和除目标数值字段之外的其他数值字段,根据数值字段的位置,对待抽取文本中的数值字段进行遮罩处理,获得遮罩处理后的文本,包括:根据目标数值字段的位置,对待抽取文本中的目标数值字段进行遮罩处理,获得遮罩处理后的文本。
因此,本申请实施例可对目标数值字段进行遮罩处理,即对目标数值字段进行标识,从而便于文本分类模型精准地识别目标数值字段的类别。
在一个可能的实施例中,数值字段包括目标数值字段和除目标数值字段之外的其他数值字段,根据数值字段的位置,对待抽取文本中的数值字段进行遮罩处理,获得遮罩处理后的文本,包括:根据其他数值字段的位置,对待抽取文本中的其他数值字段进行遮罩处理,获得遮罩处理后的文本。
因此,本申请实施例可对除目标数值字段之外的其他数值字段进行遮罩处理,即对其他数值字段进行标识,从而便于文本分类模型精准地识别目标数值字段的类别。
在一个可能的实施例中,在将遮罩处理后的文本输入到预先训练好的文本分类模型中之前,文本抽取方法还包括:获取训练数据;利用训练数据训练初始文本分类模型,获得预先训练好的文本分类模型。
因此,本申请实施例可预先训练文本分类模型,从而加快了文本字段的识别效率。
在一个可能的实施例中,数值字段的类别包括以下类别中的至少一种类别:原始损失、扣除额、免赔额和赔付比例。
在一个可能的实施例中,从待抽取文本中提取数值字段,并获取数值字段的位置,包括:利用模板匹配算法,从待抽取文本中提取数值字段,并获取数值字段的位置。
第二方面,本申请实施例提供了一种文本抽取装置,该文本抽取装置包括:获取模块,用于获取待抽取文本,其中,待抽取文本包括数值字段;提取模块,用于从待抽取文本中提取数值字段,并获取数值字段的位置;遮罩模块,用于根据数值字段的位置,对待抽取文本中的数值字段进行遮罩处理,获得遮罩处理后的文本;输入模块,用于将遮罩处理后的文本输入到预先训练好的文本分类模型中,确定数值字段的类别,其中,预先训练好的文本分类模型是根据训练数据得到的,训练数据包括多个遮罩处理后的历史文本和每个历史文本对应的历史数值字段的类别;获取模块,还用于将数值字段和数值字段的类别作为待抽取文本的抽取结果。
第三方面,本申请实施例提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一方面或第一方面的任一可选的实现方式所述的方法。
第四方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行第一方面或第一方面的任一可选的实现方式所述的方法。
第五方面,本申请提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行第一方面或第一方面的任意可能的实现方式中的方法。
为使本申请实施例所要实现的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例示出的一种文本抽取方法的流程图;
图2示出了本申请实施例提供的一种训练模型的方法的流程图;
图3示出了本申请实施例提供的一种文本抽取装置的结构框图;
图4示出了本申请实施例提供的一种电子设备的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
近年来人工智能(Artificial Intelligence,AI)特别是自然语言处理(NaturalLanguage Processing,NLP)技术的发展,为文本的处理,尤其是文本抽取提供了可能。
此外,在保险行业中积累了大量的业务文本数据,例如,报案、查勘、定损和核损等各个业务环节都会有业务数据的录入,可通过对文本信息的抽取,将非结构化的文本转换为结构化的数据,从而可以为业务流程优化、风险评估和险种定价等应用场景提供支持,尤其是在险种定价场景,通过对定损核损的文本记录中的金额字段的提取,可以获取到与赔付金额计算相关的各项因子,为各类险种定价模型的开发提供支持,实现保险产品的差异化定价,促进保险产品的创新,树立品牌的竞争优势,从而获得更好的效益。
另外,保险行业的文本中涉及大量的公式和表格,对文本中的金额字段进行抽取最关键的就是判断数值字段对应的类别和含义。
目前,可通过传统的规则模板或者命名实体算法来对文本进行抽取。但是,由于现有的抽取方式难以准确地识别文本中数值字段的类别,从而无法满足后续的使用需求。
基于此,本申请实施例巧妙地提出了一种文本抽取方案,通过获取待抽取文本,其中,待抽取文本包括数值字段,以及从待抽取文本中提取数值字段,并获取数值字段的位置,以及根据数值字段的位置,对待抽取文本中的数值字段进行遮罩处理,获得遮罩处理后的文本,以及将遮罩处理后的文本输入到预先训练好的文本分类模型中,确定数值字段的类别,其中,预先训练好的文本分类模型是根据训练数据得到的,训练数据包括多个遮罩处理后的历史文本和每个历史文本对应的历史数值字段的类别,最后将数值字段和数值字段的类别作为待抽取文本的抽取结果。
因此,本申请实施例通过从待抽取文本中提取数值字段,并根据数值字段的位置,对待抽取文本中的数值字段进行遮罩处理,以获得遮罩处理后的文本,以及还将遮罩处理后的文本输入到预先训练好的文本分类模型中,以确定数值字段的类别,以及还将提取出的数值字段和通过文本分类模型获得的数值字段的类别作为抽取结果,从而通过上述方案,本申请实施例不仅可实现待抽取文本中的数值字段的有效抽取,还可同时获取数值字段及其对应的类别,进而满足了用户的需求。
此外,本申请实施例通过对待抽取文本中的数值字段进行遮罩处理,可提高数值字段的类型的识别准确率。
为了便于理解本申请实施例,首先在此对本申请实施例中的一些术语进行解释如下:
“原始损失”:它是指被保险人实际的损失金额。
“扣除额”:它是指计算赔付额时,被保险人实际的损失中不在保险赔偿范围内的额度。
“免赔额”:它是指由保险人和被保险人事先约定,损失额在规定数额之内,被保险人自行承担损失,保险人不负责赔偿的额度。
“赔付比例”:它是指保险公司不按实际损失全额承担赔偿责任,而是按照实际损失乘以保险金额与保险价值的比例承担赔偿责任。
请参见图1,图1示出了本申请实施例示出的一种文本抽取方法的流程图,应理解,图1所示的方法可以由文本抽取装置执行,该文本抽取装置可以与下文中的图3所示的文本抽取装置对应,该文本抽取装置可以是能够执行该方法的各种设备,例如,如个人计算机、服务器或网络设备等,本申请实施例并不限于此。如图1所述的文本抽取方法包括:
步骤S110,获取待抽取文本。其中,待抽取文本包括数值字段。
应理解,待抽取文本可以是原始文本,也可以是对原始文本进行预处理后得到的短文本。其中,原始文本可以是不规则的长文本;短文本可以是对长文本进行切分后获得的短文本。
还应理解,预处理所包含的过程也可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,预处理可包括数据清洗、清除乱码、清除空文本和清除特殊符号。其中,数据清洗可是指对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性;清除乱码可是指清除文本中的乱码;清除空文本可是指清除空白文本;清除特殊符号可是指清除文本中的特殊符号。
还应理解,数值字段可以是文本中的数值。
例如,在待抽取文本包括“索赔金额为5000元”的情况下,该数值字段可以为5000。
这里需要说明的是,待抽取文本可以是保险领域的相关文本,也可以是其他领域的相关文本,本申请实施例并不局限于此。
为了便于理解本申请实施例,下面通过具体的实施例来进行描述。
具体地,在获取到原始本文的情况下,可对原始文本进行预处理,并将经预处理后的文本按照文本结构,将长文本切分为短文本。
也就是说,在待抽取文本为长文本的情况下,可对长文本进行预处理,以获得短文本。
例如,在获取到长文本的情况下,可将长文本按照标点符号切分为短文本。
步骤S120,从待抽取文本中提取数值字段,并获取数值字段的位置。
应理解,数值字段在待抽取文本中的位置可通过字符、坐标等预设方式来表示,本申请实施例并不局限于此。
例如,数值字段位于第N个字符和第M个字符之间,N和M均为正整数。
还应理解,从待抽取文本中提取数值字段,并获取数值字段的位置的具体方法可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,利用模板匹配算法,对短文本中的数值字段进行提取,从而获取短文本中的每个数值字段,以及每个数值字段在短文本中的位置。
还应理解,利用模板匹配算法,对短文本中的数值字段进行提取的具体过程也可根据实际需求来进行设置,本申请实施例并不局限于此。
步骤S130,根据数值字段的位置,对待抽取文本中的数值字段进行遮罩处理,获得遮罩处理后的文本。
应理解,遮罩处理的具体方式可根据实际需求来进行设置,本申请实施例并不局限于此。
可选地,遮罩处理可以是将待抽取文本中的数值字段替换为预设字符。
也就是说,可通过预设字符来对待抽取文本中的数值字段进行标记,从而能够通过这种标记的方式来提高文本分类模型的识别精度。
例如,可根据数值字段的位置,将待抽取文本中的数值字段替换为预设字符,获得遮罩处理后的文本。
还应理解,预设字符的具体字符可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,预设字符可以是字符X,也可以是字符A,也可以是字符B等。
还应理解,根据数值字段的位置,对待抽取文本中的数值字段进行遮罩处理,获得遮罩处理后的文本的具体过程可根据实际需求来进行设置,本申请实施例并不局限于此。
可选地,在数值字段包括目标数值字段和除目标数值字段之外的其他数值字段的情况下,可根据目标数值字段的位置,对待抽取文本中的目标数值字段进行遮罩处理,获得遮罩处理后的文本。
也就是说,本申请实施例可对目标数值字段进行遮罩处理,即对目标数值字段进行标识,从而便于文本分类模型精准地识别目标数值字段的类别。
例如,在待抽取文本为“索赔金额:8886.89元、自费金额:2124.11元、免赔金额:100元和赔付比例:100%”且目标数值字段为“8886.89”的情况下,则遮罩后的文本为“索赔金额:N元、自费金额:2124.11元、免赔金额:100元和赔付比例:100%”。
再例如,在待抽取文本为“索赔金额:8886.89元、自费金额:2124.11元、免赔金额:100元和赔付比例:100%”且目标数值字段为“100%”的情况下,则遮罩后的文本为“索赔金额:8886.89元、自费金额:2124.11元、免赔金额:100元和赔付比例:N”。
可选地,在数值字段包括目标数值字段和除目标数值字段之外的其他数值字段的情况下,可根据其他数值字段中每个数值字段的位置,对待抽取文本中的其他数值字段进行遮罩处理,获得遮罩处理后的文本。
也就是说,本申请实施例还可对除目标数值字段之外的其他数值字段进行遮罩处理,即对其他数值字段进行标识,从而便于文本分类模型精准地识别目标数值字段的类别。
例如,在待抽取文本为“索赔金额:8886.89元、自费金额:2124.11元、免赔金额:100元和赔付比例:100%”且目标数值字段为“8886.89”的情况下,则遮罩后的文本为“索赔金额:8886.89元、自费金额:N元、免赔金额:N元和赔付比例:N”。
再例如,在待抽取文本为“索赔金额:8886.89元、自费金额:2124.11元、免赔金额:100元和赔付比例:100%”且目标数值字段为“100%”的情况下,则遮罩后的文本为“索赔金额:N元、自费金额:N元、免赔金额:N元和赔付比例:100%”。
此外,这里需要说明的是,在其他字段包含有多个数值字段的情况下,替换每个数值字段的字符可以是相同的字符。
步骤S140,将遮罩处理后的文本输入到预先训练好的文本分类模型中,确定数值字段的类别。其中,预先训练好的文本分类模型是根据训练数据得到的,训练数据包括多个遮罩处理后的历史文本和每个历史文本对应的历史数值字段的类别。
为了便于理解本申请实施例,下面通过具体的实施例来进行描述。请参见图2,图2示出了本申请实施例提供的一种训练模型的方法的流程图。如图2所示的方法包括:
步骤S210,获取训练数据。其中,该训练数据包括多个遮罩处理后的历史文本和每个历史文本对应的历史数值字段的类别。
应理解,历史文本和前文中步骤S110中的待抽取文本是类似的,在此不再详细描述,具体可参见步骤S110的相关描述。
例如,该历史文本可包括历史数值字段。
还应理解,遮罩处理后的历史文本和前文中步骤S130的遮罩处理的文本是类似的,在此不再详细描述,具体可参见步骤S130的遮罩处理的文本的相关描述。
例如,在历史数值字段包括目标历史数值字段和除目标历史数值字段之外的其他历史数值字段的情况下,可根据目标历史数值字段的位置,对历史文本中的目标历史数值字段进行遮罩处理,获得遮罩处理后的历史文本。
也就是说,对于提取到的每个历史数值字段来说,可将历史文本中的目标历史数值字段替换为预设字符,以及还可将目标历史数值字段对应的类别标签标注为训练样本的类别,从而可获得训练数据。
再例如,在历史数值字段包括目标历史数值字段和除目标历史数值字段之外的其他历史数值字段的情况下,可根据其他历史数值字段中每个历史数值字段的位置,对待抽取文本中的其他历史数值字段中每个历史数值字段进行遮罩处理,获得遮罩处理后的文本。
也就是说,对于提取到的每个历史数值字段来说,可将历史文本中的除目标历史数值字段之外的其他历史数值字段替换为预设字段,以及还可将目标历史数值字段对应的类别标签标注为训练样本的类别,从而可获得训练数据。
此外,这里需要说明的是,上述两种遮罩方式能够取得相近的分类准确率。
还应理解,历史数值字段的类别可根据实际需求来进行设置,即历史数值字段的类别可以是预设类别,本申请实施例并不局限于此。
例如,历史数值字段的类别可包括以下类别中的至少一种类别:原始损失、扣除额、免赔额和赔付比例。
对应地,数值字段的类别和历史数值字段的类别是类似的,在此不再详细描述,具体可参见历史数值字段的类别的相关描述。
例如,数值字段的类别也可根据实际需求来进行设置,本申请实施例并不局限于此。
步骤S220,利用训练数据训练初始文本分类模型,获得训练好的文本分类模型。
应理解,文本分类模型的具体类型可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,文本分类模型可以是TextCNN模型。
为了便于理解本申请实施例,下面通过具体的实施例来进行描述。
具体地,可将多个遮罩处理后的历史文本作为模型的输入数据,以及还将每个历史文本对应的历史数值字段的类别作为模型的输出数据。利用输入数据和输出数据对初始文本分类模型进行训练,获得训练好的文本分类模型。
这里需要说明的是,虽然步骤S210至步骤S220示出了模型的训练过程,但本领域的技术人员应当理解,在模型为预先训练好的文本分类模型的情况下,可省略步骤S210和步骤S220,即可直接执行步骤S230。
步骤S230,将遮罩处理后的文本输入到训练好的文本分类模型中,确定数值字段的类别。
具体地,可将遮罩处理后的文本作为输入数据,输入到训练好的文本分类模型中,以确定数值字段的类别。
例如,在遮罩处理后的文本是通过对待抽取文本中的目标数值字段进行遮罩处理后获得的情况下,请参见下表1,其示出了遮罩后的文本和数值字段的类别标签的对应关系。
表1
如表1所示,索赔金额对应的类别为原始损失,以及自费金额对应的类别为扣除额,以及免赔金额对应的类别为免赔额,以及赔付比例对应的类别为赔付比例。
再例如,在遮罩处理后的文本是通过对待抽取文本中的其他数值字段进行遮罩处理后获得的情况下,请参见下表2,其示出了遮罩后的文本和数值字段的类别标签的对应关系。
表2
如表2所示,索赔金额对应的类别为原始损失,以及自费金额对应的类别为扣除额,以及免赔金额对应的类别为免赔额,以及赔付比例对应的类别为赔付比例。
此外,这里需要说明的是,遮罩处理后的文本的遮罩方式可以与遮罩处理后的历史文本的遮罩方式相同。
例如,在文本分类模型是通过遮罩处理后的历史文本训练得到的且遮罩处理后的历史文本是对历史文本中的目标历史数值字段进行遮罩处理后获得的情况下,则遮罩处理后的文本也是对待抽取文本中的目标数值字段进行遮罩处理后获得的。
步骤S150,将数值字段和数值字段的类别作为待抽取文本的抽取结果。
具体地,在获取到预先训练好的文本分类模型输出的类别标签的情况下,则可根据数值字段和对应的类别标签,确定抽取结果。
因此,本申请实施例通过从待抽取文本中提取数值字段,并根据数值字段的位置,对待抽取文本中的数值字段进行遮罩处理,以获得遮罩处理后的文本,以及还将遮罩处理后的文本输入到预先训练好的文本分类模型中,以确定数值字段的类别,以及还将提取出的数值字段和通过文本分类模型获得的数值字段的类别作为抽取结果,从而通过上述方案,本申请实施例不仅可实现待抽取文本中的数值字段的有效抽取,还可同时获取数值字段及其对应的类别,进而满足了用户的需求。
此外,本申请实施例通过对待抽取文本中的数值字段进行遮罩处理,可提高数值字段的类型的识别准确率。
应理解,上述文本抽取方法仅是示例性的,本领域技术人员根据上述的方法可以进行各种变形,该变形之后的方案也属于本申请的保护范围。
请参见图3,图3示出了本申请实施例提供的一种文本抽取装置300的结构框图,应理解,该文本抽取装置300能够执行上述方法实施例中的各个步骤,该文本抽取装置300具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该文本抽取装置300包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在文本抽取装置300的操作系统(operating system,OS)中的软件功能模块。具体地,该文本抽取装置300包括:
获取模块310,用于获取待抽取文本,其中,待抽取文本包括数值字段;提取模块320,用于从待抽取文本中提取数值字段,并获取数值字段的位置;遮罩模块330,用于根据数值字段的位置,对待抽取文本中的数值字段进行遮罩处理,获得遮罩处理后的文本;输入模块340,用于将遮罩处理后的文本输入到预先训练好的文本分类模型中,确定数值字段的类别,其中,预先训练好的文本分类模型是根据训练数据得到的,训练数据包括多个遮罩处理后的历史文本和每个历史文本对应的历史数值字段的类别;获取模块310,还用于将数值字段和数值字段的类别作为待抽取文本的抽取结果。
在一个可能的实施例中,遮罩模块330,用于根据数值字段的位置,将待抽取文本中的数值字段替换为预设字符,获得遮罩处理后的文本。
在一个可能的实施例中,数值字段包括目标数值字段和除目标数值字段之外的其他数值字段,遮罩模块330,用于根据目标数值字段的位置,对待抽取文本中的目标数值字段进行遮罩处理,获得遮罩处理后的文本。
在一个可能的实施例中,数值字段包括目标数值字段和除目标数值字段之外的其他数值字段,遮罩模块330,用于根据其他数值字段的位置,对待抽取文本中的其他数值字段进行遮罩处理,获得遮罩处理后的文本。
在一个可能的实施例中,获取模块310,还用于获取训练数据;训练模块(未示出),用于利用训练数据训练初始文本分类模型,获得预先训练好的文本分类模型。
在一个可能的实施例中,数值字段的类别包括以下类别中的至少一种类别:原始损失、扣除额、免赔额和赔付比例。
在一个可能的实施例中,提取模块320,用于利用模板匹配算法,从待抽取文本中提取数值字段,并获取数值字段的位置。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
图4示出了本申请实施例提供的一种电子设备400的结构框图。如图4所示,电子设备400可以包括处理器410、通信接口420、存储器430和至少一个通信总线440。其中,通信总线440用于实现这些组件直接的连接通信。其中,本申请实施例中设备的通信接口420用于与其他节点设备进行信令或数据的通信。处理器410可以是一种集成电路芯片,具有信号的处理能力。上述的处理器410可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程逻辑门阵列(Field Programmable GateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器410也可以是任何常规的处理器等。
存储器430可以是,但不限于,随机存取存储器(Random Access Memory,简称RAM),只读存储器(Read Only Memory,简称ROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,简称EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,简称EEPROM)等。存储器430中存储有计算机可读取指令,当计算机可读取指令由处理器410执行时,电子设备400可以执行上述方法实施例中的各个步骤。
电子设备400还可以包括存储控制器、输入输出单元、音频单元、显示单元。
存储器430、存储控制器、处理器410、外设接口、输入输出单元、音频单元、显示单元各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通信总线440实现电性连接。处理器410用于执行存储器430中存储的可执行模块,例如电子设备400包括的软件功能模块或计算机程序。
输入输出单元用于提供给用户输入数据实现用户与服务器(或本地终端)的交互。输入输出单元可以是,但不限于,鼠标和键盘等。
音频单元向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。
显示单元在电子设备与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中,显示单元可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器进行计算和处理。
可以理解,图4所示的结构仅为示意,电子设备400还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。图4中所示的各组件可以采用硬件、软件或其组合实现。
本申请提供一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行实施例所述的方法。
本申请还提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行方法实施例所述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种文本抽取方法,其特征在于,包括:
获取待抽取文本,其中,所述待抽取文本包括数值字段;
从所述待抽取文本中提取所述数值字段,并获取所述数值字段的位置;
根据所述数值字段的位置,对所述待抽取文本中的数值字段进行遮罩处理,获得遮罩处理后的文本;
将所述遮罩处理后的文本输入到预先训练好的文本分类模型中,确定所述数值字段的类别,其中,所述预先训练好的文本分类模型是根据训练数据得到的,所述训练数据包括多个遮罩处理后的历史文本和每个历史文本对应的历史数值字段的类别;
将所述数值字段和所述数值字段的类别作为所述待抽取文本的抽取结果。
2.根据权利要求1所述的文本抽取方法,其特征在于,所述根据所述数值字段的位置,对所述待抽取文本中的数值字段进行遮罩处理,获得遮罩处理后的文本,包括:
根据所述数值字段的位置,将所述待抽取文本中的数值字段替换为预设字符,获得所述遮罩处理后的文本。
3.根据权利要求1或2所述的文本抽取方法,其特征在于,所述数值字段包括目标数值字段和除所述目标数值字段之外的其他数值字段,所述根据所述数值字段的位置,对所述待抽取文本中的数值字段进行遮罩处理,获得遮罩处理后的文本,包括:
根据所述目标数值字段的位置,对所述待抽取文本中的目标数值字段进行遮罩处理,获得所述遮罩处理后的文本。
4.根据权利要求1或2所述的文本抽取方法,其特征在于,所述数值字段包括目标数值字段和除所述目标数值字段之外的其他数值字段,所述根据所述数值字段的位置,对所述待抽取文本中的数值字段进行遮罩处理,获得遮罩处理后的文本,包括:
根据所述其他数值字段的位置,对所述待抽取文本中的其他数值字段进行遮罩处理,获得所述遮罩处理后的文本。
5.根据权利要求1所述的文本抽取方法,其特征在于,在所述将所述遮罩处理后的文本输入到预先训练好的文本分类模型中之前,所述文本抽取方法还包括:
获取所述训练数据;
利用所述训练数据训练初始文本分类模型,获得所述预先训练好的文本分类模型。
6.根据权利要求1或5所述的文本抽取方法,其特征在于,所述数值字段的类别包括以下类别中的至少一种类别:原始损失、扣除额、免赔额和赔付比例。
7.根据权利要求1所述的文本抽取方法,其特征在于,所述从所述待抽取文本中提取所述数值字段,并获取所述数值字段的位置,包括:
利用模板匹配算法,从所述待抽取文本中提取所述数值字段,并获取所述数值字段的位置。
8.一种文本分类装置,其特征在于,包括:
获取模块,用于获取待抽取文本,其中,所述待抽取文本包括数值字段;
提取模块,用于从所述待抽取文本中提取所述数值字段,并获取所述数值字段的位置;
遮罩模块,用于根据所述数值字段的位置,对所述待抽取文本中的数值字段进行遮罩处理,获得遮罩处理后的文本;
输入模块,用于将所述遮罩处理后的文本输入到预先训练好的文本分类模型中,确定所述数值字段的类别,其中,所述预先训练好的文本分类模型是根据训练数据得到的,所述训练数据包括多个遮罩处理后的历史文本和每个历史文本对应的历史数值字段的类别;
所述获取模块,还用于将所述数值字段和所述数值字段的类别作为所述待抽取文本的抽取结果。
9.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一所述的文本抽取方法。
10.一种电子设备,其特征在于,所述电子设备包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的文本抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010743097.0A CN111858942A (zh) | 2020-07-29 | 2020-07-29 | 一种文本抽取方法、装置、存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010743097.0A CN111858942A (zh) | 2020-07-29 | 2020-07-29 | 一种文本抽取方法、装置、存储介质和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111858942A true CN111858942A (zh) | 2020-10-30 |
Family
ID=72945380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010743097.0A Pending CN111858942A (zh) | 2020-07-29 | 2020-07-29 | 一种文本抽取方法、装置、存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111858942A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112446792A (zh) * | 2020-12-01 | 2021-03-05 | 中国人寿保险股份有限公司 | 利益演示生成方法、装置、电子设备及存储介质 |
CN112819622A (zh) * | 2021-01-26 | 2021-05-18 | 深圳价值在线信息科技股份有限公司 | 一种信息的实体关系联合抽取方法、装置及终端设备 |
CN113032566A (zh) * | 2021-03-25 | 2021-06-25 | 支付宝(杭州)信息技术有限公司 | 一种舆情聚类方法、装置以及设备 |
CN112446792B (zh) * | 2020-12-01 | 2024-06-25 | 中国人寿保险股份有限公司 | 利益演示生成方法、装置、电子设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447750A (zh) * | 2015-11-17 | 2016-03-30 | 小米科技有限责任公司 | 信息识别方法、装置、终端及服务器 |
US20180018320A1 (en) * | 2016-07-12 | 2018-01-18 | International Business Machines Corporation | Text Classifier Operation |
CN108170715A (zh) * | 2017-12-01 | 2018-06-15 | 厦门快商通信息技术有限公司 | 一种文本分类内容提取方法及文本结构化处理方法 |
CN108197099A (zh) * | 2017-12-01 | 2018-06-22 | 厦门快商通信息技术有限公司 | 一种文本信息提取方法及计算机可读存储介质 |
CN110781299A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 资产信息识别方法、装置、计算机设备及存储介质 |
CN111126064A (zh) * | 2019-11-14 | 2020-05-08 | 四川隧唐科技股份有限公司 | 金额识别方法、装置、计算机设备和可读存储介质 |
CN111144507A (zh) * | 2019-12-30 | 2020-05-12 | 北京百度网讯科技有限公司 | 情感分析模型预训练方法、装置及电子设备 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
-
2020
- 2020-07-29 CN CN202010743097.0A patent/CN111858942A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447750A (zh) * | 2015-11-17 | 2016-03-30 | 小米科技有限责任公司 | 信息识别方法、装置、终端及服务器 |
US20180018320A1 (en) * | 2016-07-12 | 2018-01-18 | International Business Machines Corporation | Text Classifier Operation |
CN108170715A (zh) * | 2017-12-01 | 2018-06-15 | 厦门快商通信息技术有限公司 | 一种文本分类内容提取方法及文本结构化处理方法 |
CN108197099A (zh) * | 2017-12-01 | 2018-06-22 | 厦门快商通信息技术有限公司 | 一种文本信息提取方法及计算机可读存储介质 |
CN110781299A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 资产信息识别方法、装置、计算机设备及存储介质 |
CN111126064A (zh) * | 2019-11-14 | 2020-05-08 | 四川隧唐科技股份有限公司 | 金额识别方法、装置、计算机设备和可读存储介质 |
CN111144507A (zh) * | 2019-12-30 | 2020-05-12 | 北京百度网讯科技有限公司 | 情感分析模型预训练方法、装置及电子设备 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112446792A (zh) * | 2020-12-01 | 2021-03-05 | 中国人寿保险股份有限公司 | 利益演示生成方法、装置、电子设备及存储介质 |
CN112446792B (zh) * | 2020-12-01 | 2024-06-25 | 中国人寿保险股份有限公司 | 利益演示生成方法、装置、电子设备及存储介质 |
CN112819622A (zh) * | 2021-01-26 | 2021-05-18 | 深圳价值在线信息科技股份有限公司 | 一种信息的实体关系联合抽取方法、装置及终端设备 |
CN112819622B (zh) * | 2021-01-26 | 2023-10-17 | 深圳价值在线信息科技股份有限公司 | 一种信息的实体关系联合抽取方法、装置及终端设备 |
CN113032566A (zh) * | 2021-03-25 | 2021-06-25 | 支付宝(杭州)信息技术有限公司 | 一种舆情聚类方法、装置以及设备 |
CN113032566B (zh) * | 2021-03-25 | 2023-02-24 | 支付宝(杭州)信息技术有限公司 | 一种舆情聚类方法、装置以及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10853638B2 (en) | System and method for extracting structured information from image documents | |
US11687719B2 (en) | Post-filtering of named entities with machine learning | |
CN106951925B (zh) | 数据处理方法、装置、服务器及系统 | |
CN116629275B (zh) | 一种基于大数据的智能决策支持系统及方法 | |
CN108536868B (zh) | 社交网络上短文本数据的数据处理方法及装置 | |
CN110741376A (zh) | 用于不同自然语言的自动文档分析 | |
CN112036145A (zh) | 财务报表的识别方法、装置、计算机设备与可读存储介质 | |
CN110490237B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
CN111858942A (zh) | 一种文本抽取方法、装置、存储介质和电子设备 | |
CN113360768A (zh) | 基于用户画像的产品推荐方法、装置、设备及存储介质 | |
CN116681082A (zh) | 离散文本语义分段方法、装置、设备及存储介质 | |
CN108984777B (zh) | 客户服务方法、装置和计算机可读存储介质 | |
CN113887191A (zh) | 文章的相似性检测方法及装置 | |
CN115687790B (zh) | 基于大数据的广告推送方法、系统及云平台 | |
CN113626576A (zh) | 远程监督中关系特征抽取方法、装置、终端及存储介质 | |
CN111737472A (zh) | 文本分类模型的更新方法及系统、电子设备及存储介质 | |
CN115203364A (zh) | 软件故障反馈处理方法、装置、设备及可读存储介质 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN111104844B (zh) | 多发票信息录入方法、装置、电子设备及存储介质 | |
CN113888265A (zh) | 产品推荐方法、装置、设备及计算机可读存储介质 | |
CN113673214A (zh) | 信息清单的对齐方法、装置、存储介质和电子设备 | |
CN113791860A (zh) | 一种信息转换方法、装置和存储介质 | |
CN111782601A (zh) | 电子文件的处理方法、装置、电子设备及机器可读介质 | |
CN113486145B (zh) | 基于网络节点的用户咨询回复方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |