CN113609860B - 文本切分方法、装置及计算机设备 - Google Patents
文本切分方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN113609860B CN113609860B CN202110895881.8A CN202110895881A CN113609860B CN 113609860 B CN113609860 B CN 113609860B CN 202110895881 A CN202110895881 A CN 202110895881A CN 113609860 B CN113609860 B CN 113609860B
- Authority
- CN
- China
- Prior art keywords
- text
- unit
- text unit
- segmentation
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 118
- 238000000034 method Methods 0.000 title claims abstract description 48
- 239000000463 material Substances 0.000 claims description 69
- 238000010801 machine learning Methods 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 26
- 238000002372 labelling Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000005520 cutting process Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 238000012706 support-vector machine Methods 0.000 claims description 5
- 230000000903 blocking effect Effects 0.000 claims description 4
- 230000001360 synchronised effect Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 210000001072 colon Anatomy 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种文本切分方法、装置及计算机设备,所述方法包括:接收待切分的文本;将所述文本输入文本单元切分模型,输出文本单元;判断各文本单元的末尾字符类型;若文本单元的末尾字符类型为数词,则将所述文本单元输入量词添加模型,在所述文本单元的末尾字符后添加量词后作为一文本切分结果输出;若文本单元的末尾字符类型不是数词,则直接将所述文本单元作为一文本切分结果输出。通过上述方法,能够实现对文本单元的精准切分,对于省略量词的文本单元也能进行精准识别;仅需要训练模型使其自动进行文本单元识别切分,无需设置复杂的规则对文本单元进行切分,简化了操作流程。
Description
技术领域
本发明涉及文本处理领域,尤其涉及一种文本切分方法、装置及计算机设备。
背景技术
在对工程量文本进行识别处理时,最基础的任务是将工程量文本中的包含物料及其用量的文本单元切分出来。现有的解决方案是构造以数词加量词结尾的正则表达式匹配库和排除库,通过校验的方式来提取符合正则表达式规则的各个文本单元。
但是,基于正则表达式的方法无法实现文本单元精准切分。其原因在于:一是由于规则库的有限性,只能对符合规则库中现有格式的文本单元进行切分,不能对不符合规则库格式的文本单元进行切分;二是不能有效切分省略量词的文本单元。
发明内容
针对上述问题,本发明提出一种文本切分方法、装置及计算机设备。
具体方案如下:
第一方面,本公开实施例提供了一种文本切分方法,所述方法包括:
接收待切分的文本;
将所述文本输入文本单元切分模型,输出文本单元,其中,所述文本单元包括同时包含物料名称及物料用量的至少一个文本块;
判断各文本单元的末尾字符类型;
若文本单元的末尾字符类型为数词,则将所述文本单元输入量词添加模型,在所述文本单元的末尾字符后添加量词后作为一文本切分结果输出;
若文本单元的末尾字符类型不是数词,则直接将所述文本单元作为一文本切分结果输出。
根据本公开的一种具体实施方式,所述文本单元切分模型包括文本单元切分机器学习模型和文本单元切分命名实体识别模型中任一种;
所述将所述文本输入文本单元切分模型,输出文本单元的步骤,包括:
将所述文本根据分隔符拆分为多个文本块;
将多个所述文本块依次输入所述文本单元切分机器学习模型;
若当前的文本块同时包含物料名称和物料用量,则将所述文本块作为一文本单元输出;
若当前的文本块不同时包含物料名称和物料用量,则继续输入下一个文本块,直至输入的全部文本块中累积包含物料名称和物料用量,将全部文本块组合为一文本单元输出;
或者,所述将所述文本输入文本单元切分模型,输出文本单元的步骤,包括:
将所述文本输入所述文本单元切分命名实体识别模型,对所述文本中的文本单元标注标签;
根据所述文本中标注的标签,将所述文本切分为文本单元并输出。
根据本公开的一种具体实施方式,所述文本单元切分机器学习模型的训练过程,包括:
获取第一样本文本单元集和样本文本块集,其中,所述第一样本文本单元集为同时包含物料名称和物料用量的文本单元的集合,所述样本文本块集为不同时包含物料名称或物料用量的文本块的集合;
对所述第一样本文本单元集进行样本扩充,得到第二样本文本单元集,其中,所述第二样本文本单元集包含第一样本文本单元集中的全部初始样本文本单元及各初始样本文本单元对应的变换文本单元,其中,变换文本单元为初始文本单元的末尾字符后添加量词或删除量词得到的文本单元;
将所述样本文本块集和所述第二样本文本单元集输入基础机器学习模型进行迭代训练,得到所述文本单元切分机器学习模型。
根据本公开的一种具体实施方式,所述对所述第一样本文本单元集进行样本扩充,得到第二样本文本单元集的步骤,包括:
确定所述第一样本文本单元集中的每个初始样本文本单元的末尾字符类型;
根据各初始样本文本单元的末尾字符类型,获得各初始样本文本块对应的基础文本单元组,其中,基础文本单元组包括末尾字符类型为量词的第一文本单元和末尾字符类型为数词的第二文本单元;
为所述第一文本单元末尾添加第一类干扰项,为所述第二文本单元末尾添加第二类干扰项,得到所述第二样本文本单元集,其中,所述第一类干扰项为第一文本单元中量词与随机数词的组合,所述第二类干扰项为随机数词。
根据本公开的一种具体实施方式,所述将所述样本文本块集和所述第二样本文本单元集输入基础机器学习模型进行迭代训练,得到所述文本单元切分机器学习模型的步骤,包括:
对输入基础机器学习模型的样本文本单元的末尾字符中量词和数词的权重进行设置;
利用支持向量机算法和权重增强后的样本文本单元,对基础机器学习模型进行迭代训练,得到所述文本单元切分机器学习模型。
根据本公开的一种具体实施方式,所述文本单元切分命名实体识别模型的训练过程,包括:
获取样本文本;
对所述样本文本进行预处理;
将预处理后的样本文本输入基础命名实体识别模型,并设置所述基础命名实体识别模型的超参数;
对所述基础命名实体识别模型进行迭代训练,得到所述文本单元切分命名实体识别模型。
根据本公开的一种具体实施方式,所述对所述样本文本进行预处理的步骤,包括:
利用文本标注工具对所述样本文本中的文本单元标注标签;
根据标注的标签,采用自动化方式将标注后的样本文本处理成对应的同步阻塞体系,得到预处理后的样本文本。
第二方面,本公开实施例还提供了一种文本切分装置,所述装置包括:
接收模块,用于接收待切分的文本;
模型处理模块,用于将所述文本输入文本单元切分模型,输出文本单元,其中,所述文本单元包括同时包含物料名称及物料用量的至少一个文本块;
判断模块,用于判断各文本单元的末尾字符类型;
量词添加模块,用于若文本单元的末尾字符类型为数词,则将所述文本单元输入量词添加模型,在所述文本单元的末尾字符后添加量词后作为一文本切分结果输出;
输出模块,用于若文本单元的末尾字符类型不是数词,则直接将所述文本单元作为一文本切分结果输出。
第三方面,本公开实施例还提供了一种计算机设备,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行第一方面中任一项所述的文本切分方法。
第四方面,本公开实施例还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行第一方面中任一项所述的文本切分方法。
本公开实施例提供的文本切分方法、装置及计算机设备,首先将待切分的文本输入文本单元切分模型进行切分,得到文本中全部的文本单元;判断各文本单元的末尾字符类型;若文本单元末尾字符为数词,则该文本单元缺少量词,在文本单元末尾添加量词;输出的文本单元均为末尾字符包含量词的文本单元。通过上述方法,能够实现对文本单元的精准切分,对于省略量词的文本单元也能进行精准识别;仅需要训练模型使其自动进行文本单元识别切分,无需设置复杂的规则对文本单元进行切分,简化了操作流程。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
图1示出了本公开实施例提供的一种文本切分方法的流程示意图;
图2示出了本公开实施例提供的一种文本切分方法的部分流程示意图;
图3示出了本公开实施例提供的另一种文本切分方法的部分流程示意图;
图4示出了本公开实施例提供的一种文本切分装置的模块框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下文中,可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。
实施例1
图1为本公开实施例提供的一种文本切分方法的流程示意图。如图1所示,所述方法包括:
S101,接收待切分的文本;
具体地,待切分的文本为经过数据筛选后,包含多个物料名称及多个物料用量的文本。待切分的文本中也可以包括物料类型、物料型号等物料特征。待切分的文本可以通过扫描图纸的方式获取,也可以人工输入,这里不作限定。
S102,将所述文本输入文本单元切分模型,输出文本单元,其中,所述文本单元包括同时包含物料名称及物料用量的至少一个文本块;
具体实施时,文本单元是文本中同时包括一个物料名称和一个物料用量的至少一个文本块。分别采用两种方式对文本单元进行切分,一种是通过文本单元切分神经网络模型进行切分,另一种是通过文本单元切分命名实体识别模型进行切分。将文本输入到文本单元切分模型中,模型识别文本中的文本单元并标记,再根据标记将文本切分为同时包含物料名称和物料用量的文本单元。
S103,判断各文本单元的末尾字符类型;
具体地,文本单元切分完成之后,文本单元的末尾字符类型存在两种情况,即末尾字符类型为数词的文本单元和末尾字符类型为量词的文本单元。根据对文本单元所做的标记,识别文本单元的末尾字符,判断末尾字符类型是量词还是数词。如“其中非预应力,整根杆,10米,150mm,G型电杆32根”即为末尾字符类型为量词的文本单元;“其中非预应力,整根杆,10米,150mm,G型电杆32”即为末尾字符类型为数词的文本单元。
S104,若文本单元的末尾字符类型为数词,则将所述文本单元输入量词添加模型,在所述文本单元的末尾字符后添加量词后作为一文本切分结果输出;
S105,若文本单元的末尾字符类型不是数词,则直接将所述文本单元作为一文本切分结果输出。
具体实施时,若文本单元末尾字符类型为数词,将文本单元输入量词添加模型中,通过量词添加模型预测文本单元中的量词,如根、米等;并添加到文本单元末尾数词之后,添加完成后将文本单元作为文本切分结果输出。当文本单元末尾字符为数词时,会对模型产生干扰,从而降低模型的准确性。
通过上述方法,能够实现对文本单元的精准切分,对于省略量词的文本单元也能进行精准识别;仅需要训练模型使其自动进行文本单元识别切分,无需设置复杂的规则对文本单元进行切分,简化了操作流程。
根据本公开的一种具体实施方式,所述文本单元切分模型包括文本单元切分机器学习模型和文本单元切分命名实体识别模型中任一种;
如图2所示,所述将所述文本输入文本单元切分模型,输出文本单元的步骤,包括:
S201,将所述文本根据分隔符拆分为多个文本块;
具体实施时,分隔符可以是逗号、句号、冒号等标点符号,也可以是空格等其他分隔符,这里不作限定。当使用文本单元切分机器学习模型对文本进行切分时,文本单元切分机器学习模型的输入是单个的文本块,输出为单个文本块或多个文本块的集合。在一个具体的实施方式中,按照标点符号将文本拆分为文本块。在实际使用中,可以根据需求灵活设置拆分格式,这里不作限定。
S202,将多个所述文本块依次输入所述文本单元切分机器学习模型;
具体地,将多个文本块按照在文本中的先后顺序输入到文本单元切分机器学习模型。文本中相邻的文本块之间是有关联的,可能由单独的文本块即可形成一文本单元,也可能由相邻的文本块所包含的内容进行组合才能形成文本单元。按照顺序输入文本块,可以有效物料的名称、用量等特征被标点符号拆分开时的错误识别,保证同一物料的特征组合进而准确识别。
S203,若当前的文本块同时包含物料名称和物料用量,则将所述文本块作为一文本单元输出;
S204,若当前的文本块不同时包含物料名称和物料用量,则继续输入下一个文本块,直至输入的全部文本块中累积包含物料名称和物料用量,将全部文本块组合为一文本单元输出;
具体地,文本单元包括只包含一个文本块的非组合文本单元,如“其中新装JKLYJ-1-70导线路径长212米”,以及包含多个文本块的组合文本单元,如“其中非预应力,整根杆,10米,150mm,G型电杆32根”。
输入的文本块的集合为S(t),模型文件为M,训练模型依赖的数据及结构为S;加载模型文件m=LoadModel(M),m为加载至内存的模型文件;加载模型数据及结构文件s=LoadStuct(S),s为加载至内存的数据文件;使用文本块集合中的某个文本块S(t)i、m、s初始化模型,初始化模型的方式为p=InitModel(S(t)i,m,s),p为初始化的模型实例;模型实例使用其自身具备的分类功能判断文本块的类别cls=p.PredictProb(),其中,cls为一个二值结果,取值为是或者否,即是否同时包含物料名称和物料用量。当判断结果为否时,在S(t)i的基础上增加一个文本块S(t)i+1输入模型,并再次进行判断,当判断结果为是时,将[S(t)i,S(t)i+1]切分成一个文本单元输出;当判断结果为是时,直接将S(t)i切分成一个文本单元输出。
或者,如图3所示,所述将所述文本输入文本单元切分模型,输出文本单元的步骤,包括:
S301,将所述文本输入所述文本单元切分命名实体识别模型,对所述文本中的文本单元标注标签;
具体实施时,当使用文本单元切分命名实体识别模型对文本进行切分时,文本单元切分命名实体识别模型的输入是整个文本,输出为单个文本块或多个文本块的集合。训练后的命名实体识别模型会在文本中直接将文本单元作为一个实体识别并标注出来。在识别到文本单元后,命名实体识别模型会对文本单元标注一个实体标签。
S302,根据所述文本中标注的标签,将所述文本切分为文本单元并输出。
具体地,文本单元切分命名实体识别模型在文本中对每个文本单元打上了标签,标签中包括各个文本单元的起止字符信息,根据起止字符信息将文本切分成多个文本单元并输出。
根据本公开的一种具体实施方式,所述文本单元切分机器学习模型的训练过程,包括:
获取第一样本文本单元集和样本文本块集,其中,所述第一样本文本单元集为同时包含物料名称和物料用量的文本单元的集合,所述样本文本块集为不同时包含物料名称或物料用量的文本块的集合;
具体实施时,首先获取样本数据集,样本数据集的获取方式可以为直接扫描图纸或者人工构造。初始的样本数据集分为两类:样本文本单元集和样本非文本单元集,样本非文本单元集即为不同时包含物料名称或物料用量的文本块的集合。两个样本集对应两个文本文件,文件中的每一行文本为一个样本。
文本单元是实际收集的工程量描述单元,如“其中非预应力,整根杆,10米,150mm,G型电杆32根”,非文本单元是将组合的文本单元的最后一个文本块去掉,得到若干个文本块,每个文本块为一个非文本单元,然后由文本块中的一个或多个组合而成也为一个非文本单元,如去掉文本单元“其中非预应力,整根杆,10米,150mm,G型电杆32根”中的“G型电杆32根”,得到四个文本块“非预应力”,“整根杆”,“10米”,“150mm”,这四个文本块均为一个非文本单元样本,同时,对其进行排列组合,得到若干个非文本单元样本,如“预应力,整根杆”,“整根杆,10米”等。
为提高模型预测的准确度,初始样本文本单元的每一个样本被处理成两类,一类是带量词的文本单元,另外一类是量词被处理掉的文本单元,如“其中非预应力,整根杆,10米,150mm,G型电杆32根”对应的另外一个没有量词的样本为“其中非预应力,整根杆,10米,150mm,G型电杆32”。此外,提取初始样本文本单元所有样本中搭配某个量词的所有数词,分别将数量词或数词拼接追加到带量词的文本或不带量词的文本末尾。如,初始样本文本单元的样本中搭配量词“根”的数词还有“2根”,“12根”,“3根”,则将三者进行拼接得到“2根12根3根”或“2123”,并进行追加得到“其中非预应力,整根杆,10米,150mm,G型电杆32根2根12根3根”,“其中非预应力,整根杆,10米,150mm,G型电杆322123”。
对所述第一样本文本单元集进行样本扩充,得到第二样本文本单元集,其中,所述第二样本文本单元集包含第一样本文本单元集中的全部初始样本文本单元及各初始样本文本单元对应的变换文本单元,其中,变换文本单元为初始文本单元的末尾字符后添加量词或删除量词得到的文本单元;
具体地,为提高模型预测的准确度,初始样本文本单元的每一个样本被处理成两类,一类是带量词的文本单元,另外一类是量词被处理掉的文本单元,如“其中非预应力,整根杆,10米,150mm,G型电杆32根”对应的另外一个没有量词的样本为“其中非预应力,整根杆,10米,150mm,G型电杆32”。处理之后,初始的样本文本单元集中的样本被扩充为原来的两倍。之后,提取初始样本文本单元所有样本中搭配某个量词的所有数词,分别将数量词或数词拼接追加到带量词的文本或不带量词的文本末尾。如,初始样本文本单元的样本中搭配量词“根”的数词还有“2根”,“12根”,“3根”,则将三者进行拼接得到“2根12根3根”或“2123”,并进行追加得到“其中非预应力,整根杆,10米,150mm,G型电杆32根2根12根3根”,“其中非预应力,整根杆,10米,150mm,G型电杆322123”。
将所述样本文本块集和所述第二样本文本单元集输入基础机器学习模型进行迭代训练,得到所述文本单元切分机器学习模型。
具体实施时,基础机器学习模型可以是神经网络模型,例如循环神经网络模型、卷积神经网络模型等;也可以是回归模型等;这里不作限定。样本数据集准备完成后,采用支持向量机算法(kernel=’linear’)对模型进行训练。为提高模型预测的准确度,在训练过程中,对文本单元末尾文本中数词和量词的权重进行设置,当识别到量词或者数词的权重达到一定范围后,即判断文本块集合为文本单元,以提高预测的准确率。
根据本公开的一种具体实施方式,所述对所述第一样本文本单元集进行样本扩充,得到第二样本文本单元集的步骤,包括:
确定所述第一样本文本单元集中的每个初始样本文本单元的末尾字符类型;
具体地,初始样本文本单元的末尾字符类型存在两种情况,即末尾字符类型为数词的初始样本文本单元和末尾字符类型为量词的初始样本文本单元。可以通过利用计算机算法,判断末尾字符类型是量词还是数词;或者通过人工标注方式,判断末尾字符类型是量词还是数词。这里不作限定。
根据各初始样本文本单元的末尾字符类型,获得各初始样本文本块对应的基础文本单元组,其中,基础文本单元组包括末尾字符类型为量词的第一文本单元和末尾字符类型为数词的第二文本单元;
具体实施时,若初始样本文本单元的末尾字符为数词,则生成一个与之对应的末尾字符为量词的样本文本单元;若初始样本文本单元的末尾字符为量词,则生成一个与之对应的末尾字符为数词的样本文本单元。初始样本文本单元与其对应生成的样本文本单元即为一个基础文本单元组。
为所述第一文本单元末尾添加第一类干扰项,为所述第二文本单元末尾添加第二类干扰项,得到所述第二样本文本单元集,其中,所述第一类干扰项为第一文本单元中量词与随机数词的组合,所述第二类干扰项为随机数词。
具体地,第一文本单元的末尾为量词,则在第一文本单元的末尾再添加数词与量词组合的第一类干扰项。其中第一类干扰项的数量可以为多个。添加的数词与量词组合中的量词与第一文本单元中的量词一致。第而文本单元的末尾为数词,则在第而文本单元的末尾再添加数词的第二类干扰项。其中第二类干扰项的数量可以为多个。如,初始样本文本单元为“其中非预应力,整根杆,10米,150mm,G型电杆32根”,搭配量词“根”的数词还有“2根”,“12根”,“3根”等,则将三者进行拼接得到第一类干扰项“2根12根3根”或第二类干扰项“2123”,并进行追加得到“其中非预应力,整根杆,10米,150mm,G型电杆32根2根12根3根”,“其中非预应力,整根杆,10米,150mm,G型电杆322123”。
根据本公开的一种具体实施方式,所述将所述样本文本块集和所述第二样本文本单元集输入基础机器学习模型进行迭代训练,得到所述文本单元切分机器学习模型的步骤,包括:
对输入基础机器学习模型的样本文本单元的末尾字符中量词和数词的权重进行设置;
具体实施时,权重的设置准则为在每位字符类型为量词的文本单元中将数词和量词作为一个整体,末尾字符类型为数词的文本单元中将数词作为一个整体。在一个具体的实施方式中,将该权重设置为0.4。
具体地,首先统计第二样本文本单元集中每个样本文本单元的平均字符长度,设为L,待添加数词和量词的组合或数词份数设为B,然后根据公式2B/(2B+L)=0.4可求得B,最后,可基于文本特征提取算法TF-IDF计算出第二样本文本单元集中数词及量词的组合和数词的权重。
利用支持向量机算法和权重增强后的样本文本单元,对基础机器学习模型进行迭代训练,得到所述文本单元切分机器学习模型。
具体地,通过对第二样本文本单元集中的样本文本单元的数词和量词的权重进行增强,将其输入基础机器学习模型中进行训练,可以提高模型的识别准确度。利用支持向量机算法对基础机器学习模型进行多次迭代优化训练,最终得到文本单元切分机器学习模型。
根据本公开的一种具体实施方式,所述文本单元切分命名实体识别模型的训练过程,包括:
获取样本文本;
具体实施时,样本文本的获取方式可以为直接扫描图纸或者人工构造。这里不作限定。
由于命名实体识别模型是直接对文本中的特定实体进行标注识别,这里只需要获取包含物料名称和物料用量的样本文本。
对所述样本文本进行预处理;
具体地,使用文本标注工具标注包含物料名称和物料用量的样本文本,得到标注好的文件。之后,采用自动化方式将标注数据处理成对应的同步阻塞体系,得到可以直接用于训练模型的样本数据,可直接用于训练模型。
将预处理后的样本文本输入基础命名实体识别模型,并设置所述基础命名实体识别模型的超参数;
具体实施时,对模型的epoch值、batch_size值及char_embed_dim值进行设置。其中epoch值表示在整个样本文本上的训练次数,batch_size值表示训练时一次加载样本的数量,char_embed_dim值表示词向量的维度。
在一个具体的实施方式中,见表1,各超参数的值如下:
对所述基础命名实体识别模型进行迭代训练,得到所述文本单元切分命名实体识别模型。
具体地,采用BILSTM和卷积神经网络,在图形处理器上对基础命名实体识别模型进行迭代训练。训练完成后,得到文本单元切分命名实体识别模型。
根据本公开的一种具体实施方式,所述对所述样本文本进行预处理的步骤,包括:
利用文本标注工具对所述样本文本中的文本单元标注标签;
具体实施时,在一个具体的实施方式中,使用文本标注工具Brat对样本文本进行标注。当然,在其他实施方式中也可以灵活选择其他文本标注工具,这里不作限定。标注完成后,每一行为一个标注样本,“kv”为标签,标注的第一个数值为文本单元在文本段中的起始位置,标注的最后一个数值为文本单元在文本段中的结束位置。
根据标注的标签,采用自动化方式将标注后的样本文本处理成对应的同步阻塞体系,得到预处理后的样本文本。
本公开实施例提供的文本切分方法,首先将待切分的文本输入文本单元切分模型进行切分,得到文本中全部的文本单元;判断各文本单元的末尾字符类型;若文本单元末尾字符为数词,则该文本单元缺少量词,在文本单元末尾添加量词;输出的文本单元均为末尾字符包含量词的文本单元。通过上述方法,能够实现对文本单元的精准切分,对于省略量词的文本单元也能进行精准识别;仅需要训练模型使其自动进行文本单元识别切分,无需设置复杂的规则对文本单元进行切分,简化了操作流程。
实施例2
图4为本公开实施例提供的一种文本切分装置的模块框图。如图4所示,所述文本切分装置400包括:
接收模块401,用于接收待切分的文本;
模型处理模块402,用于将所述文本输入文本单元切分模型,输出文本单元,其中,所述文本单元包括同时包含物料名称及物料用量的至少一个文本块;
判断模块403,用于判断各文本单元的末尾字符类型;
量词添加模块404,用于若文本单元的末尾字符类型为数词,则将所述文本单元输入量词添加模型,在所述文本单元的末尾字符后添加量词后作为一文本切分结果输出;
输出模块405,用于若文本单元的末尾字符类型不是数词,则直接将所述文本单元作为一文本切分结果输出。
综上所述,本公开实施例提供的文本切分装置,首先将待切分的文本输入文本单元切分模型进行切分,得到文本中全部的文本单元;判断各文本单元的末尾字符类型;若文本单元末尾字符为数词,则该文本单元缺少量词,在文本单元末尾添加量词;输出的文本单元均为末尾字符包含量词的文本单元。通过上述方法,能够实现对文本单元的精准切分,对于省略量词的文本单元也能进行精准识别;仅需要训练模型使其自动进行文本单元识别切分,无需设置复杂的规则对文本单元进行切分,简化了操作流程。所提供的文本切分装置的具体实施过程可以参见上述图1、图2及图3所示的实施例提供的文本切分方法的具体实施过程,在此不再一一赘述。
此外,本公开实施例还提供了一种计算机设备,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行如图1至图3所示的文本切分方法。
另外,本公开实施例还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行如图1至图3所示的文本切分方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。
Claims (9)
1.一种文本切分方法,其特征在于,所述方法包括:
接收待切分的文本;
将所述文本输入文本单元切分模型,输出文本单元,其中,所述文本单元包括同时包含物料名称及物料用量的至少一个文本块;
判断各文本单元的末尾字符类型;
若文本单元的末尾字符类型为数词,则将所述文本单元输入量词添加模型,在所述文本单元的末尾字符后添加量词后作为一文本切分结果输出;
若文本单元的末尾字符类型不是数词,则直接将所述文本单元作为一文本切分结果输出;
所述文本单元切分模型包括文本单元切分机器学习模型和文本单元切分命名实体识别模型中任一种;
所述将所述文本输入文本单元切分模型,输出文本单元的步骤,包括:
将所述文本根据分隔符拆分为多个文本块;
将多个所述文本块依次输入所述文本单元切分机器学习模型;
若当前的文本块同时包含物料名称和物料用量,则将所述文本块作为一文本单元输出;
若当前的文本块不同时包含物料名称和物料用量,则继续输入下一个文本块,直至输入的全部文本块中累积包含物料名称和物料用量,将全部文本块组合为一文本单元输出;
或者,所述将所述文本输入文本单元切分模型,输出文本单元的步骤,包括:
将所述文本输入所述文本单元切分命名实体识别模型,对所述文本中的文本单元标注标签;
根据所述文本中标注的标签,将所述文本切分为文本单元并输出。
2.根据权利要求1所述的文本切分方法,其特征在于,所述文本单元切分机器学习模型的训练过程,包括:
获取第一样本文本单元集和样本文本块集,其中,所述第一样本文本单元集为同时包含物料名称和物料用量的文本单元的集合,所述样本文本块集为不同时包含物料名称或物料用量的文本块的集合;
对所述第一样本文本单元集进行样本扩充,得到第二样本文本单元集,其中,所述第二样本文本单元集包含第一样本文本单元集中的全部初始样本文本单元及各初始样本文本单元对应的变换文本单元,其中,变换文本单元为初始文本单元的末尾字符后添加量词或删除量词得到的文本单元;
将所述样本文本块集和所述第二样本文本单元集输入基础机器学习模型进行迭代训练,得到所述文本单元切分机器学习模型。
3.根据权利要求2所述的文本切分方法,其特征在于,所述对所述第一样本文本单元集进行样本扩充,得到第二样本文本单元集的步骤,包括:
确定所述第一样本文本单元集中的每个初始样本文本单元的末尾字符类型;
根据各初始样本文本单元的末尾字符类型,获得各初始样本文本块对应的基础文本单元组,其中,基础文本单元组包括末尾字符类型为量词的第一文本单元和末尾字符类型为数词的第二文本单元;
为所述第一文本单元末尾添加第一类干扰项,为所述第二文本单元末尾添加第二类干扰项,得到所述第二样本文本单元集,其中,所述第一类干扰项为第一文本单元中量词与随机数词的组合,所述第二类干扰项为随机数词。
4.根据权利要求2所述的文本切分方法,其特征在于,所述将所述样本文本块集和所述第二样本文本单元集输入基础机器学习模型进行迭代训练,得到所述文本单元切分机器学习模型的步骤,包括:
对输入基础机器学习模型的样本文本单元的末尾字符中量词和数词的权重进行设置;
利用支持向量机算法和权重增强后的样本文本单元,对基础机器学习模型进行迭代训练,得到所述文本单元切分机器学习模型。
5.根据权利要求1所述的文本切分方法,其特征在于,所述文本单元切分命名实体识别模型的训练过程,包括:
获取样本文本;
对所述样本文本进行预处理;
将预处理后的样本文本输入基础命名实体识别模型,并设置所述基础命名实体识别模型的超参数;
对所述基础命名实体识别模型进行迭代训练,得到所述文本单元切分命名实体识别模型。
6.根据权利要求5所述的文本切分方法,其特征在于,所述对所述样本文本进行预处理的步骤,包括:
利用文本标注工具对所述样本文本中的文本单元标注标签;
根据标注的标签,采用自动化方式将标注后的样本文本处理成对应的同步阻塞体系,得到预处理后的样本文本。
7.一种文本切分装置,其特征在于,所述装置包括:
接收模块,用于接收待切分的文本;
模型处理模块,用于将所述文本输入文本单元切分模型,输出文本单元,其中,所述文本单元包括同时包含物料名称及物料用量的至少一个文本块;
判断模块,用于判断各文本单元的末尾字符类型;
量词添加模块,用于若文本单元的末尾字符类型为数词,则将所述文本单元输入量词添加模型,在所述文本单元的末尾字符后添加量词后作为一文本切分结果输出;
输出模块,用于若文本单元的末尾字符类型不是数词,则直接将所述文本单元作为一文本切分结果输出;
所述模型处理模块,还用于将所述文本根据分隔符拆分为多个文本块;
将多个所述文本块依次输入所述文本单元切分机器学习模型;
若当前的文本块同时包含物料名称和物料用量,则将所述文本块作为一文本单元输出;
若当前的文本块不同时包含物料名称和物料用量,则继续输入下一个文本块,直至输入的全部文本块中累积包含物料名称和物料用量,将全部文本块组合为一文本单元输出;
或者,所述将所述文本输入文本单元切分模型,输出文本单元的步骤,包括:
将所述文本输入所述文本单元切分命名实体识别模型,对所述文本中的文本单元标注标签;
根据所述文本中标注的标签,将所述文本切分为文本单元并输出。
8.一种计算机设备,其特征在于,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行权利要求1至6中任一项所述的文本切分方法。
9.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序在处理器上运行时执行权利要求1至6中任一项所述的文本切分方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110895881.8A CN113609860B (zh) | 2021-08-05 | 2021-08-05 | 文本切分方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110895881.8A CN113609860B (zh) | 2021-08-05 | 2021-08-05 | 文本切分方法、装置及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113609860A CN113609860A (zh) | 2021-11-05 |
CN113609860B true CN113609860B (zh) | 2023-09-19 |
Family
ID=78307074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110895881.8A Active CN113609860B (zh) | 2021-08-05 | 2021-08-05 | 文本切分方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113609860B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081667A (zh) * | 2011-01-23 | 2011-06-01 | 浙江大学 | 基于Base64编码的中文文本分类方法 |
CN103077164A (zh) * | 2012-12-27 | 2013-05-01 | 新浪网技术(中国)有限公司 | 文本分析方法及文本分析器 |
WO2018032937A1 (zh) * | 2016-08-19 | 2018-02-22 | 中兴通讯股份有限公司 | 一种文本信息分类方法及其装置 |
CN108205524A (zh) * | 2016-12-20 | 2018-06-26 | 北京京东尚科信息技术有限公司 | 文本数据处理方法和装置 |
CN112417823A (zh) * | 2020-09-16 | 2021-02-26 | 中国科学院计算技术研究所 | 一种中文文本语序调整和量词补全方法及系统 |
CN112434518A (zh) * | 2020-11-30 | 2021-03-02 | 北京师范大学 | 一种文本报告打分方法及系统 |
WO2021042516A1 (zh) * | 2019-09-02 | 2021-03-11 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置及计算机可读存储介质 |
CN113011533A (zh) * | 2021-04-30 | 2021-06-22 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11568151B2 (en) * | 2019-11-20 | 2023-01-31 | Academia Sinica | Natural language processing method and computing apparatus thereof |
-
2021
- 2021-08-05 CN CN202110895881.8A patent/CN113609860B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081667A (zh) * | 2011-01-23 | 2011-06-01 | 浙江大学 | 基于Base64编码的中文文本分类方法 |
CN103077164A (zh) * | 2012-12-27 | 2013-05-01 | 新浪网技术(中国)有限公司 | 文本分析方法及文本分析器 |
WO2018032937A1 (zh) * | 2016-08-19 | 2018-02-22 | 中兴通讯股份有限公司 | 一种文本信息分类方法及其装置 |
CN108205524A (zh) * | 2016-12-20 | 2018-06-26 | 北京京东尚科信息技术有限公司 | 文本数据处理方法和装置 |
WO2021042516A1 (zh) * | 2019-09-02 | 2021-03-11 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置及计算机可读存储介质 |
CN112417823A (zh) * | 2020-09-16 | 2021-02-26 | 中国科学院计算技术研究所 | 一种中文文本语序调整和量词补全方法及系统 |
CN112434518A (zh) * | 2020-11-30 | 2021-03-02 | 北京师范大学 | 一种文本报告打分方法及系统 |
CN113011533A (zh) * | 2021-04-30 | 2021-06-22 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113609860A (zh) | 2021-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108460014B (zh) | 企业实体的识别方法、装置、计算机设备及存储介质 | |
CN111222305B (zh) | 一种信息结构化方法和装置 | |
CN110020424B (zh) | 合同信息的提取方法、装置和文本信息的提取方法 | |
CN110008473B (zh) | 一种基于迭代方法的医疗文本命名实体识别标注方法 | |
CN108205524B (zh) | 文本数据处理方法和装置 | |
CN114239588A (zh) | 文章处理方法、装置、电子设备及介质 | |
CN111428480A (zh) | 简历识别方法、装置、设备及存储介质 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN111178080B (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN112784009A (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
CN111160445B (zh) | 投标文件相似度计算方法及装置 | |
CN116795789B (zh) | 自动生成专利检索报告的方法及装置 | |
CN113609860B (zh) | 文本切分方法、装置及计算机设备 | |
CN111368547A (zh) | 基于语义解析的实体识别方法、装置、设备和存储介质 | |
CN115130455A (zh) | 文章处理方法、装置、电子设备以及存储介质 | |
CN113254583B (zh) | 一种基于语义向量的文档标记方法、装置及介质 | |
CN114997167A (zh) | 简历内容提取方法及装置 | |
CN114970490A (zh) | 一种文本标注数据的质检方法、装置、电子设备以及存储介质 | |
CN115099344A (zh) | 模型训练方法和装置、用户画像生成方法和装置、设备 | |
CN114706886A (zh) | 一种评测方法和装置、计算机设备、存储介质 | |
CN113722421B (zh) | 一种合同审计方法和系统,及计算机可读存储介质 | |
CN114117047A (zh) | 一种基于c4.5算法对非法语音进行分类的方法及系统 | |
CN113468339A (zh) | 基于知识图谱的标签提取方法、系统、电子设备及介质 | |
CN114154503A (zh) | 一种敏感数据类型识别方法 | |
CN112182218A (zh) | 文本数据的分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Text segmentation methods, devices, and computer equipment Effective date of registration: 20231220 Granted publication date: 20230919 Pledgee: Bank of Changsha Limited by Share Ltd. science and Technology Branch Pledgor: Hunan Teneng Boshi Technology Co.,Ltd. Registration number: Y2023980073086 |