CN113449509A - 文本分析方法、装置及计算机设备 - Google Patents
文本分析方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN113449509A CN113449509A CN202110895620.6A CN202110895620A CN113449509A CN 113449509 A CN113449509 A CN 113449509A CN 202110895620 A CN202110895620 A CN 202110895620A CN 113449509 A CN113449509 A CN 113449509A
- Authority
- CN
- China
- Prior art keywords
- text
- model
- unit
- inputting
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 78
- 239000000463 material Substances 0.000 claims abstract description 554
- 238000000605 extraction Methods 0.000 claims abstract description 40
- 230000011218 segmentation Effects 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000004590 computer program Methods 0.000 claims description 10
- 238000003062 neural network model Methods 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 7
- 238000010801 machine learning Methods 0.000 claims description 7
- 238000012706 support-vector machine Methods 0.000 claims description 4
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000000903 blocking effect Effects 0.000 description 3
- 239000000109 continuous material Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Abstract
本发明实施例公开了一种文本分析方法、装置及计算机设备,所述方法包括:获取待分析的文本;将所述文本输入预先训练的物料文本提取模型,提取包含物料特征的物料文本;将所述物料文本输入预先训练的物料单元分割模型,得到所述物料文本中对应的各物料单元及标记结果;将所述物料单元输入预先训练的型号提取模型,提取所述物料单元中各物料的物料型号;将各物料的型号输入预先训练的型号分析模型,得到物料型号分析结果。通过上述方法,可以实现对工程量文本中的物料单元进行精准切分,对物料单元进行语义层面的精细分析,对物料型号进行精准提取与解析;提高了工程量文本语义分析的效率和准确度。
Description
技术领域
本发明涉及语义识别领域,尤其涉及一种文本分析方法、装置及计算机设备。
背景技术
在工程建设中,需要对工程文本中各物料的类型、规格及用量等进行提取分析。为了解决这个问题,常规的解决思路是针对特定工程文本,分析其特征和业务需求,梳理构造出与其相适应的规则。但是,在面对大量的待处理工程文本时,这种基于规则的工程文本处理方法费时费力,无法满足批量的工程文本中物料提取分析需求。同时,基于规则的处理方法对工程文本中物料的提取分析不够精准,对于不同工程文本的适应性也很低。
发明内容
针对上述问题,本发明提出一种文本分析方法、装置及计算机设备。具体方案如下:
第一方面,本公开实施例提供了一种文本分析方法,所述方法包括:
获取待分析的文本;
将所述文本输入预先训练的物料文本提取模型,提取包含物料特征的物料文本,其中,所述物料特征包括物料用量及物料信息,物料信息包括物料类型、物料名称、物料型号中的至少一种;
将所述物料文本输入预先训练的物料单元分割模型,得到所述物料文本中对应的各物料单元及标记结果,其中,所述物料单元包括同时包含物料名称、物料型号和物料用量的至少一个文本块;
将所述物料单元输入预先训练的型号提取模型,提取所述物料单元中各物料的物料型号;
将各物料的物料型号输入预先训练的型号分析模型,得到物料型号分析结果。
根据本公开的一种具体实施方式,所述物料文本提取模型的训练步骤,包括:
获取样本文本集,其中,所述样本文本集包括包含物料特征的第一类样本文本和不包含物料特征的第二类样本文本;
将所述样本文本集输入基础神经网络模型进行训练,得到物料文本提取模型。
根据本公开的一种具体实施方式,所述将所述物料文本输入预先训练的物料单元分割模型,得到所述物料文本中对应的各物料单元及标记结果的步骤,包括:
将所述物料文本根据分隔符分割为多个文本块;
将所述多个文本块输入所述物料单元分割模型进行处理,输出多个物料单元;
对物料单元中缺失的量词进行补充。
根据本公开的一种具体实施方式,所述将所述多个文本块输入所述物料单元分割模型进行处理的步骤,包括:
将所述多个文本块按照在所述物料文本中的顺序输入所述物料单元分割模型;
若所述文本块中同时包含物料名称、物料型号和物料用量,则将所述文本块标记为物料单元;
若所述文本块中不同时包含物料名称、物料型号和物料用量,则继续输入下一个文本块,直至输入的全部文本块中累积包含物料名称、物料型号和物料用量,将全部文本块的组合标记为物料单元。
根据本公开的一种具体实施方式,所述将所述物料文本输入预先训练的物料单元分割模型,得到所述物料文本中对应的各物料单元及标记结果的步骤之后,所述方法还包括:
将各所述物料单元输入预先训练的层级标识模型,对各所述物料单元的层级进行标识,其中,层级为各物料单元之间的包含关系;
将所述物料单元输入预先训练的物料类型预测模型,并输出每个物料单元的物料类型;
根据层级以及物料类型的包含关系,将物料单元划分为多个物料单元意群,其中,物料单元意群为物料名称、物料型号和物料用量之间关联的物料单元的组合。
根据本公开的一种具体实施方式,所述物料单元分割模型的训练步骤,包括:
获取物料单元样本集和非物料单元样本集,其中,物料单元样本集包括包含量词的第一子集和不包含量词的第二子集,非物料单元样本集为不同时包含物料名称、物料型号及物料用量或不同时包含物料名称和物料用量的文本块的集合;
将所述物料单元样本集和非物料单元样本集输入基础机器学习模型;
利用支持向量机算法对所述基础神经网络模型进行训练,得到物料单元分割模型。
第二方面,本公开实施例还提供了一种文本分析装置,所述装置包括:
第一获取模块,用于获取待分析的文本;
物料文本提取模块,用于将所述文本输入预先训练的物料文本提取模型,提取包含物料特征的物料文本,其中,所述物料特征包括物料用量及物料信息,物料信息包括物料类型、物料名称、物料型号中的至少一种;
物料单元获取模块,用于将所述物料文本输入预先训练的物料单元分割模型,得到所述物料文本中对应的各物料单元及标记结果,其中,所述物料单元包括同时包含物料名称、物料型号和物料用量的至少一个文本块;
物料型号提取模块,用于将所述物料单元输入预先训练的型号提取模型,提取所述物料单元中各物料的物料型号;
分析模块,用于将各物料的物料型号输入预先训练的型号分析模型,得到物料型号分析结果。
根据本公开的一种具体实施方式,所述装置还包括:
第二获取模块,用于获取样本文本集,其中,所述样本文本集包括包含物料特征的第一类样本文本和不包含物料特征的第二类样本文本;
训练模块,用于将所述样本文本集输入基础神经网络模型进行训练,得到物料文本提取模型。
第三方面,本公开实施例还提供了一种计算机设备,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行第一方面中任一项所述的文本分析方法。
第四方面,本公开实施例还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行第一方面中任一项所述的文本分析方法。
本公开实施例提供的文本分析方法、装置及计算机设备,首先通过对输入文本中物料文本进行提取,再将物料文本中的物料单元分割出来,然后提取各物料单元中的物料型号,最后对物料型号进行分析,得到最终的物料型号分析结果。可以实现对工程量文本中的物料单元进行精准切分,对物料单元进行语义层面的精细分析,对物料型号进行精准提取与解析;提高了工程量文本语义分析的效率和准确度。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
图1示出了本公开实施例提供的一种文本分析方法的流程示意图;
图2示出了本公开实施例提供的一种文本分析方法的待分析文本示意图;
图3示出了本公开实施例提供的又一种文本分析方法的待分析文本示意图;
图4示出了本公开实施例提供的一种文本分析方法的整体流程图;
图5示出了本公开实施例提供的一种文本分析装置的整模块框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下文中,可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。
实施例1
图1为本公开实施例提供的一种文本分析方法的流程示意图。如图1所示,所述方法包括:
S101,获取待分析的文本;
具体地,待分析的文本可以是从设计图纸中解析得到的工程量描述文本,设计图纸可以是人工手写的图纸或者通过设计软件按模板自动生成的图纸。可以根据实际需要灵活处理,这里不作限定。
待分析文本包括如图2所示的内嵌于图纸内非显示的元素标识文本和如图3所示的扫描得到的图纸说明。待分析文本中包含物料类型、物料名称、物料型号、物料用量等,以及与物料无关的描述文本。
S102,将所述文本输入预先训练的物料文本提取模型,提取包含物料特征的物料文本,其中,所述物料特征包括物料用量及物料信息,物料信息包括物料类型、物料名称、物料型号中的至少一种;
具体实施时,原始的待分析文本中存在噪声数据,会影响后续的文本分析精确度。噪声数据是不包含物料特征的非工程量描述文本,主要包含两部分,一是如图2所示内嵌于图纸内非显示的元素标识文本,如:<AcDbProxyEntity>……[1EC08];另外一种是如图3中线条框中标注的图纸内显示的没有描述物料及其用量的文本。
在对待分析的文本进行文本分析之前,需要先将文本中的噪声数据进行过滤,提取出文本中的物料文本。在一个具体的实施方式中,使用物料文本提取模型对待分析文本中的物料文本进行提取整合。当然,也可以使用其他方式对物料文本进行提取,这里不作限定。在本公开实施例中物料文本至少包括物料名称、物料型号和物料用量,其他实施例中可以根据需要灵活确定物料文本。如图3所示,物料类型可以为架空线路、杆塔等;物料名称可以为10kV架空线路、新立电杆等;物料型号可以为LGJ-120/20、LGJ-185-25等;物料用量可以为路径长12754.82米、20根等。
S103,将所述物料文本输入预先训练的物料单元分割模型,得到所述物料文本中对应的各物料单元及标记结果,其中,所述物料单元包括同时包含物料名称、物料型号和物料用量的至少一个文本块;
具体地,为了方便后续对物料型号进行提取和解析,需要将物料文本分割为合适的粒度输入模型中。在本实施例中,以物料单元为粒度输入模型,物料单元为包括一个物料的完整物料名称、物料用量及物料型号的一个或多个文本块。文本块是将物料文本以标点符号为间隔,切分出的多个部分。
将提取的物料文本以段落为单位输入物料单元分割模型中,得到物料文本中的全部物料单元,并对每个物料单元进行标记、分割之后,从物料单元分割模型输出,以方便后续对物料单元进行层级划分。物料单元可以为如图2所示的“杆塔:共85根”、“跨越:共50处”等,包含物料用量及物料名称的文本块。
S104,将所述物料单元输入预先训练的型号提取模型,提取所述物料单元中各物料的物料型号;
具体实施时,预先训练一个型号提取模型,用于提取物料单元中的物料型号。为了提高模型的准确度,在训练过程中采用规则库与深度学习相结合的方法对模型进行训练。物料型号可能会包括两类,一类是字符加数字组合的型号格式,一类是以文字说明的型号格式。在模型的训练过程中,会同时训练模型对两种格式的型号的识别及提取。
S105,将各物料的物料型号输入预先训练的型号分析模型,得到物料型号分析结果。
具体地,将提取出的物料型号输入型号分析模型中,对各物料型号的属性进行解析,最终分析出各物料型号中包含的属性的含义。型号分析模型采用半监督学习方式进行训练;当然,在实际使用中也可以采用其他方式训练模型,这里不作限定。提取到的物料型号为JKLYJ-1-70,则输出的分析结果为新建线路使用的导线型号为JKLYJ-1-70,此型号的导线类型为JKLYJ,导线截面为70。
通过上述方法,可以实现对工程量文本中的物料单元进行精准切分,对物料单元进行语义层面的精细分析,对物料型号进行精准提取与解析;提高了工程量文本语义分析的效率和准确度。
根据本公开的一种具体实施方式,所述物料文本提取模型的训练步骤,包括:
获取样本文本集,其中,所述样本文本集包括包含物料特征的第一类样本文本和不包含物料特征的第二类样本文本;
具体实施时,在本实施例中,首先通过人工与自动化相结合的方式将从样本文本划为两类,一类是包含物料特征的物料描述文本,即第一类样本文本;另外一类是不包含物料特征的非物料描述文本,即第二类样本文本。两类文本分别存放在不同的文件中,两个文件分贝存放在不同的文件夹中,文件夹的名字为样本文本的分类标签,这两个文件夹存放在同一个文件夹中,形成三级结构,由三级结构构成的文件夹即为用于训练物料文本提取模型的样本文本集。
将所述样本文本集输入基础神经网络模型进行训练,得到物料文本提取模型。
具体地,将样本文本集输入至基础神经网络模型中,基于机器学习算法进行训练,得到相应的物料文本提取模型。物料文本提取模型在使用时,按行将待分析的文本输入至模型中,进行物料文本的提取。
根据本公开的一种具体实施方式,所述将所述物料文本输入预先训练的物料单元分割模型,得到所述物料文本中对应的各物料单元及标记结果的步骤,包括:
将所述物料文本根据分隔符分割为多个文本块;
具体实施时,在一个具体的实施方式中,根据标点符号对物料文本进行分割。根据标点符号,如逗号、分号、句号等,将物料文本分割为多个文本块。每个文本块中可能包含物料名称、物料用量及物料型号中的一种或多种。
将所述多个文本块输入所述物料单元分割模型进行处理,输出多个物料单元;
具体地,将多个文本块按照其在物料文本中的先后顺序依次输入物料单元分割模型中,由该模型对文本块进行判断识别是否为物料单元。物料单元分割模型最后输出的结果为多个物料单元。
对物料单元中缺失的量词进行补充。
具体实施时,输出的物料单元的末尾可能会缺失量词,仅以数字结尾;这样在后续的型号提取和分析中会造成干扰,影响型号提取分析的准确度。因此,需要对末尾缺失量词的物料单元进行量词补全。量词补全的方式可以为通过神经网络模型进行自动补全量词,也可以使用其他方式,这里不作限定。
根据本公开的一种具体实施方式,所述将所述多个文本块输入所述物料单元分割模型进行处理的步骤,包括:
将所述多个文本块按照在所述物料文本中的顺序输入所述物料单元分割模型;
具体地,为了保证输出的物料单元中的物料名称、物料型号和物料用量是对应统一的,需要将各文本块按照在物料文本中的先后顺序输入物料单元分割模型。
若所述文本块中同时包含物料名称、物料型号和物料用量,则将所述文本块标记为物料单元;若所述文本块中不同时包含物料名称、物料型号和物料用量,则继续输入下一个文本块,直至输入的全部文本块中累积包含物料名称、物料型号和物料用量,将全部文本块的组合标记为物料单元。
具体实施时,同时包含物料名称、物料用量及物料型号的一个文本块可以作为一个物料单元,仅包含物料名称、物料用量及物料型号其中一部分的文本块需要与其他文本块组合形成一个物料单元。
若当前处理的文本块中不同时包含物料名称、物料型号和物料用量,继续输入当前文本块顺序后的下一个文本块,判断输入的两个文本块是否同时包含物料名称、物料型号和物料用量;若否,则继续执行上述操作。若是,将输入的全部文本块组合作为一个物料单元输出。
在一个具体的实施方式中,待预测的文本块集合为S(t),当S(t)i中同时包含物料名称、物料型号和物料用量时,将其输出为物料单元;当S(t)i中不同时包含物料名称、物料型号和物料用量时,在S(t)i的基础上增加一个文本块S(t)i+1,并进行判断是否同时包含物料名称、物料型号和物料用量,当判断结果为是时,将[S(t)i,S(t)i+1]切分成一个物料单元输出。
根据本公开的一种具体实施方式,所述将所述物料文本输入预先训练的物料单元分割模型,得到所述物料文本中对应的各物料单元及标记结果的步骤之后,所述方法还包括:
将各所述物料单元输入预先训练的层级标识模型,对各所述物料单元的层级进行标识,其中,层级为各物料单元之间的包含关系;
具体实施时,各物料单元之间存在包含关系,需要根据物料单元之间的包含关系对物料单元进行层级划分,避免出现重复提取相关物料单元中的物料型号的情况,同时也避免了文本分析结果出现冗余数据。在一个具体的实施方式中,层级分为第一层级和第二层级,其中,第一层级包含第二层级。
根据各物料单元中的包含关系,通过层级标识模型对物料单元进行层级标识和划分。
在一个具体的实施方式中,通过人工标注方式将样本中的层级关系标注出来,进行物料类型预测模型的训练。当然,也可以通过其他方式训练物料类型预测模型,这里不作限定。
将所述物料单元输入预先训练的物料类型预测模型,并输出每个物料单元的物料类型;
具体地,通过对每个物料单元中包含的物料类型进行判断,从而确定各物料单元之间的关联关系。
根据层级以及物料类型的包含关系,将物料单元划分为多个物料单元意群,其中,物料单元意群为物料名称、物料型号和物料用量之间关联的物料单元的组合。
具体实施时,例如导线的层级及物料类型包含有铜导线的层级及物料类型。基于层级和物料类型的关联信息,对物料单元进行组块,并进一步校验组块结果的正确性,组块逻辑是连续的物料单元之间存在物料类型的关联关系且物料单元具有多个层级。
根据本公开的一种具体实施方式,所述物料单元分割模型的训练步骤,包括:
获取物料单元样本集和非物料单元样本集,其中,物料单元样本集包括包含量词的第一子集和不包含量词的第二子集,非物料单元样本集为不同时包含物料名称、物料型号及物料用量或不同时包含物料名称和物料用量的文本块的集合;
具体地,在对物料单元分割模型进行训练时,会利用物料单元样本集和非物料单元样本集增加模型对物料单元识别的鲁棒性。同时,由于物料文本中包括结尾包含量词和结尾不包含量词的两类物料单元,物料单元分割模型需要同时对结尾包含量词和结尾不包含量词的两类物料单元进行识别分割。物料单元样本集中需要设置包含量词的第一子集和不包含量词的第二子集,以提高模型的准确性。
将所述物料单元样本集和非物料单元样本集输入基础机器学习模型;
利用支持向量机算法对所述基础机器学习模型进行训练,得到物料单元分割模型。
具体地,采用支持向量机算法进行模型训练。同样地,为提高模型预测的准确度,在训练过程中,会对物料单元末尾的数字和量词的权重进行设置,最终得到物料单元分割模型。
本公开实施例提供的文本分析方法,首先通过对输入文本中物料文本进行提取,再将物料文本中的物料单元分割出来,然后提取各物料单元中的物料型号,最后对物料型号进行分析,得到最终的物料型号分析结果。可以实现对工程量文本中的物料单元进行精准切分,对物料单元进行语义层面的精细分析,对物料型号进行精准提取与解析;提高了工程量文本语义分析的效率和准确度。
在一个具体的实施方式中,如图4所示,本公开实施例提供的一种文本分析方法的整体流程如下:
接收工程量描述文本段,首先进行数据过滤,以得到包含工程量描述单元的文本段落集合,即物料文本。并对每个文本段落进行段落号标识。数据过滤的具体过程如下:
数据过滤基于分类的机制,该机制的核心是训练一个物料文本提取模型。首先通过人工与自动化相结合的方式将从图纸中解析得来的文本划为两类,一类是物料文本,另外一类是非物料文本,两类文本存放在不同的文件,文件存放在不同的文件夹中,文件夹的名字为分类标签,这两个文件夹存放在同一个文件夹中,形成三级结构,由三级结构构成的文件夹即为用于训练物料描述/非物料描述预测模型的数据集。
数据集构建好之后基于机器学习算法训练得到相应的物料文本提取模型,然后将从图纸解析得到的文本按行输入到模型中,由模型预测其是否为物料描述文本,如果其为非物料描述文本,则将其过滤掉。
以段落为单位对物料文本中的键值对进行抽取,抽取的键值对即为物料单元。得到整个物料单元集合,并依次标识每个物料单元的序号。
基于层级预测模型标识每个物料单元的层级并基于规则校验预测模型的准确与否,接着基于物料类型预测模型预测每个物料单元描述的是物料类型。在本实施方式中,层级为三层。
基于层级和物料类型的关联信息进行过组块并进行组块结果的正确性校验,其中,组块逻辑是连续的物料单元之间存在物料类型的关联关系且物料单元具有多个层级。
对组块的物料单元进行块内蕴含关系构建,构建的逻辑为第一层级的物料单元蕴含标识为空,第二层级的物料单元蕴含标识为第一层级物料单元的序号,第三层级的物料单元蕴含标识为第二层级的物料单元的序号;再基于规则对物料单元进行数量和单位提取,此时得到处理后每个物料单元的数据,然后结合预定义的字段将其格式化。
对物料单元为材料类型的文本使用基于深度学习和规则相结合的方法提取型号,再基于机器学习的型号精准解析方法对型号进行解析以得到最终的解析结果。
通过上述方法,可以实现对工程量文本中的物料单元进行精准切分,对物料单元进行语义层面的精细分析,对物料型号进行精准提取与解析;提高了工程量文本语义分析的效率和准确度。
实施例2
图5为本公开实施例提供的一种文本分析装置的模块框图。如图5所示,所述文本分析装置500包括:
第一获取模块501,用于获取待分析的文本;
物料文本提取模块502,用于将所述文本输入预先训练的物料文本提取模型,提取包含物料特征的物料文本,其中,所述物料特征包括物料用量及物料信息,物料信息包括物料类型、物料名称、物料型号中的至少一种;
物料单元获取模块503,用于将所述物料文本输入预先训练的物料单元分割模型,得到所述物料文本中对应的各物料单元及标记结果,其中,所述物料单元包括同时包含物料名称、物料型号和物料用量的至少一个文本块;
物料型号提取模块504,用于将所述物料单元输入预先训练的型号提取模型,提取所述物料单元中各物料的物料型号;
分析模块505,用于将各物料的物料型号输入预先训练的型号分析模型,得到物料型号分析结果。
根据本公开的一种具体实施方式,所述装置还包括:
第二获取模块,用于获取样本文本集,其中,所述样本文本集包括包含物料特征的第一类样本文本和不包含物料特征的第二类样本文本;
训练模块,用于将所述样本文本集输入基础神经网络模型进行训练,得到物料文本提取模型。
综上所述,本公开实施例提供的文本分析装置,首先通过对输入文本中物料文本进行提取,再将物料文本中的物料单元分割出来,然后提取各物料单元中的物料型号,最后对物料型号进行分析,得到最终的物料型号分析结果。可以实现对工程量文本中的物料单元进行精准切分,对物料单元进行语义层面的精细分析,对物料型号进行精准提取与解析;提高了工程量文本语义分析的效率和准确度。所提供的文本分析装置的具体实施过程可以参见上述图1、图2、图3及图4所示的实施例提供的文本分析方法的具体实施过程,在此不再一一赘述。
此外,本公开实施例还提供了一种计算机设备,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行如图1至图4所示的文本分析方法。
另外,本公开实施例还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行如图1至图4所示的文本分析方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种文本分析方法,其特征在于,所述方法包括:
获取待分析的文本;
将所述文本输入预先训练的物料文本提取模型,提取包含物料特征的物料文本,其中,所述物料特征包括物料用量及物料信息,物料信息包括物料类型、物料名称、物料型号中的至少一种;
将所述物料文本输入预先训练的物料单元分割模型,得到所述物料文本中对应的各物料单元及标记结果,其中,所述物料单元包括同时包含物料名称、物料型号和物料用量的至少一个文本块;
将所述物料单元输入预先训练的型号提取模型,提取所述物料单元中各物料的物料型号;
将各物料的物料型号输入预先训练的型号分析模型,得到物料型号分析结果。
2.根据权利要求1所述的文本分析方法,其特征在于,所述物料文本提取模型的训练步骤,包括:
获取样本文本集,其中,所述样本文本集包括包含物料特征的第一类样本文本和不包含物料特征的第二类样本文本;将所述样本文本集输入基础神经网络模型进行训练,得到物料文本提取模型。
3.根据权利要求1所述的文本分析方法,其特征在于,所述将所述物料文本输入预先训练的物料单元分割模型,得到所述物料文本中对应的各物料单元及标记结果的步骤,包括:
将所述物料文本根据分隔符分割为多个文本块;
将所述多个文本块输入所述物料单元分割模型进行处理,
输出多个物料单元;
对物料单元中缺失的量词进行补充。
4.根据权利要求3所述的文本分析方法,其特征在于,所述将所述多个文本块输入所述物料单元分割模型进行处理的步骤,包括:
将所述多个文本块按照在所述物料文本中的顺序输入所述物料单元分割模型;
若所述文本块中同时包含物料名称、物料型号和物料用量,则将所述文本块标记为物料单元;
若所述文本块中不同时包含物料名称、物料型号和物料用量,则继续输入下一个文本块,直至输入的全部文本块中累积包含物料名称、物料型号和物料用量,将全部文本块的组合标记为物料单元。
5.根据权利要求3所述的文本分析方法,其特征在于,所述将所述物料文本输入预先训练的物料单元分割模型,得到所述物料文本中对应的各物料单元及标记结果的步骤之后,所述方法还包括:
将各所述物料单元输入预先训练的层级标识模型,对各所述物料单元的层级进行标识,其中,层级为各物料单元之间的包含关系;
将所述物料单元输入预先训练的物料类型预测模型,并输出每个物料单元的物料类型;
根据层级以及物料类型的包含关系,将物料单元划分为多个物料单元意群,其中,物料单元意群为物料名称、物料型号和物料用量之间关联的物料单元的组合。
6.根据权利要求1所述的文本分析方法,其特征在于,所述物料单元分割模型的训练步骤,包括:
获取物料单元样本集和非物料单元样本集,其中,物料单元样本集包括包含量词的第一子集和不包含量词的第二子集,非物料单元样本集为不同时包含物料名称、物料型号及物料用量或不同时包含物料名称和物料用量的文本块的集合;
将所述物料单元样本集和非物料单元样本集输入基础机器学习模型;
利用支持向量机算法对所述基础神经网络模型进行训练,得到物料单元分割模型。
7.一种文本分析装置,其特征在于,所述装置包括:
第一获取模块,用于获取待分析的文本;
物料文本提取模块,用于将所述文本输入预先训练的物料文本提取模型,提取包含物料特征的物料文本,其中,所述物料特征所述物料特征包括物料用量及物料信息,物料信息包括物料类型、物料名称、物料型号中的至少一种;
物料单元获取模块,用于将所述物料文本输入预先训练的物料单元分割模型,得到所述物料文本中对应的各物料单元及标记结果,其中,所述物料单元所述物料单元包括同时包含物料名称、物料型号和物料用量的至少一个文本块;
物料型号提取模块,用于将所述物料单元输入预先训练的型号提取模型,提取所述物料单元中各物料的物料型号;
分析模块,用于将各物料的物料型号输入预先训练的型号分析模型,得到物料型号分析结果。
8.根据权利要求7所述的文本分析装置,其特征在于,所述装置还包括:
第二获取模块,用于获取样本文本集,其中,所述样本文本集包括包含物料特征的第一类样本文本和不包含物料特征的第二类样本文本;
训练模块,用于将所述样本文本集输入基础神经网络模型进行训练,得到物料文本提取模型。
9.一种计算机设备,其特征在于,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行权利要求1至6中任一项所述的文本分析方法。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序在处理器上运行时执行权利要求1至6中任一项所述的文本分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110895620.6A CN113449509A (zh) | 2021-08-05 | 2021-08-05 | 文本分析方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110895620.6A CN113449509A (zh) | 2021-08-05 | 2021-08-05 | 文本分析方法、装置及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113449509A true CN113449509A (zh) | 2021-09-28 |
Family
ID=77818187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110895620.6A Pending CN113449509A (zh) | 2021-08-05 | 2021-08-05 | 文本分析方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113449509A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103714063A (zh) * | 2012-09-28 | 2014-04-09 | 国际商业机器公司 | 数据分析方法及其系统 |
CN107291697A (zh) * | 2017-06-29 | 2017-10-24 | 浙江图讯科技股份有限公司 | 一种语义分析方法、电子设备、存储介质及其诊断系统 |
CN110334939A (zh) * | 2019-07-01 | 2019-10-15 | 济南大学 | 门窗定制物料信息快速配置方法、系统、设备及介质 |
CN111079186A (zh) * | 2019-12-20 | 2020-04-28 | 百度在线网络技术(北京)有限公司 | 数据分析的方法、装置、设备和存储介质 |
CN111753527A (zh) * | 2020-06-29 | 2020-10-09 | 平安科技(深圳)有限公司 | 基于自然语言处理的数据分析方法、装置和计算机设备 |
CN112395881A (zh) * | 2020-11-27 | 2021-02-23 | 北京筑龙信息技术有限责任公司 | 物料标签的构建方法、装置、可读存储介质及电子设备 |
-
2021
- 2021-08-05 CN CN202110895620.6A patent/CN113449509A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103714063A (zh) * | 2012-09-28 | 2014-04-09 | 国际商业机器公司 | 数据分析方法及其系统 |
CN107291697A (zh) * | 2017-06-29 | 2017-10-24 | 浙江图讯科技股份有限公司 | 一种语义分析方法、电子设备、存储介质及其诊断系统 |
CN110334939A (zh) * | 2019-07-01 | 2019-10-15 | 济南大学 | 门窗定制物料信息快速配置方法、系统、设备及介质 |
CN111079186A (zh) * | 2019-12-20 | 2020-04-28 | 百度在线网络技术(北京)有限公司 | 数据分析的方法、装置、设备和存储介质 |
CN111753527A (zh) * | 2020-06-29 | 2020-10-09 | 平安科技(深圳)有限公司 | 基于自然语言处理的数据分析方法、装置和计算机设备 |
CN112395881A (zh) * | 2020-11-27 | 2021-02-23 | 北京筑龙信息技术有限责任公司 | 物料标签的构建方法、装置、可读存储介质及电子设备 |
Non-Patent Citations (3)
Title |
---|
THOMAS 等: "Text Classification Components for Detecting Descriptions and Names of CAD models", 《ARXIV》, 4 April 2019 (2019-04-04), pages 1 - 4 * |
方志军 等: "《TensorFlow应用案例教程》", 30 August 2020, 中国铁道出版社, pages: 237 - 238 * |
郑浩泉 等: "基于自然语言处理和层次分析法的物料集采分析", 《第二届智能电网会议论文集》, 30 August 2018 (2018-08-30), pages 82 - 86 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114610515B (zh) | 基于日志全语义的多特征日志异常检测方法及系统 | |
CN110968667B (zh) | 一种基于文本状态特征的期刊文献表格抽取方法 | |
CA3088692A1 (en) | Visualizing comment sentiment | |
CN107145516B (zh) | 一种文本聚类方法及系统 | |
CN107577702B (zh) | 一种社交媒体中交通信息的辨别方法 | |
CN112949476B (zh) | 基于图卷积神经网络的文本关系检测方法、装置及存储介质 | |
CN109446423B (zh) | 一种新闻以及文本的情感判断系统及方法 | |
CN113590764B (zh) | 训练样本构建方法、装置、电子设备和存储介质 | |
CN113221569A (zh) | 一种毁伤试验文本信息抽取方法 | |
EP2653981A1 (en) | Natural language processing device, method, and program | |
CN111368534A (zh) | 一种应用日志降噪方法及装置 | |
CN116205211A (zh) | 基于大规模预训练生成模型的文档级简历解析方法 | |
CN109472020B (zh) | 一种特征对齐中文分词方法 | |
CN114691525A (zh) | 测试用例的选择方法及装置 | |
CN111797236A (zh) | 一种基于长文本分割的文本质量自动评估方法 | |
CN113449509A (zh) | 文本分析方法、装置及计算机设备 | |
CN112084302A (zh) | 造价文件的清单数据检测方法、系统、装置及存储介质 | |
CN114706886A (zh) | 一种评测方法和装置、计算机设备、存储介质 | |
CN115130455A (zh) | 文章处理方法、装置、电子设备以及存储介质 | |
CN113609860B (zh) | 文本切分方法、装置及计算机设备 | |
CN115270723A (zh) | Pdf文档拆分方法、装置、设备及存储介质 | |
CN115099344A (zh) | 模型训练方法和装置、用户画像生成方法和装置、设备 | |
CN113254583A (zh) | 一种基于语义向量的文档标记方法、装置及介质 | |
CN113515587A (zh) | 一种标的物信息提取方法、装置、计算机设备及存储介质 | |
CN112347765A (zh) | 基于词典匹配的实体标注方法、模块及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |