CN113590825A - 文本质检方法、装置及相关设备 - Google Patents
文本质检方法、装置及相关设备 Download PDFInfo
- Publication number
- CN113590825A CN113590825A CN202110875412.XA CN202110875412A CN113590825A CN 113590825 A CN113590825 A CN 113590825A CN 202110875412 A CN202110875412 A CN 202110875412A CN 113590825 A CN113590825 A CN 113590825A
- Authority
- CN
- China
- Prior art keywords
- quality inspection
- target
- text
- quality
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007689 inspection Methods 0.000 title claims abstract description 552
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000013507 mapping Methods 0.000 claims abstract description 25
- 238000012372 quality testing Methods 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims description 42
- 238000001514 detection method Methods 0.000 claims description 39
- 238000004458 analytical method Methods 0.000 claims description 24
- 230000011218 segmentation Effects 0.000 claims description 24
- 238000004422 calculation algorithm Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000011161 development Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 241000700605 Viruses Species 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 231100000331 toxic Toxicity 0.000 description 4
- 230000002588 toxic effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 241000512668 Eunectes Species 0.000 description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及数据处理技术,提供一种文本质检方法、装置、计算机设备及存储介质,包括:获取目标待质检文本;解析目标待质检文本,确定目标应用场景,根据目标应用场景计算目标待质检文本的质检范围;根据目标应用场景遍历场景与质检类型以及质检强度的映射关系,得到质检范围内目标质检类型与目标质检强度;构建质检类型为目标质检类型以及质检强度为目标质检强度的目标质检处理器;调用目标质检处理器对所述质检范围内的目标待质检文本进行质量检测,得到初始质检结果;组合初始质检结果,得到最终质检结果。本申请能够提高质检效率,可用于智慧城市的各个功能模块中,促进智慧城市的快速发展。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种文本质检方法、装置、计算机设备及介质。
背景技术
客户是企业的生存之本,随着客户的服务质量要求的提升,企业对客户服务愈发重视,很多企业引入了人工质检岗位,用于审核大量平台上的各类业务数据。但是随着业务量的快速增长,人工质检成本也是巨大的,且不同质检员考核标准不统一,容易受到主观意识影响,无法做到客观、公正。因此,现有技术引入了智能质检分析方法,对业务数据进行自动化质检分析。
在实现本申请的过程中,发明人发现现有技术存在如下技术问题:现有技术在实现智能质检分析时,针对不同的待质检文本采用相同的质检方法,而不同的待质检文本涉及不同的应用场景,若采用相同的质检方法,势必造成某些应用场景下待质检文本进行一些无用类别的质检,导致质检的效率低下,质检效果较差。
因此,有必要提供一种文本质检方法,能够针对不同的应用场景动态调整质检方法,从而提高质检的效率。
发明内容
鉴于以上内容,有必要提出一种文本质检方法、文本质检装置、计算机设备及介质,能够提高质检的效率。
本申请实施例第一方面提供一种文本质检方法,所述文本质检方法包括:
获取预先存储于数据库中的目标待质检文本;
解析所述目标待质检文本,确定与所述目标待质检文本对应的目标应用场景,并根据所述目标应用场景计算所述目标待质检文本的质检范围;
根据所述目标应用场景遍历预先设置的场景与质检类型以及质检强度的映射关系,得到所述质检范围内对应的目标质检类型与目标质检强度;
构建质检类型为所述目标质检类型以及质检强度为所述目标质检强度的目标质检处理器;
调用所述目标质检处理器对所述质检范围内的所述目标待质检文本进行质量检测,得到初始质检结果;
组合所述初始质检结果,得到最终质检结果。
进一步地,在本申请实施例提供的上述文本质检方法中,所述获取预先存储于数据库中的目标待质检文本包括:
获取预先存储于数据库中的初始待质检文本;
分句处理所述初始待质检文本,得到分句处理结果;
利用融合外部知识构建的分词和词性标注联合模型对所述分句处理结果进行分词处理和词性标注,得到携带词性标注的分词结果;
基于依存句法分析方法对所述分词结果进行句法分析,得到语法成分以及所述语法成分间的依存关系;
根据所述依存关系按照预设数据格式存储所述分词结果,得到目标待质检文本。
进一步地,在本申请实施例提供的上述文本质检方法中,所述解析所述目标待质检文本,确定与所述目标待质检文本对应的目标应用场景包括:
按照预设频率抽取所述目标待质检文本中的关键词,得到关键词集;
向量化处理所述关键词集中的每一关键词,得到关键词向量集;
获取预先存储的应用场景对应的标准文档集,并向量化处理所述标准文档集,得到标准文档向量集;
调用预先设置的相关度计算模型计算所述关键词向量集与所述标准文档向量集的相关度值,并选取所述相关度值超过预设相关度阈值的标准文档向量;
确定与所述标准文档向量存在映射关系的目标应用场景。
进一步地,在本申请实施例提供的上述文本质检方法中,所述根据所述目标应用场景计算所述目标待质检文本的质检范围包括:
选取所述目标应用场景对应的关键词向量;
确定所述关键词向量对应的第一时间戳与第二时间戳;
根据所述第一时间戳与所述第二时间戳确定所述目标待质检文本的质检范围。
进一步地,在本申请实施例提供的上述文本质检方法中,所述根据所述目标应用场景遍历预先设置的场景与质检类型以及质检强度的映射关系,得到所述质检范围内对应的目标质检类型与目标质检强度包括:
采集并按照预设数据格式格式化处理区块链中的质检数据,得到应用场景与质检方法信息,所述质检方法包括质检类型与质检强度;
建立细粒度的所述应用场景与所述质检方法的关系矩阵;
获取所述目标应用场景,并根据所述关系矩阵进行协同过滤得到目标质检方法,所述目标质检方法包括目标质检类型与目标质检强度。
进一步地,在本申请实施例提供的上述文本质检方法中,所述构建质检类型为所述目标质检类型以及质检强度为所述目标质检强度的目标质检处理器包括:
获取所述质检强度为目标质检强度的目标质检类型;
根据所述目标质检类型与所述目标质检强度配置质检工具包与质检算法;
基于所述质检工具包与所述质检算法更新初始质检处理器,得到目标质检处理器。
进一步地,在本申请实施例提供的上述文本质检方法中,所述调用所述目标质检处理器对所述质检范围内的所述目标待质检文本进行质量检测,得到初始质检结果包括:
序列化处理所述质检范围内的所述目标待质检文本,得到样本序列,所述样本序列包括文字字符;
遍历预先设置的字典树,检测所述字典树中是否存在与所述样本序列一致的目标样本序列;
当检测结果为所述字典树中存在与所述样本序列一致的目标样本序列时,整理所述目标样本序列,得到第一质检结果。
本申请实施例第二方面还提供一种文本质检装置,所述文本质检装置包括:
文本获取模块,用于获取预先存储于数据库中的目标待质检文本;
文本解析模块,用于解析所述目标待质检文本,确定与所述目标待质检文本对应的目标应用场景,并根据所述目标应用场景计算所述目标待质检文本的质检范围;
映射确定模块,用于根据所述目标应用场景遍历预先设置的场景与质检类型以及质检强度的映射关系,得到所述质检范围内对应的目标质检类型与目标质检强度;
处理器构建模块,用于构建质检类型为所述目标质检类型以及质检强度为所述目标质检强度的目标质检处理器;
处理器调用模块,用于调用所述目标质检处理器对所述质检范围内的所述目标待质检文本进行质量检测,得到初始质检结果;
结果组合模块,用于组合所述初始质检结果,得到最终质检结果。
本申请实施例第三方面还提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如上述任意一项所述文本质检方法。
本申请实施例第四方面还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述文本质检方法。
本申请实施例提供的上述文本质检方法、文本质检装置、计算机设备以及计算机可读存储介质,在实现智能质检分析时,对所述目标待质检文本进行解析,确定与所述目标待质检文本对应的目标应用场景,并根据所述目标应用场景计算所述目标待质检文本的质检范围,继而确定与所述质检范围对应的质检类型与质检强度,从而针对不同质检范围的待质检文本设置对应的质检方法,使得不同质检范围的待质检文本在涉及不同的应用场景的情况下,避免某些待质检文本进行一些无用类别的质检,导致质检的效率低下的问题,进而提高质检的效率。本申请可应用于智慧政务、智慧交通等智慧城市的各个功能模块中,比如智慧政务的文本质检模块等,能够促进智慧城市的快速发展。
附图说明
图1是本申请实施例一提供的文本质检方法的流程图。
图2是本申请实施例二提供的文本质检装置的结构图。
图3是本申请实施例三提供的计算机设备的结构示意图。
如下具体实施方式将结合上述附图进一步说明本申请。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施例对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
本发明实施例提供的文本质检方法由计算机设备执行,相应地,文本质检装置运行于计算机设备中。
图1是本申请第一实施方式的文本质检方法的流程图。如图1所示,所述文本质检方法可以包括如下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,获取预先存储于数据库中的目标待质检文本。
在本申请的至少一实施例中,所述目标待质检文本是指涉及不同业务场景的用于进行文本质量检测的文本。所述目标待质检文本为查询销售行为、查询重要信息和确认问题责任的重要依据。在一实施例中,所述目标质检文本可以是指与金融专业领域有关的说明文档,例如,所述目标待质检文本可以为证券场景下的公司政策类、销售产品类、智能客服类等的待质检数据,也可以为保险场景下的公司政策类、销售产品类、智能客服类等的待质检数据等,在此不做限制。所述目标质检文本预先存储于数据库中,考虑到数据的隐私性与保密性,所述数据库可以为区块链中的目标节点。
在一实施例中,所述目标待质检文本是指对初始待质检文本进行自然语言处理技术处理后的文本数据,可选地,所述获取预先存储于数据库中的目标待质检文本包括:
获取预先存储于数据库中的初始待质检文本;
分句处理所述初始待质检文本,得到分句处理结果;
利用融合外部知识构建的分词和词性标注联合模型对所述分句处理结果进行分词处理和词性标注,得到携带词性标注的分词结果;
基于依存句法分析方法对所述分词结果进行句法分析,得到语法成分以及所述语法成分间的依存关系;
根据所述依存关系按照预设数据格式存储所述分词结果,得到目标待质检文本。
其中,在对于篇章级别的待质检文本进行分句处理时,所述初始待质检文本是基于jieba库以标点符号进行的分句处理,所述标点符号包括逗号、顿号、句号、叹号和/或问号。依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分之间的依存关系。一般使用句法分析工具,将一段待质检文本进行分句处理,依次进行分词(Segmentor)、词性标注(Postagger)、句法分析(Parser),得到目标待质检文本。所述预设数据格式是指系统人员预先设置的,便于后续质检分析的所述目标待质检文本的数据格式。通过对初始待质检文本进行自然语言处理技术处理,能够统一目标待质检文本的数据格式,从而提高文本质检的效率。
S12,解析所述目标待质检文本,确定与所述目标待质检文本对应的目标应用场景,并根据所述目标应用场景计算所述目标待质检文本的质检范围。
在本申请的至少一实施例中,所述目标待质检文本可以包含一个目标应用场景,也可以包含若干个目标应用场景。当所述目标待质检文本包含干个目标应用场景,可以通过对所述目标待质检文本与预先存储的应用场景进行相关度计算,得到相关度值,所述相关度值的范围在(0,1)区间。当所述相关度值大于0.5时,表明所述目标待质检文本与该应用场景相关;当所述相关度值小于0.5时,表明所述目标待质检文本与该应用场景不相关。
可选地,所述解析所述目标待质检文本,确定与所述目标待质检文本对应的目标应用场景包括:
按照预设频率抽取所述目标待质检文本中的关键词,得到关键词集;
向量化处理所述关键词集中的每一关键词,得到关键词向量集;
获取预先存储的应用场景对应的标准文档集,并向量化处理所述标准文档集,得到标准文档向量集;
调用预先设置的相关度计算模型计算所述关键词向量集与所述标准文档向量集的相关度值,并选取所述相关度值超过预设相关度阈值的标准文档向量;
确定与所述标准文档向量存在映射关系的目标应用场景。
其中,所述预设相关度阈值是指用于衡量两个文本向量间的相关程度的阈值,例如,所述预设相关度阈值可以为0.5。
在一实施例中,所述质检范围可以是所述目标待质检文本的第一时间戳与第二时间戳之间的文本数据,所述目标待质检文本中的每一文本数据均携带对应的时间戳,所述时间戳可以是指在数据库中录入所述目标待质检文本的时间节点,在此不做限制。可选地,所述根据所述目标应用场景计算所述目标待质检文本的质检范围包括:
选取所述目标应用场景对应的关键词向量;
确定所述关键词向量对应的第一时间戳与第二时间戳;
根据所述第一时间戳与所述第二时间戳确定所述目标待质检文本的质检范围。
其中,在相关性检测结果中,与所述标准文档向量的相关性较高的关键词向量的数量为多个,分别选取关键词向量中时间最靠前的作为第一时间戳,时间最靠后的作为第二时间戳,从而根据所述第一时间戳与所述第二时间戳确定所述目标应用场景对应的所述目标待质检文本的质检范围。
S13,根据所述目标应用场景遍历预先设置的场景与质检类型以及质检强度的映射关系,得到所述质检范围内对应的目标质检类型与目标质检强度。
在本申请的至少一实施例中,所述质检类型可以包括涉恐、涉政、涉毒、涉黄、广告、谩骂等多种类型,针对不同的质检类型,设置有对应的质检强度,例如,所述质检强度可以包括P0级别,需要严格保证准确率;P1级别,需要保证高准确率;P2级别,需要保证一定的准确率。
可选地,所述质检强度与所述质检类型间存在动态映射的关系,也即所述质检强度与所述质检类型间的映射关系并非固定的,可根据所述目标待质检文本所涉及的具体应用场景确定对应的映射关系。示例性的,针对应用场景A,对于涉恐与涉政的质检类型,其对应的质检强度为P0级别;对于涉毒与涉黄的质检类型,其对应的质检强度为P1级别;对于广告与谩骂的质检类型,其对应的质检强度为P2级别。针对应用场景B,对于广告与谩骂的质检类型,其对应的质检强度为P0级别;对于涉毒与涉黄的质检类型,其对应的质检强度为P1级别;对于涉恐与涉政的质检类型,其对应的质检强度为P2级别。在此不做限制。
本申请对所述目标待质检文本进行解析,确定与所述目标待质检文本对应的质检类型与质检强度,从而针对不同的待质检文本设置对应的质检方法,使得不同的待质检文本在涉及不同的应用场景的情况下,避免某些待质检文本进行一些无用类别的质检,导致质检的效率低下的问题,进而提高质检的效率。
可选地,所述根据所述目标应用场景遍历预先设置的场景与质检类型以及质检强度的映射关系,得到所述质检范围内对应的目标质检类型与目标质检强度包括:
采集并按照预设数据格式规范化处理区块链中的质检数据,得到应用场景与质检方法信息,其中,所述质检方法包括质检类型与质检强度;
建立细粒度的所述应用场景与所述质检方法的关系矩阵;
获取所述目标应用场景,并根据所述关系矩阵进行协同过滤得到目标质检方法,所述目标质检方法包括目标质检类型与目标质检强度。
S14,构建质检类型为所述目标质检类型以及质检强度为所述目标质检强度的目标质检处理器。
在本申请的至少一实施例中,针对应用场景A,对于涉恐与涉政的质检类型,其对应的质检强度为P0级别;对于涉毒与涉黄的质检类型,其对应的质检强度为P1级别;对于广告与谩骂的质检类型,其对应的质检强度为P2级别。在一实施例中,所述质检强度可以为需要严格保证准确率的强度,也即P0级别,所述质检强度对应的质检类型可以为涉政和涉毒的类型,所述目标质检处理器是指用于按照所述目标质检类型对应的目标质检强度进行文本质量检测的处理器。
可选地,所述构建质检类型为所述目标质检类型以及质检强度为所述目标质检强度的目标质检处理器包括:
获取所述质检强度为目标质检强度的目标质检类型;
根据所述目标质检类型与所述目标质检强度配置质检工具包与质检算法;
基于所述质检工具包与所述质检算法更新初始质检处理器,得到目标质检处理器。
其中,所述质检工具包可以为Gensim工具包,使用anaconda工具在服务器上进行集中安装用以处理自然语言文本;所述质检算法可以为kmp匹配算法,使用kmp匹配算法对文本内容进行敏感词匹配,所述质检工具包和所述质检算法可由系统自动初始化。
S15,调用所述目标质检处理器对所述质检范围内的所述目标待质检文本进行质量检测,得到初始质检结果。
在本申请的至少一实施例中,所述目标质检处理器可以为包含字典树匹配方案的处理器,也即在调用所述目标质检处理器对所述目标待质检文本进行质量检测时,可以采用基于字典树匹配的方案进行文本质量的检测。在其他实施例中,所述目标质检处理器还可以包含其他质检准确率满足目标质检强度的质检算法,在此不做限制。
可选地,当所述目标质检处理器为基于字典树匹配的方式进行文本质量的检测时,所述调用所述目标质检处理器对所述质检范围内的所述目标待质检文本进行质量检测,得到初始质检结果包括:
序列化处理所述质检范围内的所述目标待质检文本,得到样本序列,所述样本序列包括文字字符组成;
遍历预先设置的字典树,检测所述字典树中是否存在与所述样本序列一致的目标样本序列;
当检测结果为所述字典树中存在与所述样本序列一致的目标样本序列时,整理所述目标样本序列,得到第一质检结果。
其中,预先设置的字典树是通过节点的分布以及节点之间的相互关联形成的,所述字典树中的节点包括根节点、分支节点以及叶子节点三大类。所述根节点是唯一存在的,用于指示字典树中查找的起始的节点;所述分支节点用来携带样本子序列中的字符,并且各分支节点都有着唯一对应的层级,所有层级便构成了字典树中的深度。随着层级的不断深入,对于分支节点所存在的下一分支节点,将用于存储当前分支节点所携带字符在样本子序列中的下一字符,以此类推来完成整个样本子序列中字符的顺序存储;所述叶子节点则用于进行标志位的记录,通过标志位的记录来标示样本子序列在样本字符序列对应的样本字符位置。至此,通过所述字典树中分支节点以及叶子节点中实现的存储,使得所构建的所述字典树不会随着样本字符序列的长度而对应于过大的深度,并且也保证了字符存储以及位置标示的准确性。
本申请使用字符序列,即字符串形式存在的数据进行匹配,能够提高匹配效率,从而提高质量检测的效率;且由于字典树中样本字符序列的存在仅占据较小空间,具备较高的通用性,使得字典树的深度不再受限于硬件配置。
在本申请的至少一实施例中,所述目标质检强度可以为需要保证高准确率的强度,也即P1级别,所述目标质检强度对应的目标质检类型可以为涉恐和涉黄的类型,所述目标质检处理器还可以是指用于按照所述目标质检类型对应的目标质检强度进行文本质量检测的处理器。
其中,所述目标质检处理器还可以为包含预设网络模型方案的处理器,也即在调用所述目标质检处理器对所述目标待质检文本进行文本质量检测时,可以采用基于预设网络模型的方案进行文本质量的检测。在其他实施例中,所述目标质检处理器还可以包含其他质检准确率满足目标质检强度的质检算法,在此不做限制。
可选地,所述调用所述目标质检处理器对所述质检范围内的所述目标待质检文本进行质量检测,得到初始质检结果还可以包括:
获取人工标注好预设标签的样本数据,并将所述样本数据拆分为训练样本数据与测试样本数据;
将所述训练样本数据中的全部数据作为输入参数,将携带预设标签的数据作为输出参数训练初始神经网络模型,得到文本质检模型;
利用所述测试样本数据计算所述文本质检模型的准确率,并在所述准确率超过预设准确率阈值时,确定所述文本质检模型训练完成;
将所述目标待质检文本输入至所述质检模型中,得到第二质检结果。
其中,利用构建的涉恐、涉黄词典,从数据库中搜集大量相关类别数据,用于训练模型,所述预设标签用于对涉恐、涉黄等类型数据进行标记,所述预设标签可以为数字标签、字母标签或颜色标签。针对涉恐、涉黄类别要求相对高于广告和谩骂类别,且后者数据相对较多的情况,分别采用fasttext和albert模型进行识别,也即所述初始神经网络模型可以为fasttext模型和albert模型。
S16,组合所述初始质检结果,得到最终质检结果。
在本申请的至少一实施例中,对每一所述质检范围内的所述目标待质检文本进行质量检测时,均能得到初始质检结果;当所述目标待质检文本的质检范围为多个时,也即当所述目标待质检文本包含的目标应用场景为多个时,所述初始质检结果的数量也为多个。当所述初始质检结果的数量为多个时,需要对多个所述初始质检结果进行组合,得到最终质检结果。多个所述初始质检结果中可能均包含违规结果,也可能只有一个包含违规结果,也可能均不包含违规结果。本申请通过对若干个所述初始质检结果进行组合,得到最终质检结果。
其中,组合所述初始质检结果可以为合并,可以理解为进行逻辑与运算,即将第一初始质检结果与第二初始质检结果进行逻辑与运算。示例性的,对于目标应用场景A,该质检范围内的目标待质检文本的质检结果为为A47,而对于目标应用场景B,该质检范围内的目标待质检文本的质检结果为B16,进行逻辑与运算后,该最终质检结果为{A47,B16};又示例性的,对于目标应用场景A,该质检范围内的目标待质检文本的质检结果为为A47,而对于目标应用场景B,该质检范围内的目标待质检文本的质检结果为空,那么进行逻辑与运算后,该最终质检结果为{A47}。
本申请实施例提供的上述文本质检方法,在实现智能质检分析时,对所述目标待质检文本进行解析,确定与所述目标待质检文本对应的目标应用场景,并根据所述目标应用场景计算所述目标待质检文本的质检范围,继而确定与所述质检范围对应的质检类型与质检强度,从而针对不同的待质检文本设置对应的多路质检方法,使得待质检文本在涉及不同的应用场景的情况下,避免某些待质检文本进行一些无用类别的质检,导致质检的效率低下的问题,进而提高质检的效率。本申请可应用于智慧政务、智慧交通等智慧城市的各个功能模块中,比如智慧政务的文本质检模块等,能够促进智慧城市的快速发展。
图2是本申请实施例二提供的文本质检装置的结构图。
在一些实施例中,所述文本质检装置20可以包括多个由计算机程序段所组成的功能模块。所述文本质检装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)轮椅租赁处理的功能。
本实施例中,所述文本质检装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:文本获取模块201、文本解析模块202、映射确定模块203、处理器构建模块204、处理器调用模块205以及结果组合模块206。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述文本获取模块201用于获取预先存储于数据库中的目标待质检文本。
在本申请的至少一实施例中,所述目标待质检文本是指涉及不同业务场景的用于进行文本质量检测的文本。所述目标待质检文本为查询销售行为、查询重要信息和确认问题责任的重要依据。在一实施例中,所述目标质检文本可以是指与金融专业领域有关的说明文档,例如,所述目标待质检文本可以为证券场景下的公司政策类、销售产品类、智能客服类等的待质检数据,也可以为保险场景下的公司政策类、销售产品类、智能客服类等的待质检数据等,在此不做限制。所述目标质检文本预先存储于数据库中,考虑到数据的隐私性与保密性,所述数据库可以为区块链中的目标节点。
在一实施例中,所述目标待质检文本是指对初始待质检文本进行自然语言处理技术处理后的文本数据,可选地,所述获取预先存储于数据库中的目标待质检文本包括:
获取预先存储于数据库中的初始待质检文本;
分句处理所述初始待质检文本,得到分句处理结果;
利用融合外部知识构建的分词和词性标注联合模型对所述分句处理结果进行分词处理和词性标注,得到携带词性标注的分词结果;
基于依存句法分析方法对所述分词结果进行句法分析,得到语法成分以及所述语法成分间的依存关系;
根据所述依存关系按照预设数据格式存储所述分词结果,得到目标待质检文本。
其中,在对于篇章级别的待质检文本进行分句处理时,所述初始待质检文本是基于jieba库以标点符号进行的分句处理,所述标点符号包括逗号、顿号、句号、叹号和/或问号。依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分之间的依存关系。一般使用句法分析工具,将一段待质检文本进行分句处理,依次进行分词(Segmentor)、词性标注(Postagger)、句法分析(Parser),得到目标待质检文本。所述预设数据格式是指系统人员预先设置的,便于后续质检分析的所述目标待质检文本的数据格式。通过对初始待质检文本进行自然语言处理技术处理,能够统一目标待质检文本的数据格式,从而提高文本质检的效率。
所述文本解析模块202用于解析所述目标待质检文本,确定与所述目标待质检文本对应的目标应用场景,并根据所述目标应用场景计算所述目标待质检文本的质检范围。
在本申请的至少一实施例中,所述目标待质检文本可以包含一个目标应用场景,也可以包含若干个目标应用场景,当所述目标待质检文本包含干个目标应用场景,可以通过对所述目标待质检文本与预先存储的应用场景进行相关度计算,得到相关度值,所述相关度值的范围在(0,1)区间。当所述相关度值大于0.5时,表明所述目标待质检文本与该应用场景相关;当所述相关度值小于0.5时,表明所述目标待质检文本与该应用场景不相关。
可选地,所述解析所述目标待质检文本,确定与所述目标待质检文本对应的目标应用场景包括:
按照预设频率抽取所述目标待质检文本中的关键词,得到关键词集;
向量化处理所述关键词集中的每一关键词,得到关键词向量集;
获取预先存储的应用场景对应的标准文档集,并向量化处理所述标准文档集,得到标准文档向量集;
调用预先设置的相关度计算模型计算所述关键词向量集与所述标准文档向量集的相关度值,并选取所述相关度值超过预设相关度阈值的标准文档向量;
确定与所述标准文档向量存在映射关系的目标应用场景。
其中,所述预设相关度阈值是指用于衡量两个文本向量间的相关程度的阈值,例如,所述预设相关度阈值可以为0.5。
在一实施例中,所述质检范围可以是所述目标待质检文本的第一时间戳与第二时间戳之间的文本数据,所述目标待质检文本中的每一文本数据均携带对应的时间戳,所述时间戳可以是指在数据库中录入所述目标待质检文本的时间节点,在此不做限制。可选地,所述根据所述目标应用场景计算所述目标待质检文本的质检范围包括:
选取所述目标应用场景对应的关键词向量;
确定所述关键词向量对应的第一时间戳与第二时间戳;
根据所述第一时间戳与所述第二时间戳确定所述目标待质检文本的质检范围。
其中,在相关性检测结果中,与所述标准文档向量的相关性较高的关键词向量的数量为多个,分别选取关键词向量中时间最靠前的作为第一时间戳,时间最靠后的作为第二时间戳,从而根据所述第一时间戳与所述第二时间戳确定所述目标应用场景对应的所述目标待质检文本的质检范围。
所述映射确定模块203用于根据所述目标应用场景遍历预先设置的场景与质检类型以及质检强度的映射关系,得到所述质检范围内对应的目标质检类型与目标质检强度。
在本申请的至少一实施例中,所述质检类型可以包括涉恐、涉政、涉毒、涉黄、广告、谩骂等多种类型,针对不同的质检类型,设置有对应的质检强度,例如,所述质检强度可以包括P0级别,需要严格保证准确率;P1级别,需要保证高准确率;P2级别,需要保证一定的准确率。
可选地,所述质检强度与所述质检类型间存在动态映射的关系,也即所述质检强度与所述质检类型间的映射关系并非固定的,可根据所述目标待质检文本所涉及的具体应用场景确定对应的映射关系。示例性的,针对应用场景A,对于涉恐与涉政的质检类型,其对应的质检强度为P0级别;对于涉毒与涉黄的质检类型,其对应的质检强度为P1级别;对于广告与谩骂的质检类型,其对应的质检强度为P2级别。针对应用场景B,对于广告与谩骂的质检类型,其对应的质检强度为P0级别;对于涉毒与涉黄的质检类型,其对应的质检强度为P1级别;对于涉恐与涉政的质检类型,其对应的质检强度为P2级别。在此不做限制。
本申请对所述目标待质检文本进行解析,确定与所述目标待质检文本对应的质检类型与质检强度,从而针对不同的待质检文本设置对应的质检方法,使得不同的待质检文本在涉及不同的应用场景的情况下,避免某些待质检文本进行一些无用类别的质检,导致质检的效率低下的问题,进而提高质检的效率。
可选地,所述根据所述目标应用场景遍历预先设置的场景与质检类型以及质检强度的映射关系,得到所述质检范围内对应的目标质检类型与目标质检强度包括:
采集并按照预设数据格式规范化处理区块链中的质检数据,得到应用场景与质检方法信息,所述质检方法包括质检类型与质检强度;
建立细粒度的所述应用场景与所述质检方法的关系矩阵;
获取所述目标应用场景,并根据所述关系矩阵进行协同过滤得到目标质检方法,所述目标质检方法包括目标质检类型与目标质检强度。
所述处理器构建模块204用于构建质检类型为所述目标质检类型以及质检强度为所述目标质检强度的目标质检处理器。
在本申请的至少一实施例中,针对应用场景A,对于涉恐与涉政的质检类型,其对应的质检强度为P0级别;对于涉毒与涉黄的质检类型,其对应的质检强度为P1级别;对于广告与谩骂的质检类型,其对应的质检强度为P2级别。在一实施例中,所述质检强度可以为需要严格保证准确率的强度,也即P0级别,所述质检强度对应的质检类型可以为涉政和涉毒的类型,所述目标质检处理器是指用于按照所述目标质检类型对应的目标质检强度进行文本质量检测的处理器。
可选地,所述构建质检类型为所述目标质检类型以及质检强度为所述目标质检强度的目标质检处理器包括:
获取所述质检强度为目标质检强度的目标质检类型;
根据所述目标质检类型与所述目标质检强度配置质检工具包与质检算法;
基于所述质检工具包与所述质检算法更新初始质检处理器,得到目标质检处理器。
其中,所述质检工具包可以为Gensim工具包,使用anaconda工具在服务器上进行集中安装用以处理自然语言文本;所述质检算法可以为kmp匹配算法,使用kmp匹配算法对文本内容进行敏感词匹配,所述质检工具包和所述质检算法可由系统自动初始化。
所述处理器调用模块205用于调用所述目标质检处理器对所述质检范围内的所述目标待质检文本进行质量检测,得到初始质检结果。
在本申请的至少一实施例中,所述目标质检处理器可以为包含字典树匹配方案的处理器,也即在调用所述目标质检处理器对所述目标待质检文本进行质量检测时,可以采用基于字典树匹配的方案进行文本质量的检测。在其他实施例中,所述目标质检处理器还可以包含其他质检准确率满足目标质检强度的质检算法,在此不做限制。
可选地,当所述目标质检处理器为基于字典树匹配的方式进行文本质量的检测时,所述调用所述目标质检处理器对所述质检范围内的所述目标待质检文本进行质量检测,得到初始质检结果包括:
序列化处理所述质检范围内的所述目标待质检文本,得到样本序列,所述样本序列包括文字字符组成;
遍历预先设置的字典树,检测所述字典树中是否存在与所述样本序列一致的目标样本序列;
当检测结果为所述字典树中存在与所述样本序列一致的目标样本序列时,整理所述目标样本序列,得到第一质检结果。
其中,预先设置的字典树是通过节点的分布以及节点之间的相互关联形成的,所述字典树中的节点包括根节点、分支节点以及叶子节点三大类。所述根节点是唯一存在的,用于指示字典树中查找的起始的节点;所述分支节点用来携带样本子序列中的字符,并且各分支节点都有着唯一对应的层级,所有层级便构成了字典树中的深度。随着层级的不断深入,对于分支节点所存在的下一分支节点,将用于存储当前分支节点所携带字符在样本子序列中的下一字符,以此类推来完成整个样本子序列中字符的顺序存储;所述叶子节点则用于进行标志位的记录,通过标志位的记录来标示样本子序列在样本字符序列对应的样本字符位置。至此,通过所述字典树中分支节点以及叶子节点中实现的存储,使得所构建的所述字典树不会随着样本字符序列的长度而对应于过大的深度,并且也保证了字符存储以及位置标示的准确性。
本申请使用字符序列,即字符串形式存在的数据进行匹配,能够提高匹配效率,从而提高质量检测的效率;且由于字典树中样本字符序列的存在仅占据较小空间,具备较高的通用性,使得字典树的深度不再受限于硬件配置。
在本申请的至少一实施例中,所述目标质检强度可以为需要保证高准确率的强度,也即P1级别,所述目标质检强度对应的目标质检类型可以为涉恐和涉黄的类型,所述目标质检处理器还可以是指用于按照所述目标质检类型对应的目标质检强度进行文本质量检测的处理器。
其中,所述目标质检处理器还可以为包含预设网络模型方案的处理器,也即在调用所述目标质检处理器对所述目标待质检文本进行文本质量检测时,可以采用基于预设网络模型的方案进行文本质量的检测。在其他实施例中,所述目标质检处理器还可以包含其他质检准确率满足目标质检强度的质检算法,在此不做限制。
可选地,所述调用所述目标质检处理器对所述质检范围内的所述目标待质检文本进行质量检测,得到初始质检结果还可以包括:
获取人工标注好预设标签的样本数据,并将所述样本数据拆分为训练样本数据与测试样本数据;
将所述训练样本数据中的全部数据作为输入参数,将携带预设标签的数据作为输出参数训练初始神经网络模型,得到文本质检模型;
利用所述测试样本数据计算所述文本质检模型的准确率,并在所述准确率超过预设准确率阈值时,确定所述文本质检模型训练完成;
将所述目标待质检文本输入至所述质检模型中,得到第二质检结果。
其中,利用构建的涉恐、涉黄词典,从数据库中搜集大量相关类别数据,用于训练模型,所述预设标签用于对涉恐、涉黄等类型数据进行标记,所述预设标签可以为数字标签、字母标签或颜色标签。针对涉恐、涉黄类别要求相对高于广告和谩骂类别,且后者数据相对较多的情况,分别采用fasttext和albert模型进行识别,也即所述初始神经网络模型可以为fasttext模型和albert模型。
所述结果组合模块206用于组合所述初始质检结果,得到最终质检结果。
在本申请的至少一实施例中,对每一所述质检范围内的所述目标待质检文本进行质量检测时,均能得到初始质检结果;当所述目标待质检文本的质检范围为多个时,也即当所述目标待质检文本包含的目标应用场景为多个时,所述初始质检结果的数量也为多个。当所述初始质检结果的数量为多个时,需要对多个所述初始质检结果进行组合,得到最终质检结果。多个所述初始质检结果中可能均包含违规结果,也可能只有一个包含违规结果,也可能均不包含违规结果。本申请通过对若干个所述初始质检结果进行组合,得到最终质检结果。
其中,组合所述初始质检结果可以为合并,可以理解为进行逻辑与运算,即将第一初始质检结果与第二初始质检结果进行逻辑与运算。示例性的,对于目标应用场景A,该质检范围内的目标待质检文本的质检结果为为A47,而对于目标应用场景B,该质检范围内的目标待质检文本的质检结果为B16,进行逻辑与运算后,该最终质检结果为{A47,B16};又示例性的,对于目标应用场景A,该质检范围内的目标待质检文本的质检结果为为A47,而对于目标应用场景B,该质检范围内的目标待质检文本的质检结果为空,那么进行逻辑与运算后,该最终质检结果为{A47}。
参阅图3所示,为本申请实施例三提供的计算机设备的结构示意图。在本申请较佳实施例中,所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的计算机设备的结构并不构成本申请实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述计算机设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述计算机设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本申请,也应包含在本申请的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的文本质检方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-OnlyMemory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit),利用各种接口和线路连接整个计算机设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行计算机设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本申请实施例中所述的文本质检方法的全部或者部分步骤;或者实现文本质检装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述计算机设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,计算机设备,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。
Claims (10)
1.一种文本质检方法,其特征在于,所述文本质检方法包括:
获取预先存储于数据库中的目标待质检文本;
解析所述目标待质检文本,确定与所述目标待质检文本对应的目标应用场景,并根据所述目标应用场景计算所述目标待质检文本的质检范围;
根据所述目标应用场景遍历预先设置的场景与质检类型以及质检强度的映射关系,得到所述质检范围内对应的目标质检类型与目标质检强度;
构建质检类型为所述目标质检类型以及质检强度为所述目标质检强度的目标质检处理器;
调用所述目标质检处理器对所述质检范围内的所述目标待质检文本进行质量检测,得到初始质检结果;
组合所述初始质检结果,得到最终质检结果。
2.根据权利要求1所述的文本质检方法,其特征在于,所述获取预先存储于数据库中的目标待质检文本包括:
获取预先存储于数据库中的初始待质检文本;
分句处理所述初始待质检文本,得到分句处理结果;
利用融合外部知识构建的分词和词性标注联合模型对所述分句处理结果进行分词处理和词性标注,得到携带词性标注的分词结果;
基于依存句法分析方法对所述分词结果进行句法分析,得到语法成分以及所述语法成分间的依存关系;
根据所述依存关系按照预设数据格式存储所述分词结果,得到目标待质检文本。
3.根据权利要求1所述的文本质检方法,其特征在于,所述解析所述目标待质检文本,确定与所述目标待质检文本对应的目标应用场景包括:
按照预设频率抽取所述目标待质检文本中的关键词,得到关键词集;
向量化处理所述关键词集中的每一关键词,得到关键词向量集;
获取预先存储的应用场景对应的标准文档集,并向量化处理所述标准文档集,得到标准文档向量集;
调用预先设置的相关度计算模型计算所述关键词向量集与所述标准文档向量集的相关度值,并选取所述相关度值超过预设相关度阈值的标准文档向量;
确定与所述标准文档向量存在映射关系的目标应用场景。
4.根据权利要求1所述的文本质检方法,其特征在于,所述根据所述目标应用场景计算所述目标待质检文本的质检范围包括:
选取所述目标应用场景对应的关键词向量;
确定所述关键词向量对应的第一时间戳与第二时间戳;
根据所述第一时间戳与所述第二时间戳确定所述目标待质检文本的质检范围。
5.根据权利要求1所述的文本质检方法,其特征在于,所述根据所述目标应用场景遍历预先设置的场景与质检类型以及质检强度的映射关系,得到所述质检范围内对应的目标质检类型与目标质检强度包括:
采集并按照预设数据格式格式化处理区块链中的质检数据,得到应用场景与质检方法信息,所述质检方法包括质检类型与质检强度;
建立细粒度的所述应用场景与所述质检方法的关系矩阵;
获取所述目标应用场景,并根据所述关系矩阵进行协同过滤得到目标质检方法,所述目标质检方法包括目标质检类型与目标质检强度。
6.根据权利要求1所述的文本质检方法,其特征在于,所述构建质检类型为所述目标质检类型以及质检强度为所述目标质检强度的目标质检处理器包括:
获取所述质检强度为目标质检强度的目标质检类型;
根据所述目标质检类型与所述目标质检强度配置质检工具包与质检算法;
基于所述质检工具包与所述质检算法更新初始质检处理器,得到目标质检处理器。
7.根据权利要求1所述的文本质检方法,其特征在于,所述调用所述目标质检处理器对所述质检范围内的所述目标待质检文本进行质量检测,得到初始质检结果包括:
序列化处理所述质检范围内的所述目标待质检文本,得到样本序列,所述样本序列包括文字字符;
遍历预先设置的字典树,检测所述字典树中是否存在与所述样本序列一致的目标样本序列;
当检测结果为所述字典树中存在与所述样本序列一致的目标样本序列时,整理所述目标样本序列,得到第一质检结果。
8.一种文本质检装置,其特征在于,所述文本质检装置包括:
文本获取模块,用于获取预先存储于数据库中的目标待质检文本;
文本解析模块,用于解析所述目标待质检文本,确定与所述目标待质检文本对应的目标应用场景,并根据所述目标应用场景计算所述目标待质检文本的质检范围;
映射确定模块,用于根据所述目标应用场景遍历预先设置的场景与质检类型以及质检强度的映射关系,得到所述质检范围内对应的目标质检类型与目标质检强度;
处理器构建模块,用于构建质检类型为所述目标质检类型以及质检强度为所述目标质检强度的目标质检处理器;
处理器调用模块,用于调用所述目标质检处理器对所述质检范围内的所述目标待质检文本进行质量检测,得到初始质检结果;
结果组合模块,用于组合所述初始质检结果,得到最终质检结果。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述文本质检方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述文本质检方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110875412.XA CN113590825A (zh) | 2021-07-30 | 2021-07-30 | 文本质检方法、装置及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110875412.XA CN113590825A (zh) | 2021-07-30 | 2021-07-30 | 文本质检方法、装置及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113590825A true CN113590825A (zh) | 2021-11-02 |
Family
ID=78253077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110875412.XA Pending CN113590825A (zh) | 2021-07-30 | 2021-07-30 | 文本质检方法、装置及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113590825A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116561289A (zh) * | 2023-04-13 | 2023-08-08 | 大庆晟安意祥科技有限公司 | 一种数字工厂的实时监控方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447469A (zh) * | 2018-10-30 | 2019-03-08 | 阿里巴巴集团控股有限公司 | 一种文本检测方法、装置及设备 |
WO2020133960A1 (zh) * | 2018-12-25 | 2020-07-02 | 平安科技(深圳)有限公司 | 文本质检方法、电子装置、计算机设备及存储介质 |
CN112468658A (zh) * | 2020-11-20 | 2021-03-09 | 平安普惠企业管理有限公司 | 语音质量检测方法、装置、计算机设备及存储介质 |
CN112669850A (zh) * | 2020-12-23 | 2021-04-16 | 平安普惠企业管理有限公司 | 语音质量检测方法、装置、计算机设备及存储介质 |
-
2021
- 2021-07-30 CN CN202110875412.XA patent/CN113590825A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447469A (zh) * | 2018-10-30 | 2019-03-08 | 阿里巴巴集团控股有限公司 | 一种文本检测方法、装置及设备 |
WO2020133960A1 (zh) * | 2018-12-25 | 2020-07-02 | 平安科技(深圳)有限公司 | 文本质检方法、电子装置、计算机设备及存储介质 |
CN112468658A (zh) * | 2020-11-20 | 2021-03-09 | 平安普惠企业管理有限公司 | 语音质量检测方法、装置、计算机设备及存储介质 |
CN112669850A (zh) * | 2020-12-23 | 2021-04-16 | 平安普惠企业管理有限公司 | 语音质量检测方法、装置、计算机设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116561289A (zh) * | 2023-04-13 | 2023-08-08 | 大庆晟安意祥科技有限公司 | 一种数字工厂的实时监控方法及系统 |
CN116561289B (zh) * | 2023-04-13 | 2024-01-19 | 西安天智数字信息科技有限公司 | 一种数字工厂的实时监控方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113592019B (zh) | 基于多模型融合的故障检测方法、装置、设备及介质 | |
CN110109908B (zh) | 基于社会基础信息挖掘人物潜在关系的分析系统及方法 | |
CN113590824A (zh) | 因果事理图谱的构建方法、装置及相关设备 | |
CN113656805B (zh) | 一种面向多源漏洞信息的事件图谱自动构建方法及系统 | |
CN109002391A (zh) | 自动检测嵌入式软件接口测试数据的方法 | |
CN111754123B (zh) | 数据监控方法、装置、计算机设备及存储介质 | |
CN109800354B (zh) | 一种基于区块链存储的简历修改意图识别方法及系统 | |
CN114519524A (zh) | 基于知识图谱的企业风险预警方法、装置及存储介质 | |
CN111259160A (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
CN112836018A (zh) | 应急预案的处理方法及装置 | |
CN111984898A (zh) | 基于大数据的标签推送方法、装置、电子设备及存储介质 | |
CN114663223A (zh) | 基于人工智能的信用风险评估方法、装置及相关设备 | |
CN112948275A (zh) | 测试数据生成方法、装置、设备及存储介质 | |
CN113762973A (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
CN115081538A (zh) | 基于机器学习的客户关系识别方法、装置、设备及介质 | |
CN114201328A (zh) | 基于人工智能的故障处理方法、装置、电子设备及介质 | |
CN113590825A (zh) | 文本质检方法、装置及相关设备 | |
RU2718978C1 (ru) | Способ управления автоматизированной системой правовых консультаций | |
CN111988294A (zh) | 基于人工智能的用户身份识别方法、装置、终端及介质 | |
CN115618264A (zh) | 数据资产的主题分类方法、装置、设备和介质 | |
CN113240325B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN114968816A (zh) | 基于数据模拟的策略测试方法、装置、设备及存储介质 | |
CN112434071B (zh) | 一种基于数据图谱的元数据血缘关系与影响分析平台 | |
CN115408236A (zh) | 一种日志数据审计系统、方法、设备及介质 | |
CN114398433A (zh) | 图表信息报告生成方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |