CN116821319B

CN116821319B - 一种基于aigc的快筛式处理系统

Info

Publication number: CN116821319B
Application number: CN202311099954.8A
Authority: CN
Inventors: 张卫平; 王晶; 王丹; 邵胜博; 丁洋; 张伟
Original assignee: Global Digital Group Co Ltd
Current assignee: Global Numerical Technology Co ltd
Priority date: 2023-08-30
Filing date: 2023-08-30
Publication date: 2023-10-27
Anticipated expiration: 2043-08-30
Also published as: CN116821319A

Abstract

本发明提供了一种基于AIGC的快筛式处理系统，包括数据导入模块、需求解析模块、快筛处理模块和结果显示模块，所述数据导入模块用于输入筛选信息和需求信息，所述需求解析模块用于对需求信息进行逻辑性解析，所述快筛处理模块根据解析结果对筛选信息进行内容筛选，所述结果显示模块用于显示筛选的内容以及对应的位置来源；本系统通过需求解析模块处理得到筛查的编码信息，再通过快筛处理模块对编码的筛查顺序进行控制，实现快速筛查的效果，能够自动从大量文本中得到需要的信息。

Description

一种基于AIGC的快筛式处理系统

技术领域

本发明涉及电数字数据处理领域，具体涉及一种基于AIGC的快筛式处理系统。

背景技术

在处理文档内容时，常常需要从文档中检索出需要的信息，随着AI技术的发展，能够检索的内容更加智能化，而对于量大的文本内容，需要能够快速筛查检索的系统来提高检索效率。

背景技术的前述论述仅意图便于理解本发明。此论述并不认可或承认提及的材料中的任一种公共常识的一部分。

现在已经开发出了很多信息筛查系统，经过我们大量的检索与参考，发现现有的筛查系统有如公开号为CN111291259B所公开的系统，这些系统一般包括：获取基于神经网络模型从内容召回池召回的与预设内容类型相关的多个待筛选数据单元；每个所述待筛选数据单元中包括至少一种数据类型对应的待筛选数据；对于每个所述待筛选数据单元，根据该待筛选数据单元中每一种数据类型下的待筛选数据的特征信息，确定该待筛选数据单元与所述预设内容类型的匹配度；判断确定的所述匹配度是否在预设范围内；如果确定的所述匹配度在所述预设范围内，则将该待筛选数据单元发送给目标设备。但该系统在处理大量数据的文档时，无法提高筛查速率。

发明内容

本发明的目的在于，针对所存在的不足，提出了一种基于AIGC的快筛式处理系统。

本发明采用如下技术方案：

一种基于AIGC的快筛式处理系统，包括数据导入模块、需求解析模块、快筛处理模块和结果显示模块；

所述数据导入模块用于输入筛选信息和需求信息，所述需求解析模块用于对需求信息进行逻辑性解析，所述快筛处理模块根据解析结果对筛选信息进行内容筛选，所述结果显示模块用于显示筛选的内容以及对应的位置来源；

所述数据导入模块包括数据源接入单元和数据存储单元，所述数据源接入单元用于从不同的数据源中导入待筛选的数据信息以及输入筛选需求，所述数据存储单元用于保存待筛选的数据信息和筛选需求；

所述需求解析模块包括语义分析单元和逻辑解析单元，所述语义分析单元根据筛选需求生成语义编码数据，所述逻辑解析单元用于将语义编码数据进行逻辑化处理得到条件编码和编码集信息；

所述快筛处理模块包括筛查控制单元、对比单元和结果存储单元，所述筛查控制单元用于控制编码的筛查顺序，所述对比单元用于将编码转换为对应的词语并与数据存储单元中的内容进行对比，所述结果存储单元用于保存筛选出的内容以及对应的位置信息；

进一步的，述语义分析单元包括分词处理器、词性标注处理器、实体识别处理器和语义生成处理器，所述分词处理器用于将需求信息拆分成词语，所述词性标注处理器用于根据词语及其位置给每个词语标注一种词性，所述实体识别处理器用于对名词性词语进行实体识别，判断是否为实体名词，并对实体名词进行标注，所述语义生成处理器根据标注的词性生成供所述逻辑解析单元解读的语义数据；

进一步的，所述逻辑解析单元包括名词转换处理器、条件解析处理器和结构解析处理器，所述名词转换处理器用于将通用名词编码转换成对应的实体名词编码，所述条件解析处理器用于将编码拆解成多段条件编码，所述结构解析处理器用于将每段条件编码解析成树状结构；

进一步的，所述筛查控制单元包括条件排序处理器、编码排序处理器、注释排序处理器和数据统计处理器，所述条件排序处理器用于对条件编码进行排序，所述编码排序处理器用于对每个编码集中的编码进行排序，所述注释排序处理器用于对编码集的编码集进行排序，其中，所述数据统计处理器用于统计条件、编码和编码集的筛查结果；

所述对比单元包括定位处理器、转换处理器和检测处理器，所述定位处理器用于控制在数据存储单元中的检测位置以及确定筛查范围，所述转换处理器用于接收编码信息并转换为对应的检测文本，所述检测处理器用于在检测位置或筛查范围内检测是否存在一致的检测文本；

进一步的，所述条件排序处理器根据下式计算出条件编码的排序值：

；

其中，t表示排序的次数，表示条件编码排序的总次数，/>表示第t次排序的序号，/>为对应条件编码的统计值；

所述注释排序处理器根据下式计算出编码集的排序值St2：

；

其中，表示对应条件编码下编码集排序的总次数，/>为对应编码集的统计值；

所述编码排序处理器根据下式计算出编码的排序值St3：

；

其中，表示对应编码集下编码排序的总次数，/>为对应编码的统计值。

本发明所取得的有益效果是：

本系统通过AIGC技术对需求信息进行处理得到编码信息，提高了筛查的智能性，同时对编码信息进行阶段性的排序处理，控制筛选对象的顺序，能够提高筛选速度，实现快筛效果，适用于大量文件内容时的筛选需求。

为使能更进一步了解本发明的特征及技术内容，请参阅以下有关本发明的详细说明与附图，然而所提供的附图仅用于提供参考与说明，并非用来对本发明加以限制。

附图说明

图1为本发明整体结构框架示意图；

图2为本发明树状编码示例示意图；

图3为本发明需求解析模块构成示意图；

图4为本发明快筛处理模块构成示意图；

图5为本发明筛查控制单元构成示意图。

具体实施方式

以下是通过特定的具体实施例来说明本发明的实施方式，本领域技术人员可由本说明书所公开的内容了解本发明的优点与效果。本发明可通过其他不同的具体实施例加以施行或应用，本说明书中的各项细节也可基于不同观点与应用，在不悖离本发明的精神下进行各种修饰与变更。另外，本发明的附图仅为简单示意说明，并非依实际尺寸的描绘，事先声明。以下的实施方式将进一步详细说明本发明的相关技术内容，但所公开的内容并非用以限制本发明的保护范围。

实施例一：本实施例提供了一种基于AIGC的快筛式处理系统，结合图1，包括数据导入模块、需求解析模块、快筛处理模块和结果显示模块；

述语义分析单元包括分词处理器、词性标注处理器、实体识别处理器和语义生成处理器，所述分词处理器用于将需求信息拆分成词语，所述词性标注处理器用于根据词语及其位置给每个词语标注一种词性，所述实体识别处理器用于对名词性词语进行实体识别，判断是否为实体名词，并对实体名词进行标注，所述语义生成处理器根据标注的词性生成供所述逻辑解析单元解读的语义数据；

所述逻辑解析单元包括名词转换处理器、条件解析处理器和结构解析处理器，所述名词转换处理器用于将通用名词编码转换成对应的实体名词编码，所述条件解析处理器用于将编码拆解成多段条件编码，所述结构解析处理器用于将每段条件编码解析成树状结构；

所述筛查控制单元包括条件排序处理器、编码排序处理器、注释排序处理器和数据统计处理器，所述条件排序处理器用于对条件编码进行排序，所述编码排序处理器用于对每个编码集中的编码进行排序，所述注释排序处理器用于对编码集的编码集进行排序，其中，所述数据统计处理器用于统计条件、编码和编码集的筛查结果；

所述条件排序处理器根据下式计算出条件编码的排序值：

；

所述注释排序处理器根据下式计算出编码集的排序值St2：

；

所述编码排序处理器根据下式计算出编码的排序值St3：

；

实施例二：本实施例包含了实施例一中的全部内容，提供了一种基于AIGC的快筛式处理系统，包括数据导入模块、需求解析模块、快筛处理模块和结果显示模块；

集合图3，所述需求解析模块包括语义分析单元和逻辑解析单元，所述语义分析单元根据筛选需求生成语义编码数据，所述逻辑解析单元用于将语义编码数据进行逻辑化处理得到条件编码和编码集信息；

结合图4，所述快筛处理模块包括筛查控制单元、对比单元和结果存储单元，所述筛查控制单元用于控制编码的筛查顺序，所述对比单元用于将编码转换为对应的词语并与数据存储单元中的内容进行对比，所述结果存储单元用于保存筛选出的内容以及对应的位置信息；

所述结果显示模块包括结果呈现单元和用户交互单元，所述结果呈现单元用于将经过筛选和处理的信息以清晰的形式呈现同时显示其来源位置，所述用户交互单元用于提供操作界面，用于进行查询、导出、编辑筛选需求等操作；

所述语义分析单元包括分词处理器、词性标注处理器、实体识别处理器和语义生成处理器，所述分词处理器用于将需求信息拆分成多个词语，所述词性标注处理器用于根据词语及其位置给每个词语标注一种词性，所述实体识别处理器用于对名词性词语进行实体识别，判断是否为实体名词，并对实体名词进行标注，所述语义生成处理器根据标注的词性生成供所述逻辑解析单元解读的语义数据；

所述语义数据由多个编码构成，每个编码对应一个词语，从所述编码中能够读取到词性信息，实体名词的编码为临时构建，其余词语的编码为预先设置，临时构建的实体名词编码表将同步发送至逻辑解析单元和快筛处理模块；

所述结构解析处理器处理得到的树状编码用表示，其中，/>表示编码集，/>用于表示用于注释的编码的位置，i为编码所属编码集的序号，j为编码在编码集中的序号，k表示本编码集的序号，结合图2，树状编码为、/>、/>，特别的，/>为初始编码集，无需要注释的编码，其(i，j)用(0，0)表示；

结合图5，所述筛查控制单元包括条件排序处理器、编码排序处理器、注释排序处理器和数据统计处理器，所述条件排序处理器用于对条件编码进行排序，所述编码排序处理器用于对每个编码集中的编码进行排序，所述注释排序处理器用于对编码集的编码集进行排序，其中，初始编码集始终排在第一位，所述数据统计处理器用于统计条件、编码和编码集的筛查结果；

所述快筛处理模块对从数据存储单元中筛选出内容信息的过程包括如下步骤：

S1、所述条件排序处理器将排在首位的条件编码信息发送给所述注释排序处理器；

S2、所述注释排序处理器将排在首位的编码集信息发送给所述编码排序处理器；

S3、所述编码排序处理器将排在首位的编码信息发送给所述对比单元；

S4、所述对比单元在数据存储单元中检测编码信息对应的文本内容，当检测到文本内容时，以检测位置为中心确定一个筛查范围，并将对应的编码信息标记为检测状态；

S5、所述编码排序处理器判断编码集中是否还存在未检测状态的编码，若是，将排在首位且处于未检测状态的编码信息发送给所述对比单元，进入步骤S9，若否，将对应的编码集标记为检测状态，进入步骤S6；

S6、所述注释排序处理器判断条件编码中是否还存在未检测状态的编码集，若是，将排在前面且处于未检测状态的编码集信息发送给所述编码排序处理器，回到步骤S5，若否，将对应的条件编码标记为检测状态，进入步骤S7；

S7、所述条件排序处理器判断是否还存在未检测状态的条件编码，若是，将排在前面且处于未检测状态的条件编码信息发送给所述注释排序处理器，回到步骤S6，若否，进入步骤S8；

S8、将在筛查范围内检测出的内容信息及位置信息发送给所述结果存储单元，将所有状态重置为未检测状态，回到步骤S1；

S9、所述对比单元在筛查范围中检测编码信息对应的文本内容，当检测到文本内容时，并将对应的编码信息标记为检测状态，回到步骤S5；

所述数据统计处理器对条件编码、编码集和编码被标记为检测状态的次数进行统计；

所述条件排序处理器根据下式计算出条件编码的排序值：

；

所述条件排序处理器在进入步骤S1前进行一次排序，按照排序值从小到大进行排序；

所述注释排序处理器根据下式计算出编码集的排序值St2：

；

所述注释排序处理器在进入步骤S2前以及从步骤S7进入步骤S6时进行一次排序，初始编码集始终排在首位，其余编码集按照排序值从小到大进行排序；

所述编码排序处理器根据下式计算出编码的排序值St3：

；

其中，表示对应编码集下编码排序的总次数，/>为对应编码的统计值；

所述编码排序处理器在进入步骤S3前以及从步骤S6进入步骤S5时进行一次排序，按照排序值从小到大进行排序。

以上所公开的内容仅为本发明的优选可行实施例，并非因此局限本发明的保护范围，所以凡是运用本发明说明书及附图内容所做的等效技术变化，均包含于本发明的保护范围内，此外，随着技术发展其中的元素可以更新的。

Claims

1.一种基于AIGC的快筛式处理系统，其特征在于，包括数据导入模块、需求解析模块、快筛处理模块和结果显示模块；

所述语义分析单元包括分词处理器、词性标注处理器、实体识别处理器和语义生成处理器，所述分词处理器用于将需求信息拆分成词语，所述词性标注处理器用于根据词语及其位置给每个词语标注一种词性，所述实体识别处理器用于对名词性词语进行实体识别，判断是否为实体名词，并对实体名词进行标注，所述语义生成处理器根据标注的词性生成供所述逻辑解析单元解读的语义数据；

所述条件排序处理器根据下式计算出条件编码的排序值：

；

所述注释排序处理器根据下式计算出编码集的排序值St2：

；

所述编码排序处理器根据下式计算出编码的排序值St3：

；