CN117591643B - 一种基于改进的结构化处理的项目文本查重方法及系统 - Google Patents
一种基于改进的结构化处理的项目文本查重方法及系统 Download PDFInfo
- Publication number
- CN117591643B CN117591643B CN202311496882.0A CN202311496882A CN117591643B CN 117591643 B CN117591643 B CN 117591643B CN 202311496882 A CN202311496882 A CN 202311496882A CN 117591643 B CN117591643 B CN 117591643B
- Authority
- CN
- China
- Prior art keywords
- text
- project
- similarity
- structured
- scheme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012545 processing Methods 0.000 title claims abstract description 23
- 238000005516 engineering process Methods 0.000 claims abstract description 15
- 238000003058 natural language processing Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 44
- 230000011218 segmentation Effects 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000008901 benefit Effects 0.000 claims description 8
- 238000012015 optical character recognition Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 230000003340 mental effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于改进的结构化处理的项目文本查重方法及系统,属于数据处理技术领域,方法包括:获取当前项目方案;通过自然语言处理技术,提取当前项目方案中的项目文本,项目文本包括:图表文本、结构化文本与非结构化文本;计算各个历史项目方案与当前项目方案之间的图表文本相似度;计算各个历史项目方案与当前项目方案之间的结构化文本相似度;计算各个历史项目方案与当前项目方案之间的非结构化文本相似度;根据图表文本相似度、结构化文本相似度与非结构化文本相似度,计算综合相似度;当存在历史项目方案与当前项目方案之间的结构化文本相似度大于第一预设相似度或者综合相似度大于第二预设相似度时,输出第一提示信息。
Description
技术领域
本发明属于数据处理技术领域,具体涉及一种基于改进的结构化处理的项目文本查重方法及系统。
背景技术
随着科技技术水平的发展,对于社会的方方面面需要有规划的进行建设,项目制度是有序建设的重要手段,根据上报的项目方案决定是否实施以及是否拨款,政府和组织可以更好地分配资源,确保资源用于最有价值的项目,从而最大程度地满足社会需求,有助于避免浪费和提高资源的有效利用。
然而在实际应用过程中,随着项目方案的越来越多,上报的项目方案难免会与之前项目方案发生雷同,当前主要依靠项目审核人员进行人工手动查重,或者凭借工作阅历回忆是否存在类似项目方案,费时费力,容易受到工作阅历、工作状态等主观因素的影响,同时仅仅依靠脑力记忆进行查重,容易发生遗漏,导致项目方案查重的准确性低,发生重复性建设,浪费社会资源。
发明内容
为了解决当前主要依靠项目审核人员进行人工手动查重,或者凭借工作阅历回忆是否存在类似项目方案,费时费力,容易受到工作阅历、工作状态等主观因素的影响,同时仅仅依靠脑力记忆进行查重,容易发生遗漏,导致项目方案查重的准确性低,发生重复性建设,浪费社会资源的技术问题,本发明提供一种基于改进的结构化处理的项目文本查重方法及系统。
第一方面
本发明提供了一种基于改进的结构化处理的项目文本查重方法,包括:
S1:获取当前项目方案;
S2:通过自然语言处理技术,提取所述当前项目方案中的项目文本,所述项目文本包括:图表文本、结构化文本与非结构化文本;
S3:计算各个历史项目方案与所述当前项目方案之间的图表文本相似度;
S4:计算各个历史项目方案与所述当前项目方案之间的结构化文本相似度;
S5:计算各个历史项目方案与所述当前项目方案之间的非结构化文本相似度;
S6:根据所述图表文本相似度、所述结构化文本相似度与所述非结构化文本相似度,计算综合相似度;
S7:当存在历史项目方案与所述当前项目方案之间的结构化文本相似度大于第一预设相似度或者综合相似度大于第二预设相似度时,输出第一提示信息。
第二方面
本发明提供了一种基于改进的结构化处理的项目文本查重系统,包括处理器和用于存储处理器可执行指令的存储器;所述处理器被配置为调用所述存储器存储的指令,以执行第一方面中的基于改进的结构化处理的项目文本查重方法。
与现有技术相比,本发明至少具有以下有益技术效果:
在本发明中,通过自然语言处理技术,提取所述当前项目方案中图表文本、结构化文本与非结构化文本,根据与历史项目方案的所述图表文本相似度、所述结构化文本相似度与所述非结构化文本相似度,计算出与历史项目方案的综合相似度,当存在历史项目方案与所述当前项目方案之间的结构化文本相似度大于第一预设相似度或者综合相似度大于第二预设相似度时,可以自动化地给出提示信息,无需人工手动查重,也无需凭借工作阅历回忆是否存在类似项目方案,省时省力,避免受到工作阅历、工作状态等主观因素的影响,避免发生遗漏,提升项目方案查重的准确性,避免重复性建设,节省社会资源。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对本发明的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明提供的一种基于改进的结构化处理的项目文本查重方法的流程示意图。
图2是本发明提供的一种基于改进的结构化处理的项目文本查重系统的结构示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
在本文中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接。可以是机械连接,也可以是电连接。可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
另外,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1
在一个实施例中,参考说明书附图1,示出了本发明提供的一种基于改进的结构化处理的项目文本查重方法的流程示意图。
本发明提供的一种基于改进的结构化处理的项目文本查重方法,包括:
S1:获取当前项目方案。
S2:通过自然语言处理技术,提取当前项目方案中的项目文本。
其中,项目文本包括:图表文本、结构化文本与非结构化文本。
其中,自然语言处理(Natural Language Processing,NLP)是人工智能领域的一个分支,它涉及计算机理解、处理和生成自然语言文本的技术和方法。NLP的目标是使计算机能够像人类一样理解和处理自然语言,包括语音和文本。
在一种可能的实施方式中,S2具体包括子步骤S201至S204:
S201:对当前项目方案的文本数据进行分词。
具体而言,可以通过Python的NLTK(Natural Language Toolkit)和spaCy库来进行分词。
在一种可能的实施方式中,本发明提出了一种全新的分词方法,子步骤S201具体包括孙步骤S2011至S2015:
S2011:基于Jieba分词技术,对当前项目方案的文本数据进行初步分词。
其中,Jieba分词技术是一种流行的中文分词工具,它是一个开源的中文分词库,广泛用于中文文本处理和自然语言处理任务。它的特点包括速度快、准确度较高,并支持简体中文和繁体中文。
S2012:计算各个分词之间的关联性参数:
其中,cij表示第i个分词与第j个分词之间的关联性参数,pi表示第i个分词单独出现在项目方案库中的概率,pj表示第j个分词单独出现在项目方案中的概率,pij表示第i个分词与第j个分词同时出现在项目方案中的概率。
在本发明中,考虑分词之间的关联性参数,可以更准确地确定两个词是否可以合并为一个整体,是否具有一个完整意义,从而提高了分词的精度。
S2013:计算各个分词的左邻接熵值和右邻接熵值:
其中,Hi(L)表示第i个分词的左邻接熵值,WL表示第i个分词的左邻接子符的集合,wl表示第i个分词的左邻接字符,w表示第i个分词,p(wl|w)表示w出现时wl出现在w左边的条件概率,Hi(R)表示第i个分词的右邻接熵值,wr表示第i个分词的右邻接字符,p(wr|w)表示w出现时wr出现在w右边的条件概率。
在本发明中,考虑分词之间的左邻接熵值和右邻接熵值,可以更准确地判断词的边界,从而提高了分词的精度。
S2014:根据连续两个分词的关联性参数、左邻接熵值和右邻接熵值,判断连续两个分词之间的合并性参数:
其中,σij表示第i个分词与第j个分词之间的合并性参数,cij表示第i个分词与第j个分词之间的关联性参数,α1表示关联性参数的权重系数,Hi(R)表示第i个分词的右邻接熵值,α2表示右邻接熵值的权重系数,Hj(L)表示第j个分词的左邻接熵值,α3表示左邻接熵值的权重系数,连续两个分词中第i个分词在左边,第j个分词在右边。
其中,本领域技术人员可以根据实际情况设置关联性参数的权重系数α1、右邻接熵值的权重系数α2和左邻接熵值的权重系数α3的大小,本发明不做限定。
S2015:当连续两个分词之间的合并性参数大于预设合并性参数值时,将两个分词进行合并,生成新的分词。
其中,本领域技术人员可以根据实际情况设置预设合并性参数值的大小,本发明不做限定。
在本发明中,综合考虑连续两个分词的关联性参数、左邻接熵值和右邻接熵值,从而引入合并性参数,减少分词过程中的歧义,提高了分词的精度。进一步地,对于未登录词,即不在词典中的词汇,传统的分词工具可能无法准确切分,合并性参数的引入使得系统可以更好地处理未登录词,因为它可以基于上下文信息来合并相邻的未登录词,从而减少切分错误。
S202:通过BERT预训练模型,提取分词特征,得到分词向量序列。
其中,BERT(Bidirectional Encoder Representations from Transformers)预训练模型是一种基于Transformer架构的预训练语言模型,BERT是一种双向(bidirectional)的预训练模型,它可以同时考虑一个单词左右两侧的上下文信息,这使得它在理解上下文语境方面更为准确。BERT预训练模型是比较成熟的现有技术,本发明不再赘述。
S203:通过BiLSTM双向长短期记忆神经网络,提取各个分词的综合隐状态,并计算各个分词分类为结构化文本的概率,将各个分词归类为结构化文本或者非结构化文本,以提取出当前项目方案的结构化文本与非结构化文本。
其中,双向长短期记忆神经网络(Bidirectional Long Short-Term Memory,BiLSTM)是一种用于自然语言处理和序列建模任务的神经网络架构,它结合了长短期记忆(LSTM)和双向递归(Bidirectional Recurrent)的概念。BiLSTM被广泛用于处理自然语言文本,其中需要考虑文本的上下文信息以更好地理解和建模序列数据。
在一种可能的实施方式中,本发明提出了一种全新的双向长短期记忆神经网络,子步骤S203具体包括孙步骤S2031至S2034:
S2031:通过双向长短期记忆神经网络,提取各个分词的隐状态h,其中,隐状态包括前向隐状态和后向隐状态/>
It=Sigmoid(WXIXt+WHIht-1+bI)
Ft=Sigmoid(WXFXt+WHFht-1+bF)
Ot=Sigmoid(WXOXt+WHOht-1+bO)
Ct'=tanh(WXCXt+WHCht-1+bC)
Ct=Ft·Ct-1+It·Ct'
ht=Ot·tanh(Ct)
其中,It表示t时刻输入门的激活输出向量,Sigmoid()表示Sigmoid激活函数,WXI表示分词序列和输入门之间的权重矩阵,WHI表示隐藏状态和输入门之间的权重矩阵,bI表示输入门的偏置项,Ft表示t时刻忘记门的激活输出向量,WXF表示分词序列和忘记门之间的权重矩阵,WHF表示隐藏状态和忘记门之间的权重矩阵,bF表示忘记门的偏置项,Ot表示t时刻输出门的激活输出向量,WXO表示分词序列和输出门之间的权重矩阵,WHO表示隐藏状态和输出门之间的权重矩阵,Ct表示t时刻细胞存储单元的激活输出向量,Ct'表示t时刻细胞存储单元的候选输出向量,Ct-1表示t-1时刻细胞存储单元的激活输出向量,tanh()表示tanh激活函数,WXC表示分词序列和细胞存储单元之间的权重矩阵,WHC表示隐藏状态和细胞存储单元之间的权重矩阵,bC表示细胞存储单元的偏置项,ht表示t时刻的隐状态,ht-1表示t-1时刻的隐状态。
S2032:对前向隐状态和后向隐状态进行整合,得到综合隐状态:
其中,Ht表示t时刻的综合隐状态,Wt f表示t时刻的前向权重矩阵,表示t时刻的前向隐状态,Wt b表示t时刻的后向权重矩阵,/>表示t时刻的后向隐状态。
在本发明中,整合前向和后向隐状态,使综合隐状态更全面。这允许模型考虑单词左侧和右侧的信息,从而更好地理解分词的上下文。
S2033:根据综合隐状态,计算各个分词被归类到各类结构化文本的概率值:
Pi=Sigmoid(wiHt+bi)
其中,Pi表示被归类到第i类结构化文本的概率,wi表示第i类结构化文本的权重系数,bi表示第i类结构化文本的偏置项。
在本发明中,通过使用BiLSTM提取分词的综合隐状态,可以更好地理解每个分词在上下文中的语境,有助于捕捉词汇之间的关联性,尤其是在复杂的文本中。
S2034:当存在某一类结构化文本的概率值大于预设概率值时,将分词归类到概率值最大的结构化文本中。当不存在某一类结构化文本的概率值大于预设概率值时,将分词归类到非结构化文本中。
其中,本领域技术人员可以根据实际情况设置预设概率值的大小,本发明不做限定。
在本发明中,基于预设概率值将分词归类为结构化文本或非结构化文本,这有助于确保模型的分类结果是可控的。如果概率值不满足预设概率值,分词被归类为非结构化文本,这可以避免过于细粒度的分类,提升分词速度。
S204:对当前项目方案的图表数据,通过OCR识别技术,提取出当前项目方案的图表文本。
其中,OCR(Optical Character Recognition,光学字符识别)识别技术是一种用于将印刷或手写文本从图像或扫描文档中提取并转化为可编辑文本的技术。OCR识别技术是比较成熟的现有技术,在处理纸质文档、图像文件、扫描文档以及印刷文本等方面具有广泛的应用,本发明不再赘述。
S3:计算各个历史项目方案与当前项目方案之间的图表文本相似度。
在一种可能的实施方式中,S3具体包括子步骤S301至S304:
S301:对当前项目方案的图表文本进行分词。
S302:提取各个词语TF-IDF特征值。
其中,TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于文本分析和信息检索的统计特征值,用于衡量一个词语在文本文档集合中的重要性。TF-IDF特征值结合了两个关键概念:词频(Term Frequency,TF)和逆文档频率(Inverse DocumentFrequency,IDF)。
词频(TF,Term Frequency):TF表示一个词语在文档中出现的频率。通常,词语在文档中出现的次数越多,其TF值越高。TF可以通过简单地计算词语在文档中出现的次数来获得,也可以采用标准化的方式,如相对频率(词语出现次数除以文档中的总词数)。
逆文档频率(IDF,Inverse Document Frequency):IDF用于衡量一个词语在整个文档集合中的重要性。如果一个词语在大多数文档中都出现,它的IDF值较低;如果一个词语只在少数文档中出现,其IDF值较高。
在本发明中,使用TF-IDF特征向量计算当前项目方案与历史项目方案之间的图表文本相似度,有助于比较不同项目方案之间的图表文本内容,找到相似性较高的历史项目方案。
S303:将各个词语按照TF-IDF特征值由大至小的顺序进行排序,选取排序靠前的第一预设数量的词语的TF-IDF特征值组合为向量,作为当前项目方案的图表文本特征向量。
其中,本领域技术人员可以根据实际情况设置第一预设数量的大小,本发明不做限定。
S304:根据以下公式,计算各个历史项目方案与当前项目方案之间的图表文本相似度:
其中,τ1(j)表示当前项目方案与第j个历史项目方案之间的图表文本相似度,A表示当前项目方案的图表文本特征向量,Aj表示第j个历史项目方案的图表文本特征向量,(·)T表示向量的转置,||·||表示向量的模运算。
在本发明中,通过以上步骤可以准确地计算出图表文本相似度。
S4:计算各个历史项目方案与当前项目方案之间的结构化文本相似度。
在一种可能的实施方式中,结构化文本的类别包括:项目名称文本、目标文本、需求文本、方案文本、风险文本和效益文本,S4具体包括子步骤S401和S402:
S401:计算当前项目方案与第j个历史项目方案在各类结构化文本之间的相似度,simij表示当前项目方案与第j个历史项目方案在第i类结构化文本之间的相似度,当当前项目方案与第j个历史项目方案在第i类结构化文本之间相似时,simij=1,当当前项目方案与第j个历史项目方案在第i类结构化文本之间不相似时,simij=0。
S402:根据当前项目方案与第j个历史项目方案在各类结构化文本之间的相似度,计算当前项目方案与第j个历史项目方案中的结构化文本之间的结构化文本相似度:
其中,τ2(j)表示当前项目方案与第j个历史项目方案之间的结构化文本相似度,βi表示第i类结构化文本的权重系数,i=1,2,…,6。
其中,本领域技术人员可以根据实际情况设置各类结构化文本的权重系数的大小,本发明不做限定。
在本发明中,允许对不同类别的结构化文本进行单独的相似度计算,之后综合确定结构化文本相似度,可以提升结构化文本相似度的准确性,从而提供更准确的项目方案分析和决策支持。
S5:计算各个历史项目方案与当前项目方案之间的非结构化文本相似度。
在一种可能的实施方式中,S5具体包括子步骤S501至S504:
S501:获取通过双向长短期记忆神经网络提取的各个非结构化文本的综合隐状态。
S502:根据各个非结构化文本的综合隐状态,计算各个非结构化文本的特征值:
di=Sigmoid(wfHi+bf)
其中,di表示第i个非结构文本的特征值,wf表示非结构文本的权重系数,Hi表示第i个非结构化文本的综合隐状态,bf表示非结构文本的偏置项。
在本发明中,根据非结构化文本的综合隐状态计算了非结构化文本的特征值,有助于捕获非结构化文本的重要信息,使其可用于相似度计算。
S503:将各个非结构文本按照特征值由大至小的顺序进行排序,选取排序靠前的第二预设数量的非结构文本的特征值组合为向量,作为当前项目方案的非结构文本特征向量。
其中,本领域技术人员可以根据实际情况设置第二预设数量的大小,本发明不做限定。
在本发明中,根据特征值的大小对非结构化文本进行排序,并选择排名靠前的非结构化文本作为特征向量,有助于筛选出最相关的非结构化文本,降低数据维度并提高计算效率。
S504:根据以下公式,计算各个历史项目方案与当前项目方案之间的非结构化文本相似度:
其中,τ3(j)表示当前项目方案与第j个历史项目方案之间的非结构化文本相似度,D表示当前项目方案的非结构化文本特征向量,Dj表示第j个历史项目方案的非结构化文本特征向量,(·)T表示向量的转置,||·||表示向量的模运算。
在本发明中,通过计算非结构化文本相似度,可以更全面地比较不同项目方案之间的相似性,帮助项目管理人员更好地理解项目方案之间的异同,以支持决策制定。
S6:根据图表文本相似度、结构化文本相似度与非结构化文本相似度,计算综合相似度。
在一种可能的实施方式中,S6具体为:根据以下公式,计算各个历史项目方案与当前项目方案之间的综合相似度:
τj=ρ1·τ1(j)+ρ2·τ2(j)+ρ3·τ3(j)
其中,τj表示当前项目方案与第j个历史项目方案之间的综合相似度,τ1(j)表示当前项目方案与第j个历史项目方案之间的图表文本相似度,ρ1表示图表文本相似度的权重系数,τ2(j)表示当前项目方案与第j个历史项目方案之间的结构化文本相似度,ρ2表示结构化文本相似度的权重系数,τ3(j)表示当前项目方案与第j个历史项目方案之间的非结构化文本相似度,ρ3表示非结构化文本相似度的权重系数。
其中,本领域技术人员可以根据实际情况设置图表文本相似度的权重系数ρ1、结构化文本相似度的权重系数ρ2和非结构化文本相似度的权重系数ρ3的大小,本发明不做限定。
在本发明中,综合考虑了不同维度的相似性,包括图表文本、结构化文本和非结构化文本,有助于更全面地评估项目方案之间的相似性,有助于提供更可靠的数据支持项目决策和管理。
S7:当存在历史项目方案与当前项目方案之间的结构化文本相似度大于第一预设相似度或者综合相似度大于第二预设相似度时,输出第一提示信息。
其中,第一预设相似度小于第二预设相似度。
其中,本领域技术人员可以根据实际情况设置第一预设相似度和第二预设相似度的大小,本发明不做限定。
其中,第一提示信息的输出方式包括:弹窗、语音和邮件等。第一提示信息用于提示存在较为类似的历史项目方案。
需要说明的是,在图表文本相似度、结构化文本相似度和非结构化文本相似度中,结构化文本相似度的重要性最高,这是由于结构化文本通常包含项目方案的核心信息,如项目名称、目标、需求、方案、风险和效益等。这些信息对于项目的定义和规划至关重要,因此结构化文本相似度的高度相关性对于确保项目方案的成功至关重要。因此,当结构化文本相似度大于(较小的)第一预设相似度时,就需要进行提示。
与现有技术相比,本发明至少具有以下有益技术效果:
在本发明中,通过自然语言处理技术,提取当前项目方案中图表文本、结构化文本与非结构化文本,根据与历史项目方案的图表文本相似度、结构化文本相似度与非结构化文本相似度,计算出与历史项目方案的综合相似度,当存在历史项目方案与当前项目方案之间的结构化文本相似度大于第一预设相似度或者综合相似度大于第二预设相似度时,可以自动化地给出提示信息,无需人工手动查重,也无需凭借工作阅历回忆是否存在类似项目方案,省时省力,避免受到工作阅历、工作状态等主观因素的影响,避免发生遗漏,提升项目方案查重的准确性,避免重复性建设,节省社会资源。
在一种可能的实施方式中,基于改进的结构化处理的项目文本查重方法还包括:
S8:根据提取的结构化文本与非结构化文本,计算当前项目方案的内容完整性参数、逻辑一致性参数和格式规范性参数。
其中,内容完整性参数用于评估项目方案中结构化文本各类别是否完整存在。
其中,逻辑一致性参数用于评估项目方案中的逻辑一致性。可以用目标文本、需求文本、方案文本、风险文本和效益文本中是否含有项目名称来进行检查。项目名称通常是项目方案的标识符,其他内容均应该与项目名称具有直接的关联性。项目名称通常作为文档的起点,与后续的目标、需求、方案、风险和效益等文本部分建立了逻辑联系,这种逻辑联系对于确保整个文档的一致性至关重要。
其中,格式规范性参数用于评估项目方案中的文本是否符合特定的格式和规范,包括不规范用词的出现次数。
在本发明中,通过计算内容完整性、逻辑一致性和格式规范性,系统能够自动评估项目方案的质量,而无需手动检查每个方案的各个方面。
其中,结构化文本的类别包括:项目名称文本、目标文本、需求文本、方案文本、风险文本和效益文本,内容完整性参数的计算方式为:
其中,η1表示内容完整性参数,ei表示第i类结构化文本是否缺失,若是,ei=0,否则,ei=1,i=1,2,…,6。
其中,逻辑一致性参数的计算方式为:
其中,η2表示逻辑一致性参数,hj表示第j类结构化文本中是否含有项目名称文本,若是,hj=1,否则,hj=0,j=1,2,…,5。
其中,格式规范性参数的计算方式为:
其中,η3表示格式规范性参数,r表示结构化文本与非结构化文本中不规范用词出现的总次数,R表示结构化文本与非结构化文本中词语出现的总次数。
S9:根据内容完整性参数、逻辑一致性参数和格式规范性参数,计算当前项目方案的综合完整度。
其中,综合完整度的计算方式为:
η=ρ1·η1+ρ2·η2+ρ3·η3
其中,η表示综合完整度,η1表示内容完整性参数,ρ1表示内容完整性参数的权重系数,η2表示逻辑一致性参数,ρ2表示逻辑一致性参数的权重系数,η3表示格式规范性参数,ρ3表示格式规范性参数的权重系数。
其中,本领域技术人员可以根据实际情况设置内容完整性参数的权重系数ρ1、逻辑一致性参数的权重系数ρ2和格式规范性参数的权重系数ρ3的大小,本发明不做限定。
在本发明中,通过将内容完整性、逻辑一致性和格式规范性结合在一起,计算综合完整度。综合完整度提供了对项目方案质量的全面评估,允许用户更容易地识别和解决问题。
S10:当当前项目方案的综合完整度小于预设完整度时,输出第二提示信息。
其中,本领域技术人员可以根据实际情况设置预设完整度的大小,本发明不做限定。
其中,第二提示信息的输出方式包括:弹窗、语音和邮件等。第二提示信息用于提示当前项目方案不够完整。
在本发明中,当项目方案的综合完整度小于预设完整度时,输出提示信息,可以及时提醒项目管理人员或相关方,项目方案存在不足或问题。进一步地,可以及时发现和纠正问题可以减少项目执行过程中的错误和风险。同时,通过在早期阶段发现和解决问题,可以提高项目方案的质量和一致性。这有助于确保项目按照既定计划执行,以实现预期的结果。
实施例2
在一个实施例中,参考说明书附图2,示出了本发明提供的一种基于改进的结构化处理的项目文本查重系统的结构示意图。
本发明提供的一种基于改进的结构化处理的项目文本查重系统20,包括处理器201和用于存储处理器201可执行指令的存储器202。处理器201被配置为调用存储器202存储的指令,以执行实施例1中的基于改进的结构化处理的项目文本查重方法。
本发明提供的一种基于改进的结构化处理的项目文本查重系统可以实现上述实施例1中的基于改进的结构化处理的项目文本查重方法的步骤和效果,为避免重复,本发明不再赘述。
与现有技术相比,本发明至少具有以下有益技术效果:
在本发明中,通过自然语言处理技术,提取当前项目方案中图表文本、结构化文本与非结构化文本,根据与历史项目方案的图表文本相似度、结构化文本相似度与非结构化文本相似度,计算出与历史项目方案的综合相似度,当存在历史项目方案与当前项目方案之间的结构化文本相似度大于第一预设相似度或者综合相似度大于第二预设相似度时,可以自动化地给出提示信息,无需人工手动查重,也无需凭借工作阅历回忆是否存在类似项目方案,省时省力,避免受到工作阅历、工作状态等主观因素的影响,避免发生遗漏,提升项目方案查重的准确性,避免重复性建设,节省社会资源。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (7)
1.一种基于改进的结构化处理的项目文本查重方法,其特征在于,包括:
S1:获取当前项目方案;
S2:通过自然语言处理技术,提取所述当前项目方案中的项目文本,所述项目文本包括:图表文本、结构化文本与非结构化文本;
S3:计算各个历史项目方案与所述当前项目方案之间的图表文本相似度;
S4:计算各个历史项目方案与所述当前项目方案之间的结构化文本相似度;
S5:计算各个历史项目方案与所述当前项目方案之间的非结构化文本相似度;
S6:根据所述图表文本相似度、所述结构化文本相似度与所述非结构化文本相似度,计算综合相似度;
S7:当存在历史项目方案与所述当前项目方案之间的结构化文本相似度大于第一预设相似度或者综合相似度大于第二预设相似度时,输出第一提示信息;
其中,所述S2具体包括:
S201:对所述当前项目方案的文本数据进行分词;
S202:通过BERT 预训练模型,提取分词特征,得到分词向量序列;
S203:通过BiLSTM双向长短期记忆神经网络,提取各个分词的综合隐状态,并计算各个分词分类为结构化文本的概率,将各个分词归类为结构化文本或者非结构化文本,以提取出所述当前项目方案的结构化文本与非结构化文本;
S204:对所述当前项目方案的图表数据,通过OCR识别技术,提取出所述当前项目方案的图表文本;
其中,所述S201具体包括:
S2011:基于Jieba分词技术,对所述当前项目方案的文本数据进行初步分词;
S2012:计算各个分词之间的关联性参数:
其中,c ij表示第i个分词与第j个分词之间的关联性参数,p i表示第i个分词单独出现在项目方案库中的概率,p j表示第j个分词单独出现在项目方案中的概率,p ij表示第i个分词与第j个分词同时出现在项目方案中的概率;
S2013:计算各个分词的左邻接熵值和右邻接熵值:
其中,H i(L)表示第i个分词的左邻接熵值,W L表示第i个分词的左邻接子符的集合,w l表示第i个分词的左邻接字符,w表示第i个分词,表示w出现时w l出现在w左边的条件概率,H i(R)表示第i个分词的右邻接熵值,w r表示第i个分词的右邻接字符,/>表示w出现时w r出现在w右边的条件概率;
S2014:根据连续两个分词的关联性参数、左邻接熵值和右邻接熵值,判断连续两个分词之间的合并性参数:
其中,σ ij表示第i个分词与第j个分词之间的合并性参数,c ij表示第i个分词与第j个分词之间的关联性参数,α 1表示关联性参数的权重系数,H i(R)表示第i个分词的右邻接熵值,α 2表示右邻接熵值的权重系数,H j(L)表示第j个分词的左邻接熵值,α 3表示左邻接熵值的权重系数,连续两个分词中第i个分词在左边,第j个分词在右边;
S2015:当连续两个分词之间的合并性参数大于预设合并性参数值时,将两个分词进行合并,生成新的分词;
其中,所述S203具体包括:
S2031:通过双向长短期记忆神经网络,提取各个分词的隐状态h,其中,隐状态包括前向隐状态和后向隐状态/>:
其中,I t表示t时刻输入门的激活输出向量,Sigmoid ()表示Sigmoid激活函数,W XI表示分词序列和输入门之间的权重矩阵,W HI表示隐藏状态和输入门之间的权重矩阵,b I表示输入门的偏置项,F t表示t时刻忘记门的激活输出向量,W XF表示分词序列和忘记门之间的权重矩阵,W HF表示隐藏状态和忘记门之间的权重矩阵,b F表示忘记门的偏置项,O t表示t时刻输出门的激活输出向量,W XO表示分词序列和输出门之间的权重矩阵,W HO表示隐藏状态和输出门之间的权重矩阵,C t表示t时刻细胞存储单元的激活输出向量,表示t时刻细胞存储单元的候选输出向量,C t-1表示t-1时刻细胞存储单元的激活输出向量,tanh()表示tanh激活函数,W XC表示分词序列和细胞存储单元之间的权重矩阵,W HC表示隐藏状态和细胞存储单元之间的权重矩阵,b C表示细胞存储单元的偏置项,h t表示t时刻的隐状态,h t-1表示t-1时刻的隐状态;
S2032:对所述前向隐状态和所述后向隐状态进行整合,得到综合隐状态:
其中,H t表示t时刻的综合隐状态,表示t时刻的前向权重矩阵,/>表示t时刻的前向隐状态,/>表示t时刻的后向权重矩阵,/>表示t时刻的后向隐状态;
S2033:根据所述综合隐状态,计算各个分词被归类到各类结构化文本的概率值:
其中,P i表示被归类到第i类结构化文本的概率,w i表示第i类结构化文本的权重系数,b i表示第i类结构化文本的偏置项;
S2034:当存在某一类结构化文本的概率值大于预设概率值时,将分词归类到概率值最大的结构化文本中;当不存在某一类结构化文本的概率值大于预设概率值时,将分词归类到非结构化文本中。
2.根据权利要求1所述的基于改进的结构化处理的项目文本查重方法,其特征在于,所述S3具体包括:
S301:对所述当前项目方案的图表文本进行分词;
S302:提取各个词语TF-IDF特征值;
S303:将各个词语按照TF-IDF特征值由大至小的顺序进行排序,选取排序靠前的第一预设数量的词语的TF-IDF特征值组合为向量,作为当前项目方案的图表文本特征向量;
S304:根据以下公式,计算各个历史项目方案与所述当前项目方案之间的图表文本相似度:
其中,τ 1(j)表示当前项目方案与第j个历史项目方案之间的图表文本相似度,A表示当前项目方案的图表文本特征向量,A j表示第j个历史项目方案的图表文本特征向量,表示向量的转置,/>表示向量的模运算。
3.根据权利要求1所述的基于改进的结构化处理的项目文本查重方法,其特征在于,所述结构化文本的类别包括:项目名称文本、目标文本、需求文本、方案文本、风险文本和效益文本,所述S4具体包括:
S401:计算所述当前项目方案与第j个历史项目方案在各类结构化文本之间的相似度,sim ij表示当前项目方案与第j个历史项目方案在第i类结构化文本之间的相似度,当当前项目方案与第j个历史项目方案在第i类结构化文本之间相似时,,当当前项目方案与第j个历史项目方案在第i类结构化文本之间不相似时,/>;
S402:根据所述当前项目方案与第j个历史项目方案在各类结构化文本之间的相似度,计算当前项目方案与第j个历史项目方案中的结构化文本之间的结构化文本相似度:
其中,τ 2(j)表示当前项目方案与第j个历史项目方案之间的结构化文本相似度,表示第i类结构化文本的权重系数,/>。
4.根据权利要求1所述的基于改进的结构化处理的项目文本查重方法,其特征在于,所述S5具体包括:
S501:获取通过双向长短期记忆神经网络提取的各个非结构化文本的综合隐状态;
S502:根据各个非结构化文本的综合隐状态,计算各个非结构化文本的特征值:
其中,d i表示第i个非结构文本的特征值,w f表示非结构文本的权重系数,H i表示第i个非结构化文本的综合隐状态,b f表示非结构文本的偏置项;
S503:将各个非结构文本按照特征值由大至小的顺序进行排序,选取排序靠前的第二预设数量的非结构文本的特征值组合为向量,作为当前项目方案的非结构文本特征向量;
S504:根据以下公式,计算各个历史项目方案与所述当前项目方案之间的非结构化文本相似度:
其中,τ 3(j)表示当前项目方案与第j个历史项目方案之间的非结构化文本相似度,D表示当前项目方案的非结构化文本特征向量,D j表示第j个历史项目方案的非结构化文本特征向量,表示向量的转置,/>表示向量的模运算。
5.根据权利要求1所述的基于改进的结构化处理的项目文本查重方法,其特征在于,所述S6具体为:
根据以下公式,计算各个历史项目方案与所述当前项目方案之间的综合相似度:
其中,τ j表示当前项目方案与第j个历史项目方案之间的综合相似度,τ 1(j)表示当前项目方案与第j个历史项目方案之间的图表文本相似度,ρ 1表示图表文本相似度的权重系数,τ 2(j)表示当前项目方案与第j个历史项目方案之间的结构化文本相似度,ρ 2表示结构化文本相似度的权重系数,τ 3(j)表示当前项目方案与第j个历史项目方案之间的非结构化文本相似度,ρ 3表示非结构化文本相似度的权重系数。
6.根据权利要求1所述的基于改进的结构化处理的项目文本查重方法,其特征在于,还包括:
S8:根据提取的所述结构化文本与所述非结构化文本,计算所述当前项目方案的内容完整性参数、逻辑一致性参数和格式规范性参数;
S9:根据所述内容完整性参数、所述逻辑一致性参数和所述格式规范性参数,计算所述当前项目方案的综合完整度;
S10:当所述当前项目方案的综合完整度小于预设完整度时,输出第二提示信息。
7.一种基于改进的结构化处理的项目文本查重系统,其特征在于,包括处理器和用于存储处理器可执行指令的存储器;所述处理器被配置为调用所述存储器存储的指令,以执行权利要求1至6中任意一项所述的基于改进的结构化处理的项目文本查重方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311496882.0A CN117591643B (zh) | 2023-11-10 | 2023-11-10 | 一种基于改进的结构化处理的项目文本查重方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311496882.0A CN117591643B (zh) | 2023-11-10 | 2023-11-10 | 一种基于改进的结构化处理的项目文本查重方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117591643A CN117591643A (zh) | 2024-02-23 |
CN117591643B true CN117591643B (zh) | 2024-05-10 |
Family
ID=89919274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311496882.0A Active CN117591643B (zh) | 2023-11-10 | 2023-11-10 | 一种基于改进的结构化处理的项目文本查重方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117591643B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359023A (zh) * | 2018-04-27 | 2019-02-19 | 哈尔滨工程大学 | 基于提交信息的移动应用错误定位方法 |
CN110377886A (zh) * | 2019-06-19 | 2019-10-25 | 平安国际智慧城市科技股份有限公司 | 项目查重方法、装置、设备及存储介质 |
CN112163409A (zh) * | 2020-09-23 | 2021-01-01 | 平安直通咨询有限公司上海分公司 | 一种相似文档检测方法、系统、终端设备及计算机可读存储介质 |
WO2021212968A1 (zh) * | 2020-04-24 | 2021-10-28 | 华为技术有限公司 | 一种非结构化数据的处理方法、装置、设备及介质 |
CN116049359A (zh) * | 2022-11-08 | 2023-05-02 | 成都中科合迅科技有限公司 | 一种基于文档内容分析的查重算法 |
CN116646046A (zh) * | 2023-07-27 | 2023-08-25 | 中日友好医院(中日友好临床医学研究所) | 一种基于互联网诊疗的电子病历处理方法和系统 |
-
2023
- 2023-11-10 CN CN202311496882.0A patent/CN117591643B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359023A (zh) * | 2018-04-27 | 2019-02-19 | 哈尔滨工程大学 | 基于提交信息的移动应用错误定位方法 |
CN110377886A (zh) * | 2019-06-19 | 2019-10-25 | 平安国际智慧城市科技股份有限公司 | 项目查重方法、装置、设备及存储介质 |
WO2021212968A1 (zh) * | 2020-04-24 | 2021-10-28 | 华为技术有限公司 | 一种非结构化数据的处理方法、装置、设备及介质 |
CN112163409A (zh) * | 2020-09-23 | 2021-01-01 | 平安直通咨询有限公司上海分公司 | 一种相似文档检测方法、系统、终端设备及计算机可读存储介质 |
CN116049359A (zh) * | 2022-11-08 | 2023-05-02 | 成都中科合迅科技有限公司 | 一种基于文档内容分析的查重算法 |
CN116646046A (zh) * | 2023-07-27 | 2023-08-25 | 中日友好医院(中日友好临床医学研究所) | 一种基于互联网诊疗的电子病历处理方法和系统 |
Non-Patent Citations (1)
Title |
---|
公式相似度算法及其在论文查重中的应用研究;唐亚伟;《中国优秀硕士学位论文全文数据库信息科技辑》;20131215;第1-31页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117591643A (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rudolph et al. | Dynamic embeddings for language evolution | |
US9910829B2 (en) | Automatic document separation | |
Shilpa et al. | Sentiment analysis using deep learning | |
CN111222338A (zh) | 基于预训练模型和自注意力机制的生物医学关系抽取方法 | |
CN112487189B (zh) | 一种图卷积网络增强的隐式篇章文本关系分类方法 | |
CN110795525A (zh) | 文本结构化方法、装置、电子设备及计算机可读存储介质 | |
CN114372475A (zh) | 一种基于RoBERTa模型的网络舆情情感分析方法及系统 | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
CN110222192A (zh) | 语料库建立方法及装置 | |
CN114579746A (zh) | 一种优化的高精度文本分类方法及装置 | |
CN112395421A (zh) | 课程标签的生成方法、装置、计算机设备及介质 | |
WO2021074798A1 (en) | Automatic summarization of transcripts | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN111429184A (zh) | 一种基于文本信息的用户画像抽取方法 | |
CN113011156A (zh) | 审核文本的质检方法、装置、介质以及电子设备 | |
CN117291190A (zh) | 一种基于情感词典和lda主题模型的用户需求计算方法 | |
CN117591643B (zh) | 一种基于改进的结构化处理的项目文本查重方法及系统 | |
CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN113761875B (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN110874408A (zh) | 模型训练方法、文本识别方法、装置及计算设备 | |
Tripathy et al. | Abstractive method-based text summarization using bidirectional long short-term memory and pointer generator mode | |
Jiang et al. | Sentiment classification based on clause polarity and fusion via convolutional neural network | |
CN112487800B (zh) | 文本处理方法、装置、服务器及存储介质 | |
US11922515B1 (en) | Methods and apparatuses for AI digital assistants | |
CN112507071B (zh) | 基于新型情感词典的网络平台短文本混合情感分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |