CN114398882A - 文档处理方法、装置、设备及存储介质 - Google Patents
文档处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114398882A CN114398882A CN202210035361.4A CN202210035361A CN114398882A CN 114398882 A CN114398882 A CN 114398882A CN 202210035361 A CN202210035361 A CN 202210035361A CN 114398882 A CN114398882 A CN 114398882A
- Authority
- CN
- China
- Prior art keywords
- keyword
- entry
- text
- similarity
- retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能领域,公开了一种文档处理方法、装置、设备及存储介质,用于提高文档处理的效率。所述文档处理方法包括:对文本数据进行停用词过滤,得到标准数据,并对标准数据进行关键词分析,得到多个关键词,以及根据多个关键词生成每个关键词对应的关键词向量;获取每个检索词条对应的词条标签并生成每个检索词条对应的文本向量;调用相似度计算模型计算每个关键词对应的关键词向量和每个检索词条对应的文本向量的相似度,得到多个相似度;将多个相似度中超过预设阈值的相似度作为目标相似度,并将目标相似度对应的词条标签作为项目文档的检索索引词。此外,本发明还涉及区块链技术,目标相似度可存储于区块链节点中。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种文档处理方法、装置、设备及存储介质。
背景技术
随着信息化进程,文档管理越来越受到企业的重视。现如今越来越多的互联网企业通过内部研发或者外部购买的形式,使用文档管理平台进行迭代管理、文档管理、代码管理等功能对公司各部门的工作进行系统化的管理,这就需要上传大量的相关附件文档。
但随着互联网敏捷管理的兴起,越来越多的产品迭代需要快速的进行版本需求、用户故事、概要设计、代码上传等操作,文档管理平台的附件量与日俱增,在进行附件查找时,只能通过附件的命名或者文档的类别进行模糊查询,由于储存的文档过多,根据文件名不能确定自己所需要的所有相关文档,很多时候用户只能靠感觉或者模糊的条件一一打开文档进行浏览,下载操作费时费力,无法通过检索附件内容过滤出有效信息,降低了工作效率。
发明内容
本发明提供了一种文档处理方法、装置、设备及存储介质,用于提高文档处理的效率。
本发明第一方面提供了一种文档处理方法,所述文档处理方法包括:获取待处理的项目文档,并对所述项目文档进行文本识别,得到所述项目文档对应的文本数据;对所述文本数据进行停用词过滤,得到所述文本数据对应的标准数据,并对所述标准数据进行关键词分析,得到所述标准数据对应的多个关键词,以及根据所述多个关键词生成所述每个关键词对应的关键词向量;获取预置的每个检索词条对应的词条标签,并根据所述每个检索词条对应的词条标签生成每个检索词条对应的文本向量;调用预置的相似度计算模型计算所述每个关键词对应的关键词向量和所述每个检索词条对应的文本向量的相似度,得到多个相似度;将所述多个相似度中超过预设阈值的相似度作为目标相似度,获取所述目标相似度对应的词条标签,并将所述目标相似度对应的词条标签作为所述项目文档的检索索引词。
可选的,在本发明第一方面的第一种实现方式中,所述获取待处理的项目文档,并对所述项目文档进行文本识别,得到所述项目文档对应的文本数据,包括:从预置的文档数据库中查询待处理的项目文档;通过预置的文字识别模型对所述项目文档进行文本标注,得到所述项目文档对应的文本框;对所述项目文档对应的文本框进行文本提取,得到所述文本框对应的文字信息;通过预置的语言模型对所述文本框对应的文字信息进行拼接,得到所述项目文档对应的文本数据。
可选的,在本发明第一方面的第二种实现方式中,所述对所述文本数据进行停用词过滤,得到所述文本数据对应的标准数据,并对所述标准数据进行关键词分析,得到所述标准数据对应的多个关键词,以及根据所述多个关键词生成所述每个关键词对应的关键词向量,包括:调用预置的停用词表和所述文本数据中的字词进行匹配,得到所述文本数据中的停用词,并对所述文本数据中的停用词进行删除,得到标准数据;通过预置的匹配规则将所述标准数据中的词汇进行关键词提取,得到所述标准数据对应的多个关键词;根据所述多个关键词生成所述每个关键词对应的关键词向量。
可选的,在本发明第一方面的第三种实现方式中,所述通过预置的匹配规则将所述标准数据中的词汇进行关键词提取,得到所述标准数据对应的多个关键词,包括:计算所述标准数据中多个关键词对应的词相关度:根据所述词相关度生成关键词之间的关联强度,并根据所述关联强度生成关键词权重;根据所述关键词的关键词权重生成所述每个关键词对应的关键词向量。
可选的,在本发明第一方面的第四种实现方式中,所述获取预置的每个检索词条对应的词条标签,并根据所述每个检索词条对应的词条标签生成每个检索词条对应的文本向量,包括:从预置的项目文档信息库中查询检索词表,并提取所述检索词表中的多个词条标签;分别将所述每个词条标签转换为向量,得到所述每个检索词条对应的文本向量。
可选的,在本发明第一方面的第五种实现方式中,所述调用预置的相似度计算模型计算所述每个关键词对应的关键词向量和所述每个检索词条对应的文本向量的相似度,得到多个相似度,包括:通过所述相似度计算模型中的卷积层对每个关键词对应的关键词向量和所述每个检索词条对应的文本向量进行降维处理;通过所述相似度计算模型中的池化层对降维处理后的所述关键词向量与所述文本向量进行特征向量的提取;通过所述相似度计算模型中的全连接层计算提取特征向量后的每个关键词对应的关键词向量和所述每个检索词条对应的文本向量的相似度,得到多个相似度。
可选的,在本发明第一方面的第六种实现方式中,所述将所述多个相似度中超过预设阈值的相似度作为目标相似度,获取所述目标相似度对应的词条标签,并将所述目标相似度对应的词条标签作为所述项目文档的检索索引词,包括:对所述多个相似度和预置的阈值进行比较,并将所述多个相似度中超过预设阈值的相似度作为目标相似度;查询所述目标相似度对应的词条标签;基于所述目标相似度对应的词条标签生成所述项目文档的检索索引词。
本发明第二方面提供了一种文档处理装置,所述文档处理装置包括:获取模块,用于获取待处理的项目文档,并对所述项目文档进行文本识别,得到所述项目文档对应的文本数据;过滤模块,用于对所述文本数据进行停用词过滤,得到所述文本数据对应的标准数据,并对所述标准数据进行关键词分析,得到所述标准数据对应的多个关键词,以及根据所述多个关键词生成所述每个关键词对应的关键词向量;生成模块,用于获取预置的每个检索词条对应的词条标签,并根据所述每个检索词条对应的词条标签生成每个检索词条对应的文本向量;计算模块,用于调用预置的相似度计算模型计算所述每个关键词对应的关键词向量和所述每个检索词条对应的文本向量的相似度,得到多个相似度;处理模块,用于将所述多个相似度中超过预设阈值的相似度作为目标相似度,获取所述目标相似度对应的词条标签,并将所述目标相似度对应的词条标签作为所述项目文档的检索索引词。
可选的,在本发明第二方面的第一种实现方式中,所述获取模块具体用于:从预置的文档数据库中查询待处理的项目文档;通过预置的文字识别模型对所述项目文档进行文本标注,得到所述项目文档对应的文本框;对所述项目文档对应的文本框进行文本提取,得到所述文本框对应的文字信息;通过预置的语言模型对所述文本框对应的文字信息进行拼接,得到所述项目文档对应的文本数据。
可选的,在本发明第二方面的第二种实现方式中,所述过滤模块还包括:匹配单元,用于调用预置的停用词表和所述文本数据中的字词进行匹配,得到所述文本数据中的停用词,并对所述文本数据中的停用词进行删除,得到标准数据;提取单元,用于通过预置的匹配规则将所述标准数据中的词汇进行关键词提取,得到所述标准数据对应的多个关键词;生成单元,用于根据所述多个关键词生成所述每个关键词对应的关键词向量。
可选的,在本发明第二方面的第三种实现方式中,所述提取单元具体用于:计算所述标准数据中多个关键词对应的词相关度:根据所述词相关度生成关键词之间的关联强度,并根据所述关联强度生成关键词权重;根据所述关键词的关键词权重生成所述每个关键词对应的关键词向量。
可选的,在本发明第二方面的第四种实现方式中,所述生成模块具体用于:从预置的项目文档信息库中查询检索词表,并提取所述检索词表中的多个词条标签;分别将所述每个词条标签转换为向量,得到所述每个检索词条对应的文本向量。
可选的,在本发明第二方面的第五种实现方式中,所述计算模块具体用于:通过所述相似度计算模型中的卷积层对每个关键词对应的关键词向量和所述每个检索词条对应的文本向量进行降维处理;通过所述相似度计算模型中的池化层对降维处理后的所述关键词向量与所述文本向量进行特征向量的提取;通过所述相似度计算模型中的全连接层计算提取特征向量后的每个关键词对应的关键词向量和所述每个检索词条对应的文本向量的相似度,得到多个相似度。
可选的,在本发明第二方面的第六种实现方式中,所述处理模块具体用于:对所述多个相似度和预置的阈值进行比较,并将所述多个相似度中超过预设阈值的相似度作为目标相似度;查询所述目标相似度对应的词条标签;基于所述目标相似度对应的词条标签生成所述项目文档的检索索引词。
本发明第三方面提供了一种文档处理设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述文档处理设备执行上述的文档处理方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的文档处理方法。
本发明提供的技术方案中,获取待处理的项目文档,并对项目文档进行文本识别,得到项目文档对应的文本数据;对文本数据进行停用词过滤,得到文本数据对应的标准数据,并对标准数据进行关键词分析,得到标准数据对应的多个关键词,以及根据多个关键词生成每个关键词对应的关键词向量;获取预置的每个检索词条对应的词条标签,并根据每个检索词条对应的词条标签生成每个检索词条对应的文本向量;调用预置的相似度计算模型计算每个关键词对应的关键词向量和每个检索词条对应的文本向量的相似度,得到多个相似度;将多个相似度中超过预设阈值的相似度作为目标相似度,获取目标相似度对应的词条标签,并将目标相似度对应的词条标签作为项目文档的检索索引词。本发明通过对项目文档进行识别再通过相似度计算模型生成项目文档中关键词的检索索引词,通过生成的检索索引词可以快速检索到用户需要找到项目文档中的资料,提高了文档处理的效率。
附图说明
图1为本发明实施例中文档处理方法的一个实施例示意图;
图2为本发明实施例中文档处理方法的另一个实施例示意图;
图3为本发明实施例中文档处理装置的一个实施例示意图;
图4为本发明实施例中文档处理装置的另一个实施例示意图;
图5为本发明实施例中文档处理设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种文档处理方法、装置、设备及存储介质,用于提高文档处理的效率。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中文档处理方法的第一个实施例包括:
101、获取待处理的项目文档,并对项目文档进行文本识别,得到项目文档对应的文本数据;
具体的,服务器进行文本识别的具体过程为:服务器首先将待处理的项目文档对应的文本进行字符分割,得到多个字符,服务器对多个字符进行字符识别,识别得到初始文字信息,初始文字信息需要根据上下文信息进行后处理和校对,得到项目文档对应的文字信息,服务器根据文字信息生成项目文档对应的文本数据。
可以理解的是,本发明的执行主体可以为文档处理装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。本发明实施例以服务器为执行主体为例进行说明。本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
102、对文本数据进行停用词过滤,得到文本数据对应的标准数据,并对标准数据进行关键词分析,得到标准数据对应的多个关键词,以及根据多个关键词生成每个关键词对应的关键词向量;
需要说明的是,停用词是文本数据的功能词中没有什么实际意义的词,对文本的分类没有什么影响,但是出现频率高,于是,会造成文本分类的效果,其中停用词包括常用的代词、介词等,例如常用的停用词为“的”、“在”、“不过”等等。服务器通过预先构建好的停用词表和文本数据中的字词进行匹配,得到项目文本及中的停用词,并将停用词删除,预先构建好的停用词表通过网页下载得到。
103、获取预置的每个检索词条对应的词条标签,并根据每个检索词条对应的词条标签生成每个检索词条对应的文本向量;
具体的,服务器,项目文档信息库是由从不同项目获取的项目资料以及从专业项目网站下载的项目资料所组合而成的数据库。预先确定的关键项目条款包括:交易金额、交易时间、交易方式以及交易对象等等。服务器通过上述关键词集转换为词向量集的方式,将关键项目条款的文本集转换为文本向量。
104、调用预置的相似度计算模型计算每个关键词对应的关键词向量和每个检索词条对应的文本向量的相似度,得到多个相似度;
具体的,服务器预先构建的相似度计算模型包括:输入层、卷积神经网络以及输出层,其中,卷积神经网络是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,其基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。该局部特征被提取后,它与其它特征间的位置关系也随之确定下来,特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。
105、将多个相似度中超过预设阈值的相似度作为目标相似度,获取目标相似度对应的词条标签,并将目标相似度对应的词条标签作为项目文档的检索索引词。
具体的,服务器其中,当关键词向量与文本词向量的相似度大于预设阈值的相似度时,本发明将对应的关键词向量作为项目文本的关键词条,并通过输出层输出对应的关键词向量,从而完成项目文本关键词条的提取。
进一步地,服务器将目标相似度存储于区块链数据库中,具体此处不做限定。
本发明实施例中,获取待处理的项目文档,并对项目文档进行文本识别,得到项目文档对应的文本数据;对文本数据进行停用词过滤,得到文本数据对应的标准数据,并对标准数据进行关键词分析,得到标准数据对应的多个关键词,以及根据多个关键词生成每个关键词对应的关键词向量;获取预置的每个检索词条对应的词条标签,并根据每个检索词条对应的词条标签生成每个检索词条对应的文本向量;调用预置的相似度计算模型计算每个关键词对应的关键词向量和每个检索词条对应的文本向量的相似度,得到多个相似度;将多个相似度中超过预设阈值的相似度作为目标相似度,获取目标相似度对应的词条标签,并将目标相似度对应的词条标签作为项目文档的检索索引词。本发明通过对项目文档进行识别再通过相似度计算模型生成项目文档中关键词的检索索引词,通过生成的检索索引词可以快速检索到用户需要找到项目文档中的资料,提高了文档处理的效率。
请参阅图2,本发明实施例中文档处理方法的第二个实施例包括:
201、获取待处理的项目文档,并对项目文档进行文本识别,得到项目文档对应的文本数据;
可选的,服务器从预置的文档数据库中查询待处理的项目文档;服务器通过预置的文字识别模型对项目文档进行文本标注,得到项目文档对应的文本框;服务器对项目文档对应的文本框进行文本提取,得到文本框对应的文字信息;服务器通过预置的语言模型对文本框对应的文字信息进行拼接,得到项目文档对应的文本数据。
具体的,服务器需要说明的是,预置的文字识别模型可以为光学字符识别模型(optical character recognition,OCR),光学字符识别模型是对文本内容进行识别,对项目文档进行信息提取,得到项目文档对应的文字信息,此外,文字信息还需要进行再次核验并将核验通过的文字信息作为项目文档对应的文本框的文字信息。
202、调用预置的停用词表和文本数据中的字词进行匹配,得到文本数据中的停用词,并对文本数据中的停用词进行删除,得到标准数据;
具体的,服务器通过预置的匹配规则将去停用词后的文本数据的字词与词典中的词条进行匹配,得到标准数据对应的多个关键词,并将多个关键词用空格符号隔开,完成分词操作,从而得到多个关键词。其中,预置的匹配规则为正向最大匹配法,正向最大匹配法的思想为从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配成功,则切分出一个关键词。
203、通过预置的匹配规则将标准数据中的词汇进行关键词提取,得到标准数据对应的多个关键词;
可选的,服务器计算标准数据中多个关键词对应的词相关度:服务器根据词相关度生成关键词之间的关联强度,并根据关联强度生成关键词权重;服务器根据关键词的关键词权重生成每个关键词对应的关键词向量。
具体的,服务器计算关键词m和关键词n的词相关度,服务器关键词m和n之间的依存路径长度;服务器计算关键词m和n的引力:其中,fgrav(m,n)表示关键词m和n的引力,tfidf(m)表示关键词m的TF-IDF值,tfidf(n)表示关键词n的TF-IDF值,TF表示词频,IDF表示逆文档频率指数,d是关键词m和n的词向量之间的欧式距离;weight(m,n)=Dep(m,n)*fgrav(m,n),根据关联强度计算出关键词m的关键词权重。
204、根据多个关键词生成每个关键词对应的关键词向量;
服务器通过独热向量将多个关键词转换为词向量进行表示,通过提取语料库中所有的词构建一个词典,其中的每个词都用一个词向量表示,该向量的维度和词典规模相等,并且向量中只有当前词对应的维度的值是1,其余维度的值全部为0,据此,本发明将所有关键词的维度转化为1,其余词的维度为0,从而进行词向量表示,得到关键词向量。
205、获取预置的每个检索词条对应的词条标签,并根据每个检索词条对应的词条标签生成每个检索词条对应的文本向量;
可选的,服务器从预置的项目文档信息库中查询检索词表,并提取检索词表中的多个词条标签;服务器分别将每个词条标签转换为向量,得到每个检索词条对应的文本向量。
具体的,服务器通过上述关键词集转换为词向量集的方式,将关键项目条款的文本集转换为文本向量,也就是服务器将词条标签中的每个词和预置的转换规则进行匹配,将匹配完成的词条标签转换为对应的文本向量,得到每个检索词条对应的文本向量。
206、调用预置的相似度计算模型计算每个关键词对应的关键词向量和每个检索词条对应的文本向量的相似度,得到多个相似度;
可选的,服务器分通过相似度计算模型中的卷积层对每个关键词对应的关键词向量和每个检索词条对应的文本向量进行降维处理;服务器通过相似度计算模型中的池化层对降维处理后的关键词向量与文本向量进行特征向量的提取;服务器通过相似度计算模型中的全连接层计算提取特征向量后的每个关键词对应的关键词向量和每个检索词条对应的文本向量的相似度,得到多个相似度。
具体的,服务器相似度计算模型包括:卷积层、池化层以及全连接层,服务器将每个关键词对应的关键词向量和每个检索词条对应的文本向量输入至输入层中,通过卷积层对每个关键词对应的关键词向量和每个检索词条对应的文本向量进行降维处理,通过池化层对降维处理后的每个关键词对应的关键词向量和每个检索词条对应的文本向量进行特征向量的提取,并通过全连接层计算提取特征向量后的每个关键词对应的关键词向量和每个检索词条对应的文本向量之间的相似度,从而得到多个相似度。
207、将多个相似度中超过预设阈值的相似度作为目标相似度,获取目标相似度对应的词条标签,并将目标相似度对应的词条标签作为项目文档的检索索引词。
可选的,服务器对多个相似度和预置的阈值进行比较,并将多个相似度中超过预设阈值的相似度作为目标相似度;服务器查询目标相似度对应的词条标签;服务器基于目标相似度对应的词条标签生成项目文档的检索索引词。
具体的,服务器对多个相似度和预置的阈值进行比较,并将多个相似度中超过预设阈值的相似度作为目标相似度;服务器查询目标相似度对应的词条标签;服务器基于目标相似度对应的词条标签生成项目文档的检索索引词。例如:当相似度为0.8时,预置的阈值为0.7,因此当前的相似度大于预置的阈值,将当前相似度为0.8时对应的词条标签作为项目文档的检索索引词。
进一步地,服务器将目标相似度存储于区块链数据库中,具体此处不做限定。
本发明实施例中,获取待处理的项目文档,并对项目文档进行文本识别,得到项目文档对应的文本数据;对文本数据进行停用词过滤,得到文本数据对应的标准数据,并对标准数据进行关键词分析,得到标准数据对应的多个关键词,以及根据多个关键词生成每个关键词对应的关键词向量;获取预置的每个检索词条对应的词条标签,并根据每个检索词条对应的词条标签生成每个检索词条对应的文本向量;调用预置的相似度计算模型计算每个关键词对应的关键词向量和每个检索词条对应的文本向量的相似度,得到多个相似度;将多个相似度中超过预设阈值的相似度作为目标相似度,获取目标相似度对应的词条标签,并将目标相似度对应的词条标签作为项目文档的检索索引词。本发明通过对项目文档进行识别再通过相似度计算模型生成项目文档中关键词的检索索引词,通过生成的检索索引词可以快速检索到用户需要找到项目文档中的资料,提高了文档处理的效率。
上面对本发明实施例中文档处理方法进行了描述,下面对本发明实施例中文档处理装置进行描述,请参阅图3,本发明实施例中文档处理装置第一个实施例包括:
获取模块301,用于获取待处理的项目文档,并对所述项目文档进行文本识别,得到所述项目文档对应的文本数据;
过滤模块302,用于对所述文本数据进行停用词过滤,得到所述文本数据对应的标准数据,并对所述标准数据进行关键词分析,得到所述标准数据对应的多个关键词,以及根据所述多个关键词生成所述每个关键词对应的关键词向量;
生成模块303,用于获取预置的每个检索词条对应的词条标签,并根据所述每个检索词条对应的词条标签生成每个检索词条对应的文本向量;
计算模块304,用于调用预置的相似度计算模型计算所述每个关键词对应的关键词向量和所述每个检索词条对应的文本向量的相似度,得到多个相似度;
处理模块305,用于将所述多个相似度中超过预设阈值的相似度作为目标相似度,获取所述目标相似度对应的词条标签,并将所述目标相似度对应的词条标签作为所述项目文档的检索索引词。
进一步地,服务器将目标相似度存储于区块链数据库中,具体此处不做限定。
本发明实施例中,获取待处理的项目文档,并对项目文档进行文本识别,得到项目文档对应的文本数据;对文本数据进行停用词过滤,得到文本数据对应的标准数据,并对标准数据进行关键词分析,得到标准数据对应的多个关键词,以及根据多个关键词生成每个关键词对应的关键词向量;获取预置的每个检索词条对应的词条标签,并根据每个检索词条对应的词条标签生成每个检索词条对应的文本向量;调用预置的相似度计算模型计算每个关键词对应的关键词向量和每个检索词条对应的文本向量的相似度,得到多个相似度;将多个相似度中超过预设阈值的相似度作为目标相似度,获取目标相似度对应的词条标签,并将目标相似度对应的词条标签作为项目文档的检索索引词。本发明通过对项目文档进行识别再通过相似度计算模型生成项目文档中关键词的检索索引词,通过生成的检索索引词可以快速检索到用户需要找到项目文档中的资料,提高了文档处理的效率。
请参阅图4,本发明实施例中文档处理装置第二个实施例包括:
获取模块301,用于获取待处理的项目文档,并对所述项目文档进行文本识别,得到所述项目文档对应的文本数据;
过滤模块302,用于对所述文本数据进行停用词过滤,得到所述文本数据对应的标准数据,并对所述标准数据进行关键词分析,得到所述标准数据对应的多个关键词,以及根据所述多个关键词生成所述每个关键词对应的关键词向量;
生成模块303,用于获取预置的每个检索词条对应的词条标签,并根据所述每个检索词条对应的词条标签生成每个检索词条对应的文本向量;
计算模块304,用于调用预置的相似度计算模型计算所述每个关键词对应的关键词向量和所述每个检索词条对应的文本向量的相似度,得到多个相似度;
处理模块305,用于将所述多个相似度中超过预设阈值的相似度作为目标相似度,获取所述目标相似度对应的词条标签,并将所述目标相似度对应的词条标签作为所述项目文档的检索索引词。
可选的,获取模块301具体用于:
从预置的文档数据库中查询待处理的项目文档;通过预置的文字识别模型对所述项目文档进行文本标注,得到所述项目文档对应的文本框;对所述项目文档对应的文本框进行文本提取,得到所述文本框对应的文字信息;通过预置的语言模型对所述文本框对应的文字信息进行拼接,得到所述项目文档对应的文本数据。
可选的,过滤模块302还包括:
匹配单元3021,用于调用预置的停用词表和所述文本数据中的字词进行匹配,得到所述文本数据中的停用词,并对所述文本数据中的停用词进行删除,得到标准数据;
提取单元3022,用于通过预置的匹配规则将所述标准数据中的词汇进行关键词提取,得到所述标准数据对应的多个关键词;
生成单元3023,用于根据所述多个关键词生成所述每个关键词对应的关键词向量。
可选的,提取单元3022具体用于:
计算所述标准数据中多个关键词对应的词相关度:根据所述词相关度生成关键词之间的关联强度,并根据所述关联强度生成关键词权重;根据所述关键词的关键词权重生成所述每个关键词对应的关键词向量。
可选的,生成模块303具体用于:
从预置的项目文档信息库中查询检索词表,并提取所述检索词表中的多个词条标签;分别将所述每个词条标签转换为向量,得到所述每个检索词条对应的文本向量。
可选的,计算模块304具体用于:
通过所述相似度计算模型中的卷积层对每个关键词对应的关键词向量和所述每个检索词条对应的文本向量进行降维处理;通过所述相似度计算模型中的池化层对降维处理后的所述关键词向量与所述文本向量进行特征向量的提取;通过所述相似度计算模型中的全连接层计算提取特征向量后的每个关键词对应的关键词向量和所述每个检索词条对应的文本向量的相似度,得到多个相似度。
可选的,处理模块305具体用于:
对所述多个相似度和预置的阈值进行比较,并将所述多个相似度中超过预设阈值的相似度作为目标相似度;查询所述目标相似度对应的词条标签;基于所述目标相似度对应的词条标签生成所述项目文档的检索索引词。
进一步地,服务器将目标相似度存储于区块链数据库中,具体此处不做限定。
本发明实施例中,获取待处理的项目文档,并对项目文档进行文本识别,得到项目文档对应的文本数据;对文本数据进行停用词过滤,得到文本数据对应的标准数据,并对标准数据进行关键词分析,得到标准数据对应的多个关键词,以及根据多个关键词生成每个关键词对应的关键词向量;获取预置的每个检索词条对应的词条标签,并根据每个检索词条对应的词条标签生成每个检索词条对应的文本向量;调用预置的相似度计算模型计算每个关键词对应的关键词向量和每个检索词条对应的文本向量的相似度,得到多个相似度;将多个相似度中超过预设阈值的相似度作为目标相似度,获取目标相似度对应的词条标签,并将目标相似度对应的词条标签作为项目文档的检索索引词。本发明通过对项目文档进行识别再通过相似度计算模型生成项目文档中关键词的检索索引词,通过生成的检索索引词可以快速检索到用户需要找到项目文档中的资料,提高了文档处理的效率。
上面图3和图4从模块化功能实体的角度对本发明实施例中的文档处理装置进行详细描述,下面从硬件处理的角度对本发明实施例中文档处理设备进行详细描述。
图5是本发明实施例提供的一种文档处理设备的结构示意图,该文档处理设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对文档处理设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在文档处理设备500上执行存储介质530中的一系列指令操作。
文档处理设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的文档处理设备结构并不构成对文档处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种文档处理设备,所述文档处理设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述文档处理方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述文档处理方法的步骤。
进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种文档处理方法,其特征在于,所述文档处理方法包括:
获取待处理的项目文档,并对所述项目文档进行文本识别,得到所述项目文档对应的文本数据;
对所述文本数据进行停用词过滤,得到所述文本数据对应的标准数据,并对所述标准数据进行关键词分析,得到所述标准数据对应的多个关键词,以及根据所述多个关键词生成所述每个关键词对应的关键词向量;
获取预置的每个检索词条对应的词条标签,并根据所述每个检索词条对应的词条标签生成每个检索词条对应的文本向量;
调用预置的相似度计算模型计算所述每个关键词对应的关键词向量和所述每个检索词条对应的文本向量的相似度,得到多个相似度;
将所述多个相似度中超过预设阈值的相似度作为目标相似度,获取所述目标相似度对应的词条标签,并将所述目标相似度对应的词条标签作为所述项目文档的检索索引词。
2.根据权利要求1所述的文档处理方法,其特征在于,所述获取待处理的项目文档,并对所述项目文档进行文本识别,得到所述项目文档对应的文本数据,包括:
从预置的文档数据库中查询待处理的项目文档;
通过预置的文字识别模型对所述项目文档进行文本标注,得到所述项目文档对应的文本框;
对所述项目文档对应的文本框进行文本提取,得到所述文本框对应的文字信息;
通过预置的语言模型对所述文本框对应的文字信息进行拼接,得到所述项目文档对应的文本数据。
3.根据权利要求1所述的文档处理方法,其特征在于,所述对所述文本数据进行停用词过滤,得到所述文本数据对应的标准数据,并对所述标准数据进行关键词分析,得到所述标准数据对应的多个关键词,以及根据所述多个关键词生成所述每个关键词对应的关键词向量,包括:
调用预置的停用词表和所述文本数据中的字词进行匹配,得到所述文本数据中的停用词,并对所述文本数据中的停用词进行删除,得到标准数据;
通过预置的匹配规则将所述标准数据中的词汇进行关键词提取,得到所述标准数据对应的多个关键词;
根据所述多个关键词生成所述每个关键词对应的关键词向量。
4.根据权利要求3所述的文档处理方法,其特征在于,所述通过预置的匹配规则将所述标准数据中的词汇进行关键词提取,得到所述标准数据对应的多个关键词,包括:
计算所述标准数据中多个关键词对应的词相关度:
根据所述词相关度生成关键词之间的关联强度,并根据所述关联强度生成关键词权重;
根据所述关键词的关键词权重生成所述每个关键词对应的关键词向量。
5.根据权利要求1所述的文档处理方法,其特征在于,所述获取预置的每个检索词条对应的词条标签,并根据所述每个检索词条对应的词条标签生成每个检索词条对应的文本向量,包括:
从预置的项目文档信息库中查询检索词表,并提取所述检索词表中的多个词条标签;
分别将所述每个词条标签转换为向量,得到所述每个检索词条对应的文本向量。
6.根据权利要求1所述的文档处理方法,其特征在于,所述调用预置的相似度计算模型计算所述每个关键词对应的关键词向量和所述每个检索词条对应的文本向量的相似度,得到多个相似度,包括:
通过所述相似度计算模型中的卷积层对每个关键词对应的关键词向量和所述每个检索词条对应的文本向量进行降维处理;
通过所述相似度计算模型中的池化层对降维处理后的所述关键词向量与所述文本向量进行特征向量的提取;
通过所述相似度计算模型中的全连接层计算提取特征向量后的每个关键词对应的关键词向量和所述每个检索词条对应的文本向量的相似度,得到多个相似度。
7.根据权利要求1-6中任一项所述的文档处理方法,其特征在于,所述将所述多个相似度中超过预设阈值的相似度作为目标相似度,获取所述目标相似度对应的词条标签,并将所述目标相似度对应的词条标签作为所述项目文档的检索索引词,包括:
对所述多个相似度和预置的阈值进行比较,并将所述多个相似度中超过预设阈值的相似度作为目标相似度;
查询所述目标相似度对应的词条标签;
基于所述目标相似度对应的词条标签生成所述项目文档的检索索引词。
8.一种文档处理装置,其特征在于,所述文档处理装置包括:
获取模块,用于获取待处理的项目文档,并对所述项目文档进行文本识别,得到所述项目文档对应的文本数据;
过滤模块,用于对所述文本数据进行停用词过滤,得到所述文本数据对应的标准数据,并对所述标准数据进行关键词分析,得到所述标准数据对应的多个关键词,以及根据所述多个关键词生成所述每个关键词对应的关键词向量;
生成模块,用于获取预置的每个检索词条对应的词条标签,并根据所述每个检索词条对应的词条标签生成每个检索词条对应的文本向量;
计算模块,用于调用预置的相似度计算模型计算所述每个关键词对应的关键词向量和所述每个检索词条对应的文本向量的相似度,得到多个相似度;
处理模块,用于将所述多个相似度中超过预设阈值的相似度作为目标相似度,获取所述目标相似度对应的词条标签,并将所述目标相似度对应的词条标签作为所述项目文档的检索索引词。
9.一种文档处理设备,其特征在于,所述文档处理设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述文档处理设备执行如权利要求1-7中任一项所述的文档处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述的文档处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210035361.4A CN114398882A (zh) | 2022-01-13 | 2022-01-13 | 文档处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210035361.4A CN114398882A (zh) | 2022-01-13 | 2022-01-13 | 文档处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114398882A true CN114398882A (zh) | 2022-04-26 |
Family
ID=81231478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210035361.4A Pending CN114398882A (zh) | 2022-01-13 | 2022-01-13 | 文档处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114398882A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115827875A (zh) * | 2023-01-09 | 2023-03-21 | 无锡容智技术有限公司 | 一种文本数据的处理终端查找方法 |
CN116090466A (zh) * | 2022-12-16 | 2023-05-09 | 上海美嘉林软件科技股份有限公司 | 技术信息文档语义单元构建方法及系统 |
CN117390214A (zh) * | 2023-12-12 | 2024-01-12 | 北京云成金融信息服务有限公司 | 一种基于ocr技术的文件检索方法及系统 |
-
2022
- 2022-01-13 CN CN202210035361.4A patent/CN114398882A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116090466A (zh) * | 2022-12-16 | 2023-05-09 | 上海美嘉林软件科技股份有限公司 | 技术信息文档语义单元构建方法及系统 |
CN115827875A (zh) * | 2023-01-09 | 2023-03-21 | 无锡容智技术有限公司 | 一种文本数据的处理终端查找方法 |
CN115827875B (zh) * | 2023-01-09 | 2023-04-25 | 无锡容智技术有限公司 | 一种文本数据的处理终端查找方法 |
CN117390214A (zh) * | 2023-12-12 | 2024-01-12 | 北京云成金融信息服务有限公司 | 一种基于ocr技术的文件检索方法及系统 |
CN117390214B (zh) * | 2023-12-12 | 2024-02-27 | 北京云成金融信息服务有限公司 | 一种基于ocr技术的文件检索方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110222160B (zh) | 智能语义文档推荐方法、装置及计算机可读存储介质 | |
CN110851596B (zh) | 文本分类方法、装置及计算机可读存储介质 | |
CN114398882A (zh) | 文档处理方法、装置、设备及存储介质 | |
CN111460090A (zh) | 基于向量的文档检索方法、装置、计算机设备及存储介质 | |
Gilda | Source code classification using Neural Networks | |
CN111767725B (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN111125086B (zh) | 获取数据资源的方法、装置、存储介质及处理器 | |
CN110765761A (zh) | 基于人工智能的合同敏感词校验方法、装置及存储介质 | |
CN111221944A (zh) | 文本意图识别方法、装置、设备和存储介质 | |
EP2862104A1 (en) | Search method and apparatus | |
CN114329225A (zh) | 基于搜索语句的搜索方法、装置、设备及存储介质 | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
CN111737997A (zh) | 一种文本相似度确定方法、设备及储存介质 | |
Anandika et al. | A study on machine learning approaches for named entity recognition | |
CN110765765B (zh) | 基于人工智能的合同关键条款提取方法、装置及存储介质 | |
US20200089758A1 (en) | Systems and methods for automated document graphing | |
CN114117242A (zh) | 数据查询方法和装置、计算机设备、存储介质 | |
WO2019064137A1 (en) | EXPRESSION OF EXPRESSION FOR TREATMENT OF NATURAL LANGUAGE | |
CN112445862A (zh) | 物联网设备数据集构建方法、装置、电子设备和存储介质 | |
CN113297346B (zh) | 文本意图识别方法、装置、设备及存储介质 | |
CN116069174A (zh) | 一种输入联想方法、电子设备及存储介质 | |
CN114936326A (zh) | 基于人工智能的信息推荐方法、装置、设备及存储介质 | |
CN114722188A (zh) | 基于运营数据的广告生成方法、装置、设备及存储介质 | |
CN111339303B (zh) | 一种基于聚类与自动摘要的文本意图归纳方法及装置 | |
Al-Mofareji et al. | WeDoCWT: A new method for web document clustering using discrete wavelet transforms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |