CN115409041A - 一种非结构化数据提取方法、装置、设备及存储介质 - Google Patents

一种非结构化数据提取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115409041A
CN115409041A CN202211339392.5A CN202211339392A CN115409041A CN 115409041 A CN115409041 A CN 115409041A CN 202211339392 A CN202211339392 A CN 202211339392A CN 115409041 A CN115409041 A CN 115409041A
Authority
CN
China
Prior art keywords
text
vector
feature
coding
data extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211339392.5A
Other languages
English (en)
Other versions
CN115409041B (zh
Inventor
杨阳
钱锋
陈鹏晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xunce Technology Co ltd
Original Assignee
Shenzhen Xunce Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Xunce Technology Co ltd filed Critical Shenzhen Xunce Technology Co ltd
Priority to CN202211339392.5A priority Critical patent/CN115409041B/zh
Publication of CN115409041A publication Critical patent/CN115409041A/zh
Application granted granted Critical
Publication of CN115409041B publication Critical patent/CN115409041B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及数据提取技术,揭露了一种非结构化数据提取方法、装置、设备及存储介质,包括:对初始文本进行预处理,得到目标文本,对目标文本进行向量转化,得到向量文本;对向量文本进行特征提取,得到文本特征,识别向量文本的向量维度,构建文本特征的特征矩阵;对初始文本进行语义识别,得到文本语义;对向量文本进行双向循环编码,得到第一编码向量和第二编码向量,并计算第一编码向量和第二编码向量之间的关联度,计算第一编码向量和第二编码向量对应的级联编码向量;通过训练后的数据提取模型中的结构化识别层,对文本语义和级联编码向量进行识别,确定初始文本中的非结构化文本和结构化文本。本发明通过提高非结构化数据提取效率。

Description

一种非结构化数据提取方法、装置、设备及存储介质
技术领域
本发明涉及数据提取技术领域,尤其涉及一种非结构化数据提取方法、装置、设备及存储介质。
背景技术
非结构化数据指数据结构不规则或不完整,没有预定义且不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片, HTML、各类报表、图像和音频/视频信息等等,目前对非结构化数据的提取主要是通过OCR识别技术和建立对应的非结构化数据库,以此对文本中的非结构化数据进行识别和提取,但是该方法需要对文本进行大量的计算,并花费很多时间去搜集非结构数据,进而导致对文本的非结构化数据提取的效率降低,因此需要一种能够提高非结构化数据提取效率的方法。
发明内容
本发明提供一种非结构化数据提取方法、装置、设备及存储介质,其主要目的在于提高非结构化数据提取效率。
为实现上述目的,本发明提供的一种非结构化数据提取方法,包括:
获取待提取的初始文本,对所述初始文本进行预处理,得到目标文本,对所述目标文本进行向量转化,得到向量文本;
利用训练后的数据提取模型中的卷积层对所述向量文本进行特征提取,得到文本特征,识别所述向量文本的向量维度,根据所述向量维度,构建所述文本特征的特征矩阵;
根据所述特征矩阵,利用所述训练后的数据提取模型中的语义识别层对所述初始文本进行语义识别,得到文本语义;
利用所述训练后的数据提取模型中的双向循环层对所述向量文本进行双向循环编码,得到第一编码向量和第二编码向量,并计算所述第一编码向量和所述第二编码向量之间的关联度,根据所述关联度,计算所述第一编码向量和所述第二编码向量对应的级联编码向量;
通过所述训练好的数据提取模型中的结构化识别层,对所述文本语义和所述级联编码向量进行识别,确定所述初始文本中的非结构化文本和结构化文本。
可选地,所述对所述初始文本进行预处理,得到目标文本,包括:
对所述初始文本进行标准化处理,得到标准文本;
对所述标准文本进行去重处理,得到去重文本;
根据预设的停用词对照表对所述去重文本进行停用词过滤,得到所述目标文本。
可选地,根据所述向量维度,构建所述文本特征的特征矩阵,包括:
利用下述公式构建所述文本特征的特征矩阵:
Figure 331387DEST_PATH_IMAGE001
其中,
Figure 325888DEST_PATH_IMAGE002
表示所述文本特征的特征矩阵,i表示所述文本特征中的特征数量,
Figure 670282DEST_PATH_IMAGE003
表示所述文本向量的向量维度,
Figure 574784DEST_PATH_IMAGE004
表示所述文本特征的自变量,
Figure 346431DEST_PATH_IMAGE005
表示信息特征对应的矩阵谱径。
可选地,所述根据所述特征矩阵,利用训练后的数据提取模型中的语义识别层对所述初始文本进行语义识别,得到文本语义,包括:
通过所述语义识别层执行如下操作:
计算所述特征矩阵中每个特征之间的特征距离值;
将所述特征距离值大于预设值的特征作为所述初始文本的目标特征;
对所述目标特征对应的文本进行语义解析,得到目标语义;
计算所述目标语义对所述初始文本的支持度;
根据所述支持度,对目标语义进行筛选,得到所述初始文本的文本语义。
可选地,所述计算所述特征矩阵中每个特征之间的特征距离值,包括:
通过下述公式计算所特征矩阵中每个特征之间的特征距离值:
Figure 828228DEST_PATH_IMAGE006
其中,a和b分别为第一特征的标识和第二特征的标识,所述第一特征和所述第二特征为所述特征矩阵中的相邻特征;
Figure 976312DEST_PATH_IMAGE007
表示所述第一特征和所述第二特征之间的特征距离值,i表示特征矩阵中的起始特征,
Figure 716079DEST_PATH_IMAGE008
表示所述第一特征的初始坐标值,
Figure 924207DEST_PATH_IMAGE009
表示所述第二特征的初始坐标值,
Figure 299825DEST_PATH_IMAGE010
表示与终止特征相邻的特征终止坐标值,
Figure 986021DEST_PATH_IMAGE011
表示终止特征的终止坐标值。
可选地,所述计算所述目标语义对所述初始文本的支持度,包括:
通过下述公式计算所述目标语义对所述初始文本的支持度:
Figure 724170DEST_PATH_IMAGE012
其中,
Figure 962253DEST_PATH_IMAGE013
表示目标语义对初始文本的支持度,
Figure 153063DEST_PATH_IMAGE014
表示目标语义中第i个语义的横向量,
Figure 642950DEST_PATH_IMAGE015
表示初始文本的横向量,
Figure 376551DEST_PATH_IMAGE016
表示目标语义中第i个语义的横向量与初始文本的横向量的积分映射值。
可选地,所述利用所述训练后的数据提取模型中的双向循环层对所述向量文本进行双向循环编码,得到第一编码向量和第二编码向量,包括:
通过下述公式对所述向量文本进行双向循环编码:
Figure 926481DEST_PATH_IMAGE017
Figure 604587DEST_PATH_IMAGE018
其中,
Figure 632586DEST_PATH_IMAGE019
表示第一编码向量,f表示描述概率系数,
Figure 204381DEST_PATH_IMAGE020
表示前方转移矩阵,
Figure 925213DEST_PATH_IMAGE021
表示向前编码时向量文本对应的特征,
Figure 90615DEST_PATH_IMAGE022
表示转移矩阵,
Figure 922305DEST_PATH_IMAGE023
表示向前循环时的文本信息,
Figure 99339DEST_PATH_IMAGE024
表示第二编码向量,
Figure 991072DEST_PATH_IMAGE025
表示后方转移矩阵,
Figure 643770DEST_PATH_IMAGE026
表示向后编码时向量文本对应的特征,
Figure 13572DEST_PATH_IMAGE027
表示向后循环时的文本信息。
为了解决上述问题,本发明还提供一种非结构化数据提取装置,所述装置包括:
向量转化模块,用于获取待提取的初始文本,对所述初始文本进行预处理,得到目标文本,对所述目标文本进行向量转化,得到向量文本;
矩阵构建模块,用于利用训练后的数据提取模型中的卷积层对所述向量文本进行特征提取,得到文本特征,识别所述向量文本的向量维度,根据所述向量维度,构建所述文本特征的特征矩阵;
语义识别模块,用于根据所述特征矩阵,利用所述训练后的数据提取模型中的语义识别层对所述初始文本进行语义识别,得到文本语义;
双向循环编码模块,用于利用所述训练后的数据提取模型中的双向循环层对所述向量文本进行双向循环编码,得到第一编码向量和第二编码向量,并计算所述第一编码向量和所述第二编码向量之间的关联度,根据所述关联度,计算所述第一编码向量和所述第二编码向量对应的级联编码向量;
结构识别模块,用于通过所述训练好的数据提取模型中的结构化识别层,对所述文本语义和所述级联编码向量进行识别,确定所述初始文本中的非结构化文本和结构化文本。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的非结构化数据提取方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的非结构化数据提取方法。
本发明通过获取待提取的初始文本,对所述初始文本进行预处理,得到目标文本,可以将所述初始文本中的无用信息进行去除,以便于提高后续对所述初始文本处理的效率,本发明通过利用训练后的数据提取模型中的卷积层对所述向量文本进行特征提取,得到文本特征,可以了解所述向量文本中的特征部分,为后续构建所述文本特征提供了前提,其中,本发明通过根据所述特征矩阵,利用训练后的数据提取模型中的语义识别层对所述初始文本进行语义识别,得到文本语义,通过所述文本语义可以了解到所述初始文本中的文本表达含义;此外,本发明通过利用所述训练后的数据提取模型中的双向循环层对所述向量文本进行双向循环编码,得到第一编码向量和第二编码向量,对所述向量文本进行双向循环,可以结合所述向量文本的前后文本的关联性进行编码,本发明通过通过所述训练好的数据提取模型中的结构化识别层,对所述文本语义和所述级联编码向量进行识别,进而便于后续确定所述初始文本中的非结构化文本和结构化文本。因此,本发明实施例提供的一种非结构化数据提取方法、装置、设备及存储介质,能够在于提高非结构化数据提取效率。
附图说明
图1为本发明一实施例提供的非结构化数据提取方法的流程示意图;
图2为本发明一实施例提供的非结构化数据提取装置的功能模块图;
图3为本发明一实施例提供的实现所述非结构化数据提取方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种非结构化数据提取方法。本申请实施例中,所述非结构化数据提取方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述非结构化数据提取方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的非结构化数据提取方法的流程示意图。在本实施例中,所述非结构化数据提取方法包括步骤S1—S5:
S1、获取待提取的初始文本,对所述初始文本进行预处理,得到目标文本,对所述目标文本进行向量转化,得到向量文本。
本发明通过获取待提取的初始文本,对所述初始文本进行预处理,得到目标文本,可以将所述初始文本中的无用信息进行去除,以便于提高后续对所述初始文本处理的效率。
其中,所述初始文本是需要进行提取非结构的文本,可以是论文、新闻报道、办公文本等,所述目标文本是将所述初始文本中的无效信息过滤后得到文本,进一步的,所述初始文本的获取可以通过互联网下载或者通过电子邮箱传递得到。
作为本发明的一个实施例,所述对所述初始文本进行预处理,得到目标文本,包括:对所述初始文本进行标准化处理,得到标准文本,对所述标准文本进行去重处理,得到去重文本,根据预设的停用词对照表对所述去重文本进行停用词过滤,得到所述目标文本。
其中,所述标准文本是将所述初始文本中格式不正确的文本转化成标准格式的文本,所述去重文本是将所述标准文本中的重复字词去除后得到的文本,所述预设的停用词对照表是包含了文本中经常出现的停用词表。
进一步的,对所述初始文本进行标准化处理可以通过标准化代码实现,可以通过去文本去重工具对所述标准文本进行去重处理,所述去重文本的停用词过滤可以通过set集合法实现,所述set集合法是通过代码构建一个集合,将常用的停用词放入到集合内,通过将所述去重文本与集合内的停用词进行比对,如果出现了停用词,通过IKanalyzer对所述去重文本中的停用词过滤即可。
本发明通过对所述目标文本进行向量转化,得到向量文本,可以将所述目标文本转化成对应的向量形式,进而便于后续对所述目标文本进行快速处理,其中,所述向量文本是所述目标文本对应的向量表达方式,进一步的,对所述目标文本的向量转化可以通过word2vec算法实现。
S2、利用训练后的数据提取模型中的卷积层对所述向量文本进行特征提取,得到文本特征,识别所述向量文本的向量维度,根据所述向量维度,构建所述文本特征的特征矩阵。
本发明通过利用训练后的数据提取模型中的卷积层对所述向量文本进行特征提取,得到文本特征,可以了解所述向量文本中的特征部分,为后续构建所述文本特征提供了前提。
其中,所述文本特征是所述向量文本对应的表征属性,具有一定的代表性和辨识性,进一步的,可以通过所述卷积层中的卷积核对所述向量文本进行特征提取。
本发明通过识别所述向量文本的向量维度,根据所述向量维度,构建所述文本特征的特征矩阵,以便于通过所述特征矩阵对所述初始文本进行语义识别,其中,所述向量维度表示所述向量文本中的每个向量有多少个分量,所述特征矩阵是所述文本特征对应的矩阵,进一步的,可以通过向量机识别所述向量文本的向量维度。
作为本发明的一个实施例,根据所述向量维度,构建所述文本特征的特征矩阵,包括:
利用下述公式构建所述文本特征的特征矩阵:
Figure 559959DEST_PATH_IMAGE001
其中,
Figure 622593DEST_PATH_IMAGE002
表示所述文本特征的特征矩阵,i表示所述文本特征中的特征数量,
Figure 497008DEST_PATH_IMAGE003
表示所述文本向量的向量维度,
Figure 936080DEST_PATH_IMAGE004
表示所述文本特征的自变量,
Figure 87707DEST_PATH_IMAGE005
表示信息特征对应的矩阵谱径。
S3、根据所述特征矩阵,利用训练后的数据提取模型中的语义识别层对所述初始文本进行语义识别,得到文本语义。
本发明通过根据所述特征矩阵,利用所述训练后的数据提取模型中的语义识别层对所述初始文本进行语义识别,得到文本语义,通过所述文本语义可以了解到所述初始文本中的文本表达含义,其中,所述文本语义是所述文本中每个文本表示的含义。
作为本发明的一个实施例,所述根据所述特征矩阵,利用所述训练后的数据提取模型中的语义识别层对所述初始文本进行语义识别,得到文本语义,包括:通过所述语义识别层执行如下操作:计算所述特征矩阵中每个特征之间的特征距离值;将所述特征距离值大于预设值的特征作为所述初始文本的目标特征;对所述目标特征对应的文本进行语义解析,得到目标语义;计算所述目标语义对所述初始文本的支持度;根据所述支持度,对目标语义进行筛选,得到所述初始文本的文本语义。
其中,所述特征距离值表示所述每个所述特征之间的距离,所述预设值可以根据实际的业务场景进行设置,如所述预设值设置为6,所述特征距离值不小于6,则不属于目标特征,所述特征距离值小于6,则属于目标特征,所述目标语义是所述目标特征对应的文本含义,所述支持度是所述目标语义对所述初始文本的支持程度,进一步的,可以通过语义分析法对所述目标特征对应的文本进行语义解析,可以通过筛选函数对目标语义进行筛选,所述筛选函数包括VLOOKUP 函数。
进一步的,作为本发明的一个可选实施例,所述计算所述特征矩阵中每个特征之间的特征距离值,包括:
通过下述公式计算所特征矩阵中每个特征之间的特征距离值:
Figure 321242DEST_PATH_IMAGE006
其中,a和b分别为第一特征的标识和第二特征的标识,所述第一特征和所述第二特征为所述特征矩阵中的相邻特征;
Figure 682953DEST_PATH_IMAGE007
表示所述第一特征和所述第二特征之间的特征距离值,i表示特征矩阵中的起始特征,
Figure 394557DEST_PATH_IMAGE008
表示所述第一特征的初始坐标值,
Figure 918467DEST_PATH_IMAGE009
表示所述第二特征的初始坐标值,
Figure 588483DEST_PATH_IMAGE010
表示与终止特征相邻的特征终止坐标值,
Figure 437490DEST_PATH_IMAGE011
表示终止特征的终止坐标值。
进一步的,作为本发明的一个可选实施例,所述计算所述目标语义对所述初始文本的支持度,包括:
通过下述公式计算所述目标语义对所述初始文本的支持度:
Figure 828151DEST_PATH_IMAGE012
其中,
Figure 79004DEST_PATH_IMAGE013
表示目标语义对初始文本的支持度,
Figure 654342DEST_PATH_IMAGE014
表示目标语义中第i个语义的横向量,
Figure 990645DEST_PATH_IMAGE015
表示初始文本的横向量,
Figure 434265DEST_PATH_IMAGE016
表示目标语义中第i个语义的横向量与初始文本的横向量的积分映射值。
S4、利用所述训练后的数据提取模型中的双向循环层对所述向量文本进行双向循环编码,得到第一编码向量和第二编码向量,并计算所述第一编码向量和所述第二编码向量之间的关联度,根据所述关联度,计算所述第一编码向量和所述第二编码向量对应的级联编码向量。
本发明通过利用所述训练后的数据提取模型中的双向循环层对所述向量文本进行双向循环编码,得到第一编码向量和第二编码向量,对所述向量文本进行双向循环,可以结合所述向量文本的前后文本的关联性进行编码,其中,所述双向循环编码是在所述向量文本中选取一点,然后以这一点为中心,将两侧的向量转换成相应的代码,一直重复这样的动作称为双向循环编码,所述第一编码向量是所述双向循环层对所述向量文本向前循环编码得到的向量,所述第二编码向量是所述双向循环层对所述向量文本向后循环编码得到的向量。
作为本发明的一个实施例,所述利用所述训练后的数据提取模型中的双向循环层对所述向量文本进行双向循环编码,得到第一编码向量和第二编码向量,包括:
通过下述公式对所述向量文本进行双向循环编码:
Figure 274045DEST_PATH_IMAGE017
Figure 285863DEST_PATH_IMAGE018
其中,
Figure 843884DEST_PATH_IMAGE019
表示第一编码向量,f表示描述概率系数,
Figure 841927DEST_PATH_IMAGE020
表示前方转移矩阵,
Figure 801792DEST_PATH_IMAGE021
表示向前编码时向量文本对应的特征,
Figure 718933DEST_PATH_IMAGE022
表示转移矩阵,
Figure 29828DEST_PATH_IMAGE023
表示向前循环时的文本信息,
Figure 815251DEST_PATH_IMAGE024
表示第二编码向量,
Figure 629623DEST_PATH_IMAGE025
表示后方转移矩阵,
Figure 983244DEST_PATH_IMAGE026
表示向后编码时向量文本对应的特征,
Figure 515856DEST_PATH_IMAGE027
表示向后循环时的文本信息。
本发明通过计算所述第一编码向量和所述第二编码向量之间的关联度,根据所述关联度,通过所述关联度可以了解到所述第一编码向量和所述第二编码向量之间的关联性,为后续计算级联编码向量提供了保障,其中,所述关联度表示所述第一编码向量和所述第二编码向量之间的关联程度,进一步的,可以通过灰色关联度计算所述第一编码向量和所述第二编码向量之间的关联度。
本发明通过根据所述关联度,计算所述第一编码向量和所述第二编码向量对应的级联编码向量,通过所述级联编码向量可以了解所述文本向量的核心向量,以便于后续提取所述初始文本中的非结构化文本,其中,所述级联编码向量是所述第一编码向量和所述第二编码向量之间的映射向量。
作为本发明的一个实施例,所述根据所述关联度,计算所述第一编码向量和所述第二编码向量对应的级联编码向量,包括:
通过下述公式计算所述级联编码向量:
Figure 590123DEST_PATH_IMAGE028
其中,
Figure 790160DEST_PATH_IMAGE029
表示第一编码向量和第二编码向量对应的级联编码向量,
Figure 314682DEST_PATH_IMAGE030
是激活函数,
Figure 193645DEST_PATH_IMAGE019
表示第一编码向量,表示第二编码向量。
S5、通过所述训练好的数据提取模型中的结构化识别层,对所述文本语义和所述级联编码向量进行识别,确定所述初始文本中的非结构化文本和结构化文本。
本发明通过通过所述训练好的数据提取模型中的结构化识别层,对所述文本语义和所述级联编码向量进行识别,进而便于后续确定所述初始文本中的非结构化文本和结构化文本,进一步的,可以通过所述结构化识别层中的识别算法对所述文本语义和所述级联编码向量进行识别,所述识别算法包括Dijkstra算法。
本发明通过获取待提取的初始文本,对所述初始文本进行预处理,得到目标文本,可以将所述初始文本中的无用信息进行去除,以便于提高后续对所述初始文本处理的效率,本发明通过利用训练后的数据提取模型中的卷积层对所述向量文本进行特征提取,得到文本特征,可以了解所述向量文本中的特征部分,为后续构建所述文本特征提供了前提,其中,本发明通过根据所述特征矩阵,利用训练后的数据提取模型中的语义识别层对所述初始文本进行语义识别,得到文本语义,通过所述文本语义可以了解到所述初始文本中的文本表达含义;此外,本发明通过利用所述训练后的数据提取模型中的双向循环层对所述向量文本进行双向循环编码,得到第一编码向量和第二编码向量,对所述向量文本进行双向循环,可以结合所述向量文本的前后文本的关联性进行编码,本发明通过通过所述训练好的数据提取模型中的结构化识别层,对所述文本语义和所述级联编码向量进行识别,进而便于后续确定所述初始文本中的非结构化文本和结构化文本。因此,本发明实施例提供的一种非结构化数据提取方法,能够在于提高非结构化数据提取效率。
如图2所示,是本发明一实施例提供的非结构化数据提取装置的功能模块图。
本发明所述非结构化数据提取装置100可以安装于电子设备中。根据实现的功能,所述非结构化数据提取装置100可以包括向量转化模块101、矩阵构建模块102、语义识别模块103、双向循环编码模块104及结构识别模块105。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述向量转化模块101,用于获取待提取的初始文本,对所述初始文本进行预处理,得到目标文本,对所述目标文本进行向量转化,得到向量文本;
所述矩阵构建模块102,用于利用训练后的数据提取模型中的卷积层对所述向量文本进行特征提取,得到文本特征,识别所述向量文本的向量维度,根据所述向量维度,构建所述文本特征的特征矩阵;
所述语义识别模块103,用于根据所述特征矩阵,利用训练后的数据提取模型中的语义识别层对所述初始文本进行语义识别,得到文本语义;
所述双向循环编码模块104,用于利用所述训练后的数据提取模型中的双向循环层对所述向量文本进行双向循环编码,得到第一编码向量和第二编码向量,并计算所述第一编码向量和所述第二编码向量之间的关联度,根据所述关联度,计算所述第一编码向量和所述第二编码向量对应的级联编码向量;
所述结构识别模块105,用于结合所述文本语义和所述级联编码向量,计算所述向量文本中的文本为非结构化和结构化的概率,根据所述概率,通过所述训练后的数据提取模型中的输出层输出所述初始文本中的非结构化文本和结构化文本。
详细地,本申请实施例中所述非结构化数据提取装置100中所述的各模块在使用时采用与上述图1中所述的非结构化数据提取方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图3所示,是本发明一实施例提供的实现非结构化数据提取方法的电子设备1的结构示意图。
所述电子设备1可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如非结构化数据提取方法程序。
其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing Unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备1的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行非结构化数据提取方法程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如非结构化数据提取方法程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述通信总线12可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
所述通信接口13用于上述电子设备1与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的非结构化数据提取方法程序是多个指令的组合,在所述处理器10中运行时,可以实现:
获取待提取的初始文本,对所述初始文本进行预处理,得到目标文本,对所述目标文本进行向量转化,得到向量文本;
利用训练后的数据提取模型中的卷积层对所述向量文本进行特征提取,得到文本特征,识别所述向量文本的向量维度,根据所述向量维度,构建所述文本特征的特征矩阵;
根据所述特征矩阵,利用训练后的数据提取模型中的语义识别层对所述初始文本进行语义识别,得到文本语义;
利用所述训练后的数据提取模型中的双向循环层对所述向量文本进行双向循环编码,得到第一编码向量和第二编码向量,并计算所述第一编码向量和所述第二编码向量之间的关联度,根据所述关联度,计算所述第一编码向量和所述第二编码向量对应的级联编码向量;
结合所述文本语义和所述级联编码向量,计算所述向量文本中的文本为非结构化和结构化的概率,根据所述概率,通过所述训练后的数据提取模型中的输出层输出所述初始文本中的非结构化文本和结构化文本。
具体地,所述处理器10对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
获取待提取的初始文本,对所述初始文本进行预处理,得到目标文本,对所述目标文本进行向量转化,得到向量文本;
利用训练后的数据提取模型中的卷积层对所述向量文本进行特征提取,得到文本特征,识别所述向量文本的向量维度,根据所述向量维度,构建所述文本特征的特征矩阵;
根据所述特征矩阵,利用训练后的数据提取模型中的语义识别层对所述初始文本进行语义识别,得到文本语义;
利用所述训练后的数据提取模型中的双向循环层对所述向量文本进行双向循环编码,得到第一编码向量和第二编码向量,并计算所述第一编码向量和所述第二编码向量之间的关联度,根据所述关联度,计算所述第一编码向量和所述第二编码向量对应的级联编码向量;
结合所述文本语义和所述级联编码向量,计算所述向量文本中的文本为非结构化和结构化的概率,根据所述概率,通过所述训练后的数据提取模型中的输出层输出所述初始文本中的非结构化文本和结构化文本。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种非结构化数据提取方法,其特征在于,所述方法包括:
获取待提取的初始文本,对所述初始文本进行预处理,得到目标文本,对所述目标文本进行向量转化,得到向量文本;
利用训练后的数据提取模型中的卷积层对所述向量文本进行特征提取,得到文本特征,识别所述向量文本的向量维度,根据所述向量维度,构建所述文本特征的特征矩阵;
根据所述特征矩阵,利用所述训练后的数据提取模型中的语义识别层对所述初始文本进行语义识别,得到文本语义;
利用所述训练后的数据提取模型中的双向循环层对所述向量文本进行双向循环编码,得到第一编码向量和第二编码向量,并计算所述第一编码向量和所述第二编码向量之间的关联度,根据所述关联度,计算所述第一编码向量和所述第二编码向量对应的级联编码向量;
通过所述训练后的数据提取模型中的结构化识别层,对所述文本语义和所述级联编码向量进行识别,确定所述初始文本中的非结构化文本和结构化文本。
2.如权利要求1所述的非结构化数据提取方法,其特征在于,所述对所述初始文本进行预处理,得到目标文本,包括:
对所述初始文本进行标准化处理,得到标准文本;
对所述标准文本进行去重处理,得到去重文本;
根据预设的停用词对照表对所述去重文本进行停用词过滤,得到所述目标文本。
3.如权利要求1所述的非结构化数据提取方法,其特征在于,所述根据所述向量维度,构建所述文本特征的特征矩阵,包括:
利用下述公式构建所述文本特征的特征矩阵:
Figure 881622DEST_PATH_IMAGE001
其中,
Figure 192518DEST_PATH_IMAGE002
表示所述文本特征的特征矩阵,i表示所述文本特征中的特征数量,
Figure 853306DEST_PATH_IMAGE003
表示所述文本特征对应的向量维度,
Figure 667678DEST_PATH_IMAGE004
表示所述文本特征的自变量,
Figure 21299DEST_PATH_IMAGE005
表示所述文本特征对应的矩阵谱径。
4.如权利要求1所述的非结构化数据提取方法,其特征在于,所述根据所述特征矩阵,利用训练后的数据提取模型中的语义识别层对所述初始文本进行语义识别,得到文本语义,包括:
通过所述语义识别层执行如下操作:
计算所述特征矩阵中每个特征之间的特征距离值;
将所述特征距离值大于预设值的特征作为所述初始文本的目标特征;
对所述目标特征对应的文本进行语义解析,得到目标语义;
计算所述目标语义对所述初始文本的支持度;
根据所述支持度,对目标语义进行筛选,得到所述初始文本的文本语义。
5.如权利要求4所述的非结构化数据提取方法,其特征在于,所述计算所述特征矩阵中每个特征之间的特征距离值,包括:
通过下述公式计算所特征矩阵中每个特征之间的特征距离值:
Figure 553912DEST_PATH_IMAGE006
其中,a和b分别为第一特征的标识和第二特征的标识,所述第一特征和所述第二特征为所述特征矩阵中的相邻特征;
Figure 752812DEST_PATH_IMAGE007
表示所述第一特征和所述第二特征之间的特征距离值,i表示特征矩阵中的起始特征,
Figure 687270DEST_PATH_IMAGE008
表示所述第一特征的初始坐标值,
Figure 962525DEST_PATH_IMAGE009
表示所述第二特征的初始坐标值,
Figure 716854DEST_PATH_IMAGE010
表示与终止特征相邻的特征终止坐标值,
Figure 985024DEST_PATH_IMAGE011
表示终止特征的终止坐标值。
6.如权利要求4所述的非结构化数据提取方法,其特征在于,所述计算所述目标语义对所述初始文本的支持度,包括:
通过下述公式计算所述目标语义对所述初始文本的支持度:
Figure 773989DEST_PATH_IMAGE012
其中,
Figure 203833DEST_PATH_IMAGE013
表示目标语义对初始文本的支持度,
Figure 711038DEST_PATH_IMAGE014
表示目标语义中第i个语义的横向量,
Figure 517320DEST_PATH_IMAGE015
表示初始文本的横向量,
Figure 160791DEST_PATH_IMAGE016
表示目标语义中第i个语义的横向量与初始文本的横向量的积分映射值。
7.如权利要求1所述的非结构化数据提取方法,其特征在于,所述利用所述训练后的数据提取模型中的双向循环层对所述向量文本进行双向循环编码,得到第一编码向量和第二编码向量,包括:
通过下述公式对所述向量文本进行双向循环编码:
Figure 610856DEST_PATH_IMAGE017
Figure 339777DEST_PATH_IMAGE018
其中,
Figure 949750DEST_PATH_IMAGE019
表示第一编码向量,f表示描述概率系数,
Figure 713307DEST_PATH_IMAGE020
表示前方转移矩阵,
Figure 484954DEST_PATH_IMAGE021
表示向前编码时向量文本对应的特征,
Figure 966751DEST_PATH_IMAGE022
表示转移矩阵,
Figure 114835DEST_PATH_IMAGE023
表示向前循环时的文本信息,
Figure 732898DEST_PATH_IMAGE024
表示第二编码向量,
Figure 426179DEST_PATH_IMAGE025
表示后方转移矩阵,
Figure 129693DEST_PATH_IMAGE026
表示向后编码时向量文本对应的特征,
Figure 81468DEST_PATH_IMAGE027
表示向后循环时的文本信息。
8.一种非结构化数据提取装置,其特征在于,所述装置包括:
向量转化模块,用于获取待提取的初始文本,对所述初始文本进行预处理,得到目标文本,对所述目标文本进行向量转化,得到向量文本;
矩阵构建模块,用于利用训练后的数据提取模型中的卷积层对所述向量文本进行特征提取,得到文本特征,识别所述向量文本的向量维度,根据所述向量维度,构建所述文本特征的特征矩阵;
语义识别模块,用于根据所述特征矩阵,利用所述训练后的数据提取模型中的语义识别层对所述初始文本进行语义识别,得到文本语义;
双向循环编码模块,用于利用所述训练后的数据提取模型中的双向循环层对所述向量文本进行双向循环编码,得到第一编码向量和第二编码向量,并计算所述第一编码向量和所述第二编码向量之间的关联度,根据所述关联度,计算所述第一编码向量和所述第二编码向量对应的级联编码向量;
结构识别模块,用于通过所述训练后的数据提取模型中的结构化识别层,对所述文本语义和所述级联编码向量进行识别,确定所述初始文本中的非结构化文本和结构化文本。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的非结构化数据提取方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的非结构化数据提取方法。
CN202211339392.5A 2022-10-29 2022-10-29 一种非结构化数据提取方法、装置、设备及存储介质 Active CN115409041B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211339392.5A CN115409041B (zh) 2022-10-29 2022-10-29 一种非结构化数据提取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211339392.5A CN115409041B (zh) 2022-10-29 2022-10-29 一种非结构化数据提取方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115409041A true CN115409041A (zh) 2022-11-29
CN115409041B CN115409041B (zh) 2023-01-17

Family

ID=84168512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211339392.5A Active CN115409041B (zh) 2022-10-29 2022-10-29 一种非结构化数据提取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115409041B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116273692A (zh) * 2023-03-14 2023-06-23 深圳徕科技术有限公司 分布式高速喷射阀联合控制方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210216862A1 (en) * 2020-01-15 2021-07-15 Beijing Jingdong Shangke Information Technology Co., Ltd. System and method for semantic analysis of multimedia data using attention-based fusion network
CN114186017A (zh) * 2021-11-02 2022-03-15 武汉大学 基于多维度匹配的代码搜索方法
CN115238670A (zh) * 2022-08-09 2022-10-25 平安科技(深圳)有限公司 信息文本抽取方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210216862A1 (en) * 2020-01-15 2021-07-15 Beijing Jingdong Shangke Information Technology Co., Ltd. System and method for semantic analysis of multimedia data using attention-based fusion network
CN114186017A (zh) * 2021-11-02 2022-03-15 武汉大学 基于多维度匹配的代码搜索方法
CN115238670A (zh) * 2022-08-09 2022-10-25 平安科技(深圳)有限公司 信息文本抽取方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GIANLUIGI LIVA ET AL.: "On Optimum Decoding of Certain Product Codes", 《IEEE COMMUNICATIONS LETTERS》 *
陶永才 等: "池化和注意力相结合的新闻文本分类方法", 《小型微型计算机系统》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116273692A (zh) * 2023-03-14 2023-06-23 深圳徕科技术有限公司 分布式高速喷射阀联合控制方法、装置、设备及存储介质
CN116273692B (zh) * 2023-03-14 2023-08-15 深圳徕科技术有限公司 分布式高速喷射阀联合控制方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN115409041B (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
CN113157927B (zh) 文本分类方法、装置、电子设备及可读存储介质
CN111723727A (zh) 基于边缘计算的云监控方法、装置、电子设备及存储介质
CN112541338A (zh) 相似文本匹配方法、装置、电子设备及计算机存储介质
CN111930962A (zh) 文献数据价值评估方法、装置、电子设备及存储介质
CN112380859A (zh) 舆情信息的推荐方法、装置、电子设备及计算机存储介质
CN112528616B (zh) 业务表单生成方法、装置、电子设备及计算机存储介质
CN114979120B (zh) 数据上传方法、装置、设备及存储介质
CN114138784B (zh) 基于存储库的信息溯源方法、装置、电子设备及介质
CN114398557B (zh) 基于双画像的信息推荐方法、装置、电子设备及存储介质
CN114267064A (zh) 一种人脸识别方法、装置、电子设备及存储介质
CN113821602A (zh) 基于图文聊天记录的自动答疑方法、装置、设备及介质
CN113886708A (zh) 基于用户信息的产品推荐方法、装置、设备及存储介质
CN115238670A (zh) 信息文本抽取方法、装置、设备及存储介质
CN115409041B (zh) 一种非结构化数据提取方法、装置、设备及存储介质
CN113869456A (zh) 采样监测方法、装置、电子设备及存储介质
CN112347739A (zh) 适用规则分析方法、装置、电子设备及存储介质
CN116468025A (zh) 电子病历结构化方法、装置、电子设备及存储介质
CN116741358A (zh) 问诊挂号推荐方法、装置、设备及存储介质
CN116542221A (zh) Pdf文件解析预览方法、装置、设备及存储介质
CN115205758A (zh) 基于视频与文本的智能转换方法、装置、电子设备及介质
CN112233194B (zh) 医学图片优化方法、装置、设备及计算机可读存储介质
CN114693435A (zh) 催收名单的智能回访的方法、装置、电子设备及存储介质
CN111444159B (zh) 精算数据处理方法、装置、电子设备及存储介质
CN113706207A (zh) 基于语义解析的订单成交率分析方法、装置、设备及介质
CN111414452B (zh) 搜索词匹配方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 518000, C6 Floor, Building 1, Shenzhen Software Industry Base, No. 81, 83, and 85 Gaoxin South Tenth Road, Binhai Community, Yuehai Street, Nanshan District, Shenzhen, Guangdong Province

Patentee after: Shenzhen Xunce Technology Co.,Ltd.

Country or region after: China

Address before: Room 118a, industry university research building, Hong Kong University of science and technology, 9 Yuexing 1st Road, Gaoxin Park, Yuehai street, Nanshan District, Shenzhen, Guangdong 518000

Patentee before: SHENZHEN XUNCE TECHNOLOGY Co.,Ltd.

Country or region before: China