CN110222144A - 文本内容提取方法、装置、电子设备及存储介质 - Google Patents
文本内容提取方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110222144A CN110222144A CN201910310575.6A CN201910310575A CN110222144A CN 110222144 A CN110222144 A CN 110222144A CN 201910310575 A CN201910310575 A CN 201910310575A CN 110222144 A CN110222144 A CN 110222144A
- Authority
- CN
- China
- Prior art keywords
- text
- layer
- vector
- parameter
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
Abstract
一种基于智能决策的文本内容提取方法、装置、电子设备及存储介质,所述方法包括获取指令时获取语料训练集;对语料训练集进行预处理以得到词向量集和笔画向量集;问答网络模型根据词向量集和笔画向量集生成第一输出参数和第二输出参数,根据第一输出参数和第二输出参数生成第一编码参数和第二编码参数,根据第一编码参数和第二编码参数生成第一矩阵和第二矩阵,根据第一矩阵和第二矩阵生成模型编码参数,根据模型编码参数输出问题对应的答案在文本内的起始位置和结束位置。本发明文本内容提取方法利用问答网络模型获取问题对应的答案在文本内的起始位置和结束位置,实现了智能语义理解,并提高了模型的训练速度。
Description
技术领域
本发明主要涉及通信技术领域,具体地说,涉及一种文本内容提取方法、装置、电子设备及存储介质。
背景技术
随着互联网的飞速发展,人工智能广泛应用于各个领域,用于实现智能问答,例如智能客服系统以及网上教学系统等。现有智能问答中一般通过语义分析提取关键词、关键词匹配以及数据库内提取数据作为输出答案。上述智能问答系统仅为简单的搜索功能,无法实现语句理解,智能化程度较低。
发明内容
本发明的主要目的是提供一种文本内容提取方法、装置、电子设备及存储介质,旨在解决现有技术中无法实现语句理解的问题。
为实现上述目的,本发明提供一种文本内容提取方法,所述文本内容提取方法包括以下步骤:
在接收到获取指令时,获取语料训练集;所述语料训练集包括文本以及问题;
在接收到预处理指令时,对所述语料训练集进行预处理以得到第一向量集和第二向量集;所述第一向量集为词向量集,所述第二向量集为笔画向量集;
在接收到输入指令时,将所述第一向量集和所述第二向量集输入至问答网络模型;所述问答网络模型包括嵌入层、嵌入编码层、互注意力层、模型编码层以及输出层;
在接收到第一处理指令时,所述嵌入层根据所述第一向量集和所述第二向量集生成第一输出参数和第二输出参数;
在接收到第二处理指令时,所述嵌入编码层根据所述第一输出参数和所述第二输出参数生成第一编码参数和第二编码参数;
在接收到第三处理指令时,所述互注意力层根据所述第一编码参数和所述第二编码参数生成第一矩阵和第二矩阵;
在接收到第四处理指令时,所述模型编码层根据所述第一矩阵和所述第二矩阵生成模型编码参数;
在接收到输出指令时,所述输出层根据所述模型编码参数输出所述问题对应的答案在所述文本内的起始位置和结束位置。
优选地,所述预处理为将所述文本和所述问题中的异常字符、格式信息、附加元数据进行删除,对所述文本和所述问题进行编码转换,并使用Python的SimHash工具进行去重操作。
优选地,所述对所述语料训练集进行预处理以得到第一向量集和第二向量集的步骤,包括:
将所述文本和所述问题进行分词得到文本数据以及问题数据;
通过查找词向量表获取所述文本数据以及所述问题数据对应的文本词向量和问题词向量作为所述第一向量集;
将所述文本和所述问题输入至笔画向量模型;
所述笔画向量模型根据所述文本和所述问题输出文本笔画向量和问题笔画向量作为所述第二向量集。
优选地,所述笔画向量模型从下至上依次包括卷积层以及highway network层,所述嵌入层根据所述第一向量集和所述第二向量集生成第一输出参数和第二输出参数的步骤,包括:
根据所述第二向量集构造笔画向量矩阵;
所述卷积层将所述笔画向量矩阵进行卷积得到中间向量;
将所述中间向量与所述第一向量集进行拼接得到拼接向量;
所述拼接向量经两层所述highway network和最大池化后输出所述第一输出参数和所述第二输出参数。
优选地,所述嵌入编码层自底向上依次包含位置编码层、深层卷积层、自注意力层以及前馈网络层。
优选地,所述互注意力层根据所述第一编码参数和所述第二编码参数生成第一矩阵和第二矩阵的步骤,包括:
基于相似度计算文本和问题单词之间的相似度得到相似度矩阵;
利用softmax函数对第一矩阵的行和列分别进行归一化得到所述第一矩阵和所述第二矩阵。
优选地,所述模型编码层包括三层模型编码器,且每层模型编码其分别输出一个模型编码参数。
此外,为了实现上述目的,本发明还提出一种文本内容提取装置,所述文本内容提取装置包括:
获取模块,用于在接收到获取指令时获取语料训练集;所述语料训练集包括文本以及问题;
预处理模块,用于在接收到预处理指令时对所述语料训练集进行预处理以得到第一向量集和第二向量集;所述第一向量集为词向量集,所述第二向量集为笔画向量集;
问答网络模型模块,用于在接收到输入指令时将所述第一向量集和所述第二向量集输入至问答网络模型;所述问答网络模型包括嵌入层、嵌入编码层、互注意力层、模型编码层以及输出层;
所述问答网络模型模块进一步地在接收到第一处理指令时所述嵌入层根据所述第一向量集和所述第二向量集生成第一输出参数和第二输出参数;
所述问答网络模型模块进一步地在接收到第二处理指令时所述嵌入编码层根据所述第一输出参数和所述第二输出参数生成第一编码参数和第二编码参数;
所述问答网络模型模块进一步地在接收到第三处理指令时所述互注意力层根据所述第一编码参数和所述第二编码参数生成第一矩阵和第二矩阵;
所述问答网络模型模块进一步地在接收到第四处理指令时所述模型编码层根据所述第一矩阵和所述第二矩阵生成模型编码参数;
所述问答网络模型模块进一步地在接收到输出指令时所述输出层根据所述模型编码参数输出所述问题对应的答案在所述文本内的起始位置和结束位置。
此外,为了实现上述目的,本发明还提出一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时执行时实现如下步骤:
在接收到获取指令时,获取语料训练集;所述语料训练集包括文本以及问题;
在接收到预处理指令时,对所述语料训练集进行预处理以得到第一向量集和第二向量集;所述第一向量集为词向量集,所述第二向量集为笔画向量集;
在接收到输入指令时,将所述第一向量集和所述第二向量集输入至问答网络模型;所述问答网络模型包括嵌入层、嵌入编码层、互注意力层、模型编码层以及输出层;
在接收到第一处理指令时,所述嵌入层根据所述第一向量集和所述第二向量集生成第一输出参数和第二输出参数;
在接收到第二处理指令时,所述嵌入编码层根据所述第一输出参数和所述第二输出参数生成第一编码参数和第二编码参数;
在接收到第三处理指令时,所述互注意力层根据所述第一编码参数和所述第二编码参数生成第一矩阵和第二矩阵;
在接收到第四处理指令时,所述模型编码层根据所述第一矩阵和所述第二矩阵生成模型编码参数;
在接收到输出指令时,所述输出层根据所述模型编码参数输出所述问题对应的答案在所述文本内的起始位置和结束位置。
此外,为了实现上述目的,本发明还提出一种存储介质,所述存储介质为计算机可读存储介质,存储有至少一个指令,所述至少一个指令被处理器执行时实现如下步骤:
在接收到获取指令时,获取语料训练集;所述语料训练集包括文本以及问题;
在接收到预处理指令时,对所述语料训练集进行预处理以得到第一向量集和第二向量集;所述第一向量集为词向量集,所述第二向量集为笔画向量集;
在接收到输入指令时,将所述第一向量集和所述第二向量集输入至问答网络模型;所述问答网络模型包括嵌入层、嵌入编码层、互注意力层、模型编码层以及输出层;
在接收到第一处理指令时,所述嵌入层根据所述第一向量集和所述第二向量集生成第一输出参数和第二输出参数;
在接收到第二处理指令时,所述嵌入编码层根据所述第一输出参数和所述第二输出参数生成第一编码参数和第二编码参数;
在接收到第三处理指令时,所述互注意力层根据所述第一编码参数和所述第二编码参数生成第一矩阵和第二矩阵;
在接收到第四处理指令时,所述模型编码层根据所述第一矩阵和所述第二矩阵生成模型编码参数;
在接收到输出指令时,所述输出层根据所述模型编码参数输出所述问题对应的答案在所述文本内的起始位置和结束位置。
与现有技术相比较,文本内容提取方法通过获取文本和问题的词向量和笔画向量后输入至问答网络模型,利用问答网络模型获取问题对应的答案在文本内的起始位置和结束位置,实现智能语句理解,并提高了模型的训练速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明文本内容提取方法的流程示意图。
图2为图1中步骤S12的细化流程示意图。
图3为图1中步骤S14的细化流程示意图。
图4为图1中步骤S16的细化流程示意图。
图5为本发明文本内容提取装置的功能模块图。
图6为本发明实施例的硬件运行环境的设备结构示意图。
主要元件符号说明
文本内容提取装置 1
获取模块 10
预处理模块 20
问答网络模型模块 30
存储器 102
通信总线 104
处理器 106
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或模块。
请参阅图1,其为本发明文本内容提取方法的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
本发明的至少一个实施例中,所述文本内容提取方法应用于至少一终端设备及服务器构成的文本内容提取系统中。所述终端设备和所述服务器之间根据预设协议进行数据传输。优选地,所述预设协议包括,但不限于以下任意一种:HTTP协议(Hyper TextTransfer Protocol,超文本传输协议)、HTTPS协议(Hyper Text Transfer Protocol overSecure Socket Layer,以安全为目标的HTTP协议)等。本发明的至少一个实施例中,所述服务器可以是单一的服务器,也可以为由几个功能服务器共同组成的服务器群。所述终端设备可以是任意具有网络连接功能的终端,例如,所述终端设备可以为个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能式穿戴式设备、导航装置等等的可移动设备,或者台式电脑、数字TV等等固定设备。所述文本内容提取系统具有一可视化界面。所述可视化界面用于向用户提供人机交互接口。所述文本内容提取方法可应用于至少一执行终端和服务器构成的文本内容提取系统中。所述文本内容提取系统是基于深度学习预测问题对应的答案在文本内的起始位置和结束位置。
S11、在接收到获取指令时,获取语料训练集;所述语料训练集包括文本以及问题。
在本发明的至少一个实施例中,所述文本可以为一篇电子文档,也可以为从指定网站的一个或多个网页通过爬虫技术抓取而得,例如论坛网站亦或社交网络平台。所述文本的大小取决于对所述文本提取问题的强度,例如,如果希望对文本进行详细的问题提取,则可以将文本的大小设置的相对较小,反之则较大。
在本发明的至少一个实施例中,所述问题可以为手动输入的内容,也可为基于关键词和指定规则自动生成的问题,还可以为从指定网站的一个或多个网页内通过爬虫技术抓取而得。所述问题可以为“请问你们店的商品都支持全国联保吗?”、“请问能退换货吗?”、“商场在哪里”以及“获得金奖的人是谁”等内容。
S12、在接收到预处理指令时,对所述语料训练集进行预处理以得到第一向量集和第二向量集。
请一并参阅图2,在本发明的至少一个实施例中,所述预处理操作用于删除所述文本和所述问题中的异常字符、格式信息、附加元数据,限制文本长度以及编码转换,使用Python的SimHash工具进行数据去重等操作。所述第一向量集为词向量集,所述第二向量集为笔画向量集。
在本发明的至少一个实施例中,所述对所述语料训练集进行预处理以得到第一向量集和第二向量集的步骤包括:
S121、将所述文本和所述问题进行分词处理以得到文本数据以及问题数据;
S122、通过查找词向量表获取所述文本数据以及所述问题数据对应的文本词向量和问题词向量作为所述第一向量集;
S123、将所述文本和所述问题输入至笔画向量模型;
S124、所述笔画向量模型根据所述文本和所述问题输出文本笔画向量和问题笔画向量作为所述第二向量集。
在本发明的至少一个实施例中,所述第一向量集可以表示单词之间在多维空间中的距离,以准确的表现单词之间的语义相似度。所述词向量表是预先构建完成的,将不同的两个或多个低维度字向量转换成表格中对应的向量。所述第一向量集为低维度的词向量。
在本发明的至少一个实施例中,所述笔画向量模型从下至上依次包括嵌入层、卷积层、最大池化层以及highway network层。
S13、在接收到输入指令时,将所述第一向量集和所述第二向量集输入至问答网络模型。
在本发明的至少一个实施例中,所述问答网络模型包括嵌入层、嵌入编码层、互注意力层、模型编码层以及输出层。
S14、在接收到第一处理指令时,所述嵌入层根据所述第一向量集和所述第二向量集生成第一输出参数和第二输出参数。
请一并参阅图3,在本发明的至少一个实施例中,所述嵌入层根据所述第一向量集和所述第二向量集生成第一输出参数和第二输出参数的步骤包括:
S141、根据所述第二向量集构造笔画向量矩阵;
S142、将所述笔画向量矩阵进行卷积得到中间向量;
S143、将所述中间向量与所述第一向量集进行拼接得到拼接向量;
S144、所述拼接向量经两层highway network和最大池化后输出所述第一输出参数和所述第二输出参数。
在本发明的至少一个实施例中,所述两层highway network用于对拼接向量进行深层网络训练。
S15、在接收到第二处理指令时,所述嵌入编码层根据所述第一输出参数和所述第二输出参数生成第一编码参数和第二编码参数。
在本发明的至少一个实施例中,所述第一编码层自底向上依次包含位置编码(position encoding)层、深层卷积(conv)层、自注意力(self attention)层以及前馈网络(fnn)层。其中,所述位置编码层基于指定公式计算位置向量。所述深层卷积用于捕获上下文局部结果,其依次经过深度卷积和逐点卷积两个步骤。所述自注意力层用于捕捉文本之间全局的相互作用。
S16、在接收到第三处理指令时,所述互注意力层根据所述第一编码参数和所述第二编码参数生成第一矩阵和第二矩阵。
在本发明的至少一个实施例中,所述第一矩阵用于表示文本与问题之间的上下文关联,第二矩阵用于表示问题与文本之间的上下文关联。
请一并参阅图4,在本发明的至少一个实施例中,所述互注意力层根据所述第一编码参数和所述第二编码参数生成第一矩阵和第二矩阵的步骤包括:
S161、基于相似度计算文本和问题单词之间的相似度得到相似度矩阵;
S162、利用softmax函数对第一矩阵的行和列分别进行归一化得到所述第一矩阵和所述第二矩阵。
S17、在接收到第四处理指令时,所述模型编码层根据所述第一矩阵和所述第二矩阵生成模型编码参数。
在本发明的至少一个实施例中,所述模型编码层包括三层模型编码器。所述模型编码器均具有一个对应的输出,且结构与输入编码层类似。每个所述模型编码器由7个编码模块堆叠而成,且三个模型编码器之间共享参数。
S18、在接收到输出指令时,所述输出层根据所述模型编码参数输出所述问题对应的答案在所述文本内的起始位置和结束位置。
在本发明的至少一个实施例中,所述问题对应的答案在所述文本内可对应多个所述起始位置和多个所述结束位置,且每个所述起始位置和所述结束位置具有一个对应的概率。所述输出层输出为最高概率的所述起始位置和最高概率的所述结束位置。
在本发明的至少一个实施例中,所述选择指令可以是通过终端设备接收的数据请求指令。所述终端设备可以包括键盘输入、触摸屏输入等,但是本公开的示例实施例中的用户输入方式不限于此。上述各种指令可以为用户在终端设备的图形用户界面上的预设按键通过用户的操作产生。具体地,所述用户的操作包括,但不限于:滑动操作、点击操作(如:单击操作、双击操作等等)。具体地,所述预设按键可以是所述终端设备上的实体按键,也可以是所述终端设备上的虚拟按键等等(例如:所述虚拟按键可以是所述终端设备的显示器上的一个虚拟图标等),本发明在此不做限制。
由以上实施例可知,所述文本内容提取方法通过获取文本和问题的词向量和笔画向量后输入至问答网络模型,利用问答网络模型获取问题对应的答案在文本内的起始位置和结束位置,实现智能语句理解,相较于需要提取准确答案内容的神经网络模型提高了问答网络模型的精准度,并提高了模型的训练速度。
请参照图5,本发明提供一种文本内容提取装置1,应用于一个或多个设备中。本发明的至少一个实施例中,所述文本内容提取装置1应用于至少一终端设备及服务器构成的文本内容提取系统中。所述终端设备和所述服务器之间根据预设协议进行数据传输。优选地,所述预设协议包括,但不限于以下任意一种:HTTP协议(Hyper Text TransferProtocol,超文本传输协议)、HTTPS协议(Hyper Text Transfer Protocol over SecureSocket Layer,以安全为目标的HTTP协议)等。本发明的至少一个实施例中,所述服务器可以是单一的服务器,也可以为由几个功能服务器共同组成的服务器群。所述终端设备可以是任意具有网络连接功能的终端,例如,所述终端设备可以为个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能式穿戴式设备、导航装置等等的可移动设备,或者台式电脑、数字TV等等固定设备。
所述文本内容提取装置1提供一可视化界面。所述可视化界面用于向用户提供人机交互接口,用户可以在通过手机或电脑等终端设备连接到所述文本内容提取系统。所述文本内容提取系统用于可根据通讯请求的相关参数进行免打扰过滤。
在本发明的一个实施例中,所述文本内容提取装置1包括:
获取模块10,用于在接收到获取指令时获取语料训练集。所述语料训练集包括文本以及问题。
在本发明的至少一个实施例中,所述文本可以为一篇电子文档,也可以为从指定网站的一个或多个网页通过爬虫技术抓取而得,例如论坛网站亦或社交网络平台。所述文本的大小取决于对所述文本提取问题的强度,例如,如果希望对文本进行详细的问题提取,则可以将文本的大小设置的相对较小,反之则较大。
在本发明的至少一个实施例中,所述问题可以为手动输入的内容,也可为基于关键词和指定规则自动生成的问题,还可以为从指定网站的一个或多个网页内通过爬虫技术抓取而得。所述问题可以为“请问你们店的商品都支持全国联保吗?”、“请问能退换货吗?”、“商场在哪里”以及“获得金奖的人是谁”等内容。
预处理模块20,用于在接收到预处理指令时对所述语料训练集进行预处理以得到第一向量集和第二向量集。
请一并参阅图2,在本发明的至少一个实施例中,所述预处理操作用于删除所述文本和所述问题中的异常字符、格式信息、附加元数据,限制文本长度以及编码转换,使用Python的SimHash工具进行数据去重等操作。所述第一向量集为词向量集,所述第二向量集为笔画向量集。
所述预处理模块20进一步地将所述文本和所述问题进行分词处理以得到文本数据以及问题数据,通过查找词向量表获取所述文本数据以及所述问题数据对应的文本词向量和问题词向量作为所述第一向量集,将所述文本和所述问题输入至笔画向量模型,所述笔画向量模型根据所述文本和所述问题输出文本笔画向量和问题笔画向量作为所述第二向量集。
在本发明的至少一个实施例中,所述第一向量集可以表示单词之间在多维空间中的距离,以准确的表现单词之间的语义相似度。所述词向量表是预先构建完成的,将不同的两个或多个低维度字向量转换成表格中对应的向量。所述第一向量集为低维度的词向量。
在本发明的至少一个实施例中,所述笔画向量模型从下至上依次包括嵌入层、卷积层、最大池化层以及highway network层。
问答网络模型模块30,用于在接收到输入指令时将所述第一向量集和所述第二向量集输入至问答网络模型。
在本发明的至少一个实施例中,所述问答网络模型包括嵌入层、嵌入编码层、互注意力层、模型编码层以及输出层。
所述问答网络模型模块30进一步地在接收到第一处理指令时所述嵌入层根据所述第一向量集和所述第二向量集生成第一输出参数和第二输出参数。
所述问答网络模型模块30进一步地根据所述第二向量集构造笔画向量矩阵,将所述笔画向量矩阵进行卷积得到中间向量,将所述中间向量与所述第一向量集进行拼接得到拼接向量,所述拼接向量经两层highway network和最大池化后输出所述第一输出参数和所述第二输出参数。
在本发明的至少一个实施例中,所述两层highway network用于对拼接向量进行深层网络训练。
所述问答网络模型模块30进一步地在接收到第二处理指令时所述嵌入编码层根据所述第一输出参数和所述第二输出参数生成第一编码参数和第二编码参数。
在本发明的至少一个实施例中,所述第一编码层自底向上依次包含位置编码(position encoding)层、深层卷积(conv)层、自注意力(self attention)层以及前馈网络(fnn)层。其中,所述位置编码层基于指定公式计算位置向量。所述深层卷积用于捕获上下文局部结果,其依次经过深度卷积和逐点卷积两个步骤。所述自注意力层用于捕捉文本之间全局的相互作用。
所述问答网络模型模块30进一步地在接收到第三处理指令时所述互注意力层根据所述第一编码参数和所述第二编码参数生成第一矩阵和第二矩阵。
在本发明的至少一个实施例中,所述第一矩阵用于表示文本与问题之间的上下文关联,第二矩阵用于表示问题与文本之间的上下文关联。
所述问答网络模型模块30进一步地基于相似度计算文本和问题单词之间的相似度得到相似度矩阵,利用softmax函数对第一矩阵的行和列分别进行归一化得到所述第一矩阵和所述第二矩阵。
所述问答网络模型模块30进一步地在接收到第四处理指令时所述模型编码层根据所述第一矩阵和所述第二矩阵生成模型编码参数。
在本发明的至少一个实施例中,所述模型编码层包括三层模型编码器。所述模型编码器均具有一个对应的输出,且结构与输入编码层类似。每个所述模型编码器由7个编码模块堆叠而成,且三个模型编码器之间共享参数。
所述问答网络模型模块30进一步地在接收到输出指令时所述输出层根据所述模型编码参数输出所述问题对应的答案在所述文本内的起始位置和结束位置。
在本发明的至少一个实施例中,所述问题对应的答案在所述文本内可对应多个所述起始位置和多个所述结束位置,且每个所述起始位置和所述结束位置具有一个对应的概率。所述输出层输出为最高概率的所述起始位置和最高概率的所述结束位置。
由以上实施例可知,所述文本内容提取方法通过获取文本和问题的词向量和笔画向量后输入至问答网络模型,利用问答网络模型获取问题对应的答案在文本内的起始位置和结束位置,实现智能语句理解,相较于需要提取准确答案内容的神经网络模型提高了问答网络模型的精准度,并提高了模型的训练速度。
请参阅图6,其为本发明实施例的一种计算机可读存储介质。所述计算机可读存储介质上存储有计算机指令。所述计算机指令可被存储于存储器102上,且当被一个或多个处理器106执行时,从而实现如上文方法实施例所述的文本内容提取方法。
所述存储器102用于存储程序代码。所述存储器102可以是集成电路中没有实物形式的具有存储功能的电路,如RAM(Random-Access Memory,随机存取存储器)、FIFO(FirstIn First Out,)等。或者,所述存储器102也可以是具有实物形式的存储器,如内存条、TF卡(Trans-flash Card)、智能媒体卡(smart media card)、安全数字卡(secure digitalcard)、快闪存储器卡(flash card)等储存设备。所述存储器102可通过通信总线104与处理器106进行数据通信。所述存储器102中可以包括操作系统、网络通信模块以及文本内容提取程序。操作系统是管理和控制文本内容提取设备硬件和软件资源的程序,支持文本内容提取程序以及其他软件和/或程序的运行。网络通信模块用于实现所述存储器102内部各组件之间的通信,以及与文本内容提取设备中其他硬件和软件之间通信。
所述处理器106可以包括一个或者多个微处理器、数字处理器。所述处理器106可调用所述存储器102中存储的程序代码以执行相关的功能。例如,图1中所述的各个模块是存储在所述存储器102中的程序代码,并由所述处理器106所执行,以实现一种文本内容提取类方法。所述处理器106又称中央处理器(CPU,Central Processing Unit),是一块超大规模的集成电路,是运算核心(Core)和控制核心(Control Unit)。
所述处理器106用于执行所述存储器102中存储的多个计算机指令以实现文本内容提取方法,所述处理器106可执行多个指令从而实现以下步骤:
S11、在接收到获取指令时,获取语料训练集;所述语料训练集包括文本以及问题。
在本发明的至少一个实施例中,所述文本可以为一篇电子文档,也可以为从指定网站的一个或多个网页通过爬虫技术抓取而得,例如论坛网站亦或社交网络平台。所述文本的大小取决于对所述文本提取问题的强度,例如,如果希望对文本进行详细的问题提取,则可以将文本的大小设置的相对较小,反之则较大。
在本发明的至少一个实施例中,所述问题可以为手动输入的内容,也可为基于关键词和指定规则自动生成的问题,还可以为从指定网站的一个或多个网页内通过爬虫技术抓取而得。所述问题可以为“请问你们店的商品都支持全国联保吗?”、“请问能退换货吗?”、“商场在哪里”以及“获得金奖的人是谁”等内容。
S12、在接收到预处理指令时,对所述语料训练集进行预处理以得到第一向量集和第二向量集。
请一并参阅图2,在本发明的至少一个实施例中,所述预处理操作用于删除所述文本和所述问题中的异常字符、格式信息、附加元数据,限制文本长度以及编码转换,使用Python的SimHash工具进行数据去重等操作。所述第一向量集为词向量集,所述第二向量集为笔画向量集。
在本发明的至少一个实施例中,所述对所述语料训练集进行预处理以得到第一向量集和第二向量集的步骤包括:
S121、将所述文本和所述问题进行分词处理以得到文本数据以及问题数据;
S122、通过查找词向量表获取所述文本数据以及所述问题数据对应的文本词向量和问题词向量作为所述第一向量集;
S123、将所述文本和所述问题输入至笔画向量模型;
S124、所述笔画向量模型根据所述文本和所述问题输出文本笔画向量和问题笔画向量作为所述第二向量集。
在本发明的至少一个实施例中,所述第一向量集可以表示单词之间在多维空间中的距离,以准确的表现单词之间的语义相似度。所述词向量表是预先构建完成的,将不同的两个或多个低维度字向量转换成表格中对应的向量。所述第一向量集为低维度的词向量。
在本发明的至少一个实施例中,所述笔画向量模型从下至上依次包括嵌入层、卷积层、最大池化层以及highway network层。
S13、在接收到输入指令时,将所述第一向量集和所述第二向量集输入至问答网络模型。
在本发明的至少一个实施例中,所述问答网络模型包括嵌入层、嵌入编码层、互注意力层、模型编码层以及输出层。
S14、在接收到第一处理指令时,所述嵌入层根据所述第一向量集和所述第二向量集生成第一输出参数和第二输出参数。
请一并参阅图3,在本发明的至少一个实施例中,所述嵌入层根据所述第一向量集和所述第二向量集生成第一输出参数和第二输出参数的步骤包括:
S141、根据所述第二向量集构造笔画向量矩阵;
S142、将所述笔画向量矩阵进行卷积得到中间向量;
S143、将所述中间向量与所述第一向量集进行拼接得到拼接向量;
S144、所述拼接向量经两层highway network和最大池化后输出所述第一输出参数和所述第二输出参数。
在本发明的至少一个实施例中,所述两层highway network用于对拼接向量进行深层网络训练。
S15、在接收到第二处理指令时,所述嵌入编码层根据所述第一输出参数和所述第二输出参数生成第一编码参数和第二编码参数。
在本发明的至少一个实施例中,所述第一编码层自底向上依次包含位置编码(position encoding)层、深层卷积(conv)层、自注意力(self attention)层以及前馈网络(fnn)层。其中,所述位置编码层基于指定公式计算位置向量。所述深层卷积用于捕获上下文局部结果,其依次经过深度卷积和逐点卷积两个步骤。所述自注意力层用于捕捉文本之间全局的相互作用。
S16、在接收到第三处理指令时,所述互注意力层根据所述第一编码参数和所述第二编码参数生成第一矩阵和第二矩阵。
在本发明的至少一个实施例中,所述第一矩阵用于表示文本与问题之间的上下文关联,第二矩阵用于表示问题与文本之间的上下文关联。
请一并参阅图4,在本发明的至少一个实施例中,所述互注意力层根据所述第一编码参数和所述第二编码参数生成第一矩阵和第二矩阵的步骤包括:
S161、基于相似度计算文本和问题单词之间的相似度得到相似度矩阵;
S162、利用softmax函数对第一矩阵的行和列分别进行归一化得到所述第一矩阵和所述第二矩阵。
S17、在接收到第四处理指令时,所述模型编码层根据所述第一矩阵和所述第二矩阵生成模型编码参数。
在本发明的至少一个实施例中,所述模型编码层包括三层模型编码器。所述模型编码器均具有一个对应的输出,且结构与输入编码层类似。每个所述模型编码器由7个编码模块堆叠而成,且三个模型编码器之间共享参数。
S18、在接收到输出指令时,所述输出层根据所述模型编码参数输出所述问题对应的答案在所述文本内的起始位置和结束位置。
在本发明的至少一个实施例中,所述问题对应的答案在所述文本内可对应多个所述起始位置和多个所述结束位置,且每个所述起始位置和所述结束位置具有一个对应的概率。所述输出层输出为最高概率的所述起始位置和最高概率的所述结束位置。
在本发明的至少一个实施例中,所述选择指令可以是通过终端设备接收的数据请求指令。所述终端设备可以包括键盘输入、触摸屏输入等,但是本公开的示例实施例中的用户输入方式不限于此。上述各种指令可以为用户在终端设备的图形用户界面上的预设按键通过用户的操作产生。具体地,所述用户的操作包括,但不限于:滑动操作、点击操作(如:单击操作、双击操作等等)。具体地,所述预设按键可以是所述终端设备上的实体按键,也可以是所述终端设备上的虚拟按键等等(例如:所述虚拟按键可以是所述终端设备的显示器上的一个虚拟图标等),本发明在此不做限制。
由以上实施例可知,所述文本内容提取方法通过获取文本和问题的词向量和笔画向量后输入至问答网络模型,利用问答网络模型获取问题对应的答案在文本内的起始位置和结束位置,实现智能语句理解,相较于需要提取准确答案内容的神经网络模型提高了问答网络模型的精准度,并提高了模型的训练速度。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性或其他的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明的各个实施例中的各功能模块可以集成在一个处理器中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种文本内容提取方法,其特征在于,所述文本内容提取方法包括:
在接收到获取指令时,获取语料训练集;所述语料训练集包括文本以及问题;
在接收到预处理指令时,对所述语料训练集进行预处理以得到第一向量集和第二向量集;所述第一向量集为词向量集,所述第二向量集为笔画向量集;
在接收到输入指令时,将所述第一向量集和所述第二向量集输入至问答网络模型;所述问答网络模型包括嵌入层、嵌入编码层、互注意力层、模型编码层以及输出层;
在接收到第一处理指令时,所述嵌入层根据所述第一向量集和所述第二向量集生成第一输出参数和第二输出参数;
在接收到第二处理指令时,所述嵌入编码层根据所述第一输出参数和所述第二输出参数生成第一编码参数和第二编码参数;
在接收到第三处理指令时,所述互注意力层根据所述第一编码参数和所述第二编码参数生成第一矩阵和第二矩阵;
在接收到第四处理指令时,所述模型编码层根据所述第一矩阵和所述第二矩阵生成模型编码参数;
在接收到输出指令时,所述输出层根据所述模型编码参数输出所述问题对应的答案在所述文本内的起始位置和结束位置。
2.如权利要求1所述的文本内容提取方法,其特征在于,所述预处理为将所述文本和所述问题中的异常字符、格式信息、附加元数据进行删除,对所述文本和所述问题进行编码转换,并使用Python的SimHash工具进行去重操作。
3.如权利要求1至2中任意一项所述的文本内容提取方法,其特征在于,所述对所述语料训练集进行预处理以得到第一向量集和第二向量集的步骤,包括:
将所述文本和所述问题进行分词得到文本数据以及问题数据;
通过查找词向量表获取所述文本数据以及所述问题数据对应的文本词向量和问题词向量作为所述第一向量集;
将所述文本和所述问题输入至笔画向量模型;
所述笔画向量模型根据所述文本和所述问题输出文本笔画向量和问题笔画向量作为所述第二向量集。
4.如权利要求3所述的文本内容提取方法,其特征在于,所述笔画向量模型从下至上依次包括卷积层以及highway network层,所述嵌入层根据所述第一向量集和所述第二向量集生成第一输出参数和第二输出参数的步骤,包括:
根据所述第二向量集构造笔画向量矩阵;
所述卷积层将所述笔画向量矩阵进行卷积得到中间向量;
将所述中间向量与所述第一向量集进行拼接得到拼接向量;
所述拼接向量经两层所述highway network和最大池化后输出所述第一输出参数和所述第二输出参数。
5.如权利要求1至2中任意一项所述的文本内容提取方法,其特征在于,所述嵌入编码层自底向上依次包含位置编码层、深层卷积层、自注意力层以及前馈网络层。
6.如权利要求1至2中任意一项所述的文本内容提取方法,其特征在于,所述互注意力层根据所述第一编码参数和所述第二编码参数生成第一矩阵和第二矩阵的步骤,包括:
基于相似度计算文本和问题单词之间的相似度得到相似度矩阵;
利用softmax函数对第一矩阵的行和列分别进行归一化得到所述第一矩阵和所述第二矩阵。
7.如权利要求1至2中任意一项所述的文本内容提取方法,其特征在于,所述模型编码层包括三层模型编码器,且每层模型编码其分别输出一个模型编码参数。
8.一种文本内容提取装置,其特征在于,所述文本内容提取装置包括:
获取模块,用于在接收到获取指令时获取语料训练集;所述语料训练集包括文本以及问题;
预处理模块,用于在接收到预处理指令时对所述语料训练集进行预处理以得到第一向量集和第二向量集;所述第一向量集为词向量集,所述第二向量集为笔画向量集;
问答网络模型模块,用于在接收到输入指令时将所述第一向量集和所述第二向量集输入至问答网络模型;所述问答网络模型包括嵌入层、嵌入编码层、互注意力层、模型编码层以及输出层;
所述问答网络模型模块进一步地在接收到第一处理指令时所述嵌入层根据所述第一向量集和所述第二向量集生成第一输出参数和第二输出参数;
所述问答网络模型模块进一步地在接收到第二处理指令时所述嵌入编码层根据所述第一输出参数和所述第二输出参数生成第一编码参数和第二编码参数;
所述问答网络模型模块进一步地在接收到第三处理指令时所述互注意力层根据所述第一编码参数和所述第二编码参数生成第一矩阵和第二矩阵;
所述问答网络模型模块进一步地在接收到第四处理指令时所述模型编码层根据所述第一矩阵和所述第二矩阵生成模型编码参数;
所述问答网络模型模块进一步地在接收到输出指令时所述输出层根据所述模型编码参数输出所述问题对应的答案在所述文本内的起始位置和结束位置。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的文本内容提取方法。
10.一种存储介质,其特征在于,所述存储介质为计算机可读存储介质,存储有至少一个指令,所述至少一个指令被处理器执行时实现如权利要求1至7中任意一项所述文本内容提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910310575.6A CN110222144B (zh) | 2019-04-17 | 2019-04-17 | 文本内容提取方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910310575.6A CN110222144B (zh) | 2019-04-17 | 2019-04-17 | 文本内容提取方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110222144A true CN110222144A (zh) | 2019-09-10 |
CN110222144B CN110222144B (zh) | 2023-03-28 |
Family
ID=67822611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910310575.6A Active CN110222144B (zh) | 2019-04-17 | 2019-04-17 | 文本内容提取方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110222144B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078854A (zh) * | 2019-12-13 | 2020-04-28 | 北京金山数字娱乐科技有限公司 | 问答预测模型的训练方法及装置、问答预测方法及装置 |
CN112685543A (zh) * | 2019-10-18 | 2021-04-20 | 普天信息技术有限公司 | 一种基于文本回答问题的方法及装置 |
CN113704478A (zh) * | 2021-09-07 | 2021-11-26 | 平安银行股份有限公司 | 文本要素提取方法、装置、电子设备及介质 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455529A (zh) * | 2012-05-28 | 2013-12-18 | 株式会社东芝 | 文件检索装置、方法以及记录介质 |
CN104050471A (zh) * | 2014-05-27 | 2014-09-17 | 华中科技大学 | 一种自然场景文字检测方法及系统 |
CN104063705A (zh) * | 2014-06-05 | 2014-09-24 | 北京捷通华声语音技术有限公司 | 一种笔迹特征提取的方法和装置 |
US20150286727A1 (en) * | 2014-04-06 | 2015-10-08 | Aravind Musuluri | System and method for enhancing user experience in a search environment |
US20160092523A1 (en) * | 2014-09-30 | 2016-03-31 | International Business Machines Corporation | Information handling system and computer program product for dynamcally assigning question priority based on question extraction and domain dictionary |
CN105630940A (zh) * | 2015-12-21 | 2016-06-01 | 天津大学 | 一种基于可读性指标的信息检索方法 |
US20160283581A1 (en) * | 2015-03-27 | 2016-09-29 | International Business Machines Corporation | Determining answers to questions using a hierarchy of question and answer pairs |
US20160357818A1 (en) * | 2015-06-05 | 2016-12-08 | Apple Inc. | Systems and methods for providing improved search functionality on a client device |
CN108345580A (zh) * | 2017-01-22 | 2018-07-31 | 阿里巴巴集团控股有限公司 | 一种词向量处理方法及装置 |
CN108537146A (zh) * | 2018-03-22 | 2018-09-14 | 五邑大学 | 一种印刷体与手写体混合文本行提取系统 |
US20180300312A1 (en) * | 2017-04-13 | 2018-10-18 | Baidu Usa Llc | Global normalized reader systems and methods |
CN108921152A (zh) * | 2018-06-29 | 2018-11-30 | 清华大学 | 基于物体检测网络的英文字符切分方法及装置 |
CN108959388A (zh) * | 2018-05-31 | 2018-12-07 | 科大讯飞股份有限公司 | 信息生成方法及装置 |
CN109308353A (zh) * | 2018-09-17 | 2019-02-05 | 北京神州泰岳软件股份有限公司 | 词嵌入模型的训练方法及装置 |
CN109460735A (zh) * | 2018-11-09 | 2019-03-12 | 中国科学院自动化研究所 | 基于图半监督学习的文档二值化处理方法、系统、装置 |
CN109460553A (zh) * | 2018-11-05 | 2019-03-12 | 中山大学 | 一种基于门限卷积神经网络的机器阅读理解方法 |
CN109635947A (zh) * | 2018-12-14 | 2019-04-16 | 安徽省泰岳祥升软件有限公司 | 基于答案采样的机器阅读理解模型训练方法及装置 |
-
2019
- 2019-04-17 CN CN201910310575.6A patent/CN110222144B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455529A (zh) * | 2012-05-28 | 2013-12-18 | 株式会社东芝 | 文件检索装置、方法以及记录介质 |
US20150286727A1 (en) * | 2014-04-06 | 2015-10-08 | Aravind Musuluri | System and method for enhancing user experience in a search environment |
CN104050471A (zh) * | 2014-05-27 | 2014-09-17 | 华中科技大学 | 一种自然场景文字检测方法及系统 |
CN104063705A (zh) * | 2014-06-05 | 2014-09-24 | 北京捷通华声语音技术有限公司 | 一种笔迹特征提取的方法和装置 |
US20160092523A1 (en) * | 2014-09-30 | 2016-03-31 | International Business Machines Corporation | Information handling system and computer program product for dynamcally assigning question priority based on question extraction and domain dictionary |
US20160283581A1 (en) * | 2015-03-27 | 2016-09-29 | International Business Machines Corporation | Determining answers to questions using a hierarchy of question and answer pairs |
US20160357818A1 (en) * | 2015-06-05 | 2016-12-08 | Apple Inc. | Systems and methods for providing improved search functionality on a client device |
CN105630940A (zh) * | 2015-12-21 | 2016-06-01 | 天津大学 | 一种基于可读性指标的信息检索方法 |
CN108345580A (zh) * | 2017-01-22 | 2018-07-31 | 阿里巴巴集团控股有限公司 | 一种词向量处理方法及装置 |
US20180300312A1 (en) * | 2017-04-13 | 2018-10-18 | Baidu Usa Llc | Global normalized reader systems and methods |
CN108537146A (zh) * | 2018-03-22 | 2018-09-14 | 五邑大学 | 一种印刷体与手写体混合文本行提取系统 |
CN108959388A (zh) * | 2018-05-31 | 2018-12-07 | 科大讯飞股份有限公司 | 信息生成方法及装置 |
CN108921152A (zh) * | 2018-06-29 | 2018-11-30 | 清华大学 | 基于物体检测网络的英文字符切分方法及装置 |
CN109308353A (zh) * | 2018-09-17 | 2019-02-05 | 北京神州泰岳软件股份有限公司 | 词嵌入模型的训练方法及装置 |
CN109460553A (zh) * | 2018-11-05 | 2019-03-12 | 中山大学 | 一种基于门限卷积神经网络的机器阅读理解方法 |
CN109460735A (zh) * | 2018-11-09 | 2019-03-12 | 中国科学院自动化研究所 | 基于图半监督学习的文档二值化处理方法、系统、装置 |
CN109635947A (zh) * | 2018-12-14 | 2019-04-16 | 安徽省泰岳祥升软件有限公司 | 基于答案采样的机器阅读理解模型训练方法及装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112685543A (zh) * | 2019-10-18 | 2021-04-20 | 普天信息技术有限公司 | 一种基于文本回答问题的方法及装置 |
CN112685543B (zh) * | 2019-10-18 | 2024-01-26 | 普天信息技术有限公司 | 一种基于文本回答问题的方法及装置 |
CN111078854A (zh) * | 2019-12-13 | 2020-04-28 | 北京金山数字娱乐科技有限公司 | 问答预测模型的训练方法及装置、问答预测方法及装置 |
CN111078854B (zh) * | 2019-12-13 | 2023-10-27 | 北京金山数字娱乐科技有限公司 | 问答预测模型的训练方法及装置、问答预测方法及装置 |
CN113704478A (zh) * | 2021-09-07 | 2021-11-26 | 平安银行股份有限公司 | 文本要素提取方法、装置、电子设备及介质 |
CN113704478B (zh) * | 2021-09-07 | 2023-08-22 | 平安银行股份有限公司 | 文本要素提取方法、装置、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110222144B (zh) | 2023-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11334635B2 (en) | Domain specific natural language understanding of customer intent in self-help | |
EP4006909B1 (en) | Method, apparatus and device for quality control and storage medium | |
CN109033068A (zh) | 基于注意力机制的用于阅读理解的方法、装置和电子设备 | |
CN113010702B (zh) | 多媒体信息的互动处理方法、装置、电子设备及存储介质 | |
CN117521675A (zh) | 基于大语言模型的信息处理方法、装置、设备及存储介质 | |
CN107480162A (zh) | 基于人工智能的搜索方法、装置、设备及计算机可读存储介质 | |
CN115221846A (zh) | 一种数据处理方法及相关设备 | |
CN110852106A (zh) | 基于人工智能的命名实体处理方法、装置及电子设备 | |
CN111767375A (zh) | 语义召回方法、装置、计算机设备及存储介质 | |
CN110222144A (zh) | 文本内容提取方法、装置、电子设备及存储介质 | |
CN114564593A (zh) | 多模态知识图谱的补全方法、装置和电子设备 | |
US20190347068A1 (en) | Personal history recall | |
CN112598039B (zh) | 获取nlp分类领域阳性样本方法及相关设备 | |
CN111400473A (zh) | 意图识别模型的训练方法及装置、存储介质及电子设备 | |
CN107862058A (zh) | 用于生成信息的方法和装置 | |
CN114492669B (zh) | 关键词推荐模型训练方法、推荐方法和装置、设备、介质 | |
CN112989829B (zh) | 一种命名实体识别方法、装置、设备及存储介质 | |
CN111931503B (zh) | 信息抽取方法及装置、设备、计算机可读存储介质 | |
CN117273167A (zh) | 医疗模型的训练方法、医疗方法、装置、设备及存储介质 | |
CN116701593A (zh) | 基于GraphQL的中文问答模型训练方法及其相关设备 | |
Tannert et al. | FlowchartQA: the first large-scale benchmark for reasoning over flowcharts | |
CN107451194A (zh) | 一种图片搜索方法及装置 | |
CN111566665B (zh) | 在自然语言处理中应用图像编码识别的装置和方法 | |
CN114218364A (zh) | 问答知识库扩充方法与装置 | |
CN113761147A (zh) | 基于逻辑编辑器的问卷题目显示方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |