CN110334186A - 数据查询方法、装置、计算机设备及计算机可读存储介质 - Google Patents
数据查询方法、装置、计算机设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110334186A CN110334186A CN201910611829.8A CN201910611829A CN110334186A CN 110334186 A CN110334186 A CN 110334186A CN 201910611829 A CN201910611829 A CN 201910611829A CN 110334186 A CN110334186 A CN 110334186A
- Authority
- CN
- China
- Prior art keywords
- model
- text
- data
- identification model
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开关于一种数据查询方法、装置、计算机设备及计算机可读存储介质,属于计算机技术领域。本公开通过对第一初始模型进行训练,得到第一识别模型,并应用该第一识别模型生成训练数据,基于该训练数据对第二初始模型进行训练,得到第二识别模型,当检测到文本信息输入时,应用该第二识别模型对用户输入的文本信息进行特征提取,基于提取到的文本特征输出该文本信息所对应的标签,计算机设备可以基于该标签进行数据查询。由于该第二识别模型的架构相较于该第一识别模型的架构更简化,因此该第二识别模型的运算速度比该第一识别模型的运算速度更快,即应用该第二识别模型,可以缩短文本分析阶段的耗时,降低数据查询的延时,提高数据查询效率。
Description
技术领域
本公开涉及计算机技术领域,特别涉及一种数据查询方法、装置、计算机设备及计算机可读存储介质。
背景技术
随着互联网技术的发展,网络中的数据量日益增大,如何根据用户需求,对网络中的海量数据进行查询,获取到用户需要的数据,成为当前的一个重要研究方向。目前,在进行数据查询时,通常会应用BERT(Bidirectional Encoder Representations fromTransformers,Transformers(转换器)的双向编码表示)模型,对用户输入的一段文本信息进行分析,来获取该文本信息对应的类别或该文本信息中包含的关键词,从而基于该类别或该关键词进行数据查询。
但是,由于BERT模型中包含的运算层较多,导致模型的复杂度较高,使得在应用该模型分析文本信息时,数据运算的复杂度较高,运算时间较长,进而导致在进行在线数据查询时,返回查询结果的延时较长,数据查询效率较低。
发明内容
本公开提供了一种数据查询方法、装置、计算机设备及计算机可读存储介质,可以解决相关技术中获取查询结果的耗时较长,数据查询效率低的问题。该技术方案如下:
一方面,提供了一种数据查询方法,该方法包括:
基于第一训练数据集对第一初始模型进行训练,得到第一识别模型,该第一识别模型为转换器的双向编码表示模型,该第一训练数据集包括多个已标注的第一文本数据;
获取第二训练数据集,该第二训练数据集包括多个未标注的第二文本数据;
将该第二训练数据集中各个第二文本数据输入该第一识别模型,得到该各个第二文本数据对应的标签;
基于该各个第二文本数据对应的标签对该各个第二文本数据进行标注,得到包括已标注的第二文本数据的第三训练数据集;
基于该第三训练数据集对第二初始模型进行训练,得到第二识别模型,该第二识别模型为快速文本模型或迭代膨胀卷积神经网络-条件随机场模型,该第二识别模型的模型架构相较于该第一识别模型的模型架构更简化;
当检测到文本信息输入时,通过该第二识别模型,对该文本信息进行特征提取,得到文本特征,基于该文本特征输出该文本信息的至少一个标签;
基于该至少一个标签,进行数据查询。
在一种可能实现方式中,该基于该第三训练数据集对第二初始模型进行训练,得到第二识别模型包括:
将该第一训练数据集和该第三训练数据集作为训练数据,来对该第二初始模型进行训练,得到该第二识别模型。
在一种可能实现方式中,该基于该第三训练数据集对第二初始模型进行训练,得到第二识别模型之前,该方法还包括:
从该第三训练数据集中,筛选掉标签对应的概率值小于目标阈值的第二文本数据。
在一种可能实现方式中,该各个第二文本数据对应的标签是指下述任一种标签:
用于指示该文本数据对应类别的类别标签;
用于指示该文本数据中所包含的命名实体的实体标签。
一方面,提供了一种数据查询装置,该装置包括:
第一识别模型获取模块,用于基于第一训练数据集对第一初始模型进行训练,得到第一识别模型,该第一识别模型为转换器的双向编码表示模型,该第一训练数据集包括多个已标注的第一文本数据;
第一数据集获取模块,用于获取第二训练数据集,该第二训练数据集包括多个未标注的第二文本数据;
标签获取模块,用于将该第二训练数据集中各个第二文本数据输入该第一识别模型,得到该各个第二文本数据对应的标签;
第二数据集获取模块,用于基于该各个第二文本数据对应的标签对该各个第二文本数据进行标注,得到包括已标注的第二文本数据的第三训练数据集;
第二识别模型获取模块,用于基于该第三训练数据集对第二初始模型进行训练,得到第二识别模型,该第二识别模型为快速文本模型或迭代膨胀卷积神经网络-条件随机场模型,该第二识别模型的模型架构相较于该第一识别模型的模型架构更简化;
输出模块,用于当检测到文本信息输入时,通过该第二识别模型,对该文本信息进行特征提取,得到文本特征,基于该文本特征输出该文本信息的至少一个标签;
查询模块,用于基于该至少一个标签,进行数据查询。
在一种可能实现方式中,该第二识别模型获取模块用于:
将该第一训练数据集和该第三训练数据集作为训练数据,来对该第二初始模型进行训练,得到该第二识别模型。
在一种可能实现方式中,该装置还包括:
筛选模块,用于从该第三训练数据集中,筛选掉标签对应的概率值小于目标阈值的第二文本数据。
在一种可能实现方式中,该各个第二文本数据对应的标签是指下述任一种标签:
用于指示该文本数据对应类别的类别标签;
用于指示该文本数据中所包含的命名实体的实体标签。
一方面,提供了一种计算机设备,该计算机设备包括一个或多个处理器和一个或多个存储器,该一个或多个存储器中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器加载并执行以实现该数据查询方法所执行的操作。
一方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行以实现该数据查询方法所执行的操作。
本公开实施例提供的技术方案,通过对第一初始模型进行训练,得到第一识别模型,并应用该第一识别模型获取未标注文本数据的标签,基于获取到的标签对该文本数据进行标注,生成训练数据,基于该训练数据对第二初始模型进行训练,得到第二识别模型,当检测到文本信息输入时,应用该第二识别模型对用户输入的文本信息进行特征提取,基于提取到的文本特征输出该文本信息所对应的标签,计算机设备可以基于该标签进行数据查询。由于该第二识别模型的架构相较于该第一识别模型的架构更简化,因此该第二识别模型的运算速度比该第一识别模型的运算速度更快,即应用该第二识别模型,可以缩短文本分析阶段的耗时,降低数据查询的延时,提高数据查询效率。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的一种数据查询方法的实施环境示意图;
图2是本公开实施例提供的一种数据查询方法的流程图;
图3是本公开实施例提供的一种加速模型的获取流程图;
图4是本公开实施例提供的一种数据查询装置的结构示意图;
图5是本公开实施例提供的一种服务器的结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。
为了便于理解本公开实施例的技术过程,下面对本公开实施例所涉及的一些名词进行解释:
命名实体:是指人名、地名、机构名以及其他所有以名称为标识的实体,当然也可以包括时间、日期、数量短语等。
BERT(Bidirectional Encoder Representations from Transformers)模型:是由谷歌发布的一种自然语言识别模型,BERT模型中包括12个运算层,即12个Transformers(转换器),各个Transformers可以基于注意力机制对文本信息进行特征提取,以及对文本信息进行编码和解码。该BERT模型为已经预训练完成的模型,开发人员在应用该BERT模型时,只需根据具体文本识别任务,对该模型中的各个参数进行微调,例如,在文本分类任务中,可以通过一组已标注出所属类别的文本数据对该BERT模型中的参数进行微调,使该BERT模型能够提取到用于指示文本数据所属类别的文本特征,并基于该文本特征输出该文本的类别标签,在实体识别任务中,可以通过一组已标注出命名实体的文本数据对该BERT模型中的参数进行微调,使该BERT模型能够提取到用于指示文本数据中命名实体的文本特征,并基于该文本特征输出该文本的实体标签。
图1是本公开实施例提供的一种数据查询方法的实施环境示意图,参见图1,该实施环境中包括至少一个终端101和至少一个服务器102,该至少一个终端可以包括用于发送数据查询请求的终端,该至少一个终端上可以安装和运行有支持数据查询的应用程序,例如,浏览器类应用程序等,该至少一个终端101可以为笔记本电脑、智能手机等,本公开实施例对此不做限定,该至少一个服务器102可以包括用于进行数据查询的服务器,该至少一个服务器102可以为笔记本电脑、服务器、云计算平台等,本公开实施例对此不做限定。该至少一个终端101与该至少一个服务器102之间可以通过有线或无线网络进行通信,以便由终端101向服务器102发送数据查询请求,并接收服务器102返回的数据查询结果。
图2是本公开实施例提供的一种数据查询方法的流程图,该方法可以应用于上述终端或者服务器,而终端和服务器均可以视为一种计算机设备,因此,本公开实施例基于计算机设备作为执行主体来进行介绍,参见图2,该实施例具体可以包括以下步骤:
201、计算机设备基于第一训练数据集对第一初始模型进行训练,得到第一识别模型,该第一训练数据集包括多个已标注的第一文本数据。
其中,该第一训练数据集可以为一组已标注出所属类别的第一文本数据,也可以为一组已标注出人名、地名、机构名等命名实体的第一文本数据。
在本公开实施例中,该第一初始模型具备进行文本识别所需的运算层,计算机设备通过该第一训练数据集对该第一初始模型进行训练后,可以得到第一识别模型,该第一识别模型可以对文本信息进行识别,得到该文本信息的所属类别或该文本信息中包含的命名实体。为提高识别结果的准确性,该第一识别模型可以为架构较为复杂、运算层和参数较多的模型,使该第一识别模型可以更全面地对文本信息进行特征提取,例如,该第一识别模型可以为BERT模型。
具体地,以BERT模型为例,对该第一初始模型的训练过程进行说明,在一种可能实现方式中,该训练过程可以包括以下步骤:
步骤一、该计算机设备将该第一训练数据集输入该第一初始模型。
该计算机设备将该第一训练数据集中的各个第一文本数据输入BERT模型之后,通过该BERT模型对该各个第一文本数据进行预处理,将一个第一文本数据切分为由多个字符组成的字符序列,基于该BERT模型预训练过程生成的字符到向量的参数对该字符序列中的各个字符进行替换,将一个字符转换为一个向量,得到该一个第一文本数据对应的向量序列。该计算机设备将该各个第一文本数据对应的向量序列输入该BERT模型,由该BERT模型中的12个运算层对多个向量序列进行编码运算和解码运算,以提取该各个第一文本数据的文本特征。
步骤二、该计算机设备获取该第一初始模型输出的至少一个标签,计算该至少一个标签与标注数据之间的误差。
该计算机设备可以通过该第一初始模型,对该各个第一文本数据对应的至少一个标签进行预测,计算机设备可以通过一个或多个损失函数计算该第一初始模型预测到的至少一个标签与标注数据之间的误差,该标注数据可以指示该第一文本数据实际对应的标签。由于第一文本数据的标注数据实际上是该第一文本数据的实际标签,因此,将该实际标签与模型所输出的标签之间进行对比,可以获知模型的准确性,基于其准确性进一步训练模型。其中,损失函数可以为softmax(归一化指数)函数、sigmoid(S型生长曲线)函数等,本公开实施例对此不做限定。
步骤三、该计算机设备基于该识别结果与正确识别结果之间的误差,对该第一初始模型的各个参数进行微调,直到符合预设条件时,得到训练好的模型,即第一识别模型。
该计算机设备可以将获取到的多个误差分别与误差阈值进行比较,当任一个误差大于误差阈值时,该计算机设备将该多个误差反向传播到该BERT模型,采用梯度下降法求解该BERT模型中的各个参数。其中,该误差阈值可以由开发人员设置,为确保模型输出结果的准确性,在通常情况下,该误差阈值可以设置为一个较小的数值。
当该多个误差均小于误差阈值时,则认为该计算机设备获取的识别结果正确,该计算机设备继续读取下一个文本数据,执行步骤一,若该计算机设备获取到的识别结果正确的个数到达目标数目时,则认为该BERT模型训练完毕,即得到第一识别模型。其中,该目标数目可以由开发人员进行设置。
202、该计算机设备获取第二训练数据集,该第二训练数据集包括多个未标注的第二文本数据。
其中,该第二文本数据的数目应远远大于该第一文本数据的数目,例如,可以将该第二文本数据的数目设置为该第一文本数据数目的100倍及以上。在一种可能实现方式中,该计算机设备可以从搜索系统日志中导出大量查询数据作为该第二文本数据,该搜索系统日志可以记录用户进行数据查询时所输入的文本数据。
203、该计算机设备将该第二训练数据集中各个第二文本数据输入该第一识别模型,得到该各个第二文本数据对应的标签。
在一种可能实现方式中,该计算机设备通过该第一识别模型对该第二训练数据集中的各个第二文本数据进行特征提取,基于特征提取结果对该各个第二文本数据所对应的至少一个标签进行预测,具体地,该计算机设备将一个第二文本数据输入该第一识别模型后,由该第一识别模型对第二文本数据进行特征提取以及进一步运算,并输出一个M维向量,该M维向量中可以包括M个概率值,一个概率值用于指示一个标签与该第二文本数据之间的匹配度,概率值越大,标签与该第二文本数据之间的匹配度越高,该计算机设备可以按照数值大小对该M个概率值进行排序,将前N个概率值对应的标签作为该第二文本数据的标签。其中,M和N均为正整数,M的数值等于该第一识别模型所对应的标签数目,N的具体数值可以由开发人员进行设置。需要说明的是,上述标签获取方法仅为一种示例性的介绍,本公开实施例对具体采用哪种标签获取方法不做限定。
其中,根据任务类型,该标签可以为用于指示该文本数据对应类别的类别标签,也可以为用于指示该文本数据中所包含的命名实体的实体标签。
204、该计算机设备基于该各个第二文本数据对应的标签对该各个第二文本数据进行标注,得到包括已标注的第二文本数据的第三训练数据集。
当该计算机设备获取到的标签为类别标签时,该计算机设备可以对该各个第二文本数据的所属类别进行标注,当该计算机设备获取到的标签为实体标签时,该计算机设备可以对该各个第二文本数据中所包含的命名实体以及该命名实体的位置进行标注。
为确保该第三训练数据集中各个数据的有效性,在本公开实施例中,该计算机设备可以按照预设规则对该第三训练数据集中的各个数据进行筛选,其中,该预设规则可以由开发人员设置。在一种可能实现方式中,该计算机设备可以从该第三训练数据集中,筛选掉标签对应的概率值小于目标阈值的第二文本数据。具体地,该计算机设备可以获取各个第二文本数据的标签所对应的概率值,将各个概率值分别与目标阈值进行比较,将标签对应的概率值均小于目标阈值的第二文本数据筛选掉。通过对各个已标注的第二文本数据进行筛选,可以避免出现因第一识别模型识别错误,而造成数据标注不准确的情况,确保该第三训练数据集中各个数据的准确性,在后续应用该第三训练数据集进行模型训练时,可以使模型能够正确学习到各个第二文本数据的特征,使该模型的训练效果达到最优。
205、该计算机设备基于该第三训练数据集对第二初始模型进行训练,得到第二识别模型,该第二识别模型的模型架构相较于该第一识别模型的模型架构更简化。
为使该第二识别模型在进行文本分析时的运算量更小,输出运算结果的延时更短,以满足在线数据查询的需求,该第二识别模型的模型架构相较于该第一识别模型的模型架构要更简化,也即是,该第二识别模型中运算层的数目小于该第一识别模型中运算层的数目,且该第二识别模型中参数的数目小于该第一识别模型中参数的数目。例如,对于分类任务,该第二识别模型可以为Fasttext(快速文本)文本分类模型,该Fasttext文本分类模型包括一个输入层、一个隐藏层和一个输出层,模型结构较简单,模型中包含的参数较少;对于实体识别任务,该第二识别模型可以为IDCNN-CRF(Iterated DilatedConvolutional Neural Networks-Conditional Random Field,迭代膨胀卷积神经网络-条件随机场)实体识别模型,该IDCNN-CRF实体识别模型中可以包括至少一个膨胀卷积层,各个膨胀卷积层中包含的参数较少,模型整体结构较简单。本公开实施例对具体采用哪种模型作为第二识别模型不做限定。
在本公开实施例中,该计算机设备将该第一训练数据集和该第三训练数据集作为训练数据,来对该第二初始模型进行训练,得到该第二识别模型。该计算机设备基于该第一识别模型的识别结果,对大量未标注的文本数据进行标注,得到训练数据集,不需要人工进行标注,降低了数据标注过程中的人力成本和耗时,提高了标注效率。
206、当检测到文本信息输入时,该计算机设备通过该第二识别模型,对该文本信息进行特征提取,得到文本特征,基于该文本特征输出该文本信息的至少一个标签。
当该计算机设备检测到用户在目标页面进行信息输入时,获取用户输入的文本信息,将该文本信息输入该第二识别模型。当该第二识别模型为可以识别文本类别的文本分类模型时,该计算机设备通过该文本分类模型,获取该文本信息的类别标签,当该第二识别模型为可以识别文本中包含的命名实体的实体识别模型时,该计算机设备可以通过该实体识别模型,获取该文本信息中包含的命名实体的实体标签。其中,该目标页面为可以提供数据查询功能的页面,例如,搜索页面等。
207、该计算机设备基于该至少一个标签,进行数据查询。
该计算机设备通过检索器在数据库中查找与该至少一个标签相匹配的数据,并按照与该至少一个标签的匹配度从高到低的顺序,对查找到的至少一个数据进行排序,将排序完成的该至少一个数据作为数据查询结果进行输出。
其中,该检索器可以通过匹配算法快速查找数据,进行数据与查询关键词的匹配度计算,根据与查询关键词的匹配度对查找到的数据进行排序。
本公开实施例提供的技术方案,通过对第一初始模型进行训练,得到第一识别模型,并应用该第一识别模型获取未标注文本数据的标签,基于获取到的标签对该文本数据进行标注,生成训练数据,基于该训练数据对第二初始模型进行训练,得到第二识别模型,当检测到文本信息输入时,应用该第二识别模型对用户输入的文本信息进行特征提取,基于提取到的文本特征输出该文本信息所对应的标签,计算机设备可以基于该标签进行数据查询。由于该第二识别模型的架构相较于该第一识别模型的架构更简化,因此该第二识别模型的运算速度比该第一识别模型的运算速度更快,即应用该第二识别模型,可以缩短文本分析阶段的耗时,降低数据查询的延时,提高数据查询效率。
在上述实施例中,通过选择模型架构更简化的识别模型作为加速模型,并应于在线数据查询等任务场景中,缩短了返回查询结果的耗时,优化了数据查询过程中的用户体验,如图3所示,图3是本公开实施例提供的一种加速模型的获取流程图,首先,该计算机设备执行训练数据集的获取过程301,通过对架构较为复杂的模型Model-B的训练以及应用,生成大量训练数据,这种方法大大降低了训练数据的获取成本。然后,该计算机设备基于获取到的训练数据集,执行加速模型Model-S的训练过程302,通过大量训练数据进行训练,可以提高该加速模型的预测精度,确保该加速模型的预测效果与复杂模型的预测效果接近,当然,该计算机设备在对该加速模型进行训练之前,还可以根据应用场景对该加速模型进行选择,例如,在用户输入的信息中包含命名实体较多的应用场景中,可以应用实体查询模型作为加速模型,通过选择合适的加速模型,可以根据应用场景进行更大幅度的预测速度加速。最后,该计算机设备获取到训练完成的加速模型Model-S,将该加速模型Model-S应用于在线搜索过程303中。
具体地,在文本分类任务中,目前准确率较高的分类模型为BERT模型,但该BERT模型预测速度慢,因此可以应用Fasttext模型作为加速模型。计算机设备可以基于10万条已标注的文本数据以及3千万未标注的文本数据,生成训练数据集,对该Fasttext模型进行训练,得到可以用于上线预测的Fasttext模型,经测试,该Fasttext模型的预测准确度为0.9188,单次预测时延为0.9ms(基于E5-2630v4处理器),而BERT模型的预测准确度为0.9162,单次预测时延为100ms(基于CPU中央处理器)。该加速模型的预测效果提升0.002%,加速带来性能提升100倍。
在实体识别任务中,目前准确率较高的实体识别模型为BERT-NER模型,但该模型预测速度慢,因此可以应用IDCNN-CRF模型作为加速模型。计算机设备可以基于4.7万条已标注的文本数据以及3千万未标注的文本数据,生成训练数据集,对该IDCNN-CRF模型进行训练,得到可以用于上线预测的IDCNN-CRF模型,最后得到的用于上线预测的IDCNN-CRF模型,该IDCNN-CRF模型的预测准确度为0.9044,单次预测时延为2ms(基于Core i7 2.2GHz处理器),而BERT-NER模型的预测准确度为0.8816,单次预测时延为180ms(基于CPU中央处理器)。该加速模型的预测效果提升0.22%,加速带来性能提升90倍。
图4是本公开实施例提供的一种数据查询装置的结构示意图,参见图4,该装置包括:
第一识别模型获取模块401,用于基于第一训练数据集对第一初始模型进行训练,得到第一识别模型,该第一识别模型为转换器的双向编码表示模型,该第一训练数据集包括多个已标注的第一文本数据;
第一数据集获取模块402,用于获取第二训练数据集,该第二训练数据集包括多个未标注的第二文本数据;
标签获取模块403,用于将该第二训练数据集中各个第二文本数据输入该第一识别模型,得到该各个第二文本数据对应的标签;
第二数据集获取模块404,用于基于该各个第二文本数据对应的标签对该各个第二文本数据进行标注,得到包括已标注的第二文本数据的第三训练数据集;
第二识别模型获取模块405,用于基于该第三训练数据集对第二初始模型进行训练,得到第二识别模型,该第二识别模型为快速文本模型或迭代膨胀卷积神经网络-条件随机场模型,该第二识别模型的模型架构相较于该第一识别模型的模型架构更简化;
输出模块406,用于当检测到文本信息输入时,通过该第二识别模型,对该文本信息进行特征提取,得到文本特征,基于该文本特征输出该文本信息的至少一个标签;
查询模块407,用于基于该至少一个标签,进行数据查询。
在一种可能实现方式中,该第二识别模型获取模块405用于:
将该第一训练数据集和该第三训练数据集作为训练数据,来对该第二初始模型进行训练,得到该第二识别模型。
在一种可能实现方式中,该装置还包括:
筛选模块,用于从该第三训练数据集中,筛选掉标签对应的概率值小于目标阈值的第二文本数据。
在一种可能实现方式中,该各个第二文本数据对应的标签是指下述任一种标签:
用于指示该文本数据对应类别的类别标签;
用于指示该文本数据中所包含的命名实体的实体标签。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的数据查询装置在数据查询时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数据查询装置与数据查询方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图5是本公开实施例提供的一种服务器的结构示意图,该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(central processing units,CPU)501和一个或多个的存储器502,其中,该一个或多个存储器502中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器501加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器500还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器500还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由处理器执行以完成上述实施例中的数据查询方法。例如,该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种数据查询方法,其特征在于,所述方法包括:
基于第一训练数据集对第一初始模型进行训练,得到第一识别模型,所述第一识别模型为转换器的双向编码表示模型,所述第一训练数据集包括多个已标注的第一文本数据;
获取第二训练数据集,所述第二训练数据集包括多个未标注的第二文本数据;
将所述第二训练数据集中各个第二文本数据输入所述第一识别模型,得到所述各个第二文本数据对应的标签;
基于所述各个第二文本数据对应的标签对所述各个第二文本数据进行标注,得到包括已标注的第二文本数据的第三训练数据集;
基于所述第三训练数据集对第二初始模型进行训练,得到第二识别模型,所述第二识别模型为快速文本模型或迭代膨胀卷积神经网络-条件随机场模型,所述第二识别模型的模型架构相较于所述第一识别模型的模型架构更简化;
当检测到文本信息输入时,通过所述第二识别模型,对所述文本信息进行特征提取,得到文本特征,基于所述文本特征输出所述文本信息的至少一个标签;
基于所述至少一个标签,进行数据查询。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第三训练数据集对第二初始模型进行训练,得到第二识别模型包括:
将所述第一训练数据集和所述第三训练数据集作为训练数据,来对所述第二初始模型进行训练,得到所述第二识别模型。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第三训练数据集对第二初始模型进行训练,得到第二识别模型之前,所述方法还包括:
从所述第三训练数据集中,筛选掉标签对应的概率值小于目标阈值的第二文本数据。
4.根据权利要求1所述的方法,其特征在于,所述各个第二文本数据对应的标签是指下述任一种标签:
用于指示所述文本数据对应类别的类别标签;
用于指示所述文本数据中所包含的命名实体的实体标签。
5.一种数据查询装置,其特征在于,所述装置包括:
第一识别模型获取模块,用于基于第一训练数据集对第一初始模型进行训练,得到第一识别模型,所述第一识别模型为转换器的双向编码表示模型,所述第一训练数据集包括多个已标注的第一文本数据;
第一数据集获取模块,用于获取第二训练数据集,所述第二训练数据集包括多个未标注的第二文本数据;
标签获取模块,用于将所述第二训练数据集中各个第二文本数据输入所述第一识别模型,得到所述各个第二文本数据对应的标签;
第二数据集获取模块,用于基于所述各个第二文本数据对应的标签对所述各个第二文本数据进行标注,得到包括已标注的第二文本数据的第三训练数据集;
第二识别模型获取模块,用于基于所述第三训练数据集对第二初始模型进行训练,得到第二识别模型,所述第二识别模型为快速文本模型或迭代膨胀卷积神经网络-条件随机场模型,所述第二识别模型的模型架构相较于所述第一识别模型的模型架构更简化;
输出模块,用于当检测到文本信息输入时,通过所述第二识别模型,对所述文本信息进行特征提取,得到文本特征,基于所述文本特征输出所述文本信息的至少一个标签;
查询模块,用于基于所述至少一个标签,进行数据查询。
6.根据权利要求5所述的装置,其特征在于,所述第二识别模型获取模块用于:
将所述第一训练数据集和所述第三训练数据集作为训练数据,来对所述第二初始模型进行训练,得到所述第二识别模型。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
筛选模块,用于从所述第三训练数据集中,筛选掉标签对应的概率值小于目标阈值的第二文本数据。
8.根据权利要求6所述的装置,其特征在于,所述各个第二文本数据对应的标签是指下述任一种标签:
用于指示所述文本数据对应类别的类别标签;
用于指示所述文本数据中所包含的命名实体的实体标签。
9.一种计算机设备,其特征在于,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求4任一项所述的数据查询方法所执行的操作。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述指令由处理器加载并执行以实现如权利要求1至权利要求4任一项所述的数据查询方法所执行的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910611829.8A CN110334186B (zh) | 2019-07-08 | 2019-07-08 | 数据查询方法、装置、计算机设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910611829.8A CN110334186B (zh) | 2019-07-08 | 2019-07-08 | 数据查询方法、装置、计算机设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110334186A true CN110334186A (zh) | 2019-10-15 |
CN110334186B CN110334186B (zh) | 2021-09-28 |
Family
ID=68143869
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910611829.8A Active CN110334186B (zh) | 2019-07-08 | 2019-07-08 | 数据查询方法、装置、计算机设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110334186B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111125491A (zh) * | 2019-11-29 | 2020-05-08 | 腾讯科技(深圳)有限公司 | 商品信息的搜索方法和装置、存储介质及电子装置 |
CN111339318A (zh) * | 2020-02-29 | 2020-06-26 | 西安理工大学 | 基于深度学习的大学计算机基础知识图谱构建方法 |
CN111506595A (zh) * | 2020-04-20 | 2020-08-07 | 金蝶软件(中国)有限公司 | 一种数据查询方法、系统及相关设备 |
CN112528674A (zh) * | 2020-12-14 | 2021-03-19 | 网易(杭州)网络有限公司 | 文本处理方法、模型的训练方法、装置、设备及存储介质 |
CN112749801A (zh) * | 2021-01-22 | 2021-05-04 | 上海商汤智能科技有限公司 | 神经网络训练和图像处理方法及装置 |
CN113344098A (zh) * | 2021-06-22 | 2021-09-03 | 北京三快在线科技有限公司 | 一种模型训练方法及装置 |
CN113486178A (zh) * | 2021-07-12 | 2021-10-08 | 恒安嘉新(北京)科技股份公司 | 文本识别模型训练方法、文本识别方法、装置以及介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447031A (zh) * | 2014-08-28 | 2016-03-30 | 百度在线网络技术(北京)有限公司 | 训练样本的标注方法及装置 |
CN106529485A (zh) * | 2016-11-16 | 2017-03-22 | 北京旷视科技有限公司 | 用于获取训练数据的方法及装置 |
CN106569993A (zh) * | 2015-10-10 | 2017-04-19 | 中国移动通信集团公司 | 一种挖掘领域术语间上下位关系的方法及装置 |
CN106778887A (zh) * | 2016-12-27 | 2017-05-31 | 努比亚技术有限公司 | 基于条件随机场确定句子标记序列的终端及方法 |
CN106951468A (zh) * | 2017-03-02 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 对话生成方法及装置 |
CN109242013A (zh) * | 2018-08-28 | 2019-01-18 | 北京九狐时代智能科技有限公司 | 一种数据标注方法、装置、电子设备及存储介质 |
CN109492079A (zh) * | 2018-10-09 | 2019-03-19 | 北京奔影网络科技有限公司 | 意图识别方法及装置 |
CN109570179A (zh) * | 2019-01-24 | 2019-04-05 | 莆田市科龙环保技术有限公司 | 丝印车间VOCs废气收集处理方法及装置 |
CN109670179A (zh) * | 2018-12-20 | 2019-04-23 | 中山大学 | 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法 |
WO2019100723A1 (zh) * | 2017-11-24 | 2019-05-31 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
CN109871443A (zh) * | 2018-12-25 | 2019-06-11 | 杭州茂财网络技术有限公司 | 一种基于记账场景的短文本分类方法及装置 |
CN109902716A (zh) * | 2019-01-22 | 2019-06-18 | 厦门美图之家科技有限公司 | 一种对齐分类模型的训练方法和图像分类方法 |
CN109947909A (zh) * | 2018-06-19 | 2019-06-28 | 平安科技(深圳)有限公司 | 智能客服应答方法、设备、存储介质及装置 |
-
2019
- 2019-07-08 CN CN201910611829.8A patent/CN110334186B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447031A (zh) * | 2014-08-28 | 2016-03-30 | 百度在线网络技术(北京)有限公司 | 训练样本的标注方法及装置 |
CN106569993A (zh) * | 2015-10-10 | 2017-04-19 | 中国移动通信集团公司 | 一种挖掘领域术语间上下位关系的方法及装置 |
CN106529485A (zh) * | 2016-11-16 | 2017-03-22 | 北京旷视科技有限公司 | 用于获取训练数据的方法及装置 |
CN106778887A (zh) * | 2016-12-27 | 2017-05-31 | 努比亚技术有限公司 | 基于条件随机场确定句子标记序列的终端及方法 |
CN106951468A (zh) * | 2017-03-02 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 对话生成方法及装置 |
WO2019100723A1 (zh) * | 2017-11-24 | 2019-05-31 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
CN109947909A (zh) * | 2018-06-19 | 2019-06-28 | 平安科技(深圳)有限公司 | 智能客服应答方法、设备、存储介质及装置 |
CN109242013A (zh) * | 2018-08-28 | 2019-01-18 | 北京九狐时代智能科技有限公司 | 一种数据标注方法、装置、电子设备及存储介质 |
CN109492079A (zh) * | 2018-10-09 | 2019-03-19 | 北京奔影网络科技有限公司 | 意图识别方法及装置 |
CN109670179A (zh) * | 2018-12-20 | 2019-04-23 | 中山大学 | 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法 |
CN109871443A (zh) * | 2018-12-25 | 2019-06-11 | 杭州茂财网络技术有限公司 | 一种基于记账场景的短文本分类方法及装置 |
CN109902716A (zh) * | 2019-01-22 | 2019-06-18 | 厦门美图之家科技有限公司 | 一种对齐分类模型的训练方法和图像分类方法 |
CN109570179A (zh) * | 2019-01-24 | 2019-04-05 | 莆田市科龙环保技术有限公司 | 丝印车间VOCs废气收集处理方法及装置 |
Non-Patent Citations (2)
Title |
---|
JIE XIE ET AL.: ""Multi-Label Classification of Frog Species via Deep Learning"", 《IEEE INTERNATIONAL CONFERENCE ON E-SCIENCE AND GRID COMPUTING》 * |
苏志同 等: ""改进的增量贝叶斯模型的研究"", 《计算机应用与软件》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111125491A (zh) * | 2019-11-29 | 2020-05-08 | 腾讯科技(深圳)有限公司 | 商品信息的搜索方法和装置、存储介质及电子装置 |
CN111339318A (zh) * | 2020-02-29 | 2020-06-26 | 西安理工大学 | 基于深度学习的大学计算机基础知识图谱构建方法 |
CN111339318B (zh) * | 2020-02-29 | 2023-05-05 | 西安理工大学 | 基于深度学习的大学计算机基础知识图谱构建方法 |
CN111506595A (zh) * | 2020-04-20 | 2020-08-07 | 金蝶软件(中国)有限公司 | 一种数据查询方法、系统及相关设备 |
CN111506595B (zh) * | 2020-04-20 | 2024-03-19 | 金蝶软件(中国)有限公司 | 一种数据查询方法、系统及相关设备 |
CN112528674A (zh) * | 2020-12-14 | 2021-03-19 | 网易(杭州)网络有限公司 | 文本处理方法、模型的训练方法、装置、设备及存储介质 |
CN112528674B (zh) * | 2020-12-14 | 2023-06-30 | 网易(杭州)网络有限公司 | 文本处理方法、模型的训练方法、装置、设备及存储介质 |
CN112749801A (zh) * | 2021-01-22 | 2021-05-04 | 上海商汤智能科技有限公司 | 神经网络训练和图像处理方法及装置 |
CN113344098A (zh) * | 2021-06-22 | 2021-09-03 | 北京三快在线科技有限公司 | 一种模型训练方法及装置 |
CN113486178A (zh) * | 2021-07-12 | 2021-10-08 | 恒安嘉新(北京)科技股份公司 | 文本识别模型训练方法、文本识别方法、装置以及介质 |
CN113486178B (zh) * | 2021-07-12 | 2023-12-01 | 恒安嘉新(北京)科技股份公司 | 文本识别模型训练方法、文本识别方法、装置以及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110334186B (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334186A (zh) | 数据查询方法、装置、计算机设备及计算机可读存储介质 | |
Cao et al. | A novel neural topic model and its supervised extension | |
CN108932342A (zh) | 一种语义匹配的方法、模型的学习方法及服务器 | |
CN111177569A (zh) | 基于人工智能的推荐处理方法、装置及设备 | |
CN110968695A (zh) | 基于弱监督技术主动学习的智能标注方法、装置及平台 | |
CN110489750A (zh) | 基于双向lstm-crf的缅甸语分词及词性标注方法及装置 | |
CN112100401B (zh) | 面向科技服务的知识图谱构建方法、装置、设备及存储介质 | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN111666766A (zh) | 数据处理方法、装置和设备 | |
CN113408287B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN111832290A (zh) | 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质 | |
CN116450813B (zh) | 文本关键信息提取方法、装置、设备以及计算机存储介质 | |
CN112528136A (zh) | 一种观点标签的生成方法、装置、电子设备和存储介质 | |
CN116070632A (zh) | 一种非正式文本实体标签识别方法和装置 | |
Thattinaphanich et al. | Thai named entity recognition using Bi-LSTM-CRF with word and character representation | |
CN109271624A (zh) | 一种目标词确定方法、装置及存储介质 | |
CN115526171A (zh) | 一种意图识别方法、装置、设备及计算机可读存储介质 | |
CN116562291A (zh) | 一种基于边界检测的中文嵌套命名实体识别方法 | |
CN114417891B (zh) | 基于粗糙语义的回复语句确定方法、装置及电子设备 | |
CN113761875B (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN115510188A (zh) | 文本关键词关联方法、装置、设备及存储介质 | |
KR102557380B1 (ko) | 지식 임베딩 모델 기반의 개체명 인식 모델 생성 장치 및 방법 | |
CN112487154B (zh) | 一种基于自然语言的智能搜索方法 | |
CN115600595A (zh) | 一种实体关系抽取方法、系统、设备及可读存储介质 | |
CN114547313A (zh) | 资源类型识别方法以及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |