CN113220824B - 数据检索方法、装置、设备及存储介质 - Google Patents

数据检索方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113220824B
CN113220824B CN202011337026.7A CN202011337026A CN113220824B CN 113220824 B CN113220824 B CN 113220824B CN 202011337026 A CN202011337026 A CN 202011337026A CN 113220824 B CN113220824 B CN 113220824B
Authority
CN
China
Prior art keywords
text
data
matching
intention
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011337026.7A
Other languages
English (en)
Other versions
CN113220824A (zh
Inventor
李永帅
盛志超
李�浩
王硕
代旭东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202011337026.7A priority Critical patent/CN113220824B/zh
Publication of CN113220824A publication Critical patent/CN113220824A/zh
Application granted granted Critical
Publication of CN113220824B publication Critical patent/CN113220824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种数据检索方法、装置、设备及存储介质,对于检索指令文本及待检索数据集中的数据文本,分别进行意图识别及设定类型参数的抽取,从而得到每一文本所表达的文本意图及其包含的设定类型的参数,进一步对检索指令文本及每条数据文本进行意图匹配和参数匹配,通过综合考虑意图匹配结果和参数匹配结果,确定最终的检索结果。本申请通过意图识别可以得到检索指令文本和数据文本的句子语义信息,明确检索指令所真正意图检索的内容,以及数据文本所表达的语义内容,通过意图匹配可以从句子语义信息的层次来确定二者的匹配情况,进一步结合设定类型参数的匹配,可以准确的得到与检索指令文本对应的检索结果。

Description

数据检索方法、装置、设备及存储介质
技术领域
本申请涉及数据处理技术领域,更具体的说,是涉及一种数据检索方法、装置、设备及存储介质。
背景技术
数据检索即针对给出的检索指令文本,在待检索数据集中检索相匹配的数据的过程。
传统的检索方式,多是基于关键词的方式来进行检索,如从检索指令文本中提取关键词,并与待检索数据集中各条数据进行关键词匹配,将匹配的数据作为检索结果。这种单纯依靠关键词进行检索的方式,经常会出现数据检索不准确,检索质量不高的问题。
发明内容
鉴于上述问题,提出了本申请以便提供一种数据检索方法、装置、设备及存储介质,以解决现有依靠关键词进行检索的方式所存在的,检索结果不准确、质量不高的问题。具体方案如下:
一种数据检索方法,包括:
获取检索指令文本,及待检索数据集,所述待检索数据集包含若干条数据文本;
分别对所述检索指令文本、所述待检索数据集中的数据文本进行意图识别及设定类型参数的抽取,得到每一文本所表达的文本意图及其包含的设定类型的参数;
对所述检索指令文本及每条数据文本的文本意图进行意图匹配,以及,对所述检索指令文本及每条数据文本各自包含的设定类型的参数进行参数匹配;
基于所述意图匹配的结果以及所述参数匹配的结果,从所述待检索数据集包含的各条数据文本中,确定与所述检索指令文本对应的检索结果。
优选地,所述获取待检索数据集,包括:
对待检索文件进行句子划分,得到划分后的各个句子作为数据文本,组成待检索数据集。
优选地,以所述检索指令文本、所述待检索数据集中每条数据文本作为待解析文本,则对每条待解析文本进行意图识别及设定类型参数的抽取的过程,包括:
利用预训练的联合预测模型,处理所述待解析文本,以得到预测输出的所述待解析文本的文本意图及其包含的设定类型的参数,其中,所述联合预测模型为,利用标注有文本意图标签及设定类型参数标签的训练文本预先训练得到。
优选地,所述利用预训练的联合预测模型,处理所述待解析文本,以得到预测输出的所述待解析文本的文本意图及其包含的设定类型的参数,包括:
利用联合预测模型的编码层,确定所述待解析文本的编码结果;
利用联合预测模型的中间隐层,对所述编码结果进行隐层特征提取,得到隐层表征特征;
利用联合预测模型的注意力层,处理所述隐层表征特征,以得到包含有待解析文本内部词间联系信息的注意力特征;
利用联合预测模型的意图识别层,基于所述注意力特征预测所述待解析文本的文本意图;
利用联合预测模型的参数抽取层,基于所述注意力特征抽取所述待解析文本包含的设定类型的参数。
优选地,所述利用联合预测模型的注意力层,处理所述隐层表征特征,以得到包含有待解析文本内部词间联系信息的注意力特征,包括:
利用联合预测模型的注意力层,基于所述隐层表征特征,确定表征待解析文本内部任意两个词的关联程度的信息交互矩阵;
基于所述信息交互矩阵,及所述隐层表征特征,确定包含与待解析文本内部词间联系信息的注意力特征。
优选地,所述利用联合预测模型的意图识别层,基于所述注意力特征预测所述待解析文本的文本意图,包括:
利用联合预测模型的行为相关意图识别层,基于所述注意力特征预测所述待解析文本的行为相关意图,所述行为相关意图与行为参数相关;
利用联合预测模型的行为无关意图识别层,基于所述注意力特征预测所述待解析文本的行为无关意图,所述行为无关意图与行为参数无关。
优选地,所述文本意图包括行为相关意图和行为无关意图;所述对所述检索指令文本及每条数据文本的文本意图进行意图匹配,包括:
针对每条数据文本,判断所述检索指令文本及所述数据文本的行为无关意图是否相同;
若行为无关意图相同,则执行对所述检索指令文本及所述数据文本各自包含的设定类型的参数进行参数匹配的步骤,否则,进一步判断所述检索指令文本及所述数据文本的行为相关意图是否相同;
若行为相关意图相同,则执行对所述检索指令文本及所述数据文本各自包含的设定类型的参数进行参数匹配的步骤,否则,确认所述检索指令文本与所述数据文本的意图不匹配。
优选地,所述对所述检索指令文本及每条数据文本各自包含的设定类型的参数进行参数匹配,包括:
以每一设定类型的参数分别作为匹配槽,对所述检索指令文本及每条数据文本按照各匹配槽进行参数匹配;
基于每一匹配槽的匹配结果,确定所述检索指令文本及每条数据文本的参数匹配结果。
优选地,所述设定类型的参数包括以下任一项或多项的组合:人物、行为、时间、地点、物品、抽象实体、数目;
所述对所述检索指令文本及每条数据文本按照各匹配槽进行参数匹配,包括:
采用词林匹配的方式,对所述检索指令文本及每条数据文本按照物品匹配槽、抽象实体匹配槽进行参数匹配;
采用正则表达式匹配的方式,对所述检索指令文本及每条数据文本按照时间匹配槽、数目匹配槽进行参数匹配;
采用模型匹配的方式,对所述检索指令文本及每条数据文本按照行为匹配槽、地点匹配槽进行参数匹配;
采用硬匹配的方式,对所述检索指令文本及每条数据文本按照人物匹配槽进行参数匹配。
优选地,所述采用模型匹配的方式,对所述检索指令文本及每条数据文本按照行为匹配槽进行参数匹配,包括:
利用行为匹配模型,分别对检索指令文本和每条数据文本中各词进行编码,得到各自的编码结果;
利用行为匹配模型对所述检索指令文本和每条数据文本中除行为参数外的其它词的编码结果进行遮挡,得到检索指令文本和每条数据文本遮挡处理后的隐层特征;
利用行为匹配模型基于所述检索指令文本和每条数据文本遮挡处理后的隐层特征,确定所述检索指令文本和每条数据文本的参数匹配结果。
优选地,所述基于所述意图匹配的结果以及所述参数匹配的结果,从所述待检索数据集包含的各条数据文本中,确定与所述检索指令文本对应的检索结果,包括:
在与所述检索指令文本的意图相匹配的各条数据文本中,参考数据文本与所述检索指令文本的参数匹配结果,选取参数匹配结果满足设定参数匹配条件的数据文本,作为与所述检索指令文本对应的检索结果。
优选地,在进行意图识别及设定类型参数的抽取之前,该方法还包括:
确定所述检索指令文本与所述待检索数据集中每条数据文本间的语义关联性;
从所述待检测数据集中选取语义关联性最高的前设定数目条目标数据文本;
所述对待检索数据集中的数据文本进行意图识别及设定类型参数的抽取,包括:
对每条所述目标数据文本进行意图识别及设定类型参数的抽取。
优选地,所述确定所述检索指令文本与所述待检索数据集中每条数据文本间的语义关联性,包括:
利用预训练的语义关联性预测模型,对所述检索指令文本及所述待检索数据集中每条数据文本分别进行编码;
对编码结果进行卷积处理,得到检索指令文本的隐层表征,以及每条数据文本的隐层表征;
基于检索指令文本的隐层表征,以及每条数据文本的隐层表征,确定检索指令文本与每条数据文本的语义关联性大小。
一种数据检索装置,包括:
数据获取单元,用于获取检索指令文本,及待检索数据集,所述待检索数据集包含若干条数据文本;
文本解析单元,用于分别对所述检索指令文本、所述待检索数据集中的数据文本进行意图识别及设定类型参数的抽取,得到每一文本所表达的文本意图及其包含的设定类型的参数;
匹配单元,用于对所述检索指令文本及每条数据文本的文本意图进行意图匹配,以及,对所述检索指令文本及每条数据文本各自包含的设定类型的参数进行参数匹配;
检索结果确定单元,用于基于所述意图匹配的结果以及所述参数匹配的结果,从所述待检索数据集包含的各条数据文本中,确定与所述检索指令文本对应的检索结果。
一种数据检索设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的数据检索方法的各个步骤。
一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的数据检索方法的各个步骤。
借由上述技术方案,本申请的数据检索方案,对于检索指令文本及待检索数据集中的数据文本,分别进行意图识别及设定类型参数的抽取,从而得到每一文本所表达的文本意图及其包含的设定类型的参数,在此基础上,可以对检索指令文本及每条数据文本的文本意图进行意图匹配,以及,对检索指令文本及每条数据文本各自包含的设定类型的参数进行参数匹配,通过综合考虑意图匹配结果和参数匹配结果,确定最终的检索结果。由此可见,本申请通过意图识别可以得到检索指令文本和数据文本的句子语义信息,明确检索指令所真正意图检索的内容,以及数据文本所表达的语义内容,进而通过意图匹配可以从句子语义信息的层次来确定二者的匹配情况,在此基础上进一步结合设定类型参数的匹配,可以准确的得到与检索指令文本对应的检索结果,极大提高了检索质量。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例提供的数据检索方法的一流程示意图;
图2示例了一种语义关联性预测模型的结构示意图;
图3示例了一种联合预测模型的结构示意图;
图4示例了另一种联合预测模型的结构示意图;
图5示例了一种行为匹配模型的结构示意图;
图6为本申请实施例提供的一种数据检索装置结构示意图;
图7为本申请实施例提供的数据检索设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供了一种数据检索方案,能够应用于各种数据检索场景。示例如,在司法领域内,各种法律法规、司法解释以及相应的案例解释的文本存在很多,如果通过阅读后的记忆来迅速定位到想要的数据上,可以说已经很难去办到的事情。类似的,在庭审过程中,也存在很多文本,不同的案由及不同的文书类型,在庭审过程中,法官希望能够直接把问询的话关联到相关的卷宗文本数据上,也即针对给定的问询,希望在卷宗文本数据中检索到相关的数据。基于此,可以应用本申请的数据检索方案,以实现准确、高质量的给出与检索指令文本对应的检索结果。
本申请方案可以基于具备数据处理能力的终端实现,该终端可以是手机、电脑、服务器、云端等。
接下来,结合图1所述,本申请的数据检索方法可以包括如下步骤:
步骤S100、获取检索指令文本,及待检索数据集。
其中,检索指令文本可以是用户直接输入的文本形式的检索指令,或者是,对语音形式的检索指令进行文本转换后的结果。检索指令文本指示了所要检索的目的,如在庭审过程中针对法官的询问可以作为检索指令文本,示例如:“请说下你在哪捡手机的”。
待检索数据集可以包含若干条数据文本,数据检索的目的可以是针对检索指令文本,在待检索数据集中确定出对应的数据文本,作为检索结果。其中,数据文本可以是以句子为单元,也可以是以词组、短语等为单元,每条数据文本可以是在语义上完整的文本单元。
步骤S110、分别对所述检索指令文本、所述待检索数据集中的数据文本进行意图识别及设定类型参数的抽取,得到每一文本所表达的文本意图及其包含的设定类型的参数。
具体的,可以将检索指令文本、待检索数据集中的数据文本分别作为待解析文本,进而针对每一待解析文本进行意图识别和设定类型参数的抽取,得到每一待解析文本所表达的文本意图及其包含的设定类型的参数。
其中,对待解析文本进行意图识别的过程,即得到待解析文本所表达的文本意图。以待解析文本为“你是否实施了拾遗”为例,其对应的文本意图可以是:确定拾遗这个行为是否发生。
本申请实施例中可以预先设定待抽取参数的类型,示例如人物、行为、时间、地点、物品、抽象实体、数目等类型的参数。则对于待解析文本,可以按照设定参数类型,分别抽取各类型的参数,得到参数抽取结果。以待解析文本为“我一共拾遗了3次”为例,其参数抽取结果可以包括:人物:我;行为:拾遗;数目:3次。
步骤S120、对所述检索指令文本及每条数据文本的文本意图进行意图匹配,以及,对所述检索指令文本及每条数据文本各自包含的设定类型的参数进行参数匹配。
本实施例中,对于检索指令文本及每条数据文本,进行了两个方面的匹配,分别是意图匹配和参数匹配。为了便于表述,可以定义检索指令文本为S1,一条数据文本为S2。
对于意图匹配的过程,可以将S1的文本意图与S2的文本意图进行匹配,从而得到S1与S2的意图匹配结果。
可以理解的是,S2的条数可以有多条,则针对每条S2可以分别与S1进行意图匹配,得到每条S2与S1的意图匹配结果。
对于参数匹配的过程,可以将上一步骤中抽取的S1所包含的设定类型的参数,与S2所包含的设定类型的参数进行参数匹配,从而得到S1与S2的参数匹配结果。
同理,S2的条数可以有多条,则针对每条S2可以分别与S1进行参数匹配,得到每条S2与S1的参数匹配结果。
可以理解的是,在进行参数匹配时,可以按照参数类型对应进行匹配,如将S1和S2包含的人物参数进行匹配、行为参数进行匹配、时间参数进行匹配等。最终,可以由各类型参数的匹配结果组成最终的参数匹配结果,或者是,对各类型参数的匹配结果进行整合处理,确定最终的参数匹配结果。
步骤S130、基于所述意图匹配的结果以及所述参数匹配的结果,从所述待检索数据集包含的各条数据文本中,确定与所述检索指令文本对应的检索结果。
具体的,前述步骤中分别通过意图匹配和参数匹配得到对应的匹配结果,本步骤中可以综合考虑意图匹配的结果以及参数匹配的结果,从待检索数据集包含的各条数据文本中,确定出与检索指令文本对应的检索结果。
本申请实施例提供的数据检索方法,对于检索指令文本及待检索数据集中的数据文本,分别进行意图识别及设定类型参数的抽取,从而得到每一文本所表达的文本意图及其包含的设定类型的参数,在此基础上,可以对检索指令文本及每条数据文本的文本意图进行意图匹配,以及,对检索指令文本及每条数据文本各自包含的设定类型的参数进行参数匹配,通过综合考虑意图匹配结果和参数匹配结果,确定最终的检索结果。由此可见,本申请通过意图识别可以得到检索指令文本和数据文本的句子语义信息,明确检索指令所真正意图检索的内容,以及数据文本所表达的语义内容,进而通过意图匹配可以从句子语义信息的层次来确定二者的匹配情况,在此基础上进一步结合设定类型参数的匹配,可以准确的得到与检索指令文本对应的检索结果,极大提高了检索质量。
在本申请的一些实施例中,对于上述步骤S100获取待检索数据集的过程进行介绍。
待检索数据集可以已有的数据集合,则可以直接获取该已有数据集合作为待检索数据集即可。
除此之外,某些场景下,待检索数据集可以是待检索文件形式。该待检索文件可以是电子形式也可以是纸质形式,如司法审讯时的卷宗文本文件均是纸质形式。对于纸质形式的待检索文件,可以通过OCR处理转换为电子形式。
对于电子形式的待检索文件(可以是通过OCR技术对纸质文本转换后的结果,也可以是原本就是电子形式的待检索文件),可以进行文本单元的划分,具体划分时可以是按照句子为单位进行划分,得到划分后的各个句子作为数据文本,组成待检索数据集。
对于待检索文件进行句子划分的过程,若待检索文件中标点符号规范,则可以直接按照标点符号,通过分句工具进行句子划分。若待检索文件中标点符号错误、丢失等不规范(示例如通过OCR技术转换后的待检索文件中可能会存在标点符号错误、丢失的情况),此时采用分句工具进行句子划分不太合适,本实施例中设计了一种通过序列标注模型进行句子划分的方案,具体如下:
本申请实施例中可以对训练语料进行句子标注,进而利用标注后的训练语料来训练序列标注模型,使得序列标注模型能够具备对输入文本进行句子划分的能力。
示例如,训练语料为:公司所有的员工都参加,会议一般由李某某主持,我和舒某某都会参加,开会的内容就是要多拉存款,布置任务,制定目标…。
标注时可以将第一个逗号前的内容划分为一个句子。序列标注时可以采用“BIO”序列标注方式,其中“/B”表示句子的开始词,“/I”表示句子中间的词,“/O”表示其它。则标注序列为:公/B司/I所/I有/I的/I员/I工/I都/I参/I加/I。其中,“/B”表示句子的开始词,“/I”表示句子中间的词。按照这种序列标注方式,两个“/B”之间的内容可以作为一个句子。
当然,还可以采用“BIOE”的序列标注方式,与BIO序列标注方式的区别在于,对于句子最后一个词用“/E”标注,其它不变。
在本申请的一些实施例中,考虑到有时待检索数据集中数据文本条数较多,若对每条数据文本均进行意图识别和参数抽取,耗时会很长,为了加快检索速度,本申请实施例中提供了一种筛选机制。具体如下:
在上述步骤S110进行意图识别和参数抽取之前,本申请实施例中可以结合检索指令文本,对待检索数据集中的数据文本进行初步筛选。筛选时,首先确定检索指令文本与待检索数据集中每条数据文本间的语义关联性,进而从中选取语义关联性最高的前设定数目条目标数据文本,作为初步筛选结果。
其中,语义关联性最高的前设定数目条可以是语义关联性最高的topN条,如top50条或其它数值。
基于上述初步筛选结果,后续进行意图识别及参数抽取时,可以仅对检索文本指令和每条目标数据文本进行意图识别和参数抽取,大大降低了意图识别和参数抽取的处理量,加快了数据检索的整体效率。
其中,对于确定所述检索指令文本与所述待检索数据集中每条数据文本间的语义关联性的过程,本申请实施例可以通过一种轻量级的神经网络模型来实现。具体的,可以预先训练语义关联性预测模型,该语义关联性预测模型可以采用两个双向LSTM层结构,其处理速度更快。
则基于语义关联性预测模型确定所述检索指令文本与所述待检索数据集中每条数据文本间的语义关联性的过程,可以包括:
S1、利用语义关联性预测模型,对所述检索指令文本及所述待检索数据集中每条数据文本分别进行编码。
S2、对编码结果进行卷积处理,得到检索指令文本的隐层表征,以及每条数据文本的隐层表征。
S3、基于检索指令文本的隐层表征,以及每条数据文本的隐层表征,确定检索指令文本与每条数据文本的语义关联性大小。
具体的,语义关联性大小可以是语义关联性数值形式。
参见图2,其示例了一种语义关联性预测模型的示意架构图。
利用模型的输入层确定输入的检索指令文本和数据文本的嵌入向量。检索指令文本和数据文本各自的嵌入向量分别送入双向LSTM层进行卷积处理,得到各自的隐层表征。进而基于检索指令文本的隐层表征,以及数据文本的隐层表征,确定检索指令文本与数据文本的语义关联性大小P,通过输出层输出。
在本申请的一些实施例中,对上述步骤S110,分别对所述检索指令文本、所述待检索数据集中的数据文本进行意图识别及设定类型参数的抽取的过程进行介绍。
对于待检索指令文本和数据文本进行意图识别和参数抽取的逻辑是一样的,因此为了便于表达,定义所述检索指令文本、所述待检索数据集中每条数据文本作为待解析文本,接下来介绍对待解析文本进行意图识别和参数抽取的过程。
一种可选的方式下,可以将意图识别和参数抽取作为两个任务模型,分别采用不同的模型来实现意图识别和参数抽取。
示例如,通过标注有文本意图标签的训练文本训练意图识别模型。以及,通过标注有设定类型参数标签的训练文本训练参数抽取模型。进而使用训练后的意图识别模型对待解析文本进行意图识别。使用训练后的参数抽取模型,对待解析文本进行参数抽取。
另一种可选的方式下,本案申请人考虑到通过两个模型分别处理待解析文本会增加耗时,并且,意图识别和参数抽取的过程可以相互提供有用的信息,分开完成相应的意图识别和参数抽取利用不上彼此的信息,比如,针对待解析文本“我一共拾遗了3次”,其意图识别结果为:拾遗的次数。参数抽取结果为:人物:我;行为:拾遗;数目:3次。显然,当抽取出参数为行为标签和数目标签时可以更好的为意图识别提供有用的信息。反过来,当意图识别为拾遗的次数时,会使得参数抽取更加注重句子里是否存在和行为及数目相关的词汇。也即,通过将意图识别和参数抽取合并在一个模型中进行处理,可以相互提供有用的信息,使得意图识别和参数抽取结果更加准确。为此,本申请实施例提供了一种联合预测模型,使用标注有文本意图标签及设定类型参数标签的训练文本预先训练,进而可以利用训练后的联合预测模型,处理待解析文本,以得到预测输出的所述待解析文本的文本意图及其包含的设定类型的参数。
接下来,介绍一种联合预测模型的可选结构,及其对待解析文本的处理方式。
结合图3所示:
联合预测模型自下向上可以分别包括输入层、编码层、中间隐层、注意力层、意图识别层、参数抽取层。
其中,输入层确定输入的待解析文本的嵌入向量。
编码层确定待解析文本的编码结果。
编码层可以采用bert模型对待解析文本进行编码,以得到其编码结果。
编码层输出的编码结果进入中间隐层,由中间隐层对编码结果进行隐层特征提取,得到隐层表征特征。隐层表征特征作为注意力层的输入。
注意力层处理所述隐层表征特征,以得到包含有待解析文本内部词间联系信息的注意力特征。
注意力层之上分别接两个不同的任务处理层,即意图识别层和参数抽取层。
意图识别层,基于所述注意力特征预测所述待解析文本的文本意图。
参数抽取层,基于所述注意力特征抽取所述待解析文本包含的设定类型的参数。
可选的,上述注意力层处理隐层表征特征的过程,可以包括:
注意力层基于所述隐层表征特征C,确定表征待解析文本内部任意两个词的关联程度的信息交互矩阵S。进而,基于所述信息交互矩阵S,及所述隐层表征特征C,确定包含与待解析文本内部词间联系信息的注意力特征O。
本申请实施例公开了一种基于隐层表征特征C确定信息交互矩阵S的可选实现方式,如下公式所示:
Sij=a(C:i,C:j)
其中,C:i表示待解析文本中第i个词的嵌入向量,C:j表示待解析文本中第j个词的嵌入向量。
a(x,y)=wT[x;y;x*y],“*”表示元素相乘,“;”表示向量拼接,wT为设定参数。
进一步的,对上述基于信息交互矩阵S,及隐层表征特征C,确定注意力特征O的过程进行介绍。
一种可选的方式如:
基于信息交互矩阵S确定注意力权重ai
ai=soft max(Si:)∈RJ
进一步,基于注意力权重ai对隐层表征特征C进行加权求和,得到第一注意力结果M:i,公式如下:
M:i=∑jaijC:j
在得到第一注意力结果M:i之后,按照下式确定注意力特征O:
O:i=[C:i;M:i;C:i*M:i]
其中,“*”表示元素相乘,“;”表示向量拼接。
另一种可选的方式如:
基于信息交互矩阵S确定注意力权重b:
b=soft max(maxcol(S))∈RI
其中,maxcol(S)表示取矩阵S中每列的最大值。
进一步,基于注意力权重b对隐层表征特征C进行加权求和,得到第二注意力结果N:i,公式如下:
N:i=∑ibiC:i
在得到第二注意力结果N:i之后,按照下式确定注意力特征O:
O:i=[C:i;N:i;C:i*N:i]
其中,“*”表示元素相乘,“;”表示向量拼接。
再一种可选的方式如:
按照上述两种方式分别确定第一注意力结果M:i和第二注意力结果N:i,进一步按照下式确定注意力特征O:
O:i=[C:i;M:i;C:i*M:i;C:i*N:i]
其中,“*”表示元素相乘,“;”表示向量拼接。
进一步可选的,本实施例中对于待解析文本进行意图识别的过程,可以划分为行为相关意图识别及行为无关意图识别两部分。
其中,行为相关意图是指与行为参数相关的意图,行为无关意图是指与行为参数无关的意图。示例如,待解析文件为“你在拾遗后是在哪归还钱包的?”,其中行为相关意图可以是“行为发生地点”,而行为无关意图可以是“物品去向”。
结合图4,其示例了另一种联合预测模型的结构示意图。由图4可知,意图识别层可以包括行为相关意图识别层和行为无关意图识别层。
则可以利用行为相关意图识别层,基于所述注意力特征预测所述待解析文本的行为相关意图。
利用行为无关意图识别层,基于所述注意力特征预测所述待解析文本的行为无关意图。
具体的,行为相关意图识别层和行为无关意图识别层,可以利用注意力特征O:1来预测行为相关意图和行为无关意图。
以图4示例的联合预测模型为例,其在训练时损失函数loss包含三部分,分别为行为相关意图的预测损失loss1,行为无关意图的预测损失loss2,以及参数预测损失loss3,通过三个任务联合训练,最终可以得到具备行为相关意图、行为无关意图识别,以及参数抽取功能的联合预测模型。
在本申请的一些实施例中,对上述步骤S120,对所述检索指令文本及每条数据文本的文本意图进行意图匹配,以及,对所述检索指令文本及每条数据文本各自包含的设定类型的参数进行参数匹配的过程进行介绍。
在上文介绍的文本意图包括行为相关意图和行为无关意图的基础上,上述进行文本意图匹配的过程可以包括:
S1、针对每条数据文本,判断所述检索指令文本及所述数据文本的行为无关意图是否相同,若行为无关意图相同,则执行前述步骤S130,对所述检索指令文本及所述数据文本各自包含的设定类型的参数进行参数匹配的步骤,否则,执行S2。
S2、判断所述检索指令文本及所述数据文本的行为相关意图是否相同,若行为相关意图相同,则执行前述步骤S130,否则,确认所述检索指令文本与所述数据文本的意图不匹配。
也即,本实施例中可以首先判断两个文本的行为无关意图是否相同,若相同,则可以直接进入参数匹配过程,否则,进一步判断行为相关意图是否相同,若相同,进入参数匹配过程,否则,认为两个文本的意图不匹配,也就没必要再进行后续参数匹配的过程。
进一步的,上述参数匹配的过程,可以包括:
以每一设定类型的参数分别作为匹配槽,对所述检索指令文本及每条数据文本按照各匹配槽进行参数匹配。进一步,基于每一匹配槽的匹配结果,确定所述检索指令文本及每条数据文本的参数匹配结果。
本申请实施例提出了一种槽匹配的方式,对检索指令文本和每条数据文本各自包含的各设定类型的参数进行匹配。可以分别对不同的槽进行匹配打分,最终分越高的表示参数越匹配,对应的数据文本作为检索指令文本对应的检索结果的可能性越高。
本实施例中,设定类型的参数可以包括以下任一项或多项的组合:人物、行为、时间、地点、物品、抽象实体、数目。
基于此,本申请实施例公开了一种对所述检索指令文本及每条数据文本按照各匹配槽进行参数匹配的可选实施方式,如下:
采用词林匹配的方式,对所述检索指令文本及每条数据文本按照物品匹配槽、抽象实体匹配槽进行参数匹配。
采用正则表达式匹配的方式,对所述检索指令文本及每条数据文本按照时间匹配槽、数目匹配槽进行参数匹配。
采用模型匹配的方式,对所述检索指令文本及每条数据文本按照行为匹配槽、地点匹配槽进行参数匹配。
采用硬匹配的方式,对所述检索指令文本及每条数据文本按照人物匹配槽进行参数匹配。
当然,上述对不同匹配槽选用的匹配方式仅仅是一种可选示例,除此之外还可以采用其它不同的匹配方式进行匹配。
接下来,分别介绍上述各匹配槽的具体匹配过程。
1、词林匹配
采用词林匹配的包括物品匹配槽和抽象实体匹配槽。
词林匹配可以对现有的同义词词林进行扩展,以得到与待检索数据集所属领域相关的词林。
具体的,可以通过物品模型和抽象实体模型得到待检索数据集中包含的物品和抽象实体词汇,然后经过去重后得到种子词汇集合set。
进一步的,可以遍历set中每个词汇w,得到w存在于现有同义词词林(如哈工大同义词词林)中的类别C,进而可以将该类别C作为扩展后词林所包含的类别。对于w不存在于现有同义词词林中的情况,可以将该词汇w舍弃。在遍历完set中所有词汇w之后,可以得到和现有同义词词林存储格式类似的树状结构的扩展后词林SF_words。
进而可以利用扩展后词林SF_words对所述检索指令文本及每条数据文本各自包含的物品、抽象实体分别进行匹配。
具体匹配过程示例如:
1)定义检索指令文本和数据文本各自包含的需要进行匹配的两个词汇分别为w1和w2。则可以分别获取w1和w2在SF_words中所属的类别,如果是同一类别,则认为w1和w2是相匹配的,否则不匹配。
2)当w1或者w2不存在于SF_words中时,可以利用词性标注工具如LTP等获得w1和w2各自的核心词,比如w1为“老款摄像机”,经过词性标注后可以得到对应的词性标注“老款(adj)摄像机(n)”,可以将最后一个名词作为核心词,即“摄像机”。然后重复上述基于步骤1)基于SF_words匹配的过程。若核心词仍不存在于SF_words中,则可以利用比较两个词汇之间的相似度,如使用莱文斯坦比R来确定两个词汇间的相似度,如果R大于某个设定阈值,如0.5,则可以认为两个词汇匹配,否则,不匹配。
2、对于正则表达式匹配的方式,属于现有技术,具体此处不再赘述。同理,对于硬匹配方式,也属于现有技术,即直接对比两个词汇是否相同,相同则认为匹配,否则认为不匹配。
3、模型匹配
采用模型匹配的包括行为匹配槽和地点匹配槽。
首先,介绍行为匹配槽的匹配过程。
考虑到不同行为表述方式存在多样性,比如:拾、捡、拿等,这些词汇如果在没有上下文环境的情况下,很难判断两两之间是否是表达同一个意思。因此,本实施例中训练了一种行为匹配模型,结合了待匹配的两个行为参数各自的上下文信息,对两个行为参数进行匹配,使得匹配结果更加准确。
具体的,利用行为匹配模型对所述检索指令文本及每条数据文本按照行为匹配槽进行参数匹配的过程,可以包括:
S1、利用行为匹配模型,分别对检索指令文本和每条数据文本中各词进行编码,得到各自的编码结果。
S2、利用行为匹配模型对所述检索指令文本和每条数据文本中除行为参数外的其它词的编码结果进行遮挡,得到检索指令文本和每条数据文本遮挡处理后的隐层特征。
S3、利用行为匹配模型基于所述检索指令文本和每条数据文本遮挡处理后的隐层特征,确定所述检索指令文本和每条数据文本的参数匹配结果。
由此可见,本实施例中行为匹配模型考虑了行为参数的上下文进行编码,并且利用mask对编码结果中除行为参数外的无关字符进行遮挡,从而只输出行为参数的隐层特征。假设检索指令文本为S1={w1,w2,w3...,wn},数据文本为S2={w1,w2,w3...,wm},其中在S1中第x个词为行为参数wx,在S2中第y个词为行为参数wy,那么对于的mask值分别为:
Figure GDA0003143451680000171
对于得到的检索指令文本和每条数据文本遮挡处理后的隐层特征,可以通过余弦相似度计算得到二者的相似度,作为二者相匹配的概率p,若S1和S2中对应的wx和wy越相似,则p(wx,wy)的值越接近1。
参见图5,其示例了一种行为匹配模型的结构示意图。
由图5可见,对于检索指令文本和数据文本,分别经过输入层进行编码,并通过双向LSTM Mask层对各自编码结果中除行为参数外的其它词汇进行遮挡,得到遮挡处理后的隐层特征,并可以通过余弦相似度计算得到二者的相似度,作为二者相匹配的概率p通过输出层输出。
进一步,介绍地点匹配槽的匹配过程。
不同的检索场景下,对于地点词汇的表达可能出现口语化的情况,如在司法卷宗里的言辞类证据文本,经常会出现口语化地点,如“我在某某村后面的玉米地里…”等。由于口语化地点很难使用正则匹配的方式进行匹配,因此本申请实施例提供了一种地点匹配模型,通过地点匹配模型对地点进行结构化处理,如对于“我在某某村后面的玉米地里”,经过结构化处理可以得到“某某村(村)后面(相对位置)的玉米地(地点名)”。
本申请的地点匹配模型可以使用双向LSTM模型或其它结构的神经网络模型来实现。本申请可以预先定义好结构化的地点标签,如:国家、省、市、县、乡镇、路、路号、村、栋、楼、地点名和相对位置等标签。进而可以利用标注有结构话地点标签的训练文本对地点匹配模型进行训练,训练后的地点匹配模型可以对检索指令文本和数据文本进行结构化地点标签的标注。在标注完成后,可以基于结构化的地点,对检索指令文本和数据文本进行地点匹配,如采用正则匹配的方式等。
在本申请的一些实施例中,对上述步骤S130,基于所述意图匹配的结果以及所述参数匹配的结果,从所述待检索数据集包含的各条数据文本中,确定与所述检索指令文本对应的检索结果的过程进行介绍。
基于前文介绍可知,可以任一条数据文本和检索指令文本,可以首先分析意图匹配结果,若确定意图不匹配,则可以直接放弃该条数据文本,认为其不可能成为检索结果。
若确定意图匹配(如行为无关意图匹配,或行为相关意图匹配),则可以在与所述检索指令文本的意图相匹配的各条数据文本中,参考数据文本与所述检索指令文本的参数匹配结果,选取参数匹配结果满足设定参数匹配条件的数据文本,作为与所述检索指令文本对应的检索结果。
其中,与检索指令文本的意图相匹配的数据文本可能存在一条或多条,若只有一条,可以将该一条数据文本作为检索结果。
若存在多条,则可以参考每条数据文本与检索指令文本的参数匹配结果。基于前文介绍可知,参数匹配时可以分别对各匹配槽进行匹配,则可以综合考虑各匹配槽的匹配结果,选取满足设定参数匹配条件的数据文本,作为检索结果。
其中,每一匹配槽若匹配成功,则可以将最终匹配结果加1,则基于各匹配槽的匹配结果,可以确定最终匹配结果值。进而可以将最终匹配结果值最大的前topM条数据文本,作为检索指令文本的匹配结果。
当然,还可以增加对最终匹配结果值阈值的筛选,如预先设定匹配结果阈值θ,进而可以筛选最终匹配结果值大于θ的各条数据文本,在筛选后的各条数据文本中,选取最大的前topM条数据文本,作为检索指令文本的匹配结果。
当然,上述仅仅示例了一种可选的参数匹配条件,除此之外本领域技术人员还可以设置其他的参数匹配条件,以基于每条数据文本与检索指令文本的参数匹配结果,筛选得到检索结果。
下面对本申请实施例提供的数据检索装置进行描述,下文描述的数据检索装置与上文描述的数据检索方法可相互对应参照。
参见图6,图6为本申请实施例公开的一种数据检索装置结构示意图。
如图6所示,该装置可以包括:
数据获取单元11,用于获取检索指令文本,及待检索数据集,所述待检索数据集包含若干条数据文本;
文本解析单元12,用于分别对所述检索指令文本、所述待检索数据集中的数据文本进行意图识别及设定类型参数的抽取,得到每一文本所表达的文本意图及其包含的设定类型的参数;
匹配单元13,用于对所述检索指令文本及每条数据文本的文本意图进行意图匹配,以及,对所述检索指令文本及每条数据文本各自包含的设定类型的参数进行参数匹配;
检索结果确定单元14,用于基于所述意图匹配的结果以及所述参数匹配的结果,从所述待检索数据集包含的各条数据文本中,确定与所述检索指令文本对应的检索结果。
可选的,上述数据获取单元获取待检索数据集的过程,可以包括:
对待检索文件进行句子划分,得到划分后的各个句子作为数据文本,组成待检索数据集。
可选的,上述文本解析单元以所述检索指令文本、所述待检索数据集中每条数据文本作为待解析文本,则对每条待解析文本进行意图识别及设定类型参数的抽取的过程,可以包括:
利用预训练的联合预测模型,处理所述待解析文本,以得到预测输出的所述待解析文本的文本意图及其包含的设定类型的参数,其中,所述联合预测模型为,利用标注有文本意图标签及设定类型参数标签的训练文本预先训练得到。
可选的,上述文本解析单元利用预训练的联合预测模型,处理所述待解析文本,以得到预测输出的所述待解析文本的文本意图及其包含的设定类型的参数的过程,可以包括:
利用联合预测模型的编码层,确定所述待解析文本的编码结果;
利用联合预测模型的中间隐层,对所述编码结果进行隐层特征提取,得到隐层表征特征;
利用联合预测模型的注意力层,处理所述隐层表征特征,以得到包含有待解析文本内部词间联系信息的注意力特征;
利用联合预测模型的意图识别层,基于所述注意力特征预测所述待解析文本的文本意图;
利用联合预测模型的参数抽取层,基于所述注意力特征抽取所述待解析文本包含的设定类型的参数。
可选的,上述文本解析单元利用联合预测模型的注意力层,处理所述隐层表征特征,以得到包含有待解析文本内部词间联系信息的注意力特征的过程,可以包括:
利用联合预测模型的注意力层,基于所述隐层表征特征,确定表征待解析文本内部任意两个词的关联程度的信息交互矩阵;
基于所述信息交互矩阵,及所述隐层表征特征,确定包含与待解析文本内部词间联系信息的注意力特征。
可选的,上述文本解析单元利用联合预测模型的意图识别层,基于所述注意力特征预测所述待解析文本的文本意图的过程,可以包括:
利用联合预测模型的行为相关意图识别层,基于所述注意力特征预测所述待解析文本的行为相关意图,所述行为相关意图与行为参数相关;
利用联合预测模型的行为无关意图识别层,基于所述注意力特征预测所述待解析文本的行为无关意图,所述行为无关意图与行为参数无关。
可选的,上述文本意图可以包括行为相关意图和行为无关意图。则上述匹配单元对所述检索指令文本及每条数据文本的文本意图进行意图匹配的过程,可以包括:
针对每条数据文本,判断所述检索指令文本及所述数据文本的行为无关意图是否相同;
若行为无关意图相同,则执行对所述检索指令文本及所述数据文本各自包含的设定类型的参数进行参数匹配的步骤,否则,进一步判断所述检索指令文本及所述数据文本的行为相关意图是否相同;
若行为相关意图相同,则执行对所述检索指令文本及所述数据文本各自包含的设定类型的参数进行参数匹配的步骤,否则,确认所述检索指令文本与所述数据文本的意图不匹配。
可选的,上述匹配单元对所述检索指令文本及每条数据文本各自包含的设定类型的参数进行参数匹配的过程,可以包括:
以每一设定类型的参数分别作为匹配槽,对所述检索指令文本及每条数据文本按照各匹配槽进行参数匹配;
基于每一匹配槽的匹配结果,确定所述检索指令文本及每条数据文本的参数匹配结果。
可选的,上述设定类型的参数可以包括以下任一项或多项的组合:人物、行为、时间、地点、物品、抽象实体、数目。基于此,匹配单元对所述检索指令文本及每条数据文本按照各匹配槽进行参数匹配的过程,可以包括:
采用词林匹配的方式,对所述检索指令文本及每条数据文本按照物品匹配槽、抽象实体匹配槽进行参数匹配;
采用正则表达式匹配的方式,对所述检索指令文本及每条数据文本按照时间匹配槽、数目匹配槽进行参数匹配;
采用模型匹配的方式,对所述检索指令文本及每条数据文本按照行为匹配槽、地点匹配槽进行参数匹配;
采用硬匹配的方式,对所述检索指令文本及每条数据文本按照人物匹配槽进行参数匹配。
可选的,上述匹配单元采用模型匹配的方式,对所述检索指令文本及每条数据文本按照行为匹配槽进行参数匹配的过程,可以包括:
利用行为匹配模型,分别对检索指令文本和每条数据文本中各词进行编码,得到各自的编码结果;
利用行为匹配模型对所述检索指令文本和每条数据文本中除行为参数外的其它词的编码结果进行遮挡,得到检索指令文本和每条数据文本遮挡处理后的隐层特征;
利用行为匹配模型基于所述检索指令文本和每条数据文本遮挡处理后的隐层特征,确定所述检索指令文本和每条数据文本的参数匹配结果。
可选的,上述检索结果确定单元基于所述意图匹配的结果以及所述参数匹配的结果,从所述待检索数据集包含的各条数据文本中,确定与所述检索指令文本对应的检索结果的过程,可以包括:
在与所述检索指令文本的意图相匹配的各条数据文本中,参考数据文本与所述检索指令文本的参数匹配结果,选取参数匹配结果满足设定参数匹配条件的数据文本,作为与所述检索指令文本对应的检索结果。
可选的,本申请的装置还可以包括:目标数据文本筛选单元,用于在进行意图识别及设定类型参数的抽取之前,确定所述检索指令文本与所述待检索数据集中每条数据文本间的语义关联性;从所述待检测数据集中选取语义关联性最高的前设定数目条目标数据文本。基于此,
上述文本解析单元对待检索数据集中的数据文本进行意图识别及设定类型参数的抽取的过程,可以包括:
对每条所述目标数据文本进行意图识别及设定类型参数的抽取。
可选的,上述目标数据文本筛选单元确定所述检索指令文本与所述待检索数据集中每条数据文本间的语义关联性的过程,可以包括:
利用预训练的语义关联性预测模型,对所述检索指令文本及所述待检索数据集中每条数据文本分别进行编码;
对编码结果进行卷积处理,得到检索指令文本的隐层表征,以及每条数据文本的隐层表征;
基于检索指令文本的隐层表征,以及每条数据文本的隐层表征,确定检索指令文本与每条数据文本的语义关联性大小。
本申请实施例提供的数据检索装置可应用于数据检索设备,如终端:手机、电脑等。可选的,图7示出了数据检索设备的硬件结构框图,参照图7,数据检索设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取检索指令文本,及待检索数据集,所述待检索数据集包含若干条数据文本;
分别对所述检索指令文本、所述待检索数据集中的数据文本进行意图识别及设定类型参数的抽取,得到每一文本所表达的文本意图及其包含的设定类型的参数;
对所述检索指令文本及每条数据文本的文本意图进行意图匹配,以及,对所述检索指令文本及每条数据文本各自包含的设定类型的参数进行参数匹配;
基于所述意图匹配的结果以及所述参数匹配的结果,从所述待检索数据集包含的各条数据文本中,确定与所述检索指令文本对应的检索结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
获取检索指令文本,及待检索数据集,所述待检索数据集包含若干条数据文本;
分别对所述检索指令文本、所述待检索数据集中的数据文本进行意图识别及设定类型参数的抽取,得到每一文本所表达的文本意图及其包含的设定类型的参数;
对所述检索指令文本及每条数据文本的文本意图进行意图匹配,以及,对所述检索指令文本及每条数据文本各自包含的设定类型的参数进行参数匹配;
基于所述意图匹配的结果以及所述参数匹配的结果,从所述待检索数据集包含的各条数据文本中,确定与所述检索指令文本对应的检索结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (16)

1.一种数据检索方法,其特征在于,包括:
获取检索指令文本,及待检索数据集,所述待检索数据集包含若干条数据文本;
分别对所述检索指令文本、所述待检索数据集中的数据文本进行意图识别及设定类型参数的抽取,得到每一文本所表达的文本意图及其包含的设定类型的参数;
将所述检索指令文本分别与每条数据文本的文本意图进行意图匹配,得到每条数据文本与所述检索指令文本意图匹配的结果,以及,将所述检索指令文本所包含的设定类型的参数分别与每条数据文本各自包含的设定类型的参数进行参数匹配,得到所述检索指令文本与每条数据文本的参数匹配结果;
基于所述意图匹配的结果以及所述参数匹配的结果,从所述待检索数据集包含的各条数据文本中,确定与所述检索指令文本对应的检索结果。
2.根据权利要求1所述的方法,其特征在于,所述获取待检索数据集,包括:
对待检索文件进行句子划分,得到划分后的各个句子作为数据文本,组成待检索数据集。
3.根据权利要求1所述的方法,其特征在于,以所述检索指令文本、所述待检索数据集中每条数据文本作为待解析文本,则对每条待解析文本进行意图识别及设定类型参数的抽取的过程,包括:
利用预训练的联合预测模型,处理所述待解析文本,以得到预测输出的所述待解析文本的文本意图及其包含的设定类型的参数,其中,所述联合预测模型为,利用标注有文本意图标签及设定类型参数标签的训练文本预先训练得到。
4.根据权利要求3所述的方法,其特征在于,所述利用预训练的联合预测模型,处理所述待解析文本,以得到预测输出的所述待解析文本的文本意图及其包含的设定类型的参数,包括:
利用联合预测模型的编码层,确定所述待解析文本的编码结果;
利用联合预测模型的中间隐层,对所述编码结果进行隐层特征提取,得到隐层表征特征;
利用联合预测模型的注意力层,处理所述隐层表征特征,以得到包含有待解析文本内部词间联系信息的注意力特征;
利用联合预测模型的意图识别层,基于所述注意力特征预测所述待解析文本的文本意图;
利用联合预测模型的参数抽取层,基于所述注意力特征抽取所述待解析文本包含的设定类型的参数。
5.根据权利要求4所述的方法,其特征在于,所述利用联合预测模型的注意力层,处理所述隐层表征特征,以得到包含有待解析文本内部词间联系信息的注意力特征,包括:
利用联合预测模型的注意力层,基于所述隐层表征特征,确定表征待解析文本内部任意两个词的关联程度的信息交互矩阵;
基于所述信息交互矩阵,及所述隐层表征特征,确定包含与待解析文本内部词间联系信息的注意力特征。
6.根据权利要求4所述的方法,其特征在于,所述利用联合预测模型的意图识别层,基于所述注意力特征预测所述待解析文本的文本意图,包括:
利用联合预测模型的行为相关意图识别层,基于所述注意力特征预测所述待解析文本的行为相关意图,所述行为相关意图与行为参数相关;
利用联合预测模型的行为无关意图识别层,基于所述注意力特征预测所述待解析文本的行为无关意图,所述行为无关意图与行为参数无关。
7.根据权利要求1所述的方法,其特征在于,所述文本意图包括行为相关意图和行为无关意图;所述将所述检索指令文本分别与每条数据文本的文本意图进行意图匹配,包括:
针对每条数据文本,判断所述检索指令文本及所述数据文本的行为无关意图是否相同;
若行为无关意图相同,则执行对所述检索指令文本及所述数据文本各自包含的设定类型的参数进行参数匹配的步骤,否则,进一步判断所述检索指令文本及所述数据文本的行为相关意图是否相同;
若行为相关意图相同,则执行对所述检索指令文本及所述数据文本各自包含的设定类型的参数进行参数匹配的步骤,否则,确认所述检索指令文本与所述数据文本的意图不匹配。
8.根据权利要求1所述的方法,其特征在于,所述将所述检索指令文本所包含的设定类型的参数分别与每条数据文本各自包含的设定类型的参数进行参数匹配,包括:
以每一设定类型的参数分别作为匹配槽,对所述检索指令文本及每条数据文本按照各匹配槽进行参数匹配;
基于每一匹配槽的匹配结果,确定所述检索指令文本及每条数据文本的参数匹配结果。
9.根据权利要求8所述的方法,其特征在于,所述设定类型的参数包括以下任一项或多项的组合:人物、行为、时间、地点、物品、抽象实体、数目;
所述对所述检索指令文本及每条数据文本按照各匹配槽进行参数匹配,包括:
采用词林匹配的方式,对所述检索指令文本及每条数据文本按照物品匹配槽、抽象实体匹配槽进行参数匹配;
采用正则表达式匹配的方式,对所述检索指令文本及每条数据文本按照时间匹配槽、数目匹配槽进行参数匹配;
采用模型匹配的方式,对所述检索指令文本及每条数据文本按照行为匹配槽、地点匹配槽进行参数匹配;
采用硬匹配的方式,对所述检索指令文本及每条数据文本按照人物匹配槽进行参数匹配。
10.根据权利要求9所述的方法,其特征在于,所述采用模型匹配的方式,对所述检索指令文本及每条数据文本按照行为匹配槽进行参数匹配,包括:
利用行为匹配模型,分别对检索指令文本和每条数据文本中各词进行编码,得到各自的编码结果;
利用行为匹配模型对所述检索指令文本和每条数据文本中除行为参数外的其它词的编码结果进行遮挡,得到检索指令文本和每条数据文本遮挡处理后的隐层特征;
利用行为匹配模型基于所述检索指令文本和每条数据文本遮挡处理后的隐层特征,确定所述检索指令文本和每条数据文本的参数匹配结果。
11.根据权利要求1所述的方法,其特征在于,所述基于所述意图匹配的结果以及所述参数匹配的结果,从所述待检索数据集包含的各条数据文本中,确定与所述检索指令文本对应的检索结果,包括:
在与所述检索指令文本的意图相匹配的各条数据文本中,参考数据文本与所述检索指令文本的参数匹配结果,选取参数匹配结果满足设定参数匹配条件的数据文本,作为与所述检索指令文本对应的检索结果。
12.根据权利要求1所述的方法,其特征在于,在进行意图识别及设定类型参数的抽取之前,该方法还包括:
确定所述检索指令文本与所述待检索数据集中每条数据文本间的语义关联性;
从所述待检索数据集中选取语义关联性最高的前设定数目条目标数据文本;
所述对待检索数据集中的数据文本进行意图识别及设定类型参数的抽取,包括:
对每条所述目标数据文本进行意图识别及设定类型参数的抽取。
13.根据权利要求12所述的方法,其特征在于,所述确定所述检索指令文本与所述待检索数据集中每条数据文本间的语义关联性,包括:
利用预训练的语义关联性预测模型,对所述检索指令文本及所述待检索数据集中每条数据文本分别进行编码;
对编码结果进行卷积处理,得到检索指令文本的隐层表征,以及每条数据文本的隐层表征;
基于检索指令文本的隐层表征,以及每条数据文本的隐层表征,确定检索指令文本与每条数据文本的语义关联性大小。
14.一种数据检索装置,其特征在于,包括:
数据获取单元,用于获取检索指令文本,及待检索数据集,所述待检索数据集包含若干条数据文本;
文本解析单元,用于分别对所述检索指令文本、所述待检索数据集中的数据文本进行意图识别及设定类型参数的抽取,得到每一文本所表达的文本意图及其包含的设定类型的参数;
匹配单元,用于将所述检索指令文本分别与每条数据文本的文本意图进行意图匹配,得到每条数据文本与所述检索指令文本意图匹配的结果,以及,将所述检索指令文本所包含的设定类型的参数分别与每条数据文本各自包含的设定类型的参数进行参数匹配,得到所述检索指令文本与每条数据文本的参数匹配结果;
检索结果确定单元,用于基于所述意图匹配的结果以及所述参数匹配的结果,从所述待检索数据集包含的各条数据文本中,确定与所述检索指令文本对应的检索结果。
15.一种数据检索设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~13中任一项所述的数据检索方法的各个步骤。
16.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~13中任一项所述的数据检索方法的各个步骤。
CN202011337026.7A 2020-11-25 2020-11-25 数据检索方法、装置、设备及存储介质 Active CN113220824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011337026.7A CN113220824B (zh) 2020-11-25 2020-11-25 数据检索方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011337026.7A CN113220824B (zh) 2020-11-25 2020-11-25 数据检索方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113220824A CN113220824A (zh) 2021-08-06
CN113220824B true CN113220824B (zh) 2023-01-17

Family

ID=77085796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011337026.7A Active CN113220824B (zh) 2020-11-25 2020-11-25 数据检索方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113220824B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040017824A (ko) * 2004-01-20 2004-02-27 (주)나우정보통신 웹 문서와 리스트정보의 패턴을 이용한 패턴예상분석에따른 정보검색시스템
CN103605665A (zh) * 2013-10-24 2014-02-26 杭州电子科技大学 一种基于关键词的评审专家智能检索与推荐方法
JP2018180890A (ja) * 2017-04-12 2018-11-15 富士通株式会社 インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
CN110019713A (zh) * 2017-12-07 2019-07-16 上海智臻智能网络科技股份有限公司 基于意图理解的数据检索方法和装置、设备及存储介质
CN111274365A (zh) * 2020-02-25 2020-06-12 广州七乐康药业连锁有限公司 基于语义理解的智能问诊方法、装置、存储介质及服务器

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11157490B2 (en) * 2017-02-16 2021-10-26 Microsoft Technology Licensing, Llc Conversational virtual assistant
CN108920666B (zh) * 2018-07-05 2021-02-26 苏州思必驰信息科技有限公司 基于语义理解的搜索方法、系统、电子设备及存储介质
US10970486B2 (en) * 2018-09-18 2021-04-06 Salesforce.Com, Inc. Using unstructured input to update heterogeneous data stores
CN110347785A (zh) * 2019-05-30 2019-10-18 平安科技(深圳)有限公司 非结构化文书搜索方法、装置、计算机设备和存储介质
CN110909126A (zh) * 2019-11-01 2020-03-24 深圳前海微众银行股份有限公司 一种信息查询方法及装置
CN111177394B (zh) * 2020-01-03 2022-04-29 浙江大学 基于句法注意力神经网络的知识图谱关系数据分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040017824A (ko) * 2004-01-20 2004-02-27 (주)나우정보통신 웹 문서와 리스트정보의 패턴을 이용한 패턴예상분석에따른 정보검색시스템
CN103605665A (zh) * 2013-10-24 2014-02-26 杭州电子科技大学 一种基于关键词的评审专家智能检索与推荐方法
JP2018180890A (ja) * 2017-04-12 2018-11-15 富士通株式会社 インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
CN110019713A (zh) * 2017-12-07 2019-07-16 上海智臻智能网络科技股份有限公司 基于意图理解的数据检索方法和装置、设备及存储介质
CN111274365A (zh) * 2020-02-25 2020-06-12 广州七乐康药业连锁有限公司 基于语义理解的智能问诊方法、装置、存储介质及服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Classifying Web Queries by Topic and User Intent;Bernard J.Jansen etc.;《CHI 2010:Work-in-Progress》;20100415;第4285-4290页 *
面向医疗健康领域的问答系统关键技术研究与实现;陈志豪;《中国优秀硕士学位论文全文数据(医药卫生科技辑)》;20200215;第E054-63页 *

Also Published As

Publication number Publication date
CN113220824A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN111160017B (zh) 关键词抽取方法、话术评分方法以及话术推荐方法
CN108628828B (zh) 一种基于自注意力的观点及其持有者的联合抽取方法
CN109145153B (zh) 意图类别的识别方法和装置
CN108829893B (zh) 确定视频标签的方法、装置、存储介质和终端设备
CN113268995B (zh) 中文学术关键词抽取方法、装置和存储介质
CN111291210B (zh) 图像素材库生成方法、图像素材推荐方法及相关装置
CN111046656B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN109033060B (zh) 一种信息对齐方法、装置、设备及可读存储介质
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
CN107943792B (zh) 一种语句分析方法、装置及终端设备、存储介质
CN111276149B (zh) 语音识别方法、装置、设备及可读存储介质
CN111191022A (zh) 商品短标题生成方法及装置
CN109634436B (zh) 输入法的联想方法、装置、设备及可读存储介质
CN109299233A (zh) 文本数据处理方法、装置、计算机设备及存储介质
CN114661872B (zh) 一种面向初学者的api自适应推荐方法与系统
CN112270188A (zh) 一种提问式的分析路径推荐方法、系统及存储介质
CN111125457A (zh) 一种深度跨模态哈希检索方法及装置
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN112395421A (zh) 课程标签的生成方法、装置、计算机设备及介质
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN114385812A (zh) 用于文本的关系抽取方法及系统
CN110874408B (zh) 模型训练方法、文本识别方法、装置及计算设备
CN110020024B (zh) 一种科技文献中链接资源的分类方法、系统、设备
CN113220824B (zh) 数据检索方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant