CN111930895A - 基于mrc的文档数据检索方法、装置、设备及存储介质 - Google Patents
基于mrc的文档数据检索方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111930895A CN111930895A CN202010821257.9A CN202010821257A CN111930895A CN 111930895 A CN111930895 A CN 111930895A CN 202010821257 A CN202010821257 A CN 202010821257A CN 111930895 A CN111930895 A CN 111930895A
- Authority
- CN
- China
- Prior art keywords
- title
- document
- mrc
- word
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000011156 evaluation Methods 0.000 claims description 28
- 230000011218 segmentation Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 14
- 241000393496 Electra Species 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 11
- 238000012163 sequencing technique Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 238000012549 training Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 3
- 239000010931 gold Substances 0.000 description 3
- 229910052737 gold Inorganic materials 0.000 description 3
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000001520 comb Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供了一种基于MRC的文档数据检索方法、装置、设备及存储介质,该方法包括:从接收到的询问信息中获取关键词;确定预设的标题词库中与所述关键词匹配的标题,以作为目标标题;所述标题词库中包含多个标题与相应标题词集合的对应关系;从预设的标题文档库中查询与所述目标标题对应的全量相关文档内容,以作为召回文档;所述标题文档库中包含多个标题与其全量相关文档内容的对应关系;将所述询问信息及所述召回文档输入预设的MRC模型,以提取答案信息。本说明书实施例可以提高信息召回的准确性和适用范围,并可以降低实现成本。
Description
技术领域
本说明书涉及机器阅读理解(Machine Reading Comprehension,简称MRC)技术领域,尤其是涉及一种基于MRC的文档数据检索方法、装置、设备及存储介质。
背景技术
MRC是一种利用算法使计算机理解文章语义并回答相关问题的技术。具体的,在输入用户问题和相关文本文档后,基于MRC的模型可以根据计算结果自动地从段落中提取一段连续的文本区间作为用户问题的答案输出。由于输入的用户问题一般采用人类语言的形式,因此,MRC也属于自然语言处理(Natural Language Processing,简称NLP)的范畴。近些年来,随着人工智能技术的不断发展,基于MRC的各智能问答类系统层出不穷。在垂直应用领域,例如电商、医疗、政务等,都已开始引入智能问答系统以缓解人工客服压力,提升用户体验。
其中,一些应用领域(例如政务等)对于基于MRC的智能问答类系统的召回准确性要求较高。然而,当前基于MRC的智能问答类系统的召回准确性一般难以满足要求。为此,在这些召回准确性要求的应用领域,针对用户问题询问主要实现方式为:从相关文本文档中,人工梳理出常见的用户问题-答案(QA)语料库,借助当前先进的NLP文本分类或语义匹配算法实现问题-答案检索。由于需要人工梳理QA语料库的实现成本较高,这种方式一般只针对热门或常见的用户问题进行梳理,这就导致QA语料库涵盖的信息范围较小,系统能解答问题数量十分有限,语料库之外的大量问题目前只能依赖人工客服。
发明内容
本说明书实施例的目的在于提供一种基于MRC的文档数据检索方法、装置、设备及存储介质,以提高信息召回的准确性和适用范围,并降低实现成本。
为达到上述目的,一方面,本说明书实施例提供了一种基于MRC的文档数据检索方法,包括:
从接收到的询问信息中获取关键词;
确定预设的标题词库中与所述关键词匹配的标题,以作为目标标题;所述标题词库中包含多个标题与相应标题词集合的对应关系;
从预设的标题文档库中查询与所述目标标题对应的全量相关文档内容,以作为召回文档;所述标题文档库中包含多个标题与其全量相关文档内容的对应关系;
将所述询问信息及所述召回文档输入预设的MRC模型,以提取答案信息。
在本说明书一实施例中,所述方法还包括:
获取所述答案信息的置信度;
确认所述置信度是否低于预设的置信度阈值;
当所述置信度低于所述置信度阈值时,将所述答案信息作为无答案处理。
在本说明书一实施例中,所述方法还包括:
当所述答案信息的边界内容为数值类字符时,根据边界位置向前或向后扩充所述答案信息,以保障答案信息的完整性。
在本说明书一实施例中,所述方法还包括:
当所述答案信息的边界内容为标点类字符时,根据边界位置向前或向后缩小所述答案信息,以删除答案信息中的冗余信息。
在本说明书一实施例中,所述MRC模型包括ELECTRA模型。
在本说明书一实施例中,所述从接收到的询问信息中获取关键词,包括:
对接收到的询问信息进行分词处理,获得分词结果;
基于预设的词汇映射表对所述分词结果进行词语替换,以获得书面语表述的关键词;所述词汇映射表中包含口语表述词汇与书面语表述词汇的对应关系。
在本说明书一实施例中,所述确定预设的标题词库中与所述关键词匹配的标题,包括:
从所述标题词库中选择一个标题对应的标题词集合,以作为目标集合;
其中,j为目标集合的相似度评价值,A为关键词,B为目标集合,D为标题词库,B1为目标集合中的名词集合,B2为目标集合中的动词集合,α为名词集合的权重系数,β为动词集合的权重系数;
确定所述标题词库中余下标题对应的标题词集合的相似度评价值;
对所述相似度评价值进行排序,并将排序结果中的最大相似度评价值对应的标题作为与所述关键词匹配的标题。
另一方面,本说明书实施例还提供了一种基于MRC的文档数据检索装置,包括:
关键词获取模块,用于从接收到的询问信息中获取关键词;
标题匹配模块,用于确定预设的标题词库中与所述关键词匹配的标题,以作为目标标题;所述标题词库中包含多个标题与相应标题词集合的对应关系;
文档召回模块,用于从预设的标题文档库中查询与所述目标标题对应的全量相关文档内容,以作为召回文档;所述标题文档库中包含多个标题与其全量相关文档内容的对应关系;
答案提取模块,用于将所述询问信息及所述召回文档输入预设的MRC模型,以提取答案信息。
另一方面,本说明书实施例还提供了一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述计算机程序被所述处理器运行时,执行根据上述方法的指令。
另一方面,本说明书实施例还提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被计算机设备的处理器运行时,执行根据上述方法的指令。
由以上本说明书实施例提供的技术方案可见,在本说明书实施例中,由于标题与全量相关文档内容的这种对应关系,当确定询问信息对应的标题后,根据该标题就可以从标题文档库中查询出对应的全量相关文档内容,以作为召回文档。因此,召回文档整篇都是该主题下的相关内容,如此,使得本说明书的实施例召回的文档要比现有通用机器阅读理解技术方案更为精准,且更快速,从而提高了智能问答场景下信息召回的准确性和及时性,提高了用户体验。而且,本说明书实施例不需要问答数据库,从而节省了人力梳理问答数据库的成本。且本说明书实施例的标题文档库和标题词库易于实现,对应用领域没有限制,从而具有更广的应用范围,进而可以进一步降低人工客户成本。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本说明书提供的一些实施例中基于MRC的文档数据检索方法的流程图;
图2为本说明书提供的另一些实施例中基于MRC的文档数据检索方法的流程图;
图3为本说明书提供的示例性实施例中MRC模型的输入及输出示意图;
图4为本说明书提供的一些实施例中基于MRC的文档数据检索装置的结构框图;
图5为本说明书提供的一些实施例中计算机设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
本说明书实施例涉及基于MRC的文档数据检索技术,适用于对召回准确性要求较高的智能问答场景(例如智能政务问答场景等)。
本说明书实施例提供的基于MRC的文档数据检索方法可以应用于服务端侧。所述服务端可以接收用户通过客户端发起的询问信息(即问题提问),根据本说明书实施例的基于MRC的文档数据检索技术自动召回答案信息并返回给客户端,以便于客户端将答案展示给用户。
在本说明书一实施例中,所述客户端可以为台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备等。其中,智能可穿戴设备可以包括智能手环、智能手表、智能眼镜、智能头盔等。当然,所述客户端并不限于上述具有一定实体的电子设备,其还可以为运行于上述电子设备中的软体。所述服务端可以为具有运算和网络交互功能的电子设备;也可以为运行于该电子设备中,为数据处理和网络交互提供业务逻辑的软体。
参考图1所示,在本说明书一些实施例中,所述基于MRC的文档数据检索方法可以包括以:
S101、从接收到的询问信息中获取关键词。
在本说明书一些实施例中,询问信息可以是语音信息、文字信息等。当接收到的询问信息为语音信息时,在获取关键词之前,需要先将语音信息转换为文字信息。
在本说明书一些实施例中,从接收到的询问信息中获取关键词可以包括以下步骤:
1)、对接收到的询问信息进行分词处理,获得分词结果。
在自然语言处理过程中,为了能更好地处理语句,往往需要把语句拆开分成一个一个的词语,以便更好地分析语句的特性,这个过程称为分词。而在本说明书的实施例中,对接收到的询问信息进行分词处理是为了从分词结果中识别出关键词。其中,关键词是询问信息的核心或主要内容。例如,在一示例性实施例中,接收到的询问信息为{请问在哪里可以办理护照?},分词后得到的分词结果为:{请问、在哪里、可以、办理、护照}。显然,{在哪里、办理和护照}是其中的关键词。
在本说明书一些实施例中,可以基于jieba分词等中文分词器对接收到的询问信息进行分词处理。
2)、基于预设的词汇映射表对所述分词结果进行词语替换,以获得书面语表述的关键词;所述词汇映射表中包含口语表述词汇与书面语表述词汇的对应关系。
在很多情况下,由于询问信息中存在口语化表述内容,与书面化表述的专业名词存在较大差异,因此,需要在获得分词结果之后,基于预先构建的词汇映射表。例如,同义词/近义词表、口语表述-专业名词映射表(例如“充话费-手机充值”、“去哪办-办理地点”等),将分词结果中的口语表述词汇替换为书面语表述词汇。
S102、确定预设的标题词库中与所述关键词匹配的标题,以作为目标标题;所述标题词库中包含多个标题与相应标题词集合的对应关系。
结合图2所示,在本说明书一些实施例中,所述确定预设的标题词库中与所述关键词匹配的标题可以包括以下步骤:
a、从所述标题词库中选择一个标题对应的标题词集合,以作为目标集合(即当前要处理的标题词集合)。
在本说明书的实施例中,标题中的每个标题都有一一对应的标题词集合。其中,每个标题词集合中包括对应标题的一个或多个词语。同样,标题词库中的每个标题的标题词集合可以通过对该标题进行分词处理得到。在一示例性实施例中,以政务应用场景为例,标题词库可如下表1所示。
表1
序号 | 标题 | 标题词集合 |
1 | 医学出生证明办理 | {医学、出生、证明、办理} |
2 | 社保局营业时间 | {社保局、营业、时间} |
3 | 法人设立、变更、注销办理 | {法人、设立、变更、注销、办理} |
4 | 24小时违法举报电话 | {24小时、违法、举报、电话} |
… | … | … |
b、可以根据公式确定所述目标集合的相似度评价值。其中,j为目标集合的相似度评价值,A为关键词,B为目标集合,D为标题词库,B1为目标集合中的名词集合,B2为目标集合中的动词集合,α为名词集合的权重系数,β为动词集合的权重系数。
应当理解,上述相似度计算公式仅是示例性举例说明。在本说明书其他的实施例中,也可以采用其他任何合适的相似度计算公式,来获取标题对应的标题词集合的相似度评价值,本说明书对此不作限定,具体可以根据需要选择。
c、确定所述标题词库中余下标题对应的标题词集合的相似度评价值。依次递推,重复上述步骤a~b可以获得所述标题词库中,余下标题对应的标题词集合的相似度评价值。
d、对所述相似度评价值进行排序,并将排序结果中的最大相似度评价值对应的标题作为与所述关键词匹配的标题。相似度评价值越大,表明对应标题与所述关键词的相似度越高,因此,可以将排序结果中的最大相似度评价值对应的标题作为与所述关键词匹配的标题。
S103、从预设的标题文档库中查询与所述目标标题对应的全量相关文档内容,以作为召回文档;所述标题文档库中包含多个标题与其全量相关文档内容的对应关系。
结合图2所示,在本说明书的实施例中,一些应用领域(例如政务领域)的文档往往存在明确的标题或事项名称。因此可以预先构建标题文档库,以明确标题与全量相关文档内容的对应关系。其中,一个标题的全量相关文档内容是指:与该标题相关文档内容的并集。例如,在一示例性实施例中,标题为{一次性工亡补助金标准},由于政府有关部分可能发不过去多个关于一次性工亡补助金标准的文件;这些文件均与该标题均相关,因此,这些文件对应的文件内容即为该标题的全量相关文档内容。当然,由于管辖地域不同,这些文件应为同一地域的一次性工亡补助金标准。例如均是北京市的一次性工亡补助金标准。在一示例性实施例中,标题文档库可以如下表2所示。
表2
一般地,现有通用机器阅读理解技术方案主要包括:先用利用统计学特征计算问题和文本段落之间相似度,然后从大量文本段落中召回m个相关候选段落;在此基础上,再利用机器阅读理解算法从m个相关候选段落中提取答案,输出概率最高的答案区间作为答案输出。
应当注意的是,理论上而言,虽然也可以直接构建标题的标题词集合与全量相关文档内容的对应关系。而无需单独构建标题词库。但是,但是在实际生产环境中,很多情况下需要把完整的事项名称展示给用户,即返回给提问用户的结果是【答案区间+事项名称】,以便于提问用户可以判断该事项是否是自己询问的事项,以防止事项召回错误答案,导致展示错误信息。
S104、将所述询问信息及所述召回文档输入预设的MRC模型,以提取答案信息。
在本说明书的一些实施例中,预设的MRC模型可以是基于ELECTRA算法的中文预训练模型(可以称之为ELECTRA模型),通过将询问信息及召回文档输入即可以完成答案区间的提取。ELECTRA算法是由谷歌在2020年最新提出的一种基于文本上下文语义的预训练方法,经过大量中文语料训练,能够得到汉字的动态词向量表示,可应用于NLP领域各种下游任务的实现。本领域技术人员可以理解,虽然使用基于ELECTRA算法的中文预训练模型可以有利于获得更佳的提取效果;但是,根据实际需要,也可以采用其他任何合适的MRC模型(例如可以采用Bert、XLNet等代替ELECTRA模型),本说明书对此不做唯一限定。
为便于理解,下面以ELECTRA模型为例对提取答案信息的过程进行说明。具体可以包括以下步骤:
(1)、把召回文本按照自然段落进行划分(例如可以通过型以滑动窗口等方式划分),并去除其中空格、回车等无效字符。
(2)、依次输入询问信息+单个划分段落到ELECTRA模型中,ELECTRA模型计算后可以输出该划分段落中置信度最高的答案区间。重复步骤(2)可以获得所有该划分段落中置信度最高的答案区间。其中,ELECTRA模型的计算过程可简单描述如下:
(3)、对所有划分段落答案区间按照置信度进行排序,选取最高作为输出答案区间。
如图3所示,在一示例性实施例中,输入的询问信息(即图3中的问题)为:{2020年一次性工亡补助金标准是多少?};输入的召回文本(即图3中的文本)为:{根据国家统计局年度统计公报公布的2019年全国城镇居民人均可支配收入42359元,核定2020年一次性工亡补助金标准为847180元。本标准自2020年1月1日起执行}。MRC模型计算后输出的答案信息(即图3中的输出)为{847180元}。
另外,为了提升ELECTRA模型在政务领域(这里以政务领域为例)上的应用效果,还可以提前标注一批数据进行模型微调。一般而言,ELECTRA类预训练模型都是在开放域数据集上训练得到,对于政务类名词如“社保”、“公积金”等并没有特别学习,直接把公开的预训练模型应用政务领域MRC任务效果可能会并不理想。因此,可以预先标注一批政务领域符合MRC任务需求的数据进行迁移学习,即把ELECTRA模型在自建政务MRC数据集上训练2-4个epoch(1个epoch等于使用训练集中的全部样本训练一次),再进行使用效果更好。请注意,微调只是为了机器阅读理解模型更加适用于政务数据,针对不同地区、不同层级政务知识问答有很好的迁移性,并不需要像梳理QA语料库那样重复构建。
结合图2所示,在本说明书一些实施例中,还可以对MRC模型提取的答案信息进行后处理,以便于提高答案信息的置信度和完整性等性能。
例如,在本说明书一实施例中,可以计算出MRC模型提取的答案信息的置信度;然后确认该确认所述置信度是否低于预设的置信度阈值。当所述置信度低于所述置信度阈值时,可以将所述答案信息作为无答案处理,以免低置信度的答案影响误导用户,从而影响了服务主体(例如政府)的公信力。当所述置信度不低于所述置信度阈值时,可以将答案信息输出。
例如,在本说明书另一实施例中,当MRC模型提取的答案信息的边界内容为数值类字符时,可以根据边界位置向前或向后扩充所述答案信息,以保障答案信息的完整性。例如,还以上述图3中的输入为例,若MRC模型提取的答案区间为{847180}。由于{847180}后边界没有货币单位,因此可以将该{847180}向后扩充一个字符,从而得到答案区间{847180元}。
例如,在本说明书另一实施例中,当所述答案信息的边界内容为标点类字符时,还可以根据边界位置向前或向后缩小所述答案信息,以删除答案信息中的冗余信息。例如,还以上述图3中的输入为例,若MRC模型提取的答案区间为{847180元。}。由于{847180元。}后边界中的“。”没有意义。因此,可以向前减小一个字符(即剔除符号“。”),从而得到答案区间{847180元}。
由此可见,在本说明书实施例中,由于标题与全量相关文档内容的这种对应关系,当确定询问信息对应的标题后,根据该标题就可以从标题文档库中查询出对应的全量相关文档内容,以作为召回文档。因此,召回文档整篇都是该主题下的相关内容,如此,使得本说明书的实施例召回的文档要比现有通用机器阅读理解技术方案更为精准,且更快速,从而提高了智能问答场景下信息召回的准确性和及时性,提高了用户体验。而且,本说明书实施例不需要问答数据库,从而节省了人力梳理问答数据库的成本。且本说明书实施例的标题文档库和标题词库易于实现,对应用领域没有限制,从而具有更广的应用范围,进而可以进一步降低人工客户成本。
与上述基于MRC的文档数据检索方法对应,本说明书还提提供了基于MRC的文档数据检索装置的实施例。参考图4所示,在本说明书一些实施例中,所述基于MRC的文档数据检索装置可以包括:
关键词获取模块41,可以用于从接收到的询问信息中获取关键词;
标题匹配模块42,可以用于确定预设的标题词库中与所述关键词匹配的标题,以作为目标标题;所述标题词库中包含多个标题与相应标题词集合的对应关系;
文档召回模块43,可以用于从预设的标题文档库中查询与所述目标标题对应的全量相关文档内容,以作为召回文档;所述标题文档库中包含多个标题与其全量相关文档内容的对应关系;
答案提取模块44,可以用于将所述询问信息及所述召回文档输入预设的MRC模型,以提取答案信息。
在本说明书一些实施例中,所述基于MRC的文档数据检索装置还可以包括后处理模块,其可以用于对MRC模型输出的答案信息进行进一步处理,以提高答案信息的置信度和完整性等性能。
例如,在本说明书一实施例中,所述后处理模块可以用于:获取所述答案信息的置信度;确认所述置信度是否低于预设的置信度阈值;当所述置信度低于所述置信度阈值时,将所述答案信息作为无答案处理。
例如,在本说明书另一实施例中,所述后处理模块还可以用于:当所述答案信息的边界内容为数值类字符时,根据边界位置向前或向后扩充所述答案信息,以保障答案信息的完整性。
例如,在本说明书另一实施例中,所述后处理模块还可以用于:当所述答案信息的边界内容为标点类字符时,根据边界位置向前或向后缩小所述答案信息,以删除答案信息中的冗余信息。
在本说明书一些实施例的基于MRC的文档数据检索装置中,所述MRC模型可以包括ELECTRA模型。
在本说明书一些实施例的基于MRC的文档数据检索装置中,所述从接收到的询问信息中获取关键词,可以包括:
对接收到的询问信息进行分词处理,获得分词结果;
基于预设的词汇映射表对所述分词结果进行词语替换,以获得书面语表述的关键词;所述词汇映射表中包含口语表述词汇与书面语表述词汇的对应关系。
在本说明书一些实施例的基于MRC的文档数据检索装置中,所述确定预设的标题词库中与所述关键词匹配的标题,可以包括:
从所述标题词库中选择一个标题对应的标题词集合,以作为目标集合;
其中,j为目标集合的相似度评价值,A为关键词,B为目标集合,D为标题词库,B1为目标集合中的名词集合,B2为目标集合中的动词集合,α为名词集合的权重系数,β为动词集合的权重系数;
确定所述标题词库中余下标题对应的标题词集合的相似度评价值;
对所述相似度评价值进行排序,并将排序结果中的最大相似度评价值对应的标题作为与所述关键词匹配的标题。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
与上述基于MRC的文档数据检索方法对应,本说明书还提提供了计算机设备的实施例。参考图5所示,在本说明书一些实施例中,所述计算机设备可以包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述计算机程序被所述处理器运行时,执行根据上述基于MRC的文档数据检索方法的指令。
虽然上文描述的过程流程包括以特定顺序出现的多个操作,但是,应当清楚了解,这些过程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。
虽然上文描述的过程流程包括以特定顺序出现的多个操作,但是,应当清楚了解,这些过程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。
本申请是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种基于MRC的文档数据检索方法,其特征在于,包括:
从接收到的询问信息中获取关键词;
确定预设的标题词库中与所述关键词匹配的标题,以作为目标标题;所述标题词库中包含多个标题与相应标题词集合的对应关系;
从预设的标题文档库中查询与所述目标标题对应的全量相关文档内容,以作为召回文档;所述标题文档库中包含多个标题与其全量相关文档内容的对应关系;
将所述询问信息及所述召回文档输入预设的MRC模型,以提取答案信息。
2.如权利要求1所述的基于MRC的文档数据检索方法,其特征在于,还包括:
获取所述答案信息的置信度;
确认所述置信度是否低于预设的置信度阈值;
当所述置信度低于所述置信度阈值时,将所述答案信息作为无答案处理。
3.如权利要求1所述的基于MRC的文档数据检索方法,其特征在于,还包括:
当所述答案信息的边界内容为数值类字符时,根据边界位置向前或向后扩充所述答案信息,以保障答案信息的完整性。
4.如权利要求1所述的基于MRC的文档数据检索方法,其特征在于,还包括:
当所述答案信息的边界内容为标点类字符时,根据边界位置向前或向后缩小所述答案信息,以删除答案信息中的冗余信息。
5.如权利要求1所述的基于MRC的文档数据检索方法,其特征在于,所述MRC模型包括ELECTRA模型。
6.如权利要求1所述的基于MRC的文档数据检索方法,其特征在于,所述从接收到的询问信息中获取关键词,包括:
对接收到的询问信息进行分词处理,获得分词结果;
基于预设的词汇映射表对所述分词结果进行词语替换,以获得书面语表述的关键词;所述词汇映射表中包含口语表述词汇与书面语表述词汇的对应关系。
8.一种基于MRC的文档数据检索装置,其特征在于,包括:
关键词获取模块,用于从接收到的询问信息中获取关键词;
标题匹配模块,用于确定预设的标题词库中与所述关键词匹配的标题,以作为目标标题;所述标题词库中包含多个标题与相应标题词集合的对应关系;
文档召回模块,用于从预设的标题文档库中查询与所述目标标题对应的全量相关文档内容,以作为召回文档;所述标题文档库中包含多个标题与其全量相关文档内容的对应关系;
答案提取模块,用于将所述询问信息及所述召回文档输入预设的MRC模型,以提取答案信息。
9.一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,其特征在于,所述计算机程序被所述处理器运行时,执行根据权利要求1-7任意一项所述方法的指令。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被计算机设备的处理器运行时,执行根据权利要求1-7任意一项所述方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010821257.9A CN111930895B (zh) | 2020-08-14 | 2020-08-14 | 基于mrc的文档数据检索方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010821257.9A CN111930895B (zh) | 2020-08-14 | 2020-08-14 | 基于mrc的文档数据检索方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111930895A true CN111930895A (zh) | 2020-11-13 |
CN111930895B CN111930895B (zh) | 2023-11-07 |
Family
ID=73311434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010821257.9A Active CN111930895B (zh) | 2020-08-14 | 2020-08-14 | 基于mrc的文档数据检索方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111930895B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112579727A (zh) * | 2020-12-16 | 2021-03-30 | 北京百度网讯科技有限公司 | 文档内容的提取方法、装置、电子设备及存储介质 |
CN112765960A (zh) * | 2021-02-07 | 2021-05-07 | 成都新潮传媒集团有限公司 | 一种文本匹配方法、装置及计算机设备 |
CN113312903A (zh) * | 2021-05-27 | 2021-08-27 | 云南大学 | 一种5g移动业务产品词库的构建方法及系统 |
CN113360620A (zh) * | 2021-06-17 | 2021-09-07 | 北京一维大成科技有限公司 | 一种智能客服方法、装置以及设备 |
CN115828893A (zh) * | 2022-11-28 | 2023-03-21 | 北京海致星图科技有限公司 | 非结构化文档问答的方法、装置、存储介质和设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110125734A1 (en) * | 2009-11-23 | 2011-05-26 | International Business Machines Corporation | Questions and answers generation |
CN109344234A (zh) * | 2018-09-06 | 2019-02-15 | 和美(深圳)信息技术股份有限公司 | 机器阅读理解方法、装置、计算机设备和存储介质 |
CN110020009A (zh) * | 2017-09-29 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 在线问答方法、装置及系统 |
CN111386686A (zh) * | 2017-11-09 | 2020-07-07 | 微软技术许可有限责任公司 | 用于回答与文档相关的查询的机器阅读理解系统 |
-
2020
- 2020-08-14 CN CN202010821257.9A patent/CN111930895B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110125734A1 (en) * | 2009-11-23 | 2011-05-26 | International Business Machines Corporation | Questions and answers generation |
CN110020009A (zh) * | 2017-09-29 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 在线问答方法、装置及系统 |
CN111386686A (zh) * | 2017-11-09 | 2020-07-07 | 微软技术许可有限责任公司 | 用于回答与文档相关的查询的机器阅读理解系统 |
CN109344234A (zh) * | 2018-09-06 | 2019-02-15 | 和美(深圳)信息技术股份有限公司 | 机器阅读理解方法、装置、计算机设备和存储介质 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112579727A (zh) * | 2020-12-16 | 2021-03-30 | 北京百度网讯科技有限公司 | 文档内容的提取方法、装置、电子设备及存储介质 |
CN112579727B (zh) * | 2020-12-16 | 2022-03-22 | 北京百度网讯科技有限公司 | 文档内容的提取方法、装置、电子设备及存储介质 |
CN112765960A (zh) * | 2021-02-07 | 2021-05-07 | 成都新潮传媒集团有限公司 | 一种文本匹配方法、装置及计算机设备 |
CN112765960B (zh) * | 2021-02-07 | 2022-11-25 | 成都新潮传媒集团有限公司 | 一种文本匹配方法、装置及计算机设备 |
CN113312903A (zh) * | 2021-05-27 | 2021-08-27 | 云南大学 | 一种5g移动业务产品词库的构建方法及系统 |
CN113312903B (zh) * | 2021-05-27 | 2022-04-19 | 云南大学 | 一种5g移动业务产品词库的构建方法及系统 |
CN113360620A (zh) * | 2021-06-17 | 2021-09-07 | 北京一维大成科技有限公司 | 一种智能客服方法、装置以及设备 |
CN115828893A (zh) * | 2022-11-28 | 2023-03-21 | 北京海致星图科技有限公司 | 非结构化文档问答的方法、装置、存储介质和设备 |
CN115828893B (zh) * | 2022-11-28 | 2023-11-17 | 北京海致星图科技有限公司 | 非结构化文档问答的方法、装置、存储介质和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111930895B (zh) | 2023-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11334635B2 (en) | Domain specific natural language understanding of customer intent in self-help | |
CN111930895B (zh) | 基于mrc的文档数据检索方法、装置、设备及存储介质 | |
US10095692B2 (en) | Template bootstrapping for domain-adaptable natural language generation | |
CN113076431B (zh) | 机器阅读理解的问答方法、装置、计算机设备及存储介质 | |
CN109147934A (zh) | 问诊数据推荐方法、装置、计算机设备和存储介质 | |
CN109543007A (zh) | 提问数据生成方法、装置、计算机设备和存储介质 | |
CN109299280B (zh) | 短文本聚类分析方法、装置和终端设备 | |
CN109344234A (zh) | 机器阅读理解方法、装置、计算机设备和存储介质 | |
CN110347790B (zh) | 基于注意力机制的文本查重方法、装置、设备及存储介质 | |
Liu et al. | R-trans: RNN transformer network for Chinese machine reading comprehension | |
WO2021217772A1 (zh) | 基于ai的面试语料分类方法、装置、计算机设备和介质 | |
CN111930931B (zh) | 一种摘要评价方法及装置 | |
CN117609444B (zh) | 一种基于大模型的搜索问答方法 | |
CN112580357A (zh) | 自然语言查询的语义解析 | |
CN112307754B (zh) | 语句获取方法及装置 | |
Su et al. | Answer acquisition for knowledge base question answering systems based on dynamic memory network | |
CN117271558A (zh) | 语言查询模型构建方法、查询语言获取方法及相关装置 | |
CN114003706A (zh) | 关键词组合生成模型训练方法及装置 | |
CN117828042A (zh) | 用于金融服务的问答处理方法、装置、设备及介质 | |
CN115828854B (zh) | 一种基于上下文消歧的高效表格实体链接方法 | |
CN116108181A (zh) | 客户信息的处理方法、装置及电子设备 | |
US11822609B2 (en) | Prediction of future prominence attributes in data set | |
CN113590768B (zh) | 一种文本关联度模型的训练方法及装置、问答方法及装置 | |
Handayani et al. | Sentiment Analysis of Bank BNI User Comments Using the Support Vector Machine Method | |
Jaya et al. | Analysis of convolution neural network for transfer learning of sentiment analysis in Indonesian tweets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210122 Address after: 100140, 55, Fuxing Avenue, Xicheng District, Beijing Applicant after: INDUSTRIAL AND COMMERCIAL BANK OF CHINA Applicant after: ICBC Technology Co.,Ltd. Address before: 100029 Tianyuan Xiangtai building, No.5 Anding Road, Chaoyang District, Beijing Applicant before: ICBC Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |