CN114579796A - 机器阅读理解方法及装置 - Google Patents

机器阅读理解方法及装置 Download PDF

Info

Publication number
CN114579796A
CN114579796A CN202210483756.0A CN202210483756A CN114579796A CN 114579796 A CN114579796 A CN 114579796A CN 202210483756 A CN202210483756 A CN 202210483756A CN 114579796 A CN114579796 A CN 114579796A
Authority
CN
China
Prior art keywords
document
segment
answer
text
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210483756.0A
Other languages
English (en)
Other versions
CN114579796B (zh
Inventor
侯晋峰
肖立鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wofeng Times Data Technology Co ltd
Original Assignee
Beijing Wofeng Times Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wofeng Times Data Technology Co ltd filed Critical Beijing Wofeng Times Data Technology Co ltd
Priority to CN202210483756.0A priority Critical patent/CN114579796B/zh
Publication of CN114579796A publication Critical patent/CN114579796A/zh
Application granted granted Critical
Publication of CN114579796B publication Critical patent/CN114579796B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种机器阅读理解方法及装置,其中,该方法包括:基于目标文档,获取多个文档片段,基于目标文档,获取多个第一图片,且基于文档片段,获取文档片段中的词语及各词语的位置信息;基于各文档片段中的词语,为文档片段和文档片段对应的第一图片建立索引;基于第一问题文本和索引,将各文档片段中的至少一个确定为候选片段;将第一问题文本、候选片段、候选片段对应的第一图片和候选片段中的各词语的位置信息输入阅读理解模型,进行答案抽取,获取答案片段。本发明提供的机器阅读理解方法及装置,能实现直接对包含图文的文档进行机器阅读理解,直接从文档中抽取答案片段,步骤更简单,效率更高,还能提高机器阅读理解的使用范围。

Description

机器阅读理解方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种机器阅读理解方法及装置。
背景技术
不同类型的对话系统由不用类型的知识体系来支撑,例如FAQ(常见问题解答,frequently-asked questions)对话通过一问一答类型的知识支撑,知识图谱问答通过知识图谱类型的知识支撑。但对于非结构化的文档,则是通过机器阅读理解的方法从文档中直接抽取答案。
机器阅读理解可以是一项通过让机器回答基于给定上下文的问题来测试机器理解自然语言的程度的任务。具有阅读理解技术的搜索引擎可以直接以自然语言返回用户提出的问题的正确答案,而不是返回一系列相关的WEB页面,对话更加自然。
目前,通常的机器阅读理解方法一般是从纯文本类型的文档中进行答案的抽取。而对于包含图片和/或表格的文档,例如word或pdf等格式的文档,则需要在通过OCR(Optical Character Recognition,光学字符识别)等技术将文档中的文字抽取出来,形成纯文本类型的文档之后,再进行机器阅读理解,会损失大量的格式信息以及图片和表格等。
因此,现有机器阅读理解方法,在用于包含图文的文档的情况下,存在步骤繁琐、效率低和使用受限等不足。
发明内容
本发明提供一种机器阅读理解方法及装置,用以解决现有技术中对包含图文的文档进行机器阅读理解效率较低的缺陷,实现对包含图文的文档更高效的机器阅读理解。
本发明提供一种机器阅读理解方法,包括:
基于目标文档,获取多个文档片段,基于所述目标文档,获取多个第一图片,且基于所述文档片段,获取所述文档片段中的词语及各词语的位置信息;
基于各所述文档片段中的词语,为所述文档片段和所述文档片段对应的所述第一图片建立索引;
基于第一问题文本和所述索引,将各所述文档片段中的至少一个确定为候选片段;
将所述第一问题文本、候选片段、所述候选片段对应的第一图片和所述候选片段中的各词语的位置信息输入阅读理解模型,进行答案抽取,获取答案片段;
其中,所述文档片段,包括所述目标文档中的每一段落和每一图片中的文本;所述第一图片,包括各所述段落的截图和所述目标文档中的各图片;所述阅读理解模型,是基于样本问题文本、样本答案文字片段、所述样本答案文字片段对应的图片和所述样本答案文字片段中各词语的位置信息和样本段落进行训练后得到的。
根据本发明提供的一种机器阅读理解方法,所述将所述第一问题文本、候选片段、所述候选片段对应的第一图片和所述候选片段中的各词语的位置信息输入阅读理解模型,进行答案抽取,获取答案片段,包括:
将所述第一问题文本、候选片段、所述候选片段对应的第一图片和所述候选片段中的各词语的位置信息,输入阅读理解模型,获取所述候选片段包含所述第一问题文本对应的答案文本的置信度;
将置信度大于置信度阈值的所述候选片段,确定为答案片段,并在所述候选片段对应的第一图片中标记答案。
根据本发明提供的一种机器阅读理解方法,所述将所述第一问题文本、候选片段、所述候选片段对应的第一图片和所述候选片段中的各词语的位置信息输入阅读理解模型,进行答案抽取,获取答案片段之后,还包括:
在所述答案片段不是完整的段落、表格或图片的情况下,基于所述文档片段和所述第一图片,对所述答案片段进行补全。
根据本发明提供的一种机器阅读理解方法,所述基于目标文档,获取多个文档片段,包括:
提取所述目标文档中的每个段落和每个表格,以及所述目标文档中每一图片中的文本,分别作为一个所述文档片段。
根据本发明提供的一种机器阅读理解方法,所述基于所述目标文档,获取多个第一图片,包括:
提取所述目标文档中的图片,并以段落和表格为单位,对所述目标文档进行截图,得到所述多个第一图片。
根据本发明提供的一种机器阅读理解方法,所述基于第一问题文本和所述索引,将各所述文档片段中的至少一个确定为候选片段,包括:
对所述第一问题文本进行分词,得到分词结果;
基于所述分词结果和所述索引进行查询,将与所述分词结果匹配的所述文档片段,确定为所述候选片段。
根据本发明提供的一种机器阅读理解方法,所述索引为倒排索引。
本发明还提供一种机器阅读理解装置,包括:
图文提取模块,用于基于目标文档,获取多个文档片段,基于所述目标文档,获取多个第一图片,且基于所述文档片段,获取所述文档片段中的词语及各词语的位置信息;
索引构建模块,用于基于各所述文档片段中的词语,为所述文档片段和所述文档片段对应的所述第一图片建立索引;
候选生成模块,用于基于第一问题文本和所述索引,将各所述文档片段中的至少一个确定为候选片段;
答案抽取模块,用于将所述第一问题文本、候选片段、所述候选片段对应的第一图片和所述候选片段中的各词语的位置信息输入阅读理解模型,进行答案抽取,获取答案片段;
其中,所述文档片段,包括所述目标文档中的每一段落和每一图片中的文本;所述第一图片,包括各所述段落的截图和所述目标文档中的各图片;所述阅读理解模型,是基于样本问题文本、样本答案文字片段、所述样本答案文字片段对应的图片和所述样本答案文字片段中各词语的位置信息和样本段落进行训练后得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述机器阅读理解方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述机器阅读理解方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述机器阅读理解方法。
本发明提供的机器阅读理解方法及装置,通过基于各文档片段中的词语,为目标文档中的文档片段和文档片段对应的第一图片建立索引,基于第一问题文本和索引进行初步筛选,确定候选片段,将第一问题文本、候选片段、候选片段对应的第一图片和候选片段中的各词语的位置信息输入阅读理解模型,进行答案抽取,获取答案片段,能实现直接对包含图文的文档进行机器阅读理解,直接从文档中抽取答案片段作为用户问题的答案,而不必将文档提取成纯文本的格式,步骤更简单,效率更高,还能提高机器阅读理解的使用范围。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的机器阅读理解方法的流程示意图之一;
图2是本发明提供的机器阅读理解方法中阅读理解模型训练过程的示意图;
图3是本发明提供的机器阅读理解方法的流程示意图之二;
图4是本发明提供的机器阅读理解装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例的描述中,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性,且不涉及顺序。
下面结合图1至图5描述本发明提供的机器阅读理解方法及装置。
图1是本发明提供的机器阅读理解方法的流程示意图之一。如图1所示,本发明实施例提供的机器阅读理解方法的执行主体可以为机器阅读理解装置,该方法包括:步骤101、步骤102、步骤103和步骤104。
步骤101、基于目标文档,获取多个文档片段,基于目标文档,获取多个第一图片,且基于文档片段,获取文档片段中的词语及各词语的位置信息。
其中,文档片段,包括目标文档中的每一段落和每一图片中的文本;第一图片,包括各段落的截图和目标文档中的各图片。
具体地,本发明实施例中,进行机器阅读理解的目的,是为了从目标文档中提取出包含第一问题文本对应的答案文本的片段,即答案片段。该方法可以直接以图文格式的文档作为输入,以机器阅读理解的方式从该文档中抽取片段作为问题的答案。
目标文档,是包含图文的文档。包含图文的文档,指包含文本和图片的文档。可选地,目标文档除了包含文本和图片之外,还可以包含表格的带格式的内容。
可选地,可以通过任一种文本提取方法,提取目标文档中的纯文本,并根据段落标识符对文本进行切分,得到各个目标文档中的段落。以段落为单位,一个段落作为一个文档片段。
需要说明的是,目标文档中的每个表格,作为一个段落。
可选地,可以通过任一种提取图片中的文本的方法,例如OCR等,提取目标文档中的每一图片中的文本。以图片为单位,一幅图片中的文本作为一个文档片段。
对于每一文档片段,可以通过任一种分词方法,例如基于字典的分词方法、基于字的分词方法或基于统计的分词方法等,对该文档片段进行分词,得到该文档片段中的词语,并记录每一词语的位置信息。
可选地,在文档片段为段落的情况下,该文档片段中词语的位置信息可以包括该词语在该文档片段中所属的行和在所属的行中的序号(即所属的行中的第几个字或字符)等信息。
可选地,在文档片段为图片中的文本的情况下,该文档片段中词语的位置信息可以包括该词语在该文档片段中的位置信息。
可选地,该文档片段中词语的位置信息,可以为该词语所覆盖的像素范围的位置信息。示例性地,词语所覆盖的像素范围的位置信息,可以用该词语所覆盖的像素范围中位于最左、最右、最上和最下的四个像素在该文档片段中的坐标表示。
可选地,在文档片段为段落的情况下,可以获取该段落的截图,作为第一图片。
可选地,在文档片段为图片中的文本的情况下,可以直接将该图片作为第一图片。
步骤102、基于各文档片段中的词语,为文档片段和文档片段对应的第一图片建立索引。
具体地,可以基于是否对应同一个段落或图片,确定文档片段和第一图片之间的对应关系。
可以将文档片段中的词语作为用于检索的关键词,以检索词为单位,基于文档片段和第一图片之间的对应关系,为各文档片段和文档片段对应的第一图片建立索引。
步骤103、基于第一问题文本和索引,将各文档片段中的至少一个确定为候选片段。
具体地,第一问题文本,指用于描述第一问题的文本。
可以提取第一问题文本中的关键词,基于上述关键词查询索引,得到包含上述关键词的至少一个文档片段,作为候选片段,缩小阅读理解的范围。
可选地,基于候选片段和候选片段对应的第一图片,可以得到候选集。
步骤104、将第一问题文本、候选片段、候选片段对应的第一图片和候选片段中的各词语的位置信息输入阅读理解模型,进行答案抽取,获取答案片段。
其中,阅读理解模型,是基于样本问题文本、样本答案文字片段、样本答案文字片段对应的图片和样本答案文字片段中各词语的位置信息和样本段落进行训练后得到的。
具体地,对于每一候选片段,可以将第一问题文本、该候选片段、该候选片段对应的第一图片和该候选片段中的各词语的位置信息作为训练好的阅读理解模型的一组输入,阅读理解模型可以输出该候选片段是否包含第一问题文本对应的答案文本的判断结果,从而可以基于判断结果,获取答案片段。答案片段,可以指包含第一问题文本对应的答案文本的候选片段的全部内容或部分内容。
可选地,可以将包含第一问题文本对应的答案文本的候选片段,确定为答案片段,从而获取答案片段。可以输出该候选片段对应的第一图片,作为机器阅读理解的结果。
可选地,可以将包含第一问题文本对应的答案文本的候选片段中的包含该答案文本的一部分确定为答案片段,从而获取答案片段。可以输出该候选片段对应的第一图片中包含答案片段的子图,作为机器阅读理解的结果。
可选地,若阅读理解模型判断该候选片段包含第一问题文本对应的答案文本,则可以输出该候选片段对应的第一图片,并在该第一图片中标记答案文本所在的位置,表示该候选片段包含第一问题文本对应的答案文本;若阅读理解模型判断该候选片段不包含第一问题文本对应的答案文本,则可以输出该候选片段对应的第一图片,且不在该第一图片中进行任何标记,表示该候选片段不包含第一问题文本对应的答案文本。
可选地,在该第一图片中标记具体的答案文本所在的位置,可以通过方框或横线等方式进行标记。本发明实施例对标记答案文本的具体方式不进行限定。
需要说明的是,候选片段中各词语的位置信息,用于确定具体的答案文在该候选片段中的位置,从而可以实现对该候选片中具体的答案文本进行标记。
需要说明的是,阅读理解模型的训练过程可以如图2所示。
阅读理解模型训练可以主要包括两步:数据标注和模型训练。
数据标注的主要目的根据样本问题文本在样本段落中找到对应问题的答案。答案分为两部分,文字答案和图片答案。文字答案,指样本问题文本对应的答案的文字部分,可以称为样本答案文字片段。图片答案,指答案的文字部分所在位置的截图(以整行为单位),是样本答案文字片段对应的图片。如果表格或者文字跨页,则可以将截图中两页中间的空白部分去掉。
可以将样本段落中的样本答案文字片段标注为1、非样本答案文字片段标注为0,并将样本答案文字片段对应的图片中的样本答案文字片段标注为1、非样本答案文字片段标注为0,并记录样本段落中各词语的位置信息。
对于需要训练的阅读理解模型,可以将样本问题文本、样本答案文字片段、样本答案文字片段对应的图片和样本答案文字片段中各词语的位置信息作为该模型的一组输入,基于该模型的输出结果和标注,调整阅读理解模型中的参数和超参数,直至得到符合预设条件的阅读理解模型,作为训练好的阅读理解模型。
需要说明的是,阅读理解的模型的输入中加入词语的位置信息,以保留文档中的图片和表格等格式信息;相应地,模型输出的结果可以包括答案文本的文字信息,使得机器阅读理解的结果就可以包含图片、表格等信息,而不是单纯的文本。
进一步地,基于本发明实施例提供的机器阅读理解方法,进行对问题的答案所在的文档片段的检索,检索结果更加精确。具有本发明实施例提供的机器阅读理解方法的搜索引擎可以直接以自然语言返回用户提出的问题的正确答案,而不是返回一系列相关的WEB页面,对话更加自然。
本发明实施例通过基于各文档片段中的词语,为目标文档中的文档片段和文档片段对应的第一图片建立索引,基于第一问题文本和索引进行初步筛选,确定候选片段,将第一问题文本、候选片段、候选片段对应的第一图片和候选片段中的各词语的位置信息输入阅读理解模型,进行答案抽取,获取答案片段,能实现直接对包含图文的文档进行机器阅读理解,直接从文档中抽取答案片段作为用户问题的答案,而不必将文档提取成纯文本的格式,步骤更简单,效率更高,还能提高机器阅读理解的使用范围。
基于上述任一实施例的内容,将第一问题文本、候选片段、候选片段对应的第一图片和候选片段中的各词语的位置信息输入阅读理解模型,进行答案抽取,获取答案片段,包括:将第一问题文本、候选片段、候选片段对应的第一图片和候选片段中的各词语的位置信息,输入阅读理解模型,获取候选片段包含第一问题文本对应的答案文本的置信度。
具体地,对于每一候选片段,可以将第一问题文本、该候选片段、该候选片段对应的第一图片和该候选片段中的各词语的位置信息作为训练好的阅读理解模型的一组输入,阅读理解模型可以输出该候选片段包含第一问题文本对应的答案文本的置信度。
该候选片段包含第一问题文本对应的答案文本的置信度,可以用于指示该候选片段是否包含第一问题文本对应的答案文本的判断结果。
该候选片段包含第一问题文本对应的答案文本的置信度越大,表示该候选片段包含第一问题文本对应的答案文本的可能性越大;该候选片段包含第一问题文本对应的答案文本的置信度越小,表示该候选片段包含第一问题文本对应的答案文本的可能性越小。
将置信度大于置信度阈值的候选片段,确定为答案片段,并在候选片段对应的第一图片中标记答案。
具体地,对于每一候选片段,得到该候选片段包含第一问题文本对应的答案文本的置信度之后,可以将该置信度与预设的置信度阈值进行比较。
若该置信度大于置信度阈值,则可以将该候选片段确定为答案片段,并可以基于该候选片段中各词语的位置信息,通过方框等形式对该候选片中具体的答案文本进行标记。
本发明实施例通过阅读理解模型获取候选片段包含第一问题文本对应的答案文本的置信度,将置信度大于置信度阈值的候选片段,确定为答案片段,并在候选片段对应的第一图片中标记答案,能实现直接对包含图文的文档进行机器阅读理解,直接从文档中抽取答案片段作为用户问题的答案,而不必将文档提取成纯文本的格式,步骤更简单,效率更高,还能提高机器阅读理解的使用范围。
基于上述任一实施例的内容,将第一问题文本、候选片段、候选片段对应的第一图片和候选片段中的各词语的位置信息输入阅读理解模型,进行答案抽取,获取答案片段之后,还包括:在答案片段不是完整的段落、表格或图片的情况下,基于文档片段和第一图片,对答案片段进行补全。
具体地,在答案片段不是完整的段落的情况下,可以基于文档片段所属的文档片段和该文档片段对应的第一图片,将答案片段延伸到整个该段落,实现对答案片段的补全。
可选地,在答案片段不是完整的表格的情况下,可以基于文档片段所属的文档片段和该文档片段对应的第一图片,将答案片段延伸到整个该表格,实现对答案片段的补全。
可选地,在答案片段不是完整的第一图片的情况下,可以基于文档片段所属的文档片段和该文档片段对应的第一图片,将答案片段延伸到整个该第一图片,实现对答案片段的补全。
需要说明的是,补全答案片段的过程中,可以保留对具体的答案文本的标记。
本发明实施例通过在答案片段不是完整的段落、表格或图片的情况下,基于文档片段和第一图片,对答案片段进行补全,能输出更符合用户需求的机器阅读理解结果,能进一步提高机器阅读理解的使用范围。
基于上述任一实施例的内容,基于目标文档,获取多个文档片段,包括:在目标文档包括文本、表格和图片的情况下,提取目标文档中的每个段落和每个表格,以及目标文档中每一图片中的文本,分别作为一个文档片段。
具体地,在目标文档包括文本、表格和图片的情况下,提取文档片段可以包括:
通过任一种提取图片中的文本的方法,提取该目标文档中每一图片中的文本,分别作为一个文档片段;
通过任一种表格提取方法,提取该目标文档中的每一表格;通过任一种文本提取方法,提取该表格中的文本,作为一个文档片段;
通过任一种文本提取方法,直接抽取该目标文档中除了图片和表格之外的纯文本;根据段落标识符对上述纯文本进行切分,得到多个段落,每个段落分别作为一个文档片段。
本发明实施例通过提取目标文档中的每个段落和每个表格,以及目标文档中每一图片中的文本,分别作为一个文档片段,能更完整地提取出目标文档中的文档片段,能减少文本的遗漏,从而能更准确地进行机器阅读理解。
基于上述任一实施例的内容,基于目标文档,获取多个第一图片,包括:提取目标文档中的图片,并以段落和表格为单位,对目标文档进行截图,得到多个第一图片。
具体地,可以对该目标文档进行截图,得到多个第一图片。
在目标文档包括文本、表格和图片的情况下,对于该目标文档中的文本和表格等非图片部分,可以以段落和表格为单位进行截图,使得每一第一图片仅包括一个段落或一个表格;对于该目标文档中的图片部分,则可以直接将一幅上述图片作为一个第一图片。
本发明实施例通过提取目标文档中的图片,并以段落和表格为单位,对目标文档进行截图,得到多个第一图片,从而能基于文档片段和第一图片之间的对应关系进行答案判断的抽取,而不必将文档提取成纯文本的格式,步骤更简单,效率更高,还能提高机器阅读理解的使用范围。
基于上述任一实施例的内容,基于第一问题文本和索引,将各文档片段中的至少一个确定为候选片段,包括:对第一问题文本进行分词,得到分词结果。
具体地,可以采用任一种分词方法,对第一问题文本进行分词,提取出第一问题文本中的词语,作为分词结果。
基于分词结果和索引进行查询,将与分词结果匹配的文档片段,确定为候选片段。
具体地,基于上述第一问题文本中的各词语查询索引,得到包含上述词语的至少一个文档片段,作为候选片段,
文档片段与分词结果匹配,指该文档片段包含分词结果中的至少一个词语。
本发明实施例通过对第一问题文本进行分词,基于分词结果和索引进行查询,将与分词结果匹配的文档片段,确定为候选片段,能对文档片段是否包含答案文本进行更快速、准确的初步筛选,能更快速、准确地缩小范围,从而能提高机器阅读理解的效率。
基于上述任一实施例的内容,索引为倒排索引。
具体地,为文档片段和文档片段对应的第一图片建立的索引的形式,可以为倒排索引。
倒排索引源于实际应用中需要根据属性的值来查找记录。倒排索引中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。
本发明实施例中,属性值为词语,具有该属性值的各记录的地址为包含该词语的文档段落和该文档片段对应的第一图片。
本发明实施例通过为文档片段和文档片段对应的第一图片建立倒排索引,能提高确定候选片段的效率,更快速的进行初步筛选,缩小范围,从而能提高机器阅读理解的效率。
为了便于对本发明上述各实施例的理解,下面对器阅读理解方法的一种实施过程进行描述。
可选地,图3是本发明提供的机器阅读理解方法的流程示意图之二。如图3所示,机器阅读理解方法可以包括以下步骤:
1、文档预处理
对目标文档进行文档预处理可以包括:
基于目标文档,获取多个文档片段、多个第一图片、每一文档片段中的词语及各词语的位置信息;
基于各文档片段中的词语,为文档片段和文档片段对应的第一图片建立索引。
2、候选集生成
基于第一问题文本和索引,将各文档片段中的至少一个确定为候选片段,从而得到包括各候选片段和每一候选片段对应的第一图片的候选集。
3、模型抽取
将第一问题文本、候选片段、候选片段对应的第一图片和候选片段中的各词语的位置信息输入阅读理解模型,进行答案抽取,获取答案片段。
4、答案后处理
在答案片段不是完整的段落、表格或图片的情况下,则需要进行后处理,基于文档片段和第一图片,对答案片段进行补全。
下面对本发明提供的机器阅读理解装置进行描述,下文描述的机器阅读理解装置与上文描述的机器阅读理解方法可相互对应参照。
图4是本发明提供的机器阅读理解装置的结构示意图。基于上述任一实施例的内容,如图4所示,该装置包括图文提取模块401、索引构建模块402、候选生成模块403和答案抽取模块404,其中:
图文提取模块401,用于基于目标文档,获取多个文档片段,基于目标文档,获取多个第一图片,且基于文档片段,获取文档片段中的词语及各词语的位置信息;
索引构建模块402,用于基于各文档片段中的词语,为文档片段和文档片段对应的第一图片建立索引;
候选生成模块403,用于基于第一问题文本和索引,将各文档片段中的至少一个确定为候选片段;
答案抽取模块404,用于将第一问题文本、候选片段、候选片段对应的第一图片和候选片段中的各词语的位置信息输入阅读理解模型,进行答案抽取,获取答案片段;
其中,文档片段,包括目标文档中的每一段落和每一图片中的文本;第一图片,包括各段落的截图和目标文档中的各图片;阅读理解模型,是基于样本问题文本、样本答案文字片段、样本答案文字片段对应的图片和样本答案文字片段中各词语的位置信息和样本段落进行训练后得到的。
具体地,图文提取模块401、索引构建模块402、候选生成模块403和答案抽取模块404可以顺次电连接。
图文提取模块401可以通过任一种文本提取方法,提取目标文档中的纯文本,并根据段落标识符对文本进行切分,得到各个目标文档中的段落。以段落为单位,一个段落作为一个文档片段。
图文提取模块401可以通过任一种提取图片中的文本的方法,提取目标文档中的每一图片中的文本。以图片为单位,一幅图片中的文本作为一个文档片段。
对于每一文档片段,图文提取模块401可以通过任一种分词方法,例如基于字典的分词方法、基于字的分词方法或基于统计的分词方法等,对该文档片段进行分词,得到该文档片段中的词语,并记录每一词语的位置信息。
索引构建模块402可以将文档片段中的词语作为用于检索的关键词,以检索词为单位,基于文档片段和第一图片之间的对应关系,为各文档片段和文档片段对应的第一图片建立索引。
候选生成模块403可以提取第一问题文本中的关键词,基于上述关键词查询索引,得到包含上述关键词的至少一个文档片段,作为候选片段,缩小阅读理解的范围。
对于每一候选片段,答案抽取模块404可以将第一问题文本、该候选片段、该候选片段对应的第一图片和该候选片段中的各词语的位置信息作为训练好的阅读理解模型的一组输入,阅读理解模型可以输出该候选片段是否包含第一问题文本对应的答案文本的判断结果,从而可以基于判断结果,获取答案片段。
可选地,答案抽取模块404,可以具体用于将第一问题文本、候选片段、候选片段对应的第一图片和候选片段中的各词语的位置信息,输入阅读理解模型,获取候选片段包含第一问题文本对应的答案文本的置信度;将置信度大于置信度阈值的候选片段,确定为答案片段,并在候选片段对应的第一图片中标记答案。
可选地,该机器阅读理解装置,可以还包括:
答案补全模块,用于在答案片段不是完整的段落、表格或图片的情况下,基于文档片段和第一图片,对答案片段进行补全。
可选地,图文提取模块401,可以包括:
文字提取单元,用于在目标文档包括文本、表格和图片的情况下,提取目标文档中的每个段落和每个表格,以及目标文档中每一图片中的文本,分别作为一个文档片段。
可选地,图文提取模块401,可以还包括:
图片提取单元,用于提取目标文档中的图片,并以段落和表格为单位,对目标文档进行截图,得到多个第一图片。
可选地,候选生成模块403,可以包括:
分词单元,用于对第一问题文本进行分词,得到分词结果;
查询单元,用于基于分词结果和索引进行查询,将与分词结果匹配的文档片段,确定为候选片段。
可选地,索引为倒排索引。
本发明实施例提供的机器阅读理解装置,用于执行本发明上述机器阅读理解方法,其实施方式与本发明提供的机器阅读理解方法的实施方式一致,且可以达到相同的有益效果,此处不再赘述。
该机器阅读理解装置用于前述各实施例的机器阅读理解方法。因此,在前述各实施例中的机器阅读理解方法中的描述和定义,可以用于本发明实施例中各执行模块的理解。
本发明实施例通过基于各文档片段中的词语,为目标文档中的文档片段和文档片段对应的第一图片建立索引,基于第一问题文本和索引进行初步筛选,确定候选片段,将第一问题文本、候选片段、候选片段对应的第一图片和候选片段中的各词语的位置信息输入阅读理解模型,进行答案抽取,获取答案片段,能实现直接对包含图文的文档进行机器阅读理解,直接从文档中抽取答案片段作为用户问题的答案,而不必将文档提取成纯文本的格式,步骤更简单,效率更高,还能提高机器阅读理解的使用范围。
图5是本发明提供的电子设备的结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行机器阅读理解方法,该方法包括:基于目标文档,获取多个文档片段,基于目标文档,获取多个第一图片,且基于文档片段,获取文档片段中的词语及各词语的位置信息;基于各文档片段中的词语,为文档片段和文档片段对应的第一图片建立索引;基于第一问题文本和索引,将各文档片段中的至少一个确定为候选片段;将第一问题文本、候选片段、候选片段对应的第一图片和候选片段中的各词语的位置信息输入阅读理解模型,进行答案抽取,获取答案片段;其中,文档片段,包括目标文档中的每一段落和每一图片中的文本;第一图片,包括各段落的截图和目标文档中的各图片;阅读理解模型,是基于样本问题文本、样本答案文字片段、样本答案文字片段对应的图片和样本答案文字片段中各词语的位置信息和样本段落进行训练后得到的。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例提供的电子设备中的处理器510可以调用存储器530中的逻辑指令,其实施方式与本申请提供的机器阅读理解方法的实施方式一致,且可以达到相同的有益效果,此处不再赘述。
另一方面,本发明还提供一种计算机程序产品,计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,计算机能够执行上述各方法所提供的机器阅读理解方法,该方法包括:基于目标文档,获取多个文档片段,基于目标文档,获取多个第一图片,且基于文档片段,获取文档片段中的词语及各词语的位置信息;基于各文档片段中的词语,为文档片段和文档片段对应的第一图片建立索引;基于第一问题文本和索引,将各文档片段中的至少一个确定为候选片段;将第一问题文本、候选片段、候选片段对应的第一图片和候选片段中的各词语的位置信息输入阅读理解模型,进行答案抽取,获取答案片段;其中,文档片段,包括目标文档中的每一段落和每一图片中的文本;第一图片,包括各段落的截图和目标文档中的各图片;阅读理解模型,是基于样本问题文本、样本答案文字片段、样本答案文字片段对应的图片和样本答案文字片段中各词语的位置信息和样本段落进行训练后得到的。
本申请实施例提供的计算机程序产品被执行时,实现上述机器阅读理解方法,其具体的实施方式与前述方法的实施例中记载的实施方式一致,且可以达到相同的有益效果,此处不再赘述。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的机器阅读理解方法,该方法包括:基于目标文档,获取多个文档片段,基于目标文档,获取多个第一图片,且基于文档片段,获取文档片段中的词语及各词语的位置信息;基于各文档片段中的词语,为文档片段和文档片段对应的第一图片建立索引;基于第一问题文本和索引,将各文档片段中的至少一个确定为候选片段;将第一问题文本、候选片段、候选片段对应的第一图片和候选片段中的各词语的位置信息输入阅读理解模型,进行答案抽取,获取答案片段;其中,文档片段,包括目标文档中的每一段落和每一图片中的文本;第一图片,包括各段落的截图和目标文档中的各图片;阅读理解模型,是基于样本问题文本、样本答案文字片段、样本答案文字片段对应的图片和样本答案文字片段中各词语的位置信息和样本段落进行训练后得到的。
本申请实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时,实现上述机器阅读理解方法,其具体的实施方式与前述方法的实施例中记载的实施方式一致,且可以达到相同的有益效果,此处不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种机器阅读理解方法,其特征在于,包括:
基于目标文档,获取多个文档片段,基于所述目标文档,获取多个第一图片,且基于所述文档片段,获取所述文档片段中的词语及各词语的位置信息;
基于各所述文档片段中的词语,为所述文档片段和所述文档片段对应的所述第一图片建立索引;
基于第一问题文本和所述索引,将各所述文档片段中的至少一个确定为候选片段;
将所述第一问题文本、候选片段、所述候选片段对应的第一图片和所述候选片段中的各词语的位置信息输入阅读理解模型,进行答案抽取,获取答案片段;
其中,所述文档片段,包括所述目标文档中的每一段落和每一图片中的文本;所述第一图片,包括各所述段落的截图和所述目标文档中的各图片;所述阅读理解模型,是基于样本问题文本、样本答案文字片段、所述样本答案文字片段对应的图片和所述样本答案文字片段中各词语的位置信息和样本段落进行训练后得到的。
2.根据权利要求1所述的机器阅读理解方法,其特征在于,所述将所述第一问题文本、候选片段、所述候选片段对应的第一图片和所述候选片段中的各词语的位置信息输入阅读理解模型,进行答案抽取,获取答案片段,包括:
将所述第一问题文本、候选片段、所述候选片段对应的第一图片和所述候选片段中的各词语的位置信息,输入阅读理解模型,获取所述候选片段包含所述第一问题文本对应的答案文本的置信度;
将置信度大于置信度阈值的所述候选片段,确定为答案片段,并在所述候选片段对应的第一图片中标记答案。
3.根据权利要求1所述的机器阅读理解方法,其特征在于,所述将所述第一问题文本、候选片段、所述候选片段对应的第一图片和所述候选片段中的各词语的位置信息输入阅读理解模型,进行答案抽取,获取答案片段之后,还包括:
在所述答案片段不是完整的段落、表格或图片的情况下,基于所述文档片段和所述第一图片,对所述答案片段进行补全。
4.根据权利要求1所述的机器阅读理解方法,其特征在于,所述基于目标文档,获取多个文档片段,包括:
在所述目标文档包括文本、表格和图片的情况下,提取所述目标文档中的每个段落和每个表格,以及所述目标文档中每一图片中的文本,分别作为一个所述文档片段。
5.根据权利要求4所述的机器阅读理解方法,其特征在于,所述基于所述目标文档,获取多个第一图片,包括:
提取所述目标文档中的图片,并以段落和表格为单位,对所述目标文档进行截图,得到所述多个第一图片。
6.根据权利要求1至5任一项所述的机器阅读理解方法,其特征在于,所述基于第一问题文本和所述索引,将各所述文档片段中的至少一个确定为候选片段,包括:
对所述第一问题文本进行分词,得到分词结果;
基于所述分词结果和所述索引进行查询,将与所述分词结果匹配的所述文档片段,确定为所述候选片段。
7.一种机器阅读理解装置,其特征在于,包括:
图文提取模块,用于基于目标文档,获取多个文档片段,基于所述目标文档,获取多个第一图片,且基于所述文档片段,获取所述文档片段中的词语及各词语的位置信息;
索引构建模块,用于基于各所述文档片段中的词语,为所述文档片段和所述文档片段对应的所述第一图片建立索引;
候选生成模块,用于基于第一问题文本和所述索引,将各所述文档片段中的至少一个确定为候选片段;
答案抽取模块,用于将所述第一问题文本、候选片段、所述候选片段对应的第一图片和所述候选片段中的各词语的位置信息输入阅读理解模型,进行答案抽取,获取答案片段;
其中,所述文档片段,包括所述目标文档中的每一段落和每一图片中的文本;所述第一图片,包括各所述段落的截图和所述目标文档中的各图片;所述阅读理解模型,是基于样本问题文本、样本答案文字片段、所述样本答案文字片段对应的图片和所述样本答案文字片段中各词语的位置信息和样本段落进行训练后得到的。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述机器阅读理解方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述机器阅读理解方法。
CN202210483756.0A 2022-05-06 2022-05-06 机器阅读理解方法及装置 Active CN114579796B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210483756.0A CN114579796B (zh) 2022-05-06 2022-05-06 机器阅读理解方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210483756.0A CN114579796B (zh) 2022-05-06 2022-05-06 机器阅读理解方法及装置

Publications (2)

Publication Number Publication Date
CN114579796A true CN114579796A (zh) 2022-06-03
CN114579796B CN114579796B (zh) 2022-07-12

Family

ID=81778410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210483756.0A Active CN114579796B (zh) 2022-05-06 2022-05-06 机器阅读理解方法及装置

Country Status (1)

Country Link
CN (1) CN114579796B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115828893A (zh) * 2022-11-28 2023-03-21 北京海致星图科技有限公司 非结构化文档问答的方法、装置、存储介质和设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050125395A1 (en) * 2003-12-08 2005-06-09 Volker Boettiger Index for data retrieval and data structuring
US20150324349A1 (en) * 2014-05-12 2015-11-12 Google Inc. Automated reading comprehension
CN112417126A (zh) * 2020-12-02 2021-02-26 车智互联(北京)科技有限公司 一种问答方法、计算设备以及存储介质
US20210149994A1 (en) * 2019-11-15 2021-05-20 42 Maru Inc. Device and method for machine reading comprehension question and answer
CN113076431A (zh) * 2021-04-28 2021-07-06 平安科技(深圳)有限公司 机器阅读理解的问答方法、装置、计算机设备及存储介质
CN113486174A (zh) * 2021-06-15 2021-10-08 北京三快在线科技有限公司 模型训练、阅读理解方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050125395A1 (en) * 2003-12-08 2005-06-09 Volker Boettiger Index for data retrieval and data structuring
US20150324349A1 (en) * 2014-05-12 2015-11-12 Google Inc. Automated reading comprehension
US20210149994A1 (en) * 2019-11-15 2021-05-20 42 Maru Inc. Device and method for machine reading comprehension question and answer
CN112417126A (zh) * 2020-12-02 2021-02-26 车智互联(北京)科技有限公司 一种问答方法、计算设备以及存储介质
CN113076431A (zh) * 2021-04-28 2021-07-06 平安科技(深圳)有限公司 机器阅读理解的问答方法、装置、计算机设备及存储介质
CN113486174A (zh) * 2021-06-15 2021-10-08 北京三快在线科技有限公司 模型训练、阅读理解方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115828893A (zh) * 2022-11-28 2023-03-21 北京海致星图科技有限公司 非结构化文档问答的方法、装置、存储介质和设备
CN115828893B (zh) * 2022-11-28 2023-11-17 北京海致星图科技有限公司 非结构化文档问答的方法、装置、存储介质和设备

Also Published As

Publication number Publication date
CN114579796B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN111274239A (zh) 试卷结构化处理方法、装置和设备
CN110287784B (zh) 一种年报文本结构识别方法
CN110516203B (zh) 争议焦点分析方法、装置、电子设备及计算机可存储介质
CN114610892A (zh) 知识点标注方法、装置、电子设备和计算机存储介质
CN114663904A (zh) 一种pdf文档布局检测方法、装置、设备及介质
WO2024015320A1 (en) Visual structure of documents in question answering
CN114579796B (zh) 机器阅读理解方法及装置
CN114708595A (zh) 图像文献结构化解析方法、系统、电子设备、存储介质
Yuan et al. An opencv-based framework for table information extraction
Vafaie et al. Handwritten and printed text identification in historical archival documents
CN112036330A (zh) 一种文本识别方法、文本识别装置及可读存储介质
CN116822634A (zh) 一种基于布局感知提示的文档视觉语言推理方法
CN116384344A (zh) 一种文档转换方法、装置及存储介质
CN113779218B (zh) 问答对构建方法、装置、计算机设备和存储介质
CN115565193A (zh) 问卷信息录入方法、装置、电子设备及存储介质
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
CN115983198A (zh) 从pdf文档中提取页眉或者页脚的方法、装置和存储介质
CN112613315B (zh) 一种文本知识自动抽取方法、装置、设备及存储介质
CN115050025A (zh) 基于公式识别的知识点抽取方法及装置
CN113657279A (zh) 一种票据类图像版面解析方法及装置
CN113255369A (zh) 文本相似度分析的方法、装置及存储介质
CN112364640A (zh) 实体名词链接方法、装置、计算机设备和存储介质
CN112990091A (zh) 基于目标检测的研报解析方法、装置、设备和存储介质
Sable et al. Doc-handler: Document scanner, manipulator, and translator based on image and natural language processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant