CN113868379A - 面向开放域问答的段落选择方法、装置、设备及存储介质 - Google Patents

面向开放域问答的段落选择方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113868379A
CN113868379A CN202111177010.9A CN202111177010A CN113868379A CN 113868379 A CN113868379 A CN 113868379A CN 202111177010 A CN202111177010 A CN 202111177010A CN 113868379 A CN113868379 A CN 113868379A
Authority
CN
China
Prior art keywords
entity
document
binary
question
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111177010.9A
Other languages
English (en)
Inventor
周军
付瑞柳
张鹏远
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN202111177010.9A priority Critical patent/CN113868379A/zh
Publication of CN113868379A publication Critical patent/CN113868379A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种面向开放域问答的段落选择方法、装置、设备及存储介质,涉及自然语言处理技术领域。该方法包括:通过将海量文本进行筛选,确定目标文档。基于目标文档中的第一实体和问题文本中的第二实体构建实体树,从而可以基于实体树对第一实体所在的节点关联的段落进行精准排序,进而能够精准快速地获取问题对应的答案信息。

Description

面向开放域问答的段落选择方法、装置、设备及存储介质
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种面向开放域问答的段落选择方法、装置、设备及存储介质。
背景技术
开放域问答系统是自然语言领域的一项十分重要的技术,是智能问答领域最接近实际应用场景的任务,其中,可以快速精准从开放域的海量文档集中筛选关键文档的检索技术是开放域问答的核心需求。
目前,开放域问答系统在应用的过程中需要从网络上以及各种渠道的海量文本中去筛选得到回答。为了保证开放域问答系统的问答效率,需要对海量文本进行快速的筛选,从而从海量文本中筛选得到蕴含关键信息的文档。但是,传统的文档检索技术仅能够基于问题关键词来筛选海量文档范围,忽略了语义信息,进而无法快速精准地确定问题对应的答案所对应的文档,问题对应的段落选择效率及准确率低。
发明内容
本申请实施例提供了一种面向开放域问答的段落选择方法、装置、设备及存储介质,能够解决相关技术中无法快速精准地确定问题对应的答案所对应的文档,从而导致获取问题对应的答案的效率及准确率低的问题。
第一方面,本申请实施例提供了面向开放域问答的段落选择方法,该方法包括:
获取问题文本的问题二元词袋向量;
计算预先存储的文档集中每个文档的文档二元词袋向量和所述问题二元词袋向量之间的相似度;
根据所述相似度,从所述多个文档集中确定至少一个目标文档,其中,所述目标文档的文档二元词袋向量和所述问题二元词袋向量之间的相似度大于预设相似度阈值;
识别所述问题文本中的第二实体;
利用基于最大公共子序列的模糊匹配算法,根据所述第一实体和所述第二实体生成实体树;其中,所述第二实体为所述实体树的根节点,所述第一实体为所述实体树的子节点,所述第一实体所在的节点关联所述第一实体所在的段落;
根据所述实体树中每个子节点关联的段落以及所述实体树中每个子节点在所述实体树的层数,对所述每个子节点关联的段落进行排序;
将排序后的段落与所述问题文本关联输入至阅读器,获取所述问题文本对应的答案信息。
在一种可能的实现方式中,所述计算所述文档二元词袋向量和所述问题二元词袋向量之间的相似度,包括:
根据位置敏感哈希算法,随机确定超平面;
分别将所述文档二元词袋向量和所述问题二元词袋向量在所述超平面进行投影运算,得到所述文档二元词袋向量对应的第一投影向量和所述问题二元词袋向量对应的第二投影向量;
根据所述第一投影向量和所述第二投影向量,计算所述文档二元词袋向量和问题二元词袋向量之间的相似度。
在一种可能的实现方式中,在所述获取问题文本的问题二元词袋向量之前,所述方法还包括:
从互联网获取所述文档集;
对所述文档集中的文档进行分词处理,得到所述文档的二元词袋向量;其中,所述二元词袋向量包括多个二元词组对应的特征值,所述二元词组为所述文档中相邻的词组成的词组;
对所述文档进行分词处理,得到所述文档的二元词袋向量;其中,所述二元词袋向量包括多个二元词组对应的特征值,所述二元词组为所述文档中相邻的词组成的词组;
使用TF-IDF算法计算所述文档的二元词袋向量对应的二元词组在所述文档中的权重;
根据所述权重和Murmur哈希算法,对所述文档的二元词袋向量进行维度压缩,得到所述文档二元词袋向量。
在一种可能的实现方式中,所述使用TF-IDF算法计算所述文档的二元词袋向量对应的二元词组在所述文档中的权重,包括:
根据所述二元词组在所述二元词组所在的文档中出现的次数和所述二元词组所在的文档中二元词组的数量,计算所述二元词组在所述二元词组所在的文档中出现的频率;
根据包括所述二元词组的文档数量和多个文档的总数量,计算所述二元词组的逆向文件频率;
根据所述二元词组在所述二元词组所在的文档中出现的频率和所述二元词组的逆向文件频率,计算所述二元词组在所述文档中的权重。
在一种可能的实现方式中,所述根据所述第一实体和所述第二实体生成实体树,包括:
针对所述实体树中的每个节点,从所述目标文档的多个段落中确定所述节点对应的实体一致的目标实体;其中,所述实体为所述第一实体或所述第二实体,所述目标实体所在的句子包括的实体为所述节点对应的实体的关联共现实体;
根据关键词,从所述关联共现实体中确定所述节点对应的目标关联共现实体,所述关键词是通过所述问题文本确定的;
将所述目标关联共现实体作为所述节点的子节点,得到所述实体树。
第二方面,本申请实施例提供了一种面向开放域问答的段落选择装置,包括:
向量获取模块,用于确定问题文本的问题二元词袋向量;
计算模块,用于计算预先存储的文档集中每个文档的文档二元词袋向量和所述问题二元词袋向量之间的相似度;
文档选择模块,用于根据所述相似度,从所述多个文档集中确定至少一个目标文档,其中,所述目标文档的文档二元词袋向量和所述问题二元词袋向量之间的相似度大于预设相似度阈值;其中,所述目标文档包括多个第一实体;
识别模块,用于识别所述问题文本中的第二实体;
生成模块,用于利用基于最大公共子序列的模糊匹配算法,根据所述第一实体和所述第二实体生成实体树;其中,所述第二实体为所述实体树的根节点,所述第一实体为所述实体树的子节点,所述第一实体所在的节点关联所述第一实体所在的段落;
排序模块,用于根据所述实体树中每个子节点关联的段落以及所述实体树中每个子节点在所述实体树的层数,对所述每个子节点关联的段落进行排序;
问题回答模块,用于将排序后的段落与所述问题文本关联输入至阅读器,获取所述问题文本对应的答案信息。
在一种可能的实现方式中,计算模块,用于根据位置敏感哈希算法,随机确定超平面;
分别将所述文档二元词袋向量和所述问题二元词袋向量在所述超平面进行投影运算,得到所述文档二元词袋向量对应的第一投影向量和所述问题二元词袋向量对应的第二投影向量;
根据所述第一投影向量和所述第二投影向量,计算所述文档二元词袋向量和问题二元词袋向量之间的相似度。
在一种可能的实现方式中,所述装置还包括:
获取模块,用于从互联网获取所述文档集;
分词模块,用于对所述文档进行分词处理,得到所述文档的二元词袋向量;其中,所述二元词袋向量包括多个二元词组对应的特征值,所述二元词组为所述文档中相邻的词组成的词组;
计算模块还用于使用TF-IDF算法计算所述文档的二元词袋向量对应的二元词组在所述文档中的权重;
维度压缩模块,用于根据所述权重和Murmur哈希算法,对所述文档的二元词袋向量进行维度压缩,得到所述文档二元词袋向量。
在一种可能的实现方式中,所述计算模块用于根据所述二元词组在所述二元词组所在的文档中出现的次数和所述二元词组所在的文档中二元词组的数量,计算所述二元词组在所述二元词组所在的文档中出现的频率;
根据包括所述二元词组的文档数量和多个文档的总数量,计算所述二元词组的逆向文件频率;
根据所述二元词组在所述二元词组所在的文档中出现的频率和所述二元词组的逆向文件频率,计算所述二元词组在所述文档中的权重。
在一种可能的实现方式中,所述生成模块用于针对所述实体树中的每个节点,根据最大公共子序列的模糊匹配算法,从所述目标文档的多个段落中确定所述节点对应的实体一致的目标实体;其中,所述实体为所述第一实体或所述第二实体;
根据最大公共子序列的模糊匹配算法,计算所述节点对应的实体和所述目标实体所在的目标句子与所述问题文本的匹配度;
根据关键词,从所述匹配度大于预设阈值的目标句子中,确定与所述节点对应的实体的关联共现实体;其中,所述关键词是通过所述问题文本确定的;
将所述关联共现实体作为所述节点的子节点,得到所述实体树。
第三方面,本申请实施例提供了一种计算机设备,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现如上述第一方面或第一方面中任一种可能的实现方式中所提供的方法。
第四方面,本申请实施例提供了一种计算机存储介质,计算机存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行上述第一方面或第一方面中任一种可能的实现方式中所提供的方法。
本申请实施例提供的面向开放域问答的段落选择方法、装置、设备及存储介质,通过将海量文本进行筛选,确定目标文档。基于目标文档中的第一实体和问题文本中的第二实体构建实体树,从而可以基于实体树对第一实体所在的节点关联的段落进行精准排序,进而能够精准快速地获取问题对应的答案信息。
附图说明
图1示出了本申请实施例提供的一种面向开放域问答的段落选择方法的流程示意图;
图2示出了本申请实施例提供的一种实体树的结构示意图;
图3示出了本申请实施例提供的一种面向开放域问答的段落选择装置的结构示意图;
图4示出了本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本申请实施例中的技术方案进行描述。
在本申请实施例的描述中,“示例性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B这三种情况。另外,除非另有说明,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个屏幕终端是指两个或两个以上的屏幕终端。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
图1是本申请实施例提供的一种面向开放域问答的段落选择方法的流程示意图。如图1所示,本申请实施例提供的一种面向开放域问答的段落选择方法可以包括S101至S107。
S101,获取问题文本的问题二元词袋向量。
问题文本可以是预先输入的问题生成的文本。例如,用户通过与计算机设备进行语音交互过程中提问的问题生成的问题文本。其中,问题的二元词袋向量包括多个二元词组的特征值,二元词组为问题文本中相邻两个词组成的词组。
S102,计算预先存储的文档集中每个文档的文档二元词袋向量和所述问题二元词袋向量之间的相似度。
为了进一步保证整个答案信息获取过程的效率,还需要构建每个文档的文档二元词袋向量。其中,文档二元词袋向量包括多个二元词组对应的特征值。
由于文档中的词组较多,为了节省存储资源以及计算资源,可以对文档进行分词处理,获取文档对应的二元词袋向量。例如,使用前后向最大分词算法,利用预先定义好的分词词典将文档进行分词。统计文档中的二元词组数目,构建二元词袋向量。接着基于TF-IDF算法计算文档中的二元词组在文档中的权重。最后,根据权重和Murmur哈希算法,对所述文档的二元词袋向量进行维度压缩,得到文档二元词袋向量。
在这里,可以根据所述二元词组在所述二元词组所在的文档中出现的次数和所述二元词组所在的文档中二元词组的数量,计算所述二元词组在所述二元词组所在的文档中出现的频率;根据包括所述二元词组的文档数量和多个文档的总数量,计算所述二元词组的逆向文件频率;根据所述二元词组在所述二元词组所在的文档中出现的频率和所述二元词组的逆向文件频率,计算所述二元词组在所述文档中的权重。
其中,文档中的二元词组x在文档j中的权重TFIDF(x,j)满足下述公式(1):
TFIDF(x,j)=TF(x,j)×IDF(x) (1)
其中,TF(x,j)表示二元词组x在文档j中出现的频率,TF(x,j)满足下述公式(2):
Figure BDA0003295621320000051
IDF(x)表示二元词组x在文档j中的逆向文件频率,IDF(x)满足下述公式(3):
Figure BDA0003295621320000052
dx表示包含二元词组x的文档数,D表示文档总数。
利用Murmur哈希算法对词袋向量进行压缩,Murmur哈希算法通过循环使用乘法和旋转两个操作将查询键值映射极为高效地为32位散列值,对于海量文档集的二元词组键值而言,键值分布密集且相对均匀,在Murmur哈希算法的映射下可以获得非常好的压缩效果,损失更少,最终将稀疏的大容量的二元词袋向量压缩到1024比特大小,且保持相对完整的语义信息。
文档集可以是包含各个领域的知识的大量文档。其中,可以通过爬虫技术从互联网获取文档集,例如,维基百科对应的文档、各种文库对应的文档。
为了保证整个答案信息获取过程的效率,可以调整文档集中每个文档的编码格式,从而将文档集进行格式统一。例如,可以将文档集中的每个文档的编码统一为8位元(UTF-8,Universal Character Set)的编码格式。由于文档中还可能存在非法字符,因此,可以对文档中的字符进行处理,从而删除文档中的非法字符。例如,可以利用正则表达式去除除了汉字、英文单词、数字、常用标点符号之外的不合法字符,去掉网络文档中的网址、图片、代码等杂乱信息,进而得到规范的文档。
使用位置敏感哈希算法,随机选取一个超平面R。将文档二元词袋向量和问题二元词袋向量都通过投影运算投影到超平面上,得到所有向量关于这个超平面的投影向量。具体地,可以根据位置敏感哈希算法,随机确定超平面。分别将所述文档二元词袋向量和所述问题二元词袋向量在所述超平面进行投影运算,得到所述文档二元词袋向量对应的第一投影向量和所述问题二元词袋向量对应的第二投影向量。根据所述第一投影向量和所述第二投影向量,计算所述文档二元词袋向量和问题二元词袋向量之间的相似度。其中,投影向量H(v)满足下述公式(4):
H(v)=sign(V×R) (4)
文档二元词袋向量和问题二元词袋向量之间的相似度Similar(v1,v2)满足下述公式(5):
Figure BDA0003295621320000053
其中,v1表示第一投影向量,v2表示第二投影向量。
由于投影运算大大压缩了向量维度,同时根据投影之后的向量将海量文档向量根据位置信息哈希映射到不同哈希桶之中,仅需计算与查询向量相对应的哈希桶中的文档向量,可以大大减小海量文档做向量计算的计算复杂度,通过选取合适的超平面R,使得位置敏感哈希后的向量空间相对位置关系保持微小变化。
S103,根据所述相似度,从所述多个文档集中确定至少一个目标文档,其中,所述目标文档的文档二元词袋向量和所述问题二元词袋向量之间的相似度大于预设相似度阈值。
根据文档二元词袋向量和所述问题二元词袋向量之间的相似度对多个文档进行排序,从而选取相似度大于预设相似度阈值的文档作为后续集,进行更精准的排序和阅读理解。
S104,识别所述问题文本中的第二实体。
可以使用命名实体识别工具抽取目标文档和问题文本中存在的各类实体。在这里,第二实体是命名实体,第一实体可以是任意类型实体。
S105,利用基于最大公共子序列的模糊匹配算法,根据所述第一实体和所述第二实体生成实体树;其中,所述第二实体为所述实体树的根节点,所述第一实体为所述实体树的子节点,所述第一实体所在的节点关联所述第一实体所在的段落。
在一种可能的实施例中,针对所述实体树中的每个节点,可以利用基于最大公共子序列的模糊匹配度算法,先从段落中确定与该节点对应的实体相同的目标实体,那么,则可以确定目标实体所在的句子中的实体均为该节点对应的实体的多个关联共现实体。接着,根据问题文本中的关键词,根据最大公共子序列的模糊匹配算法,计算所述目标实体所在的目标句子与所述问题文本或关键词的匹配度;从所述匹配度大于预设阈值的目标句子中,从多个关联共现实体中确定该节点对应的实体的目标关联共现实体。将该目标关联共现实体作为该节点的子节点,加入到实体树中。
在这里,关键词可以是从问题文本中确定的。例如,可以通过可以通过句法分析以及关系抽取模型,从问题文本中提取得到关键词。
如图2所述,问题文本为“电影《卧虎藏龙》和《阿凡达》,谁的导演年龄更大?”。其中,目标文件中包括多个段落,其中,段落一为“《卧虎藏龙》是2000年的一部武侠动作电影,由李安执导”。段落二为“《阿凡达》(Avatar)是部由詹姆斯·卡梅隆执导……”。段落三为“李安(Ang Lee),1954年10月23日出生于……”。段落四为“詹姆斯卡梅隆(JamesCameron),1954年8月16日出生于……”。段落五为“2021年3月12日,《阿凡达》在中国内地重映”。第一步:以问题文本的实体作为实体树的根节点,其中,根节点为卧虎藏龙和阿凡达。问题文本中的关键词包括导演和年龄。第二步,段落一中实体“李安与问题实体“《卧虎藏龙》”依据“执导”关系关联共现;段落二中实体“詹姆斯卡梅隆"与问题实体“《阿凡达》”依据“执导”关系关联共现。因此将“李安”和“詹姆斯卡梅隆”节点分別加入实体树中,分别作为《卧虎藏龙》“和“《阿凡达》”节点的子节点。第三步:段落三中的时间实体"1954年10月23日"与实体“李安”依据“出生”关系关联共现;段落四中的时间实体“1954年8月16日”与实体“詹姆斯·卡梅隆”依据“出生”关系关联共现。因此将“1954年10月23日”节点和“1954年8月16日”节点加入实体树中,分别作为“李安”节点和“詹姆斯卡梅隆”的子节点。
S106,根据所述实体树中每个子节点关联的段落以及所述实体树中每个子节点在所述实体树的层数,对所述每个子节点关联的段落进行排序。
实体树构建完成之后,对于多跳问答任务而言,段落在实体树中的对应节点的层数则代表了与问题节点的可能跳数,因此按照实体树节点层数依次连接段落可以保证筛选到包含重要信息的段落,剔除干扰无关段落
S107,将排序后的段落与所述问题文本关联输入至阅读器,获取所述问题文本对应的答案信息。
将问题文本和按顺序连接得到的段落拼接在一起,构成阅读器的模型输入,这里使用BERT finetune模型作为阅读器模型,将问题与筛选段落依次输入,依次回答,最终得到开放域多跳问题的答案。
本申请实施例提供的面向开放域问答的段落选择方法,通过将海量文本进行筛选,确定目标文档。基于目标文档中的第一实体和问题文本中的第二实体构建实体树,从而可以基于实体树对第一实体所在的节点关联的段落进行精准排序,进而能够精准快速地确定问题对应的答案信息。
图3是本申请实施例提供的一种面向开放域问答的段落选择装置的结构示意图。如图3所示,本申请实施例提供的面向开放域问答的段落选择装置可以包括:
向量获取模块301,用于获取问题文本的问题二元词袋向量;
计算模块302,用于计算预先存储的文档集中每个文档的文档二元词袋向量和所述问题二元词袋向量之间的相似度;
文档选择模块303,用于根据所述相似度,从所述多个文档集中确定至少一个目标文档,其中,所述目标文档的文档二元词袋向量和所述问题二元词袋向量之间的相似度大于预设相似度阈值;
识别模块304,用于识别所述问题文本中的第二实体;
生成模块305,用于利用基于最大公共子序列的模糊匹配算法,根据所述第一实体和所述第二实体生成实体树;其中,所述第二实体为所述实体树的根节点,所述第一实体为所述实体树的子节点,所述第一实体所在的节点关联所述第一实体所在的段落;
排序模块306,用于根据所述实体树中每个子节点关联的段落以及所述实体树中每个子节点在所述实体树的层数,对所述每个子节点关联的段落进行排序;
问题回答模块307,用于将排序后的段落与所述问题文本关联输入至阅读器,获取所述问题文本对应的答案信息。
在一种可能的实现方式中,计算模块,用于根据位置敏感哈希算法,随机确定超平面;
分别将所述文档二元词袋向量和所述问题二元词袋向量在所述超平面进行投影运算,得到所述文档二元词袋向量对应的第一投影向量和所述问题二元词袋向量对应的第二投影向量;
根据所述第一投影向量和所述第二投影向量,计算所述文档二元词袋向量和问题二元词袋向量之间的相似度。
在一种可能的实现方式中,所述装置还包括:
获取模块,用于从互联网获取文档集;
分词模块,用于对所述文档进行分词处理,得到所述文档的二元词袋向量;其中,所述二元词袋向量包括多个二元词组对应的特征值,所述二元词组为所述文档中相邻的词组成的词组;
计算模块还用于使用TF-IDF算法计算所述文档的二元词袋向量对应的二元词组在所述文档中的权重;
维度压缩模块,用于根据所述权重和Murmur哈希算法,对所述文档的二元词袋向量进行维度压缩,得到所述文档二元词袋向量。
在一种可能的实现方式中,所述计算模块用于根据所述二元词组在所述二元词组所在的文档中出现的次数和所述二元词组所在的文档中二元词组的数量,计算所述二元词组在所述二元词组所在的文档中出现的频率;
根据包括所述二元词组的文档数量和多个文档的总数量,计算所述二元词组的逆向文件频率;
根据所述二元词组在所述二元词组所在的文档中出现的频率和所述二元词组的逆向文件频率,计算所述二元词组在所述文档中的权重。
在一种可能的实现方式中,所述生成模块用于针对所述实体树中的每个节点,从所述目标文档的多个段落中确定所述节点对应的实体一致的目标实体;其中,所述实体为所述第一实体或所述第二实体,所述目标实体所在的句子包括的实体为所述节点对应的实体的关联共现实体;
根据关键词,从所述关联共现实体中确定所述节点对应的目标关联共现实体,所述关键词是通过所述问题文本确定的;
将所述目标关联共现实体作为所述节点的子节点,得到所述实体树。
在一种可能的实现方式中,所述生成模块用于针对所述实体树中的每个节点,根据最大公共子序列的模糊匹配算法,从所述目标文档的多个段落中确定所述节点对应的实体一致的目标实体;其中,所述实体为所述第一实体或所述第二实体;
根据最大公共子序列的模糊匹配算法,计算所述节点对应的实体和所述目标实体所在的目标句子与所述问题文本的匹配度;
根据目标关键词,从所述匹配度大于预设阈值的目标句子中,确定与所述节点对应的实体的关联共现实体;所述关键词是通过所述问题文本确定的;
将所述关联共现实体作为所述节点的子节点,得到所述实体树。
本申请实施例提供的面向开放域问答的段落选择装置,通过将海量文本进行筛选,确定目标文档。基于目标文档中的第一实体和问题文本中的第二实体构建实体树,从而可以基于实体树对第一实体所在的节点关联的段落进行精准排序,进而能够精准快速地获取问题对应的答案信息。
本申请实施例提供的面向开放域问答的段落选择装置能够执行图1所示的实施例中的方法步骤,并达到相同的技术效果,为避免重复,在此不再详细赘述。
下面介绍本申请实施例提供的一种计算机设备。
图3是本申请实施例提供的一种计算机设备的结构示意图。如图3所示,本申请实施例提供的计算机设备可用于实现上述方法实施例中描述的文本处理模型训练方法或语音文本处理方法。
计算机设备可以包括处理器301以及存储有计算机程序指令的存储器302。
具体地,上述处理器301可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器302可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器302可在综合网关容灾设备的内部或外部。在特定实施例中,存储器302是非易失性固态存储器。
存储器可包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本申请中的方法所描述的操作。
处理器301通过读取并执行存储器302中存储的计算机程序指令,以实现上述实施例中的任意一种方法。
在一个示例中,计算机设备还可包括通信接口303和总线310。其中,如图3所示,处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。
通信接口303,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线310包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线310可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,结合上述实施例,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种方法。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本申请的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (8)

1.一种面向开放域问答的段落选择方法,其特征在于,所述方法包括:
获取问题文本的问题二元词袋向量;
计算预先存储的文档集中每个文档的文档二元词袋向量和所述问题二元词袋向量之间的相似度;
根据所述相似度,从所述多个文档集中确定至少一个目标文档,其中,所述目标文档的文档二元词袋向量和所述问题二元词袋向量之间的相似度大于预设相似度阈值;其中,所述目标文档包括多个第一实体;
识别所述问题文本中的第二实体;
利用基于最大公共子序列的模糊匹配算法,根据所述第一实体和所述第二实体生成实体树;其中,所述第二实体为所述实体树的根节点,所述第一实体为所述实体树的子节点,所述第一实体所在的节点关联所述第一实体所在的段落;
根据所述实体树中每个子节点关联的段落以及所述实体树中每个子节点在所述实体树的层数,对所述每个子节点关联的段落进行排序;
将排序后的段落与所述问题文本关联输入至阅读器,获取所述问题文本对应的答案信息。
2.根据权利要求1所述的方法,其特征在于,所述计算所述文档二元词袋向量和所述问题二元词袋向量之间的相似度,包括:
根据位置敏感哈希算法,随机确定超平面;
分别将所述文档二元词袋向量和所述问题二元词袋向量在所述超平面进行投影运算,得到所述文档二元词袋向量对应的第一投影向量和所述问题二元词袋向量对应的第二投影向量;
根据所述第一投影向量和所述第二投影向量,计算所述文档二元词袋向量和问题二元词袋向量之间的相似度。
3.根据权利要求1所述的方法,其特征在于,在所述获取问题文本的问题二元词袋向量之前,所述方法还包括:
从互联网获取所述文档集;
对所述文档集中的文档进行分词处理,得到所述文档的二元词袋向量;其中,所述二元词袋向量包括多个二元词组对应的特征值,所述二元词组为所述文档中相邻的词组成的词组;
使用TF-IDF算法计算所述文档的二元词袋向量对应的二元词组在所述文档中的权重;
根据所述权重和Murmur哈希算法,对所述文档的二元词袋向量进行维度压缩,得到所述文档二元词袋向量。
4.根据权利要求3所述的方法,其特征在于,所述使用TF-IDF算法计算所述文档的二元词袋向量对应的二元词组在所述文档中的权重,包括:
根据所述二元词组在所述二元词组所在的文档中出现的次数和所述二元词组所在的文档中二元词组的数量,计算所述二元词组在所述二元词组所在的文档中出现的频率;
根据包括所述二元词组的文档数量和多个文档的总数量,计算所述二元词组的逆向文件频率;
根据所述二元词组在所述二元词组所在的文档中出现的频率和所述二元词组的逆向文件频率,计算所述二元词组在所述文档中的权重。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第一实体和所述第二实体生成实体树,包括:
针对所述实体树中的每个节点,根据最大公共子序列的模糊匹配算法,从所述目标文档的多个段落中确定所述节点对应的实体一致的目标实体;其中,所述实体为所述第一实体或所述第二实体;
根据最大公共子序列的模糊匹配算法,计算所述节点对应的实体和所述目标实体所在的目标句子与所述问题文本的匹配度;
根据目标关键词,从所述匹配度大于预设阈值的目标句子中,确定与所述节点对应的实体的关联共现实体;其中,所述关键词是通过所述问题文本确定的;
将所述关联共现实体作为所述节点的子节点,得到所述实体树。
6.一种面向开放域问答的段落选择装置,其特征在于,包括:
向量获取模块,用于获取问题文本的问题二元词袋向量;
计算模块,用于计算预先存储的文档集中每个文档的文档二元词袋向量和所述问题二元词袋向量之间的相似度;
文档选择模块,用于根据所述相似度,从所述多个文档集中确定至少一个目标文档,其中,所述目标文档的文档二元词袋向量和所述问题二元词袋向量之间的相似度大于预设相似度阈值;其中,所述目标文档包括多个第一实体;
识别模块,用于识别所述问题文本中的第二实体;
生成模块,用于利用基于最大公共子序列的模糊匹配算法,根据所述第一实体和所述第二实体生成实体树;其中,所述第二实体为所述实体树的根节点,所述第一实体为所述实体树的子节点,所述第一实体所在的节点关联所述第一实体所在的段落;
排序模块,用于根据所述实体树中每个子节点关联的段落以及所述实体树中每个子节点在所述实体树的层数,对所述每个子节点关联的段落进行排序;
问题回答模块,用于将排序后的段落与所述问题文本关联输入至阅读器,获取所述问题文本对应的答案信息。
7.一种计算机设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,计算机程序被所述处理器执行时实现如权利要求1-5中任一项所述的方法。
8.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有指令,当所述指令在计算机上运行时,使得所述计算机执行时实现如权利要求1-5中任一项所述的方法。
CN202111177010.9A 2021-10-09 2021-10-09 面向开放域问答的段落选择方法、装置、设备及存储介质 Pending CN113868379A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111177010.9A CN113868379A (zh) 2021-10-09 2021-10-09 面向开放域问答的段落选择方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111177010.9A CN113868379A (zh) 2021-10-09 2021-10-09 面向开放域问答的段落选择方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113868379A true CN113868379A (zh) 2021-12-31

Family

ID=79002354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111177010.9A Pending CN113868379A (zh) 2021-10-09 2021-10-09 面向开放域问答的段落选择方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113868379A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108128A (zh) * 2023-04-13 2023-05-12 华南师范大学 一种开放域问答系统及答案预测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108128A (zh) * 2023-04-13 2023-05-12 华南师范大学 一种开放域问答系统及答案预测方法
CN116108128B (zh) * 2023-04-13 2023-09-05 华南师范大学 一种开放域问答系统及答案预测方法

Similar Documents

Publication Publication Date Title
Fang et al. Entity disambiguation by knowledge and text jointly embedding
WO2019184217A1 (zh) 热点事件分类方法、装置及存储介质
CN110705301B (zh) 实体关系抽取方法及装置、存储介质、电子设备
WO2019084867A1 (zh) 自动回答方法、装置、存储介质及电子设备
CN110276071B (zh) 一种文本匹配方法、装置、计算机设备及存储介质
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN113407814A (zh) 文本搜索方法、装置、可读介质及电子设备
KR20230115964A (ko) 지식 그래프 생성 방법 및 장치
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
CN113868379A (zh) 面向开放域问答的段落选择方法、装置、设备及存储介质
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
CN115017870A (zh) 一种闭环的话术扩写方法、装置、计算机设备及存储介质
CN116029280A (zh) 一种文档关键信息抽取方法、装置、计算设备和存储介质
CN117195829A (zh) 文本标注方法、文本标注装置及电子设备
CN116578700A (zh) 日志分类方法、日志分类装置、设备及介质
CN114996455A (zh) 一种基于双知识图谱的新闻标题短文本分类方法
CN111401070B (zh) 词义相似度确定方法及装置、电子设备及存储介质
CN114547233A (zh) 数据查重方法、装置及电子设备
CN114036283A (zh) 一种文本匹配的方法、装置、设备和可读存储介质
CN114239606A (zh) 一种信息处理方法、装置、设备及计算机存储介质
CN111368553A (zh) 智能词云图数据处理方法、装置、设备及存储介质
Chien et al. Semantic tagging of mathematical expressions
CN111428005A (zh) 标准问答对确定方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination