CN111241848B - 一种基于机器学习的文章阅读理解答案检索方法及装置 - Google Patents
一种基于机器学习的文章阅读理解答案检索方法及装置 Download PDFInfo
- Publication number
- CN111241848B CN111241848B CN202010044242.6A CN202010044242A CN111241848B CN 111241848 B CN111241848 B CN 111241848B CN 202010044242 A CN202010044242 A CN 202010044242A CN 111241848 B CN111241848 B CN 111241848B
- Authority
- CN
- China
- Prior art keywords
- similarity
- sentence
- core word
- word
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于机器学习的文章阅读理解答案检索系统及装置,通过根据语义规则提取文章中不同语句和问题语句的关键词,获得不同语句对应的核心词和问题核心词;根据预训练语句模型向量化语句的核心词和所述问题核心词,获得语句的核心词向量和所述问题核心词向量;根据余弦距离计算所述问题核心词向量与不同语句的核心词向量的相似度,获得不同语句的相似度;判断不同语句相似度的大小;将相似度大的语句作为训练语料输入循环神经网络和多层感知机合并的神经网络训练,获得答案检索神经网络模型。解决了现有技术中存在人工标注语料的技术问题,采用定规则产生机器标注,实现准确率适中同时无需人工标注,节省成本的技术效果。
Description
技术领域
本说明书实施例涉及计算机技术领域,尤其涉及一种基于机器学习的文章阅读理解答案检索方法及装置。
背景技术
目前文章内问答这个领域主要有两种技术,分别是搜索引擎和基于深度学习的监督学习,其中搜索引擎是基于关键字检索,查全率高,但查准率低,检索结果较多与所需的问题答案不相关,需要辨别后使用。基于深度学习的监督学习可以在大量的语料训练后达到一个较高的准确性,但标注语料的成本很高。
但本申请发明人在实现本申请实施例中发明技术方案的过程中,发现上述技术至少存在如下技术问题:
现有技术中答案检索系统准确率高,但存在标注语料成本高的技术问题。
发明内容
本说明书实施例提供及一种基于机器学习的文章阅读理解答案检索系统及装置,解决了现有技术中答案检索系统准确率高,但存在标注语料成本高的技术问题,达到了省去人工标注的过程,通过一定规则产生机器标注,实现准确率适中同时无需人工标注,节省成本的技术效果。
鉴于上述问题,提出了本申请实施例以便提供一种基于机器学习的文章阅读理解答案检索系统及装置。
第一方面,本说明书实施例提供一种基于机器学习的文章阅读理解答案检索系统,所述系统包括:根据语义规则提取文章中第一语句、第二语句和问题语句的关键词,获得第一核心词、第二核心词和问题核心词,其中,所述第一核心词与第二核心词不同;根据预训练语句模型向量化表示所述第一核心词、所述第二核心词和所述问题核心词,获得所述第一核心词向量、所述第二核心词向量和所述问题核心词向量;根据余弦距离计算所述问题核心词向量与所述第一核心词向量、所述第二核心词向量的相似度,获得第一相似度和第二相似度;判断所述第一相似度和所述第二相似度的大小;当所述第一相似度大于所述第二相似度时,将所述第一相似度对应的第一语句作为训练语料输入循环神经网络和多层感知机合并的神经网络训练,获得答案检索神经网络模型。
优选地,所述系统还包括:根据文本分类模型对所述文章中的复杂句的子句分类,获得第一类型子句与第二类型子句;对所述第一类型子句与所述第二类型子句设置权重值,确定第一权重值与第二权重值,其中,所述第一权重值与所述第二权重值不同;根据语义规则与预训练语句模型确定所述第一类型子句与所述第二类型子句的第三核心词向量与第四核心词向量;根据所述第一权重值与所述第二权重值计算所述第三核心词向量与所述第四核心词向量的加权求和,获得第一加权值与第二加权值;根据所述余弦距离计算所述问题核心词向量与所述第三核心词向量与所述第四核心词向量的相似度,获得第三相似度和第四相似度;根据所述第一加权值与所述第二加权值和所述第三相似度与所述第四相似度线性求和的得分对所述第三相似度和所述第四相似度按相似度大小排序,其中,当所述第三相似度大于所述第四相似度时,所述第三相似度对应的第一类型子句为答案检索神经网络模型的输出结果。
优选地,所述根据语义规则提取文章中第一语句、第二语句和问题语句的核心词,获得第一核心词、第二核心词和问题核心词,包括:提取所述第一语句、所述第二语句和所述问题语句的关键词和辅助词,获得第一关键词、第二关键词、问题关键词、第一辅助词、第二辅助词和问题辅助词;根据所述第一语句、所述第二语句与所述问题语句的关键词和辅助词分别计算所述第一语句、所述第二语句与所述问题语句的公共词和差异词,获得多个的第一公共词、第一差异词、第二公共词和第二差异词;对比所述第一公共词与所述第一差异词,对比所述第二公共词与第二差异词,获得第一核心词、所述第二核心词和所述问题核心词。
优选地,所述获得第一相似度和第二相似度,还包括:对比所述第一语句的多个第一差异词的相似度,其中,当超过两个的所述第一差异词的相似度高于第一预定阈值时,合并超过两个的所述第一差异词为第三公共词;对比所述第二语句的多个第二差异词的相似度,其中,当超过两个的所述第二差异词的相似度高于第一预定阈值时,合并超过两个的所述第二差异词为第四公共词;根据预训练语句模型合并计算所述第一公共词与所述第三公共词和所述第二公共词与第四公共词获得所述第一合并语句向量和第二合并语句向量;计算所述问题核心词向量与所述第一合并语句向量、所述第二合并语句向量的相似度,获得第一相似度和第二相似度。
第二方面,本说明书实施例提供一种基于机器学习的文章阅读理解答案检索装置,所述装置包括:
第一获得单元,用于根据语义规则提取文章中第一语句、第二语句和问题语句的关键词,获得第一核心词、第二核心词和问题核心词,其中,所述第一核心词与第二核心词不同;
第二获得单元,用于根据预训练语句模型向量化表示所述第一核心词、所述第二核心词和所述问题核心词,获得所述第一核心词向量、所述第二核心词向量和所述问题核心词向量;
第三获得单元,用于根据余弦距离计算所述问题核心词向量与所述第一核心词向量、所述第二核心词向量的相似度,获得第一相似度和第二相似度;
第一判断单元,用于判断所述第一相似度和所述第二相似度的大小;
第四获得单元,用于当所述第一相似度大于所述第二相似度时,将所述第一相似度对应的第一语句作为训练语料输入循环神经网络和多层感知机合并的神经网络训练,获得答案检索神经网络模型。
优选地,所述装置还包括:
第五获得单元,用于根据文本分类模型对所述文章中的复杂句的子句分类,获得第一类型子句与第二类型子句;
第一确定单元,用于对所述第一类型子句与所述第二类型子句设置权重值,确定第一权重值与第二权重值,其中,所述第一权重值与所述第二权重值不同;
第二确定单元,用于根据语义规则与预训练语句模型确定所述第一类型子句与所述第二类型子句的第三核心词向量与第四核心词向量;
第六获得单元,用于根据所述第一权重值与所述第二权重值计算所述第三核心词向量与所述第四核心词向量的加权求和,获得第一加权值与第二加权值;
第七获得单元,用于根据所述余弦距离计算所述问题核心词向量与所述第三核心词向量与所述第四核心词向量的相似度,获得第三相似度和第四相似度;
第一执行单元,用于根据所述第一加权值与所述第二加权值和所述第三相似度与所述第四相似度线性求和的得分对所述第三相似度和所述第四相似度按相似度大小排序,其中,当所述第三相似度大于所述第四相似度时,所述第三相似度对应的第一类型子句为答案检索神经网络模型的输出结果。
优选地,所述第一获得单元中根据语义规则提取文章中第一语句、第二语句和问题语句的核心词,获得第一核心词、第二核心词和问题核心词,包括:
第八获得单元,用于提取所述第一语句、所述第二语句和所述问题语句的关键词和辅助词,获得第一关键词、第二关键词、问题关键词、第一辅助词、第二辅助词和问题辅助词;
第九获得单元,用于根据所述第一语句、所述第二语句与所述问题语句的关键词和辅助词分别计算所述第一语句、所述第二语句与所述问题语句的公共词和差异词,获得多个的第一公共词、第一差异词、第二公共词和第二差异词;
第十获得单元,用于对比所述第一公共词与所述第一差异词,对比所述第二公共词与第二差异词,获得第一核心词、所述第二核心词和所述问题核心词。
优选地,所述第三获得单元中获得第一相似度和第二相似度,还包括:
第二执行单元,用于对比所述第一语句的多个第一差异词的相似度,其中,当超过两个的所述第一差异词的相似度高于第一预定阈值时,合并超过两个的所述第一差异词为第三公共词;
第三执行单元,用于对比所述第二语句的多个第二差异词的相似度,其中,当超过两个的所述第二差异词的相似度高于第一预定阈值时,合并超过两个的所述第二差异词为第四公共词;
第十一获得单元,用于根据预训练语句模型合并计算所述第一公共词与所述第三公共词和所述第二公共词与第四公共词获得所述第一合并语句向量和第二合并语句向量;
第十二获得单元,用于计算所述问题核心词向量与所述第一合并语句向量、所述第二合并语句向量的相似度,获得第一相似度和第二相似度。
第三方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述系统的步骤。
第四方面,本说明书实施例提供一种基于机器学习的文章阅读理解答案检索装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行上述任一项所述系统的步骤。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本说明书实施例提供的基于机器学习的文章阅读理解答案检索系统及装置,通过根据语义规则提取文章中第一语句、第二语句和问题语句的关键词,获得第一核心词、第二核心词和问题核心词,其中,所述第一核心词与第二核心词不同;根据预训练语句模型向量化表示所述第一核心词、所述第二核心词和所述问题核心词,获得所述第一核心词向量、所述第二核心词向量和所述问题核心词向量;根据余弦距离计算所述问题核心词向量与所述第一核心词向量、所述第二核心词向量的相似度,获得第一相似度和第二相似度;判断所述第一相似度和所述第二相似度的大小;当所述第一相似度大于所述第二相似度时,将所述第一相似度对应的第一语句作为训练语料输入循环神经网络和多层感知机合并的神经网络训练,获得答案检索神经网络模型。通过语义提取规则提取问题语句与文章中内容语句的核心词,并使用预训练模型向量化核心词用来计算问题与文章内容语句的相似度,对比相似度大小,选择相似度大的语句作为检索结果,解决了答案检索系统准确率高,但存在标注语料成本高的技术问题,达到了省去人工标注的过程,通过一定规则产生机器标注,实现准确率适中同时无需人工标注,节省成本的技术效果。
附图说明
图1为本说明书实施例中提供的一种基于机器学习的文章阅读理解答案检索系统流程图;
图2为本说明书实施例中提供的一种基于机器学习的文章阅读理解答案检索装置示意图;
图3为本说明书实施例中提供的另一种基于机器学习的文章阅读理解答案检索装置示意图。
附图标号说明:总线300,接收器301,处理器302,发送器303,存储器304,总线接口306。
具体实施方式
本发明实施例提供了一种基于机器学习的文章阅读理解答案检索系统及装置,用于解决了现有技术中答案检索系统准确率高,但存在标注语料成本高的技术问题,本发明提供的技术方案总体思路如下:
在本发明实施例的技术方案中,通过根据语义规则提取文章中第一语句、第二语句和问题语句的关键词,获得第一核心词、第二核心词和问题核心词,其中,所述第一核心词与第二核心词不同;根据预训练语句模型向量化表示所述第一核心词、所述第二核心词和所述问题核心词,获得所述第一核心词向量、所述第二核心词向量和所述问题核心词向量;根据余弦距离计算所述问题核心词向量与所述第一核心词向量、所述第二核心词向量的相似度,获得第一相似度和第二相似度;判断所述第一相似度和所述第二相似度的大小;当所述第一相似度大于所述第二相似度时,将所述第一相似度对应的第一语句作为训练语料输入循环神经网络和多层感知机合并的神经网络训练,获得答案检索神经网络模型。解决了答案检索系统准确率高,但存在标注语料成本高的技术问题,达到了省去人工标注的过程,通过一定规则产生机器标注,实现准确率适中同时无需人工标注,节省成本的技术效果。
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。
在本文公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本文公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
实施例一
图1为本发明实施例中一种基于机器学习的文章阅读理解答案检索系统的流程示意图。如图1所示。所述系统应用于一基于机器学习的文章阅读理解答案检索设备,所述基于机器学习的文章阅读理解答案检索处理设备包括一输入设备和一显示设备,所述输入设备内部具有文字输入模块、文字处理模块、存储器、信号输入模块,所述输入设备可以与键盘等产生输出信号的设备进行连接,所述显示设备与所述输入设备连接,能够将所述键盘等输入设备处理的文字显示出来的显示屏等设备。该系统包括步骤S101-S105。
S101:根据语义规则提取文章中第一语句、第二语句和问题语句的关键词,获得第一核心词、第二核心词和问题核心词,其中,所述第一核心词与第二核心词不同;
S102:根据预训练语句模型向量化表示所述第一核心词、所述第二核心词和所述问题核心词,获得所述第一核心词向量、所述第二核心词向量和所述问题核心词向量;
进一步的,所述根据语义规则提取文章中第一语句、第二语句和问题语句的核心词,获得第一核心词、第二核心词和问题核心词,包括:提取所述第一语句、所述第二语句和所述问题语句的关键词和辅助词,获得第一关键词、第二关键词、问题关键词、第一辅助词、第二辅助词和问题辅助词;根据所述第一语句、所述第二语句与所述问题语句的关键词和辅助词分别计算所述第一语句、所述第二语句与所述问题语句的公共词和差异词,获得多个的第一公共词、第一差异词、第二公共词和第二差异词;对比所述第一公共词与所述第一差异词,对比所述第二公共词与第二差异词,获得第一核心词、所述第二核心词和所述问题核心词。
具体而言,本申请实施例提供了一种基于机器学习的文章阅读理解答案检索系统,如图1,该系统是通过语义提取规则提取问题语句与文章中内容语句的核心词,并使用预训练模型向量化核心词用来计算问题与文章内容语句的相似度,对比相似度大小,选择相似度大的语句作为检索结果,此过程无需人工标注语料,准确率可达80%以上。为达到上述技术效果,本申请实施例采用一种无监督方法,通过根据语义规则提取文章中所述第一语句、所述第二语句和所述问题语句的关键词和辅助词,其中,所述第一语句与第二语句并不具体指某一语句,泛指文章中的每条语句,第一语句与第二语句只是便于区分不同的语句,从而获得所述第一语句的第一关键词和第一辅助词,获得所述第二语句的第二关键词和第二辅助词,以及问题语句的问题关键词和问题辅助词。根据所述第一语句、所述第二语句和所述问题语句的关键词和辅助词计算所述第一语句、所述第二语句和所述问题语句的公共词和差异词,获得所述第一语句与所述问题语句的多个第一公共词和第一差异词,所述第二语句与所述问题语句的多个第二公共词和第二差异词,其中,公共词和差异词的个数分别超过两个。对比所述第一公共词与所述第一差异词,确定所述第一语句的第一核心词,对比所述第二公共词与第二差异词,获得所述第二语句的所述第二核心词,根据所述问题语句的关键词和辅助词确定所述问题核心词,其中,所述第一语句的所述第一核心词与所述第二语句的第二核心词不同。根据预训练语句模型对所述第一核心词、所述第二核心词和所述问题核心词进行向量化表示,获得所述第一核心词向量、所述第二核心词向量和所述问题核心词向量。
S103:根据余弦距离计算所述问题核心词向量与所述第一核心词向量、所述第二核心词向量的相似度,获得第一相似度和第二相似度;
进一步的,所述获得第一相似度和第二相似度,还包括:对比所述第一语句的多个第一差异词的相似度,其中,当超过两个的所述第一差异词的相似度高于第一预定阈值时,合并超过两个的所述第一差异词为第三公共词;对比所述第二语句的多个第二差异词的相似度,其中,当超过两个的所述第二差异词的相似度高于第一预定阈值时,合并超过两个的所述第二差异词为第四公共词;根据预训练语句模型合并计算所述第一公共词与所述第三公共词和所述第二公共词与第四公共词获得所述第一合并语句向量和第二合并语句向量;计算所述问题核心词向量与所述第一合并语句向量、所述第二合并语句向量的相似度,获得第一相似度和第二相似度。
具体而言,通过余弦距离计算所述问题核心词向量与所述第一核心词向量获得第一相似度,计算所述问题核心词向量与所述第二核心词向量的相似度获得第二相似度。换言之,对比所述第一语句的多个第一差异词的相似度,其中,当超过两个的所述第一差异词的相似度高于第一预定阈值时,合并超过两个的所述第一差异词为第三公共词;对比所述第二语句的多个第二差异词的相似度,其中,当超过两个的所述第二差异词的相似度高于第一预定阈值时,合并超过两个的所述第二差异词为第四公共词,即合并所述第一语句中相似的第一差异词获得第三公共词,合并所述第二语句中相似的第二差异词获得第四公共词。根据预训练语句模型合并计算所述第一公共词与所述第三公共词获得所述第一合并语句向量,合并计算所述第二公共词与第四公共词获得所述第二合并语句向量。计算所述问题核心词向量与所述第一合并语句向量、所述第二合并语句向量的相似度,获得第一相似度和第二相似度。
S104:判断所述第一相似度和所述第二相似度的大小;
S105:当所述第一相似度大于所述第二相似度时,将所述第一相似度对应的第一语句作为训练语料输入循环神经网络和多层感知机合并的神经网络训练,获得答案检索神经网络模型。
具体而言,通过步骤S103获得的第一相似度和第二相似度,判断所述第一相似度和所述第二相似度的大小,当所述第一相似度大于所述第二相似度时,判断各条语句中合并公共词的数量,即判断所述第三公共词与所述第四公共词的数量多少,当所述第三公共词比所述第四公共词数量多时,对相似度和公共词设置不同的权重值,对所述第三公共词与所述第四公共词和所述第三公共词和所述第四公共词线性求和获得第一相似度的第一得分和第二相似度的第二得分,其中,当所述第一得分高于所述第二得分时,确定第一合并语句向量对应的第一合并语句,对所述第一合并语句执行步骤S101到步骤S104,确定出第N个第N合并语句,其中执行上述步骤后,第N合并语句无法继续选出得分最高的合并语句时结束,将产生的N个合并语句作为训练语料,即所述第一语句作为训练语料,输入循环神经网络和多层感知机合并统一的神经网络训练,获得答案检索神经网络模型,能够通过一定规则产生机器标注,达到省去人工标注语料的过程,准确率适中且节省成本的技术效果
进一步的,所述系统还包括:根据文本分类模型对所述文章中的复杂句的子句分类,获得第一类型子句与第二类型子句;对所述第一类型子句与所述第二类型子句设置权重值,确定第一权重值与第二权重值,其中,所述第一权重值与所述第二权重值不同;根据语义规则与预训练语句模型确定所述第一类型子句与所述第二类型子句的第三核心词向量与第四核心词向量;根据所述第一权重值与所述第二权重值计算所述第三核心词向量与所述第四核心词向量的加权求和,获得第一加权值与第二加权值;根据所述余弦距离计算所述问题核心词向量与所述第三核心词向量与所述第四核心词向量的相似度,获得第三相似度和第四相似度;根据所述第一加权值与所述第二加权值和所述第三相似度与所述第四相似度线性求和的得分对所述第三相似度和所述第四相似度按相似度大小排序,其中,当所述第三相似度大于所述第四相似度时,所述第三相似度对应的第一类型子句为答案检索神经网络模型的输出结果。
具体而言,针对文章中的复杂句检索答案,其步骤与上述步骤基本相同,只需先根据文本分类模型从语法、内容角度对所述文章中的复杂句的子句分类,获得第一类型子句与第二类型子句。对不同类型的子句赋予有差异的权重,即所述第一类型子句对应的第一权重值,所述第二类型子句对应的第二权重值。根据语义规则确定所述第一类型子句与所述第二类型子句的第三核心词与第四核心词,并根据预训练语句模型向量化所述第三核心词与所述第四核心词,获得第三核心词向量与第四核心词向量。根据所述第一权重值与所述第二权重值计算所述第三核心词向量与所述第四核心词向量的加权求和,获得第一加权值与第二加权值。根据所述第一加权值与所述第二加权值和所述第三相似度与所述第四相似度线性求和计算获得的得分对所述第三相似度和所述第四相似度按相似度大小排序,即当所述第三相似度的得分大于所述第四相似度的得分时,所述第三相似度对应的第一类型子句为答案检索神经网络模型的输出结果。
实施例二
基于与前述实施例中一种基于机器学习的文章阅读理解答案检索系统同样的发明构思,本发明还提供一种基于机器学习的文章阅读理解答案检索装置,如图2所示,包括:
第一获得单元11,用于根据语义规则提取文章中第一语句、第二语句和问题语句的关键词,获得第一核心词、第二核心词和问题核心词,其中,所述第一核心词与第二核心词不同;
第二获得单元12,用于根据预训练语句模型向量化表示所述第一核心词、所述第二核心词和所述问题核心词,获得所述第一核心词向量、所述第二核心词向量和所述问题核心词向量;
第三获得单元13,用于根据余弦距离计算所述问题核心词向量与所述第一核心词向量、所述第二核心词向量的相似度,获得第一相似度和第二相似度;
第一判断单元14,用于判断所述第一相似度和所述第二相似度的大小;
第四获得单元15,用于当所述第一相似度大于所述第二相似度时,将所述第一相似度对应的第一语句作为训练语料输入循环神经网络和多层感知机合并的神经网络训练,获得答案检索神经网络模型。
进一步的,所述装置还包括:
第五获得单元,用于根据文本分类模型对所述文章中的复杂句的子句分类,获得第一类型子句与第二类型子句;
第一确定单元,用于对所述第一类型子句与所述第二类型子句设置权重值,确定第一权重值与第二权重值,其中,所述第一权重值与所述第二权重值不同;
第二确定单元,用于根据语义规则与预训练语句模型确定所述第一类型子句与所述第二类型子句的第三核心词向量与第四核心词向量;
第六获得单元,用于根据所述第一权重值与所述第二权重值计算所述第三核心词向量与所述第四核心词向量的加权求和,获得第一加权值与第二加权值;
第七获得单元,用于根据所述余弦距离计算所述问题核心词向量与所述第三核心词向量与所述第四核心词向量的相似度,获得第三相似度和第四相似度;
第一执行单元,用于根据所述第一加权值与所述第二加权值和所述第三相似度与所述第四相似度线性求和的得分对所述第三相似度和所述第四相似度按相似度大小排序,其中,当所述第三相似度大于所述第四相似度时,所述第三相似度对应的第一类型子句为答案检索神经网络模型的输出结果。
进一步的,所述第一获得单元中根据语义规则提取文章中第一语句、第二语句和问题语句的核心词,获得第一核心词、第二核心词和问题核心词,包括:
第八获得单元,用于提取所述第一语句、所述第二语句和所述问题语句的关键词和辅助词,获得第一关键词、第二关键词、问题关键词、第一辅助词、第二辅助词和问题辅助词;
第九获得单元,用于根据所述第一语句、所述第二语句与所述问题语句的关键词和辅助词分别计算所述第一语句、所述第二语句与所述问题语句的公共词和差异词,获得多个的第一公共词、第一差异词、第二公共词和第二差异词;
第十获得单元,用于对比所述第一公共词与所述第一差异词,对比所述第二公共词与第二差异词,获得第一核心词、所述第二核心词和所述问题核心词。
进一步的,所述第三获得单元中获得第一相似度和第二相似度,还包括:
第二执行单元,用于对比所述第一语句的多个第一差异词的相似度,其中,当超过两个的所述第一差异词的相似度高于第一预定阈值时,合并超过两个的所述第一差异词为第三公共词;
第三执行单元,用于对比所述第二语句的多个第二差异词的相似度,其中,当超过两个的所述第二差异词的相似度高于第一预定阈值时,合并超过两个的所述第二差异词为第四公共词;
第十一获得单元,用于根据预训练语句模型合并计算所述第一公共词与所述第三公共词和所述第二公共词与第四公共词获得所述第一合并语句向量和第二合并语句向量;
第十二获得单元,用于计算所述问题核心词向量与所述第一合并语句向量、所述第二合并语句向量的相似度,获得第一相似度和第二相似度。
前述图1实施例一中的一种基于机器学习的文章阅读理解答案检索系统的各种变化方式和具体实例同样适用于本实施例的一种基于机器学习的文章阅读理解答案检索装置,通过前述对一种基于机器学习的文章阅读理解答案检索系统的详细描述,本领域技术人员可以清楚的知道本实施例中一种基于机器学习的文章阅读理解答案检索装置的实施系统,所以为了说明书的简洁,在此不再详述。
实施例三
基于与前述实施例一中一种基于机器学习的文章阅读理解答案检索系统同样的发明构思,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文所述一种基于机器学习的文章阅读理解答案检索系统的任一系统的步骤。
其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本说明书实施例提供的基于机器学习的文章阅读理解答案检索系统及装置,通过根据语义规则提取文章中第一语句、第二语句和问题语句的关键词,获得第一核心词、第二核心词和问题核心词,其中,所述第一核心词与第二核心词不同;根据预训练语句模型向量化表示所述第一核心词、所述第二核心词和所述问题核心词,获得所述第一核心词向量、所述第二核心词向量和所述问题核心词向量;根据余弦距离计算所述问题核心词向量与所述第一核心词向量、所述第二核心词向量的相似度,获得第一相似度和第二相似度;判断所述第一相似度和所述第二相似度的大小;当所述第一相似度大于所述第二相似度时,将所述第一相似度对应的第一语句作为训练语料输入循环神经网络和多层感知机合并的神经网络训练,获得答案检索神经网络模型。通过语义提取规则提取问题语句与文章中内容语句的核心词,并使用预训练模型向量化核心词用来计算问题与文章内容语句的相似度,对比相似度大小,选择相似度大的语句作为检索结果,解决了答案检索系统准确率高,但存在标注语料成本高的技术问题,达到了省去人工标注的过程,通过一定规则产生机器标注,实现准确率适中同时无需人工标注,节省成本的技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为系统、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的系统、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本说明书的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。
显然,本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样,倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内,则本说明书也意图包含这些改动和变型在内。
Claims (5)
1.一种基于机器学习的文章阅读理解答案检索方法,其特征在于,所述方法包括:
根据语义规则提取文章中第一语句、第二语句和问题语句的关键词,获得第一核心词、第二核心词和问题核心词,其中,所述第一核心词与第二核心词不同;
根据预训练语句模型向量化表示所述第一核心词、所述第二核心词和所述问题核心词,获得第一核心词向量、第二核心词向量和问题核心词向量;
根据余弦距离计算所述问题核心词向量与所述第一核心词向量、所述第二核心词向量的相似度,获得第一相似度和第二相似度;
判断所述第一相似度和所述第二相似度的大小;
当所述第一相似度大于所述第二相似度时,将所述第一相似度对应的第一语句作为训练语料输入循环神经网络和多层感知机合并的神经网络训练,获得答案检索神经网络模型;
其中,所述根据语义规则提取文章中第一语句、第二语句和问题语句的核心词,获得第一核心词、第二核心词和问题核心词,包括:
提取所述第一语句、所述第二语句和所述问题语句的关键词和辅助词,获得第一关键词、第二关键词、问题关键词、第一辅助词、第二辅助词和问题辅助词;
根据所述第一语句、所述第二语句与所述问题语句的关键词和辅助词分别计算所述第一语句、所述第二语句与所述问题语句的公共词和差异词,获得多个的第一公共词、第一差异词、第二公共词和第二差异词;
对比所述第一公共词与所述第一差异词,对比所述第二公共词与第二差异词,获得所述第一核心词、所述第二核心词和所述问题核心词;
其中,所述获得第一相似度和第二相似度,还包括:
对比所述第一语句的多个第一差异词的相似度,其中,当超过两个的所述第一差异词的相似度高于第一预定阈值时,合并超过两个的所述第一差异词为第三公共词;
对比所述第二语句的多个第二差异词的相似度,其中,当超过两个的所述第二差异词的相似度高于第一预定阈值时,合并超过两个的所述第二差异词为第四公共词;
根据预训练语句模型合并计算所述第一公共词与所述第三公共词和所述第二公共词与第四公共词获得第一合并语句向量和第二合并语句向量;
计算所述问题核心词向量与所述第一合并语句向量、所述第二合并语句向量的相似度,获得第一相似度和第二相似度。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
根据文本分类模型对所述文章中的复杂句的子句分类,获得第一类型子句与第二类型子句;
对所述第一类型子句与所述第二类型子句设置权重值,确定第一权重值与第二权重值,其中,所述第一权重值与所述第二权重值不同;
根据语义规则与预训练语句模型确定所述第一类型子句与所述第二类型子句的第三核心词向量与第四核心词向量;
根据所述第一权重值与所述第二权重值计算所述第三核心词向量与所述第四核心词向量的加权求和,获得第一加权值与第二加权值;
根据所述余弦距离计算所述问题核心词向量与所述第三核心词向量与所述第四核心词向量的相似度,获得第三相似度和第四相似度;
根据所述第一加权值与所述第二加权值和所述第三相似度与所述第四相似度线性求和的得分对所述第三相似度和所述第四相似度按相似度大小排序,其中,当所述第三相似度大于所述第四相似度时,所述第三相似度对应的第一类型子句为答案检索神经网络模型的输出结果。
3.一种基于机器学习的文章阅读理解答案检索装置,其特征在于,所述装置包括:
第一获得单元,用于根据语义规则提取文章中第一语句、第二语句和问题语句的关键词,获得第一核心词、第二核心词和问题核心词,其中,所述第一核心词与第二核心词不同;
第二获得单元,用于根据预训练语句模型向量化表示所述第一核心词、所述第二核心词和所述问题核心词,获得第一核心词向量、第二核心词向量和问题核心词向量;
第三获得单元,用于根据余弦距离计算所述问题核心词向量与所述第一核心词向量、所述第二核心词向量的相似度,获得第一相似度和第二相似度;
第一判断单元,用于判断所述第一相似度和所述第二相似度的大小;
第四获得单元,用于当所述第一相似度大于所述第二相似度时,将所述第一相似度对应的第一语句作为训练语料输入循环神经网络和多层感知机合并的神经网络训练,获得答案检索神经网络模型;
其中,所述第一获得单元中根据语义规则提取文章中第一语句、第二语句和问题语句的核心词,获得第一核心词、第二核心词和问题核心词,包括:
第八获得单元,用于提取所述第一语句、所述第二语句和所述问题语句的关键词和辅助词,获得第一关键词、第二关键词、问题关键词、第一辅助词、第二辅助词和问题辅助词;
第九获得单元,用于根据所述第一语句、所述第二语句与所述问题语句的关键词和辅助词分别计算所述第一语句、所述第二语句与所述问题语句的公共词和差异词,获得多个的第一公共词、第一差异词、第二公共词和第二差异词;
第十获得单元,用于对比所述第一公共词与所述第一差异词,对比所述第二公共词与第二差异词,获得第一核心词、所述第二核心词和所述问题核心词;
其中,所述第三获得单元中获得第一相似度和第二相似度,还包括:
第二执行单元,用于对比所述第一语句的多个第一差异词的相似度,其中,当超过两个的所述第一差异词的相似度高于第一预定阈值时,合并超过两个的所述第一差异词为第三公共词;
第三执行单元,用于对比所述第二语句的多个第二差异词的相似度,其中,当超过两个的所述第二差异词的相似度高于第一预定阈值时,合并超过两个的所述第二差异词为第四公共词;
第十一获得单元,用于根据预训练语句模型合并计算所述第一公共词与所述第三公共词和所述第二公共词与第四公共词获得第一合并语句向量和第二合并语句向量;
第十二获得单元,用于计算所述问题核心词向量与所述第一合并语句向量、所述第二合并语句向量的相似度,获得第一相似度和第二相似度。
4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-2任一项所述方法的步骤。
5.一种基于机器学习的文章阅读理解答案检索装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-2任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010044242.6A CN111241848B (zh) | 2020-01-15 | 2020-01-15 | 一种基于机器学习的文章阅读理解答案检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010044242.6A CN111241848B (zh) | 2020-01-15 | 2020-01-15 | 一种基于机器学习的文章阅读理解答案检索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111241848A CN111241848A (zh) | 2020-06-05 |
CN111241848B true CN111241848B (zh) | 2020-12-01 |
Family
ID=70869002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010044242.6A Active CN111241848B (zh) | 2020-01-15 | 2020-01-15 | 一种基于机器学习的文章阅读理解答案检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241848B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297834B (zh) * | 2021-06-18 | 2024-06-25 | 苏州智汇谷科技服务有限公司 | 基于警情间语义相似度判断串并案的方法及装置 |
CN113987174B (zh) * | 2021-10-22 | 2024-08-23 | 上海携旅信息技术有限公司 | 分类标签的核心语句提取方法、系统、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108345672A (zh) * | 2018-02-09 | 2018-07-31 | 平安科技(深圳)有限公司 | 智能应答方法、电子装置及存储介质 |
JP2019020893A (ja) * | 2017-07-13 | 2019-02-07 | 国立研究開発法人情報通信研究機構 | ノン・ファクトイド型質問応答装置 |
CN109947928A (zh) * | 2019-04-16 | 2019-06-28 | 上海海事大学 | 一种检索式人工智能问答机器人开发方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049433B (zh) * | 2012-12-11 | 2015-10-28 | 微梦创科网络科技(中国)有限公司 | 自动问答方法、自动问答系统及构建问答实例库的方法 |
US10592607B2 (en) * | 2016-06-03 | 2020-03-17 | Microsoft Technology Licensing, Llc | Iterative alternating neural attention for machine reading |
CN108256056A (zh) * | 2018-01-12 | 2018-07-06 | 广州杰赛科技股份有限公司 | 智能问答方法与系统 |
US11256869B2 (en) * | 2018-09-06 | 2022-02-22 | Lg Electronics Inc. | Word vector correction method |
CN110096698B (zh) * | 2019-03-20 | 2020-09-29 | 中国地质大学(武汉) | 一种考虑主题的机器阅读理解模型生成方法与系统 |
CN110390006B (zh) * | 2019-07-23 | 2023-11-10 | 腾讯科技(深圳)有限公司 | 问答语料生成方法、装置和计算机可读存储介质 |
-
2020
- 2020-01-15 CN CN202010044242.6A patent/CN111241848B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019020893A (ja) * | 2017-07-13 | 2019-02-07 | 国立研究開発法人情報通信研究機構 | ノン・ファクトイド型質問応答装置 |
CN108345672A (zh) * | 2018-02-09 | 2018-07-31 | 平安科技(深圳)有限公司 | 智能应答方法、电子装置及存储介质 |
CN109947928A (zh) * | 2019-04-16 | 2019-06-28 | 上海海事大学 | 一种检索式人工智能问答机器人开发方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111241848A (zh) | 2020-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109165291B (zh) | 一种文本匹配方法及电子设备 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN109344399B (zh) | 一种基于堆叠双向lstm神经网络的文本相似度计算方法 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN109472022B (zh) | 基于机器学习的新词识别方法及终端设备 | |
US11893537B2 (en) | Linguistic analysis of seed documents and peer groups | |
CN113011689B (zh) | 软件开发工作量的评估方法、装置及计算设备 | |
CN115203421A (zh) | 一种长文本的标签生成方法、装置、设备及存储介质 | |
CN111241848B (zh) | 一种基于机器学习的文章阅读理解答案检索方法及装置 | |
CN113947084A (zh) | 基于图嵌入的问答知识检索方法、装置及设备 | |
Khomsah et al. | The accuracy comparison between word2vec and FastText on sentiment analysis of Hotel Reviews | |
Anandika et al. | A study on machine learning approaches for named entity recognition | |
CN115935983A (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN111898375B (zh) | 一种基于词向量句子链的文章论点论据自动检测划分方法 | |
CN111191029B (zh) | 基于监督学习和文本分类的ac构建方法 | |
Khamphakdee et al. | A Framework for Constructing Thai Sentiment Corpus using the Cosine Similarity Technique | |
CN108733702B (zh) | 用户查询上下位关系提取的方法、装置、电子设备和介质 | |
CN113988085B (zh) | 文本语义相似度匹配方法、装置、电子设备及存储介质 | |
Shaikh et al. | An intelligent framework for e-recruitment system based on text categorization and semantic analysis | |
CN115906824A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
CN115221298A (zh) | 问答匹配方法、装置、电子设备及存储介质 | |
CN113868424A (zh) | 文本主题的确定方法、装置、计算机设备及存储介质 | |
Povoda et al. | Optimization methods in emotion recognition system | |
CN117217218B (zh) | 科技风险事件相关舆情的情感词典构建方法及装置 | |
CN114741490B (zh) | 一种问题答案选取的方法以及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220516 Address after: Room 408, unit 2, building 15, courtyard 16, Yingcai North Third Street, future science city, Changping District, Beijing 102200 Patentee after: Wenling Technology (Beijing) Co.,Ltd. Address before: Room 1502, Tongfu building, 501 Zhongshan South Road, Qinhuai District, Nanjing, Jiangsu 210006 Patentee before: Jiangsu United Industrial Limited by Share Ltd. |
|
TR01 | Transfer of patent right |