CN114492362B - 一种研报问答生成方法、系统及计算机可读存储介质 - Google Patents
一种研报问答生成方法、系统及计算机可读存储介质 Download PDFInfo
- Publication number
- CN114492362B CN114492362B CN202210380623.0A CN202210380623A CN114492362B CN 114492362 B CN114492362 B CN 114492362B CN 202210380623 A CN202210380623 A CN 202210380623A CN 114492362 B CN114492362 B CN 114492362B
- Authority
- CN
- China
- Prior art keywords
- question
- research
- paragraph
- answer
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及自然语言处理技术领域,其特别涉及一种研报问答生成方法、系统及计算机可读存储介质,一种研报问答生成方法,包括以下步骤:提供研报文本,并基于预设知识库以及研报文本生成问题集;对应研报文本各段落召回问题集中的若干个问题,判别问题与各段落的匹配度,对应各段落选择匹配度最高的问题以生成问题‑段落对;基于问题‑段落对从段落中抽取相应的片段生成答案或者根据段落生成各问题对应的答案。本发明提供的一种研报问答生成方法通过自动为每一篇研报生成对应的问题,然后从研报中找到对应的答案,将这些智能提取的信息提供给阅读者,提高信息获取效率。
Description
技术领域
本发明涉及自然语言处理技术领域,其特别涉及一种研报问答生成方法、系统及计算机可读存储介质。
背景技术
专业领域的研究报告简称研报,是人们获取信息的重要来源,如行业发展报告、证券分析报告等。由于研报高度的专业性和严谨性,往往需要使用大量的篇幅对特定行业、领域、事件或者企业等进行深入的分析,这导致人们在阅读研报时,需要花费大量时间从中寻找自己关注的信息,这种信息问题过载导致了低的决策效率。因此,通过自然语言处理技术进行研报的精简化,在获取精准信息的同时提高信息获取效率,对提高工作效率是非常必要的。
传统的研报智能阅读技术往往采取简单的信息整理或搜集,例如:对大量研报根据关键词进行分类整理,采用聚类算法进行相关研报的推荐等等。但是,这些简单地以研报为单位进行信息整合的方式并不能有效地对研报内容进行精简化,因此,不能满足人们提高阅读效率的要求,如金融证券分析报告。因此,如何高效从研报获取信息受到越来越多人的关注。这类方法一般先将研报PDF文件解析为文本,然后通过子标题等信息进行信息的筛选与整合,或者通过N-gram 等算法进行基于关键词的检索或聚类。但是,基于子标题或者基于关键词的信息整合方式仍有一定限制,例如:投资者在阅读研报时,如果带有特定的问题,仅仅通过子标题或者关键词往往不能精准地找到答案,因此仍然需要进行通篇阅读才能找到所关心问题的答案。因此,针对长篇研报的智能问答技术是提高研报信息获取的核心技术。
发明内容
为了解决目前研报阅读系统简单的信息检索与整合不足以满足用户提高信息获取效率的问题,本发明提供一种研报问答生成方法、系统及计算机可读存储介质。
本发明为解决上述技术问题,提供如下的技术方案:一种研报问答生成方法,包括以下步骤:
提供研报文本,并基于预设知识库以及研报文本采用命名实体识别和词性标注的方法生成问题集,所述知识库包括实体清单库以及问题模板库;
基于召回模型以及匹配模型,对应研报文本各段落召回问题集中的若干个问题,判别问题与各段落的匹配度,对应各段落选择匹配度最高的问题以生成问题-段落对,或者对应各问题选择匹配度最高的段落以生成问题-段落对;
基于问题-段落对从段落中抽取相应的片段生成答案或者根据段落生成各问题对应的答案;
基于预设知识库以及研报文本采用命名实体识别和词性标注的方法生成问题集的具体步骤为:
识别研报文本中的实体词;
抽取整篇研报文本的关键词;
基于关键词逐个与实体清单库计算两两之间的余弦相似度,取余弦相似度最高的若干个关键词作为研报文本包含的主要板块实体名词;
将对应的实体词以及主要板块实体名词填充到预设的问题模板中生成问题。
优选地,基于预设知识库以及研报文本生成问题集的方法还包括基于提示学习的方法或者基于可控问题生成方法。
优选地,基于预设知识库以及研报文本生成问题集采用基于提示学习的方法的具体步骤为:
预设提示模板,并基于问题模板库以及研报文本将对应的问题模板以及段落填充到提示模板中的对应位置;
基于预训练语言模型,将问题模板中的待填充位置填充为预训练语言模型的掩码标记,通过预训练语言模型进行掩码标记的预测以生成问题。
优选地,知识库中还包含有若干疑问词,基于知识库以及研报文本生成问题集采用基于可控问题生成方法的具体步骤为:
识别研报文本中的实体词以及关键词并作为主控制要素;
将关键词与知识库中的疑问词进行匹配,选择匹配度最高的疑问词作为次控制要素;
采用孟子-T5模型,将主控制要素、次控制要素以及研报文本输入到孟子-T5模型中,并由孟子-T5模型生成问题。
优选地,基于问题-段落对从段落中抽取相应的片段生成答案的具体步骤为:
提供答案生成模型,基于预设数据库对答案生成模型预训练以及精调;
输入段落以及与该段落对应的问题至答案生成模型中以生成答案。
优选地,基于问题-段落对并根据段落生成各问题对应的答案的具体步骤为:
提供答案生成模型,并给定约束强度值;
输入段落以及与该段落对应的问题至答案生成模型中并基于约束强度值进行解码;
以所有解码出的答案文本作为候选集,与对应的问题计算匹配度,取匹配值最高的作为最终答案。
本发明为解决上述技术问题,提供又一技术方案如下:一种研报问答生成系统,包括以下模块:
问题生成模块:提供研报文本,并基于预设知识库以及研报文本采用命名实体识别和词性标注的方法生成问题集,所述知识库包括实体清单库以及问题模板库;
基于预设知识库以及研报文本采用命名实体识别和词性标注的方法生成问题集的具体步骤为:识别研报文本中的实体词;抽取整篇研报文本的关键词;基于关键词逐个与实体清单库计算两两之间的余弦相似度,取余弦相似度最高的若干个关键词作为研报文本包含的主要板块实体名词;将对应的实体词以及主要板块实体名词填充到预设的问题模板中生成问题;
筛选模块:基于召回模型以及匹配模型,对应研报文本各段落召回问题集中的若干个问题,判别问题与各段落的匹配度,对应各段落选择匹配度最高的问题以生成问题-段落对,或者对应各问题选择匹配度最高的段落以生成问题-段落对;
答案生成模块:基于问题-段落对从段落中抽取相应的片段生成答案或者根据段落生成各问题对应的答案。
本发明为解决上述技术问题,提供又一技术方案如下:一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处执行时实现上述所述的研报问答生成方法的步骤。
与现有技术相比,本发明所提供的一种研报问答生成方法、系统及计算机可读存储介质,具有如下的有益效果:
1.本发明提供的一种研报问答生成方法,可以理解地,本方法使用预训练语言模型来完成研报的问题和答案的生成,由于生成的问题中会存在一些噪声问题、无法回答的问题等无效问题,通过过滤来得到一些高质量问题;且从段落中抽取相片的片段生成的答案严谨性强;而基于段落生成答案速度较快,可以通过参数平衡答案的灵活性和严谨性,而且可以处理多个段落的信息。
本方法通过自动为每一篇研报生成对应的问题,然后从研报中找到对应的答案,将这些智能提取的信息提供给阅读者,提高信息获取效率。相比于传统的研报阅读方式,通过人阅读整篇研报,然后找到对应的问题和答案,本技术根据研报的内容自动生成问题然后找到对应的答案,可以很大程度减少人工阅读的工作量,提高研报阅读效率。具体地,针对每一篇研报,本专利首先识别研报中的重点内容从而生成对应的问题,然后通过算法找到问题对应的帮助阅读者快速找到其关心的内容。
2.本发明中的知识库包括实体清单库以及问题模板库,可以理解地,其中实体清单库表示为获取的比较全面的各行业的行业板块、概念板块等实体清单名称等各种词,问题模板库则有人们在阅读研报时普遍关心的问题模板,基于知识库以及研报文本作相似度判断很容易识别出研报中各种实体词,并且识别精准度较高;且基于问题模板生成的问题可帮助读者更快的获取研报内容。
3.本发明生成问题的方法有三种,这三种方法优势互补;基于命名实体识别和词性标注的方法生成速度快,有效性较高;基于提示学习的方法内容多样性较强,精准性较高;可控问题生成算法内容多样性强,精准性高,有效性强;在实际应用中,可以根据需求灵活选择问题生成方式,或者混合多种问题生成方式,达到相辅相成的效果。
4.本发明中的基于命名实体识别和词性标注的方法通过抽取研报文本中的字词直接填充至问题模板中,生成问题的速率较快,有效性高。
5.本发明中的基于提示学习的方式生成问题通过预先设定提示模板,其中提示模板中包括问题模板以及段落,内容丰富,同时是通过使用预训练语言模型进行预测来得到最终的问题,精准性较高。
6.本发明中基于可控问题生成方法生成问题通过识别出段落中的主控制要素以及次控制要素,并输入至孟子-T5模型中,由模型直接生成问题,精准度比较高。
7.本发明通过直接抽取段落中的片段来生成答案,严谨性较强,同时实现起来也比较简单。
8.本发明根据段落生成问题的答案可通过参数平衡答案的灵活性和严谨性,并且可以同时处理多个段落的信息,效率较高。
9.本发明实施例还提供一种研报问答生成系统,具有与上述一种研报问答生成方法相同的有益效果,在此不做赘述。
10.本发明实施例还提供一种计算机可读存储介质,具有与上述一种研报问答生成方法相同的有益效果,在此不做赘述。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的一种研报问答生成方法的步骤流程图。
图2是本发明第一实施例提供的一种研报问答生成方法之步骤S2的流程示例图。
图3是本发明第一实施例提供的一种研报问答生成方法之步骤S1的步骤流程图一。
图4是本发明第一实施例提供的一种研报问答生成方法之基于命名实体识别和词性标注的方法生成问题的流程示例图。
图5是本发明第一实施例提供的一种研报问答生成方法之步骤S1的步骤流程图二。
图6是本发明第一实施例提供的一种研报问答生成方法之基于提示学习的方法生成问题的流程示例图。
图7是本发明第一实施例提供的一种研报问答生成方法之步骤S1的步骤流程图三。
图8是本发明第一实施例提供的一种研报问答生成方法之基于可控问题生成方法生成问题的流程示例图。
图9是本发明第一实施例提供的一种研报问答生成方法之步骤S3的步骤流程图一。
图10是本发明第一实施例提供的一种研报问答生成方法之利用数据库以及问题-段落对从段落中抽取相应的片段生成答案的流程示例图。
图11是本发明第一实施例提供的一种研报问答生成方法之步骤S3的步骤流程图二。
图12是本发明第一实施例提供的一种研报问答生成方法之利用数据库以及问题-段落对并根据段落生成各问题对应的答案的流程示例图。
图13是本发明第二实施例提供的一种研报问答生成系统的框图。
附图标识说明:
1、研报问答生成系统;
10、问题生成模块;20、筛选模块;30、答案生成模块。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图及实施实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,本发明第一实施例提供一种研报问答生成方法,包括以下步骤:
S1:提供研报文本,并基于预设知识库以及研报文本生成问题集;
S2:基于召回模型以及匹配模型,对应研报文本各段落召回问题集中的若干个问题,判别问题与各段落的匹配度,对应各段落选择匹配度最高的问题以生成问题-段落对;
S3:基于问题-段落对从段落中抽取相应的片段生成答案或者根据段落生成各问题对应的答案。
可以理解地,步骤S1以及步骤S3一般使用预训练语言模型来完成研报的问题和答案的生成。
由于生成的问题中会存在一些噪声问题、无法回答的问题等无效问题,通过过滤来得到一些高质量问题,其中问题-段落对可理解为包括问题以及与该问题对应的研报文本的段落,或者是包括段落以及与该段落相对应的问题。
可以理解地,在研报文本中可能存在一些段落对应多个问题,或者一个问题需要由多个段落组合才能得到答案的情况。
请参阅图2,在本实施例中,对研报文本采用召回模型逐段落召回若干个问题,该若干个问题可以是步骤S1中生成的全部问题或部分问题,并且采用匹配模型进行问题与段落的匹配,最终对应各段落选择匹配度最高的问题,或者对应各问题匹配度最高的段落,进行两者的双向过滤筛选;通过筛选过滤来得到高质量问题,以很大程度减少人工阅读研报的工作量,提高研报阅读效率。
具体地,召回模型使用的是双塔编码器,一定程度上加快了问题召回的速度;匹配模型使用的是交叉编码器,结构更加精确;并且两者都使用孟子轻量化预训练模型进行语义相似度的判别,孟子轻量化预训练模型无论是在关联相似度的判别上,还是在语义相似度的判别上,都有很好的效果。
请继续参阅图1,其中步骤S3中的“从段落中抽取各问题的答案”指的是采用伪问答数据预训练-混合问答数据精调的方法生成答案,而“根据段落生成各问题对应的答案”是指采用约束强度可控的解码算法生成答案。
其中通过从段落中抽取相片的片段生成的答案严谨性强;而基于段落生成答案速度较快,可以通过参数平衡答案的灵活性和严谨性,而且可以处理多个段落的信息。
本方法通过自动为每一篇研报生成对应的问题,然后从研报中找到对应的答案,将这些智能提取的信息提供给阅读者,提高信息获取效率。相比于传统的研报阅读方式,通过人阅读整篇研报,然后找到对应的问题和答案,本技术根据研报的内容自动生成问题然后找到对应的答案,可以很大程度减少人工阅读的工作量,提高研报阅读效率。具体地,针对每一篇研报,本发明首先识别研报中的重点内容从而生成对应的问题,然后通过算法找到问题对应的帮助阅读者快速找到其关心的内容。
可以理解地,在生成问题之前需要先构建知识库以及数据库。
进一步地,知识库包括实体清单库以及问题模板库;数据集包括研报标题-段落对数据集,伪问答数据集以及人工标注的投研问答数据集。
可以理解地,其中的实体清单库代表的从各种渠道获得的各行业板块,概念板块等实体名称清单,比如说表示行业、概念等等相关实体的词,在此不做限定;而问题模板库则包括人们阅读研报时普遍关心的问题的模板。
进一步地,构建知识库采用人工构建和自动构建结合的方式;构建研报标题-段落对数据集采用网络爬虫、PDF解析技术等等方式;构建伪问答数据集基于依存句法分析(DSP)的方式和/或基于相似度的方式。
以金融研报阅读为例,通过对互联网金融研报阅读问题的搜集,首先可人工定义收集实体名称清单的范围或者限制条件,再基于算法自动构建两个金融研报阅读的知识库:实体清单库以及问题模板库;其中问题模板库利用实体识别技术,识别人们阅读研报时普遍关心的问题中的实体类别,然后将实体抽象为变量,再构建问题模板,这些变量在问题模板中的位置即为待填充位置;示例性的如:一个人们在阅读研报时关心的问题是“英格达公司在全球的布局是什么”,识别出其中的实体为“英格达公司”,将其抽象为变量××,则得到的问题模板为“(××)在全球的布局是什么”。
其中基于依存句法分析(DSP)的方式构建伪问答数据集的具体方法为:首先对研报中的句子进行依存句法分析,解析出丰富的句法结构,如:主语-谓语-宾语等,然后将宾语及其定语、状语、补语等替换为疑问词,从而构建出相应的伪问答数据。例如,给定句子“截至2020年年底,《某书》在某平台销量已经突破200万份”,可将其转换为“截至2020年年底,《某书》在某平台销量已经突破多少”-“200万份”问答对。使用该方法构建的伪问答数据集又称为“基于依存句法分析(DSP)的伪问答数据集”
其中基于相似度的方法构建伪问答数据集的具体方法为:利用研报中特有的子标题信息,将其作为问题Q,然后对于段落中的某个句子:
Si=(Wij)j∈[1,N](其中N为句子i的长度),
逐词汇计算 Word2Vec 词向量后取平均值作为该句子的向量表示,
,对标题做同样的处理后,得到Vec(Q),计算句子与标题的余弦相似度cos<Vec(Si),Vec(Q)>,其中<Vec(Si),Vec(Q)>表示两个向量之间的夹角,取相似度最高的句子作为答案片段,从而构建出伪问答数据集;使用该方法构建的伪问答数据集又称为标题-段落相似句伪问答数据集。
进一步地,基于知识库以及研报文本生成至少一个问题采用命名实体识别和词性标注的方法、基于提示学习的方法或者基于可控问题生成方法其中的一种或多种方法。
可以理解地,这三种方法优势互补。基于命名实体识别和词性标注的方法生成速度快,有效性较高;基于提示学习的方法内容多样性较强,精准性较高;可控问题生成算法内容多样性强,精准性高,有效性强。在实际应用中,可以根据需求灵活选择问题生成方式,或者混合多种问题生成方式,达到相辅相成的效果。
进一步地,请参阅图3,步骤S1采用命名实体识别和词性标注的方法的具体步骤为:
S11:识别研报文本中的实体词;
S12:抽取整篇研报文本的关键词;
S13:基于关键词逐个与实体清单库计算两两之间的余弦相似度,取余弦相似度最高的若干个关键词作为研报文本包含的主要板块实体名词;
S14:将对应的实体词以及主要板块实体名词填充到预设的问题模板中生成问题。
请结合图3和图4,图4提供了一种基于命名实体识别和词性标注的方法生成问题的流程示意图,可以理解地,其中步骤S11中的实体词也即组织名、机构名、企业名等等从研报文本中识别出来的表示实体的词。
可以理解的,其中进行步骤S12之前还需对研报文本进行词性标注,其中词性标注也即对研报文本中的所有词标注上对应的词性,如助词、语气词、名词等等。
具体地,其中步骤S12提取关键词的具体方法为:对整篇研报除实体之外的其他类别名词计算词频-逆文档频率(TF-IDF),一般是取值较高的前100个名词作为研报关键词。
可以理解地,词频-逆文档频率(TF-IDF)是一种统计方法,可用以评估某字词对于一份文件的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,也就是说词频-逆文档频率(TF-IDF)值越大,该字词越重要。
可以理解地,步骤S13中的实体清单库也即行业板块、概念板块等实体名称清单;也即实际是关键词与实体清单库中的表示行业,概念等实体的词计算两两之间的余弦相似度。
步骤S14中预设的问题模板是问题模板库中的模板,最后将这些词填充到问题模板中的待填充位置即可生成问题,也可以理解为用这些词替代问题模板中的变量;通过此方法生成问题的速率较快,有效性较高。
进一步地,请参阅图5,步骤S1采用基于提示学习的方法的具体步骤为:
S11’:预设提示模板,并基于问题模板库以及研报文本将对应的问题模板以及段落填充到提示模板中的对应位置;
S12’:基于预训练语言模型,将问题模板中的待填充位置填充为预训练语言模型的掩码标记,通过预训练语言模型进行掩码标记的预测以生成问题。
请结合图5和图6,图6提供一种基于提示学习的方法生成问题的流程示意图;示例性的如:预设提示模板为:“从这段话中我们可以了解到《问题模板》,《段落》”,然后将问题模板库中相应的问题模板“(××)的商业布局是什么”以及研报文本中相应的段落(英格达公司…,其在全球行销的产品主要…。)填充到对应的位置当中得到“从这段话中我们可以了解到《(××)的商业布局是什么》,《英格达公司…,其在全球行销的产品主要…。》”。
最后把待填充位置(××)更换为预训练语言模型的掩码标记,无需精调,直接通过预训练语言模型进行掩码位置文本的预测即可,例如最终可生成“从这段话中我们可以了解到英格达公司在全球的商业布局是什么,英格达公司…,其在全球行销的产品主要…”,其中预测出的文本即为“英格达公司在全球”。
具体地,在本实施例中,该方法采用的预训练语言模型为孟子轻量化模型。
可以理解地,通过此方法生成的问题内容比较丰富,同时也对应的包含有和问题对应的段落,精准性较高。
请参阅图7,知识库中还包含有若干疑问词,步骤S2采用基于可控问题生成方法生成问题的具体步骤为:
S11”:识别研报文本中的实体词以及关键词并作为主控制要素;
S12”:关键词与知识库中的疑问词进行匹配,选择匹配度最高的疑问词作为次控制要素;
S13”:采用孟子-T5模型,将主控制要素、次控制要素以及研报文本输入到孟子-T5模型中,并由孟子-T5模型生成问题。
请结合图7和图8,图8提供一种基于可控问题生成方法生成问题的流程示意图;可以理解地,该方法不使用问题模板,对于研报的某个段落直接通过解析出其中的表示企业名、公司名,行业名等实体词,以及表示主要内容等等的若干关键词,其中实体词以及关键词作为主控制要素,是不可省略的内容。
可以理解地,步骤S12”中进行关键词与知识库中的疑问词进行匹配,选择匹配度最高的疑问词作为次控制要素,这样以保证最终生成的文本为疑问句而非陈述句,根据具体的实际应用情况,该步骤可以省略,即可以不需要次控制要素,比如“英格达公司的发展布局怎么样”和“英格达公司的发展布局”,而这两句话实质上的区别并不是很大,大多数人们在阅读“英格达公司的发展布局”时很容易就会去想这个发展布局到底怎么样。
通过直接将主控制要素、次控制要素以及段落输入到孟子-T5模型中生成问题,精准性较高,内容多样性强。
进一步地,请参阅图9,步骤S3中利用数据库以及问题-段落对从段落中抽取相应的片段生成答案的具体步骤为:
S31:提供答案生成模型,基于预设数据库对答案生成模型进行预训练以及精调;
S32:输入段落以及与该段落对应的问题至答案生成模型中以生成答案。
请结合图9和图10,图10提供的一种基于伪问答数据预训练-混合问答数据精调的方法生成答案的流程示意图。
首先步骤S31为生成答案作准备,中文研报问答数据很难自动构建,而人工标注的成本太高、效率太低,本方法使用的人工标注的投研问答数据集只有一千条左右,是一个小样本问题,然而预训练语言模型在小样本数据集上进行精调时,很容易产生过拟合或者灾难性遗忘的问题.
具体地,本实施例通过利用数据集中的伪问答数据预训练再通过利用人工标注的投研问答数据集进行精调的方式,避免了样本少的问题。
具体地,本方法中采用的答案生成模型为孟子轻量化模型。
通过将问题以及对应的段落输入至孟子轻量化模型中由该模型输出答案。
通过直接抽取段落中的片段来生成答案,严谨性较强,同时实现起来也比较简单。
进一步地,请参阅图11,步骤S3中利用数据库以及问题-段落对并根据段落生成各问题对应的答案的具体步骤为:
S31’:提供答案生成模型,并给定约束强度值;
S32’:输入段落以及与该段落对应的问题至答案生成模型中并基于约束强度值进行解码;
S33’:以所有解码出的答案文本作为候选集,与对应的问题计算匹配度,取匹配值最高的作为最终答案。
请结合图11和图12,可以理解地,由于投研领域对权威性、严谨性的特定要求,生成的答案应尽可能地取自研报文本,因此需要对解码进行一定的约束限制。
具体地,本方法采用的答案生成模型为孟子-T5预训练模型;该模型在进行推理时使用束搜索方式进行解码。
具体地,给定约束强度值η∈[0,1],当η=1时,解码的答案文本完全为研报中的一个片段;当η=0时,答案文本完全为自由生成,没有解码约束。
在解码时,首先根据已解码文本(记为Y,长度为L)的部分或全部片段(即为Yspan,长度为Lspan=ηL)在研报中寻找接续文本,并将找到的接续文本按照比例η构成束搜索的候选集,当候选集大小为1/η时,先解除解码约束限制进行预测,如果这一时刻预测出的字或词为结束符<EOS>,则结束解码;否则保存已解码序列,输出开始符<EOS>进行重新预测。
最后,对所有解码出的答案文本作为候选集,与问题计算相似度进行匹配,取匹配值最高的作为最终答案。
通过这种方法生成答案可通过参数平衡答案的灵活性和严谨性,并且可以同时处理多个段落的信息,效率较高。
综上所述,通过研报问答生成方法,用户可以快速获取研报中最受投资界关心的若干个问题的答案。该方法能够首先根据研报的内容生成一系列业界最为关心的问题,然后通过问题和段落的匹配过滤出最契合的若干个问题-段落对,最后再根据问题-段落对抽取或者生成最能回答问题的答案。可见,该问答生成系统可以有效地浓缩研报信息,大大提高了人们的调研效率。
请参阅图13,本发明第二实施例还提供一种研报问答生成系统1,包括以下模块:
问题生成模块10:提供研报文本,并基于知识库以及研报文本生成至少一个问题;
筛选模块20:对应研报文本各段落召回若干个问题,判别问题与各段落的匹配度,对应各段落选择匹配度最高的问题以生成问题-段落对;
答案生成模块30:利用数据库以及问题-段落对从段落中抽取相应的片段生成答案或者根据段落生成各问题对应的答案。
可以理解地,通过该研报问答生成系统1可实现上述的研报问答生成方法的各步骤,对各模块进行整合或分设均在本发明的保护范围内。
本发明第三实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被执行时实现上述所述的研报问答生成方法的步骤。
在本发明所提供的实施例中,应理解,“与A对应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在本发明的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在本发明的附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方案中,方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,在此基于涉及的功能而确定。需要特别注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
与现有技术相比,本发明所提供给的一种研报问答生成方法、系统及计算机可读存储介质具有如下的有益效果:
1.本发明提供的一种研报问答生成方法,可以理解地,本方法使用预训练语言模型来完成研报的问题和答案的生成,由于生成的问题中会存在一些噪声问题、无法回答的问题等无效问题,通过过滤来得到一些高质量问题;且从段落中抽取相片的片段生成的答案严谨性强;而基于段落生成答案速度较快,可以通过参数平衡答案的灵活性和严谨性,而且可以处理多个段落的信息。
本方法通过自动为每一篇研报生成对应的问题,然后从研报中找到对应的答案,将这些智能提取的信息提供给阅读者,提高信息获取效率。相比于传统的研报阅读方式,通过人阅读整篇研报,然后找到对应的问题和答案,本技术根据研报的内容自动生成问题然后找到对应的答案,可以很大程度减少人工阅读的工作量,提高研报阅读效率。具体地,针对每一篇研报,本专利首先识别研报中的重点内容从而生成对应的问题,然后通过算法找到问题对应的帮助阅读者快速找到其关心的内容。
2.本发明中的知识库包括实体清单库以及问题模板库,可以理解地,其中实体清单库表示为获取的比较全面的各行业的行业板块、概念板块等实体清单名称等各种词,问题模板库则有人们在阅读研报时普遍关心的问题模板,基于知识库以及研报文本作相似度判断很容易识别出研报中各种实体词,并且识别精准度较高;且基于问题模板生成的问题可帮助读者更快的获取研报内容。
3.本发明生成问题的方法有三种,这三种方法优势互补;基于命名实体识别和词性标注的方法生成速度快,有效性较高;基于提示学习的方法内容多样性较强,精准性较高;可控问题生成算法内容多样性强,精准性高,有效性强;在实际应用中,可以根据需求灵活选择问题生成方式,或者混合多种问题生成方式,达到相辅相成的效果。
4.本发明中的基于命名实体识别和词性标注的方法通过抽取研报文本中的字词直接填充至问题模板中,生成问题的速率较快,有效性高。
5.本发明中的基于提示学习的方式生成问题通过预先设定提示模板,其中提示模板中包括问题模板以及段落,内容丰富,同时是通过使用预训练语言模型进行预测来得到最终的问题,精准性较高。
6.本发明中基于可控问题生成方法生成问题通过识别出段落中的主控制要素以及次控制要素,并输入至孟子-T5模型中,由模型直接生成问题,精准度比较高。
7.本发明通过直接抽取段落中的片段来生成答案,严谨性较强,同时实现起来也比较简单。
8.本发明根据段落生成问题的答案可通过参数平衡答案的灵活性和严谨性,并且可以同时处理多个段落的信息,效率较高。
9.本发明实施例还提供一种研报问答生成系统,具有与上述一种研报问答生成方法相同的有益效果,在此不做赘述。
10.本发明实施例还提供一种计算机可读存储介质,具有与上述一种研报问答生成方法相同的有益效果,在此不做赘述。
以上对本发明实施例公开的一种研报问答生成方法、系统及计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制,凡在本发明的原则之内所作的任何修改,等同替换和改进等均应包含本发明的保护范围之内。
Claims (8)
1.一种研报问答生成方法,其特征在于:包括以下步骤:
提供研报文本,并基于预设知识库以及研报文本采用命名实体识别和词性标注的方法生成问题集,所述知识库包括实体清单库以及问题模板库;
基于召回模型以及匹配模型,对应研报文本各段落召回问题集中的若干个问题,判别问题与各段落的匹配度,对应各段落选择匹配度最高的问题以生成问题-段落对,或者对应各问题选择匹配度最高的段落以生成问题-段落对;
基于问题-段落对从段落中抽取相应的片段生成答案或者根据段落生成各问题对应的答案;
基于预设知识库以及研报文本采用命名实体识别和词性标注的方法生成问题集的具体步骤为:
识别研报文本中的实体词;
抽取整篇研报文本的关键词;
基于关键词逐个与实体清单库计算两两之间的余弦相似度,取余弦相似度最高的若干个关键词作为研报文本包含的主要板块实体名词;
将对应的实体词以及主要板块实体名词填充到预设的问题模板中生成问题。
2.如权利要求1所述的研报问答生成方法,其特征在于:基于预设知识库以及研报文本生成至少问题集的方法还包括基于提示学习的方法或者基于可控问题生成方法。
3.如权利要求2所述的研报问答生成方法,其特征在于:基于预设知识库以及研报文本生成问题集采用基于提示学习的方法的具体步骤为:
预设提示模板,并基于问题模板库以及研报文本将对应的问题模板以及段落填充到提示模板中的对应位置;
基于预训练语言模型,将问题模板中的待填充位置填充为预训练语言模型的掩码标记,通过预训练语言模型进行掩码标记的预测以生成问题。
4.如权利要求2所述的研报问答生成方法,其特征在于:知识库中还包含有若干疑问词,基于知识库以及研报文本生成问题集采用基于可控问题生成方法的具体步骤为:
识别研报文本中的实体词以及关键词并作为主控制要素;
将关键词与知识库中的疑问词进行匹配,选择匹配度最高的疑问词作为次控制要素;
采用孟子-T5模型,将主控制要素、次控制要素以及研报文本输入到孟子-T5模型中,并由孟子-T5模型生成问题。
5.如权利要求1所述的研报问答生成方法,其特征在于:基于问题-段落对从段落中抽取相应的片段生成答案的具体步骤为:
提供答案生成模型,基于预设数据库对答案生成模型预训练以及精调;
输入段落以及与该段落对应的问题至答案生成模型中以生成答案。
6.如权利要求1所述的研报问答生成方法,其特征在于:基于问题-段落对并根据段落生成各问题对应的答案的具体步骤为:
提供答案生成模型,并给定约束强度值;
输入段落以及与该段落对应的问题至答案生成模型中并基于约束强度值进行解码;
以所有解码出的答案文本作为候选集,与对应的问题计算匹配度,取匹配值最高的作为最终答案。
7.一种研报问答生成系统,其特征在于:包括以下模块:
问题生成模块:提供研报文本,并基于预设知识库以及研报文本采用命名实体识别和词性标注的方法生成问题集,所述知识库包括实体清单库以及问题模板库;
基于预设知识库以及研报文本采用命名实体识别和词性标注的方法生成问题集的具体步骤为:识别研报文本中的实体词;抽取整篇研报文本的关键词;基于关键词逐个与实体清单库计算两两之间的余弦相似度,取余弦相似度最高的若干个关键词作为研报文本包含的主要板块实体名词;将对应的实体词以及主要板块实体名词填充到预设的问题模板中生成问题;
筛选模块:基于召回模型以及匹配模型,对应研报文本各段落召回问题集中的若干个问题,判别问题与各段落的匹配度,对应各段落选择匹配度最高的问题以生成问题-段落对,或者对应各问题选择匹配度最高的段落以生成问题-段落对;
答案生成模块:基于问题-段落对从段落中抽取相应的片段生成答案或者根据段落生成各问题对应的答案。
8.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序被执行时实现如权利要求1-6任一项所述的研报问答生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210380623.0A CN114492362B (zh) | 2022-04-12 | 2022-04-12 | 一种研报问答生成方法、系统及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210380623.0A CN114492362B (zh) | 2022-04-12 | 2022-04-12 | 一种研报问答生成方法、系统及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114492362A CN114492362A (zh) | 2022-05-13 |
CN114492362B true CN114492362B (zh) | 2022-08-16 |
Family
ID=81489025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210380623.0A Active CN114492362B (zh) | 2022-04-12 | 2022-04-12 | 一种研报问答生成方法、系统及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114492362B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115270738B (zh) * | 2022-09-30 | 2023-02-03 | 北京澜舟科技有限公司 | 一种研报生成方法、系统及计算机存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532369B (zh) * | 2019-09-04 | 2022-02-01 | 腾讯科技(深圳)有限公司 | 一种问答对的生成方法、装置及服务器 |
EP3822816A1 (en) * | 2019-11-15 | 2021-05-19 | 42 Maru Inc. | Device and method for machine reading comprehension question and answer |
CN112818093B (zh) * | 2021-01-18 | 2023-04-18 | 平安国际智慧城市科技股份有限公司 | 基于语义匹配的证据文档检索方法、系统及存储介质 |
-
2022
- 2022-04-12 CN CN202210380623.0A patent/CN114492362B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114492362A (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109684448B (zh) | 一种智能问答方法 | |
Jung | Semantic vector learning for natural language understanding | |
CN110968699B (zh) | 一种基于事理推荐的逻辑图谱构建及预警方法和装置 | |
Li et al. | Leveraging linguistic structures for named entity recognition with bidirectional recursive neural networks | |
Gupta et al. | A survey of text question answering techniques | |
CN108763333A (zh) | 一种基于社会媒体的事件图谱构建方法 | |
WO2016086159A2 (en) | Systems and methods to determine and utilize conceptual relatedness between natural language sources | |
CN113569011B (zh) | 文本匹配模型的训练方法、装置、设备及存储介质 | |
CN112380848B (zh) | 文本生成方法、装置、设备及存储介质 | |
CN111831810A (zh) | 智能问答方法、装置、设备及存储介质 | |
CN113282729A (zh) | 基于知识图谱的问答方法及装置 | |
CN114492362B (zh) | 一种研报问答生成方法、系统及计算机可读存储介质 | |
CN117609477B (zh) | 一种基于领域知识的大模型问答方法和装置 | |
Papanikolaou et al. | Protest event analysis: A longitudinal analysis for Greece | |
CN114611520A (zh) | 一种文本摘要生成方法 | |
Wang et al. | IFlyLegal: a Chinese legal system for consultation, law searching, and document analysis | |
Al-Ayyoub et al. | Framework for Affective News Analysis of Arabic News: 2014 Gaza Attacks Case Study. | |
CN111881695A (zh) | 一种审计知识的检索方法及装置 | |
Küçük et al. | A hybrid named entity recognizer for Turkish with applications to different text genres | |
Singh et al. | Deep neural based name entity recognizer and classifier for English language | |
CN113590768B (zh) | 一种文本关联度模型的训练方法及装置、问答方法及装置 | |
Angelidis et al. | Nomothesia: a linked data platform for Greek legislation | |
KR101662399B1 (ko) | 키워드 입력 기반의 사용자 관심정보를 이용한 질의응답 장치 및 방법 | |
CN113535936A (zh) | 一种基于深度学习的规章制度检索方法及系统 | |
Skubic et al. | Parliamentary Discourse Research in Political Science: Literature Review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |