CN113065332B - 基于阅读模型的文本处理方法、装置、设备及存储介质 - Google Patents
基于阅读模型的文本处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113065332B CN113065332B CN202110433843.0A CN202110433843A CN113065332B CN 113065332 B CN113065332 B CN 113065332B CN 202110433843 A CN202110433843 A CN 202110433843A CN 113065332 B CN113065332 B CN 113065332B
- Authority
- CN
- China
- Prior art keywords
- text
- preset
- model
- context
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及人工智能领域,公开了一种基于阅读模型的文本处理方法、装置、设备及存储介质,用于基于阅读模型生成目标文本,提高了生成文本的质量,降低了成本。基于阅读模型的文本处理方法包括:获取初始文本;对初始文本中的多个问题进行修正,生成第一中间文本;对初始文本中各个问题对应的上下文进行修正,生成第二中间文本;将第一中间文本和第二中间文本进行合并和过滤处理,生成过滤后的文本,并将过滤后的文本和初始文本合并,生成目标文本。此外,本发明还涉及区块链技术,目标文本可存储于区块链节点中。
Description
技术领域
本发明涉及语义处理领域,尤其涉及一种基于阅读模型的文本处理方法、装置、设备及存储介质。
背景技术
机器阅读理解技术在金融、医疗、教育等行业的信息检索、信息抽取、问答等任务中有广泛应用,该技术可细分为跨距式、单选、多选、生成、填空等子类。
在现有的技术中,阅读理解模型在垂直领域有较丰富的实践场景,但在文本处理方面,却存在以下不足:中文开源数据集稀缺,目前学界经典的阅读理解数据集多为英文数据集,中文数据集集中在百度开源的DuReader,中文阅读理解大赛数据集CMRC2018,法律文书数据集CAIL等;中文数据集质量不高,CMRC2018数据规模小,数据清洗度低,问答模式单一,DuReader数据规模大但由于收集自百度知道、百度百科等网页问答内容,数据质量差,存在答非所问、长答案、冗余回答等问题,CAIL等领域数据集则难以通用;中文数据集问答种类单一,目前的中文数据集往往沿用经典阅读理解的问答设计,即提出一个能在给定上下文中找到答案的问题,对于无答案文本的构建,存在完全缺失或数量极少的问题,导致训练模型在处理不包含答案的段落时出现错误。
发明内容
本发明提供了一种基于阅读模型的文本处理方法、装置、设备及存储介质,用于基于阅读模型生成目标文本,提高了生成文本的质量,降低了成本。
本发明第一方面提供了一种基于阅读模型的文本处理方法,包括:获取初始文本,所述初始文本包括多个问题、每个问题对应的答案和每个问题对应的上下文;调用预置的阅读模型对所述初始文本中的多个问题进行分析和修正,生成第一中间文本,所述预置的阅读模型包括预置的关键词识别模型、预置的词性标注模型和预置的实体识别模型,所述第一中间文本包括修正后的多个问题以及每个问题对应的上下文;调用预置的文本分析模型对所述初始文本中各个问题对应的上下文进行分析并对所述初始文本中各个问题对应的上下文进行修正,生成第二中间文本,所述第二中间文本包括多个问题以及每个问题对应的修正后的上下文;将所述第一中间文本和所述第二中间文本进行合并和过滤处理,生成过滤后的文本,并将所述过滤后的文本和所述初始文本合并,生成目标文本。
可选的,在本发明第一方面的第一种实现方式中,所述调用预置的阅读模型对所述初始文本中的多个问题进行分析和修正,生成第一中间文本,所述预置的阅读模型包括预置的关键词识别模型、预置的词性标注模型和预置的实体识别模型,所述第一中间文本包括修正后的多个问题以及每个问题对应的上下文包括:基于预置的关键词识别模型和正则表达式识别所述初始文本中的每个问题是否存在预置的关键词,若存在,则定位每个问题对应的目标关键词的位置,生成第一识别结果,所述第一识别结果包括定位到的多个目标关键词,每个目标关键词的位置以及所述每个目标关键词对应的上下文内容;判断所述多个目标关键词的下文是否符合预置的条件,若符合,则进行肯定或否定问题替换,生成第一中间文本;或调用预置的词性标注模型对所述初始文本中的每个问题进行词性标注,得到多个词性标注结果,识别每个词性标注结果中的核心词,所述核心词包括名词、动词和形容词;根据预置的反义词词典和预置的反义词替换规则将所述每个词性标注结果中的核心词分别替换为对应的反义词,生成第一中间文本;或调用预置的实体识别模型对所述初始文本中的每个问题进行实体名称识别,所述实体名称包括机构、地址、地点、人名和日期;根据预置的实体名称库和预置的实体名称替换规则对每个问题中识别到的实体名称进行替换,生成第一中间文本,所述预置的实体名称库包括地点数据库、组织结构名称库和姓氏数据库。
可选的,在本发明第一方面的第二种实现方式中,所述根据预置的实体名称库和预置的实体名称替换规则对每个问题中识别到的实体名称进行替换,生成第一中间文本,所述预置的实体名称库包括地点数据库、组织结构名称库和姓氏数据库包括:当实体名称替换对象为地点时,从地点数据库中随机选择同一类别的地点进行替换,生成第一中间文本;当实体名称替换对象为地址时,通过预置的随机数生成算法得到一组随机数,并对所述实体名称替换对象中的街道号数字进行替换,生成第一中间文本;当实体名称替换对象为机构时,调用预置的检索模型从组织机构名称库中查找预置个数的多个机构名称,过滤与所述实体名称替换对象完全匹配的名称,在剩余机构名称中随机选择一个机构名称进行替换,生成第一中间文本;当实体名称替换对象为日期时,调用预置的开源库并按照标准日期格式对所述实体名称替换对象进行标准化处理,基于标准日期格式随机生成新的日期,将所述新的日期按照原始格式修改并替换,所述原始格式为所述实体名称替换对象标准化处理之前的初始格式,生成第一中间文本;当实体名称替换对象为人名时,基于预置的姓氏提取规则提取出所述实体名称替换对象中的姓氏,并从姓氏数据库中随机选择一个姓氏进行替换,生成第一中间文本。
可选的,在本发明第一方面的第三种实现方式中,所述调用预置的文本分析模型对所述初始文本中各个问题对应的上下文进行分析并对所述初始文本中各个问题对应的上下文进行修正,生成第二中间文本,所述第二中间文本包括多个问题以及每个问题对应的修正后的上下文包括:调用预置的文本分析模型对所述初始文本中各个问题对应的上下文进行分析,得到上下文的句子数量,所述上下文的句子数量为每个问题对应的上文句子数量和下文句子数量的总和;当所述上下文的句子数量小于等于第一预设值时,调用预置的词性标注模型识别每一个问题对应答案的句法构成,生成第二中间文本;当所述上下文的句子数量大于第一预设值且小于等于第二预设值时,删除答案所在的句子,生成第二中间文本;当所述上下文的句子数量大于第二预设值时,调用答案所在段落的前一段或后一段对所述答案所在段落进行替换,生成第二中间文本。
可选的,在本发明第一方面的第四种实现方式中,所述当所述上下文的句子数量小于等于第一预设值时,调用预置的词性标注模型识别每一个问题对应答案的句法构成,生成第二中间文本包括:当所述上下文的句子数量小于等于第一预设值时,调用预置的词性标注模型判断每一个问题对应的答案是否为句子的主干部分;若目标答案属于句子主干部分,则返回处理失败指令并删除所述目标答案及所述目标答案对应的上下文,所述目标答案为多个问题对应的答案中的任意一个答案;若所述目标答案不属于句子主干部分,则删去所述目标答案,得到第二中间文本。
可选的,在本发明第一方面的第五种实现方式中,所述将所述第一中间文本和所述第二中间文本进行合并和过滤处理,生成过滤后的文本,并将所述过滤后的文本和所述初始文本合并,生成目标文本包括:按照第一预置比例将所述第一中间文本和所述第二中间文本进行合并,并调用预置的阅读理解模型对合并后的文本进行过滤和筛选,生成过滤后的文本;按照第二预置比例将所述过滤后的文本和所述初始文本进行合并,生成目标文本。
可选的,在本发明第一方面的第六种实现方式中,在所述生成目标文本之后,所述方法还包括:基于所述目标文本训练预置的阅读理解模型,生成新的阅读理解模型。
本发明第二方面提供了一种基于阅读模型的文本处理装置,包括:获取模块,用于获取初始文本,所述初始文本包括多个问题、每个问题对应的答案和每个问题对应的上下文;第一修正模块,用于调用预置的阅读模型对所述初始文本中的多个问题进行分析和修正,生成第一中间文本,所述预置的阅读模型包括预置的关键词识别模型、预置的词性标注模型和预置的实体识别模型,所述第一中间文本包括修正后的多个问题以及每个问题对应的上下文;第二修正模块,用于调用预置的文本分析模型对所述初始文本中各个问题对应的上下文进行分析并对所述初始文本中各个问题对应的上下文进行修正,生成第二中间文本,所述第二中间文本包括多个问题以及每个问题对应的修正后的上下文;合并模块,用于将所述第一中间文本和所述第二中间文本进行合并和过滤处理,生成过滤后的文本,并将所述过滤后的文本和所述初始文本合并,生成目标文本。
可选的,在本发明第二方面的第一种实现方式中,所述第一修正模块包括:第一识别单元,用于基于预置的关键词识别模型和正则表达式识别所述初始文本中的每个问题是否存在预置的关键词,若存在,则定位每个问题对应的目标关键词的位置,生成第一识别结果,所述第一识别结果包括定位到的多个目标关键词,每个目标关键词的位置以及所述每个目标关键词对应的上下文内容;判断单元,用于判断所述多个目标关键词的下文是否符合预置的条件,若符合,则进行肯定或否定问题替换,生成第一中间文本;
或词性标注单元,用于调用预置的词性标注模型对所述初始文本中的每个问题进行词性标注,得到多个词性标注结果,识别每个词性标注结果中的核心词,所述核心词包括名词、动词和形容词;第一替换单元,用于根据预置的反义词词典和预置的反义词替换规则将所述每个词性标注结果中的核心词分别替换为对应的反义词,生成第一中间文本;
或第二识别单元,用于调用预置的实体识别模型对所述初始文本中的每个问题进行实体名称识别,所述实体名称包括机构、地址、地点、人名和日期;第二替换单元,用于根据预置的实体名称库和预置的实体名称替换规则对每个问题中识别到的实体名称进行替换,生成第一中间文本,所述预置的实体名称库包括地点数据库、组织结构名称库和姓氏数据库。
可选的,在本发明第二方面的第二种实现方式中,所述第二替换单元具体用于:当实体名称替换对象为地点时,从地点数据库中随机选择同一类别的地点进行替换,生成第一中间文本;当实体名称替换对象为地址时,通过预置的随机数生成算法得到一组随机数,并对所述实体名称替换对象中的街道号数字进行替换,生成第一中间文本;当实体名称替换对象为机构时,调用预置的检索模型从组织机构名称库中查找预置个数的多个机构名称,过滤与所述实体名称替换对象完全匹配的名称,在剩余机构名称中随机选择一个机构名称进行替换,生成第一中间文本;当实体名称替换对象为日期时,调用预置的开源库并按照标准日期格式对所述实体名称替换对象进行标准化处理,基于标准日期格式随机生成新的日期,将所述新的日期按照原始格式修改并替换,所述原始格式为所述实体名称替换对象标准化处理之前的初始格式,生成第一中间文本;当实体名称替换对象为人名时,基于预置的姓氏提取规则提取出所述实体名称替换对象中的姓氏,并从姓氏数据库中随机选择一个姓氏进行替换,生成第一中间文本。
可选的,在本发明第二方面的第三种实现方式中,所述第二修正模块包括:分析单元,用于调用预置的文本分析模型对所述初始文本中各个问题对应的上下文进行分析,得到上下文的句子数量,所述上下文的句子数量为每个问题对应的上文句子数量和下文句子数量的总和;识别单元,用于当所述上下文的句子数量小于等于第一预设值时,调用预置的词性标注模型识别每一个问题对应答案的句法构成,生成第二中间文本;删除单元,用于当所述上下文的句子数量大于第一预设值且小于等于第二预设值时,删除答案所在的句子,生成第二中间文本;生成单元,用于当所述上下文的句子数量大于第二预设值时,调用答案所在段落的前一段或后一段对所述答案所在段落进行替换,生成第二中间文本。
可选的,在本发明第二方面的第四种实现方式中,所述识别单元具体用于:当所述上下文的句子数量小于等于第一预设值时,调用预置的词性标注模型判断每一个问题对应的答案是否为句子的主干部分;若目标答案属于句子主干部分,则返回处理失败指令并删除所述目标答案及所述目标答案对应的上下文,所述目标答案为多个问题对应的答案中的任意一个答案;若所述目标答案不属于句子主干部分,则删去所述目标答案,得到第二中间文本。
可选的,在本发明第二方面的第五种实现方式中,所述合并模块包括:过滤单元,用于按照第一预置比例将所述第一中间文本和所述第二中间文本进行合并,并调用预置的阅读理解模型对合并后的文本进行过滤和筛选,生成过滤后的文本;合并单元,用于按照第二预置比例将所述过滤后的文本和所述初始文本进行合并,生成目标文本。
可选的,在本发明第二方面的第六种实现方式中,在所述生成目标文本之后,所述装置还包括:训练模块,用于基于所述目标文本训练预置的阅读理解模型,生成新的阅读理解模型。
本发明第三方面提供了一种基于阅读模型的文本处理设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于阅读模型的文本处理设备执行上述的基于阅读模型的文本处理方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的基于阅读模型的文本处理方法。
本发明提供的技术方案中,获取初始文本,所述初始文本包括多个问题、每个问题对应的答案和每个问题对应的上下文;调用预置的阅读模型对所述初始文本中的多个问题进行分析和修正,生成第一中间文本,所述预置的阅读模型包括预置的关键词识别模型、预置的词性标注模型和预置的实体识别模型,所述第一中间文本包括修正后的多个问题以及每个问题对应的上下文;调用预置的文本分析模型对所述初始文本中各个问题对应的上下文进行分析并对所述初始文本中各个问题对应的上下文进行修正,生成第二中间文本,所述第二中间文本包括多个问题以及每个问题对应的修正后的上下文;将所述第一中间文本和所述第二中间文本进行合并和过滤处理,生成过滤后的文本,并将所述过滤后的文本和所述初始文本合并,生成目标文本。本发明实施例中,基于阅读模型生成目标文本,提高了生成文本的质量,降低了成本。
附图说明
图1为本发明实施例中基于阅读模型的文本处理方法的一个实施例示意图;
图2为本发明实施例中基于阅读模型的文本处理方法的另一个实施例示意图;
图3为本发明实施例中基于阅读模型的文本处理装置的一个实施例示意图;
图4为本发明实施例中基于阅读模型的文本处理装置的另一个实施例示意图;
图5为本发明实施例中基于阅读模型的文本处理设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种基于阅读模型的文本处理方法、装置、设备及存储介质,用于基于阅读模型生成目标文本,提高了生成文本的质量,降低了成本。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中基于阅读模型的文本处理方法的一个实施例包括:
101、获取初始文本,初始文本包括多个问题、每个问题对应的答案和每个问题对应的上下文。
服务器获取初始文本,初始文本包括多个问题、每个问题对应的答案和每个问题对应的上下文。在初始文本中,一个问题对应一组答案以及该问题对应的上下文内容,初始文本选取自现有的阅读理解数据集,包括百度开源的DuReader、中文阅读理解大赛数据集CMRC2018、法律文书数据集CAIL等10类中文数据集。
可以理解的是,本发明的执行主体可以为基于阅读模型的文本处理装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
102、调用预置的阅读模型对初始文本中的多个问题进行分析和修正,生成第一中间文本,预置的阅读模型包括预置的关键词识别模型、预置的词性标注模型和预置的实体识别模型,第一中间文本包括修正后的多个问题以及每个问题对应的上下文。
服务器调用预置的阅读模型对初始文本中的多个问题进行分析和修正,生成第一中间文本,预置的阅读模型包括预置的关键词识别模型、预置的词性标注模型和预置的实体识别模型,第一中间文本包括修正后的多个问题以及每个问题对应的上下文。具体的,服务器基于预置的关键词识别模型和正则表达式识别初始文本中的每个问题是否存在预置的关键词,若存在,则定位每个问题对应的目标关键词的位置,生成第一识别结果,第一识别结果包括定位到的多个目标关键词,每个目标关键词的位置以及每个目标关键词对应的上下文内容;服务器判断多个目标关键词的下文是否符合预置的条件,若符合,则进行肯定或否定问题替换,生成第一中间文本;或服务器调用预置的词性标注模型对初始文本中的每个问题进行词性标注,得到多个词性标注结果,识别每个词性标注结果中的核心词,核心词包括名词、动词和形容词;服务器根据预置的反义词词典和预置的反义词替换规则将每个词性标注结果中的核心词分别替换为对应的反义词,生成第一中间文本;或服务器调用预置的实体识别模型对初始文本中的每个问题进行实体名称识别,实体名称包括机构、地址、地点、人名和日期;服务器根据预置的实体名称库和预置的实体名称替换规则对每个问题中识别到的实体名称进行替换,生成第一中间文本,预置的实体名称库包括地点数据库、组织结构名称库和姓氏数据库。
肯定或否定问题的交换主要包括以下几种形式:1、否定形式“不+可以/应/该/应该/能够/能/应当/允许/符合/满足(等)+动词”替换为肯定形式,例如,“这支基金的医药指数配比不能低于资产净值的多少”替换为“这支基金的医药指数配比能低于资产净值的多少”;2、肯定形式“可以/应/该/应该/能够/能/应当/允许/符合/满足(等)+动词”替换为否定形式,例如,“可以向应聘人推荐哪个职位”替换为“不可以向应聘人推荐哪个职位”;3、(在/是)+谁/哪里/哪儿/哪/谁/(什么+地点实体/时间实体/背景实体)替换为否定形式,或该类型否定形式换为肯定形式,例如,“2007年宁波银行在哪里上市”替换为“2007年宁波银行没有在哪里上市”;4、“有+受体短语”替换为“没有+受体短语”,例如,“有过违约记录的发起机构是哪里”替换为“没有过违约记录的发起机构是哪里”;5、提问核心前置情况:“什么/谁+是,谁+有”替换为否定形式,例如,“谁是目前为止这家公司的法定代表人”替换为“谁不是目前为止这家公司的法定代表人”;6、以上五种情况的被动形式,例如,“补助在什么时候能够被确认”替换为“补助在什么时候不能够被确认”;7、以上六种情况的复合情况。
在对问题进行修正之前需要构建反义词词典,反义词词典的构建包括搜索百度百科、互动百科、维基百科、github开源项目上的信息,进行清洗、去重和复核处理,完成反义词词典的构建,可选的,本方案中的反义词词典也可以是包含上下文信息的反义词图谱。服务器对初始文本中的问题进行词性标注之后,识别出问题中的名词、动词和形容词并从反义词词典中查找对应的反义词进行替换,非核心的副词、代词、介词及其它虚词不进行替换,替换的过程遵循最小改动原则,即一旦有一个词语被替换就立刻返回结果,而不是将所有识别到的词语都进行替换,在替换优先级上,以长度大于或等于2的名词最优先,其次为动词,最后为形容词,例如,“这支基金每日的上涨幅度会有限制吗”替换为“这支基金每日的下跌幅度会有限制吗”,此处为动词替换,“当前这笔借款的额度是多少”替换为“当前这笔还款的额度是多少”,此处为名词替换,“基金行业快速发展是受什么政策的影响”替换为“基金行业缓慢发展是受什么政策的影响”,此处为形容词替换。
103、调用预置的文本分析模型对初始文本中各个问题对应的上下文进行分析并对初始文本中各个问题对应的上下文进行修正,生成第二中间文本,第二中间文本包括多个问题以及每个问题对应的修正后的上下文。
服务器调用预置的文本分析模型对初始文本中各个问题对应的上下文进行分析并对初始文本中各个问题对应的上下文进行修正,生成第二中间文本,第二中间文本包括多个问题以及每个问题对应的修正后的上下文。具体的,服务器调用预置的文本分析模型对初始文本中各个问题对应的上下文进行分析,得到上下文的句子数量,上下文的句子数量为每个问题对应的上文句子数量和下文句子数量的总和;当上下文的句子数量小于等于第一预设值时,服务器调用预置的词性标注模型识别每一个问题对应答案的句法构成,生成第二中间文本;当上下文的句子数量大于第一预设值且小于等于第二预设值时,服务器删除答案所在的句子,生成第二中间文本;当上下文的句子数量大于第二预设值时,服务器调用答案所在段落的前一段或后一段对答案所在段落进行替换,生成第二中间文本。
当上下文的句子数量小于等于第一预设值时,调用预置的词性标注模型判断每一个问题对应的答案是否为句子的主干部分;若目标答案属于句子主干部分,则返回处理失败指令并删除目标答案及目标答案对应的上下文,目标答案为多个问题对应的答案中的任意一个答案;若目标答案不属于句子主干部分,则删去目标答案,得到第二中间文本。本实施例中的第一预设值为2,即上下文的句子数量小于等于2时,调用预置的词性标注模型识别每一个问题对应答案的句法构成,若目标答案不属于句子的主干部分,如主谓宾、主系表等,则删去目标答案,例如,上下文包括“该公司以12月为一个营业周期运作,每季度末会进行工作盘点”,问题为“该公司的营业周期是多长”,修改后的上下文为“该公司运作,每季度末会进行工作盘点”,删除的目标答案为“12月为一个营业周期”。若目标答案在主干部分,例如,“中国国际金融股份有限公司成立于1995年7月”,问题为“哪家公司成立于1995年7月”,删除目标答案“中国国际金融股份有限公司”之后,上下文变成“成立于1995年7月”,不能组成完整独立的句子,因此当目标答案在主干部分时,返回处理失败指令并删除目标答案及目标答案对应的上下文,若问题改为“中国国际金融股份有限公司成立于什么时候”,删除不在主干部分的目标答案“1995年7月”后,上下文变成“中国国际金融股份有限公司成立”,修改后该样本成为一个无答案文本,故可以输出无答案问题和对应的上下文。本实施例中的第二预设值为4,当上下文句子数量大于2且小于等于4时,删除答案所在的句子,生成第二中间文本,例如,答案所在句子的上文有1句话,下文有3句话,或答案所在句子的上下文各有2句话;当答案所在句子的上下文句子数量大于4时,随机选择答案所在段落的前一段和后一段进行替换,加上原本的问题输出无答案问题和对应的上下文。
104、将第一中间文本和第二中间文本进行合并和过滤处理,生成过滤后的文本,并将过滤后的文本和初始文本合并,生成目标文本。
服务器将第一中间文本和第二中间文本进行合并和过滤处理,生成过滤后的文本,并将过滤后的文本和初始文本合并,生成目标文本。具体的,服务器按照第一预置比例将第一中间文本和第二中间文本进行合并,并调用预置的阅读理解模型对合并后的文本进行过滤和筛选,生成过滤后的文本;服务器按照第二预置比例将过滤后的文本和初始文本进行合并,生成目标文本。
第一预置比例为9:1,即第一中间文本和第二中间文本的选取比例为9:1,其中,第一中间文本中,肯定或否定问题替换、反义词替换以及实体名称替换所占比例分别为3:2:4,服务器调用预置的阅读理解模型对合并后的文本进行过滤以降低噪声,从而提高文本质量。第二预置比例为7:3,即过滤后的文本和初始文本按7:3的比例混合生成目标文本。
本发明实施例中,基于阅读模型生成目标文本,提高了生成文本的质量,降低了成本。
请参阅图2,本发明实施例中基于阅读模型的文本处理方法的另一个实施例包括:
201、获取初始文本,初始文本包括多个问题、每个问题对应的答案和每个问题对应的上下文。
服务器获取初始文本,初始文本包括多个问题、每个问题对应的答案和每个问题对应的上下文。在初始文本中,一个问题对应一组答案以及该问题对应的上下文内容,初始文本选取自现有的阅读理解数据集,包括百度开源的DuReader、中文阅读理解大赛数据集CMRC2018、法律文书数据集CAIL等10类中文数据集。
202、调用预置的实体识别模型对初始文本中的每个问题进行实体名称识别,实体名称包括机构、地址、地点、人名和日期。
服务器调用预置的实体识别模型对初始文本中的每个问题进行实体名称识别,实体名称包括机构、地址、地点、人名和日期。在对实体名称进行替换之前需要构建预置的实体名称库,包括地点数据库、组织机构名称库和姓氏数据库,替换的过程遵循最小改动原则,即一旦有一个词语被替换就返回结果,实体替换的优先级为地点>地址>机构>日期>人名。
203、根据预置的实体名称库和预置的实体名称替换规则对每个问题中识别到的实体名称进行替换,生成第一中间文本,预置的实体名称库包括地点数据库、组织结构名称库和姓氏数据库。
服务器根据预置的实体名称库和预置的实体名称替换规则对每个问题中识别到的实体名称进行替换,生成第一中间文本,预置的实体名称库包括地点数据库、组织结构名称库和姓氏数据库。具体的,当实体名称替换对象为地点时,服务器从地点数据库中随机选择同一类别的地点进行替换,生成第一中间文本;当实体名称替换对象为地址时,服务器通过预置的随机数生成算法得到一组随机数,并对替换对象中的街道号数字进行替换,生成第一中间文本;当实体名称替换对象为机构时,服务器调用预置的检索模型从组织机构名称库中查找预置个数的多个机构名称,过滤与替换对象完全匹配的名称,在剩余机构名称中随机选择一个机构名称进行替换,生成第一中间文本;当实体名称替换对象为日期时,服务器调用预置的开源库并按照标准日期格式对替换对象进行标准化处理,基于标准日期格式随机生成新的日期,将新的日期按照原始格式修改并替换,原始格式为实体名称替换对象标准化处理之前的初始格式,生成第一中间文本;当实体名称替换对象为人名时,服务器基于预置的姓氏提取规则提取出替换对象中的姓氏,并从姓氏数据库中随机选择一个姓氏进行替换,生成第一中间文本。
地点数据库主要包括世界各地行政区划数据库,国内地图具体到省、市/县、区/乡/镇/、村等,按照区划组织存储等级,当识别到地点实体时,随机选择该地点同层级的另一个地点替换,例如,“江苏省南京市玄武区”替换为“广东省深圳市南山区”;当识别出地址实体时,其中的地点部分不做更改,街道号部分的数字则由随机生成的数字替换;当识别出机构实体时,利用ElasticeSearch模糊查找出10个符合当前机构的名称,去掉完全匹配的名称,在剩下的名称里随机取一个替换;当识别到日期实体时,首先利用开源库Duckling或正则表达式规范化为yyyy-mm-dd格式,其中,y指年份,m指月份,d指日,并随机生成一个规范格式的新日期,年份在前后十年范围内随机选值,月份在前后三个月内随机选值,日期根据具体月份在28至31日的范围内随机选值,最后将新生成的规范日期格式按照原始格式修改并替换;当识别到中文人名实体时,利用姓氏提取规则区分并提取出单姓和复姓,并从姓氏数据库中随机选择一个姓氏进行替换。
204、调用预置的文本分析模型对初始文本中各个问题对应的上下文进行分析并对初始文本中各个问题对应的上下文进行修正,生成第二中间文本,第二中间文本包括多个问题以及每个问题对应的修正后的上下文。
服务器对调用预置的文本分析模型对初始文本中各个问题对应的上下文进行分析并对初始文本中各个问题对应的上下文进行修正,生成第二中间文本,第二中间文本包括多个问题以及每个问题对应的修正后的上下文。具体的,服务器调用预置的文本分析模型对初始文本中各个问题对应的上下文进行分析,得到上下文的句子数量,上下文的句子数量为每个问题对应的上文句子数量和下文句子数量的总和;当上下文的句子数量小于等于第一预设值时,服务器调用预置的词性标注模型识别每一个问题对应答案的句法构成,生成第二中间文本;当上下文的句子数量大于第一预设值且小于等于第二预设值时,服务器删除答案所在的句子,生成第二中间文本;当上下文的句子数量大于第二预设值时,服务器调用答案所在段落的前一段或后一段对答案所在段落进行替换,生成第二中间文本。
当上下文的句子数量小于等于第一预设值时,调用预置的词性标注模型判断每一个问题对应的答案是否为句子的主干部分;若目标答案属于句子主干部分,则返回处理失败指令并删除目标答案及目标答案对应的上下文,目标答案为多个问题对应的答案中的任意一个答案;若目标答案不属于句子主干部分,则删去目标答案,得到第二中间文本。本实施例中的第一预设值为2,即上下文的句子数量小于等于2时,调用预置的词性标注模型识别每一个问题对应答案的句法构成,若目标答案不属于句子的主干部分,如主谓宾、主系表等,则删去目标答案,例如,上下文包括“该公司以12月为一个营业周期运作,每季度末会进行工作盘点”,问题为“该公司的营业周期是多长”,修改后的上下文为“该公司运作,每季度末会进行工作盘点”,删除的目标答案为“12月为一个营业周期”。若目标答案在主干部分,例如,“中国国际金融股份有限公司成立于1995年7月”,问题为“哪家公司成立于1995年7月”,删除目标答案“中国国际金融股份有限公司”之后,上下文变成“成立于1995年7月”,不能组成完整独立的句子,因此当目标答案在主干部分时,返回处理失败指令并删除目标答案及目标答案对应的上下文,若问题改为“中国国际金融股份有限公司成立于什么时候”,删除不在主干部分的目标答案“1995年7月”后,上下文变成“中国国际金融股份有限公司成立”,修改后该样本成为一个无答案文本,故可以输出无答案问题和对应的上下文。本实施例中的第二预设值为4,当上下文句子数量大于2且小于等于4时,删除答案所在的句子,生成第二中间文本,例如,答案所在句子的上文有1句话,下文有3句话,或答案所在句子的上下文各有2句话;当答案所在句子的上下文句子数量大于4时,随机选择答案所在段落的前一段和后一段进行替换,加上原本的问题输出无答案问题和对应的上下文。
205、将第一中间文本和第二中间文本进行合并和过滤处理,生成过滤后的文本,并将过滤后的文本和初始文本合并,生成目标文本。
服务器将第一中间文本和第二中间文本进行合并和过滤处理,生成过滤后的文本,并将过滤后的文本和初始文本合并,生成目标文本。具体的,服务器按照第一预置比例将第一中间文本和第二中间文本进行合并,并调用预置的阅读理解模型对合并后的文本进行过滤和筛选,生成过滤后的文本;服务器按照第二预置比例将过滤后的文本和初始文本进行合并,生成目标文本。
第一预置比例为9:1,即第一中间文本和第二中间文本的选取比例为9:1,其中,第一中间文本中,肯定或否定问题替换、反义词替换以及实体名称替换所占比例分别为3:2:4,服务器调用预置的阅读理解模型对合并后的文本进行过滤以降低噪声,从而提高数据质量。第二预置比例为7:3,即过滤后的文本和初始文本按7:3的比例混合生成目标文本。
本发明实施例中,基于阅读模型生成目标文本,提高了生成文本的质量,降低了成本。
上面对本发明实施例中基于阅读模型的文本处理方法进行了描述,下面对本发明实施例中基于阅读模型的文本处理装置进行描述,请参阅图3,本发明实施例中基于阅读模型的文本处理装置的一个实施例包括:
获取模块301,用于获取初始文本,初始文本包括多个问题、每个问题对应的答案和每个问题对应的上下文;
第一修正模块302,用于调用预置的阅读模型对初始文本中的多个问题进行分析和修正,生成第一中间文本,预置的阅读模型包括预置的关键词识别模型、预置的词性标注模型和预置的实体识别模型,第一中间文本包括修正后的多个问题以及每个问题对应的上下文;
第二修正模块303,用于调用预置的文本分析模型对所述初始文本中各个问题对应的上下文进行分析并对初始文本中各个问题对应的上下文进行修正,生成第二中间文本,第二中间文本包括多个问题以及每个问题对应的修正后的上下文;
合并模块304,用于将第一中间文本和第二中间文本进行合并和过滤处理,生成过滤后的文本,并将过滤后的文本和初始文本合并,生成目标文本。
本发明实施例中,基于阅读模型生成目标文本,提高了生成文本的质量,降低了成本。
请参阅图4,本发明实施例中基于阅读模型的文本处理装置的另一个实施例包括:
获取模块301,用于获取初始文本,初始文本包括多个问题、每个问题对应的答案和每个问题对应的上下文;
第一修正模块302,用于调用预置的阅读模型对初始文本中的多个问题进行分析和修正,生成第一中间文本,预置的阅读模型包括预置的关键词识别模型、预置的词性标注模型和预置的实体识别模型,第一中间文本包括修正后的多个问题以及每个问题对应的上下文;
第二修正模块303,用于调用预置的文本分析模型对所述初始文本中各个问题对应的上下文进行分析并对初始文本中各个问题对应的上下文进行修正,生成第二中间文本,第二中间文本包括多个问题以及每个问题对应的修正后的上下文;
合并模块304,用于将第一中间文本和第二中间文本进行合并和过滤处理,生成过滤后的文本,并将过滤后的文本和初始文本合并,生成目标文本。
可选的,第一修正模块302包括:
第一识别单元3021,用于基于预置的关键词识别模型和正则表达式识别初始文本中的每个问题是否存在预置的关键词,若存在,则定位每个问题对应的目标关键词的位置,生成第一识别结果,第一识别结果包括定位到的多个目标关键词,每个目标关键词的位置以及每个目标关键词对应的上下文内容;
判断单元3022,用于判断多个目标关键词的下文是否符合预置的条件,若符合,则进行肯定或否定问题替换,生成第一中间文本;
或词性标注单元3023,用于调用预置的词性标注模型对初始文本中的每个问题进行词性标注,得到多个词性标注结果,识别每个词性标注结果中的核心词,核心词包括名词、动词和形容词;
第一替换单元3024,用于根据预置的反义词词典和预置的反义词替换规则将每个词性标注结果中的核心词分别替换为对应的反义词,生成第一中间文本;
或第二识别单元3025,用于调用预置的实体识别模型对初始文本中的每个问题进行实体名称识别,实体名称包括机构、地址、地点、人名和日期;
第二替换单元3026,用于根据预置的实体名称库和预置的实体名称替换规则对每个问题中识别到的实体名称进行替换,生成第一中间文本,预置的实体名称库包括地点数据库、组织结构名称库和姓氏数据库。
可选的,第二替换单元3026还可以具体用于:
当实体名称替换对象为地点时,从地点数据库中随机选择同一类别的地点进行替换,生成第一中间文本;当实体名称替换对象为地址时,通过预置的随机数生成算法得到一组随机数,并对实体名称替换对象中的街道号数字进行替换,生成第一中间文本;当实体名称替换对象为机构时,调用预置的检索模型从组织机构名称库中查找预置个数的多个机构名称,过滤与实体名称替换对象完全匹配的名称,在剩余机构名称中随机选择一个机构名称进行替换,生成第一中间文本;当实体名称替换对象为日期时,调用预置的开源库并按照标准日期格式对实体名称替换对象进行标准化处理,基于标准日期格式随机生成新的日期,将新的日期按照原始格式修改并替换,原始格式为实体名称替换对象标准化处理之前的初始格式,生成第一中间文本;当实体名称替换对象为人名时,基于预置的姓氏提取规则提取出实体名称替换对象中的姓氏,并从姓氏数据库中随机选择一个姓氏进行替换,生成第一中间文本。
可选的,第二修正模块303包括:
分析单元3031,用于调用预置的文本分析模型对初始文本中各个问题对应的上下文进行分析,得到上下文的句子数量,上下文的句子数量为每个问题对应的上文句子数量和下文句子数量的总和;
识别单元3032,用于当上下文的句子数量小于等于第一预设值时,调用预置的词性标注模型识别每一个问题对应答案的句法构成,生成第二中间文本;
删除单元3033,用于当上下文的句子数量大于第一预设值且小于等于第二预设值时,删除答案所在的句子,生成第二中间文本;
生成单元3034,用于当上下文的句子数量大于第二预设值时,调用答案所在段落的前一段或后一段对答案所在段落进行替换,生成第二中间文本。
可选的,识别单元3032还可以具体用于:
当上下文的句子数量小于等于第一预设值时,调用预置的词性标注模型判断每一个问题对应的答案是否为句子的主干部分;若目标答案属于句子主干部分,则返回处理失败指令并删除目标答案及目标答案对应的上下文,目标答案为多个问题对应的答案中的任意一个答案;若目标答案不属于句子主干部分,则删去目标答案,得到第二中间文本。
可选的,合并模块304包括:
过滤单元3041,用于按照第一预置比例将第一中间文本和第二中间文本进行合并,并调用预置的阅读理解模型对合并后的文本进行过滤和筛选,生成过滤后的文本;
合并单元3042,用于按照第二预置比例将过滤后的文本和初始文本进行合并,生成目标文本。
可选的,基于阅读模型的文本处理装置还包括:
训练模块305,用于基于目标文本训练预置的阅读理解模型,生成新的阅读理解模型。
本发明实施例中,基于阅读模型生成目标文本,提高了生成文本的质量,降低了成本。
上面图3和图4从模块化功能实体的角度对本发明实施例中的基于阅读模型的文本处理装置进行详细描述,下面从硬件处理的角度对本发明实施例中基于阅读模型的文本处理设备进行详细描述。
图5是本发明实施例提供的一种基于阅读模型的文本处理设备的结构示意图,该基于阅读模型的文本处理设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对基于阅读模型的文本处理设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在基于阅读模型的文本处理设备500上执行存储介质530中的一系列指令操作。
基于阅读模型的文本处理设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的基于阅读模型的文本处理设备结构并不构成对基于阅读模型的文本处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种基于阅读模型的文本处理设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述基于阅读模型的文本处理方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述基于阅读模型的文本处理方法的步骤。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种基于阅读模型的文本处理方法,其特征在于,所述基于阅读模型的文本处理方法包括:
获取初始文本,所述初始文本包括多个问题、每个问题对应的答案和每个问题对应的上下文;
调用预置的阅读模型对所述初始文本中的多个问题进行分析和修正,生成第一中间文本,所述预置的阅读模型包括预置的关键词识别模型、预置的词性标注模型和预置的实体识别模型,所述第一中间文本包括修正后的多个问题以及所述修正后的多个问题中每个问题对应的上下文;
调用预置的文本分析模型对所述初始文本中各个问题对应的上下文进行分析并对所述初始文本中各个问题对应的上下文进行修正,生成第二中间文本,所述第二中间文本包括所述初始文本中的多个问题以及所述初始文本中每个问题对应的修正后的上下文;
将所述第一中间文本和所述第二中间文本进行合并和过滤处理,生成过滤后的文本,并将所述过滤后的文本和所述初始文本合并,生成目标文本;
所述调用预置的文本分析模型对所述初始文本中各个问题对应的上下文进行分析并对所述初始文本中各个问题对应的上下文进行修正,生成第二中间文本,所述第二中间文本包括所述初始文本中的多个问题以及所述初始文本中每个问题对应的修正后的上下文包括:
调用预置的文本分析模型对所述初始文本中各个问题对应的上下文进行分析,得到上下文的句子数量,所述上下文的句子数量为每个问题对应的上文句子数量和下文句子数量的总和;
当所述上下文的句子数量小于等于第一预设值时,调用预置的词性标注模型识别每一个问题对应答案的句法构成,生成第二中间文本;
当所述上下文的句子数量大于第一预设值且小于等于第二预设值时,删除答案所在的句子,生成第二中间文本;
当所述上下文的句子数量大于第二预设值时,调用答案所在段落的前一段或后一段对所述答案所在段落进行替换,生成第二中间文本。
2.根据权利要求1所述的基于阅读模型的文本处理方法,其特征在于,所述调用预置的阅读模型对所述初始文本中的多个问题进行分析和修正,生成第一中间文本,所述预置的阅读模型包括预置的关键词识别模型、预置的词性标注模型和预置的实体识别模型,所述第一中间文本包括修正后的多个问题以及每个问题对应的上下文包括:
基于预置的关键词识别模型和正则表达式识别所述初始文本中的每个问题是否存在预置的关键词,若存在,则定位每个问题对应的目标关键词的位置,生成第一识别结果,所述第一识别结果包括定位到的多个目标关键词,每个目标关键词的位置以及所述每个目标关键词对应的上下文内容;
判断所述多个目标关键词的下文是否符合预置的条件,若符合,则进行肯定或否定问题替换,生成第一中间文本;
或调用预置的词性标注模型对所述初始文本中的每个问题进行词性标注,得到多个词性标注结果,识别每个词性标注结果中的核心词,所述核心词包括名词、动词和形容词;
根据预置的反义词词典和预置的反义词替换规则将所述每个词性标注结果中的核心词分别替换为对应的反义词,生成第一中间文本;
或调用预置的实体识别模型对所述初始文本中的每个问题进行实体名称识别,所述实体名称包括机构、地址、地点、人名和日期;
根据预置的实体名称库和预置的实体名称替换规则对每个问题中识别到的实体名称进行替换,生成第一中间文本,所述预置的实体名称库包括地点数据库、组织结构名称库和姓氏数据库。
3.根据权利要求2所述的基于阅读模型的文本处理方法,其特征在于,所述根据预置的实体名称库和预置的实体名称替换规则对每个问题中识别到的实体名称进行替换,生成第一中间文本,所述预置的实体名称库包括地点数据库、组织结构名称库和姓氏数据库包括:
当实体名称替换对象为地点时,从地点数据库中随机选择同一类别的地点进行替换,生成第一中间文本;
当实体名称替换对象为地址时,通过预置的随机数生成算法得到一组随机数,并对所述实体名称替换对象中的街道号数字进行替换,生成第一中间文本;
当实体名称替换对象为机构时,调用预置的检索模型从组织机构名称库中查找预置个数的多个机构名称,过滤与所述实体名称替换对象完全匹配的名称,在剩余机构名称中随机选择一个机构名称进行替换,生成第一中间文本;
当实体名称替换对象为日期时,调用预置的开源库并按照标准日期格式对所述实体名称替换对象进行标准化处理,基于标准日期格式随机生成新的日期,将所述新的日期按照原始格式修改并替换,所述原始格式为所述实体名称替换对象标准化处理之前的初始格式,生成第一中间文本;
当实体名称替换对象为人名时,基于预置的姓氏提取规则提取出所述实体名称替换对象中的姓氏,并从姓氏数据库中随机选择一个姓氏进行替换,生成第一中间文本。
4.根据权利要求1所述的基于阅读模型的文本处理方法,其特征在于,所述当所述上下文的句子数量小于等于第一预设值时,调用预置的词性标注模型识别每一个问题对应答案的句法构成,生成第二中间文本包括:
当所述上下文的句子数量小于等于第一预设值时,调用预置的词性标注模型判断每一个问题对应的答案是否为句子的主干部分;
若目标答案属于句子主干部分,则返回处理失败指令并删除所述目标答案及所述目标答案对应的上下文,所述目标答案为多个问题对应的答案中的任意一个答案;
若所述目标答案不属于句子主干部分,则删去所述目标答案,得到第二中间文本。
5.根据权利要求1所述的基于阅读模型的文本处理方法,其特征在于,所述将所述第一中间文本和所述第二中间文本进行合并和过滤处理,生成过滤后的文本,并将所述过滤后的文本和所述初始文本合并,生成目标文本包括:
按照第一预置比例将所述第一中间文本和所述第二中间文本进行合并,并调用预置的阅读理解模型对合并后的文本进行过滤和筛选,生成过滤后的文本;
按照第二预置比例将所述过滤后的文本和所述初始文本进行合并,生成目标文本。
6.根据权利要求1-5中任一项所述的基于阅读模型的文本处理方法,其特征在于,在所述生成目标文本之后,所述方法还包括:
基于所述目标文本训练预置的阅读理解模型,生成新的阅读理解模型。
7.一种基于阅读模型的文本处理装置,其特征在于,所基于阅读模型的文本处理装置包括:
获取模块,用于获取初始文本,所述初始文本包括多个问题、每个问题对应的答案和每个问题对应的上下文;
第一修正模块,用于调用预置的阅读模型对所述初始文本中的多个问题进行分析和修正,生成第一中间文本,所述预置的阅读模型包括预置的关键词识别模型、预置的词性标注模型和预置的实体识别模型,所述第一中间文本包括修正后的多个问题以及所述修正后的多个问题中每个问题对应的上下文;
第二修正模块,用于调用预置的文本分析模型对所述初始文本中各个问题对应的上下文进行分析并对所述初始文本中各个问题对应的上下文进行修正,生成第二中间文本,所述第二中间文本包括所述初始文本中的多个问题以及所述初始文本中每个问题对应的修正后的上下文;
合并模块,用于将所述第一中间文本和所述第二中间文本进行合并和过滤处理,生成过滤后的文本,并将所述过滤后的文本和所述初始文本合并,生成目标文本;
所述调用预置的文本分析模型对所述初始文本中各个问题对应的上下文进行分析并对所述初始文本中各个问题对应的上下文进行修正,生成第二中间文本,所述第二中间文本包括所述初始文本中的多个问题以及所述初始文本中每个问题对应的修正后的上下文包括:
调用预置的文本分析模型对所述初始文本中各个问题对应的上下文进行分析,得到上下文的句子数量,所述上下文的句子数量为每个问题对应的上文句子数量和下文句子数量的总和;
当所述上下文的句子数量小于等于第一预设值时,调用预置的词性标注模型识别每一个问题对应答案的句法构成,生成第二中间文本;
当所述上下文的句子数量大于第一预设值且小于等于第二预设值时,删除答案所在的句子,生成第二中间文本;
当所述上下文的句子数量大于第二预设值时,调用答案所在段落的前一段或后一段对所述答案所在段落进行替换,生成第二中间文本。
8.一种基于阅读模型的文本处理设备,其特征在于,所述基于阅读模型的文本处理设备包括:
存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于阅读模型的文本处理设备执行如权利要求1-6中任意一项所述的基于阅读模型的文本处理方法。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-6中任一项所述基于阅读模型的文本处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110433843.0A CN113065332B (zh) | 2021-04-22 | 2021-04-22 | 基于阅读模型的文本处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110433843.0A CN113065332B (zh) | 2021-04-22 | 2021-04-22 | 基于阅读模型的文本处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113065332A CN113065332A (zh) | 2021-07-02 |
CN113065332B true CN113065332B (zh) | 2023-05-12 |
Family
ID=76567343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110433843.0A Active CN113065332B (zh) | 2021-04-22 | 2021-04-22 | 基于阅读模型的文本处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113065332B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428467A (zh) * | 2020-02-19 | 2020-07-17 | 平安科技(深圳)有限公司 | 生成阅读理解的问题题目的方法、装置、设备及存储介质 |
CN112329435A (zh) * | 2020-11-27 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备以及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150199400A1 (en) * | 2014-01-15 | 2015-07-16 | Konica Minolta Laboratory U.S.A., Inc. | Automatic generation of verification questions to verify whether a user has read a document |
CN111046152B (zh) * | 2019-10-12 | 2023-09-29 | 平安科技(深圳)有限公司 | Faq问答对自动构建方法、装置、计算机设备及存储介质 |
CN110795552B (zh) * | 2019-10-22 | 2024-01-23 | 腾讯科技(深圳)有限公司 | 一种训练样本生成方法、装置、电子设备及存储介质 |
CN111078892B (zh) * | 2019-11-25 | 2023-05-23 | 百度在线网络技术(北京)有限公司 | 对抗样本生成方法、装置、电子设备及存储介质 |
CN111160034B (zh) * | 2019-12-31 | 2024-02-27 | 东软集团股份有限公司 | 一种实体词的标注方法、装置、存储介质及设备 |
CN112380848B (zh) * | 2020-11-19 | 2022-04-26 | 平安科技(深圳)有限公司 | 文本生成方法、装置、设备及存储介质 |
CN112597307A (zh) * | 2020-12-23 | 2021-04-02 | 深圳壹账通智能科技有限公司 | 人物动作相关数据的提取方法、装置、设备及存储介质 |
-
2021
- 2021-04-22 CN CN202110433843.0A patent/CN113065332B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428467A (zh) * | 2020-02-19 | 2020-07-17 | 平安科技(深圳)有限公司 | 生成阅读理解的问题题目的方法、装置、设备及存储介质 |
CN112329435A (zh) * | 2020-11-27 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113065332A (zh) | 2021-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ruokolainen et al. | A Finnish news corpus for named entity recognition | |
Al‐Sughaiyer et al. | Arabic morphological analysis techniques: A comprehensive survey | |
US20060224379A1 (en) | Method of finding answers to questions | |
CN108922633A (zh) | 一种疾病名称标准化规范方法及规范系统 | |
Bjarnadóttir | The database of modern Icelandic inflection (Beygingarlýsing íslensks nútímamáls) | |
Zirn et al. | Multidimensional topic analysis in political texts | |
US20050071365A1 (en) | Method for keyword correlation analysis | |
RU2544739C1 (ru) | Способ преобразования структурированного массива данных | |
CN112380848B (zh) | 文本生成方法、装置、设备及存储介质 | |
Candaş et al. | Automated identification of vagueness in the FIDIC Silver Book conditions of contract | |
Ash et al. | Unsupervised extraction of workplace rights and duties from collective bargaining agreements | |
CN112149387A (zh) | 财务数据的可视化方法、装置、计算机设备及存储介质 | |
CN113065332B (zh) | 基于阅读模型的文本处理方法、装置、设备及存储介质 | |
Golgher et al. | Bootstrapping for example-based data extraction | |
Terblanche et al. | Ontology‐based employer demand management | |
Chakraborty et al. | Automating the process of taxonomy creation and comparison of taxonomy structures | |
Suriyachay et al. | Thai named entity tagged corpus annotation scheme and self verification | |
CN118349635B (zh) | 一种机构名称校对方法、装置、设备、介质及程序产品 | |
JP3416918B2 (ja) | キーワード自動抽出方法および装置 | |
US20240095466A1 (en) | Method and system for document structure based unsupervised long-form technical question generation | |
Peng | Research on Corpus Construction of Legal English Teaching Based on Data-Driven Learning | |
Zhang et al. | LanguageTool proofreading rules evolution and update | |
RU2571406C1 (ru) | Способ двухуровневого поиска информации в предварительно преобразованном структурированном массиве данных | |
Saquete et al. | Automatic resolution rule assignment to multilingual Temporal Expressions using annotated corpora | |
Dartt | Evaluating Semantic Matching Techniques for Technical Documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40050557 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |