CN114417827A - 文本上下文处理方法、装置、电子设备和存储介质 - Google Patents
文本上下文处理方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN114417827A CN114417827A CN202210107962.1A CN202210107962A CN114417827A CN 114417827 A CN114417827 A CN 114417827A CN 202210107962 A CN202210107962 A CN 202210107962A CN 114417827 A CN114417827 A CN 114417827A
- Authority
- CN
- China
- Prior art keywords
- text
- target
- unit
- processed
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本公开关于一种文本上下文处理方法、装置、电子设备和存储介质,涉及计算机技术领域。该方法包括:获取待处理文本,响应于用户精简文本的下文操作,将待处理文本输入语法分析树统计模型,匹配过滤规则,删除低权重的文本单元,生成精简文本;其中,待处理文本中包括多个文本单元,文本单元为词语或短语,响应于用户新增文本的上文操作,获取新增文本单元,确定新增文本单元对应的在待处理文本中的目标位置,将新增文本单元添加至目标位置,生成新增文本。由此,用户可交替进行上下文操作获取文本的语境信息,上下文操作实现了文本从繁入简、由简入繁的双向操作,方便用户建立全局观、训练语感,达到快速掌握语言的目的。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种文本上下文处理方法、装置、电子设备和存储介质。
背景技术
自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
相关技术中,用户通过阅读文章训练语感进行语言学习,但是文章中通常采用较长的语句以表达丰富的含义,对于用户来说,过长的语句很难抓住重点,使得语言学习的难度增加。
发明内容
本公开提供一种文本上下文处理方法、装置、电子设备和存储介质,以至少解决相关技术中过长的语句用户难以抓住重点,语言学习的难度较高的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种文本上下文处理方法,包括:获取待处理文本;响应于用户精简文本的下文操作,将所述待处理文本输入至语法分析树统计模型,获取目标文本单元,删除所述待处理文本中的目标文本单元,生成精简文本;其中,所述待处理文本中包括多个文本单元,所述文本单元为词语或短语;响应于用户新增文本的上文操作,获取新增文本单元,确定所述新增文本单元对应的在所述待处理文本中的目标位置,将所述新增文本单元添加至所述目标位置,生成新增文本。
在一些实施例中,所述响应于用户精简文本的下文操作,将所述待处理文本输入至语法分析树统计模型,获取目标文本单元,删除所述待处理文本中的目标文本单元,生成精简文本下文操作,包括:将所述待处理文本输入至语法分析树统计模型,获取与所述待处理文本匹配的目标语法规则;根据所述目标语法规则,获取所述待处理文本对应的多个文本单元,以及所述文本单元对应的权重等级;在根据所述权重等级,确定存在所述目标文本单元的情况下,响应于用户精简文本的下文操作,删除所述待处理文本中的所述目标文本单元,生成所述精简文本。
在一些实施例中,所述在根据所述权重等级,确定存在所述目标文本单元的情况下,响应于用户精简文本的下文操作,删除所述待处理文本中的所述目标文本单元,生成所述精简文本,包括:
在根据所述权重等级,确定存在N个等级的文本单元的情况下,响应于用户第一次精简文本的下文操作,根据所述权重等级,确定所述待处理文本中的所述权重等级为第一等级的文本单元为目标文本单元,删除目标文本单元,生成第一精简文本;其中,N为大于3的整数;响应于用户第二次精简文本的下文操作,根据所述权重等级,确定所述第一精简文本中所述权重等级为第二等级的文本单元为目标文本单元,删除目标文本单元,生成第二精简文本;以此类推,直至响应于用户第N-1次精简文本的下文操作,根据所述权重等级,确定所述第N-2精简文本中所述权重等级为第N-1等级的文本单元为目标文本单元,删除目标文本单元,生成所述精简文本。
在一些实施例中,所述方法,还包括:在根据所述权重等级,确定不存在所述目标文本单元的情况下,提示所述待处理文本为精简文本并退出。
在一些实施例中,所述方法,还包括:将所述精简文本输入至所述语法分析树统计模型,在存在匹配的语法规则的情况下,向用户提供所述精简文本;在不存在匹配的语法规则的情况下,提示精简文本错误并退出。
在一些实施例中,所述响应于用户新增文本的上文操作,获取新增文本单元,确定所述新增文本单元对应的在所述待处理文本中的目标位置,将所述新增文本单元添加至所述目标位置,生成新增文本,包括:
响应于用户新增文本的上文操作,将所述待处理文本按照预设条件划分为至少一个文本单元序列;将所述文本单元序列输入至训练好的词向量模型,预测得到新增文本单元;遍历所述待处理文本,确定所述新增文本单元对应的在所述待处理文本中的第一预留位置;将所述新增文本单元添加至所述待处理文本的所述第一预留位置,生成新增文本。
在一些实施例中,所述方法,还包括:将所述新增文本输入至所述语法分析树统计模型,在存在匹配的语法规则的情况下,向用户提供所述新增文本;在不存在匹配的语法规则的情况下,提示新增文本错误并退出。
在一些实施例中,所述方法,还包括:获取所述新增文本中包括的文本单元的第一数目;在所述第一数目大于第一预设阈值的情况下,响应于用户新增文本的上文操作,提示新增文本达上限并退出。
在一些实施例中,所述方法,还包括:响应于用户生成文本的第一上文操作,将所述待处理文本输入至语法分析树统计模型,获取所述待处理文本包括的语法规则;将所述语法规则匹配目标语句库进行目标约束,根据所述语法规则和所述目标语句库中的语句库语法规则,构建新增语法规则;其中,所述新增语法规则与所述语法规则构成父子关系或兄弟关系;根据所述新增语法规则,从专用词库中获取多个生成文本单元,以及确定所述生成文本单元对应在所述待处理文本中的第二预留位置;将所述生成文本单元添加至所述待处理文本的所述第二预留位置,获取多个生成文本;获取目标语句库中的多个目标语句;将所述生成文本分别与所述目标语句进行相似度计算,从多个所述生成文本中确定一个作为目标生成文本。
在一些实施例中,所述方法,还包括:获取语料数据;对所述语料数据进行处理,获取多个目标语句;对所述目标语句进行汇总,生成所述目标语句库;对所述目标语句进行处理,获取词语与词性的对应关系;对所述对应关系进行汇总,生成所述专用词库。
在一些实施例中,所述方法,还包括:将所述目标生成文本输入至所述语法分析树统计模型,在存在匹配的语法规则的情况下,向用户提供所述目标生成文本;在不存在匹配的语法规则的情况下,提示生成文本错误并退出。
在一些实施例中,所述方法,还包括:获取所述目标生成文本中包括的文本单元的第二数目;在所述第二数目大于第二预设阈值的情况下,响应于用户生成文本的第一上文操作,提示生成文本达上限并退出。
在一些实施例中,所述方法,还包括:响应于用户替换文本的第二上文操作,将所述目标文本单元输入至训练好的词向量模型,获取替换文本单元,将所述替换文本单元添加至所述目标文本单元在所述待处理文本中的第三预留位置,生成替换文本;其中,所述替换文本单元与所述目标文本单元对应的文本向量相似度最大。
在一些实施例中,所述响应于用户替换文本的第二上文操作,将所述目标文本单元输入至训练好的词向量模型,获取替换文本单元,将所述替换文本单元添加至所述目标文本单元在所述待处理文本中的第三预留位置,生成替换文本,包括:
在存在N个等级的文本单元,响应于用户第N-1次精简文本的下文操作,根据权重等级,确定第N-2精简文本中所述权重等级为第N-1等级的文本单元为目标文本单元,删除目标文本单元,生成所述精简文本的情况下,响应于用户第一次替换文本的第二上文操作,将第一等级的目标文本单元输入至训练好的词向量模型,获取第一等级的目标替换文本单元,将第一等级的目标替换文本单元添加至第一等级的目标文本单元在所述精简文本中的第三预留位置,生成第一替换文本;响应于用户第二次替换文本的第二上文操作,将第二等级的目标文本单元输入至训练好的词向量模型,获取第二等级的目标替换文本单元,将第二等级的目标替换文本单元添加至第二等级的目标文本单元在第一替换文本中的第三预留位置,生成第二替换文本;以此类推,直至响应于用户第N-1次替换文本的第二上文操作,将第N-1等级的目标文本单元输入至训练好的词向量模型,获取第N-1等级的目标替换文本单元,将第N-1等级的目标替换文本单元添加至第N-1等级的目标文本单元在第N-2替换文本中的第三预留位置,生成所述替换文本。
在一些实施例中,所述方法,还包括:将所述替换文本输入至所述语法分析树统计模型,在存在匹配的语法规则的情况下,向用户提供所述新增文本;在不存在匹配的语法规则的情况下,提示替换文本错误并退出。
在一些实施例中,所述方法,还包括:获取语料文本;将所述语料文本输入至基于成分分析的语法分析模型,生成语法分析树,自底向上解析所述语法分析树,生成表格结构,得到语法分析树库;其中,所述语法分析树库中包括多个语料文本单元;表格结构包括父子节点的关系和兄弟节点的关系;对所述语料文本单元赋予权重,生成所述语法分析树统计模型。
在一些实施例中,所述方法,还包括:获取训练数据集;将所述训练数据集输入至词向量模型,对所述词向量模型进行训练,生成训练好的词向量模型。
根据本公开实施例的第二方面,提供一种文本上下文处理装置,包括:文本获取单元,用于获取待处理文本;第一处理单元,用于响应于用户精简文本的下文操作,将所述待处理文本输入至语法分析树统计模型,获取目标文本单元,删除所述待处理文本中的目标文本单元,生成精简文本;其中,所述待处理文本中包括多个文本单元,所述文本单元为词语或短语;第二处理单元,用于响应于用户新增文本的上文操作,获取新增文本单元,确定所述新增文本单元对应的在所述待处理文本中的目标位置,将所述新增文本单元添加至所述目标位置,生成新增文本。
根据本公开实施例的第三方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如上述第一方面所述的文本上下文处理方法。
根据本公开实施例的第四方面,提供一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述第一方面所述的文本上下文处理方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上面第一方面所述的文本上下文处理方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
通过实施本公开实施例,获取待处理文本,响应于用户精简文本的下文操作,将待处理文本输入至语法分析树统计模型,获取目标文本单元,删除待处理文本中的目标文本单元,生成精简文本;其中,待处理文本中包括多个文本单元,文本单元为词语或短语,响应于用户新增文本的上文操作,获取新增文本单元,确定新增文本单元对应的在待处理文本中的目标位置,将新增文本单元添加至目标位置,生成新增文本。由此,在不破坏原有的语法关系的基础上进行文本删除,能够生成符合语法规范的精简文本,使得精简后的文本结构更加清晰,同时能够进行文本新增,丰富语言学习的内容,方便用户学习。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种文本上下文处理方法的流程图;
图2是根据一示例性实施例示出的一种文本上下文处理方法中S2的流程图;
图3是根据一示例性实施例示出的一种语法分析树的结构图;
图4是根据一示例性实施例示出的一种文本上下文处理方法中S3的流程图;
图5是根据一示例性实施例示出的另一种文本上下文处理方法的流程图;
图6是根据一示例性实施例示出的又一种文本上下文处理方法的流程图;
图7是根据一示例性实施例示出的一种文本上下文处理方法中S100的流程图;
图8是根据一示例性实施例示出的一种文本上下文处理装置的结构图;
图9是根据一示例性实施例示出的一种文本上下文处理装置中一种第一处理单元的结构图;
图10是根据一示例性实施例示出的一种文本上下文处理装置中精简文本生成模块的结构图;
图11是根据一示例性实施例示出的一种文本上下文处理装置中另一种第一处理单元的结构图;
图12是根据一示例性实施例示出的一种文本上下文处理装置中一种第二处理单元的结构图;
图13是根据一示例性实施例示出的一种文本上下文处理装置中另一种第二处理单元的结构图;
图14是根据一示例性实施例示出的一种文本上下文处理装置中又一种第二处理单元的结构图;
图15是根据一示例性实施例示出的另一种文本上下文处理装置的结构图;
图16是根据一示例性实施例示出的又一种文本上下文处理装置的结构图;
图17是根据一示例性实施例示出的又一种文本上下文处理装置的结构图;
图18是根据一示例性实施例示出的又一种文本上下文处理装置的结构图;
图19是根据一示例性实施例示出的又一种文本上下文处理装置的结构图;
图20是根据一示例性实施例示出的又一种文本上下文处理装置中替换文本生成单元的结构图;
图21是根据一示例性实施例示出的又一种文本上下文处理装置的结构图;
图22是根据一示例性实施例示出的又一种文本上下文处理装置的结构图;
图23是根据一示例性实施例示出的又一种文本上下文处理装置的结构图;
图24是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
除非文中另有要求,否则,在整个说明书和权利要求书中,术语“包括”被解释为开放、包含的意思,即为“包含,但不限于”。在说明书的描述中,术语“一些实施例”等旨在表明与该实施例或示例相关的特定特征、结构、材料或特性包括在本公开的至少一个实施例或示例中。上述术语的示意性表示不一定是指同一实施例或示例。此外,所述的特定特征、结构、材料或特点可以以任何适当方式包括在任何一个或多个实施例或示例中。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
需要说明的是,本公开实施例的文本上下文处理方法可以由本公开实施例的文本上下文处理装置执行,该文本上下文处理装置可以由软件和/或硬件的方式实现,该文本上下文处理装置可配置在电子设备中,其中,电子设备可以安装并运行文本处理程序。电子设备可以包括但不限于智能手机、平板电脑等具有各种操作系统的硬件设备。
图1是根据一示例性实施例示出的一种文本上下文处理方法的流程图。
如图1所示,本公开实施例提供的文本上下文处理方法,包括但不限于如下步骤:
S1:获取待处理文本。
可以理解的是,本公开实施例中,待处理文本为用户提供的用于语言学习的文本,或者还可以为文本上下文处理装置提供的方便用户进行语言学习的文本。
其中,在待处理文本为用户提供的用于语言学习的文本的情况下,用户可以选择一篇文章,或者选择一段文字,粘贴至本公开实施例中文本上下文处理装置的对应位置处,从而文本上下文处理装置获取待处理文本,进一步的采用本公开实施例中的文本上下文处理装置对用户提供的文本进行处理。
在待处理文本为文本上下文处理装置提供的方便用户进行语言学习的文本的情况下,本公开实施例中,在文本上下文处理装置中预先存储有用于用户进行学习的文本资料,用户选择相应的文本,即文本上下文处理装置获取用户选择的文本,并进一步的可以对文本进行处理。
本公开实施例中,待处理文本可以为一篇文章、或者可以为一段文字,可以理解的是,待处理文本中包括多个词语或短语,可以包括多个词语、或者包括多个短语、或者同时包括词语和短语。
本公开实施例中,为方便后续对待处理文本进行处理,对待处理文本包括的词语数量存在约束,示例性的,待处理文本包括的词语数量限制在10至35个词语之间,在后续对待处理文本进行处理时,能够减少计算耗时。
需要说明的是,待处理文本包括的词语数量还可以限制在其他范围,可以根据服务器等硬件环境进行设置,待处理文本包括的词语数量可随硬件性能提升而增高,此处仅作为示意,不作为对本公开实施例的具体限制。
需要说明的是,本公开实施例中,待处理文本可以为英语文本,或者还可以为汉语文本、法语文本、德语文本、意大利语文本、日本语文本、韩语文本等,本公开实施例对此不作具体限制。
S2:响应于用户精简文本的下文操作,将待处理文本输入至语法分析树统计模型,获取目标文本单元,删除待处理文本中的目标文本单元,生成精简文本;其中,待处理文本中包括多个文本单元,文本单元为词语或短语。
可以理解的是,本公开实施例中,文本上下文处理装置设置有用户可以精简文本的按键,对应的,用户精简文本的下文操作可以为用户点击精简文本的按键;或者文本上下文处理装置设置有用户可以精简文本的控制指令,对应的,用户精简文本的下文操作可以为用户触发精简文本对应的控制指令。
本公开实施例中,在用户精简文本的下文操作的情况下,对待处理文本中的目标文本单元进行删除,生成精简文本。
需要说明的是,本公开实施例中,待处理文本包括多个文本单元,文本单元可以为词语或短语,目标文本单元可以为待处理文本中的一个或多个词语,或者可以为待处理文本中的一个或多个短语,或者还可以为待处理文本中的词语和短语等。
其中,在文本单元为词语时,根据词语对应的词性,以及待处理文本不同词语之间的语法关系,确定待处理文本中的目标文本单元。
示例性的,以待处理文本为英语文本为例,在文本单元为词语,对应的词性为形容词的情况下,对该词语与待处理文本中其他词语的语法关系进行判断,假设与其相邻的后一个词语的语法关系为:父子关系如NP->JJ+NN,表示名词短语由形容词(JJ)和名词(NN)构成,则可以确定该词性为形容词的词语为目标文本单元,可以在用户精简文本下文操作下进行删除。
由此,本公开实施例中,通过采用待处理文本不同词语之间的语法关系进行约束,不破坏原有的语法关系,使得在对待处理文本进行精简时,精简的结果符合语法规范。
其中,在文本单元为短语时,对文本单元对应的语法规则进行识别,根据文本单元对应的语法规则,确定目标文本单元。
示例性的,以待处理文本为英语文本为例,在文本单元为短语的情况下,假设文本单元对应的语法规则为:NP->JJ+NN,表示名词短语由形容词(JJ)和名词(NN)构成,则可以确定该文本单元中为形容词的词语为目标文本单元,可以在用户精简文本下文操作下进行删除。
假设文本单元对应的语法规则为:NP->DT+JJ+NN,表示名词短语由冠词(DT)和形容词(JJ)和名词(NN)构成,则可以确定该文本单元中为形容词的词语为目标文本单元,或者可以确定该文本单元中为冠词的词语为目标文本单元,或者可以确定该文本单元中为形容词的词语以及为冠词的词语均为目标文本单元,则可以在用户精简文本下文操作下进行删除。
由此,本公开实施例中,通过对待处理文本中文本单元对应的语法规则进行约束,不破坏原有的语法关系,使得在对待处理文本进行精简时,精简的结果符合语法规范。
可以理解的是,本公开实施例中,对于删除的目标文本单元,显示在生成的精简文本下方,并有相应的解释。
示例性的,以英语文本为例,待处理文本为“blue sky”,删除的为名词“sky”前的形容词“blue”,解释可以为,该目标文本单元“blue”的词性为形容词,用于对名词“sky”进行修饰。并进一步的,可以增加“blue”的相似词语,例如“cerulean”,从而,用户可以学习更多的词汇,同义词或相近词的词汇关联学习,提升用户的学习体验。
可以理解的是,本公开实施例中,可以进一步的,提供精简文本的翻译和语音,用户可以同步学习翻译文本,以及发音。
S3:响应于用户新增文本的上文操作,获取新增文本单元,确定新增文本单元对应的在待处理文本中的目标位置,将新增文本单元添加至目标位置,生成新增文本。
可以理解的是,本公开实施例中,文本上下文处理装置设置有用户可以新增文本的按键,对应的,用户新增文本的上文操作可以为用户点击新增文本的按键;或者文本上下文处理装置设置有用户可以新增文本的控制指令,对应的,用户新增文本的上文操作可以为用户触发新增文本对应的控制指令。
本公开实施例中,响应于用户新增文本的上文操作,获取新增文本单元可以为预先根据待处理文本获取的新增文本单元,获取新增文本单元的方法可以采用相关技术中的方法,本公开实施例对此不作具体限制。
需要说明的是,本公开实施例中,新增文本单元可以为一个或多个词语,或者可以为一个或多个短语,或者还可以为一个或多个词语和短语等。
可以理解的是,本公开实施例中,可以进一步的,提供新增文本的翻译和语音,用户可以同步学习翻译文本,以及发音。
通过实施本公开实施例,获取待处理文本,响应于用户精简文本的下文操作,将待处理文本输入至语法分析树统计模型,获取目标文本单元,删除待处理文本中的目标文本单元,生成精简文本;其中,待处理文本中包括多个文本单元,文本单元为词语或短语,响应于用户新增文本的上文操作,获取新增文本单元,确定新增文本单元对应的在待处理文本中的目标位置,将新增文本单元添加至目标位置,生成新增文本。由此,在不破坏原有的语法关系的基础上进行文本删除,能够生成符合语法规范的精简文本,使得精简后的文本结构更加清晰,同时能够进行文本新增,丰富语言学习的内容,方便用户学习。
如图2所示,在一些实施例中,S2包括但不限于如下步骤:
S21:将待处理文本输入至语法分析树统计模型,获取与待处理文本匹配的目标语法规则。
可以理解的是,本公开实施例中,在将待处理文本输入至语法分析树统计模型,获取与待处理文本匹配的目标语法规则之前,还包括获取语法分析树模型。
在一些实施例中,获取语法分析树模型包括:获取语料文本;将语料文本输入至基于成分分析的语法分析模型,生成语法分析树;自底向上解析语法分析树,生成表格结构,得到语法分析树库;其中,语法分析树库中包括多个语料文本单元;表格结构包括父子节点的关系和兄弟节点的关系;对语料文本单元赋予权重,生成语法分析树统计模型。
本公开实施例中,语料文本可以为通过公开的文章进行获取,通过对文章进行预处理,获取语料文本。其中,对文章进行预处理,包括:将文章中的标记符号进行删除,之后进行切分处理,去掉过长或过短的语句,选取词汇数量在某一区间内的语句作为语料文本。
示例性的,选取词汇数量在10至35个之间。
当然,本公开实施例中获取语料文本不限于上述示例的情况,可以根据需要进行设置,本公开实施例对此不作具体限制。
本公开实施例中,以语料文本为英语文本为例,将语料文本输入至基于成分分析的语法分析树模型,例如,在语料文本为“the medical imaging technology currentlyhas made significant progress in many important domains”的情况下,生成语法分析树如图3所示,其中,叶子节点为语句中的单词;其它非叶子节点是单词的词性以及由单词构成的短语成分,语法分析树的特点是靠近根部的成分为句子的核心成分,靠近叶子节点的成分为非核心成分。
本公开实施例中,在获取语料文本对应的语法分析树之后,得到语法分析树库。其中,语法分析树库中包括多个语料文本生成的语法分析树,包括多个语料文本单元,语料文本单元为语法分析树的不同节点。在对语料文本单元赋予权重之后,生成语法分析树统计模型。
在一种可能的实现方式中,本公开实施例中对语料文本单元赋予权重,为了对语料文本单元进行排序,由语法分析树生成对应的表格,便于对语料文本单元赋予权重。
本公开实施例中,以英语文本为例,在英语语法解析中使用的标记采用了宾州树库的语言标记集。TreeBank是一种标注了句法和语义句子结构的大型语料库,这些句法结构通常是树的形式,所以称之为TreeBank(树库)。
语法分析树表示方式采用()圆括号嵌套的方式,因为它占用资源少,而且树状结构在没有软件工具的情况下相对容易阅读。当给定一个句子时,便可以按照从左到右的顺序来解析语法。例如,句子the dog run就可以表示为(S(NP(DT the)(NN dog))(VP run))。
其标记说明如下表1所示:
表1
需要说明的是,上述示例仅为部分示例,并未列举全部示例,具体可参见宾州树库的语言标记集。
示例性的,语料文本为“image classification and object detectionapplications are becoming more robust and more accurate.”生成语法分析树,从底至上解析语法分析树,根据树形结构,转化生成表格结构,生成对应的表格结构如下表2所示:
表2
可以理解的是,本公开实施例中,语料文本为多个,对多个语料文本进行上述处理之后,生成对应的表格结构,对语料文本单元赋予权重,生成语法分析树统计模型。
本公开实施例中,语法分析树统计模型中,符号及表达式说明:
1)NP->DT+JJ+NN:表示NP生成(解析)为DT和JJ和NN。
2)JJ∈(NP->DT+JJ+NN,NP->JJ+NN):表示JJ匹配NP->DT+JJ+NN和NP->JJ+NN。
3)JJ∈(NP->DT+JJ+NN,NP->JJ+NN)&(ORDER(1))):表示JJ匹配NP->DT+JJ+NN,NP->JJ+NN,同时权重等级为1。
4)JJ∈((NP->DT+JJ+NN,NP->JJ+NN)&(ORDER(1)))/JJ:表示JJ匹配NP->DT+JJ+NN,NP->JJ+NN,同时权重等级为1的语句占所有JJ记录的百分比。
根据上述符号及表达式约定,统计如下匹配规则的占比:
JJ∈((NP->DT+JJ+NN,NP->JJ+NN)&(ORDER(1)))/JJ;
RB∈((ADVP->RB)&(ORDER(2)))/RB;
PP∈((VP->VBN+NP+PP)&(ORDER(3)))/PP;…。
依上述规则,对生成对应的表格的数据库进行统计分析,生成语法分析树统计模型:
Model={JJ∈(NP->DT+JJ+NN,NP->JJ+NN)&(ORDER(1)))/JJ,...,}。
由此,本公开实施例在获取语法分析树统计模型的基础上,将待处理文本输入至语法分析树统计模型,能够获取与待处理文本匹配的目标语法规则。
S22:根据目标语法规则,获取待处理文本对应的多个文本单元,以及文本单元对应的权重等级。
本公开实施例中,在将待处理文本输入至语法分析树统计模型,获取与待处理文本匹配的目标语法规则之后,能够获取待处理文本对应的多个文本单元以及文本单元对应的权重等级。从而能够根据确定的文本单元的权重等级,确定目标文本单元。
S23:在根据权重等级,确定存在目标文本单元的情况下,响应于用户精简文本的下文操作,删除待处理文本中的目标文本单元,生成精简文本。
本公开实施例中,在根据权重等级,确定存在目标文本单元的情况下,响应于用户精简文本的下文操作,删除待处理文本中的目标文本单元,生成精简文本。
需要说明的是,本公开实施例中,获取文本单元对应的权重等级,至少包括两个权重等级,在根据权重等级,确定权重等级为第一等级的文本单元为目标文本单元的情况下,将权重等级为第一等级的目标文本单元进行删除,保留第二等级的文本单元,生成精简文本。
在一些实施例中,在根据权重等级,确定存在N个等级的文本单元的情况下,响应于用户第一次精简文本的下文操作,根据权重等级,确定待处理文本中的权重等级为第一等级的文本单元为目标文本单元,删除目标文本单元,生成第一精简文本;其中,N为大于3的整数;响应于用户第二次精简文本的下文操作,根据权重等级,确定第一精简文本中权重等级为第二等级的文本单元为目标文本单元,删除目标文本单元,生成第二精简文本;以此类推,直至响应于用户第N-1次精简文本的下文操作,根据权重等级,确定第N-2精简文本中权重等级为第N-1等级的文本单元为目标文本单元,删除目标文本单元,生成精简文本。
示例性的,在N为5的情况下,待处理文本根据权重等级,确定包括5个等级的文本单元,响应于用户第一次精简文本的下文操作,根据权重等级,确定待处理文本中的权重等级为第一等级的文本单元为目标文本单元,删除目标文本单元,生成第一精简文本;响应于用户第二次精简文本的下文操作,根据权重等级,确定第一精简文本中权重等级为第二等级的文本单元为目标文本单元,从第一精简文本中删除目标文本单元,生成第二精简文本;响应于用户第三次精简文本的下文操作,根据权重等级,确定第二精简文本中权重等级为第三等级的文本单元为目标文本单元,从第二精简文本中删除目标文本单元,生成第三精简文本;响应于用户第四次精简文本的下文操作,根据权重等级,确定第三精简文本中权重等级为第四等级的文本单元为目标文本单元,从第三精简文本中删除目标文本单元,最终生成精简文本。
可以理解的是,本公开实施例以待处理文本为英语文本为例,精简文本为英语的五种基本句式。
示例性的,五种基本句式如下:
S+V主谓结构;
S+V+F主系表结构;
S+V+O主谓宾结构;
S+V+O1+O2主谓双宾结构;
S+V+O+C主谓宾补结构。
其中,S=主语;V=谓语;P=表语;O=宾语;O1=间接宾语;O2=直接宾语;C=宾语补足语。
1.S+V句式:在此句式中,V是不及物动词,又叫自动词(vi)。
2.S+V+P句式:在此句式中,V是系动词,常见的系动词有:look,seem,appear,sound,feel,taste,smell,grow,get,fall ill/asleep,stand/sit still,become,turn等。
3.S+V+O句式:在此句式中,V是及物动词(vt.),因此有宾语。
4.S+V+O1+O2句式:在此句式中,V是带有双宾语的及物动词。常见的须带双宾语的动词有give,ask,bring,offer,send,pay,lend,show,tell,buy,get;rob,warn等。
5.S+V+O+C句式。
本公开实施例中,在响应于用户精简文本的下文操作的情况下,删除待处理文本中的目标文本单元,生成精简文本,精简文本为英语的五种基本句式。
当然,除英语文本外的其他文本,可以采用类似的概念,本公开实施例对此不作具体限制。
在一些实施例中,在根据权重等级,确定不存在目标文本单元的情况下,提示待处理文本为精简文本并退出。
可以理解的是,在将待处理文本输入至语法分析树统计模型,获取与待处理文本匹配的目标语法规则,根据目标语法规则确定待处理文本包括的多个文本单元对应的权重等级,在仅存在一个权重等级的情况下,此时,确定不存在目标文本单元,在此情况下,提示待处理文本为精简文本并退出。
以待处理文本为英语文本为例,在待处理文本为英语的五种基本句式的情况下,确定待处理文本中不存在目标文本单元,此时,提示待处理文本为精简文本并退出。
在一些实施例中,将精简文本输入至语法分析树统计模型,在存在匹配的语法规则的情况下,向用户提供精简文本;在不存在匹配的语法规则的情况下,提示精简文本错误并退出。
本公开实施例中,删除待处理文本中的目标文本单元得到精简文本,需要输入至语法分析树统计模型,以判断生成的精简文本是否可以解析,是否存在匹配的语法规则,在存在匹配的语法规则的情况下,向用户提供精简文本,在不存在匹配的语法规则的情况下,提示精简文本错误并退出。由此,能够确保得到的精简文本符合语法规则,能够表达完整的意思,以得到符合语法规范的精简文本,避免得到的精简文本不符合语言规范,误导用户学习。
如图4所示,在一些实施例中,S3包括但不限于如下步骤:
S31:响应于用户新增文本的上文操作,将待处理文本按照预设条件划分为至少一个文本单元序列。
本公开实施例中,可以在待处理文本的基础上,在待处理文本中新增文本,以丰富文本,方便用户学习,提升用户的使用体验。
其中,预设条件可以为依次将相邻的预设个数的文本单元划分为一个文本单元序列。文本单元可以为词语或短语。
示例性的,预设个数可以为两个,或者可以为四个,或者还可以为六个等,本公开实施例对此不作具体限制。
在一种可能的实现方式中,以待处理文本为英语文本为例,例如,待处理文本为:“size are important for a model”。
从句首开始滑窗,每2或4个作为文本单元序列进行预测,此处示例使用4个单词。(此参数可根据系统训练模型设置)。
划窗示意:第一次滑窗产生的第一个文本单元序列为“size are importantfor”,第二次滑窗产生的第二个文本单元序列为“are important for a”,第三次滑窗产生的第三个文本单元序列为“important for a model”。
S32:将文本单元序列输入至训练好的词向量模型,预测得到新增文本单元。
依次将文本单元序列输入至训练好的词向量模型,预测得到对应的新增文本单元,示例性的,如下表3所示:
previous2 | previous1 | next1 | next2 | out |
前序第二个 | 前序第一个 | 后续第一个 | 后续第二个 | 输出 |
Sample | size | are | important | 无 |
size | are | important | for | very |
are | important | for | a | 无 |
import | for | a | model | 无 |
for | a | model | learning |
表3
S33:遍历待处理文本,确定新增文本单元对应的在待处理文本中的第一预留位置。
本公开实施例中,对待处理文本进行遍历,获取新增文本单元对应的在待处理文本中的第一预留位置。
S34:将新增文本单元添加至待处理文本的第一预留位置,生成新增文本。
本公开实施例中,响应于用户第一次新增文本的上文操作,生成新的语句:“Sample size are very important for a learning model”。其中,“very”和“learning”为新增文本单元。
在第一次新增文本的上文操作的基础上,响应于用户第二次新增文本的上文操作,继续使用上述流程,获取文本单元序列,依次将文本单元序列输入至训练好的词向量模型,预测得到新增文本单元,示例性的,如下表4所示:
previous2 | previous1 | next1 | next2 | out |
前序第二个 | 前序第一个 | 后续第一个 | 后续第二个 | 输出 |
Sample | size | are | very | 无 |
… | … | … | … | 无 |
for | a | learning | a | machine |
a | learning | model | 无 |
表4
响应于用户第二次新增文本的上文操作,生成新的语句:“sample size are veryimportant for a machine learning model”。
其中,“machine”为新增文本单元,在前次的基础上生成。
需要说明的是,上述示例仅作为示意,本公开实施例中,用户还可以多次新增文本,本公开实施例对此不作具体限制。
基于此,本公开实施例中,在不改变原有的语法语义的基础上,响应于用户新增文本的上文操作,在待处理文本的基础上新增文本,能够丰富使用者的词汇量。
可以理解的是,本公开实施例中,可以进一步的,提供新增文本的翻译和语音,用户可以同步学习翻译文本,以及发音。
在一些实施例中,将新增文本输入至语法分析树统计模型,在新增文本存在匹配的语法规则的情况下,向用户提供新增文本;在不存在匹配的语法规则的情况下,提示新增文本错误并退出。
本公开实施例中,在待处理文本中添加新增文本单元得到新增文本,需要输入至语法分析树统计模型,以判断生成的新增文本是否可以解析,是否存在匹配的语法规则,在存在匹配的语法规则的情况下,向用户提供新增文本,在不存在匹配的语法规则的情况下,提示新增文本错误并退出。由此,能够确保得到的新增文本符合语法规则,能够表达完整的意思,以避免得到的新增文本不符合语言规范,误导用户学习。
在一些实施例中,获取新增文本中包括的文本单元的第一数目;在第一数目大于第一预设阈值的情况下,响应于用户新增文本的上文操作,提示新增文本达上限并退出。
可以理解的是,本公开实施例中,新增文本的上文操作可以有多次,随着多次新增文本,所生成的新增文本中包括的文本单元数目也会增加,新增文本包括的文本单元数量越多,系统进行数据处理所需要的时间必然会增加,计算效率必然会下降。
基于此,本公开实施例中对新增文本包括的文本单元数据进行统计,获取新增文本中包括的文本单元的第一数目,在第一数目大于第一预设阈值的情况下,如果存在用户新增文本的上文操作,提示新增文本达上限并退出。
其中,第一预设阈值可以为100、或者80、或者50等,可以根据系统使用的服务器算力,以及网络带宽进行设置,本公开实施例对此不作具体限制。
如图5所示,在一些实施例中,本公开实施例提供的文本上下文处理方法,还包括:
S10:响应于用户生成文本的第一上文操作,将待处理文本输入至语法分析树统计模型,获取待处理文本包括的语法规则。
S20:将语法规则匹配目标语句库进行目标约束,根据语法规则和目标语句库中的语句库语法规则,构建新增语法规则;其中,新增语法规则与语法规则构成父子关系或兄弟关系。
在一种可能的实现方式中,以待处理文本为英语文本为例,例如,待处理文本为:“applications are becoming more accurate”。
将待处理文本输入至语法分析树统计模型,得到语句分析树为“(ROOT(S(NP(NNSapplications))(VP(VBP are)(VP(VBG becoming)(ADJP(RBR more)(JJaccurate))))))”。遍历该语法分析树,获得对应的表格,其中语法规则包含NP->NNS,NNS->applications。
本公开实施例中,目标语句库中预先存储有多个语句库语法规则,将获取的待处理文本包括的语法规则与目标语句库中的语句库语法规则进行匹配,构建新增语法规则;其中,新增语法规则与语法规则构成父子关系或兄弟关系。
示例性的,将获取的待处理文本包括的语法规则与目标语句库中的语句库语法规则进行匹配,构建新增语法规则有:NP->NN+NNS,NP->NN+NN+NNS。
可以理解的是,上述示例仅作为示意,新增语法规则可能仅存在一个,或者,不存在新增语法规则,或者,新增语法规则还可以为两个以上等,上述示例并不作为对本公开实施例的具体限制。
S30:根据新增语法规则,从专用词库中获取多个生成文本单元,以及确定生成文本单元对应在待处理文本中的第二预留位置。
S40:将生成文本单元添加至待处理文本的第二预留位置,获取多个生成文本。
本公开实施例中,专用词库可以预先设置,专用词库中包括多个词语及词性的对应关系。
示例性的,本公开实施例中,从专用词库中,获取词性为NN的词语,作为生成文本单元。可以理解的是,专用词库中词性为NN的词语有多个,从而,从专用词库中获取多个生成文本单元。
示例性的,确定生成文本单元“NN”为“classification”这个单词,确定生成文本单元及对应的添加至待处理文本的第二预留位置为“applications”前面的位置,获取生成文本:“classification applications are becoming more accurate”。
需要说明的是,专用词库中词性为NN的词语有多个,选择全部词性为NN词语均作为生成文本单元会导致计算效率降低,本公开实施例中可以从中选择部分词性为NN词语均作为生成文本单元,以提高计算效率。
S50:获取目标语句库中的多个目标语句;将生成文本分别与目标语句进行相似度计算,从多个生成文本中确定一个作为目标生成文本。
可以理解的是,本公开实施例中,目标语句库中包括多个目标语句,获取目标语句库中的多个目标语句,可以获取目标语句库中的部分目标语句。
示例性的,从目标语句库中随机召回20%的目标语句,或者还可以随机召回10%的目标语句等,本公开实施例对此不作具体限制。
在一些实施例中,本公开实施例提供的文本上下文处理方法,还包括:获取语料数据;对语料数据进行处理,获取多个目标语句;对目标语句进行汇总,生成目标语句库;对目标语句进行处理,获取词语与词性的对应关系;对对应关系进行汇总,生成专用词库。
本公开实施例中,获取语料数据,其中,语料数据可以采用公开的语料集或从网上进行爬取等,语料数据可以包括新闻语料、历史名著语料、专业书籍语料等,针对不同的语料数据可以进行分类,使用主题判断等方法进行分类,从而,在确定语料数据的类别的情况下,对语料数据进行处理,能够生成对应类别的目标语句。
需要说明的是,由于语料数据为经过内容审核的文本,根据语料数据获取的目标语句能够确保合规、合法和语义完备。
基于此,本公开实施例中,可以基于目标语句的类别,从目标语句库中获取特定类别的目标语句。其中,特定类别可以由待处理文本进行语料解析获取,或由相关特征判断算法进行预测,从而,能够选择合适的目标语句,使得在后续的处理中,能够得到较为匹配的生成文本单元。
本公开实施例中,对目标语句库中的目标语句进行处理,可以包括进行去重、词性标注等,获取词语与词性的对应关系;对对应关系进行汇总,生成专用词库。
其中,在目标语句库中的目标语句为非英语文本,例如:汉语文本的情况下,在还需要对目标语句进行分词,之后进行去重、词性标注等,获取词语与词性的对应关系;对对应关系进行汇总,生成专用词库。
本公开实施例中,基于目标语句库获取的专用词库,能够使的从专用词库中确定生成文本单元,将生成文本单元添加至待处理文本中,获取生成文本,进而获取的生成文本与目标语句的词语来源具有同源性,保证了生成文本合规、合法,在后续处理进行相似度计算时,数据处理的效率较高。
本公开实施例中,分别将生成文本和目标语句输入至语句向量模型,获取生成文本和目标语句对应的文本向量,再计算两个文本向量之间的余弦距离,进行相似度计算。
其中,语句向量模型可以为doc2vec模型,doc2vec模型能够生成句子或段落的向量,将生成文本和目标语句分别输入至doc2vec模型,能够获取生成文本和目标语句分别对应的文本向量。
可以理解的是,本公开实施例中存在多个生成文本和多个目标语句,分别对每一个生成文本和每一个目标语句计算相似度,最后将相似度进行排序,确定相似度最大的一个作为目标生成文本。
需要说明的是,上述示例中,仅以响应于用户一次生成文本第一上文操作获取目标生成文本作为示例,本公开实施例中,用户还可以多次进行生成文本第一上文操作,在上次获取的目标生成文本的基础上,获取新的目标生成文本,本公开实施例对此不作具体限制。
可以理解的是,本公开实施例中,可以进一步的,提供目标生成文本的翻译和语音,用户可以同步学习翻译文本,以及发音。
本公开实施例中,通过预先设置目标语句库,从目标语句库中选择目标语句,将生成文本分别与目标语句进行相似度计算,从多个生成文本中确定一个作为目标生成文本,本公开实施例中,通过采用目标语句进行目标约束,使得生成的目标生成文本符合语法规则,且满足合规、合法,并且进行相似度计算的效率高。
在一些实施例中,将目标生成文本输入至语法分析树统计模型,在目标生成文本存在匹配的语法规则的情况下,向用户提供目标生成文本;在不存在匹配的语法规则的情况下,提示生成文本错误并退出。
本公开实施例中,在待处理文本中添加生成文本单元得到目标生成文本的情况下,需要输入至语法分析树统计模型,以判断生成的目标生成文本是否可以解析,是否存在匹配的语法规则,在存在匹配的语法规则的情况下,向用户提供目标生成文本,在不存在匹配的语法规则的情况下,提示生成文本错误并退出。由此,能够确保得到的目标生成文本符合语法规则,能够表达完整的意思,以避免得到的目标生成文本不符合语言规范,误导用户学习。
在一些实施例中,获取目标生成文本中包括的文本单元的第二数目;在第二数目大于第二预设阈值的情况下,响应于用户生成文本的第一上文操作,提示生成文本达上限并退出。
可以理解的是,本公开实施例中,生成文本的第一上文操作可以有多次,随着多次生成文本,所得到的目标生成文本包含的文本单元的数目也越多,目标生成文本包括的文本单元数量越多,系统进行数据处理所需要的时间必然会增加,计算效率必然会下降。
基于此,本公开实施例中对目标生成文本包括的文本单元的数量进行统计,获取目标生成文本中包括的文本单元的第二数目,在第二数目大于第二预设阈值的情况下,如果存在用户生成文本的第一上文操作,提示生成文本达上限并退出。
其中,第二预设阈值可以为100、或者80、或者50等,可以根据系统使用的服务器算力,以及网络带宽进行设置,本公开实施例对此不作具体限制。
在一些实施例中,第二预设阈值等于第一预设阈值。
本公开实施例中,新增文本中包括的文本单元的第一数目大于第一预设阈值,在存在用户新增文本的上文操作的情况下,会提示新增文本达上限并退出。同时目标生成文本中包括的文本单元的第二数目大于第二预设阈值,在存在用户生成文本的第一上文操作的情况下,会提示生成文本达上限并退出。第一预设阈值和第二预设阈值相等,本公开实施例中文本上下文处理装置所使用的服务器和网络带宽能够同时满足上述两个过程的实施。
如图6所示,在一些实施例中,本公开实施例提供的文本上下文处理方法,还包括:
S100:响应于用户替换文本的第二上文操作,将目标文本单元输入至训练好的词向量模型,获取替换文本单元,将替换文本单元添加至目标文本单元在待处理文本中的第三预留位置,生成替换文本;其中,替换文本单元与目标文本单元对应的文本向量相似度最大。
本公开实施例中,在响应于用户精简文本的下文操作,删除待处理文本中的目标文本单元的基础上,对于删除的目标文本单元,响应于用户新增文本的第二上文操作,将目标文本单元输入至训练好的词向量模型,获取替换文本单元,将替换文本单元添加至目标文本单元在待处理文本中的第三预留位置,生成替换文本。
在一种可能的实现方式中,将目标文本单元输入至训练好的词向量模型,生成目标文本单元对应的文本向量,通过训练好的词向量模型,从语料库或词库中获取与目标文本单元对应的文本向量相似度最大的替换文本单元,将替换文本单元添加至目标文本单元在待处理文本中的第三预留位置,生成替换文本。
由此,本公开实施例中,通过获取与待处理文本中删除的目标文本单元对应的替换文本单元,将替换文本单元添加至目标文本单元在待处理文本中的第三预留位置,生成替换文本单元,能够丰富待处理文本,有利于用户进行语言学习,提升用户体验。
可以理解的是,本公开实施例中,可以进一步的,提供替换文本单元的翻译和语音,用户可以同步学习翻译文本,以及发音。
如图7所示,在一些实施例中,S100包括但不限于如下步骤:
S101:在存在N个等级的文本单元,响应于用户第N-1次精简文本的下文操作,根据权重等级,确定第N-2精简文本中权重等级为第N-1等级的文本单元为目标文本单元,删除目标文本单元,生成精简文本的情况下,响应于用户第一次替换文本的第二上文操作,将第一等级的目标文本单元输入至训练好的词向量模型,获取第一等级的替换文本单元,将第一等级的替换文本单元添加至第一等级的目标文本单元在精简文本中的第三预留位置,生成第一替换文本。
S102:响应于用户第二次替换文本的第二上文操作,将第二等级的目标文本单元输入至训练好的词向量模型,获取第二等级的替换文本单元,将第二等级的替换文本单元添加至第二等级的目标文本单元在待处理文本中的第三预留位置,生成第二替换文本。
S103:以此类推,直至响应于用户第N-1次替换文本的第二上文操作,将第N-1等级的目标文本单元输入至训练好的词向量模型,获取第N-1等级的替换文本单元,将第N-1等级的替换文本单元添加至第N-1等级的目标文本单元在第N-2替换文本中的第三预留位置,生成替换文本。
示例性的,在N为5的情况下,在待处理文本中存在5个等级的文本单元,响应于用户第四次精简文本的下文操作,根据权重等级,确定第三精简文本中权重等级为第四等级的文本单元为目标文本单元,删除目标文本单元,生成精简文本的情况下,响应于用户第一次替换文本的第二上文操作,将第一等级的目标文本单元输入至训练好的词向量模型,获取第一等级的替换文本单元,将第一等级的替换文本单元添加至第一等级的目标文本单元在精简文本中的第三预留位置,生成第一替换文本。
响应于用户第二次替换文本的第二上文操作,将第二等级的目标文本单元输入至训练好的词向量模型,获取第二等级的替换文本单元,将第二等级的替换文本单元添加至第二等级的目标文本单元在第一替换文本中的第三预留位置,生成第二等级的替换文本。
响应于用户第三次新增文本的第二上文操作,将第三等级的目标文本单元输入至训练好的词向量模型,获取第三等级的替换文本单元,将第三等级的替换文本单元添加至第三等级的目标文本单元在第二替换文本中的第三预留位置,生成第三等级的替换文本。
响应于用户第四次新增文本的第二上文操作,将第四等级的目标文本单元输入至训练好的词向量模型,获取第四等级的替换文本单元,将第四等级的替换文本单元添加至第四等级的目标文本单元在第三替换文本中的第三预留位置,生成替换文本。
可以理解的是,本公开实施例中,响应于用户精简文本的下文操作,K次删除待处理文本中的目标文本单元的情况下,其中,每次删除的目标文本单元均不相同,响应于用户替换文本的第二上文操作,K次替换删除的目标文本单元,在每次删除的目标文本单元不同的基础上,K次替换的目标文本单元也不相同,K为正整数。由此,用户可以多次进行文本精简,以学习待处理文本的语句结构,进一步的,替换精简时删除的文本单元,学习更多的近似词、同义词等,丰富词汇量。
在一些实施例中,将替换文本输入至语法分析树统计模型,在存在匹配的语法规则的情况下,向用户提供替换文本;在不存在匹配的语法规则的情况下,提示替换文本错误并退出。
本公开实施例中,替换待处理文本中的目标文本单元得到替换文本,需要输入至语法分析树统计模型,以判断生成的替换文本是否可以解析,是否存在匹配的语法规则,在存在匹配的语法规则的情况下,向用户提供替换文本,在不存在匹配的语法规则的情况下,提示替换文本错误并退出。由此,能够确保得到的替换文本符合语法规则,能够表达完整的意思,以避免得到的替换文本不符合语言规范,误导用户学习。
在一些实施例中,本公开实施例中提供的文本上下文处理方法,还包括:获取训练好的词向量模型,其中,包括:获取训练数据集;将训练数据集输入至词向量模型,对词向量模型进行训练,生成训练好的词向量模型。
本公开实施例中,以英语文本为例,获取训练数据集,语料库可以为公开版本的文本格式的英语小说,对英语小说中的语句进行分词处理,在分词的基础上通过滑动的窗口(窗口长度可进行设置,示例性的,设置为目标词语,以及前后相邻的两个词语,总计四个相邻词语)生成训练数据集。
需要说明的是,窗口长度可进行设置,窗口长度还可以为3,获取目标词语,以及前后相邻的一个词语,总计两个相邻词语,生成训练数据集。或者,窗口长度还可以为7等,可以根据需要进行设置。
在一种可能的实现方式中,获取训练数据集,将训练数据集输入至词向量模型,对词向量模型进行训练的方法如下:
例句:the technology currently has made significant progress in manyimportant domains。通过一个滑动窗口遍历整个语句,例如设置滑动窗口的长度为5,则每个单词的前两个和后两个词作为输入,输出是目标词语。
例句生成的训练数据集,如下表5所示:
previous2 | previous1 | next1 | next2 | out |
前序第二个 | 前序第一个 | 后续第一个 | 后续第二个 | 输出 |
/ | / | technology | currently | the |
/ | the | currently | has | technology |
the | technology | has | made | currently |
technology | currently | made | significant | has |
currently | has | significant | progress | made |
has | made | progress | in | significant |
made | significant | in | many | progress |
significant | progress | many | important | in |
progress | in | important | domains | many |
in | many | domains | / | important |
many | important | / | / | domains |
表5
本公开实施例中,响应于用户替换文本的第二上文操作,将目标文本单元输入至训练好的词向量模型,获取目标文本单元的文本向量,获取与目标文本单元的文本向量相似度最大的替换文本单元,获取替换文本单元,将替换文本单元添加至目标文本单元在待处理文本中的第三预留位置,生成替换文本。
示例性的,在待处理文本为“a big truck”,在响应于用户精简文本的下文操作,删除待处理文本中的目标文本单元为“big”的情况下,响应于用户替换文本的第二上文操作,将目标文本单元“big”输入至训练好的词向量模型,生成“big”的文本向量,获取与其相似度最大的替换文本单元“huge”,将替换文本单元添加至目标文本单元在待处理文本中的第三预留位置,生成替换文本“a huge truck”。
图8是根据一示例性实施例示出的一种文本上下文处理装置的结构图。
如图8所示,文本上下文处理装置1,包括:文本获取单元11、第一处理单元12和第二处理单元13。
文本获取单元11,用于获取待处理文本。
第一处理单元12,用于响应于用户精简文本的下文操作,将待处理文本输入至语法分析树统计模型,获取目标文本单元,删除待处理文本中的目标文本单元,生成精简文本;其中,待处理文本中包括多个文本单元,文本单元为词语或短语。
第二处理单元13,用于响应于用户新增文本的上文操作,获取新增文本单元,确定新增文本单元对应的在待处理文本中的目标位置,将新增文本单元添加至目标位置,生成新增文本。
如图9所示,在一些实施例中,第一处理单元12,包括:
语法规则获取模块121,用于将待处理文本输入至语法分析树统计模型,获取与待处理文本匹配的目标语法规则。
等级获取模块122,用于根据目标语法规则,获取待处理文本对应的多个文本单元,以及文本单元对应的权重等级。
精简文本生成模块123,用于在根据权重等级,确定存在目标文本单元的情况下,响应于用户精简文本的下文操作,删除待处理文本中的目标文本单元,生成精简文本。
如图10所示,在一些实施例中,精简文本生成模块123,包括:
第一精简文本生成子模块1231,用于在根据权重等级,确定存在N个等级的文本单元的情况下,响应于用户第一次精简文本的下文操作,根据权重等级,确定待处理文本中的权重等级为第一等级的文本单元为目标文本单元,删除目标文本单元,生成第一精简文本;其中,N为大于3的整数;。
第二精简文本生成子模块1232,用于响应于用户第二次精简文本的下文操作,根据权重等级,确定第一精简文本中权重等级为第二等级的文本单元为目标文本单元,删除目标文本单元,生成第二精简文本。
第三精简文本生成子模块1233,用于以此类推,直至响应于用户第N-1次精简文本的下文操作,根据权重等级,确定第N-2精简文本中权重等级为第N-1等级的文本单元为目标文本单元,删除目标文本单元,生成精简文本。
如图11所示,在一些实施例中,第一处理单元12,还包括:
精简提示模块124,用于在根据权重等级,确定不存在目标文本单元的情况下,提示待处理文本为精简文本并退出。
请再次参见图11,在一些实施例中,第一处理单元12,还包括:
精简文本提供模块125,用于将精简文本输入至语法分析树统计模型,在存在匹配的语法规则的情况下,向用户提供精简文本。
精简报错模块126,用于在不存在匹配的语法规则的情况下,提示精简文本错误并退出。
如图12所示,在一些实施例中,第二处理单元13,包括:
序列划分模块131,用于响应于用户新增文本的上文操作,将待处理文本按照预设条件划分为至少一个文本单元序列。
预测模块132,用于将文本单元序列输入至训练好的词向量模型,预测得到新增文本单元。
第一位置获取模块133,用于遍历待处理文本,确定新增文本单元对应的在待处理文本中的第一预留位置。
新增文本生成模块134,用于将第一新增文本单元添加至待处理文本的第一预留位置,生成新增文本。
如图13所示,在一些实施例中,第二处理单元13,包括:
新增文本提供模块135,用于将新增文本输入至语法分析树统计模型,在存在匹配的语法规则的情况下,向用户提供新增文本。
新增文本报错模块136,用于在不存在匹配的语法规则的情况下,提示新增文本错误并退出。
如图14所示,在一些实施例中,第二处理单元13,包括:
第一数目获取模块137,用于获取新增文本中包括的文本单元的第一数目。
新增达上限提示模块138,用于在第一数目大于第一预设阈值的情况下,响应于用户新增文本的上文操作,提示新增文本达上限并退出。
如图15所示,在一些实施例中,文本上下文处理装置1,还包括:
模型处理单元14,用于响应于用户生成文本的第一上文操作,将待处理文本输入至语法分析树统计模型,获取待处理文本包括的语法规则。
语法规则获取单元15,用于将语法规则匹配目标语句库进行目标约束,根据语法规则和目标语句库中的语句库语法规则,构建新增语法规则;其中,新增语法规则与语法规则构成父子关系或兄弟关系。
第二位置获取单元16,用于根据新增语法规则,从专用词库中获取多个生成文本单元,以及确定生成文本单元对应在待处理文本中的第二预留位置。
生成文本获取单元17,用于将生成文本单元添加至待处理文本的第二预留位置,获取多个生成文本。
目标生成文本确定单元18,用于获取目标语句库中的多个目标语句;将生成文本分别与目标语句进行相似度计算,从多个生成文本中确定一个作为目标生成文本。
如图16所示,在一些实施例中,文本上下文处理装置1,还包括:
语料数据获取单元19,用于获取语料数据。
目标语句获取单元20,用于对语料数据进行处理,获取多个目标语句。
目标语句库获取单元21,用于对目标语句进行汇总,生成目标语句库。
词性表获取单元22,用于对目标语句进行处理,获取词语与词性的对应关系。
专用词库获取单元23,用于对对应关系进行汇总,生成专用词库。
如图17所示,在一些实施例中,文本上下文处理装置1,还包括:
目标生成文本提供单元24,用于将目标生成文本输入至语法分析树统计模型,在存在匹配的语法规则的情况下,向用户提供目标生成文本;
生成文本报错单元25,用于在不存在匹配的语法规则的情况下,提示生成文本错误并退出。
如图18所示,在一些实施例中,文本上下文处理装置1,还包括:
第二数目获取单元26,用于获取目标生成文本中包括的文本单元的第二数目;
生成达上限提示模块27,用于在第二数目大于第二预设阈值的情况下,响应于用户生成文本的第一上文操作,提示生成文本达上限并退出。
如图19所示,在一些实施例中,文本上下文处理装置1,还包括:
替换文本生成单元28,用于响应于用户替换文本的第二上文操作,将目标文本单元输入至训练好的词向量模型,获取替换文本单元,将替换文本单元添加至目标文本单元在待处理文本中的第三预留位置,生成替换文本;其中,替换文本单元与目标文本单元对应的文本向量相似度最大。
如图20所示,在一些实施例中,替换文本生成单元28,包括:
第一替换文本生成模块281,用于在存在N个等级的文本单元,响应于用户第N-1次精简文本的下文操作,根据权重等级,确定第N-2精简文本中所述权重等级为第N-1等级的文本单元为目标文本单元,删除目标文本单元,生成所述精简文本的情况下,响应于用户第一次替换文本的第二上文操作,将第一等级的目标文本单元输入至训练好的词向量模型,获取第一等级的目标替换文本单元,将第一等级的目标替换文本单元添加至第一等级的目标文本单元在精简文本中的第三预留位置,生成第一替换文本。
第二替换文本生成模块282,用于响应于用户第二次替换文本的第二上文操作,将第二等级的目标文本单元输入至训练好的词向量模型,获取第二等级的目标替换文本单元,将第二等级的目标替换文本单元添加至第二等级的目标文本单元在第一替换文本中的第三预留位置,生成第二替换文本。
替换文本生成模块283,用于以此类推,直至响应于用户第N-1次替换文本的第二上文操作,将第N-1等级的目标文本单元输入至训练好的词向量模型,获取第N-1等级的目标替换文本单元,将第N-1等级的目标替换文本单元添加至第N-1等级的目标文本单元在第N-2替换文本中的第三预留位置,生成替换文本。
如图21所示,在一些实施例中,文本上下文处理装置1,还包括:
替换文本提供单元29,用于将替换文本输入至语法分析树统计模型,在存在匹配的语法规则的情况下,向用户提供替换文本;
替换文本报错单元30,用于在不存在匹配的语法规则的情况下,提示替换文本错误并退出。
如图22所示,在一些实施例中,文本上下文处理装置1,还包括:
语料文本获取单元31,用于获取语料文本。
树库获取单元32,用于将语料文本输入至基于成分分析的语法分析模型,生成语法分析树,自底向上解析所述语法分析树,生成表格结构,得到语法分析树库;其中,语法分析树库中包括多个语料文本单元;表格结构包括父子节点的关系和兄弟节点的关系。
统计模型生成单元33,用于对语料文本单元赋予权重,生成语法分析树统计模型。
如图23所示,在一些实施例中,文本上下文处理装置1,还包括:
训练数据获取单元34,用于获取训练数据集。
词向量模型生成单元35,用于将训练数据集输入至词向量模型,对词向量模型进行训练,生成训练好的词向量模型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开实施例提供的文本上下文处理装置所能取得的有益效果与上述示例中提供的文本上下文处理方法所取得的有益效果相同,此处不再赘述。
图24是根据一示例性实施例示出的一种用于文本上下文处理方法的电子设备100的框图。
示例性地,电子设备100可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
如图24所示,电子设备100可以包括以下一个或多个组件:处理组件101,存储器102,电源组件103,多媒体组件104,音频组件105,输入/输出(I/O)的接口106,传感器组件107,以及通信组件108。
处理组件101通常控制电子设备100的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件101可以包括一个或多个处理器1011来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件101可以包括一个或多个模块,便于处理组件101和其他组件之间的交互。例如,处理组件101可以包括多媒体模块,以方便多媒体组件104和处理组件101之间的交互。
存储器102被配置为存储各种类型的数据以支持在电子设备100的操作。这些数据的示例包括用于在电子设备100上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如SRAM(Static Random-Access Memory,静态随机存取存储器),EEPROM(Electrically Erasable Programmable read only memory,带电可擦可编程只读存储器),EPROM(Erasable Programmable Read-Only Memory,可擦除可编程只读存储器),PROM(Programmable read-only memory,可编程只读存储器),ROM(Read-Only Memory,只读存储器),磁存储器,快闪存储器,磁盘或光盘。
电源组件103为电子设备100的各种组件提供电力。电源组件103可以包括电源管理系统,一个或多个电源,及其他与为电子设备100生成、管理和分配电力相关联的组件。
多媒体组件104包括在所述电子设备100和用户之间的提供一个输出接口的触控显示屏。在一些实施例中,触控显示屏可以包括LCD(Liquid Crystal Display,液晶显示器)和TP(Touch Panel,触摸面板)。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件104包括一个前置摄像头和/或后置摄像头。当电子设备100处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件105被配置为输出和/或输入音频信号。例如,音频组件105包括一个MIC(Microphone,麦克风),当电子设备100处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或经由通信组件108发送。在一些实施例中,音频组件105还包括一个扬声器,用于输出音频信号。
I/O接口2112为处理组件101和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件107包括一个或多个传感器,用于为电子设备100提供各个方面的状态评估。例如,传感器组件107可以检测到电子设备100的打开/关闭状态,组件的相对定位,例如所述组件为电子设备100的显示器和小键盘,传感器组件107还可以检测电子设备100或电子设备100一个组件的位置改变,用户与电子设备100接触的存在或不存在,电子设备100方位或加速/减速和电子设备100的温度变化。传感器组件107可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件107还可以包括光传感器,如CMOS(Complementary Metal Oxide Semiconductor,互补金属氧化物半导体)或CCD(Charge-coupled Device,电荷耦合元件)图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件107还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件108被配置为便于电子设备100和其他设备之间有线或无线方式的通信。电子设备100可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件108经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件108还包括NFC(Near FieldCommunication,近场通信)模块,以促进短程通信。例如,在NFC模块可基于RFID(RadioFrequency Identification,射频识别)技术,IrDA(Infrared Data Association,红外数据协会)技术,UWB(Ultra Wide Band,超宽带)技术,BT(Bluetooth,蓝牙)技术和其他技术来实现。
在示例性实施例中,电子设备100可以被一个或多个ASIC(Application SpecificIntegrated Circuit,专用集成电路)、DSP(Digital Signal Processor,数字信号处理器)、数字信号处理设备(DSPD)、PLD(Programmable Logic Device,可编程逻辑器件)、FPGA(Field Programmable Gate Array,现场可编程逻辑门阵列)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述文本上下文处理方法。
需要说明的是,本实施例的电子设备的实施过程和技术原理参见前述对本公开实施例的文本上下文处理方法的解释说明,此处不再赘述。
本公开实施例提供的电子设备,可以执行如上面一些实施例所述的文本上下文处理方法,其有益效果与上述的文本上下文处理方法的有益效果相同,此处不再赘述。
为了实现上述实施例,本公开还提出一种存储介质。
其中,该存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如前所述的文本上下文处理方法。例如,所述存储介质可以是ROM(Read Only MemoryImage,只读存储器)、RAM(Random Access Memory,随机存取存储器)、CD-ROM(CompactDisc Read-Only Memory,紧凑型光盘只读存储器)、磁带、软盘和光数据存储设备等。
为了实现上述实施例,本公开还提供一种计算机程序产品,该计算机程序由电子设备的处理器执行时,使得电子设备能够执行如前所述的文本上下文处理方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (21)
1.一种文本上下文处理方法,其特征在于,包括:
获取待处理文本;
响应于用户精简文本的下文操作,将所述待处理文本输入至语法分析树统计模型,获取目标文本单元,删除所述待处理文本中的目标文本单元,生成精简文本;其中,所述待处理文本中包括多个文本单元,所述文本单元为词语或短语;
响应于用户新增文本的上文操作,获取新增文本单元,确定所述新增文本单元对应的在所述待处理文本中的目标位置,将所述新增文本单元添加至所述目标位置,生成新增文本。
2.根据权利要求1所述的方法,其特征在于,所述响应于用户精简文本的下文操作,将所述待处理文本输入至语法分析树统计模型,获取目标文本单元,删除所述待处理文本中的目标文本单元,生成精简文本下文操作,包括:
将所述待处理文本输入至语法分析树统计模型,获取与所述待处理文本匹配的目标语法规则;
根据所述目标语法规则,获取所述待处理文本对应的多个文本单元,以及所述文本单元对应的权重等级;
在根据所述权重等级,确定存在所述目标文本单元的情况下,响应于用户精简文本的下文操作,删除所述待处理文本中的所述目标文本单元,生成所述精简文本。
3.根据权利要求2所述的方法,其特征在于,所述在根据所述权重等级,确定存在所述目标文本单元的情况下,响应于用户精简文本的下文操作,删除所述待处理文本中的所述目标文本单元,生成所述精简文本,包括:
在根据所述权重等级,确定存在N个等级的文本单元的情况下,响应于用户第一次精简文本的下文操作,根据所述权重等级,确定所述待处理文本中的所述权重等级为第一等级的文本单元为目标文本单元,删除目标文本单元,生成第一精简文本;其中,N为大于3的整数;
响应于用户第二次精简文本的下文操作,根据所述权重等级,确定所述第一精简文本中所述权重等级为第二等级的文本单元为目标文本单元,删除目标文本单元,生成第二精简文本;
以此类推,直至响应于用户第N-1次精简文本的下文操作,根据所述权重等级,确定所述第N-2精简文本中所述权重等级为第N-1等级的文本单元为目标文本单元,删除目标文本单元,生成所述精简文本。
4.根据权利要求2所述的方法,其特征在于,所述方法,还包括:
在根据所述权重等级,确定不存在所述目标文本单元的情况下,提示所述待处理文本为精简文本并退出。
5.根据权利要求2所述的方法,其特征在于,所述方法,还包括:
将所述精简文本输入至所述语法分析树统计模型,在存在匹配的语法规则的情况下,向用户提供所述精简文本;
在不存在匹配的语法规则的情况下,提示精简文本错误并退出。
6.根据权利要求1所述的方法,其特征在于,所述响应于用户新增文本的上文操作,获取新增文本单元,确定所述新增文本单元对应的在所述待处理文本中的目标位置,将所述新增文本单元添加至所述目标位置,生成新增文本,包括:
响应于用户新增文本的上文操作,将所述待处理文本按照预设条件划分为至少一个文本单元序列;
将所述文本单元序列输入至训练好的词向量模型,预测得到新增文本单元;
遍历所述待处理文本,确定所述新增文本单元对应的在所述待处理文本中的第一预留位置;
将所述新增文本单元添加至所述待处理文本的所述第一预留位置,生成新增文本。
7.根据权利要求6所述的方法,其特征在于,所述方法,还包括:
将所述新增文本输入至所述语法分析树统计模型,在存在匹配的语法规则的情况下,向用户提供所述新增文本;
在不存在匹配的语法规则的情况下,提示新增文本错误并退出。
8.根据权利要求6所述的方法,其特征在于,所述方法,还包括:
获取所述新增文本中包括的文本单元的第一数目;
在所述第一数目大于第一预设阈值的情况下,响应于用户新增文本的上文操作,提示新增文本达上限并退出。
9.根据权利要求1所述的方法,其特征在于,所述方法,还包括:
响应于用户生成文本的第一操作,将待处理文本输入至语法分析树统计模型,获取所述待处理文本包括的语法规则;
将所述语法规则匹配目标语句库进行目标约束,根据所述语法规则和所述目标语句库中的语句库语法规则,构建新增语法规则;其中,所述新增语法规则与所述语法规则构成父子关系或兄弟关系;
根据所述新增语法规则,从专用词库中获取多个生成文本单元,以及确定所述生成文本单元对应在所述待处理文本中的第二预留位置;
将所述生成文本单元添加至所述待处理文本的所述第二预留位置,获取多个生成文本;
获取目标语句库中的多个目标语句;
将所述生成文本分别与所述目标语句进行相似度计算,从多个所述生成文本中确定一个作为目标生成文本。
10.根据权利要求9所述的方法,其特征在于,所述方法,还包括:
获取语料数据;
对所述语料数据进行处理,获取多个目标语句;
对所述目标语句进行汇总,生成所述目标语句库;
对所述目标语句进行处理,获取词语与词性的对应关系;
对所述对应关系进行汇总,生成所述专用词库。
11.根据权利要求9所述的方法,其特征在于,所述方法,还包括:
将所述目标生成文本输入至所述语法分析树统计模型,在存在匹配的语法规则的情况下,向用户提供所述目标生成文本;
在不存在匹配的语法规则的情况下,提示生成文本错误并退出。
12.根据权利要求9所述的方法,其特征在于,所述方法,还包括:
获取所述目标生成文本中包括的文本单元的第二数目;
在所述第二数目大于第二预设阈值的情况下,响应于用户生成文本的第一上文操作,提示生成文本达上限并退出。
13.根据权利要求1所述的方法,其特征在于,所述方法,还包括:
响应于用户替换文本的第二上文操作,将所述目标文本单元输入至训练好的词向量模型,获取替换文本单元,将所述替换文本单元添加至所述目标文本单元在所述待处理文本中的第三预留位置,生成替换文本;其中,所述替换文本单元与所述目标文本单元对应的文本向量相似度最大。
14.根据权利要求13所述的方法,其特征在于,所述响应于用户替换文本的第二上文操作,将所述目标文本单元输入至训练好的词向量模型,获取替换文本单元,将所述替换文本单元添加至所述目标文本单元在所述待处理文本中的第三预留位置,生成替换文本,包括:
在存在N个等级的文本单元,响应于用户第N-1次精简文本的下文操作,根据权重等级,确定第N-2精简文本中所述权重等级为第N-1等级的文本单元为目标文本单元,删除目标文本单元,生成所述精简文本的情况下,
响应于用户第一次替换文本的第二上文操作,将第一等级的目标文本单元输入至训练好的词向量模型,获取第一等级的目标替换文本单元,将第一等级的目标替换文本单元添加至第一等级的目标文本单元在所述精简文本中的第三预留位置,生成第一替换文本;
响应于用户第二次替换文本的第二上文操作,将第二等级的目标文本单元输入至训练好的词向量模型,获取第二等级的目标替换文本单元,将第二等级的目标替换文本单元添加至第二等级的目标文本单元在第一替换文本中的第三预留位置,生成第二替换文本;
以此类推,直至响应于用户第N-1次替换文本的第二上文操作,将第N-1等级的目标文本单元输入至训练好的词向量模型,获取第N-1等级的目标替换文本单元,将第N-1等级的目标替换文本单元添加至第N-1等级的目标文本单元在第N-2替换文本中的第三预留位置,生成所述替换文本。
15.根据权利要求13所述的方法,其特征在于,所述方法,还包括:
将所述替换文本输入至所述语法分析树统计模型,在存在匹配的语法规则的情况下,向用户提供所述替换文本;
在不存在匹配的语法规则的情况下,提示替换文本错误并退出。
16.根据权利要求1至15中任一项所述的方法,其特征在于,所述方法,还包括:
获取语料文本;
将所述语料文本输入至基于成分分析的语法分析模型,生成语法分析树;
自底向上解析所述语法分析树,生成表格结构,得到语法分析树库;其中,所述语法分析树库中包括多个语料文本单元;所述表格结构包括父子节点的关系和兄弟节点的关系;
对所述语料文本单元赋予权重,生成所述语法分析树统计模型。
17.根据权利要求6至15中任一项所述的方法,其特征在于,所述方法,还包括:
获取训练数据集;
将所述训练数据集输入至词向量模型,对所述词向量模型进行训练,生成训练好的词向量模型。
18.一种文本上下文处理装置,其特征在于,包括:
文本获取单元,用于获取待处理文本;
第一处理单元,用于响应于用户精简文本的下文操作,将所述待处理文本输入至语法分析树统计模型,获取目标文本单元,删除所述待处理文本中的目标文本单元,生成精简文本;其中,所述待处理文本中包括多个文本单元,所述文本单元为词语或短语;
第二处理单元,用于响应于用户新增文本的上文操作,获取新增文本单元,确定所述新增文本单元对应的在所述待处理文本中的目标位置,将所述新增文本单元添加至所述目标位置,生成新增文本。
19.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至17中任一项所述的方法。
20.一种存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至17中任一项所述的方法。
21.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1至17中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210107962.1A CN114417827A (zh) | 2022-01-28 | 2022-01-28 | 文本上下文处理方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210107962.1A CN114417827A (zh) | 2022-01-28 | 2022-01-28 | 文本上下文处理方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114417827A true CN114417827A (zh) | 2022-04-29 |
Family
ID=81279632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210107962.1A Pending CN114417827A (zh) | 2022-01-28 | 2022-01-28 | 文本上下文处理方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114417827A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116151194A (zh) * | 2023-04-04 | 2023-05-23 | 上海燧原科技有限公司 | 中文通用语言的生成方法、装置、设备及存储介质 |
-
2022
- 2022-01-28 CN CN202210107962.1A patent/CN114417827A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116151194A (zh) * | 2023-04-04 | 2023-05-23 | 上海燧原科技有限公司 | 中文通用语言的生成方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110325982B (zh) | 在会话中提供多媒体文档的摘要 | |
CN106328147B (zh) | 语音识别方法和装置 | |
CN106776544B (zh) | 人物关系识别方法及装置和分词方法 | |
CN108304375B (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
WO2019100319A1 (en) | Providing a response in a session | |
CN110377900A (zh) | 网络内容发布的审核方法、装置、计算机设备及存储介质 | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
CN109979450B (zh) | 信息处理方法、装置及电子设备 | |
CN112101041A (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
CN113672708A (zh) | 语言模型训练方法、问答对生成方法、装置及设备 | |
CN113239666B (zh) | 一种文本相似度计算方法及系统 | |
CN112017643B (zh) | 语音识别模型训练方法、语音识别方法及相关装置 | |
CN114339450B (zh) | 视频评论生成方法、系统、设备及存储介质 | |
CN109710732A (zh) | 信息查询方法、装置、存储介质和电子设备 | |
CN109325124A (zh) | 一种情感分类方法、装置、服务器和存储介质 | |
CN112417127A (zh) | 对话模型的训练、对话生成方法、装置、设备及介质 | |
CN111832315B (zh) | 语义识别的方法、装置、电子设备和存储介质 | |
CN114328838A (zh) | 事件抽取方法、装置、电子设备及可读存储介质 | |
CN112399269A (zh) | 视频分割方法、装置、设备及存储介质 | |
CN116227466A (zh) | 一种语义不同措辞相似的句子生成方法、装置及设备 | |
CN111078884A (zh) | 一种关键词提取方法、装置及介质 | |
CN114417827A (zh) | 文本上下文处理方法、装置、电子设备和存储介质 | |
CN114281948A (zh) | 一种纪要确定方法及其相关设备 | |
CN116166843B (zh) | 基于细粒度感知的文本视频跨模态检索方法和装置 | |
CN117132923A (zh) | 视频分类方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |