CN111507088B - 语句补全方法、设备及可读存储介质 - Google Patents

语句补全方法、设备及可读存储介质 Download PDF

Info

Publication number
CN111507088B
CN111507088B CN202010302609.XA CN202010302609A CN111507088B CN 111507088 B CN111507088 B CN 111507088B CN 202010302609 A CN202010302609 A CN 202010302609A CN 111507088 B CN111507088 B CN 111507088B
Authority
CN
China
Prior art keywords
sentence
completion
analysis result
rule
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010302609.XA
Other languages
English (en)
Other versions
CN111507088A (zh
Inventor
李松
汤耀华
周楠楠
徐倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202010302609.XA priority Critical patent/CN111507088B/zh
Publication of CN111507088A publication Critical patent/CN111507088A/zh
Priority to PCT/CN2020/134320 priority patent/WO2021208460A1/zh
Application granted granted Critical
Publication of CN111507088B publication Critical patent/CN111507088B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种语句补全方法、设备及可读存储介质,所述语句补全方法包括:获取待补全语句和所述待补全语句对应的关联语句,并分别对所述待补全语句和所述关联语句进行依存句法分析,获得所述关联语句对应的第一分析结果和所述待补全语句对应的第二分析结果,进而将所述第一分析结果和所述第二分析结果输入预设语句补全模型,基于所述第一分析结果和所述第二分析结果,对所述待补全语句进行补全处理,获得初步补全结果,进而对所述初步补全结果进行后处理,获得目标补全结果。本申请解决了语句补全准确率低的技术问题。

Description

语句补全方法、设备及可读存储介质
技术领域
本申请涉及金融科技(Fintech)的人工智能领域,尤其涉及一种语句补全方法、设备及可读存储介质。
背景技术
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对应待办事项的分发也有更高的要求。
随着计算机软件和人工智能的不断发展,人工智能的应用领域也越来越广泛,在人工智能相关的智能问答系统中,智能问答系统常常会接收成分缺失的语句,进而导致智能问答系统无法识别语句中的语义,目前,通常通过先分析语句的语句类型,进而根据语句类型,使用不同的模型确定语句的先行词,并对先行词进行替换,以对成分缺失的语句进行补全,但是,该方法中确定句子类型和先行词通常是串联进行的,进而会造成错误累积,进而导致语句补全的准确率低,所以,现有技术中存在语句补全准确率低的技术问题。
发明内容
本申请的主要目的在于提供一种语句补全方法、设备及可读存储介质,旨在解决现有技术中语句补全准确率低的技术问题。
为实现上述目的,本申请提供一种语句补全方法,所述语句补全方法应用于语句补全设备,所述语句补全方法包括:
获取待补全语句和所述待补全语句对应的关联语句,并分别对所述待补全语句和所述关联语句进行依存句法分析,获得所述关联语句对应的第一分析结果和所述待补全语句对应的第二分析结果;
将所述第一分析结果和所述第二分析结果输入预设语句补全模型,基于所述第一分析结果和所述第二分析结果,对所述待补全语句进行补全处理,获得初步补全结果;
对所述初步补全结果进行后处理,获得目标补全结果。
可选地,所述将所述第一分析结果和所述第二分析结果输入预设语句补全模型,基于所述第一分析结果和所述第二分析结果,对所述待补全语句进行补全处理,获得初步补全结果的步骤包括:
将所述第一分析结果和所述第二分析结果输入所述预设语句补全模型,匹配所述第一分析结果和所述第二分析结果共同对应的语句补全规则;
基于所述语句补全规则,对所述待补全语句进行补全处理,获得所述初步补全结果。
可选地,所述语句补全规则包括关键词规则、重复词规则和缺省规则,
所述匹配所述第一分析结果和所述第二分析结果共同对应的语句补全规则的步骤包括:
确定所述第一分析结果和所述第二分析结果中是否存在预设关键词,若所述第一分析结果和所述第二分析结果中存在所述预设关键词,则确定所述语句补全规则为所述关键词规则;
若所述第一分析结果和所述第二分析结果中不存在所述预设关键词,则确定所述第一分析结果和所述第二分析结果之间是否存在重复词;
若所述第一分析结果和所述第二分析结果之间存在所述重复词,则确定所述语句补全规则为所述重复词规则;
若所述第一分析结果和所述第二分析结果之间不存在所述重复词,则确定所述语句补全规则为所述缺省规则。
可选地,所述语句补全规则包括关键词规则、重复词规则和缺省规则,
所述基于所述语句补全规则,对所述待补全语句进行补全处理,获得所述初步补全结果的步骤包括:
基于所述关键词规则,对所述待补全语句进行补全处理,获得所述初步补全结果;或者
基于所述重复词规则,对所述待补全语句进行补全处理,获得所述初步补全结果;或者
基于所述缺省规则,对所述待补全语句进行补全处理,获得所述初步补全结果。
可选地,所述基于所述关键词规则,对所述待补全语句进行补全处理,获得所述初步补全结果的步骤包括:
基于所述关键词规则,在所述待补全语句中确定目标短语;
基于所述目标短语,对所述关联语句进行分段,获得所述关联语句对应的各分段语句;
基于各所述分段语句,对所述待补全语句进行补全处理,获得所述初步补全结果。
可选地,所述基于所述缺省规则,对所述待补全语句进行补全处理,获得所述初步补全结果的步骤包括:
获取所述第一分析结果和所述第二分析结果中的各分词信息;
基于预设语法顺序,将各所述分词信息进行顺序连接,获得所述初步补全结果。
可选地,所述获取待补全语句的步骤包括:
获取待预测语句,并将所述待预测语句输入预设语句补全预测模型,以确定所述待预测语句是否需要进行补全处理;
若所述待预测语句需要进行补全处理,则将所述待预测语句作为所述待补全语句;或者
获取待预测语句,并对所述待预测语句进行依存句法分析,确定所述待预测语句是否缺少预设语句成分;
若所述待预测语句缺少所述预设语句成分,则将所述待预测语句作为所述待补全语句。
可选地,所述将所述待补全语句输入预设语句补全预测模型,以确定所述待补全语句是否需要进行补全处理的步骤之前,所述语句补全方法还包括:
获取各待补全训练语句和基础预测模型,并分别对各所述待补全训练语句进行分词,获得各所述待补全训练语句对应的分词结果;
基于各所述分词结果,分别对各所述待补全训练语句进行编码,获得各所述待补全训练语句对应的第一编码结果;
分别对所述待补全训练语句进行依存句法分析,获得各所述待补全训练语句对应的句法分析结果;
基于各所述句法分析结果,分别对各所述待补全训练语句进行编码,获得各所述待补全训练语句对应的第二编码结果;
基于各所述第一编码结果和各所述第二编码结果,生成各所述待补全训练语句对应的目标编码结果;
基于各所述目标编码结果,对所述基础预测模型进行迭代训练,直至所述基础预测模型达到预设迭代结束条件,获得所述预设语句补全预测模型。
可选地,所述获取待补全语句和所述待补全语句对应的关联语句的步骤包括:
获取初始待补全语句和所述初始待补全语句对应的初始关联语句;
分别对所述初始待补全语句和所述初始关联语句进行去口语化处理,获得所述初始待补全语句对应的所述待补全语句和所述初始关联语句对应的所述关联语句。
本申请还提供一种语句补全装置,所述语句补全装置为虚拟装置,且所述语句补全装置应用于语句补全设备,所述语句补全装置包括:
依存句法分析模块,用于获取待补全语句和所述待补全语句对应的关联语句,并分别对所述待补全语句和所述关联语句进行依存句法分析,获得所述关联语句对应的第一分析结果和所述待补全语句对应的第二分析结果;
语句补全模块,用于将所述第一分析结果和所述第二分析结果输入预设语句补全模型,基于所述第一分析结果和所述第二分析结果,对所述待补全语句进行补全处理,获得初步补全结果;
后处理模块,用于对所述初步补全结果进行后处理,获得目标补全结果。
可选地,所述语句补全模块包括:
匹配子模块,用于将所述第一分析结果和所述第二分析结果输入所述预设语句补全模型,匹配所述第一分析结果和所述第二分析结果共同对应的语句补全规则;
补全处理子模块,用于基于所述语句补全规则,对所述待补全语句进行补全处理,获得所述初步补全结果。
可选地,所述匹配子模块包括:
第一判定单元,用于确定所述第一分析结果和所述第二分析结果中是否存在预设关键词,若所述第一分析结果和所述第二分析结果中存在所述预设关键词,则确定所述语句补全规则为所述关键词规则;
第二判定单元,用于若所述第一分析结果和所述第二分析结果中不存在所述预设关键词,则确定所述第一分析结果和所述第二分析结果之间是否存在重复词;
第三判定单元,用于若所述第一分析结果和所述第二分析结果之间存在所述重复词,则确定所述语句补全规则为所述重复词规则;
第四判定单元,用于若所述第一分析结果和所述第二分析结果之间不存在所述重复词,则确定所述语句补全规则为所述缺省规则。
可选地,所述补全处理子模块包括:
第一补全处理单元,用于基于所述关键词规则,对所述待补全语句进行补全处理,获得所述初步补全结果;或者
第二补全处理单元,用于基于所述重复词规则,对所述待补全语句进行补全处理,获得所述初步补全结果;或者
第三补全处理单元,用于基于所述缺省规则,对所述待补全语句进行补全处理,获得所述初步补全结果。
可选地,所述第一补全处理单元包括:
确定子单元,用于基于所述关键词规则,在所述待补全语句中确定目标短语;
分段子单元,用于基于所述目标短语,对所述关联语句进行分段,获得所述关联语句对应的各分段语句;
补全处理子单元,用于基于各所述分段语句,对所述待补全语句进行补全处理,获得所述初步补全结果。
可选地,所述第三补全处理单元包括:
获取子单元,用于获取所述第一分析结果和所述第二分析结果中的各分词信息;
连接子单元,用于基于预设语法顺序,将各所述分词信息进行顺序连接,获得所述初步补全结果。
可选地,所述依存句法分析模块包括:
预测子模块,用于获取待预测语句,并将所述待预测语句输入预设语句补全预测模型,以确定所述待预测语句是否需要进行补全处理;
第一确定子模块,用于若所述待预测语句需要进行补全处理,则将所述待预测语句作为所述待补全语句;或者
句法分析子模块,用于获取待预测语句,并对所述待预测语句进行依存句法分析,确定所述待预测语句是否缺少预设语句成分;
第二确定子模块,用于若所述待预测语句缺少所述预设语句成分,则将所述待预测语句作为所述待补全语句。
可选地,所述语句补全装置还包括:
分词模块,用于获取各待补全训练语句和基础预测模型,并分别对各所述待补全训练语句进行分词,获得各所述待补全训练语句对应的分词结果;
第一编码模块,用于基于各所述分词结果,分别对各所述待补全训练语句进行编码,获得各所述待补全训练语句对应的第一编码结果;
句法分析模块,用于分别对所述待补全训练语句进行依存句法分析,获得各所述待补全训练语句对应的句法分析结果;
第二编码模块,用于基于各所述句法分析结果,分别对各所述待补全训练语句进行编码,获得各所述待补全训练语句对应的第二编码结果;
生成模块,用于基于各所述第一编码结果和各所述第二编码结果,生成各所述待补全训练语句对应的目标编码结果;
迭代训练模块,用于基于各所述目标编码结果,对所述基础预测模型进行迭代训练,直至所述基础预测模型达到预设迭代结束条件,获得所述预设语句补全预测模型。
可选地,所述依存句法分析模块还包括:
获取子模块,用于获取初始待补全语句和所述初始待补全语句对应的初始关联语句;
去口语化处理子模块,用于分别对所述初始待补全语句和所述初始关联语句进行去口语化处理,获得所述初始待补全语句对应的所述待补全语句和所述初始关联语句对应的所述关联语句。
本申请还提供一种语句补全设备,所述语句补全设备为实体设备,所述语句补全设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述语句补全方法的程序,所述语句补全方法的程序被处理器执行时可实现如上述的语句补全方法的步骤。
本申请还提供一种可读存储介质,所述可读存储介质上存储有实现语句补全方法的程序,所述语句补全方法的程序被处理器执行时实现如上述的语句补全方法的步骤。
本申请获取待补全语句和所述待补全语句对应的关联语句,并分别对所述待补全语句和所述关联语句进行依存句法分析,获得所述关联语句对应的第一分析结果和所述待补全语句对应的第二分析结果,进而将所述第一分析结果和所述第二分析结果输入预设语句补全模型,基于所述第一分析结果和所述第二分析结果,对所述待补全语句进行补全处理,获得初步补全结果,进而对所述初步补全结果进行后处理,获得目标补全结果。也即,本申请首先对待补全语句和所述待补全语句对应的关联语句进行依存句法分析,获得第一分析结果和第二分析结果,进而基于第一分析结果和第二分析结果,通过预设语句补全模型对所述待补全语句进行补全处理,获得初始补全结果,进一步地,对初步补全结果进行后处理,获得目标补全结果。也即,本申请提供了一种基于依存句法分析和待补全语句对应的关联语句,对待补全语句进行补全的方法,进而避免了基于句子类型和先行词对待补全语句进行补全,进而避免了由于串联进行句子类型和先行词的确定,而导致错误累积,进而导致语句补全准确率变低的情况发生,进而提高了语句补全的准确率,所以,解决了语句补全准确率低的技术问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请语句补全方法第一实施例的流程示意图;
图2为本申请语句补全方法第二实施例的流程示意图;
图3为本申请实施例方案涉及的硬件运行环境的设备结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请实施例提供一种语句补全方法,在本申请语句补全方法的第一实施例中,参照图1,所述语句补全方法包括:
步骤S10,获取待补全语句和所述待补全语句对应的关联语句,并分别对所述待补全语句和所述关联语句进行依存句法分析,获得所述关联语句对应的第一分析结果和所述待补全语句对应的第二分析结果;
在本实施例中,需要说明的是,所述语句补全方法应用于问答系统,所述待补全语句为语义补全且确认需要进行补全的语句,所述关联语句为所述待补全语句的上下文关联语句,例如,假设问答系统中的一段对话信息为“A:还款日期是一样的么?B:是一样的”,则若语句B为所述待补全语句,则语句A为所述关联语句。
获取待补全语句和所述待补全语句对应的关联语句,并分别对所述待补全语句和所述关联语句进行依存句法分析,获得所述关联语句对应的第一分析结果和所述待补全语句对应的第二分析结果,具体地,从所述问答系统的数据库中提取待补全语句和所述待补全语句对应的关联语句,并分别对所述待补全语句和所述关联语句进行依存句法分析,以分别对所述待补全语句和所述关联语句进行语法解析,获得所述关联语句对应的第一分析结果和所述待补全语句对应的第二分析结果,其中,所述第一分析结果为对所述待补全语句进行语法解析的结果,所述第二分析结果为对所述关联语句进行语法解析的结果,且所述第一分析结果和所述第二分析结果均可以向量的形式进行表示,例如,语句“有关注微粒贷公众号”进行语法解析后,获得的语法解析结果为“(‘有’,‘v’,0,‘HED’),(‘关注’,‘v’,1,‘VOB’),(‘微粒贷’,‘nz’,4,‘ATT’),(‘公众号’,‘nz’,2,‘VOB’)”,其中,v为动词的标识,HED为核心关系的标识,VOB为动宾关系的标识,nz为名词的标识,ATT为定中关系的标识,0、1、4、2为各个解析出来的词的编码,进而获得语法解释结果对应的向量为(0,1,4,2)。
其中,所述获取待补全语句和所述待补全语句对应的关联语句的步骤包括:
步骤S11,获取初始待补全语句和所述初始待补全语句对应的初始关联语句;
在本实施例中,需要说明的是,所述初始待补全语句为未进行去口语化处理之前的且已经确定需要进行补全处理的语句,所述初始关联语句为未进行去口语化处理之前的所述初始待补全语句的关联语句。
步骤S12,分别对所述初始待补全语句和所述初始关联语句进行去口语化处理,获得所述初始待补全语句对应的所述待补全语句和所述初始关联语句对应的所述关联语句。
在本实施例中,分别对所述初始待补全语句和所述初始关联语句进行去口语化处理,获得所述初始待补全语句对应的所述待补全语句和所述初始关联语句对应的所述关联语句,具体地,分别对所述初始待补全语句和所述初始关联语句与预设口语集合进行对比,若所述初始待补全语句中存在与所述预设口语集合中相同的第一待去除词语,则在所述初始待补全语句中去除所述第一待去除词语,获得所述待补全语句,相同地,若所述关联语句中存在与所述预设口语集合中相同的第二待去除词语,则在所述初始关联语句中去除所述第二待去除词语,获得所述关联语句,例如,所述预设口语集合包括嗯、好的、请问一下、那个、那请问等口语。
步骤S20,将所述第一分析结果和所述第二分析结果输入预设语句补全模型,基于所述第一分析结果和所述第二分析结果,对所述待补全语句进行补全处理,获得初步补全结果;
在本实施例中,需要说明的是,所述预设语句补全模型为预先设置好的用于进行语句的补全处理的规则模型,所述预设语句补全模型包括一条或者多条语句补全规则。
将所述第一分析结果和所述第二分析结果输入预设语句补全模型,基于所述第一分析结果和所述第二分析结果,对所述待补全语句进行补全处理,获得初步补全结果,具体地,将所述第一分析结果和所述第二分析结果输入预设语句补全模型,基于所述第一分析结果和所述第二分析结果,确定所述待补全语句对应的语句补全规则,并基于所述语句补全规则对应的语句补全操作,对所述待补全语句进行补全处理,获得初步补全结果。
另外地,需要说明的是,各所述语句补全规则可根据问答系统的应用场景进行组合,形成所述预设语句补全模型,例如,假设所述各所述语句补全规则包括规则A、规则B和规则C,在所述问答系统的应用场景中,涉及到规则A和规则B,则可基于所述规则A和所述规则B组合所述预设语句补全模型,进而当将所述第一分析结果和所述第二分析结果输入所述预设语句补全模型中时,则判断所述待补全语句是否适用于规则A,若所述待补全语句适用于规则A,则基于所述规则A对所述待补全语句进行补全,若所述待补全语句不适用于规则A,则基于所述规则B对所述待补全语句进行补全。
其中,所述将所述第一分析结果和所述第二分析结果输入预设语句补全模型,基于所述第一分析结果和所述第二分析结果,对所述待补全语句进行补全处理,获得初步补全结果的步骤包括:
步骤S21,将所述第一分析结果和所述第二分析结果输入所述预设语句补全模型,匹配所述第一分析结果和所述第二分析结果共同对应的语句补全规则;
在本实施例中,将所述第一分析结果和所述第二分析结果输入所述预设语句补全模型,匹配所述第一分析结果和所述第二分析结果共同对应的语句补全规则,具体地,将所述第一分析结果和所述第二分析结果输入所述预设语句补全模型,确定所述第一分析结果和所述第二分析结果是否命中定制规则,若所述第一分析结果和所述第二分析结果命中定制规则,则确定所述语句补全规则为定制规则,若所述第一分析结果和所述第二分析结果未命中定制规则,则确定所述语句补全规则为缺省规则,其中,所述定制规则为基于所述第一分析结果和所述第二分析结果的特性而定制的语句补全规则,其中,所述定制规则包括关键词规则和重复词规则等,所述缺省规则为通用的语句补全规则。
其中,所述语句补全规则包括关键词规则、重复词规则和缺省规则,
所述匹配所述第一分析结果和所述第二分析结果共同对应的语句补全规则的步骤包括:
步骤S211,确定所述第一分析结果和所述第二分析结果中是否存在预设关键词,若所述第一分析结果和所述第二分析结果中存在所述预设关键词,则确定所述语句补全规则为所述关键词规则;
在本实施例中,需要说明的是,所述关键词规则为基于预设关键词进行语句补全的规则,所述预设关键词为预先设置好的关键词,例如,“有没有”、“是否”等。
确定所述第一分析结果和所述第二分析结果中是否存在预设关键词,若所述第一分析结果和所述第二分析结果中存在所述预设关键词,则确定所述语句补全规则为所述关键词规则,具体地,分别将所述第一分析结果和所述第二分析结果与预设关键词集合进行比对,若所述第一分析结果中与所述预设关键词集合中存在相同词语,则判定所述第一分析结果中存在所述预设关键词,相同地,若所述第二分析结果中与所述预设关键词集合中存在相同词语,则判定所述第二分析结果中存在所述预设关键词,进而若所述第一分析结果中存在所述预设关键词,或者所述第二分析结果中存在所述预设关键词,或者所述第一分析结果中和所述第二分析结果中均存在所述预设关键词,则判定所述第一分析结果和所述第二分析结果中存在所述预设关键词,并确定所述语句补全规则为所述关键词规则。
步骤S212,若所述第一分析结果和所述第二分析结果中不存在所述预设关键词,则确定所述第一分析结果和所述第二分析结果之间是否存在重复词;
在本实施例中,需要说明的是,所述重复词为所述待补全语句中和所述关联语句中相同的词语。
步骤S213,若所述第一分析结果和所述第二分析结果之间存在所述重复词,则确定所述语句补全规则为所述重复词规则;
在本实施例中,需要说明的是,所述重复词规则为基于所述重复词进行语句补全的规则。
步骤S214,若所述第一分析结果和所述第二分析结果之间不存在所述重复词,则确定所述语句补全规则为所述缺省规则。
在本实施例中,需要说明的是,所述缺省规则为通用的语句补全规则,也即,所述缺省规则为对所述第一分析结果和所述第二分析结果均为特定的特性要求的语句补全规则,其中,所述特性要求包括具有预设关键词、具有重复词等。
步骤S22,基于所述语句补全规则,对所述待补全语句进行补全处理,获得所述初步补全结果。
在本实施例中,基于所述语句补全规则,对所述待补全语句进行补全处理,获得所述初步补全结果,具体地,基于所述语句补全规则、所述第一分析结果和所述第二分析结果,确定所述待补全语句对应的语句补全操作,对所述待补全语句执行所述语句补全操作,获得所述初步补全结果。
其中,所述语句补全规则包括关键词规则、重复词规则和缺省规则,
所述基于所述语句补全规则,对所述待补全语句进行补全处理,获得所述初步补全结果的步骤包括:
步骤S221,基于所述关键词规则,对所述待补全语句进行补全处理,获得所述初步补全结果;
在本实施例中,需要说明的是,所述关键词规则包括第一关键词规则和第二关键词规则,其中,所述第一关键词规则为所述预设关键词在所述待补全语句中时所对应的关键词规则,所述第二关键词规则为所述预设关键词在所述关联语句中时所对应的关键词规则,例如,当所述第一分析结果中存在指代词时,则获取所述第二分析结果中构成名词集合,并基于预设先行词匹配模型,在所述构成名词集合中确定所述指代词对应的先行词,并在所述待补全语句中,将指代词替换为先行词,获得所述初步补全结果,其中,所述指代词包括他、她和它等,进一步地,假设所述预设关键词为“有没有”,如果“有没有”在所述关联语句中,且所述待补全语句中存在“没”“不”“否”等否定词,则在所述待补全语句中将“有没有”替换成“没有”,相同地,假设所述预设关键词为“是否”,若“是否”存在所述关联语句中,且待补全语句中存在“没”“不”“否”等否定词,则在所述待补全语句中把“是否”替换成“不”。
基于所述关键词规则,对所述待补全语句进行补全处理,获得所述初步补全结果,具体地,在所述关联语句中匹配所述预设关键词对应的先行词,并在所述待补全语句中将所述预设关键词替换为所述先行词,获得所述初步补全结果,例如,当所述待补全语句中出现“她、他、它”等指代词时,则在所述关联语句中确定名词构建候选集,并基于所述关键词规则,在所述名词构建候选集中匹配所述预设关键词对应的先行词,进而在所述待补全语句中将所述预设关键词替换为所述先行词,其中,需要说明的是,所述名词构建候选集为所述关联语句中所有名词组成的集合,进一步地,若所述第二分析结果中存在所述预设关键词,则确定所述预设关键词对应的第二关键词规则和所述预设关键词对应的依存句法,并依据所述依存句法和所述第二关键词规则,确定所述预设关键词对应的替换词,并将所述关联语句中的所述预设关键词替换为所述替换词,获得所述初步补全结果,例如,当所述预设关键词为“什么”“哪”“谁”等,且所述预设关键词在所述关联语句中,则若所述预设关键词是“VOB”,则所述待补全语句中选取一个动词对所述关联语句中的所述预设关键词进行替换,获得所述初步补全结果。
其中,所述基于所述关键词规则,对所述待补全语句进行补全处理,获得所述初步补全结果的步骤包括:
步骤C10,基于所述关键词规则,在所述待补全语句中确定目标短语;
在本实施例中,基于所述关键词规则,在所述待补全语句中确定目标短语,具体地,若所述预设关键词为选择性词语,例如,“还是”等,且所述预设关键词在所述关联语句中,则在所述关联语句中确定所述选择性词语左右两边的具有相同词性的目标短语集合,且获取所述目标短语集合中最长的短语作为所述目标短语,例如,假设所述关联语句为“你要明天还款还是后天还款”,所述待补全语句为“明天”,所述预设关键词为“还是”,进而所述预设关键词左右两边的最长的相同词性短语分别为“明天还款”和“后天还款”。
步骤C20,基于所述目标短语,对所述关联语句进行分段,获得所述关联语句对应的各分段语句;
在本实施例中,需要说明的是,各所述分段语句包括第一分段语句、第二分段语句和第三分段语句,所述目标短语包括在所述预设关键词左边的第一目标短语和在所述预设关键词右边的第二目标短语。
基于所述目标短语,对所述关联语句进行分段,获得所述关联语句对应的各分段语句,具体地,基于所述目标短语和所述预设关键词,将所述关联语句分为三段,获得所述第一分段语句、所述第二分段语句和所述第三分段语句,例如,假设所述关联语句为“你要明天还款还是后天还款”,所述第一目标短语为“明天还款”,所述第二目标短语为“后天还款”,所述预设关键词为“还是”,则所述第一分段语句为“你要”,所述第二分段语句为“明天还款”,所述第三分段语句为“后天还款”。
步骤C30,基于各所述分段语句,对所述待补全语句进行补全处理,获得所述初步补全结果。
在本实施例中,基于各所述分段语句,对所述待补全语句进行补全处理,获得所述初步补全结果,具体地,确定所述待补全语句与所述第二分段语句的重合词的第一重合词长度,并确定所述待补全语句与所述第三分段语句的重合词的第二重合词长度,进而若所述第一重合词长度大于预设重合词长度阀值,则将所述第一分段语句和所述第二分段语句进行拼接,获得第一拼接结果,并对所述第一拼接结果进行修正处理,获得所述初步补全结果,若所述第二重合词长度大于预设重合词长度阀值,则将所述第一分段语句和所述第三分段语句进行拼接,获得第二拼接结果,并对所述第二拼接结果进行修正处理,获得所述初步补全结果,例如,假设,所述预设重合词长度阀值,所述第一分段语句为“你要”,所述第二分段语句为“明天还款”,所述第三分段语句为“后天还款”,所述待补全语句为“明天”,则所述第一重合词长度为2,所述第二重合词长度为1,则将所述第一分段语句和所述第二分段语句进行拼接且进行修正处理后,获得初步补全处理结果为“我要明天还款”。
步骤S222,基于所述重复词规则,对所述待补全语句进行补全处理,获得所述初步补全结果;
在本实施例中,基于所述重复词规则,对所述待补全语句进行补全处理,获得所述初步补全结果,具体地,基于所述重复词规则,将所述第二分析结果中的各分词信息进行连接,获得所述初步补全结果,例如,假设所述关联语句为“额度和原先是一样的么”,所述待补全语句为“一样的”,则所述重复词为“一样”,则将所述关联语句对应的第二分析结果中的n,v,HED,VOB,SBV,ATT进行连接,获得初步补全结果“额度和原先是一样”,其中,n为名词的标识,v为动词的标识,HED为核心关系的标识,VOB为动宾关系的标识,SBV为主谓关系的标识,ATT为定中关系的标识。
步骤S223,基于所述缺省规则,对所述待补全语句进行补全处理,获得所述初步补全结果。
在本实施例中,需要说明的是,所述缺省规则为通用语句补全规则。
基于所述缺省规则,对所述待补全语句进行补全处理,获得所述初步补全结果,具体地,基于所述缺省规则,在所述第一分析结果和所述第二分析结果中确定各分词信息,并将各所述分词信息以预设语法顺序进行连接,获得所述初步补全结果,例如,将各所述分词信息以“n”“v”“s”“f”“t”“m”“HED”“SBV”“VOB”“ADV”的顺序进行连接,获得所述初步补全结果,其中,s为处所词的标识,f为方位词的标识,t为时间词的标识,m为数词的标识,ADV为状中结构的标识。
其中,所述基于所述缺省规则,对所述待补全语句进行补全处理,获得所述初步补全结果的步骤包括:
步骤D10,获取所述第一分析结果和所述第二分析结果中的各分词信息;
在本实施例中,需要说明的是,所述分词信息包括分词和分词之间的分词关联关系,例如,所述分词包括动词、名词、时间词等,所述分词关联关系包括主谓关系、动宾关系等。
步骤D20,基于预设语法顺序,将各所述分词信息进行顺序连接,获得所述初步补全结果。
在本实施例中,基于预设语法顺序,将各所述分词信息进行顺序连接,获得所述初步补全结果,具体地,基于预设语法顺序和所述分词信息中的分词关联关系,对各所述分词进行顺序连接,获得所述初步补全结果。
步骤S30,对所述初步补全结果进行后处理,获得目标补全结果。
在本实施例中,需要说明的是,所述后处理可以为错误修正处理,如错乱语序修正处理、语义残缺修正处理等。
对所述初步补全结果进行后处理,获得目标补全结果,具体地,基于预设后处理模型,对所述初步补全结果中的语句错误进行错误修正处理,获得所述目标补全结果,例如,在所述问答系统中的实际业务中,“调整”往往是和额度关联在一起的,则在进行后处理时,将所有单独出现的“调整”替换成“调整额度”,其中,需要说明的是,预设后处理模型可基于所述问答系统中的实际业务进行补充完善。
本实施例获取待补全语句和所述待补全语句对应的关联语句,并分别对所述待补全语句和所述关联语句进行依存句法分析,获得所述关联语句对应的第一分析结果和所述待补全语句对应的第二分析结果,进而将所述第一分析结果和所述第二分析结果输入预设语句补全模型,基于所述第一分析结果和所述第二分析结果,对所述待补全语句进行补全处理,获得初步补全结果,进而对所述初步补全结果进行后处理,获得目标补全结果。也即,本实施例首先对待补全语句和所述待补全语句对应的关联语句进行依存句法分析,获得第一分析结果和第二分析结果,进而基于第一分析结果和第二分析结果,通过预设语句补全模型对所述待补全语句进行补全处理,获得初始补全结果,进一步地,对初步补全结果进行后处理,获得目标补全结果。也即,本实施例提供了一种基于依存句法分析和待补全语句对应的关联语句,对待补全语句进行补全的方法,进而避免了基于句子类型和先行词对待补全语句进行补全,进而避免了由于串联进行句子类型和先行词的确定,而导致错误累积,进而导致语句补全准确率变低的情况发生,进而提高了语句补全的准确率,所以,解决了语句补全准确率低的技术问题。
进一步地,参照图2,基于本申请中第一实施例,在本申请的另一实施例中,所述获取待补全语句的步骤包括:
步骤A10,获取待预测语句,并将所述待预测语句输入预设语句补全预测模型,以确定所述待预测语句是否需要进行补全处理;
在本实施例中,需要说明的是,所述待预测语句为所述问答系统接收的语句,所述预设语句补全预测模型为预先训练好的机器学习模型,且当所述问答系统中的待预测语句的数量较多时,则适用于机器学习模型预测所述待预测模型是否需要进行补全。
获取待预测语句,并将所述待预测语句输入预设语句补全预测模型,以确定所述待预测语句是否需要进行补全处理,具体地,获取待预测语句,并将所述待预测语句输入预设语句补全预测模型,以对所述待补全语句进行分词,获得分词结果,并基于所述分词结果和预设第一编码方式,对所述待补全语句进行编码,获得第一编码向量,并基于预设第二编码方式,对所述待补全语句进行编码,获得第二编码向量,进而将所述第一编码向量和所述第二编码向量进行拼接,获得所述待补全语句对应的特征表示向量,进一步地,基于所述预设语句补全预测模型中的数据处理层,对所述特征表示向量进行数据处理,其中,所述数据处理层包括卷积层、池化层、全连接层等,进而获得补全预测结果,并基于所述补全预测结果,确定所述待补全语句是否需要进行补全处理,其中,需要说明的是,所述预设第一编码方式包括TF-IDF(term frequency-inverse document frequency,词频-逆文本频率指数)算法等,所述预设第二编码方式包括独热编码等。
其中,所述将所述待补全语句输入预设语句补全预测模型,以确定所述待补全语句是否需要进行补全处理的步骤之前,所述语句补全方法还包括:
步骤B10,获取各待补全训练语句和基础预测模型,并分别对各所述待补全训练语句进行分词,获得各所述待补全训练语句对应的分词结果;
在本实施例中,需要说明的是,所述待补全训练语句为已经确定好需要进行补全处理的语句。
获取各待补全训练语句和基础预测模型,并分别对各所述待补全训练语句进行分词,获得各所述待补全训练语句对应的分词结果,具体地,从预设训练数据存储库中提取各待补全训练语句和基础预测模型,并分别将各所述待补全语句拆分为各自对应的词语,获得各所述待补全训练语句对应的分词结果,例如,假设所述待补全训练语句为“是一样的”,则分词结果为(是,一样的)。
步骤B20,基于各所述分词结果,分别对各所述待补全训练语句进行编码,获得各所述待补全训练语句对应的第一编码结果;
在本实施例中,基于各所述分词结果,分别对各所述待补全训练语句进行编码,获得各所述待补全训练语句对应的第一编码结果,具体地,基于所述分词结果,以预设第一编码方式对所述待补全训练语句进行编码,获得第一训练语句向量,并将第一训练语句向量作为所述第一编码结果,例如,假设所述待补全训练语句为“是一样的”,则分词结果为(是,一样的),所述第一编码结果为(a,b),其中,编码a为“是”的标识,且出现频率为1,编码b为“一样的”的标识,且出现频率为1。
步骤B30,分别对所述待补全训练语句进行依存句法分析,获得各所述待补全训练语句对应的句法分析结果;
步骤B40,基于各所述句法分析结果,分别对各所述待补全训练语句进行编码,获得各所述待补全训练语句对应的第二编码结果;
在本实施例中,具体地,分别对所述待补全训练语句进行依存句法分析,获得各所述待补全训练语句对应的句法分析结果,进而以预设第二编码方式对所述待补全训练语句进行独热编码,获得第二训练语句向量,并将所述第二训练语句向量作为所述第二编码结果,其中,所述第二训练语句向量为由0和1组成的向量,例如,假设所述第二训练语句向量为(0,1),其中,0表示所述待补全训练语句中不存在名词,1表示所述待补全训练语句中存在动词。
步骤B50,基于各所述第一编码结果和各所述第二编码结果,生成各所述待补全训练语句对应的目标编码结果;
在本实施例中,基于所述第一编码结果和所述第二编码结果,生成所述待补全训练语句对应的目标编码结果,具体地,将所述第一编码结果对应的第一训练语句向量和所述第二编码结果对应的第二训练语句向量进行拼接,获得目标编码向量,并将所述目标编码向量作为所述目标编码结果,例如,假设所述第一训练语句向量为(a,b,c),所述第二训练语句向量为(0,1,0,1),则所述目标编码向量为(a,b,c,0,1,0,1)。
步骤B60,基于各所述目标编码结果,对所述基础预测模型进行迭代训练,直至所述基础预测模型达到预设迭代结束条件,获得所述预设语句补全预测模型。
在本实施例中,基于各所述目标编码结果,对所述基础预测模型进行迭代训练,直至所述基础预测模型达到预设迭代结束条件,获得所述预设语句补全预测模型,具体地,则在各所述目标编码结果中提取第一目标编码结果,并将所述第一目标编码结果输入所述基础预测模型,对所述基础预测模型进行训练更新,获得初始训练模型,并确定所述初始训练模型是否满足预设迭代结束条件,若所述初始训练模型满足预设迭代结束条件,则将所述初始训练模型作为所述预设语句补全预测模型,若所述初始训练模型不满足预设迭代结束条件,则在各所述目标编码结果中提取第二目标编码结果,并基于所述第二目标编码结果,重新对所述初始训练模型进行训练更新,直至所述初始训练模型满足所述预设迭代结束条件,获得所述预设语句补全预测模型,其中,所述预设迭代结束条件包括达到最大迭代次数、模型对应的损失函数收敛等。
步骤A20,若所述待预测语句需要进行补全处理,则将所述待预测语句作为所述待补全语句;
在本实施例中,若所述待预测语句需要进行补全处理,则将所述待预测语句作为所述待补全语句,具体地,若确定所述待预测语句需要进行补全处理,则将预设待补全语句标识赋予所述待预测语句,获得所述待补全语句,若确定所述待预测语句不需要进行补全,则将预设语义明确标识赋予所述待预测语句。
步骤A30,获取待预测语句,并对所述待预测语句进行依存句法分析,确定所述待预测语句是否缺少预设语句成分;
在本实施例中,需要说明的是,所述预设语句成分包括主谓宾成分,其中,所述主谓宾成分为主语成分、谓语成分和宾语成分。
获取待预测语句,并对所述待预测语句进行依存句法分析,确定所述待预测语句是否缺少预设语句成分,具体地,获取待预测语句,并对所述待预测语句进行依存句法分析,获得语句解析结果,并基于所述语句解析结果,确定所述待补全语句是否存在主谓宾成分。
步骤A40,若所述待预测语句缺少所述预设语句成分,则将所述待预测语句作为所述待补全语句。
在本实施例中,若所述待预测语句缺少所述预设语句成分,则将所述待预测语句作为所述待补全语句,具体地,若所述待预测语句缺少所述预设语句成分,则将预设待补全语句标识赋予所述待预测语句,获得所述待补全语句,若所述待预测语句不缺少所述预设语句成分,则将预设语义明确标识赋予所述待预测语句。
本实施通过获取待预测语句,并将所述待预测语句输入预设语句补全预测模型,以确定所述待预测语句是否需要进行补全处理,进而若所述待预测语句需要进行补全处理,则将所述待预测语句作为所述待补全语句;或者获取待预测语句,并对所述待预测语句进行依存句法分析,确定所述待预测语句是否缺少预设语句成分,进而若所述待预测语句缺少所述预设语句成分,则将所述待预测语句作为所述待补全语句。也即,本实施例提供了一种确定待预测语句是否需要进行补全处理的方法,也即,当样本数量较少时,可通过对所述待预测语句进行依存句法分析,确定所述待预测语句是否缺少预设语句成分,进而当所述待预测语句缺少所述预设语句成分时,则判定所述待预测语句需要进行补全处理,当样本数量较多时,基于机器学习模型确定所述待补全语句是否需要进行补全处理,进而在确定所述待补全语句需要进行补全后,即可基于依存句法分析和待补全语句对应的关联语句,对待补全语句进行补全,进而避免了基于句子类型和先行词对待补全语句进行补全,进而避免了由于串联进行句子类型和先行词的确定,而导致错误累积,进而导致语句补全准确率变低的情况发生,进而提高了语句补全的准确率,所以,为解决语句补全准确率低的技术问题奠定了基础。
参照图3,图3是本申请实施例方案涉及的硬件运行环境的设备结构示意图。
如图3所示,该语句补全设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该语句补全设备还可以包括矩形用户接口、网络接口、摄像头、RF(RadioFrequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图3中示出的语句补全设备结构并不构成对语句补全设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图3所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及语句补全程序。操作系统是管理和控制语句补全设备硬件和软件资源的程序,支持语句补全程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与语句补全系统中其它硬件和软件之间通信。
在图3所示的语句补全设备中,处理器1001用于执行存储器1005中存储的语句补全程序,实现上述任一项所述的语句补全方法的步骤。
本申请语句补全设备具体实施方式与上述语句补全方法各实施例基本相同,在此不再赘述。
本申请实施例还提供一种语句补全装置,所述语句补全装置应用于语句补全设备,所述语句补全装置包括:
依存句法分析模块,用于获取待补全语句和所述待补全语句对应的关联语句,并分别对所述待补全语句和所述关联语句进行依存句法分析,获得所述关联语句对应的第一分析结果和所述待补全语句对应的第二分析结果;
语句补全模块,用于将所述第一分析结果和所述第二分析结果输入预设语句补全模型,基于所述第一分析结果和所述第二分析结果,对所述待补全语句进行补全处理,获得初步补全结果;
后处理模块,用于对所述初步补全结果进行后处理,获得目标补全结果。
可选地,所述语句补全模块包括:
匹配子模块,用于将所述第一分析结果和所述第二分析结果输入所述预设语句补全模型,匹配所述第一分析结果和所述第二分析结果共同对应的语句补全规则;
补全处理子模块,用于基于所述语句补全规则,对所述待补全语句进行补全处理,获得所述初步补全结果。
可选地,所述匹配子模块包括:
第一判定单元,用于确定所述第一分析结果和所述第二分析结果中是否存在预设关键词,若所述第一分析结果和所述第二分析结果中存在所述预设关键词,则确定所述语句补全规则为所述关键词规则;
第二判定单元,用于若所述第一分析结果和所述第二分析结果中不存在所述预设关键词,则确定所述第一分析结果和所述第二分析结果之间是否存在重复词;
第三判定单元,用于若所述第一分析结果和所述第二分析结果之间存在所述重复词,则确定所述语句补全规则为所述重复词规则;
第四判定单元,用于若所述第一分析结果和所述第二分析结果之间不存在所述重复词,则确定所述语句补全规则为所述缺省规则。
可选地,所述补全处理子模块包括:
第一补全处理单元,用于基于所述关键词规则,对所述待补全语句进行补全处理,获得所述初步补全结果;或者
第二补全处理单元,用于基于所述重复词规则,对所述待补全语句进行补全处理,获得所述初步补全结果;或者
第三补全处理单元,用于基于所述缺省规则,对所述待补全语句进行补全处理,获得所述初步补全结果。
可选地,所述第一补全处理单元包括:
确定子单元,用于基于所述关键词规则,在所述待补全语句中确定目标短语;
分段子单元,用于基于所述目标短语,对所述关联语句进行分段,获得所述关联语句对应的各分段语句;
补全处理子单元,用于基于各所述分段语句,对所述待补全语句进行补全处理,获得所述初步补全结果。
可选地,所述第三补全处理单元包括:
获取子单元,用于获取所述第一分析结果和所述第二分析结果中的各分词信息;
连接子单元,用于基于预设语法顺序,将各所述分词信息进行顺序连接,获得所述初步补全结果。
可选地,所述依存句法分析模块包括:
预测子模块,用于获取待预测语句,并将所述待预测语句输入预设语句补全预测模型,以确定所述待预测语句是否需要进行补全处理;
第一确定子模块,用于若所述待预测语句需要进行补全处理,则将所述待预测语句作为所述待补全语句;或者
句法分析子模块,用于获取待预测语句,并对所述待预测语句进行依存句法分析,确定所述待预测语句是否缺少预设语句成分;
第二确定子模块,用于若所述待预测语句缺少所述预设语句成分,则将所述待预测语句作为所述待补全语句。
可选地,所述语句补全装置还包括:
分词模块,用于获取各待补全训练语句和基础预测模型,并分别对各所述待补全训练语句进行分词,获得各所述待补全训练语句对应的分词结果;
第一编码模块,用于基于各所述分词结果,分别对各所述待补全训练语句进行编码,获得各所述待补全训练语句对应的第一编码结果;
句法分析模块,用于分别对所述待补全训练语句进行依存句法分析,获得各所述待补全训练语句对应的句法分析结果;
第二编码模块,用于基于各所述句法分析结果,分别对各所述待补全训练语句进行编码,获得各所述待补全训练语句对应的第二编码结果;
生成模块,用于基于各所述第一编码结果和各所述第二编码结果,生成各所述待补全训练语句对应的目标编码结果;
迭代训练模块,用于基于各所述目标编码结果,对所述基础预测模型进行迭代训练,直至所述基础预测模型达到预设迭代结束条件,获得所述预设语句补全预测模型。
可选地,所述依存句法分析模块还包括:
获取子模块,用于获取初始待补全语句和所述初始待补全语句对应的初始关联语句;
去口语化处理子模块,用于分别对所述初始待补全语句和所述初始关联语句进行去口语化处理,获得所述初始待补全语句对应的所述待补全语句和所述初始关联语句对应的所述关联语句。
本申请语句补全装置的具体实施方式与上述语句补全方法各实施例基本相同,在此不再赘述。
本申请实施例提供了一种可读存储介质,且所述可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的语句补全方法的步骤。
本申请可读存储介质具体实施方式与上述语句补全方法各实施例基本相同,在此不再赘述。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利处理范围内。

Claims (10)

1.一种语句补全方法,其特征在于,所述语句补全方法包括:
获取待补全语句和所述待补全语句对应的关联语句,并分别对所述待补全语句和所述关联语句进行依存句法分析,获得所述关联语句对应的第一分析结果和所述待补全语句对应的第二分析结果;
将所述第一分析结果和所述第二分析结果输入预设语句补全模型,基于所述第一分析结果和所述第二分析结果,对所述待补全语句进行补全处理,获得初步补全结果;
对所述初步补全结果进行后处理,获得目标补全结果;
其中,所述将所述第一分析结果和所述第二分析结果输入预设语句补全模型,基于所述第一分析结果和所述第二分析结果,对所述待补全语句进行补全处理,获得初步补全结果的步骤包括:
将所述第一分析结果和所述第二分析结果输入所述预设语句补全模型,匹配所述第一分析结果和所述第二分析结果共同对应的语句补全规则;
基于所述语句补全规则,对所述待补全语句进行补全处理,获得所述初步补全结果;
其中,所述语句补全规则包括定制规则和缺省规则,所述匹配所述第一分析结果和所述第二分析结果共同对应的语句补全规则,包括:
确定所述第一分析结果和所述第二分析结果是否命中定制规则,其中,所述定制规则至少包括重复词规则和关键词规则中的一种;
若所述第一分析结果和所述第二分析结果命中定制规则,则确定所述语句补全规则为定制规则,其中,所述定制规则为基于所述第一分析结果和所述第二分析结果的特性而定制的语句补全规则;
若所述第一分析结果和所述第二分析结果未命中定制规则,则确定所述语句补全规则为缺省规则。
2.如权利要求1所述语句补全方法,其特征在于,所述语句补全规则包括关键词规则、重复词规则和缺省规则,
所述匹配所述第一分析结果和所述第二分析结果共同对应的语句补全规则的步骤包括:
确定所述第一分析结果和所述第二分析结果中是否存在预设关键词,若所述第一分析结果和所述第二分析结果中存在所述预设关键词,则确定所述语句补全规则为所述关键词规则;
若所述第一分析结果和所述第二分析结果中不存在所述预设关键词,则确定所述第一分析结果和所述第二分析结果之间是否存在重复词;
若所述第一分析结果和所述第二分析结果之间存在所述重复词,则确定所述语句补全规则为所述重复词规则;
若所述第一分析结果和所述第二分析结果之间不存在所述重复词,则确定所述语句补全规则为所述缺省规则。
3.如权利要求1所述语句补全方法,其特征在于,所述语句补全规则包括关键词规则、重复词规则和缺省规则,
所述基于所述语句补全规则,对所述待补全语句进行补全处理,获得所述初步补全结果的步骤包括:
基于所述关键词规则,对所述待补全语句进行补全处理,获得所述初步补全结果;其中,所述基于所述关键词规则,对所述待补全语句进行补全处理,包括:在所述关联语句中匹配所述待补全语句中预设关键词对应的先行词,在所述待补全语句中所述预设关键词替换为所述先行词;或者
基于所述重复词规则,对所述待补全语句进行补全处理,获得所述初步补全结果,其中,所述基于所述重复词规则,对所述待补全语句进行补全处理,包括:基于所述重复词规则,将所述第二分析结果中的各分词信息进行连接;或者
基于所述缺省规则,对所述待补全语句进行补全处理,获得所述初步补全结果。
4.如权利要求3所述语句补全方法,其特征在于,所述基于所述关键词规则,对所述待补全语句进行补全处理,获得所述初步补全结果的步骤包括:
基于所述关键词规则,在所述待补全语句中确定目标短语;
基于所述目标短语,对所述关联语句进行分段,获得所述关联语句对应的各分段语句;
基于各所述分段语句,对所述待补全语句进行补全处理,获得所述初步补全结果。
5.如权利要求3所述语句补全方法,其特征在于,所述基于所述缺省规则,对所述待补全语句进行补全处理,获得所述初步补全结果的步骤包括:
获取所述第一分析结果和所述第二分析结果中的各分词信息;
基于预设语法顺序,将各所述分词信息进行顺序连接,获得所述初步补全结果。
6.如权利要求1所述语句补全方法,其特征在于,所述获取待补全语句的步骤包括:
获取待预测语句,并将所述待预测语句输入预设语句补全预测模型,以确定所述待预测语句是否需要进行补全处理;
若所述待预测语句需要进行补全处理,则将所述待预测语句作为所述待补全语句;或者
获取待预测语句,并对所述待预测语句进行依存句法分析,确定所述待预测语句是否缺少预设语句成分;
若所述待预测语句缺少所述预设语句成分,则将所述待预测语句作为所述待补全语句。
7.如权利要求6所述语句补全方法,其特征在于,所述将所述待补全语句输入预设语句补全预测模型,以确定所述待补全语句是否需要进行补全处理的步骤之前,所述语句补全方法还包括:
获取各待补全训练语句和基础预测模型,并分别对各所述待补全训练语句进行分词,获得各所述待补全训练语句对应的分词结果;
基于各所述分词结果,分别对各所述待补全训练语句进行编码,获得各所述待补全训练语句对应的第一编码结果;
分别对所述待补全训练语句进行依存句法分析,获得各所述待补全训练语句对应的句法分析结果;
基于各所述句法分析结果,分别对各所述待补全训练语句进行编码,获得各所述待补全训练语句对应的第二编码结果;
基于各所述第一编码结果和各所述第二编码结果,生成各所述待补全训练语句对应的目标编码结果;
基于各所述目标编码结果,对所述基础预测模型进行迭代训练,直至所述基础预测模型达到预设迭代结束条件,获得所述预设语句补全预测模型。
8.如权利要求1所述语句补全方法,其特征在于,所述获取待补全语句和所述待补全语句对应的关联语句的步骤包括:
获取初始待补全语句和所述初始待补全语句对应的初始关联语句;
分别对所述初始待补全语句和所述初始关联语句进行去口语化处理,获得所述初始待补全语句对应的所述待补全语句和所述初始关联语句对应的所述关联语句。
9.一种语句补全设备,其特征在于,所述语句补全设备包括:存储器、处理器以及存储在存储器上的用于实现所述语句补全方法的程序,
所述存储器用于存储实现语句补全方法的程序;
所述处理器用于执行实现所述语句补全方法的程序,以实现如权利要求1至8中任一项所述语句补全方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有实现语句补全方法的程序,所述实现语句补全方法的程序被处理器执行以实现如权利要求1至8中任一项所述语句补全方法的步骤。
CN202010302609.XA 2020-04-15 2020-04-15 语句补全方法、设备及可读存储介质 Active CN111507088B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010302609.XA CN111507088B (zh) 2020-04-15 2020-04-15 语句补全方法、设备及可读存储介质
PCT/CN2020/134320 WO2021208460A1 (zh) 2020-04-15 2020-12-07 语句补全方法、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010302609.XA CN111507088B (zh) 2020-04-15 2020-04-15 语句补全方法、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111507088A CN111507088A (zh) 2020-08-07
CN111507088B true CN111507088B (zh) 2022-12-16

Family

ID=71877633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010302609.XA Active CN111507088B (zh) 2020-04-15 2020-04-15 语句补全方法、设备及可读存储介质

Country Status (2)

Country Link
CN (1) CN111507088B (zh)
WO (1) WO2021208460A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507088B (zh) * 2020-04-15 2022-12-16 深圳前海微众银行股份有限公司 语句补全方法、设备及可读存储介质
CN112035651B (zh) * 2020-09-25 2024-04-09 北京小米松果电子有限公司 语句补全方法、装置及计算机可读存储介质
CN112417107A (zh) * 2020-10-22 2021-02-26 联想(北京)有限公司 一种信息处理方法及装置
CN112487197A (zh) * 2020-11-06 2021-03-12 中科云谷科技有限公司 基于会议记录构建知识图谱的方法、装置及处理器
CN112560476A (zh) * 2020-12-09 2021-03-26 中科讯飞互联(北京)信息科技有限公司 文本补全方法以及电子设备、存储装置
CN112560477B (zh) * 2020-12-09 2024-04-16 科大讯飞(北京)有限公司 文本补全方法以及电子设备、存储装置
CN114638212A (zh) * 2020-12-16 2022-06-17 科沃斯商用机器人有限公司 模型训练方法、装置、电子设备和存储介质
CN112949280B (zh) * 2021-03-02 2023-07-07 中国联合网络通信集团有限公司 一种数据处理方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247707A (zh) * 2017-06-27 2017-10-13 北京神州泰岳软件股份有限公司 基于补全策略的企业关联关系信息提取方法和装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2809136B2 (ja) * 1995-06-26 1998-10-08 日本電気株式会社 自然言語対話装置
US20140067368A1 (en) * 2012-08-29 2014-03-06 Microsoft Corporation Determining synonym-antonym polarity in term vectors
CN107305550A (zh) * 2016-04-19 2017-10-31 中兴通讯股份有限公司 一种智能问答方法及装置
CN106777018B (zh) * 2016-12-08 2020-05-22 竹间智能科技(上海)有限公司 一种智能聊天机器人中对输入语句的优化方法及装置
CN107329995B (zh) * 2017-06-08 2018-03-23 北京神州泰岳软件股份有限公司 一种语义受控的答案生成方法、装置及系统
CN108334487B (zh) * 2017-07-14 2021-06-25 腾讯科技(深圳)有限公司 缺失语意信息补全方法、装置、计算机设备和存储介质
WO2019079922A1 (zh) * 2017-10-23 2019-05-02 腾讯科技(深圳)有限公司 会话信息处理方法及其装置、存储介质
CN109325234B (zh) * 2018-10-10 2023-06-20 深圳前海微众银行股份有限公司 语句处理方法、设备及计算机可读存储介质
CN109522419B (zh) * 2018-11-15 2020-08-04 北京搜狗科技发展有限公司 会话信息补全方法及装置
CN109766556B (zh) * 2019-01-18 2023-06-23 广东小天才科技有限公司 一种语料修复的方法和装置
CN110245240A (zh) * 2019-05-31 2019-09-17 国网电子商务有限公司 一种问题数据答案的确定方法及装置
CN110427625B (zh) * 2019-07-31 2022-12-27 腾讯科技(深圳)有限公司 语句补全方法、装置、介质及对话处理系统
CN111507088B (zh) * 2020-04-15 2022-12-16 深圳前海微众银行股份有限公司 语句补全方法、设备及可读存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247707A (zh) * 2017-06-27 2017-10-13 北京神州泰岳软件股份有限公司 基于补全策略的企业关联关系信息提取方法和装置

Also Published As

Publication number Publication date
CN111507088A (zh) 2020-08-07
WO2021208460A1 (zh) 2021-10-21

Similar Documents

Publication Publication Date Title
CN111507088B (zh) 语句补全方法、设备及可读存储介质
US11157698B2 (en) Method of training a descriptive text generating model, and method and apparatus for generating descriptive text
US10262062B2 (en) Natural language system question classifier, semantic representations, and logical form templates
CN109284399B (zh) 相似度预测模型训练方法、设备及计算机可读存储介质
CN113807098A (zh) 模型训练方法和装置、电子设备以及存储介质
CN111460115B (zh) 智能人机对话模型训练方法、模型训练装置及电子设备
CN107015964B (zh) 面向智能机器人开发的自定义意图实现方法及装置
CN114580382A (zh) 文本纠错方法以及装置
WO2017198031A1 (zh) 解析语义的方法和装置
CN110555205B (zh) 否定语义识别方法及装置、电子设备、存储介质
CN112069801A (zh) 基于依存句法的句子主干抽取方法、设备和可读存储介质
CN115328756A (zh) 一种测试用例生成方法、装置及设备
CN112069799A (zh) 基于依存句法的数据增强方法、设备和可读存储介质
CN112579466A (zh) 测试用例的生成方法、装置及计算机可读存储介质
CN113779062A (zh) Sql语句生成方法、装置、存储介质及电子设备
CN114647739B (zh) 实体链指方法、装置、电子设备及存储介质
CN114118049B (zh) 信息获取方法、装置、电子设备及存储介质
CN110929501B (zh) 文本分析方法和装置
CN113283218A (zh) 一种语义文本压缩方法及计算机设备
CN113392249A (zh) 图文信息分类方法、图文分类模型训练方法、介质及设备
CN111753548A (zh) 信息获取方法及装置、计算机存储介质、电子设备
CN111858899A (zh) 语句处理方法、装置、系统和介质
CN117520524B (zh) 一种用于行业的智能问答方法及系统
CN115329740B (zh) 合同文书的数据增广方法、装置、计算机设备及存储介质
CN117077678B (zh) 一种敏感词识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant