CN111241248A - 同义问句生成模型训练方法及系统、同义问句生成方法 - Google Patents

同义问句生成模型训练方法及系统、同义问句生成方法 Download PDF

Info

Publication number
CN111241248A
CN111241248A CN202010065631.7A CN202010065631A CN111241248A CN 111241248 A CN111241248 A CN 111241248A CN 202010065631 A CN202010065631 A CN 202010065631A CN 111241248 A CN111241248 A CN 111241248A
Authority
CN
China
Prior art keywords
question
synonymy
sets
sentence
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010065631.7A
Other languages
English (en)
Inventor
钟丽娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Speech Ltd
Original Assignee
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Speech Ltd filed Critical AI Speech Ltd
Priority to CN202010065631.7A priority Critical patent/CN111241248A/zh
Publication of CN111241248A publication Critical patent/CN111241248A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种本发明还提供一种同义问句生成模型训练方法及系统,其中所述方法包括:获取训练样本集,所述训练样本集中包含有多个同义问句集合,所述多个同义问句集合中的每一个同义问句集合分别包含多个问句对;以所述训练样本集中的问句对对所述同义问句生成模型进行训练。通过训练得到同义问句生成模型,可以在进行同义问句的扩展时直接将待扩展问句输入至训练好的同义问句生成模型即可得到多个扩展出的同义问句,节省了人力物力,并且还使得扩展出的句式更加的多种多样。

Description

同义问句生成模型训练方法及系统、同义问句生成方法
技术领域
本发明涉及计算机信息技术领域,尤其涉及一种同义问句生成模型训练方法及系统、同义问句生成方法。
背景技术
自然语言处理领域在近些年得到了飞速发展,而问答系统作为自然语言处理领域的重要内容也成为人们关注的热点。现阶段,问答系统广泛应用于智能客服,智能聊天机器人等。目前,常用的问答系统由用户交互模块、知识库、检索与排序模块、答案处理模块组成。
用户问题与知识库内所表示的问题之间越相近,问答系统回答就越准确。否则会出现由于用户问题和存储的问答对表述差异较大,问答系统不能返回正确答案的情况。
此时将用户问题更换为同义问句,问答系统就能返回正确答案。例如,假设问答系统知识库中存在问题“最早的手机是谁发明的?”,对用户问题“移动电话的发明人叫什么名字”,问答系统不能返回正确答案。对同义扩展问题“手机是谁发明的?”,问答系统则能返回正确答案。
目前扩展同义问句的方法主要依靠人工进行近义词替换、主语替换等,具有人工工作量大,而且不能生成新句式等缺点。
发明内容
本发明实施例提供一种同义问句生成模型训练方法及系统、同义问句生成方法,用于至少解决上述技术问题之一。
第一方面,本发明还提供一种同义问句生成模型训练方法,包括:
获取训练样本集,所述训练样本集中包含有多个同义问句集合,所述多个同义问句集合中的每一个同义问句集合分别包含多个问句对;
以所述训练样本集中的问句对对所述同义问句生成模型进行训练。
在一些实施例中,获取训练样本集包括以下步骤:
获取问句集合;
对所述问句集合中的问句进行聚类,得到多个同义问句集合;
将所述多个同义问句集合中的每一个同义问句集合中的问句之间两两构成问句对,以得到相应的多个同义问句对集合。
在一些实施例中,在将所述多个同义问句集合中的每一个同义问句集合中的问句之间两两构成问句对之前,所述方法还包括:根据预设扩展词库,对所述多个同义问句集合中的问句进行同义句扩展。
在一些实施例中,所述根据预设扩展词库,对所述多个同义问句集合中的问句进行同义句扩展包括:
对于所述多个同义问句集合中的每一个问句进行分词处理,得到对应于所述每一个问句的多个分词;
从所述预设扩展词库中查找用于替换所述每一个问句的多个分词的扩展词,以得到扩展同义问句。
在一些实施例中,训练样本集构建方法还包括:对于扩展之后的每一个同义问句集合中的问句进行去重。
在一些实施例中,在将所述多个同义问句集合中的每一个同义问句集合中的问句之间两两构成问句对之前,所述方法还包括:
对所述多个同义问句集合中的每一个同义问句集合中的多个问句所包含的表示相同含义的分词进行标注。
第二方面,本发明还提供一种同义问句生成方法,包括:
接收待扩展问句;
将所述待扩展问句输入至前述实施例中的同义问句生成模型训练方法训练得到的同义问句生成模型,以得到相应的同义问句。
第三方面,一种同义问句生成模型训练系统,包括:
样本集获取模块,用于获取训练样本集,所述训练样本集中包含有多个同义问句集合,所述多个同义问句集合中的每一个同义问句集合分别包含多个问句对;
训练模块,用于以所述训练样本集中的问句对对所述同义问句生成模型进行训练。
在一些实施例中,样本集获取模块包括:
问句获取单元,用于获取问句集合;
问句聚类单元,用于对所述问句集合中的问句进行聚类,得到多个同义问句集合;
问句对生成单元,用于将所述多个同义问句集合中的每一个同义问句集合中的问句之间两两构成问句对,以得到相应的多个同义问句对集合。
在一些实施例中,训练样本集构建系统还包括,问句扩展模块,用于在将所述多个同义问句集合中的每一个同义问句集合中的问句之间两两构成问句对之前,根据预设扩展词库,对所述多个同义问句集合中的问句进行同义句扩展。
在一些实施例中,所述根据预设扩展词库,对所述多个同义问句集合中的问句进行同义句扩展包括:
对于所述多个同义问句集合中的每一个问句进行分词处理,得到对应于所述每一个问句的多个分词;
从所述预设扩展词库中查找用于替换所述每一个问句的多个分词的扩展词,以得到扩展同义问句。
在一些实施例中,训练样本集构建系统还包括:问句去重模块,用于对于扩展之后的每一个同义问句集合中的问句进行去重。
在一些实施例中,训练样本集构建系统还包括:问句标注模块,用于在将所述多个同义问句集合中的每一个同义问句集合中的问句之间两两构成问句对之前,对所述多个同义问句集合中的每一个同义问句集合中的多个问句所包含的表示相同含义的分词进行标注。
第五方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项同义问句生成方法。
第六方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项同义问句生成方法。
第七方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项同义问句生成方法。
本发明实施例的有益效果在于:通过训练得到同义问句生成模型,可以在进行同义问句的扩展时直接将待扩展问句输入至训练好的同义问句生成模型即可得到多个扩展出的同义问句,节省了人力物力,并且还使得扩展出的句式更加的多种多样。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于生成模型的问句同义扩展方法的流程图;
图2为本发明的同义问句生成模型训练方法的一实施例的流程图;
图3为本发明中的获取训练样本集的另一实施例的示意图;
图4为本发明中获取训练样本集的另一实施例的示意图;
图5为本发明的同义问句生成模型训练系统的一实施例的示意图;
图6为本发明的同义问句生成模型训练系统中的样本集获取模块的一实施例的示意图;
图7为本发明的电子设备的一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
如图1所示,本发明提供一种基于生成模型的问句同义扩展方法。这里的同义扩展指的是,不改变句子原本的意思,而使用不同的说法表述句子。本发明的主要内容包括:1.采集数据;2.构建训练数据;3.训练生成模型;4.利用生成模型生成候选扩展问句;5.筛选候选问句,获取同义扩展问句。实施本发明不仅节省人工,而且提高了同义扩展的问句的表述多样性。
如图2所示,本发明的实施例提供一种同义问句生成模型训练方法,包括:
S10、获取训练样本集,所述训练样本集中包含有多个同义问句集合,所述多个同义问句集合中的每一个同义问句集合分别包含多个问句对;
S20、以所述训练样本集中的问句对对所述同义问句生成模型进行训练。
本发明通过训练得到同义问句生成模型,可以在进行同义问句的扩展时直接将待扩展问句输入至训练好的同义问句生成模型即可得到多个扩展出的同义问句,节省了人力物力,并且还使得扩展出的句式更加的多种多样。
本发明基于生成模型的问句同义扩展方法可自动生成新句式同义扩展问句。既可用于用户问题的同义扩展,也可用于扩展问答系统的知识库,能够帮助提高问答系统性能。
在一些实施例中,获取训练样本集包括以下步骤:
获取问句集合;
对所述问句集合中的问句进行聚类,得到多个同义问句集合;
将所述多个同义问句集合中的每一个同义问句集合中的问句之间两两构成问句对,以得到相应的多个同义问句对集合。
示例性地,采集数据的方法包括网络数据源搜索爬取同义的检索输入,采集问答系统日志人工标注问句及人工想出来的同义问句。其中,网络数据源爬取的同义检索输入是指爬取用户输入的检索问题和用户点击的相关推荐的问题。采集同义问句的方式不限于本发明中描述的方法,例如可给出使用场景和询问意图,使用众包方式采集等。
将不同数据源的数据汇合成数据集合,对数据集合进行语义聚类(所采用的的聚类方法可以为现有技术中任意合适的文本聚类方法,本发明对此不作限定),使得在数据集合中每个问句的扩展问句是同类中的所有问句集合。
例如,聚类得到了A{a1、a2、a3}、B{b1、b2、b3}、C{c1、c2、c3}三个分类的句子集合,其中,a1、a2、a3(b1、b2、b3或者c1、c2、c3)等为同义问句。
更具体来说,假设数据集合中有八个句子{最早的手机是谁发明的?;移动电话的发明人叫什么名字;手机是谁发明的?;天空为什么是蓝色的;天空看起来是蓝色的原因;天空的颜色是空气折射衍射引起的吗?;你出生在哪里;你的家乡是哪}。那么对数据集进行语义聚类后,可以得到三个问句及它的扩展问句,即A{最早的手机是谁发明的?;移动电话的发明人叫什么名字;手机是谁发明的?},B{天空为什么是蓝色的;天空看起来是蓝色的原因;天空的颜色是空气折射衍射引起的吗?},C{你出生在哪里;你的家乡是哪}。对集合A,B,C中的句子来说,可看作是具有相同语义的句子。
如图3所示,为本发明中的获取训练样本集的另一实施例的示意图,具体包括采集问句及同义问句(如前述实施例中所示),以及采集同义词库、简称-缩写/全称词库、历史人名词库、专有词词库等。示例性地,可以将所采集的以上词库信息结合至所采集的问句及同义问句中,以实现对所采集的问句及同义问句的扩展,使得训练样本更加的丰富。
在一些实施例中,在将所述多个同义问句集合中的每一个同义问句集合中的问句之间两两构成问句对之前,所述方法还包括:根据预设扩展词库,对所述多个同义问句集合中的问句进行同义句扩展。
示例性地,预设扩展词库可以为同义词库和/或简称-缩写/全称词库。采集的词库信息可根据实际需要添加,例如,领域专业词汇等。
在一些实施例中,所述根据预设扩展词库,对所述多个同义问句集合中的问句进行同义句扩展包括:
对于所述多个同义问句集合中的每一个问句进行分词处理,得到对应于所述每一个问句的多个分词;
从所述预设扩展词库中查找用于替换所述每一个问句的多个分词的扩展词,以得到扩展同义问句。
示例性地,在数据集合中(例如,多个同义问句集合中)加入同义词,简称-缩写/全称,历史人名,专有词等词库信息,令词库中的其中每个同义词的扩展问句是它的所有的同义词;每个简称-缩写/全称的扩展问句是它对应的全称/简称-缩写;每个历史人名/专有词的扩展问句是历史人名/专有词本身。
将由词库构造的问句及扩展问句合并到之前的多个同义问句集合中。然后在合并后的数据集合中找出每个问句及其对应的扩展问句之后将每个问句和它的扩展问句进行组合全排列,形成“问句-扩展问句”对。
例如,对于A{a1、a2、a3}进行组合全排列形成如下“问句-扩展问句”对:
a1-a2、a1-a3;
a2-a1、a2-a3;
a3-a1、a3-a2。
具体来说,对A{最早的手机是谁发明的?;移动电话的发明人叫什么名字;手机是谁发明的?}进行全排列形成如下“问句-扩展问句”对:
最早的手机是谁发明的?-移动电话的发明人叫什么名字
最早的手机是谁发明的?-手机是谁发明的?
移动电话的发明人叫什么名字-最早的手机是谁发明的?
移动电话的发明人叫什么名字-手机是谁发明的?
手机是谁发明的?-最早的手机是谁发明的?
手机是谁发明的?-移动电话的发明人叫什么名字。
在一些实施例中,训练样本集构建方法还包括:对于扩展之后的每一个同义问句集合中的问句进行去重。
本实施例针对扩展之后出现的重复语句进行了去重,从而减少了样本数据的冗余信息,便于更加高效快速的训练得到同义句生成模型。
在一些实施例中,在将所述多个同义问句集合中的每一个同义问句集合中的问句之间两两构成问句对之前,所述方法还包括:
对所述多个同义问句集合中的每一个同义问句集合中的多个问句所包含的表示相同含义的分词进行标注。
示例性地,对所有“问句-扩展问句”对进行预处理。然后,提取出每对“问句-扩展问句”扩展前后意思没有发生改变的对应部分,并分别用特殊符号标注出来。标注的部分可以为句子中0个或1个或多个部分。为理解上的简单,这里以提取1个部分为例,特别的,以提取扩展前后句子对应的实体为例。例如“手机是谁发明的?-移动电话的发明人叫什么名字”,提取部分为“手机”和“移动电话”。因为扩展前句子中的“手机”对应扩展后句子中的“移动电话”意思没有发生改变。具体提取流程可采用实体识别技术,关键词抽取技术,人工标注等方式。
最后预处理后的数据构成最终训练数据集。训练数据集形式为数据集中每一行是一个带有标注信息的“问句-扩展问句”对,例如“手机是谁发明的?-移动电话的发明人叫什么名字”,其中带下划线的词语是标注的部分。如果问句和扩展问句之间没有语义相互对应的部分,则可以不标注,此时标注部分为0个。
如图4所示,为本发明中获取训练样本集的另一实施例的示意图,具体包括:
对所有语句进行语义聚类;例如,对所获取的问句及同义问句所构成的集合中的问句进行语义聚类;
结合同义词库、简称-缩写/全称词库、历史人名词库、专有词词库等对语义聚类之后得到的问句集合进行扩展,并将扩展后的问句和它的同义扩展问句全排列组合,形成“问句-扩展问句”对;
提取扩展前后句子中不发生变化的信息;
得到带有不变信息的“问句-扩展问句”对。
示例性地,本发明中的同义问句生成模型采用“编码-解码”(Encode-Decode)框架,在训练数据集上进行训练。Encoder-Decoder(编码-解码)是深度学习中非常常见的一个模型框架,比如无监督算法的auto-encoding就是用编码-解码的结构设计并训练的;比如这两年比较热的image caption的应用,就是CNN-RNN的编码-解码框架;再比如神经网络机器翻译NMT模型,往往就是LSTM-LSTM的编码-解码框架。因此,准确的说,Encoder-Decoder并不是一个具体的模型,而是一类框架。Encoder和Decoder部分可以是任意的文字,语音,图像,视频数据,模型可以采用CNN,RNN,BiRNN、LSTM、GRU等等。所以基于Encoder-Decoder,可以设计出各种各样的应用算法。
示例性地,训练时,在编码端输入问句,问句标注的词语在输入时替换为标注词语和一个特殊的占位符,占位符可人为指定,指定时尽量选择在一般语句中较少出现,不会干扰句子语义的特殊符号,例如“#”、“⊕”等。本文中以占位符为“#”进行说明。例如“手机是谁发明的?”,输入为“手机#是谁发明的?”。
示例性地,训练时,在解码端输出生成的句子,与训练集中的扩展问句进行交叉熵比较。若输出的句子中含占位符“#”,则将输出中的占位符“#”替换为扩展问句的标注部分,再与训练集中的扩展问句进行交叉熵比较。例如,对训练集中“手机是谁发明的?-移动电话的发明人叫什么名字”若输出为“#的发明人叫什么名字”,将“#”替换为“手机”,替换后的句子“手机的发明人叫什么名字”与扩展问句“移动电话的发明人叫什么名字”进行比较。
示例性地,本发明还提供一种同义问句生成方法,包括:接收待扩展问句;将所述待扩展问句输入至前述实施例中的同义问句生成模型训练方法训练得到的同义问句生成模型,以得到相应的同义问句。
示例性地,使用训练好的模型时,首先利用训练数据集中提取句子标注的模块提取输入问句的标注,然后将问句输入到模型中将问句,输入到训练后的生成模型中,生成的扩展问句是在解码端利用beam search算法生成多个候选扩展问句及每个候选扩展问句是输入问句的同义扩展问句的概率值分数(分数值大于0小于1)。若生成的候选句子中包含占位符,将占位符替换为输入问句的标注部分或者其同义短语后后输出句子。
示例性地,分别以待扩展问句“地球是圆形的吗?”、“半字是什么结构的字?”、“鱼的祖先?”、“心情糟得很啊”、“今天你晚高兴了吗?”、“荷兰的首都是哪?”等为例,输入至训练好的同义问句生成模型,对于每一个待扩展问句作为输入时,同义问句生成模型将输出多个语义相近的语句,可以基于待扩展问句与生成的语义相近的语句之间的相似度(例如,余弦相似度,或者其它评价两个句子之间相似度的算法)来确定一个评分,评分越高,表示两个句子的含义约相互接近。如下表1所示为基于以上示例的待扩展问句所得到的候选问句及各自相应的评分。
表1生成候选问句
Figure BDA0002375883000000111
在得到以上候选问句之后,需要筛选候选问句,获取最终的同义扩展问句。首先利用预设的语言模型筛选语义通顺,语法符合正常的表述的候选问句。然后,从上述句子中筛选出那些与输入问句是同义扩展的概率高于设定阈值的句子。该阈值可以根据需要人为调节。例如,表1中问句,设定阈值0.76,最终扩展如下表2所示:
Figure BDA0002375883000000121
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
如图5所示,本发明的实施例还提供一种同义问句生成模型训练系统500,包括:
样本集获取模块510,用于获取训练样本集,所述训练样本集中包含有多个同义问句集合,所述多个同义问句集合中的每一个同义问句集合分别包含多个问句对;
训练模块520,用于以所述训练样本集中的问句对对所述同义问句生成模型进行训练。
如图6所示,本发明的同义问句生成模型训练系统中的样本集获取模块的一实施例的示意图,该样本集获取模块510包括:
问句获取单元511,用于获取问句集合;
问句聚类单元512,用于对所述问句集合中的问句进行聚类,得到多个同义问句集合;
问句对生成单元513,用于将所述多个同义问句集合中的每一个同义问句集合中的问句之间两两构成问句对,以得到相应的多个同义问句对集合。
在一些实施例中,训练样本集构建系统还包括,问句扩展模块,用于在将所述多个同义问句集合中的每一个同义问句集合中的问句之间两两构成问句对之前,根据预设扩展词库,对所述多个同义问句集合中的问句进行同义句扩展。
在一些实施例中,所述根据预设扩展词库,对所述多个同义问句集合中的问句进行同义句扩展包括:
对于所述多个同义问句集合中的每一个问句进行分词处理,得到对应于所述每一个问句的多个分词;
从所述预设扩展词库中查找用于替换所述每一个问句的多个分词的扩展词,以得到扩展同义问句。
在一些实施例中,训练样本集构建系统还包括:问句去重模块,用于对于扩展之后的每一个同义问句集合中的问句进行去重。
在一些实施例中,训练样本集构建系统还包括:问句标注模块,用于在将所述多个同义问句集合中的每一个同义问句集合中的问句之间两两构成问句对之前,对所述多个同义问句集合中的每一个同义问句集合中的多个问句所包含的表示相同含义的分词进行标注。
在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项同义问句生成方法。
在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项同义问句生成方法。
在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行同义问句生成方法。
在一些实施例中,本发明实施例还提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现同义问句生成方法。
上述本发明实施例的同义问句生成系统可用于执行本发明实施例的同义问句生成方法,并相应的达到上述本发明实施例的实现同义问句生成方法所达到的技术效果,这里不再赘述。本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。
图7是本申请另一实施例提供的执行同义问句生成方法的电子设备的硬件结构示意图,如图7所示,该设备包括:
一个或多个处理器710以及存储器720,图7中以一个处理器710为例。
执行同义问句生成方法的设备还可以包括:输入装置730和输出装置740。
处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接,图7中以通过总线连接为例。
存储器720作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的同义问句生成方法对应的程序指令/模块。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例同义问句生成方法。
存储器720可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据同义问句生成装置的使用所创建的数据等。此外,存储器720可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器720可选包括相对于处理器710远程设置的存储器,这些远程存储器可以通过网络连接至同义问句生成装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置730可接收输入的数字或字符信息,以及产生与同义问句生成装置的用户设置以及功能控制有关的信号。输出装置740可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器720中,当被所述一个或者多个处理器710执行时,执行上述任意方法实施例中的同义问句生成方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种同义问句生成模型训练方法,包括:
获取训练样本集,所述训练样本集中包含有多个同义问句集合,所述多个同义问句集合中的每一个同义问句集合分别包含多个问句对;
以所述训练样本集中的问句对对所述同义问句生成模型进行训练。
2.根据权利要求1所述的同义问句生成模型训练方法,其中,所述获取训练样本集包括:
获取问句集合;
对所述问句集合中的问句进行聚类,得到多个同义问句集合;
将所述多个同义问句集合中的每一个同义问句集合中的问句之间两两构成问句对,以得到相应的多个同义问句对集合。
3.根据权利要求2所述的方法,其中,
在将所述多个同义问句集合中的每一个同义问句集合中的问句之间两两构成问句对之前,所述方法还包括:
根据预设扩展词库,对所述多个同义问句集合中的问句进行同义句扩展。
4.根据权利要求3所述的方法,其中,所述根据预设扩展词库,对所述多个同义问句集合中的问句进行同义句扩展包括:
对于所述多个同义问句集合中的每一个问句进行分词处理,得到对应于所述每一个问句的多个分词;
从所述预设扩展词库中查找用于替换所述每一个问句的多个分词的扩展词,以得到扩展同义问句。
5.根据权利要求4所述的方法,其中,还包括:对于扩展之后的每一个同义问句集合中的问句进行去重。
6.根据权利要求1-5中任一项所述的方法,其中,
在将所述多个同义问句集合中的每一个同义问句集合中的问句之间两两构成问句对之前,所述方法还包括:
对所述多个同义问句集合中的每一个同义问句集合中的多个问句所包含的表示相同含义的分词进行标注。
7.一种同义问句生成方法,包括:
接收待扩展问句;
将所述待扩展问句输入至权利要求1-6中任一项所述的同义问句生成模型,以得到相应的同义问句。
8.一种同义问句生成模型训练系统,包括:
样本集获取模块,用于获取训练样本集,所述训练样本集中包含有多个同义问句集合,所述多个同义问句集合中的每一个同义问句集合分别包含多个问句对;
训练模块,用于以所述训练样本集中的问句对对所述同义问句生成模型进行训练。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求7所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求7所述方法的步骤。
CN202010065631.7A 2020-01-20 2020-01-20 同义问句生成模型训练方法及系统、同义问句生成方法 Withdrawn CN111241248A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010065631.7A CN111241248A (zh) 2020-01-20 2020-01-20 同义问句生成模型训练方法及系统、同义问句生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010065631.7A CN111241248A (zh) 2020-01-20 2020-01-20 同义问句生成模型训练方法及系统、同义问句生成方法

Publications (1)

Publication Number Publication Date
CN111241248A true CN111241248A (zh) 2020-06-05

Family

ID=70871283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010065631.7A Withdrawn CN111241248A (zh) 2020-01-20 2020-01-20 同义问句生成模型训练方法及系统、同义问句生成方法

Country Status (1)

Country Link
CN (1) CN111241248A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737302A (zh) * 2020-06-23 2020-10-02 中国银行股份有限公司 关键点信息查询方法及装置
CN111737440A (zh) * 2020-07-31 2020-10-02 支付宝(杭州)信息技术有限公司 一种问题生成方法及装置
CN111782787A (zh) * 2020-07-02 2020-10-16 苏州思必驰信息科技有限公司 问题生成模型训练方法、问题生成方法
CN112784589A (zh) * 2021-01-29 2021-05-11 北京百度网讯科技有限公司 一种训练样本的生成方法、装置及电子设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737302A (zh) * 2020-06-23 2020-10-02 中国银行股份有限公司 关键点信息查询方法及装置
CN111782787A (zh) * 2020-07-02 2020-10-16 苏州思必驰信息科技有限公司 问题生成模型训练方法、问题生成方法
CN111737440A (zh) * 2020-07-31 2020-10-02 支付宝(杭州)信息技术有限公司 一种问题生成方法及装置
CN112784589A (zh) * 2021-01-29 2021-05-11 北京百度网讯科技有限公司 一种训练样本的生成方法、装置及电子设备
CN112784589B (zh) * 2021-01-29 2022-09-30 北京百度网讯科技有限公司 一种训练样本的生成方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN109918680B (zh) 实体识别方法、装置及计算机设备
CN108920666B (zh) 基于语义理解的搜索方法、系统、电子设备及存储介质
CN109840287A (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN111241248A (zh) 同义问句生成模型训练方法及系统、同义问句生成方法
CN111046133A (zh) 基于图谱化知识库的问答方法、设备、存储介质及装置
CN110321537B (zh) 一种文案生成方法和装置
CN112214593A (zh) 问答处理方法、装置、电子设备及存储介质
CN112487139B (zh) 基于文本的自动出题方法、装置及计算机设备
KR20200087977A (ko) 멀티모달 문서 요약 시스템 및 방법
CN112613293B (zh) 摘要生成方法、装置、电子设备及存储介质
CN112685550B (zh) 智能问答方法、装置、服务器及计算机可读存储介质
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN111552773A (zh) 一种阅读理解任务中是否类问题关键句寻找方法及系统
CN113742446A (zh) 一种基于路径排序的知识图谱问答方法及系统
CN112307048A (zh) 语义匹配模型训练方法、匹配方法、装置、设备及存储介质
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置
CN114385812A (zh) 用于文本的关系抽取方法及系统
CN110377706B (zh) 基于深度学习的搜索语句挖掘方法及设备
CN109002454B (zh) 一种确定目标单词的拼读分区的方法和电子设备
CN111241276A (zh) 题目搜索方法、装置、设备及存储介质
CN113378826B (zh) 一种数据处理方法、装置、设备及存储介质
CN114297372A (zh) 个性化的笔记生成方法及系统
CN115188376A (zh) 一种个性化语音交互方法及系统
CN114357964A (zh) 主观题评分方法、模型的训练方法、计算机设备及存储介质
JP7044245B2 (ja) 対話システム補強装置及びコンピュータプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Ltd.

CB02 Change of applicant information
WW01 Invention patent application withdrawn after publication

Application publication date: 20200605

WW01 Invention patent application withdrawn after publication