CN113342944A - 一种语料泛化方法、装置、设备及存储介质 - Google Patents

一种语料泛化方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113342944A
CN113342944A CN202110475630.4A CN202110475630A CN113342944A CN 113342944 A CN113342944 A CN 113342944A CN 202110475630 A CN202110475630 A CN 202110475630A CN 113342944 A CN113342944 A CN 113342944A
Authority
CN
China
Prior art keywords
corpus
basic processing
graph
node
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110475630.4A
Other languages
English (en)
Other versions
CN113342944B (zh
Inventor
王子云
刘轩
王智圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110475630.4A priority Critical patent/CN113342944B/zh
Publication of CN113342944A publication Critical patent/CN113342944A/zh
Application granted granted Critical
Publication of CN113342944B publication Critical patent/CN113342944B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了人工智能领域的语料泛化方法、装置、设备及存储介质,其中该方法包括:获取候选扩展语料和问答语料库中的标准提问语料,作为基础处理语料;根据基础处理语料构建语料异构图;该语料异构图中包括具有连接关系的多个节点,多个节点包括对应于基础处理语料的文档节点和对应于基础处理语料中的词语的词语节点;通过图神经网络模型根据语料异构图的结构和语料异构图中各节点各自的编码向量,确定语料异构图中各文档节点各自的语料分类结果;根据语料异构图中对应于候选扩展语料的文档节点的语料分类结果,确定是否将候选扩展语料添加至问答语料库。该方法能够有效地提高针对问答语料库的语料泛化效果。

Description

一种语料泛化方法、装置、设备及存储介质
技术领域
本申请涉及人工智能(Artificial Intelligence,AI)技术领域,尤其涉及一种语料泛化方法、装置、设备及存储介质。
背景技术
在人机对话、查询搜索等应用场景中,通常需要在预先搭建的问答语料库中查找与用户输入的原始语料匹配的提问语料,进而确定该提问语料对应的回答语料,并向用户反馈该回答语料。由于问答语料库中包括的提问语料越丰富,在该问答语料库中查找到与用户输入的原始语料准确匹配的提问语料的可能性越大,相应地,所确定的回答语料越准确,所取得的对话效果和搜索效果越好,因此,目前普遍需要采用语料泛化技术对问答语料库中包括的提问语料进行扩展,从而使得问答语料库中包括更多的问答语料对。
相关技术中,目前主要基于语义相似度实现对于问答语料库的语料泛化。具体的,针对可用于扩充问答语料库的候选语料,计算其与问答语料库中的标准提问语料之间的语义相似度,进而将与标准提问语料之间的语义相似度较高的候选语料作为该标准提问语料对应的扩展语料,添加至问答语料库中;或者,也可以基于语义相似度,对候选语料和问答语料库中的标准提问语料进行聚类处理,进而将与标准提问语料聚类至同一类别下的候选语料作为该标准提问语料对应的扩展语料,添加至问答语料库中。
然而,上述基于语义相似度的语料泛化方法的使用范围比较局限,原因在于,在人机对话、查询搜索等应用场景中,同一个回答语料往往可以匹配多种提问语料,并且所匹配的多种提问语料的语义不一定相似,而基于语义相似度的语料泛化方法无法挖掘语料之间更深层次的关联关系,无法扩展出此类语义不相似、但对应于同一个回答语料的提问语料。可见,相关技术中基于语义相似度的语料泛化方法的语料泛化效果仍不够理想。
发明内容
本申请实施例提供了一种语料泛化方法、装置、设备及存储介质,能够有效地提高语料泛化效果,针对问答语料库扩充出更多与回答语料准确匹配的提问语料。
有鉴于此,本申请第一方面提供了一种语料泛化方法,所述方法包括:
获取候选扩展语料和问答语料库中的标准提问语料,作为基础处理语料;
根据所述基础处理语料,构建语料异构图;所述语料异构图中包括具有连接关系的多个节点,所述多个节点包括对应于所述基础处理语料的文档节点和对应于所述基础处理语料中的词语的词语节点;
通过图神经网络模型,根据所述语料异构图的结构和所述语料异构图中各节点各自的编码向量,确定所述语料异构图中各文档节点各自的语料分类结果;所述语料分类结果用于表征所述文档节点对应的所述基础处理语料与所述问答语料库中各标准回答语料之间的匹配度;
根据所述语料异构图中对应于所述候选扩展语料的文档节点的语料分类结果,确定是否将所述候选扩展语料添加至所述问答语料库。
本申请第二方面提供了一种语料泛化装置,所述装置包括:
语料获取模块,用于获取候选扩展语料和问答语料库中的标准提问语料,作为基础处理语料;
异构图构建模块,用于根据所述基础处理语料,构建语料异构图;所述语料异构图中包括具有连接关系的多个节点,所述多个节点包括对应于所述基础处理语料的文档节点和对应于所述基础处理语料中的词语的词语节点;
语料分类模块,用于通过图神经网络模型,根据所述语料异构图的结构和所述语料异构图中各节点各自的编码向量,确定所述语料异构图中各文档节点各自的语料分类结果;所述语料分类结果用于表征所述文档节点对应的所述基础处理语料与所述问答语料库中各标准回答语料之间的匹配度;
语料泛化模块,用于根据所述语料异构图中对应于所述候选扩展语料的文档节点的语料分类结果,确定是否将所述候选扩展语料添加至所述问答语料库。
本申请第三方面提供了一种设备,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序,执行上述第一方面所述的语料泛化方法的步骤。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述第一方面所述的语料泛化方法的步骤。
本申请第五方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面所述的语料泛化方法的步骤。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例提供了一种语料泛化方法,该方法创新性地将语料泛化任务转换成了文本分类任务,并且利用图神经网络模型执行该文本分类任务。具体的,在本申请实施例提供的语料泛化方法中,先获取候选扩展语料和问答语料库中的标准提问语料作为基础处理语料;然后,根据各基础处理语料构建语料异构图,该语料异构图中包括具有连接关系的多个节点,多个节点包括对应于基础处理语料的文档节点和对应于基础处理语料中的词语的词语节点;进而,通过图神经网络模型,根据该语料异构图的结构和该语料异构图中各节点各自的编码向量,确定该语料异构图中各文档节点各自的语料分类结果,该语料分类结果用于表征文档节点对应的基础处理语料与问答语料库中各标准回答语料之间的匹配度;最终,根据语料异构图中对应于候选扩展语料的文档节点的语料分类结果,确定是否将该候选扩展语料添加至问答语料库中。上述语料泛化方法利用语料异构图整合了各基础处理语料中的信息,并且通过该语料异构图显式地引入了词语与语料间丰富的异构关系,图神经网络模型基于该语料异构图,可以挖掘出基础处理语料间更深层次的关联关系,从而准确地确定候选扩展语料与问答语料库中各标准回答语料间的匹配度,并据此进一步对问答语料库进行扩充;如此,有效提高了针对问答语料库的语料泛化效果,能够在问答语料库中扩展出更多与标准回答语料准确对应的提问语料。
附图说明
图1为本申请实施例提供的语料泛化方法的应用场景示意图;
图2为本申请实施例提供的语料泛化方法的流程示意图;
图3为本申请实施例提供的一种示例性的语料异构图;
图4为本申请实施例提供的图神经网络模型的工作原理示意图;
图5为本申请实施例提供的一种示例性的人工审核系统的界面示意图;
图6a为本申请实施例提供的语料泛化方法的实现架构示意图;
图6b为本申请实施例提供的针对一种标准提问语料扩展出的多语种扩展提问语料的示意图;
图7为本申请实施例提供的第一种语料泛化装置的结构示意图;
图8为本申请实施例提供的第二种语料泛化装置的结构示意图;
图9为本申请实施例提供的第三种语料泛化装置的结构示意图;
图10为本申请实施例提供的第四种语料泛化装置的结构示意图;
图11为本申请实施例提供的终端设备的结构示意图;
图12为本申请实施例提供的服务器的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本申请实施例提供的方案涉及人工智能领域中的自然语言处理技术,具体通过如下实施例进行说明:
针对相关技术中基于语义相似度对问答语料库进行语料泛化的方案存在的问题,本申请实施例提供了一种语料泛化方法,该方法能够有效提高针对问答语料库的语料泛化效果,在问答语料库中扩充出与其中的标准回答语料准确对应的提问语料。
具体的,在本申请实施例提供的语料泛化方法中,先获取候选扩展语料和问答语料库中的标准提问语料作为基础处理语料;然后,根据各基础处理语料构建语料异构图,该语料异构图中包括具有连接关系的多个节点,多个节点包括对应于基础处理语料的文档节点和对应于基础处理语料中的词语的词语节点;进而,通过图神经网络模型,根据该语料异构图的结构和该语料异构图中各节点各自的编码向量,确定该语料异构图中各文档节点各自的语料分类结果,该语料分类结果用于表征文档节点对应的基础处理语料与问答语料库中各标准回答语料之间的匹配度;最终,根据语料异构图中对应于候选扩展语料的文档节点的语料分类结果,确定是否将该候选扩展语料添加至问答语料库中。
上述语料泛化方法创新性地将语料泛化任务转换成了文本分类任务,并利用图神经网络模型基于语料异构图执行该文本分类任务。相比相关技术中基于语义相似度对问答语料库进行语料泛化的方案,本申请实施例中的语料泛化方法利用语料异构图整合各基础处理语料中的信息,通过该语料异构图显式地引入了词语与语料间丰富的异构关系,进而利用图神经网络模型基于该语料异构图挖掘各基础处理语料间更深层次的关联关系,从而准确地确定候选扩展语料与问答语料库中各标准回答语料间的匹配度,并据此进一步对问答语料库进行扩充。如此,使得语料泛化不再局限于仅依据语义相似度,使得语料泛化可以综合参考语料间更深层次的关联关系,有助于挖掘出语义不相似、但关联性较强的候选扩展语料,从而有效地提高针对问答语料库的语料泛化效果,保证在问答语料库中扩展出与标准回答语料准确匹配的提问语料。
应理解,本申请实施例提供的语料泛化方法可以应用于具备文本处理能力的设备,如终端设备或服务器。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。如本申请公开的语料泛化方法,其中涉及的候选扩展语料、标准提问语料和标准回答语料等可以保存于区块链上。
为了便于理解本申请实施例提供的语料泛化方法,下面以本申请实施例提供的语料泛化方法的执行主体为服务器为例,对该语料泛化方法的应用场景进行示例性介绍。
参见图1,图1为本申请实施例提供的语料泛化方法的应用场景示意图。如图1所示,该应用场景中包括服务器110、问答语料库120和多台终端设备130。服务器110可以通过网络从问答语料库120中调取所需的语料,或者问答语料库120也可以集成在服务器110中;服务器110与多台终端设备130之间可以通过网络进行通信。其中,服务器110可以为支持人机对话功能的目标应用程序的后台服务器,用于执行本申请实施例提供的语料泛化方法;问答语料库120用于为人机对话功能提供数据支持;终端设备130上运行有支持人机对话功能的目标应用程序。
在实际应用中,用户可以使用终端设备130上运行的目标应用程序中的人机对话功能输入原始对话语料,服务器110经过后台处理,将从问答语料库120中查找到与该原始对话语料相匹配的回答语料,进而向终端设备110反馈该回答语料,实现智能人机对话。在此过程中,服务器110可以获取用户输入的原始对话语料,作为对问答语料库120进行语料泛化处理时使用的候选扩展语料。
服务器110对问答语料库120进行语料泛化处理时,可以获取上述候选扩展语料和问答语料库120中原本存储的标准提问语料,作为基础处理语料。然后,根据各基础处理语料构建语料异构图,该语料异构图中包括具有连接关系的多个节点,多个节点包括对应于基础处理语料的文档节点以及对应于基础处理语料中的词语的词语节点;示例性的,服务器110可以针对各基础处理语料中包括的各目标词语分别构建对应的词语节点,进而,将目标词语对应的词语节点与该目标词语所属的基础处理语料对应的文档节点连接起来。
进而,服务器110可以调用图神经网络模型,根据该语料异构图的结构和该语料异构图中各节点各自的编码向量,挖掘各基础处理语料之间深层次的关联关系,从而确定该语料异构图中各文档节点各自的语料分类结果;该语料分类结果中包括该文档节点对应的基础处理语料与问答语料库120中各标准回答语料之间的匹配度,基础处理语料与某标准回答语料之间的匹配度越高,则说明该基础处理语料越有可能作为该标准回答语料对应的提问语料。
最终,服务器110可以根据语料异构图中对应于候选扩展语料的文档节点的语料分类结果,确定是否可以将该候选扩展语料添加至问答语料库120中;示例性的,若语料分类结果表示该候选扩展语料与某标准回答语料之间的匹配度高于预设匹配度阈值,则可以将该候选扩展语料添加至问答语料库120中。可选的,为了确保语料泛化的准确性,服务器110也可以根据对应于候选扩展语料的文档节点的语料分类结果,初步筛选出可添加至问答语料库120中的候选扩展语料交由人工审核,最终根据人工审核的结果确定能够被添加到问答语料库120中的候选扩展语料。
应理解,图1所示的应用场景仅为示例,在实际应用中,服务器110除了可以获取通过人机对话功能输入的原始对话语料作为候选扩展语料外,还可以获取其它渠道下产生的原始语料作为候选扩展语料,如获取在搜索引擎中输入的原始语料、通过网络爬虫爬取网络上的语料等等。此外,本申请实施例提供的语料泛化方法除了可以由服务器110独立执行外,也可以由终端设备独立执行,还可以由终端设备和服务器协同执行。在此不对本申请实施例提供的语料泛化方法的应用场景做任何限定。
下面通过方法实施例对本申请提供的语料泛化方法进行详细介绍。
参见图2,图2为本申请实施例提供的语料泛化方法的流程示意图。为了便于描述,下述实施例仍以该语料泛化方法的执行主体为服务器为例进行介绍。如图2所示,该语料泛化方法包括以下步骤:
步骤201:获取候选扩展语料和问答语料库中的标准提问语料,作为基础处理语料。
当服务器需要对问答语料库进行语料泛化处理时,服务器可以获取候选扩展语料和问答语料库中的标准提问语料,作为基础处理语料。示例性的,为了保证问答语料库长期具有较高的可靠性,服务器可以定期对问答语料库进行语料泛化处理,如每天对问答语料库进行一次语料泛化处理,相应地,服务器需要定期地收集候选扩展语料,以在每次对问答语料库进行语料泛化处理时使用;当然,在实际应用中,服务器也可以根据实际需求在特定时机对问答语料库进行泛化处理,本申请在此不对问答语料库的泛化处理时机做任何限定,也不对候选扩展语料的收集时机做任何限定。
需要说明的是,候选扩展语料是对问答语料库进行语料泛化处理时使用的可选语料,即服务器可以从所收集的候选扩展语料中选择可被添加到问答语料库的提问语料,从而实现对于问答语料库的语料泛化处理。
示例性的,服务器可以通过以下至少一种方式获取候选扩展语料:
第一种方式,获取用户与智能对话系统进行对话时输入的原始语料,作为候选扩展语料。具体的,在服务器为智能对话系统的后台服务器的情况下,服务器可以采集用户与该智能对话系统进行对话时输入的原始语料,并将其作为候选扩展语料;例如,假设用户通过目标应用程序中的人机对话功能输入语音“请介绍A公司”,则服务器可以将该语音转换为对应的文本,并将该文本“请介绍A公司”作为候选扩展语料。
第二种方式,获取用户通过目标搜索引擎进行搜索操作时输入的原始语料,作为候选扩展语料。具体的,在服务器为目标搜索引擎的后台服务器的情况下,服务器可以采集用户在目标搜索引擎的输入框中输入的搜索文本,作为候选扩展语料;或者服务器也可以将用户通过目标搜索引擎的语音输入控件输入的搜索语音转换为对应的搜索文本,并将该搜索文本作为候选扩展语料。
第三种方式,通过网络爬虫从网络上爬取候选扩展语料。具体的,服务器可以采用网络爬虫技术,从网络上公开的文本中爬取特定的语料,作为候选扩展语料。
通过上述方式获取候选扩展语料,可以在只耗费较低成本的情况下获取到大量的候选扩展语料,并且所获取的候选扩展语料更符合用户的说话习惯,基于此类候选扩展语料对问答语料库进行语料泛化处理,也可以保证在问答语料库中扩充的提问语料更容易与用户输入的原始语料匹配。
应理解,上述获取候选扩展语料的方式仅为示例,在实际应用中,服务器也可以采用其它方式获取候选扩展语料,本申请在此不对候选扩展语料的获取方式做任何限定。
需要说明的是,问答语料库通常由提问语料库和回答语料库两部分组成,其中,提问语料库用于存储提问语料,回答语料库用于存储回答语料,提问语料库中存储的提问语料与回答语料库中存储的回答语料之间具有对应关系。通常情况下,为了保证向用户提供的回答语料的准确性,回答语料库中存储的回答语料普遍是由专业技术人员配置的标准回答语料;而为了使提问语料库中包括的提问语料与用户输入的原始语料更容易匹配,提问语料库中通常存储有大量的提问语料,其中既包括专业技术人员配置的提问语料,又包括经语料泛化处理扩充至该提问语料库中的提问语料。
本申请实施例中提及的问答语料库中的标准提问语料,可以是提问语料库中包括的专业技术人员配置的提问语料,也可以是提问语料库中目前包括的所有提问语料,本申请在此不对该标准提问语料做任何限定。
在一种可能的实现方式中,本申请实施例提供的语料泛化方法可以针对问答语料库进行多语种语料泛化处理,即在问答语料库中扩充其它语种下的语料。在该种情况下,服务器还需要获取标准提问语料对应的翻译提问语料,作为基础处理语料。
具体的,服务器可以利用翻译引擎,对从问答语料库中获取的标准提问语料进行翻译处理,得到标准提问语料对应的翻译提问语料,进而将该翻译提问语料一同作为基础处理语料。或者,服务器也可以预先对问答语料库中的标准提问语料进行翻译处理,将所得到的的翻译提问语料存储至翻译提问语料库中,当需要对问答语料库进行语料泛化处理时,再从该翻译提问语料库中提取各标准提问语料各自对应的翻译提问语料,作为基础处理语料。
应理解,在实际应用中,服务器可以根据实际需求将标准提问语料翻译成各种语言,如英语、日语、法语、俄语等等,本申请在此不对翻译提问语料所属的语种做任何限定。
步骤202:根据所述基础处理语料,构建语料异构图;所述语料异构图中包括具有连接关系的多个节点,所述多个节点包括对应于所述基础处理语料的文档节点和对应于所述基础处理语料中的词语的词语节点。
服务器获取到基础处理语料后,可以根据所获取的基础处理语料和基础处理语料中包括的词语构建语料异构图,该语料异构图可以直观地反映语料与词语之间的异构关系。
需要说明的是,语料异构图是一种包括多种节点和至少一种连接边的图结构;在本申请实施例中,语料异构图中包括具有连接关系的多个节点,这多个节点中包括对应于基础处理语料的文档节点和对应于基础处理语料中的词语的词语节点,文档节点与词语节点之间可以有连接边,文档节点与文档节点之间也可以有连接边。
作为一种示例,服务器可以通过以下至少一种方式构建语料异构图:
第一种方式,针对基础处理语料中包括的各目标词语分别创建对应词语节点;进而,在目标词语对应的词语节点与目标词语所属的基础处理语料对应的文档节点之间,创建第一类型的连接边。
具体的,服务器获取到各基础处理语料后,可以先针对各基础处理语料分别创建对应的文档节点。并且,从各基础处理语料中提取出目标词语,该目标词语可以是基础处理语料中包括的名词、动词、形容词等,并针对所提取出的各目标词语分别创建对应的词语节点;应理解,若从不同的基础处理语料中提取出相同的目标词语,则服务器只需针对该目标词语创建一个对应的词语节点。构建语料异构图时,服务器可以在目标词语对应的词语节点与该目标词语所属的基础处理语料对应的文档节点之间,创建第一类型的连接边,该第一类型的连接边用于表示其连接的词语节点与其连接的文档节点之间存在所属关系。
需要说明的是,对于不具有天然分词的语言结构(如中文、日文等),服务器可以借助额外的分词器(例如jieba分词器、Mecab分词器等),将基础处理语料切分为词语序列,进而从词语序列中提取目标词语。
第二种方式,针对基础处理语料中包括的各实体词语分别创建对应的实体词语节点;进而,在实体词语对应的实体词语节点与该实体词语所属的基础处理语料对应的文档节点之间,创建第二类型的连接边。
具体的,服务器获取到各基础处理语料后,可以先针对各基础处理语料分别创建对应的文档节点。并且,从各基础处理语料中提取出实体词语,该实体词语对应的实体是现实世界中存在的且具有可区别性的特定事物,例如腾讯公司等;应理解,若从不同的基础处理语料中提取出相同的实体词语,即从不同的基础处理语料中提取出对应于同一实体的实体词语,则服务器只需针对该实体词语创建一个对应的实体词语节点。构建语料异构图时,服务器可以实体词语对应的实体词语节点与该实体词语所属的基础处理语料对应的文档节点之间,创建第二类型的连接边,该第二类型的连接边用于表示其连接的实体词语节点与其连接的文档节点之间存在所属关系。
需要说明的是,若服务器构建语料异构图时同时采用了上述第一种方式和第二种方式,则服务器通过第一种方式创建词语节点时,从基础处理语料中提取出的目标词语应不包括实体词语,如此将创建的词语节点与实体词语节点区分开来,避免针对实体词语重复创建对应的词语节点和实体词语节点。
第三种方式,针对基础处理语料中的目标基础处理语料,从各基础处理语料中选取该目标基础处理语料的关联基础处理语料;进而,在该目标基础处理语料对应的文档节点与该关联基础处理语料对应的文档节点之间,创建第三类型的连接边。
具体的,服务器获取到各基础处理语料后,可以先针对各基础处理语料分别创建对应的文档节点。此外,服务器可以将每个基础处理语料逐一视为目标基础处理语料,并从除该目标基础处理语料以外的其它基础处理语料中,选取该目标基础处理语料的关联基础处理语料;示例性的,服务器可以选取与该目标基础处理语料语义相似的基础处理语料,作为该目标基础处理语料的关联处理语料;或者,服务器也可以选取与该目标基础处理语料处于同一对话环境下的基础处理语料,作为该目标基础处理语料的关联处理语料,本申请在此不对所选取的关联基础处理语料做任何限定。进而,服务器可以在目标基础处理语料对应的文档节点与该目标基础处理语料的关联基础处理语料对应的文档节点之间,创建第三类型的连接边,该第三类型的连接边用于表示其连接的两个文档节点之间具有关联关系。
作为一种示例,服务器可以通过以下方式选取目标基础处理语料的关联基础处理语料:通过文本编码模型确定各基础处理语料各自的编码向量;针对每个基础处理语料,计算该基础处理语料的编码向量与目标基础处理语料的编码向量之间的相似度,作为该基础处理语料与目标基础处理语料之间的相似度;进而,确定与目标基础处理语料之间的相似度满足预设相似条件的基础处理语料,作为该目标基础处理语料的关联基础处理语料。
具体的,服务器可以采用BERT(BidirectionalEncoderRepresentationsfromTransformer)模型或多语言预训练模型(Multilingual BERT),对各基础处理语料进行编码处理,得到各基础处理语料各自的编码向量;应理解,此处也可以采用其它文本编码模型确定基础处理语料的编码向量,本申请在此不对所使用的文本编码模型做任何限定。确定目标基础处理语料的关联基础处理语料时,服务器可以针对除目标基础处理语料外的每个基础处理语料,计算该基础处理语料的编码向量与目标基础处理语料的编码向量之间的余弦相似度,作为该基础处理语料与目标基础处理语料之间的相似度。
进而,服务器可以确定与目标基础处理语料之间的相似度最大的若干个(例如3个)基础处理语料,作为该目标基础处理语料的关联基础处理语料;或者,服务器也可以确定与目标基础处理语料之间的相似度超过预设相似度阈值的基础处理语料,作为该目标基础处理语料的关联基础处理语料。本申请在此不对所需满足的预设相似条件做任何限定。
应理解,在实际应用中,服务器可以根据实际需求,选择采用上述任意一种或多种方式构建语料异构图,或者服务器也可以采用除上述三种方式外的其它方式根据基础处理语料构建语料异构图,本申请在此不对服务器构建语料异构图时采用的方式做任何限定。
服务器通过上述方式构建语料异构图,可以使所构建的语料异构图显式地表现出词语、实体信息和语义之间丰富的异构关系,相应地,基于该语料异构图挖掘语料与语料之间的关联关系,能够更有助于挖掘出语料之间更深层次的关联关系,进而有利于提高所确定的语料分类结果的准确性。
正如上文中在步骤201中所提及的,本申请实施例提供的语料泛化方法可以针对问答语料库进行多语种语料泛化处理,并且在该种场景中,服务器可以获取标准提问语料对应的翻译提问语料作为基础处理语料。在该种情况下,服务器还可以在标准提问语料对应的文档节点与该标准提问语料对应的翻译提问语料对应的文档节点之间,创建第四类型的连接边。即,服务器针对各基础处理语料创建对应的文档节点,包括针对标准提问语料创建对应的文档节点和针对标准提问语料对应的翻译提问语料创建对应的文档节点,相应地,对于标准提问语料对应的文档节点和该标准提问语料对应的翻译提问语料对应的文档节点,服务器可以在二者间创建第四类型的连接边,该第四类型的连接边用于表示其连接的两个文档节点之间具有翻译关系。
图3所示为本申请实施例提供的一种示例性的语料异构图。如图3所示,该语料异构图中包括文档节点、词语节点和实体词语节点;其中,每个文档节点对应于一个基础处理语料,该基础处理语料可以是候选扩展语料、标准提问语料和翻译提问语料中的任一种;每个词语节点对应于一个从基础处理语料中提取出的目标词语;每个实体词语节点对应于一个从基础处理语料中提取出的实体词语。该语料异构图中包括第一类型、第二类型、第三类型和第四类型的连接边;其中,第一类型的连接边用于连接词语节点和文档节点,该词语节点对应的目标词语所属于该文档节点对应的基础处理语料;第二类型的连接边用于连接实体词语节点和文档节点,该实体词语节点对应的实体词语所属于该文档节点对应的基础处理语料;第三类型的连接边用于连接两个文档节点,这两个文档节点各自对应的基础处理语料之间的语义相似;第四类型的连接边也用于连接两个文档节点,这两个文档节点各自对应的基础处理语料的语义相同,但是两个基础处理语料所属的语种不同。
步骤203:通过图神经网络模型,根据所述语料异构图的结构和所述语料异构图中各节点各自的编码向量,确定所述语料异构图中各文档节点各自的语料分类结果;所述语料分类结果用于表征所述文档节点对应的所述基础处理语料与所述问答语料库中各标准回答语料之间的匹配度。
服务器构建出语料异构图后,可以调用图神经网络模型,根据该语料异构图的结构和该语料异构图中各节点各自的编码向量,确定该语料异构图中各文档节点各自的语料分类结果。此处的语料分类结果能够表征该文档节点对应的基础处理语料与问答语料库中各标准回答语料之间的匹配度;示例性的,假设问答语料库中包括n(n为大于1的整数)个标准回答语料,则某个文档节点的语料分类结果可以为1*n维的向量,其中每一维的参数是该文档节点对应的基础处理语料与一个标准回答语料之间的匹配度。
需要说明的是,图神经网络(Graph Neural Network,GNN)是一系列定义在图结构上的神经网络的总称,图神经网络可以自动学习图上的节点和边的特征以及节点间的聚合关系,从而将深度学习应用到大规模的图数据上。示例性的,在本申请实施例中,可以使用图卷积网络模型,根据语料异构图来确定该语料异构图中各文档节点各自的语料分类结果;图卷积网络可以在图结构上定义卷积操作,实现每一层节点与其邻居节点之间的信息传递,图卷积网络的工作原理可以通过式(1)来表现:
Figure BDA0003046972390000141
其中,
Figure BDA0003046972390000142
是正则化后的邻接矩阵,其可以表示图结构中节点间的连接方式,是在构造图结构时确定的参数。H(l)是各节点在第l层的向量表示,特别的,H(0)=X是各节点的输入编码向量,W(l)是可训练的模型参数。σ()是非线性激活函数,例如常见的ReLU函数ReLU(x)=max(0,x)。
当然,在实际应用中,服务器也可以根据实际需求采用其它图神经网络模型处理语料异构图,例如采用图注意力网络(Graph attention networks,GAT)模型等,本申请在此不对所使用的图神经网络模型的类型做任何限定。
在一种可能的实现方式中,本申请实施例提供的语料泛化方法,可以将语料泛化任务转换为半监督的文本分类任务;即利用语料异构图中部分文档节点及其对应的标注结果对图神经网络模型进行训练,进而再利用训练好的图神经网络模型确定各文档节点各自的语料分类结果,尤其是候选扩展语料对应的文档节点的语料分类结果。
即,服务器可以通过初始图神经网络模型,根据语料异构图的结构和该语料异构图中各节点各自的初始编码向量,确定该语料异构图中各文档节点各自的初始语料分类结果;然后,根据语料异构图中对应于标准提问语料的文档节点的初始语料分类结果以及标准提问语料对应的标准回答语料,调整初始图神经网络模型的模型参数,得到目标图神经网络模型,并且调整语料异构图中各节点各自的初始编码向量,得到语料异构图中各节点各自的目标编码向量;进而,通过所述目标图神经网络模型,根据语料异构图的结构和语料异构图中各节点各自的目标编码向量,确定该语料异构图中各文档节点各自的目标语料分类结果。
由于问答语料库中各标准提问语料与各标准回答语料之间预先已构建好了对应关系,因此,服务器训练初始图神经网络模型时,可以直接利用标准提问语料与标准回答语料之间的对应关系,作为半监督训练的标注训练样本;基于该标注训练样本调整初始图神经网络模型的模型参数,同时调整输入的语料异构图中各节点各自的初始编码向量,得到目标图神经网络模型和语料异构图中各节点各自的目标编码向量;最终,利用该目标图神经网络模型,根据语料异构图中各节点各自的目标编码向量,确定该语料异构图中各文档节点各自的语料分类结果。
示例性的,服务器可以先通过以下方式得到语料异构图中各节点各自的初始编码向量:针对语料异构图中对应于基础处理语料的文档节点,通过文本编码模型确定该基础处理语料的编码向量,作为该文档节点的初始编码向量;针对语料异构图中对应于基础处理语料中的目标词语的词语节点,通过文本编码模型确定该目标词语的编码向量,作为该词语节点的初始编码向量;针对语料异构图中对应于基础处理语料中的实体词语的实体词语节点,随机初始化得到该实体词语的编码向量,作为该实体词语节点的初始编码向量。
例如,当本申请实施例提供的语料泛化方法应用于多语种语料泛化的场景中时,服务器可以利用Multilingual BERT,对文档节点对应的基础处理语料和词语节点对应的目标词语进行编码;即将文档节点对应的基础处理语料或者词语节点对应的目标词语作为Multilingual BERT的输入,获取Multilingual BERT最后一层的第一个隐状态作为编码结果输出,即作为文档节点或者词语节点的初始编码向量。针对对应于实体词语的实体词语节点,服务器可以随机初始化得到该实体词语的编码向量,作为该实体词语节点的初始编码向量。
应理解,在实际应用中,除了可以采用Multilingual BERT对文档节点对应的基础处理语料和词语节点对应的目标词语进行编码外,还可以根据实际需求采用其它预训练语言模型,对文档节点对应的基础处理语料和词语节点对应的目标词语进行编码处理,例如采用XLM(Cross-lingual language model pretraining)模型、长短期记忆(Long-shorttermmemory,LSTM)模型等,本申请在此不对生成节点的初始编码向量时使用的文本编码模型做任何限定。
然后,服务器可以将对应于语料异构图的结构的邻接矩阵和该语料异构图中各节点各自的初始编码向量,输入初始图神经网络模型,并获得该初始图神经网络模型输出的语料异构图中各文档节点各自的初始语料分类结果yq’。从各文档节点各自的初始语料分类结果yq’中,提取出标准提问语料对应的文档节点的初始语料分类结果yqiabei’,由于标准提问语料与标准回答语料之间的对应关系是已经构建好的,因此可以基于标准提问语料对应的标准回答语料生成标签yqiabei;将标准提问语料对应的文档节点的初始语料分类结果yqiabei’与其对应的标签yqiabei进行比较,计算交叉熵作为损失并进行梯度更新,如此调整初始图神经网络模型的模型参数,实现对于初始图神经网络模型的训练;同时,服务器也会利用梯度下降算法对语料异构图中各节点各自的初始编码向量进行更新。
待模型参数调整后的初始图神经网络模型满足训练结束条件,例如对于初始图神经网络模型的迭代训练次数达到预设次数,又例如模型参数调整后的初始图神经网络模型的模型性能达到预设性能标准等等,可以确定当前的初始图神经网络模型为目标神经网络模型,并且确定语料异构图中各节点当前的编码向量为目标编码向量。
进而,服务器可以将对应于语料异构图的结构的邻接矩阵和该语料异构图中各节点各自的目标编码向量,输入目标图神经网络模型,并获取该目标图神经网络模型输出的该语料异构图中各文档节点各自的目标语料分类结果。相应地,服务器后续可以基于该语料异构图中对应于候选扩展语料的文档节点的目标语料分类结果,对问答语料库进行语料泛化处理,即针对每个候选扩展语料判断是否可以将其添加至问答语料库中。
如此,通过上述半监督的文本分类任务,确定语料异构图中各文档节点各自的语料分类结果,可以在执行文本分类任务的过程中,调整图神经网络模型的模型参数以及语料异构图中各节点各自的输入编码向量,使得语料异构图中各节点的输入编码表示更准确,并且使得图神经网络模型能够更准确地挖掘语料异构图中各节点间的关联关系,从而保证所确定的语料分类结果的准确性。
在一种可能的实现方式中,本申请实施例提供的图神经网络模型(包括上述初始图神经网络模型和目标图神经网络模型)可以包括图卷积结构和分类结构。该图神经网络模型工作时,可以先通过其中的图卷积结构,根据语料异构图的结构和语料异构图中各节点各自的输入编码向量,确定该语料异构图中各节点各自的输出编码向量;然后,通过其中的分类结构,根据语料异构图中各文档节点各自的输出编码向量,确定该语料异构图中各文档节点各自的语料分类结果。
需要说明的是,上述节点的输入编码向量是指输入图神经网络模型的编码向量,其可以对应于上文中的初始编码向量,也可以对应于上文中的目标编码向量,即向图神经网络模型中输入的编码向量均可被视为输入编码向量。上述节点的输出编码向量是指图神经网络模型中图卷积结构输出的节点的编码向量。
下面结合图4所示的图神经网络模型的工作原理示意图,对本申请实施例提供的图神经网络模型的工作原理进行示例性介绍。假设图神经网络模型中的图卷积结构包括若干层(如两层)图卷积层,分类结构包括全连接层和softmax层,语料异构图中各节点各自的输入编码向量表示为X=[xq,xw,xe],其中xq、xw和xe分别为文档节点、词语节点和实体词语节点的输入编码向量,语料异构图的结构表示为邻接矩阵A;图神经网络模型工作时,可以先通过两层图卷积层对语料异构图中各节点各自的输入编码向量X=[xq,xw,xe]、以及语料异构图的邻接矩阵A进行处理,得到该语料异构图中各节点各自的输出编码向量H=[hq,hw,he],其中hq、hw和he分别为文档节点、词语节点和实体词语节点的输出编码向量;进而,再通过全连接层和softmax层对语料异构图中各文档节点各自的输出编码向量hq进行处理,得到各文档节点各自的语料分类结果。
由于图卷积结构能够较好的提取语料异构图中节点的特征以及节点间的关联关系,因此,利用上述图神经网络模型根据语料异构图确定该语料异构图中文档节点的语料分类结果,能够保证所确定的语料分类结果的准确性。
考虑到图卷积结构在一些情况下无法对节点或者边的类型进行特殊考虑,即对于异构图的处理效果不够理想,本申请实施例提供的方法还可以进一步对语料异构图进行拆分,并基于拆分得到的子语料异构图确定文档节点的输出编码表示。
具体的,服务器可以根据语料异构图中包括的连接边的类型,将语料异构图拆分为多个子语料异构图;然后,针对每个子语料异构图,通过图神经网络模型中的图卷积结构,根据子语料异构图的结构和该子语料异构图中各节点各自的输入编码向量,确定该子语料异构图中各节点各自的子输出编码向量;进而,针对语料异构图中的每个节点,根据各子语料异构图中该节点的子输出编码向量,确定该节点的输出编码向量。
在该种实现方式中,图卷积结构中层间节点编码向量表示的公式更新为式(2):
Figure BDA0003046972390000181
其中,
Figure BDA0003046972390000182
是子语料异构图的邻接矩阵,该子语料异构图中仅包括类型为τ的连接边。
Figure BDA0003046972390000183
是子语料异构图中节点在第l层的编码向量表示,即由仅包括类型为τ的连接边的子语料异构图中各节点的编码向量组成的矩阵。
Figure BDA0003046972390000184
是图卷积结构中的模型参数,T表示所有连接边的类型的集合。
示例性的,假设语料异构图中包括第一类型、第二类型、第三类型和第四类型的连接边,则服务器可以先根据连接边的类型,将语料异构图拆分为只包括第一类型的连接边的第一子语料异构图、只包括第二类型的连接边的第二子语料异构图、只包括第三类型的连接边的第三子语料异构图和只包括第四类型的连接边的第四子语料异构图,并针对第一子语料异构图、第二子语料异构图、第三子语料异构图和第四子语料异构图,分别构建对应的用于表征其结构的邻接矩阵。然后,针对每个子语料异构图,将该子语料异构图对应的邻接矩阵和该子语料异构图中包括的各节点各自的输入编码向量,输入图神经网络模型中的图卷积结构,并获得该图卷积结构输出的该子语料异构图中各节点各自的子输出编码向量。进而,针对语料异构图中的每个节点,将第一子语料异构图、第二子语料异构图、第三子语料异构图和第四子语料异构图中该节点的子输出编码向量拼接起来,得到该节点的输出编码向量。
通过上述方式,可以使得图卷积网络对不同类型的连接边进行特殊考虑,从而使得所得到的节点的输出编码向量能够更好地融合不同类型的关联关系,相应地,图神经网络模型中的分类结构基于该种文档节点的输出编码向量,可以更好地预测语料分类结果,即保证预测得到的语料分类结果更准确。
应理解,在实际应用中,本申请实施例中的图神经网络模型还可以为其它结构的图神经网络模型,相应地,其它结构的图神经网络模型可以基于对应的工作原理处理语料异构图;在此不对本申请实施例中的图神经网络模型的结构和工作原理做任何限定。
步骤204:根据所述语料异构图中对应于所述候选扩展语料的文档节点的语料分类结果,确定是否将所述候选扩展语料添加至所述问答语料库。
服务器通过图神经网络模型,得到语料异构图中各文档节点各自的语料分类结果后,可以从中提取出对应于候选扩展语料的文档节点的语料分类结果,并根据对应于候选扩展语料的文档节点的语料分类结果,确定该候选扩展语料是否与某标准回答语料之间具有较强的匹配关系,进而确定是否可以将该候选扩展语料添加至问答语料库中。
在一种可能的实现方式中,服务器可以根据语料分类结果中包括的候选扩展语料与问答语料库中各标准回答语料之间的匹配度,确定目标匹配度以及该目标匹配度对应的目标标准回答语料;若该目标匹配度高于预设匹配度阈值,则可以构建该候选扩展语料与目标标准回答语料之间的对应关系,并将该候选扩展语料和该对应关系添加至问答语料库中。
示例性的,候选扩展语料对应的语料分类结果中包括该候选扩展语料与各标准回答语料之间的匹配度,在该种情况下,服务器从该语料分类结果中选取最大的匹配度作为目标匹配度,并将该目标匹配度对应的标准回答语料作为目标标准回答语料。此时,服务器可以判断该目标匹配度是否大于预设的匹配度阈值δ,若是,则说明该候选扩展语料与该标准回答语料之间具有较强的匹配关系,相应地,服务器可以构建该候选扩展语料与该标准回答语料之间的对应关系,并将该候选扩展语料和该对应关系一同存储至问答语料库。
当然,在实际应用中,服务器也可以对语料分类结果中包括的各匹配度进行降序排序,将排序靠前的若干个匹配度均视为目标匹配度,将这些目标匹配度各自对应的标准回答语料均视为目标标准回答语料;进而,针对每个目标匹配度分别判断其是否高于预设匹配度阈值,对高于预设匹配度阈值的目标匹配度对应的目标标准语料,构建其与候选扩展语料之间的对应关系。本申请在此不对确定目标匹配度和目标标准回答语料的方式做任何限定。
可选的,为了保证在问答语料库中添加的候选扩展语料和对应关系准确可靠,本申请实施例提供的方法还可以在将候选扩展语料和对应关系添加至问答语料库之前,先将该对应关系发送给人工审核系统,并获取该人工审核系统反馈的审核结果;若该审核结果表征该对应关系合理,则再进一步将该候选扩展语料和对应关系添加至问答语料库。
图5为本申请实施例提供的一种示例性的人工审核系统的界面示意图。如图5所示,服务器可以将候选扩展语料与标准回答语料之间的对应关系,转换为候选扩展语料与该标准回答语料对应的标准提问语料之间的关联关系,进而将该关联关系提供给人工审核系统,由相关技术人员进行人工审核。例如,假设标准提问语料为“你是谁”,与该标准提问语料具有关联关系的候选扩展语料包括“who are you”、“what’s your name”、“tell mewho are you please”、“hi,who are you”、“you???”、“who r u”,则可以在人工审核系统的界面上显示这些候选扩展语料,并针对每个候选扩展语料提供对应的选择框,技术人员通过该选择框选择该候选扩展语料,则表示可以将该候选扩展语料和该候选扩展语料与标准回答语料之间的对应关系添加至问答语料库中。
如此,在将候选扩展语料和对应关系添加至问答语料库之前,由相关技术人员对候选扩展语料与标准回答语料之间的对应关系进行人工审核,可以保证向问答语料库中添加的候选扩展语料和对应关系准确可靠。
上述语料泛化方法创新性地将语料泛化任务转换成了文本分类任务,并利用图神经网络模型基于语料异构图执行该文本分类任务。相比相关技术中基于语义相似度对问答语料库进行语料泛化的方案,本申请实施例中的语料泛化方法利用语料异构图整合各基础处理语料中的信息,通过该语料异构图显式地引入了词语与语料间丰富的异构关系,进而利用图神经网络模型基于该语料异构图挖掘各基础处理语料间更深层次的关联关系,从而准确地确定候选扩展语料与问答语料库中各标准回答语料间的匹配度,并据此进一步对问答语料库进行扩充。如此,使得语料泛化不再局限于仅依据语义相似度,使得语料泛化可以综合参考语料间更深层次的关联关系,有助于挖掘出语义不相似、但关联性较强的候选扩展语料,从而有效地提高针对问答语料库的语料泛化效果,保证在问答语料库中扩展出与标准回答语料准确匹配的提问语料。此外,需要说明的是,当本申请实施例提供的语料泛化方法应用于对问答语料库进行多语种语料泛化处理时,语料异构图能够较好地整合多语种环境下多个语料之间的信息,从而有助于图神经网络模型基于该语料异构图更好地挖掘多语种语料间的关联关系,进而更好地对问答语料库进行多语种语料的泛化,即本申请实施例提供的语料泛化方法在多语种语料泛化的场景中也能够达到较好的效果。
为了便于进一步理解本申请实施例提供的技术方案,下面结合图6a所示的本申请实施例提供的语料泛化方法的实现架构示意图,以本申请实施例提供的语料泛化方法应用于游戏场景为例,即以本申请实施例提供的语料泛化方法应用于对游戏应用程序中的多语种问答机器人的问答语料库进行多语种语料泛化为例,对本申请实施例提供的语料泛化方法进行整体示例性介绍。
如图6a所示,在本申请实施例提供的语料泛化方法中,基础处理语料包括线上用户原始提问语料(即用户通过游戏应用程序中的人机对话功能输入的提问语料,对应于上文中的候选扩展语料)、问答语料库中的标准提问语料、预先缓存的经翻译引擎自动翻译标准提问语料后得到的翻译提问语料。基于上述基础处理语料,服务器可以构建包括多语种语料的语料异构图,并基于该语料异构图训练图神经网络模型,进而利用训练好的图神经网络模型推断语料分类结果;如果需要进行人工审核,则经由人工审核处理流程,基于语料分类结果审核可以被添加至问答语料库中的原始提问语料,进而,将可被添加至问答语料库中的原始提问语料及其与标准回答语料之间的对应关系,写入问答语料库中。图6b所示为针对一种标准提问语料扩展出的多语种扩展提问语料的示意图,其针对标准提问语料“APP简介”扩展出多种不同语种的扩展提问语料。上述处理流程通常需要采用离线计算的方式进行,可以定期(如每天凌晨2点)拉取所有输入,运行一次完整的处理流程,从而更新问答语料库。
下面对包括多语种语料的语料异构图的构建方式进行介绍。
该语料异构图中可以包括三种不同的节点,分别是文档节点、词语节点和实体词语节点。其中,一个文档节点对应一条完整的基础处理语料。各个词语节点对应于各基础处理语料中出现过的各目标词语(例如形容词、动词、名词等),每个目标词语单独对应一个词语节点;对于中文、日文等不具有天然分词的语言结构,可以采用额外的分词器(如jieba分词器、mecab分词器等),将原始语料切分为词语序列,进而从中提取目标词语。各个实体词语节点对应于各基础处理语料中出现过的各实体词语,实体词语对应于实体,实体是指现实世界中存在的且具有可区别性的特定事物,对于特定领域的问答系统,服务器可以将实体词语在不同语种中的表达统一为一个实体词语节点。
该语料异构图中包括四种类型的连接边,这四种类型的连接边可以分为两个大类:文档-词语级别的连接边和文档-文档级别的连接边。文档-词语级别的连接边是文档节点与词语节点或实体词语节点之间的连接边,其中包括:文档-实体连接边(如果一个实体词语出现在一个基础处理语料中,则该实体词语对应的实体词语节点与该基础处理语料对应的文档节点之间应当有该种连接边)、文档-词语连接边(如果一个目标词语出现在一个基础处理语料中,则该目标词语对应的词语节点与该基础处理语料对应的文档节点之间应当有该种连接边)。文档-文档级别的连接边是两个文档节点之间的连接边,此类连接边可以提供更直接的语料之间的关联关系,便于图神经网络模型建模;其中包括:翻译边(标准提问语料对应的文档节点与该标准提问语料对应的翻译提问语料对应的文档节点之间应当有该种连接边)、语义相似边(服务器可以利用Multilingual BERT确定每个基础处理语料的编码向量,针对每个文档节点,可以找到与该文档节点对应的基础处理语料之间的余弦相似度最大的三个基础处理语料对应的文档节点,并在该文档节点与这三个基础处理语料对应的文档节点之间创建该种连接边)。
下面对用于处理语料异构图的图神经网络模型进行介绍。
图神经网络是一系列定义在图结构上的神经网络的总称,图神经网络可以自动学习图上的节点和边的特征以及节点间的聚合关系,从而将深度学习应用到大规模的图数据上。下文将先介绍图卷积网络的定义,再介绍图卷积网络如何处理异构图,最终介绍本申请实施例中基于图卷积网络的图神经网络模型的完整结构。
图卷积网络在图结构上定义了一种卷积操作,实现每一层节点与其邻居节点之间的信息传递,其具体表现为下式:
Figure BDA0003046972390000231
其中,
Figure BDA0003046972390000232
是正则化后的邻接矩阵,其可以表示图结构中节点间的连接方式,是在构造图结构时确定的参数。H(l)是各节点在第l层的向量表示,特别的,H(0)=X是各节点的输入编码向量,W(l)是可训练的模型参数。σ()是非线性激活函数,例如常见的ReLU函数ReLU(x)=max(0,x)。
原始的图卷积网络难以对节点或者连接边的类型进行特殊考虑,在异构图上的应用效果较差。针对此问题,本申请实施例提出了一种针对异构图的图卷积网络,其在每一层计算时,将异构图按照连接边的类型拆分为多个子异构图,针对每个子异构图单独应用图卷积网络,进而再将图卷积网络的编码结果聚合到一个统一的向量空间,形式化地,层间节点更新公式如下:
Figure BDA0003046972390000233
其中,
Figure BDA0003046972390000234
是子异构图的邻接矩阵,该子异构图中仅包括类型为τ的连接边。
Figure BDA0003046972390000241
是子异构图中节点在第l层的编码向量表示,即由仅包括类型为τ的连接边的子异构图中各节点的编码向量组成的矩阵。
Figure BDA0003046972390000242
是图卷积结构中的模型参数,T表示所有连接边的类型的集合。上式在仅包括一种类型的连接边的子异构图上采用图卷积方式计算更新后的参数,再将这些参数加和得到全图更新后的参数。
在本申请实施例中,采用了包括两个图卷积层、一个全连接层和一个softmax层的图神经网络模型的结构。该图神经网络模型的输入包括语料异构图中各节点的输入编码向量X=[xq,xw,xe]和用于表示该语料异构图结构的邻接矩阵A,其中xq、xw和xe分别为文档节点、词语节点和实体词语节点的输入编码向量;经两层图卷积层的处理后,得到语料异构图中各节点的输出编码向量H=[hq,hw,he],其中hq、hw和he分别为文档节点、词语节点和实体词语节点的输出编码向量。对于文档节点的输出编码向量hq,图神经网络模型将再通过一个全连接层和一个softmax层对其进行处理,以得到该文档节点的语料分类结果,每个文档节点的语料分类结果中包括该文档节点对应的基础处理语料与问答语料库中各标准回答语料之间的匹配度。
下面对上述图神经网络模型的训练过程进行介绍。
模型训练分为节点编码和图神经网络模型训练两部分。服务器通常需要先利用Multilingual BERT对文档节点对应的基础处理语料和词语节点对应的目标词语进行编码,得到文档节点的初始编码向量和词语节点的初始编码向量;即服务器可以直接将文档节点或者词语节点的文本作为Multilingual BERT的输入,将该Multilingual BERT最后一层的第一个隐状态作为编码结果输出,即作为xq和xw;实体节点的初始编码向量可以随机初始化得到。
得到语料异构图中各节点各自的初始编码向量后,可以利用图神经网络模型,基于语料异构图的结构和该语料异构图中各节点各自的初始编码向量,确定语料异构图中各文档节点各自的初始语料分类结果yq’,其中对应于标准提问语料的文档节点的初始语料分类结果记为yqiabei’,而这部分文档节点是带有标签yqiabei的,即其与标准回答语料之间的对应关系是预先确定的。将标签yqiabei与初始语料分类结果yqiabei’进行比较,计算交叉熵作为损失并进行梯度更新,如此调整图神经网络模型的模型参数,实现对于图神经网络模型的训练。在训练过程中,对于节点的初始编码向量X可以同步利用梯度下降算法进行更新,整个训练过程可以采用AdamW算法实现。
下面对上述图神经网络模型的推断过程与后续处理过程进行介绍。
在图神经网络模型的推断过程中,可以直接利用训练好的图神经网络模型,根据语料异构图的结构和语料异构图中更新后的各节点各自的编码向量,确定语料异构图中各文档节点的语料分类结果yq’。此时,服务器只关注来自线上输入的原始提问语料对应的文档节点的语料分类结果,即服务器对于每个原始提问语料对应的文档节点的语料分类结果,可以从该语料分类结果中提取最大的匹配度,进而判断该匹配度是否大于预设匹配度阈值,若超过该预设匹配度阈值,则构建该原始提问语料与该最大的匹配度对应的标准回答语料之间的对应关系,并将该原始提问语料和该对应关系,添加至游戏应用程序中的多语种问答机器人的问答语料库中,实现对于该问答语料库的语料泛化处理。
本申请发明人对本申请实施例提供的语料泛化方法与多种传统的聚类、分类算法的效果进行对比,对比结果如表1所示。对比使用的指标为Top-k准确率,即在测试数据上,正确的标准提问语料在模型预测出的前k个匹配提问语料中的出现概率。
表1
模型 Top-1准确率 Top-5准确率 Top-10准确率
K-means 33.81% 56.25% 60.44%
CNN 59.13% 75.64% 81.05%
Multilingual BERT 68.26% 81.68% 85.84%
本申请 69.14% 87.27% 90.89%
通过对比可以发现,本申请实施例提供的语料泛化方法中使用的图神经网络模型的的准确率明显高于现有技术中其它模型的准确率。
在训练样本数量较少时,本申请可以更明显地体现半监督训练的优势,因此本申请实施例提供的方法构建新的问答语料库时,可以更好地解决冷启动的问题。表2展示了在每类训练样本数据不超过100的情况下,本申请提供的图神经网络模型与MultilingualBERT模型的对比效果。
表2
模型 Top-1准确率 Top-5准确率 Top-10准确率
Multilingual BERT 60.49% 76.22% 81.39%
本申请 65.47% 82.42% 86.22%
通过对比可以发现,本申请实施例提供的语料泛化方法中使用的图神经网络模型的准确率明显高于Multilingual BERT模型的准确率。
针对上文描述的语料泛化方法,本申请还提供了对应的语料泛化装置,以使上述语料泛化方法在实际中得以应用及实现。
参见图7,图7是与上文图3所示的语料泛化方法对应的一种语料泛化装置700的结构示意图。如图7所示,该语料泛化装置700包括:
语料获取模块701,用于获取候选扩展语料和问答语料库中的标准提问语料,作为基础处理语料;
异构图构建模块702,用于根据所述基础处理语料,构建语料异构图;所述语料异构图中包括具有连接关系的多个节点,所述多个节点包括对应于所述基础处理语料的文档节点和对应于所述基础处理语料中的词语的词语节点;
语料分类模块703,用于通过图神经网络模型,根据所述语料异构图的结构和所述语料异构图中各节点各自的编码向量,确定所述语料异构图中各文档节点各自的语料分类结果;所述语料分类结果用于表征所述文档节点对应的所述基础处理语料与所述问答语料库中各标准回答语料之间的匹配度;
语料泛化模块704,用于根据所述语料异构图中对应于所述候选扩展语料的文档节点的语料分类结果,确定是否将所述候选扩展语料添加至所述问答语料库。
可选的,在图7所示的语料泛化装置的基础上,参见图8,图8为本申请实施例提供的另一种语料泛化装置800的结构示意图。如图8所示,异构图构建模块702可以包括以下至少一种子模块:
第一构建子模块801,用于针对各所述基础处理语料中包括的各目标词语分别创建对应的词语节点;在所述目标词语对应的词语节点与所述目标词语所属的基础处理语料对应的文档节点之间,创建第一类型的连接边;
第二构建子模块802,用于针对各所述基础处理语料中包括的各实体词语分别创建对应的实体词语节点;在所述实体词语对应的实体词语节点与所述实体词语所属的基础处理语料对应的文档节点之间,创建第二类型的连接边;
第三构建子模块803,用于针对所述基础处理语料中的目标基础处理语料,从各所述基础处理语料中选取所述目标基础处理语料的关联基础处理语料;在所述目标基础处理语料对应的文档节点与所述关联基础处理语料对应的文档节点之间,创建第三类型的连接边。
可选的,在图8所示的语料泛化装置的基础上,所述第三构建子模块803具体用于:
通过文本编码模型,确定各所述基础处理语料各自的编码向量;
针对每个所述基础处理语料,计算所述基础处理语料的编码向量与所述目标基础处理语料的编码向量之间的相似度,作为所述基础处理语料与所述目标基础处理语料之间的相似度;
确定与所述目标基础处理语料之间的相似度满足预设相似条件的所述基础处理语料,作为所述目标基础处理语料的关联基础处理语料。
可选的,在图7或图8所示的语料泛化装置的基础上,所述语料获取模块701还用于:
获取所述标准提问语料对应的翻译提问语料,作为所述基础处理语料;
则所述异构图构建模块702还用于:
在所述标准提问语料对应的文档节点与所述标准提问语料对应的翻译提问语料对应的文档节点之间,创建第四类型的连接边。
可选的,在图7所示的语料泛化装置的基础上,参见图9,图9为本申请实施例提供的另一种语料泛化装置900的结构示意图。如图9所示,所述语料分类模块703具体可以包括:
初始分类子模块901,用于通过初始图神经网络模型,根据所述语料异构图的结构和所述语料异构图中各节点各自的初始编码向量,确定所述语料异构图中各文档节点各自的初始语料分类结果;
模型训练子模块902,用于根据所述语料异构图中对应于所述标准提问语料的文档节点的初始语料分类结果以及所述标准提问语料对应的标准回答语料,调整所述初始图神经网络模型的模型参数,得到目标图神经网络模型,并且调整所述语料异构图中各节点各自的初始编码向量,得到所述语料异构图中各节点各自的目标编码向量;
目标分类子模块903,用于通过所述目标图神经网络模型,根据所述语料异构图的结构和所述语料异构图中各节点各自的目标编码向量,确定所述语料异构图中各文档节点各自的目标语料分类结果;
则所述语料泛化模块704具体用于:
根据所述语料异构图中对应于所述候选扩展语料的文档节点的目标语料分类结果,确定是否将所述候选扩展语料添加至所述问答语料库。
可选的,在图7或图9所示的语料泛化装置的基础上,参见图10,图10为本申请实施例提供的另一种语料泛化装置1000的结构示意图。如图10所示,所述语料分类模块703具体可以包括:
卷积子模块1001,用于通过所述图神经网络模型中的图卷积结构,根据所述语料异构图的结构和所述语料异构图中各节点各自的输入编码向量,确定所述语料异构图中各节点各自的输出编码向量;
分类子模块1002,用于通过所述图神经网络模型中的分类结构,根据所述语料异构图中各文档节点各自的输出编码向量,确定所述语料异构图中各文档节点各自的语料分类结果。
可选的,在图10所示的语料泛化装置的基础上,所述卷积子模块1001具体用于:
根据所述语料异构图中包括的连接边的类型,将所述语料异构图拆分为多个子语料异构图;
针对每个所述子语料异构图,通过所述图卷积结构,根据所述子语料异构图的结构和所述子语料异构图中各节点各自的输入编码向量,确定所述子语料异构图中各节点各自的子输出编码向量;
针对所述语料异构图中的每个节点,根据各所述子语料异构图中所述节点的子输出编码向量,确定所述节点的输出编码向量。
可选的,在图9所示的语料泛化装置的基础上,所述初始分类子模块901具体用于:
针对所述语料异构图中对应于所述基础处理语料的文档节点,通过文本编码模型确定所述基础处理语料的编码向量,作为所述文档节点的初始编码向量;
针对所述语料异构图中对应于所述基础处理语料中的目标词语的词语节点,通过所述文本编码模型确定所述目标词语的编码向量,作为所述词语节点的初始编码向量;
针对所述语料异构图中对应于所述基础处理语料中的实体词语的实体词语节点,随机初始化得到所述实体词语的编码向量,作为所述实体词语节点的初始编码向量。
可选的,在图7所示的语料泛化装置的基础上,所述语料获取模块701具体用于通过以下至少一种方式获取所述候选扩展语料:
获取用户与智能对话系统进行对话时输入的原始语料,作为所述候选扩展语料;
获取用户通过目标搜索引擎进行搜索操作时输入的原始语料,作为所述候选扩展语料;
通过网络爬虫,从网络上爬取所述候选扩展语料。
可选的,在图7所示的语料泛化装置的基础上,所述语料泛化模块704具体用于:
根据所述语料分类结果中包括的所述候选扩展语料与所述问答语料库中各标准回答语料之间的匹配度,确定目标匹配度以及所述目标匹配度对应的目标标准回答语料;
若所述目标匹配度高于预设匹配度阈值,则构建所述候选扩展语料与所述目标标准回答语料之间的对应关系,并将所述候选扩展语料和所述对应关系添加至所述问答语料库。
可选的,在图7所示的语料泛化装置的基础上,所述语料泛化模块704还用于:
将所述对应关系发送给人工审核系统,并获取所述人工审核系统反馈的审核结果;
若所述审核结果表征所述对应关系合理,则执行所述将所述候选扩展语料和所述对应关系添加至所述问答语料库。
上述语料泛化装置创新性地将语料泛化任务转换成了文本分类任务,并利用图神经网络模型基于语料异构图执行该文本分类任务。本申请实施例中的语料泛化装置利用语料异构图整合各基础处理语料中的信息,通过该语料异构图显式地引入了词语与语料间丰富的异构关系,进而利用图神经网络模型基于该语料异构图挖掘各基础处理语料间更深层次的关联关系,从而准确地确定候选扩展语料与问答语料库中各标准回答语料间的匹配度,并据此进一步对问答语料库进行扩充。如此,使得语料泛化不再局限于仅依据语义相似度,使得语料泛化可以综合参考语料间更深层次的关联关系,有助于挖掘出语义不相似、但关联性较强的候选扩展语料,从而有效地提高针对问答语料库的语料泛化效果,保证在问答语料库中扩展出与标准回答语料准确匹配的提问语料。
本申请实施例还提供了一种用于语料泛化的设备,该设备具体可以是终端设备或者服务器,下面将从硬件实体化的角度对本申请实施例提供的终端设备和服务器进行介绍。
参见图11,图11是本申请实施例提供的终端设备的结构示意图。如图11所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(英文全称:PersonalDigital Assistant,英文缩写:PDA)、销售终端(英文全称:Point of Sales,英文缩写:POS)、车载电脑等任意终端设备,以终端为计算机为例:
图11示出的是与本申请实施例提供的终端相关的计算机的部分结构的框图。参考图11,计算机包括:射频(英文全称:Radio Frequency,英文缩写:RF)电路1110、存储器1120、输入单元1130(其中包括触控面板1131和其他输入设备1132)、显示单元1140(其中包括显示面板1141)、传感器1150、音频电路1160(其可以连接扬声器1161和传声器1162)、无线保真(英文全称:wireless fidelity,英文缩写:WiFi)模块1170、处理器1180、以及电源1190等部件。本领域技术人员可以理解,图11中示出的计算机结构并不构成对计算机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储器1120可用于存储软件程序以及模块,处理器1180通过运行存储在存储器1120的软件程序以及模块,从而执行计算机的各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器1180是计算机的控制中心,利用各种接口和线路连接整个计算机的各个部分,通过运行或执行存储在存储器1120内的软件程序和/或模块,以及调用存储在存储器1120内的数据,执行计算机的各种功能和处理数据,从而对计算机进行整体监控。可选的,处理器1180可包括一个或多个处理单元;优选的,处理器1180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1180中。
在本申请实施例中,该终端所包括的处理器1180还具有以下功能:
获取候选扩展语料和问答语料库中的标准提问语料,作为基础处理语料;
根据所述基础处理语料,构建语料异构图;所述语料异构图中包括具有连接关系的多个节点,所述多个节点包括对应于所述基础处理语料的文档节点和对应于所述基础处理语料中的词语的词语节点;
通过图神经网络模型,根据所述语料异构图的结构和所述语料异构图中各节点各自的编码向量,确定所述语料异构图中各文档节点各自的语料分类结果;所述语料分类结果用于表征所述文档节点对应的所述基础处理语料与所述问答语料库中各标准回答语料之间的匹配度;
根据所述语料异构图中对应于所述候选扩展语料的文档节点的语料分类结果,确定是否将所述候选扩展语料添加至所述问答语料库。
可选的,所述处理器1180还用于执行本申请实施例提供的语料泛化方法的任意一种实现方式的步骤。
参见图12,图12为本申请实施例提供的一种服务器1200的结构示意图。该服务器1200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1222(例如,一个或一个以上处理器)和存储器1232,一个或一个以上存储应用程序1242或数据1244的存储介质1230(例如一个或一个以上海量存储设备)。其中,存储器1232和存储介质1230可以是短暂存储或持久存储。存储在存储介质1230的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1222可以设置为与存储介质1230通信,在服务器1200上执行存储介质1230中的一系列指令操作。
服务器1200还可以包括一个或一个以上电源1226,一个或一个以上有线或无线网络接口1250,一个或一个以上输入输出接口1258,和/或,一个或一个以上操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图12所示的服务器结构。
其中,CPU 1222用于执行如下步骤:
获取候选扩展语料和问答语料库中的标准提问语料,作为基础处理语料;
根据所述基础处理语料,构建语料异构图;所述语料异构图中包括具有连接关系的多个节点,所述多个节点包括对应于所述基础处理语料的文档节点和对应于所述基础处理语料中的词语的词语节点;
通过图神经网络模型,根据所述语料异构图的结构和所述语料异构图中各节点各自的编码向量,确定所述语料异构图中各文档节点各自的语料分类结果;所述语料分类结果用于表征所述文档节点对应的所述基础处理语料与所述问答语料库中各标准回答语料之间的匹配度;
根据所述语料异构图中对应于所述候选扩展语料的文档节点的语料分类结果,确定是否将所述候选扩展语料添加至所述问答语料库。
可选的,CPU 1222还可以用于执行本申请实施例提供的语料泛化方法的任意一种实现方式的步骤。
本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行前述各个实施例所述的一种语料泛化方法中的任意一种实施方式。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前述各个实施例所述的一种语料泛化方法中的任意一种实施方式。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:RandomAccess Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (15)

1.一种语料泛化方法,其特征在于,所述方法包括:
获取候选扩展语料和问答语料库中的标准提问语料,作为基础处理语料;
根据所述基础处理语料,构建语料异构图;所述语料异构图中包括具有连接关系的多个节点,所述多个节点包括对应于所述基础处理语料的文档节点和对应于所述基础处理语料中的词语的词语节点;
通过图神经网络模型,根据所述语料异构图的结构和所述语料异构图中各节点各自的编码向量,确定所述语料异构图中各文档节点各自的语料分类结果;所述语料分类结果用于表征所述文档节点对应的所述基础处理语料与所述问答语料库中各标准回答语料之间的匹配度;
根据所述语料异构图中对应于所述候选扩展语料的文档节点的语料分类结果,确定是否将所述候选扩展语料添加至所述问答语料库。
2.根据权利要求1所述的方法,其特征在于,所述根据所述基础处理语料,构建语料异构图,包括以下至少一种:
针对各所述基础处理语料中包括的各目标词语分别创建对应的词语节点;在所述目标词语对应的词语节点与所述目标词语所属的基础处理语料对应的文档节点之间,创建第一类型的连接边;
针对各所述基础处理语料中包括的各实体词语分别创建对应的实体词语节点;在所述实体词语对应的实体词语节点与所述实体词语所属的基础处理语料对应的文档节点之间,创建第二类型的连接边;
针对所述基础处理语料中的目标基础处理语料,从各所述基础处理语料中选取所述目标基础处理语料的关联基础处理语料;在所述目标基础处理语料对应的文档节点与所述关联基础处理语料对应的文档节点之间,创建第三类型的连接边。
3.根据权利要求2所述的方法,其特征在于,所述针对所述基础处理语料中的目标基础处理语料,从各所述基础处理语料中选取所述目标基础处理语料的关联基础处理语料,包括:
通过文本编码模型,确定各所述基础处理语料各自的编码向量;
针对每个所述基础处理语料,计算所述基础处理语料的编码向量与所述目标基础处理语料的编码向量之间的相似度,作为所述基础处理语料与所述目标基础处理语料之间的相似度;
确定与所述目标基础处理语料之间的相似度满足预设相似条件的所述基础处理语料,作为所述目标基础处理语料的关联基础处理语料。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:
获取所述标准提问语料对应的翻译提问语料,作为所述基础处理语料;
则所述根据所述基础处理语料,构建语料异构图,包括:
在所述标准提问语料对应的文档节点与所述标准提问语料对应的翻译提问语料对应的文档节点之间,创建第四类型的连接边。
5.根据权利要求1所述的方法,其特征在于,所述通过图神经网络模型,根据所述语料异构图的结构和所述语料异构图中各节点各自的编码向量,确定所述语料异构图中各文档节点各自的语料分类结果,包括:
通过初始图神经网络模型,根据所述语料异构图的结构和所述语料异构图中各节点各自的初始编码向量,确定所述语料异构图中各文档节点各自的初始语料分类结果;
根据所述语料异构图中对应于所述标准提问语料的文档节点的初始语料分类结果以及所述标准提问语料对应的标准回答语料,调整所述初始图神经网络模型的模型参数,得到目标图神经网络模型,并且调整所述语料异构图中各节点各自的初始编码向量,得到所述语料异构图中各节点各自的目标编码向量;
通过所述目标图神经网络模型,根据所述语料异构图的结构和所述语料异构图中各节点各自的目标编码向量,确定所述语料异构图中各文档节点各自的目标语料分类结果;
则所述根据所述语料异构图中对应于所述候选扩展语料的文档节点的语料分类结果,确定是否将所述候选扩展语料添加至所述问答语料库,包括:
根据所述语料异构图中对应于所述候选扩展语料的文档节点的目标语料分类结果,确定是否将所述候选扩展语料添加至所述问答语料库。
6.根据权利要求1或5所述的方法,其特征在于,所述通过图神经网络模型,根据所述语料异构图的结构和所述语料异构图中各节点各自的编码向量,确定所述语料异构图中各文档节点各自的语料分类结果,包括:
通过所述图神经网络模型中的图卷积结构,根据所述语料异构图的结构和所述语料异构图中各节点各自的输入编码向量,确定所述语料异构图中各节点各自的输出编码向量;
通过所述图神经网络模型中的分类结构,根据所述语料异构图中各文档节点各自的输出编码向量,确定所述语料异构图中各文档节点各自的语料分类结果。
7.根据权利要求6所述的方法,其特征在于,所述通过所述图神经网络模型中的图卷积结构,根据所述语料异构图的结构和所述语料异构图中各节点各自的输入编码向量,确定所述语料异构图中各节点各自的输出编码向量,包括:
根据所述语料异构图中包括的连接边的类型,将所述语料异构图拆分为多个子语料异构图;
针对每个所述子语料异构图,通过所述图卷积结构,根据所述子语料异构图的结构和所述子语料异构图中各节点各自的输入编码向量,确定所述子语料异构图中各节点各自的子输出编码向量;
针对所述语料异构图中的每个节点,根据各所述子语料异构图中所述节点的子输出编码向量,确定所述节点的输出编码向量。
8.根据权利要求5所述的方法,其特征在于,通过以下方式确定所述语料异构图中节点的初始编码向量:
针对所述语料异构图中对应于所述基础处理语料的文档节点,通过文本编码模型确定所述基础处理语料的编码向量,作为所述文档节点的初始编码向量;
针对所述语料异构图中对应于所述基础处理语料中的目标词语的词语节点,通过所述文本编码模型确定所述目标词语的编码向量,作为所述词语节点的初始编码向量;
针对所述语料异构图中对应于所述基础处理语料中的实体词语的实体词语节点,随机初始化得到所述实体词语的编码向量,作为所述实体词语节点的初始编码向量。
9.根据权利要求1所述的方法,其特征在于,所述获取候选扩展语料,包括以下至少一种:
获取用户与智能对话系统进行对话时输入的原始语料,作为所述候选扩展语料;
获取用户通过目标搜索引擎进行搜索操作时输入的原始语料,作为所述候选扩展语料;
通过网络爬虫,从网络上爬取所述候选扩展语料。
10.根据权利要求1所述的方法,其特征在于,所述根据所述语料异构图中对应于所述候选扩展语料的文档节点的语料分类结果,确定是否将所述候选扩展语料添加至所述问答语料库,包括:
根据所述语料分类结果中包括的所述候选扩展语料与所述问答语料库中各标准回答语料之间的匹配度,确定目标匹配度以及所述目标匹配度对应的目标标准回答语料;
若所述目标匹配度高于预设匹配度阈值,则构建所述候选扩展语料与所述目标标准回答语料之间的对应关系,并将所述候选扩展语料和所述对应关系添加至所述问答语料库。
11.根据权利要求10所述的方法,其特征在于,在所述将所述候选扩展语料和所述对应关系添加至所述问答语料库之前,所述方法还包括:
将所述对应关系发送给人工审核系统,并获取所述人工审核系统反馈的审核结果;
若所述审核结果表征所述对应关系合理,则执行所述将所述候选扩展语料和所述对应关系添加至所述问答语料库。
12.一种语料泛化装置,其特征在于,所述装置包括:
语料获取模块,用于获取候选扩展语料和问答语料库中的标准提问语料,作为基础处理语料;
异构图构建模块,用于根据所述基础处理语料,构建语料异构图;所述语料异构图中包括具有连接关系的多个节点,所述多个节点包括对应于所述基础处理语料的文档节点和对应于所述基础处理语料中的词语的词语节点;
语料分类模块,用于通过图神经网络模型,根据所述语料异构图的结构和所述语料异构图中各节点各自的编码向量,确定所述语料异构图中各文档节点各自的语料分类结果;所述语料分类结果用于表征所述文档节点对应的所述基础处理语料与所述问答语料库中各标准回答语料之间的匹配度;
语料泛化模块,用于根据所述语料异构图中对应于所述候选扩展语料的文档节点的语料分类结果,确定是否将所述候选扩展语料添加至所述问答语料库。
13.根据权利要求12所述的装置,其特征在于,所述异构图构建模块包括以下至少一种子模块:
第一构建子模块,用于针对各所述基础处理语料中包括的各目标词语分别创建对应的词语节点;在所述目标词语对应的词语节点与所述目标词语所属的基础处理语料对应的文档节点之间,创建第一类型的连接边;
第二构建子模块,用于针对各所述基础处理语料中包括的各实体词语分别创建对应的实体词语节点;在所述实体词语对应的实体词语节点与所述实体词语所属的基础处理语料对应的文档节点之间,创建第二类型的连接边;
第三构建子模块,用于针对所述基础处理语料中的目标基础处理语料,从各所述基础处理语料中选取所述目标基础处理语料的关联基础处理语料;在所述目标基础处理语料对应的文档节点与所述关联基础处理语料对应的文档节点之间,创建第三类型的连接边。
14.一种设备,其特征在于,所述设备包括处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行权利要求1至11中任一项所述的语料泛化方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1至11中任一项所述的语料泛化方法。
CN202110475630.4A 2021-04-29 2021-04-29 一种语料泛化方法、装置、设备及存储介质 Active CN113342944B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110475630.4A CN113342944B (zh) 2021-04-29 2021-04-29 一种语料泛化方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110475630.4A CN113342944B (zh) 2021-04-29 2021-04-29 一种语料泛化方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113342944A true CN113342944A (zh) 2021-09-03
CN113342944B CN113342944B (zh) 2023-04-07

Family

ID=77469146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110475630.4A Active CN113342944B (zh) 2021-04-29 2021-04-29 一种语料泛化方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113342944B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996294A (zh) * 2022-05-26 2022-09-02 阿里巴巴(中国)有限公司 回复生成方法、电子设备及计算机存储介质
CN115238679A (zh) * 2022-07-14 2022-10-25 腾讯科技(深圳)有限公司 同义词的挖掘方法、装置、计算机可读介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200137083A1 (en) * 2018-10-24 2020-04-30 Nec Laboratories America, Inc. Unknown malicious program behavior detection using a graph neural network
CN111159395A (zh) * 2019-11-22 2020-05-15 国家计算机网络与信息安全管理中心 基于图神经网络的谣言立场检测方法、装置和电子设备
CN111488460A (zh) * 2019-04-30 2020-08-04 北京京东尚科信息技术有限公司 数据处理方法、装置和计算机可读存储介质
CN111552815A (zh) * 2020-04-01 2020-08-18 华东理工大学 情感语料库的扩展方法、装置及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200137083A1 (en) * 2018-10-24 2020-04-30 Nec Laboratories America, Inc. Unknown malicious program behavior detection using a graph neural network
CN111488460A (zh) * 2019-04-30 2020-08-04 北京京东尚科信息技术有限公司 数据处理方法、装置和计算机可读存储介质
CN111159395A (zh) * 2019-11-22 2020-05-15 国家计算机网络与信息安全管理中心 基于图神经网络的谣言立场检测方法、装置和电子设备
CN111552815A (zh) * 2020-04-01 2020-08-18 华东理工大学 情感语料库的扩展方法、装置及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996294A (zh) * 2022-05-26 2022-09-02 阿里巴巴(中国)有限公司 回复生成方法、电子设备及计算机存储介质
CN115238679A (zh) * 2022-07-14 2022-10-25 腾讯科技(深圳)有限公司 同义词的挖掘方法、装置、计算机可读介质及电子设备

Also Published As

Publication number Publication date
CN113342944B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
US11334635B2 (en) Domain specific natural language understanding of customer intent in self-help
CN112131366B (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
CN116775847B (zh) 一种基于知识图谱和大语言模型的问答方法和系统
WO2021121198A1 (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
KR102491172B1 (ko) 자연어 질의응답 시스템 및 그 학습 방법
CN110674279A (zh) 基于人工智能的问答处理方法、装置、设备及存储介质
CN111931500B (zh) 搜索信息的处理方法、装置
US11461613B2 (en) Method and apparatus for multi-document question answering
KR102090237B1 (ko) 시맨틱 트리플 기반의 지식 확장 시스템, 방법 및 컴퓨터 프로그램
CN110347802B (zh) 一种文本分析方法及装置
CN111310440A (zh) 文本的纠错方法、装置和系统
CN113342944B (zh) 一种语料泛化方法、装置、设备及存储介质
US20230008897A1 (en) Information search method and device, electronic device, and storage medium
CN109710732A (zh) 信息查询方法、装置、存储介质和电子设备
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
CN116258137A (zh) 文本纠错方法、装置、设备和存储介质
CN114722174A (zh) 提词方法和装置、电子设备及存储介质
CN114840685A (zh) 一种应急预案知识图谱构建方法
CN117271736A (zh) 一种问答对的生成方法和系统、电子设备及存储介质
CN115270746A (zh) 问题样本生成方法和装置、电子设备及存储介质
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置
CN113761151A (zh) 同义词挖掘、问答方法、装置、计算机设备和存储介质
KR20190011176A (ko) 속성 언어를 이용한 검색 방법 및 장치
CN114398903B (zh) 意图识别方法、装置、电子设备及存储介质
CN115795007A (zh) 智能问答方法、智能问答装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40051308

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant