CN114780703A - 问答模型的确定方法、问答方法、装置、介质、设备 - Google Patents

问答模型的确定方法、问答方法、装置、介质、设备 Download PDF

Info

Publication number
CN114780703A
CN114780703A CN202210500609.XA CN202210500609A CN114780703A CN 114780703 A CN114780703 A CN 114780703A CN 202210500609 A CN202210500609 A CN 202210500609A CN 114780703 A CN114780703 A CN 114780703A
Authority
CN
China
Prior art keywords
model
question
sample
language
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210500609.XA
Other languages
English (en)
Inventor
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Happy Life Technology Co ltd
Original Assignee
Tianjin Happy Life Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Happy Life Technology Co ltd filed Critical Tianjin Happy Life Technology Co ltd
Priority to CN202210500609.XA priority Critical patent/CN114780703A/zh
Publication of CN114780703A publication Critical patent/CN114780703A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/2445Data retrieval commands; View definitions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及人工智能技术领域,提供了一种问答模型的确定方法及装置、问答方法及装置、计算机可读存储介质和电子设备。其中,上述问答模型的确定方法包括:基于第一样本对候选语言表征模型进行训练,确定出目标语言表征模型;获取第二样本和所述第二样本对应的样本标签,基于目标语言表征模型分别得到第二样本对应的第一文本编码向量和样本标签对应的第二文本编码向量;根据第一文本编码向量和每个预设子模块的样本标签对应的第二文本编码向量,分别对每个预设子模块对应的初始子预测模型进行训练,以得到每个预设子模块对应的目标子预测模型;根据目标语言表征模型和每个目标子预测模型,确定医疗知识的问答模型。本方案能提高问答的准确性。

Description

问答模型的确定方法、问答方法、装置、介质、设备
技术领域
本公开涉及人工智能技术领域,具体而言,涉及一种问答模型的确定方法、问答模型的确定装置、问答方法、问答装置、计算机可读存储介质、以及电子设备。
背景技术
在信息化时代,通过智能问答系统可以辅助人们快速的获取到自己想要了解的信息。
相关技术中,智能问答都是基于规则配置的,会预先配置好一些关键词和其关联的答案,当输入的问题和预先配置的关键词相近时,就会输出与预先配置的关键词关联的答案。
然而,这种方式由于问答数量有限,不够灵活,所以会降低对问答的准确性,且需要人为预先去配置相关的问题和答案,效率低下。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种问答模型的确定方法及装置、问答方法及装置、计算机可读存储介质及电子设备,进而至少在一定程度上改善智能问答的准确性低且效率低下的的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供了一种问答模型的确定方法,所述问答模型用于对医疗知识的问答,包括:基于第一样本对多个候选语言表征模型进行训练,根据训练结果从所述候选语言表征模型中确定出目标语言表征模型,所述第一样本包括含有数据表的实体标识的文本和/或含有所述实体标识的同义词的文本,所述实体标识包括所述数据表的表标识和/或列标识,所述数据表用于结构化存储医疗知识;获取第二样本和所述第二样本在结构化查询语言的预设子模块中对应的样本标签,基于所述目标语言表征模型分别得到所述第二样本对应的第一文本编码向量和所述样本标签对应的第二文本编码向量,所述第二样本包括与医疗知识相关的问题描述文本,所述样本标签包括所述问题描述文本在结构化查询语言的预设子模块中对应的信息;根据所述第一文本编码向量和每个预设子模块的样本标签对应的第二文本编码向量,分别对结构化查询语言的每个预设子模块对应的初始子预测模型进行有监督学习训练,以得到结构化查询语言的每个预设子模块对应的目标子预测模型;根据所述目标语言表征模型和每个目标子预测模型,确定出用于对医疗知识进行问答的问答模型。
在本公开的一种示例性实施例中,基于前述方案,所述结构化查询语言的预设子模块包括数据来源模块、查询条件模块、查询结果聚合模块中的一种或多种,所述样本标签包括第一标签、第二标签和第三标签中的一种或多种;在所述样本标签包括第一标签时,所述第一标签包括所述问题描述文本在所述数据来源模块对应的实体信息,所述实体信息包括所述数据表的表标识和/或列标识;在所述样本标签包括第二标签时,所述第二标签包括所述问题描述文本在所述查询条件模块对应的查询条件;在所述样本标签包括第三标签时,所述第三标签包括所述问题描述文本在所述查询结果聚合模块对应的查询结果聚合方式。
在本公开的一种示例性实施例中,基于前述方案,所述根据训练结果从所述候选语言表征模型中确定出目标语言表征模型,包括:对每个候选语言表征模型进行测试,以确定出每个候选语言表征模型在预设模型评价指标中的目标测试值;从所述候选表征语言表征模型中,确定出所述目标测试值最大的候选语言表征为所述目标语言表征模型;其中,针对每个候选语言表征模型,通过以下方式确定所述候选语言表征模型在预设模型评价指标中的目标测试值:对多每个候选语言表征模型进行多次训练,在每次训练结束后,对所述候选语言表征模型进行测试,以确定出所述候选语言表征模型在预设模型评价指标中的候选测试值的变化曲线;根据所述变化曲线的最大峰值对应的测试值,确定出所述候选语言表征模型的目标测试值。
在本公开的一种示例性实施例中,基于前述方案,所述候选语言表征模型包括基于转换器的双向编码语言表征模型BERT、基于全词掩码的双向语言表征模型BERT-wwm-ext、深层语境化的词表征模型ELMO、广义自回归的语言模型XLNET中的一种或多种。
在本公开的一种示例性实施例中,基于前述方案,所述方法还包括:基于第一样本对多个候选语言表征模型进行训练,以对所述第一样本中的实体标识进行预测;在预测出的实体标识与第一样本的实体标识标签之间的相似度大于第一预设值时,确定预测出的实体标识为所述第一样本的实体标识标签的候选同义词;根据所述候选同义词更新所述第一样本,以根据更新后的所述第一样本对多个候选语言表征模型进行训练。
在本公开的一种示例性实施例中,基于前述方案,所述根据所述目标语言表征模型和每个目标子预测模型,确定出用于对医疗知识进行问答的问答模型,包括:对所述目标语言表征模型和每个目标子预测模型,以及预设的生成式预训练模型GPT进行拼接,以确定出用于对医疗知识进行问答的问答模型;其中,所述生成式预训练模型GPT用于生成与结构化查询结果对应的文本描述,所述结构化查询结果根据所述结构化查询语言对应的每个目标子预测模型的预测结果确定。
根据本公开的第三方面,提供了一种问答方法,包括:获取与医疗知识相关的待处理问题,将所述待处理问题的描述文本输入到目标语言表征模型中,以得到所述待处理问题的描述文本对应的文本编码向量;将所述文本编码向量分别输入到结构化查询语言对应的每个目标子预测模型中,以得到对结构化查询语言的每个子模块的预测结果;根据每个子模块的预测结果,查询数据表,得到所述待处理问题的描述文本对应的结构化查询结果,以根据所述结构化查询结果生成所述待处理问题对应的回答信息;
其中,所述数据表包括用于结构化存储医疗知识的数据表,所述目标语言表征模型和所述目标子预测模型根据上述第一方面所述的方法确定。
在本公开的一种示例性实施例中,基于前述方案,所述以根据所述结构化查询结果生成所述待处理问题的描述文本对应的回答信息,包括:将所述结构化查询结果输入到预设的生成式预训练模型GPT中,以得到所述结构化查询结果对应的回答信息。
根据本公开的第三方面,提供了一种问答模型的确定装置,所述问答模型用于对医疗知识的问答,所述装置包括:目标语言表征模型确定模块,被配置为基于第一样本对多个候选语言表征模型进行训练,根据训练结果从所述候选语言表征模型中确定出目标语言表征模型,所述第一样本包括含有数据表的实体标识的文本和/或含有所述实体标识的同义词的文本,所述实体标识包括所述数据表的表标识和/或列标识,所述数据表用于结构化存储医疗知识;文本编码向量生成模块,被配置为获取第二样本和所述第二样本在结构化查询语言的预设子模块中对应的样本标签,基于所述目标语言表征模型分别得到所述第二样本对应的第一文本编码向量和所述样本标签对应的第二文本编码向量,所述第二样本包括与医疗知识相关的问题描述文本,所述样本标签包括所述问题描述文本在结构化查询语言的预设子模块中对应的信息;目标子预测模型训练模块,被配置为根据所述第一文本编码向量和每个预设子模块的样本标签对应的第二文本编码向量,分别对结构化查询语言的每个预设子模块对应的初始子预测模型进行有监督学习训练,以得到结构化查询语言的每个预设子模块对应的目标子预测模型;问答模型确定模块,被配置为根据所述目标语言表征模型和每个目标子预测模型,确定出用于对医疗知识进行问答的问答模型。
根据本公开的第四方面,提供了一种问答装置,包括:待处理问题编码模块,被配置为获取与医疗知识相关的待处理问题,将所述待处理问题的描述文本输入到目标语言表征模型中,以得到所述待处理问题的描述文本对应的文本编码向量;子模块预测模块,被配置为将所述文本编码向量分别输入到结构化查询语言对应的每个目标子预测模型中,以得到对结构化查询语言的每个子模块的预测结果;回答信息生成模块,被配置为根据每个子模块的预测结果,查询数据表,得到所述待处理问题的描述文本对应的结构化查询结果,以根据所述结构化查询结果生成所述待处理问题对应的回答信息;其中,所述数据表包括用于结构化存储医疗知识的数据表,所述目标语言表征模型和所述目标子预测模型根据上述第一方面所述的方法确定。
根据本公开的第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中第一方面和/或第二方面所述的方法。
根据本公开实施例的第六方面,提供了一种电子设备,包括:处理器;以及,存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中第一方面和/或第二方面所述的方法。
由上述技术方案可知,本公开示例性实施例中的问答模型的确定方法及装置、问答方法及装置,以及实现所述问答模型的确定方法和/或问答方法的计算机可读存储介质及电子设备,至少具备以下优点和积极效果:
在本公开的一些实施例所提供的技术方案中,可以基于第一样本对多个候选语言表征模型进行训练,然后,根据训练结果确定出目标语言表征模型,其中,第一样本包括含有用于结构化存储医疗知识的数据表中的实体标识的文本和/或含有该实体标识的同义词的文本;获取第二样本和所述第二样本对应的样本标签,基于目标语言表征模型分别得到所述第二样本对应的第一文本编码向量和所述样本标签对应的第二文本编码向量;根据所述第一文本编码向量和每个预设子模块的样本标签对应的第二文本编码向量,分别对结构化查询语言的每个预设子模块对应的初始子预测模型进行有监督学习训练,以得到结构化查询语言的每个预设子模块对应的目标子预测模型;根据所述目标语言表征模型和每个目标子预测模型,确定出用于对医疗知识进行问答的问答模型。与相关技术相比,一方面,本公开基于数据表的表标识和列标识对模型进行训练,可以使得训练得到的模型准确的预测出问题中包括的表标识和列标识,进而准确的在数据表中进行数据查找,提高问答的准确性;另一方面,本公开通过将结构化查询语言拆分为不同的预设子模块,从而可以基于每个预设子模块对应的目标子预测模型同时进行结构化查询语言中的各个信息的预测,进而可以提高查询效率,避免用户长时间的等待。
本公开应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开一示例性实施例中问答模型的确定方法的流程示意图;
图2示出本公开一示例性实施例中的对多个候选语言表征模型进行训练的方法的流程示意图;
图3示出本公开一示例性实施例中的确定目标语言表征模型的方法的流程示意图;
图4示出本公开一示例性实施例中的BERT模型进行输入表达时的结构示意图;
图5示出本公开一示例性实施例中的将结构化查询语言拆分为多个预设子模块的结构示意图;
图6示出本公开一示例性实施例中的问答方法的流程示意图;
图7示出本公开一示例性实施例中的问答模型的确定装置的结构示意图;
图8示出本公开一示例性实施例中的问答装置的结构示意图;
图9示出本公开示例性实施例中电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等;用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”和“第二”等仅作为标记使用,不是对其对象的数量限制。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。
数据库存储了海量的生产资料和运营数据,不管时对于个人还是对于企业,每天都需要和数据库进行各种各样的交互。
在数据库中进行数据查询时,需要使用SQL(Structured Query Language,结构化查询语言)来进行交互,这就需要专业的工程师来进行操作。
对于非专业人员,也有查询数据库的需求。一种相关技术中,是专业人员设计基于条件筛选的界面,用户可以通过选择条件来查询相应的数据库。以医疗知识问答为例,在患者管理平台上可以基于预设规则配置一些关键词和其对应的答案。当患者输入的关键词和配置好的关键词相近时,就会输出配置好的关键词对应的答案。这种方式的灵活性较差,用户只能选择条件框中配置好的条件来进行查询,而配置好的条件毕竟是有限的,无法满足所有用户的需求,所以,对于某些用户而言,查询结果会不准确。
另一种相关技术中,可以委托相关的工程师来编写SQL语句完成查询任务,但是这种方式效率较为低下。
在本公开的实施例中,首先提供了一种问答模型的确定方法,至少在一定程度上改善上述相关技术中存在的缺陷。
图1示出本公开一示例性实施例中问答模型的确定方法的流程示意图,本实施例提供的问答模型的确定方法用于确定医疗知识的问答模型。参考图1,该方法包括:
步骤S110,基于第一样本对多个候选语言表征模型进行训练,根据训练结果从所述候选语言表征模型中确定出目标语言表征模型,所述第一样本包括含有数据表中的实体标识的文本和/或含有所述实体标识的同义词的文本,所述实体标识包括所述数据表的表标识和/或列标识,所述数据表用于结构化存储医疗知识;
步骤S120,获取第二样本和所述第二样本在结构化查询语言的预设子模块中对应的样本标签,基于所述目标语言表征模型分别得到所述第二样本对应的第一文本编码向量和所述样本标签对应的第二文本编码向量,所述第二样本包括与医疗知识相关的问题描述文本,所述样本标签包括所述问题描述文本在结构化查询语言的预设子模块中对应的信息;
步骤S130,根据所述第一文本编码向量和每个预设子模块的样本标签对应的第二文本编码向量,分别对结构化查询语言的每个预设子模块对应的初始子预测模型进行有监督学习训练,以得到结构化查询语言的每个预设子模块对应的目标子预测模型;
步骤S140,根据所述目标语言表征模型和每个目标子预测模型,确定出用于对医疗知识进行问答的问答模型。
在图1所示实施例所提供的技术方案中,可以基于第一样本对多个候选语言表征模型进行训练,然后,根据训练结果确定出目标语言表征模型,其中,第一样本包括含有用于结构化存储医疗知识的数据表中的实体标识的文本和/或含有该实体标识的同义词的文本;获取第二样本和所述第二样本对应的样本标签,基于目标语言表征模型分别得到所述第二样本对应的第一文本编码向量和所述样本标签对应的第二文本编码向量;根据所述第二样本和第二样本在结构化查询语言的每个预设子模块中对应的信息,分别对结构化查询语言的每个预设子模块对应的初始子预测模型进行有监督学习训练,以得到结构化查询语言的每个预设子模块对应的目标子预测模型;根据所述目标语言表征模型和每个目标子预测模型,确定出用于对医疗知识进行问答的问答模型。与相关技术相比,一方面,本公开基于数据表的表标识和列标识对模型进行训练,可以使得训练得到的模型准确的预测出问题中包括的表标识和列标识,进而准确的在数据表中进行数据查找,提高问答的准确性;另一方面,本公开通过将结构化查询语言拆分为不同的预设子模块,从而可以基于每个预设子模块对应的目标子预测模型同时进行结构化查询语言中的各个信息的预测,进而可以提高查询效率,避免用户长时间的等待。
以下对图1所示实施例中各个步骤的具体实施方式进行详细阐述:
在步骤S110中,基于第一样本对多个候选语言表征模型进行训练,根据训练结果从所述候选语言表征模型中确定出目标语言表征模型。
在一种示例性的实施方式中,第一样本包括含有数据表的实体标识的文本和/或含有所述实体标识的同义词的文本,所述实体标识包括所述数据表的表标识和/或列标识。其中,所述数据表用于结构化存储医疗知识。
举例而言,可以预先生成与医疗知识问答相关的数据表。例如,可以根据实际业务,将医疗知识分为疾病知识、日常护理、健康饮食、生活习惯、药品相关5个类别,每个类别分别对应一个数据表,以存储不同的疾病对应的相关信息。以疾病知识对应的疾病知识数据表为例,疾病知识数据表的结构可以如下所示:
“i.disease_name#疾病名称
ii.ICD10_code#疾病编码
iii.age#发病年龄
iv.disease_description#疾病描述
v.patients#患者量
vi.reasons#病因”
换言之,疾病知识数据表中可以包括“疾病名称、疾病编码、发病年龄、疾病描述、患者量、病因”等字段。不同的数据表之间可以通过疾病编码(如ICD10_code)作为主键进行关联。表的中文说明和表中的字段的中文说明以注释的形式存放在数据库中。
在一种示例性的实施方式中,在进行中文智能问答时,表标识可以理解为数据表的中文说明,如数据表的中文名称等,列标识可以理解为数据表中的字段的中文说明,如列的中文名称等。
在另一种示例性的实施方式中,在进行英文智能问答时,表标识可以理解为数据表的中文说明,如数据表的英文名称等,列标识可以理解为数据表中的字段的英文含义,如数据表中的列的英文名称。
在一种可选的实施方式中,可以通过医疗专业词典和近义词等词库确定出与数据表相关的实体标识的同义词,如确定出数据表的表名称和列名称的同义词,以根据包含所述表名称和/或列名称的同义词的文本生成第一样本,然后,根据第一样本对多个候选语言表征模型进行训练。
在另一种可选的实施方式中,还可以对表名称/或列名称的同义词进行补充,以根据补充后的表名称和/或列名称的同义词丰富第一样本的数量,以对第一样本进行更新,根据更新后的第一样本对多个候选语言表征模型进行训练。基于此,图2示出本公开一示例性实施例中的对多个候选语言表征模型进行训练的方法的流程示意图。参考图2,该方法可以包括步骤S210至步骤S230。其中:
在步骤S210中,基于第一样本对多个候选语言表征模型进行训练,以对所述第一样本中的实体标识进行预测。
示例性的,可以根据含有数据表的实体标识和/或含有数据表的实体标识的同义词的文本,生成第一样本。然后,根据第一样本分别对多个候选语言表征模型训练,以使得候选语言表征模型可以对第一样本中的实体标识进行预测。
接下来,在步骤S220中,在预测出的实体标识与第一样本的实体标识标签之间的相似度大于第一预设值时,确定预测出的实体标识为所述第一样本的实体标识标签的候选同义词。
在一种示例性的实施方式中,第一样本的实体标识标签包括第一样本中含有的实体标识。以第一样本是“溃疡性结肠炎饮食限制有哪些?”为例,其中,“溃疡性结肠炎、饮食”是数据表中的两个实体标识,则第一样本的实体标识标签就包括“溃疡性结肠炎”和“饮食”两个。
示例性的,对于每个候选语言表征模型而言,在候选语言表征模型预测出的第一样本中的实体标识和第一样本的实体标识标签之间的相似度大于第一预设值,可以确定预测的实体标识为第一样本的实体标识标签的候选同义词。其中,第一预设值可以根据需求进行自定义,如90%等,本示例性实施方式对此不做特殊限定。
接下来,在步骤S230中,根据所述候选同义词更新所述第一样本,以根据更新后的所述第一样本对多个候选语言表征模型进行训练。
举例而言,可以人工判断第一样本中是否包括含有候选同义词的文本,或者通过字符匹配的方式确定第一样本中是否包括含有候选同义词的文本。在第一样本中不包括含有候选同义词的文本时,将含有候选同义词的文本添加到第一样本中,以更新第一样本,然后根据更新后的第一样本分别对多个候选语言表征模型进行训练。
通过上述的步骤S210至步骤S230,可以实现实体对齐,以扩充第一样本,提高第一样本的多样性,从而可以使得训练后的候选语言表征模型可以准确的识别出数据表的实体标识和实体标识的近义词,提高候选语言表征模型对数据表的实体标识进行识别的准确性和全面性。
在一种示例性的实施方式中,候选语言表征模型包括基于转换器的双向编码语言表征模型BERT、基于全词掩码的双向语言表征模型BERT-wwm-ext、深层语境化的词表征模型ELMO、广义自回归的语言模型XLNET中的一种或多种。
其中,BERT(Bidirectional Encoder Representation from Transformers,基于转换器的双向编码表示),它是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的MLM(masked language model,掩码语言模型)以致能生成深度的双向语言表征。MLM是BERT能够不受单向语言模型所限制的原因,具体的,就是以一定的概率用mask符号[Mask]随机地对每一个训练序列中的字符进行替换,然后预测出[Mask]位置原有的单词。
BERT-wwm-ext是一种中文预训练语言模型,是基于BERT-wwm(BidirectionalEncoder Representation from Transformers-Whole Word Masking,全词掩码的基于转换器的双向编码表示)的一种改进模型。而BERT-wwm又是BERT的改进模型,BERT-wwm相比于Bert的改进是用Mask标签替换一个完整的词而不是子词,中文和英文不同,英文中最小的Token(符号)就是一个单词,而中文中最小的Token却是字,词是由一个或多个字组成,且每个词之间没有明显的分隔,包含更多信息的是词,全词Mask就是对整个词都通过Mask进行掩码。BERT-wwm-ext相比于BERT-wwm的改进是增加了训练数据集同时也增加了训练步数。BERT-wwm-ext采用了与BERT和BERT-wwm一样的模型结构。
ELMO的英文全称是Embeddings from Language Models,ELMO也是一个预训练的语言表征模型,其是一种深层语境化的词表示(Deep contextualized wordrepresentations)。当给出一句话时,模型会根据上下文,即语境,来判断每个词对应的词向量,最后输出。
BERT可以很好地建模双向语境信息,性能优于基于自回归语言模型的预训练方法。然而,BERT由于需要mask一部分输入,其忽略了被mask位置之间的依赖关系,因此出现预训练和微调效果的差异。
而XLNET(Generalized Autoregressive Pretraining for LanguageUnderstanding,语言理解的广义自回归预训练)是一种广义的自回归预训练方法。XLNet通过最大化所有可能的因式分解顺序的对数似然,学习双向语境信息。同时,用自回归本身的特点克服BERT的缺点。
举例而言,上述的BERT、BERT-wwm-ext、ELMO、XLNET虽然都是预训练的语言表征模型,但其不一定适用于医疗知识问答业务。所以,可以通过第一样本对上述的BERT、BERT-wwm-ext、ELMO、XLNET分别进行训练,以对模型参数进行微调,使预训练的语言表征模型可以适应医疗知识问答业务。对多个候选语言表征模型进行参数微调后,可以从多个候选语言表征模型中,选择出医疗知识数据表的实体的识别准确率最高的候选语言表征模型,并将其作为目标语言表征模型。这样,就可以根据目标语言表征模型对智能问答中的问题描述文本进行实体识别,以根据实体识别结果,在数据表中查询对应的数据,从而实现医疗知识的智能问答。
示例性的,图3示出本公开一示例性实施例中的确定目标语言表征模型的方法的流程示意图。参考图3,该方法可以包括步骤S310至步骤S320。其中:
在步骤S310中,对每个候选语言表征模型进行测试,以确定出每个候选语言表征模型在预设模型评价指标中的目标测试值。
在一种示例性的实施方式中,预设模型评价指标可以根据需求进行自定义,如可以为模型的预测准确度等。
示例性的,针对每个候选语言表征模型,通过以下方式确定出该候选语言表征模型在预设模型评价指标中的目标测试值:对多每个候选语言表征模型进行多次训练,在每次训练结束后,对所述候选语言表征模型进行测试,以确定出所述候选语言表征模型在预设模型评价指标中的候选测试值的变化曲线;根据所述变化曲线的最大峰值对应的测试值,确定出所述候选语言表征模型的目标测试值。
举例而言,可以根据第一样本对每个候选语言表征模型进行多次训练,每次训练结束后都可以根据测试数据集对模型训练结果进行测试,以得到预设模型评价指标的测试值。以预设模型评价指标为模型的准确度为例,经过多次训练后,模型的准确度会达到一个最大值,如果继续训练,模型的准确度不但不会提高,反而可能会因为过拟合而下降。所以,可以将每个模型在训练后得到的最大准确度确定为该模型的目标测试值。
接下来,在步骤S320中,从所述候选表征语言表征模型中,确定出所述目标测试值最大的候选语言表征为所述目标语言表征模型。
得到每个候选语言表征模型的目标测试值后,可以对目标测试值进行降序排序,将目标测试值最大的候选语言表征模型确定为目标语言表征模型。
通过上述的步骤S310至步骤S320,可以从多个候选语言表征模型中确定出可以对存储医疗知识的数据表的实体进行准确预测的目标语言表征模型。进而可以基于目标语言表征模型对智能问答中的文本进行编码表示,以进行后续的训练和最终的智能问答。
接下来,继续参考图1,在步骤S120中,获取第二样本和所述第二样本在结构化查询语言的预设子模块中对应的样本标签,基于所述目标语言表征模型分别得到所述第二样本对应的第一文本编码向量和所述样本标签对应的第二文本编码向量。
在本公开中,对于中文的医疗知识智能问答而言,通过第一样本对多个候选语言表征模型进行训练后发现,BERT-wwm-ext的测试准确度最高,所以最终选择BERT-wwm-ext为中文的医疗知识问答中的目标语言表征模型。
BERT-wwm-ext模型的输入表达和BERT模型的输入表达相同,二者的不同之处仅在于BERT是对于英文而言的,其采用wordPiece(wordPiece字面理解就是把单词拆分成一块一块的,即把单词的本身的意思和时态分开)对英文进行分词,而BERT-wwm-ext模型是对中文而言的,所以其是采用字划分中文语句的。所以,BERT-wwm-ext模型对输入进行表达的架构可以参考图4中的BERT模型对输入进行表达的架构。参考图4,BERT的输入表达分为3个部分,分别是Token embeddings层(词向量嵌入)、Segment embeddings层(分段嵌入)、position embeddings层(位置嵌入)。
其中,Token Embeddings层就是将词向量化,在BERT中就是转化为768维的向量,同时两个特殊的token会被嵌入词向量,即开头(CLS)和结尾(SEP),CLS是为文本分类任务服务的,SEP是为划分句子对服务。比如“我爱中国”会被转化为【CLS】我爱中国【SEP】这个(6,768)的向量,在考虑批量处理(batch_size)的情况下,则会输出(1,6,768)维度的张量。
BERT能够处理对句子对的分类任务,输入时我们将句子对拼接成文本序列,在分类时我们可以根据Segment embeddings层对文本序列进行分句。比如,输入句子对(“我爱祖国”,“我爱大自然”),首先将句子对拼接作为输入:我爱祖国我爱大自然,加入特殊标记位之后生成:【CLS】我爱祖国【SEP】我爱大自然【SEP】,其对应的表达为0 0 0 0 0 0 1 1 11 1 1。Segment embeddings层只有两种向量表示,即0和1,若只有一条语句,则Segmentembeddings层全为0,在考虑batch_size的情况下,Segment embeddings也是一个(1,N,768)维的张量。
通常情况下,Tranformer(转换器)无法编码文本的顺序性,但是在某些场景中顺序是很重要的信息,比如“我让他还钱”和“他让我还钱”表达的完全是两种含义,Positionembeddings层的目的就是让模型学习到文本的顺序属性。在考虑batch_size时,Positionembeddings层也是一个(1,N,768)维的张量。
得到上述的3个部分对应的嵌入向量的结果后,直接按元素相加,就可以得到BERT编码的input embeddings(输入嵌入)。
如前所述,在本公开中,选择BERT-wwm-ext为中文的医疗知识问答中的目标语言表征模型。所以,可以基于BERT-wwm-ext通过图4所示的3个部分对第二样本和第二样本在结构化查询语言的预设子模块中对应的样本标签分别编码,以分别对应的得到第一文本编码向量和第二文本编码向量。
在一种示例性的实施方式中,第二样本包括与医疗知识相关的问题描述文本,所述样本标签包括所述问题描述文本在结构化查询语言的预设子模块中对应的信息。
在一种示例性的实施方式中,结构化查询语言的预设子模块包括数据来源模块、查询条件模块、查询结果聚合模块中的一种或多种。
基于此,所述样本标签包括第一标签、第二标签和第三标签中的一种或多种。第一标签为所述数据来源模块对应的样本标签,第二标签为所述查询条件模块对应的样本标签、第三标签为所述查询结构聚合模块对应的样本标签。对应的,第二文本编码向量包括第一标签对应的文本编码向量、第二标签对应的文本编码向量、第三标签对应的文本编码向量中的一种或多种。
其中,在所述样本标签包括第一标签时,所述第一标签包括所述问题描述文本在所述数据来源模块对应的实体信息,所述实体信息包括所述数据表的表标识和/或列标识;在所述样本标签包括第二标签时,所述第二标签包括所述问题描述文本在所述查询条件模块对应的查询条件;在所述样本标签包括第三标签时,所述第三标签包括所述问题描述文本在所述查询结果聚合模块对应的查询结果聚合方式。
换言之,第一标签为问题描述文本在数据来源模块中对应的信息,如第一标签为问题描述文本中包括的表标识和/或列标识;第二标签为问题描述文本在查询条件模块对应的信息,如第二标签为问题描述文本中包括的每个表标识和/或列标识对应的查询条件;第三标签为问题描述文本在查询结果聚合模块中对应的信息,如第三标签为问题描述文本中包括的每个表标识和/或列标识的查询结果聚合方式。
在一种示例性的实施方式中,数据来源模块可以理解为SQL语言中的列选择部分,其可以表征SELECT选择的列,即在哪个数据表的哪个列中查询数据。查询条件模块可以理解为SQL语言中的WHERE子句中的查询条件,其可以表征根据什么样的条件在SELECT选择的列中进行查询。查询结果聚合模块可以理解为SELECT子句的聚合操作,其可以表征对最终的查询结果以什么样的方式进行展示,如取各查询结果的平均值对各查询结果进行聚合,然后展示聚合后的结果等。
举例而言,可以将SQL拆分为不同的子模块,比如SELECT、WHERE等,然后利用多任务的方式对每个子模块进行训练。这样,在后续的智能问答中,每个子模块可以单独进行预测。即每个子模块可以分别对SELECT选择的列,WHERE子句中条件以及SELECT子句的聚合操作进行预测。不仅可以保证SQL语法的准确性,还可以提高查询速度,进而提升智能问答的效率。
示例性的,图5示出本公开一示例性实施例中的将结构化查询语言拆分为多个预设子模块的结构示意图。参考图5,自然语言问题中的结构化查询语言可以被拆分为图5中的SELECT Column模块51、WHERE模块52和SELECT Aggregator模块53。其中,SELECT Column模块51可以理解对SQL中的SELECT选择的列进行预测,WHERE模块52可以对SQL中的WHERE子句中的条件进行预测、SELECT Aggregator模块53可以对SQL中的SELECT子句中的聚合操作方式进行预测。
WHERE子条件确定模块52可以分别对SELECT选择的每个列的查询条件进行预测,进而可以根据不同的列的查询条件,得到不同的列对应的查询结果。如在图5中,对Column1(列1)执行OP1查询条件,得到对应的查询结果VALUE1、对Columnn(列n)执行OP2查询条件,得到对应的查询结果VALUEn。
接下来,继续参考图1,在步骤S130中,根据所述第一文本编码向量和每个预设子模块的样本标签对应的第二文本编码向量,分别对结构化查询语言的每个预设子模块对应的初始子预测模型进行有监督学习训练,以得到结构化查询语言的每个预设子模块对应的目标子预测模型。
在一种示例性的实施方式中,初始子预测模型包括初始自注意力模型,当然,初始子预测模型也可以是其它的能够衡量输入和各候选匹配项之间的相似度的模型,本示例性实施方式对此不做特殊限定。
举例而言,可以根据第一文本编码向量和第一标签对应的文本编码向量,对数据来源模块对应的第一初始子预测模型进行有监督学习训练,以得到数据来源模块对应的第一目标预测子模型;可以根据第一文本编码向量和第二标签对应的文本编码向量,对查询条件模块对应的第二初始子预测模型进行有监督学习训练,以得到查询条件模块对应的第二目标预测子模型;可以根据第一文本编码向量和第三标签对应的文本编码向量,对查询结果聚合模块对应的第三初始子预测模型进行有监督学习训练,以得到查询结果聚合模块对应的第三目标子预测模型。
其中,对数据来源模块对应的初始子预测模型进行有监督学习训练的目的是,使得该模块对应的目标子预测模型可以在数据表中找到与输入的问题描述文本最相关的表标识和列标识。对查询条件模块对应的初始子预测模型进行有监督学习训练的目的是,使得该模块对应的目标子预测模型可以识别出输入问题中的查询条件。对查询结果聚合模块对应的初始子预测模型进行有监督学习训练的目的是,使得该模块对应的目标子预测模型可以从预设的查询结果聚合方式中,找到与输入问题中的查询结果聚合方式最相似的查询结果聚合方式。
接下来,在步骤S140中,根据所述目标语言表征模型和每个目标子预测模型,确定出用于对医疗知识进行问答的问答模型。
示例性的,步骤S140的实施具体实施方式可以是:对所述目标语言表征模型和每个目标子预测模型,以及预设的生成式预训练模型GPT进行拼接,以确定出用于对医疗知识进行问答的问答模型。
其中,所述生成式预训练模型GPT用于生成与结构化查询结果对应的文本描述,所述结构化查询结果根据所述结构化查询语言对应的每个目标子预测模型的预测结果确定。
在一种示例性的实施方式中,预设的GPT模型可以包括基于与医疗知识问答相关的训练样本,对预训练的GPT模型进行微调训练后得到的GPT模型。
举例而言,可以根据目标语言表征模型、目标子预测模型、预设的GPT模型的顺序对各个模型进行拼接,以生成用于对医疗知识进行问答的问答模型。其中,在目标子预设模型包括上述的第一目标子预测模型、第二目标子预测模型、第三目标子预测模型中的多个时,每个目标子预测模型的拼接顺序并列。
在进行与医疗知识相关的问答时,通过每个目标子预测模型的预测结果可以得到与输入的问题描述文本对应的结构化查询语句,基于结构化查询语句可以得到结构化的查询结果。其中,结构化查询结果可以理解为以键值对的形式表征输入问题的查询结果。如得到的结构化查询结果可以是A病注意事项:不要吸烟。在得到结构化查询结果后,可以基于预设的GPT(Generative Pre-Training Model,生成式预训练模型)模型,生成该结构化查询结果对应的文本描述。如得到结构化查询结果“A病的注意事项:不要吸烟”对应的文本描述“A病请注意不要吸烟”。
当然,也可以通过其他的预训练模型生成结构化查询结果对应的文本描述,本示例性实施方式对此不做特殊限定。
进一步的,图6示出本公开一示例性实施例中的基于本公开的问答模型确定方法确定出的问答模型,进行医疗知识问答的问答方法的流程示意图。参考图6,该方法可以包括步骤S610至步骤S630。其中:
在步骤S610中,获取与医疗知识相关的待处理问题,将所述待处理问题的描述文本输入到目标语言表征模型中,以得到所述待处理问题的描述文本对应的文本编码向量;
在步骤S620中,将所述文本编码向量分别输入到结构化查询语言对应的每个目标子预测模型中,以得到对结构化查询语言的每个子模块的预测结果;
在步骤S630中,根据每个子模块的预测结果,查询数据表,得到所述待处理问题描述文本对应的结构化查询结果,以根据所述结构化查询结果生成所述待处理问题对应的回答信息。
其中,所述数据表包括用于结构化存储医疗知识的数据表,所述目标语言表征模型和所述目标子预测模型包括基于上述的问答模型的确定方法而得到的目标语言表征模型和目标子预测模型。
示例性的,根据所述结构化查询结果生成所述待处理问题的描述文本对应的回答信息,包括:将所述结构化查询结果输入到预设的生成式预训练模型GPT中,以得到所述结构化查询结果对应的回答信息。
举例而言,可以将待处理问题的描述文本输入到目标语言表征模型中,以得到待处理问答的描述文本对应的第三文本编码向量。可以将数据表的表标识和列标识也输入到目标语言表征模型中,以得到数据表的表标识和列标识对应的第四文本编码向量,将预设查询条件的文本描述也输入到目标语言表征模型中,得到其对应的第五文本编码向量,将预设的查询结果聚合方式的文本描述也输入到目标语言表征模型中,以得到其对应第六文本编码向量。
然后,以多任务并行的方式,同时基于上述的第一目标子预测模型找到与第三文本编码向量最相似的第四文本编码向量,基于上述的第二目标子预测模型找到与第三文本编码向量最相似的第五文本编码向量,基于上述的第三目标子预测模型找到与第三文本编码向量最相似的第六文本编码向量,从而得到结构化查询语言的每个子模块的预测结果。
接下来,根据每个子模块的预测结果,生成待处理问题对应的结构化查询语句,然后执行该结构化查询语句对应的脚本,以根据该结构化查询语句在医疗知识数据库的数据表中进行查询,得到结构化的查询结果。再将结构化的查询结果输入到预设的GPT模型中,以得到结构化查询结果对应的文本描述,输出该文本描述,以得到待处理问题的回答信息。
需要说明的是,本公开的问答方法可以应用于单轮问答场景,也可以用于多轮问答场景。其中,单轮问答场景假设问题之间无依赖关系,举例如下:问题1:溃疡性结肠炎饮食限制有哪些?答案1:处于症状缓解期的患者,只要饮食均衡即可,不需要严格的饮食控制。问题2:溃疡性结肠炎是否需要戒烟戒酒?答案2:吸烟对溃疡性结肠炎无明显不良影响,但鉴于对呼吸器官和循环器官的影响,应尽量避免。多轮问答场景假设问题之间存在依赖关系,举例如下:问题1:溃疡性结肠炎饮食限制有哪些?答案1:处于症状缓解期的患者,只要只要饮食均衡即可,不需要严格的饮食控制。问题2:是否需要戒烟戒酒?答案2:吸烟对溃疡性结肠炎无明显不良影响,但鉴于对呼吸器官和循环器官的影响,应尽量避免。可以看到问题2实际上依赖问题1中的溃疡性结肠炎。
示例性的,对于多轮问答场景而言,可以基于共指消歧技术识别出待处理问题中指代性词语对应的表标识和列标识,从而实现多轮问答。
本公开的问答模型的确定方法和问答方法,通过将结构化查询语言拆分,以多任务并行的方式可以自动的预测出输入问答的结构化查询语句,了解用户的真实意图,提高查询准确性的同时,也提高了查询效率,缩短了用户获取信息的时间,提升了用户体验。
本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本发明提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本发明示例性实施方式的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
图7示出本公开示例性实施例中的问答模型的确定装置的结构示意图。参考图7,该问答模型的确定装置700可以包括目标语言表征模型确定模块710、文本编码向量生成模块720、目标子预测模型训练模块730、以及问答模型确定模块。其中:
目标语言表征模型确定模块710,被配置为基于第一样本对多个候选语言表征模型进行训练,根据训练结果从所述候选语言表征模型中确定出目标语言表征模型,所述第一样本包括含有数据表的实体标识的文本和/或含有所述实体标识的同义词的文本,所述实体标识包括所述数据表的表标识和/或列标识,所述数据表用于结构化存储医疗知识;
文本编码向量生成模块720,被配置为获取第二样本和所述第二样本在结构化查询语言的预设子模块中对应的样本标签,基于所述目标语言表征模型分别得到所述第二样本对应的第一文本编码向量和所述样本标签对应的第二文本编码向量,所述第二样本包括与医疗知识相关的问题描述文本,所述样本标签包括所述问题描述文本在结构化查询语言的预设子模块中对应的信息;
目标子预测模型训练模块730,被配置为根据所述第一文本编码向量和每个预设子模块的样本标签对应的第二文本编码向量,分别对结构化查询语言的每个预设子模块对应的初始子预测模型进行有监督学习训练,以得到结构化查询语言的每个预设子模块对应的目标子预测模型;
问答模型确定模块740,被配置为根据所述目标语言表征模型和每个目标子预测模型,确定出用于对医疗知识进行问答的问答模型。
在本公开的一些示例性实施例中,基于前述实施例,所述结构化查询语言的预设子模块包括数据来源模块、查询条件模块、查询结果聚合模块中的一种或多种,所述样本标签包括第一标签、第二标签和第三标签中的一种或多种;在所述样本标签包括第一标签时,所述第一标签包括所述问题描述文本在所述数据来源模块对应的实体信息,所述实体信息包括所述数据表的表标识和/或列标识;在所述样本标签包括第二标签时,所述第二标签包括所述问题描述文本在所述查询条件模块对应的查询条件;在所述样本标签包括第三标签时,所述第三标签包括所述问题描述文本在所述查询结果聚合模块对应的查询结果聚合方式。
在本公开的一些示例性实施例中,基于前述实施例,目标语言表征模型确定模块710还可以被具体配置为:对每个候选语言表征模型进行测试,以确定出每个候选语言表征模型在预设模型评价指标中的目标测试值;从所述候选表征语言表征模型中,确定出所述目标测试值最大的候选语言表征为所述目标语言表征模型。
其中,针对每个候选语言表征模型,通过以下方式确定所述候选语言表征模型在预设模型评价指标中的目标测试值:对多每个候选语言表征模型进行多次训练,在每次训练结束后,对所述候选语言表征模型进行测试,以确定出所述候选语言表征模型在预设模型评价指标中的候选测试值的变化曲线;根据所述变化曲线的最大峰值对应的测试值,确定出所述候选语言表征模型的目标测试值。
在本公开的一些示例性实施例中,基于前述实施例,所述候选语言表征模型包括基于转换器的双向编码语言表征模型BERT、基于全词掩码的双向语言表征模型BERT-wwm-ext、深层语境化的词表征模型ELMO、广义自回归的语言模型XLNET中的一种或多种。
在本公开的一些示例性实施例中,基于前述实施例,所述装置还包括第一样本更新模块,该模型可以被配置为:基于第一样本对多个候选语言表征模型进行训练,以对所述第一样本中的实体标识进行预测;在预测出的实体标识与第一样本的实体标识标签之间的相似度大于第一预设值时,确定预测出的实体标识为所述第一样本的实体标识标签的候选同义词;根据所述候选同义词更新所述第一样本,以根据更新后的所述第一样本对多个候选语言表征模型进行训练。
在本公开的一些示例性实施例中,基于前述实施例,所述问答模型确定模块740还可以被具体配置为:对所述目标语言表征模型和每个目标子预测模型,以及预设的生成式预训练模型GPT进行拼接,以确定出用于对医疗知识进行问答的问答模型;其中,所述生成式预训练模型GPT用于生成与结构化查询结果对应的文本描述,所述结构化查询结果根据所述结构化查询语言对应的每个目标子预测模型的预测结果确定。
图8示出本公开示例性实施例中的问答装置的结构示意图。参考图8,该问答装置800可以包括待处理问题编码模块810、子模块预测模块820、回答信息生成模块830。其中:
待处理问题编码模块810,被配置为获取与医疗知识相关的待处理问题,将所述待处理问题的描述文本输入到目标语言表征模型中,以得到所述待处理问题的描述文本对应的文本编码向量;
子模块预测模块820,被配置为将所述文本编码向量分别输入到结构化查询语言对应的每个目标子预测模型中,以得到对结构化查询语言的每个子模块的预测结果;
回答信息生成模块830,被配置为根据每个子模块的预测结果,查询数据表,得到所述待处理问题的描述文本对应的结构化查询结果,以根据所述结构化查询结果生成所述待处理问题对应的回答信息;
其中,所述数据表包括用于结构化存储医疗知识的数据表,所述目标语言表征模型和所述目标子预测模型根上述的问答模型确定方法确定。
在本公开的一些示例性实施例中,基于前述实施例,上述的回答信息生成模块830还可以被具体配置为:将所述结构化查询结果输入到预设的生成式预训练模型GPT中,以得到所述结构化查询结果对应的回答信息。
上述问答模型的确定装置和问答装置中各单元的具体细节已经在对应的方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
在本公开示例性实施方式中,还提供了一种能够实现上述方法的计算机存储介质。其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
根据本公开的实施方式的用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图9来描述根据本公开的这种实施方式的电子设备900。图9显示的电子设备900仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图9所示,电子设备900以通用计算设备的形式表现。电子设备900的组件可以包括但不限于:上述至少一个处理单元910、上述至少一个存储单元920、连接不同系统组件(包括存储单元920和处理单元910)的总线930以及显示单元940。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元910执行,使得所述处理单元910执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元910可以执行上述的问答模型的确定方法和/或问答方法。
存储单元920可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)9201和/或高速缓存存储单元9202,还可以进一步包括只读存储单元(ROM)9203。
存储单元920还可以包括具有一组(至少一个)程序模块9205的程序/实用工具9204,这样的程序模块9205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线930可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备900也可以与一个或多个外部设备1000(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备900交互的设备通信,和/或与使得该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口950进行。并且,电子设备900还可以通过网络适配器960与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器960通过总线930与电子设备900的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备900使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

Claims (12)

1.一种问答模型的确定方法,所述问答模型用于对医疗知识的问答,其特征在于,所述方法包括:
基于第一样本对多个候选语言表征模型进行训练,根据训练结果从所述候选语言表征模型中确定出目标语言表征模型,所述第一样本包括含有数据表的实体标识的文本和/或含有所述实体标识的同义词的文本,所述实体标识包括所述数据表的表标识和/或列标识,所述数据表用于结构化存储医疗知识;
获取第二样本和所述第二样本在结构化查询语言的预设子模块中对应的样本标签,基于所述目标语言表征模型分别得到所述第二样本对应的第一文本编码向量和所述样本标签对应的第二文本编码向量,所述第二样本包括与医疗知识相关的问题描述文本,所述样本标签包括所述问题描述文本在结构化查询语言的预设子模块中对应的信息;
根据所述第一文本编码向量和每个预设子模块的样本标签对应的第二文本编码向量,分别对结构化查询语言的每个预设子模块对应的初始子预测模型进行有监督学习训练,以得到结构化查询语言的每个预设子模块对应的目标子预测模型;
根据所述目标语言表征模型和每个目标子预测模型,确定出用于对医疗知识进行问答的问答模型。
2.根据权利要求1所述的问答模型的确定方法,其特征在于,所述结构化查询语言的预设子模块包括数据来源模块、查询条件模块、查询结果聚合模块中的一种或多种,所述样本标签包括第一标签、第二标签和第三标签中的一种或多种;
在所述样本标签包括第一标签时,所述第一标签包括所述问题描述文本在所述数据来源模块对应的实体信息,所述实体信息包括所述数据表的表标识和/或列标识;
在所述样本标签包括第二标签时,所述第二标签包括所述问题描述文本在所述查询条件模块对应的查询条件;
在所述样本标签包括第三标签时,所述第三标签包括所述问题描述文本在所述查询结果聚合模块对应的查询结果聚合方式。
3.根据权利要求1所述的问答模型的确定方法,其特征在于,所述根据训练结果从所述候选语言表征模型中确定出目标语言表征模型,包括:
对每个候选语言表征模型进行测试,以确定出每个候选语言表征模型在预设模型评价指标中的目标测试值;
从所述候选表征语言表征模型中,确定出所述目标测试值最大的候选语言表征为所述目标语言表征模型;
其中,针对每个候选语言表征模型,通过以下方式确定所述候选语言表征模型在预设模型评价指标中的目标测试值:
对多每个候选语言表征模型进行多次训练,在每次训练结束后,对所述候选语言表征模型进行测试,以确定出所述候选语言表征模型在预设模型评价指标中的候选测试值的变化曲线;
根据所述变化曲线的最大峰值对应的测试值,确定出所述候选语言表征模型的目标测试值。
4.根据权利要求1所述的问答模型的确定方法,其特征在于,所述候选语言表征模型包括基于转换器的双向编码语言表征模型BERT、基于全词掩码的双向语言表征模型BERT-wwm-ext、深层语境化的词表征模型ELMO、广义自回归的语言模型XLNET中的一种或多种。
5.根据权利要求1所述的问答模型的确定方法,所述方法还包括:
基于第一样本对多个候选语言表征模型进行训练,以对所述第一样本中的实体标识进行预测;
在预测出的实体标识与第一样本的实体标识标签之间的相似度大于第一预设值时,确定预测出的实体标识为所述第一样本的实体标识标签的候选同义词;
根据所述候选同义词更新所述第一样本,以根据更新后的所述第一样本对多个候选语言表征模型进行训练。
6.根据权利要求1所述的问答模型的确定方法,其特征在于,所述根据所述目标语言表征模型和每个目标子预测模型,确定出用于对医疗知识进行问答的问答模型,包括:
对所述目标语言表征模型和每个目标子预测模型,以及预设的生成式预训练模型GPT进行拼接,以确定出用于对医疗知识进行问答的问答模型;
其中,所述生成式预训练模型GPT用于生成与结构化查询结果对应的文本描述,所述结构化查询结果根据所述结构化查询语言对应的每个目标子预测模型的预测结果确定。
7.一种问答方法,其特征在于,包括:
获取与医疗知识相关的待处理问题,将所述待处理问题的描述文本输入到目标语言表征模型中,以得到所述待处理问题的描述文本对应的文本编码向量;
将所述文本编码向量分别输入到结构化查询语言对应的每个目标子预测模型中,以得到对结构化查询语言的每个子模块的预测结果;
根据每个子模块的预测结果,查询数据表,得到所述待处理问题的描述文本对应的结构化查询结果,以根据所述结构化查询结果生成所述待处理问题对应的回答信息;
其中,所述数据表包括用于结构化存储医疗知识的数据表,所述目标语言表征模型和所述目标子预测模型根据权利要求1至6中任一项所述的方法确定。
8.根据权利要求7所述的问答方法,其特征在于,所述以根据所述结构化查询结果生成所述待处理问题的描述文本对应的回答信息,包括:
将所述结构化查询结果输入到预设的生成式预训练模型GPT中,以得到所述结构化查询结果对应的回答信息。
9.一种问答模型的确定装置,所述问答模型用于对医疗知识的问答,其特征在于,所述装置包括:
目标语言表征模型确定模块,被配置为基于第一样本对多个候选语言表征模型进行训练,根据训练结果从所述候选语言表征模型中确定出目标语言表征模型,所述第一样本包括含有数据表的实体标识的文本和/或含有所述实体标识的同义词的文本,所述实体标识包括所述数据表的表标识和/或列标识,所述数据表用于结构化存储医疗知识;
文本编码向量生成模块,被配置为获取第二样本和所述第二样本在结构化查询语言的预设子模块中对应的样本标签,基于所述目标语言表征模型分别得到所述第二样本对应的第一文本编码向量和所述样本标签对应的第二文本编码向量,所述第二样本包括与医疗知识相关的问题描述文本,所述样本标签包括所述问题描述文本在结构化查询语言的预设子模块中对应的信息;
目标子预测模型训练模块,被配置为根据所述第一文本编码向量和每个预设子模块的样本标签对应的第二文本编码向量,分别对结构化查询语言的每个预设子模块对应的初始子预测模型进行有监督学习训练,以得到结构化查询语言的每个预设子模块对应的目标子预测模型;
问答模型确定模块,被配置为根据所述目标语言表征模型和每个目标子预测模型,确定出用于对医疗知识进行问答的问答模型。
10.一种问答装置,其特征在于,包括:
待处理问题编码模块,被配置为获取与医疗知识相关的待处理问题,将所述待处理问题的描述文本输入到目标语言表征模型中,以得到所述待处理问题的描述文本对应的文本编码向量;
子模块预测模块,被配置为将所述文本编码向量分别输入到结构化查询语言对应的每个目标子预测模型中,以得到对结构化查询语言的每个子模块的预测结果;
回答信息生成模块,被配置为根据每个子模块的预测结果,查询数据表,得到所述待处理问题的描述文本对应的结构化查询结果,以根据所述结构化查询结果生成所述待处理问题对应的回答信息;
其中,所述数据表包括用于结构化存储医疗知识的数据表,所述目标语言表征模型和所述目标子预测模型根据权利要求1至6中任一项所述的方法确定。
11.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至8中任一项所述的方法。
12.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至8中任一项所述的方法。
CN202210500609.XA 2022-05-09 2022-05-09 问答模型的确定方法、问答方法、装置、介质、设备 Withdrawn CN114780703A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210500609.XA CN114780703A (zh) 2022-05-09 2022-05-09 问答模型的确定方法、问答方法、装置、介质、设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210500609.XA CN114780703A (zh) 2022-05-09 2022-05-09 问答模型的确定方法、问答方法、装置、介质、设备

Publications (1)

Publication Number Publication Date
CN114780703A true CN114780703A (zh) 2022-07-22

Family

ID=82437007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210500609.XA Withdrawn CN114780703A (zh) 2022-05-09 2022-05-09 问答模型的确定方法、问答方法、装置、介质、设备

Country Status (1)

Country Link
CN (1) CN114780703A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115062134A (zh) * 2022-08-17 2022-09-16 腾讯科技(深圳)有限公司 知识问答模型训练及知识问答方法、装置和计算机设备
CN115146049A (zh) * 2022-09-01 2022-10-04 科大讯飞(苏州)科技有限公司 问答检索方法、模型训练方法及装置、设备和存储介质
CN116028605A (zh) * 2023-01-03 2023-04-28 北京百度网讯科技有限公司 逻辑表达式生成方法、模型训练方法、装置及介质
CN116227603A (zh) * 2023-05-10 2023-06-06 山东财经大学 一种事件推理任务的处理方法、设备及介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115062134A (zh) * 2022-08-17 2022-09-16 腾讯科技(深圳)有限公司 知识问答模型训练及知识问答方法、装置和计算机设备
CN115146049A (zh) * 2022-09-01 2022-10-04 科大讯飞(苏州)科技有限公司 问答检索方法、模型训练方法及装置、设备和存储介质
CN116028605A (zh) * 2023-01-03 2023-04-28 北京百度网讯科技有限公司 逻辑表达式生成方法、模型训练方法、装置及介质
CN116028605B (zh) * 2023-01-03 2023-11-14 北京百度网讯科技有限公司 逻辑表达式生成方法、模型训练方法、装置及介质
CN116227603A (zh) * 2023-05-10 2023-06-06 山东财经大学 一种事件推理任务的处理方法、设备及介质

Similar Documents

Publication Publication Date Title
CN111090987B (zh) 用于输出信息的方法和装置
EP4060565A1 (en) Method and apparatus for acquiring pre-trained model
CN109145294B (zh) 文本实体识别方法及装置、电子设备、存储介质
CN113205817B (zh) 语音语义识别方法、系统、设备及介质
CN114780703A (zh) 问答模型的确定方法、问答方法、装置、介质、设备
CN110727779A (zh) 基于多模型融合的问答方法及系统
Mei et al. Automated audio captioning: An overview of recent progress and new challenges
CN112712804A (zh) 语音识别方法、系统、介质、计算机设备、终端及应用
CN110795552A (zh) 一种训练样本生成方法、装置、电子设备及存储介质
CN110334186B (zh) 数据查询方法、装置、计算机设备及计算机可读存储介质
CN111625634A (zh) 词槽识别方法及装置、计算机可读存储介质、电子设备
CN110517767B (zh) 辅助诊断方法、装置、电子设备及存储介质
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN111651569B (zh) 一种电力领域的知识库问答方法及系统
CN115759254A (zh) 基于知识增强生成式语言模型的问答方法、系统及介质
CN112036186A (zh) 语料标注方法、装置、计算机存储介质及电子设备
CN112599211B (zh) 一种医疗实体关系抽取方法及装置
CN117725211A (zh) 一种基于自构建提示模板的文本分类方法和系统
CN113705207A (zh) 语法错误识别方法及装置
CN112100360A (zh) 一种基于向量检索的对话应答方法、装置和系统
CN111782781A (zh) 一种语义分析方法、装置、计算机设备及存储介质
CN115081452B (zh) 一种实体关系的抽取方法
CN116090471A (zh) 多任务模型预训练方法及装置、存储介质、电子设备
CN114936564A (zh) 一种基于对齐变分自编码的多语言语义匹配方法及系统
CN114443818A (zh) 一种对话式知识库问答实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20220722

WW01 Invention patent application withdrawn after publication