CN114861639A - 提问信息生成方法、装置、电子设备及存储介质 - Google Patents
提问信息生成方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114861639A CN114861639A CN202210582333.4A CN202210582333A CN114861639A CN 114861639 A CN114861639 A CN 114861639A CN 202210582333 A CN202210582333 A CN 202210582333A CN 114861639 A CN114861639 A CN 114861639A
- Authority
- CN
- China
- Prior art keywords
- layer
- attribute
- condition
- key
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000004590 computer program Methods 0.000 claims description 16
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 239000012634 fragment Substances 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 235000019580 granularity Nutrition 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007728 cost analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本公开提出了提问信息生成方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体涉及知识图谱、深度学习、自然语言处理等技术领域。具体实现方案为:从结构化知识库中获取至少一组键值对;根据设定的树形结构模板,对所述至少一组键值对进行组合,以得到树形结构;根据树形结构中至少一个条件层中的属性键、属性值和关联关系,生成对应条件层的至少一组词语组合;根据各条件层的至少一组词语组合,以及顶层对应的疑问文本,生成提问信息。由此,基于各条件层的至少一组词语组合,生成提问信息,提高了生成提问信息的灵活性,降低了生成提问信息的生成难度,同时,无需人工标注,降低了人工成本。
Description
技术领域
本公开涉及人工智能技术领域,具体涉及知识图谱、深度学习、自然语言处理等技术领域,尤其涉及提问信息生成方法、装置、电子设备及存储介质。
背景技术
随着自然语言处理技术的发展,出现了问题生成技术。问题生成可为根据结构化知识生成尽可能多的问题技术,问题的生成应用十分广泛,例如,机器知识库可以利用主动提问来构建或者补充知识库、扩充数据集;在教育领域,问题生成可以帮助学生来提问;在对话领域,问题生成可以作为冷启动来开始一个话题,或者通过提问来获得反馈,应用场景非常丰富。
发明内容
本公开提供了一种用于提问信息生成方法、装置、电子设备及存储介质。
根据本公开的一方面,提供了一种提问信息生成方法,包括:从结构化知识库中获取至少一组键值对;根据设定的树形结构模板,对所述至少一组键值对进行组合,以得到树形结构,其中,所述树形结构中包括用于指示疑问文本的顶层,以及所述顶层下的至少一个条件层,任一所述条件层对应一组键值对中的属性键和属性值以及所述属性键和所述属性值之间的关联关系;根据所述至少一个条件层中的所述属性键、属性值和所述关联关系,生成对应条件层的至少一组词语组合;根据各所述条件层的所述至少一组词语组合,以及所述顶层对应的疑问文本,生成提问信息。
根据本公开的另一方面,提供了一种提问信息生成装置,包括:获取模块,用于从结构化知识库中获取至少一组键值对;组合模块,用于根据设定的树形结构模板,对所述至少一组键值对进行组合,以得到树形结构,其中,所述树形结构中包括用于指示疑问文本的顶层,以及所述顶层下的至少一个条件层,任一所述条件层对应一组键值对中的属性键和属性值以及所述属性键和所述属性值之间的关联关系;第一生成模块,用于根据所述至少一个条件层中的所述属性键、属性值和所述关联关系,生成对应条件层的至少一组词语组合;第二生成模块,用于根据各所述条件层的所述至少一组词语组合,以及所述顶层对应的疑问文本,生成提问信息。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开第一方面实施例所述的提问信息生成方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开第一方面实施例所述的提问信息生成方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现本公开第一方面实施例所述的提问信息生成方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开实施例一所提供的提问信息生成方法的流程示意图;
图2为本公开实施例二所提供的提问信息生成方法的流程示意图;
图3为本公开实施例三所提供的提问信息生成方法的流程示意图;
图4为本公开实施例四所提供的提问信息生成方法的流程示意图;
图5为本公开实施例五所提供的提问信息生成方法的流程示意图;
图6为本公开实施例六所提供的提问信息生成方法的流程示意图;
图7为本公开实施例七所提供的提问信息生成方法的流程示意图;
图8为本公开实施例八所提供的提问信息生成方法的流程示意图;
图9为本公开实施例所提供的提问信息生成方法的流程示意图;
图10为本公开实施例所提供的各元素生成对应的同义词语集合的流程示意图;
图11为本公开实施例所提供的各短语生成同义对应的同义词语集合的流程示意图;
图12为本公开实施例所提供的各短语组合生成同义句子集合的流程示意图;
图13为本公开实施例九所提供的提问信息生成装置的结构示意图;
图14是用来实现本公开实施例的提问信息生成方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
基于结构化知识库的问题生成指的是根据结构化知识生成尽可能多的问题的技术,例如,根据知识三元组<张三、出生时间,1992年>,可以生成“张三什么时候出生的”、“张三出生于哪一年”等很多种问法。复杂问题指的根据多条结构化知识才能生成的问题,例如“出生地是地区A、性别是男、年龄大于50岁的人有哪些”。复杂问题生成是自然语言处理领域的研究热点之一,在实际的行业应用中也发挥着重要作用。问题生成的关键在于如何保证生成的问题和原始知识表达的意思相同,同时怎么才能生成尽可能多样化的问题。
相关技术中,主要采用以下两种方案进行问题生成,第一种是,基于模板的问题生成技术生成问题,即利用知识库中的元素,基于人工标注的模板进行组合,生成大量的问题;第二种是,基于seq2seq(一种Encoder–Decoder(编码-解码)结构的网络)的生成技术生成问题,即采用类似翻译模型的方式,将结构化知识作为一个序列,输入到seq2seq模型中,通过解码的方式生成另一个文本序列,作为最终生成问题。
然而,上述第一种方式需要大量人工进行模板标注,模板生成的人工成本较高,尤其是对复杂的问题,生成模板的标注成本更高,并且生成的问题过于单一;上述第二种方式中基于seq2seq模型生成的问题可能存在语法错误,不符合人类的说话方式,并且生成的问题单一,不便于行业迁移。
针对上述问题,本公开提出一种提问信息生成方法、装置、电子设备及存储介质。
下面参考附图描述本公开实施例的提问信息生成方法、装置、电子设备及存储介质。
图1为本公开实施例一所提供的提问信息生成方法的流程示意图。
本公开实施例以该提问信息生成方法被配置于提问信息生成装置中来举例说明,该提问信息生成装置可以应用于任一电子设备中,以使该电子设备可以执行提问信息生成功能。
其中,电子设备可以为任一具有计算能力的设备,例如可以为个人电脑(PersonalComputer,简称PC)、移动终端等,移动终端例如可以为手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
如图1所示,该提问信息生成方法可包括以下步骤:
步骤101,从结构化知识库中获取至少一组键值对。
在本公开实施例中,结构化知识库中可存储至少一组键值对,其中,每组键值对中可包括属性键和属性值,比如,属性键为“出生时间”,对应的属性值为“1992年”。
步骤102,根据设定的树形结构模板,对至少一组键值对进行组合,以得到树形结构。
其中,树形结构中包括用于指示疑问文本的顶层,以及顶层下的至少一个条件层,任一条件层对应一组键值对中的属性键和属性值以及属性键和属性值之间的关联关系。
在本公开实施例中,可以预先设定树形结构模板,并对从结构化知识库中获取的至少一组键值对进行组合,得到对应的树形结构,其中,树形结构中可包括用于指示疑问文本的顶层,以及顶层下的至少一个条件层,任一条件层对应一组键值对中的属性键和属性值以及属性键和属性值之间的关联关系。
比如,树形结构中顶层对应的疑问文本可为“平均身高是多少”,顶层下的其中一个条件层中的属性键可为“出生地”,属性值为“地区B”,属性键和属性值之间的关联关系为“等于”,顶层下的另一个条件层中的属性键可为“岁数”,属性值为“50”,属性键和属性值之间的关联关系为“大于”。
步骤103,根据至少一个条件层中的属性键、属性值和关联关系,生成对应条件层的至少一组词语组合。
比如,任一个条件层中的属性键可为“岁数”,属性值为“50”,属性键和属性值之间的关联关系为“大于”,则该任一条件层对应的一组词语组合可为“岁数大于50”。
需要说明的是,根据属性键的同义词语、属性值的同义词语以及关联关系的同义词语,可生成至少一组词语组合。比如,任一个条件层中的属性键可为“岁数”,属性值为“50”,属性键和属性值之间的关联关系为“大于”,可生成“岁数大于50”、“年龄高于50”、“50岁以上”等词语组合。
步骤104,根据各条件层的至少一组词语组合,以及顶层对应的疑问文本,生成提问信息。
在本公开实施例中,可根据至少一组词语组合,生成对应的文本片段,进而,根据文本片段以及顶层对应的疑问文本,可生成提问信息。比如,生成的提问信息为“出生于地区B且岁数大于50的平均身高是多少?”。
综上,通过从结构化知识库中获取至少一组键值对;根据设定的树形结构模板,对至少一组键值对进行组合,以得到树形结构;根据至少一个条件层中的属性键、属性值和关联关系,生成对应条件层的至少一组词语组合;根据各条件层的至少一组词语组合,以及顶层对应的疑问文本,生成提问信息,由此,基于各条件层的至少一组词语组合,生成提问信息,提高了生成提问信息的灵活性,降低了生成提问信息的生成难度,同时,无需人工标注,降低了人工成本。
为了根据各条件层的至少一组词语组合,以及顶层对应的疑问文本,准确地生成提问信息,如图2所示,图2为本公开实施例二所提供的提问信息生成方法的流程示意图,作为一种示例,在条件层为多个的情况下,对处于底层与顶层的中间条件层,基于处在该中间条件层之下且邻接的一个条件层所生成的至少一条文本片段,以及该中间条件层所生成的至少一条文本片段,采用端到端的句子生成模型生成提问信息。图2所示实施例可包括如下步骤:
步骤201,从结构化知识库中获取至少一组键值对。
步骤202,根据设定的树形结构模板,对至少一组键值对进行组合,以得到树形结构。
其中,树形结构中包括用于指示疑问文本的顶层,以及顶层下的至少一个条件层,任一条件层对应一组键值对中的属性键和属性值以及属性键和属性值之间的关联关系。
步骤203,根据至少一个条件层中的属性键、属性值和关联关系,生成对应条件层的至少一组词语组合。
步骤204,在条件层为多个的情况下,根据处于底层的条件层的各组词语组合,生成至少一条文本片段。
作为本公开实施例的一种可能的实现方式,将处于底层的条件层的任一词语组合,作为对应的一条文本片段,如,文本片段为“出生于地区B”。
步骤205,对处于底层和顶层之间的任一中间条件层,基于处在中间条件层之下且邻接的一个条件层所生成的至少一条文本片段,以及中间条件层的至少一组词语组合,生成中间条件层的至少一条文本片段。
进而,对于处于底层和顶层之间的任一中间条件层,可基于处在该任一中间条件层之下且邻接的一个条件层所生成的至少一条文本片段,以及该任一中间条件层的至少一组词语组合,生成该任一中间条件层的至少一条文本片段,比如,任一中间条件层的词语组合为“岁数大于50岁”和“岁数高于50岁”,处在该任一中间条件层之下且邻接的一个条件层所生成的文本片段为“出生于地区B”和“在地区B出生”,则任一中间条件层的对应的文本片段可为“出生于地区B岁数大于50岁”、“出生于地区B岁数高于50岁”、“在地区B出生岁数大于50岁”和“在地区B出生岁数高于50岁”。
步骤206,根据顶层对应的疑问文本,以及处在顶层之下且邻接的一个中间条件层所生成的至少一条文本片段,采用端到端的句子生成模型生成提问信息。
在本公开实施例中,将处于顶层之下且邻接的一个中间条件层所生成的至少一条文本片段,以及顶层对应的疑问文本,输入到端到端的句子生成模型中,该端到端的句子生成模型可输出对应的提问信息。其中,端到端的句子生成模型为经过训练的模型,比如可以基于机器学习技术或深度学习技术,对初始端到端的句子生成模型进行训练,使得经过训练的端到端的句子生成模型能够学习得到文本片段与提问信息之间的对应关系。
需要说明的是,步骤201至203的执行过程可以分别采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
综上,通过在条件层为多个的情况下,根据处于底层的条件层的各组词语组合,生成至少一条文本片段;对处于底层和顶层之间的任一中间条件层,基于处在中间条件层之下且邻接的一个条件层所生成的至少一条文本片段,以及中间条件层的至少一组词语组合,生成中间条件层的至少一条文本片段;根据顶层对应的疑问文本,以及处在顶层之下且邻接的一个中间条件层所生成的至少一条文本片段,采用端到端的句子生成模型生成提问信息,由此,基于各条件层的至少一组词语组合以及顶层的疑问文本,采用端到端的句子生成模型,可生成提问信息。
为了根据各条件层的至少一组词语组合,以及顶层对应的疑问文本,准确地生成提问信息,如图3所示,图3为本公开实施例三所提供的提问信息生成方法的流程示意图,作为另一种示例,根据至少一个条件层所生成的至少一条文本片段以及顶层对应的疑问文本,生成提问信息,图3所示实施例可包括如下步骤:
步骤301,从结构化知识库中获取至少一组键值对。
步骤302,根据设定的树形结构模板,对至少一组键值对进行组合,以得到树形结构。
其中,树形结构中包括用于指示疑问文本的顶层,以及顶层下的至少一个条件层,任一条件层对应一组键值对中的属性键和属性值以及属性键和属性值之间的关联关系。
步骤303,根据至少一个条件层中的属性键、属性值和关联关系,生成对应条件层的至少一组词语组合。
步骤304,对至少一个条件层中的任一条件层,根据至少一组词语组合,生成对应条件层的至少一条文本片段。
作为本公开实施例的一种可能的实现方式,对至少一个条件层中的任一条件层,可将任一条件层的至少一组词语组合,作为对应条件层的至少一条文本片段,比如,任一条件层的文本片段为“岁数大于50岁”、“岁数高于50岁”和“50岁以上”。
步骤305,根据至少一个条件层所生成的至少一条文本片段,以及顶层对应的疑问文本,采用端到端的句子生成模型生成提问信息。
进而,根据一个条件层所生成的至少一条文本片段,或者,根据两个或两个以上的条件层所生成的至少一条文本片段,结合顶层对应的疑问文本,采用端到端的句子生成模型生成提问信息,其中,端到端的句子生成模型可包括但不限于:贝叶斯加性回归树(Bayesian Additive Regression Trees,简称BART)、文本到文本传输转换算法(Text-To-Text Transfer Transformer,简称T5)以及基于BERT模型的基础上融合检索的SimBert。
需要说明的是,步骤301至303的执行过程可以分别采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
综上,通过对至少一个条件层中的任一条件层,根据至少一组词语组合,生成对应条件层的至少一条文本片段;根据至少一个条件层所生成的至少一条文本片段,以及顶层对应的疑问文本,采用端到端的句子生成模型生成提问信息,由此,基于至少一个条件层的至少一组词语组合以及顶层的疑问文本,采用端到端的句子生成模型,可生成提问信息。
为了提高生成提问信息的灵活性,如图4所示,图4为本公开实施例四所提供的提问信息生成方法的流程示意图,在本公开实施例中,可从属性键的同义词语组合、属性值的同义词语组合,以及关联关系的同义词语组合中,分别选取词语进行组合,以得到至少一组词语组合,图4所示实施例可包括如下步骤:
步骤401,从结构化知识库中获取至少一组键值对。
步骤402,根据设定的树形结构模板,对至少一组键值对进行组合,以得到树形结构。
其中,树形结构中包括用于指示疑问文本的顶层,以及顶层下的至少一个条件层,任一条件层对应一组键值对中的属性键和属性值以及属性键和属性值之间的关联关系。
步骤403,对至少一个条件层中的属性键、属性值和关联关系,分别确定属性键的同义词语集合、属性值的同义词语集合,以及关联关系的同义词语集合。
在本公开实施例中,可采用同义词语典、语义成分分析或者端到端的文本生成模型,分别确定属性键的同义词语集合、属性值的同义词语集合,以及关联关系的同义词语集合。
步骤404,从属性键的同义词语集合、属性值的同义词语集合,以及关联关系的同义词语集合中,分别选取词语进行组合,以得到至少一组词语组合。
比如,属性键“出生地”的同义词语集合为{“出生地”“诞生地方”“出生地点”“出生的地方”},属性值“地区B”的同义词语集合为{“地区B”、“地点B”“地名B”},关联关系“是”的同义词语集合为{“是”“等于”“为”},进而,从属性键的同义词语集合、属性值的同义词语集合,以及关联关系的同义词语集合中,分别选取词语进行组合,得到的词语组合可为“诞生地方为地区B”、“出生地点为地名B”以及“出生的地方是地点B”等。
步骤405,根据各条件层的至少一组词语组合,以及顶层对应的疑问文本,生成提问信息。
需要说明的是,步骤401至402、步骤405的执行过程可以分别采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
综上,通过对至少一个条件层中的属性键、属性值和关联关系,分别确定属性键的同义词语集合、属性值的同义词语集合,以及关联关系的同义词语集合;从属性键的同义词语集合、属性值的同义词语集合,以及关联关系的同义词语集合中,分别选取词语进行组合,以得到至少一组词语组合,由此,在属性键、属性值以及关联关系上均可以生成同义词语集合,从属性键的同义词语集合、属性值的同义词语集合,以及关联关系的同义词语集合中,分别选取词语进行组合,得到至少一组词语组合,提高了最终生成的提问信息的灵活性。
为了准确地确定属性键的同义词语集合、属性值的同义词语集合,以及关联关系的同义词语集合,如图5所示,图5为本公开实施例五所提供的提问信息生成方法的流程示意图,在本公开实施例中,可查询同义词语典,确定对应的同义词集合,图5所示实施例可包括如下步骤:
步骤501,从结构化知识库中获取至少一组键值对。
步骤502,根据设定的树形结构模板,对至少一组键值对进行组合,以得到树形结构。
其中,树形结构中包括用于指示疑问文本的顶层,以及顶层下的至少一个条件层,任一条件层对应一组键值对中的属性键和属性值以及属性键和属性值之间的关联关系。
步骤503,对属性键、属性值和关联关系中的至少一个,查询同义词词库,以确定对应的同义词语集合。
作为一种示例,对属性键、属性值或关联关系中的一个查询同义词词库,确定与属性键对应的同义词语集合。
作为另一种示例,对属性键、属性值和关联关系中的任意两个,查询同义词词库,以确定对应的同义词语集合。
作为另一种示例,对属性键、属性值和关联关系,均查询同义词词库,以确定对应的同义词语集合。
步骤504,从属性键的同义词语集合、属性值的同义词语集合,以及关联关系的同义词语集合中,分别选取词语进行组合,以得到至少一组词语组合。
步骤505,根据各条件层的至少一组词语组合,以及顶层对应的疑问文本,生成提问信息。
需要说明的是,步骤501至502、步骤504至505的执行过程可以分别采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
综上,通过对属性键、属性值和关联关系中的至少一个,查询同义词词库,可确定对应的同义词语集合。
为了准确地确定属性键的同义词语集合、属性值的同义词语集合,以及关联关系的同义词语集合,如图6所示,图6为本公开实施例六所提供的提问信息生成方法的流程示意图,在本公开实施例中,可采用语义成分模板,确定属性键的同义词语集合、属性值的同义词语集合,以及关联关系的同义词语集合,图6所示实施例可包括如下步骤:
步骤601,从结构化知识库中获取至少一组键值对。
步骤602,根据设定的树形结构模板,对至少一组键值对进行组合,以得到树形结构。
其中,树形结构中包括用于指示疑问文本的顶层,以及顶层下的至少一个条件层,任一条件层对应一组键值对中的属性键和属性值以及属性键和属性值之间的关联关系。
步骤603,将任一条件层所含的属性键、属性值和关联关系中的至少一个作为元素,根据元素中字符的词性和/或语义,匹配语义成分模板。
作为本公开实施例的一种可能的实现方式,可将任一条件层所含的属性键、属性值和关联关系中的至少一个作为元素,对元素进行语义和/或词性(成分)分析,根据元素中字符的词性和/或语义,匹配语义成分模板,比如,将属性键作为元素,属性键为“成立时间”,属性键中的“成立”为动词(Verb),与属性键“成立时间”匹配的一个语义成分模板为“[Verb]时间”。
步骤604,根据匹配的语义成分模板,查询关联的至少一文本模板。
进而,根据任一条件层所含的属性键、属性值和关联关系中至少一个元素匹配的语义成分模板,查询得到关联的至少一个文本模板,比如,关联的至少一个文本模板可为“什么时候[Verb]”。
步骤605,依据元素中所含字符的词性和/或语义,将字符填充到至少一文本模板中,以得到元素的同义词语。
比如,可对“什么时候[Verb]”进行填充,得到“成立时间”的同义词语可为“建立时间”、“创建时间”以及“设立时间”等。
步骤606,将元素,以及基于至少一文本模板所生成的同义词语,作为同义词语集合。
比如,属性键对应的元素为“成立时间”,基于至少一文本模板所生成的同义词语为“建立时间”、“创建时间”以及“设立时间”,属性键对应的同义词语集合为{“成立时间”“建立时间”“创建时间”“设立时间”}。
步骤607,从属性键的同义词语集合、属性值的同义词语集合,以及关联关系的同义词语集合中,分别选取词语进行组合,以得到至少一组词语组合。
步骤608,根据各条件层的至少一组词语组合,以及顶层对应的疑问文本,生成提问信息。
需要说明的是,步骤601至602、步骤607至608的执行过程可以分别采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
综上,将任一条件层所含的属性键、属性值和关联关系中的至少一个作为元素,根据元素中字符的词性和/或语义,匹配语义成分模板;根据匹配的语义成分模板,查询关联的至少一文本模板;依据元素中所含字符的词性和/或语义,将字符填充到至少一文本模板中,以得到元素的同义词语,将元素,以及基于至少一文本模板所生成的同义词语,作为同义词语集合,由此,根据任一条件层所含的属性键、属性值和关联关系中的至少一个匹配的语义成分模板,可确定对应的同义词语集合。
为了准确地确定属性键的同义词语集合、属性值的同义词语集合,以及关联关系的同义词语集合,如图7所示,图7为本公开实施例七所提供的提问信息生成方法的流程示意图,在本公开实施例中,可采用端到端的文本生成模型,分别确定属性键的同义词语集合、属性值的同义词语集合,以及关联关系的同义词语集合,图7所示实施例可包括如下步骤:
步骤701,从结构化知识库中获取至少一组键值对。
步骤702,根据设定的树形结构模板,对至少一组键值对进行组合,以得到树形结构。
其中,树形结构中包括用于指示疑问文本的顶层,以及顶层下的至少一个条件层,任一条件层对应一组键值对中的属性键和属性值以及属性键和属性值之间的关联关系。
步骤703,将任一条件层所含的属性键、属性值和关联关系中的至少一个作为元素,输入端到端的文本生成模型中,以得到输出的同义词语。
作为本公开实施例的一种可能的实现方式,将任一条件层所含的属性键、属性值和关联关系中的至少一个作为元素,输入端到端的文本生成模型中,该端到端的文本生成模型可输出对应的同义词语。其中,端到端的文本生成模型为经过训练的模型,比如可以基于机器学习技术或深度学习技术,对初始端到端的文本生成模型进行训练,使得经过训练的端到端的文本生成模型能够学习得到各元素与同义词语的对应关系。
步骤704,将元素,以及端到端的文本生成模型输出的同义词语,作为同义词语集合。
进一步地,将元素,以及端到端的文本生成模型输出的同义词语,作为同义词语集合,比如,属性键对应的元素为“成立时间”,基于端到端的文本生成模型输出的同义词语为“建立时间”、“创建时间”以及“设立时间”,属性键对应的同义词语集合为{“成立时间”“建立时间”“创建时间”“设立时间”}。
步骤705,从属性键的同义词语集合、属性值的同义词语集合,以及关联关系的同义词语集合中,分别选取词语进行组合,以得到至少一组词语组合。
步骤706,根据各条件层的至少一组词语组合,以及顶层对应的疑问文本,生成提问信息。
需要说明的是,步骤701至702、步骤705至706的执行过程可以分别采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
综上,通过将任一条件层所含的属性键、属性值和关联关系中的至少一个作为元素,输入端到端的文本生成模型中,以得到输出的同义词语;将元素,以及端到端的文本生成模型输出的同义词语,作为同义词语集合,由此,根据端到端的文本生成模型,可生成任一条件层所含的属性键、属性值和关联关系对应的同义词语集合。
为了准确地得到树形结构,如图8所示,图8为本公开实施例八所提供的提问信息生成方法的流程示意图,在本公开实施例中,可分别确定各键值对在树形结构模板中对应的层,针对各键值对应层中的任一条件层,确定条件层对应的关联关系,同时,确定顶层的疑问文本,进而,根据顶层对应的疑问文本,各条件层对应的键值对和对应的关联关系,确定树形结构,图8所示实施例可包括如下步骤:
步骤801,从结构化知识库中获取至少一组键值对。
步骤802,分别确定各键值对在树形结构模板中对应的层。
在本公开实施例中,可根据设定规则分别确定各个键值对在树形结构模板中对应的层,比如,可先确定树形结构模板中的底层对应的键值对,之后确定树形结构模板中的上一层对应的键值对,直至树形结构模板的顶层。
步骤803,针对各键值对对应层中的任一条件层,根据对应键值对中属性值的数据类型,确定条件层对应的关联关系。
为了准确地确定条件层对应的关联关系,可选地,针对各键值对对应层中的任一条件层,在对应键值对的属性值为字符串的数据类型的情况下,确定条件层对应的关联关系为等于;在对应键值对的属性值为非字符串的数据类型的情况下,确定条件层对应的关联关系为等于和不等于中的任意一个。
比如,对应键值对的属性值为“地区A”,可确定该条件层对应的关联关系为等于;对应键值对的属性值为数值50,条件层对应的关联关系可为等于和不等于中的任意一个。
步骤804,针对各键值对对应层中的顶层,根据对应键值对中属性键,确定疑问对象,以及根据树形结构模板中顶层设定的疑问词,确定疑问文本。
比如,顶层对应键值对中属性键为“平均身高”,可确定疑问对象为“平均身高”,树形结构模板中顶层设定的疑问词为“是多少?”,疑问文本为“平均身高是多少?”
步骤805,根据顶层对应的疑问文本,各条件层对应的键值对和对应的关联关系,确定树形结构。
进而,根据顶层对应的疑问文本,各条件层对应的键值对和对应的关联关系,生成树形结构。
步骤806,根据至少一个条件层中的属性键、属性值和关联关系,生成对应条件层的至少一组词语组合。
步骤807,根据各条件层的至少一组词语组合,以及顶层对应的疑问文本,生成提问信息。
需要说明的是,步骤801、步骤806至807的执行过程可以分别采用本公开的各实施例中的任一种方式实现,本公开实施例并不对此作出限定,也不再赘述。
综上,通过分别确定各键值对在树形结构模板中对应的层;针对各键值对对应层中的任一条件层,根据对应键值对中属性值的数据类型,确定条件层对应的关联关系;针对各键值对对应层中的顶层,根据对应键值对中属性键,确定疑问对象,以及根据树形结构模板中顶层设定的疑问词,确定疑问文本;根据顶层对应的疑问文本,各条件层对应的键值对和对应的关联关系,确定树形结构,由此,通过确定顶层对应的疑问文本,以及各条件层对应的键值对和对应的关联关系,可准确地确定树形结构。
为了更加清楚地说明上述实施例,现举例进行说明。
举例而言,如图9所示,图9为本公开实施例中提问信息生成方法的流程示意图,本公开实施例中将复杂问题生成分成基于结构化知识库生成树形结构,根据树形结构生成问题文本。
其中,树形结构可根据设定的生成规则,自动生成树形结构,无需标注成本。
问题文本:如图9所示,可从树形结构的底层开始生成,主要包括:语义元素生成、短语生成、句子生成三个粒度。其中PRO代表“属性-关系-属性值”,是一个过滤条件(filter),例如“年龄大于50岁”,PF代表“属性-计算”,例如“身高平均”。
元素生成器:如图10所示,根据元素生成同义的表达方式,主要包含三种生成方式,第一种是同义词语典映射;第二种是语义生成,首先对元素进行语义分析,然后根据语义成分进行元素生成,例如“成立时间”,语义成分分析结果为“[Verb]时间”,可以泛化为“什么时候[Verb]”,其中,Verb代表动词;第三种是端到端的模型生成,输入为原始元素,输出为泛化元素。相对于直接生成复杂问题,直接生成元素的难度更低,训练语料更容易获取。
短语生成器:如图11所示,根据短语生成同义的表达方式,包含语义生成和端到端的模型生成。在语义生成过程中,首先对属性进行语义成本分析,然后根据语义成分进行泛化。例如“成立时间等于2013年”,属性为的语义分析结果为“[Verb]时间”则可以泛化为“[Verb]于2013年”。端到端短语生成器中包含元素生成器,在进行短语生成之前先利用元素生成器生成多个同义元素,然后依次将多个同义元素输入到端到端的短语生成器中,得到多个同义短语;
句子生成器:如图12所示,根据短语组合生成同义句子,句子生成器是基于端到端的方式,输入为短语生成器的输出。可以从短语生成器的结果中获取多种输入,每种输入对应一种输出结果,保证了生成的多样性。另外,句子生成器不需要学习到元素级别和短语级别的生成方式,降低了生成任务的难度,能够保证生成结果的质量。
由此,使用多个粒度的生成器能够降低生成的难度,每一种生成器的功能相对单一,每种粒度的生成器效果更加容易保证。可以将小粒度的生成结果作为大力度生成器的输入,保证了最终生成结果的多样性。
本公开实施例的提问信息生成方法,通过从结构化知识库中获取至少一组键值对;根据设定的树形结构模板,对至少一组键值对进行组合,以得到树形结构,其中,树形结构中包括用于指示疑问文本的顶层,以及顶层下的至少一个条件层,任一条件层对应一组键值对中的属性键和属性值以及所述属性键和属性值之间的关联关系;根据至少一个条件层中的属性键、属性值和关联关系,生成对应条件层的至少一组词语组合;根据各条件层的至少一组词语组合,以及顶层对应的疑问文本,生成提问信息,由此,基于各条件层的至少一组词语组合,生成提问信息,提高了生成提问信息的灵活性,降低了生成提问信息的生成难度,同时,无需人工标注,降低了人工成本。
为了实现上述实施例,本公开还提出一种提问信息生成装置。
图13为本公开实施例九所提供的提问信息生成装置的结构示意图。
如图13所示,提问信息生成装置1300包括:获取模块1310、组合模块1320、第一生成模块1330和第二生成模块1340。
其中,获取模块1310,用于从结构化知识库中获取至少一组键值对;组合模块1320,用于根据设定的树形结构模板,对至少一组键值对进行组合,以得到树形结构,其中,树形结构中包括用于指示疑问文本的顶层,以及顶层下的至少一个条件层,任一条件层对应一组键值对中的属性键和属性值以及属性键和属性值之间的关联关系;第一生成模块1330,用于根据至少一个条件层中的属性键、属性值和关联关系,生成对应条件层的至少一组词语组合;第二生成模块1340,用于根据各条件层的至少一组词语组合,以及顶层对应的疑问文本,生成提问信息。
作为本公开实施例的一种可能的实现方式,第二生成模块1340,还用于:在条件层为多个的情况下,根据处于底层的条件层的各组词语组合,生成至少一条文本片段;对处于底层和顶层之间的任一中间条件层,基于处在中间条件层之下且邻接的一个条件层所生成的至少一条文本片段,以及中间条件层的至少一组词语组合,生成中间条件层的至少一条文本片段;根据顶层对应的疑问文本,以及处在顶层之下且邻接的一个中间条件层所生成的至少一条文本片段,采用端到端的句子生成模型生成提问信息。
作为本公开实施例的一种可能的实现方式,第二生成模块1340,还用于:对至少一个条件层中的任一条件层,根据至少一组词语组合,生成对应条件层的至少一条文本片段;根据至少一个条件层所生成的至少一条文本片段,以及顶层对应的疑问文本,采用端到端的句子生成模型生成提问信息。
作为本公开实施例的一种可能的实现方式,第一生成模块1330,还用于:对至少一个条件层中的属性键、属性值和关联关系,分别确定属性键的同义词语集合、属性值的同义词语集合,以及关联关系的同义词语集合;从属性键的同义词语集合、属性值的同义词语集合,以及关联关系的同义词语集合中,分别选取词语进行组合,以得到至少一组词语组合。
作为本公开实施例的一种可能的实现方式,第一生成模块1330,还用于:对属性键、属性值和关联关系中的至少一个,查询同义词词库,以确定对应的同义词语集合。
作为本公开实施例的一种可能的实现方式,第一生成模块1330,还用于:将任一条件层所含的属性键、属性值和关联关系中的至少一个作为元素,根据元素中字符的词性和/或语义,匹配语义成分模板;根据匹配的语义成分模板,查询关联的至少一文本模板;依据元素中所含字符的词性和/或语义,将字符填充到至少一文本模板中,以得到元素的同义词语;将元素,以及基于至少一文本模板所生成的同义词语,作为同义词语集合。
作为本公开实施例的一种可能的实现方式,第一生成模块1330,还用于:将任一条件层所含的属性键、属性值和关联关系中的至少一个作为元素,输入端到端的文本生成模型中,以得到输出的同义词语;将元素,以及端到端的文本生成模型输出的同义词语,作为同义词语集合。
作为本公开实施例的一种可能的实现方式,组合模块1320,还用于:分别确定各所述键值对在树形结构模板中对应的层级;针对各键值对对应层中的任一条件层,根据对应键值对中属性值的数据类型,确定条件层对应的关联关系;针对各键值对对应层中的顶层,根据对应键值对中属性键,确定疑问对象,以及根据树形结构模板中顶层设定的疑问词,确定疑问文本;根据顶层对应的疑问文本,各条件层对应的键值对和对应的关联关系,确定树形结构。
作为本公开实施例的一种可能的实现方式,组合模块1320,还用于:针对任一条件层,在对应键值对的属性值为字符串的数据类型的情况下,确定条件层对应的关联关系为等于;在对应键值对的属性值为非字符串的数据类型的情况下,确定条件层对应的关联关系为等于和不等于中的任意一个。
本公开实施例的提问信息生成装置,通过从结构化知识库中获取至少一组键值对;根据设定的树形结构模板,对至少一组键值对进行组合,以得到树形结构,其中,树形结构中包括用于指示疑问文本的顶层,以及顶层下的至少一个条件层,任一条件层对应一组键值对中的属性键和属性值以及所述属性键和属性值之间的关联关系;根据至少一个条件层中的属性键、属性值和关联关系,生成对应条件层的至少一组词语组合;根据各条件层的至少一组词语组合,以及顶层对应的疑问文本,生成提问信息,由此,基于各条件层的至少一组词语组合,生成提问信息,提高了生成提问信息的灵活性,降低了生成提问信息的生成难度,同时,无需人工标注,降低了人工成本。
为了实现上述实施例,本公开还提出一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述实施例的提问信息生成方法。
为了实现上述实施例,本公开还提出一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述实施例所述的提问信息生成方法。
为了实现上述实施例,本公开还提出一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现上述实施例所述的提问信息生成方法。
需要说明的是,本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均在征得用户同意的前提下进行,并且均符合相关法律法规的规定,且不违背公序良俗。
图14示出了可以用来实施本公开的实施例的示例电子设备1400的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图14所示,设备1400包括计算单元1401,其可以根据存储在ROM(Read-OnlyMemory,只读存储器)1402中的计算机程序或者从存储单元1408加载到RAM(Random AccessMemory,随机访问/存取存储器)1403中的计算机程序,来执行各种适当的动作和处理。在RAM 1403中,还可存储设备1400操作所需的各种程序和数据。计算单元1401、ROM 1402以及RAM 1403通过总线1404彼此相连。I/O(Input/Output,输入/输出)接口1405也连接至总线1404。
设备1400中的多个部件连接至I/O接口1405,包括:输入单元1406,例如键盘、鼠标等;输出单元1407,例如各种类型的显示器、扬声器等;存储单元1408,例如磁盘、光盘等;以及通信单元1409,例如网卡、调制解调器、无线通信收发机等。通信单元1409允许设备1400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1401的一些示例包括但不限于CPU(Central Processing Unit,中央处理单元)、GPU(Graphic Processing Units,图形处理单元)、各种专用的AI(Artificial Intelligence,人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor,数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元1401执行上文所描述的各个方法和处理,例如提问信息生成方法。例如,在一些实施例中,提问信息生成方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1402和/或通信单元1409而被载入和/或安装到设备1400上。当计算机程序加载到RAM 1403并由计算单元1401执行时,可以执行上文描述的提问信息生成方法的一个或多个步骤。备选地,在其他实施例中,计算单元1401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行提问信息生成方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array,现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit,专用集成电路)、ASSP(Application Specific StandardProduct,专用标准产品)、SOC(System On Chip,芯片上系统的系统)、CPLD(ComplexProgrammable Logic Device,复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory,可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory,便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(Cathode-Ray Tube,阴极射线管)或者LCD(Liquid Crystal Display,液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:LAN(LocalArea Network,局域网)、WAN(Wide Area Network,广域网)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
其中,需要说明的是,人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (21)
1.一种提问信息生成方法,包括:
从结构化知识库中获取至少一组键值对;
根据设定的树形结构模板,对所述至少一组键值对进行组合,以得到树形结构,其中,所述树形结构中包括用于指示疑问文本的顶层,以及所述顶层下的至少一个条件层,任一所述条件层对应一组键值对中的属性键和属性值以及所述属性键和所述属性值之间的关联关系;
根据所述至少一个条件层中的所述属性键、属性值和所述关联关系,生成对应条件层的至少一组词语组合;
根据各所述条件层的所述至少一组词语组合,以及所述顶层对应的疑问文本,生成提问信息。
2.根据权利要求1所述的方法,其中,所述根据各所述条件层的所述至少一组词语组合,以及所述顶层对应的疑问文本,生成提问信息,包括:
在所述条件层为多个的情况下,根据处于底层的条件层的各组所述词语组合,生成至少一条文本片段;
对处于所述底层和顶层之间的任一中间条件层,基于处在所述中间条件层之下且邻接的一个条件层所生成的至少一条文本片段,以及所述中间条件层的至少一组词语组合,生成所述中间条件层的至少一条文本片段;
根据所述顶层对应的疑问文本,以及处在所述顶层之下且邻接的一个中间条件层所生成的至少一条文本片段,采用端到端的句子生成模型生成所述提问信息。
3.根据权利要求1所述的方法,其中,所述根据各所述条件层的所述至少一组词语组合,以及所述顶层对应的疑问文本,生成提问信息,包括:
对所述至少一个条件层中的任一条件层,根据所述至少一组词语组合,生成对应条件层的至少一条文本片段;
根据所述至少一个条件层所生成的至少一条文本片段,以及所述顶层对应的疑问文本,采用端到端的句子生成模型生成所述提问信息。
4.根据权利要求1-3任一项所述的方法,其中,所述根据所述至少一个条件层中的所述属性键、属性值和所述关联关系,生成对应条件层的至少一组词语组合,包括:
对所述至少一个条件层中的属性键、属性值和所述关联关系,分别确定所述属性键的同义词语集合、所述属性值的同义词语集合,以及所述关联关系的同义词语集合;
从所述属性键的同义词语集合、所述属性值的同义词语集合,以及所述关联关系的同义词语集合中,分别选取词语进行组合,以得到至少一组词语组合。
5.根据权利要求4所述的方法,其中,所述对所述至少一个条件层中的属性键、属性值和所述关联关系,分别确定所述属性键的同义词语集合、所述属性值的同义词语集合,以及所述关联关系的同义词语集合,包括:
对所述属性键、属性值和所述关联关系中的至少一个,查询同义词词库,以确定对应的同义词语集合。
6.根据权利要求4所述的方法,其中,所述对所述至少一个条件层中的属性键、属性值和所述关联关系,分别确定所述属性键的同义词语集合、所述属性值的同义词语集合,以及所述关联关系的同义词语集合,包括:
将任一所述条件层所含的所述属性键、属性值和所述关联关系中的至少一个作为元素,根据所述元素中字符的词性和/或语义,匹配语义成分模板;
根据匹配的语义成分模板,查询关联的至少一文本模板;
依据所述元素中所含字符的词性和/或语义,将所述字符填充到所述至少一文本模板中,以得到所述元素的同义词语;
将所述元素,以及基于所述至少一文本模板所生成的同义词语,作为所述同义词语集合。
7.根据权利要求4所述的方法,其中,所述对所述至少一个条件层中的属性键、属性值和所述关联关系,分别确定所述属性键的同义词语集合、所述属性值的同义词语集合,以及所述关联关系的同义词语集合,包括:
将任一所述条件层所含的所述属性键、属性值和所述关联关系中的至少一个作为元素,输入端到端的文本生成模型中,以得到输出的同义词语;
将所述元素,以及所述端到端的文本生成模型输出的同义词语,作为所述同义词语集合。
8.根据权利要求1-3任一项所述的方法,其中,所述根据设定的树形结构模板,对所述至少一组键值对进行组合,以得到树形结构,包括:
分别确定各所述键值对在所述树形结构模板中对应的层;
针对各所述键值对对应层中的任一条件层,根据对应键值对中属性值的数据类型,确定所述条件层对应的所述关联关系;
针对各所述键值对对应层中的所述顶层,根据对应键值对中属性键,确定疑问对象,以及根据所述树形结构模板中所述顶层设定的疑问词,确定所述疑问文本;
根据所述顶层对应的所述疑问文本,各所述条件层对应的键值对和对应的所述关联关系,确定所述树形结构。
9.根据权利要求8所述的方法,其中,所述针对各所述键值对对应层中的任一条件层,根据对应键值对中属性值的数据类型,确定所述条件层对应的所述关联关系,包括:
针对任一条件层,在对应键值对的属性值为字符串的数据类型的情况下,确定所述条件层对应的所述关联关系为等于;
在对应键值对的属性值为非字符串的数据类型的情况下,确定所述条件层对应的所述关联关系为等于和不等于中的任意一个。
10.一种提问信息生成装置,包括:
获取模块,用于从结构化知识库中获取至少一组键值对;
组合模块,用于根据设定的树形结构模板,对所述至少一组键值对进行组合,以得到树形结构,其中,所述树形结构中包括用于指示疑问文本的顶层,以及所述顶层下的至少一个条件层,任一所述条件层对应一组键值对中的属性键和属性值以及所述属性键和所述属性值之间的关联关系;
第一生成模块,用于根据所述至少一个条件层中的所述属性键、属性值和所述关联关系,生成对应条件层的至少一组词语组合;
第二生成模块,用于根据各所述条件层的所述至少一组词语组合,以及所述顶层对应的疑问文本,生成提问信息。
11.根据权利要求10所述的装置,其中,所述第二生成模块,还用于:
在所述条件层为多个的情况下,根据处于底层的条件层的各组所述词语组合,生成至少一条文本片段;
对处于所述底层和顶层之间的任一中间条件层,基于处在所述中间条件层之下且邻接的一个条件层所生成的至少一条文本片段,以及所述中间条件层的至少一组词语组合,生成所述中间条件层的至少一条文本片段;
根据所述顶层对应的疑问文本,以及处在所述顶层之下且邻接的一个中间条件层所生成的至少一条文本片段,采用端到端的句子生成模型生成所述提问信息。
12.根据权利要求10所述的装置,其中,所述第二生成模块,还用于:
对所述至少一个条件层中的任一条件层,根据所述至少一组词语组合,生成对应条件层的至少一条文本片段;
根据所述至少一个条件层所生成的至少一条文本片段,以及所述顶层对应的疑问文本,采用端到端的句子生成模型生成所述提问信息。
13.根据权利要求10-12任一项所述的装置,其中,所述第一生成模块,还用于:
对所述至少一个条件层中的属性键、属性值和所述关联关系,分别确定所述属性键的同义词语集合、所述属性值的同义词语集合,以及所述关联关系的同义词语集合;
从所述属性键的同义词语集合、所述属性值的同义词语集合,以及所述关联关系的同义词语集合中,分别选取词语进行组合,以得到至少一组词语组合。
14.根据权利要求13所述的装置,其中,所述第一生成模块,还用于:
对所述属性键、属性值和所述关联关系中的至少一个,查询同义词词库,以确定对应的同义词语集合。
15.根据权利要求13所述的装置,其中,所述第一生成模块,还用于:
将任一所述条件层所含的所述属性键、属性值和所述关联关系中的至少一个作为元素,根据所述元素中字符的词性和/或语义,匹配语义成分模板;
根据匹配的语义成分模板,查询关联的至少一文本模板;
依据所述元素中所含字符的词性和/或语义,将所述字符填充到所述至少一文本模板中,以得到所述元素的同义词语;
将所述元素,以及基于所述至少一文本模板所生成的同义词语,作为所述同义词语集合。
16.根据权利要求13所述的装置,其中,所述第一生成模块,还用于:
将任一所述条件层所含的所述属性键、属性值和所述关联关系中的至少一个作为元素,输入端到端的文本生成模型中,以得到输出的同义词语;
将所述元素,以及所述端到端的文本生成模型输出的同义词语,作为所述同义词语集合。
17.根据权利要求10-12任一项所述的装置,其中,所述组合模块,还用于:
分别确定各所述键值对在所述树形结构模板中对应的层级;
针对各所述键值对对应层中的任一条件层,根据对应键值对中属性值的数据类型,确定所述条件层对应的所述关联关系;
针对各所述键值对对应层中的所述顶层,根据对应键值对中属性键,确定疑问对象,以及根据所述树形结构模板中所述顶层设定的疑问词,确定所述疑问文本;
根据所述顶层对应的所述疑问文本,各所述条件层对应的键值对和对应的所述关联关系,确定所述树形结构。
18.根据权利要求17所述的装置,其中,所述组合模块,还用于:
针对任一条件层,在对应键值对的属性值为字符串的数据类型的情况下,确定所述条件层对应的所述关联关系为等于;
在对应键值对的属性值为非字符串的数据类型的情况下,确定所述条件层对应的所述关联关系为等于和不等于中的任意一个。
19.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的提问信息生成方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的提问信息生成方法。
21.一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现权利要求1-9中任一项所述的提问信息生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210582333.4A CN114861639B (zh) | 2022-05-26 | 2022-05-26 | 提问信息生成方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210582333.4A CN114861639B (zh) | 2022-05-26 | 2022-05-26 | 提问信息生成方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114861639A true CN114861639A (zh) | 2022-08-05 |
CN114861639B CN114861639B (zh) | 2023-03-10 |
Family
ID=82641178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210582333.4A Active CN114861639B (zh) | 2022-05-26 | 2022-05-26 | 提问信息生成方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114861639B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117316470A (zh) * | 2023-09-21 | 2023-12-29 | 北京百度网讯科技有限公司 | 基于数字人的人机交互方法、装置、电子设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733837A (zh) * | 2018-05-28 | 2018-11-02 | 杭州依图医疗技术有限公司 | 一种病历文本的自然语言结构化方法及装置 |
CN109543690A (zh) * | 2018-11-27 | 2019-03-29 | 北京百度网讯科技有限公司 | 用于提取信息的方法和装置 |
CN110705296A (zh) * | 2019-09-12 | 2020-01-17 | 华中科技大学 | 一种基于机器学习和深度学习的中文自然语言处理工具系统 |
CN111415740A (zh) * | 2020-02-12 | 2020-07-14 | 东北大学 | 问诊信息的处理方法、装置、存储介质及计算机设备 |
CN111966890A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 基于文本的事件推送方法、装置、电子设备和存储介质 |
CN113591482A (zh) * | 2021-02-25 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、设备及计算机可读存储介质 |
CN114282001A (zh) * | 2021-10-15 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 基于文本的任务处理方法、装置、计算机设备及存储介质 |
US20220129637A1 (en) * | 2020-10-23 | 2022-04-28 | International Business Machines Corporation | Computerized selection of semantic frame elements from textual task descriptions |
-
2022
- 2022-05-26 CN CN202210582333.4A patent/CN114861639B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733837A (zh) * | 2018-05-28 | 2018-11-02 | 杭州依图医疗技术有限公司 | 一种病历文本的自然语言结构化方法及装置 |
CN109543690A (zh) * | 2018-11-27 | 2019-03-29 | 北京百度网讯科技有限公司 | 用于提取信息的方法和装置 |
CN110705296A (zh) * | 2019-09-12 | 2020-01-17 | 华中科技大学 | 一种基于机器学习和深度学习的中文自然语言处理工具系统 |
CN111415740A (zh) * | 2020-02-12 | 2020-07-14 | 东北大学 | 问诊信息的处理方法、装置、存储介质及计算机设备 |
CN111966890A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 基于文本的事件推送方法、装置、电子设备和存储介质 |
US20220129637A1 (en) * | 2020-10-23 | 2022-04-28 | International Business Machines Corporation | Computerized selection of semantic frame elements from textual task descriptions |
CN113591482A (zh) * | 2021-02-25 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、设备及计算机可读存储介质 |
CN114282001A (zh) * | 2021-10-15 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 基于文本的任务处理方法、装置、计算机设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117316470A (zh) * | 2023-09-21 | 2023-12-29 | 北京百度网讯科技有限公司 | 基于数字人的人机交互方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114861639B (zh) | 2023-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220004714A1 (en) | Event extraction method and apparatus, and storage medium | |
US20220198327A1 (en) | Method, apparatus, device and storage medium for training dialogue understanding model | |
CN106874441A (zh) | 智能问答方法和装置 | |
US20220358292A1 (en) | Method and apparatus for recognizing entity, electronic device and storage medium | |
CN116737908A (zh) | 知识问答方法、装置、设备和存储介质 | |
US20230089268A1 (en) | Semantic understanding method, electronic device, and storage medium | |
CN112784589B (zh) | 一种训练样本的生成方法、装置及电子设备 | |
CN113220836A (zh) | 序列标注模型的训练方法、装置、电子设备和存储介质 | |
US20220005461A1 (en) | Method for recognizing a slot, and electronic device | |
CN112507706A (zh) | 知识预训练模型的训练方法、装置和电子设备 | |
EP3992814A2 (en) | Method and apparatus for generating user interest profile, electronic device and storage medium | |
CN114861639B (zh) | 提问信息生成方法、装置、电子设备及存储介质 | |
CN113553411B (zh) | 查询语句的生成方法、装置、电子设备和存储介质 | |
CN113672699A (zh) | 基于知识图谱的nl2sql生成方法 | |
CN113535916A (zh) | 一种基于表格的问答方法、装置及计算机设备 | |
CN117371406A (zh) | 基于大型语言模型的注释生成方法、装置、设备及介质 | |
CN115905497B (zh) | 确定答复语句的方法、装置、电子设备和存储介质 | |
JP7520085B2 (ja) | テキスト誤り訂正とテキスト誤り訂正モデルの生成方法、装置、機器及び媒体 | |
US20230141932A1 (en) | Method and apparatus for question answering based on table, and electronic device | |
CN114490709B (zh) | 文本生成方法、装置、电子设备及存储介质 | |
CN114328956B (zh) | 文本信息的确定方法、装置、电子设备及存储介质 | |
CN113553415B (zh) | 问答匹配的方法、装置及电子设备 | |
CN114416941A (zh) | 融合知识图谱的对话知识点确定模型的生成方法及装置 | |
CN113033179A (zh) | 知识获取方法、装置、电子设备及可读存储介质 | |
CN110704623A (zh) | 基于Rasa_Nlu框架提高实体识别率的方法、装置、系统和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |