CN113064982A - 一种问答库生成方法及相关设备 - Google Patents

一种问答库生成方法及相关设备 Download PDF

Info

Publication number
CN113064982A
CN113064982A CN202110400261.2A CN202110400261A CN113064982A CN 113064982 A CN113064982 A CN 113064982A CN 202110400261 A CN202110400261 A CN 202110400261A CN 113064982 A CN113064982 A CN 113064982A
Authority
CN
China
Prior art keywords
information
question
key
key information
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110400261.2A
Other languages
English (en)
Inventor
张献涛
暴筱
林小俊
支涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yunji Technology Co Ltd
Original Assignee
Beijing Yunji Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunji Technology Co Ltd filed Critical Beijing Yunji Technology Co Ltd
Priority to CN202110400261.2A priority Critical patent/CN113064982A/zh
Publication of CN113064982A publication Critical patent/CN113064982A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种问答库生成方法及相关设备,属于机器人技术领域,解决了现有技术中智能设备的问答库依靠已有的人工经验和历史的问答数据构建,效率较低的问题。所述方法包括:获取所述基础信息库中的关键信息,其中,所述关键信息包括关键数据与属性信息;基于所述关键数据确定对应所述关键数据的信息片段;基于所述属性信息与预设问题列表获取对应所述属性信息的问题信息,其中,所述预设问题列表包括不同的属性信息与对应所述不同属性信息的问题信息;利用所述问题信息替换所述信息片段对应的所述关键信息,生成对应所述关键信息的问题;将对应所述关键信息的问题与所述关键信息组成问答对,对所述问答对进行存储,得到所述问答库。

Description

一种问答库生成方法及相关设备
技术领域
本申请实施例涉及机器人技术领域,尤其是涉及一种问答库生成方法及相关设备。
背景技术
随着数字化和智能化技术在各个领域的深入发展,更多的智能化设备在生活中发挥作用。各种智能的语音设备,如智能音箱、智能手机、智能机器人等设备都已经支持语音的对话。对话系统中最常用的功能模块是自动问答功能,该功能主要是利用已有的问答库,根据用户的输入进行回答。
当前,问答库的整理和构建还主要是人工进行,根据已有的人工经验和历史的问答数据,进行整理,费时费力,效率较低。
发明内容
本申请实施例的目的在于提供一种问答库生成方法,缓解了现有技术中创建问答库根据已有的人工经验和历史的问答数据,进行整理,费时费力,效率较低的技术问题。
第一方面,本申请实施例提供一种问答库生成方法,包括:
获取上述基础信息库中的关键信息,其中,上述关键信息包括关键数据与属性信息;
基于上述关键数据确定对应上述关键数据的信息片段;
基于上述属性信息与预设问题列表获取对应上述属性信息的问题信息,其中,上述预设问题列表包括不同的属性信息与对应上述不同属性信息的问题信息;
利用上述问题信息替换上述信息片段对应的上述关键信息,生成对应上述关键信息的问题;
将对应上述关键信息的问题与上述关键信息组成问答对,对上述问答对进行存储,得到上述问答库。
可选的,上述获取上述基础信息库中的关键信息的步骤,包括:
对上述基础信息库中的基础信息进行分割,得到文本信息;
对上述文本信息进行词性分析和命名体识别,得到初始关键信息;
基于预设筛选规则对上述初始关键信息进行筛选,得到上述关键信息,其中,上述预设筛选规则为能够删除至少一种词性的初始关键信息的规则。
可选的,上述对上述基础信息库中的基础信息进行分割的步骤,包括:
通过识别句号、分号、问号或者叹号的方式对上述基础信息库中的基础信息进行分割。
可选的,上述基于上述关键数据确定对应上述关键数据的信息片段的步骤,包括:
基于上述关键数据查找对应上述关键信息的上述文本信息;
通过识别逗号或者分号的方式对上述文本信息进行分割,得到对应上述关键数据的信息片段。
可选的,在上述将对应上述关键信息的问题与上述关键信息组成问答对的步骤之前,还包括:
基于语法和语义验证上述对应上述关键信息的问题的合理性;
若上述对应上述关键信息的问题不合理,则删除上述对应上述关键信息的问题;
若上述对应上述关键信息的问题合理,则将对应上述关键信息的问题与上述关键信息组成问答对。
可选的,上述基于语法和语义验证上述对应上述关键信息的问题的合理性的步骤,包括:
将上述对应上述关键信息的问题作为第一搜索词;
将上述对应上述关键信息的信息片段作为第二搜索词;
在外部数据库中搜索上述第一搜索词与上述第二搜索词,分别获取对应上述第一搜索词的第一热度频次与对应上述第二搜索词的第二热度频次;
通过上述第一热度频次与上述第二热度频次验证上述对应上述关键信息的问题的合理性。
可选的,上述通过上述第一热度频次与上述第二热度频次验证上述对应上述关键信息的问题的合理性的步骤,包括:
计算上述第一热度频次与上述第二热度频次的比值;
通过比较上述比值与预设值的方式,验证上述对应上述关键信息的问题的合理性;
若上述比值大于上述预设值,则对应上述关键信息的问题的不合理,不进行存储。
第二方面,本申请实施例提供了一种问答库生成装置,包括:
数据获取模块,用于获取上述基础信息库中的关键信息,其中,上述关键信息包括关键数据与属性信息;
查找模块,用于基于上述关键数据确定对应上述关键数据的信息片段;
对比模块,用于基于上述属性信息与预设问题列表获取对应上述属性信息的问题信息,其中,上述预设问题列表包括不同的属性信息与对应上述不同属性信息的问题信息;
替换模块,用于利用上述问题信息替换上述信息片段对应的上述关键信息,生成对应上述关键信息的问题;
存储模块,用于将对应上述关键信息的问题与上述关键信息组成问答对,对上述问答对进行存储,得到上述问答库。
第三方面,本申请实施例提供了一种电子设备,包括:存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器用于执行存储器中存储的计算机程序时实现如上述的问答库生成方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,上述计算机程序被处理器执行时实现如上述的问答库生成方法的步骤。
本申请实施例提供的一种问答库生成方法及相关设备,通过获取上述基础信息库中的关键信息,其中,上述关键信息包括关键数据与属性信息;基于上述关键数据确定对应上述关键数据的信息片段;基于上述关键数据查找到的对应上述关键数据的信息片段作为问题题干,不依靠已有的人工经验和历史的问答数据确定题干,进而避免了人工查找或者对历史的问答数据进行统计,提高了问答库生成的效率;基于上述属性信息与预设问题列表获取对应上述属性信息的问题信息,其中,上述预设问题列表包括不同的属性信息与对应上述不同属性信息的问题信息;利用上述问题信息替换上述信息片段对应的上述关键信息,生成对应上述关键信息的问题;根据上述关键信息的属性信息确定对应上述关键信息的问题信息,例如,上述关键信息的属性信息为数字,则对应数字的问题信息为多少,实现了对应上述关键信息的生成,不需要依靠人工经验,提高了问答库生成的效率;将对应上述关键信息的问题与上述关键信息组成问答对,对上述问答对进行存储,得到上述问答库。
附图说明
为了更清楚地说明本申请实施例具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请实施例的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种问答库生成方法流程图;
图2为本申请实施例提供的一种问答库生成方法流程图;
图3为本申请实施例提供的一种问答库生成装置的实施例示意图;
图4为本申请实施例提供的一种电子设备的实施例示意图;
图5为本申请实施例提供的一种计算机可读存储介质的实施例示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请实施例保护的范围。
本申请实施例中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参考图1,本申请实施例提供一种问答库生成方法,包括:
S101、获取上述基础信息库中的关键信息,其中,上述关键信息包括关键数据与属性信息;
S102、基于上述关键数据确定对应上述关键数据的信息片段;
S103、基于上述属性信息与预设问题列表获取对应上述属性信息的问题信息,其中,上述预设问题列表包括不同的属性信息与对应上述不同属性信息的问题信息;
S104、利用上述问题信息替换上述信息片段对应的上述关键信息,生成对应上述关键信息的问题;
S105、将对应上述关键信息的问题与上述关键信息组成问答对,对上述问答对进行存储,得到上述问答库。
如图2所示,一种问答库生成流程图,包括:
获取基础的文本数据;对于一家酒店来说,本身在官网中就有酒店的介绍信息,在内部的宣传手册以及客房的入住说明中也有相关的介绍信息,此外在外部的平台,例如美团、携程,也有用户的点评数据。上述介绍信息与点评数据都可以作为文本数据,汇总后作为问答库的基础数据来源,其中,上述文本数据相当于上述基础信息库。
获取答案候选,上述答案候补相当于上述关键信息;
根据候选答案,抽取上下文,其中,上述上下文相当于上述对应上述关键数据的信息片段;
根据上下文解析得到问题,相当于上述利用上述问题信息替换上述信息片段对应的上述关键信息,生成对应上述关键信息的问题;
获取问答对,扩充问答库。
通过获取上述基础信息库中的关键信息,其中,上述关键信息包括关键数据与属性信息;基于上述关键数据确定对应上述关键数据的信息片段;基于上述关键数据查找到的对应上述关键数据的信息片段作为问题题干,不依靠已有的人工经验和历史的问答数据确定题干,进而避免了人工查找或者对历史的问答数据进行统计,提高了问答库生成的效率;基于上述属性信息与预设问题列表获取对应上述属性信息的问题信息,其中,上述预设问题列表包括不同的属性信息与对应上述不同属性信息的问题信息;利用上述问题信息替换上述信息片段对应的上述关键信息,生成对应上述关键信息的问题;根据上述关键信息的属性信息确定对应上述关键信息的问题信息,例如,上述关键信息的属性信息为数字,则对应数字的问题信息为多少,实现了对应上述关键信息的生成,不需要依靠人工经验,提高了问答库生成的效率;将对应上述关键信息的问题与上述关键信息组成问答对,对上述问答对进行存储,得到上述问答库。
在一种可能的实施方式中,上述获取上述基础信息库中的关键信息的步骤,包括:
对上述基础信息库中的基础信息进行分割,得到文本信息;
对上述文本信息进行词性分析和命名体识别,得到初始关键信息;
基于预设筛选规则对上述初始关键信息进行筛选,得到上述关键信息,其中,上述预设筛选规则为能够删除至少一种词性的初始关键信息的规则。
示例性的,利用已有的词法分析器对句子进行词性(POS)和命名体识别(NER)标注处理,保留其中的时间、数量、人名、地名、机构名(TIME,NUM,NR,LOC,ORG)等关键类别信息AnswerType,作为候选答案Answer,上述候选答案相当于上述关键信息。例如,“酒店拥有客房128间,是由国外著名设计师按照星级酒店标准打造,以时尚优雅为风格,以梦幻、温馨、浪漫为特色”其中的128为数量,可以作为上述关键信息。
实现了不依靠已有的人工经验和历史的问答数据获取关键信息的过程,避免了人工筛选的误差与搜索历史的问答数据带来的计算量过大的问题。
在一种可能的实施方式中,上述对上述基础信息库中的基础信息进行分割的步骤,包括:
通过识别句号、分号、问号或者叹号的方式对上述基础信息库中的基础信息进行分割。
示例性的,根据识别出的候选答案,在原文中可以找到其所属的句子,对于截取候选答案所在的片段进行保留,作为上下文Context。
在一种可能的实施方式中,上述基于上述关键数据确定对应上述关键数据的信息片段的步骤,包括:
基于上述关键数据查找对应上述关键信息的上述文本信息;
通过识别逗号或者分号的方式对上述文本信息进行分割,得到对应上述关键数据的信息片段。
示例性的,上下文片段则以逗号、分号为分割依据。例如,句子“酒店拥有客房128间,是由国外著名设计师按照星级酒店标准打造,以时尚优雅为风格,以梦幻、温馨、浪漫为特色”得到答案的所在上下文片段为“酒店拥有客房128间”,其中,上述上下文片段相当于上述信息片段。
在一种可能的实施方式中,在上述将对应上述关键信息的问题与上述关键信息组成问答对的步骤之前,还包括:
基于语法和语义验证上述对应上述关键信息的问题的合理性;
若上述对应上述关键信息的问题不合理,则删除上述对应上述关键信息的问题;
若上述对应上述关键信息的问题合理,则将对应上述关键信息的问题与上述关键信息组成问答对。
在一种可能的实施方式中,上述基于语法和语义验证上述对应上述关键信息的问题的合理性的步骤,包括:
将上述对应上述关键信息的问题作为第一搜索词;
将上述对应上述关键信息的信息片段作为第二搜索词;
在外部数据库中搜索上述第一搜索词与上述第二搜索词,分别获取对应上述第一搜索词的第一热度频次与对应上述第二搜索词的第二热度频次;
通过上述第一热度频次与上述第二热度频次验证上述对应上述关键信息的问题的合理性。
在一种可能的实施方式中,上述通过上述第一热度频次与上述第二热度频次验证上述对应上述关键信息的问题的合理性的步骤,包括:
计算上述第一热度频次与上述第二热度频次的比值;
通过比较上述比值与预设值的方式,验证上述对应上述关键信息的问题的合理性;
若上述比值大于上述预设值,则对应上述关键信息的问题的不合理,不进行存储。
示例性的,Answer对应的question,为搜索词,即,将上述对应上述关键信息的问题作为第一搜索词,利用互联网搜索引,例如,百度,谷歌等,进行搜索,返回找到的第一热度频次,该数值表征了问题的热度频次Answer对应的context,为搜索词,即,将上述对应上述关键信息的信息片段作为第二搜索词,利用互联网搜索引(百度,谷歌等),进行搜索,返回找到的第二热度频次,该数值表征了上下文的热度频次。
计算比值r=第二热度频次/第一热度频次,当r表征了问句和答案的比例关系。r小于某阈值,则可以采用此问题的说法。本例中,r取0.01。
例如搜索“酒店有多少间房”有n个结果,而搜索“酒店有128间房”有N个结果,r<n/N,则可以保留此问答对。
第二方面,如图3所示,本申请实施例提供了一种问答库生成装置,包括:
数据获取模块201,用于获取上述基础信息库中的关键信息,其中,上述关键信息包括关键数据与属性信息;
查找模块202,用于基于上述关键数据确定对应上述关键数据的信息片段;
对比模块203,用于基于上述属性信息与预设问题列表获取对应上述属性信息的问题信息,其中,上述预设问题列表包括不同的属性信息与对应上述不同属性信息的问题信息;
替换模块204,用于利用上述问题信息替换上述信息片段对应的上述关键信息,生成对应上述关键信息的问题;
存储模块205,用于将对应上述关键信息的问题与上述关键信息组成问答对,对上述问答对进行存储,得到上述问答库。
第三方面,请参考图4,本申请实施例提供了一种电子设备,包括存储器310、处理器320及存储在存储器320上并可在处理器320上运行的计算机程序311,处理器320执行计算机程序311时实现以下步骤:获取上述基础信息库中的关键信息,其中,上述关键信息包括关键数据与属性信息;基于上述关键数据确定对应上述关键数据的信息片段;基于上述属性信息与预设问题列表获取对应上述属性信息的问题信息,其中,上述预设问题列表包括不同的属性信息与对应上述不同属性信息的问题信息;利用上述问题信息替换上述信息片段对应的上述关键信息,生成对应上述关键信息的问题;将对应上述关键信息的问题与上述关键信息组成问答对,对上述问答对进行存储,得到上述问答库。
第四方面,请参考图5,本申请实施例提供了本实施例提供了一种计算机可读存储介质400,其上存储有计算机程序411,该计算机程序411被处理器执行时实现如下步骤:获取上述基础信息库中的关键信息,其中,上述关键信息包括关键数据与属性信息;基于上述关键数据确定对应上述关键数据的信息片段;基于上述属性信息与预设问题列表获取对应上述属性信息的问题信息,其中,上述预设问题列表包括不同的属性信息与对应上述不同属性信息的问题信息;利用上述问题信息替换上述信息片段对应的上述关键信息,生成对应上述关键信息的问题;将对应上述关键信息的问题与上述关键信息组成问答对,对上述问答对进行存储,得到上述问答库。
在本申请实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
又例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,再例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请实施例提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请实施例各个实施例上述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上上述实施例,仅为本申请实施例的具体实施方式,用以说明本申请实施例的技术方案,而非对其限制,本申请实施例的保护范围并不局限于此,尽管参照前述实施例对本申请实施例进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的范围。都应涵盖在本申请实施例的保护范围之内。因此,本申请实施例的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种问答库生成方法,其特征在于,包括:
获取所述基础信息库中的关键信息,其中,所述关键信息包括关键数据与属性信息;
基于所述关键数据确定对应所述关键数据的信息片段;
基于所述属性信息与预设问题列表获取对应所述属性信息的问题信息,其中,所述预设问题列表包括不同的属性信息与对应所述不同属性信息的问题信息;
利用所述问题信息替换所述信息片段对应的所述关键信息,生成对应所述关键信息的问题;
将对应所述关键信息的问题与所述关键信息组成问答对,对所述问答对进行存储,得到所述问答库。
2.根据权利要求1所述的问答库生成方法,其特征在于,所述获取所述基础信息库中的关键信息的步骤,包括:
对所述基础信息库中的基础信息进行分割,得到文本信息;
对所述文本信息进行词性分析和命名体识别,得到初始关键信息;
基于预设筛选规则对所述初始关键信息进行筛选,得到所述关键信息,其中,所述预设筛选规则为能够删除至少一种词性的初始关键信息的规则。
3.根据权利要求2所述的问答库生成方法,其特征在于,所述对所述基础信息库中的基础信息进行分割的步骤,包括:
通过识别句号、分号、问号或者叹号的方式对所述基础信息库中的基础信息进行分割。
4.根据权利要求2所述的问答库生成方法,其特征在于,所述基于所述关键数据确定对应所述关键数据的信息片段的步骤,包括:
基于所述关键数据查找对应所述关键信息的所述文本信息;
通过识别逗号或者分号的方式对所述文本信息进行分割,得到对应所述关键数据的信息片段。
5.根据权利要求1所述的问答库生成方法,其特征在于,在所述将对应所述关键信息的问题与所述关键信息组成问答对的步骤之前,还包括:
基于语法和语义验证所述对应所述关键信息的问题的合理性;
若所述对应所述关键信息的问题不合理,则删除所述对应所述关键信息的问题;
若所述对应所述关键信息的问题合理,则将对应所述关键信息的问题与所述关键信息组成问答对。
6.根据权利要求5所述的问答库生成方法,其特征在于,所述基于语法和语义验证所述对应所述关键信息的问题的合理性的步骤,包括:
将所述对应所述关键信息的问题作为第一搜索词;
将所述对应所述关键信息的信息片段作为第二搜索词;
在外部数据库中搜索所述第一搜索词与所述第二搜索词,分别获取对应所述第一搜索词的第一热度频次与对应所述第二搜索词的第二热度频次;
通过所述第一热度频次与所述第二热度频次验证所述对应所述关键信息的问题的合理性。
7.根据权利要求6所述的问答库生成方法,其特征在于,所述通过所述第一热度频次与所述第二热度频次验证所述对应所述关键信息的问题的合理性的步骤,包括:
计算所述第一热度频次与所述第二热度频次的比值;
通过比较所述比值与预设值的方式,验证所述对应所述关键信息的问题的合理性;
若所述比值大于所述预设值,则对应所述关键信息的问题的不合理,不进行存储。
8.一种问答库生成装置,其特征在于,包括:
数据获取模块,用于获取所述基础信息库中的关键信息,其中,所述关键信息包括关键数据与属性信息;
查找模块,用于基于所述关键数据确定对应所述关键数据的信息片段;
对比模块,用于基于所述属性信息与预设问题列表获取对应所述属性信息的问题信息,其中,所述预设问题列表包括不同的属性信息与对应所述不同属性信息的问题信息;
替换模块,用于利用所述问题信息替换所述信息片段对应的所述关键信息,生成对应所述关键信息的问题;
存储模块,用于将对应所述关键信息的问题与所述关键信息组成问答对,对所述问答对进行存储,得到所述问答库。
9.一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7中任一项所述的问答库生成方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的问答库生成方法的步骤。
CN202110400261.2A 2021-04-14 2021-04-14 一种问答库生成方法及相关设备 Pending CN113064982A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110400261.2A CN113064982A (zh) 2021-04-14 2021-04-14 一种问答库生成方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110400261.2A CN113064982A (zh) 2021-04-14 2021-04-14 一种问答库生成方法及相关设备

Publications (1)

Publication Number Publication Date
CN113064982A true CN113064982A (zh) 2021-07-02

Family

ID=76566767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110400261.2A Pending CN113064982A (zh) 2021-04-14 2021-04-14 一种问答库生成方法及相关设备

Country Status (1)

Country Link
CN (1) CN113064982A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109661663A (zh) * 2016-09-05 2019-04-19 国立研究开发法人情报通信研究机构 上下文解析装置以及用于其的计算机程序

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109661663A (zh) * 2016-09-05 2019-04-19 国立研究开发法人情报通信研究机构 上下文解析装置以及用于其的计算机程序
CN109661663B (zh) * 2016-09-05 2023-09-19 国立研究开发法人情报通信研究机构 上下文解析装置以及计算机可读记录介质

Similar Documents

Publication Publication Date Title
US9524291B2 (en) Visual display of semantic information
CN110765247B (zh) 一种用于问答机器人的输入提示方法及装置
JP2015506515A (ja) タグをドキュメントに自動的に追加するための方法、装置およびコンピュータ記憶媒体
CN103559313B (zh) 搜索方法及装置
CN111813961B (zh) 基于人工智能的数据处理方法、装置及电子设备
JP2022047291A (ja) 情報処理装置、方法、及びプログラム
CN113282762A (zh) 知识图谱构建方法、装置、电子设备和存储介质
CN112507139A (zh) 基于知识图谱的问答方法、系统、设备及存储介质
CN113064982A (zh) 一种问答库生成方法及相关设备
Sunuwar et al. Comparative Analysis of Relational and Graph Databases for Data Provenance: Performance, Queries, and Security Considerations
US20220207087A1 (en) Optimistic facet set selection for dynamic faceted search
CN110209780A (zh) 一种问题模板生成方法、装置、服务器及存储介质
US20210271637A1 (en) Creating descriptors for business analytics applications
CN109241075A (zh) 指标基础数据的处理方法、设备及计算机可读存储介质
EP2778982A1 (en) Attribute detection
CN116450664A (zh) 数据处理方法、装置、设备和存储介质
CN111125332A (zh) 计算词的tf-idf值的方法、装置、设备及存储介质
CN113704519B (zh) 一种数据集的确定方法、装置、计算机设备以及存储介质
CN110047569A (zh) 基于胸片报告生成问答数据集的方法、装置及介质
CN112989011B (zh) 数据查询方法、数据查询装置和电子设备
CN112416754B (zh) 一种模型评测方法、终端、系统及存储介质
CN114610955A (zh) 一种智能检索方法、装置、电子设备及存储介质
CN114416848A (zh) 基于数据仓库的数据血缘关系处理方法及装置
CN114237588A (zh) 一种代码仓库选择方法、装置、设备及存储介质
CN113515630A (zh) 三元组生成和校验方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 702, 7 / F, 67 North Fourth Ring Road West, Haidian District, Beijing

Applicant after: Beijing Yunji Technology Co.,Ltd.

Address before: Room 702, 7 / F, 67 North Fourth Ring Road West, Haidian District, Beijing

Applicant before: BEIJING YUNJI TECHNOLOGY Co.,Ltd.