CN111368093A - 信息获取方法、装置、电子设备及计算机可读存储介质 - Google Patents

信息获取方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111368093A
CN111368093A CN202010121475.1A CN202010121475A CN111368093A CN 111368093 A CN111368093 A CN 111368093A CN 202010121475 A CN202010121475 A CN 202010121475A CN 111368093 A CN111368093 A CN 111368093A
Authority
CN
China
Prior art keywords
retrieval
question
entity
information
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010121475.1A
Other languages
English (en)
Other versions
CN111368093B (zh
Inventor
梁天新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN202010121475.1A priority Critical patent/CN111368093B/zh
Publication of CN111368093A publication Critical patent/CN111368093A/zh
Application granted granted Critical
Publication of CN111368093B publication Critical patent/CN111368093B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Abstract

本申请提供了一种信息获取方法、装置、电子设备及计算机可读存储介质。所述方法包括:调用实体识别模型对获取的待解答问题进行识别处理,得到实体检索词;调用问题分类模型对所述待解答问题进行分类处理,确定所述待解答问题对应的目标问题类别;根据问题类别与查询模板之间的对应关系,获取所述目标问题类别对应的目标查询模板;调用所述目标查询模板根据所述实体检索词在预置数据库中进行信息检索,获取所述实体检索词对应的检索信息。本申请能够提升海量提问的准确率。

Description

信息获取方法、装置、电子设备及计算机可读存储介质
技术领域
本申请涉及信息检索技术领域,特别是涉及一种信息获取方法、装置、电子设备及计算机可读存储介质。
背景技术
知识图谱(Knowledge Graph)又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。为学科研究提供切实的、有价值的参考。
当前知识图谱领域的一个重大问题是应用落地,一般分为两个方面:推荐系统和问答系统,问答系统往往需要大量的人工标注,确定其中包含的实体和意图,当前模型仅仅依赖字典和单意图识别的方式是不能够满足知识图谱问答需求的。
发明内容
本申请提供一种信息获取方法、装置、电子设备及计算机可读存储介质,以解决现有技术中的问答系统需要大量的人工标注,确定其中包含的实体和意图,当前模型仅仅依赖字典和单意图识别的方式不能够满足知识图谱问答需求的问题。
为了解决上述问题,本申请公开了一种信息获取方法,包括:
调用实体识别模型对获取的待解答问题进行识别处理,得到实体检索词;
调用问题分类模型对所述待解答问题进行分类处理,确定所述待解答问题对应的目标问题类别;
根据问题类别与查询模板之间的对应关系,获取所述目标问题类别对应的目标查询模板;
调用所述目标查询模板根据所述实体检索词在预置数据库中进行信息检索,获取所述实体检索词对应的检索信息。
可选地,所述实体识别模型通过以下方式训练得到:
获取包含多个问题的问题集合;
对所述问题集合中的多个问题分别进行标注处理,生成标注问题集合;
采用所述标注问题集合对预训练实体识别模型进行实体抽取和词性训练,得到所述实体识别模型。
可选地,在所述根据问题类别与查询模板之间的对应关系,获取所述目标问题类别对应的目标查询模板之前,还包括:
对所述标注问题集合中的多个标注问题进行范化处理,生成范化问题集合;
将所述范化问题集合中的多个范化问题进行分类处理,得到多个所述范化问题的问题类别,生成分类问题集合;
根据所述分类问题集合中的多个所述问题类别,编写得到多个所述问题类别对应的查询模板。
可选地,所述将所述范化问题集合中的多个范化问题进行分类处理,得到多个所述范化问题的问题类别,生成分类问题集合,包括:
采用预置分类模型对所述多个范化问题进行分类处理,得到置信度大于设定阈值的一级问题类别;
获取所述多个范化问题中置信度小于或者等于所述设定阈值的至少一个范化问题;
对所述至少一个范化问题进行二次分类处理,得到至少一个二级问题类别;
根据所述多个范化问题、所述一级问题类别和所述至少一个二级问题类别,生成所述分类问题集合。
可选地,所述调用所述目标查询模板根据所述实体检索词在预置数据库中进行信息检索,获取所述实体检索词对应的检索信息,包括:
响应于所述实体检索词有多个,在调用所述目标查询模板根据所述实体检索词在预置数据库中进行信息检索的过程中,在每获得预置个数的检索信息时,执行一次所有实体检索词的联合检索,得到联合检索信息;
迭代执行所述在每获得预置个数的检索信息时,执行一次所有实体检索词的联合检索,得到联合检索信息的步骤,直到在所述预置数据库中检索完成时,将得到的所有检索信息和所有联合检索信息所述检索信息。
为了解决上述问题,本申请公开了一种信息获取装置,包括:
实体检索词获取模块,用于调用实体识别模型对获取的待解答问题进行识别处理,得到实体检索词;
目标问题类别确定模块,用于调用问题分类模型对所述待解答问题进行分类处理,确定所述待解答问题对应的目标问题类别;
目标查询模板获取模块,用于根据问题类别与查询模板之间的对应关系,获取所述目标问题类别对应的目标查询模板;
检索信息获取模块,用于调用所述目标查询模板根据所述实体检索词在预置数据库中进行信息检索,获取所述实体检索词对应的检索信息。
可选地,所述实体识别模型通过以下模块训练得到:
问题集合获取模块,用于获取包含多个问题的问题集合;
标注集合生成模块,用于对所述问题集合中的多个问题分别进行标注处理,生成标注问题集合;
识别模型获取模块,用于采用所述标注问题集合对预训练实体识别模型进行实体抽取和词性训练,得到所述实体识别模型。
可选地,还包括:
范化问题集合生成模块,用于对所述标注问题集合中的多个标注问题进行范化处理,生成范化问题集合;
分类问题集合生成模块,用于将所述范化问题集合中的多个范化问题进行分类处理,得到多个所述范化问题的问题类别,生成分类问题集合;
查询模板编写模块,用于根据所述分类问题集合中的多个所述问题类别,编写得到多个所述问题类别对应的查询模板。
可选地,所述分类问题集合生成模块包括:
一级问题类别获取单元,用于采用预置分类模型对所述多个范化问题进行分类处理,得到置信度大于设定阈值的一级问题类别;
范化问题获取单元,用于获取所述多个范化问题中置信度小于或者等于所述设定阈值的至少一个范化问题;
二级问题类别获取单元,用于对所述至少一个范化问题进行二次分类处理,得到至少一个二级问题类别;
分类问题集合生成单元,用于根据所述多个范化问题、所述一级问题类别和所述至少一个二级问题类别,生成所述分类问题集合。
可选地,所述检索信息获取模块包括:
联合检索信息获取单元,用于响应于所述实体检索词有多个,在调用所述目标查询模板根据所述实体检索词在预置数据库中进行信息检索的过程中,在每获得预置个数的检索信息时,执行一次所有实体检索词的联合检索,得到联合检索信息;
最终检索结果获取单元,用于迭代执行所述联合检索信息获取单元,直到在所述预置数据库中检索完成时,将得到的所有检索信息和所有联合检索信息作为所述检索信息。
为了解决上述问题,本申请公开了一种电子设备,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述的信息获取方法。
为了解决上述问题,本申请公开了一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任一项所述的信息获取方法。
与现有技术相比,本申请包括以下优点:
本申请实施例提供了一种信息获取方案,通过调用实体识别模型对获取的待解答问题进行识别处理,得到实体检索词,调用问题分类模型对待解答问题进行分类处理,确定待解答问题对应的目标问题类别,根据问题类别与查询模板之间的对应关系,获取目标问题类别对应的目标查询模板,调用目标查询模板根据实体检索词在预置数据库中进行信息检索,获取实体检索词对应的检索信息。本申请实施例通过针对不同的问题类型设置不同的查询模板,无需进行问题分类,此种文本匹配的方式能够提升海量提问的准确率。
附图说明
图1示出了本申请实施例提供的一种信息获取方法的步骤流程图;
图2示出了本申请实施例提供的另一种信息获取方法的步骤流程图;
图3示出了本申请实施例提供的一种问题系统的示意图;
图4示出了本申请实施例提供的一种信息获取装置的结构示意图;
图5示出了本申请实施例提供的另一种信息获取装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
参照图1,示出了本申请实施例提供的一种信息获取方法的步骤流程图,该信息获取方法具体可以包括如下步骤:
步骤101:调用实体识别模型对获取的待解答问题进行识别处理,得到实体检索词。
本申请实施例可以应用于在问答系统中获取待解答问题对应的答案的场景中。
待解答问题是指用于在问答系统中获取相应答案的问题。
在某些示例中,待解答问题可以是由用户输入的问题,例如,用户可以在搜索引擎中输入所需获取答案的问题,如“毕加索的成名代表作是什么?”等。
在某些示例中,待解答问题还可以是从互联网中获取的问题,如通过在知识图谱竞赛提问语句中获取待解答问题等。
当然,不仅限于此,在具体实现中,还可以采用其它方式获取待解答问题,具体地,可以根据实际情况而定,本申请实施例对此不加以限制。
实体识别模型是指用于识别出待解答问题中的实体词的模型。对于实体识别模型的训练过程将在下述实施例中进行详细描述,本申请实施例在此不再加以赘述。
实体检索词是指待解答问题中识别得到的用于在知识库中进行信息检索的实体词,例如,待解答问题为“毕加索的成名代表作是什么?”,对该待解答问题进行识别得到的实体检索词可以为“毕加索”、“成名代表作”等。
在获取到待解答问题之后,可以调用实体识别模型对待解答问题进行实体识别,以得到待解答问题中所包含的实体检索词。
在调用实体识别模型识别出待解答问题中的实体检索词之后,执行步骤102。
步骤102:调用问题分类模型对所述待解答问题进行分类处理,确定所述待解答问题对应的目标问题类别。
问题类型模型是指用于对待解答问题进行分类的模型。对于问题分类模型的训练过程将在下述实施例中进行详细描述,本申请实施例在此不再加以赘述。
目标问题类别是指待解答问题所对应的类别,如财经类、彩票类、房产类、家具类等等。具体地,可以根据实际情况而定,本申请实施例对此不加以限制。
在获取到待解答问题之后,可以调用问题分类模型对待解答问题进行分类处理,从而可以识别出待解答问题对应的问题类型,即待解答问题的目标问题类别。
在调用问题分类模型识别出待解答问题对应的目标问题类别之后,执行步骤103。
步骤103:根据问题类别与查询模板之间的对应关系,获取所述目标问题类别对应的目标查询模板。
在问答系统中可以预先存储问题类别与查询模板之间的对应关系,在获取待解答问题对应的目标问题类别之后,可以根据问题类别与查询模板之间的对应关系,获取目标问题类别对应的目标查询模板,例如,在问答系统中可以以列表的形式保存问题类别与查询模板之间的对应关系,如下述表1所示:
表1:
问题类别 查询模板
财经 模板A
彩票 模板B
家居 模板C
从上述表1可以得知,财经问题类别对应模板A,彩票问题类别对应于模板B,家居问题类别对应于模板C,而在目标问题类别为家居类别时,则目标查询模板即为模板C。而在目标问题类别为财经问题类别时,则目标查询模板即为模板A。
可以理解地,上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例,不作为对本申请实施例的唯一限制。
在根据问题类别与查询模板之间的对应关系,获取目标问题类别对应的目标查询模板之后,执行步骤104。
步骤104:调用所述目标查询模板根据所述实体检索词在预置数据库中进行信息检索,获取所述实体检索词对应的检索信息。
预置数据库是指预先生成的用于存储各问题的检索结果信息的数据库。
检索信息是指通过实体检索词在预置数据中检索到的待解答问题对应的信息,即待解答问题的答案。
在获取待解答问题对应的目标查询模板,并识别出待解答问题中的实体检索词之后,则可以调用目标查询模板根据实体检索词在预置数据中进行信息检索,从而获取实体检索词对应的检索信息。
本申请实施例通过针对不同的问题类型设置不同的查询模板,无需进行问题分类,此种文本匹配的方式能够提升海量提问的准确率。
本申请实施例提供的信息获取方法,通过调用实体识别模型对获取的待解答问题进行识别处理,得到实体检索词,调用问题分类模型对待解答问题进行分类处理,确定待解答问题对应的目标问题类别,根据问题类别与查询模板之间的对应关系,获取目标问题类别对应的目标查询模板,调用目标查询模板根据实体检索词在预置数据库中进行信息检索,获取实体检索词对应的检索信息。本申请实施例通过针对不同的问题类型设置不同的查询模板,无需进行问题分类,此种文本匹配的方式能够提升海量提问的准确率。
参照图2,示出了本申请实施例提供的另一种信息获取方法的步骤流程图,该信息获取方法具体可以包括如下步骤:
步骤201:对标注问题集合中的多个标注问题进行范化处理,生成范化问题集合。
本申请实施例可以应用于在问答系统中获取待解答问题对应的答案的场景中。
标注问题集合是指通过对问题集合中的每个问题进行标注,从而得到每个问题对应的标注,结合这些标注问题即生成了标注问题集合。
对于标注问题集合的生成过程,可以先结合实体识别模型的训练过程进行描述。
实体识别模型是指用于识别出待解答问题中的实体词的模型。实体识别模型的训练过程可以结合下述步骤来完成:
步骤S1:获取包含多个问题的问题集合。
在本申请实施例中,问题集合是指由多个问题所形成的集合。
在本实施例中,可以预先生成一个空的集合,通过知识图谱竞赛提问语句、百度百科爬取问题、各类问题网站的提问问题、其余数据源问题等方式获取多个问题,并将多个问题添加至空的集合中,从而可以生成一个包含多个问题的问题集合。
在获取包含多个问题的问题集合之后,执行步骤S2。
步骤S2:对所述问题集合中的多个问题分别进行标注处理,生成标注问题集合。
标注问题集合是指对问题集合中的多个问题分别进行标注之后,得到的多个标注问题所形成的集合。
在获取到包含多个问题的问题集合之后,可以对问题集合中的多个问题分别进行标注处理,具体地标注方式可以为:以人名、地名、机构、名称、职业等属性问题集合中的多个问题进行标注。
在对多个问题分别进行标注之后,可以得到多个标注问题,结合多个标注问题即可生成一个标注问题集合。
在生成标注问题集合之后,执行步骤S3。
步骤S3:采用所述标注问题集合对预训练实体识别模型进行实体抽取和词性训练,得到所述实体识别模型。
在得到标注问题集合之后,可以采用标注问题集合对预训练实体识别模型进行实体抽取和词性训练,从而可以得到实体识别模型。具体地过程可以为:首先,可以对模型BERT+IDCNN指针神经网络和BERT+IDCNN+CRF网络进行预训练,以使BERT+IDCNN指针神经网络和BERT+IDCNN+CRF网络具备初始识别能力,然后,结合标注问题集合对预训练的BERT+IDCNN指针神经网络和BERT+IDCNN+CRF网络进行二次训练,包括实体抽取训练和词性训练,从而可以得到一个集成模型EN-IDCNN,即实体识别模型。
在本申请中,实体识别模型可以是采用投票权重的方式对识别出的实体进行判断,准确率和召回率要高于单一模型。
在上述训练过程中得到标注问题集合之后,可以对标注问题集合中的多个标注问题分别进行范化处理,例如,对已经标注的实体:人名,地名,机构,名称,制定指代汉字,叒、叕、焱、燚、淼、
Figure BDA0002393108340000091
等等,通过数据进行映射。
在对每个标注问题进行范化处理之后,可以得到每个标注问题对应的范化后的问题,结合这些范化后的问题,可以生成一个范化问题集合。
在生成范化问题集合之后,执行步骤202。
步骤202:将所述范化问题集合中的多个范化问题进行分类处理,得到多个所述范化问题的问题类别,生成分类问题集合。
在得到范化问题集合之后,可以将范化问题集合中的多个范化问题进行分类处理,可以得到每个范化问题对应的问题类别,以得到分类问题集合,具体地:
可以将分类问题集合命名为:QS10,{x1,...x10},具体可以包括如下分类:
Figure BDA0002393108340000101
当然,上述过程仅是将范化问题进行了初始分类,即先分成多个大类,而对于每个大类还可以包括一个或多个子类,具体地,可以结合下述具体实现方式进行详细描述。
在本申请实施例的一种具体实现方式中,上述步骤202可以包括:
子步骤M1:采用预置分类模型对所述多个范化问题进行分类处理,得到置信度大于设定阈值的一级问题类别。
在本申请实施例中,预置分类模型是指用于对问题进行分类的模型,预置分类模型可以为TextCNN和fastText等,具体地,可以根据业务需求而定,本申请实施例对此不加以限制。
设定阈值是指由业务人员预先设置的用于区分一级问题类别和二级问题类别的阈值,对于设定阈值的具体数值可以根据实际情况而定,本申请实施例对此不加以限制。
在获取范化问题集合之后,可以采用预置分类模型对范化问题集合中的多个范化问题进行分类处理,从而可以得到置信度大于设定阈值的一级问题类别,例如,在搜狗新闻数据集合上训练的TextCNN和fastText两个模型,分别得到98%以上的准确率停止训练,得到的一级问题类别可以是如:
Figure BDA0002393108340000111
在将范化问题集合中的多个范化问题进行分类处理,得到每个范围问题的问题类别,生成分类问题集合之后,执行子步骤M2。
子步骤M2:获取所述多个范化问题中置信度小于或者等于所述设定阈值的至少一个范化问题。
在采用预置分类模型对多个范化问题进行分类之后,可以将置信度大于设定阈值的范化问题划分为一级问题类别,并获取多个范化问题中置信度小于或者等于设定阈值的至少一个范化问题,然后,执行子步骤M3。
子步骤M3:对所述至少一个范化问题进行二次分类处理,得到至少一个二级问题类别。
对获取的置信度小于或者等于设定阈值的至少一个范化问题,可以进行二次分类处理,以得到至少一个二级问题类别,例如,在TextCNN和fastText分类中,置信度较低,不在10分类中的问题,进行二次分类
此处加入手工标注:将置信度较低依靠TextCnn的迭代分类方法的继续分出N个类别。
此刻分类总数为10+N,数据集为QSC。形势如下:
{x1,...x10,x11,...x10+n},每个x代表一个分类集合。
对QSC中的数据集合分类再次进行细分,本次分类主要是对提问文本中进行细致的分类,如下所示:
{x1 10+n,...x3 10+n}
x1={x1 1,...x3 1}分别表示x1下的三种推理阶段:
一阶推理:
例子1-1:只写一个式子
q381:被誉为童话王国的是哪个国家?
select?xwhere{?x<誉称>"童话王国".}
<丹麦>
二阶推理:
例子2-1:
q1092:"黑旋风"在梁山座次排行第几?
select?ywhere{?x<别名>"黑旋风,铁牛".?x<梁山座次>?y.}
"22"
例子2-2:
q895:武汉大学出了哪些文学家
select?xwhere{?x<职业><文学家>.?x<毕业院校><武汉大学>.}
<贺京沙><雒世铭>
三阶推理:
q896:汽车制造行业创立于"1953-07-15"的公司的外文名是??
select?ywhere{?x<所属行业><汽车制造>.?x<创立时间>"1953-07-15".?x<英文名称>?y.}
"FAW"
以及多阶推理,新数据集合命名为:QSN,数据集合如下:
[{x1 1,...x3 1},{x1 2,...x3 2},...,{x1 10+n,...x3 10+n}]其分类总数为M(M<3*(10+n))。
可以理解地,上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例,不作为对本申请实施例的唯一限制。
在对至少一个范化问题进行二次分类处理,得到至少一个二级问题类别之后,执行子步骤M4。
子步骤M4:根据所述多个范化问题、所述一级问题类别和所述至少一个二级问题类别,生成所述分类问题集合。
在对范化问题集合中的多个范化问题进行如上所述的分类处理之后,可以根据多个范化问题、划分的一级问题类别和至少一个二级问题类别,生成分类问题集合。
在将范化问题集合中的多个范化问题进行分类处理,得到每个范围问题的问题类别,生成分类问题集合之后,执行步骤203。
步骤203:根据所述分类问题集合中的多个所述问题类别,编写得到多个所述问题类别对应的查询模板。
在得到分类问题集合之后,可以根据分类问题集合中的多个问题类别,编写每个问题类别对应的查询模板,具体地,词阶段对上面构建的分类M,进行查询语句编写,每个种类编写一套查询语句模版,即每个问题类别对应的查询模板。例如,q381:被誉为童话王国的是哪个国家?对应的查询语句模板可以为:select?xwhere{?x<誉称>"童话王国".}<丹麦>。
在根据分类问题集合中的多个问题类别,编写得到每个问题类别对应的查询模板之后,执行步骤204。
步骤204:调用实体识别模型对获取的待解答问题进行识别处理,得到实体检索词。
待解答问题是指用于在问答系统中获取相应答案的问题。
在某些示例中,待解答问题可以是由用户输入的问题,例如,用户可以在搜索引擎中输入所需获取答案的问题,如“毕加索的成名代表作是什么?”等。
在某些示例中,待解答问题还可以是从互联网中获取的问题,如通过在知识图谱竞赛提问语句中获取待解答问题等。
当然,不仅限于此,在具体实现中,还可以采用其它方式获取待解答问题,具体地,可以根据实际情况而定,本申请实施例对此不加以限制。
实体检索词是指待解答问题中识别得到的用于在知识库中进行信息检索的实体词,例如,待解答问题为“毕加索的成名代表作是什么?”,对该待解答问题进行识别得到的实体检索词可以为“毕加索”、“成名代表作”等。
在获取到待解答问题之后,可以调用实体识别模型对待解答问题进行实体识别,以得到待解答问题中所包含的实体检索词。
在调用实体识别模型对获取的待解答问题进行实体识别,并识别出待解答问题中的实体检索词之后,执行步骤205。
步骤205:调用问题分类模型对所述待解答问题进行分类处理,确定所述待解答问题对应的目标问题类别。
问题类型模型是指用于对待解答问题进行分类的模型。问题类型模型的训练可以是通过对QSN数据集合的无监督学习,构建基于BERT的文本匹配式分类模型,模型名称可以为BERT-QSN。可以理解地,此处所描述的BERT-QSN是为了更好地理解本申请实施例的技术方案而列举的示例,不作为对本实施例的唯一限制。
目标问题类别是指待解答问题所对应的类别,如财经类、彩票类、房产类、家具类等等。具体地,可以根据实际情况而定,本申请实施例对此不加以限制。
在获取到待解答问题之后,可以调用问题分类模型对待解答问题进行分类处理,从而可以识别出待解答问题对应的问题类型,即待解答问题的目标问题类别。
在调用问题分类模型识别出待解答问题对应的目标问题类别之后,执行步骤206。
步骤206:根据问题类别与查询模板之间的对应关系,获取所述目标问题类别对应的目标查询模板。
在问答系统中可以预先存储问题类别与查询模板之间的对应关系,在获取待解答问题对应的目标问题类别之后,可以根据问题类别与查询模板之间的对应关系,获取目标问题类别对应的目标查询模板,例如,在问答系统中可以以列表的形式保存问题类别与查询模板之间的对应关系,如下述表1所示:
表1:
问题类别 查询模板
财经 模板A
彩票 模板B
家居 模板C
从上述表1可以得知,财经问题类别对应模板A,彩票问题类别对应于模板B,家居问题类别对应于模板C,而在目标问题类别为家居类别时,则目标查询模板即为模板C。而在目标问题类别为财经问题类别时,则目标查询模板即为模板A。
可以理解地,上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例,不作为对本申请实施例的唯一限制。
在根据问题类别与查询模板之间的对应关系,获取目标问题类别对应的目标查询模板之后,执行步骤207。
步骤207:响应于所述实体检索词有多个,在调用所述目标查询模板根据所述实体检索词在预置数据库中进行信息检索的过程中,在每获得预置个数的检索信息时,执行一次所有实体检索词的联合检索,得到联合检索信息。
预置数据库是指预先生成的用于存储各问题的检索结果信息的数据库。
在实体检索词有多个时,可以在调用目标查询模板将实体检索词分别转换为相应的查询语句,并根据转换的查询语句在预置数据库中进行信息检索,而在检索过程中,是依据单个实体检索词进行一一检索的。
在传统的检索方法中常用的是greedy(贪心算法),具体地,可以如下所示:
一阶贪心算法样例
例子6-1:
q381:被誉为童话王国的是哪个国家?
select?xwhere{?x<誉称>"童话王国".}
<丹麦>
例子6-2:
q381:被誉为童话王国的是哪个国家?
select?xwhere{"童话王国".<誉称>?x}
<丹麦>
二阶贪心算法样例
例子6-3:
q1092:"黑旋风"在梁山座次排行第几?
select?ywhere{?x<别名>"黑旋风,铁牛".?x<梁山座次>?y.}
"22"
例子6-4:
q1092:"黑旋风"在梁山座次排行第几?
select?ywhere{"黑旋风,铁牛"<别名>?x.?x<梁山座次>?y.}
"22"
通过上述方式,逐个位置构建,然后统一输入到图数据库中进行查找,但是忽略这种求交集的方式:
例子6-5:
q895:武汉大学出了哪些文学家
select?xwhere{?x<职业><文学家>.?x<毕业院校><武汉大学>.}
<贺京沙><雒世铭>
可以理解地,上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例,不作为对本申请实施例的唯一限制。
而本申请实施例为了提升检索效率,在每获得到的检索信息的个数达到预置个数时,即执行一次所有实体检索词的联合检索,从而可以得到一次联合检索信息,即采用所有的实体检索词求交集的方式进行检索,得到联合检索信息。
步骤208:迭代执行所述在每获得预置个数的检索信息时,执行一次所有实体检索词的联合检索,得到联合检索信息的步骤,直到在所述预置数据库中检索完成时,将得到的所有检索信息和所有联合检索信息作为所述检索信息。
本申请实施例通过迭代执行上述步骤207,直到在预置数据库中检索完成时,则可以将得到的所有检索信息和所有联合检索信息作为最终的检索结果。
本申请实施例通过采用联合检索的方式,不用等到贪心算法结束后才开始实验求交集这种方式,能够有效的提升检索响应时间,提升了检索命中率。
本申请实施例提供的信息获取方法,通过调用实体识别模型对获取的待解答问题进行识别处理,得到实体检索词,调用问题分类模型对待解答问题进行分类处理,确定待解答问题对应的目标问题类别,根据问题类别与查询模板之间的对应关系,获取目标问题类别对应的目标查询模板,调用目标查询模板根据实体检索词在预置数据库中进行信息检索,获取实体检索词对应的检索信息。本申请实施例通过针对不同的问题类型设置不同的查询模板,无需进行问题分类,此种文本匹配的方式能够提升海量提问的准确率。
参照图4,示出了本申请实施例提供的一种信息获取装置的结构示意图,该信息获取装置具体可以包括如下模块:
实体检索词获取模块310,用于调用实体识别模型对获取的待解答问题进行识别处理,得到实体检索词;
目标问题类别确定模块320,用于调用问题分类模型对所述待解答问题进行分类处理,确定所述待解答问题对应的目标问题类别;
目标查询模板获取模块330,用于根据问题类别与查询模板之间的对应关系,获取所述目标问题类别对应的目标查询模板;
检索信息获取模块340,用于调用所述目标查询模板根据所述实体检索词在预置数据库中进行信息检索,获取所述实体检索词对应的检索信息。
本申请实施例提供的信息获取装置,通过调用实体识别模型对获取的待解答问题进行识别处理,得到实体检索词,调用问题分类模型对待解答问题进行分类处理,确定待解答问题对应的目标问题类别,根据问题类别与查询模板之间的对应关系,获取目标问题类别对应的目标查询模板,调用目标查询模板根据实体检索词在预置数据库中进行信息检索,获取实体检索词对应的检索信息。本申请实施例通过针对不同的问题类型设置不同的查询模板,无需进行问题分类,此种文本匹配的方式能够提升海量提问的准确率。
参照图5,示出了本申请实施例提供的另一种信息获取装置的结构示意图,该信息获取装置具体可以包括如下模块:
范化问题集合生成模块410,用于对所述标注问题集合中的多个标注问题进行范化处理,生成范化问题集合;
分类问题集合生成模块420,用于将所述范化问题集合中的多个范化问题进行分类处理,得到多个所述范化问题的问题类别,生成分类问题集合;
查询模板编写模块430,用于根据所述分类问题集合中的多个所述问题类别,编写得到多个所述问题类别对应的查询模板;
实体检索词获取模块440,用于调用实体识别模型对获取的待解答问题进行识别处理,得到实体检索词;
目标问题类别确定模块450,用于调用问题分类模型对所述待解答问题进行分类处理,确定所述待解答问题对应的目标问题类别;
目标查询模板获取模块460,用于根据问题类别与查询模板之间的对应关系,获取所述目标问题类别对应的目标查询模板;
检索信息获取模块470,用于调用所述目标查询模板根据所述实体检索词在预置数据库中进行信息检索,获取所述实体检索词对应的检索信息。
可选地,所述实体识别模型通过以下模块训练得到:
问题集合获取模块,用于获取包含多个问题的问题集合;
标注集合生成模块,用于对所述问题集合中的多个问题分别进行标注处理,生成标注问题集合;
识别模型获取模块,用于采用所述标注问题集合对预训练实体识别模型进行实体抽取和词性训练,得到所述实体识别模型。
可选地,所述分类问题集合生成模块包括:
一级问题类别获取单元,用于采用预置分类模型对所述多个范化问题进行分类处理,得到置信度大于设定阈值的一级问题类别;
范化问题获取单元,用于获取所述多个范化问题中置信度小于或者等于所述设定阈值的至少一个范化问题;
二级问题类别获取单元,用于对所述至少一个范化问题进行二次分类处理,得到至少一个二级问题类别;
分类问题集合生成单元,用于根据所述多个范化问题、所述一级问题类别和所述至少一个二级问题类别,生成所述分类问题集合。
可选地,所述检索信息获取模块470包括:
联合检索信息获取单元471,用于响应于所述实体检索词有多个,在调用所述目标查询模板根据所述实体检索词在预置数据库中进行信息检索的过程中,在每获得预置个数的检索信息时,执行一次所有实体检索词的联合检索,得到联合检索信息;
最终检索结果获取单元472,用于迭代执行所述联合检索信息获取单元,直到在所述预置数据库中检索完成时,将得到的所有检索信息和所有联合检索信息作为所述检索信息。
本申请实施例提供的信息获取装置,通过调用实体识别模型对获取的待解答问题进行识别处理,得到实体检索词,调用问题分类模型对待解答问题进行分类处理,确定待解答问题对应的目标问题类别,根据问题类别与查询模板之间的对应关系,获取目标问题类别对应的目标查询模板,调用目标查询模板根据实体检索词在预置数据库中进行信息检索,获取实体检索词对应的检索信息。本申请实施例通过针对不同的问题类型设置不同的查询模板,无需进行问题分类,此种文本匹配的方式能够提升海量提问的准确率。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
另外地,本申请实施例还提供了一种电子设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述的信息获取方法。
本申请实施例还提供了一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任一项所述的信息获取方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种信息获取方法、一种信息获取装置、一种电子设备及一种计算机可读存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种信息获取方法,其特征在于,包括:
调用实体识别模型对获取的待解答问题进行识别处理,得到实体检索词;
调用问题分类模型对所述待解答问题进行分类处理,确定所述待解答问题对应的目标问题类别;
根据问题类别与查询模板之间的对应关系,获取所述目标问题类别对应的目标查询模板;
调用所述目标查询模板根据所述实体检索词在预置数据库中进行信息检索,获取所述实体检索词对应的检索信息。
2.根据权利要求1所述的方法,其特征在于,所述实体识别模型通过以下方式训练得到:
获取包含多个问题的问题集合;
对所述问题集合中的多个问题分别进行标注处理,生成标注问题集合;
采用所述标注问题集合对预训练实体识别模型进行实体抽取和词性训练,得到所述实体识别模型。
3.根据权利要求2所述的方法,其特征在于,在所述根据问题类别与查询模板之间的对应关系,获取所述目标问题类别对应的目标查询模板之前,还包括:
对所述标注问题集合中的多个标注问题进行范化处理,生成范化问题集合;
将所述范化问题集合中的多个范化问题进行分类处理,得到多个所述范化问题的问题类别,生成分类问题集合;
根据所述分类问题集合中的多个所述问题类别,编写得到多个所述问题类别对应的查询模板。
4.根据权利要求3所述的方法,其特征在于,所述将所述范化问题集合中的多个范化问题进行分类处理,得到多个所述范化问题的问题类别,生成分类问题集合,包括:
采用预置分类模型对所述多个范化问题进行分类处理,得到置信度大于设定阈值的一级问题类别;
获取所述多个范化问题中置信度小于或者等于所述设定阈值的至少一个范化问题;
对所述至少一个范化问题进行二次分类处理,得到至少一个二级问题类别;
根据所述多个范化问题、所述一级问题类别和所述至少一个二级问题类别,生成所述分类问题集合。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述调用所述目标查询模板根据所述实体检索词在预置数据库中进行信息检索,获取所述实体检索词对应的检索信息,包括:
响应于所述实体检索词有多个,在调用所述目标查询模板根据所述实体检索词在预置数据库中进行信息检索的过程中,在每获得预置个数的检索信息时,执行一次所有实体检索词的联合检索,得到联合检索信息;
迭代执行所述在每获得预置个数的检索信息时,执行一次所有实体检索词的联合检索,得到联合检索信息的步骤,直到在所述预置数据库中检索完成时,将得到的所有联合检索信息作为所述检索信息。
6.一种信息获取装置,其特征在于,包括:
实体检索词获取模块,用于调用实体识别模型对获取的待解答问题进行识别处理,得到实体检索词;
目标问题类别确定模块,用于调用问题分类模型对所述待解答问题进行分类处理,确定所述待解答问题对应的目标问题类别;
目标查询模板获取模块,用于根据问题类别与查询模板之间的对应关系,获取所述目标问题类别对应的目标查询模板;
检索信息获取模块,用于调用所述目标查询模板根据所述实体检索词在预置数据库中进行信息检索,获取所述实体检索词对应的检索信息。
7.根据权利要求6所述的装置,其特征在于,所述实体识别模型通过以下模块训练得到:
问题集合获取模块,用于获取包含多个问题的问题集合;
标注集合生成模块,用于对所述问题集合中的多个问题分别进行标注处理,生成标注问题集合;
识别模型获取模块,用于采用所述标注问题集合对预训练实体识别模型进行实体抽取和词性训练,得到所述实体识别模型。
8.根据权利要求6所述的装置,其特征在于,所述检索信息获取模块包括:
联合检索信息获取单元,用于响应于所述实体检索词有多个,在调用所述目标查询模板根据所述实体检索词在预置数据库中进行信息检索的过程中,在每获得预置个数的检索信息时,执行一次所有实体检索词的联合检索,得到联合检索信息;
最终检索结果获取单元,用于迭代执行所述联合检索信息获取单元,直到在所述预置数据库中检索完成时,将得到的所有检索信息和所有联合检索信息作为所述检索信息。
9.一种电子设备,其特征在于,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至5任一项所述的信息获取方法。
10.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行权利要求1至5中任一项所述的信息获取方法。
CN202010121475.1A 2020-02-26 2020-02-26 信息获取方法、装置、电子设备及计算机可读存储介质 Active CN111368093B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010121475.1A CN111368093B (zh) 2020-02-26 2020-02-26 信息获取方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010121475.1A CN111368093B (zh) 2020-02-26 2020-02-26 信息获取方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111368093A true CN111368093A (zh) 2020-07-03
CN111368093B CN111368093B (zh) 2024-04-30

Family

ID=71210118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010121475.1A Active CN111368093B (zh) 2020-02-26 2020-02-26 信息获取方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111368093B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836061A (zh) * 2021-01-12 2021-05-25 平安科技(深圳)有限公司 智能推荐的方法、装置以及计算机设备
CN113553483A (zh) * 2021-07-02 2021-10-26 广联达科技股份有限公司 构件检索方法、装置、电子设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180293302A1 (en) * 2017-04-06 2018-10-11 International Business Machines Corporation Natural question generation from query data using natural language processing system
CN109240901A (zh) * 2018-08-28 2019-01-18 北京小度信息科技有限公司 性能分析方法、性能分析装置、存储介质和电子设备
CN109284363A (zh) * 2018-12-03 2019-01-29 北京羽扇智信息科技有限公司 一种问答方法、装置、电子设备及存储介质
CN109522393A (zh) * 2018-10-11 2019-03-26 平安科技(深圳)有限公司 智能问答方法、装置、计算机设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180293302A1 (en) * 2017-04-06 2018-10-11 International Business Machines Corporation Natural question generation from query data using natural language processing system
CN109240901A (zh) * 2018-08-28 2019-01-18 北京小度信息科技有限公司 性能分析方法、性能分析装置、存储介质和电子设备
CN109522393A (zh) * 2018-10-11 2019-03-26 平安科技(深圳)有限公司 智能问答方法、装置、计算机设备和存储介质
CN109284363A (zh) * 2018-12-03 2019-01-29 北京羽扇智信息科技有限公司 一种问答方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836061A (zh) * 2021-01-12 2021-05-25 平安科技(深圳)有限公司 智能推荐的方法、装置以及计算机设备
CN113553483A (zh) * 2021-07-02 2021-10-26 广联达科技股份有限公司 构件检索方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN111368093B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
CN110147436B (zh) 一种基于教育知识图谱与文本的混合自动问答方法
CN110727779A (zh) 基于多模型融合的问答方法及系统
CN111368049B (zh) 信息获取方法、装置、电子设备及计算机可读存储介质
CN110674317B (zh) 一种基于图神经网络的实体链接方法及装置
CN111475623A (zh) 基于知识图谱的案件信息语义检索方法及装置
US20050086222A1 (en) Semi-automatic construction method for knowledge base of encyclopedia question answering system
CN108664599B (zh) 智能问答方法、装置、智能问答服务器及存储介质
CN116795973B (zh) 基于人工智能的文本处理方法及装置、电子设备、介质
CN108536807B (zh) 一种信息处理方法及装置
CN111539197A (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
CN113806563A (zh) 面向多源异构建筑人文史料的建筑师知识图谱构建方法
CN112686025B (zh) 一种基于自由文本的中文选择题干扰项生成方法
CN111368555B (zh) 一种数据识别方法、装置、存储介质和电子设备
CN114661872A (zh) 一种面向初学者的api自适应推荐方法与系统
CN111368093A (zh) 信息获取方法、装置、电子设备及计算机可读存储介质
CN116541493A (zh) 基于意图识别的交互应答方法、装置、设备、存储介质
CN114840685A (zh) 一种应急预案知识图谱构建方法
CN117390198A (zh) 构建电力领域科技知识图谱的方法、装置、设备及介质
CN114417008A (zh) 一种面向建设工程领域的知识图谱构建方法及系统
Aliyanto et al. Supervised probabilistic latent semantic analysis (sPLSA) for estimating technology readiness level
Zadgaonkar et al. An Approach for Analyzing Unstructured Text Data Using Topic Modeling Techniques for Efficient Information Extraction
Rasheed et al. Conversational chatbot system for student support in administrative exam information
Suta et al. Matching question and answer using similarity: an experiment with stack overflow
CN111428144A (zh) 基于dcn与lda结合的推荐方法、装置和计算机设备
CN109947953B (zh) 英语领域知识本体的构造方法、系统及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant