CN114372122A - 信息的获取方法、计算设备及存储介质 - Google Patents

信息的获取方法、计算设备及存储介质 Download PDF

Info

Publication number
CN114372122A
CN114372122A CN202111493584.7A CN202111493584A CN114372122A CN 114372122 A CN114372122 A CN 114372122A CN 202111493584 A CN202111493584 A CN 202111493584A CN 114372122 A CN114372122 A CN 114372122A
Authority
CN
China
Prior art keywords
information
sub
queried
word
matched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111493584.7A
Other languages
English (en)
Inventor
杨加音
谭玮
王浩
邱剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Cloud Computing Ltd
Original Assignee
Alibaba Cloud Computing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Cloud Computing Ltd filed Critical Alibaba Cloud Computing Ltd
Priority to CN202111493584.7A priority Critical patent/CN114372122A/zh
Publication of CN114372122A publication Critical patent/CN114372122A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本申请实施例提供一种信息的获取方法、计算设备及存储介质。在本申请实施例中,获取多个文本信息,并对多个文本信息进行拆分,确定多个对应的子信息;针对子信息,确定对应子信息对应的多个问题,多个问题是以对应子信息作为对应的答案;获取待查询信息,根据待查询信息,从具有多个问题的子信息中获取与待查询信息匹配的子信息,作为待查询信息的查询结果。其中,获取待查询信息,根据待查询信息,从具有多个问题的子信息中获取与待查询信息匹配的子信息,作为待查询信息的查询结果。能够以较为自动化的方式,来快速且准确地查询到对应的查询结果。

Description

信息的获取方法、计算设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种信息的获取方法、计算设备及存储介质。
背景技术
随着经济的发展,越来越多的领域都得到了很好的发展。但是对于一些领域仍然需要其工作人员具有较好的专业技术知识储备以及过硬的实践操作能力。特别是对于电力领域而言。这种强大的专业技术知识在培训过程中是很难获得的,且员工在上岗后很快就需要处理各种复杂系统和设备中出现的各种问题。虽然这些领域在各类问题的处理都有详细的操作准则,但这些准则都较为冗长,且准则数量众多,导致在面临紧急情况时难以及时查看和定位解决方案。
发明内容
本申请的多个方面提供一种信息的获取方法、计算设备及存储介质,使得通过较为自动化的方式,较为快速且准确地定位到对应的查询结果,从而提供了对应的解决方案。
本申请实施例提供一种信息的获取方法,包括:获取多个文本信息,并对多个所述文本信息进行拆分,确定多个对应的子信息;针对子信息,确定对应子信息对应的多个问题,所述多个问题是以对应子信息作为对应的答案;获取待查询信息,根据所述待查询信息,从具有多个问题的子信息中获取与所述待查询信息匹配的子信息,作为待查询信息的查询结果。
本申请实施例还提供一种计算设备,包括:存储器、处理器;所述存储器,用于存储计算机程序;所述处理器,执行所述计算机程序,以用于:获取多个文本信息,并对多个所述文本信息进行拆分,确定多个对应的子信息;针对子信息,确定对应子信息对应的多个问题,所述多个问题是以对应子信息作为对应的答案;获取待查询信息,根据所述待查询信息,从具有多个问题的子信息中获取与所述待查询信息匹配的子信息,作为待查询信息的查询结果。
本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被一个或多个处理器执行时,致使所述一个或多个处理器实现上述方法中的步骤。
在本申请实施例中,获取多个文本信息,并对多个文本信息进行拆分,确定多个对应的子信息;针对子信息,确定对应子信息对应的多个问题,多个问题是以对应子信息作为对应的答案;获取待查询信息,根据待查询信息,从具有多个问题的子信息中获取与待查询信息匹配的子信息,作为待查询信息的查询结果。
其中,获取待查询信息,根据待查询信息,从具有多个问题的子信息中获取与待查询信息匹配的子信息,作为待查询信息的查询结果。能够以较为自动化的方式,来快速且准确地查询到对应的查询结果。特别是在对应的领域中,当工作人员需要针对一些紧急问题查询处理方式的时候,能够提供给对应工作人员较为准确的处理方式,提升工作人员处理能力。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请一示例性实施例的信息的获取方法的流程示意图;
图2为本申请一示例性实施例的信息的获取过程的示意图;
图3为本申请一示例性实施例的问答数据集生成的示意图;
图4为本申请一示例性实施例的问题信息的示意图;
图5为本申请一示例性实施例的查询结果的示意图;
图6为本申请一示例性实施例的信息的获取系统的结构示意图;
图7为本申请一示例性实施例提供的信息的获取装置的结构示意图;
图8为本申请一示例性实施例提供的计算设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
根据前文可知,对于电力领域而言,随着输电电压等级的提高和交直流特高压混联电网格局的形成,电网安全生产面临严峻挑战。特高压电网呈现“强直弱交”结构,直流故障下存在受端交流支撑不强、潮流转移能力不足、电压支撑弱等风险;特高压直流部分设备处于质量不稳定期,一旦发生故障,可能造成特高压设备损坏甚至着火,存在重特大设备事故风险。以110kV千伏及以上交流变压器、断路器、GIS(Gas Insulated Substation,气体绝缘变电站)、电流互感器为主的电网主设备的安全运行是电网安全生产的重中之重。
在电力领域,设备的运维面临以下困难:(1)设备维护要求一线运行人员既要有理论知识,又要有丰富的操作经验。这种强大的专业知识在培训过程中很难获得,而员工上岗后很快就需要处理各种复杂系统和设备中出现的各种问题;(2)各类设备的运维都有详细的操作准则,但这些准则为冗长的非结构化文本,且数量众多,导致在面临紧急情况时难以及时查看和定位解决方案。
针对上述问题,本申请实施例提供了一种信息的获取方法、计算设备及存储介质,用户可通过信息从大量的非结构化文本中收集和提取结构清晰的知识,或通过问答的方式来应对在工作中遇到的疑难问题。当设备出现故障和缺陷时,给指挥和检修人员提供智能辅助决策,提升问题处置能力。
下面结合方法实施例,针对信息的获取过程进行详细说明。
图1为本申请一示例性实施例的一种信息的获取方法的流程示意图。本申请实施例提供的该方法100由计算设备执行,如,服务器等。该方法100包括以下步骤:
101:获取多个文本信息,并对多个文本信息进行拆分,确定多个对应的子信息。
102:针对子信息,确定对应子信息对应的多个问题。
其中,多个问题是以对应子信息作为对应的答案。
103:获取待查询信息,根据待查询信息,从具有多个问题的子信息中获取与待查询信息匹配的子信息,作为待查询信息的查询结果。
需要说明的是,通过本申请实施例可以建设制度标准智能设备诊断体系,将制度标准的具体条款与设备故障精确衔接和适配,进而为不同故障场景提供易获取、参考性较强、诊断效率高的设备故障原因和解决方案。在发现设备潜伏异常或缺陷的时候,可以加快设备故障处理进度,对提高设备本质安全水平,在保障安全生产方面具有重大意义。
以下针对上述步骤进行详细地阐述:
101:获取多个文本信息,并对多个文本信息进行拆分,确定多个对应的子信息。
其中,文本信息是指对应领域中的文本信息,如电力领域中的操作准则,文献资料等等。应理解,对于其它领域也是相似的,是其它领域对应的文献资料以及操作准则等。如果没有对应的准则,也可以换成该领域对应的其它文本资料,这里不做过多限制。
获取文本信息的方式可以包括自动获取,也可以通过人工发送的方式获取。如,服务器可以通过其它存储平台,如其它数据库,或服务器上预存的文本信息进行获取。或者,用户通过智能终端,如电脑,将对应的文本信息发送至服务器。
服务器接收到文本信息后可以根据拆分粒度进行拆分。其中,拆分粒度可以包括:文档级、段落级以及条目级。其中,条目可以是从段落中提取出来的条目。该粒度可以由服务器自己决定,也可以通过用户来确定。如,服务器可以根据预置好的拆分粒度的方式来拆分文本信息。也可以将上述拆分粒度通过界面的方式提供给用户,用户通过电脑展示该界面,并对界面上的粒度进行选择,如选择条目级。则服务器可以根据用户选择的粒度进行拆分。
当服务器确定的粒度为文档级的时候,则可以直接将获取到的文档作为拆分后的子信息,即文本信息不进行拆分。此外,服务器可以根据文档,即文本信息的字数、和/或段落来确定是否将该文本信息进行文档级的拆分,或段落级的拆分,或条目级的拆分。
当服务器确定的粒度为段落级的时候,则可以将获取到的文本信息,根据文本信息的文本结构,来进行拆分文本信息为段落,即子信息。如通过对文本版面的分析、文本顺序(即阅读顺序)和层次(如不同的章节等)的识别等,来拆分为段落。
当服务器确定的粒度为条目级的时候,则可以将获取到的文本信息,先根据前文所述的方式拆分为段落。然后可以从该文本信息中提取关键信息,用于拆分段落为对应的条目,即子信息。其中,可以基于文档结构,如小标题以及电力领域的用户兴趣点关联的特殊关键词语等,比如电压等级,设备型号,指标,算子等,在该文本信息中提取关键信息,来拆分对应段落。
其中,如图3所示,此处实现了拆分文本信息301。
需要说明的是,上述拆分可以通过算法或模型实现,通过神经网络模型进行常规训练,从而实现拆分。
102:针对子信息,确定对应子信息对应的多个问题。
其中,多个问题是以对应子信息作为对应的答案。
例如,服务器可以根据拆分后的子信息,对该子信息进行分析,然后通过分析的结果确定以该子信息作为答案,其对应的问题是什么。
其中,如图4所示,拆分后的子信息401,基于此,服务器确定该拆分后的子信息401对应的问题402。
具体的,针对子信息,确定对应子信息对应的多个问题,包括:根据预置问答模型,确定子信息对应的多个问题。
其中,预置问答模型可以为learn2ask问答模型。该模型可以是以learning toask为训练机制的问答模型,该机制可以是采用注意力机制为基础创建的句子编码器以及段落编码器。其中,使用双向LSTM对句子进行编码。以及采用注意力机制为基础创建的对应的解码器。然后通过训练数据进行训练。
此外,也可以通过其它神经网络模型来训练此问答模型,如RNN模型(循环神经网络,Recurrent Neural Network)。根据训练数据进行训练。
例如,根据前文所述,服务器可以通过该预置好的问答模型,如learn2ask问答模型,输入子信息到该模型,从而确定该子信息的问题。每个子信息可以确定多个问题,也可以确定一个问题。
具体的,针对子信息,确定对应子信息对应的多个问题,包括:根据预置问题模型,确定子信息对应的问题;根据预置问题模型,对子信息以及对应的问题进行增加,得到增加后的子信息以及增加后的多个问题。
例如,根据前文所述,服务器可以通过该预置好的问答模型,如learn2ask问答模型,输入子信息到该模型,从而确定该子信息的问题。每个子信息可以确定多个问题,也可以确定一个问题。此时,确定的问题以及对应的子信息可以组成常见问答数据集。
然后,服务器还继续通过该模型对该数据集进行数据增强,如对子信息以及对应的问题进行扩展,可以扩展出相似的子信息和相似的问题。从而扩展了该数据集。
由此,可以针对封闭的领域数据低频分散的问题,进行补偿,避免低频分散的问题。通过Learn2Ask模型的数据增强的方式,对于文本内容自动生成问句或问题。问句或问题生成准确率达到70%。减少人力标注成本30%以上。
还需要说明的是,对于上述模型同样根据训练数据训练对应的数据增强的功能。就不再赘述了。
此外,为了保证拆分后的子信息的准确性,以及后续问答的准确性。可以在拆分子信息后,对子信息进行人工审核。通过人工审核的方式确定子信息的准确性,特别是针对条目的审核。
具体的,可以是将拆分后的子信息通过界面的方式提供给该领域的专家以及其它用户。专家和用户通过该界面对拆解好的子信息,如条目,进行数据质量评估。对于错误的子信息,可以在界面上直接进行修正,也可以通过该界面来校准拆解规则,从而服务器根据校准后的拆解规则,重新获取到更准确的子信息,或者直接获取到修正后的子信息。
此外,对于拆解或拆分不正确段落的文档而言,用户或专家可以选中该文档,点击批量预处理使得服务器可以重新对文档进行段落拆解或拆分。当通过模型进行拆分或拆解时,可以通过修正的子信息来更新对应的模型。
用户或专家还可以通过界面的方式对子信息进行补充等,增加新的知识点。从而来便于以后解答的准确性。
在进行修正后再去进行问题的确定。就不再赘述了。另,还可以对确定问题进行评估,对问题进行修改或补充,就不再过多赘述了。
其中,如图3所示,根据上述可知,此处实现了问答信息提取302,即确定子信息的问题,还实现了数据质量评估303。然后通过修正数据305,即修正上述子信息。并通过确定问题得到可以得到常见问答数据集304。如果在数据质量评估303的过程中,评估没有问题,则通过确定问题也可以生成常见问答数据集304。
103:获取待查询信息,根据待查询信息,从具有多个问题的子信息中获取与待查询信息匹配的子信息,作为待查询信息的查询结果。
其中,待查询信息是指用户发送的查询信息,如一个问题的查询,一个术语的介绍,一个设备的操作准则等。
例如,根据前文所述,电力领域的用户通过电脑的浏览器从服务器处获取服务界面,并进行展示,用户在该界面上输入要查询的问题,并点击发送按钮,通过查询请求发送该问题至服务器。服务器接收到该问题后,与上述数据集中多个确定的问题进行匹配,当匹配到对应问题后,将该问题对应的子信息,如条目或段落作为查询问题的查询答案,并返回至用户的电脑。
其中,如图2所示,根据上述可知,服务器执行了步骤211:获取问题。
更具体的可以是:获取待查询信息,根据待查询信息,从具有多个问题的子信息中获取与待查询信息匹配的子信息,作为待查询信息的查询结果,包括:提供查询界面,以使对应用户通过查询界面输入待查询信息,并发送查询请求;接收查询请求,将查询请求中的待查询信息与所述问题进行匹配,确定匹配到的问题;根据匹配到的问题,将该问题对应的子信息作为待查询信息的查询结果,并进行返回。
由于前文已经阐述过了,此处就不再赘述了。
还可以是具体的,根据待查询信息,从具有多个问题的子信息中获取与待查询信息匹配的子信息,包括:将待查询信息与问题进行匹配,确定匹配到的问题;根据匹配到的问题,将该问题对应的子信息作为待查询信息的查询结果。
其中,可以通过模型或搜索引擎来获取匹配到的问题。如搜索模型(其可以通过神经网络模型进行训练得到)或Elasticsearch引擎,Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎。
根据前文所述可知,服务器接收到问题后,可以通过Elasticsearch引擎从上述数据集中获取到相似的问题。可以根据获取到的相似问题对应的子信息,来确定查询问题的答案,就不再过多赘述了。
而当获取到的相似问题为多个时,为了能够更加匹配到准确的问题,可以通过匹配模型来确定问题与问题之间的匹配度,从而选择出匹配的问题。
其中,匹配模型可以为预置的融合语言结构的BERT模型,即structBERT,该模型是针对预训练语言模型BERT在预训练任务中忽略了语言结构的问题,对模型BERT进行了扩展,通过加入语言结构到预训练任务中,其是在预训练任务中加入两项基于语言结构的任务:词级的排序word-level ordering和句子的排序sentence-level ordering。
根据前文所述,服务器通过Elasticsearch引擎获取到相似的多个问题后,采用基于预训练的structBERT模型,将查询问题与多个问题进行匹配,确定最终匹配到的问题。从而确定对应的答案,就不再赘述了。
此外,还可以服务器通过Elasticsearch引擎从其它数据源,或网上获取到与该查询问题相似的多个问题后,从而更能加大问题的匹配命中率。然后,服务器采用基于预训练的structBERT模型,与数据集中的现有问题进行相似度的匹配。服务器对于模型的得分设置阈值,如果两个问题匹配得分超过阈值,则将数据集中对应的问题的其答案,即子信息,如条目直接作为查询到的正确答案。
例如,用户提问的问题为“局部放电的测量技术参数”,和数据集中的问题“局部放电的测量技术参数的要求是什么”相似度较大,则服务器将直接把“局部放电的测量技术参数的要求是什么”的条目作为最终答案。
其中,如图2所示,服务器通过问题匹配方式201可以确定对应的答案。根据前文可知,可以通过对structBERT模型常见问答数据集2011进行数据增强2012。基于增强后的常见问答数据集进行问答配对2013查找匹配的问题,然后确定对应的答案作为查询结果。
如果上述均匹配不成功将进入后续答案,即子信息的召回和排序的过程。
具体的,该方法100还包括:当确定待查询信息不具有匹配到的问题,根据待查询信息从子信息中获取与待查询信息匹配的子信息。
而为了获得更准确的结果还可以,该方法100还包括:当确定待查询信息不具有匹配到的问题,根据待查询信息对应的标签,对子信息进行过滤;根据待查询信息,从过滤后的子信息中获取与待查询信息匹配的子信息作为待查询信息的查询结果。
其中,根据待查询信息对应的标签是指用户自己定义的标签。如电力领域的关键词,电压等级和设备型号。或者也可以是提供给用户多个关键词,以使用户根据提供的关键词进行选择,确定对应的标签。例如,根据前文所述,服务器如果匹配不到上述问题,服务器采用Elasticsearch引擎,根据输入的问句或查询的问题召回与之匹配的拆解好的如条目,作为答案。
或者,服务器可以首先用用户定义的电力领域的标签,对数据集中的子信息进行过滤,如通过标签对应的词语与子信息中的分词结果进行比对,如果有一样的词语,就认为该子信息,如条目有对应的标签,则过滤掉没有该标签的条目。
需要说明的是,可以通过Elasticsearch引擎召回出多个子信息,如前1000个相关条目。但其中最终的答案可能并没有排列在靠前的顺序,这样使得用户会错过准确的答案。如在召回的过程中,将待查询信息进行分词划分,如局部放电测量的定量放电干扰源可以划分分词为“局部放电测量”、“值”、“的”、“定量”、“放电”、“干扰源”,然后输入至Elasticsearch引擎中进行检索,实际过程中Elasticsearch引擎可以找出排名靠前的句子都出自于标准文档《GB/T7354-2018高电压试验技术局部放电量测量》,而查询到的符合的答案带有干扰源、检测、局部放电等词语,但该答案讲的是干扰源的检测,语义上与定量放电干扰源不匹配。正确的答案在Elasticsearch引擎中排第四。
其中,如图2所示,匹配不成功,服务器通过粗排方式202可以确定对应的答案。根据前文可知,可以通过标签过滤2021进行子信息的过滤。基于过滤后的子信息进行搜索引擎召回答案2022,如采用Elasticsearch引擎,根据输入的问句或查询的问题召回与之匹配的拆解好的如条目,作为答案。
由此,为了更加精准地确定对应的查询结果,可以通过以下分词的重要度来进一步确定查询结果。
具体的,该方法100还包括:对待查询信息进行命名实体的识别,并确定命名实体对应分词词语的词权重;根据待查询信息以及对应分词词语的词权重,从子信息中获取与待查询信息匹配的子信息,作为待查询信息的查询结果。
其中,命名实体识别是指针对待查询信息进行分词,然后针对分词词语进行词性的的识别。命名实体的识别的方式可以包括:通过命名实体识别模型(如,jieba模型)和电力语料字典(如电力领域词语的集合)结合的方式对于输入的问句或查询的问题进行粗颗粒度的命名实体的识别。之后,采取命名实体识别模型和电力语料补充字典(如可以是更新的电力领域词语以及词性的集合)对于每个分词词语以及词性进行细颗粒度的匹配,确定分词词语与该字典中的词语匹配,确定分词词语以及词性的准确性。在初始化时,即冷启动的时候,服务器可采用开源的电力语料词典进行分词的划分。然后基于一定分词的基础训练对应的分命名实体识别模型,再通过模型集合字典的方式进行分词的划分。此外用户在使用的同时,可对于新词语进行定义,并输入至对应的字典中,从而更新字典提高准确率,且该更新可以实时生效。如通过界面的方式来更新词语。就不再过多赘述了。
根据上述可知,在命名实体识别的同时,命名实体识别模型结合词典转中的信息,对于粗细颗粒度的分词词语进行纠错,并还可以从同义词词典中找到对应分词的同义词和标准写法。与分词词典一样,用户可根据自定义的需求配置同义词词典,实时获得更准确的搜索答案。
其中,命名实体对应分词词语的词权重可以是预置好的,可以通过预置好的权重来确定。或者动态确定。其中静态确定是利用query待查询信息和doc的文档集合计算tf-idf(term frequency–inverse document frequency,是一种用于信息检索与数据挖掘的常用加权技术)并归一化,作为分词词语term的词权重。同时可以和对应的词性关联,根据词性和词频率计算,然后归一。动态的确定方式是用模型,例如deepCT(DeepContextualized Term Weighting framework,即深度上下文词权重框架,是一种为搜索提供词权重的一种方式),得到此权重。此方式和分词词语或词性不关联,完全看词语在不同语境下的重要程度。
具体的,静态确定的过程可以为:确定命名实体对应分词词语的词权重,包括:根据预置的词频逆向文件频率算法、对应分词词语的词性、对应分词词语的同义词、对应分词词语的子词的权重以及对应分词词语在待查询信息中相邻分词词语的词性,确定对应分词词语的词权重。
词性可以是指分词的功能、分类等,如设备名词、动词等。
例如,根据前文所述,tf-idf算法和针对分词的词性的配置实现。针对上述获取到的每个粗颗粒度的分词词语,过tf-idf算法融合该分词词语的词性,同义词、子词的权重(是指该分词中子词,可以对该分词进行再切分的结果,子词的权重是预置好的),和该分词词语在问题中相邻分词词语的词性,即前后词语的词性,计算出每个词语的得分。如前文所述的分词词语的词权重结果为:“局部放电量测量”为0.29,“值”为0.01,“的”为0,“定量”为0.22,“放电”为0.22,“干扰源”为0.25。
由此,服务器结合得到的分词的权重,以权重高的分词为基准,从之前Elasticsearch引擎召回出多个子信息,如前1000个相关条目,通过排序方式确定得分最高的前30个条目。由于分词的权重的区分了不同词语的重要性,帮助找到重要性更高的答案。
需要说明的是,通过上述词典、同义词、分词的权重等配置,提升查询结果的可干预、可解释性。用户可通过对于词典,子信息以及问题的配置,定制化的得到更精准答案。
具体的,根据待查询信息以及对应分词词语的的词权重,从子信息中获取与待查询信息匹配的子信息,包括:在从过滤后的子信息获取到匹配的子信息后,对标签进行过滤;根据过滤后的标签以及分词的词权重,从匹配到的子信息中选择对应的子信息作为待查询信息的查询结果。
其中,匹配的方式是通过BM25模型实现的。其中在信息检索中,BM25模型是一个排序函数,被用来衡量文档与给定问题之间的相关性。
例如,根据前文所述,服务器可以先对于上述标签进行过滤,可以通过前文所述的权重过滤掉低权重的标签(也可以是根据用户再选择的关键词进行过滤),然后通过过滤后的标签对子信息(如,之前匹配到的1000条条目)进行过滤。再结合分词的权重,用BM25模型打分排序得分最高的前30个条目。如从过滤后的1000条条目中排序前30个条目。由于分词的词权重的区分了不同词语的重要性,帮助找到重要性更高的答案。
其中,如图2所示,根据上述可知,在粗排方式202中,还可以通过排序函数召回答案2023。
经此后,经试验证明召回的答案排序中排序第一的答案和局部放电量干扰源更接近了,但是全篇答案的语义还是偏向测量导则,正确的答案被排在第二。
基于此,可以通过下述精排继续查找对应的答案。
具体的,该方法100还包括:根据预置的融合语言结构的BERT模型,以及待查询信息,对选择的子信息进行排序(即基于前文可知此处是重新排序);根据机器阅读理解模型以及待查询信息,从排序后的子信息中凸显出与待查询信息匹配的子信息。
其中,机器阅读理解模型(MRC,Machine Reading Comprehension)通过扫描文本信息,并从文本信息中提取其意义。当用户提出一个问题,MRC通过引用文章的不同部分提供答案。
例如,根据前文可知,服务器采用structBERT模型,对于粗排中的30个条目进行重新排序。并通过机器阅读理解模型来高亮答案中的最匹配信息。
此外,在这两个模型冷启动时,可以采用开源电力语料预训练模型(该模型可以通过前文的方式进行训练,就不再赘述了),用于对问句或查询的问题的预测。在有一定数据积累时,可以对于structBERT模型以及MRC模型进行微调(Fine-Tune),实现模型的更新,得到更准确的答案。
经试验证明,经过StructBERT模型的精排后,局部放电测量的定量放电干扰源对应的答案被排在了第一。
其中,如图2所示,根据前文可知,在精排方式203中,可以通过structBERT模型实现答案重新排序2031。再通过机器阅读理解模型来实现机器阅读理解模型高亮答案2032。
如图5所示,经过MRC模型后,可以通过界面的方式展示排序的多个答案501。其中,排序第一的第一答案502与问句或查询的问题最关联的字段会被高亮(此处为了通过字体加粗来表示高亮)。其中,用户可以快速寻找到所需的答案
需要说明的是,通过StructBERT模型训练篇章排序和机器阅读理解模型。得到了电力领域更好精准搜索效果(语义、答案的精准度方面)。其中,在电网知识库项目中准确率达到88%,较基于开源搜索框架提升20%。
此外,该方法100还包括:建立子信息与子信息的关键词之间的关联关系;提供关键词,以使目标用户根据提供的关键词进行选择;根据选择的关键词,获取待查询信息匹配的子信息。
例如,根据前文可知,服务器在拆分条目的时候,可以通过关键词进行拆分。拆分后可以将条目与对应的关键词进行关联,确定对应的关联关系,其可以是图的关联关系。由此,可以向用户提供多个关键词,这些关键词可以从此处提供,如根据前文所述的方式,从待查询信息对应问题中进行命名实体识别,确定对应分词词语,如“变压器”。然后,如果一条条目对应的关键词有“500kv(千伏)”和“变压器”,那么对应匹配上的“变压器”,就可以把与之对应的“500kv”给推荐出来给用户。用户可以选择感兴趣的关键词,然后服务器通过该关联关系中匹配找到更精准的答案。就不再过多赘述了。
用户可以选择感兴趣的关键词,得到关键词相关答案。对于宽泛问题,可以给予用户关键词推荐,使用户得到更精准答案。
此外,该方法100还包括:建立多个待查询信息与最终匹配到的对应子信息之间的关联关系;获取新的待查询信息,根据关联关系,确定对应的子信息作为待查询信息的查询结果。
例如,根据前文可知,用户在进行查询了多个查询结果后,服务器可以根据查询情况,建立查询问题与查询结果之间的关联关系。在后续获取到新的查询问题后,可以先通过该关系来查找是否存在对应的结果,如果查询到则提供给用户。否则通过前文所述的方式重新进行查询。
本本申请实施例Elasticsearch引擎+搜索相关性评分的基础上,使用了分词的权重+BM25模型的方式计算查询的问题和子信息之间的关联度。同时,还采用了StructBERT模型进一步预测前几个的最接近答案。虽然本申请实施例也可以通过Elasticsearch引擎查询来查询结果,但相较于单独的Elasticsearch引擎查询,本申请实施例考虑到了文本信息中不同分词的重要性差异,更容易找到准确的符合的查询结果。
根据前文可知,用户可以自己配置关键词,增加电力领域的专有名词。虽然本申请实施例也可以通过Solr(一种企业级搜索应用服务器)搜索来查询结果,但相较于Solr搜索的方案,本申请实施例通过和用户交互的方式,可以灵活的找到用户所想要查找的专有名词的答案。
此外,本申请实施例还可以通过前文所述的进行查询的问题的分词、同义词的改写、意图识别和分词权重,融合多种不同的排序引擎和定制化规则对于答案进行粗排,最后依赖神经网络模型进行精排得到符合答案。
通过对查询的问题抽取关键词,之后在SQL(结构化查询语言,Structured QueryLanguage)数据库中搜索包含关键词的答案,最后依赖神经网络模型进行精排得到符合答案。
通过对查询的问题抽取关键词,再通过ha3搜索引擎排序,其可以包含粗排算分、精排算分、和基于粗排和精排分值的重排序,得到符合答案。
图6为本申请一示例性实施例提供的一种信息的获取系统的结构示意图。如图6所示,该系统600可以包括:第一设备601以及第二设备602。
其中,第一设备601是指可以在网络虚拟环境中提供计算处理服务的设备,可以是指利用网络进行信息获取的设备。在物理实现上,第一设备601可以是任何能够提供计算服务,响应服务请求,并进行信息获取的设备,例如可以是云服务器、云主机、虚拟中心、常规服务器等等,其上构架有数据库。第一设备601的构成主要包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似。
第二设备602可以是有一定计算能力的设备,可以实现向第一设备601发送数据的功能,也可以接收第一设备601发送的数据。第二设备602的基本结构可以包括:至少一个处理器。处理器的数量可以取决于具有一定计算能力装置的配置和类型。具有一定计算能力装置也可以包括存储器,该存储器可以为易失性的,例如RAM,也可以为非易失性的,例如只读存储器(Read-Only Memory,ROM)、闪存等,或者也可以同时包括两种类型。存储器内通常存储有操作系统(Operating System,OS)、一个或多个应用程序,也可以存储有程序数据等。除了处理单元和存储器之外,具有一定计算能力装置还包括一些基本配置,例如网卡芯片、IO总线、显示组件以及一些外围设备等。可选地,一些外围设备可以包括,例如键盘、输入笔等。其它外围设备在本领域中是众所周知的,在此不做赘述。可选地,第二设备602可以为智能终端,例如,手机、台式电脑、笔记本、平板电脑等。
具体的,第一设备601,获取多个文本信息,并对多个文本信息进行拆分,确定多个对应的子信息;针对子信息,确定对应子信息对应的多个问题,多个问题是以对应子信息作为对应的答案;获取待查询信息,根据所述待查询信息,从具有多个问题的子信息中获取与待查询信息匹配的子信息,作为待查询信息的查询结果。
其中,第二设备602向第一设备601发送待查询信息,也可以接收第二设备602返回的查询结果。
此外,第一设备601,对待查询信息进行命名实体的识别,并确定命名实体对应分词词语的词权重;根据待查询信息以及对应分词词语的词权重,从子信息中获取与待查询信息匹配的子信息,作为待查询信息的查询结果。
具体的,第一设备601,根据预置问答模型,确定子信息对应的多个问题。
具体的,第一设备601,根据预置问题模型,确定子信息对应的问题;根据预置问题模型,对子信息以及对应的问题进行增加,得到增加后的子信息以及增加后的多个问题。
具体的,第一设备601,提供查询界面,以使对应用户通过查询界面输入待查询信息,并发送查询请求;接收查询请求,将查询请求中的待查询信息与问题进行匹配,确定匹配到的问题;根据匹配到的问题,将该问题对应的子信息作为待查询信息的查询结果,并进行返回。
此外,第一设备601,当确定待查询信息不具有匹配到的问题,根据待查询信息对应的标签,对子信息进行过滤;根据待查询信息,从过滤后的子信息中获取与待查询信息匹配的子信息作为待查询信息的查询结果。
具体的,第一设备601,在从过滤后的子信息获取到匹配的子信息后,对标签进行过滤;根据过滤后的标签以及分词的词权重,从匹配到的子信息中选择对应的子信息作为待查询信息的查询结果。
此外,第一设备601,根据预置的融合语言结构的BERT模型,以及待查询信息,对选择的子信息进行排序;根据机器阅读理解模型以及待查询信息,从排序后的子信息中凸显出与待查询信息匹配的子信息。
具体的,第一设备601,根据预置的词频逆向文件频率算法、对应分词词语的词性、对应分词词语的同义词、对应分词词语的子词的权重以及对应分词词语在待查询信息中相邻分词词语的词性,确定对应分词词语的词权重。
未能详尽的内容请参考前文所述,就不再赘述了。
在电力领域的查询问题的答案的场景中,第一设备601,如服务器可以接收用户通过第二设备602,如电脑,上传的电力领域的文本资料。服务器接收到文本资料后可以根据拆分粒度进行拆分。当服务器确定的粒度为条目级的时候,先将资料拆分为段落。然后可以从该资料中提取关键信息,用于拆分段落为对应的条目,即子信息。服务器可以通过该预置好的问答模型,如learn2ask问答模型,输入子信息到该模型,从而确定该子信息的问题。每个子信息可以确定多个问题,也可以确定一个问题。此时,确定的问题以及对应的子信息可以组成常见问答数据集。服务器还继续通过该模型对该数据集进行数据增强,如对子信息以及对应的问题进行扩展,可以扩展出相似的子信息和相似的问题。从而扩展了该数据集。
电力领域的用户通过电脑的浏览器从服务器处获取服务界面,并进行展示,用户在该界面上输入要查询的问题,并点击发送按钮,通过查询请求发送该问题至服务器。即执行步骤611:发送待查询信息。服务器接收到该问题后,通过Elasticsearch引擎获取到相似的多个问题后,采用基于预训练的structBERT模型,将查询问题与多个问题进行匹配,确定最终匹配到的问题。将该问题对应的子信息,如条目或段落作为查询问题的查询答案,并返回至用户的电脑。
如果上述均匹配不成功,服务器可以首先用电力领域对应的标签对数据集中的子信息进行过滤。然后服务器再采用Elasticsearch引擎召回出多个子信息,如前1000个相关条目。但其中最终的答案可能并没有排列在靠前的顺序,这样使得用户会错过准确的答案。如在召回的过程中,将待查询信息进行分词划分,如局部放电测量的定量放电干扰源可以划分分词为“局部放电测量”、“值”、“的”、“定量”、“放电”、“干扰源”,然后输入至Elasticsearch引擎中进行检索,实际过程中Elasticsearch引擎可以找出排名靠前的句子都出自于标准文档《GB/T7354-2018高电压试验技术局部放电量测量》,而查询到的符合的答案带有干扰源、检测、局部放电等词语,但该答案讲的是干扰源的检测,语义上与定量放电干扰源不匹配。正确的答案在Elasticsearch引擎中排第四。
服务器可以通过tf-idf算法和针对分词的词性的配置实现。针对上述获取到的每个粗颗粒度的分词词语,过tf-idf算法融合该分词词语的词性,同义词、子词的权重(是指该分词中子词,可以对该分词进行再切分的结果,子词的权重是预置好的),和该分词词语在问题中相邻分词词语的词性,即前后词语的词性,计算出每个词语的得分。如前文所述的分词词语的词权重结果为:“局部放电量测量”为0.29,“值”为0.01,“的”为0,“定量”为0.22,“放电”为0.22,“干扰源”为0.25。服务器可以先对于上述标签进行过滤,可以通过前文所述的权重过滤掉低权重的标签(也可以是根据用户再选择的关键词进行过滤),然后通过过滤后的标签对子信息(如,之前匹配到的1000条条目)进行过滤。再结合分词的权重,用BM25模型打分排序得分最高的前30个条目。如从过滤后的1000条条目中排序前30个条目。服务器采用structBERT模型,对于粗排中的30个条目进行重新排序。并通过机器阅读理解模型来高亮答案中的最匹配信息。由此返回用户排序的条目并高亮对应的匹配信息。即执行步骤612:发送查询结果。
此处未详细记载的内容可以参考前文所述的内容,就不再赘述。
在上述本实施例中,第一设备601、第二设备602进行网络连接。若第一设备601、第二设备602是通信连接,该移动网络的网络制式可以为2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G+(LTE+)、WiMax、5G等中的任意一种。
图7为本申请一示例性实施例提供的一种信息的获取装置的结构框架示意图。该装置700可以应用于计算设备,如服务器。该装置700包括:拆分模块701、确定模块702以及获取模块703;以下针对各个模块的功能进行详细的阐述:
拆分模块701,用于获取多个文本信息,并对多个文本信息进行拆分,确定多个对应的子信息。
确定模块702,用于针对子信息,确定对应子信息对应的多个问题,多个问题是以对应子信息作为对应的答案。
获取模块703,用于获取待查询信息,根据待查询信息,从具有多个问题的子信息中获取与待查询信息匹配的子信息,作为待查询信息的查询结果。
此外,该装置700还包括:识别模块,用于对待查询信息进行命名实体的识别,并确定命名实体对应分词词语的词权重;获取模块703,还用于根据待查询信息以及对应分词词语的词权重,从子信息中获取与待查询信息匹配的子信息,作为待查询信息的查询结果。
具体的,确定模块702,用于根据预置问答模型,确定子信息对应的多个问题。
具体的,确定模块702,包括:确定单元,用于根据预置问题模型,确定子信息对应的问题;增加单元,用于根据预置问题模型,对子信息以及对应的问题进行增加,得到增加后的子信息以及增加后的多个问题。
具体的,获取模块703,包括:提供单元,用于提供查询界面,以使对应用户通过查询界面输入待查询信息,并发送查询请求;匹配单元,用于接收查询请求,将查询请求中的待查询信息与问题进行匹配,确定匹配到的问题;返回单元,用于根据匹配到的问题,将该问题对应的子信息作为待查询信息的查询结果,并进行返回。
此外,该装置700还包括:过滤模块,用于当确定待查询信息不具有匹配到的问题,根据待查询信息对应的标签,对子信息进行过滤;获取模块703,还用于根据待查询信息,从过滤后的子信息中获取与待查询信息匹配的子信息作为待查询信息的查询结果。
具体的,获取模块703,包括:过滤单元,用于在从过滤后的子信息获取到匹配的子信息后,对标签进行过滤;选择单元,用于根据过滤后的标签以及分词的词权重,从匹配到的子信息中选择对应的子信息作为待查询信息的查询结果。
此外,该装置700还包括:排序模块,用于根据预置的融合语言结构的BERT模型,以及待查询信息,对选择的子信息进行排序;凸显模块,用于根据机器阅读理解模型以及待查询信息,从排序后的子信息中凸显出与待查询信息匹配的子信息。
此外,划分模块,用于根据预置的词频逆向文件频率算法、对应分词词语的词性、对应分词词语的同义词、对应分词词语的子词的权重以及对应分词词语在待查询信息中相邻分词词语的词性,确定对应分词词语的词权重。
此外,该装置700还包括:建立模块,用于建立子信息与子信息的关键词之间的关联关系;提供模块,用于提供关键词,以使目标用户根据提供的关键词进行选择;获取模块703,用于根据选择的关键词,获取待查询信息匹配的子信息。
此外,建立模块,用于建立多个待查询信息与最终匹配到的对应子信息之间的关联关系;获取模块703,还用于获取新的待查询信息,根据关联关系,确定对应的子信息作为待查询信息的查询结果。
本装置700中未能详尽的内容请参考前文所述,就不再赘述。
以上描述了图7所示的装置700的内部功能和结构,在一个可能的设计中,图7所示的装置700的结构可实现为计算设备,如,服务器。如图8所示,该设备800可以包括:存储器801、处理器802;
存储器801,用于存储计算机程序。
处理器802,用于执行计算机程序,以用于:获取多个文本信息,并对多个文本信息进行拆分,确定多个对应的子信息;针对子信息,确定对应子信息对应的多个问题,多个问题是以对应子信息作为对应的答案;获取待查询信息,根据待查询信息,从具有多个问题的子信息中获取与待查询信息匹配的子信息,作为待查询信息的查询结果。
此外,处理器802,还用于对待查询信息进行命名实体的识别,并确定命名实体对应分词词语的词权重;根据待查询信息以及对应分词词语的词权重,从子信息中获取与待查询信息匹配的子信息,作为待查询信息的查询结果。
具体的,处理器802,具体用于:根据预置问答模型,确定子信息对应的多个问题。
具体的,处理器802,具体用于:根据预置问题模型,确定子信息对应的问题;根据预置问题模型,对子信息以及对应的问题进行增加,得到增加后的子信息以及增加后的多个问题。
具体的,处理器802,具体用于:提供查询界面,以使对应用户通过查询界面输入待查询信息,并发送查询请求;接收查询请求,将查询请求中的待查询信息与问题进行匹配,确定匹配到的问题;根据匹配到的问题,将该问题对应的子信息作为待查询信息的查询结果,并进行返回。
此外,处理器802,还用于当确定待查询信息不具有匹配到的问题,根据待查询信息对应的标签,对子信息进行过滤;根据待查询信息,从过滤后的子信息中获取与待查询信息匹配的子信息作为待查询信息的查询结果。
具体的,处理器802,具体用于:在从过滤后的子信息获取到匹配的子信息后,对标签进行过滤;根据过滤后的标签以及分词的词权重,从匹配到的子信息中选择对应的子信息作为待查询信息的查询结果。
此外,处理器802,还用于根据预置的融合语言结构的BERT模型,以及待查询信息,对选择的子信息进行排序;根据机器阅读理解模型以及待查询信息,从排序后的子信息中凸显出与待查询信息匹配的子信息。
此外,处理器802,还用于根据预置的词频逆向文件频率算法、对应分词词语的词性、对应分词词语的同义词、对应分词词语的子词的权重以及对应分词词语在待查询信息中相邻分词词语的词性,确定对应分词词语的词权重。
此外,处理器802,还用于建立子信息与子信息的关键词之间的关联关系;提供模块,用于提供关键词,以使目标用户根据提供的关键词进行选择;根据选择的关键词,获取待查询信息匹配的子信息。
此外,处理器802,还用于建立多个待查询信息与最终匹配到的对应子信息之间的关联关系;获取新的待查询信息,根据关联关系,确定对应的子信息作为待查询信息的查询结果。
本发明实施例提供了一种计算机存储介质,计算机程序被一个或多个处理器执行时,致使一个或多个处理器实现图1-图5方法实施例中一种信息的获取方法的步骤。就不再过多赘述了。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102、103等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程多媒体数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程多媒体数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程多媒体数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程多媒体数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (13)

1.一种信息的获取方法,其特征在于,包括:
获取多个文本信息,并对多个所述文本信息进行拆分,确定多个对应的子信息;
针对子信息,确定对应子信息对应的多个问题,所述多个问题是以对应子信息作为对应的答案;
获取待查询信息,根据所述待查询信息,从具有多个问题的子信息中获取与所述待查询信息匹配的子信息,作为待查询信息的查询结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对待查询信息进行命名实体的识别,并确定命名实体对应分词词语的词权重;
根据待查询信息以及对应分词词语的词权重,从子信息中获取与待查询信息匹配的子信息,作为待查询信息的查询结果。
3.根据权利要求1所述的方法,其特征在于,所述针对子信息,确定对应子信息对应的多个问题,包括:
根据预置问答模型,确定子信息对应的多个问题。
4.根据权利要求1或3所述的方法,其特征在于,所述针对子信息,确定对应子信息对应的多个问题,包括:
根据预置问题模型,确定子信息对应的问题;
根据预置问题模型,对子信息以及对应的问题进行增加,得到增加后的子信息以及增加后的多个问题。
5.根据权利要求1所述的方法,其特征在于,所述获取待查询信息,根据所述待查询信息,从具有多个问题的子信息中获取与所述待查询信息匹配的子信息,作为待查询信息的查询结果,包括:
提供查询界面,以使对应用户通过查询界面输入待查询信息,并发送查询请求;
接收查询请求,将查询请求中的待查询信息与所述问题进行匹配,确定匹配到的问题;
根据匹配到的问题,将该问题对应的子信息作为待查询信息的查询结果,并进行返回。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
当确定所述待查询信息不具有匹配到的问题,根据所述待查询信息对应的标签,对子信息进行过滤;
根据待查询信息,从过滤后的子信息中获取与所述待查询信息匹配的子信息作为待查询信息的查询结果。
7.根据权利要求2或6所述的方法,其特征在于,所述根据待查询信息以及对应分词词语的词权重,从子信息中获取与待查询信息匹配的子信息,包括:
在从过滤后的子信息获取到匹配的子信息后,对标签进行过滤;
根据过滤后的标签以及分词的词权重,从匹配到的子信息中选择对应的子信息作为待查询信息的查询结果。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
根据预置的融合语言结构的BERT模型,以及待查询信息,对选择的子信息进行排序;
根据机器阅读理解模型以及待查询信息,从排序后的子信息中凸显出与所述待查询信息匹配的子信息。
9.根据权利要求2所述的方法,其特征在于,所述确定命名实体对应分词词语的词权重,包括:
根据预置的词频逆向文件频率算法、对应分词词语的词性、对应分词词语的同义词、对应分词词语的子词的权重以及对应分词词语在待查询信息中相邻分词词语的词性,确定对应分词词语的词权重。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
建立所述子信息与所述子信息的关键词之间的关联关系;
提供所述关键词,以使目标用户根据提供的关键词进行选择;
根据选择的关键词,获取所述待查询信息匹配的子信息。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
建立多个待查询信息与最终匹配到的对应子信息之间的关联关系;
获取新的待查询信息,根据所述关联关系,确定对应的子信息作为待查询信息的查询结果。
12.一种计算设备,其特征在于,包括:存储器、处理器;
所述存储器,用于存储计算机程序;
所述处理器,执行所述计算机程序,以用于:
获取多个文本信息,并对多个所述文本信息进行拆分,确定多个对应的子信息;
针对子信息,确定对应子信息对应的多个问题,所述多个问题是以对应子信息作为对应的答案;
获取待查询信息,根据所述待查询信息,从具有多个问题的子信息中获取与所述待查询信息匹配的子信息,作为待查询信息的查询结果。
13.一种存储有计算机程序的计算机可读存储介质,其特征在于,计算机程序被一个或多个处理器执行时,致使所述一个或多个处理器实现权利要求1-11任一项所述方法中的步骤。
CN202111493584.7A 2021-12-08 2021-12-08 信息的获取方法、计算设备及存储介质 Pending CN114372122A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111493584.7A CN114372122A (zh) 2021-12-08 2021-12-08 信息的获取方法、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111493584.7A CN114372122A (zh) 2021-12-08 2021-12-08 信息的获取方法、计算设备及存储介质

Publications (1)

Publication Number Publication Date
CN114372122A true CN114372122A (zh) 2022-04-19

Family

ID=81141069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111493584.7A Pending CN114372122A (zh) 2021-12-08 2021-12-08 信息的获取方法、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN114372122A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210237757A1 (en) * 2020-01-31 2021-08-05 Toyota Jidosha Kabushiki Kaisha Information processing device, information processing method, and storage medium storing information processing program
CN115062589A (zh) * 2022-06-08 2022-09-16 北京字跳网络技术有限公司 百科词条处理方法、装置、电子设备、介质及程序产品

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210237757A1 (en) * 2020-01-31 2021-08-05 Toyota Jidosha Kabushiki Kaisha Information processing device, information processing method, and storage medium storing information processing program
US11577745B2 (en) * 2020-01-31 2023-02-14 Toyota Jidosha Kabushiki Kaisha Information processing device, information processing method, and storage medium storing information processing program
CN115062589A (zh) * 2022-06-08 2022-09-16 北京字跳网络技术有限公司 百科词条处理方法、装置、电子设备、介质及程序产品

Similar Documents

Publication Publication Date Title
AU2019263758B2 (en) Systems and methods for generating a contextually and conversationally correct response to a query
CN106649786B (zh) 基于深度问答的答案检索方法及装置
CN110968699B (zh) 一种基于事理推荐的逻辑图谱构建及预警方法和装置
WO2019091026A1 (zh) 知识库文档快速检索方法、应用服务器及计算机可读存储介质
US9881037B2 (en) Method for systematic mass normalization of titles
US20150154193A1 (en) System and method for extracting facts from unstructured text
CN111475623A (zh) 基于知识图谱的案件信息语义检索方法及装置
US20180075013A1 (en) Method and system for automating training of named entity recognition in natural language processing
US20120203584A1 (en) System and method for identifying potential customers
CN106708929B (zh) 视频节目的搜索方法和装置
Zou et al. Learning to rank for question-oriented software text retrieval (t)
US20210264115A1 (en) Analysis of theme coverage of documents
CN114372122A (zh) 信息的获取方法、计算设备及存储介质
Moghaddam et al. Opinion polarity identification through adjectives
CN112765974B (zh) 一种业务辅助方法、电子设备及可读存储介质
CN110597978A (zh) 物品摘要生成方法、系统、电子设备及可读存储介质
CN106570196B (zh) 视频节目的搜索方法和装置
JP2023008943A (ja) データマイニング方法、装置、電子機器及び記憶媒体
JP6495124B2 (ja) 用語意味コード判定装置、用語意味コード判定モデル学習装置、方法、及びプログラム
JP2019061522A (ja) 文書推薦システム、文書推薦方法および文書推薦プログラム
Gayen et al. Automatic identification of Bengali noun-noun compounds using random forest
CN112527982A (zh) 一种设备管理系统、方法、设备及存储介质
CN112182150A (zh) 基于多元数据的聚合检索方法、装置、设备及存储介质
US20140236940A1 (en) System and method for organizing search results
Nikolić et al. Modelling the System of Receiving Quick Answers for e-Government Services: Study for the Crime Domain in the Republic of Serbia

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination