CN113821612A - 信息查找方法以及装置 - Google Patents

信息查找方法以及装置 Download PDF

Info

Publication number
CN113821612A
CN113821612A CN202110797598.1A CN202110797598A CN113821612A CN 113821612 A CN113821612 A CN 113821612A CN 202110797598 A CN202110797598 A CN 202110797598A CN 113821612 A CN113821612 A CN 113821612A
Authority
CN
China
Prior art keywords
question
target
sentence
information
answer information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110797598.1A
Other languages
English (en)
Inventor
刘艾婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110797598.1A priority Critical patent/CN113821612A/zh
Publication of CN113821612A publication Critical patent/CN113821612A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例涉及人工智能领域,并公开了一种信息查找方法以及装置;本申请实施例可以接收待查找问题语句;从更新后的问答信息库中查找所述待查找问题语句对应的目标回答信息,其中,所述更新后的问答信息库由具有关联关系的目标问题语句与回答信息更新得到,所述目标问题语句为符合预设问题语句规则的语句,所述回答信息由训练后的文本处理模型根据所述目标问题语句及关联的目标文段确定;返回所述待查找问题语句对应的目标回答信息。以此,根据符合预设问题语句规则的目标问题语句及与目标问题语句关联性较高的回答信息,构建准确的问答对,并更新问答信息库,提高问题语句与回答信息的匹配度,及提高用户获取回答信息时的准确性。

Description

信息查找方法以及装置
技术领域
本申请涉及人工智能领域,具体涉及一种信息查找方法以及装置。
背景技术
问答对是一种问句与答句组合的方式,其包含问题与答案之间的关联性。在问答领域中,问答对可高效解答用户的日常疑问(Frequently Asked Questions,FAQ),简化用户解惑的过程。然而,随着客观事物的发展,当用户提出新颖的问句或问题语句时,需要实时扩充对应的答案信息。为了提高答案信息的覆盖率,相关技术通过搜索引擎查找与问题语句相关的文本内容,并以查找到的文本内容作为答案信息构建相应问题语句的问答对,以填补答案空缺。
在对现有技术的研究和实践过程中,本申请的发明人发现对于现有的通过搜索引擎查找与问题语句相关的文本内容,并以该查找到的文本内容作为问题语句的答案信息或回答信息,由于该查找到的文本内容与相应问题语句的匹配度较低,即答案与问句的匹配度比较低,导致所构建的问答对的准确性不高,使得用户无法通过该问答对获取准确的回答信息,影响用户的体验。
发明内容
本申请实施例提供一种信息查找方法以及装置。可以提高答案与问句的匹配度,构建准确的问答对,以提高用户获取回答信息的准确性。
本申请实施例提供一种信息查找方法,包括:
接收待查找问题语句;
从更新后的问答信息库中查找所述待查找问题语句对应的目标回答信息,其中,所述更新后的问答信息库由具有关联关系的目标问题语句与回答信息更新得到,所述目标问题语句为符合预设问题语句规则的语句,所述回答信息由训练后的文本处理模型根据所述目标问题语句及关联的目标文段确定;
返回所述待查找问题语句对应的目标回答信息。
相应的,本申请实施例提供一种信息查找装置,包括:
接收单元,用于接收待查找问题语句;
查找单元,用于从更新后的问答信息库中查找所述待查找问题语句对应的目标回答信息,其中,所述更新后的问答信息库由具有关联关系的目标问题语句与回答信息更新得到,所述目标问题语句为符合预设问题语句规则的语句,所述回答信息由训练后的文本处理模型根据所述目标问题语句及关联的目标文段确定;
返回单元,用于返回所述待查找问题语句对应的目标回答信息。
在一些实施例中,所述信息查找装置还包括:
采集单元,用于采集问题语句集,所述问题语句集包含多个问题语句;
筛选单元,用于从所述多个问题语句中筛选出符合预设问题语句规则的目标问题语句;
匹配单元,用于从预设文档库中匹配所述目标问题语句关联的目标文段;
输入单元,用于将所述目标问题语句和所述目标文段输入训练后的文本处理模型,得到所述目标问题语句对应的回答信息;
建立单元,用于建立所述目标问题语句与对应的回答信息之间的关联关系,并利用具有关联关系的所述目标问题语句与对应的回答信息,对问答信息库进行更新,得到更新后的问答信息库。
在一些实施例中,所述筛选单元,还用于:
对所述多个问题语句进行分类,得到每一问题语句对应的类别标签;
根据每一问题语句的词信息,识别所述每一问题语句对应的意图信息;
基于所述分类结果及意图信息,从所述多个问题语句选取符合预设问题语句规则的目标问题语句。
在一些实施例中,所述筛选单元,还用于:
获取每一问题语句对应的时效标签,所述时效标签用于指示对应的问题语句的时效类型;
对每一问题语句进行语法校验,并将满足预设语法规则的问题语句确定为合法性语句;
基于所述时效标签、类别标签及意图信息,从所述合法性语句中选取符合预设问题语句规则的目标问题语句。
在一些实施例中,所述匹配单元,还用于:
获取所述目标问题语句中的目标词信息;
从预设文档库中查找所述目标词信息关联的目标文档;
根据预设文段切分规则对所述目标文档进行切分,得到多个候选文段;
对所述多个候选文段进行过滤,得到所述目标问题语句对应的目标文段。
在一些实施例中,所述输入单元,还用于:
将所述目标问题语句及目标文段输入训练后的文本处理模型,其中,所述目标问题语句携带有对应的语句类型信息,所述目标文段携带有所在文档的文档标题;
通过所述文本处理模型基于所述目标问题语句的语句类型信息和所述目标文段对应的文档标题,从所述目标文段中提取所述目标问题语句对应的候选回答信息;
将所述候选回答信息确定为所述目标问题语句对应的回答信息。
在一些实施例中,所述输入单元,还用于:
通过所述文本处理模型对所述目标问题语句、语句类型信息、目标文段及文档标题进行嵌入处理,得到目标编码向量;
通过所述文本处理模型对所述目标编码向量进行分类处理,输出所述目标文段中与所述目标问题语句关联的文本内容的位置信息;
对所述目标文段中所述位置信息对应的文本内容进行提取,得到目标文本内容;
将所述目标文本内容确定为候选回答信息。
在一些实施例中,所述输入单元,还用于:
当检测到所述目标问题语句对应的多个候选回答信息时,将所述多个候选回答信息进行信息分类,得到每一信息类型对应的候选回答信息,并获取每一信息类型对应的候选回答信息的数量;
获取所述目标问题语句与所述候选回答信息所在的文档之间的关联分数;
根据所述每一信息类型对应的候选回答信息的数量及所述关联分数进行加权处理,得到每一信息类型对应的目标信息分数;
将目标信息分数最大的信息类型中候选回答信息确定为所述目标问题语句对应的回答信息。
在一些实施例中,所述匹配单元,还用于:
从预设文档库中获取预设文档集合,所述预设文档集合包含多个预设文档;
根据每一预设文档与所述目标词信息进行关联权重计算,得到第一关联权重系数;
根据所述目标词信息与所述目标问题语句进行关联权重计算,得到第二关联权重系数;
获取所述目标词信息在所述多个预设文档中的词信息权重值;
根据所述第一关联权重系数、第二关联权重系数及词信息权重值确定每一预设文档的相对于所述目标问题语句的关联分数;
将所述关联分数大于预设关联分数阈值的预设文档确定为目标文档。
此外,本申请实施例还提供一种计算机设备,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序实现本申请实施例提供的信息查找方法。
此外,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例所提供的任一种信息查找方法中的步骤。
此外,本申请实施例还提供一种计算机程序,所述计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例所提供的任一种信息查找方法中的步骤。
本申请实施例可以接收待查找问题语句;从更新后的问答信息库中查找待查找问题语句对应的目标回答信息,其中,更新后的问答信息库由具有关联关系的目标问题语句与回答信息更新得到,目标问题语句为符合预设问题语句规则的语句,回答信息由训练后的文本处理模型根据目标问题语句及关联的目标文段确定;返回待查找问题语句对应的目标回答信息。由此可得,本申请实施例通过选取符合预设问题语句规则的目标问题语句,以及获取与目标问题语句关联性高的目标文段,并从目标文段中获取与目标问题语句关联性较高的回答信息,以根据目标问题语句与回答信息更新问答信息库,以此,提高问题语句与回答信息的匹配度,构建准确的问答对,提高用户通过更新后的问答信息库的获取回答信息时的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的信息查找系统的场景示意图;
图2a是本申请实施例提供的信息查找方法的步骤流程示意图;
图2b是本申请实施例提供的问答信息库更新方法的步骤流程示意图;
图3是本申请实施例提供的信息查找方法的另一步骤流程示意图;
图4是本申请实施例提供的信息查找方法的场景示意图;
图5是本申请实施例提供的第一目标模型的结构示意图;
图6是本申请实施例提供的时效识别模型的结构示意图;
图7是本申请实施例提供的语法检测模型的结构示意图;
图8是本申请实施例提供的匹配识别模型的结构示意图;
图9是本申请实施例提供的文本处理模型的结构示意图;
图10是本申请实施例提供的信息查找装置的第一结构示意图;
图11是本申请实施例提供的信息查找装置的第二结构示意图;
图12是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种信息查找方法以及装置。具体地,本申请实施例将从信息查找装置的角度进行描述,该信息查找装置具体可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备。其中,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
本申请实施例提供的方案涉及人工智能的信息查找等技术,具体通过如下实施例进行说明:
例如,参见图1,为本申请实施例提供的信息查找系统的场景示意图。该场景包括终端10和服务器20,该终端10与服务器20之间通过无线通信连接,实现数据交互。
用户在通过终端10输入待解答(待匹配)的问题语句,并通过终端10将待解答的问题语句发送至服务器20,以使得服务器20根据接收到的待解答(待匹配)问题语句在问答信息库中进行匹配,以获取该待查找问题语句对应的目标回答信息。进而,终端10可接收到服务器20反馈的目标回答信息。
服务器20用于接收终端10发送的待查找问题语句;从更新后的问答信息库中查找待查找问题语句对应的目标回答信息,其中,更新后的问答信息库由具有关联关系的目标问题语句与回答信息更新得到,目标问题语句为符合预设问题语句规则的语句,回答信息由训练后的文本处理模型根据目标问题语句及关联的目标文段确定;返回待查找问题语句对应的目标回答信息至终端10。
其中,本申请实施例的信息查找方式可以包括接收待查找问题语句、查找目标回答信息、返回目标回答信息等处理方式。
以下分别进行详细说明。需说明的是,以下实施例的顺序不作为对实施例优选顺序的限定。
参见图2a,图2a为本申请实施例提供的一种信息查找方法的步骤流程示意图,具体流程如下:
101、接收待查找问题语句。
其中,该待查找问题语句可以是用户需要解答的疑问语句或疑问信息,用于反映用户的意图信息。
为了提供短答案信息查找服务,本申请实施例员通过接收用户发送的待查找问题语句,以便于后续根据待查找问题语句获悉用户的意图,以提供相应的短答案信息。
102、从更新后的问答信息库中查找待查找问题语句对应的目标回答信息。
其中,更新后的问答信息库由具有关联关系的目标问题语句与回答信息更新得到,目标问题语句为符合预设问题语句规则的语句,回答信息由训练后的文本处理模型根据目标问题语句及关联的目标文段确定。
其中,该问答信息库可以是存储问答对的数据库,应用于搜索引擎中的检索式问答系统,以向问题语句提供回答信息。其中,该问答对是指问句(问题语句)与答案信息(答句或回答信息)之间的一种组合形式,其包含问句与答案信息之间的关联关系,用于后续匹配用户提出的问句(待解答问题语句)对应的答案信息(回答信息)。
其中,该目标回答信息可以是与待查找问题语句相对应的信息,用于解答用户提出的疑问(待查找问题语句)。该目标回答信息从问答信息库中获取。
为了获取待查找问题语句对应的目标回答信息,本申请实施例在接收到待查找问题语句后,从预先更新/建立的问答信息库中查找该待查找问题语句对应的目标回答信息。具体的,查找对应的目标回答信息的方式可以为:获取该待查找问题语句的语句类型信息及意图信息;根据语句类型信息及意图信息确定该待查找问题语句对应的目标问题语句;通过更新后的问答信息库查找与该目标问题语句关联的目标回复信息。
需要说明的是,由于用户在提出待查找问题语句时,该待查找问题语句在句式或表达方式上与问答信息库中实际的问题语句之间存在差异,这可能会影响后续获取目标回答信息的准确度。在本申请实施例中,为了能够从问答信息库中准确查找待查找问题语句对应的目标回答信息,首先,可根据待查找问题语句对应的语句类型信息及意图信息,确定待查找问题语句对应的目标问题语句,该目标问题语句与问答信息库中所包含的某个问题语句相同或非常相近,以此,实现将用户待查找问题语句进行转换;进而,从更新后的问答信息库查找该目标问题语句对应的目标回答信息。通过以上方式,可以提高获取待查找问题信息对应的目标回答信息的匹配度,提高用户获取目标回答信息时的准确性。
在本申请实施例中,还提供一种问答信息库更新方法,如图2b所示,该问答信息库的更新/构建过程参见步骤S1-S5。具体的,步骤“从更新后的问答信息库中查找待查找问题语句对应的目标回答信息”之前,可以包括:
S1、采集问题语句集。
其中,该问题语句集包含多个问题语句,即该问题语句集可以是包含多个问题语句的信息集合。
其中,该问题语句可以是查找或获取各种信息的语句或问句,其可反映用户的意图信息。例如,当该问题语句为“A鼠标的作用”,则该问题语句反映用户想要获取“A鼠标”的相关信息;又如,当问题语句为“B人物”,属于单个名词,则该问题语句反映用户可能要获取“B人物”的相关信息。
在本申请实施例中,该问题语句可作为信息查找依据,以用于构建问答对,从而建立问答信息库,该问答信息库用于用户的日常疑问的解答。其中,该问答对是指问句(问题语句)与答案信息(答句或回答信息)之间的一种组合形式,其包含问句与答案信息之间的关联关系,用于后续匹配用户提出的问句(待解答问题语句)对应的答案信息(回答信息)。
为了提高问题语句与回答信息之间匹配度,本申请实施例可以对预存的问答对中的问题语句进行提取,实现对问题语句进行采集,得到问题语句集合,以便于后续根据采集的问题语句重新构建问答对,提高问题语句与回答信息之间的匹配度。
在一些实施方式中,采集问题语句集的方式还可以为:获取本地缓存中的历史搜寻记录;读取历史搜寻记录中的搜寻信息,并将读取的搜寻信息确定为问题语句;将问题语句加入问题语句集。例如,以服务器为例,在各终端应用向服务器发送问题语句的搜寻请求时,服务器本地缓存中会包含该问题语句对应的搜寻信息的搜寻记录,为了获取用于构建问答对的问题语句,可从服务器的历史搜寻记录中获取历史的搜寻信息作为问题语句,以使得后续构建问答对更贴合用户的信息获取需求,具有可靠性。
此外,为了获取用于构建问答对的信息查找依据(问题语句),本申请实施例可以通过实时获取线上的问题语句,如,用户通过目标应用发送问题语句至服务器,以获取该问题语句对应的回答信息,由于该用户发送的问题语句贴合用户的信息获取需求,但当前已构建的问答对集合中可能不包含该问题语句对应的问答对,或无法满足用户的信息需求;因此,通过实时采集用户发送的问题语句,以便于后续构建问答对。
通过以上任意一种方式或组合,采集问题语句集,以便用于后续构建问答对,提高问题语句对应的答案信息的覆盖率,以便于用户获取问题语句对应的答复信息。
S2、从多个问题语句中筛选出符合预设问题语句规则的目标问题语句。
其中,该预设问题语句规则可以是筛选出符合用于构建问答对的问题语句的规则,用于对采集到的问题语句集合中问题语句进行过滤,以筛选出符合预设规则的目标问题语句。
需要说明的是,由于问答对适用于解答用户的日常问题,即匹配用户提出的常规问题,因此,在构建问答对时,可以根据预设问题语句规则进行筛选可用于构建问答对的目标问题语句。其中,该预设问题语句规则可以包括问题语句的语句完整规则、问题语句的时效规则、问题语句的语法规则、问题语句的语句类型规则等。为了避免问题语句存在歧义,导致后续在生成问答对的无效,浪费资源,本申请实施例需要选取符合预设问题语句规则的问题语句,以用于后续构建问答对。
在一些实施方式中,步骤“从多个问题语句中筛选出符合预设问题语句规则的目标问题语句”,包括:
(1)对多个问题语句进行分类,得到每一问题语句对应的类别标签。
其中,该类别标签可以是问题语句的语句类型的标识,用于表示问题语句的语句类别,反映问题语句的答案方向。例如,本申请实施例中,该类别标签可以包括事物类别(what)、时间类别(when)、位置类别(where)、人物类别(who)、数值类别(numeric)、选择类别(which)、判断类别(yes_no)、评价类别(how)、因果类别(why)、长度类别(what-long)、数量类别(what-multi)等。其中,事物类别(what)、时间类别(when)、位置类别(where)、人物类别(who)、数值类别(numeric)的问题语句属于短答案类的问题语句(query语句)。
需要说明的是,每一类别的问题语句具有对应的一个类别标签,如,事物类别(what)的问题语句对应的类别标签可以是“what标签”,时间类别(when)对应的类别标签可以是“when标签”。
为了提高后续在解答用户提出的问题语句的匹配度,本申请实施例在构建问答对前,需要确定每一问题语句对应的类别标签,即语句类型信息,便于后续选取具有明确类别的问题语句,以用于构建问答对的问题语句。
在一些实施方式中,可以通过训练后的类别标签识别模型对问题语句进行识别,以得到问题语句对应的语句类型(即类别)。具体的,将问题语句输入训练后的类别标签识别模型;通过类别标签识别模型对问题语句进行嵌入处理,得到问题语句对应的编码向量;通过类别标签识别模型对问题语句对应的编码向量进行分类处理,得到问题语句对应的类别标签。
其中,该训练后的类别标签识别模型的训练过程可以为:根据样本问题语句及样本类别标签对预设类别标签识别模型进行联合训练,直至模型输出的类别标签差异收敛,得到训练好的类别标签识别模型;需要说明的是,在训练时,通过使用大规模的样本问题语句及对应的样本类别标签进行训练,确保模型在输出每一语句类型的问题语句对应的类别标签差异收敛。以此,通过模型对问题语句的类别标签(语句类型)进行识别,提高后续选取目标问题语句的效率。
(2)根据每一问题语句的词信息,识别每一问题语句对应的意图信息。
其中,该词信息可以是问题语句所包含一个或多个词组或词特征,这些词信息可以表示问题语句的信息内容,根据这些信息内容可以反映问题语句的意图。例如,问题语句为“A游戏的规则”,则该问题语句的词信息可以包括“A游戏”、“规则”,通过该“A游戏”和“规则”可以反映该问题语句的意图信息,如该意图信息可以为“获取/搜寻关于A游戏的规则”。
为了避免获取的问题语句存在歧义,导致后续在生成问答对的无效,浪费资源,本申请实施例需要选取意图信息明确的问题语句,以用于后续构建问答对。
其中,步骤“根据每一问题语句的词信息,识别每一问题语句对应的意图信息”可以包括:首先,根据词性信息提取问题语句中的词信息,该词性信息为划分词类依据的信息,用于根据该词性信息将每一问题语句划分为多个词特征或词信息;然后,将词信息与预设词信息表进行匹配,该预设词信息表包含可用于反映意图的预设词信息;当从预设词信息表匹配到与该词信息对应的目标词信息时,根据匹配到的目标词信息确定每一问题语句对应的意图信息。
在一些实施方式中,可以通过训练后的意图信息识别模型对每一问题语句的意图信息进行识别,以得到该问题语句对应的意图信息。具体的,将问题语句输入训练后的意图信息识别模型;通过意图信息识别模型对问题语句进行嵌入处理,得到问题语句对应的编码向量;通过类别标签识别模型对问题语句对应的编码向量进行分类处理,得到问题语句对应的意图信息。
其中,该意图信息识别模型的训练过程可以为:根据样本问题语句及样本意图信息对预设模型进行联合训练,直至模型输出的意图信息差异收敛,得到训练好的意图信息识别模型;需要说明的是,在训练时,通过使用大规模的样本问题语句及对应的样本意图信息进行训练,确保模型在输出每一问题语句对应的意图信息差异收敛。以此,通过模型对问题语句的意图信息进行识别,提高后续选取目标问题语句的效率。
需要说明的是,当识别到问题语句具有对应的意图信息时,说明该问题语句具有完整的信息,属于完整的语句,符合语句完整规则。
在一些实施方式中,在识别问题语句对应的意图信息和类别标签时,可以通过训练后的模型对问题语句进行联合识别。具体的,将问题语句输入训练后的第一目标模型,得到问题语句对应的类别标签和意图信息;其中,该第一目标模型由样本问题语句、样本类别标签及样本意图信息对预设模型进行联合训练得到。
具体的,第一目标模型的训练过程可以为:将样本问题语句输入预设模型,得到模型输出的预测意图信息和预测类别标签;获取预测意图信息与样本意图信息之间的信息差异,以及获取预测类别标签与样本类别标签之间的类别差异;根据信息差异及类别差异对预设模型中的网络参数进行调整,直至信息差异及类别差异迭代收敛,得到训练后的第一目标模型。
通过以上方式,通过结合问题语句的意图信息和类别标签,实现采用多任务联合训练的方式对模型进行训练,使得模型经过大规模预训练,得到迭代收敛的第一目标模型,使得第一目标模型在对问题语句进行识别时,输出预测的意图信息及类别标签,通过多任务相互配合训练,使得训练后的第一目标模型效果更优,提高第一目标模型的识别性能,进而提高模型对问题语句进行意图识别和类别标签识别的准确性。
(3)基于分类结果及意图信息,从多个问题语句选取符合预设问题语句规则的目标问题语句。
为了避免问题语句存在歧义,导致后续在生成问答对的无效,浪费资源,本申请实施例需要选取符合预设问题语句规则的问题语句,以用于后续构建问答对。
其中,步骤“基于分类结果及意图信息,从多个问题语句选取符合预设问题语句规则的目标问题语句”,包括:
(3.1)获取每一问题语句对应的时效标签,时效标签用于指示对应的问题语句的时效类型。
其中,该时效标签是指问题语句所对应的时效类型,其可反映问题语句对获取的答案信息(回答信息)的时效要求;其中,该时效标签可以包括无时效性标签、弱时效性标签和强时效性标签。例如,随着时间的推移,答案信息(回答信息)依然可以满足对应的问题语句,则表示该问题语句的时效标签为无时效性标签;随着时间的推移,答案信息(回答信息)的变动很小,即答案信息(回答信息)在一定时间内适用,则表示该问题语句的时效标签为弱时效性标签;又如,随着时间的推移,问题语句对应的答案信息(回答信息)的变动较大,即答复信息(回答信息)不是固定的,答复信息(回答信息)更新周期比较短,则表示问题语句的时效标签为强时效性标签。
为了便于后续选取符合预设时效规则的问题语句,本申请实施例需要先获取问题语句的时效标签。其中,该时效标签的获取方式可以是:将每一问题语句输入训练后的时效识别模型;通过时效识别模型对问题语句进行嵌入处理,得到用于问题语句对应的编码向量;通过时效识别模型对问题语句对应的编码向量进行分类处理,得到每一问题语句对应的时效标签。
其中,该训练后的时效识别模型由样本问题语句及样本时效标签对预设模型进行联合训练得到,该时效识别模型为的二分类模型。该训练后的时效识别模型的训练过程可以为:将样本问题语句输入预设模型,得到模型输出的预测时效标签;获取预测时效标签与样本时效标签之间的时效标签差异;根据时效标签差异对预设模型中的网络参数进行调整,直至时效标签差异迭代收敛,得到训练后的时效识别模型。需要说明的是,在训练时,通过使用大规模的样本问题语句及对应的样本时效标签进行训练,确保模型在输出每一问题语句对应的时效标签差异收敛,以此,通过模型对问题语句的时效标签进行识别,提高后续选取目标问题语句的效率。
(3.2)对每一问题语句进行语法校验,并将满足预设语法规则的问题语句确定为合法性语句。
其中,该预设语法规则可以是语病识别(识别句子是否有错误)、语病分类(识别具体的错误类型)、语病定位(识别错误的位置)等语法判定规则。用于选取符合语法结构的问题语句。
需要说明的是,由于用于构建问答对的问题语句通过多种方式采集得到,其可能包含语法错误,如问题语句对应的语句结构中的主谓宾颠倒,出现错别字等,这将影响构建的问答对无法被准确匹配,进而影响用户通过问答对获取准确的答案信息。因此,为了使得后续构建的问答对能够被准确使用,需要确保用于构建问答对的问题语句的语法准确性,本申请实施例需要对问题语句进行语法校验,如语法结构、错别字等校验,以选取符合预设语法规则的问题语句作为合法性语句。
在一些实施方式中,可以通过模型对问题语句的语法结构进行检测。具体的,将问题语句输入训练后的语法检测模型;通过语法检测模型对问题语句进行嵌入处理,得到问题语句对应的编码向量;通过语法检测模型对问题语句对应的编码向量进行分类处理,得到语法检测结果。进一步的,将语法检测结果与预设语法规则对比,以将满足预设语法规则的问题语句确定为合法性语句。
其中,该训练后的语法检测模型由样本问题语句及样本语法检测结果对预设模型进行联合训练得到。具体的,语法检测模型的训练过程可以为:将样本问题语句输入预设模型,得到模型输出的预测语法检测结果;获取预测语法检测结果与样本预测语法检测结果之间的语法差异;根据语法差异对预设模型中的网络参数进行调整,直至语法差异迭代收敛,得到训练后的语法检测模型。需要说明的是,该语法检测模型为的一个二分类模型。
本申请实施例通过以上方式,可以提高对问题语句的语法检测效率。
(3.3)基于时效标签、类别标签及意图信息,从合法性语句中选取符合预设问题语句规则的目标问题语句。
具体的,该预设问题语句规则还可以包括预设语句完整规则、预设时效规则及预设语句类型规则。为了避免问题语句存在歧义,导致后续在生成问答对的无效,浪费资源,本申请实施例需要选取符合预设问题语句规则的问题语句,以用于后续构建问答对。
其中,该预设语句完整规则可以指问题语句应当具备问题意图完整性,即问题语句应当具备意图信息;该预设语句完整规则用于选取具有意图信息的问题语句。
其中,该预设语句类型规则可以是对问题语句的语句类型进行筛选的规则。例如,语句类型(类别)可以包括事物类别(what)、时间类别(when)、位置类别(where)、人物类别(who)、数值类别(numeric)、选择类别(which)、判断类别(yes_no)、评价类别(how)、因果类别(why)、长度类别(what-long)、数量类别(what-multi)等;其中,事物类别(what)、时间类别(when)、位置类别(where)、人物类别(who)、数值类别(numeric)的问题语句属于短答案类的问题语句;假设预设语句类型规则为选取短答案类的问题语句,当问题语句的类别属于事物类别(what)、时间类别(when)、位置类别(where)、人物类别(who)、数值类别(numeric)中的任一类别,则符合预设语句类型规则。
其中,该预设时效规则可以是筛选/选取符合预设时效要求的问题语句的规则。在本申请实施例中,预设时效规则可以包括无时效性和弱时效性,以选符合无时效性和弱时效性的问题语句。需要说明的是,由于具有强时效性的问题语句对应的答案信息更新较快,通常不适用于构建问答对,否则将会浪费资源,且造成问题语句与答案信息(回答信息)匹配度较低。
为了获取的符合预设问题语句规则的问题语句,本申请实施例在得到合法性语句后,分别根据预设时效规则、预设语句类型规则及预设语句完整规则对合法性语句进行筛选,以从合法性语句中选取符合预设问题语句规则的目标问题语句。
具体的,通过预设语句类型规则对合法性语句进行筛选,将短答案类的合法性语句确定为第一问题语句;通过预设语句完整规则对第一问题语句进行筛选,将具有意图信息的第一问题语句确定为第二问题语句;通过预设时效规则对第二问题语句进行筛选,将时效标签为无时效标签和低时效标签的第二问题语句确定为目标问题语句。
通过以上方式,可以选取符合预设问题语句规则的问题语句作为目标问题语句,可以避免问题语句存在歧义,导致后续在生成问答对的无效,浪费资源;在本申请实施例中,选取符合预设问题语句规则的问题语句,以用于后续构建问答对,使得后续在根据问答对进行问题语句解答时的可行性,具有可靠性。
S3、从预设文档库中匹配目标问题语句关联的目标文段。
该预设文档库可以是存储有大量文档的资料可以库或数据库。其中,每一文档可包含一个或多个文段,每一文段包含文本内容。例如,文档可以学术论文、日志、文摘、新闻等,以学术论文为例,其可包含多个文段,每一文段包含学术内容。此处不做赘述。
为了后续能够获取与问题语句关联性较高的回答信息,本申请实施例需要先从预设文档库中定位或匹配关联性较高的目标文段。具体的,该目标文段的匹配方式可以是:根据目标问题语句所包含的目标词信息,从预设文档库中查找与目标词信息关联的目标文档,进而从目标文段中获取与目标词信息匹配度较高的目标文段,以便于后续基于该目标文档,获取与目标问题语句关联性较高的回答信息,以提高目标问题语句与相应的回答信息之间的匹配度。
在一些实施方式中,步骤“从预设文档库中匹配目标问题语句关联的目标文段”,包括:
(1)获取目标问题语句中的目标词信息。
其中,该目标词信息可以是问题语句所包含一个或多个词组或词特征,这些词信息可以表示问题语句的信息内容,根据这些信息内容可以反映问题语句的意图。
为了提高后续匹配到目标文段的准确性,本申请实施例通过获取目标问题语句中的目标词信息,以便于后续根据获取的目标词信息去匹配关联的目标文段,可避免目标问题信息中的其他无关字符或文字参与匹配,导致匹配到的目标文段与目标问题语句的关联度不高。
在本申请实施例中,目标词信息的获取方法可以为:根据词性信息对目标问题语句进行分词处理,得到目标词信息,其中,该词性信息为划分词类依据的信息,用于根据该词性信息将目标问题语句划分为多个词特征或词信息。以此,获取目标问题语句中的目标词信息,以便于后续根据目标词信息去匹配目标文段,提高后续获取关联的回答信息的准确性,以及效率。
(2)从预设文档库中查找目标词信息关联的目标文档。
其中,该目标文档为存储或寄存于预设文档库中的文档文本,其包含文本信息。
为了提高后续获取的回答信息的匹配度,以及提高构建问答对效率,本申请实施例先获取与目标问题语句关联的目标文档。具体的,在提取到目标词信息后,从预设文档库中查找目标词信息关联的目标文档,以便于后续从匹配到的目标文档中查找相关的回答信息,有效避免对相关性较低的文档进行读取,节省资源,提高回答信息的获取效率。
在一些实施方式中,步骤“从预设文档库中查找目标词信息关联的目标文档”,包括:
(2.1)从预设文档库中获取预设文档集合,预设文档集合包含多个预设文档;
(2.2)根据每一预设文档与目标词信息进行关联权重计算,得到第一关联权重系数;
(2.3)根据目标词信息与目标问题语句进行关联权重计算,得到第二关联权重系数;
(2.4)获取目标词信息在多个预设文档中的词信息权重值;
(2.5)根据第一关联权重系数、第二关联权重系数及词信息权重值确定每一预设文档的相对于目标问题语句的关联分数;
(2.6)将关联分数大于预设关联分数阈值的预设文档确定为目标文档。
为了得到与目标问题信息关联度较高的目标文档,本申请实施例在从预设文档库中获取到预设文档后,计算目标问题语句中目标词信息与各文档之间的关联分数。其中,该关联分数可反映相应文档与目标问题语句(或目标词信息)之间的关联度;进而,选取关联分数较高的文档作为目标文档。
其中,该关联分数可反映文档与目标问题语句之间的相关性,当关联分数越高,则文档与目标问题语句之间的相关性越大。该关联分数可根据目标词信息与预设文档之相关性、目标词信息与目标问题语句之间的相关性、每一目标词信息的权重值确定。
具体的,根据每一预设文档与目标词信息进行关联权重计算,得到第一关联权重系数。需要说明的是,由于词频和相关性之间的关系是非线性的,每个目标词信息对于文档的相关性分数不会超过一个特定的阈值,当词信息出现的次数达到一个阈值后,其影响就不在线性增加了,而这个阈值会跟文档本身有关。因此,在刻画目标词信息与文档相似性时,该第一关联权重系数的计算过程如下:
Figure BDA0003163408080000181
Figure BDA0003163408080000184
其中,S(qi,d)表示第一关联权重系数(即目标词信息与文档的相关系数);qi表示目标问题语句中的目标词信息;i表示目标问题语句中目标词信息的位置或顺序,i∈t,t为任意正整数;d表示预设文档;ftd表示t对应的目标词信息qi在文档d中的词频;Ld表示文档d的长度;Lave表示所有文档的平均长度;k1表示一个正的变量参数,用来标准化文章词频的范围,当k1=0时,第一关联权重系数更接近原始的词频;b表示通过文档长度衡量目标词信息的权重的重要程度,b属于可调参数,b∈(0,1),当b为1,是完全使用文档长度来权衡目标词信息的权重,当b为0表示不使用文档长度来权衡目标词信息的权重。
具体的,根据目标词信息与目标问题语句进行关联权重计算,得到第二关联权重系数。其中,该第二关联权重系数的计算过程如下:
Figure BDA0003163408080000182
其中,S(qi,Q)表示第二关联权重系数,tftq表示t对应的目标词信息qi在目标问题语句Q中的词频,k3表示一个可调参数,用于调整目标问题语句Q中的词频范围。
具体的,获取目标词信息在多个预设文档中的词信息权重值,即通过计算目标词信息在全部预设文档中的词信息权重值。其中,词信息权重值表示如下:
Figure BDA0003163408080000183
其中,IDF(qi)表示词信息权重值,N表示索引全部文档的数量,dfi表示包含目标词信息qi的文档d的数量。可以理解的是,对于某个目标词信息qi,若包含目标词信息qi的文档的数量越多,说明目标词信息qi的重要性越小,或者区分度越低,词信息权重值IDF(qi)越小,因此,可通过IDF(qi)来刻画目标词信息qi在文档中的权重。
具体的,根据第一关联权重系数、第二关联权重系数及词信息权重值确定每一预设文档的相对于目标问题语句的关联分数。其中,该关联分数表示如下:
Figure BDA0003163408080000191
其中,RSVd表示文档的相对于目标问题语句的关联分数,由于该式中的其他参数与前述的第一关联权重系数、第二关联权重系数和词信息权重值的参数解释相同,此处不做进一步赘述。
在本申请实施例中,在得到每一预设文档的相对于目标问题语句的关联分数后,可根据每一预设文档对应的关联分数选取目标文档。如选取关联分数最大的预设文档作为目标文档;或通过设定一个预设关联分数阈值,通过选取大于该预设关联分数阈值的预设文档作为目标文档,即可选取多个目标文档,以便于后续从多个目标文档中选取关联性较高的目标文段,具有可靠性。
(3)根据预设文段切分规则对目标文档进行切分,得到多个候选文段。
其中,该预设文段切分规则可以是划分文档中各文段的规则,该预设文段切分规则包含滑动窗口和切分步长,其中,该滑动窗口用于限定对文档进行切分时的文段大小或文本内容的数量,切分步长用于限定对文档进行切分时的切分频次或密度。例如,该滑动窗口可以是300个文字或3行文本内容,切分步长可以是以100文字或1文本内容行作为滑动步长对滑动窗口进行移动,以上仅为示例,此处对于滑动窗口和切分步长的大小不做限定。
本申请实施例在得到目标文段后,可根据预设文段切分规则对目标文档进行切分,以得到多个候选文段,以便于后续从多个候选文段中选取相关性较高的目标文段。
需要说明的是,根据预设文段切分规则对目标文档进行切分,以确保从目标文档中切分得到候选文段的大小,以及候选文段之间的密度,以避免遗漏相关的文本信息。
(4)对多个候选文段进行过滤,得到目标问题语句对应的目标文段。
为了得到与目标问题语句相关性较高的目标文段,本申请实施例需要对候选文段进行初步过滤,以获取包含回答信息对应的文本内容的目标文段。
在一些实施方式中,步骤“对多个候选文段进行过滤,得到目标问题语句对应的目标文段”,包括:
(4.1)将每一候选文段及目标问题语句输入预设语句文段匹配模型,得到每一候选文段与目标问题语句之间的匹配度。
其中,该预设语句文段匹配模型由样本文段、样本问题语句及样本匹配度联合训练得到。具体的,获取预设模型,并将样本文段及样本问题语句同步输入预设模型,得到预测匹配度;获取预测匹配度与样本匹配度之间的差异;根据预测匹配度与样本匹配度之间的差异对预设模型的网络参数进行调整,直至预测匹配度与样本匹配度之间的差异收敛,得到训练好的预设语句文段匹配模型。需要说明的是,在对模型进行训练阶段,采用大规模的样本问题信息及对应的样本文段对模型进行训练,以提高模型的性能。
为了获取候选文段与目标问题语句之间的匹配度,可将每一候选文段与目标问题语句生成语句文段匹配对,以将每一语句文段匹配对输入预设语句文段匹配模型,通过预设语句文段匹配模型根据每一候选文段与目标问题语句之间的关联特征,确定该候选文段与目标问题语句之间的匹配度。
在一些实施方式中,步骤“将每一候选文段及目标问题语句输入预设语句文段匹配模型,得到每一候选文段与目标问题语句之间的匹配度”,包括:
(4.1.1)将每一候选文段及目标问题语句输入预设语句文段匹配模型。
(4.1.2)通过预设语句文段匹配模型对候选文段及目标问题语句进行嵌入处理,得到嵌入编码向量。
该嵌入编码向量可以由字符特征子向量、位置特征子向量、分割子向量组成。其中,字符特征子向量可以是候选文段或目标问题语句中每个字符(如文字、单词或数值)对应的特征向量。位置特征子向量可以是根据每个字符在候选文段或目标问题语句中在位置信息生成的特征向量。分割子向量可以是表示候选文段或目标问题语句的向量,用于区分候选文段与目标问题语句,具体的,分割子向量可以表示每个字符所属语句,如属于候选文段或目标问题语句,以确定相应的字符属于输入的候选文段或目标问题语句。
为了获取候选文段与目标问题语句之间的匹配度,首先,本申请实施例通过预设语句文段匹配模型对候选文段及目标问题语句进行嵌入处理,以获取候选文段和目标问题语句对应的编码向量;进而根据编码向量中各特征向量之间关联性,确定当前候选文段与目标问题语句之间的匹配度。
具体的,预设语句文段匹配模型在对目标问题语句和候选文段进行嵌入处理时,嵌入处理可包括:通过预设语句文段模型将目标问题语句与候选文段进行预处理,得到预处理后的目标问题语句与候选文段,其中,该预处理方式可以为读取,具体可以通过模型的相应字符单元对目标问题语句和候选文段中的字符进行读取;通过预设语句文段模型对预处理后的目标问题语句与候选文段进行字符向量转换,得到对应的字符特征子向量;通过预设语句文段模型对预处理后的目标问题语句与候选文段中的字符的位置信息进行向量转换,得到对应的位置特征子向量;通过预设语句文段模型对预处理后的目标问题语句及候选文段进行分割,得到对应分割子向量;通过预设语句文段模型对字符特征子向量、位置特征子向量及分割子向量进行加权处理,如求和处理,得到嵌入编码向量。
(4.1.3)通过预设语句文段匹配模型对编码向量进行分类处理,得到匹配度,其中,该匹配度由预设语句文段匹配模型由编码向量中目标问题语句与候选文段之间子向量的关联性生成。
其中,该子向量可以是目标问题语句及候选文段中各字符对应的字符特征子向量、位置特征子向量及分割子向量。
为了获取候选文段与目标问题语句之间的匹配度,本申请实施例通过预设语句文段匹配模型根据编码向量中目标问题语句与候选文段之间子向量的关联性,对编码向量进行分类处理,得到候选文段与目标问题语句之间的匹配度,以便于后续根据匹配度对候选文段进行初步过滤,提高匹配度。
(4.2)将匹配度大于预设匹配度阈值的候选文段确定为目标文段。
其中,该预设匹配度阈值可以是预先设置的匹配度参考值,用于对候选文段进行筛选或过滤。
为了得到与目标问题语句相关性较高的目标文段,本申请实施例在得到候选文段与目标问题语句之间的匹配度后,通过预设匹配度阈值对匹配度低的候选文段进行过滤,以将匹配度大于预设匹配度阈值的候选文段确定为目标文段。以此,实现对候选文段进行初步过滤,以获取与目标问题语句相关性较高的目标文段。
S4、将目标问题语句和目标文段输入训练后的文本处理模型,得到目标问题语句对应的回答信息。
其中,该训练后的文本处理模型由样本问题语句、样本文段、样本回答信息的位置信息对预设模型进行联合训练得到。其中,该样本问题语句携带有样本语句类型信息,样本文段携带有所在文档的文档标题信息;具体的,该模型的训练过程可以为:将样本问题语句及样本文段输入预设模型,使得预设模型对样本问题语句、样本问题语句对应的语句类型信息、样本文段及样本文段对应的文档标题进行嵌入处理,并进行分类,得到样本文段中与样本问题语句关联的文本内容的预测位置信息;获取预测位置信息与样本位置信息之间的位置信息差异;并根据位置信息对预设模型中的网络参数进行调整,经过迭代训练,直至位置信息差值收敛,得到训练后的文本处理模型。需要说明的是,在对模型的训练过程中,需要使用超大规模的样本文本数据对模型进行训练,以提高模型的性能。
在一些实施方式中,步骤“将目标问题语句和目标文段输入训练后的文本处理模型,得到目标问题语句对应的回答信息”,包括:
(1)将目标问题语句及目标文段输入训练后的文本处理模型。
其中,目标问题语句携带有对应的语句类型信息,目标文段携带有所在文档的文档标题。
其中,该语句类型信息可以是问题语句所属的类别标签对应的信息。例如,目标问题语句为“劳动节的时间是什么时候”,则该目标问题语句的语句类型信息属于“when标签”对应的信息。
(2)通过文本处理模型基于目标问题语句的语句类型信息和目标文段对应的文档标题,从目标文段中提取目标问题语句对应的候选回答信息。
为了从目标文段获取较为准确的回答信息,本申请实施例结合目标问题语句的语句类型信息和目标文段所在文档的文档标题,实现多维度结合,从目标文段中确定与目标问题语句强相关的候选回答信息。
在一些实施方式中,步骤“通过文本处理模型基于目标问题语句的语句类型信息和目标文段对应的文档标题,从目标文段中提取目标问题语句对应的候选回答信息”,包括:
(2.1)通过文本处理模型对目标问题语句、语句类型信息、目标文段及文档标题进行嵌入处理,得到目标编码向量;
(2.2)通过文本处理模型对目标编码向量进行分类处理,输出目标文段中与目标问题语句关联的文本内容的位置信息;
(2.3)对目标文段中位置信息对应的文本内容进行提取,得到目标文本内容;
(2.4)将目标文本内容确定为候选回答信息。
为了从目标文段获取较为准确的回答信息,本申请实施例通过训练后的文本处理模型对目标问题语句、目标问题语句对应的语句类型信息、目标文段及目标文段对应的文档标题进行嵌入处理,得到目标编码向量;通过文本处理模型对目标编码向量进行分类处理,得到目标文段中与目标问题语句关联的文本内容的位置信息;以基于该位置信息,对目标文段中位置信息对应的文本内容进行提取,得到目标文本内容,并确定为目标问题语句强相关的候选回答信息。
通过以上方式,可以从关联性较高的目标文段中进一步提取与目标问题语句相关的候选回答信息,以便于后续提高问题语句与回答信息之间的匹配度。
(3)基于候选回答信息确定目标问题语句对应的回答信息。
其中,该回答信息是与目标问题语句匹配的答案信息,用于与目标问题语句共同构建问答对。
为了提高后续构建问答对的效率,本申请实施例在得到候选回答信息后,需要从候选回答信息中确定目标问题语句对应的回答信息,即将候选回答信息确定为目标问题语句对应的回答信息,以便于后续构建问答对,提高构建问答对的效率。
需要说明的是,在本申请实施例中,由于与目标问题语句关联的目标文档的数量可能为多个,则与目标问题语句关联的目标文段的数量也为多个,可从多个目标文段中分别提取与目标问题语句相关的候选回答信息,即得到多个候选回答信息,此时,需要从多个候选回答信息中选取一个回答信息,以便于与目标问题语句共同构建问答对。
具体的,步骤“基于候选回答信息确定目标问题语句对应的回答信息”,包括:
(3.1)当检测到目标问题语句对应的多个候选回答信息时,将多个候选回答信息进行信息分类,得到每一信息类型对应的候选回答信息,并获取每一信息类型对应的候选回答信息的数量。
在本申请实施例中,在得到目标问题语句对应的候选回答信息后,对目标问题语句对应的候选回答信息的数量进行统计;当检测到目标问题语句具有对应的多个候选回答信息时,对多个候选回答信息进行信息分类,其中,该信息分类是指将相同或相近的候选回答信息进行信息分类,以确定每一信息类型对应的候选回答信息的数量。
(3.2)获取目标问题语句与候选回答信息所在的文档之间的关联分数。
其中,该关联分数可反映文档与目标问题语句之间的相关性,当关联分数越高,则文档与目标问题语句之间的相关性越大。该关联分数可根据目标词信息与预设文档之相关性、目标词信息与目标问题语句之间的相关性、每一目标词信息的权重值确定。
为了获取目标问题语句与候选回答信息所在的目标文档之间的关联分数,本申请实施例根据每一目标文档与目标问题语句中的目标词信息进行关联权重计算,得到第一关联权重系数;根据目标词信息与目标问题语句进行关联权重计算,得到第二关联权重系数;获取目标词信息在多个预设文档中的词信息权重值;根据第一关联权重系数、第二关联权重系数及词信息权重值确定每一预设文档的相对于目标问题语句的关联分数。
(3.3)根据每一信息类型对应的候选回答信息的数量及关联分数进行加权处理,得到每一信息类型对应的目标信息分数。
其中,该目标信息分数是指候选回答信息对应的信息类型的分数,可反映相应类型中候选回答信息与目标问题语句之间的匹配度,通过该目标信息分数可评估相应类型中候选回答信息作为目标问题语句的答案信息的可信度。
为了更贴近目标问题语句的信息类型的回答信息,本申请实施例在得到目标问题语句与候选回答信息所在的文档之间的关联分数后,通过每一信息类型对应的候选回答信息的数量与关联分数进行加权处理,如进行乘积,以得到每一信息类型对应的目标信息分数。以此,可确定每一信息类型中候选回答信息与目标问题语句之间的贴合度或匹配度,以便于后续从多个信息类型中选取候选回答信息,具有可靠性。
(3.4)将目标信息分数最大的信息类型中候选回答信息确定为目标问题语句对应的回答信息。
为了更贴近目标问题语句的信息类型的回答信息,本申请实施例在确定每一信息类型对应的目标信息分数后,通过选取目标信息分数最大的信息类型中候选回答信息,作为目标问题语句对应的回答信息。以此,提高目标问题语句与回答信息的匹配度,以便于后续构建较为准确的问答对。
S5、建立目标问题语句与对应的回答信息之间的关联关系,并利用具有关联关系的目标问题语句与对应的回答信息,对问答信息库进行更新,得到更新后的问答信息库。
其中,该问答信息库可以是存储问答对的数据库,应用于搜索引擎中的检索式问答系统,以向问题语句提供回答信息。其中,该问答对是指问句(问题语句)与答案信息(答句或回答信息)之间的一种组合形式,其包含问句与答案信息之间的关联关系,用于后续匹配用户提出的问句(待解答问题语句)对应的答案信息(回答信息)。
为了使得用户可以获取问题语句对应的回答信息,本申请实施例获取得到目标问题语句对应的回答信息后,需要将目标问题语句与对应的回答信息进行绑定,并添加至问答信息库。具体的,在得到目标问题语句对应的回答信息后,建立目标问题语句与对应的回答信息之间的关联关系,得到具有关联关系的目标问题语句语与回答信息,即具有关联关系的问答对,并将该具有关联关系的问答对更新至问答信息库。以此,可提高问答信息库对问题语句的回答信息的覆盖率,以便于后续基于该问答信息库搜寻用户的问题信息对应的回答信息。
其中,建立目标问题语句与对应的回答信息之间的关联关系,其过程可以为:获取目标问题语句的语句类型信息及意图信息,根据语句类型信息及意图信息生成问句标识;根据目标问题语句的意图信息及回答信息确定答句标识;将问句标识与答句标识进行绑定,以建立目标问题语句与对应的回答信息之间的关联关系。例如,目标问题语句是“劳动节是什么时候”,则该目标问题语句的语句类型信息属于“when标签”的语句类型,意图信息可以是“劳动节的时间”,则生成的问句标识可以是“劳动节时间”,如回答信息是“劳动节的时间是每年5月1日”,则回答信息对应的答句标识可以是“5月1日是劳动节”,建立该问句标识与回复标识进行绑定,以建立目标问题语句与对应的回答信息之间的关联关系,得到相应的问答对。
通过以上方式,可以将目标问题语句与对应的回答信息进行绑定,以构建问答对,并更新至问答信息库,以提高对问题语句的回答信息的覆盖率。以此,可使得后续在接收到待查找问题语句时,在更新后的问答信息库中查找待查找问题语句对应的目标回答信息。
103、返回待查找问题语句对应的目标回答信息。
为了使得查找到的目标回答信息能够呈现给相应的用户,本申请实施例在查找到待查找问题语句对应的目标回答信息后,需要返回待查找问题语句对应的目标回答信息,具体的,将查找到的目标回答信息返回至对应终端,以在终端上进行显示,以便于用户获悉待查找问题语句对应的目标回答信息。
在本申请实施例中,通过获取问题语句集,该问题语句集包含多个问题语句,通过对问题语句进行理解,以获悉每一问题语句的语句类型信息、时效标签、语法情况及意图信息,进而,从多个问题语句中选取符合预设问题语句规则的目标问题语句,如选取符合预设语句类型、预设时效规则、预设语法规则及具有意图信息的问题语句作为目标问题语句,以此,可避免问题语句存在的歧义导致后续生成的问答对无效,如生成的问答对中由于问题语句存在歧义,无法与待查找问题语句进行匹配,从而无法用于后续对待查找问题语句进行解答,浪费系统资源。
进一步的,在查找目标问题语句对应的回答信息过程中,首先,通过从预设文档库中选取与目标问题语句中目标词信息关联的候选文档,然后,从候选文档中选取关联性较高的目标文档,并对目标文段进行切分得到候选文段,进而从候选文段中选取强相关的目标文段,最后,从目标文段中提取与目标问题语句对应的回答信息,实现精确获取目标问题语句对应的回答信息,提高目标问题语句与回答信息的匹配度。进而,使得目标问题语句与回答信息在用于构建问答对时,提高问答对的准确性,以使得用户在提出待查找问题语句时,可通过问答对准确查找该待查找问题语句对应的目标回答信息,具有可靠性,提高用户体验。
由上可知,本申请实施例可以接收待查找问题语句;从更新后的问答信息库中查找待查找问题语句对应的目标回答信息,其中,更新后的问答信息库由具有关联关系的目标问题语句与回答信息更新得到,目标问题语句为符合预设问题语句规则的语句,回答信息由训练后的文本处理模型根据目标问题语句及关联的目标文段确定;返回待查找问题语句对应的目标回答信息。由此可得,本申请实施例通过选取符合预设问题语句规则的目标问题语句,以及获取与目标问题语句关联性高的目标文段,并从目标文段中获取与目标问题语句关联性较高的回答信息,以根据目标问题语句与回答信息更新问答信息库,以此,提高问题语句与回答信息的匹配度,构建准确的问答对,提高用户通过更新后的问答信息库的获取回答信息时的准确性。
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
本申请实施例以信息查找为例,对本申请实施例提供的信息查找方法作进一步叙述。
参见图3,图3是本申请实施例提供的信息查找方法的另一步骤流程示意图,图4是本申请实施例提供的信息查找方法的场景示意图,图5是本申请实施例提供的第一目标模型的结构示意图,图6是本申请实施例提供的时效识别模型的结构示意图,图7是本申请实施例提供的语法检测模型的结构示意图,图8是本申请实施例提供的匹配识别模型的结构示意图,图9是本申请实施例提供的文本处理模型的结构示意图;为了便于理解,请一并结合图3、图4、图5、图6、图7、图8和图9,对本申请实施例进行描述。
在本申请实施例中,将从信息查找装置的角度进行描述,该信息查找装置具体可以集成在计算机设备如终端或服务器等设备中。终端或服务器上的处理器执行信息查找方法对应的程序时,该信息查找方法的具体流程如下:
201、采集问题语句集。
其中,问题语句集包含多个问题语句。
其中,该问题语句可以是查找或获取各种信息的语句或问句,其可反映用户的意图信息。例如,当该问题语句为“A鼠标的作用”,则该问题语句反映用户想要获取“A鼠标”的相关信息;又如,当问题语句为“B人物”,属于单个名词,则该问题语句反映用户可能要获取“B人物”的相关信息。
在本申请实施例中,该问题语句可作为信息查找依据,以用于构建问答对,从而建立问答信息库,该问答信息库用于用户的日常疑问的解答。其中,该问答对是指问句(问题语句)与答案信息(答句或回答信息)之间的一种组合形式,其包含问句与答案信息之间的关联关系,用于后续匹配用户提出的问句(待解答问题语句)对应的答案信息(回答信息)。
例如,采集问题语句集的方式为可以为:对预存的问答对中的问题语句进行提取,实现对问题语句进行采集,得到问题语句集合,以便于后续根据采集的问题语句重新构建问答对,提高问题语句与回答信息之间的匹配度。
又如,获取本地缓存中的历史搜寻记录;读取历史搜寻记录中的搜寻信息,并将读取的搜寻信息确定为问题语句;将问题语句加入问题语句集。例如,以服务器为例,在各终端应用向服务器发送问题语句的搜寻请求时,服务器本地缓存中会包含该问题语句对应的搜寻信息的搜寻记录,为了获取用于构建问答对的问题语句,可从服务器的历史搜寻记录中获取历史的搜寻信息作为问题语句,以使得后续构建问答对更贴合用户的信息获取需求,具有可靠性。
此外,还可通过实时获取线上的问题语句,如,用户通过目标应用发送问题语句至服务器,以获取该问题语句对应的回答信息,由于该用户发送的问题语句贴合用户的信息获取需求,但当前已构建的问答对集合中可能不包含该问题语句对应的问答对,或无法满足用户的信息需求;因此,通过实时采集用户发送的问题语句,以便于后续构建问答对。
通过以上任意一种方式或组合,采集问题语句集,以便用于后续构建问答对,提高问题语句对应的答案信息的覆盖率,以便于用户获取问题语句对应的答复信息。
202、从多个问题语句中筛选出符合预设问题语句规则的目标问题语句。
其中,该预设问题语句规则可以是筛选出符合用于构建问答对的问题语句的规则,用于对采集到的问题语句集合中问题语句进行过滤,以筛选出符合预设规则的目标问题语句。
由于问答对适用于解答用户的日常问题,即匹配用户提出的常规问题,因此,在构建问答对时,可以根据预设问题语句规则进行筛选可用于构建问答对的目标问题语句。其中,该预设问题语句规则可以包括问题语句的语句完整规则、问题语句的时效规则、问题语句的语法规则、问题语句的语句类型规则等。为了避免问题语句存在歧义,导致后续在生成问答对的无效,浪费资源,本申请实施例需要选取符合预设问题语句规则的问题语句,以用于后续构建问答对。
其中,该预设语句类型规则可以是对问题语句的语句类型进行筛选的规则。例如,语句类型(类别)可以包括事物类别(what)、时间类别(when)、位置类别(where)、人物类别(who)、数值类别(numeric)、选择类别(which)、判断类别(yes_no)、评价类别(how)、因果类别(why)、长度类别(what-long)、数量类别(what-multi)等;其中,事物类别(what)、时间类别(when)、位置类别(where)、人物类别(who)、数值类别(numeric)的问题语句属于短答案类的问题语句;假设预设语句类型规则为选取短答案类的问题语句,当问题语句的类别属于事物类别(what)、时间类别(when)、位置类别(where)、人物类别(who)、数值类别(numeric)中的任一类别,则符合预设语句类型规则。
其中,该预设时效规则可以是筛选/选取符合预设时效要求的问题语句的规则。在本申请实施例中,预设时效规则可以包括无时效性和弱时效性,以选符合无时效性和弱时效性的问题语句。需要说明的是,由于具有强时效性的问题语句对应的答案信息更新较快,通常不适用于构建问答对,否则将会浪费资源,且造成问题语句与答案信息(回答信息)匹配度较低。
在本申请实施例中,问题语句按照时效性强弱分为无时效性、弱时效性及强时效性。
其中,无时效性,表示无时效性需求,随着时间的推移,答案依然可以满足。例如,(1)知识型问题语句:医疗诊治方法、名言警句、古诗词、翻译、汉字、问概念、问原理、问历史事件、乐器教程、星座配对、风水属相、文学名著等;(2)不可变事实查询:A手机是智能机吗、某知名人物的性别、某知名人物的国籍;(3)大课题观点类:品牌对企业的作用、语文学科在现代教育中的定位;(4)变动很少的常识型:打麻将/下棋/写信/骑车/游泳等教程、xx物件材料的优缺点特点、没有指定品牌的家居维修问题、地区面积、xx有多少个镇,地区车牌;(5)文案类:入党申请书怎么写;(6)意图不明,无法判断时效性。
其中,弱时效性,表示有时效性需求,答案随时间变化很小,如答案在产生后的预设年限年内都能满足。例如,(1)流程政策法律类:社保卡办理要什么材料、法律政策类、考试政策类;(2)可变教程参数类:软件app教程、手机参数、汽车参数、游戏攻略;(3)歌曲影视类:xx歌词是什么歌、电影电视剧小说动漫剧情、A明星演过什么电视剧、A明星的歌曲推荐;(4)小课题观点类:运营商的SIM卡怎么样、B品牌奶粉怎么样、手机机型号比较、直播行业发展怎么样、购物推荐、未解之谜等;(5)可变事实查询:地区海拔、城市人口、学校地址等。
其中,强时效性,有强烈的时效性需求,问题语句对应的答案信息每年或者更短的周期变化。例如,(1)隐含问“最”新:什么时候开学、5月1日放假多少天、今年是什么年、最强专业排名、xx公司现任董事长、篮球队会夺冠吗、A商场几点关门、去xx怎么坐车等;(2)商品价格类:股票汇率类、彩票开奖时间类、利率、xx打多少折;(3)要求答案非常精确类:客服电话、短信、寻址类(问网站)、邮编、区号、资源下载种子;(4)娱乐类:明星xx事件、明星介绍、还在世的人物简介等;(5)时间类查询(问年份):A手机什么时候上市、H公司成立时间等;(6)易变事实查询:A人物的身高、年龄、A人物和B人物的社会关系、xx市的官员、xx票房;(7)带年份,或者跟年份月份挂钩的问题:xx年xx地震死亡人数、xx年春运时间,xxxx年世界杯举办地在哪里、xx年龄,xx公司财报等。
以上仅为问题语句按照时效性强弱分为无时效性、弱时效性及强时效性对应的示例,此处不做限定。
其中,该预设语句完整规则可以指问题语句应当具备问题意图完整性,即问题语句应当具备意图信息;该预设语句完整规则用于选取具有意图信息的问题语句。可以理解的是,符合预设语句完整规则的问题语句的意图信息可表现为:可以分析出问题类别(即语句类型中的11个类别);当问题语句直接包含疑问词,明确问题语句的问题意图,如xx作用,xx怎么办,xx的释义,为什么xx等;当问题语句没有疑问词,通过问题语句需能够大概率猜测到用户的唯一问题意图;此外,对于复合/嵌套的当问题语句,只要存在一个问题是完整的,即符合预设语句完整规则。相反,不符合预设语句完整规则的问题语句的意图信息表现为:单个名词(游戏,小说,影视,人物,地点,菜名等);没有问题类型,或者没有限定词,或者有歧义,或者指示代词指代不明,或者关键句子成分缺失导致存在多种可能性等。
其中,该预设语法规则可以是语病识别(识别句子是否有错误)、语病分类(识别具体的错误类型)、语病定位(识别错误的位置)等语法判定规则,用于选取符合语法结构的问题语句。
具体的,选出符合预设问题语句规则的目标问题语句的过程可以为:
(1)将每一问题语句输入训练后的第一目标模型,得到每一问题语句对应的类别标签和意图信息,其中,该第一目标模型由样本问题语句、样本类别标签及样本意图信息对预设模型进行联合训练得到。
如图5所示,该第一目标模型可以为语言表示模型,例如,该第一模型可以是通过样本问题语句、样本意图信息及样本类别标签对双向编码表征(Bidirectional EncoderRepresentations from Transformers,BRET)模型。在对每一问题语句进行语句类型及意图信息识别时,将每一问题语句输入训练后的双向编码表征模型,通过双向编码表征模型对问题语句进行嵌入处理,得到第一编码向量,并通过双向编码表征模型对第一编码向量进行分类处理,得到每一问题语句对应的类别标签和意图信息。
(2)将每一问题语句输入训练后的时效识别模型,通过时效识别模型或获取每一问题语句对应的时效标签。
如图6所示,该时效识别模型可以为语言表示模型,该时效识别模型通过样本问题语句及样本时效标签对双向编码表征(Bidirectional Encoder Representations fromTransformers,BRET)模型联合训练得到。在对每一问题语句进行时效性识别时,将每一问题语句输入训练后的时效识别模型,通过时效识别模型对问题语句进行嵌入处理,得到对应的第二编码向量,并通过时效识别模型对第二编码向量进行分类处理,得到每一问题语句对应的时效标签。
(3)将每一问题语句输入训练后的语法检测模型,通过语法检测模型获取每一问题语句对应的语法检测结果。
如图7所示,该语法检测模型可以为语言表示模型,该语法检测模型通过样本问题语句及样本语法检测结果对双向编码表征(Bidirectional Encoder Representationsfrom Transformers,BRET)模型联合训练得到。在对每一问题语句进行语法检测时,将每一问题语句输入训练后的时效识别模型,通过时效识别模型对问题语句进行嵌入处理,得到对应的第三编码向量,并通过时效识别模型对第三编码向量进行分类处理,得到每一问题语句对应的语法检测结果。
(4)基于每一问题语句的类别标签、意图信息、时效标签及语法检测结果,从多个问题语句中选取符合预设问题语句规则的目标问题语句。
具体的,将语法检测结果与预设语法规则对比,以将满足预设语法规则的问题语句确定为合法性语句;通过预设语句类型规则对合法性语句进行筛选,将短答案类的合法性语句确定为第一问题语句;通过预设语句完整规则对第一问题语句进行筛选,将具有意图信息的第一问题语句确定为第二问题语句;通过预设时效规则对第二问题语句进行筛选,将时效标签为无时效标签和低时效标签的第二问题语句确定为目标问题语句。
需要说明的是,本申请实施例通过预设问题语句规则对问题语句进行筛选时,不同规则之间的筛选顺序不做限定。
通过以上方式,可以选取符合预设问题语句规则的问题语句作为目标问题语句,可以避免问题语句存在歧义,导致后续在生成问答对的无效,浪费资源;在本申请实施例中,选取符合预设问题语句规则的问题语句,以用于后续构建问答对,使得后续在根据问答对进行问题语句解答时的可行性,具有可靠性。
203、获取目标问题语句中的目标词信息,并从预设文档库中匹配目标词信息关联的目标文档。
其中,匹配目标词信息关联的目标文档的过程可以为:从预设文档库中获取预设文档集合,预设文档集合包含多个预设文档;根据每一预设文档与目标词信息进行关联权重计算,得到第一关联权重系数;根据目标词信息与目标问题语句进行关联权重计算,得到第二关联权重系数;获取目标词信息在多个预设文档中的词信息权重值;根据第一关联权重系数、第二关联权重系数及词信息权重值确定每一预设文档的相对于目标问题语句的关联分数;将关联分数大于预设关联分数阈值的预设文档确定为目标文档。
例如,利用搜索与数据分析引擎(Elasticsearch)的检索技术从自建百科正文索引库中召回若干与目标问题语句(query)关联的预设文档,并通过BM25算法计算每一预设文档的相对于目标问题语句的关联分数,以选取关联分数大于预设关联分数阈值的预设文档确定为目标文档。
204、根据预设文段切分规则对目标文档进行切分,得到多个候选文段。
其中,该预设文段切分规则可以是划分文档中各文段的规则,该预设文段切分规则包含滑动窗口和切分步长,其中,该滑动窗口用于限定对文档进行切分时的文段大小或文本内容的数量,切分步长用于限定对文档进行切分时的切分频次或密度。例如,该滑动窗口可以是300个文字或3行文本内容,切分步长可以是以100文字或1文本内容行作为滑动步长对滑动窗口进行移动,以上仅为示例,此处对于滑动窗口和切分步长的大小不做限定。
本申请实施例在得到目标文段后,可根据预设文段切分规则对目标文档进行切分,以得到多个候选文段,以便于后续从多个候选文段中选取相关性的候选文段。
205、对多个候选文段进行过滤,得到目标问题语句对应的目标文段。
为了得到与目标问题语句相关性较高的目标文段,本申请实施例需要对候选文段进行初步过滤,以获取包含回答信息对应的文本内容的目标文段。具体的,通过获取每一候选文段与目标问题语句之间的匹配度,以根据匹配度对候选文段进行过滤,以选取目标问题语句对应的目标文段。
如图8所示,该匹配识别模型可以为语言表示模型,该匹配识别模型通过样本问题语句、样本文段及样本匹配度对双向编码表征(Bidirectional Encoder Representationsfrom Transformers,BRET)模型联合训练得到。在对每一候选文段与问题语句进行匹配度识别时,将每一候选文段及目标问题语句输入预设语句文段匹配模型;通过预设语句文段匹配模型对候选文段及目标问题语句进行嵌入处理,得到嵌入编码向量;通过预设语句文段匹配模型对编码向量进行分类处理,得到匹配度,其中,该匹配度由预设语句文段匹配模型由编码向量中目标问题语句与候选文段之间子向量的关联性生成;将匹配度大于预设匹配度阈值的候选文段确定为目标文段。
本申请实施例通过以上方式,实现对候选文段进行初步过滤,以获取与目标问题语句相关性较高的目标文段。
206、将目标问题语句和目标文段输入训练后的文本处理模型。
其中,该训练后的文本处理模型由样本问题语句、样本文段、样本回答信息的位置信息对预设模型进行联合训练得到。其中,该样本问题语句携带有样本语句类型信息,样本文段携带有所在文档的文档标题信息。
具体的,该模型的训练过程可以为:将样本问题语句及样本文段输入预设模型,使得预设模型对样本问题语句、样本问题语句对应的语句类型信息、样本文段及样本文段对应的文档标题进行嵌入处理,并进行分类,得到样本文段中与样本问题语句关联的文本内容的预测位置信息;获取预测位置信息与样本位置信息之间的位置信息差异;并根据位置信息对预设模型中的网络参数进行调整,经过迭代训练,直至位置信息差值收敛,得到训练后的文本处理模型。需要说明的是,在对模型的训练过程中,需要使用超大规模的样本文本数据对模型进行训练,以提高模型的性能。
207、通过文本处理模型对目标问题语句、语句类型信息、目标文段及文档标题进行嵌入处理,得到目标编码向量,并对编码向量进行分类处理,输出目标文段中与目标问题语句关联的文本内容的位置信息。
如图9所示,该文本处理模型可以为语言表示模型,该文本处理模型通过样本问题语句、样本语句类型信息、样本文段及样本文档标题对双向编码表征(BidirectionalEncoder Representations from Transformers,BRET)模型联合训练得到。在对每一问题语句进行文本处理时,将目标问题语句及目标文段输入训练后的时效识别模型,通过时效识别模型对问题语句进行嵌入处理,得到对应的目标编码向量,并通过时效识别模型对目标编码向量进行分类处理,得到目标文段中与目标问题语句关联的文本内容的位置信息。
具体的,该编码向量可以由字符特征子向量、位置特征子向量、分割子向量组成。
其中,字符特征子向量可以是候选文段或目标问题语句中每个字符(如文字、单词或数值)对应的特征向量。
其中,位置特征子向量可以是根据每个字符在候选文段或目标问题语句中在位置信息生成的特征向量。
其中,分割子向量可以是表示候选文段或目标问题语句的向量,用于区分候选文段与目标问题语句,具体的,分割子向量可以表示每个字符所属语句,如属于候选文段或目标问题语句,以确定相应的字符属于输入的候选文段或目标问题语句。
其中,嵌入处理可包括:通过文本处理模型对目标问题语句(query)、语句类型信息(query type)、目标文段(paragraph)及文档标题(title)进行预处理,得到预处理后的目标问题语句、语句类型信息、目标文段及文档标题,其中,该预处理方式可以为读取,具体可以通过模型的相应字符单元对目标问题语句和候选文段中的字符进行读取;通过文本处理模型对预处理后的目标问题语句、语句类型信息、目标文段及文档标题进行字符向量转换,得到对应的字符特征子向量;通过文本处理模型对预处理后的目标问题语句与候选文段中的字符的位置信息进行向量转换,得到对应的位置特征子向量;通过文本处理模型对预处理后的目标问题语句、语句类型信息、目标文段及文档标题进行分割,得到对应分割子向量;通过预设语句文段模型对字符特征子向量、位置特征子向量及分割子向量进行加权处理,如求和处理,得到目标编码向量;进一步的,通过文本处理模型对目标编码向量进行分类处理,得到目标文段中与目标问题语句关联的文本内容的位置信息,即目标文段中与目标问题语句强相关的文本内容的起始位置和结束位置(start/end span)。
其中,通过文本处理模型对目标编码向量进行分类处理可以为:通过文本处理模型对目标编码向量中位置特征子向量的进行分类处理,以获取目标文段中与目标问题语句关联的文本内容的位置信息。
通过以上方式,获取目标文段中与目标问题语句关联的文本内容的位置信息,以便于确定目标文段中与目标问题语句相关的回复信息。
208、对目标文段中位置信息对应的文本内容进行提取,得到候选回答信息。
其中,该位置信息是目标文段中与目标问题语句相关的文本内容的位置信息,如该相关文本内容的起始位置和结束位置,该位置信息与目标编码向量中的位置特征子向量相关,由位置特征子向量进行分类处理得到。
基于该位置信息,对目标文段中位置信息对应的文本内容进行提取,得到目标文本内容,并确定为目标问题语句强相关的候选回答信息。
通过以上方式,可以从关联性较高的目标文段中进一步提取与目标问题语句相关的候选回答信息,以便于后续提高问题语句与回答信息之间的匹配度。
209、从候选回答信息中选取目标问题语句对应的回答信息。
其中,该回答信息是与目标问题语句匹配的答案信息,用于与目标问题语句共同构建问答对。
为了提高后续构建问答对的效率,本申请实施例在得到候选回答信息后,需要从候选回答信息中确定目标问题语句对应的回答信息,即将候选回答信息确定为目标问题语句对应的回答信息,以便于后续构建问答对,提高构建问答对的效率。
需要说明的是,在本申请实施例中,由于与目标问题语句关联的目标文档的数量可能为多个,则与目标问题语句关联的目标文段的数量也为多个,可从多个目标文段中分别提取与目标问题语句相关的候选回答信息,即得到多个候选回答信息,此时,需要从多个候选回答信息中选取一个回答信息,以便于与目标问题语句共同构建问答对。
具体的,在得到目标问题语句对应的候选回答信息后,对目标问题语句对应的候选回答信息的数量进行统计;当检测到目标问题语句具有对应的多个候选回答信息时,对多个候选回答信息进行信息分类得到每一信息类型对应的候选回答信息,并获取每一信息类型对应的候选回答信息的数量;获取目标问题语句与候选回答信息所在的文档之间的关联分数,如通过BM25算法计算目标问题语句与候选回答信息所在的文档之间的关联分数;通过每一信息类型对应的候选回答信息的数量与关联分数进行加权处理,如进行乘积,以得到每一信息类型对应的目标信息分数;将目标信息分数最大的信息类型中候选回答信息确定为目标问题语句对应的回答信息。
通过以上方式,可以选取更贴近目标问题语句的信息类型的回答信息作为目标问题语句对应的回答信息,以此,提高目标问题语句与回答信息的匹配度,以便于后续构建较为准确的问答对。
210、建立目标问题语句与对应的回答信息之间的关联关系,并利用具有关联关系的目标问题语句与对应的回答信息,对问答信息库进行更新。
其中,该问答信息库可以是存储问答对的数据库,如,该问答信息库可以是常见问题解答(Frequently Asked Questions,FAQ)库,该问答信息库应用于搜索引擎中的检索式问答系统,以向问题语句提供回答信息。其中,该问答对是指问句(问题语句)与答案信息(答句或回答信息)之间的一种组合形式,其包含问句与答案信息之间的关联关系,用于后续匹配用户提出的问句(待解答问题语句)对应的答案信息(回答信息)。
通过实施本步骤,可提高问答信息库对问题语句的回答信息的覆盖率,以便于后续基于该问答信息库搜寻用户的问题信息对应的回答信息。
211、在接收到待查找问题语句时,在更新后的问答信息库中查找待查找问题语句对应的目标回答信息,并返回目标回答信息。
其中,该待查找问题语句可以是用户需要解答的疑问语句或疑问信息,用于反映用户的意图信息。
为了获取待查找问题语句对应的目标回答信息,本申请实施例在接收到终端发送的待查找问题语句后,从预先更新/建立的问答信息库中查找该待查找问题语句对应的目标回答信息。具体的,查找对应的目标意图信息的方式可以为:获取该待查找问题语句的语句类型信息及意图信息;根据语句类型信息及意图信息确定该待查找问题语句对应的目标问题语句;通过更新后的问答信息库查找与该目标问题语句关联的目标回复信息。
进一步的,将查找到的目标回答信息返回给相应的终端,以在终端上进行显示。
通过执行步骤201-211,以实现如图4中的流程,具体的,图4所示的图标识别方法流程具体如下:
301、实时获取线上的问题语句。
302、对问题语句进行理解,获取问题语句的类别标签、意图信息、时效标签及语法检测结果;并基于问题语句的类别标签、意图信息、时效标签及语法检测结果,选取符合预设问题语句规则的问题语句作为目标问题语句。
303、通过文档索引从预设文档库中召回与目标问题语句相关的目标文档,并对目标文段进行切分,得到候选文段。
304、通过目标问题语句与候选文段进行匹配,以确定目标文段。
305、通过文本处理模型基于目标问题语句、语句类型信息、目标文段及文档标题,确定目标文段中与目标问题语句相关的文本内容的位置信息,并从目标文段中提取位置信息对应的文本内容作为候选回答信息。
306、对提取得到的候选回答信息进行后处理,如当存在多个候选回答信息时,可通过投票选取、加权处理等方式,从多个候选回复信息中选取目标问题语句对应的回复信息。
通过执行流程301-306,在得到目标问题语句对应的回复信息后,通过目标问题语句及对应的回答信息构建高质量的问答对,并将高质量的问答对更新至问答信息库。
需要说的是,关于流程301-306的具体实施可参见前面的实施例,在此不作赘述。
由上可知,本申请实施例可以接收待查找问题语句;从更新后的问答信息库中查找待查找问题语句对应的目标回答信息,其中,更新后的问答信息库由具有关联关系的目标问题语句与回答信息更新得到,目标问题语句为符合预设问题语句规则的语句,回答信息由训练后的文本处理模型根据目标问题语句及关联的目标文段确定;返回待查找问题语句对应的目标回答信息。由此可得,本申请实施例通过选取符合预设问题语句规则的目标问题语句,以及获取与目标问题语句关联性高的目标文段,并从目标文段中获取与目标问题语句关联性较高的回答信息,以根据目标问题语句与回答信息更新问答信息库,以此,提高问题语句与回答信息的匹配度,构建准确的问答对,提高用户通过更新后的问答信息库的获取回答信息时的准确性。
为了更好地实施以上方法,本申请实施例还提供一种信息查找装置,该信息查找装置可以集成在网络设备,比如服务器或终端等设备中,该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。
例如,如图10所示,该信息查找装置可以包括接收单元401、查找单元402以及返回单元403。
接收单元401,用于接收待查找问题语句;
查找单元402,用于从更新后的问答信息库中查找待查找问题语句对应的目标回答信息,其中,更新后的问答信息库由具有关联关系的目标问题语句与回答信息更新得到,目标问题语句为符合预设问题语句规则的语句,回答信息由训练后的文本处理模型根据目标问题语句及关联的目标文段确定;
返回单元403,用于返回待查找问题语句对应的目标回答信息。
在一些实施方式中,查找单元402,还具体用于:获取该待查找问题语句的语句类型信息及意图信息;根据语句类型信息及意图信息确定该待查找问题语句对应的目标问题语句;通过更新后的问答信息库查找与该目标问题语句关联的目标回复信息。
在一些实施方式中,如图11所示,该信息查找装置还可以包括采集单元404、筛选单元405、匹配单元406、输入单元407和建立单元408。
采集单元404,用于采集问题语句集,问题语句集包含多个问题语句;
筛选单元405,用于从多个问题语句中筛选出符合预设问题语句规则的目标问题语句;
匹配单元406,用于从预设文档库中匹配目标问题语句关联的目标文段;
输入单元407,用于将目标问题语句和目标文段输入训练后的文本处理模型,得到目标问题语句对应的回答信息;
建立单元408,用于建立目标问题语句与对应的回答信息之间的关联关系,并利用具有关联关系的目标问题语句与对应的回答信息,对问答信息库进行更新,得到更新后的问答信息库。
在一些实施例中,筛选单元405,还用于:
对多个问题语句进行分类,得到每一问题语句对应的类别标签;
根据每一问题语句的词信息,识别每一问题语句对应的意图信息;
基于分类结果及意图信息,从多个问题语句选取符合预设问题语句规则的目标问题语句。
在一些实施例中,筛选单元405,还用于:
获取每一问题语句对应的时效标签,时效标签用于指示对应的问题语句的时效类型;
对每一问题语句进行语法校验,并将满足预设语法规则的问题语句确定为合法性语句;
基于时效标签、类别标签及意图信息,从合法性语句中选取符合预设问题语句规则的目标问题语句。
在一些实施例中,输入单元407,还用于:
将目标问题语句及目标文段输入训练后的文本处理模型,其中,目标问题语句携带有对应的语句类型信息,目标文段携带有所在文档的文档标题;
通过文本处理模型基于目标问题语句的语句类型信息和目标文段对应的文档标题,从目标文段中提取目标问题语句对应的候选回答信息;
将候选回答信息确定为目标问题语句对应的回答信息。
在一些实施例中,输入单元407,还用于:
通过文本处理模型对目标问题语句、语句类型信息、目标文段及文档标题进行嵌入处理,得到目标编码向量;
通过文本处理模型对目标编码向量进行分类处理,输出目标文段中与目标问题语句关联的文本内容的位置信息;
对目标文段中位置信息对应的文本内容进行提取,得到目标文本内容;
将目标文本内容确定为候选回答信息。
在一些实施例中,输入单元407,还用于:
当检测到目标问题语句对应的多个候选回答信息时,将多个候选回答信息进行信息分类,得到每一信息类型对应的候选回答信息,并获取每一信息类型对应的候选回答信息的数量;
获取目标问题语句与候选回答信息所在的文档之间的关联分数;
根据每一信息类型对应的候选回答信息的数量及关联分数进行加权处理,得到每一信息类型对应的目标信息分数;
将目标信息分数最大的信息类型中候选回答信息确定为目标问题语句对应的回答信息。
在一些实施例中,匹配单元406,还用于:
获取目标问题语句中的目标词信息;
从预设文档库中查找目标词信息关联的目标文档;
根据预设文段切分规则对目标文档进行切分,得到多个候选文段;
对多个候选文段进行过滤,得到目标问题语句对应的目标文段。
在一些实施例中,匹配单元406,还用于:
从预设文档库中获取预设文档集合,预设文档集合包含多个预设文档;
根据每一预设文档与目标词信息进行关联权重计算,得到第一关联权重系数;
根据目标词信息与目标问题语句进行关联权重计算,得到第二关联权重系数;
获取目标词信息在多个预设文档中的词信息权重值;
根据第一关联权重系数、第二关联权重系数及词信息权重值确定每一预设文档的相对于目标问题语句的关联分数;
将关联分数大于预设关联分数阈值的预设文档确定为目标文档。
由以上可知,本申请实施例通过接收单元401接收待查找问题语句;通过查找单元402从更新后的问答信息库中查找待查找问题语句对应的目标回答信息,其中,更新后的问答信息库由具有关联关系的目标问题语句与回答信息更新得到,目标问题语句为符合预设问题语句规则的语句,回答信息由训练后的文本处理模型根据目标问题语句及关联的目标文段确定;通过返回单元403返回待查找问题语句对应的目标回答信息。由此可得,本申请实施例通过选取符合预设问题语句规则的目标问题语句,以及获取与目标问题语句关联性高的目标文段,并从目标文段中获取与目标问题语句关联性较高的回答信息,以根据目标问题语句与回答信息更新问答信息库,以此,提高问题语句与回答信息的匹配度,构建准确的问答对,提高用户通过更新后的问答信息库的获取回答信息时的准确性。
本申请实施例还提供一种计算机设备,如图12所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解,图12中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器501是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器502内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器501可包括一个或多个处理核心;优选的,处理器501可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器501中。
存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器501对存储器502的访问。
计算机设备还包括给各个部件供电的电源503,优选的,电源503可以通过电源管理系统与处理器501逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元504,该输入单元504可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本申请实施例中,计算机设备中的处理器501会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器501来运行存储在存储器502中的应用程序,从而实现各种功能,如下:
接收待查找问题语句;从更新后的问答信息库中查找待查找问题语句对应的目标回答信息,其中,更新后的问答信息库由具有关联关系的目标问题语句与回答信息更新得到,目标问题语句为符合预设问题语句规则的语句,回答信息由训练后的文本处理模型根据目标问题语句及关联的目标文段确定;返回待查找问题语句对应的目标回答信息。
以上各个操作的具体实施可参见前面的实施例,在此不作赘述。
由以上可知,本申请实施例可以接收待查找问题语句;从更新后的问答信息库中查找待查找问题语句对应的目标回答信息,其中,更新后的问答信息库由具有关联关系的目标问题语句与回答信息更新得到,目标问题语句为符合预设问题语句规则的语句,回答信息由训练后的文本处理模型根据目标问题语句及关联的目标文段确定;返回待查找问题语句对应的目标回答信息。由此可得,本申请实施例通过选取符合预设问题语句规则的目标问题语句,以及获取与目标问题语句关联性高的目标文段,并从目标文段中获取与目标问题语句关联性较高的回答信息,以根据目标问题语句与回答信息更新问答信息库,以此,提高问题语句与回答信息的匹配度,构建准确的问答对,提高用户通过更新后的问答信息库的获取回答信息时的准确性。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种信息查找方法中的步骤。例如,该指令可以执行如下步骤:
接收待查找问题语句;从更新后的问答信息库中查找待查找问题语句对应的目标回答信息,其中,更新后的问答信息库由具有关联关系的目标问题语句与回答信息更新得到,目标问题语句为符合预设问题语句规则的语句,回答信息由训练后的文本处理模型根据目标问题语句及关联的目标文段确定;返回待查找问题语句对应的目标回答信息。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种信息查找方法中的步骤,因此,可以实现本申请实施例所提供的任一种信息查找方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种信息查找方法以及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种信息查找方法,其特征在于,包括:
接收待查找问题语句;
从更新后的问答信息库中查找所述待查找问题语句对应的目标回答信息,其中,所述更新后的问答信息库由具有关联关系的目标问题语句与回答信息更新得到,所述目标问题语句为符合预设问题语句规则的语句,所述回答信息由训练后的文本处理模型根据所述目标问题语句及关联的目标文段确定;
返回所述待查找问题语句对应的目标回答信息。
2.根据权利要求1所述的方法,其特征在于,所述从更新后的问答信息库中查找所述待查找问题语句对应的目标回答信息之前,还包括:
采集问题语句集,所述问题语句集包含多个问题语句;
从所述多个问题语句中筛选出符合预设问题语句规则的目标问题语句;
从预设文档库中匹配所述目标问题语句关联的目标文段;
将所述目标问题语句和所述目标文段输入训练后的文本处理模型,得到所述目标问题语句对应的回答信息;
建立所述目标问题语句与对应的回答信息之间的关联关系,并利用具有关联关系的所述目标问题语句与对应的回答信息,对问答信息库进行更新,得到更新后的问答信息库。
3.根据权利要求2所述的方法,其特征在于,所述从所述多个问题语句中筛选出符合预设问题语句规则的目标问题语句,包括:
对所述多个问题语句进行分类,得到每一问题语句对应的类别标签;
根据每一问题语句的词信息,识别所述每一问题语句对应的意图信息;
基于所述分类结果及意图信息,从所述多个问题语句选取符合预设问题语句规则的目标问题语句。
4.根据权利要求3所述的方法,其特征在于,所述基于所述分类结果及意图信息,从所述多个问题语句选取符合预设问题语句规则的目标问题语句,包括:
获取每一问题语句对应的时效标签,所述时效标签用于指示对应的问题语句的时效类型;
对每一问题语句进行语法校验,并将满足预设语法规则的问题语句确定为合法性语句;
基于所述时效标签、类别标签及意图信息,从所述合法性语句中选取符合预设问题语句规则的目标问题语句。
5.根据权利要求2所述的方法,其特征在于,所述将所述目标问题语句和所述目标文段输入训练后的文本处理模型,得到所述目标问题语句对应的回答信息,包括:
将所述目标问题语句及目标文段输入训练后的文本处理模型,其中,所述目标问题语句携带有对应的语句类型信息,所述目标文段携带有所在文档的文档标题;
通过所述文本处理模型基于所述目标问题语句的语句类型信息和所述目标文段对应的文档标题,从所述目标文段中提取所述目标问题语句对应的候选回答信息;
基于所述候选回答信息确定所述目标问题语句对应的回答信息。
6.根据权利要求5所述的方法,其特征在于,所述通过所述文本处理模型基于所述目标问题语句的语句类型信息和所述目标文段对应的文档标题,从所述目标文段中提取所述目标问题语句对应的候选回答信息,包括:
通过所述文本处理模型对所述目标问题语句、语句类型信息、目标文段及文档标题进行嵌入处理,得到目标编码向量;
通过所述文本处理模型对所述目标编码向量进行分类处理,输出所述目标文段中与所述目标问题语句关联的文本内容的位置信息;
对所述目标文段中所述位置信息对应的文本内容进行提取,得到目标文本内容;
将所述目标文本内容确定为候选回答信息。
7.根据权利要求5所述的方法,其特征在于,所述基于所述候选回答信息确定所述目标问题语句对应的回答信息,包括:
当检测到所述目标问题语句对应的多个候选回答信息时,对所述多个候选回答信息进行信息分类,得到每一信息类型对应的候选回答信息,并获取每一信息类型对应的候选回答信息的数量;
获取所述目标问题语句与所述候选回答信息所在的文档之间的关联分数;
根据所述每一信息类型对应的候选回答信息的数量及所述关联分数进行加权处理,得到每一信息类型对应的目标信息分数;
将目标信息分数最大的信息类型对应的候选回答信息确定为所述目标问题语句对应的回答信息。
8.根据权利要求2所述的方法,其特征在于,所述从预设文档库中匹配所述目标问题语句关联的目标文段,包括:
获取所述目标问题语句中的目标词信息;
从预设文档库中查找所述目标词信息关联的目标文档;
根据预设文段切分规则对所述目标文档进行切分,得到多个候选文段;
对所述多个候选文段进行过滤,得到所述目标问题语句对应的目标文段。
9.根据权利要求8所述的方法,其特征在于,所述从预设文档库中查找所述目标词信息关联的目标文档,包括:
从预设文档库中获取预设文档集合,所述预设文档集合包含多个预设文档;
根据每一预设文档与所述目标词信息进行关联权重计算,得到第一关联权重系数;
根据所述目标词信息与所述目标问题语句进行关联权重计算,得到第二关联权重系数;
获取所述目标词信息在所述多个预设文档中的词信息权重值;
根据所述第一关联权重系数、第二关联权重系数及词信息权重值确定每一预设文档的相对于所述目标问题语句的关联分数;
将所述关联分数大于预设关联分数阈值的预设文档确定为目标文档。
10.一种信息查找装置,其特征在于,包括:
接收单元,用于接收待查找问题语句;
查找单元,用于从更新后的问答信息库中查找所述待查找问题语句对应的目标回答信息,其中,所述更新后的问答信息库由具有关联关系的目标问题语句与回答信息更新得到,所述目标问题语句为符合预设问题语句规则的语句,所述回答信息由训练后的文本处理模型根据所述目标问题语句及关联的目标文段确定;
返回单元,用于返回所述待查找问题语句对应的目标回答信息。
CN202110797598.1A 2021-07-14 2021-07-14 信息查找方法以及装置 Pending CN113821612A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110797598.1A CN113821612A (zh) 2021-07-14 2021-07-14 信息查找方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110797598.1A CN113821612A (zh) 2021-07-14 2021-07-14 信息查找方法以及装置

Publications (1)

Publication Number Publication Date
CN113821612A true CN113821612A (zh) 2021-12-21

Family

ID=78912676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110797598.1A Pending CN113821612A (zh) 2021-07-14 2021-07-14 信息查找方法以及装置

Country Status (1)

Country Link
CN (1) CN113821612A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115412745A (zh) * 2022-08-12 2022-11-29 联想(北京)有限公司 一种信息处理方法及电子设备
WO2023236252A1 (zh) * 2022-06-07 2023-12-14 来也科技(北京)有限公司 答案生成方法、装置、电子设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023236252A1 (zh) * 2022-06-07 2023-12-14 来也科技(北京)有限公司 答案生成方法、装置、电子设备及存储介质
CN115412745A (zh) * 2022-08-12 2022-11-29 联想(北京)有限公司 一种信息处理方法及电子设备
CN115412745B (zh) * 2022-08-12 2024-02-27 联想(北京)有限公司 一种信息处理方法及电子设备

Similar Documents

Publication Publication Date Title
US11334635B2 (en) Domain specific natural language understanding of customer intent in self-help
CN109727041A (zh) 智能客服多轮问答方法、设备、存储介质及装置
CN110597962B (zh) 搜索结果展示方法、装置、介质及电子设备
KR20210082109A (ko) 부동산 실거래가 예측 기반 부동산 예상 실거래가 산출 장치
CN110598070A (zh) 应用类型识别方法及装置、服务器及存储介质
CN113821612A (zh) 信息查找方法以及装置
CN112328778A (zh) 确定用户特征和模型训练的方法、装置、设备及介质
CN111782793A (zh) 智能客服处理方法和系统及设备
CN117520503A (zh) 基于llm模型的金融客服对话生成方法、装置、设备及介质
CN115114994A (zh) 商品类目信息的确定方法及其装置
CN117609479A (zh) 一种模型处理方法、装置、设备、介质及产品
CN112989054B (zh) 一种文本处理方法和装置
CN115269961A (zh) 内容搜索方法以及相关设备
CN114218364A (zh) 问答知识库扩充方法与装置
CN113704422A (zh) 一种文本推荐方法、装置、计算机设备和存储介质
Tian et al. Semantic similarity measure of natural language text through machine learning and a keyword‐aware cross‐encoder‐ranking summarizer—A case study using UCGIS GIS &T body of knowledge
CN116523024B (zh) 召回模型的训练方法、装置、设备及存储介质
CN116992031B (zh) 数据处理方法、装置、电子设备、存储介质及程序产品
CN117828073A (zh) 一种抽取式问答方法及设备
CN116186220A (zh) 信息检索方法、问答处理方法、信息检索装置及系统
CN116955615A (zh) 意图识别方法、装置、设备、介质及程序产品
CN118227752A (zh) 文本生成方法、装置、设备及存储介质
CN115617944A (zh) 内容推荐方法、装置、存储介质及电子设备
CN114757198A (zh) 相似方法及装置、电子设备及可读存储介质
CN116136867A (zh) 文本处理方法、装置、计算机程序产品、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination