CN114936276A - 答案生成方法、装置、电子设备及存储介质 - Google Patents

答案生成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114936276A
CN114936276A CN202210635729.0A CN202210635729A CN114936276A CN 114936276 A CN114936276 A CN 114936276A CN 202210635729 A CN202210635729 A CN 202210635729A CN 114936276 A CN114936276 A CN 114936276A
Authority
CN
China
Prior art keywords
target
answer
query statement
segment
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210635729.0A
Other languages
English (en)
Inventor
段沛宸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Laiye Technology Beijing Co Ltd
Original Assignee
Laiye Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Laiye Technology Beijing Co Ltd filed Critical Laiye Technology Beijing Co Ltd
Priority to CN202210635729.0A priority Critical patent/CN114936276A/zh
Priority to PCT/CN2022/100568 priority patent/WO2023236252A1/zh
Publication of CN114936276A publication Critical patent/CN114936276A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种答案生成方法、装置、电子设备及存储介质,涉及机器人流程自动化RPA及人工智能AI技术领域,方法包括:获取查询语句以及查询语句所属的问题类型;从至少一个文档包括的多个内容片段中,获取与查询语句匹配的目标内容片段;按照问题类型对应的应答策略,基于目标内容片段,生成查询语句对应的目标答案。由此,通过代替人工自动生成答案,减少了生成答案所需的人力成本及时间成本,且通过从文档中精确确定能够回答用户问题的目标内容片段,并根据该目标内容片段生成查询语句对应的答案,提高了生成的答案的准确性。本申请还能结合RPA和AI实现IA的获取文档中的内容片段,进一步减少了生成答案所需的人工成本。

Description

答案生成方法、装置、电子设备及存储介质
技术领域
本申请涉及机器人流程自动化及人工智能技术领域,特别涉及一种答案生成方法、装置、电子设备及存储介质。
背景技术
机器人流程自动化(Robotic Process Automation,简称RPA),是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。
人工智能(Artificial Intelligence,简称AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。
智能自动化(Intelligent Automation,简称IA)是一系列从机器人流程自动化到人工智能的技术总称,将RPA与光学字符识别(Optical Character Recognition,OCR)、智能字符识别(Intelligent Character Recognition,ICR)、流程挖掘(Process Mining)、深度学习(Deep Learning,DL)、机器学习(Machine Learning,ML)、自然语言处理(NaturalLanguage Processing,NLP)、语音识别(Automatic Speech Recognition,ASR)、语音合成(Text To Speech,TTS)、计算机视觉(Computer Vision,CV)等多种AI技术相结合,以创建能够思考、学习及自适应的端到端的业务流程,涵盖从流程发现、流程自动化,到通过自动而持续的数据收集、理解数据的含义,使用数据来管理和优化业务流程的整个历程。
目前,在很多业务场景中,比如电力问答系统中,需要对于用户提出的问题,从大量文档中找到能够回答该问题的具体内容,比如某句话,或者某个表格中的某几个单元格内容等,进而根据该内容给出准确的答案。相关技术,在获取到用户提出的问题后,通常是通过人工查询大量文档,从中找到能够回答用户问题的具体内容,并根据该具体内容给出答案,或者从FAQ(Frequently Asked Questions,常见问题解答)库中找到与用户问题匹配的答案。上述通过人工查询来回答问题的方式,会浪费大量的人力成本和时间成本,而通过FAQ来回答问题的方式,仅能回答FAQ中已存在的问题,对于FAQ中不存在的问题,无法给出准确的答案。如何以较低的人力成本和时间成本,准确回答用户问题,已经成为一个亟待解决的问题。
发明内容
本申请提供一种答案生成方法、装置、电子设备及存储介质,以解决相关技术中的答案生成方法存在的人力成本和时间成本高,且准确性差的技术问题。
本申请第一方面实施例提供一种答案生成方法,该方法包括:获取查询语句以及查询语句所属的问题类型;从至少一个文档包括的多个内容片段中,获取与查询语句匹配的目标内容片段;按照问题类型对应的应答策略,基于目标内容片段,生成查询语句对应的目标答案。
在一些实施例中,问题类型包括数字类、抽取类、判断类中的一个;目标内容片段的数量为多个;按照问题类型对应的应答策略,基于目标内容片段,生成查询语句对应的目标答案,包括:对于每个目标内容片段,将查询语句与目标内容片段输入自然语言处理NLP领域的抽取模型,以从目标内容片段中抽取查询语句对应的候选答案片段,并获取对应的置信度;根据各候选答案片段对应的置信度,从各候选答案片段中获取目标答案片段;按照问题类型对应的应答策略,基于目标答案片段生成目标答案。
在一些实施例中,问题类型包括抽取类;按照问题类型对应的应答策略,基于目标答案片段生成目标答案,包括:将目标答案片段作为目标答案。
在一些实施例中,问题类型包括判断类;按照问题类型对应的应答策略,基于目标答案片段生成目标答案,包括:将目标答案片段和查询语句输入NLP领域的判断模型,以获取查询语句对应的判断结果;将判断结果和/或目标答案片段作为目标答案。
在一些实施例中,问题类型包括数字类;按照问题类型对应的应答策略,基于目标答案片段生成目标答案,包括:根据预设规则从目标答案片段中获取目标数字,并获取目标数字对应的单位;根据目标数字以及对应的单位,生成目标答案。
在一些实施例中,问题类型包括统计类;按照问题类型对应的应答策略,基于目标内容片段,生成查询语句对应的目标答案,包括:通过正则表达式抽取规则,对目标内容片段进行抽取,以获取目标答案。
在一些实施例中,从至少一个文档包括的多个内容片段中,获取与查询语句匹配的目标内容片段之前,还包括:从预设的问答集中获取与查询语句匹配的目标问题;基于NLP领域的第一相关度模型,获取查询语句与目标问题之间的第一相关度;确定第一相关度不大于预设阈值。
在一些实施例中,方法还包括:在第一相关度大于预设阈值的情况下,从问答集中获取目标问题对应的答案;将目标问题对应的答案,确定为查询语句对应的目标答案。
在一些实施例中,从至少一个文档包括的多个内容片段中,获取与查询语句匹配的目标内容片段,包括:基于查询语句进行查询,以从多个内容片段中,获取与查询语句相关的多个候选内容片段;基于NLP领域的第二相关度模型,获取查询语句与各候选内容片段之间的第二相关度;基于各第二相关度,从各候选内容片段中获取目标内容片段。
在一些实施例中,从至少一个文档包括的多个内容片段中,获取与所述查询语句匹配的目标内容片段之前,还包括:基于人工智能AI领域的光学字符识别OCR技术,对各文档进行识别,以获取各文档的识别结果;对各识别结果进行结构化处理,以得到各文档中包括的多个内容片段;将各内容片段与对应的内容字段对应保存。
在一些实施例中,基于人工智能AI领域的光学字符识别OCR技术,对各文档进行识别,以获取各文档的识别结果,包括:调用RPA机器人将各文档上传至文档处理平台,以基于文档处理平台,采用光学字符识别OCR技术,对各文档进行识别;获取文档处理平台返回的各文档的识别结果。
本申请第二方面实施例提供一种答案生成装置,包括:第一获取模块,用于获取查询语句以及查询语句所属的问题类型;第二获取模块,用于从至少一个文档包括的多个内容片段中,获取与查询语句匹配的目标内容片段;生成模块,用于按照问题类型对应的应答策略,基于目标内容片段,生成查询语句对应的目标答案。
在一些实施例中,问题类型包括数字类、抽取类、判断类中的一个;目标内容片段的数量为多个;生成模块,包括:第一获取单元,用于对于每个目标内容片段,将查询语句与目标内容片段输入自然语言处理NLP领域的抽取模型,以从目标内容片段中抽取查询语句对应的候选答案片段,并获取对应的置信度;第二获取单元,用于根据各候选答案片段对应的置信度,从各候选答案片段中获取目标答案片段;生成单元,用于按照问题类型对应的应答策略,基于目标答案片段生成目标答案。
本申请第三方面实施例提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行计算机程序时,实现如本申请上述第一方面实施例所述的方法。
本申请第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本申请上述第一方面实施例所述的方法。
本申请第五方面实施例提出了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如本申请上述第一方面实施例所述的方法。
本申请实施例提供的技术方案可以包括以下有益效果:
在获取查询语句以及查询语句所属的问题类型后,从至少一个文档包括的多个内容片段中,获取与查询语句匹配的目标内容片段,进而按照问题类型对应的应答策略,基于目标内容片段,生成查询语句对应的目标答案。由此,通过代替人工自动生成答案,减少了生成答案所需的人力成本及时间成本,且通过从文档中精确确定能够回答用户问题的目标内容片段,并根据该目标内容片段生成查询语句对应的答案,提高了生成的答案的准确性。
本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
图1是根据本申请第一实施例的答案生成方法的流程示意图;
图2是根据本申请第一实施例的答案生成装置提供的交互界面的示例图;
图3是根据本申请第二实施例的答案生成方法的流程示意图;
图4是根据本申请第三实施例的答案生成方法的流程示意图;
图5是根据本申请第四实施例的答案生成方法的流程示意图;
图6是根据本申请第四实施例的文档处理平台的交互界面及文档的识别结果的示例图;
图7是根据本申请第四实施例的文本识别结果及对应的内容片段的示例图;
图8是根据本申请第四实施例的表格识别结果及对应的内容片段的示例图;
图9是根据本申请第五实施例的答案生成装置的结构示意图;
图10是用来实现本申请实施例的答案生成方法的电子设备的框图。
具体实施方式
下面详细描述本申请/公开的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请/公开,而不能理解为对本申请/公开的限制。
参照下面的描述和附图,将清楚本申请/公开的实施例的这些和其他方面。在这些描述和附图中,具体公开了本申请/公开的实施例中的一些特定实施方式,来表示实施本申请/公开的实施例的原理的一些方式,但是应当理解,本申请/公开的实施例的范围不受此限制。相反,本申请/公开的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
需要说明的是,本公开申请的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
本申请提供一种答案生成方法,在获取查询语句以及查询语句所属的问题类型后,从至少一个文档包括的多个内容片段中,获取与查询语句匹配的目标内容片段,进而按照问题类型对应的应答策略,基于目标内容片段,生成查询语句对应的目标答案,由此,通过代替人工自动生成答案,减少了生成答案所需的人力成本及时间成本,且通过从文档中精确确定能够回答用户问题的目标内容片段,并根据该目标内容片段生成查询语句对应的答案,提高了生成的答案的准确性。
为了清楚说明本发明的各实施例,首先对本发明实施例中涉及到的技术名词进行解释说明。
在本申请/公开的描述中,术语“多个”指两个或两个以上。
在本申请的描述中,“RPA机器人”,是指可结合AI技术和RPA技术,自动进行业务处理的软件机器人。RPA机器人拥有“连接器”和“无侵入”两个特性,通过模拟人类的操作方法,在不更改信息系统的前提下,使用非侵入的方式,将不同系统的数据进行提取、整合和连通。
在本申请的描述中,“查询语句”,指用户输入的用于查询的语句,即用户想问的问题,其可以是文本形式的语句,也可以是语音形式的语句,本申请对此不作限制。
在本申请的描述中,“文档”,为用于从中检索能够回答用户问题的具体内容,并依此生成用户问题的答案的电子形式的文档,其可以是对纸质文件进行扫描得到的PDF(Portable Document Format,便携式文档格式)格式的文档,也可以是在电脑、手机等智能设备中编辑形成的文档,本申请对此不作限制。
在本申请的描述中,“内容片段”,为文档中的部分内容组成的片段,内容片段可以是一句话或几句话,也可以是文档中的一个段落,或者文档中的一个表格,或者一个表格中的部分内容等,本申请对此不作限制。本申请的一些实施例中,可以预先设置内容片段中包括的字符数量,从而通过对待检索的所有文档进行处理,将所有文档中的内容划分为多个内容片段,每个内容片段中包括的字符数量小于或等于预设字符数量。
在本申请的描述中,“候选内容片段”,指从所有文档包括的所有内容片段中,获取的与查询语句相关的内容片段。“目标内容片段”,指从候选内容片段或所有文档包括的所有内容片段中,获取的与查询语句匹配的内容片段,即能够准确回答用户问题的具体内容。
在本申请的描述中,“答案片段”,为内容片段中更细粒度的片段,根据答案片段可以生成用户问题的答案。“候选答案片段”,为从目标内容片段中获取的答案片段。“目标答案片段”,为从候选答案片段中获取的答案片段。
在本申请的描述中,“问答集”为预先设置的包括多个候选问题及对应的答案的集合,比如FAQ。
在本申请的描述中,“属性信息”,为表示内容片段的属性的信息,比如内容片段所在文档的文档名称,内容片段对应的章节标题及章节号,章节标题的各级父标题等。
在本申请的描述中,“相关度”,用于表示相关程度的大小。
在本申请的描述中,“相关度模型”,为任意能够进行相关程度计算的机器模型,比如Bert(Bidirectional Encoder Representations from Transformers,一种基于双向编码器表示模型)等神经网络模型。其中,相关度模型可以通过对NLP领域的预训练模型进行微调得到。
在本申请的描述中,“判断模型”,为任意能够实现判断的机器模型,比如神经网络模型,本申请对此不作限制。
在本申请的描述中,“抽取模型”,为任意能够实现信息抽取的机器模型,比如神经网络模型,本申请对此不作限制。
在本申请的描述中,“预设规则”,为预先设置的抽取规则,其可以为正则表达式的形式,也可以为其它形式,本申请对此不作限制。本申请中为了便于区分,将预先设置的从目标答案片段中抽取目标数字的抽取规则,称为第一预设规则,将预先设置的从目标内容片段中抽取目标答案的规则,称为第二预设规则。
在本申请的描述中,“内容相关度”,为基于内容片段所包含的内容确定的查询语句与内容片段之间的相关度,用于表示内容片段所包含的内容与查询语句之间的相关程度的大小。
在本申请的描述中,“属性相关度”,为基于内容片段对应的属性信息确定的查询语句与内容片段之间的相关度,用于表示内容片段对应的属性信息与查询语句之间的相关程度的大小。
在本申请的描述中,“分割片段”,指对文档进行分割得到的内容所组成的片段,比如,按照用于句末的标点符号,将文档分割成多个句子后,每个句子即为一个分割片段。本申请实施例中的每个内容片段,可以包括一个或多个分割片段。
在本申请的描述中,“文档处理平台”,为用于对文档进行智能处理的智能自动化平台。其中,智能文档处理(IDP)是智能自动化平台的核心能力之一。智能文档处理(Intelligent Document Processing,IDP)是基于光学字符识别(Optical CharacterRecognition,OCR)、计算机视觉(Computer Vision,CV)、自然语言处理(Natural LanguageProcessing,NLP)、知识图谱(Knowledge Graph,KG)等AI技术,对各类文档进行识别、分类、要素提取、校验、比对、纠错等处理,帮助企业实现文档处理工作的智能化和自动化的新一代自动化技术。
在本申请的描述中,“内容字段”,为由单个字符或连续的多个字符组成的字段,“内容字段”可以理解为属性项key,内容片段所包含的内容可以理解为属性值value。内容字段和对应的内容片段共同组成一条结构化数据。另外,内容字段、以及内容片段的属性信息对应的字段,比如名称为“文档名称”的字段、名称为“章节标题”的字段、名称为“各级父标题”的字段,可以组成一个结构体。
以下结合附图描述根据本申请/公开实施例的答案生成方法、装置、电子设备及存储介质。
首先结合附图,对本申请实施例中的答案生成方法进行说明。
图1是本申请第一实施例的答案生成方法的流程图。如图1所示,该方法可包括以下步骤:
步骤101,获取查询语句以及查询语句所属的问题类型。
需要说明的是,本申请实施例的答案生成方法,可以由答案生成装置执行。其中,该答案生成装置可以由软件和/或硬件实现,该答案生成装置可以为电子设备,或者也可以配置在电子设备中,以实现代替人工自动生成用户问题的准确答案。其中,该电子设备可以包括但不限于终端设备、服务器等,该实施例对电子设备不作具体限定。其中,答案生成装置可以为智能应答系统。
在示例实施例中,答案生成装置可以提供交互界面,从而用户可以在交互界面中输入查询语句进行查询,相应的,答案生成装置可以获取查询语句。
在示例实施例中,可以预先训练分类模型,从而可以将查询语句输入分类模型,并根据分类模型的输出,获取查询语句所属的问题类型。其中,分类模型,可以为相关技术中任意能够实现分类的模型,比如神经网络模型,本申请对此不作限制。
其中,查询语句所属的问题类型,可以包括数字类、统计类、抽取类、判断类等。
其中,数字类,指对应的答案为具体数字。比如,查询语句为“新投运的220KV变压器,在施加电压前静止时间应不少于多少小时?”的情况下,需要回答一个具体的数字,则该查询语句所属的问题类型为数字类。“KV”指千伏。
统计类,指对应的答案需要进行统计。比如,查询语句为“片式散热器按冷却方式可以分为几类”的情况下,对应的答案需要统计片式散热器的几种类型,则该查询语句所属的问题类型为统计类。
抽取类,指对应的答案需要从一段文字或表格中进行抽取。比如,查询语句为“易损件的更换周期要求是什么”的情况下,需要从一段文字或表格中抽取得到对应的答案,则该查询语句所属的问题类型为抽取类。
判断类,指对应的答案为“是”或“否”。比如,查询语句为“750KV油浸式变压器换油后静止72h是否满足要求”的情况下,对应的答案为“是”或“否”,则该查询语句所属的问题类型为判断类。其中,“h”指小时。
步骤102,从至少一个文档包括的多个内容片段中,获取与查询语句匹配的目标内容片段。
其中,目标内容片段的数量可以为一个,也可以为多个,本申请对此不作限制。
在示例实施例中,可以预先对待检索的大量文档(即需要从中检索能够回答用户问题的具体内容并依此给出答案的文档)进行处理,以得到多个内容片段,进而在获取查询语句后,可以从多个内容片段中获取与查询语句匹配的目标内容片段。
在示例实施例中,可以预先设置目标内容片段的数量,从而答案生成装置可以获取查询语句与各内容片段之间的相关度,并将各内容片段按照对应的相关度从高到低的顺序进行排序,将排序在前的预设数量的内容片段,确定为目标内容片段。
在示例实施例中,可以预先设置相关度阈值(为了便于区分,可以称为第一相关度阈值),从而答案生成装置可以获取查询语句与各内容片段之间的相关度,并将各内容片段中,对应的相关度大于第一相关度阈值的内容片段,确定为目标内容片段。其中,第一相关度阈值可以根据需要任意设置,本申请对此不作限制。
步骤103,按照问题类型对应的应答策略,基于目标内容片段,生成查询语句对应的目标答案。
其中,应答策略,为预先设置的根据目标内容片段,生成查询语句对应的目标答案的策略。其中,不同的问题类型可以设置不同的应答策略。
在示例实施例中,答案生成装置可以提供交互界面,从而在按照问题类型对应的应答策略,基于目标内容片段,生成查询语句对应的目标答案后,可以通过交互界面展示目标答案。另外,答案生成装置还可以在展示目标答案的同时,通过交互界面展示查询语句所属的问题类型、目标内容片段、目标内容片段对应的属性信息,以及包含目标内容片段的段落或表格(其中,目标内容片段或包含目标内容片段的段落或表格作为回答依据)等信息,以使用户可以更清楚的了解查询语句的目标答案的出处。
比如,参考图2,以答案生成装置为智能应答系统为例,智能应答系统可以提供交互界面,用户在交互界面上输入查询语句“750KV油浸式变压器换油后静止72h是否满足要求”后,智能应答系统可以确定查询语句所属的问题类型为判断类,进而从至少一个文档包括的多个内容片段中,获取与查询语句匹配的目标内容片段“新装、大修、事故检修或换油后的变压器,在施加电压前静止时间不应少于以下规定:a)110KV 24h b)220KV 48h c)500(330)KV 72h d)750KV 96h”,并获取内容片段对应的章节号“5.2.6”,进而按照判断类对应的应答策略,基于目标内容片段,生成查询语句对应的目标答案“否,96h”,并如图2所示,通过交互界面展示目标答案、问题类型、目标内容片段及对应的章节号。
综上,本申请实施例提供的答案生成方法,在获取查询语句以及查询语句所属的问题类型后,从至少一个文档包括的多个内容片段中,获取与查询语句匹配的目标内容片段,进而按照问题类型对应的应答策略,基于目标内容片段,生成查询语句对应的目标答案。由此,通过代替人工自动生成答案,减少了生成答案所需的人力成本及时间成本,且通过从文档中精确确定能够回答用户问题的目标内容片段,并根据该目标内容片段生成查询语句对应的答案,提高了生成的答案的准确性。
下面结合图3,对本申请实施例提供的答案生成方法中,按照问题类型对应的应答策略,基于目标内容片段,生成查询语句对应的目标答案的过程进行进一步说明。
图3是根据本申请第二实施例的答案生成方法的流程图,如图3所示,该方法包括:
步骤301,获取查询语句以及查询语句所属的问题类型。
步骤302,从至少一个文档包括的多个内容片段中,获取与查询语句匹配的目标内容片段。
其中,步骤302的具体实现过程及原理,可以参考其它实施例的描述,此处不再赘述。
步骤303,在问题类型包括数字类、抽取类、判断类中的一个的情况下,对于每个目标内容片段,将查询语句与目标内容片段输入自然语言处理NLP领域的抽取模型,以从目标内容片段中抽取查询语句对应的候选答案片段,并获取对应的置信度。
其中,在问题类型包括数字类、抽取类、判断类中的一个的情况下,目标内容片段的数量可以为多个,比如可以为20个、30个等。
其中,置信度,表示目标内容片段能够回答查询语句的概率。
在示例实施例中,可以预先训练抽取模型,对于每个目标内容片段,在答案生成装置将查询语句以及目标内容片段输入训练好的抽取模型后,抽取模型可以确定查询语句对应的目标答案在输入的目标内容片段中的起始位置以及终止位置,进而将目标内容片段中起始位置与终止位置之间的片段确定为候选答案片段,并确定对应的置信度,并输出候选答案片段及对应的置信度,从而答案生成装置可以根据抽取模型的输出,获取查询语句对应的候选答案片段及对应的置信度。
需要说明的是,获取查询语句所属的问题类型的步骤,可以在步骤302之前执行,也可以在步骤302之后执行,本申请对此不作限制,只需在步骤303之前执行即可。
步骤304,根据各候选答案片段对应的置信度,从各候选答案片段中获取目标答案片段。
在示例实施例中,可以将各候选答案片段中,对应的置信度最高的候选答案片段,确定为目标答案片段。
步骤305,按照问题类型对应的应答策略,基于目标答案片段生成目标答案。
在示例实施例中,在问题类型包括抽取类的情况下,可以直接将目标答案片段作为目标答案。即步骤305包括:将目标答案片段作为目标答案。
举例来说,假设查询语句为抽取类的“易损件的更换周期要求是什么”,答案生成装置从至少一个文档包括的多个内容片段中,获取的与查询语句匹配的一个目标内容片段为“5.1.6易损件的更换周期使用10年以上的油泵轴承或冷却风扇轴承运行中发出不正常的噪声时,在变压器或并联电抗器退出运行时予以更换;使用15年以上时,根据具体情况更换所有密封垫”,按照步骤303的过程,从目标内容片段中抽取得到的候选答案片段为“使用10年以上的油泵轴承或冷却风扇轴承运行中发出不正常的噪声时,在变压器或并联电抗器退出运行时予以更换;使用15年以上时,根据具体情况更换所有密封垫”。
假设该候选答案片段对应的置信度在各候选答案片段中最高,则可以将该候选答案片段确定为目标答案片段,并将目标答案片段作为查询语句对应的目标答案。
由此,实现了在查询语句为抽取类的情况下,从文档中准确生成查询语句对应的目标答案。
在示例实施例中,在问题类型包括判断类的情况下,步骤305可以通过以下方式实现:将目标答案片段和查询语句输入NLP领域的判断模型,以获取查询语句对应的判断结果,将判断结果和/或目标答案片段作为目标答案。
其中,判断结果,可以为“是”或“否”。
具体的,可以预先设置概率阈值,比如为0.5,并且可以预先训练NLP领域的判断模型,在将目标答案片段和查询语句输入判断模型后,判断模型可以确定并输出查询语句对应的答案为“是”的概率。答案生成装置可以在该概率大于概率阈值0.5的情况下,确定判断结果为“是”,在该概率不大于概率阈值0.5的情况下,确定判断结果为“否”,进而可以将判断结果和/或目标答案片段作为目标答案。
举例来说,假设查询语句为判断类的“750KV油浸式变压器换油后静止72h是否满足要求”,答案生成装置从至少一个文档包括的多个内容片段中,获取的与查询语句匹配的一个目标内容片段为“新装、大修、事故检修或换油后的变压器,在施加电压前静止时间不应少于以下规定:a)110KV 24h b)220KV 48h c)500(330)KV 72h d)750KV 96h”,按照步骤303的过程,从目标内容片段中抽取得到的候选答案片段为“96h”。
假设该候选答案片段对应的置信度在各候选答案片段中最高,则可以确定该候选答案片段“96h”为目标答案片段,进而可以将目标答案片段“96h”和查询语句输入NLP领域的判断模型,以获取查询语句对应的判断结果。由于目标答案片段“96h”大于查询语句中的“72h”,则判断模型输出的查询语句对应的答案为“是”的概率低于0.5,从而答案生成装置可以确定判断结果为“否”,进而可以将判断结果“否”和目标答案片段“96h”作为目标答案。
由此,实现了在查询语句为判断类的情况下,从文档中准确生成查询语句对应的目标答案。
在示例实施例中,在问题类型包括数字类的情况下,步骤305可以通过以下方式实现:根据第一预设规则,从目标答案片段中获取目标数字,并获取目标数字对应的单位;根据目标数字以及对应的单位,生成目标答案。
其中,第一预设规则可以为正则表达式的形式。
具体的,答案生成装置可以基于正则表达式,从目标答案片段中抽取出目标数字,并同时抽取出目标数字对应的单位,进而将目标数字以及对应的单位拼接成目标答案。或者,也可以预先设置目标答案片段对应的单位,从而在答案生成装置从目标答案片段中抽取出目标数字后,可以将目标数字与预设单位拼接成目标答案。
举例来说,假设查询语句为数字类的“新投运的220KV变压器,在施加电压前静止时间应不少于多少小时?”,答案生成装置从至少一个文档包括的多个内容片段中,获取的与查询语句匹配的一个目标内容片段为“3.0.3油浸式变压器及电抗器的绝缘试验应在充满合格油,静置一定时间,待气泡消除后方可进行。静置时间应按制造厂规定进行,当制造厂无规定时,油浸式变压器及电抗器电压等级与充油后静置时间关系应按表3.0.3确定。表3.0.3油浸式变压器及电抗器电压等级与充油后静置时间关系>=48”,按照步骤303的过程,从目标内容片段中抽取得到的候选答案片段为“油浸式变压器及电抗器电压等级与充油后静置时间关系>=48”。
假设该候选答案片段对应的置信度在各候选答案片段中最高,则可以确定该候选答案片段“油浸式变压器及电抗器电压等级与充油后静置时间关系>=48”为目标答案片段,进而可以基于正则表达式,从目标答案片段中抽取出目标数字“48”。假设预先设置的单位为“h”,则可以将目标数字“48”与预设单位“h”拼接成目标答案“48h”。
由此,实现了在查询语句为数字类的情况下,从文档中准确生成查询语句对应的目标答案。
步骤306,在问题类型包括统计类的情况下,根据第二预设规则,从目标内容片段中抽取得到目标答案。
其中,第二预设规则可以为正则表达式的形式。
其中,在问题类型为统计类的情况下,目标内容片段的数量可以为一个。
在示例实施例中,可以基于正则表达式,对目标内容片段进行抽取,以得到目标答案。
举例来说,假设目标内容片段的数量为一个,查询语句为统计类的“片式散热器按冷却方式可以分为几类”,答案生成装置从至少一个文档包括的多个内容片段中,获取的与查询语句匹配的目标内容片段为“4.1.2按冷却方式分为:a)自冷式(ONAN);b)风冷式(ONAF);c)强油风冷式(OFAF)”。
则答案生成装置可以基于正则表达式,对目标内容片段进行抽取,得到目标答案“自冷式(ONAN),风冷式(ONAF),强油风冷式(OFAF)”。
由此,实现了在查询语句为统计类的情况下,从文档中准确生成查询语句对应的目标答案。
综上,本申请实施例提供的答案生成方法,在获取查询语句以及查询语句所属的问题类型后,从至少一个文档包括的多个内容片段中,获取与查询语句匹配的目标内容片段,在问题类型包括数字类、抽取类、判断类中的一个的情况下,对于每个目标内容片段,将查询语句与目标内容片段输入自然语言处理NLP领域的抽取模型,以从目标内容片段中抽取查询语句对应的候选答案片段,并获取对应的置信度,根据各候选答案片段对应的置信度,从各候选答案片段中获取目标答案片段,按照问题类型对应的应答策略,基于目标答案片段生成目标答案,在问题类型包括统计类的情况下,根据第二预设规则,从目标内容片段中抽取得到目标答案。由此,通过代替人工自动生成答案,减少了生成答案所需的人力成本及时间成本,且对于各问题类型的查询语句,均能从文档中精确确定能够回答用户问题的目标内容片段,并根据该目标内容片段生成查询语句对应的答案,提高了生成的答案的准确性。
在一种可能的实现形式中,还可以综合根据上述实施例中的答案生成过程与预设的问答集比如FAQ来生成查询语句对应的目标答案。下面结合图4,针对上述情况,对本申请实施例提供的答案生成方法进行进一步说明。
图4是根据本申请第三实施例的答案生成方法的流程图,如图4所示,该方法包括:
步骤401,获取查询语句以及查询语句所属的问题类型。
其中,步骤401的具体实现过程及原理,可以参考上述实施例的描述,此处不再赘述。
步骤402,从预设的问答集中获取与查询语句匹配的目标问题。
在示例实施例中,可以基于搜索引擎,从预设的问答集中获取与查询语句匹配的目标问题。
具体的,预设的问答集中包括的各候选问题可以对应标注所属的问题类型,进而可以基于搜索引擎,从标注的问题类型与查询语句所属的问题类型相同的各候选问题中,获取与查询语句匹配的目标问题。
步骤403,基于NLP领域的第一相关度模型,获取查询语句与目标问题之间的第一相关度。
在示例实施例中,可以预先训练第一相关度模型,在获取目标问题后,答案生成装置可以将查询语句与目标问题输入第一相关度模型,第一相关度模型可以输出查询语句与目标问题之间的相关程度得分,从而答案生成装置可以根据第一相关度模型的输出,获取查询语句与目标问题之间的第一相关度。
步骤404,判断第一相关度是否大于预设阈值,若是,则执行步骤405,否则,执行步骤407。
步骤405,从问答集中获取目标问题对应的答案。
步骤406,将目标问题对应的答案,确定为查询语句对应的目标答案。
其中,预设阈值,可以根据需要设置,本申请对此不作限制。
在示例实施例中,在第一相关度大于预设阈值的情况下,可以从问答集中获取目标问题对应的答案,并将目标问题对应的答案,确定为查询语句对应的目标答案。
由此,可以基于预设的问答集,快速生成查询语句对应的目标答案,且生成的目标答案的准确性高。
步骤407,从至少一个文档包括的多个内容片段中,获取与查询语句匹配的目标内容片段。
步骤408,按照问题类型对应的应答策略,基于目标内容片段,生成查询语句对应的目标答案。
其中,步骤407-408的具体实现过程及原理,可以参考其它实施例的描述,此处不再赘述。
在示例实施例中,在第一相关度不大于预设阈值的情况下,可以从至少一个文档包括的多个内容片段中,获取与查询语句匹配的目标内容片段,并按照问题类型对应的应答策略,基于目标内容片段,生成查询语句对应的目标答案。
由此,可以在基于预设的问答集不能准确回答用户问题的情况下,从文档中精确确定能够回答用户问题的目标内容片段,并根据该目标内容片段生成查询语句对应的答案,且生成的目标答案的准确性高。并且,通过结合从预设的问答集中获取目标答案以及基于文档中目标内容片段生成目标答案,这两种方式来生成目标答案,使得无需浪费大量人力成本来维护预设的问答集,从而减少了人工维护预设的问答集的成本。
下面结合图5,对本申请实施例提供的答案生成方法中,从至少一个文档包括的多个内容片段中,获取与查询语句匹配的目标内容片段的过程进行进一步说明。
图5是根据本申请第四实施例的答案生成方法的流程图,如图5所示,该方法包括:
步骤501,获取查询语句以及查询语句所属的问题类型。
步骤502,基于查询语句进行查询,以从至少一个文档包括的多个内容片段中,获取与查询语句相关的多个候选内容片段。
在示例实施例中,可以预先对待检索的大量文档进行处理,以得到多个内容片段,并将多个内容片段保存到检索引擎中,进而在答案生成装置获取查询语句后,可以基于该检索引擎,基于查询语句进行查询,以从多个内容片段中,获取与查询语句相关的多个候选内容片段,并返回至答案生成装置。相应的,答案生成装置可以获取多个候选内容片段。
其中,检索引擎可以为任意具有检索功能的检索引擎,本申请对此不作限制。另外,检索引擎可以配置在答案生成装置中,或者检索引擎也可以单独配置并通过接口与答案生成装置连接,本申请对此不作限制。
在示例实施例中,可以预先设置候选内容片段的数量,从而检索引擎可以获取查询语句与各内容片段之间的相关度,并将各内容片段按照对应的相关度从高到低的顺序进行排序,将排序在前的预设数量的多个内容片段,确定为多个候选内容片段。
在示例实施例中,可以预先设置相关度阈值(为了便于区分,可以称为第二相关度阈值),从而检索引擎可以获取查询语句与各内容片段之间的相关度,并将各内容片段中,对应的相关度大于第二相关度阈值的多个内容片段,确定为多个候选内容片段。其中,第二相关度阈值可以根据需要任意设置,本申请对此不作限制。
在示例实施例中,步骤502可以通过以下方式实现:获取各内容片段所包含的内容以及各内容片段的属性信息;基于各内容片段所包含的内容,获取查询语句与对应的内容片段之间的内容相关度,以及基于各内容片段的属性信息,获取查询语句与对应的内容片段之间的属性相关度;基于查询语句与各内容片段之间的内容相关度以及属性相关度,从多个内容片段中,获取与查询语句相关的多个候选内容片段。
其中,内容片段的属性信息,可以包括内容片段所在文档的文档名称、内容片段对应的章节标题、内容片段对应的章节标题的各级父标题中的至少一个。在内容片段的属性信息包括文档名称、章节标题、各级父标题等多个信息时,相应的,对于每个内容片段,可以基于各属性信息,获取查询语句与对应的内容片段之间的各属性相关度。
以属性信息包括文档名称、章节标题、各级父标题为例,每个内容片段所包含的内容、以及内容片段的属性信息,可以以结构体的形式进行保存,结构体中的字段可以包括名称为“文档名称”的字段、名称为“章节标题”的字段、名称为“各级父标题”的字段以及名称为“内容片段”的字段,从而答案生成装置可以基于各结构体,获取对应内容片段所包含的内容以及对应的属性信息。
在示例实施例中,可以对查询语句进行分词,并根据各分词在某个内容片段所包含的内容中出现的次数,确定查询语句与该内容片段之间的内容相关度。比如,在各分词在某个内容片段所包含的内容中出现的次数越多时,则确定查询语句与该内容片段之间的内容相关度越高;在各分词在某个内容片段所包含的内容中出现的次数越少时,则确定查询语句与该内容片段之间的内容相关度越低。
类似的,可以对查询语句进行分词,并根据各分词在某个内容片段的属性信息中出现的次数,确定查询语句与该内容片段之间的属性相关度。比如,在各分词在某个内容片段的文档名称中出现的次数越多时,则确定查询语句与该内容片段之间的对应文档名称的属性相关度越高;在各分词在某个内容片段的文档名称中出现的次数越少时,则确定查询语句与该内容片段之间的对应文档名称的属性相关度越低。
举例来说,假设查询语句为“变压器类型”,属性信息包括文档名称、章节标题,则可以对查询语句进行分词,得到“变压器”及“类型”,进而根据各内容片段所包含的内容中出现“变压器”及“类型”的次数,确定查询语句“变压器类型”与对应内容片段之间的内容相关度,并根据各内容片段所在文档的文档名称中出现“变压器”及“类型”的次数,确定查询语句“变压器类型”与对应内容片段之间的对应文档名称的属性相关度,并根据各内容片段对应的章节标题中出现“变压器”及“类型”的次数,确定查询语句“变压器类型”与对应内容片段之间的对应章节标题的属性相关度。
在示例实施例中,可以设置内容相关度对应的第三相关度阈值,以及属性相关度对应的第四相关度阈值,进而可以将多个内容片段中,对应的内容相关度大于第三相关度阈值,和/或对应的属性相关度大于第四相关度阈值的内容片段,确定为与查询语句相关的多个候选内容片段。其中,第三相关度阈值与第四相关度阈值可以根据需要设置,此处不作限制。
或者,可以设置第五相关度阈值,并且设置内容相关度以及属性相关度具有对应的权重(权重可以相同,也可以不同),进而按照内容相关度与属性相关度对应的权重确定加权和,并将加权和大于第五相关度阈值的内容片段,确定为与查询语句相关的多个候选内容片段。其中,第五相关度阈值可以根据需要设置,此处不作限制。
由此,可以从所有文档包括的所有内容片段中,准确获取与查询语句相关程度较高的多个候选内容片段。
步骤503,基于NLP领域的第二相关度模型,获取查询语句与各候选内容片段之间的第二相关度。
在示例实施例中,可以预先训练第二相关度模型,第二相关度模型的输入为候选内容片段以及查询语句,输出为候选内容片段以及查询语句之间的相关程度得分(即置信度),进而对于每个候选内容片段,可以将查询语句与候选内容片段,输入训练好的第二相关度模型,以使第二相关度模型基于查询语句与候选内容片段所包含的内容,确定候选内容片段与查询语句之间的相关程度,并输出第二相关度,从而答案生成装置可以根据第二相关度模型的输出,获取查询语句与候选内容片段之间的第二相关度。
在示例实施例中,对于每个候选内容片段,可以获取对应的属性信息,并将属性信息与候选内容片段进行拼接,以得到对应的拼接结果,将查询语句以及候选内容片段对应的拼接结果,输入第二相关度模型,以使第二相关度模型基于查询语句以及候选内容片段本身的内容和属性信息,确定候选内容片段与查询语句之间的相关程度,并输出第二相关度,从而答案生成装置可以根据第二相关度模型的输出,获取查询语句与候选内容片段之间的第二相关度。
其中,候选内容片段的属性信息,可以包括候选内容片段所在的文档名称、候选内容片段对应的章节标题、章节标题的各级父标题中的至少一个。
步骤504,基于各第二相关度,从各候选内容片段中获取目标内容片段。
由此,通过基于NLP领域的第二相关度模型,根据查询语句、各候选内容片段的属性信息以及候选内容片段本身所包含的内容,确定各候选内容片段与查询语句之间的第二相关度,进一步提高了确定的目标内容片段的准确性。
步骤505,按照问题类型对应的应答策略,基于目标内容片段,生成查询语句对应的目标答案。
其中,步骤505的具体实现过程及原理,可以参考其它实施例的描述,此处不再赘述。
另外,在步骤502之前,还可以包括以下步骤506-508:
步骤506,基于人工智能AI领域的光学字符识别OCR技术,对各文档进行识别,以获取各文档的识别结果。
在示例实施例中,答案生成装置可以采用光学字符识别OCR技术,对各文档进行识别,以获取各文档的识别结果。
在示例实施例中,答案生成装置也可以通过接口与文档处理平台连接,从而将各文档上传至文档处理平台,以基于文档处理平台,采用光学字符识别OCR技术,对各文档进行识别,再获取文档处理平台返回的各文档的识别结果。
在示例实施例中,答案生成装置也可以调用RPA机器人将各文档上传至文档处理平台,以基于文档处理平台,采用光学字符识别OCR技术,对各文档进行识别,再获取文档处理平台返回的各文档的识别结果。由此,在待检索的文档数量较多时,通过调用RPA机器人将各文档一一上传至文档处理平台,可以减少文档上传所需的人工成本。
参考图6的左侧附图,文档处理平台可以提供交互界面,该交互界面上可以包括用于上传文档的“上传文档”按钮以及用于启动文档识别过程的“开始识别”按钮。答案生成装置可以调用RPA机器人模拟鼠标操作,点击该交互界面上的用于上传文档的“上传文档”按钮,以将待处理的文档上传至文档处理平台,进而点击该交互界面上的用于启动文档识别过程的“开始识别”按钮,以启动文档处理平台对文档的识别过程,进而得到图6右侧附图所示的文档的识别结果。其中,图6中的“cl_num”表示章节序号,“cl_name”表示章节标题,“cl_rank”表示章节所在行,“cl_content”表示章节所包含的内容。
步骤507,对各识别结果进行结构化处理,以得到各文档中包括的多个内容片段。
在示例实施例中,文档可以包括文本和/或表格。相应的,文档的识别结果,可以包括文本识别结果和/或表格识别结果。
相应的,步骤507可以通过以下方式实现:按照预设分割方式,对文本识别结果和/或表格识别结果进行分割,以得到多个分割片段;将多个分割片段按照预设聚合方式进行聚合,以得到多个内容片段,其中,每个内容片段通过至少一个分割片段聚合得到。
其中,预设分割方式,为将文档的识别结果分割为多个分割片段的方式,可以根据文档所包含的内容的类型(比如文本类型、表格类型)确定。
预设聚合方式,为将分割片段聚合得到内容片段的方式,可以根据文档所包含的内容的类型(比如文本类型、表格类型)确定。
举例来说,假设文档的识别结果包括文本识别结果,文本识别结果中包括章节序号、逗号、句号等标点符号。答案生成装置可以通过章节序号对文本识别结果进行第一次分割,再按照标点符号(一般是句号等句末标点符号)对第一次分割的结果进行第二次分割,从而将文本识别结果分割为多个句子,每个句子为一个分割片段,各分割片段按照在文档中的对应位置依次从前向后排列。
进一步的,可以给定一个特定长度,比如200个字符,再从第一个分割片段开始向后逐渐累加,直到累加后的长度大于200个字符时,将之前累加的分割片段作为一个内容片段,将当前累加的分割片段作为下一个内容片段的第一个分割片段。比如累加到第5个句子时的长度为203个字符,之前累加的句子的长度为197个字符,则将之前累加的4个句子作为一个内容片段,将第5个句子作为下一个内容片段的第一个句子,再依次将之后的句子累加,确定下一个内容片段。
参考图7,通过对左侧附图所示的文本识别结果进行结构化处理,可以得到图7右侧附图所示的多个内容片段。
或者,假设文档的识别结果包括表格识别结果,表格识别结果中包括用于区分不同单元格的分隔符号,以及单元格所在行号。答案生成装置可以通过行号对表格识别结果进行第一次分割,再按照分隔符号对第一次分割的结果进行第二次分割,从而将表格识别结果分割为多个单元格内容,每个单元格内容为一个分割片段,每行中的各分割片段按照在文档中的对应位置依次从前向后排列。进一步的,可以将每行中的各分割片段拼接为一个内容片段。
参考图8,通过对左侧附图所示的表格识别结果进行结构化处理,可以得到图8右侧附图所示的多个内容片段。
需要说明的是,上述对文本识别结果或表格识别结果进行分割的方式,以及将分割得到的多个分割片段进行聚合的方式,仅是示例性说明,不能理解为对本申请技术方案的限制,在实际应用中,本领域技术人员可以根据需要设置对文档的识别结果进行分割的预设分割方式,以及对多个分割片段进行聚合的预设聚合方式,本申请对此不作限制。
步骤508,将各内容片段与对应的内容字段对应保存。
在本申请的实施例中,可以将内容字段的名称设置为“内容片段”,并将各内容片段与对应的内容字段对应保存,从而在后续需要获取内容片段所包含的内容时,可以通过内容字段获取对应的内容片段所包含的内容。
另外,本申请实施例中,还可以将各内容片段所包含的内容以及各内容片段对应的文档名称、章节标题、各级父标题,以结构体的形式保存,结构体中的字段可以对应包括名称为“内容片段”的字段、名称为“文档名称”的字段、名称为“章节标题”的字段,以及名称为“各级父标题”的字段。
通过采用光学字符识别OCR技术,对各文档进行识别,以获取各文档的识别结果,对各识别结果进行结构化处理,以得到各文档中包括的多个内容片段,将各内容片段与对应的内容字段对应保存,实现了对待检索的文档进行处理,得到多个内容片段,为实现从文档中精确确定能够回答用户问题的目标内容片段,并根据该目标内容片段生成查询语句对应的答案奠定了基础。且通过调用RPA机器人将各文档上传至文档处理平台,以基于文档处理平台,采用AI领域的OCR技术对各文档进行识别,再获取文档处理平台返回的各文档的识别结果,进而对各识别结果进行结构化处理,得到各文档中包括的多个内容片段,实现了结合RPA和AI实现IA的获取文档中的内容片段,进一步减少了生成答案所需的人工成本。
为了实现上述实施例,本申请还提出了一种答案生成装置。图9是根据本申请第五实施例的答案生成装置的结构示意图。
如图9所示,该答案生成装置900,包括:第一获取模块901、第二获取模块902及生成模块903。
其中,第一获取模块901,用于获取查询语句以及查询语句所属的问题类型;
第二获取模块902,用于从至少一个文档包括的多个内容片段中,获取与查询语句匹配的目标内容片段;
生成模块903,用于按照问题类型对应的应答策略,基于目标内容片段,生成查询语句对应的目标答案。
需要说明的是,本申请实施例的答案生成装置900,可以执行上述实施例提供的答案生成方法。其中,答案生成装置900可以由软件和/或硬件实现,该答案生成装置可以为电子设备,或者也可以配置在电子设备中,以实现代替人工自动生成用户问题的准确答案。其中,该电子设备可以包括但不限于终端设备、服务器等,该实施例对电子设备不作具体限定。
在本申请的一个实施例中,问题类型包括数字类、抽取类、判断类中的一个;目标内容片段的数量为多个;生成模块903,包括:
第一获取单元,用于对于每个目标内容片段,将查询语句与目标内容片段输入自然语言处理NLP领域的抽取模型,以从目标内容片段中抽取查询语句对应的候选答案片段,并获取对应的置信度;
第二获取单元,用于根据各候选答案片段对应的置信度,从各候选答案片段中获取目标答案片段;
生成单元,用于按照问题类型对应的应答策略,基于目标答案片段生成目标答案。
在本申请的一个实施例中,问题类型包括抽取类;生成单元,用于:
将目标答案片段作为目标答案。
在本申请的一个实施例中,问题类型包括判断类;生成单元,用于:
将目标答案片段和查询语句输入NLP领域的判断模型,以获取查询语句对应的判断结果;
将判断结果和/或目标答案片段作为目标答案。
在本申请的一个实施例中,问题类型包括数字类;生成单元,用于:
根据第一预设规则,从目标答案片段中获取目标数字,并获取目标数字对应的单位;
根据目标数字以及对应的单位,生成目标答案。
在本申请的一个实施例中,问题类型包括统计类;生成模块903,包括:
抽取单元,用于根据第二预设规则,从目标内容片段中抽取得到目标答案。
在本申请的一个实施例中,答案生成装置900,还可以包括:
第三获取模块,用于从预设的问答集中获取与查询语句匹配的目标问题;
第四获取模块,用于基于NLP领域的第一相关度模型,获取查询语句与目标问题之间的第一相关度;
第一确定模块,用于确定第一相关度不大于预设阈值。
在本申请的一个实施例中,答案生成装置900,还可以包括:
第五获取模块,用于在第一相关度大于预设阈值的情况下,从问答集中获取目标问题对应的答案;
第二确定模块,用于将目标问题对应的答案,确定为查询语句对应的目标答案。
在本申请的一个实施例中,第二获取模块902,包括:
第三获取单元,用于基于查询语句进行查询,以从多个内容片段中,获取与查询语句相关的多个候选内容片段;
第四获取单元,用于基于NLP领域的第二相关度模型,获取查询语句与各候选内容片段之间的第二相关度;
第五获取单元,用于基于各第二相关度,从各候选内容片段中获取目标内容片段。
在本申请的一个实施例中,答案生成装置900,还可以包括:
识别模块,用于基于人工智能AI领域的光学字符识别OCR技术,对各文档进行识别,以获取各文档的识别结果;
处理模块,用于对各识别结果进行结构化处理,以得到各文档中包括的多个内容片段;
保存模块,用于将各内容片段与对应的内容字段对应保存。
在本申请的一个实施例中,识别模块,包括:
上传单元,用于调用RPA机器人将各文档上传至文档处理平台,以基于文档处理平台,采用光学字符识别OCR技术,对各文档进行识别;
第六获取单元,用于获取文档处理平台返回的各文档的识别结果。
需要说明的是,前述对答案生成方法实施例的解释说明也适用于该实施例的答案生成装置,本申请答案生成装置实施例中未公布的细节,此处不再赘述。
综上,本申请实施例的答案生成装置,在获取查询语句以及查询语句所属的问题类型后,从至少一个文档包括的多个内容片段中,获取与查询语句匹配的目标内容片段,进而按照问题类型对应的应答策略,基于目标内容片段,生成查询语句对应的目标答案。由此,通过代替人工自动生成答案,减少了生成答案所需的人力成本及时间成本,且通过从文档中精确确定能够回答用户问题的目标内容片段,并根据该目标内容片段生成查询语句对应的答案,提高了生成的答案的准确性。
为了实现上述实施例,本申请实施例还提出一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如前述任一方法实施例所述的答案生成方法。
为了实现上述实施例,本申请实施例还提出一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前述任一方法实施例所述的答案生成方法。
为了实现上述实施例,本申请实施例还提出一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如前述任一方法实施例所述的答案生成方法。
图10示出了适于用来实现本申请实施方式的示例性电子设备的框图。图10显示的电子设备10仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图10所示,电子设备10以通用计算设备的形式表现。电子设备10的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
电子设备10典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备10访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。电子设备10可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图10未显示,通常称为“硬盘驱动器”)。尽管图10中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
电子设备10也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备10交互的设备通信,和/或与使得该电子设备10能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,电子设备10还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图10所示,网络适配器20通过总线18与电子设备10的其它模块通信。应当明白,尽管图10中未示出,可以结合电子设备10使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (15)

1.一种答案生成方法,其特征在于,包括:
获取查询语句以及所述查询语句所属的问题类型;
从至少一个文档包括的多个内容片段中,获取与所述查询语句匹配的目标内容片段;
按照所述问题类型对应的应答策略,基于所述目标内容片段,生成所述查询语句对应的目标答案。
2.根据权利要求1所述的方法,其特征在于,所述问题类型包括数字类、抽取类、判断类中的一个;所述目标内容片段的数量为多个;
所述按照所述问题类型对应的应答策略,基于所述目标内容片段,生成所述查询语句对应的目标答案,包括:
对于每个所述目标内容片段,将所述查询语句与所述目标内容片段输入自然语言处理NLP领域的抽取模型,以从所述目标内容片段中抽取所述查询语句对应的候选答案片段,并获取对应的置信度;
根据各所述候选答案片段对应的置信度,从各所述候选答案片段中获取目标答案片段;
按照所述问题类型对应的应答策略,基于所述目标答案片段生成所述目标答案。
3.根据权利要求2所述的方法,其特征在于,所述问题类型包括抽取类;
所述按照所述问题类型对应的应答策略,基于所述目标答案片段生成所述目标答案,包括:
将所述目标答案片段作为所述目标答案。
4.根据权利要求2所述的方法,其特征在于,所述问题类型包括判断类;
所述按照所述问题类型对应的应答策略,基于所述目标答案片段生成所述目标答案,包括:
将所述目标答案片段和所述查询语句输入NLP领域的判断模型,以获取所述查询语句对应的判断结果;
将所述判断结果和/或所述目标答案片段作为所述目标答案。
5.根据权利要求2所述的方法,其特征在于,所述问题类型包括数字类;
所述按照所述问题类型对应的应答策略,基于所述目标答案片段生成所述目标答案,包括:
根据第一预设规则,从所述目标答案片段中获取目标数字,并获取所述目标数字对应的单位;
根据所述目标数字以及对应的单位,生成所述目标答案。
6.根据权利要求1所述的方法,其特征在于,所述问题类型包括统计类;
所述按照所述问题类型对应的应答策略,基于所述目标内容片段,生成所述查询语句对应的目标答案,包括:
根据第二预设规则,从所述目标内容片段中抽取得到所述目标答案。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述从至少一个文档包括的多个内容片段中,获取与所述查询语句匹配的目标内容片段之前,还包括:
从预设的问答集中获取与所述查询语句匹配的目标问题;
基于NLP领域的第一相关度模型,获取所述查询语句与所述目标问题之间的第一相关度;
确定所述第一相关度不大于预设阈值。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
在所述第一相关度大于所述预设阈值的情况下,从所述问答集中获取所述目标问题对应的答案;
将所述目标问题对应的答案,确定为所述查询语句对应的目标答案。
9.根据权利要求1-6任一项所述的方法,其特征在于,所述从至少一个文档包括的多个内容片段中,获取与所述查询语句匹配的目标内容片段,包括:
基于所述查询语句进行查询,以从所述多个内容片段中,获取与所述查询语句相关的多个候选内容片段;
基于NLP领域的第二相关度模型,获取所述查询语句与各所述候选内容片段之间的第二相关度;
基于各所述第二相关度,从各所述候选内容片段中获取所述目标内容片段。
10.根据权利要求1-6任一项所述的方法,其特征在于,所述从至少一个文档包括的多个内容片段中,获取与所述查询语句匹配的目标内容片段之前,还包括:
基于人工智能AI领域的光学字符识别OCR技术,对各所述文档进行识别,以获取各所述文档的识别结果;
对各所述识别结果进行结构化处理,以得到各所述文档中包括的多个所述内容片段;
将各所述内容片段与对应的内容字段对应保存。
11.根据权利要求10所述的方法,其特征在于,所述基于人工智能AI领域的光学字符识别OCR技术,对各所述文档进行识别,以获取各所述文档的识别结果,包括:
调用RPA机器人将各所述文档上传至文档处理平台,以基于所述文档处理平台,采用所述光学字符识别OCR技术,对各所述文档进行识别;
获取所述文档处理平台返回的各所述文档的识别结果。
12.一种答案生成装置,其特征在于,包括:
第一获取模块,用于获取查询语句以及所述查询语句所属的问题类型;
第二获取模块,用于从至少一个文档包括的多个内容片段中,获取与所述查询语句匹配的目标内容片段;
生成模块,用于按照所述问题类型对应的应答策略,基于所述目标内容片段,生成所述查询语句对应的目标答案。
13.根据权利要求12所述的装置,其特征在于,所述问题类型包括数字类、抽取类、判断类中的一个;所述目标内容片段的数量为多个;
所述生成模块,包括:
第一获取单元,用于对于每个所述目标内容片段,将所述查询语句与所述目标内容片段输入自然语言处理NLP领域的抽取模型,以从所述目标内容片段中抽取所述查询语句对应的候选答案片段,并获取对应的置信度;
第二获取单元,用于根据各所述候选答案片段对应的置信度,从各所述候选答案片段中获取目标答案片段;
生成单元,用于按照所述问题类型对应的应答策略,基于所述目标答案片段生成所述目标答案。
14.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-11中任一项所述的方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-11中任一项所述的方法。
CN202210635729.0A 2022-06-07 2022-06-07 答案生成方法、装置、电子设备及存储介质 Pending CN114936276A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210635729.0A CN114936276A (zh) 2022-06-07 2022-06-07 答案生成方法、装置、电子设备及存储介质
PCT/CN2022/100568 WO2023236252A1 (zh) 2022-06-07 2022-06-22 答案生成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210635729.0A CN114936276A (zh) 2022-06-07 2022-06-07 答案生成方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114936276A true CN114936276A (zh) 2022-08-23

Family

ID=82866825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210635729.0A Pending CN114936276A (zh) 2022-06-07 2022-06-07 答案生成方法、装置、电子设备及存储介质

Country Status (2)

Country Link
CN (1) CN114936276A (zh)
WO (1) WO2023236252A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117520549A (zh) * 2023-11-20 2024-02-06 北京中关村科金技术有限公司 一种文档切分方法、装置、设备及可读存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117473069B (zh) * 2023-12-26 2024-04-12 深圳市明源云客电子商务有限公司 业务语料生成方法、装置、设备及计算机可读存储介质
CN117591547A (zh) * 2024-01-18 2024-02-23 中昊芯英(杭州)科技有限公司 数据库的查询方法、装置、终端设备以及存储介质
CN117688164B (zh) * 2024-02-03 2024-05-17 北京澜舟科技有限公司 基于大语言模型的幻觉检测方法、系统以及存储介质
CN118093849A (zh) * 2024-04-26 2024-05-28 杭州数云信息技术有限公司 对话方法及装置、存储介质、终端、计算机程序产品

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217717B (zh) * 2013-05-29 2016-11-23 腾讯科技(深圳)有限公司 构建语言模型的方法及装置
CN109033229B (zh) * 2018-06-29 2021-06-11 北京百度网讯科技有限公司 问答处理方法和装置
CN113821612A (zh) * 2021-07-14 2021-12-21 腾讯科技(深圳)有限公司 信息查找方法以及装置
CN114281942A (zh) * 2021-12-17 2022-04-05 科大讯飞股份有限公司 问答处理方法、相关设备及可读存储介质
CN114491023A (zh) * 2021-12-31 2022-05-13 北京五八信息技术有限公司 一种文本处理方法、装置、电子设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117520549A (zh) * 2023-11-20 2024-02-06 北京中关村科金技术有限公司 一种文档切分方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
WO2023236252A1 (zh) 2023-12-14

Similar Documents

Publication Publication Date Title
CN114936276A (zh) 答案生成方法、装置、电子设备及存储介质
CN108829893B (zh) 确定视频标签的方法、装置、存储介质和终端设备
CN112016310A (zh) 文本纠错方法、系统、设备及可读存储介质
US20210407499A1 (en) Automatically generating conference minutes
CN109446885B (zh) 一种基于文本的元器件识别方法、系统、装置和存储介质
CN112328489B (zh) 测试用例生成方法、装置、终端设备和存储介质
CN114925174A (zh) 文档检索方法、装置及电子设备
CN112149386A (zh) 一种事件抽取方法、存储介质及服务器
CN115099239B (zh) 一种资源识别方法、装置、设备以及存储介质
CN114491034B (zh) 一种文本分类方法及智能设备
CN110717021A (zh) 人工智能面试中获取输入文本和相关装置
CN110704638A (zh) 一种基于聚类算法的电力文本词典构造方法
US11914641B2 (en) Text to color palette generator
CN112579781B (zh) 文本归类方法、装置、电子设备及介质
CN117216214A (zh) 一种问答抽取的生成方法、装置、设备及介质
CN111881695A (zh) 一种审计知识的检索方法及装置
CN113553410B (zh) 长文档处理方法、处理装置、电子设备和存储介质
CN110362694A (zh) 基于人工智能的文献数据检索方法、设备及可读存储介质
CN115587163A (zh) 一种文本分类方法、装置、电子设备及存储介质
CN110276001B (zh) 盘点页识别方法、装置、计算设备和介质
CN114077834A (zh) 确定相似文本的方法、装置以及存储介质
CN116821801A (zh) 一种基于自然语言的文本分类方法及装置
CN115130438A (zh) 一种打标签的方法、系统及其存储介质
CN116860940A (zh) 问答信息处理方法、装置、电子设备及存储介质
CN117668253A (zh) 基于自然语言处理和知识图谱的智能问答方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination