CN112287079A - 结合rpa和ai的问答对获取方法、装置、介质及电子设备 - Google Patents

结合rpa和ai的问答对获取方法、装置、介质及电子设备 Download PDF

Info

Publication number
CN112287079A
CN112287079A CN202011149338.5A CN202011149338A CN112287079A CN 112287079 A CN112287079 A CN 112287079A CN 202011149338 A CN202011149338 A CN 202011149338A CN 112287079 A CN112287079 A CN 112287079A
Authority
CN
China
Prior art keywords
question
answer
sentence
sentences
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011149338.5A
Other languages
English (en)
Inventor
段沛宸
张海雷
胡一川
汪冠春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Benying Network Technology Co Ltd
Beijing Laiye Network Technology Co Ltd
Original Assignee
Beijing Benying Network Technology Co Ltd
Beijing Laiye Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Benying Network Technology Co Ltd, Beijing Laiye Network Technology Co Ltd filed Critical Beijing Benying Network Technology Co Ltd
Publication of CN112287079A publication Critical patent/CN112287079A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种结合RPA和AI的问答对获取方法、装置、介质及电子设备,该方法包括对文档进行自然语言处理(Natural Language Processing,NLP),以从所述文档中确定第一问句和第一答句之间的目标距离,第一问句与第一答句相对应;根据目标距离,对第一答句进行缩写处理得到目标答句;根据第一问句和目标答句获取问答对,以进行文本识别。通过本发明能够基于问句对答句进行缩写处理,避免答句过长,冗余信息过多,由此生成的问答对,对话机器人使用该问答对进行对话回复时,用户体验更好。

Description

结合RPA和AI的问答对获取方法、装置、介质及电子设备
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种结合RPA(Robotic ProcessAutomation,机器人流程自动化)和AI(Artificial Intelligence,人工智能)的问答对获取方法、装置、介质及电子设备。
背景技术
机器人流程自动化(Robotic Process Automation)简称RPA,是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。
人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。
相关技术中,在计算机技术领域中的自然语言处理(Natural LanguageProcessing,NLP)应用场景,通常是采用人工改写的方式获取文档中的标准问句,从而在后续采用该标准问句,并辅助人工标注和筛选的方式从而得到问答对,作为智能问答领域的语料。
这种方式下,需要较多的人工辅助操作,问答对的获取效率不高,获取效果不佳。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的目的在于提出一种结合RPA和AI的问答对获取方法、装置、存储介质及电子设备,能够基于问句对答句进行缩写处理,避免答句过长,冗余信息过多,由此生成的问答对,对话机器人使用该问答对进行对话回复时,用户体验更好。
为达到上述目的,本发明第一方面实施例提出的结合RPA和AI的问答对获取方法,包括:对文档进行自然语言处理(Natural Language Processing,NLP),以从所述文档中确定第一问句和第一答句之间的目标距离,所述第一问句与所述第一答句相对应;根据所述目标距离,对所述第一答句进行缩写处理得到目标答句;根据所述第一问句和所述目标答句获取问答对,以进行文本识别。
本发明第一方面实施例提出的结合RPA和AI的问答对获取方法,通过对文档进行自然语言处理NLP,以从所述文档中确定第一问句和第一答句之间的目标距离,第一问句与第一答句相对应,并根据目标距离,对第一答句进行缩写处理得到目标答句,以及根据第一问句和目标答句获取问答对,以进行文本识别,能够基于问句对答句进行缩写处理,避免答句过长,冗余信息过多,由此生成的问答对,对话机器人使用该问答对进行对话回复时,用户体验更好。
为达到上述目的,本发明第二方面实施例提出的结合RPA和AI的问答对获取装置,包括:确定模块,用于对文档进行自然语言处理NLP,以从所述文档中确定第一问句和第一答句之间的目标距离,所述第一问句与所述第一答句相对应;缩写模块,用于根据所述目标距离,对所述第一答句进行缩写处理得到目标答句;获取模块,用于根据所述第一问句和所述目标答句获取问答对,以进行文本识别。
本发明第二方面实施例提出的结合RPA和AI的问答对获取装置,通过对文档进行自然语言处理NLP,以从所述文档中确定第一问句和第一答句之间的目标距离,第一问句与第一答句相对应,并根据目标距离,对第一答句进行缩写处理得到目标答句,以及根据第一问句和目标答句获取问答对,以进行文本识别,能够基于问句对答句进行缩写处理,避免答句过长,冗余信息过多,由此生成的问答对,对话机器人使用该问答对进行对话回复时,用户体验更好。
为达到上述目的,本发明第三方面实施例提出的非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器被执行时,使得电子设备能够执行一种结合RPA和AI的问答对获取方法,所述方法包括:本发明第一方面实施例提出的结合RPA和AI的问答对获取方法。
本发明第三方面实施例提出的非临时性计算机可读存储介质,通过对文档进行自然语言处理NLP,以从所述文档中确定第一问句和第一答句之间的目标距离,第一问句与第一答句相对应,并根据目标距离,对第一答句进行缩写处理得到目标答句,以及根据第一问句和目标答句获取问答对,以进行文本识别,能够基于问句对答句进行缩写处理,避免答句过长,冗余信息过多,由此生成的问答对,对话机器人使用该问答对进行对话回复时,用户体验更好。
本发明第四方面还提出一种电子设备,该电子设备包括壳体、处理器、存储器、电路板和电源电路,其中,所述电路板安置在所述壳体围成的空间内部,所述处理器和所述存储器设置在所述电路板上;所述电源电路,用于为所述电子设备的各个电路或器件供电;所述存储器用于存储可执行程序代码;所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行本发明第一方面实施例提出的结合RPA和AI的问答对获取方法。
本发明第四方面实施例提出的电子设备,通过对文档进行自然语言处理NLP,以从所述文档中确定第一问句和第一答句之间的目标距离,第一问句与第一答句相对应,并根据目标距离,对第一答句进行缩写处理得到目标答句,以及根据第一问句和目标答句获取问答对,以进行文本识别,能够基于问句对答句进行缩写处理,避免答句过长,冗余信息过多,由此生成的问答对,对话机器人使用该问答对进行对话回复时,用户体验更好。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例提出的结合RPA和AI的问答对获取方法的流程示意图;
图2是本发明另一实施例提出的结合RPA和AI的问答对获取方法的流程示意图;
图3是本发明另一实施例提出的结合RPA和AI的问答对获取方法的流程示意图;
图4是本发明一实施例提出的结合RPA和AI的问答对获取装置的结构示意图;
图5是本发明一个实施例提出的计算机设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
为了解决相关技术中需要较多的人工辅助操作,问答对的获取效率不高,获取效果不佳的技术问题,本发明实施例提供一种结合RPA和AI的问答对获取方法,通过对文档进行自然语言处理(Natural Language Processing,NLP),以从文档中确定第一问句和第一答句之间的目标距离,第一问句与第一答句相对应,并根据目标距离,对第一答句进行缩写处理得到目标答句,以及根据第一问句和目标答句获取问答对,以进行文本识别,能够基于问句对答句进行缩写处理,避免答句过长,冗余信息过多,由此生成的问答对,对话机器人使用该问答对进行对话回复时,用户体验更好。
图1是本发明一实施例提出的结合RPA和AI的问答对获取方法的流程示意图。
本实施例以该结合RPA和AI的问答对获取方法被配置为结合RPA和AI的问答对获取装置中来举例说明。
本实施例中结合RPA和AI的问答对获取方法可以被配置在结合RPA和AI的问答对获取装置中,结合RPA和AI的问答对获取装置可以设置在服务器中,或者也可以设置在电子设备中,本发明实施例对此不作限制。
本实施例以结合RPA和AI的问答对获取方法被配置在电子设备中为例。
其中,电子设备例如智能手机、平板电脑、个人数字助理、电子书等具有各种操作系统的硬件设备。
需要说明的是,本发明实施例的执行主体,在硬件上可以例如为电子设备中的中央处理器(Central Processing Unit,CPU),在软件上可以例如为电子设备中的自然语言处理(natural language processing,NLP)相关的服务,对此不作限制。
另外,本发明中的“获取”,是指结合机器人流程自动化RPA和人工智能AI的问答对获取过程,也即是说,该问答对获取过程是一个全流程自动化的问答对获取过程,并且该问答对获取过程还与人工智能AI相结合,实现自动化地获取问答对。
本发明可以具体应用于人工智能AI的自然语言处理(Natural LanguageProcessing,NLP),自然语言处理(Natural Language Processing,NLP),即计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。
举例而言,本发明中基于该全流程自动化的问答对获取过程实现全流程自动化地执行对文档进行自然语言处理NLP,而后,再结合人工智能AI的自然语言处理NLP中的一些网络模型去从文档中确定第一问句和第一答句之间的目标距离,第一问句与第一答句相对应,根据目标距离,对第一答句进行缩写处理得到目标答句,以及根据目标距离,对第一答句进行缩写处理得到目标答句。
参见图1,该方法包括:
S101:对文档进行自然语言处理NLP,以从文档中确定第一问句和第一答句之间的目标距离,第一问句与第一答句相对应。
其中,第一问句和第一答句为直接可以识别并提取问答对的标准问句和标准答句,第一问句与第一答句相对应是指,第一答句为第一问句的回答句,第一答句中包含第一问句对应的答案。
第一问句可以例如为:人工智能之父是谁?
第一答句可以例如为:人工智能之父是英国的艾伦·图灵。
相对于相关技术中在采用标准问句,通过人工标注和筛选的方式从而得到问答对,并将问答对作为智能问答领域的语料,本发明实施例中是直接由电子设备自动化地确定第一问句和第一答句之间的目标距离,以辅助后续自动化地优化问答对。
在具体执行的过程中,可以由电子设备预先解析文档的内容,从内容中自动化地提取出标准问句并作为第一问句,并提取出标准答句并作为第一答句,而后执行确定第一问句和第一答句之间的目标距离。
其中,目标距离可以例如为第一问句和第一答句之间的编辑距离。
其中编辑距离是指针对二个字符串(例如英文字)的差异程度的量化量测,量测方式是指至少需要多少次的处理才能将一个字符串变成另一个字符串。
以上述的第一问句为:人工智能之父是谁?,以及第一答句为:人工智能之父是英国的艾伦·图灵进行示例,二者的编辑距离为9,则可以将9作为第一问句和第一答句之间的目标距离,对此不作限制。
在具体执行的过程中,可以采用NLP相关的算法,解析第一问句和第一答句的语义,从而确定第一问句和第一答句之间的编辑距离并作为目标距离。
S102:根据目标距离,对第一答句进行缩写处理得到目标答句。
一些实施例中,可以根据目标距离确定相应的缩写方式,并采用该相应的缩写方式对第一答句进行缩写处理,将缩写处理后的第一答句作为目标答句,例如,识别第一问句的特征,并识别第一答句的特征,并将第一问句的特征和第一答句的特征,结合目标距离输入预设模型中,根据预设模型的输出确定相应的缩写方式(相应的缩写方式例如为从第一答句中删除设定数量的字符等,对此不作限制),预设模型可以已经学习到问句的特征和答句的特征,编辑距离和缩写方式之间的对应关系,对此不作限制。
而本发明实施例中,可以确定第一问句和第一答句的长度值,并确定目标距离和长度值之间的比例值,将比例值和设定阈值进行比对,以及根据比对的结果,对第一答句进行缩写处理得到目标答句,实现简便,效率较高,且能够获得较为精准的问答对。
本发明实施例中,在比例值小于设定阈值时,对第一答句进行缩写处理得到目标答句,当比例值小于设定阈值时,表明第一问句和第一答句之间重复的文本内容较多,此时可以直接对第一答句进行缩写处理得到目标答句,有效地契合实际应用中问句和答句之间的文本特征,由此保障获得较为精准的问答对。
其中的设定阈值是预先设定的,也可以是在实际应用的过程中动态调整的,具体可以由电子设备的出厂程序预先设定,或者也可以由用户根据实际的使用需求进行设定,对此不作限制。
设定阈值可以例如为0.5。
以上述的第一问句为:人工智能之父是谁?,以及第一答句为:人工智能之父是英国的艾伦·图灵进行示例,第一问句的长度值为9,第一答句的长度值为16,第一问句和第一答句的总长度值为25,而目标距离为9,由此得到目标距离和长度值之间的比例值为9/25=0.36,将0.36和0.5进行比对,由于0.36小于0.5,则可以对第一答句进行缩写处理得到目标答句,例如对第一答句进行缩写处理得到目标答句为“英国的艾伦·图灵。”。
S103:根据第一问句和目标答句获取问答对,以进行文本识别。
上述由于第一问句和第一答句为直接可以识别并提取问答对的标准问句和标准答句,因此,在根据目标距离,对第一答句进行缩写处理得到目标答句之后,可以直接将第一问句和目标答句作为问答对[人工智能之父是谁?-英国的艾伦·图灵。],或者,也可以对第一问句进行相应的缩写处理,将缩写处理后的第一问句和目标答句作为问答对[谁?-英国的艾伦·图灵。],对此不作限制。
可选的,S103中,获取问答对之后,还包括输出问答对。
可选地,一些实施例中,参见图2,上述对第一答句进行缩写处理得到目标答句的步骤还可以包括:
S201:确定第一问句和第一答句之间的最长公共子串。
以上述的第一问句为:人工智能之父是谁?,以及第一答句为:人工智能之父是英国的艾伦·图灵进行示例,第一问句和第一答句之间的最长公共子串为“人工智能之父是”。
S202:删除第一答句中的最长公共子串,从而对第一答句进行缩写处理得到目标答句。
在具体执行的过程中,可以删除第一答句中的最长公共子串,从而对第一答句进行缩写处理得到目标答句,即删除第一答句中的最长公共子串“人工智能之父是”,得到目标答句为“英国的艾伦·图灵。”
通过确定第一问句和第一答句之间的最长公共子串,并删除第一答句中的最长公共子串,从而对第一答句进行缩写处理得到目标答句,使得第一问句和目标答句能够高效地被用于获得最终需要的问答对,因此,能够显著降低问答对挖掘过程中人工辅助标注的占比,提升结合RPA和AI的问答对获取的效率。
本实施例中,通过对文档进行自然语言处理(Natural Language Processing,NLP),以从文档中确定第一问句和第一答句之间的目标距离,第一问句与第一答句相对应,并根据目标距离,对第一答句进行缩写处理得到目标答句,以及根据第一问句和目标答句获取问答对,以进行文本识别,能够基于问句对答句进行缩写处理,避免答句过长,冗余信息过多,由此生成的问答对,对话机器人使用该问答对进行对话回复时,用户体验更好。
不经缩写处理的问答对,机器人使用该问答对进行对话时,如接收到“人工智能之父是谁?”,输出的回答会是“人工智能之父是英国的艾伦·图灵”。经过本发明提供的方法进行缩写处理之后,机器人的回复变成“英国的艾伦·图灵”。相对之前的回复,减少了对用户提问的不必要的重复,避免携带过多冗余信息,用户体验更好。
为了解决相关技术中语句的提取容易受到文档结构的限制,并且需要较多的人工辅助操作,语句的提取效率不高,提取效果不佳的技术问题,本发明实施例在上述结合RPA和AI的问答对获取方法的步骤确定第一问句和第一答句之间的目标距离之前,还可以执行下述图3所示实施例的步骤,能够在提取语句时,避免受到文档结构的限制,实现自动化地从文档的内容中提取出标准问句和标准答句,提升语句提取效果,有效地辅助获取问答对。
图3是本发明另一实施例提出的结合RPA和AI的问答对获取方法的流程示意图。
参见图3,该方法包括:
S301:从文档的内容中获取初始问句和初始答句,初始问句与初始答句相对应,初始问句,是根据文档的内容中的设问句所生成的。
可选地,文档为非结构化文档。
非结构化文档是指文档内容结构不规则或不完整,没有预定义的内容模型的文档,相应的,结构化文档是指文档内容结构规则或完整,具有预定义的内容模型的文档,本文中的结构化文档和非结构化文档,可以是文件夹、文件、或文件中的片段。
本发明实施例支持对结构化文档和非结构化文档的处理。
可选的,S301中在从文档的内容中获取初始问句和初始答句之前,还包括:获取待获取问答对的文档。
相对于相关技术中通常是采用人工、半人工的方式从结构化文档中提取标题、中心句等方式,本实施例中由于是直接采用电子设备执行从文档的内容中获取初始问句和初始答句,初始问句与初始答句相对应,初始问句,是根据文档的内容中的设问句所生成的步骤,减少对人工辅助的借助,可以实现自动化的提取问句和答句,文档处理更高效。
上述的初始问句和初始答句可以被用于生成上述实施例中用于获取问答对的标准问句和标准答句。
一些实施例中,可以提取文档的内容全部的设问句,并直接将全部的设问句作为初始问句,并将每个设问句对应的答句作为初始答句。
而本发明实施例中,从文档的内容中获取全部的设问句,并确定各设问句对应的答句;对全部设问句中的连续设问句进行合并处理,将合并处理后的设问句和其它设问句作为初始问句,连续设问句和其它设问句共同组成全部设问句;对连续设问句中的各设问句对应的答句进行合并处理,将合并处理后的答句和其它设问句对应的答句作为初始答句,实现在提取语句的过程中较好地分析了文档中设问句的行文方式,有效提升所获取语句的参考价值,并通过对设问句以及相应的答句进行了一些合并处理,能够从总体上提升方法的执行效率,提升用户使用体验度。
在具体执行的过程中,上述从文档的内容中获取全部的设问句,可以对文档内容进行分句处理,即首先以句子(设问句、反问句、陈述句、感叹句等)的特征(标点、换行等特征)识别文档的内容中全部的语句(或者,也可以采用模式匹配方法识别文档的内容中的全部的语句),并以句子为单位对文档的内容进行分句处理,而后,从分句处理后的文档内容中识别出全部问句(全部问句例如包括:设问句、反问句),并从全部的问句中识别出反问句,剔除全部问句中的反问句,从而将剩下的问句作为获得的设问句。
上述从分句处理后的文档内容中识别出全部问句,可以具体是检测语句中携带有问句的特征(问句的特征例如为包含怎么、如何、吗等特征的语句)。
上述从分句处理后的文档内容中识别出全部问句,还可以具体是采用模式匹配方法识别出全部的语句中,以什么是开头的语句和以什么叫开头的语句并作为问句。
上述从全部的问句中识别出反问句,可以从各问句中识别携带反问句的关键词的问句并作为反问句。
其中,反问句的关键词例如为难道、怎能等,对此不作限制。
上述在从文档的内容中获取全部的设问句之后,并确定各设问句的下一句为各设问句对应的答句,而后,从对全部设问句中识别出连续设问句,从而将连续设问句进行合并处理,将合并处理后的设问句和其它设问句(其它设问句之间不连续)作为初始问句,连续设问句和其它设问句共同组成全部设问句。
其中,将连续设问句进行合并处理,即将多条互相之间连续的设问句进行合并,从而将多条连续设问句合并为一条设问句。
例如,连续设问句例如,①这篇文章的作者是谁?②他来自哪个国家?合并处理之后为:这篇文章的作者是谁?他来自哪个国家?
而后,向上述合并后的设问句和其它设问句共同作为初始问句。
相应地,对各设问句对应的答句进行同样的处理,得到初始答句。
S302:分别对初始问句和初始答句执行目标处理,从而得到第一问句和第一答句。
该第一问句和第一答句即为上述实施例中用于获取问答对的标准问句和标准答句。
一些实施例中,可以采用任意可能的方法对初始问句和初始答句执行相应的处理,从而得到第一问句和第一答句,例如,可以将初始问句和初始答句分别出入神经网络模型,将神经网络模型的输出作为第一问句和第一答句,其中神经网络模型已学习得到初始问句和初始答句,以及对应的第一问句和第一答句之间的对应关系。
当然,神经网络模型仅仅是实现获得第一问句和第一答句的一种可能的实现方式,在实际执行过程中,可以通过其他任意可能的方式来实现获得第一问句和第一答句,比如,还可以采用传统的编程技术(比如模拟法和工程学方法)实现,又比如,还可以遗传学算法来实现。
而本发明实施例中,确定初始问句对应的第一句向量,并确定初始答句对应的第二句向量;对第一句向量进行聚类,得到与初始问句对应的问句簇,并对第二句向量进行聚类,得到与初始答句对应的答句簇;从问句簇中确定第一问句,并从答句簇中确定第一答句,通过前述自动化的采用相应的算法来确定第一问句和第一答句,有效地降低语句提取挖掘过程中人工辅助标注的占比,提升语句提取效率,并且采用分析句向量以及聚类的方式,能够取得较佳的语句挖掘效果。
上述在确定初始问句对应的第一句向量,并确定初始答句对应的第二句向量,可以是采用预训练的词向量和平滑倒词频(Smooth Inverse Frequency,SIF)算法,将全部的初始问句和全部的初始答句做句向量编码,从而确定与初始问句对应的句向量并作为第一句向量,确定与初始答句对应的句向量并作为第二句向量,其中的预训练的词向量可以通过同一领域的文本,经过word2vec算法训练得到,若文本量较少(如少于100M),则可以直接使用其它开源的中文词向量训练结果,将全部的初始问句和全部的初始答句做句向量编码,对此不作限制。
上述在对第一句向量进行聚类,得到与初始问句对应的问句簇,并对第二句向量进行聚类,得到与初始答句对应的答句簇时,可以是采用hdbscan聚类算法对第一句向量进行聚类,得到初始问句对应的问句簇,同样地,采用hdbscan聚类算法对第二句向量进行聚类,得到与初始答句对应的答句簇,对此不作限制。
上述从问句簇中确定第一问句,可以是在对第一句向量进行聚类,得到与初始问句对应的问句簇之后,在问句簇中全部的第一句向量取平均,得到聚类中心,而后,遍历问句簇内所有的第一句向量,找到距离聚类中心的余弦距离(consine similarity)最近的第一句向量,并将该第一句向量对应的初始问句作为第一问句,对此不作限制。
上述在从答句簇中确定第一答句时,可以是在对第二句向量进行聚类,得到与初始答句对应的答句簇之后,在答句簇中全部的第二句向量取平均,得到聚类中心,而后,遍历答句簇内所有的第二句向量,找到距离聚类中心的余弦距离(consine similarity)最近的第二句向量,并将该第二句向量对应的初始答句作为第一答句,对此不作限制。
本实施例中,通过从文档的内容中获取初始问句和初始答句,初始问句与初始答句相对应,初始问句,是根据文档的内容中的设问句所生成的,并分别对初始问句和初始答句执行目标处理,从而得到第一问句和第一答句,能够在提取语句时,避免受到文档结构的限制,实现自动化地从文档的内容中提取出标准问句和标准答句,提升语句提取效果,有效地辅助获取问答对。
图4是本发明一实施例提出的结合RPA和AI的问答对获取装置的结构示意图。
参见图4,该装置400包括:
确定模块401,用于对文档进行自然语言处理NLP,以从文档中确定第一问句和第一答句之间的目标距离,第一问句与第一答句相对应。
缩写模块402,用于根据目标距离,对第一答句进行缩写处理得到目标答句。
获取模块403,用于根据第一问句和目标答句获取问答对,以进行文本识别。
可选地,一些实施例中,缩写模块402,具体用于:
确定第一问句和第一答句的长度值;
确定目标距离和长度值之间的比例值;
将比例值和设定阈值进行比对;
根据比对的结果,对第一答句进行缩写处理得到目标答句。
可选地,一些实施例中,缩写模块402,具体用于:
在比例值小于设定阈值时,对第一答句进行缩写处理得到目标答句。
可选地,一些实施例中,缩写模块402,具体用于:
确定第一问句和第一答句之间的最长公共子串;
删除第一答句中的最长公共子串,从而对第一答句进行缩写处理得到目标答句。
可选地,一些实施例中,确定模块401,还用于在确定第一问句和第一答句之间的目标距离之前,从文档的内容中获取初始问句和初始答句,初始问句与初始答句相对应,初始问句,是根据文档的内容中的设问句所生成的;分别对初始问句和初始答句执行目标处理,从而得到第一问句和第一答句。
可选地,一些实施例中,确定模块401,还用于:
从文档的内容中获取全部的设问句,并确定各设问句对应的答句;
对全部设问句中的连续设问句进行合并处理,将合并处理后的设问句和其它设问句作为初始问句,连续设问句和其它设问句共同组成全部设问句;
对连续设问句中的各设问句对应的答句进行合并处理,将合并处理后的答句和其它设问句对应的答句作为初始答句。
可选地,一些实施例中,确定模块401,还用于:
确定初始问句对应的第一句向量,并确定初始答句对应的第二句向量;
对第一句向量进行聚类,得到与初始问句对应的问句簇,并对第二句向量进行聚类,得到与初始答句对应的答句簇;
从问句簇中确定第一问句,并从答句簇中确定第一答句。
可选地,一些实施例中,文档为非结构化文档。
需要说明的是,前述图1-图3实施例中对结合RPA和AI的问答对获取方法实施例的解释说明也适用于该实施例的结合RPA和AI的问答对获取装置400,其实现原理类似,此处不再赘述。
本实施例中,通过对文档进行自然语言处理(Natural Language Processing,NLP),以从文档中确定第一问句和第一答句之间的目标距离,第一问句与第一答句相对应,并根据目标距离,对第一答句进行缩写处理得到目标答句,以及根据第一问句和目标答句获取问答对,以进行文本识别,能够基于问句对答句进行缩写处理,避免答句过长,冗余信息过多,由此生成的问答对,对话机器人使用该问答对进行对话回复时,用户体验更好。
图5是本发明一个实施例提出的计算机设备的结构示意图。
该电子设备可以是手机、平板电脑等。
参见图5,本实施例的电子设备50包括:壳体501、处理器502、存储器503、电路板504、电源电路505,电路板504安置在壳体501围成的空间内部,处理器502、存储器503设置在电路板504上;电源电路505,用于为电子设备50各个电路或器件供电;存储器503用于存储可执行程序代码;其中,处理器502通过读取存储器503中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行:
对文档进行自然语言处理NLP,以从文档中确定第一问句和第一答句之间的目标距离,第一问句与第一答句相对应;
根据目标距离,对第一答句进行缩写处理得到目标答句;
根据第一问句和目标答句获取问答对,以进行文本识别。
需要说明的是,前述图1-图3实施例中对结合RPA和AI的问答对获取方法实施例的解释说明也适用于该实施例的电子设备50,其实现原理类似,此处不再赘述。
本实施例中的计算机设备,通过对文档进行自然语言处理(Natural LanguageProcessing,NLP),以从文档中确定第一问句和第一答句之间的目标距离,第一问句与第一答句相对应,并根据目标距离,对第一答句进行缩写处理得到目标答句,以及根据第一问句和目标答句获取问答对,以进行文本识别,能够基于问句对答句进行缩写处理,避免答句过长,冗余信息过多,由此生成的问答对,对话机器人使用该问答对进行对话回复时,用户体验更好。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,当存储介质中的指令由终端的处理器执行时,使得终端能够执行一种结合RPA和AI的问答对获取方法,方法包括:
对文档进行自然语言处理NLP,以从文档中确定第一问句和第一答句之间的目标距离,第一问句与第一答句相对应;
根据目标距离,对第一答句进行缩写处理得到目标答句;
根据第一问句和目标答句获取问答对,以进行文本识别。
本实施例中的非临时性计算机可读存储介质,通过对文档进行自然语言处理(Natural Language Processing,NLP),以从文档中确定第一问句和第一答句之间的目标距离,第一问句与第一答句相对应,并根据目标距离,对第一答句进行缩写处理得到目标答句,以及根据第一问句和目标答句获取问答对,以进行文本识别,能够基于问句对答句进行缩写处理,避免答句过长,冗余信息过多,由此生成的问答对,对话机器人使用该问答对进行对话回复时,用户体验更好。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (11)

1.一种结合RPA和AI的问答对获取方法,其特征在于,包括:
对文档进行自然语言处理(Natural Language Processing,NLP),以从所述文档中确定第一问句和第一答句之间的目标距离,所述第一问句与所述第一答句相对应;
根据所述目标距离,对所述第一答句进行缩写处理得到目标答句;
根据所述第一问句和所述目标答句获取问答对,以进行文本识别。
2.如权利要求1所述的方法,其特征在于,所述根据所述目标距离,对所述第一答句进行缩写处理得到目标答句,包括:
确定所述第一问句和所述第一答句的长度值;
确定所述目标距离和所述长度值之间的比例值;
将所述比例值和设定阈值进行比对;
根据比对的结果,对所述第一答句进行缩写处理得到目标答句。
3.如权利要求2所述的方法,其特征在于,所述根据比对的结果,对所述第一答句进行缩写处理得到目标答句,包括:
在所述比例值小于所述设定阈值时,对所述第一答句进行缩写处理得到目标答句。
4.如权利要求2或3所述的方法,其特征在于,所述对所述第一答句进行缩写处理得到目标答句,包括:
确定所述第一问句和所述第一答句之间的最长公共子串;
删除所述第一答句中的最长公共子串,从而对所述第一答句进行缩写处理得到目标答句。
5.如权利要求1所述的方法,其特征在于,所述确定第一问句和第一答句之间的目标距离之前,还包括:
从文档的内容中获取初始问句和初始答句,所述初始问句与所述初始答句相对应,所述初始问句,是根据所述文档的内容中的设问句所生成的;
分别对所述初始问句和所述初始答句执行目标处理,从而得到所述第一问句和所述第一答句。
6.如权利要求5所述的方法,其特征在于,所述从文档的内容中获取初始问句和初始答句,包括:
从所述文档的内容中获取全部的设问句,并确定各所述设问句对应的答句;
对全部设问句中的连续设问句进行合并处理,将合并处理后的设问句和其它设问句作为所述初始问句,所述连续设问句和所述其它设问句共同组成所述全部设问句;
对所述连续设问句中的各设问句对应的答句进行合并处理,将合并处理后的答句和所述其它设问句对应的答句作为所述初始答句。
7.如权利要求5所述的方法,其特征在于,所述分别对所述初始问句和所述初始答句执行目标处理,从而得到所述第一问句和所述第一答句,包括:
确定所述初始问句对应的第一句向量,并确定所述初始答句对应的第二句向量;
对所述第一句向量进行聚类,得到与所述初始问句对应的问句簇,并对所述第二句向量进行聚类,得到与所述初始答句对应的答句簇;
从所述问句簇中确定所述第一问句,并从所述答句簇中确定所述第一答句。
8.如权利要求1-7任一项所述的方法,其特征在于,所述文档为非结构化文档。
9.一种结合RPA和AI的问答对获取装置,其特征在于,包括:
确定模块,用于对文档进行自然语言处理NLP,以从所述文档中确定第一问句和第一答句之间的目标距离,所述第一问句与所述第一答句相对应;
缩写模块,用于根据所述目标距离,对所述第一答句进行缩写处理得到目标答句;
获取模块,用于根据所述第一问句和所述目标答句获取问答对,以进行文本识别。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一项所述的结合RPA和AI的问答对获取方法。
11.一种电子设备,包括壳体、处理器、存储器、电路板和电源电路,其中,所述电路板安置在所述壳体围成的空间内部,所述处理器和所述存储器设置在所述电路板上;所述电源电路,用于为所述电子设备的各个电路或器件供电;所述存储器用于存储可执行程序代码;所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行如权利要求1-8中任一项所述的结合RPA和AI的问答对获取方法。
CN202011149338.5A 2019-12-09 2020-10-23 结合rpa和ai的问答对获取方法、装置、介质及电子设备 Pending CN112287079A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911251369 2019-12-09
CN2019112513699 2019-12-09

Publications (1)

Publication Number Publication Date
CN112287079A true CN112287079A (zh) 2021-01-29

Family

ID=74425019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011149338.5A Pending CN112287079A (zh) 2019-12-09 2020-10-23 结合rpa和ai的问答对获取方法、装置、介质及电子设备

Country Status (1)

Country Link
CN (1) CN112287079A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599071A (zh) * 2009-07-10 2009-12-09 华中科技大学 对话文本主题的自动提取方法
CN106649742A (zh) * 2016-12-26 2017-05-10 上海智臻智能网络科技股份有限公司 数据库维护方法和装置
WO2018149326A1 (zh) * 2017-02-16 2018-08-23 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN109635094A (zh) * 2018-12-17 2019-04-16 北京百度网讯科技有限公司 用于生成答案的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599071A (zh) * 2009-07-10 2009-12-09 华中科技大学 对话文本主题的自动提取方法
CN106649742A (zh) * 2016-12-26 2017-05-10 上海智臻智能网络科技股份有限公司 数据库维护方法和装置
WO2018149326A1 (zh) * 2017-02-16 2018-08-23 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN109635094A (zh) * 2018-12-17 2019-04-16 北京百度网讯科技有限公司 用于生成答案的方法和装置

Similar Documents

Publication Publication Date Title
US10831762B2 (en) Extracting and denoising concept mentions using distributed representations of concepts
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN108628834B (zh) 一种基于句法依存关系的词语表示学习方法
CN115328756A (zh) 一种测试用例生成方法、装置及设备
CN111143569A (zh) 一种数据处理方法、装置及计算机可读存储介质
CN104573099A (zh) 题目的搜索方法及装置
CN116561538A (zh) 问答评分方法、问答评分装置、电子设备及存储介质
CN111966792B (zh) 一种文本处理方法、装置、电子设备及可读存储介质
CN112287085B (zh) 语义匹配方法、系统、设备及存储介质
CN103885933A (zh) 用于评价文本的情感度的方法和设备
CN112579733A (zh) 规则匹配方法、规则匹配装置、存储介质及电子设备
CN110795544A (zh) 内容搜索方法、装置、设备和存储介质
CN118378631B (zh) 文本审查方法、装置、设备及存储介质
CN117112754A (zh) 信息处理方法、装置、电子设备及存储介质
CN113986950A (zh) 一种sql语句处理方法、装置、设备及存储介质
CN112287077A (zh) 用于文档的结合rpa和ai的语句提取方法、装置、存储介质及电子设备
CN110633456B (zh) 语种识别方法、装置、服务器及存储介质
CN117271736A (zh) 一种问答对的生成方法和系统、电子设备及存储介质
CN114757203A (zh) 基于对比学习的中文句子精简方法和系统
CN113392220A (zh) 一种知识图谱生成方法、装置、计算机设备及存储介质
CN116701604A (zh) 问答语料库的构建方法和装置、问答方法、设备及介质
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN113672522B (zh) 测试资源压缩方法以及相关设备
CN112287079A (zh) 结合rpa和ai的问答对获取方法、装置、介质及电子设备
CN114492437A (zh) 关键词识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Country or region after: China

Address after: 1902, 19th Floor, China Electronics Building, No. 3 Danling Road, Haidian District, Beijing

Applicant after: BEIJING LAIYE NETWORK TECHNOLOGY Co.,Ltd.

Applicant after: Laiye Technology (Beijing) Co.,Ltd.

Address before: 1902, 19 / F, China Electronics Building, 3 Danling Road, Haidian District, Beijing 100080

Applicant before: BEIJING LAIYE NETWORK TECHNOLOGY Co.,Ltd.

Country or region before: China

Applicant before: BEIJING BENYING NETWORK TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information