CN110569341A - 配置聊天机器人的方法、装置、计算机设备和存储介质 - Google Patents

配置聊天机器人的方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110569341A
CN110569341A CN201910676824.3A CN201910676824A CN110569341A CN 110569341 A CN110569341 A CN 110569341A CN 201910676824 A CN201910676824 A CN 201910676824A CN 110569341 A CN110569341 A CN 110569341A
Authority
CN
China
Prior art keywords
character
field
block
target
character block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910676824.3A
Other languages
English (en)
Other versions
CN110569341B (zh
Inventor
黄海杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
Original Assignee
OneConnect Smart Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Smart Technology Co Ltd filed Critical OneConnect Smart Technology Co Ltd
Priority to CN201910676824.3A priority Critical patent/CN110569341B/zh
Priority to SG11202004541WA priority patent/SG11202004541WA/en
Priority to PCT/CN2019/107693 priority patent/WO2021012382A1/zh
Publication of CN110569341A publication Critical patent/CN110569341A/zh
Application granted granted Critical
Publication of CN110569341B publication Critical patent/CN110569341B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及业务过程优化技术领域,提供了一种配置聊天机器人的方法、装置、计算机设备和存储介质。所述方法包括:获取业务表格扫描图,提取业务表格扫描图中的表格特征信息,确定表格特征信息中的文字块的字段类型,并根据字段类型识别需要进行字段填充的目标文字块,根据目标文字块,建立各文字块之间的关联关系,根据需要进行字段填充的目标文字块查询预设的数据类型配置表,确定与各目标文字块对应的需填充字段的数据类型,根据与各目标文字块对应的需填充字段的数据类型、各文字块之间的关联关系以及预设的语句模板,生成各目标文字块的业务片段语句,根据各目标文字块的业务片段语句,配置聊天机器人。采用本方法能够提高业务处理的效率。

Description

配置聊天机器人的方法、装置、计算机设备和存储介质
技术领域
本申请涉及业务过程优化技术领域,特别是涉及一种配置聊天机器人的方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,出现了基于OCR(Optical Character Recognition,光学字符识别)的业务申请方式,OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,基于OCR的业务申请方式包括通过OCR从用户已事先填写好的纸质表格中抓取内容并自动进行系统录入。
然而,目前的基于OCR的业务申请方式仍需要用户先填写纸质表格,只是把后期录入过程自动化,存在业务处理效率低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高业务处理效率的配置聊天机器人的方法、装置、计算机设备和存储介质。
一种配置聊天机器人的方法,所述方法包括:
获取业务表格扫描图,提取业务表格扫描图中的表格特征信息,确定表格特征信息中的文字块的字段类型,并根据字段类型识别需要进行字段填充的目标文字块,根据需要进行字段填充的目标文字块,建立各文字块之间的关联关系;
根据需要进行字段填充的目标文字块查询预设的数据类型配置表,确定与各目标文字块对应的需填充字段的数据类型;
根据与各目标文字块对应的需填充字段的数据类型、各文字块之间的关联关系以及预设的语句模板,生成各目标文字块的业务片段语句;
根据表格特征信息中各目标文字块的位置信息以及各目标文字块的业务片段语句,配置聊天机器人。
在其中一个实施例中,获取业务表格扫描图,提取业务表格扫描图中的表格特征信息包括:
获取业务表格扫描图,对业务表格扫描图进行预处理;
根据已训练的目标检测模型,得到预处理后的业务表格扫描图中各文字块的位置信息以及各文字符号的位置信息,目标检测模型是以包括文字块和文字符号的样本图片训练得到;
根据各文字块的位置信息以及各文字符号的位置信息,分割业务表格扫描图,得到多个文字块图像以及文字符号图像;
根据已训练的图片分类模型,提取各文字块图像以及各文字符号图像中的文字块以及文字符号,得到业务表格扫描图中的表格特征信息,图片分类模型是以包括文字块和文字符号的样本图片训练得到。
在其中一个实施例中,确定表格特征信息中的文字块的字段类型包括:
将表格特征信息中各文字块输入已训练的分类模型,得到各文字块归属于各预设的字段类型的置信度;
根据表格特征信息中各文字块的位置信息以及各文字符号的位置信息,确定各文字块与各文字符号之间的坐标距离;
将与各文字块的坐标距离在预设的距离阈值范围内的各文字符号作为与各文字块关联的文字符号;
根据各文字块与各文字符号的关联情况,修正各文字块归属于各预设的字段类型的置信度;
将各文字块归属于各预设的字段类型的置信度进行排序,并将置信度最高的字段类型,作为各文字块的字段类型。
在其中一个实施例中,字段类型包括需填字段、选项字段以及注释字段,根据字段类型识别需要进行字段填充的目标文字块,根据需要进行字段填充的目标文字块,建立各文字块之间的关联关系包括:
根据各文字块的字段类型,确定字段类型为需填字段的文字块为需要进行字段填充的目标文字块;
根据表格特征信息中各文字块的位置信息,确定各目标文字块与各选项字段文字块以及各注释字段文字块之间的距离;
根据各目标文字块与各选项字段文字块以及各注释字段文字块之间的距离,确定与各目标文字块对应的选项字段文字块以及注释字段文字块;
建立各目标文字块与对应的选项字段文字块以及注释字段文字块之间的关联关系。
在其中一个实施例中,根据表格特征信息中各目标文字块的位置信息以及各目标文字块的业务片段语句,配置聊天机器人包括:
根据表格特征信息中各目标文字块的位置信息,确定与各目标文字块对应的需填充字段的填写顺序;
根据与各目标文字块对应的需填充字段的填写顺序,确定各目标文字块的业务片段语句的业务流程顺序;
根据业务流程顺序,生成业务申请的场景流程信息;
根据场景流程信息以及各目标文字块的业务片段语句进行模型训练,配置聊天机器人。
在其中一个实施例中,根据场景流程信息以及各目标文字块的业务片段语句进行模型训练,配置聊天机器人包括:
将各目标文字块的业务片段语句作为第一训练集输入初始自然语言理解模型进行模型训练,得到自然语言理解模型,自然语言理解模型用于根据用户语句判断用户意图并抓取实体信息;
将场景流程信息作为第二训练集输入初始对话管理模型进行模型训练,得到对话管理模型,对话管理模型用于根据用户语句以及用户意图确定回复语句;
根据自然语言理解模型以及对话管理模型,配置聊天机器人。
一种配置聊天机器人的装置,所述装置包括:
获取模块,用于获取业务表格扫描图,提取业务表格扫描图中的表格特征信息,确定表格特征信息中的文字块的字段类型,并根据字段类型识别需要进行字段填充的目标文字块,根据需要进行字段填充的目标文字块,建立各文字块之间的关联关系;
第一处理模块,用于根据需要进行字段填充的目标文字块查询预设的数据类型配置表,确定与各目标文字块对应的需填充字段的数据类型;
第二处理模块,用于根据与各目标文字块对应的需填充字段的数据类型、各文字块之间的关联关系以及预设的语句模板,生成各目标文字块的业务片段语句;
配置模块,用于根据表格特征信息中各目标文字块的位置信息以及各目标文字块的业务片段语句,配置聊天机器人。
在其中一个实施例中,获取模块还用于获取业务表格扫描图,对业务表格扫描图进行预处理,根据已训练的目标检测模型,得到预处理后的业务表格扫描图中各文字块的位置信息以及各文字符号的位置信息,目标检测模型是以包括文字块和文字符号的样本图片训练得到,根据各文字块的位置信息以及各文字符号的位置信息,分割业务表格扫描图,得到多个文字块图像以及文字符号图像,根据已训练的图片分类模型,提取各文字块图像以及各文字符号图像中的文字块以及文字符号,得到业务表格扫描图中的表格特征信息,图片分类模型是以包括文字块和文字符号的样本图片训练得到。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取业务表格扫描图,提取业务表格扫描图中的表格特征信息,确定表格特征信息中的文字块的字段类型,并根据字段类型识别需要进行字段填充的目标文字块,根据需要进行字段填充的目标文字块,建立各文字块之间的关联关系;
根据需要进行字段填充的目标文字块查询预设的数据类型配置表,确定与各目标文字块对应的需填充字段的数据类型;
根据与各目标文字块对应的需填充字段的数据类型、各文字块之间的关联关系以及预设的语句模板,生成各目标文字块的业务片段语句;
根据表格特征信息中各目标文字块的位置信息以及各目标文字块的业务片段语句,配置聊天机器人。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取业务表格扫描图,提取业务表格扫描图中的表格特征信息,确定表格特征信息中的文字块的字段类型,并根据字段类型识别需要进行字段填充的目标文字块,根据需要进行字段填充的目标文字块,建立各文字块之间的关联关系;
根据需要进行字段填充的目标文字块查询预设的数据类型配置表,确定与各目标文字块对应的需填充字段的数据类型;
根据与各目标文字块对应的需填充字段的数据类型、各文字块之间的关联关系以及预设的语句模板,生成各目标文字块的业务片段语句;
根据表格特征信息中各目标文字块的位置信息以及各目标文字块的业务片段语句,配置聊天机器人。
上述配置聊天机器人的方法、装置、计算机设备和存储介质,提取业务表格扫描图中的表格特征信息,确定表格特征信息中各文字块的字段类型,并根据字段类型识别需要进行字段填充的目标文字块,根据需要进行字段填充的目标文字块,建立各文字块之间的关联关系,通过查询预设的数据类型配置表,确定与各目标文字块对应的需填充字段的数据类型,进而根据与各目标文字块对应的需填充字段的数据类型、各文字块之间的关联关系以及预设的语句模板,生成各目标文字块的业务片段语句,根据表格特征信息中各目标文字块的位置信息以及各目标文字块的业务片段语句,配置聊天机器人。从而可以根据配置的聊天机器人,进行业务处理,使用户通过线上聊天的方式提供原纸质表格中的所需信息,完成业务申请,提高了业务处理的效率。
附图说明
图1为一个实施例中配置聊天机器人的方法的流程示意图;
图2为一个实施例中图1中步骤S102的子流程示意图;
图3为一个实施例中图1中步骤S102的子流程示意图;
图4为一个实施例中图1中步骤S102的子流程示意图;
图5为一个实施例中图1中步骤S106的子流程示意图;
图6为一个实施例中图1中步骤S508的子流程示意图;
图7为一个实施例中配置聊天机器人的装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种配置聊天机器人的方法,包括以下步骤:
S102:获取业务表格扫描图,提取业务表格扫描图中的表格特征信息,确定表格特征信息中的文字块的字段类型,并根据字段类型识别需要进行字段填充的目标文字块,根据需要进行字段填充的目标文字块,建立各文字块之间的关联关系。
业务表格扫描图可以为纸质业务申请表格的扫描件也可以为电子业务申请表格的图片,提取业务表格扫描图中的表格特征信息可以采用字符识别算法,字符识别算法可以通过特征提取、文字定位以及光学识别从业务表格扫描图中提取出表格特征信息。特征提取指的是基于字符识别算法中已训练的目标检测模型,将业务表格扫描图作为输入,通过目标检测模型中的卷积神经网络提取特征。文字定位指的是基于字符识别算法中已训练的目标检测模型提取到的特征,得到检测到的各文字块图片以及各文字符号图片的位置信息,光学识别指的是通过字符识别算法中已训练的图片分类模型对检测到的各文字块图片以及各文字符号图片中的文字以及符号进行识别。
其中,字符识别算法中已训练的目标检测模型和图片分类模型是基于大量含有文字和文字符号的样本图片训练得到的。字符识别算法抓取的文字会以块为单位,例如字段“Full Name”会被抓取为一个块。表格特征信息包括各文字块、各文字块的位置信息、各文字符号以及各文字符号的位置信息。位置信息指的是各文字块以及各文字符号相对于整张图片的坐标,以像素为单位。抓取框左上角顶点的坐标是(top,left),右下角顶点是(bottom,right)。这两个点的坐标确定了抓取框的位置和大小。
各文字块的字段类型包括需填字段、选项字段以及注释字段,选项字段以及注释字段是与需填字段相对应的,服务器会根据各文字块的字段类型,确定字段类型为需填字段的文字块为目标文字块,字段类型为选项字段的文字块为选项字段文字块,字段类型为注释字段的文字块为注释字段文字块,进而根据各目标文字块、各选项字段文字块以及各注释字段文字块之间的距离,来确定它们之间的对应关系,进而根据对应关系,建立各文字块之间的关联关系。
S104:根据需要进行字段填充的目标文字块查询预设的数据类型配置表,确定与各目标文字块对应的需填充字段的数据类型。
服务器根据需要进行字段填充的目标文字块查询预设的数据类型配置表,可确定与各目标文字块对应的需填充字段的数据类型。在数据类型配置表中,预设了与各目标文字块对应的需填充字段的数据类型,例如当需填充字段为电话号码或者年龄时,对应的数据类型为数字。
S106:根据与各目标文字块对应的需填充字段的数据类型、各文字块之间的关联关系以及预设的语句模板,生成各目标文字块的业务片段语句。
服务器会根据各文字块之间的关联关系,确定与各目标文字块对应的选项字段文字块以及注释字段文字块,进而根据与各目标文字块对应的需填充字段的数据类型、预设的语句模板、与各目标文字块对应的选项字段文字块以及注释字段文字块,生成各目标文字块的业务片段语句。业务片段语句指的是获取与各目标文字块对应的需填充字段的样本对话片段,其中包括机器回复语句、注释提示语句以及客户意图语句。
机器回复语句是基于各目标文字块得到的,机器回复语句指的是聊天机器人向客户询问与需填充字段对应的需填信息的用语。注释提示语句是基于各文字块之间的关联关系得到的,当存在与目标文字块对应的注释字段文字块时,可根据注释字段文字块得到注释提示语句,注释提示语句用于提示客户输入与需填充字段对应的需填信息。客户意图语句是基于各目标文字块的数据类型以及各文字块之间的关联关系得到的,指的是客户提供与需填充字段对应的需填信息的语句。例如,当数据类型为数字时,得到的客户意图语句应该为一串数字。服务器会按照机器回复语句、注释提示语句、用户意图语句的顺序,得到各目标文字块的业务片段语句。
S108:根据表格特征信息中各目标文字块的位置信息以及各目标文字块的业务片段语句,配置聊天机器人。
根据各目标文字块的位置信息,可以确定与各目标文字块对应的需填充字段的填写顺序,将各目标文字块的业务片段语句按照各目标文字块的填写顺序进行排序,即可生成完整的业务申请的场景流程信息,从而根据场景流程信息,配置聊天机器人。
上述配置聊天机器人的方法,提取业务表格扫描图中的表格特征信息,确定表格特征信息中各文字块的字段类型,并根据字段类型识别需要进行字段填充的目标文字块,根据需要进行字段填充的目标文字块,建立各文字块之间的关联关系,通过查询预设的数据类型配置表,确定与各目标文字块对应的需填充字段的数据类型,进而根据与各目标文字块对应的需填充字段的数据类型、各文字块之间的关联关系以及预设的语句模板,生成各目标文字块的业务片段语句,根据表格特征信息中各目标文字块的位置信息以及各目标文字块的业务片段语句,配置聊天机器人。从而可以根据配置的聊天机器人,进行业务处理,使用户通过线上聊天的方式提供原纸质表格中的所需信息,完成业务申请,提高了业务处理的效率。
在其中一个实施例中,如图2所示,S102包括:
S202:获取业务表格扫描图,对业务表格扫描图进行预处理;
S204:根据已训练的目标检测模型,得到预处理后的业务表格扫描图中各文字块的位置信息以及各文字符号的位置信息,目标检测模型是以包括文字块和文字符号的样本图片训练得到;
S206:根据各文字块的位置信息以及各文字符号的位置信息,分割业务表格扫描图,得到多个文字块图像以及文字符号图像;
S208:根据已训练的图片分类模型,提取各文字块图像以及各文字符号图像中的文字块以及文字符号,得到业务表格扫描图中的表格特征信息,图片分类模型是以包括文字块和文字符号的样本图片训练得到。
预处理包括去噪处理以及倾斜矫正。目标检测模型是以包括文字块和文字符号的样本图片训练得到,在将业务表格扫描图输入字符识别算法中已训练的目标检测模型后,已训练的目标检测模型中的卷积神经网络会提取业务表格扫描图的特征,并基于提取到的特征以及已训练的目标检测模型中的全连接层,得到业务表格扫描图中各文字块的位置信息以及各文字符号的位置信息,根据各文字块的位置信息以及各文字符号的位置信息,分割业务表格扫描图,能够得到多个文字块图像以及文字符号图像,最后采用已训练的图片分类模型,可以对图片中的文字进行识别。其中,目标检测模型和图片分类模型都是以包括文字块和文字符号的样本图片训练得到,目标检测模型可以为常见的YOLO,Faster R-CNN,SSD等,图片分类模型可以为ResNet。常见的文字符号包括长下划线,勾选框等,这些文字符号可以用于帮助对各文字块进行分类。
上述实施例,采用已训练的目标检测模型和图片分类模型对预处理后的业务表格扫描图进行处理,提取业务表格扫描图中的表格特征信息,实现了对表格特征信息的提取。
在其中一个实施例中,如图3所示,S102包括:
S302:将表格特征信息中各文字块输入已训练的分类模型,得到各文字块归属于各预设的字段类型的置信度;
S304:根据表格特征信息中各文字块的位置信息以及各文字符号的位置信息,确定各文字块与各文字符号之间的坐标距离;
S306:将与各文字块的坐标距离在预设的距离阈值范围内的各文字符号作为与各文字块关联的文字符号;
S308:根据各文字块与各文字符号的关联情况,修正各文字块归属于各预设的字段类型的置信度;
S310:将各文字块归属于各预设的字段类型的置信度进行排序,并将置信度最高的字段类型,作为各文字块的字段类型。
服务器将表格特征信息中各文字块输入已训练的分类模型,可以得到各文字块归属于各预设的字段类型的置信度,各文字块归属于各预设的字段类型的置信度用于表示各文字块归属于各预设的字段类型的概率。在得到各文字块归属于各预设的字段类型的置信度之后,服务器会根据表格特征信息中各文字块的位置信息以及各文字符号的位置信息,确定各文字块与各文字符号之间的坐标距离,将与各文字块的坐标距离在预设的距离阈值范围内的各文字符号作为与各文字块关联的文字符号,根据各文字块与各文字符号的关联情况,修正各文字块归属于各预设的字段类型的置信度,最后将各文字块归属于各预设的字段类型的置信度进行排序,并将置信度最高的字段类型,作为各文字块的字段类型。
其中,根据各文字块与各文字符号的关联情况,修正各文字块归属于各预设的字段类型的置信度指的是当文字块与文字符号关联时,根据已关联的文字符号的类型对文字块的置信度进行调整,例如,若字段前跟着勾选框,则增加该字段为“选项字段”的置信度,如果字段后跟着长下划线,则增加该字段为“需填字段”的置信度。更进一步地,需填字段中包括必填字段和选填字段,可以通过检测文字块前后是否存在必填符号,来对需填字段进行进一步分类。
上述实施例,根据已训练的分类模型得到各文字块归属于各预设的字段类型的置信度,并根据各文字块与各文字符号的关联情况,修正各文字块归属于各预设的字段类型的置信度,将置信度最高的字段类型,作为各文字块的字段类型,实现了对各文字块的字段类型的确定。
在其中一个实施例中,如图4所示,字段类型包括需填字段、选项字段以及注释字段,S102包括:
S402:根据各文字块的字段类型,确定字段类型为需填字段的文字块为需要进行字段填充的目标文字块;
S404:根据表格特征信息中各文字块的位置信息,确定各目标文字块与各选项字段文字块以及各注释字段文字块之间的距离;
S406:根据各目标文字块与各选项字段文字块以及各注释字段文字块之间的距离,确定与各目标文字块对应的选项字段文字块以及注释字段文字块;
S408:建立各目标文字块与对应的选项字段文字块以及注释字段文字块之间的关联关系。
各文字块的字段类型包括需填字段、选项字段以及注释字段,选项字段以及注释字段是与需填字段相对应的。服务器会根据各文字块的字段类型,确定字段类型为需填字段的文字块为需要进行字段填充的目标文字块,字段类型为选项字段的文字块为选项字段文字块,字段类型为注释字段的文字块为注释字段文字块,进而根据表格特征信息中各文字块的位置信息,确定各目标文字块、各选项字段文字块以及各注释字段文字块之间的距离,根据各目标文字块与各选项字段文字块以及各注释字段文字块之间的距离,确定与各目标文字块对应的选项字段文字块以及注释字段文字块,建立各目标文字块与对应的选项字段文字块以及注释字段文字块之间的关联关系。
上述实施例,根据各文字块的字段类型,确定字段类型为需填字段的文字块为目标文字块,根据表格特征信息中各文字块的位置信息,确定与各目标文字块对应的选项字段文字块以及注释字段文字块,从而建立各文字块之间的关联关系,实现了对各文字块之间的关联关系的确定。
在其中一个实施例中,如图5所示,S106包括:
S502:根据表格特征信息中各目标文字块的位置信息,确定与各目标文字块对应的需填充字段的填写顺序;
S504:根据与各目标文字块对应的需填充字段的填写顺序,确定各目标文字块的业务片段语句的业务流程顺序;
S506:根据业务流程顺序,生成业务申请的场景流程信息;
S508:根据场景流程信息以及各目标文字块的业务片段语句进行模型训练,配置聊天机器人。
将各目标文字块的业务片段语句,按照与各目标文字块对应的需填充字段的填写顺序进行整合,即可各目标文字块得到业务流程顺序,根据业务流程顺序以及各目标文字块的业务片段语句,可以生成业务申请的场景流程信息,进而根据场景流程信息以及各目标文字块的业务片段语句进行模型训练,得到自然语言理解模型和对话管理模型,根据自然语言理解模型和对话管理模型,配置聊天机器人。其中,自然语言理解模型用于根据用户语句判断用户意图并抓取实体信息,对话管理模型用于根据用户语句以及用户意图确定回复语句。
上述实施例,根据各目标文字块的位置信息,确定与各目标文字块对应的需填充字段的填写顺序,根据与各目标文字块对应的需填充字段的填写顺序,确定各目标文字块的业务片段语句的业务流程顺序,生成业务申请的场景流程信息,根据场景流程信息以及各目标文字块的业务片段语句进行模型训练,配置聊天机器人,实现了对聊天机器人的配置。
在其中一个实施例中,如图6所示,S508包括:
S602:将各目标文字块的业务片段语句作为第一训练集输入初始自然语言理解模型进行模型训练,得到自然语言理解模型,自然语言理解模型用于根据用户语句判断用户意图并抓取实体信息;
S604:将场景流程信息作为第二训练集输入初始对话管理模型进行模型训练,得到对话管理模型,对话管理模型用于根据用户语句以及用户意图确定回复语句;
S606:根据自然语言理解模型以及对话管理模型,配置聊天机器人。
各目标文字块的业务片段语句中包括了机器回复语句、注释提示语句以及用户意图语句,将各目标文字块的业务片段语句作为第一训练集输入初始自然语言理解模型进行模型训练,能使自然语言理解模型根据用户意图语句判断用户意图并抓取用户意图语句中的需填信息作为实体信息。将场景流程信息作为第二训练集输入初始对话管理模型进行模型训练,能使对话管理模型根据用户语句以及用户意图确定对应的机器回复语句以及注释提示语句。根据自然语言理解模型以及对话管理模型,即可配置聊天机器人。在完成配置之后,在聊天机器人任务中,当客户输入第一用户意图语句后,自然语言理解模型会根据第一用户意图语句确定用户意图,将用户意图输入对话管理模型,对话管理模型会根据用户意图确定对应的机器回复语句以及注释提示语句并推送,客户进而根据推送的机器回复语句以及注释提示语句,回复第二用户意图语句,自然语言理解模型会从第二用户意图语句中抓取需填信息作为实体信息。
上述实施例,根据各目标文字块的业务片段语句得到自然语言理解模型,根据场景流程信息得到对话管理模型,进而根据自然语言理解模型和对话管理模型配置聊天机器人,实现了对聊天机器人的配置。
应该理解的是,虽然图1-6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种配置聊天机器人的装置,包括:获取模块702、第一处理模块704、第二处理模块706和配置模块708,其中:
获取模块702,用于获取业务表格扫描图,提取业务表格扫描图中的表格特征信息,确定表格特征信息中的文字块的字段类型,并根据字段类型识别需要进行字段填充的目标文字块,根据需要进行字段填充的目标文字块,建立各文字块之间的关联关系;
第一处理模块704,用于根据需要进行字段填充的目标文字块查询预设的数据类型配置表,确定与各目标文字块对应的需填充字段的数据类型;
第二处理模块706,用于根据与各目标文字块对应的需填充字段的数据类型、各文字块之间的关联关系以及预设的语句模板,生成各目标文字块的业务片段语句;
配置模块708,用于根据表格特征信息中各目标文字块的位置信息以及各目标文字块的业务片段语句,配置聊天机器人。
上述配置聊天机器人的装置,提取业务表格扫描图中的表格特征信息,确定表格特征信息中各文字块的字段类型,并根据字段类型识别需要进行字段填充的目标文字块,根据需要进行字段填充的目标文字块,建立各文字块之间的关联关系,通过查询预设的数据类型配置表,确定与各目标文字块对应的需填充字段的数据类型,进而根据与各目标文字块对应的需填充字段的数据类型、各文字块之间的关联关系以及预设的语句模板,生成各目标文字块的业务片段语句,根据表格特征信息中各目标文字块的位置信息以及各目标文字块的业务片段语句,配置聊天机器人。从而可以根据配置的聊天机器人,进行业务处理,使用户通过线上聊天的方式提供原纸质表格中的所需信息,完成业务申请,提高了业务处理的效率。
在其中一个实施例中,获取模块还用于获取业务表格扫描图,对业务表格扫描图进行预处理,根据已训练的目标检测模型,得到预处理后的业务表格扫描图中各文字块的位置信息以及各文字符号的位置信息,目标检测模型是以包括文字块和文字符号的样本图片训练得到,根据各文字块的位置信息以及各文字符号的位置信息,分割业务表格扫描图,得到多个文字块图像以及文字符号图像,根据已训练的图片分类模型,提取各文字块图像以及各文字符号图像中的文字块以及文字符号,得到业务表格扫描图中的表格特征信息,图片分类模型是以包括文字块和文字符号的样本图片训练得到。
在其中一个实施例中,获取模块还用于将表格特征信息中各文字块输入已训练的分类模型,得到各文字块归属于各预设的字段类型的置信度,根据表格特征信息中各文字块的位置信息以及各文字符号的位置信息,确定各文字块与各文字符号之间的坐标距离,将与各文字块的坐标距离在预设的距离阈值范围内的各文字符号作为与各文字块关联的文字符号,根据各文字块与各文字符号的关联情况,修正各文字块归属于各预设的字段类型的置信度,将各文字块归属于各预设的字段类型的置信度进行排序,并将置信度最高的字段类型,作为各文字块的字段类型。
在其中一个实施例中,字段类型包括需填字段、选项字段以及注释字段,获取模块还用于根据各文字块的字段类型,确定字段类型为需填字段的文字块为需要进行字段填充的目标文字块,根据表格特征信息中各文字块的位置信息,确定各目标文字块与各选项字段文字块以及各注释字段文字块之间的距离,根据各目标文字块与各选项字段文字块以及各注释字段文字块之间的距离,确定与各目标文字块对应的选项字段文字块以及注释字段文字块,建立各目标文字块与对应的选项字段文字块以及注释字段文字块之间的关联关系。
在其中一个实施例中,配置模块还用于根据表格特征信息中各目标文字块的位置信息,确定与各目标文字块对应的需填充字段的填写顺序,根据与各目标文字块对应的需填充字段的填写顺序,确定各目标文字块的业务片段语句的业务流程顺序,根据业务流程顺序,生成业务申请的场景流程信息,根据场景流程信息以及各目标文字块的业务片段语句进行模型训练,配置聊天机器人。
在其中一个实施例中,配置模块还用于将各目标文字块的业务片段语句作为第一训练集输入初始自然语言理解模型进行模型训练,得到自然语言理解模型,自然语言理解模型用于根据用户语句判断用户意图并抓取实体信息,将场景流程信息作为第二训练集输入初始对话管理模型进行模型训练,得到对话管理模型,对话管理模型用于根据用户语句以及用户意图确定回复语句,根据自然语言理解模型以及对话管理模型,配置聊天机器人。
关于配置聊天机器人的装置的具体限定可以参见上文中对于配置聊天机器人的方法的限定,在此不再赘述。上述配置聊天机器人的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种配置聊天机器人的方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取业务表格扫描图,提取业务表格扫描图中的表格特征信息,确定表格特征信息中的文字块的字段类型,并根据字段类型识别需要进行字段填充的目标文字块,根据需要进行字段填充的目标文字块,建立各文字块之间的关联关系;
根据需要进行字段填充的目标文字块查询预设的数据类型配置表,确定与各目标文字块对应的需填充字段的数据类型;
根据与各目标文字块对应的需填充字段的数据类型、各文字块之间的关联关系以及预设的语句模板,生成各目标文字块的业务片段语句;
根据表格特征信息中各目标文字块的位置信息以及各目标文字块的业务片段语句,配置聊天机器人。
上述配置聊天机器人的计算机设备,提取业务表格扫描图中的表格特征信息,确定表格特征信息中各文字块的字段类型,并根据字段类型识别需要进行字段填充的目标文字块,根据需要进行字段填充的目标文字块,建立各文字块之间的关联关系,通过查询预设的数据类型配置表,确定与各目标文字块对应的需填充字段的数据类型,进而根据与各目标文字块对应的需填充字段的数据类型、各文字块之间的关联关系以及预设的语句模板,生成各目标文字块的业务片段语句,根据表格特征信息中各目标文字块的位置信息以及各目标文字块的业务片段语句,配置聊天机器人。从而可以根据配置的聊天机器人,进行业务处理,使用户通过线上聊天的方式提供原纸质表格中的所需信息,完成业务申请,提高了业务处理的效率。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取业务表格扫描图,对业务表格扫描图进行预处理;
根据已训练的目标检测模型,得到预处理后的业务表格扫描图中各文字块的位置信息以及各文字符号的位置信息,目标检测模型是以包括文字块和文字符号的样本图片训练得到;
根据各文字块的位置信息以及各文字符号的位置信息,分割业务表格扫描图,得到多个文字块图像以及文字符号图像;
根据已训练的图片分类模型,提取各文字块图像以及各文字符号图像中的文字块以及文字符号,得到业务表格扫描图中的表格特征信息,图片分类模型是以包括文字块和文字符号的样本图片训练得到。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将表格特征信息中各文字块输入已训练的分类模型,得到各文字块归属于各预设的字段类型的置信度;
根据表格特征信息中各文字块的位置信息以及各文字符号的位置信息,确定各文字块与各文字符号之间的坐标距离;
将与各文字块的坐标距离在预设的距离阈值范围内的各文字符号作为与各文字块关联的文字符号;
根据各文字块与各文字符号的关联情况,修正各文字块归属于各预设的字段类型的置信度;
将各文字块归属于各预设的字段类型的置信度进行排序,并将置信度最高的字段类型,作为各文字块的字段类型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据各文字块的字段类型,确定字段类型为需填字段的文字块为需要进行字段填充的目标文字块;
根据表格特征信息中各文字块的位置信息,确定各目标文字块与各选项字段文字块以及各注释字段文字块之间的距离;
根据各目标文字块与各选项字段文字块以及各注释字段文字块之间的距离,确定与各目标文字块对应的选项字段文字块以及注释字段文字块;
建立各目标文字块与对应的选项字段文字块以及注释字段文字块之间的关联关系。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据表格特征信息中各目标文字块的位置信息,确定与各目标文字块对应的需填充字段的填写顺序;
根据与各目标文字块对应的需填充字段的填写顺序,确定各目标文字块的业务片段语句的业务流程顺序;
根据业务流程顺序,生成业务申请的场景流程信息;
根据场景流程信息以及各目标文字块的业务片段语句进行模型训练,配置聊天机器人。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将各目标文字块的业务片段语句作为第一训练集输入初始自然语言理解模型进行模型训练,得到自然语言理解模型,自然语言理解模型用于根据用户语句判断用户意图并抓取实体信息;
将场景流程信息作为第二训练集输入初始对话管理模型进行模型训练,得到对话管理模型,对话管理模型用于根据用户语句以及用户意图确定回复语句;
根据自然语言理解模型以及对话管理模型,配置聊天机器人。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取业务表格扫描图,提取业务表格扫描图中的表格特征信息,确定表格特征信息中的文字块的字段类型,并根据字段类型识别需要进行字段填充的目标文字块,根据需要进行字段填充的目标文字块,建立各文字块之间的关联关系;
根据需要进行字段填充的目标文字块查询预设的数据类型配置表,确定与各目标文字块对应的需填充字段的数据类型;
根据与各目标文字块对应的需填充字段的数据类型、各文字块之间的关联关系以及预设的语句模板,生成各目标文字块的业务片段语句;
根据表格特征信息中各目标文字块的位置信息以及各目标文字块的业务片段语句,配置聊天机器人。
上述配置聊天机器人的存储介质,提取业务表格扫描图中的表格特征信息,确定表格特征信息中各文字块的字段类型,并根据字段类型识别需要进行字段填充的目标文字块,根据需要进行字段填充的目标文字块,建立各文字块之间的关联关系,通过查询预设的数据类型配置表,确定与各目标文字块对应的需填充字段的数据类型,进而根据与各目标文字块对应的需填充字段的数据类型、各文字块之间的关联关系以及预设的语句模板,生成各目标文字块的业务片段语句,根据表格特征信息中各目标文字块的位置信息以及各目标文字块的业务片段语句,配置聊天机器人。从而可以根据配置的聊天机器人,进行业务处理,使用户通过线上聊天的方式提供原纸质表格中的所需信息,完成业务申请,提高了业务处理的效率。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取业务表格扫描图,对业务表格扫描图进行预处理;
根据已训练的目标检测模型,得到预处理后的业务表格扫描图中各文字块的位置信息以及各文字符号的位置信息,目标检测模型是以包括文字块和文字符号的样本图片训练得到;
根据各文字块的位置信息以及各文字符号的位置信息,分割业务表格扫描图,得到多个文字块图像以及文字符号图像;
根据已训练的图片分类模型,提取各文字块图像以及各文字符号图像中的文字块以及文字符号,得到业务表格扫描图中的表格特征信息,图片分类模型是以包括文字块和文字符号的样本图片训练得到。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将表格特征信息中各文字块输入已训练的分类模型,得到各文字块归属于各预设的字段类型的置信度;
根据表格特征信息中各文字块的位置信息以及各文字符号的位置信息,确定各文字块与各文字符号之间的坐标距离;
将与各文字块的坐标距离在预设的距离阈值范围内的各文字符号作为与各文字块关联的文字符号;
根据各文字块与各文字符号的关联情况,修正各文字块归属于各预设的字段类型的置信度;
将各文字块归属于各预设的字段类型的置信度进行排序,并将置信度最高的字段类型,作为各文字块的字段类型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据各文字块的字段类型,确定字段类型为需填字段的文字块为需要进行字段填充的目标文字块;
根据表格特征信息中各文字块的位置信息,确定各目标文字块与各选项字段文字块以及各注释字段文字块之间的距离;
根据各目标文字块与各选项字段文字块以及各注释字段文字块之间的距离,确定与各目标文字块对应的选项字段文字块以及注释字段文字块;
建立各目标文字块与对应的选项字段文字块以及注释字段文字块之间的关联关系。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据表格特征信息中各目标文字块的位置信息,确定与各目标文字块对应的需填充字段的填写顺序;
根据与各目标文字块对应的需填充字段的填写顺序,确定各目标文字块的业务片段语句的业务流程顺序;
根据业务流程顺序,生成业务申请的场景流程信息;
根据场景流程信息以及各目标文字块的业务片段语句进行模型训练,配置聊天机器人。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将各目标文字块的业务片段语句作为第一训练集输入初始自然语言理解模型进行模型训练,得到自然语言理解模型,自然语言理解模型用于根据用户语句判断用户意图并抓取实体信息;
将场景流程信息作为第二训练集输入初始对话管理模型进行模型训练,得到对话管理模型,对话管理模型用于根据用户语句以及用户意图确定回复语句;
根据自然语言理解模型以及对话管理模型,配置聊天机器人。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种配置聊天机器人的方法,所述方法包括:
获取业务表格扫描图,提取所述业务表格扫描图中的表格特征信息,确定所述表格特征信息中的文字块的字段类型,并根据所述字段类型识别需要进行字段填充的目标文字块,根据所述需要进行字段填充的目标文字块,建立各文字块之间的关联关系;
根据所述需要进行字段填充的目标文字块查询预设的数据类型配置表,确定与各目标文字块对应的需填充字段的数据类型;
根据与各所述目标文字块对应的需填充字段的数据类型、各文字块之间的关联关系以及预设的语句模板,生成各目标文字块的业务片段语句;
根据所述表格特征信息中各目标文字块的位置信息以及各所述目标文字块的业务片段语句,配置聊天机器人。
2.根据权利要求1所述的方法,其特征在于,所述获取业务表格扫描图,提取所述业务表格扫描图中的表格特征信息包括:
获取业务表格扫描图,对所述业务表格扫描图进行预处理;
根据已训练的目标检测模型,得到预处理后的业务表格扫描图中各文字块的位置信息以及各文字符号的位置信息,所述目标检测模型是以包括文字块和文字符号的样本图片训练得到;
根据各所述文字块的位置信息以及各所述文字符号的位置信息,分割所述业务表格扫描图,得到多个文字块图像以及文字符号图像;
根据已训练的图片分类模型,提取各文字块图像以及各文字符号图像中的文字块以及文字符号,得到所述业务表格扫描图中的表格特征信息,所述图片分类模型是以包括文字块和文字符号的样本图片训练得到。
3.根据权利要求1所述的方法,其特征在于,所述确定所述表格特征信息中的文字块的字段类型包括:
将所述表格特征信息中各文字块输入已训练的分类模型,得到各文字块归属于各预设的字段类型的置信度;
根据所述表格特征信息中各文字块的位置信息以及各文字符号的位置信息,确定各文字块与各文字符号之间的坐标距离;
将与各文字块的坐标距离在预设的距离阈值范围内的各文字符号作为与各文字块关联的文字符号;
根据各文字块与各文字符号的关联情况,修正各文字块归属于各预设的字段类型的置信度;
将各文字块归属于各预设的字段类型的置信度进行排序,并将置信度最高的字段类型,作为各文字块的字段类型。
4.根据权利要求1所述的方法,其特征在于,所述字段类型包括需填字段、选项字段以及注释字段,所述根据所述字段类型识别需要进行字段填充的目标文字块,根据所述需要进行字段填充的目标文字块,建立各文字块之间的关联关系包括:
根据各所述文字块的字段类型,确定字段类型为需填字段的文字块为需要进行字段填充的目标文字块;
根据所述表格特征信息中各文字块的位置信息,确定各目标文字块与各选项字段文字块以及各注释字段文字块之间的距离;
根据各目标文字块与各选项字段文字块以及各注释字段文字块之间的距离,确定与各目标文字块对应的选项字段文字块以及注释字段文字块;
建立各目标文字块与对应的选项字段文字块以及注释字段文字块之间的关联关系。
5.根据权利要求1所述的方法,其特征在于,所述根据所述表格特征信息中各目标文字块的位置信息以及各所述目标文字块的业务片段语句,配置聊天机器人包括:
根据所述表格特征信息中各目标文字块的位置信息,确定与各目标文字块对应的需填充字段的填写顺序;
根据与各目标文字块对应的需填充字段的填写顺序,确定各目标文字块的业务片段语句的业务流程顺序;
根据所述业务流程顺序,生成业务申请的场景流程信息;
根据所述场景流程信息以及各目标文字块的业务片段语句进行模型训练,配置聊天机器人。
6.根据权利要求5所述的方法,其特征在于,所述根据所述场景流程信息以及各目标文字块的业务片段语句进行模型训练,配置聊天机器人包括:
将各目标文字块的业务片段语句作为第一训练集输入初始自然语言理解模型进行模型训练,得到自然语言理解模型,所述自然语言理解模型用于根据用户语句判断用户意图并抓取实体信息;
将所述场景流程信息作为第二训练集输入初始对话管理模型进行模型训练,得到对话管理模型,所述对话管理模型用于根据所述用户语句以及所述用户意图确定回复语句;
根据所述自然语言理解模型以及所述对话管理模型,配置聊天机器人。
7.一种配置聊天机器人的装置,其特征在于,所述装置包括:
获取模块,用于获取业务表格扫描图,提取所述业务表格扫描图中的表格特征信息,确定所述表格特征信息中的文字块的字段类型,并根据所述字段类型识别需要进行字段填充的目标文字块,根据所述需要进行字段填充的目标文字块,建立各文字块之间的关联关系;
第一处理模块,用于根据所述需要进行字段填充的目标文字块查询预设的数据类型配置表,确定与各目标文字块对应的需填充字段的数据类型;
第二处理模块,用于根据与各所述目标文字块对应的需填充字段的数据类型、各文字块之间的关联关系以及预设的语句模板,生成各目标文字块的业务片段语句;
配置模块,用于根据所述表格特征信息中各目标文字块的位置信息以及各所述目标文字块的业务片段语句,配置聊天机器人。
8.根据权利要求7所述的装置,其特征在于,所述获取模块还用于获取业务表格扫描图,对所述业务表格扫描图进行预处理,根据已训练的目标检测模型,得到预处理后的业务表格扫描图中各文字块的位置信息以及各文字符号的位置信息,所述目标检测模型是以包括文字块和文字符号的样本图片训练得到,根据各所述文字块的位置信息以及各所述文字符号的位置信息,分割所述业务表格扫描图,得到多个文字块图像以及文字符号图像,根据已训练的图片分类模型,提取各文字块图像以及各文字符号图像中的文字块以及文字符号,得到所述业务表格扫描图中的表格特征信息,所述图片分类模型是以包括文字块和文字符号的样本图片训练得到。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN201910676824.3A 2019-07-25 2019-07-25 配置聊天机器人的方法、装置、计算机设备和存储介质 Active CN110569341B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910676824.3A CN110569341B (zh) 2019-07-25 2019-07-25 配置聊天机器人的方法、装置、计算机设备和存储介质
SG11202004541WA SG11202004541WA (en) 2019-07-25 2019-09-25 Chatbot configuration method and apparatus, computer device, and storage medium
PCT/CN2019/107693 WO2021012382A1 (zh) 2019-07-25 2019-09-25 配置聊天机器人的方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910676824.3A CN110569341B (zh) 2019-07-25 2019-07-25 配置聊天机器人的方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN110569341A true CN110569341A (zh) 2019-12-13
CN110569341B CN110569341B (zh) 2023-04-07

Family

ID=68773221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910676824.3A Active CN110569341B (zh) 2019-07-25 2019-07-25 配置聊天机器人的方法、装置、计算机设备和存储介质

Country Status (3)

Country Link
CN (1) CN110569341B (zh)
SG (1) SG11202004541WA (zh)
WO (1) WO2021012382A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400465A (zh) * 2020-02-25 2020-07-10 支付宝(杭州)信息技术有限公司 客服机器人的生成方法、装置、电子设备及介质
CN112685441A (zh) * 2021-01-06 2021-04-20 特赞(上海)信息科技有限公司 基于Metadata的内容资产管理方法和系统
CN113392848A (zh) * 2021-08-18 2021-09-14 海特锐(天津)科技有限公司 一种基于深度学习的圆柱体上ocr的读取方法及其设备
CN114979120A (zh) * 2022-05-24 2022-08-30 中国平安财产保险股份有限公司 数据上传方法、装置、设备及存储介质
US12125054B2 (en) 2019-09-25 2024-10-22 Valideck International Corporation System, devices, and methods for acquiring and verifying online information

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905623A (zh) * 2021-02-09 2021-06-04 中国工商银行股份有限公司 一种业务数据组合展示方法及装置
CN113051291A (zh) * 2021-04-16 2021-06-29 平安国际智慧城市科技股份有限公司 工单信息的处理方法、装置、设备及存储介质
CN113159737B (zh) * 2021-05-27 2022-11-01 中国平安人寿保险股份有限公司 Rpa业务处理方法、rpa管理平台、设备及介质
CN113569005B (zh) * 2021-06-17 2024-02-20 国家电网有限公司 一种基于数据内容的大规模数据特征智能化提取方法
CN114385779B (zh) * 2021-08-06 2023-01-03 应急管理部大数据中心 一种应急调度指令执行方法、装置及电子设备
CN114531477B (zh) * 2022-04-22 2022-08-30 深圳丰尚智慧农牧科技有限公司 功能组件的配置方法、装置、计算机设备和存储介质
CN116663509B (zh) * 2023-08-02 2023-09-29 四川享宇科技有限公司 一种银行业复杂系统的信息自动获取填入机器人

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106940692A (zh) * 2016-01-05 2017-07-11 奥多比公司 以对话方式引导与电子表单的交互的交互式电子表单工作流助手
CN107127766A (zh) * 2017-05-24 2017-09-05 南京华设科技股份有限公司 智能电网业务受理机器人
CN108416279A (zh) * 2018-02-26 2018-08-17 阿博茨德(北京)科技有限公司 文档图像中的表格解析方法及装置
CN108829757A (zh) * 2018-05-28 2018-11-16 广州麦优网络科技有限公司 一种聊天机器人的智能服务方法、服务器及存储介质
US20190132264A1 (en) * 2017-10-30 2019-05-02 International Business Machines Corporation Generation of a chatbot interface for an application programming interface
CN109727091A (zh) * 2018-12-14 2019-05-07 平安科技(深圳)有限公司 基于对话机器人的产品推荐方法、装置、介质及服务器
CN109783065A (zh) * 2017-11-15 2019-05-21 财团法人资讯工业策进会 产生对话式用户接口的方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503101A (zh) * 2016-10-14 2017-03-15 五邑大学 电商客服自动问答系统语句关键词提取方法
CN106777018B (zh) * 2016-12-08 2020-05-22 竹间智能科技(上海)有限公司 一种智能聊天机器人中对输入语句的优化方法及装置
US10936663B2 (en) * 2017-12-21 2021-03-02 Robert Bosch Gmbh Generating sensitive dialogue through lightweight simulation
CN110008322B (zh) * 2019-03-25 2023-04-07 创新先进技术有限公司 多轮对话场景下的话术推荐方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106940692A (zh) * 2016-01-05 2017-07-11 奥多比公司 以对话方式引导与电子表单的交互的交互式电子表单工作流助手
CN107127766A (zh) * 2017-05-24 2017-09-05 南京华设科技股份有限公司 智能电网业务受理机器人
US20190132264A1 (en) * 2017-10-30 2019-05-02 International Business Machines Corporation Generation of a chatbot interface for an application programming interface
CN109783065A (zh) * 2017-11-15 2019-05-21 财团法人资讯工业策进会 产生对话式用户接口的方法及系统
CN108416279A (zh) * 2018-02-26 2018-08-17 阿博茨德(北京)科技有限公司 文档图像中的表格解析方法及装置
CN108829757A (zh) * 2018-05-28 2018-11-16 广州麦优网络科技有限公司 一种聊天机器人的智能服务方法、服务器及存储介质
CN109727091A (zh) * 2018-12-14 2019-05-07 平安科技(深圳)有限公司 基于对话机器人的产品推荐方法、装置、介质及服务器

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12125054B2 (en) 2019-09-25 2024-10-22 Valideck International Corporation System, devices, and methods for acquiring and verifying online information
CN111400465A (zh) * 2020-02-25 2020-07-10 支付宝(杭州)信息技术有限公司 客服机器人的生成方法、装置、电子设备及介质
CN111400465B (zh) * 2020-02-25 2023-04-18 支付宝(杭州)信息技术有限公司 客服机器人的生成方法、装置、电子设备及介质
CN112685441A (zh) * 2021-01-06 2021-04-20 特赞(上海)信息科技有限公司 基于Metadata的内容资产管理方法和系统
CN113392848A (zh) * 2021-08-18 2021-09-14 海特锐(天津)科技有限公司 一种基于深度学习的圆柱体上ocr的读取方法及其设备
CN114979120A (zh) * 2022-05-24 2022-08-30 中国平安财产保险股份有限公司 数据上传方法、装置、设备及存储介质
CN114979120B (zh) * 2022-05-24 2023-10-13 中国平安财产保险股份有限公司 数据上传方法、装置、设备及存储介质

Also Published As

Publication number Publication date
SG11202004541WA (en) 2021-02-25
WO2021012382A1 (zh) 2021-01-28
CN110569341B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110569341B (zh) 配置聊天机器人的方法、装置、计算机设备和存储介质
CN108256591B (zh) 用于输出信息的方法和装置
CN111325104B (zh) 文本识别方法、装置及存储介质
CN110569769A (zh) 图像识别方法、装置、计算机设备和存储介质
CN110516541B (zh) 文本定位方法、装置、计算机可读存储介质和计算机设备
CN111191532A (zh) 基于施工区域的人脸识别方法、装置、计算机设备
CN112669515B (zh) 票据图像识别方法、装置、电子设备和存储介质
WO2021143088A1 (zh) 多证件类型同步检测方法、装置、计算机设备及存储介质
CN110866457A (zh) 一种电子保单的获得方法、装置、计算机设备和存储介质
KR102436814B1 (ko) 광학 문자 인식 장치 및 그 제어방법
CN112580499A (zh) 文本识别方法、装置、设备及存储介质
CN110889341A (zh) 基于ai的表单图像识别方法、装置、计算机设备和存储介质
CN110969154A (zh) 文本识别方法、装置、计算机设备和存储介质
CN113537184A (zh) Ocr模型训练方法、装置、计算机设备、存储介质
CN112052702A (zh) 一种识别二维码的方法和装置
CN111858977A (zh) 票据信息采集方法、装置、计算机设备和存储介质
CN110956133A (zh) 单字符文本归一化模型训练方法、文本识别方法及装置
CN114694161A (zh) 一种特定版式证件的文本识别方法、设备及存储介质
CN112163110B (zh) 图像分类方法、装置、电子设备和计算机可读存储介质
CN115759758A (zh) 风险评估方法、装置、设备及存储介质
CN113901950A (zh) 一种高准确率的表格ocr识别方法及系统
CN114724162A (zh) 文本识别模型的训练方法、装置、计算机设备及存储介质
CN113705560A (zh) 基于图像识别的数据提取方法、装置、设备及存储介质
CN112380957A (zh) 他项权证信息识别方法、装置、计算机设备和存储介质
CN114998906B (zh) 文本检测方法、模型的训练方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant