CN113342954A - 一种应用于问答系统的图像信息处理方法、装置及电子设备 - Google Patents

一种应用于问答系统的图像信息处理方法、装置及电子设备 Download PDF

Info

Publication number
CN113342954A
CN113342954A CN202110687218.9A CN202110687218A CN113342954A CN 113342954 A CN113342954 A CN 113342954A CN 202110687218 A CN202110687218 A CN 202110687218A CN 113342954 A CN113342954 A CN 113342954A
Authority
CN
China
Prior art keywords
preset
text data
classification
target
target text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110687218.9A
Other languages
English (en)
Inventor
褚哲
陈超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Xingyun Digital Technology Co Ltd
Original Assignee
Nanjing Xingyun Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Xingyun Digital Technology Co Ltd filed Critical Nanjing Xingyun Digital Technology Co Ltd
Priority to CN202110687218.9A priority Critical patent/CN113342954A/zh
Publication of CN113342954A publication Critical patent/CN113342954A/zh
Priority to CA3164550A priority patent/CA3164550A1/en
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种应用于问答系统的图像信息处理方法、装置及电子设备,所述方法包括:接收用户发出的咨询请求,所述咨询请求包括待处理图像;根据预设的识别规则,识别所述待处理图像包含的目标文本数据;根据预处理后的所述目标文本数据与每一预设分类对应的预设关键词的编辑距离,确定所述目标文本数据对应的预设分类为目标分类;从答复语句库中获取所述目标分类对应的答复语句返回给所述用户,通过识别图像包含的文本信息,并根据文本信息与关键词的编辑距离确定了图像对应的预设分类,可将对应的预设分类的答复语句返回给用户,实现了对用户输入的图像信息的自动化应答,提升了用户使用的便捷性与效率,且提升了对用户的答复的准确性。

Description

一种应用于问答系统的图像信息处理方法、装置及电子设备
技术领域
本发明涉及信息处理领域,尤其涉及一种应用于问答系统的图像信息处理方法、装置及电子设备。
背景技术
在传统服务行业中,人工客服作为劳动密集型岗位,是一种全时段高强度且高重复性的工作。因此,为了降低人工成本、提高效率,越来越多的企业引入了自动问答系统,可以根据用户的问题自动回复相应的答复语句,一定程度上缓解人工客服的工作压力,且提升了企业服务的准确性、规范性和稳定性。
然而,对于自动问答系统,常常会有用户输入如图片等非文本信息,如果不能对这些常见的信息载体进行识别,将会对用户使用造成很多不便。因此,亟需一种可实现对用户输入的图像信息进行答复的信息处理方法,以解决现有技术的上述技术问题。
发明内容
为了解决现有技术的不足,本发明的主要目的在于提供一种应用于问答系统的图像信息处理方法、装置及电子设备,以解决现有技术的上述技术问题。
为了达到上述目的,第一方面本发明提供了一种应用于问答系统的图像信息处理方法,所述方法包括:
接收用户发出的咨询请求,所述咨询请求包括待处理图像;
根据预设的识别规则,识别所述待处理图像包含的目标文本数据;
根据预处理后的所述目标文本数据与每一预设分类对应的预设关键词的编辑距离,确定所述目标文本数据对应的预设分类为目标分类;
从答复语句库中获取所述目标分类对应的答复语句返回给所述用户。
在一些实施例中,所述根据预处理后的所述目标文本数据与每一预设分类对应的预设关键词的编辑距离,确定所述目标文本数据对应的预设分类为目标分类包括:
根据预处理后的所述目标文本数据及每一预设分类对应的预设关键词,生成所述目标文本数据对应所述预设关键词的编辑距离;
根据所述目标文本数据对应所述预设关键词的编辑距离及所述预设关键词对应的预设权重,生成所述目标文本数据对应每一所述预设关键词的加权编辑距离;
根据所述目标文本数据对应每一所述预设关键词的加权编辑距离及每一所述预设分类对应的所述预设关键词,确定所述目标文本数据对应每一所述预设分类的权重距离;
确定对应所述目标文本数据的权重距离最小的所述预设分类为目标分类。
在一些实施例中,所述预设分类包括其他类,所述方法包括:
在所述目标文本数据对应每一所述预设分类的权重距离均大于预设阈值时,确定所述目标文本数据对应的所述预设分类为所述其他类。
在一些实施例中,所述目标文本数据包括至少两个文本信息样本,所述根据预处理后的所述目标文本数据与每一预设分类对应的预设关键词的编辑距离,确定所述目标文本数据对应的预设分类为目标分类前,所述方法还包括:
剔除所述目标文本数据包括的所述文本信息样本中文本长度小于预设长度阈值的所述文本信息样本,生成预处理后的所述目标文本数据。
在一些实施例中,所述根据预处理后的所述目标文本数据及每一预设分类对应的预设关键词,生成所述目标文本数据对应所述预设关键词的编辑距离包括:
根据预设的编辑距离算法,生成每一所述文本信息样本对应所述预设关键词的编辑距离;
剔除所有所述编辑距离中超过预设距离阈值的所述编辑距离;
根据剔除后的所述编辑距离,生成所述目标文本数据对应所述预设关键词的编辑距离。
在一些实施例中,所述预设的识别规则包括预设文本检测算法及预设文本识别算法,所述根据预设的识别规则,识别所述待处理图像包含的目标文本数据包括:
利用预设文本检测算法,识别所述待处理图像中包含的文本区域;
利用预设文本识别算法,识别所述文本区域中包含的所述文本信息样本;
根据所述文本区域包含的所述文本信息样本,确定所述待识别图像包含的所述目标文本数据。
在一些实施例中,所述利用预设文本检测算法,识别所述待处理图像中包含的文本区域包括:
利用CTPN文本检测算法,识别所述待处理图像中包含的文本区域;
所述利用预设文本识别算法,识别所述文本区域中包含的所述文本信息样本包括:
利用CRNN+CTC神经网络模型,识别所述文本区域中包含的所述文本信息样本。
在一些实施例中,所述每一预设分类对应的预设关键词预先保存在预设文档中存储的关键词库中且所述答复语句库预先存储于所述预设文档中,所述方法包括:
接收规则更新请求;
根据所述规则更新请求包括的待更新类别和/或待更新答复语句,更新所述预设文档。
第二方面,本申请提供了一种应用于问答系统的图像信息处理装置,所述装置包括:
接收模块,用于接收用户发出的咨询请求,所述咨询请求包括待处理图像;
识别模块,用于根据预设的识别规则,识别所述待处理图像包含的目标文本数据;
判断模块,用于根据预处理后的所述目标文本数据与每一预设分类对应的预设关键词的编辑距离,确定所述目标文本数据对应的预设分类为目标分类;
答复模块,用于从答复语句库中获取所述目标分类对应的答复语句返回给所述用户。
第三方面,本申请提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
以及与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
接收用户发出的咨询请求,所述咨询请求包括待处理图像;
根据预设的识别规则,识别所述待处理图像包含的目标文本数据;
根据预处理后的所述目标文本数据与每一预设分类对应的预设关键词的编辑距离,确定所述目标文本数据对应的预设分类为目标分类;
从答复语句库中获取所述目标分类对应的答复语句返回给所述用户
本发明实现的有益效果为:
本申请提供了一种应用于问答系统的图像信息处理方法,包括接收用户发出的咨询请求,所述咨询请求包括待处理图像;根据预设的识别规则,识别所述待处理图像包含的目标文本数据;根据预处理后的所述目标文本数据与每一预设分类对应的预设关键词的编辑距离,确定所述目标文本数据对应的预设分类为目标分类;从答复语句库中获取所述目标分类对应的答复语句返回给所述用户,通过识别图像包含的文本信息,并根据文本信息与关键词的编辑距离确定了图像对应的预设分类,可将对应的预设分类的答复语句返回给用户,实现了对用户输入的图像信息的自动化应答,提升了用户使用的便捷性与效率,且提升了对用户的答复的准确性;
本申请还公开了每一预设分类对应的预设关键词预先保存在预设文档中存储的关键词库中且所述答复语句库预先存储于所述预设文档中,所述方法包括:接收规则更新请求;根据所述规则更新请求包括的待更新关键词和/或答复语句,更新所述预设文档,在企业由于活动变更或促销需要变更答复或关键词时可直接对预设文档内的答复语句库和关键词库进行更新,问答系统可以在热启动下重新加载相应的预设文档,提升了答复语句库和关键词库等规则更改的便捷性和时效性。
本发明所有产品并不需要具备上述所有效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的答复流程图;
图2是本申请实施例提供的文本区域示意图;
图3是本申请实施例提供的方法流程图;
图4是本申请实施例提供的装置结构图;
图5是本申请实施例提供的电子设备结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如背景技术所述,现有技术中自动问答系统无法对用户录入的图片进行识别,导致难以对其进行相应的答复。为解决上述技术问题,本申请提供了一种应用于问答系统的图像信息处理方法,可对图片中包含的文本信息进行提取,并根据文本信息对图片进行分类,将对应分类的答复语句返回给用户,实现了对图片信息的自动化答复。
实施例一
具体的,如图1所示,应用本申请实施例公开的应用于问答系统的图像信息处理方法对用户发出的图像进行答复的过程包括:
S10、接收用户发出的咨询请求,该咨询请求包括待处理图像;
具体的,咨询请求中除图片外,还可包括文本信息、语音数据等信息。该待处理图像可以是移动终端的屏幕截图或其他图像。
S20、利用CTPN文本检测算法,识别待处理图像包含的文本区域;
CTPN文本检测算法可识别待处理图像中包括的文本区域。如图2所示,其中文本区域是指图片中包含文字的文本框形的区域。
CTPN是一种文字识别网络模型。为了提升识别速率,本申请采用了ShuffleNet_v2作为提取特征的CTPN包含的卷积神经网络模型(CNN)的网络结构。ShuffleNet可在保持精度的同时大大降低模型的计算量,其基本单元则是在一个残差单元的基础上改进而成。
S30、利用CRNN+CTC文本识别算法,识别每一文本区域包含的文本信息样本;
CRNN+CTC文本识别算法包括CRNN网络模型和CTC算法。CRNN网络模型包括卷积神经网络模型(CNN)及双向长短期记忆网络模型(LSTM),在此处长短期记忆网络模型(LSTM)是RNN模型的一种变体。优选的,可以采用密集卷积网络模型(DenseNet)作为卷积神经网络模型(CNN)。
应用该文本识别算法进行识别的过程包括:通过卷积神经网络CNN模型提取待处理图像的图像卷积特征;通过双向长短期记忆网络LSTM模型提取图像卷积特征的序列特征;利用CTC算法,根据提取的序列特征通过去重整合等操作转换成最终的识别结果。CTC算法是一种损失函数,可解决字符无法对齐的问题。
基于上述算法,本申请实施例提供了一种不需单字符切割的端到端文本识别算法。基于CRNN+CTC算法,本申请实施例可对每一文本区域分别进行识别,得到一个包含多个文本信息样本的文本列表即目标文本数据。
S40、对目标文本数据进行预处理,剔除其中文本长度小于预设阈值的文本信息样本;
通过剔除文本长度小于预设阈值的文本信息样本,可以提升后续编辑距离的计算效率,并降低了目标文本数据中的噪声数据对后续分类的准确性的影响。
S50、生成预处理后保留的文本信息样本与每一预设分类的权重距离;
具体的,上述权重距离的生成过程包括:
S51、根据预设的编辑距离算法,生成文本信息样本与每一预设分类的每一预设关键词的编辑距离;
可根据预设文档中存储的关键词库,确定每一预设分类对应的预设关键词。
其中,预设分类可以预先根据业务需求等划分规则进行划分。业务人员可预先收集问答系统等收到的屏幕截图,并确定这些屏幕截图分别对应的预设分类,然后筛选同一预设分类下的屏幕截图中出现次数多且具有代表性的文本作为该预设分类对应的预设关键词,并根据预设分类和预设关键词整理得到相应的关键词库以存储在预设文档中。
基于上述划分规则,自动问答系统可实现针对用户截取的屏幕截图的自动答复。在判断自动问答系统的目标用户发出的图片在大多数场景下不是屏幕截图时,业务人员也可手机相应类别的图片并根据图片划分相应的预设分类及关键词。
S52、根据文本信息样本与每一预设分类的每一预设关键词的编辑距离及每一预设关键词在相应的预设分类下对应的预设权重,生成文本信息样本对应每一预设分类的每一预设关键词的加权编辑距离;
在生成加权编辑距离前,可以根据文本信息样本对应预设分类的每一预设关键词的编辑距离,剔除该预设分类下所有预设关键词对应的所有编辑距离中超过预设距离阈值的编辑距离。
具体的,在剔除了超过预设距离阈值的编辑距离后,文本信息样本对应预设关键词的加权编辑距离可以表示为:
加权编辑距离=预设权重*编辑距离;
S53;根据文本信息样本对应每一预设分类的每一预设关键词的加权编辑距离,确定文本信息样本对应每一预设分类的权重距离;
具体的,以某一预设分类包括三个预设关键词即关键词1、关键词2及关键词3为例,文本信息样本对应该预设分类的权重距离可以表示为:
权重距离=文本信息样本对应关键词1的加权编辑距离+文本信息样本对应关键词2的加权编辑距离+文本信息样本对应关键词3的加权编辑距离;
S54、确定对应所述目标文本数据的权重距离最小的所述预设分类为目标分类;
具体的,在目标文本数据对应所有预设分类的权重距离都大于对应的预设阈值时,可以确定该目标文本数据属于预设分类中的其他类,即无法确定对应的待处理图像所对应的业务需求。在预设分类和预设关键词是根据屏幕截图所制定的时,被归于其他类里的图像可能是非屏幕截图的图片。
可以将被确定为其他类的图像存储至预设数据库中,以便业务人员定期查询并设置相应的预设类别及预设关键词,以提升对用户问题的答复效果。
S55、从答复语句库获取目标类别对应的答复语句并返回给用户;
具体的,答复语句库可预先存储在预设文档中,其中存储了每一预设类别对应的答复语句。
由于业务调整,业务人员可能常常需要对答复语句库和关键词库进行更新,上述更新过程包括:
S60、接收业务人员发出的更新请求;
更新请求中可以包括待更新类别和/或待更新答复语句。其中,待更新类别可以包括对某一预设类别的关键词进行新增、删除、修改或对新增、删除某一预设类别等。待更新答复语句可以包括新增某一预设类别对应的答复语句、删除某一预设类别对应的答复语句和修改某一预设类别对应的答复语句。
S61、根据规则更新请求包括的待更新类别和/或待更新答复语句,更新预设文档;
自动回答系统可以热启动下重新加载相应的预设文档,提升了答复语句库和关键词库等规则更改的便捷性和时效性。
实施例二
对应上述实施例,本申请提供了一种应用于问答系统的图像信息处理方法,如图3所示,所述方法包括:
3100、接收用户发出的咨询请求,所述咨询请求包括待处理图像;
3200、根据预设的识别规则,识别所述待处理图像包含的目标文本数据;
优选的,所述预设的识别规则包括预设文本检测算法及预设文本识别算法,所述根据预设的识别规则,识别所述待处理图像包含的目标文本数据包括:
3211、利用预设文本检测算法,识别所述待处理图像中包含的文本区域;
3212、利用预设文本识别算法,识别所述文本区域中包含的所述文本信息样本;
3213、根据所述文本区域包含的所述文本信息样本,确定所述待识别图像包含的所述目标文本数据。
优选的,所述利用预设文本检测算法,识别所述待处理图像中包含的文本区域包括:
3214、利用CTPN文本检测算法,识别所述待处理图像中包含的文本区域;
所述利用预设文本识别算法,识别所述文本区域中包含的所述文本信息样本包括:
3215、利用CRNN+CTC神经网络模型,识别所述文本区域中包含的所述文本信息样本。
3300、根据预处理后的所述目标文本数据与每一预设分类对应的预设关键词的编辑距离,确定所述目标文本数据对应的预设分类为目标分类;
优选的,所述根据预处理后的所述目标文本数据与每一预设分类对应的预设关键词的编辑距离,确定所述目标文本数据对应的预设分类为目标分类包括:
3311、根据预处理后的所述目标文本数据及每一预设分类对应的预设关键词,生成所述目标文本数据对应所述预设关键词的编辑距离;
3312、根据所述目标文本数据对应所述预设关键词的编辑距离及所述预设关键词对应的预设权重,生成所述目标文本数据对应每一所述预设关键词的加权编辑距离;
3313、根据所述目标文本数据对应每一所述预设关键词的加权编辑距离及每一所述预设分类对应的所述预设关键词,确定所述目标文本数据对应每一所述预设分类的权重距离;
3314、确定对应所述目标文本数据的权重距离最小的所述预设分类为目标分类。
优选的,所述预设分类包括其他类,所述方法包括:
3315、在所述目标文本数据对应每一所述预设分类的权重距离均大于预设阈值时,确定所述目标文本数据对应的所述预设分类为所述其他类。
优选的,所述目标文本数据包括至少两个文本信息样本,所述根据预处理后的所述目标文本数据与每一预设分类对应的预设关键词的编辑距离,确定所述目标文本数据对应的预设分类为目标分类前,所述方法还包括:
3316、剔除所述目标文本数据包括的所述文本信息样本中文本长度小于预设长度阈值的所述文本信息样本,生成预处理后的所述目标文本数据。
优选的,所述根据预处理后的所述目标文本数据及每一预设分类对应的预设关键词,生成所述目标文本数据对应所述预设关键词的编辑距离包括:
3318、根据预设的编辑距离算法,生成每一所述文本信息样本对应所述预设关键词的编辑距离;
3319、剔除所有所述编辑距离中超过预设距离阈值的所述编辑距离;
3320、根据剔除后的所述编辑距离,生成所述目标文本数据对应所述预设关键词的编辑距离。
3400、从答复语句库中获取所述目标分类对应的答复语句返回给所述用户。
优选的,所述每一预设分类对应的预设关键词预先保存在预设文档中存储的关键词库中且所述答复语句库预先存储于所述预设文档中,所述方法包括:
3500、接收规则更新请求;
3510、根据所述规则更新请求包括的待更新类别和/或待更新答复语句,更新所述预设文档。
实施例三
对应实施例一及实施例二,如图4所示,本申请提供了一种应用于问答系统的图像信息处理装置,所述装置包括:
接收模块410,用于接收用户发出的咨询请求,所述咨询请求包括待处理图像;
识别模块420,用于根据预设的识别规则,识别所述待处理图像包含的目标文本数据;
判断模块430,用于根据预处理后的所述目标文本数据与每一预设分类对应的预设关键词的编辑距离,确定所述目标文本数据对应的预设分类为目标分类;
答复模块440,用于从答复语句库中获取所述目标分类对应的答复语句返回给所述用户。
优选的,所述判断模块430还可用于根据预处理后的所述目标文本数据及每一预设分类对应的预设关键词,生成所述目标文本数据对应所述预设关键词的编辑距离;根据所述目标文本数据对应所述预设关键词的编辑距离及所述预设关键词对应的预设权重,生成所述目标文本数据对应每一所述预设关键词的加权编辑距离;根据所述目标文本数据对应每一所述预设关键词的加权编辑距离及每一所述预设分类对应的所述预设关键词,确定所述目标文本数据对应每一所述预设分类的权重距离;确定对应所述目标文本数据的权重距离最小的所述预设分类为目标分类。
优选的,所述预设分类包括其他类,所述判断模块430还可用于在所述目标文本数据对应每一所述预设分类的权重距离均大于预设阈值时,确定所述目标文本数据对应的所述预设分类为所述其他类。
优选的,所述目标文本数据包括至少两个文本信息样本,所述判断模块430还可用于剔除所述目标文本数据包括的所述文本信息样本中文本长度小于预设长度阈值的所述文本信息样本,生成预处理后的所述目标文本数据。
优选的,所述判断模块430还可用于根据预设的编辑距离算法,生成每一所述文本信息样本对应所述预设关键词的编辑距离;剔除所有所述编辑距离中超过预设距离阈值的所述编辑距离;根据剔除后的所述编辑距离,生成所述目标文本数据对应所述预设关键词的编辑距离。
优选的,所述识别模块420还可用于利用预设文本检测算法,识别所述待处理图像中包含的文本区域;利用预设文本识别算法,识别所述文本区域中包含的所述文本信息样本;根据所述文本区域包含的所述文本信息样本,确定所述待识别图像包含的所述目标文本数据。
优选的,所述识别模块420还可用于利用CTPN文本检测算法,识别所述待处理图像中包含的文本区域;利用CRNN+CTC神经网络模型,识别所述文本区域中包含的所述文本信息样本。
优选的,所述接收模块410还可用于接收规则更新请求;所述装置还包括更新模块,用于根据所述规则更新请求包括的待更新类别和/或待更新答复语句,更新所述预设文档。
实施例四
对应上述所有实施例,本申请实施例提供一种电子设备,包括:
一个或多个处理器;以及与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
接收用户发出的咨询请求,所述咨询请求包括待处理图像;
根据预设的识别规则,识别所述待处理图像包含的目标文本数据;
根据预处理后的所述目标文本数据与每一预设分类对应的预设关键词的编辑距离,确定所述目标文本数据对应的预设分类为目标分类;
从答复语句库中获取所述目标分类对应的答复语句返回给所述用户。
其中,图5示例性的展示出了电子设备的架构,具体可以包括处理器1510,视频显示适配器1511,磁盘驱动器1512,输入/输出接口1513,网络接口1514,以及存储器1520。上述处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514,与存储器1520之间可以通过通信总线1530进行通信连接。
其中,处理器1510可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器1520可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1520可以存储用于控制电子设备1500运行的操作系统1521,用于控制电子设备1500的低级别操作的基本输入输出系统(BIOS)1522。另外,还可以存储网页浏览器1523,数据存储管理1524,以及图标字体处理系统1525等等。上述图标字体处理系统1525就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器1520中,并由处理器1510来调用执行。输入/输出接口1513用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口1514用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1530包括一通路,在设备的各个组件(例如处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514,与存储器1520)之间传输信息。
另外,该电子设备1500还可以从虚拟资源对象领取条件信息数据库1541中获得具体领取条件的信息,以用于进行条件判断,等等。
需要说明的是,尽管上述设备仅示出了处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514,存储器1520,总线1530等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,云服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种应用于问答系统的图像信息处理方法,其特征在于,所述方法包括:
接收用户发出的咨询请求,所述咨询请求包括待处理图像;
根据预设的识别规则,识别所述待处理图像包含的目标文本数据;
根据预处理后的所述目标文本数据与每一预设分类对应的预设关键词的编辑距离,确定所述目标文本数据对应的预设分类为目标分类;
从答复语句库中获取所述目标分类对应的答复语句返回给所述用户。
2.根据权利要求1所述的应用于问答系统的图像信息处理方法,其特征在于,所述根据预处理后的所述目标文本数据与每一预设分类对应的预设关键词的编辑距离,确定所述目标文本数据对应的预设分类为目标分类包括:
根据预处理后的所述目标文本数据及每一预设分类对应的预设关键词,生成所述目标文本数据对应所述预设关键词的编辑距离;
根据所述目标文本数据对应所述预设关键词的编辑距离及所述预设关键词对应的预设权重,生成所述目标文本数据对应每一所述预设关键词的加权编辑距离;
根据所述目标文本数据对应每一所述预设关键词的加权编辑距离及每一所述预设分类对应的所述预设关键词,确定所述目标文本数据对应每一所述预设分类的权重距离;
确定对应所述目标文本数据的权重距离最小的所述预设分类为目标分类。
3.根据权利要求2所述的应用于问答系统的图像信息处理方法,其特征在于,所述预设分类包括其他类,所述方法包括:
在所述目标文本数据对应每一所述预设分类的权重距离均大于预设阈值时,确定所述目标文本数据对应的所述预设分类为所述其他类。
4.根据权利要求2所述的应用于问答系统的图像信息处理方法,其特征在于,所述目标文本数据包括至少两个文本信息样本,所述根据预处理后的所述目标文本数据与每一预设分类对应的预设关键词的编辑距离,确定所述目标文本数据对应的预设分类为目标分类前,所述方法还包括:
剔除所述目标文本数据包括的所述文本信息样本中文本长度小于预设长度阈值的所述文本信息样本,生成预处理后的所述目标文本数据。
5.根据权利要求4所述的应用于问答系统的图像信息处理方法,其特征在于,所述根据预处理后的所述目标文本数据及每一预设分类对应的预设关键词,生成所述目标文本数据对应所述预设关键词的编辑距离包括:
根据预设的编辑距离算法,生成每一所述文本信息样本对应所述预设关键词的编辑距离;
剔除所有所述编辑距离中超过预设距离阈值的所述编辑距离;
根据剔除后的所述编辑距离,生成所述目标文本数据对应所述预设关键词的编辑距离。
6.根据权利要求4所述的应用于问答系统的图像信息处理方法,其特征在于,所述预设的识别规则包括预设文本检测算法及预设文本识别算法,所述根据预设的识别规则,识别所述待处理图像包含的目标文本数据包括:
利用预设文本检测算法,识别所述待处理图像中包含的文本区域;
利用预设文本识别算法,识别所述文本区域中包含的所述文本信息样本;
根据所述文本区域包含的所述文本信息样本,确定所述待识别图像包含的所述目标文本数据。
7.根据权利要求6所述的应用于问答系统的图像信息处理方法,其特征在于,所述利用预设文本检测算法,识别所述待处理图像中包含的文本区域包括:
利用CTPN文本检测算法,识别所述待处理图像中包含的文本区域;
所述利用预设文本识别算法,识别所述文本区域中包含的所述文本信息样本包括:
利用CRNN+CTC神经网络模型,识别所述文本区域中包含的所述文本信息样本。
8.根据权利要求1-7任一所述的应用于问答系统的图像信息处理方法,其特征在于,所述每一预设分类对应的预设关键词预先保存在预设文档中存储的关键词库中且所述答复语句库预先存储于所述预设文档中,所述方法包括:
接收规则更新请求;
根据所述规则更新请求包括的待更新类别和/或待更新答复语句,更新所述预设文档。
9.一种应用于问答系统的图像信息处理装置,其特征在于,所述装置包括:
接收模块,用于接收用户发出的咨询请求,所述咨询请求包括待处理图像;
识别模块,用于根据预设的识别规则,识别所述待处理图像包含的目标文本数据;
判断模块,用于根据预处理后的所述目标文本数据与每一预设分类对应的预设关键词的编辑距离,确定所述目标文本数据对应的预设分类为目标分类;
答复模块,用于从答复语句库中获取所述目标分类对应的答复语句返回给所述用户。
10.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
以及与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
接收用户发出的咨询请求,所述咨询请求包括待处理图像;
根据预设的识别规则,识别所述待处理图像包含的目标文本数据;
根据预处理后的所述目标文本数据与每一预设分类对应的预设关键词的编辑距离,确定所述目标文本数据对应的预设分类为目标分类;
从答复语句库中获取所述目标分类对应的答复语句返回给所述用户。
CN202110687218.9A 2021-06-21 2021-06-21 一种应用于问答系统的图像信息处理方法、装置及电子设备 Withdrawn CN113342954A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110687218.9A CN113342954A (zh) 2021-06-21 2021-06-21 一种应用于问答系统的图像信息处理方法、装置及电子设备
CA3164550A CA3164550A1 (en) 2021-06-21 2022-06-21 Image information processing method for use in q&a system, device and electronic equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110687218.9A CN113342954A (zh) 2021-06-21 2021-06-21 一种应用于问答系统的图像信息处理方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN113342954A true CN113342954A (zh) 2021-09-03

Family

ID=77478284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110687218.9A Withdrawn CN113342954A (zh) 2021-06-21 2021-06-21 一种应用于问答系统的图像信息处理方法、装置及电子设备

Country Status (2)

Country Link
CN (1) CN113342954A (zh)
CA (1) CA3164550A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113821602A (zh) * 2021-09-29 2021-12-21 平安银行股份有限公司 基于图文聊天记录的自动答疑方法、装置、设备及介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116205749A (zh) * 2023-05-06 2023-06-02 深圳市秦保科技有限公司 电子保单信息数据管理方法、装置、设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345692A (zh) * 2018-03-16 2018-07-31 北京京东尚科信息技术有限公司 一种自动问答方法和系统
CN110851576A (zh) * 2019-10-16 2020-02-28 迈达斯智能(深圳)有限公司 问答处理方法、装置、设备及可读介质
CN111191445A (zh) * 2018-11-15 2020-05-22 北京京东金融科技控股有限公司 广告文本分类方法及装置
CN111680142A (zh) * 2020-05-29 2020-09-18 平安普惠企业管理有限公司 基于文本识别的自动答复方法、装置、计算机设备
CN112612877A (zh) * 2020-12-16 2021-04-06 平安普惠企业管理有限公司 多类型消息智能答复方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345692A (zh) * 2018-03-16 2018-07-31 北京京东尚科信息技术有限公司 一种自动问答方法和系统
CN111191445A (zh) * 2018-11-15 2020-05-22 北京京东金融科技控股有限公司 广告文本分类方法及装置
CN110851576A (zh) * 2019-10-16 2020-02-28 迈达斯智能(深圳)有限公司 问答处理方法、装置、设备及可读介质
CN111680142A (zh) * 2020-05-29 2020-09-18 平安普惠企业管理有限公司 基于文本识别的自动答复方法、装置、计算机设备
CN112612877A (zh) * 2020-12-16 2021-04-06 平安普惠企业管理有限公司 多类型消息智能答复方法、装置、计算机设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113821602A (zh) * 2021-09-29 2021-12-21 平安银行股份有限公司 基于图文聊天记录的自动答疑方法、装置、设备及介质

Also Published As

Publication number Publication date
CA3164550A1 (en) 2022-12-21

Similar Documents

Publication Publication Date Title
CN110362372B (zh) 页面转译方法、装置、介质及电子设备
CN108664471B (zh) 文字识别纠错方法、装置、设备及计算机可读存储介质
CN109597874B (zh) 信息推荐方法、装置及服务器
US9772991B2 (en) Text extraction
CN113342954A (zh) 一种应用于问答系统的图像信息处理方法、装置及电子设备
CN113657088A (zh) 接口文档解析方法、装置、电子设备以及存储介质
CN113626441A (zh) 基于扫描设备的文本管理方法、装置、设备以及存储介质
CN112464927A (zh) 一种信息提取方法、装置及系统
CN114118049B (zh) 信息获取方法、装置、电子设备及存储介质
CN113360672B (zh) 用于生成知识图谱的方法、装置、设备、介质和产品
CN115759100A (zh) 数据处理方法、装置、设备及介质
CN113076395B (zh) 语义模型训练、搜索显示方法、装置、设备及存储介质
CN110083807B (zh) 合同的修改影响自动预测方法、装置、介质及电子设备
CN114970666A (zh) 一种口语处理方法、装置、电子设备及存储介质
CN114443802A (zh) 一种接口文档处理方法、装置、电子设备和存储介质
CN110895924B (zh) 一种文档内容朗读方法、装置、电子设备及可读存储介质
CN109787784B (zh) 群组推荐方法、装置、存储介质和计算机设备
CN113791860A (zh) 一种信息转换方法、装置和存储介质
CN112597012A (zh) 应用程序的遍历方法、装置、电子设备和存储介质
CN111625636A (zh) 一种人机对话的拒绝识别方法、装置、设备、介质
CN113010812B (zh) 信息采集方法、装置、电子设备和存储介质
CN113656393B (zh) 数据处理方法、装置、电子设备以及存储介质
CN112836529B (zh) 生成目标语料样本的方法和装置
CN111338941B (zh) 信息处理方法和装置、电子设备和存储介质
CN111382244B (zh) 一种深度检索匹配分类方法、装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210903

WW01 Invention patent application withdrawn after publication