CN109670065A - 基于图像识别的问答处理方法、装置、设备和存储介质 - Google Patents
基于图像识别的问答处理方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN109670065A CN109670065A CN201811118058.0A CN201811118058A CN109670065A CN 109670065 A CN109670065 A CN 109670065A CN 201811118058 A CN201811118058 A CN 201811118058A CN 109670065 A CN109670065 A CN 109670065A
- Authority
- CN
- China
- Prior art keywords
- information
- image
- question
- target image
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于图像识别的问答处理方法,包括:接收基于目标图像触发的提问请求,获取所述提问请求对应的提问信息;通过预设图像识别模型识别所述目标图像,得到所述目标图像中包含的图像内容信息;获取所述目标图像的属性信息,将所述图像内容信息和所述属性信息作为检索信息,根据所述检索信息查询预设图像数据库,得到所述目标图像对应的参考图像;根据参考图像的关联信息和所述提问信息生成答案信息。本发明还公开了一种基于图像识别的问答处理装置、设备和存储介质。本发明基于图像识别模型进行目标图像识别,得到目标图像的参考图像,根据参考图像和提问信息进行作答,实现了图像智能问答,减少了人力资源浪费。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及基于图像识别的问答处理方法、装置、设备和存储介质。
背景技术
现有的网络问答处理平台是一种支持网络通讯工具、网页等客户端获取信息和进行信息交流的平台。
用户可以通过网页在问答处理平台上提交各种问题,以通过问答处理平台联系相关客服人员,寻求解决方案。例如,如果用户在使用某个产品或者服务时,遇到操作提示或异常提示,那么,用户可以通过问答处理平台与该产品的在线客服人员进行咨询。在聊天过程中涉及到界面信息时,用户会将界面信息截取图片发送给客服人员,帮助确定异常原因。使客服人员需要根据经验,从图片中寻找问题的原因。这种传统的服务方式,需要公司提供在线客服的人工服务,需要承受相应的成本。如何实现自动图像问答,成为了目前亟待解决的技术问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种基于图像识别的问答处理方法、装置、设备和存储介质,旨在实现自动的图像问答。
为实现上述目的,本发明提供基于图像识别的问答处理方法,所述基于图像识别的问答处理方法包括以下步骤:
接收基于目标图像触发的提问请求,获取所述提问请求对应的提问信息;
通过预设图像识别模型识别所述目标图像,得到所述目标图像中包含的图像内容信息;
获取所述目标图像的属性信息,将所述图像内容信息和所述属性信息作为检索信息,根据所述检索信息查询预设图像数据库,得到所述目标图像对应的参考图像;
根据所述参考图像的关联信息和所述提问信息生成答案信息。
可选地,所述接收基于目标图像触发的提问请求,获取所述提问请求对应的提问信息的步骤之前,包括:
根据预设识别要求定义样本属性,并根据所述样本属性对所述预设图像样本集的图像样本进行分类;
以预设比例在所述预设图像样本集的各类图像样本中抽取一次训练样本,并在预设坐标系中绘制所述一次训练样本对应的一次特征点;
根据所述样本特征点的位置和对应的样本属性对所述预设坐标系进行区域划分,并根据区域划分情况获取对应的最近分隔函数;
以所述预设比例在所述预设图像样本集的各类图像样本中抽取迭代训练样本,并在预设坐标系中绘制所述迭代训练样本对应的迭代特征点;
通过所述迭代特征点对所述最近分隔函数进行迭代调整,直至所述最近分隔函数的正确分隔率达到预设阈值,获得预设图像识别模型。
可选地,所述通过预设图像识别模型识别所述目标图像,得到所述目标图像中包含的图像内容信息的步骤,包括:
将所述目标图像输入预设图像识别模型中;
通过所述预设图像识别模型对所述目标图像进行滤波处理,得到所述目标图像各部分的边缘特征和纹理特征;
将各所述边缘特征和各所述纹理特征进行组合,得到所述目标图像包含的图像元素;
对各所述图像元素在所述目标图像的空间位置和空间占比进行描述,得到所述目标图像的图像内容信息。
可选地,所述获取所述目标图像的属性信息,将所述图像内容信息和所述属性信息作为检索信息,根据所述检索信息查询预设图像数据库,得到所述目标图像对应的参考图像的步骤,包括:
获取所述目标图像的属性信息,将所述图像内容信息和所述属性信息作为检索信息;
获取所述预设图像数据库中各标准图像的标签信息,将各所述标签信息与所述检索信息进行比对;
获取与所述检索信息相似度最高的目标标签信息,并将所述目标标签信息对应的标准图像作为所述目标图像对应的参考图像。
可选地,所述根据所述参考图像的关联信息和所述提问信息生成答案信息的步骤包括:
获取所述参考图像的关联信息,将所述提问信息与所述关联信息进行比对;
获取所述关联信息中与所述提问信息匹配的目标关联信息,并将目标关联信息添加至预设答题模板中,生成对应的答案信息。
可选地,所述根据所述参考图像的关联信息和所述提问信息生成答案信息的步骤之前,包括:
获取所述提问信息的格式信息,并根据所述格式信息判断所述提问信息是否为语音格式;
若所述提问信息是语音格式,则按预设语音识别模型对所述提问信息进行语音识别,得到所述提问信息对应的提问文本;
所述根据所述参考图像的关联信息和所述提问信息生成答案信息的步骤,包括:
获取所述参考图像的关联信息,将所述提问文本与所述关联信息进行比对;
获取所述关联信息中与所述提问文本匹配的目标关联信息,并将目标关联信息添加至预设答题模板中,生成对应的答案信息,并将所述答案信息进行语音播报。
可选地,所述根据所述参考图像的关联信息和所述提问信息生成答案信息的步骤之后,包括:
将所述目标图像、所述提问信息和所述答案信息作为已作答信息,并将所述已作答信息保存至预设问答数据库;
所述接收基于目标图像触发的提问请求,获取所述提问请求对应的提问信息的之后,包括:
查询所述预设问答数据库,判断所述预设问答数据库中是否存在与所述目标图像和所述提问信息匹配的已作答信息;
若所述预设问答数据库中存在与所述目标图像和所述提问信息匹配的目标已作答信息,则获取所述目标已作答信息中的答案信息;
若所述预设问答数据库中不存在与所述目标图像和所述提问信息匹配的已作答信息,则执行通过预设图像识别模型识别所述目标图像,得到所述目标图像中包含的图像内容信息的步骤。
此外,为实现上述目的,本发明还提供一种基于图像识别的问答处理装置,所述基于图像识别的问答处理装置包括:
请求接收模块,用于接收基于目标图像触发的提问请求,获取所述提问请求对应的提问信息;
内容获取模块,用于通过预设图像识别模型识别所述目标图像,得到所述目标图像中包含的图像内容信息;
图像确定模块,用于获取所述目标图像的属性信息,将所述图像内容信息和所述属性信息作为检索信息,根据所述检索信息查询预设图像数据库,得到所述目标图像对应的参考图像;
答案生成模块,用于根据所述参考图像的关联信息和所述提问信息生成答案信息。
此外,为实现上述目的,本发明还提供一种基于图像识别的问答处理设备;
所述基于图像识别的问答处理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中:
所述计算机程序被所述处理器执行时实现如上所述的基于图像识别的问答处理方法的步骤。
此外,为实现上述目的,本发明还提供计算机存储介质;
所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的基于图像识别的问答处理方法的步骤。
本发明实施例提出基于图像识别的问答处理方法、装置、设备和存储介质,通过服务器接收基于目标图像触发的提问请求,获取所述提问请求对应的提问信息;通过预设图像识别模型识别所述目标图像,得到所述目标图像中包含的图像内容信息;获取所述目标图像的属性信息,将所述图像内容信息和所述属性信息作为检索信息,根据所述检索信息查询预设图像数据库,得到所述目标图像对应的参考图像;根据所述参考图像的关联信息和所述提问信息生成答案信息。通过预设的图像识别模型对目标图像进行识别,得到目标图像的图像内容信息,服务器将图像内容信息和目标图像的属性信息作为检索信息,基于检索信息查询预设图像数据库得到目标图像的参照图像,服务器根据参照图像的关联信息和提问信息生成答案信息,实现图像自动识别与智能问答,减少了人力资源的浪费。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图;
图2为本发明基于图像识别的问答处理方法第一实施例的流程示意图;
图3为本发明基于图像识别的问答处理装置一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的服务器(又叫基于图像识别的问答处理设备,其中,基于图像识别的问答处理设备可以是由单独的基于图像识别的问答处理装置构成,也可以是由其他装置与基于图像识别的问答处理装置组合形成)结构示意图。
本发明实施例服务器指一个管理资源并为用户提供服务的计算机,通常分为文件服务器、数据库服务器和应用程序服务器。运行以上软件的计算机或计算机系统也被称为服务器。相对于普通PC(personal computer)个人计算机来说,服务器在稳定性、安全性、性能等方面都要求较高;如图1所示,该服务器可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),网络接口1004,用户接口1003,存储器1005,通信总线1002、芯片组、磁盘系统、网络等硬件等。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真WIreless-FIdelity,WIFI接口)。存储器1005可以是高速随机存取存储器(random access memory,RAM),也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,服务器还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块;输入单元,比显示屏,触摸屏;网络接口可选除无线接口中除WiFi外,蓝牙、探针、3G/4G/5G(前面的数字表示的是蜂窝移动通信网络的代数。就是表示是第几代的网络。英文字母G表示generation)联网基站设备等等。本领域技术人员可以理解,图1中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,该计算机软件产品存储在一个存储介质(存储介质:又叫计算机存储介质、计算机介质、可读介质、可读存储介质、计算机可读存储介质或者直接叫介质等,如RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及计算机程序。
在图1所示的服务器中,网络接口1004主要用于连接后台数据库,与后台数据库进行数据通信;用户接口1003主要用于连接客户端(客户端,又叫用户端或终端,本发明实施例终端可以固定终端,也可以是移动终端,其中,固定终端如“物联网设备”、带联网功能的智能空调、智能电灯、智能电源等等;移动终端,如带联网功能的AR/VR设备,智能音箱、自动驾驶汽车、PC,智能手机、平板电脑、电子书阅读器、便携计算机等具有显示功能的终端设备,终端中包含传感器比如光传感器、运动传感器以及其他传感器,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的计算机程序,并执行本发明以下实施例提供的基于图像识别的问答处理方法中的步骤。
本发明基于图像识别的问答处理方法的第一实施例中,所述基于图像识别的问答处理方法包括:
接收基于目标图像触发的提问请求,获取所述提问请求对应的提问信息;
通过预设图像识别模型识别所述目标图像,得到所述目标图像中包含的图像内容信息;
获取所述目标图像的属性信息,将所述图像内容信息和所述属性信息作为检索信息,根据所述检索信息查询预设图像数据库,得到所述目标图像对应的参考图像;
根据所述参考图像的关联信息和所述提问信息生成答案信息。
在本实施例的步骤之前,需要首先建立一个图像识别模型,建立图像识别模型需要图像样本集合,本实施例中的图像样本集中包括有历史图像,历史图像关联有该图像的相关信息;例如,人物照片关联的识别信息:中文名范xx外文名Binxxxx;国籍中国民族汉族星座xx座血型x型身高16xcm体重5xkg出生地山东青岛出生日期19xx年xx月xx日等等;景物照片上关联拍摄地址xx信息等等,然后使用该样本集中的数据对初始机器学习模型进行训练,获得图像识别模型。其中,对于该机器学习的过程,可以是通过神经网络、遗传算法、支持向量机等多种方式实现。
本实施例中,考虑到图像种类数量庞大,若要获取到各种类型的图像样本数据用于进行模型训练,则会增大工作量,因此,本案可采用linear-svm(线性-支持向量机)的方式进行建模。linear-svm基于几何间隔最大化原理,认为存在最大几何间隔的分类面为最优分类面。
为训练图像识别模型,建立图像识别模型的步骤包括:
步骤S01,根据预设识别要求定义样本属性,并根据所述样本属性对所述预设图像样本集的图像样本进行分类;
在进行训练时,先建立一个初始模型,然后根据识别要求定义样本属性,例如,预先定义样本属性为:人物图像、景物图像、终端应用软件截屏、文档屏幕截屏等等,服务器将样本集合中的图像样本按照定义的样本属性进行分类。
步骤S02,以预设比例在所述预设图像样本集的各类图像样本中抽取一次训练样本,并在预设坐标系中绘制所述一次训练样本对应的一次特征点;
服务器以预设比例在所述预设图像样本集的各类图像样本中抽取一次训练样本,其中,预设比例为预先设置的样本抽取比例,预设比例可根据具体情况,例如,设置为0.01%,即,服务器每一次抽取0.01%的图像样本进行训练总共迭代10000次,本实施例中,服务器先可在样本数据中随机抽取0.01%各个类型的样本作为一次训练样本,利用这些一次训练样本对初始模型进行训练:在预设坐标系中绘制出各一次训练样本对应的一次特征点。
步骤S03,根据所述样本特征点的位置和对应的样本属性对所述预设坐标系进行区域划分,并根据区域划分情况获取对应的最近分隔函数;
服务器根据样本的属性以及特征点所在的位置对预设坐标系进行分区,得到不同类型样本分区;服务器根据区域的划分情况可得出若干个分隔函数,进一步地,服务器可在这些分隔函数中确定一个最近分隔函数;其中,在一次训练中,该最近分隔函数可以是随机确定,或者通过某些约束条件进行确定。
步骤S04,以所述预设比例在所述预设图像样本集的各类图像样本中抽取迭代训练样本,并在预设坐标系中绘制所述迭代训练样本对应的迭代特征点;
在进行了一次训练后,服务器再次从图像样本集中抽取相同比例样本作为迭代样本,并在该预设坐标系中绘制该迭代特征点,并利用这些迭代特征点对最近分隔函数不断进行调整,从而对图像识别模型不断进行迭代训练。
步骤S05,通过所述迭代特征点对所述最近分隔函数进行迭代调整,直至所述最近分隔函数的正确分隔率达到预设阈值,获得预设图像识别模型。
具体地,服务器通过所述迭代特征点对所述最近分隔函数进行迭代调整,直至其对样本的正确分隔率达到预设阈值,即,通过预设的分割函数可以准确地识别得到不同的图像,服务器确定训练完成,获得图像识别模型。值得说明的是,而由于图像的复杂性,该预设坐标系也可能是三维以上(此处“以上”包括本数)的坐标系,也就是说,对于二维坐标系下的特征点,可能需要通过核函数(例如径函数)将其投影至高维度坐标系中,再根据各高纬度特征点获取高纬度坐标系下的分隔超平面函数(即分隔函数对应图像为一个超平面)。
本实施例中具体说明了建立图像识别模型,本实施例中利用通过建立的图像识别模型,进行图像的自动识别,提高图像的识别效率与准确率,不需要人工识别。
参照图2,本发明基于图像识别的问答处理方法的第一实施例中,所述基于图像识别的问答处理方法包括:
步骤S10,接收基于目标图像触发的提问请求,获取所述提问请求对应的提问信息。
用户在终端上输入目标图像触发提问请求,其中,所述目标图像的来源等不作具体限定,可以是拍照图片,可以是终端屏幕截图等;服务器接收终端触发的提问请求,服务器在终端上显示提问信息输入界面,以供用户在中的提问信息输入界面上输入提问信息,用户在终端的界面上输入提问信息完成时,用户点击提交,终端将用户输入的提问信息发送至服务器,服务器接收终端发送的提问信息,以根据终端发送的提问信息进行作答。
步骤S20,通过预设图像识别模型识别所述目标图像,得到所述目标图像中包含的图像内容信息。
服务器对获取的目标图像进行识别,得到目标图像中包含图像内容信息,其中所述图像内容信息包括:图像中包含的文字信息、图像中的元素信息,例如,图像中的表格,图像中的人物、图像中的背景信息等等,本实施例中对所述目标图像进行识别,得到所述目标图像的图像内容信息可以有不同的实现方式:即,本实施例中的利用预设图像识别模型,对目标图像进行识别:
服务器将所述目标图像输入预设图像识别模型中;通过所述预设图像识别模型对所述目标图像进行滤波处理,得到所述目标图像各部分的边缘特征和纹理特征;服务器将各所述边缘特征和各所述纹理特征进行组合,得到所述目标图像包含的图像元素;对各所述图像元素在所述目标图像的空间位置和空间占比进行描述,得到所述目标图像的图像内容信息。
此外,服务器还可以利用预设分离器,对目标图像进行识别,具体地:
服务器对目标图像进行预处理,其中,目标图像预处理是指通过算法对图像进行平滑,变换,增强,恢复,滤波等操作;然后,提取目标图像的特征信息,例如,一幅64x64的图像可以得到4096个特征数据。进一步地,利用预设分类器:处理所述特征数据,得到所述目标图像的图像内容信息。其中,预设分类器是指预先设置的用于进行图像分类的算法,预设分类器可以基于随机森林、逻辑回归算法实现。
本实施例中通过预设图像识别模型对目标图像进行识别,得到目标图像中的图像内容信息,实现了目标图像的自动识别,不需要用户的参与,为防止服务器根据图像内容信息作答,不能得到完整全面的答题信息的情况,本申请中不直接根据图像内容信息进行作答,服务器获取目标图像对应的参照图像,以根据参照图像的关联信息进行作答,具体地:
步骤S30,获取所述目标图像的属性信息,将所述图像内容信息和所述属性信息作为检索信息,根据所述检索信息查询预设图像数据库,得到所述目标图像对应的参考图像。
服务器获取所述目标图像的属性信息,其中,目标图像的属性信息包括:图像的存储信息、图像的尺寸信息等等,服务器将目标图像的图像内容信息和属性信息作为检索信息,服务器基于所述检索信息查询下预设图像数据库,得到目标图像对应的参考图像,
本实施例中服务器根据检索信息查询预设图像数据库,具体地,包括
步骤a,获取所述预设图像数据库中各标准图像的标签信息,将各所述标签信息与所述检索信息进行比对;
步骤b,获取与所述检索信息相似度最高的目标标签信息,并将所述目标标签信息对应的标准图像作为所述目标图像对应的参考图像。
即,服务器获取所述预设图像数据库中各标准图像(预设图像数据库是指预先设置的图像数据库,用于存储包含关联信息的图像)的标签信息,将各所述标签信息与所述检索信息进行比对;服务器确定各个标准图像标签信息与目标图像的检索信息的相似度,服务器获取与所述检索信息相似度最高的目标标签信息,并将相似度最高的目标标签信息对应的标准图像作为所述目标图像的参考图像。
本实施例中服务器将图像内容信息和属性信息进行结合,得到图像检索信息,服务器根据图像检索信息进行图像检索,既考虑到图像内容信息也考虑到图像的属性信息,使得查询到的参考图像信息更加准确。
步骤S40,根据所述参考图像的关联信息和所述提问信息生成答案信息。
服务器将获取参考图像的关联信息,服务器结合参考图像的关联信息和用户的提问信息生成答案信息,具体地,获取所述参考图像的关联信息,将所述提问信息与所述关联信息进行比对;获取所述关联信息中与所述提问信息匹配的目标关联信息,并将目标关联信息添加至预设答题模板中,生成对应的答案信息。
在本实施例中用户可以在终端上输入目标图像,并通过预设的图像识别模型对目标图像进行识别,得到目标图像的图像内容信息,服务器将图像内容信息和目标图像的属性信息作为检索信息,基于检索信息查询预设图像数据库得到目标图像的参照图像,服务器根据参照图像的关联信息和提问信息生成答案信息,实现图像自动识别与智能问答,减少了人力资源的浪费。
进一步地,在本发明第一实施例的基础上,提出了本实施例,本实施例是第一实施例中步骤S20的细化,本实施例中说明了确定目标图像检索信息的具体实现方式,具体地:
步骤S21,将所述目标图像输入预设图像识别模型中。
服务器将所述目标图像输入预设图像识别模型中,以通过预设图像识别模型对目标图像进行处理,得到图像内容信息。
步骤S22,通过所述预设图像识别模型对所述目标图像进行滤波处理,得到所述目标图像各部分的边缘特征和纹理特征。
即,服务器通过所述预设图像识别模型对所述目标图像进行滤波处理,例如,边缘保持型的图像滤波算法研究1、使用高斯滤波对图像进行去噪处理,即,将高斯滤波和拉普拉斯锐化滤波器结合,先平滑噪声,在进行边缘检测。拉普拉斯滤波器可以强化像素周围的亮度变化信息,提取出物体的轮廓并突出细节。2、在纵横及对角线方向上分别求取梯度值,保留局部梯度最大值点,称为非极大值抑制。3、通过设定高梯度阈值和低梯度阈值进行边缘检测和边缘链接得到所述目标图像各部分的边缘特征和纹理特征。
步骤S23,将各所述边缘特征和各所述纹理特征进行组合,得到所述目标图像包含的图像元素。
服务器将各所述边缘特征和各所述纹理特征进行组合,即,将各所述边缘特征和各所述纹理特征做名科夫斯基和,即,将各所述边缘特征和各所述纹理特征图像通过膨胀和腐蚀的函数,处理得到所述目标图像包含的图像元素。
步骤S24,对各所述图像元素在所述目标图像的空间位置和空间占比进行描述,得到所述目标图像的图像内容信息。
服务器对各所述图像元素在所述目标图像的空间位置和空间占比进行描述,即,服务器确定各个图像元素与中的目标图像之间的关系,得到所述目标图像的图像内容信息。在本实施例中通过预设图像识别模型对目标图像进行处理,得到目标图像中的图像内容信息。
进一步地,在本发明上述实施例的基础上,提出了本发明基于图像识别的问答处理方法的第二实施例。
在本实施例中是为了方便用户操作,本实施例中用户可以进行语音提问,本实施例中设置了语音识别的机制模型,以通过语音识别模型对语音格式的提问信息进行处理,所述基于图像识别的问答处理方法包括:
步骤S50,获取所述提问信息的格式信息,并根据所述格式信息判断所述提问信息是否为语音格式;
服务器获取提问信息之后,服务器对提问信息的格式进行识别,得到提问信息的格式,例如,服务器确定提问信息是文本格式,服务器进一步地执行本发明第一实施例中步骤S20,若服务器确定提问信息是语音格式,则服务器需要对语音格式的提问信息进行识别。
步骤S60,若所述提问信息是语音格式,则按预设语音识别模型对所述提问信息进行语音识别,得到所述提问信息对应的提问文本;
若所述提问信息是语音格式,则服务器通过预设语音识别模型对所述提问信息进行语音识别,得到所述提问信息对应的提问文本。
其中,预设语音识别模型是指预先设置的语音识别模型;预设语音识别模型是基于HMM(Hidden Markov Model,隐马尔可夫模型)建立的,隐马尔可夫模型实质就是对语音数据中表征语音信息的特征进行建模,通过对语音数据中的语音特征进行了大量的统计而得到模型参数,而迭代算法可以采用Baum–Welch(鲍姆韦尔奇)算法,也可以采用经K均值算法改进后的Baum–Welch算法,可提高模型的准确性。
具体的,语音识别模型的训练过程如下:1)基于HMM模型构建语音识别模型,并设置语音识别模型的参数初始值,参数初始值可以通过等划分状态或者根据经验估计设置;2)设置最大的迭代次数和收敛阈值;3)采用Viterbi算法(Viterbi Algorithm,维特比算法)对输入的语音数据进行状态的分段操作;4)通过迭代算法(Baum-welch算法)对该语音识别模型的参数进行更新,并对语音数据进行迭代训练,不断地循环迭代,直到达到先前设置的迭代次数或已经收敛,此时,可得到该语音识别模型的最优模型参数,进而根据该最优模型参数获得训练好的语音识别模型。
本实施例中在识别得到文本格式的提问信息之后,执行第一实施例中步骤:通过预设图像识别模型识别所述目标图像,得到所述目标图像中包含的图像内容信息;获取所述目标图像的属性信息,将所述图像内容信息和所述属性信息作为检索信息,根据所述检索信息查询预设图像数据库,得到所述目标图像对应的参考图像,进一步地,服务器根据所述参考图像的关联信息和所述提问信息生成答案信息的步骤,包括:
步骤S41,获取所述参考图像的关联信息,将所述提问文本与所述关联信息进行比对。
服务器获取所述参考图像的关联信息,将所述提问文本与所述关联信息进行比对,即,服务器确定根据用户的提问问题信息与从关联信息中抽取对应的信息进行作答。
步骤S42,获取所述关联信息中与所述提问文本匹配的目标关联信息,并将目标关联信息添加至预设答题模板中,生成对应的答案信息,并将所述答案信息进行语音播报。
服务器获取所述关联信息中与所述提问文本匹配的目标关联信息,并将目标关联信息添加至预设答题模板中,生成对应的答案信息,其中,预设答题模板是指预先设置的答题模板,在生成答案信息之后,服务器并将所述答案信息进行语音播报,不需要用户进行查看。
在本实施例中可以对语音格式的提问信息进行识别,并将生成的答案信息进行语音播报,用户不需要收到输入提问信息,使得基于图像识别的问答处理方法更加便捷。
进一步地,本发明基于图像识别的问答处理方法的第三实施例中,服务器将所述目标图像、所述提问信息和所述答案信息作为已作答信息,并将所述已作答信息保存至预设问答数据库以便查询,所述基于图像识别的问答处理方法包括:
步骤S70,将所述目标图像、所述提问信息和所述答案信息作为已作答信息,并将所述已作答信息保存至预设问答数据库;
服务器将识别目标图像、所述提问信息和所述答案信息作为已作答信息,并关联保存至预设问答数据库,其中,预设问答数据库是指预先设置用于保存已处理完成的问答相关信息,用户基于目标图像触发的提问请求时,可以先查询预设问答数据库。
即,在本申请中所述接收基于目标图像触发的提问请求,获取所述提问请求对应的提问信息的之后,包括:
步骤S80,查询所述预设问答数据库,判断所述预设问答数据库中是否存在与所述目标图像和所述提问信息匹配的已作答信息;
服务器查询预设问答数据库,判断预设问答数据库中是否存在目标图像和提问信息对应的答案信息,即,服务器将目标图像和提问信息与预设问答数据库中的已作答信息进行比对。
步骤S90,若所述预设问答数据库中存在与所述目标图像和所述提问信息匹配的目标已作答信息,则获取所述目标已作答信息中的答案信息。
若预设问答数据库中存在目标图像和提问信息对应的目标已作答信息,服务器获取已作答信息中的答案信息
步骤S100,若所述预设问答数据库中不存在与所述目标图像和所述提问信息匹配的已作答信息,则执行通过预设图像识别模型识别所述目标图像,得到所述目标图像中包含的图像内容信息的步骤。
若所述预设问答数据库中不存在与所述目标图像和所述提问信息匹配的已作答信息,则执行本申请第一实施例中步骤S20在本实施例中服务器将一次作答的图片问答信息输入至预设问答数据库中,在服务器接收基于目标图像触发的提问请求,获取所述提问请求对应的提问信息之后,服务器可以查询预设问答数据库,提高作答的效率,减少重复处理次数。
此外,参照图3,本发明实施例还提出基于图像识别的问答处理装置,所述基于图像识别的问答处理装置包括:
请求接收模块10,用于接收基于目标图像触发的提问请求,获取所述提问请求对应的提问信息;
内容获取模块20,用于通过预设图像识别模型识别所述目标图像,得到所述目标图像中包含的图像内容信息;
图像确定模块30,用于获取所述目标图像的属性信息,将所述图像内容信息和所述属性信息作为检索信息,根据所述检索信息查询预设图像数据库,得到所述目标图像对应的参考图像;
答案生成模块40,用于根据所述参考图像的关联信息和所述提问信息生成答案信息。
可选地,所述本发明实施例还提出基于图像识别的问答处理装置包括:模型建立模块用于:
根据预设识别要求定义样本属性,并根据所述样本属性对所述预设图像样本集的图像样本进行分类;
以预设比例在所述预设图像样本集的各类图像样本中抽取一次训练样本,并在预设坐标系中绘制所述一次训练样本对应的一次特征点;
根据所述样本特征点的位置和对应的样本属性对所述预设坐标系进行区域划分,并根据区域划分情况获取对应的最近分隔函数;
以所述预设比例在所述预设图像样本集的各类图像样本中抽取迭代训练样本,并在预设坐标系中绘制所述迭代训练样本对应的迭代特征点;
通过所述迭代特征点对所述最近分隔函数进行迭代调整,直至所述最近分隔函数的正确分隔率达到预设阈值,获得预设图像识别模型。
可选地,所述内容获取模块20,包括:
输入单元,用于将所述目标图像输入预设图像识别模型中;
率比单元,用于通过所述预设图像识别模型对所述目标图像进行滤波处理,得到所述目标图像各部分的边缘特征和纹理特征;
元素确定单元,用于将各所述边缘特征和各所述纹理特征进行组合,得到所述目标图像包含的图像元素;
内容确定单元,用于对各所述图像元素在所述目标图像的空间位置和空间占比进行描述,得到所述目标图像的图像内容信息。
可选地,图像确定模块30,包括:
检索信息确定单元,用于获取所述目标图像的属性信息,将所述图像内容信息和所述属性信息作为检索信息;
信息比对单元,用于获取所述预设图像数据库中各标准图像的标签信息,将各所述标签信息与所述检索信息进行比对;
参考图像获取单元,用于获取与所述检索信息相似度最高的目标标签信息,并将所述目标标签信息对应的标准图像作为所述目标图像对应的参考图像。
可选地,所述答案生成模块40,包括:
获取比对单元,用于获取所述参考图像的关联信息,将所述提问信息与所述关联信息进行比对;
答案生成单元,用于获取所述关联信息中与所述提问信息匹配的目标关联信息,并将目标关联信息添加至预设答题模板中,生成对应的答案信息。
可选地,所述本发明实施例还提出基于图像识别的问答处理装置,包括:
格式确定模块,用于获取所述提问信息的格式信息,并根据所述格式信息判断所述提问信息是否为语音格式;
语音识别模块,用于若所述提问信息是语音格式,则按预设语音识别模型对所述提问信息进行语音识别,得到所述提问信息对应的提问文本;
答案生成模块,还用于:
获取所述参考图像的关联信息,将所述提问文本与所述关联信息进行比对;
获取所述关联信息中与所述提问文本匹配的目标关联信息,并将目标关联信息添加至预设答题模板中,生成对应的答案信息,并将所述答案信息进行语音播报。
可选地,所述本发明实施例还提出基于图像识别的问答处理装置,包括:
关联保存模块,用于将所述目标图像、所述提问信息和所述答案信息作为已作答信息,并将所述已作答信息保存至预设问答数据库;
查询判断模块,用于查询所述预设问答数据库,判断所述预设问答数据库中是否存在与所述目标图像和所述提问信息匹配的已作答信息;
答案获取模块,用于若所述预设问答数据库中存在与所述目标图像和所述提问信息匹配的目标已作答信息,则获取所述目标已作答信息中的答案信息;若所述预设问答数据库中不存在与所述目标图像和所述提问信息匹配的已作答信息,则执行通过预设图像识别模型识别所述目标图像,得到所述目标图像中包含的图像内容信息的步骤。
其中,基于图像识别的问答处理装置的各个功能模块实现的步骤可参照本发明基于图像识别的问答处理方法的各个实施例,此处不再赘述。
此外,本发明实施例还提出一种计算机存储介质。
所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例提供的基于图像识别的问答处理方法中的操作。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体/操作/对象与另一个实体/操作/对象区分开来,而不一定要求或者暗示这些实体/操作/对象之间存在任何这种实际的关系或者顺序;术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于图像识别的问答处理方法,其特征在于,所述基于图像识别的问答处理方法包括以下步骤:
接收基于目标图像触发的提问请求,获取所述提问请求对应的提问信息;
通过预设图像识别模型识别所述目标图像,得到所述目标图像中包含的图像内容信息;
获取所述目标图像的属性信息,将所述图像内容信息和所述属性信息作为检索信息,根据所述检索信息查询预设图像数据库,得到所述目标图像对应的参考图像;
根据所述参考图像的关联信息和所述提问信息生成答案信息。
2.如权利要求1所述的基于图像识别的问答处理方法,其特征在于,所述接收基于目标图像触发的提问请求,获取所述提问请求对应的提问信息的步骤之前,包括:
根据预设识别要求定义样本属性,并根据所述样本属性对所述预设图像样本集的图像样本进行分类;
以预设比例在所述预设图像样本集的各类图像样本中抽取一次训练样本,并在预设坐标系中绘制所述一次训练样本对应的一次特征点;
根据所述样本特征点的位置和对应的样本属性对所述预设坐标系进行区域划分,并根据区域划分情况获取对应的最近分隔函数;
以所述预设比例在所述预设图像样本集的各类图像样本中抽取迭代训练样本,并在预设坐标系中绘制所述迭代训练样本对应的迭代特征点;
通过所述迭代特征点对所述最近分隔函数进行迭代调整,直至所述最近分隔函数的正确分隔率达到预设阈值,获得预设图像识别模型。
3.如权利要求1所述的基于图像识别的问答处理方法,其特征在于,所述通过预设图像识别模型识别所述目标图像,得到所述目标图像中包含的图像内容信息的步骤,包括:
将所述目标图像输入预设图像识别模型中;
通过所述预设图像识别模型对所述目标图像进行滤波处理,得到所述目标图像各部分的边缘特征和纹理特征;
将各所述边缘特征和各所述纹理特征进行组合,得到所述目标图像包含的图像元素;
对各所述图像元素在所述目标图像的空间位置和空间占比进行描述,得到所述目标图像的图像内容信息。
4.如权利要求1所述的基于图像识别的问答处理方法,其特征在于,所述获取所述目标图像的属性信息,将所述图像内容信息和所述属性信息作为检索信息,根据所述检索信息查询预设图像数据库,得到所述目标图像对应的参考图像的步骤,包括:
获取所述目标图像的属性信息,将所述图像内容信息和所述属性信息作为检索信息;
获取所述预设图像数据库中各标准图像的标签信息,将各所述标签信息与所述检索信息进行比对;
获取与所述检索信息相似度最高的目标标签信息,并将所述目标标签信息对应的标准图像作为所述目标图像对应的参考图像。
5.如权利要求1所述的基于图像识别的问答处理方法,其特征在于,所述根据所述参考图像的关联信息和所述提问信息生成答案信息的步骤包括:
获取所述参考图像的关联信息,将所述提问信息与所述关联信息进行比对;
获取所述关联信息中与所述提问信息匹配的目标关联信息,并将目标关联信息添加至预设答题模板中,生成对应的答案信息。
6.如权利要求1所述的基于图像识别的问答处理方法,其特征在于,所述根据所述参考图像的关联信息和所述提问信息生成答案信息的步骤之前,包括:
获取所述提问信息的格式信息,并根据所述格式信息判断所述提问信息是否为语音格式;
若所述提问信息是语音格式,则按预设语音识别模型对所述提问信息进行语音识别,得到所述提问信息对应的提问文本;
所述根据所述参考图像的关联信息和所述提问信息生成答案信息的步骤,包括:
获取所述参考图像的关联信息,将所述提问文本与所述关联信息进行比对;
获取所述关联信息中与所述提问文本匹配的目标关联信息,并将目标关联信息添加至预设答题模板中,生成对应的答案信息,并将所述答案信息进行语音播报。
7.如权利要求1所述的基于图像识别的问答处理方法,其特征在于,所述根据所述参考图像的关联信息和所述提问信息生成答案信息的步骤之后,包括:
将所述目标图像、所述提问信息和所述答案信息作为已作答信息,并将所述已作答信息保存至预设问答数据库;
所述接收基于目标图像触发的提问请求,获取所述提问请求对应的提问信息的之后,包括:
查询所述预设问答数据库,判断所述预设问答数据库中是否存在与所述目标图像和所述提问信息匹配的已作答信息;
若所述预设问答数据库中存在与所述目标图像和所述提问信息匹配的目标已作答信息,则获取所述目标已作答信息中的答案信息;
若所述预设问答数据库中不存在与所述目标图像和所述提问信息匹配的已作答信息,则执行通过预设图像识别模型识别所述目标图像,得到所述目标图像中包含的图像内容信息的步骤。
8.一种基于图像识别的问答处理装置,其特征在于,所述基于图像识别的问答处理装置包括:
请求接收模块,用于接收基于目标图像触发的提问请求,获取所述提问请求对应的提问信息;
内容获取模块,用于通过预设图像识别模型识别所述目标图像,得到所述目标图像中包含的图像内容信息;
图像确定模块,用于获取所述目标图像的属性信息,将所述图像内容信息和所述属性信息作为检索信息,根据所述检索信息查询预设图像数据库,得到所述目标图像对应的参考图像;
答案生成模块,用于根据所述参考图像的关联信息和所述提问信息生成答案信息。
9.一种基于图像识别的问答处理设备,其特征在于,所述基于图像识别的问答处理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中:
所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于图像识别的问答处理方法的步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于图像识别的问答处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811118058.0A CN109670065A (zh) | 2018-09-25 | 2018-09-25 | 基于图像识别的问答处理方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811118058.0A CN109670065A (zh) | 2018-09-25 | 2018-09-25 | 基于图像识别的问答处理方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109670065A true CN109670065A (zh) | 2019-04-23 |
Family
ID=66141588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811118058.0A Withdrawn CN109670065A (zh) | 2018-09-25 | 2018-09-25 | 基于图像识别的问答处理方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109670065A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222770A (zh) * | 2019-06-10 | 2019-09-10 | 成都澳海川科技有限公司 | 一种基于组合关系注意力网络的视觉问答方法 |
CN111143634A (zh) * | 2019-12-27 | 2020-05-12 | 中国工商银行股份有限公司 | 基于图像识别的问答方法及系统 |
CN111178199A (zh) * | 2019-12-20 | 2020-05-19 | 福建天泉教育科技有限公司 | 一种基于实时图像识别的交互式问答方法及终端 |
CN111782839A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 图像问答方法、装置、计算机设备和介质 |
CN112559712A (zh) * | 2020-12-23 | 2021-03-26 | 中国人寿保险股份有限公司 | 一种智能运维方法和系统 |
CN113177115A (zh) * | 2021-06-30 | 2021-07-27 | 中移(上海)信息通信科技有限公司 | 对话内容的处理方法、装置及相关设备 |
CN113724300A (zh) * | 2020-05-25 | 2021-11-30 | 北京达佳互联信息技术有限公司 | 图像配准方法、装置、电子设备及存储介质 |
CN113918679A (zh) * | 2021-09-22 | 2022-01-11 | 三一汽车制造有限公司 | 一种知识问答方法、装置及工程机械 |
TWI759598B (zh) * | 2019-05-20 | 2022-04-01 | 南一書局企業股份有限公司 | 綜合學生習題發問頻率以整合回應的智能客服系統 |
-
2018
- 2018-09-25 CN CN201811118058.0A patent/CN109670065A/zh not_active Withdrawn
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI759598B (zh) * | 2019-05-20 | 2022-04-01 | 南一書局企業股份有限公司 | 綜合學生習題發問頻率以整合回應的智能客服系統 |
CN110222770A (zh) * | 2019-06-10 | 2019-09-10 | 成都澳海川科技有限公司 | 一种基于组合关系注意力网络的视觉问答方法 |
CN111178199A (zh) * | 2019-12-20 | 2020-05-19 | 福建天泉教育科技有限公司 | 一种基于实时图像识别的交互式问答方法及终端 |
CN111178199B (zh) * | 2019-12-20 | 2023-04-28 | 福建天泉教育科技有限公司 | 一种基于实时图像识别的交互式问答方法及终端 |
CN111143634A (zh) * | 2019-12-27 | 2020-05-12 | 中国工商银行股份有限公司 | 基于图像识别的问答方法及系统 |
CN113724300A (zh) * | 2020-05-25 | 2021-11-30 | 北京达佳互联信息技术有限公司 | 图像配准方法、装置、电子设备及存储介质 |
WO2021238188A1 (zh) * | 2020-05-25 | 2021-12-02 | 北京达佳互联信息技术有限公司 | 图像配准方法及装置 |
CN111782839A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 图像问答方法、装置、计算机设备和介质 |
CN111782839B (zh) * | 2020-06-30 | 2023-08-22 | 北京百度网讯科技有限公司 | 图像问答方法、装置、计算机设备和介质 |
CN112559712A (zh) * | 2020-12-23 | 2021-03-26 | 中国人寿保险股份有限公司 | 一种智能运维方法和系统 |
CN113177115B (zh) * | 2021-06-30 | 2021-10-26 | 中移(上海)信息通信科技有限公司 | 对话内容的处理方法、装置及相关设备 |
CN113177115A (zh) * | 2021-06-30 | 2021-07-27 | 中移(上海)信息通信科技有限公司 | 对话内容的处理方法、装置及相关设备 |
CN113918679A (zh) * | 2021-09-22 | 2022-01-11 | 三一汽车制造有限公司 | 一种知识问答方法、装置及工程机械 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109670065A (zh) | 基于图像识别的问答处理方法、装置、设备和存储介质 | |
US11487995B2 (en) | Method and apparatus for determining image quality | |
CN109284733B (zh) | 一种基于yolo和多任务卷积神经网络的导购消极行为监控方法 | |
US20210168108A1 (en) | Messaging system with avatar generation | |
CN108038880B (zh) | 用于处理图像的方法和装置 | |
US10853623B2 (en) | Method and apparatus for generating information | |
CN105975980B (zh) | 监控图像标注质量的方法和装置 | |
CN108280477B (zh) | 用于聚类图像的方法和装置 | |
CN109684047A (zh) | 事件处理方法、装置、设备和计算机存储介质 | |
CN108288051B (zh) | 行人再识别模型训练方法及装置、电子设备和存储介质 | |
CN108229591A (zh) | 神经网络自适应训练方法和装置、设备、程序和存储介质 | |
CN110363084A (zh) | 一种上课状态检测方法、装置、存储介质及电子 | |
CN110874618B (zh) | 基于小样本的ocr模板学习方法、装置、电子设备及介质 | |
CN115457531A (zh) | 用于识别文本的方法和装置 | |
US12002289B2 (en) | Expression recognition method and apparatus, computer device, and readable storage medium | |
WO2019062081A1 (zh) | 业务员画像形成方法、电子装置及计算机可读存储介质 | |
US11354922B2 (en) | Image landmark detection | |
CN111709941B (zh) | 一种面向病理图像的轻量级自动化深度学习系统及方法 | |
CN111144215A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
US20210089825A1 (en) | Systems and methods for cleaning data | |
CN111881944A (zh) | 图像鉴别的方法、电子设备和计算机可读介质 | |
CN110163250A (zh) | 基于分布式调度的图像脱敏处理系统、方法以及装置 | |
CN110135889A (zh) | 智能推荐书单的方法、服务器及存储介质 | |
CN111292333B (zh) | 用于分割图像的方法和装置 | |
CN109064464B (zh) | 用于检测电池极片毛刺的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190423 |
|
WW01 | Invention patent application withdrawn after publication |