CN111797217B - 基于faq匹配模型的信息查询方法、及其相关设备 - Google Patents

基于faq匹配模型的信息查询方法、及其相关设备 Download PDF

Info

Publication number
CN111797217B
CN111797217B CN202010610219.9A CN202010610219A CN111797217B CN 111797217 B CN111797217 B CN 111797217B CN 202010610219 A CN202010610219 A CN 202010610219A CN 111797217 B CN111797217 B CN 111797217B
Authority
CN
China
Prior art keywords
target
query
word segmentation
sentence pattern
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010610219.9A
Other languages
English (en)
Other versions
CN111797217A (zh
Inventor
张伟
邓庚
陈炜
王涵暄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN202010610219.9A priority Critical patent/CN111797217B/zh
Publication of CN111797217A publication Critical patent/CN111797217A/zh
Application granted granted Critical
Publication of CN111797217B publication Critical patent/CN111797217B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能,提供了一种基于FAQ匹配模型的信息查询方法、及其相关设备,所述基于FAQ匹配模型的信息查询方法包括:从预设查询库中获取目标用户提交的查询问题;对查询问题进行分词处理,并根据分词处理得到的分词结果确定目标关键词;根据目标关键词进行映射查询,得到映射分词和组合分词;查询包含映射分词和组合分词的关联句式,并按照预设方式从关联句式中提取目标句式;根据历史问题、历史答案和目标句式,通过相似度算法计算目标句式对应的目标答案,并将目标答案反馈给目标用户。本发明还涉及区块链技术,所述查询问题存储于区块链中。本发明的技术方案实现提高目标用户信息查询的准确性及查询效率。

Description

基于FAQ匹配模型的信息查询方法、及其相关设备
技术领域
本发明涉及人工智能,尤其涉及一种基于FAQ匹配模型的信息查询方法、及其相关设备。
背景技术
基于FAQ匹配模型的知识管理系统是NLP方向的一个重要研究领域,其主要应用于智能问答场景,但由于传统的知识管理系统在智能问答环节过程中,主要基于数据库中预先保存的句式与用户查询语句进行匹配方式进行问答,未能结合用户历史数据进行分析,且在存在句义相似的情况下无法准确识别,导致知识管理系统准确性不高,影响用户利用知识管理系统进行信息查询的准确性及查询效率。
发明内容
本发明实施例提供一种基于FAQ匹配模型的信息查询方法、及其相关设备,以解决传统智能问答算法语义识别准确性较低,导致目标用户信息查询的准确性及查询效率低下的问题。
一种基于FAQ匹配模型的信息查询方法,包括:
从预设查询库中获取目标用户提交的查询问题,其中,所述预设查询库包含所述目标用户对应的历史问题和历史答案;
对所述查询问题进行分词处理,并根据分词处理得到的分词结果确定目标关键词;
根据所述目标关键词进行映射查询,得到映射分词和组合分词;
查询包含所述映射分词和所述组合分词的关联句式,并按照预设方式从所述关联句式中提取目标句式;
根据所述历史问题、所述历史答案和所述目标句式,通过相似度算法计算所述目标句式对应的目标答案,并将所述目标答案反馈给所述目标用户。
一种基于FAQ匹配模型的信息查询装置,包括:
获取模块,用于从预设查询库中获取目标用户提交的查询问题,其中,所述预设查询库包含所述目标用户对应的历史问题和历史答案;
分词处理模块,用于对所述查询问题进行分词处理,并根据分词处理得到的分词结果确定目标关键词;
映射查询模块,用于根据所述目标关键词进行映射查询,得到映射分词和组合分词;
目标句式提取模块,用于查询包含所述映射分词和所述组合分词的关联句式,并按照预设方式从所述关联句式中提取目标句式;
目标答案反馈模块,用于根据所述历史问题、所述历史答案和所述目标句式,通过相似度算法计算所述目标句式对应的目标答案,并将所述目标答案反馈给所述目标用户。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于FAQ匹配模型的信息查询方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于FAQ匹配模型的信息查询方法的步骤。
上述基于FAQ匹配模型的信息查询方法、及其相关设备,通过对获取到的查询问题进行分词处理,再根据分词结果确定目标关键词的方式,能够实现对查询问题进行精确分词,保证根据分词结果确定目标关键词的准确性;获取目标关键词对应的映射分词和组合分词,并根据映射分词和组合分词确定目标句式,能够有效分析出数据库中与查询问题最接近的目标句式,将查询问题规范化,避免出现相似句义导致出现识别混乱的情况,从而提高后续计算的准确性;最后结合历史问题、历史答案和目标句式计算出对应的目标答案,通过结合历史数据能够增加数据之间的信息交互,提高目标答案获取的准确性,进而提高目标用户信息查询的准确性及查询效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于FAQ匹配模型的信息查询方法的流程图;
图2是本发明实施例提供的基于FAQ匹配模型的信息查询方法中步骤S1的流程图;
图3是本发明实施例提供的基于FAQ匹配模型的信息查询方法中步骤S12的流程图;
图4是本发明实施例提供的基于FAQ匹配模型的信息查询方法中步骤S2的流程图;
图5是本发明实施例提供的基于FAQ匹配模型的信息查询方法中步骤S3的流程图;
图6是本发明实施例提供的基于FAQ匹配模型的信息查询方法中步骤S4的流程图;
图7是本发明实施例提供的基于FAQ匹配模型的信息查询方法中步骤S5的流程图;
图8是本发明实施例提供的基于FAQ匹配模型的信息查询装置的示意图;
图9是本发明实施例提供的计算机设备的基本机构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的基于FAQ匹配模型的信息查询方法应用于服务端,服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。在一实施例中,如图1所示,提供一种基于FAQ匹配模型的信息查询方法,包括如下步骤:
S1:从预设查询库中获取目标用户提交的查询问题,其中,预设查询库包含目标用户对应的历史问题和历史答案。
在本发明实施例中,通过直接从预设查询库中获取目标用户提交的查询问题,其中,预设查询库包含目标用户对应的历史问题和历史答案。
需要说明的是,历史问题是指目标用户以往查询的问题,且每个历史问题都有与其对应的历史答案。
S2:对查询问题进行分词处理,并根据分词处理得到的分词结果确定目标关键词。
在本发明是实施例中,分词处理是指将连续的字序列按照一定的规范重新组合成词序列的过程,例如,将连续的字序列“ABCD”通过分词处理得到“AB”和“CD”
具体地,利用机械分词方法对步骤S1获取到的查询问题做分词处理,获取分词处理后的目标分词作为分词结果,并从分词结果中识别预先设置的关键词作为目标关键词。
机械分词方法主要有正向最大匹配、正向最小匹配、逆向最大匹配、逆向最小匹配四种方法。优选地,本提案采用正向最大匹配算法。
S3:根据目标关键词进行映射查询,得到映射分词和组合分词。
在本发明实施例中,映射分词是指与目标关键词存在映射关系的词汇;组合分词是指由映射分词组合而成并在查询问题中存在的词汇。
具体地,通过将目标关键词导入到预设映射查询端口,当预设映射查询端口检测到目标关键词时,将输出目标关键词对应的映射分词和组合分词。其中,预设映射查询端口是指专门用于对目标关键词进行映射查询的处理端口。
S4:查询包含映射分词和组合分词的关联句式,并按照预设方式从关联句式中提取目标句式。
在本发明实施例中,关联句式是指包含映射分词和组合分词的句子,通过对预设数据库中的所有基础句式进行查询,若查询到包含映射分词和组合分词的基础句式,则将该基础句式作为关联句式,并按照预设方式从关联句式中提取目标句式。
其中,预设方式是指根据用户实际需求设定的方式。
需要说明的是,由于关联句式可能有多个,故需要从中选取准确性最高的关联句式作为目标句式。
S5:根据历史问题、历史答案和目标句式,通过相似度算法计算目标句式对应的目标答案,并将目标答案反馈给目标用户。
在本发明实施例中,相似度算法是指用户预先设定用于计算目标句式与基本语义特征之间的相似度的识别算法。通过根据相似度算法,从预先设置好的分类器中计算与目标句式相似度最高的基本语义特征,再获取该基本语义特征对应的基本答案作为目标答案,最后将目标答案反馈给目标用户。
本实施例中,通过对获取到的查询问题进行分词处理,再根据分词结果确定目标关键词的方式,能够实现对查询问题进行精确分词,保证根据分词结果确定目标关键词的准确性;获取目标关键词对应的映射分词和组合分词,并根据映射分词和组合分词确定目标句式,能够有效分析出数据库中与查询问题最接近的目标句式,将查询问题规范化,避免出现相似句义导致出现识别混乱的情况,从而提高后续计算的准确性;最后结合历史问题、历史答案和目标句式计算出对应的目标答案,通过结合历史数据能够增加数据之间的信息交互,提高目标答案获取的准确性,进而提高目标用户信息查询的准确性及查询效率。
在一实施例中,查询问题存储于区块链中,如图2所示,S1中,即从预设查询库中获取目标用户提交的查询问题包括如下步骤:
S11:获取目标用户提交的基本问题及用户id。
在本发明实施例中,从预设用户库中获取目标用户提交的基本问题以及目标用户对应的用户id,其中,预设用户库是指专门用于存储目标用户提交的基本问题和目标用户对应的用户id的数据库。
S12:根据用户id对目标用户进行查询信用审核,提取审核通过的目标用户提交的基本问题作为查询问题。
具体地,根据用户id获取目标用户对应的信用等级,若信用等级大于等于预先设定的等级,则表示审核通过,将该用户id对应的目标用户提交的基本问题作为查询问题,并将查询问题保存到步骤S1的预设查询库中。
需要强调的是,为进一步保证上述查询问题的私密和安全性,上述查询问题还可以存储于一区块链的节点中。
本实施例中,利用获取到的用户id对目标用户进行查询信用审核,并将审核通过的基本问题确定为查询问题。通过查询信用审核的方式能够有效避免恶意用户的查询,提高信息查询的安全性,进而能够保证系统的稳定性,从而提高信息查询的准确性。
在一实施例中,如图3所示,步骤S12中,即根据用户id对目标用户进行查询信用审核,提取审核通过的目标用户提交的基本问题作为查询问题包括如下步骤:
S121:从预设信用库中获取用户id对应的信用等级。
具体地,将用户id与预设信用库中的基本id进行匹配,当匹配到用户id与基本id相同时,获取基本id对应的信用等级作为该用户id对应的信用等级。
其中,预设信用库是指专门用于存储不同的基本id与基本id对应的信用等级的数据库,且预设信用库中必存在与用户id相同的基本id。
S122:将信用等级与预设等级进行比较,若信息等级大于等于预设等级,则将信用等级对应的用户id的目标用户确定为合格用户。
在本发明实施例中,通过将信用等级与预设等级进行比较,若信用等级大于等于预设等级,表示该信用等级对应的用户符合信用标准,并将与该信用等级存在关联的用户id对应的目标用户确定为合格用户。
其中,预设等级是指用户根据实际需求设定用于区分合格用户的等级。
S123:选取合格用户提交的基本问题作为查询问题。
具体对,选取合格用户提交的基本问题作为查询问题。
本实施例中,通过获取用户id对应的信用等级与预设等级进行比较的方式,能够准确判断用户id对应的目标用户是否拥有查询权限,避免恶意用户的查询,提高信息查询的安全性,进而能够保证系统的稳定性,从而提高信息查询的准确性。
在一实施例中,如图4所示,步骤S2中,即对查询问题进行分词处理,并根据分词处理得到的分词结果确定目标关键词包括如下步骤:
S21:根据预设要求设置字符串索引值和分词的最大长度值。
在本发明实施例中,字符串索引值是指专门用于定位开始扫描字符的位置,若该字符串索引值为0,则表示第一个字符为开始扫描字符的位置。最大长度值是专门用于扫描字符的最大范围,若最大长度值为2,则表示扫描最多2个字符,若最大长度值为3,则表示扫描最多3个字符。
具体地,根据预设要求对字符串索引值和分词的最大长度值进行设置,其中,预设要求具体可以是将字符串索引值设置为0,将最大长度值设置为2,其具体的设置要求可以根据用户的实际需求进行设置,此处不做限制。
S22:根据字符串索引值和最大长度值,从查询问题中提取目标字符。
具体地,根据步骤S21得到的字符串索引值和最大长度值,按照从左到右的扫描方式扫描查询问题,当扫描到最大长度值的字符时,将从开始扫描位置的字符到该最大长度值的字符标识为目标字符,并对该目标字符进行提取。
例如,查询问题为“南京市长江大桥”,最大长度值为3,字符串索引的初始值为0,按照从左到右的方式扫描该查询问题,即扫描到最大长度值的字符为“南京市”,将该最大长度值的字符“南京市”标识为目标字符,并对该目标字符进行提取。
S23:将目标字符与预设字典库中的合法字符进行匹配。
具体地,将步骤22中得到的目标字符与预设字典库中的合法字符进行匹配。其中,预设字典库是指专门用于存储用户设定的合法字符的数据库。
S24:若匹配成功,则将目标字符确定为目标分词,并将字符串索引值更新为当前字符串索引值加上当前最大长度值,基于更新后的字符串索引值和最大长度值,从查询问题中提取目标字符进行匹配,直到完成对查询问题的分词操作为止。
具体地,将步骤S22中得到的目标字符与预设字典库中的合法字符进行匹配,当匹配到目标字符与预设字典库中的合法字符相同时,表示匹配成功,并将该目标字符确定为目标分词,同时将字符串索引值更新为当前步骤S22中的字符串索引值加上当前步骤S22中的最大长度值,基于更新后的字符串索引值和最大长度值,从查询问题中提取目标字符进行匹配,直到完成对查询问题的分词操作为止。
例如,如步骤S22中的例子所述,若目标字符“南京市”匹配到与预设字典库中的字符相同时,则将目标字符“南京市”确认为目标分词,并将字符串索引值更新为当前字符串索引值0+当前最大长度值3,即字符串索引值将更新为3,并基于更新后的字符串索引值3和最大长度值3,从语料中提取目标字符进行匹配,即针对查询问题“南京市长江大桥”,从“长”字符开始扫描。直到完成对查询问题的分词操作为止。
S25:若匹配失败,则将最大长度值进行递减,并基于更新后的最大长度值和字符串索引值从查询问题中提取目标字符进行匹配,直到完成对查询问题的分词操作为止。
具体地,将步骤S22中得到的目标字符与预设字典库中的合法字符进行匹配,当未匹配到目标字符与预设字典库中的合法字符相同时,表示匹配失败,则将最大长度值更新为当前步骤S22中的最大长度值减1,并基于更新后的最大长度值和字符串索引值从查询问题中提取目标字符进行匹配,直到完成对查询问题的分词操作为止。
需要说明的是,当所有最大长度值大于1的目标字符都未匹配到与预设字典库中的字符相同时,则将单个字符确认为目标分词。
例如:如步骤S22中的例子所述,若目标字符“南京市”未匹配到与预设字典库中的字符相同时,则将最大长度值更新为当前最大长度值3减1,即最大长度值更新为2,并基于更新后的最大长度值2和字符串索引值0从查询问题中提取目标字符进行匹配,直到完成对查询问题的分词操作为止。
S26:将所有目标分词构成分词结果,并基于分词结果进行关键词识别,得到目标关键词。
具体地,将所有目标分词构成分词结果,将分词结果中的每个目标分词与预设关键库中的每个关键词进行匹配,若存在目标分词与关键词相同,则表示匹配成功,并将该目标分词确定为目标关键词,若目标分词与关键词不相同,则表示匹配失败,并对该目标分词进行删除处理。
其中,预设关键库是指专门用于存储不同的关键词的数据库。
本实施例中,通过设置字符串索引值和分词的最大长度值对查询问题进行分词处理,并根据字符串索引值和最大长度值与合法字符进行匹配得到目标分词,最后针对目标分词构成的分词结果进行关键词识别,以得到目标关键词。从而实现能够智能对查询问题进行分词处理,保证根据分词处理得到的分词结果确定目标关键词的准确性,进而提高后续根据目标关键词确定目标句式的准确性。
在一实施例中,如图5所示,步骤S3中,即根据目标关键词进行映射查询,得到映射分词和组合分词包括如下步骤:
S31:从映射分词库中获取与目标关键词存在映射关系的映射分词。
在本发明实施例中,将每个目标关键词与映射分词库中的标识信息进行匹配,若目标关键词与标识信息相同,则获取标识信息对应的映射词汇作为该目标关键词对应的映射分词。其中,映射分词库是指专门用于存储不同的标识信息及标识信息对应的映射词汇的数据库。
S32:从映射表中获取映射分词对应的初始组合分词。
在本发明实施例中,将映射分词与映射表中的组合词汇进行比较,判断组合词汇是否由映射分词构成,若组合词汇由映射分词构成,则将该组合词汇作为初始组合分词。其中,映射表是指用于记录组合词汇的数据表。
例如:映射分词为:笔记本、电脑、属性、品牌;
组合词汇为:笔记本价格、笔记本电脑、笔记本属性;
则初始组合分词为:笔记本电脑、笔记本属性
S33:对组合分词进行过滤处理,提取组合分词。
具体地,判断查询问题中是否包含初始组合分词,若包含,则将该初始组合分词作为组合分词,否则,将该初始组合分词进行删除处理。
本实施例中,通过获取目标关键词对应的映射分词,再根据映射分词获取初始组合分词,最后对组合分词进行过滤处理得到组合分词。利用获取映射分词和组合分词的方式,能够有效获取语义与目标关键词相似的分词,提高后续运算对语义理解的范围,从而避免后续出现相似句义导致出现识别混乱的情况,进而提高后续计算的准确性。
在一实施例中,如图6所示,步骤S4中,即查询包含映射分词和组合分词的关联句式,并按照预设方式从关联句式中提取目标句式包括如下步骤:
S41:从预设数据库中获取包含映射分词和组合分词的关联句式,其中,映射分词包含基础字符数量,组合分词包含组合字符数量,关联句式包含关联字符数量。
在本发明实施例中,针对每个目标分词对应的映射分词及该映射分词对应的组合分词,将预设数据库中的基础句式与映射分词及该映射分词对应的组合分词进行匹配,若匹配到基础句式包含映射分词和组合分词,则将该基础句式作为关联句式。
其中,预设数据库是指专门用于存储不同的基础句式的数据库。
基础字符数量是指映射分词包含字符的个数。
组合字符数量是指组合分词包含字符的个数。
关联字符数量是指关联句式中包含字符的总个数。
S42:将关联句式中包含组合分词的个数作为句式长度。
具体地,将关联句式中包含组合分词的个数作为句式长度。
例如,组合分词为:笔记本电脑、价格区间;
关联句式为:小明想要购买价格区间为三千到五千的笔记本电脑。
则该关联句式对应的句式长度为2。
S43:针对每个关联句式,根据基础字符数量、组合字符数量、关联字符数量和句式长度,计算关联句式对应的关联分值。
具体地,针对每个关联句式,按照公式(1)计算关联句式对应的关联分值:
其中,S为关联分值,a为句式长度、b为预设比值,c为基础字符数量,d为组合字符数量,e为关联字符数量。
S44:将每个关联句式对应的关联分值进行比较,选取关联分值最大的关联句式作为目标句式。
具体地,将每个关联句式对应的关联分值进行比较,并按照从小到大的顺序对关联分值进行排序,选取排序最大的关联分值对应的关联句式作为目标句式。
例如,存在关联句式A、B和C,其对应的关联分值分别为80、60和70,将关联分值按照从小到大的顺序排序后为:60、70和80,则选取80对应的关联句式A作为目标句式。
本实施例中,通过获取含映射分词和组合分词的关联句式,在通过公式(1)能够快速准确地计算出与查询问题最接近的目标句式,从而将查询问题规范化,避免出现相似句义导致出现识别混乱的情况,从而有效提高信息查询的准确性。
在一实施例中,如图7所示,步骤S5中,即根据历史问题、历史答案和目标句式,通过相似度算法计算目标句式对应的目标答案,并将目标答案反馈给目标用户包括如下步骤:
S51:将历史问题、历史答案和目标句式进行向量特征转换处理,依次得到第一向量特征、第二向量特征和第三向量特征。
在本发明实施例中,将历史问题、历史答案和目标句式导入到预设转换端口进行向量特征转换处理,得到历史问题对应的第一向量特征,历史答案对应的第二向量特征以及目标句式对应的第三向量特征。
其中,预设转换端口是指专门用于进行向量特征转换处理的处理端口。
S52:将第一向量特征、第二向量特征和第三向量特征导入到lstm网络中进行语义特征提取,得到目标语义特征。
在本发明实施例中,将第一向量特征、第二向量特征和第三向量特征导入到lstm网络中,当lstm网络监测到第一向量特征、第二向量特征和第三向量特征时,根据预先设置好的卷积核进行语义特征提取处理,得到语义特征提取处理后的目标语义特征。
其中,lstm网络是指专门用于进行语义特征提取的网络,其包含用户预先设置好的卷积核。
S53:利用预先设置好的分类器对目标语义特征进行相似度计算,输出相似度最大的识别结果作为目标答案,并将目标答案反馈给目标用户。
在本发明实施例中,预先设置好的分类器中包含用户预先设置的相似度算法和不同的基本语义特征,且每个基本语义特征都有与其相互映射的基本答案。
具体地,当分类器检测到目标语义特征时,则分别计算目标语义特征与每个基本语义特征之间的相似度,并获取相似度最大的基本语义特征对应的基本答案作为识别结果进行输出,将识别结果作为目标答案,并按照预设的方式反馈的用户。
其中,预设的方式具体可以是指邮件的形式,也可以是指反馈在前端界面上,其具体可根据用户的实际需求进行设置,此处不作限制。
本实施例中,将历史问题、历史答案和目标句式,分别转化为第一向量特征、第二向量特征和第三向量特征的方式,能够将自然语言转化为机器识别的语言,提高机器识别精确度,进而保证后续计算的准确性;再将第一向量特征、第二向量特征和第三向量特征导入到lstm网络中进行语义特征提取,得到目标语义特征,通过利用lstm网络能够加强数据之间的信息交互,有效提高目标语义特征提取的准确性;最后相似度计算的方式,能够快速准确地获取目标语义特征对应的目标答案,保证目标答案的获取效率及准确性,进而提高目标用户信息查询的准确性及查询效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种基于FAQ匹配模型的信息查询装置,该基于FAQ匹配模型的信息查询装置与上述实施例中基于FAQ匹配模型的信息查询方法一一对应。如图8所示,该基于FAQ匹配模型的信息查询装置包括查询问题获取模块81,分词处理模块82,映射查询模块83,目标句式提取模块84和目标答案反馈模块85。各功能模块详细说明如下:
获取模块81,用于从预设查询库中获取目标用户提交的查询问题,其中,预设查询库包含目标用户对应的历史问题和历史答案;需要强调的是,为进一步保证上述查询问题的私密和安全性,上述查询问题还可以存储于一区块链的节点中;
分词处理模块82,用于对查询问题进行分词处理,并根据分词处理得到的分词结果确定目标关键词;
映射查询模块83,用于根据目标关键词进行映射查询,得到映射分词和组合分词;
目标句式提取模块84,用于查询包含映射分词和组合分词的关联句式,并按照预设方式从关联句式中提取目标句式;
目标答案反馈模块85,用于根据历史问题、历史答案和目标句式,通过相似度算法计算目标句式对应的目标答案,并将目标答案反馈给目标用户。
进一步地,获取模块81包括:
第一获取子模块,用于获取目标用户提交的基本问题及用户id;
审核子模块,用于根据用户id对目标用户进行查询信用审核,提取审核通过的目标用户提交的基本问题作为查询问题。
进一步地,审核子模块包括:
第二获取单元,用于从预设信用库中获取用户id对应的信用等级;
等级比较单元,用于将信用等级与预设等级进行比较,若信息等级大于等于预设等级,则将信用等级对应的用户id的目标用户确定为合格用户;
选取单元,用于选取合格用户提交的基本问题作为查询问题。
进一步地,分词处理模块82包括:
设置子模块,用于根据预设要求设置字符串索引值和分词的最大长度值;
目标字符确定子模块,用于根据字符串索引值和最大长度值,从查询问题中提取目标字符;
匹配子模块,用于将目标字符与预设字典库中的合法字符进行匹配;
匹配成功子模块,用于若匹配成功,则将目标字符确定为目标分词,并将字符串索引值更新为当前字符串索引值加上当前最大长度值,基于更新后的字符串索引值和最大长度值,从查询问题中提取目标字符进行匹配,直到完成对查询问题的分词操作为止;
匹配失败子模块,用于若匹配失败,则将最大长度值进行递减,并基于更新后的最大长度值和字符串索引值从查询问题中提取目标字符进行匹配,直到完成对查询问题的分词操作为止;
目标关键词确定子模块,用于将所有目标分词构成分词结果,并基于分词结果进行关键词识别,得到目标关键词。
进一步地,映射查询模块83包括:
第三获取子模块,用于从映射分词库中获取与目标关键词存在映射关系的映射分词;
第四获取子模块,用于从映射表中获取映射分词对应的初始组合分词;
过滤处理子模块,用于对组合分词进行过滤处理,提取组合分词。
进一步地,目标句式提取模块84包括:
第五获取子模块,用于从预设数据库中获取包含映射分词和组合分词的关联句式,其中,映射分词包含基础字符数量,组合分词包含组合字符数量,关联句式包含关联字符数量;
句式长度确定子模块,用于将关联句式中包含组合分词的个数作为句式长度;
计算子模块,用于针对每个关联句式,根据基础字符数量、组合字符数量、关联字符数量和句式长度,计算关联句式对应的关联分值;
分值比较子模块,用于将每个关联句式对应的关联分值进行比较,选取关联分值最大的关联句式作为目标句式。
进一步地,目标答案反馈模块85包括:
转换处理子模块,用于将历史问题、历史答案和目标句式进行向量特征转换处理,依次得到第一向量特征、第二向量特征和第三向量特征;
语义特征提取子模块,用于将第一向量特征、第二向量特征和第三向量特征导入到lstm网络中进行语义特征提取,得到目标语义特征;
相似度计算子模块,用于利用预先设置好的分类器对目标语义特征进行相似度计算,输出相似度最大的识别结果作为目标答案,并将目标答案反馈给目标用户。
本申请的一些实施例公开了计算机设备。具体请参阅图9,为本申请的一实施例中计算机设备90基本结构框图。
如图9中所示意的,所述计算机设备90包括通过系统总线相互通信连接存储器91、处理器92、网络接口93。需要指出的是,图9中仅示出了具有组件91-93的计算机设备90,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器91至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器91可以是所述计算机设备90的内部存储单元,例如该计算机设备90的硬盘或内存。在另一些实施例中,所述存储器91也可以是所述计算机设备90的外部存储设备,例如该计算机设备90上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器91还可以既包括所述计算机设备90的内部存储单元也包括其外部存储设备。本实施例中,所述存储器91通常用于存储安装于所述计算机设备90的操作系统和各类应用软件,例如所述基于FAQ匹配模型的信息查询方法的程序代码等。此外,所述存储器91还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器92在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器92通常用于控制所述计算机设备90的总体操作。本实施例中,所述处理器92用于运行所述存储器91中存储的程序代码或者处理数据,例如运行所述基于FAQ匹配模型的信息查询方法的程序代码。
所述网络接口93可包括无线网络接口或有线网络接口,该网络接口93通常用于在所述计算机设备90与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有查询问题信息录入程序,所述查询问题信息录入程序可被至少一个处理器执行,以使所述至少一个处理器执行上述任意一种基于FAQ匹配模型的信息查询方法的步骤。
需要强调的是,为进一步保证上述查询问题的私密和安全性,上述查询问题还可以存储于一区块链的节点中。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台计算机设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
最后应说明的是,显然以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (7)

1.一种基于FAQ匹配模型的信息查询方法,其特征在于,所述基于FAQ匹配模型的信息查询方法包括:
从预设查询库中获取目标用户提交的查询问题,其中,所述预设查询库包含所述目标用户对应的历史问题和历史答案;
对所述查询问题进行分词处理,并根据分词处理得到的分词结果确定目标关键词;
根据所述目标关键词进行映射查询,得到映射分词和组合分词;
查询包含所述映射分词和所述组合分词的关联句式,并按照预设方式从所述关联句式中提取目标句式;
根据所述历史问题、所述历史答案和所述目标句式,通过相似度算法计算所述目标句式对应的目标答案,并将所述目标答案反馈给所述目标用户;
所述对所述查询问题进行分词处理,并根据分词处理得到的分词结果确定目标关键词的步骤包括:
根据预设要求设置字符串索引值和分词的最大长度值;根据所述字符串索引值和所述最大长度值,从所述查询问题中提取目标字符;将所述目标字符与预设字典库中的合法字符进行匹配;若匹配成功,则将所述目标字符确定为目标分词,并将所述字符串索引值更新为当前所述字符串索引值加上当前所述最大长度值,基于更新后的所述字符串索引值和所述最大长度值,从所述查询问题中提取目标字符进行匹配,直到完成对所述查询问题的分词操作为止;若匹配失败,则将所述最大长度值进行递减,并基于更新后的所述最大长度值和所述字符串索引值从所述查询问题中提取目标字符进行匹配,直到完成对所述查询问题的分词操作为止;将所有所述目标分词构成所述分词结果,并基于所述分词结果进行关键词识别,得到所述目标关键词;
所述查询包含所述映射分词和所述组合分词的关联句式,并按照预设方式从所述关联句式中提取目标句式的步骤包括:
从预设数据库中获取包含所述映射分词和所述组合分词的所述关联句式,其中,所述映射分词包含基础字符数量,所述组合分词包含组合字符数量,所述关联句式包含关联字符数量;将所述关联句式中包含组合分词的个数作为句式长度;针对每个所述关联句式,根据所述基础字符数量、所述组合字符数量、所述关联字符数量和所述句式长度,计算所述关联句式对应的关联分值;将每个所述关联句式对应的关联分值进行比较,选取所述关联分值最大的关联句式作为所述目标句式;
所述根据所述历史问题、所述历史答案和所述目标句式,通过相似度算法计算所述目标句式对应的目标答案,并将所述目标答案反馈给所述目标用户的步骤包括:
将所述历史问题、所述历史答案和所述目标句式进行向量特征转换处理,依次得到第一向量特征、第二向量特征和第三向量特征;将所述第一向量特征、所述第二向量特征和所述第三向量特征导入到lstm网络中进行语义特征提取,得到目标语义特征;利用预先设置好的分类器对所述目标语义特征进行相似度计算,输出相似度最大的识别结果作为所述目标答案,并将所述目标答案反馈给所述目标用户。
2.如权利要求1所述的基于FAQ匹配模型的信息查询方法,所述查询问题存储于区块链中,其特征在于,所述从预设查询库中获取目标用户提交的查询问题的步骤包括:
获取所述目标用户提交的基本问题及用户id;
根据所述用户id对所述目标用户进行查询信用审核,提取审核通过的所述目标用户提交的基本问题作为所述查询问题。
3.如权利要求2所述的基于FAQ匹配模型的信息查询方法,其特征在于,所述根据所述用户id对所述目标用户进行查询信用审核,提取审核通过的所述目标用户提交的基本问题作为所述查询问题的步骤包括:
从预设信用库中获取所述用户id对应的信用等级;
将所述信用等级与预设等级进行比较,若所述信用等级大于等于预设等级,则将所述信用等级对应的用户id的目标用户确定为合格用户;
选取所述合格用户提交的基本问题作为所述查询问题。
4.如权利要求1所述的基于FAQ匹配模型的信息查询方法,其特征在于,所述根据所述目标关键词进行映射查询,得到映射分词和组合分词的步骤包括:
从映射分词库中获取与所述目标关键词存在映射关系的映射分词;
从映射表中获取所述映射分词对应的初始组合分词;
对所述组合分词进行过滤处理,提取所述组合分词。
5.一种基于FAQ匹配模型的信息查询装置,所述基于FAQ匹配模型的信息查询装置运行时实现如权利要求1至4任一项所述的基于FAQ匹配模型的信息查询方法,其特征在于,所述基于FAQ匹配模型的信息查询装置包括:
获取模块,用于从预设查询库中获取目标用户提交的查询问题,其中,所述预设查询库包含所述目标用户对应的历史问题和历史答案;
分词处理模块,用于对所述查询问题进行分词处理,并根据分词处理得到的分词结果确定目标关键词;
映射查询模块,用于根据所述目标关键词进行映射查询,得到映射分词和组合分词;
目标句式提取模块,用于查询包含所述映射分词和所述组合分词的关联句式,并按照预设方式从所述关联句式中提取目标句式;
目标答案反馈模块,用于根据所述历史问题、所述历史答案和所述目标句式,通过相似度算法计算所述目标句式对应的目标答案,并将所述目标答案反馈给所述目标用户。
6.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述基于FAQ匹配模型的信息查询方法的步骤。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述基于FAQ匹配模型的信息查询方法的步骤。
CN202010610219.9A 2020-06-29 2020-06-29 基于faq匹配模型的信息查询方法、及其相关设备 Active CN111797217B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010610219.9A CN111797217B (zh) 2020-06-29 2020-06-29 基于faq匹配模型的信息查询方法、及其相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010610219.9A CN111797217B (zh) 2020-06-29 2020-06-29 基于faq匹配模型的信息查询方法、及其相关设备

Publications (2)

Publication Number Publication Date
CN111797217A CN111797217A (zh) 2020-10-20
CN111797217B true CN111797217B (zh) 2023-09-26

Family

ID=72809853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010610219.9A Active CN111797217B (zh) 2020-06-29 2020-06-29 基于faq匹配模型的信息查询方法、及其相关设备

Country Status (1)

Country Link
CN (1) CN111797217B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114598699B (zh) * 2020-12-07 2023-07-28 国家广播电视总局广播电视科学研究院 文件内容审核方法、装置及电子设备
CN112925882A (zh) * 2021-02-18 2021-06-08 联想(北京)有限公司 一种信息处理方法及装置
CN113434321B (zh) * 2021-06-24 2022-07-19 平安国际智慧城市科技股份有限公司 运维中部署错误的处理方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933645A (zh) * 2019-01-28 2019-06-25 平安科技(深圳)有限公司 信息查询方法、装置、计算机设备及存储介质
CN110096580A (zh) * 2019-04-24 2019-08-06 北京百度网讯科技有限公司 一种faq对话方法、装置及电子设备
CN110275946A (zh) * 2019-05-14 2019-09-24 闽江学院 一种faq自动问答方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10127274B2 (en) * 2016-02-08 2018-11-13 Taiger Spain Sl System and method for querying questions and answers

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933645A (zh) * 2019-01-28 2019-06-25 平安科技(深圳)有限公司 信息查询方法、装置、计算机设备及存储介质
CN110096580A (zh) * 2019-04-24 2019-08-06 北京百度网讯科技有限公司 一种faq对话方法、装置及电子设备
CN110275946A (zh) * 2019-05-14 2019-09-24 闽江学院 一种faq自动问答方法和装置

Also Published As

Publication number Publication date
CN111797217A (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
WO2022105122A1 (zh) 基于人工智能的答案生成方法、装置、计算机设备及介质
CN111797217B (zh) 基于faq匹配模型的信息查询方法、及其相关设备
CN111814466A (zh) 基于机器阅读理解的信息抽取方法、及其相关设备
CN110825857B (zh) 多轮问答识别方法、装置、计算机设备及存储介质
CN109933973B (zh) 密码校验方法、装置、计算机设备及存储介质
WO2021151270A1 (zh) 图像结构化数据提取方法、装置、设备及存储介质
CN110929125B (zh) 搜索召回方法、装置、设备及其存储介质
CN109933645B (zh) 信息查询方法、装置、计算机设备及存储介质
CN110825949A (zh) 基于卷积神经网络的信息检索方法、及其相关设备
CN111694826A (zh) 基于人工智能的数据增强方法、装置、电子设备及介质
CN108053545B (zh) 证件验真方法和装置、服务器、存储介质
WO2021213160A1 (zh) 基于图神经网络的医疗查询方法、装置、计算机设备及存储介质
CN113707300A (zh) 基于人工智能的搜索意图识别方法、装置、设备及介质
CN113656547B (zh) 文本匹配方法、装置、设备及存储介质
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
WO2022105493A1 (zh) 基于语义识别的数据查询方法、装置、设备及存储介质
CN110929525B (zh) 一种网贷风险行为分析检测方法、装置、设备和存储介质
CN111506595B (zh) 一种数据查询方法、系统及相关设备
CN111985212A (zh) 文本关键字识别方法、装置、计算机设备及可读存储介质
CN113344125B (zh) 长文本匹配识别方法、装置、电子设备及存储介质
US20230289736A1 (en) Apparatus and method for applicant scoring
CN116450916A (zh) 基于定段分级的信息查询方法、装置、电子设备及介质
CN113627186B (zh) 基于人工智能的实体关系检测方法及相关设备
CN113420143B (zh) 文书摘要生成方法、装置、设备及存储介质
CN111597453B (zh) 用户画像方法、装置、计算机设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant