CN113987135A - 一种银行产品问题检索方法及装置 - Google Patents

一种银行产品问题检索方法及装置 Download PDF

Info

Publication number
CN113987135A
CN113987135A CN202111425867.8A CN202111425867A CN113987135A CN 113987135 A CN113987135 A CN 113987135A CN 202111425867 A CN202111425867 A CN 202111425867A CN 113987135 A CN113987135 A CN 113987135A
Authority
CN
China
Prior art keywords
input
semantic block
semantic
question
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111425867.8A
Other languages
English (en)
Inventor
李丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202111425867.8A priority Critical patent/CN113987135A/zh
Publication of CN113987135A publication Critical patent/CN113987135A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种银行产品问题检索方法及装置,涉及自然语言处理及人工智能技术领域,其中该方法包括:接收用户输入问题,进行分词和去停用词,获取带有词性信息的输入问题;将带有词性信息的输入问题输入语义块输出模型,得到输入问题语义块;将输入问题语义块输入语义块依存关系输出模型,得到输入问题语义块依存关系,提取输入问题核心语义块;将输入问题核心语义块向量与预先构建的知识库的语义块向量进行相似度计算得到第一相似度;将输入问题语义块向量与预先构建的知识库的语义块向量进行相似度计算得到第二相似度;将第一相似度和第二相似度进行加权平均聚合得到与输入问题匹配的答案列表,推送给用户。本发明可以提高问题检索的准确性。

Description

一种银行产品问题检索方法及装置
技术领域
本发明涉及自然语言处理及人工智能技术领域,尤其涉及一种银行产品问题检索方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
近年来银行业务不断创新发展,覆盖的领域越来越多,业务逻辑错综复杂,交易渠道和交易类型也繁复众多。银行业务人员对复杂的业务和概念、用户交易中出现的问题,在用他们已有的知识无法解决问题时,往往会在维护群或工单系统中向银行开发人员咨询,针对一些基本概念和重复出现的银行产品问题,没有形成知识库,银行业务人员与银行开发人员沟通交流时费时费力,并且银行开发人员可能回复不及时,导致无法及时回复用户,影响用户体验感;现有的建立知识库检索的方案,在分词后直接计算相似度,具有缺乏考虑问句深层含义的技术问题,降低问题检索的准确性。
发明内容
本发明实施例提供一种银行产品问题检索方法,用以提高问题检索的准确性,提升用户体验感,该方法包括:
接收用户输入问题,对输入问题进行分词和去停用词,获取带有词性信息的输入问题;
将带有词性信息的输入问题输入语义块输出模型,得到输入问题语义块;所述语义块输出模型根据历史输入问题和对应的输入问题语义块,对条件随机场模型训练得到;
将输入问题语义块输入语义块依存关系输出模型,得到输入问题语义块依存关系;所述语义块依存关系输出模型根据历史输入问题语义块和对应的输入问题语义块依存关系,对条件随机场模型训练得到;
根据输入问题语义块依存关系,从输入问题语义块中提取输入问题核心语义块;
确定输入问题语义块向量及输入问题核心语义块向量;
将输入问题核心语义块向量与预先构建的知识库的语义块向量进行相似度计算,得到第一相似度;
将输入问题语义块向量与预先构建的知识库的语义块向量进行相似度计算,得到第二相似度;
将第一相似度和第二相似度进行加权平均聚合,得到与输入问题匹配的答案列表;
将与输入问题匹配的答案列表推送给用户。
本发明实施例还提供一种银行产品问题检索装置,用以提高问题检索的准确性,提升用户体验感,该装置包括:
获取模块,用于接收用户输入问题,对输入问题进行分词和去停用词,获取带有词性信息的输入问题;
输入模块,用于将带有词性信息的输入问题输入语义块输出模型,得到输入问题语义块;所述语义块输出模型根据历史输入问题和对应的输入问题语义块,对条件随机场模型训练得到;将输入问题语义块输入语义块依存关系输出模型,得到输入问题语义块依存关系;所述语义块依存关系输出模型根据历史输入问题语义块和对应的输入问题语义块依存关系,对条件随机场模型训练得到;
提取模块,用于根据输入问题语义块依存关系,从输入问题语义块中提取输入问题核心语义块;
确定模块,用于确定输入问题语义块向量及输入问题核心语义块向量;
计算模块,用于将输入问题核心语义块向量与预先构建的知识库的语义块向量进行相似度计算,得到第一相似度;将输入问题语义块向量与预先构建的知识库的语义块向量进行相似度计算,得到第二相似度;将第一相似度和第二相似度进行加权平均聚合,得到与输入问题匹配的答案列表;
推送模块,用于将与输入问题匹配的答案列表推送给用户。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述银行产品问题检索方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述银行产品问题检索方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述银行产品问题检索方法。
本发明实施例中,接收用户输入问题,对输入问题进行分词和去停用词,获取带有词性信息的输入问题;将带有词性信息的输入问题输入语义块输出模型,得到输入问题语义块;所述语义块输出模型根据历史输入问题和对应的输入问题语义块,对条件随机场模型训练得到;将输入问题语义块输入语义块依存关系输出模型,得到输入问题语义块依存关系;所述语义块依存关系输出模型根据历史输入问题语义块和对应的输入问题语义块依存关系,对条件随机场模型训练得到;根据输入问题语义块依存关系,从输入问题语义块中提取输入问题核心语义块;确定输入问题语义块向量及输入问题核心语义块向量;将输入问题核心语义块向量与预先构建的知识库的语义块向量进行相似度计算,得到第一相似度;将输入问题语义块向量与预先构建的知识库的语义块向量进行相似度计算,得到第二相似度;将第一相似度和第二相似度进行加权平均聚合,得到与输入问题匹配的答案列表;将与输入问题匹配的答案列表推送给用户。与现有技术中的技术方案相比,通过预先构建的知识库,可以节约银行工作人员与银行开发人员沟通交流成本,及时回复用户,提升用户体验感;通过语义块向量进行相似度计算,避免在分词后直接计算相似度,可以提高问题检索的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中提供的银行产品问题检索方法的流程示意图;
图2为本发明实施例中提供的语义块输出模型进行训练与测试的一具体实例图;
图3为本发明实施例中提供的语义块依存关系输出模型进行训练与测试的一具体实例图;
图4为本发明实施例中提供的语义块向量模型的结构示意图;
图5为本发明实施例中提供的银行产品问题检索装置的结构示意图;
图6为本发明实施例中提供的银行产品问题检索装置的一具体实例图;
图7为本发明实施例中提供的银行产品问题检索装置的一具体实例图;
图8为本发明实施例中提供的银行产品问题检索装置的一具体实例图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
在介绍本发明实施例之前,首先对本发明实施例涉及的名词进行介绍。
1.分词:
一种自然语言处理技术,将一个中文句子分成一个个相互独立的词语。
2.语义块:
分词后的句子,按照蕴含的意义分成相互独立的语言块。
3.条件随机场模型CRF:
条件随机场模型(Conditional Random Field,CRF)是一种判别式概率无向图学习模型,是一种用于标注和切分有序数据的条件概率模型。
经研究发现,目前银行业务知识普及,主要是以测代训、维护群答疑、用户手册、向开发人员电话询问的方式,这些方式不能保证银行业务人员对银行产品问题百分百掌握,在遇到紧急且不熟练的银行产品问题时,仅通过以上方式不能做出及时回复,导致无法及时回复用户,降低用户体验;另外,现有建立知识库检索的方案,大多是分词后直接计算相似度,未考虑问题深层含义,降低问题检索的准确性。
针对上述研究,本发明实施例提供了一种银行产品问题检索方法,图1为本发明实施例中提供的银行产品问题检索方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤101:接收用户输入问题,对输入问题进行分词和去停用词,获取带有词性信息的输入问题;
步骤102:将带有词性信息的输入问题输入语义块输出模型,得到输入问题语义块;所述语义块输出模型根据历史输入问题和对应的输入问题语义块,对条件随机场模型训练得到;
步骤103:将输入问题语义块输入语义块依存关系输出模型,得到输入问题语义块依存关系;所述语义块依存关系输出模型根据历史输入问题语义块和对应的输入问题语义块依存关系,对条件随机场模型训练得到;
步骤104:根据输入问题语义块依存关系,从输入问题语义块中提取输入问题核心语义块;
步骤105:确定输入问题语义块向量及输入问题核心语义块向量;
步骤106:将输入问题核心语义块向量与预先构建的知识库的语义块向量进行相似度计算,得到第一相似度;
步骤107:将输入问题语义块向量与预先构建的知识库的语义块向量进行相似度计算,得到第二相似度;
步骤108:将第一相似度和第二相似度进行加权平均聚合,得到与输入问题匹配的答案列表;
步骤109:将与输入问题匹配的答案列表推送给用户。
由图1所示流程可知,本发明实施例中,接收用户输入问题,对输入问题进行分词和去停用词,获取带有词性信息的输入问题;将带有词性信息的输入问题输入语义块输出模型,得到输入问题语义块;所述语义块输出模型根据历史输入问题和对应的输入问题语义块,对条件随机场模型训练得到;将输入问题语义块输入语义块依存关系输出模型,得到输入问题语义块依存关系;所述语义块依存关系输出模型根据历史输入问题语义块和对应的输入问题语义块依存关系,对条件随机场模型训练得到;根据输入问题语义块依存关系,从输入问题语义块中提取输入问题核心语义块;确定输入问题语义块向量及输入问题核心语义块向量;将输入问题核心语义块向量与预先构建的知识库的语义块向量进行相似度计算,得到第一相似度;将输入问题语义块向量与预先构建的知识库的语义块向量进行相似度计算,得到第二相似度;将第一相似度和第二相似度进行加权平均聚合,得到与输入问题匹配的答案列表;将与输入问题匹配的答案列表推送给用户。与现有技术中的技术方案相比,通过预先构建的知识库,可以节约银行工作人员与银行开发人员沟通交流成本,及时回复用户,提升用户体验感;通过语义块向量进行相似度计算,避免在分词后直接计算相似度,可以提高问题检索的准确性。
具体实施时,首先接收用户输入问题,对输入问题进行分词和去停用词,获取带有词性信息的输入问题。其中,词性信息例如可以是名词、动词、形容词。
在一个实施例中,在接收用户输入问题之前,还可以包括:获取银行产品相关的业务知识,按照一问一答的形式进行存储,预先构建为知识库。其中,预先构建的知识库中的银行产品问题隐含语义要素,语义要素是分析问题的过程中产生的对理解问题有重要作用的信息,语义要素例如可以是实体、属性、事件;其中,实体是客观存在且能够分辨的事物,实体的特征称为属性,事件是指问题中对实体进行的操作或者实体本身具有的行为。
在接收用户输入问题,对输入问题进行分词和去停用词,获取带有词性信息的输入问题之后,将带有词性信息的输入问题输入语义块输出模型,得到输入问题语义块;所述语义块输出模型根据历史输入问题和对应的输入问题语义块,对条件随机场模型训练得到。其中,语义块例如可以划分为如表1所示类别:
表1
成分标记 内容描述
Entity 实体
Attribute 实体属性
AttributeValue 实体属性值
Event 事件
EventAttribute 事件属性值
另外,采用BIO模型(B表示某类型的开始部分,I表示某类型的中间部分,O表示不属于任何类型)对语义块进行标记,如表2所示,其中,每个语义块的标记由两部分组成,第一部分是语义块的语义类型,语义类型例如可以是如下类型任意一种:实体、属性、属性值、事件、事件属性值;第二部分是词语在语义块中的位置。
表2
Figure BDA0003378395430000061
Figure BDA0003378395430000071
图2为本发明实施例中提供的语义块输出模型进行训练与测试的一具体实例图,如图2所示,本发明实施例中在将带有词性信息的输入问题输入语义块输出模型之前进行训练与测试的流程可以包括:
步骤201:获取历史输入问题和对应的输入问题语义块作为样本数据,构建训练集和测试集;
步骤202:利用训练集对条件随机场模型进行训练,得到语义块输出模型;
步骤203:利用测试集对语义块输出模型进行测试,获取测试得到的历史输入问题的语义块;
步骤204:将测试得到的历史输入问题的语义块与样本数据中对应历史输入问题的语义块进行对比,确定相似度;
步骤205:在相似度达到阈值时,得到训练完成的语义块输出模型;在相似度未达到阈值时,更新样本数据,根据更新后的样本数据,更新训练集和测试集,继续对条件随机场模型进行训练。
在一个实施例中,获取历史输入问题和对应的输入问题语义块作为样本数据,构建训练集和测试集,可以包括:对历史输入问题进行分词和去停用词,得到由带有词性信息的词语组成的历史输入问题;其中,词性信息包括如下多种词性中的任意一种:名词、动词、形容词;对历史输入问题的语义块进行标注,得到标注的历史输入问题的语义块;其中,标注信息包括语义块中词语的语义要素信息和语义块中词语的位置信息;将由带有词性信息的词语组成的历史输入问题和标注的历史输入问题的语义块作为样本数据,构建训练集和测试集。
具体的,对历史输入问题的语义块进行标注的过程例如可以是:对历史输入问题进行分词处理,得到由带有词性信息的词语组成的历史输入问题;将历史输入问题的语义块表示为序列X=x1x2...xn的形式,为序列X匹配最优的输出序列Y=y1y2...yn。举一例,本例中,例如历史输入问题为“限制值的上限多大?”,对历史输入问题进行分词处理后得到“限制值/n的/undel上限/n多/m大/a?/ww”,及对应的BIO标记信息,如表3所示。
表3
Figure BDA0003378395430000072
Figure BDA0003378395430000081
根据由带有词性信息的词语组成并且已经进行BIO标记的历史输入问题,按照如下语义块识别方法,得到标注的历史输入问题语义块:如果某一行以“B”结尾或者为空行,且下一行以“B”结尾或下一行为空行,则该行的词语与其他行的词语不进行合并,该行的词语独立为一个语义块;如果第N行以“I”结尾,且其下一行以“B”结尾或下一行为空行,则遍历第N行之前的各行,在第M行以“B”结尾时,遍历终止,则从第M行到第N行的所有词语组成一个语义块;对其他行不做处理。
具体的,在构建训练集和测试集时,需要预先设计样本数据模板,预先设计的样本数据模板例如可以如表4所示,其中,%X[row,col]中,%X表示当前词,row表示相对于当前词的行位置,col表示相对于当前词的列位置。
表4
00:%X[-1,1] 01:%X[1,1]
02:%X[-1,2] 03:%X[1,2]
04:%X[0,0] 05:%X[0,1]/%X[0,2]
06:%X[0,1] 07:%X[0,4]/%X[0,5]
08:%X[0,2] 09:%X[0,4]/%X[0,6]
10:%X[0,3] 11:%X[-1,2]/%X[0,1]
12:%X[0,2]/%X[1,1]
根据表4所示的样本数据模板,在表示样本数据时,能够准确表示该样本数据在表格中的向量,举一例,本例中,样本数据例如可以如表5所示,则对于“限额n值n上限n”来说,%限额n值n上限n[-1,4]对应的数据为“第一个词”;其中,“%限额n值n上限n[-1,4]”中的“-1”表示相对于“限额n值n上限n”的前一行,“%限额n值n上限n[-1,4]”中的“4”表示相对于“限额n值n上限n”的后四列,则能够找到相对应的数据“第一个词”。%限额n值n上限n[0,4]对应的数据为“限额”;其中,“%限额n值n上限n[0,4]”中的“0”表示相对于“限额n值n上限n”的同一行,“%限额n值n上限n[0,4]”中的“4”表示相对于“限额n值n上限n”的后四列,则能够找到相对应的数据“限额”。
表5
Figure BDA0003378395430000091
在将带有词性信息的输入问题输入语义块输出模型,得到输入问题语义块;所述语义块输出模型根据历史输入问题和对应的输入问题语义块,对条件随机场模型训练得到之后,将输入问题语义块输入语义块依存关系输出模型,得到输入问题语义块依存关系;所述语义块依存关系输出模型根据历史输入问题语义块和对应的输入问题语义块依存关系,对条件随机场模型训练得到。
图3为本发明实施例中提供的语义块依存关系输出模型进行训练与测试的一具体实例图,如图3所示,本发明实施例中在将输入问题语义块输入语义块依存关系输出模型之前进行训练与测试的流程可以包括:
步骤301:获取历史输入问题语义块和对应的输入问题语义块依存关系作为样本数据,构建训练集和测试集;
步骤302:利用训练集对条件随机场模型进行训练,得到语义块依存关系输出模型;
步骤303:利用测试集对语义块依存关系输出模型进行测试,获取测试得到的语义块依存关系;
步骤304:将测试得到的语义块依存关系与样本数据中对应语义块的依存关系进行对比,确定相似度;
步骤305:在相似度达到阈值时,得到训练完成的语义块依存关系输出模型;在相似度未达到阈值时,更新样本数据,根据更新后的样本数据,更新训练集和测试集,继续对条件随机场模型进行训练。
具体实施时,依存关系具有多种类型,依存关系类型例如可以如表6所示。在利用训练集对条件随机场模型进行训练时,首先识别出历史输入问题语义块中语义要素为实体的词语,将该词语作为依存词,根据历史输入问题语义块中所有依存词及其位置,找到与该依存词具有依存关系的其他词语,将该依存词与其他词语的依存关系作为该依存词所在历史输入问题语义块的依存关系。
表6
Figure BDA0003378395430000092
Figure BDA0003378395430000101
在将输入问题语义块输入语义块依存关系输出模型,得到输入问题语义块依存关系之后,根据输入问题语义块依存关系,从输入问题语义块中提取输入问题核心语义块。具体的,根据输入问题语义块依存关系,找出该输入问题语义块中的依存词,将依存词或者依存词的组成提取为该输入问题核心语义块。
在根据输入问题语义块依存关系,从输入问题语义块中提取输入问题核心语义块之后,确定输入问题语义块向量及输入问题核心语义块向量。图4为本发明实施例中提供的语义块向量模型的结构示意图,如图4所示,本例中,对语义块向量模型进行训练与测试完成后,能够通过该语义块向量模型确定输入问题语义块向量及输入问题核心语义块向量。其中,对语义块向量模型按照如下方式进行训练与测试。首先,对语义块进行one-hot(一位有效)编码;将所有语义块的one-hot编码和输入权重矩阵W(输入权重矩阵W初始化为N×V的矩阵,其中,N表示降维后的向量空间维数,V表示词典向量空间维数,词典为样本数据中所有输入问题语义块)相乘,将得到的矩阵相加求平均作为隐藏层向量;将隐藏层向量与输出权重矩阵Q(初始化为V×N的矩阵)相乘得到中心词向量,用Softmax函数(归一化指数函数,给定一个初始参数)预测中心词向量的概率;不断迭代,概率最大的那个位置,即预测出的语义块向量,将预测出的语义块向量与语义块的one-hot编码进行比对,在误差小于等于设定值时,表示输入权重矩阵W和输出权重矩阵Q趋于稳定,能够将该趋于稳定的输入权重矩阵W和输出权重矩阵Q作为Softmax函数的参数,进一步得到语义块向量模型。其中,W(i-2)W(i-1)W(i)W(i+1)W(i+2)为组成一个输入问题的多个语义块,该语义块向量模型根据输入层的W(i-2)、W(i-1)、W(i+1)、W(i+2),通过预测层,来确定输出层的W(i)在词典空间的位置,即确定W(i)语义块向量。将输入问题语义块输入该语义块向量模型,能够输出输入问题语义块向量;将输入问题核心语义块输入该语义块向量模型,能够输出输入问题核心语义块向量。
在确定输入问题语义块向量及输入问题核心语义块向量之后,将输入问题核心语义块向量与预先构建的知识库的语义块向量进行相似度计算,得到第一相似度;将输入问题语义块向量与预先构建的知识库的语义块向量进行相似度计算,得到第二相似度;将第一相似度和第二相似度进行加权平均聚合,得到与输入问题匹配的答案列表。具体的,将输入问题核心语义块向量与预先构建的知识库的语义块向量进行相似度计算,例如可以是,将输入问题核心语义块向量与预先构建的知识库的语义块向量进行余弦夹角计算;将输入问题语义块向量与预先构建的知识库的语义块向量进行相似度计算,例如可以是,将输入问题语义块向量与预先构建的知识库的语义块向量进行余弦夹角计算。
在将第一相似度和第二相似度进行加权平均聚合,得到与输入问题匹配的答案列表之后,将与输入问题匹配的答案列表推送给用户。
在一个实施例中,在将与输入问题匹配的答案列表推送给用户之后,还可以包括:在推送给用户的答案列表符合用户输入问题时,将该输入问题标注为已解决;在推送给用户的答案列表不符合用户输入问题时,将该输入问题标注为未解决,将该输入问题推送给维护人员进行维护。
本发明实施例中还提供了一种银行产品问题检索装置,如下面的实施例所述。由于该装置解决问题的原理与银行产品问题检索方法相似,因此该装置的实施可以参见银行产品问题检索方法的实施,重复之处不再赘述。
本发明实施例中提供了一种银行产品问题检索装置,图5为本发明实施例中提供的银行产品问题检索装置的结构示意图,如图5所示,该装置包括如下模块:
获取模块51,用于接收用户输入问题,对输入问题进行分词和去停用词,获取带有词性信息的输入问题;
输入模块52,用于将带有词性信息的输入问题输入语义块输出模型,得到输入问题语义块;所述语义块输出模型根据历史输入问题和对应的输入问题语义块,对条件随机场模型训练得到;将输入问题语义块输入语义块依存关系输出模型,得到输入问题语义块依存关系;所述语义块依存关系输出模型根据历史输入问题语义块和对应的输入问题语义块依存关系,对条件随机场模型训练得到;
提取模块53,用于根据输入问题语义块依存关系,从输入问题语义块中提取输入问题核心语义块;
确定模块54,用于确定输入问题语义块向量及输入问题核心语义块向量;
计算模块55,用于将输入问题核心语义块向量与预先构建的知识库的语义块向量进行相似度计算,得到第一相似度;将输入问题语义块向量与预先构建的知识库的语义块向量进行相似度计算,得到第二相似度;将第一相似度和第二相似度进行加权平均聚合,得到与输入问题匹配的答案列表;
推送模块56,用于将与输入问题匹配的答案列表推送给用户。
图6为本发明实施例中提供的银行产品问题检索装置的一具体实例图,如图6所示,本例中,图5所示的银行产品问题检索装置还包括:
构建模块61,用于获取模块51之前:获取银行产品相关的业务知识,按照一问一答的形式进行存储,预先构建为知识库。
图7为本发明实施例中提供的银行产品问题检索装置的一具体实例图,如图7所示,本例中,图6所示的银行产品问题检索装置还包括:
第一训练与测试模块71,用于在将带有词性信息的输入问题输入语义块输出模型之前:
获取历史输入问题和对应的输入问题语义块作为样本数据,构建训练集和测试集;
利用训练集对条件随机场模型进行训练,得到语义块输出模型;
利用测试集对语义块输出模型进行测试,获取测试得到的历史输入问题的语义块;
将测试得到的历史输入问题的语义块与样本数据中对应历史输入问题的语义块进行对比,确定相似度;
在相似度达到阈值时,得到训练完成的语义块输出模型;在相似度未达到阈值时,更新样本数据,根据更新后的样本数据,更新训练集和测试集,继续对条件随机场模型进行训练。
在一个实施例中,第一训练与测试模块71具体用于:对历史输入问题进行分词和去停用词,得到由带有词性信息的词语组成的历史输入问题;其中,词性信息包括如下多种词性中的任意一种:名词、动词、形容词;对历史输入问题的语义块进行标注,得到标注的历史输入问题的语义块;其中,标注信息包括语义块中词语的语义要素信息和语义块中词语的位置信息;将由带有词性信息的词语组成的历史输入问题和标注的历史输入问题的语义块作为样本数据,构建训练集和测试集。
图8为本发明实施例中提供的银行产品问题检索装置的一具体实例图,如图8所示,本例中,图7所示的银行产品问题检索装置还包括:
第二训练与测试模块81,用于在将输入问题语义块输入语义块依存关系输出模型之前:
获取历史输入问题语义块和对应的输入问题语义块依存关系作为样本数据,构建训练集和测试集;
利用训练集对条件随机场模型进行训练,得到语义块依存关系输出模型;
利用测试集对语义块依存关系输出模型进行测试,获取测试得到的语义块依存关系;
将测试得到的语义块依存关系与样本数据中对应语义块的依存关系进行对比,确定相似度;
在相似度达到阈值时,得到训练完成的语义块依存关系输出模型;在相似度未达到阈值时,更新样本数据,根据更新后的样本数据,更新训练集和测试集,继续对条件随机场模型进行训练。
在一个实施例中,还包括:在推送给用户的答案列表符合用户输入问题时,将该输入问题标注为已解决;在推送给用户的答案列表不符合用户输入问题时,将该输入问题标注为未解决,将该输入问题推送给维护人员进行维护。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述银行产品问题检索方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述银行产品问题检索方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述银行产品问题检索方法。
本发明实施例中,接收用户输入问题,对输入问题进行分词和去停用词,获取带有词性信息的输入问题;将带有词性信息的输入问题输入语义块输出模型,得到输入问题语义块;所述语义块输出模型根据历史输入问题和对应的输入问题语义块,对条件随机场模型训练得到;将输入问题语义块输入语义块依存关系输出模型,得到输入问题语义块依存关系;所述语义块依存关系输出模型根据历史输入问题语义块和对应的输入问题语义块依存关系,对条件随机场模型训练得到;根据输入问题语义块依存关系,从输入问题语义块中提取输入问题核心语义块;确定输入问题语义块向量及输入问题核心语义块向量;将输入问题核心语义块向量与预先构建的知识库的语义块向量进行相似度计算,得到第一相似度;将输入问题语义块向量与预先构建的知识库的语义块向量进行相似度计算,得到第二相似度;将第一相似度和第二相似度进行加权平均聚合,得到与输入问题匹配的答案列表;将与输入问题匹配的答案列表推送给用户。与现有技术中的技术方案相比,通过预先构建的知识库,可以节约银行工作人员与银行开发人员沟通交流成本,及时回复用户,提升用户体验感;通过语义块向量进行相似度计算,避免在分词后直接计算相似度,可以提高问题检索的准确性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种银行产品问题检索方法,其特征在于,包括:
接收用户输入问题,对输入问题进行分词和去停用词,获取带有词性信息的输入问题;
将带有词性信息的输入问题输入语义块输出模型,得到输入问题语义块;所述语义块输出模型根据历史输入问题和对应的输入问题语义块,对条件随机场模型训练得到;
将输入问题语义块输入语义块依存关系输出模型,得到输入问题语义块依存关系;所述语义块依存关系输出模型根据历史输入问题语义块和对应的输入问题语义块依存关系,对条件随机场模型训练得到;
根据输入问题语义块依存关系,从输入问题语义块中提取输入问题核心语义块;
确定输入问题语义块向量及输入问题核心语义块向量;
将输入问题核心语义块向量与预先构建的知识库的语义块向量进行相似度计算,得到第一相似度;
将输入问题语义块向量与预先构建的知识库的语义块向量进行相似度计算,得到第二相似度;
将第一相似度和第二相似度进行加权平均聚合,得到与输入问题匹配的答案列表;
将与输入问题匹配的答案列表推送给用户。
2.如权利要求1所述的银行产品问题检索方法,其特征在于,在接收用户输入问题之前,还包括:
获取银行产品相关的业务知识,按照一问一答的形式进行存储,预先构建为知识库。
3.如权利要求1所述的银行产品问题检索方法,其特征在于,在将带有词性信息的输入问题输入语义块输出模型之前,还包括:
获取历史输入问题和对应的输入问题语义块作为样本数据,构建训练集和测试集;
利用训练集对条件随机场模型进行训练,得到语义块输出模型;
利用测试集对语义块输出模型进行测试,获取测试得到的历史输入问题的语义块;
将测试得到的历史输入问题的语义块与样本数据中对应历史输入问题的语义块进行对比,确定相似度;
在相似度达到阈值时,得到训练完成的语义块输出模型;在相似度未达到阈值时,更新样本数据,根据更新后的样本数据,更新训练集和测试集,继续对条件随机场模型进行训练。
4.如权利要求3所述的银行产品问题检索方法,其特征在于,获取历史输入问题和对应的输入问题语义块作为样本数据,构建训练集和测试集,包括:
对历史输入问题进行分词和去停用词,得到由带有词性信息的词语组成的历史输入问题;其中,词性信息包括如下多种词性中的任意一种:名词、动词、形容词;
对历史输入问题的语义块进行标注,得到标注的历史输入问题的语义块;其中,标注信息包括语义块中词语的语义要素信息和语义块中词语的位置信息;
将由带有词性信息的词语组成的历史输入问题和标注的历史输入问题的语义块作为样本数据,构建训练集和测试集。
5.如权利要求1所述的银行产品问题检索方法,其特征在于,在将输入问题语义块输入语义块依存关系输出模型之前,还包括:
获取历史输入问题语义块和对应的输入问题语义块依存关系作为样本数据,构建训练集和测试集;
利用训练集对条件随机场模型进行训练,得到语义块依存关系输出模型;
利用测试集对语义块依存关系输出模型进行测试,获取测试得到的语义块依存关系;
将测试得到的语义块依存关系与样本数据中对应语义块的依存关系进行对比,确定相似度;
在相似度达到阈值时,得到训练完成的语义块依存关系输出模型;在相似度未达到阈值时,更新样本数据,根据更新后的样本数据,更新训练集和测试集,继续对条件随机场模型进行训练。
6.如权利要求1所述的银行产品问题检索方法,其特征在于,在将与输入问题匹配的答案列表推送给用户之后,还包括:
在推送给用户的答案列表符合用户输入问题时,将该输入问题标注为已解决;
在推送给用户的答案列表不符合用户输入问题时,将该输入问题标注为未解决,将该输入问题推送给维护人员进行维护。
7.一种银行产品问题检索装置,其特征在于,包括:
获取模块,用于接收用户输入问题,对输入问题进行分词和去停用词,获取带有词性信息的输入问题;
输入模块,用于将带有词性信息的输入问题输入语义块输出模型,得到输入问题语义块;所述语义块输出模型根据历史输入问题和对应的输入问题语义块,对条件随机场模型训练得到;将输入问题语义块输入语义块依存关系输出模型,得到输入问题语义块依存关系;所述语义块依存关系输出模型根据历史输入问题语义块和对应的输入问题语义块依存关系,对条件随机场模型训练得到;
提取模块,用于根据输入问题语义块依存关系,从输入问题语义块中提取输入问题核心语义块;
确定模块,用于确定输入问题语义块向量及输入问题核心语义块向量;
计算模块,用于将输入问题核心语义块向量与预先构建的知识库的语义块向量进行相似度计算,得到第一相似度;将输入问题语义块向量与预先构建的知识库的语义块向量进行相似度计算,得到第二相似度;将第一相似度和第二相似度进行加权平均聚合,得到与输入问题匹配的答案列表;
推送模块,用于将与输入问题匹配的答案列表推送给用户。
8.如权利要求7所述的银行产品问题检索装置,其特征在于,还包括构建模块,用于在接收用户输入问题之前:
获取银行产品相关的业务知识,按照一问一答的形式进行存储,预先构建为知识库。
9.如权利要求7所述的银行产品问题检索装置,其特征在于,还包括第一训练与测试模块,用于在将带有词性信息的输入问题输入语义块输出模型之前:
获取历史输入问题和对应的输入问题语义块作为样本数据,构建训练集和测试集;
利用训练集对条件随机场模型进行训练,得到语义块输出模型;
利用测试集对语义块输出模型进行测试,获取测试得到的历史输入问题的语义块;
将测试得到的历史输入问题的语义块与样本数据中对应历史输入问题的语义块进行对比,确定相似度;
在相似度达到阈值时,得到训练完成的语义块输出模型;在相似度未达到阈值时,更新样本数据,根据更新后的样本数据,更新训练集和测试集,继续对条件随机场模型进行训练。
10.如权利要求9所述的银行产品问题检索装置,其特征在于,第一训练与测试模块具体用于:
对历史输入问题进行分词和去停用词,得到由带有词性信息的词语组成的历史输入问题;其中,词性信息包括如下多种词性中的任意一种:名词、动词、形容词;
对历史输入问题的语义块进行标注,得到标注的历史输入问题的语义块;其中,标注信息包括语义块中词语的语义要素信息和语义块中词语的位置信息;
将由带有词性信息的词语组成的历史输入问题和标注的历史输入问题的语义块作为样本数据,构建训练集和测试集。
11.如权利要求7所述的银行产品问题检索装置,其特征在于,还包括第二训练与测试模块,用于在将输入问题语义块输入语义块依存关系输出模型之前:
获取历史输入问题语义块和对应的输入问题语义块依存关系作为样本数据,构建训练集和测试集;
利用训练集对条件随机场模型进行训练,得到语义块依存关系输出模型;
利用测试集对语义块依存关系输出模型进行测试,获取测试得到的语义块依存关系;
将测试得到的语义块依存关系与样本数据中对应语义块的依存关系进行对比,确定相似度;
在相似度达到阈值时,得到训练完成的语义块依存关系输出模型;在相似度未达到阈值时,更新样本数据,根据更新后的样本数据,更新训练集和测试集,继续对条件随机场模型进行训练。
12.如权利要求7所述的银行产品问题检索装置,其特征在于,还包括:
在推送给用户的答案列表符合用户输入问题时,将该输入问题标注为已解决;
在推送给用户的答案列表不符合用户输入问题时,将该输入问题标注为未解决,将该输入问题推送给维护人员进行维护。
13.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一所述银行产品问题检索方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至6任一所述银行产品问题检索方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至6任一所述银行产品问题检索方法。
CN202111425867.8A 2021-11-26 2021-11-26 一种银行产品问题检索方法及装置 Pending CN113987135A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111425867.8A CN113987135A (zh) 2021-11-26 2021-11-26 一种银行产品问题检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111425867.8A CN113987135A (zh) 2021-11-26 2021-11-26 一种银行产品问题检索方法及装置

Publications (1)

Publication Number Publication Date
CN113987135A true CN113987135A (zh) 2022-01-28

Family

ID=79732228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111425867.8A Pending CN113987135A (zh) 2021-11-26 2021-11-26 一种银行产品问题检索方法及装置

Country Status (1)

Country Link
CN (1) CN113987135A (zh)

Similar Documents

Publication Publication Date Title
CN111222305B (zh) 一种信息结构化方法和装置
CN109033305B (zh) 问题回答方法、设备及计算机可读存储介质
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN113821605B (zh) 一种事件抽取方法
US11461613B2 (en) Method and apparatus for multi-document question answering
CN112232024A (zh) 一种基于多标注数据的依存句法分析模型训练方法及装置
CN111368096A (zh) 基于知识图谱的信息分析方法、装置、设备和存储介质
CN113947084A (zh) 基于图嵌入的问答知识检索方法、装置及设备
CN114528413B (zh) 众包标注支持的知识图谱更新方法、系统和可读存储介质
CN112307048A (zh) 语义匹配模型训练方法、匹配方法、装置、设备及存储介质
CN111723182B (zh) 一种用于漏洞文本的关键信息抽取方法及装置
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
CN107783958B (zh) 一种目标语句识别方法及装置
CN116186219A (zh) 一种人机对话交互方法方法、系统及存储介质
CN116644148A (zh) 关键词识别方法、装置、电子设备及存储介质
CN116304728A (zh) 一种基于句子表征的短文本相似度匹配方法及应用
CN115796141A (zh) 文本数据增强方法和装置、电子设备、存储介质
CN111666770B (zh) 一种语义匹配方法及装置
CN113987135A (zh) 一种银行产品问题检索方法及装置
CN115600595A (zh) 一种实体关系抽取方法、系统、设备及可读存储介质
CN114840642A (zh) 事件抽取方法、装置、设备及存储介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination