CN112948561A - 一种问答知识库自动扩建的方法和装置 - Google Patents

一种问答知识库自动扩建的方法和装置 Download PDF

Info

Publication number
CN112948561A
CN112948561A CN202110336795.3A CN202110336795A CN112948561A CN 112948561 A CN112948561 A CN 112948561A CN 202110336795 A CN202110336795 A CN 202110336795A CN 112948561 A CN112948561 A CN 112948561A
Authority
CN
China
Prior art keywords
preset
corpus data
knowledge base
corpus
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110336795.3A
Other languages
English (en)
Other versions
CN112948561B (zh
Inventor
李宸
袁晟君
庞帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCB Finetech Co Ltd
Original Assignee
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCB Finetech Co Ltd filed Critical CCB Finetech Co Ltd
Priority to CN202110336795.3A priority Critical patent/CN112948561B/zh
Publication of CN112948561A publication Critical patent/CN112948561A/zh
Application granted granted Critical
Publication of CN112948561B publication Critical patent/CN112948561B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了问答知识库自动扩建的方法和装置,涉及人工智能技术领域。该方法的一具体实施方式包括爬取预设领域的用户询问语料,识别所述语料中的目标实体,以替换成预设的关联实体得到语料数据;根据预设知识库中的标准问,基于预设的相似度模型,判断所述语料数据是否计算得到相似的标准问,若是则更新至所述知识库标准问对应的扩展问集合中;若否则调用预设的聚类模型,通过所述语料数据生成新的标准问,更新至所述知识库。从而,本发明的实施方式能够解决现有FAQ问答类任务人工标注的规模和质量要求较高,知识库的多样性、可扩展性差的问题。

Description

一种问答知识库自动扩建的方法和装置
技术领域
本发明涉及人工智能技术领域,具体地为自然语言处理,尤其涉及一种问答知识库自动扩建的方法和装置。
背景技术
在FAQ问答类任务中,知识库的设计尤为重要,一般包括常见问句和答案两大部分,其中常见问句由标准问及其扩展问组成,每个标准问代表一类咨询意图,扩展问用于丰富各自类别的语义,提升匹配准确率。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
目前大多数问答知识库是基于同场景下的用户问答数据进行构建的,但现实中FAQ任务启动时往往没有这种储备数据。并且,现有构建技术对人工标注的规模和质量要求较高,即需要提前定义好标准问类型并对每个输入句进行相应标注,从而才可训练分类模型。另外,现有技术大多缺乏对新标准问的支持,影响了最终知识库的多样性。
发明内容
有鉴于此,本发明实施例提供一种问答知识库自动扩建的方法和装置,能够解决现有FAQ问答类任务人工标注的规模和质量要求较高,知识库的多样性、可扩展性差的问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种问答知识库自动扩建的方法,包括爬取预设领域的用户询问语料,识别所述语料中的目标实体,以替换成预设的关联实体得到语料数据;根据预设知识库中的标准问,基于预设的相似度模型,判断所述语料数据是否计算得到相似的标准问,若是则更新至所述知识库标准问对应的扩展问集合中;若否则调用预设的聚类模型,通过所述语料数据生成新的标准问,更新至所述知识库。
可选地,识别所述语料中的目标实体,以替换成预设的关联实体得到语料数据之前,包括:
根据预设的属性类型,对目标实体进行归类,进而为每个类别的目标实体配置相应的关联实体。
可选地,识别所述语料中的目标实体,以替换成预设的关联实体得到语料数据,包括:
调用目标实体库,按照优先级,逐个将所述语料中的字符串进行实体检索,将检索到的目标实体的位置使用占位符替换;
根据所述占位符查找对应的目标实体所属类型,以得到所有的关联实体,分别替换对应的占位符,生成多个语料数据。
可选地,包括:
所述占位符包括实体类型和句中唯一标识序号,且实体类型与句中唯一标识序号中间通过预设符号隔开。
可选地,以替换成预设的关联实体得到语料数据之后,包括:
调用预设的过滤模型,获取符合预设场景的语料数据。
可选地,根据预设知识库中的标准问,基于预设的相似度模型,如果计算得到语料数据相似的标准问,则更新至所述知识库标准问对应的扩展问集合中,包括:
提取语料数据的文本特征,通过计算欧几里得距离在预设知识库中查找到最相似的标准问;
判断语料数据与所述标准问之间的相似度是否大于预设的阈值,若是则将所述语料数据更新至所述知识库标准问对应的扩展问集合中,若否则调用预设的深度神经网络模型,基于知识库中标准问对筛选后的语料数据进行匹配,以将筛选后的语料数据添加至对应的知识库中标准问的扩展问集合中。
可选地,调用预设的聚类模型,通过所述语料数据生成新的标准问,包括:
利用Sentence-BERT网络结构对所述语料数据进行文本向量化,以基于K-means模型对文本向量化后的语料数据进行聚类处理,生成新的标准问。
另外,本发明还提供了一种问答知识库自动扩建的装置,包括获取模块,用于爬取预设领域的用户询问语料,识别所述语料中的目标实体,以替换成预设的关联实体得到语料数据;处理模块,用于根据预设知识库中的标准问,基于预设的相似度模型,判断所述语料数据是否计算得到相似的标准问,若是则更新至所述知识库标准问对应的扩展问集合中;若否则调用预设的聚类模型,通过所述语料数据生成新的标准问,更新至所述知识库。
可选地,获取模块识别所述语料中的目标实体,以替换成预设的关联实体得到语料数据之前,包括:
根据预设的属性类型,对目标实体进行归类,进而为每个类别的目标实体配置相应的关联实体。
可选地,获取模块识别所述语料中的目标实体,以替换成预设的关联实体得到语料数据,包括:
调用目标实体库,按照优先级,逐个将所述语料中的字符串进行实体检索,将检索到的目标实体的位置使用占位符替换;
根据所述占位符查找对应的目标实体所属类型,以得到所有的关联实体,分别替换对应的占位符,生成多个语料数据。
可选地,获取模块以替换成预设的关联实体得到语料数据之后,包括:
调用预设的过滤模型,获取符合预设场景的语料数据。
可选地,处理模块根据预设知识库中的标准问,基于预设的相似度模型,如果计算得到语料数据相似的标准问,则更新至所述知识库标准问对应的扩展问集合中,包括:
提取语料数据的文本特征,通过计算欧几里得距离在预设知识库中查找到最相似的标准问;
判断语料数据与所述标准问之间的相似度是否大于预设的阈值,若是则将所述语料数据更新至所述知识库标准问对应的扩展问集合中,若否则调用预设的深度神经网络模型,基于知识库中标准问对筛选后的语料数据进行匹配,以将筛选后的语料数据添加至对应的知识库中标准问的扩展问集合中。
可选地,处理模块调用预设的聚类模型,通过所述语料数据生成新的标准问,包括:
利用Sentence-BERT网络结构对所述语料数据进行文本向量化,以基于K-means模型对文本向量化后的语料数据进行聚类处理,生成新的标准问。
上述发明中的一个实施例具有如下优点或有益效果:本发明能够通过爬取预设领域的用户询问语料,识别所述语料中的目标实体,以替换成预设的关联实体得到语料数据;根据预设知识库中的标准问,基于预设的相似度模型,判断所述语料数据是否计算得到相似的标准问,若是则更新至所述知识库标准问对应的扩展问集合中;若否则调用预设的聚类模型,通过所述语料数据生成新的标准问,更新至所述知识库。从而,本发明实现了自动从互联网社区上爬取、筛选相关数据,并将其进行扩展问入库或者聚类为新的标准问,即不仅从外部数据中挑选与已有标准问相似的问句入库,而且对无法入库的新问句进行聚类产生新的标准问。同时,尽可能减少了FAQ问答类任务构建过程中的人工量。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明第一实施例的问答知识库自动扩建的方法的主要流程的示意图;
图2是根据本发明第二实施例的问答知识库自动扩建的方法的主要流程的示意图;
图3是根据本发明实施例的语料清洗的主要流程的示意图;
图4是根据本发明实施例的语料过滤的主要流程的示意图;
图5是根据本发明实施例的问答知识库自动扩建的装置的主要模块的示意图;
图6是本发明实施例可以应用于其中的示例性系统架构图;
图7是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明第一实施例的问答知识库自动扩建的方法的主要流程的示意图,如图1所示,所述问答知识库自动扩建的方法包括:
步骤S101,爬取预设领域的用户询问语料,识别所述语料中的目标实体,以替换成预设的关联实体得到语料数据。
在实施例中,本发明可以爬取外部数据源,得到预设领域的用户咨询语料,识别所述语料中的目标实体,以替换成预设的关联实体得到语料数据。进一步地,本发明识别所述语料中的目标实体,以替换成预设的关联实体得到语料数据之前,包括根据预设的属性类型,对目标实体进行归类,进而为每个类别的目标实体配置相应的关联实体。
也就是说,在对语料中的目标实体进行关联实体的替换之前,需要构建目标实体与关联实体的映射关系。其中,目标实体基于属性类型进行归类,然后针对不同属性类型的配置相应的关联实体,从而目标实体与关联实体通过属性类型建立了映射关系,即生成目标实体库。
作为另一些实施例,识别所述语料中的目标实体,以替换成预设的关联实体得到语料数据,具体的实施过程包括:调用目标实体库,按照优先级,逐个将所述语料中的字符串进行实体检索,将检索到的目标实体的位置使用占位符替换;根据所述占位符查找对应的目标实体所属类型,以得到所有的关联实体,分别替换对应的占位符,生成多个语料数据。优选地,所述占位符包括实体类型和句中唯一标识序号,且实体类型与句中唯一标识序号中间通过预设符号隔开。例如:占位符由实体类型和句中唯一标识序号组成,中间用#号隔开,比如:<name_org#1>,这里的句中唯一标识序号不一定代表该实体在句中的出现顺序。
另外,逐个将所述语料中的字符串进行实体检索时,可以采用正则表达式对语料中的字符串进行实体检索。
值得说明的是,本发明在以替换成预设的关联实体得到语料数据之后,可以调用预设的过滤模型,获取符合预设场景的语料数据。也就是说,对语料进行场景相关性检测,找到明显不相关的数据,去除与预设场景无关的语料。
步骤S102,根据预设知识库中的标准问,基于预设的相似度模型,判断所述语料数据是否计算得到相似的标准问,若是则更新至所述知识库标准问对应的扩展问集合中;若否则调用预设的聚类模型,通过所述语料数据生成新的标准问,更新至所述知识库。
在实施例中,FAQ问答类任务的知识库包括标准问、扩展问以及答案,例如表1所示:
表1
Figure BDA0002997945120000071
在一些实施例中,根据预设知识库中的标准问,基于预设的相似度模型,如果计算得到语料数据相似的标准问,则更新至所述知识库标准问对应的扩展问集合中,具体的实施过程包括:提取语料数据的文本特征,通过计算欧几里得距离在预设知识库中查找到最相似的标准问;判断语料数据与所述标准问之间的相似度是否大于预设的阈值,若是则将所述语料数据更新至所述知识库标准问对应的扩展问集合中,若否则调用预设的深度神经网络模型DNN(Deep Neural Networks),基于知识库中标准问对筛选后的语料数据进行匹配,以将筛选后的语料数据添加至对应的知识库中标准问的扩展问集合中。
较佳的,可以通过词级TF-IDF、字级TF-IDF和word2vec方式提取语料数据的文本特征。其中,TF-IDF是一种用于信息检索与数据挖掘的加权技术。TF意思是词频(TermFrequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。Word2vec为用来产生词向量的模型。
作为另一些实施例,调用预设的聚类模型,通过所述语料数据生成新的标准问,具体的实施过程包括利用Sentence-BERT网络结构对所述语料数据进行文本向量化,以基于K-means模型对文本向量化后的语料数据进行聚类处理,生成新的标准问。其中,BERT模型为预训练语言模型,用于对文本进行编码,可以获得文本的深层语义特征,同时具有较强的泛化能力。Sentence-BERT(SBERT)网络结构对预训练的BE RT进行修改:使用Siamese andTriplet Network(孪生网络和三胞胎网络)生成具有语义的句子Embedding向量。K-means模型是一种迭代求解的聚类分析算法。
需要说明的是,针对聚类处理得到的结果进行筛选,然后利用TF-IDF等统计模型抽取一些候选主题词,便于总结对应的标准问,最后作为新的问答对扩增入知识库。
综上所述,本发明能够将外部数据转化为特定场景可直接使用的问句语料,并自动加入知识库作为扩展问,提升了知识库的多样性。并且,突破了传统构建方法只能扩增现有询问意图的限制,可以从海量数据中发现新的标准问,拓宽了知识库的广度。同时,将清洗和筛选后的问句分配到与其最相似的标准问类别上,减轻了对大量有标训练数据的依赖。
图2是根据本发明第二实施例的问答知识库自动扩建的方法的主要流程示意图,如图2所示,所述问答知识库自动扩建的方法可以包括数据爬取和清洗、相关性过滤、扩展问选取入库和新问句聚类四个环节,各自独立实现并在运行时前后连接,达到端到端自动扩建的效果。具体地,在进行数据爬取和清洗时可以从外部数据(例如互联网问答社区)爬取预设领域(例如理财领域)相关的用户询问语料,并进行数据清洗。从而,在确保语义通顺、逻辑正确的前提下,对原始语料文本中不符合当前机构理财产品相关表述的问句,进行个别词汇替换,使之符合相关场景对话。例如:以银行理财领域的FAQ问答知识库构建为例:
Input>>如何在网上银行查询B银行的产品B持有份额?
Output<<如何在网上银行查询A银行的产品A持有份额?
较佳的,在清洗语料之前需要构建目标实体和关联实体,其中,目标实体是指原始数据中与当前机构(例如A银行)不相关的一些实体表示,例如“XX手机银行”、“可转债”等等。同时,需要对实体进行类型划分,以便后续处理过程能够进行必要的逻辑判断和词汇映射。例如:目标实体主要划分为6个类别,共计289种实体配置,如表2:
表2
类型 代号 目标实体示例 数量
客户端名称 name_client XX手机银行,理财嘉app 22
机构名称 name_org XXXX银行,XX证券 159
产品名称 name_pro 添利宝,XX理财 62
交易媒介类型 type_medium 证券软件,炒股软件 6
金融行为类型 type_finance 活期存款,可转债 26
机构类型 type_org 基金公司,融资理财平台 14
值得说明的是,对每个目标实体可以设置正则匹配优先级,该字段需要设置一个正整数,或者缺省不设置。在执行实体清洗的过程中,程序会按照该优先级进行由高到低的顺序进行搜索。另外在缺省不设置的情况下,该字段默认取字符数量,例如“重庆手机银行”的取值为6,“手机银行”为4。
关联实体为用于替换目标实体的词汇,如表3所示。
表3
类型 代号 关联实体
客户端名称 name_client A银行手机银行
机构名称 name_org A银行
产品名称 name_pro 产品A
交易媒介类型 type_medium 手机银行
金融行为类型 type_finance 理财
机构类型 type_org 银行
需要说明的是,关联实体与目标实体数据进行分离配置,主要目的是为了确保程序的配置灵活性和项目可迁移性。当需要针对其他产品或其他场景进行数据清洗时,只需要更换和调整该文件即可。
作为本发明的实施例,在对语料清洗时可以调用目标实体库,按照优先级,逐个将所述语料中的字符串进行实体检索,将检索到的目标实体的位置使用占位符替换;根据所述占位符查找对应的目标实体所属类型,以得到所有的关联实体,分别替换对应的占位符,生成多个语料数据。进一步地实施例,可以按先后顺序分为“实体搜索”、“候选映射”、“规则调整”和“生成输出”4个步骤,以待清洗与,语料“B银行的产品B和C银行手机银行的产品C哪个更好?”为例,如下图3所示。其中,“实体搜索”的过程依赖目标实体库完成,在初始化的同时,完成对优先级字段的补全填充。执行时,按照优先级,逐个将目标实体字符串通过正则表达式进行实体检索,对于检索得到的位置,使用占位符替换。“候选映射”的过程是根据实体类型,查询到对应的关联实体,将所有关联实体(即候选实体)加入对应的缓存位置,以供后续过程决策。“规则调整”的过程是基于一系列有序的决策规则,通过含有占位符的字符串、原始实体(即目标实体)、候选实体,决策得到各个位置的变更方案。其中,所有的规则可以通过添加成员函数的方式增加。
例如:已经设置的规则:_rule_1_enumerate:针对2个或3个相同实体并列表述的情况,只替换其中一个。_rule_5_belong:针对存在逻辑归属关系的实体共同出现,需要将这些实体一起替换或一起不替换,包括10种情况:(C=name_client;O=name_org;P name_pro):CP&CP、OP&OP、CP&OP、OP&CP、CP&P、OP&P、P&CP、&OP、CP、OP。
最后,便可以生成多个语料数据并输出。
在实施例中,在对语料数据执行相关性过滤的时候,可以视为文本分类任务,对所有输入文本进行有关和无关的二分类预测,即调用预设的过滤模型,获取符合预设场景的语料数据。具体的实施过程包括:如图4所示,直接使用BERT模型编码输入的字符序列(即语料数据),保存[CLS]位置输出的隐层向量为第一向量,将剩余标记token位置输出信息加以直接利用。通过自注意力机制,对所有输出隐层向量加权求和得到第二向量。另外,为增加更多语义特征信息,语料数据输入后经过分词获得词标记(word token)以及词性信息,分别针对词和词性进行向量嵌入操作,词向量利用公开预训练词向量,词向量与词性向量拼接形成当前word token的向量表示,经过Bi-LSTM模型编码后,通过self-attention得到句表示第三向量。拼接第一向量、第二向量、第三向量形成最终向量表示,经过全连接多层神经网络输出分类概率分布。输入输出示例:
Input>>如何在A银行手机银行购买理财投资产品
Output<<1(场景相关)
Input>>老人机发短信所有步骤
Output<<0(场景无关)
在实施例中,扩展问选取入库是将清洗和过滤后的语料数据与知识库中的标准问逐个进行匹配,并选取语义相似的问句作为扩展问加入库中对应类别。即提取语料数据的文本特征,通过计算欧几里得距离在预设知识库中查找到最相似的标准问;判断语料数据与所述标准问之间的相似度是否大于预设的阈值,若是则将所述语料数据更新至所述知识库标准问对应的扩展问集合中,若否则调用预设的深度神经网络模型DNN(Deep NeuralNetworks),基于知识库中标准问对筛选后的语料数据进行匹配,以将筛选后的语料数据添加至对应的知识库中标准问的扩展问集合中。
值得说明的是,由于有标注的语料很少,仅有知识库中的标准问和少量扩展问,所以无法按照常规的方法训练相似度模型。本发明采用了基于小样本场景的扩展问选取方法,主要包括了两个步骤:初步增广和匹配入库。其中,小样本学习:常规的机器学习可以在标注数据丰富的应用上取得不错的表现,但现实世界中往往遇到由于隐私、安全或道德等原因,难以获取大规模训练数据。或者对大规模数据进行标注的成本过高甚至不可行,以及现有的方法无法从少量样本中学习泛化知识。小样本学习融合了弱监督学习、迁移学习和元学习等技术,典型代表有数据增强方法、基于度量学习的ProtoNet和预训练模型等。
进一步地实施例,步骤初步增广是基于统计机器学习模型对外部数据(从外部数据爬取的语料)进行初步筛选入库,目的是以较小成本快速增加和丰富知识库的数量和多样性,便于后续的模型训练。具体来说,先提取语料的文本特征然后通过计算欧几里得距离找到最相似的标准问,最后通过设定一个较高的阈值筛选出相似度较低的问句。为了保证入库质量,避免造成误差扩散,对入库扩展问进行快速审核,删除实际不相近的扩展问,得到一个初步增广后的知识库。
之后,步骤匹配入库是借助深度神经网络模型,对剩余数据进行进一步匹配入库。其中,借鉴小样本学习的概念构建模型,基于预训练的Bert模型和word2vector提供的先验知识信息,通过基于metric的模型,在少量已知类别的样本条件下(few shot)学习文本间的度量。具体的实施过程包括:首先,构造多种类型的训练样本包括相似问句之间组成的正例、相异问句组成的负例、问句和答案组成的正负例以及问句及其自身组成的正例。然后通过Bert模型对输入的句子对进行encoding得到句向量,通过全连接多层神经网络对两者的距离度量进行学习。之后使用交叉熵损失函数计算模型推理结果和标注之间的差异,其中正例标注为1,负例标注为0。最后基于损失值进行反向传播并更新参数。在模型预测阶段,引入一个针对阈值控制的管理系数harshness(取值0~1),其数值越大,入库结果正确率越高,但入库数据越少,多样性也会有所降低。在模型中harshness转化为阈值,对结果进行入库约束:
Threshold=0.5+0.5*harshness
引入该控制系数的目的在于,模型在实际生产环境中,可以通过一个明确的参数设置来灵活应对不同的业务需求场景。至此,对外部数据中置信度较高的问句进行了选取入库,补充了新的扩展问。
在实施例中,新问句聚类是对于没能归类到已有标准问的语料数据,通过聚类的方法归纳出新的标准问,并扩增至知识库。较佳的,采用无监督文本聚类,配合一定后期筛选处理的方案。具体地,无监督文本聚类模型涉及文本向量化和聚类两个部分,其中文本向量化采用Sentence-BERT网络结构实现新问句的向量表示,包括:选取平均池化策略,就是将句子通过BERT模型得到的所有字的隐层向量进行求均值操作,最终将均值向量作为整句话的句向量。采用K-means模型对新问句的句向量进行聚类操作,先随机选取k个向量作为类别质心,然后根据距离计算其余向量所属类别,最后根据类内元素调整质心位置,循环以上过程直到收敛。
图5是根据本发明实施例的问答知识库自动扩建的装置的主要模块的示意图,如图5所示,所述问答知识库自动扩建的装置包括获取模块501和处理模块502。其中,获取模块501爬取预设领域的用户询问语料,识别所述语料中的目标实体,以替换成预设的关联实体得到语料数据;处理模块502根据预设知识库中的标准问,基于预设的相似度模型,判断所述语料数据是否计算得到相似的标准问,若是则更新至所述知识库标准问对应的扩展问集合中;若否则调用预设的聚类模型,通过所述语料数据生成新的标准问,更新至所述知识库。
在一些实施例中,获取模块501识别所述语料中的目标实体,以替换成预设的关联实体得到语料数据之前,包括:
根据预设的属性类型,对目标实体进行归类,进而为每个类别的目标实体配置相应的关联实体。
在一些实施例中,获取模块501识别所述语料中的目标实体,以替换成预设的关联实体得到语料数据,包括:
调用目标实体库,按照优先级,逐个将所述语料中的字符串进行实体检索,将检索到的目标实体的位置使用占位符替换;
根据所述占位符查找对应的目标实体所属类型,以得到所有的关联实体,分别替换对应的占位符,生成多个语料数据。
在一些实施例中,获取模块501以替换成预设的关联实体得到语料数据之后,包括:
调用预设的过滤模型,获取符合预设场景的语料数据。
在一些实施例中,处理模块502根据预设知识库中的标准问,基于预设的相似度模型,如果计算得到语料数据相似的标准问,则更新至所述知识库标准问对应的扩展问集合中,包括:
提取语料数据的文本特征,通过计算欧几里得距离在预设知识库中查找到最相似的标准问;
判断语料数据与所述标准问之间的相似度是否大于预设的阈值,若是则将所述语料数据更新至所述知识库标准问对应的扩展问集合中,若否则调用预设的深度神经网络模型,基于知识库中标准问对筛选后的语料数据进行匹配,以将筛选后的语料数据添加至对应的知识库中标准问的扩展问集合中。
在一些实施例中,处理模块502调用预设的聚类模型,通过所述语料数据生成新的标准问,包括:
利用Sentence-BERT网络结构对所述语料数据进行文本向量化,以基于K-means模型对文本向量化后的语料数据进行聚类处理,生成新的标准问。
需要说明的是,在本发明所述问答知识库自动扩建的方法和所述问答知识库自动扩建的装置在具体实施内容上具有相应关系,故重复内容不再说明。
图6示出了可以应用本发明实施例的问答知识库自动扩建的方法或问答知识库自动扩建的装置的示例性系统架构600。
如图6所示,系统架构600可以包括终端设备601、602、603,网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备601、602、603通过网络604与服务器605交互,以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备601、602、603可以是具有问答知识库自动扩建的屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器605可以是提供各种服务的服务器,例如对用户利用终端设备601、602、603所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的问答知识库自动扩建的方法一般由服务器605执行,相应地,计算装置一般设置于服务器605中。
应该理解,图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图7,其示出了适于用来实现本发明实施例的终端设备的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM703中,还存储有计算机系统700操作所需的各种程序和数据。CPU701、ROM702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶问答知识库自动扩建的器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块和处理模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括爬取预设领域的用户询问语料,识别所述语料中的目标实体,以替换成预设的关联实体得到语料数据;根据预设知识库中的标准问,基于预设的相似度模型,判断所述语料数据是否计算得到相似的标准问,若是则更新至所述知识库标准问对应的扩展问集合中;若否则调用预设的聚类模型,通过所述语料数据生成新的标准问,更新至所述知识库。
根据本发明实施例的技术方案,能够解决现有FAQ问答类任务人工标注的规模和质量要求较高,知识库的多样性、可扩展性差的问题。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (15)

1.一种问答知识库自动扩建的方法,其特征在于,包括:
爬取预设领域的用户询问语料,识别所述语料中的目标实体,以替换成预设的关联实体得到语料数据;
根据预设知识库中的标准问,基于预设的相似度模型,判断所述语料数据是否计算得到相似的标准问,若是则更新至所述知识库标准问对应的扩展问集合中;若否则调用预设的聚类模型,通过所述语料数据生成新的标准问,更新至所述知识库。
2.根据权利要求1所述的方法,其特征在于,识别所述语料中的目标实体,以替换成预设的关联实体得到语料数据之前,包括:
根据预设的属性类型,对目标实体进行归类,进而为每个类别的目标实体配置相应的关联实体。
3.根据权利要求2所述的方法,其特征在于,识别所述语料中的目标实体,以替换成预设的关联实体得到语料数据,包括:
调用目标实体库,按照优先级,逐个将所述语料中的字符串进行实体检索,将检索到的目标实体的位置使用占位符替换;
根据所述占位符查找对应的目标实体所属类型,以得到所有的关联实体,分别替换对应的占位符,生成多个语料数据。
4.根据权利要求3所述的方法,其特征在于,包括:
所述占位符包括实体类型和句中唯一标识序号,且实体类型与句中唯一标识序号中间通过预设符号隔开。
5.根据权利要求1所述的方法,其特征在于,以替换成预设的关联实体得到语料数据之后,包括:
调用预设的过滤模型,获取符合预设场景的语料数据。
6.根据权利要求1所述的方法,其特征在于,根据预设知识库中的标准问,基于预设的相似度模型,如果计算得到语料数据相似的标准问,则更新至所述知识库标准问对应的扩展问集合中,包括:
提取语料数据的文本特征,通过计算欧几里得距离在预设知识库中查找到最相似的标准问;
判断语料数据与所述标准问之间的相似度是否大于预设的阈值,若是则将所述语料数据更新至所述知识库标准问对应的扩展问集合中,若否则调用预设的深度神经网络模型,基于知识库中标准问对筛选后的语料数据进行匹配,以将筛选后的语料数据添加至对应的知识库中标准问的扩展问集合中。
7.根据权利要求1所述的方法,其特征在于,调用预设的聚类模型,通过所述语料数据生成新的标准问,包括:
利用Sentence-BERT网络结构对所述语料数据进行文本向量化,以基于K-means模型对文本向量化后的语料数据进行聚类处理,生成新的标准问。
8.一种问答知识库自动扩建的装置,其特征在于,包括:
获取模块,用于爬取预设领域的用户询问语料,识别所述语料中的目标实体,以替换成预设的关联实体得到语料数据;
处理模块,用于根据预设知识库中的标准问,基于预设的相似度模型,判断所述语料数据是否计算得到相似的标准问,若是则更新至所述知识库标准问对应的扩展问集合中;若否则调用预设的聚类模型,通过所述语料数据生成新的标准问,更新至所述知识库。
9.根据权利要求8所述的装置,其特征在于,获取模块识别所述语料中的目标实体,以替换成预设的关联实体得到语料数据之前,包括:
根据预设的属性类型,对目标实体进行归类,进而为每个类别的目标实体配置相应的关联实体。
10.根据权利要求9所述的装置,其特征在于,获取模块识别所述语料中的目标实体,以替换成预设的关联实体得到语料数据,包括:
调用目标实体库,按照优先级,逐个将所述语料中的字符串进行实体检索,将检索到的目标实体的位置使用占位符替换;
根据所述占位符查找对应的目标实体所属类型,以得到所有的关联实体,分别替换对应的占位符,生成多个语料数据。
11.根据权利要求8所述的装置,其特征在于,获取模块以替换成预设的关联实体得到语料数据之后,包括:
调用预设的过滤模型,获取符合预设场景的语料数据。
12.根据权利要求8所述的装置,其特征在于,处理模块根据预设知识库中的标准问,基于预设的相似度模型,如果计算得到语料数据相似的标准问,则更新至所述知识库标准问对应的扩展问集合中,包括:
提取语料数据的文本特征,通过计算欧几里得距离在预设知识库中查找到最相似的标准问;
判断语料数据与所述标准问之间的相似度是否大于预设的阈值,若是则将所述语料数据更新至所述知识库标准问对应的扩展问集合中,若否则调用预设的深度神经网络模型,基于知识库中标准问对筛选后的语料数据进行匹配,以将筛选后的语料数据添加至对应的知识库中标准问的扩展问集合中。
13.根据权利要求8所述的装置,其特征在于,处理模块调用预设的聚类模型,通过所述语料数据生成新的标准问,包括:
利用Sentence-BERT网络结构对所述语料数据进行文本向量化,以基于K-means模型对文本向量化后的语料数据进行聚类处理,生成新的标准问。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
15.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202110336795.3A 2021-03-29 2021-03-29 一种问答知识库自动扩建的方法和装置 Active CN112948561B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110336795.3A CN112948561B (zh) 2021-03-29 2021-03-29 一种问答知识库自动扩建的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110336795.3A CN112948561B (zh) 2021-03-29 2021-03-29 一种问答知识库自动扩建的方法和装置

Publications (2)

Publication Number Publication Date
CN112948561A true CN112948561A (zh) 2021-06-11
CN112948561B CN112948561B (zh) 2023-07-07

Family

ID=76227338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110336795.3A Active CN112948561B (zh) 2021-03-29 2021-03-29 一种问答知识库自动扩建的方法和装置

Country Status (1)

Country Link
CN (1) CN112948561B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114564599A (zh) * 2022-04-28 2022-05-31 中科雨辰科技有限公司 一种基于查询字符串模板的检索系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140164304A1 (en) * 2012-12-11 2014-06-12 International Business Machines Corporation Method of answering questions and scoring answers using structured knowledge mined from a corpus of data
CN105608218A (zh) * 2015-12-31 2016-05-25 上海智臻智能网络科技股份有限公司 智能问答知识库的建立方法、建立装置及建立系统
CN108038234A (zh) * 2017-12-26 2018-05-15 众安信息技术服务有限公司 一种问句模板自动生成方法及装置
CN109934347A (zh) * 2017-12-18 2019-06-25 上海智臻智能网络科技股份有限公司 扩展问答知识库的装置
CN111831794A (zh) * 2020-07-10 2020-10-27 杭州叙简科技股份有限公司 一种基于知识图谱的综合管廊行业知识问答系统构建方法
CN112131876A (zh) * 2020-09-04 2020-12-25 交通银行股份有限公司太平洋信用卡中心 一种基于相似度确定标准问题的方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140164304A1 (en) * 2012-12-11 2014-06-12 International Business Machines Corporation Method of answering questions and scoring answers using structured knowledge mined from a corpus of data
CN105608218A (zh) * 2015-12-31 2016-05-25 上海智臻智能网络科技股份有限公司 智能问答知识库的建立方法、建立装置及建立系统
CN109934347A (zh) * 2017-12-18 2019-06-25 上海智臻智能网络科技股份有限公司 扩展问答知识库的装置
CN108038234A (zh) * 2017-12-26 2018-05-15 众安信息技术服务有限公司 一种问句模板自动生成方法及装置
CN111831794A (zh) * 2020-07-10 2020-10-27 杭州叙简科技股份有限公司 一种基于知识图谱的综合管廊行业知识问答系统构建方法
CN112131876A (zh) * 2020-09-04 2020-12-25 交通银行股份有限公司太平洋信用卡中心 一种基于相似度确定标准问题的方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114564599A (zh) * 2022-04-28 2022-05-31 中科雨辰科技有限公司 一种基于查询字符串模板的检索系统

Also Published As

Publication number Publication date
CN112948561B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
US10664540B2 (en) Domain specific natural language understanding of customer intent in self-help
CN110705301B (zh) 实体关系抽取方法及装置、存储介质、电子设备
JP7301922B2 (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN110929125B (zh) 搜索召回方法、装置、设备及其存储介质
WO2021121198A1 (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
US10360219B2 (en) Applying level of permanence to statements to influence confidence ranking
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
WO2020147409A1 (zh) 一种文本分类方法、装置、计算机设备及存储介质
CN112215008A (zh) 基于语义理解的实体识别方法、装置、计算机设备和介质
CN111625715B (zh) 信息提取方法、装置、电子设备及存储介质
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN112287069A (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
US20230008897A1 (en) Information search method and device, electronic device, and storage medium
CN113407677A (zh) 评估咨询对话质量的方法、装置、设备和存储介质
CN115730597A (zh) 多级语义意图识别方法及其相关设备
US20220229994A1 (en) Operational modeling and optimization system for a natural language understanding (nlu) framework
CN115114419A (zh) 问答处理方法、装置、电子设备和计算机可读介质
CN114840685A (zh) 一种应急预案知识图谱构建方法
CN113837307A (zh) 数据相似度计算方法、装置、可读介质及电子设备
CN112948561B (zh) 一种问答知识库自动扩建的方法和装置
US20230206007A1 (en) Method for mining conversation content and method for generating conversation content evaluation model
CN112307738A (zh) 用于处理文本的方法和装置
CN113139558A (zh) 确定物品的多级分类标签的方法和装置
CN111126073A (zh) 语义检索方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant