CN116150387A - 知识库生成方法及装置、电子设备、计算机可读存储介质 - Google Patents
知识库生成方法及装置、电子设备、计算机可读存储介质 Download PDFInfo
- Publication number
- CN116150387A CN116150387A CN202210985536.8A CN202210985536A CN116150387A CN 116150387 A CN116150387 A CN 116150387A CN 202210985536 A CN202210985536 A CN 202210985536A CN 116150387 A CN116150387 A CN 116150387A
- Authority
- CN
- China
- Prior art keywords
- standard
- words
- word
- candidate
- mapping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000013507 mapping Methods 0.000 claims abstract description 102
- 230000011218 segmentation Effects 0.000 claims abstract description 48
- 239000013598 vector Substances 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 17
- 239000012634 fragment Substances 0.000 claims description 16
- 238000002372 labelling Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 230000009466 transformation Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 241000157593 Milvus Species 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 210000001072 colon Anatomy 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000009182 swimming Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000007664 blowing Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本公开提供了一种知识库生成方法及装置、电子设备、计算机可读存储介质,该方法包括:一种知识库生成方法,该知识库生成方法包括:对意图分类名称进行分词,获得第一分词结果;其中,第一分词结果包括一个或多个词;从第一分词结果中提取出关键词;从预设的映射词典库获取关键词关联的表述映射词;根据预设的语法规则和表述映射词,确定意图分类名称对应的标准问。根据本公开的实施例能够知识库的生成效率和质量。
Description
技术领域
本公开涉及人工智能技术领域,特别涉及一种知识库生成方法及装置、电子设备、计算机可读存储介质。
背景技术
在线客服已在各个行业获得广泛应用,为节约人力成本,越来越多的企业选择智能问答系统提供服务。智能问答系统是根据用户的问话从知识库获得对应的答案,并将该答案反馈给用户。因此,知识库的质量对智能问答系统至关重要。
发明内容
本公开提供一种知识库生成方法及装置、电子设备、计算机可读存储介质。
第一方面,本公开提供了一种知识库生成方法,该知识库生成方法包括:
对意图分类名称进行分词,获得第一分词结果;
从所述第一分词结果中提取出关键词;
从预设的映射词典库获取所述关键词关联的表述映射词;
根据预设的语法规则和所述表述映射词,确定所述意图分类名称对应的标准问。
第二方面,本公开提供了一种知识库生成装置,包括:
分词模块,用于对意图分类名称进行分词,获得第一分词结果;其中,所述第一分词结果包括一个或多个词;
提取模块,用于从所述第一分词结果中提取出关键词;
映射模块,用于从预设的映射词典库获取所述关键词关联的表述映射词;
确定模块,用于根据预设的语法规则和所述表述映射,确定所述意图分类名称对应的标准问。
第三方面,本公开提供了一种电子设备,该电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的知识库生成方法。
第四方面,本公开提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器/处理核执行时实现上述的知识库生成方法。
本公开所提供的实施例知识库生成方法,对意图分类名称进行分词,从第一分词结果中提取出关键词,通过映射词典库获取关键词关联的表述映射词,根据预设的语法规则和所述表述映射词,获得所述意图分类名称对应的标准问,该方法每个步骤都不需要人工参与,即可生成意图分类名称对应的标准问,提高了知识库的生成效率,而且,没有人的主观因素,标准问的生成标准一致,提高了标准问的质量。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用来提供对本公开的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开,并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述,以上和其他特征和优点对本领域技术人员将变得更加显而易见,在附图中:
图1为本公开实施例的应用场景图;
图2为本公开实施例提供的一种知识库生成方法的流程图;
图3为本公开实施例中步骤S205的流程图;
图4为本公开实施例提供的一种相似问的生成流程图;
图5为本公开实施例提供的一种知识库生成装置的框图;
图6为本公开实施例提供的一种电子设备的框图。
具体实施方式
为使本领域的技术人员更好地理解本公开的技术方案,以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在不冲突的情况下,本公开各实施例及实施例中的各特征可相互组合。
如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本公开。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
图1是本公开实施例的应用场景图。如图1所示,用户终端10用于获取用户的问话,并通过网络20传输至智能问答系统30,智能问答系统30通过分析问话获知用户的意图,并基于意图从知识库40获得对应的标准答,再将标准答反馈用户终端10,用户终端10将标准答反馈用户。
如果用户输入的问话是标准问,智能问答系统能够很快理解用户的意图,并作出相应的标准答。然而,用户输入的并非都是标准问,而是与标准问的意图相同的相似问,如果知识库只有标准问,没有相似问,则智能问答系统很难精准理解用户的意图。因此,需要对知识库进行扩展,不仅要扩展更多的标准问,还有扩展相似问、标准答等。相关技术领域中,标准问、相似问和标准答均需要不同程度的人工介入,如对标准问、相似问和标准答进行标注等,因此,知识库的生成效率低,而且,由于需要人工介入,主观因素容易导致知识库的质量较低。
本公开实施例提供一种知识库生成方法,该方法可以在无人工介入的情况下,生成标准问、相似问及标准答等,提高知识库的生成效率和质量。
根据本公开实施例的知识库生成方法,可以由终端设备或服务器等电子设备执行,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备等,方法可以通过处理器调用存储器中存储的计算机可读程序指令的方式来实现。或者,可通过服务器执行方法。
图2为本公开实施例提供的一种知识库生成方法。如图2所示,知识库生成方法包括步骤S201-步骤S204。
在步骤S201中,对意图分类名称进行分词,获得第一分词结果。
其中,意图分类名称是表示用户意图的名称,不同领域的用户意图存在区别,因此,意图分类名称也不相同。为了使知识库更强的针对性,不同领域可以建立相应的知识库。例如,信贷领域、保险领域可以分别建立各自的知识库。
在一些实施例中,可以采用相关领域的分词器对意图分类名称进行分词,本公开实施例对分词器的类型不作限定。利用分词器对意图分类名称进行分词,获得第一分词结果,第一分词结果包括一个或多个词。例如,对“多次扣款原因”进行分词,获得第一分词结果包括“多次”、“扣款”和“原因”。
在一些实施例中,在创建知识库时,还可以配置业务要素词,如:动词“还款”、“解绑”和“注销”,也可以配置业务方的名词,如“XX花花卡”等。
在步骤S202中,从第一分词结果中提取出关键词。
其中,关键词是表示意图的词,即表示意图分类名称的意图的词。对于“多次扣款原因”的关键词为“原因”,因此,从第一分词结果中提取出“原因”作为关键词。
在步骤S203中,从预设的映射词典库获取关键词关联的表述映射词。
其中,映射词典库是用于扩展关键词的词典库,可以预先设置映射词典库,也可以采用相关领域已有的映射词典库。表述映射词是与关键词意思相同但表述不同的词。
例如,“原因”的表述映射词包括“为什么”“怎么回事”“怎么解释”。本公开可以表示为“原因”:[“为什么”,“怎么回事”,“怎么解释”],冒号之前表示意图分类名称中的关键词,冒号之后表示关键词对应的表述映射词。
再如,“咨询”:[“是什么”“为什么”,“怎么办”],
“何时”:[“什么时候”,“几点”],
“日期”:[“几月几号”,“几号”,“多少号”,“还有几天”],
“操作流程”:[“怎么办理”,“怎么弄”]。
在步骤S204中,根据预设的语法规则和表述映射词,确定意图分类名称对应的标准问。
其中,不同国家和不同地区的语法规则存在差异,本公开实施例中语法规则是设预先设定,但本公开对语法规则不做限定。
在本公开实施例中,根据预设的语法规则,将表述映射词放置在标准问,并用辅助词填充,获得意图分类名称对应的标准问。例如,表述映射词为“扣款”,标准问可以为“几号扣款”或“扣款原因”。
本公开实施例提供的知识库生成方法,对意图分类名称进行分词获得第一分词结果,从第一分词结果中提取出关键词,通过映射词典库获取关键词关联的表述映射词,再根据预设的语法规则和表述映射词,获得意图分类名称对应的标准问,该方法不需要人工参与,即可生成意图分类名称对应的标准问,提高了知识库的生成效率,而且,没有人的主观因素,标准问的生成标准一致,提高了知识库中标准问的质量。
图3为本公开实施例中步骤S204的流程图。如图3所示,在一些实施例中,步骤S204,根据预设的语法规则和表述映射词,获得意图分类名称对应的标准问,包括步骤S301至步骤S302。
在步骤S301中,基于表述映射词确定备用词集。
其中,备用词集是构成标准问的词语的集合。备用词集中包含表述映射词以及生成标准问的辅助词,本公开将表述映射词和辅助词均称为备用词。备用词可以是动词、名词、代词、量词、数词等不同词性的词,用于构成标准问的主语、谓语、宾语、补语、定语、状语等。为提高标准问的生成效率,不同的表述映射词对应的备用词集不同,可以将备用词限定在表述映射词相关的范围内,缩小备用词集中备用词的数量。
在一些实施例中,基于表述映射词确定备用词集。备用词集可以是预先设定的,例如,通过模型或人工确定不同的表述映射词确定对应的备用词集,本公开对备用词集的生成方式不做限定。
示例地,关键词为“咨询”,与之对应的表述映射词为“为什么”和“怎么办”,备用词集包括“为什么”、“怎么办”、“多次”和“扣款”等,将备用词集中的各个备用词组合可以形成标准问。
示例地,备用词集包括“为什么”、“你们”、“公司”、“多次”和“扣款”,则根据预设的语法规则,可以生成意图分类名称为“多次扣款原因”对应的标准问“你们公司为什么多次扣款”。
在步骤S302中,根据预设的语法规则和备用词集,获得所述意图分类名称对应的标准问。
其中,标准问是基于备用词集中的表述映射词和辅助词组成,表述映射词和辅助词是基于预设的语法规则生成标准问。
示例地,假设表述映射词包括“为什么”,辅助词包括“扣款”、“多次”、“公司”、“你们”,根据预设的语法规则将表述映射词和辅助词组合,可以生成标准问“为什么你们公司多次扣款”。
在一些实施例中,步骤S302,根据预设的语法规则和备用词集,获得所述意图分类名称对应的标准问包括步骤S3021至步骤3024。
在步骤S3021,基于备用词集中动词的价位和语法规则生成标准问模板。
在一些实施例中,依据备用词的价位从备用词集提取出动词。其中,备用词的价位是基于词性确定的,用于区分词性。例如,动词的价位大于“1”,其它词性的词的价位小于“1”,如其它词性的词的价位为“0”。
对于动词而言,可以分为一阶动词、二阶动词和三阶动词,价位分别为“1.1”“1.2”和“1.3”。
其中,一价动词是指只能连接一个论元的动词,大部分是不及物动词为一阶动词。如“他游泳”中的“游泳”,它只连接了“他”这一个论元。一价动词还可以存在于无主句中,如“下雨了”中的“下”,“下”虽然是及物动词,但由于没有主语,它只有一个论元“雨”,所以“下”是一价动词。
二价动词就是指能连接两个论元的动词,如,“我爱你”中的“爱”,连接“我”和“你”两个论元,所以“爱”属于二价动词。二阶动词还包括:吃、看、跑、唱、爱、吹、写、跳、闻等。
三价动词指能连接三个论元的动词,如,“他给了我一本书”中的“给”,连接“他”“我”“书”三个论元,所以“给”是三价动词。三价动词还包括:打、给、教等。
在一些实施例中,备用词的价位是预先设定的。词典库包括词及该词对应的词性和价位。通过查阅词典库可以确定备用词集中各个备用词的词性和价位。
其中,标准问模板中包括一个或多个空位。在一些实施例中,标准问模板与价位对应,即标准问模板中空位的数量与动词的价位相关联。根据动词的价位确定标准问模板中空位的数量,一阶动词具有一个空位,二价动词具有两个空位,三价动词具有三个空位。
在一些实施例中,预设的语法规则可以是汉语的语法规则,即主语在谓语之前,宾语在谓语之后,谓语通常为动词,定语可以在主语或宾语之前,状语可以在句首或句尾。
在本公开实施例中,动词的价位确定后,根据预设的语法规则,可以确定空位和空位的数量,即标准问中辅助词的数量和位置。
对于价位为“1.1”的一价动词,动词后有宾语,而且只有一个宾语。因此,根据预设的语法规则,生成的标准问模板包括“一价动词-X”。对于一价动词,还可能是无主句,因此,根据预设的语法规则,生成的标准问模板包括“X-一价动词”。
对于价位为“1.2”的二价动词,动词前有主语,动词后有宾语,而且有一个宾语。因此,根据预设的语法规则,生成的标准问模板包括“X-二价动词-X”。
对于价位为“1.3”的三价动词,动词前有主语,动词后有宾语,而且可以有多个宾语,因此,根据预设的语法规则,生成的标准问模板包括“X-三价动词-X-X”。
其中,“X”表示空位,空位可以用一个词填充,也可以用多个词填充。
在步骤S3022中,利用备用词集中除动词外的其它备用词填充标准问模板中的空位,获得一个或多个候选标准问。
在本公开实施例中,备用词集包括动词以及其它词性的备用词。在标准问模板确定后,动词位置和空位的相对位置均确定,利用备用词集中除动词外的其它备用词填充标准问模板中的空位,获得一个或多个候选标准问。
示例地,备用词集包括“你们”、“公司”、“多次”和“扣款”,“扣款”的价位为1.3,由此可以确定标准问模板为“X-三价动词-X-X”,确定标准问模板有三个空位,利用“你们”、“公司”和“多次”填充标准问模板中的三个空位,获得多个候选标准问“你们公司多次扣款”、“你们扣款多次公司”和“公司扣款多次你们”和“多次扣款你们公司”。
在步骤S3023中,计算每个候选标准问的标准度。
其中,标准度用于判定候选标准问的准确程度。在本公开实施例中,逐个计算候选标准问的标准度。标准度可以采用相关领域的方法确定,也可以通过本公开实施例提供的方法确定。
在一些实施例中,候选标准问的标准度是通过以下步骤获得,步骤包括:
步骤S31,利用预训练的语言模型获得候选标准问的语言模型困惑度。
其中,预训练的语言模型可以是kenlm模型或其它合适的模型。
在一些实施例中,可以采用相关领域的kenlm模型获得标准问的语言模型困惑度;也可以利用标准问对预训练的kenlm模型进行微调,利用微调后的kenlm模型来获得标准问的语言模型困惑度。例如,采用金融领域的标准问微调预训练的kenlm模型,再利用微调后的kenlm模型获得候选标准问的语言模型困惑度(PPL值)。
步骤S32,获取候选标准问的语法依存关系序列。
其中,语法依存关系序列是利用词与词直接的依存关系来描述句子的框架。句子的框架包括谓语句、非谓语句、动宾句和独词句等。
例如,语法依存关系序列为['SBV','HED','ATT','VOB'],其中,SBV表示主谓关系,HED表示核心关系、ATT表示定中关系、VOB表示动宾关系。
步骤S33,计算候选标准问的语法依存关系序列与标准依存关系序列的路径匹配值。
其中,标准依存关系序列是预先设定的。候选标准问的语法依存关系序列与标准依存关系序列的路径匹配值可以通过匹配到的路径步数与满分标准语法的路径的总步数的比值确定的,即,
路径匹配值=匹配到的路径步数/满分标准语法的路径的总步数。
示例地,假设标准依存关系序列为['SBV','HED','ATT','VOB'],候选标准问的语法依存关系序列为['SBV','HED'],则路径匹配值为1/2;若候选标准问的语法依存关系序列为['SBV','HED','ATT'],则路径匹配值为3/4;若候选标准问的语法依存关系序列为['HED','ATT','VOB'],则路径匹配值仍然为3/4。
步骤S34,基于路径匹配值、路径匹配值对应的权重、候选标准问的语言模型困惑度、以及候选标准问的语言模型困惑度对应的权重,计算候选标准问的标注度。
在一些实施例中,采用加权的方式计算各个候选标准问的标准度,如:标准度=w1*路径匹配值+w2*(ppl值)-1。其中,w1表示路径匹配值的权重,w2表示语言模型困惑度的权重,w1和w2可以预先设定的权重。ppl值表示语言模型困惑度。
在步骤S3024中,基于候选标准问的标准度确定意图分类名称对应的标准问。
在一些实施例中,基于候选标准问的标准度对各个候选标准问进行排序,将标准度最高的候选标准问确定为标准问。
上述标准度的计算方式是依据候选标准问的语法依存关系序列与标准依存关系序列的路径匹配值和候选标准问的语言模型困惑度,并结合两者的权重计算得到,标准度的评价方式更为准确,因此,从候选标准问中选出的标准问更符合对应的意图分类名称。
在一些实施例中,步骤S32,获取候选标准问的语法依存关系序列,包括:获取候选标准问的句型;基于候选标准问的句型确定候选标准问的语法依存关系序列。
在本公开实施例中,可以通过分类模型获得各个候选标准问的句型,其中,句型包括但不限于谓语句/非谓语句/独词句,其中,谓语句还可以进一步包括主谓句和非主谓句。
在确定候选标准问的句型后,基于候选标准问的句型确定候选标准问的语法依存关系序列。例如,若候选标准问的句型为主谓句,则语法依存关系序列['HED','SBV']。
本公开实施例通过候选标准问的句型来确定语法依存关系序列,可以简化语法依存关系序列的确定方式,从而提高效率。
在一些实施例中,映射词典库通过以下步骤获得:
步骤S41,获得标准词的词向量。步骤S42,基于标准词的词向量对标准词进行向量聚类,获得与标准词的向量距离在预设范围内的语言片段作为候选表述映射词。步骤S43,基于与标准词的向量距离对候选表述映射词排序,并将排列在预设位置段的候选表述映射词作为标准词关联的表述映射词。
在本公开实施例中,标准词是映射词典库中的基本词。使用映射词典库时,基于关键词查询映射词典库中的标准词,找到与关键词一致的标准词,从而获得与关键词关联的表述映射词。标准词的词向量是通过一个数字组成的向量来表示一个标准词。标准词的词向量可以通过相关技术获得,本公开对此不做限定。语言片段可以是词语,也可以是短语。以标准词为核心,使用向量搜索引擎,如milvus进行向量聚类,将在预设范围内的语言片段作为候选表述映射词,这些语言片段与标准词的意思相同或相近。对候选表述映射词进行排序,即按照向量距离对候选表述映射词进行排序。可以按照由小到大顺序或由大到小顺序对候选表述映射词进行排序,将排列在预设位置段的候选表述映射词作为标准词关联的表述映射词,将标准词及与该标准词关联的表述映射词加入映射词典库。
需要说明的是,预设位置段可以是排序队列中排列在前的n个位置,也可以是排序队列中排列在后的n个位置。当排列队列是按照向量距离由小到大的顺序排序时,预设位置段选择前n个位置;当排列队列是按照向量距离由大到小的顺序排序时,预设位置段选择后n个位置。
在本公开实施例中,标准词的词向量可以通过预训练的文本匹配模型,如SimCSE模型获得。在一些实施例中,SimCSE模型可以通过特定场景下的第一文本数据进行微调,使得SimCSE模型更适合该特定场景。其中,第一文本数据是无标签的文本数据。特定场景可以是金融、购物、销售等场景。
通过上述无标签的第一文本数据对文本匹配模型进行微调,然后基于微调后的获取标准词的词向量,可以获得更准确的词向量,向量聚类后得到的语言片段更准确,从而提供表述映射词的准确度,进而提高映射词典库的准确度。
在一些实施例中,映射词典库通过以下步骤获得:
步骤S51,预测标准词的意图,获得意图预测结果;步骤S52,获得标准词的词向量,并基于标准词的词向量对标准词进行聚类,获得与标准词的向量距离在预设范围内的语言片段,作为聚类结果;步骤S53,意图预测结果在聚类结果中的情况下,将待预测的语言片段作为与标准词关联的表述映射词;步骤S54,将标准词、与标准词关联的表述映射词加入映射词典库。
在一些实施例中,通过意图预测模型来预测意图分类名称的意图。其中,意图预测模型是通过第二文本数据进行训练,第二文本数据包括语言片段和对应的意图标签。例如,使用第二文本数据训练roberta模型,训练后的roberta模型可用于预测待预测的语言片段的意图。
在一些实施例中,标准词的词向量可以通过相关技术获得,本公开对此不做限定。以标准词为核心,使用向量搜索引擎,如milvus进行向量聚类,将在预设范围内的语言片段作为聚类结果,聚类结果中的这些语言片段与标准词的意思相同或相近。
当步骤S51获得的意图预测结果在聚类结果中时,将聚类结果中的待预测的语言片段作为标准词关联的表述映射词,最后,将标准词、与标准词关联的表述映射词加入映射词典库,即映射词典库是标准词及与其关联的表述映射词的关联关系的词库。
在本公开实施例中,通过标准词的词向量对标准词进行聚类,获得作为聚类结果,若意图预测结果在聚类结果中,则将聚类结果中的语言片段作为标准词关联的表述映射词,再基于标准词及其关联的表述映射词构建映射词典库,从而提供表述映射词的准确度,进而提高映射词典库的准确度。尤其是在通过意图预测模型来预测意图分类名称的意图的情况下,可以使映射词典库更准确。
在一些实施例中,图4为本公开实施例提供的一种相似问的生成流程图。如图4所示,步骤S205,根据预设的语法规则和表述映射词,获得意图分类名称对应的标准问之后,还包括步骤S401至步骤S402生成相似问。
在步骤S401中,对标准问进行分词,获得第二分词结果。
其中,第二分词结果包括一个或多个词。例如,对标准问“为什么多次扣款”进行分词,得到的分词结果为“为什么”、“多次”和“扣款”。本公开实施例中,可以采用相关领域的分词器对标准问进行分词,本公开实施例对分词器的类型不作限定。
在步骤S402中,从第二分词结果提取出要素词,并对要素词进行替换和/或位置变换,获得标准问对应的相似问。
其中,要素词是标准问的组成元素,每个标准问可以包括一个或多个要素词。
在本公开实施例中,可以对要素词进行替换,或者,变换要素词的位置;或者,替换标准问中的一个要素词,同时变换标准问中的另一要素词的位置;还可以先替换要素词,再变换该要素词的位置。经过要素词的替换和位置变换,可以获得多个相似问。
示例地,可以用要素词“为什么”替换为要素词“怎么回事”。可以将标准问“为什么多次扣款”中,将要素词“为什么”的位置变换,“多次扣款为什么”。
通过上述对标准问中的要素词进行替换和位置变换,可以自动获得多个相似问,而且,相似问不会脱离标准问的意图。
在一些实施例中,要素词包括业务要素词和表述要素词,其中,业务要素词与领域相关的词语,例如,在信贷领域,借款和还款为业务要素词。在教培领域,开课和停课为业务要素词。表述要素词是通用的词语,如疑问词。
步骤S402,对要素词进行替换和/或变换位置,获得标准问对应的相似问,包括:基于业务要素词从预设的要素图库中获得业务要素词对应的扩展词,并利用扩展词替换标准问中的业务要素词;对表述要素词的位置进行变换;基于替换后的业务要素词和位置变换后的表述要素词获得标准问对应的相似问。
在本公开实施例中,业务要素词的扩展词可以是该业务要素词的上位概念词,也可以是该业务要素词的下位概念词。表述要素词的位置可以在句首、句中和句尾进行变换。
在一些实施例中,步骤S205,根据预设的语法规则和表述映射词,获得意图分类名称对应的标准问之后,还包括:基于标准问利用标准答模型,获得标准问对应的标准答;其中,标准答模型是通过问答数据集训练得到的模型,问答数据集是按照一个话轮的粒度构建的问答数据的集合。
在本公开实施例中,利用大量的问答数据(对话数据)构建问答数据集,然后利用问答数据集训练模型,如bert/roberta模型,得到初始模型。对于不同的应用场景,利用该应用场景中大量的问答数据对初始模型进行微调,获得标准答模型。由于利用应用场景中大量的问答数据微调初始模型,因此,得到的标准答模型更适用于该应用场景,由此模型得到的标准答更适用于该应用场景。
可以理解,本公开提及的上述各个方法实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本公开不再赘述。本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
此外,本公开还提供了知识库生成装置、电子设备、计算机可读存储介质,上述均可用来实现本公开提供的任一种知识库生成方法,相应技术方案和描述和参见方法部分的相应记载,不再赘述。
本公开实施例还提供一种知识库生成装置,该装置可以在无人工介入的情况下,生成标准问、相似问及标准答等,提高知识库的生成效率和质量。
图5为本公开实施例提供的一种知识库生成装置的框图。参照图5,本公开实施例提供了一种知识库生成装置,该知识库生成装置500包括:
分词模块501,用于对意图分类名称进行分词,获得第一分词结果;其中,第一分词结果包括一个或多个词。
提取模块502,用于从第一分词结果中提取出关键词。
映射模块503,用于从预设的映射词典库获取关键词关联的表述映射词。
确定模块504,用于根据预设的语法规则和表述映射词,确定意图分类名称对应的标准问。
本公开实施例提供的知识库生成装置,利用分词模块对意图分类名称进行分词,提取模块从第一分词结果中提取出关键词,映射模块通过映射词典库获取关键词关联的表述映射词,确定模块根据预设的语法规则和表述映射词,获得意图分类名称对应的标准问,该装置不需要人工参与,即可生成与意图分类名称对应的标准问,可以提高知识库的生成效率,而且,没有人的主观因素,知识库中各个标准问的标准统一,提高了标准问的质量。
在一些实施例中,确定模块505包括:
确定单元51,用于基于所述表述映射词确定备用词集,其中,所述备用词集中包含所述表述映射词以及生成标准问的辅助词。
生成单元52,用于基于备用词集中动词的价位和语法规则生成标准问模板,其中,标准问模板中包括一个或多个空位。
第一获得单元53,用于利用备用词集中除动词外的其它备用词填充标准问模板中的空位,获得一个或多个候选标准问。
计算单元54,用于计算每个候选标准问的标准度。
确定单元55,用于基于候选标准问的标准度确定意图分类名称对应的标准问。
在一些实施例中,计算单元54包括:
获得子单元,用于基于候选标准问利用预训练的语言模型,获得候选标准问的语言模型困惑度。
获取子单元,用于获取候选标准问的语法依存关系序列。
第一计算子单元,用于计算候选标准问的语法依存关系序列与标准依存关系序列的路径匹配值;其中,标准依存关系序列是预先设定的。
第二计算子单元,用于基于路径匹配值、路径匹配值对应的权重、候选标准问的语言模型困惑度和候选标准问的语言模型困惑度对应的权重,计算候选标准问的标注度。
在一些实施例中,知识库生成装置还包括:相似问生成模块,用于生成标准问对应的相似问。在本公开实施例中,相似问生成模块包括:
分词单元61,用于对标准问进行分词,获得第二分词结果;其中,第二分词结果包括一个或多个词;
第二获得单元62,用于从第二分词结果提取出要素词,并对要素词进行替换和/或位置变换,获得标准问对应的相似问。
在一些实施例中,知识库生成装置还包括:标准答生成模块,用于生成标准答对应的标准答。在本公开实施例中,标准答生成模块包括:
第三获得单元71,用于基于标准问利用标准答模型,获得标准问对应的标准答;其中,标准答模型是通过问答数据集和训练得到的模型,问答数据集是按照一个话轮的粒度构建的问答数据的集合。
本公开实施例提供的知识库生成装置可用于实现本公开实施例提供的知识库生成方法,为节约篇幅,在此不再赘述。
图6为本公开实施例提供的一种电子设备的框图。
参照图6,本公开实施例提供了一种电子设备,该电子设备包括:至少一个处理器601;至少一个存储器602,以及一个或多个I/O接口603,连接在处理器601与存储器602之间;其中,存储器602存储有可被至少一个处理器601执行的一个或多个计算机程序,一个或多个计算机程序被至少一个处理器601执行,以使至少一个处理器601能够执行上述的知识库生成方法。
本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,计算机程序在被处理器/处理核执行时实现上述的知识库生成方法。计算机可读存储介质可以是易失性或非易失性计算机可读存储介质。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读存储介质上,计算机可读存储介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。
如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读程序指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM)、静态随机存取存储器(SRAM)、闪存或其他存储器技术、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读程序指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里所描述的计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software DevelopmentKit,SDK)等等。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本公开的范围的情况下,可进行各种形式和细节上的改变。
Claims (10)
1.一种知识库生成方法,其特征在于,包括:
对意图分类名称进行分词,获得第一分词结果;
从所述第一分词结果中提取出关键词;
从预设的映射词典库获取所述关键词关联的表述映射词;
根据预设的语法规则和所述表述映射词,确定所述意图分类名称对应的标准问。
2.根据权利要求1所述的方法,其特征在于,所述根据预设的语法规则和所述表述映射词,确定所述意图分类名称对应的标准问,包括:
基于所述表述映射词确定备用词集,其中,所述备用词集中包含所述表述映射词以及生成标准问的辅助词;
根据预设的语法规则和所述备用词集,获得所述意图分类名称对应的标准问。
3.根据权利要求2所述的方法,其特征在于,所述根据预设的语法规则和所述表述映射词,确定所述意图分类名称对应的标准问,包括:
基于所述备用词集中动词的价位和所述语法规则生成标准问模板,其中,所述标准问模板中包括一个或多个空位;
利用所述备用词集中除所述动词外的其它词填充所述标准问模板中的空位,获得一个或多个候选标准问;
计算每个所述候选标准问的标准度;
基于所述候选标准问的标准度确定所述意图分类名称对应的标准问。
4.根据权利要求3所述的方法,其特征在于,所述候选标准问的标准度通过以下方式计算:
利用预训练的语言模型获得所述候选标准问的语言模型困惑度;
获取所述候选标准问的语法依存关系序列;
计算所述候选标准问的语法依存关系序列与预设的标准依存关系序列的路径匹配值;
基于所述路径匹配值、所述路径匹配值对应的权重、所述候选标准问的语言模型困惑度、以及所述候选标准问的语言模型困惑度对应的权重,计算所述候选标准问的标注度。
5.根据权利要求1所述的方法,其特征在于,所述映射词典库基于以下步骤获得:
获得标准词的词向量;其中,所述标准词是所述映射词典库的基本词;
基于所述标准词的词向量对所述标准词进行向量聚类,获得与所述标准词的向量距离在预设范围内的语言片段作为候选表述映射词;
基于与所述标准词的向量距离对所述候选表述映射词排序,并将排列在预设位置段的所述候选表述映射词作为所述标准词关联的表述映射词;
将所述标准词、与所述标准词关联的表述映射词加入所述映射词典库。
6.根据权利要求1所述的方法,其特征在于,所述映射词典库基于以下步骤获得:
预测标准词的意图,获得意图预测结果;
获得标准词的词向量,并基于所述标准词的词向量对所述标准词进行向量聚类,获得与所述标准词的向量距离在预设范围内的语言片段,作为聚类结果;
在所述意图预测结果在所述聚类结果中的情况下,将所述聚类结果中的语言片段作为所述标准词关联的表述映射词;
将所述标准词、与所述标准词关联的表述映射词加入所述映射词典库。
7.根据权利要求1所述的方法,其特征在于,所述根据预设的语法规则和所述表述映射词,获得所述意图分类名称对应的标准问之后,还包括:
对标准问进行分词,获得第二分词结果;
从所述第二分词结果中提取出要素词,并对所述要素词进行替换和/或位置变换,获得所述标准问对应的相似问。
8.一种知识库生成装置,其特征在于,包括:
分词模块,用于对意图分类名称进行分词,获得第一分词结果;其中,所述第一分词结果包括一个或多个词;
提取模块,用于从所述第一分词结果中提取出关键词;
映射模块,用于从预设的映射词典库获取所述关键词关联的表述映射词;
确定模块,用于根据预设的语法规则和所述表述映射,确定所述意图分类名称对应的标准问。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-7中任一项所述的知识库生成方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-7中任一项所述的知识库生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210985536.8A CN116150387A (zh) | 2022-08-17 | 2022-08-17 | 知识库生成方法及装置、电子设备、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210985536.8A CN116150387A (zh) | 2022-08-17 | 2022-08-17 | 知识库生成方法及装置、电子设备、计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116150387A true CN116150387A (zh) | 2023-05-23 |
Family
ID=86349507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210985536.8A Pending CN116150387A (zh) | 2022-08-17 | 2022-08-17 | 知识库生成方法及装置、电子设备、计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116150387A (zh) |
-
2022
- 2022-08-17 CN CN202210985536.8A patent/CN116150387A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10861456B2 (en) | Generating dialogue responses in end-to-end dialogue systems utilizing a context-dependent additive recurrent neural network | |
EP3125235B1 (en) | Learning templates generated from dialog transcripts | |
US11868733B2 (en) | Creating a knowledge graph based on text-based knowledge corpora | |
Mairesse et al. | Stochastic language generation in dialogue using factored language models | |
US10832011B2 (en) | Question answering system using multilingual information sources | |
US10262062B2 (en) | Natural language system question classifier, semantic representations, and logical form templates | |
CN111241237B (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
CN101194253B (zh) | 来源于单语和可用双语语料库的搭配翻译 | |
US20230316008A1 (en) | Systems and Methods for Intelligent Source Content Routing | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
US10685012B2 (en) | Generating feature embeddings from a co-occurrence matrix | |
CN111930914A (zh) | 问题生成方法和装置、电子设备以及计算机可读存储介质 | |
US20220300708A1 (en) | Method and device for presenting prompt information and storage medium | |
US8315874B2 (en) | Voice user interface authoring tool | |
CN111414561A (zh) | 用于呈现信息的方法和装置 | |
CN107943940A (zh) | 数据处理方法、介质、系统和电子设备 | |
CN112101042A (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
CN111813993A (zh) | 视频内容的拓展方法、装置、终端设备及存储介质 | |
US20120239382A1 (en) | Recommendation method and recommender computer system using dynamic language model | |
CN110705308A (zh) | 语音信息的领域识别方法、装置、存储介质及电子设备 | |
CN116150387A (zh) | 知识库生成方法及装置、电子设备、计算机可读存储介质 | |
CN110929528A (zh) | 对语句情感分析的方法、装置、服务器及存储介质 | |
CN112733492B (zh) | 基于知识库的辅助设计方法、装置、终端和存储介质 | |
US20230368510A1 (en) | Image grounding with modularized graph attentive networks | |
CN116258146A (zh) | 语义单元的预测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |