CN113486152A - 一种业务知识库构建方法、装置和电子设备 - Google Patents

一种业务知识库构建方法、装置和电子设备 Download PDF

Info

Publication number
CN113486152A
CN113486152A CN202110804425.8A CN202110804425A CN113486152A CN 113486152 A CN113486152 A CN 113486152A CN 202110804425 A CN202110804425 A CN 202110804425A CN 113486152 A CN113486152 A CN 113486152A
Authority
CN
China
Prior art keywords
business
information
user
content
business knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110804425.8A
Other languages
English (en)
Inventor
刘志敏
张常睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Qifu Information Technology Co ltd
Original Assignee
Shanghai Qifu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Qifu Information Technology Co ltd filed Critical Shanghai Qifu Information Technology Co ltd
Priority to CN202110804425.8A priority Critical patent/CN113486152A/zh
Publication of CN113486152A publication Critical patent/CN113486152A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种业务知识库构建方法,构建并训练业务知识识别模型,获取业务内容和用户的疑问信息,利用所述业务知识识别模型从业务内容中识别并提取用户的疑问信息所匹配的答案信息,将所述答案信息添加到业务知识库中。通过训练业务知识识别模型,自动的从业务内容中识别提取疑问信息所匹配的答案信息,添加到业务知识库中,降低了对知识库构建者的经验依赖,计算机自动进行识别,提高了效率。

Description

一种业务知识库构建方法、装置和电子设备
技术领域
本申请涉及计算机领域,尤其涉及一种业务知识库构建方法、装置和电子设备。
背景技术
在进行业务处理时,往往会用到知识库,通过知识库为问题寻找答案,从而进行一些交互业务,是人工智能的一个应用场景。目前,对于知识库的构建,多是人工构思,根据经验中的知识构建知识库,然而这种方式费时费力,对于知识库构建者的经验要求较高,效率较低。
因此,有必要提供一种新的方法,以提高知识库构建效率。
发明内容
本说明书实施例提供一种业务知识库构建方法、装置和电子设备,用以提高知识库构建效率。
本说明书实施例提供一种业务知识库构建方法,包括:
构建并训练业务知识识别模型;
获取业务内容和用户的疑问信息,利用所述业务知识识别模型从业务内容中识别并提取用户的疑问信息所匹配的答案信息;
将所述答案信息添加到业务知识库中。
可选地,所述构建并训练业务知识识别模型,包括:
获取样本业务内容,对样本业务内容中的答案信息进行标记,设置与疑问信息关联的标签;
利用样本业务内容训练训练业务知识识别模型。
可选地,所述利用样本业务内容训练训练业务知识识别模型,包括:
利用样本业务内容,使用梯度下降法训练业务知识识别模型。
可选地,所述设置与疑问信息关联的标签,包括:
根据语义设置与疑问信息关联的标签。
可选地,所述利用所述业务知识识别模型从业务内容中识别并提取用户的疑问信息所匹配的答案信息,包括:
通过关键词匹配的方式从业务内容中识别出多个候选段落;
利用业务知识识别模型从所述多个候选段落中识别并提取出用户的疑问信息所匹配的段落及其中的答案信息。
可选地,所述业务知识识别模型为编码模型,输入包括疑问信息、答案信息和答案信息所在的段落位置信息;
输出包括:答案信息的起始位置判定向量和终止位置判定向量。
可选地,还包括:
对业务内容的文本和用户的疑问信息的文本进行编码。
可选地,所述对业务内容和用户的疑问信息的文本进行编码,包括:
结合上下文信息进行编码。
可选地,还包括:
将业务知识识别模型迁移到与所述业务内容在类型上相关联的业务产品中使用。
本说明书实施例还提供一种业务知识库构建装置,包括:
建模模块,用于构建并训练业务知识识别模型;
匹配模块,用于获取业务内容和用户的疑问信息,利用所述业务知识识别模型从业务内容中识别并提取用户的疑问信息所匹配的答案信息;
知识库模块,用于将所述答案信息添加到业务知识库中。
可选地,所述构建并训练业务知识识别模型,包括:
获取样本业务内容,对样本业务内容中的答案信息进行标记,设置与疑问信息关联的标签;
利用样本业务内容训练训练业务知识识别模型。
可选地,所述利用样本业务内容训练训练业务知识识别模型,包括:
利用样本业务内容,使用梯度下降法训练业务知识识别模型。
可选地,所述设置与疑问信息关联的标签,包括:
根据语义设置与疑问信息关联的标签。
可选地,所述利用所述业务知识识别模型从业务内容中识别并提取用户的疑问信息所匹配的答案信息,包括:
通过关键词匹配的方式从业务内容中识别出多个候选段落;
利用业务知识识别模型从所述多个候选段落中识别并提取出用户的疑问信息所匹配的段落及其中的答案信息。
可选地,所述业务知识识别模型为编码模型,输入包括疑问信息、答案信息和答案信息所在的段落位置信息;
输出包括:答案信息的起始位置判定向量和终止位置判定向量。
可选地,还包括:
对业务内容的文本和用户的疑问信息的文本进行编码。
可选地,所述对业务内容和用户的疑问信息的文本进行编码,包括:
结合上下文信息进行编码。
可选地,还包括:
将业务知识识别模型迁移到与所述业务内容在类型上相关联的业务产品中使用。
本说明书实施例还提供一种电子设备,其中,该电子设备包括:
处理器;以及,
存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述任一项方法。
本说明书实施例还提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现上述任一项方法。
本说明书实施例提供的各种技术方案通过构建并训练业务知识识别模型,获取业务内容和用户的疑问信息,利用所述业务知识识别模型从业务内容中识别并提取用户的疑问信息所匹配的答案信息,将所述答案信息添加到业务知识库中。通过训练业务知识识别模型,自动的从业务内容中识别提取疑问信息所匹配的答案信息,添加到业务知识库中,降低了对知识库构建者的经验依赖,计算机自动进行识别,提高了效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本说明书实施例提供的一种业务知识库构建方法的原理示意图;
图2为本说明书实施例提供的一种业务知识库构建装置的结构示意图;
图3为本说明书实施例提供的一种电子设备的结构示意图;
图4为本说明书实施例提供的一种计算机可读介质的原理示意图。
具体实施方式
现在将参考附图更全面地描述本发明的示例性实施例。然而,示例性实施例能够以多种形式实施,且不应被理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例能够使得本发明更加全面和完整,更加便于将发明构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的元件、组件或部分,因而将省略对它们的重复描述。
在符合本发明的技术构思的前提下,在某个特定的实施例中描述的特征、结构、特性或其他细节不排除可以以合适的方式结合在一个或更多其他的实施例中。
在对于具体实施例的描述中,本发明描述的特征、结构、特性或其他细节是为了使本领域的技术人员对实施例进行充分理解。但是,并不排除本领域技术人员可以实践本发明的技术方案而没有特定特征、结构、特性或其他细节的一个或更多。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
术语“和/或”或者“及/或”包括相关联的列出项目中的任一个或多者的所有组合。
图1为本说明书实施例提供的一种业务知识库构建方法的原理示意图,该方法可以包括:
S101:构建并训练业务知识识别模型。
为了避免知识库构建者的主观经验错误,我们可以借助已经形成的业务内容来构建模型。
因此,在本说明书实施例中,所述构建并训练业务知识识别模型,可以包括:
获取样本业务内容,对样本业务内容中的答案信息进行标记,设置与疑问信息关联的标签;
利用样本业务内容训练训练业务知识识别模型。
其中,样本业务内容,可以是保单条款信息。
在本说明书实施例中,所述利用样本业务内容训练训练业务知识识别模型,可以包括:
利用样本业务内容,使用梯度下降法训练业务知识识别模型。
匹配的方式,可以是关键词匹配,但是关键词匹配的准确率较低,为此,我们提出结合上下文按照语义进行匹配。
在本说明书实施例中,所述设置与疑问信息关联的标签,可以包括:
根据语义设置与疑问信息关联的标签。
在本说明书实施例中,所述业务知识识别模型为编码模型,输入包括疑问信息、答案信息和答案信息所在的段落位置信息;
输出包括:答案信息的起始位置判定向量和终止位置判定向量。
在本说明书实施例中,还可以包括:
对业务内容的文本和用户的疑问信息的文本进行编码。
在本说明书实施例中,所述对业务内容和用户的疑问信息的文本进行编码,可以包括:
结合上下文信息进行编码。
利用上下文信息对业务内容的文本和用户的疑问信息的文本编码,能按照语义匹配的方式自动匹配到对应的答案,答案与问题的语义匹配度更高,匹配结果更准确。
S102:获取业务内容和用户的疑问信息,利用所述业务知识识别模型从业务内容中识别并提取用户的疑问信息所匹配的答案信息。
在本说明书实施例中,所述利用所述业务知识识别模型从业务内容中识别并提取用户的疑问信息所匹配的答案信息,可以包括:
通过关键词匹配的方式从业务内容中识别出多个候选段落;
利用业务知识识别模型从所述多个候选段落中识别并提取出用户的疑问信息所匹配的段落及其中的答案信息。
其中,识别并提取用户的疑问信息所匹配的答案信息,还可以包括:
识别用户的疑问信息所匹配的答案信息所在的段落。
这样,可以精准地定位到答案来源的段落,方便人工核检,相比专业的人工客服逐字阅读条款查询答案,效果更高,节省人力成本。
S103:将所述答案信息添加到业务知识库中。
该方法通过构建并训练业务知识识别模型,获取业务内容和用户的疑问信息,利用所述业务知识识别模型从业务内容中识别并提取用户的疑问信息所匹配的答案信息,将所述答案信息添加到业务知识库中。通过训练业务知识识别模型,自动的从业务内容中识别提取疑问信息所匹配的答案信息,添加到业务知识库中,降低了对知识库构建者的经验依赖,计算机自动进行识别,提高了效率。
这在实际应用中可以表示,用户购买保险前后往往会咨询该保险产品的相关问题,为了提高效率,我们可以用智能客服机器人对用户的问题进行回答,客服机器人通过检索后台的业务知识库对用户的疑问进行答复。
其中,用户疑问的具体内容可以是保障内容、生效日、理赔、退保等相关的内容。
由于保单条款比较多,每个保险产品对应的保单条款格式不统一,所以人工构建知识库是一个耗费人力且效率低下的工作。
通过模型识别的方式,无需专业的保险客服人员基于当前保险的保单条款抽取整理对应答案,只需要用模型自动识别提取,构建保险知识库,供智能客服机器人查询使用。
在本说明书实施例中,还可以包括:
将业务知识识别模型迁移到与所述业务内容在类型上相关联的业务产品中使用。
具体实施方式可以包括:模型构建阶段和业务知识库构建阶段。
在模型构建阶段,可以设置模型的输入与输出,输入可以具有:问题、答案、答案所在的段落。输出可以具有:起始位置判定向量S,终止位置判定向量E。
训练时,在段落中添加位置标签:答案信息在段落中出现的起始位置标记为标签B,终止位置标记为标签E,其他位置标记为O,从B到E的片段即为答案内容。
将问题文本与对应的带标签的段落信息,输入到搭建的模型中,使用梯度下降法进行模型训练,训练任务是预测当前段落每个词的标签,对当模型损失函数收敛调整阈值后,得到基于编码的业务知识识别模型。
在业务知识库构建阶段,可以先确定候选段落:通过关键词匹配,从保单条款中初筛出答案可能出现的候选段落;
然后输入疑问信息文本的编码,疑问信息文本的编码由N个字符组成,可以表示为Q={tok1,tok2,...,tokN},段落文本由M个字符组成,表示为P={tok1,tok2,...,tokM},将问题与段落拼接成一个长文本,中间用分割符sep连接,拼接结果表示为I={tok1,tok2,...,tokN,tok[sep],tok1,tok2,...,tokM};
将拼接结果输入到模型中,对每个字符进行编码,编码后每个字符用一个向量来表示,编码结果表示为{T1,T2,...,TN,T[sep],T′1,T′2,...,T′M},其中
Figure BDA0003165910770000081
由起始位置i和终止位置j确定的候选答案表示为Aij={toki,toki+1,...,tokj},其分值soreij=S.Ti+E.Ti,其中S和E是在模型训练阶段得到的向量;
然后遍历所有候选段落的字符,计算所有j>i条件下各候选答案的分值,选择得分最高的候选答案作为最终的答案。
将问题和对应的答案添加到数据库中,作为保险业务知识库的内容。
图2为本说明书实施例提供的一种业务知识库构建装置的结构示意图,该装置可以包括:
建模模块201,用于构建并训练业务知识识别模型;
匹配模块202,用于获取业务内容和用户的疑问信息,利用所述业务知识识别模型从业务内容中识别并提取用户的疑问信息所匹配的答案信息;
知识库模块203,用于将所述答案信息添加到业务知识库中。
在本说明书实施例中,所述构建并训练业务知识识别模型,可以包括:
获取样本业务内容,对样本业务内容中的答案信息进行标记,设置与疑问信息关联的标签;
利用样本业务内容训练训练业务知识识别模型。
在本说明书实施例中,所述利用样本业务内容训练训练业务知识识别模型,可以包括:
利用样本业务内容,使用梯度下降法训练业务知识识别模型。
在本说明书实施例中,所述设置与疑问信息关联的标签,可以包括:
根据语义设置与疑问信息关联的标签。
在本说明书实施例中,所述利用所述业务知识识别模型从业务内容中识别并提取用户的疑问信息所匹配的答案信息,可以包括:
通过关键词匹配的方式从业务内容中识别出多个候选段落;
利用业务知识识别模型从所述多个候选段落中识别并提取出用户的疑问信息所匹配的段落及其中的答案信息。
在本说明书实施例中,所述业务知识识别模型为编码模型,输入包括疑问信息、答案信息和答案信息所在的段落位置信息;
输出包括:答案信息的起始位置判定向量和终止位置判定向量。
在本说明书实施例中,还可以包括:
对业务内容的文本和用户的疑问信息的文本进行编码。
在本说明书实施例中,所述对业务内容和用户的疑问信息的文本进行编码,可以包括:
结合上下文信息进行编码。
在本说明书实施例中,还可以包括:
将业务知识识别模型迁移到与所述业务内容在类型上相关联的业务产品中使用。
该装置构建并训练业务知识识别模型,获取业务内容和用户的疑问信息,利用所述业务知识识别模型从业务内容中识别并提取用户的疑问信息所匹配的答案信息,将所述答案信息添加到业务知识库中。通过训练业务知识识别模型,自动的从业务内容中识别提取疑问信息所匹配的答案信息,添加到业务知识库中,降低了对知识库构建者的经验依赖,计算机自动进行识别,提高了效率。
基于同一发明构思,本说明书实施例还提供一种电子设备。
下面描述本发明的电子设备实施例,该电子设备可以视为对于上述本发明的方法和装置实施例的具体实体实施方式。对于本发明电子设备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于在本发明电子设备实施例中未披露的细节,可以参照上述方法或装置实施例来实现。
图3为本说明书实施例提供的一种电子设备的结构示意图。下面参照图3来描述根据本发明该实施例的电子设备300。图3显示的电子设备300仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,电子设备300以通用计算设备的形式表现。电子设备300的组件可以包括但不限于:至少一个处理单元310、至少一个存储单元320、连接不同系统组件(包括存储单元320和处理单元310)的总线330、显示单元340等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元310执行,使得所述处理单元310执行本说明书上述处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元310可以执行如图1所示的步骤。
所述存储单元320可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)3201和/或高速缓存存储单元3202,还可以进一步包括只读存储单元(ROM)3203。
所述存储单元320还可以包括具有一组(至少一个)程序模块3205的程序/实用工具3204,这样的程序模块3205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线330可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备300也可以与一个或多个外部设备400(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备300交互的设备通信,和/或与使得该电子设备300能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口350进行。并且,电子设备300还可以通过网络适配器360与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器360可以通过总线330与电子设备300的其它模块通信。应当明白,尽管图3中未示出,可以结合电子设备300使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,本发明描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。当所述计算机程序被一个数据处理设备执行时,使得该计算机可读介质能够实现本发明的上述方法,即:如图1所示的方法。
图4为本说明书实施例提供的一种计算机可读介质的原理示意图。
实现图1所示方法的计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上所述,本发明可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (12)

1.一种业务知识库构建方法,其特征在于,包括:
构建并训练业务知识识别模型;
获取业务内容和用户的疑问信息,利用所述业务知识识别模型从业务内容中识别并提取用户的疑问信息所匹配的答案信息;
将所述答案信息添加到业务知识库中。
2.根据权利要求1所述的方法,其特征在于,所述构建并训练业务知识识别模型,包括:
获取样本业务内容,对样本业务内容中的答案信息进行标记,设置与疑问信息关联的标签;
利用样本业务内容训练训练业务知识识别模型。
3.根据权利要求1-2中任一项所述的方法,其特征在于,所述利用样本业务内容训练训练业务知识识别模型,包括:
利用样本业务内容,使用梯度下降法训练业务知识识别模型。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述设置与疑问信息关联的标签,包括:
根据语义设置与疑问信息关联的标签。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述利用所述业务知识识别模型从业务内容中识别并提取用户的疑问信息所匹配的答案信息,包括:
通过关键词匹配的方式从业务内容中识别出多个候选段落;
利用业务知识识别模型从所述多个候选段落中识别并提取出用户的疑问信息所匹配的段落及其中的答案信息。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述业务知识识别模型为编码模型,输入包括疑问信息、答案信息和答案信息所在的段落位置信息;
输出包括:答案信息的起始位置判定向量和终止位置判定向量。
7.根据权利要求1-6中任一项所述的方法,其特征在于,还包括:
对业务内容的文本和用户的疑问信息的文本进行编码。
8.根据权利要求1-7中任一项所述的方法,其特征在于,所述对业务内容和用户的疑问信息的文本进行编码,包括:
结合上下文信息进行编码。
9.根据权利要求1-8中任一项所述的方法,其特征在于,还包括:
将业务知识识别模型迁移到与所述业务内容在类型上相关联的业务产品中使用。
10.一种业务知识库构建装置,其特征在于,包括:
建模模块,用于构建并训练业务知识识别模型;
匹配模块,用于获取业务内容和用户的疑问信息,利用所述业务知识识别模型从业务内容中识别并提取用户的疑问信息所匹配的答案信息;
知识库模块,用于将所述答案信息添加到业务知识库中。
11.一种电子设备,其中,该电子设备包括:
处理器;以及,
存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行根据权利要求1-9中任一项所述的方法。
12.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现权利要求1-9中任一项所述的方法。
CN202110804425.8A 2021-07-16 2021-07-16 一种业务知识库构建方法、装置和电子设备 Pending CN113486152A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110804425.8A CN113486152A (zh) 2021-07-16 2021-07-16 一种业务知识库构建方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110804425.8A CN113486152A (zh) 2021-07-16 2021-07-16 一种业务知识库构建方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN113486152A true CN113486152A (zh) 2021-10-08

Family

ID=77938887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110804425.8A Pending CN113486152A (zh) 2021-07-16 2021-07-16 一种业务知识库构建方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN113486152A (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573028A (zh) * 2015-01-14 2015-04-29 百度在线网络技术(北京)有限公司 实现智能问答的方法和系统
CN109918487A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 基于网络百科全书的智能问答方法和系统
CN110110063A (zh) * 2019-04-30 2019-08-09 南京大学 一种基于哈希学习的问答系统构建方法
CN110162611A (zh) * 2019-04-23 2019-08-23 苏宁易购集团股份有限公司 一种智能客服应答方法及系统
CN110390003A (zh) * 2019-06-19 2019-10-29 北京百度网讯科技有限公司 基于医疗的问答处理方法及系统、计算机设备及可读介质
CN110765257A (zh) * 2019-12-30 2020-02-07 杭州识度科技有限公司 一种知识图谱驱动型的法律智能咨询系统
CN111309889A (zh) * 2020-02-27 2020-06-19 支付宝(杭州)信息技术有限公司 用于文本处理的方法和装置
CN111324717A (zh) * 2020-02-24 2020-06-23 武汉大学 一种面向开放域问答的基于机器阅读理解的答案获取方法及系统
CN111538819A (zh) * 2020-03-27 2020-08-14 北京工商大学 一种基于文档集多跳推理的问答系统的构建方法
CN112052326A (zh) * 2020-09-30 2020-12-08 民生科技有限责任公司 一种基于长短文本匹配的智能问答方法及系统
CN112115240A (zh) * 2019-06-21 2020-12-22 百度在线网络技术(北京)有限公司 分类处理方法、装置、服务器和存储介质
CN112559723A (zh) * 2020-12-28 2021-03-26 广东国粒教育技术有限公司 一种基于深度学习的faq检索式问答构建方法及系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573028A (zh) * 2015-01-14 2015-04-29 百度在线网络技术(北京)有限公司 实现智能问答的方法和系统
CN109918487A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 基于网络百科全书的智能问答方法和系统
CN110162611A (zh) * 2019-04-23 2019-08-23 苏宁易购集团股份有限公司 一种智能客服应答方法及系统
CN110110063A (zh) * 2019-04-30 2019-08-09 南京大学 一种基于哈希学习的问答系统构建方法
CN110390003A (zh) * 2019-06-19 2019-10-29 北京百度网讯科技有限公司 基于医疗的问答处理方法及系统、计算机设备及可读介质
CN112115240A (zh) * 2019-06-21 2020-12-22 百度在线网络技术(北京)有限公司 分类处理方法、装置、服务器和存储介质
CN110765257A (zh) * 2019-12-30 2020-02-07 杭州识度科技有限公司 一种知识图谱驱动型的法律智能咨询系统
CN111324717A (zh) * 2020-02-24 2020-06-23 武汉大学 一种面向开放域问答的基于机器阅读理解的答案获取方法及系统
CN111309889A (zh) * 2020-02-27 2020-06-19 支付宝(杭州)信息技术有限公司 用于文本处理的方法和装置
CN111538819A (zh) * 2020-03-27 2020-08-14 北京工商大学 一种基于文档集多跳推理的问答系统的构建方法
CN112052326A (zh) * 2020-09-30 2020-12-08 民生科技有限责任公司 一种基于长短文本匹配的智能问答方法及系统
CN112559723A (zh) * 2020-12-28 2021-03-26 广东国粒教育技术有限公司 一种基于深度学习的faq检索式问答构建方法及系统

Similar Documents

Publication Publication Date Title
CN109145294B (zh) 文本实体识别方法及装置、电子设备、存储介质
CN107679039B (zh) 用于确定语句意图的方法和装置
CN107291828B (zh) 基于人工智能的口语查询解析方法、装置及存储介质
CN112184525B (zh) 通过自然语义分析实现智能匹配推荐的系统及方法
CN108628830B (zh) 一种语义识别的方法和装置
CN110347908B (zh) 语音购物方法、装置、介质及电子设备
CN111191445B (zh) 广告文本分类方法及装置
CN111428493A (zh) 实体关系获取方法、装置、设备及存储介质
CN110929038A (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
CN111401065A (zh) 实体识别方法、装置、设备及存储介质
CN111435362A (zh) 用于生成相关响应的对抗性训练数据增强
CN110717333B (zh) 文章摘要自动生成方法、装置及计算机可读存储介质
CN112989050B (zh) 一种表格分类方法、装置、设备及存储介质
US11663407B2 (en) Management of text-item recognition systems
CN112417996A (zh) 工业图纸的信息处理方法、装置、电子设备和存储介质
CN110929499B (zh) 文本相似度获取方法、装置、介质及电子设备
CN114742062B (zh) 文本关键词提取处理方法及系统
CN113742450B (zh) 用户数据等级落标的方法、装置、电子设备和存储介质
CN108733702B (zh) 用户查询上下位关系提取的方法、装置、电子设备和介质
CN113486152A (zh) 一种业务知识库构建方法、装置和电子设备
CN111339760A (zh) 词法分析模型的训练方法、装置、电子设备、存储介质
CN112115362B (zh) 一种基于相似代码识别的编程信息推荐方法及装置
CN112732896B (zh) 目标信息显示方法、装置、电子设备和介质
US20210295036A1 (en) Systematic language to enable natural language processing on technical diagrams
CN114444441A (zh) 名称相似度计算方法、装置、存储介质和计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination