CN113392203B - 智能问答方法、装置、电子设备和计算机可读存储介质 - Google Patents
智能问答方法、装置、电子设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN113392203B CN113392203B CN202110695877.7A CN202110695877A CN113392203B CN 113392203 B CN113392203 B CN 113392203B CN 202110695877 A CN202110695877 A CN 202110695877A CN 113392203 B CN113392203 B CN 113392203B
- Authority
- CN
- China
- Prior art keywords
- entity
- attribute
- character string
- query
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000012216 screening Methods 0.000 claims abstract description 111
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000006467 substitution reaction Methods 0.000 claims abstract description 18
- 238000013507 mapping Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 59
- 238000004458 analytical method Methods 0.000 claims description 23
- 230000004044 response Effects 0.000 claims description 5
- 239000000047 product Substances 0.000 description 107
- 201000010099 disease Diseases 0.000 description 25
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 25
- 230000008569 process Effects 0.000 description 18
- 238000012549 training Methods 0.000 description 16
- 238000004590 computer program Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 238000002372 labelling Methods 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 239000003814 drug Substances 0.000 description 6
- 239000003795 chemical substances by application Substances 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 229940079593 drug Drugs 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000036541 health Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 229910003460 diamond Inorganic materials 0.000 description 2
- 239000010432 diamond Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 241000157593 Milvus Species 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供一种智能问答方法、装置以及电子设备和计算机可读存储介质,包括:获取问询字符串;确定问询字符串的粗筛实体代称集合;将粗筛实体代称集合的各个粗筛实体代称与问询字符串进行比对,在各个粗筛实体代称中确定问询字符串的目标实体代称;根据目标实体代称对问询字符串进行处理,以确定问询字符串的属性字符串;通过属性识别模型、已知属性信息的历史查询字符串、以及多个已知属性对应的热词对问询字符串和目标实体代称进行处理,确定问询字符串的目标属性;根据实体产品映射表确定目标实体代称对应的目标产品;在目标关系型数据库中确定目标产品对应的产品知识,并根据该产品知识中确定问询字符串对应的答复字符串。
Description
技术领域
本公开涉及计算机与互联网技术领域,尤其涉及一种智能问答方法及装置、电子设备和计算机可读存储介质。
背景技术
目前,随着线上业务的逐渐增多,一些用于解决用户问题的问答系统也逐渐完善。
现有问答对话平台是基于FAQ(Frequently Asked Questions,常见问题解答)技术构建的,其技术特点决定了系统知识库必须由问答对组成。
由此带来了以下问题:
A.问答对需要由人工配置,消耗大量人力。
B.必须严格遵循“一问对一答”的形式,在海量知识场景下,数据量呈指数倍增长。
C.对“实体-关系”型问题,需要进行大量重复性配置工作。
D.海量知识下,因标准问题类别过多导致的匹配精度下降问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。
发明内容
本公开的目的在于提供一种智能问答方法、装置、电子设备以及和计算机可读存储介质,能够为问询字符串提供比较准确的答复字符串。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
本公开实施例提供了一种智能问答方法,包括:获取问询字符串;通过多个预设实体代称、候选实体分析网络对所述问询字符串进行实体粗筛处理,以确定所述问询字符串的粗筛实体代称集合;将所述粗筛实体代称集合的各个粗筛实体代称分别与所述问询字符串进行文本比对,以在所述各个粗筛实体代称中确定所述问询字符串的目标实体代称;根据所述目标实体代称对所述问询字符串进行处理,以确定所述问询字符串的属性字符串;通过属性识别模型、已知属性信息的历史查询字符串、以及多个已知属性对应的热词对所述属性字符串进行处理,以确定所述问询字符串的目标属性;根据实体产品映射表,确定所述目标实体代称对应的目标产品;在目标关系型数据库中确定所述目标产品对应的产品知识,并根据所述目标属性在所述目标产品对应的产品知识中确定所述问询字符串对应的答复字符串。
本公开实施例提供了一种智能问答装置,包括:查询字符串获取模块、粗筛模块、细筛模块、属性字符串确定模块、属性确定模块、目标产品确定模块以及答复字符串确定模块。
其中,所述查询字符串获取模块用于获取问询字符串;所述粗筛模块可以用于通过多个预设实体代称、候选实体分析网络对所述问询字符串进行实体粗筛处理,以确定所述问询字符串的粗筛实体代称集合;所述细筛模块可以用于将所述粗筛实体代称集合的各个粗筛实体代称分别与所述问询字符串进行文本比对,以在所述各个粗筛实体代称中确定所述问询字符串的目标实体代称;所述属性字符串确定模块可以用于根据所述目标实体代称对所述问询字符串进行处理,以确定所述问询字符串的属性字符串;所述属性确定模块可以用于通过属性识别模型、已知属性信息的历史查询字符串、以及多个已知属性对应的热词对所述属性字符串进行处理,以确定所述问询字符串的目标属性;所述目标产品确定模块可以用于根据实体产品映射表,确定所述目标实体代称对应的目标产品;所述答复字符串确定模块可以用于在目标关系型数据库中确定所述目标产品对应的产品知识,并根据所述目标属性在所述目标产品对应的产品知识中确定所述问询字符串对应的答复字符串。
本公开实施例提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一项所述的智能问答方法。
本公开实施例提出一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述任一项所述的智能问答方法。
本公开实施例提出一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述智能问答方法。
本公开实施例提供的智能问答方法、装置及电子设备和计算机可读存储介质,一方面通过多个预设实体代称、候选实体分析网络在问询字符串精准的确定了目标实体代称,进而确定了目标实体代称对应的目标产品,然后通过属性识别模型、已知属性信息的历史查询字符串、以及多个已知属性对应的热词在问询字符串精准的确定了目标属性,接着基于目标实体代称和目标属性、通过目标关系型数据库为问询字符串确定了相关性高的答复字符串;另一方面,通过关系型数据库存储产品的产品知识,并通过该产品知识确定问询字符串对应的目标产品对应的答复字符串,节约了大量的存储空间,提高了查询效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用于本公开实施例的智能问答方法或智能问答装置的示例性系统架构的示意图。
图2是根据一示例性实施例示出的一种智能问答方法的流程图。
图3是根据一示例性实施例示出的一种实体粗筛方法的流程图。
图4是根据一示例性实施例示出的目标实体代称确定方法的流程图。
图5是根据一示例性实时示出的一种目标属性确定方法流程图。
图6是根据一示例性实施例示出的一种智能问答方法的流程图。
图7是根据一示例性实施例示出的一种智能问答装置的框图。
图8示出了适于用来实现本公开实施例的的电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
本公开所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图仅为本公开的示意性图解,图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和步骤,也不是必须按所描述的顺序执行。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本说明书中,用语“一个”、“一”、“该”、“所述”和“至少一个”用以表示存在一个或多个要素/组成部分/等;用语“包含”、“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”、“第二”和“第三”等仅作为标记使用,不是对其对象的数量限制。
下面结合附图对本公开示例实施方式进行详细说明。
图1示出了可以应用于本公开实施例的智能问答方法或智能问答装置的示例性系统架构的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。其中,终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、可穿戴设备、虚拟现实设备、智能家居等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所进行操作的装置提供支持的后台管理服务器。后台管理服务器可以对接收到的请求等数据进行分析等处理,并将处理结果反馈给终端设备。
服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Deli待查询向量very Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器等,本公开对此不做限制。
服务器105可例如获取问询字符串;服务器105可例如通过多个预设实体代称、候选实体分析网络对所述问询字符串进行实体粗筛处理,以确定所述问询字符串的粗筛实体代称集合;服务器105可例如将所述粗筛实体代称集合的各个粗筛实体代称分别与所述问询字符串进行文本比对,以在所述各个粗筛实体代称中确定所述问询字符串的目标实体代称;服务器105可例如根据所述目标实体代称对所述问询字符串进行处理,以确定所述问询字符串的属性字符串;服务器105可例如通过属性识别模型、已知属性信息的历史查询字符串、以及多个已知属性对应的热词对所述属性字符串进行处理,以确定所述问询字符串的目标属性;服务器105可例如根据实体产品映射表,确定所述目标实体代称对应的目标产品;服务器105可例如在目标关系型数据库中确定所述目标产品对应的产品知识,并根据所述目标属性在所述目标产品对应的产品知识中确定所述问询字符串对应的答复字符串。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的,服务器105可以是一个实体的服务器,还可以为多个服务器组成,根据实际需要,可以具有任意数目的终端设备、网络和服务器。
图2是根据一示例性实施例示出的一种智能问答方法的流程图。本公开实施例所提供的方法可以由任意具备计算处理能力的电子设备来执行,例如该方法可以由上述图1实施例中的服务器或终端设备来执行,也可以由服务器和终端设备共同执行,在下面的实施例中,以服务器为执行主体为例进行举例说明,但本公开并不限定于此。
参照图2,本公开实施例提供的智能问答方法可以包括以下步骤。
步骤S202中,获取问询字符串。
在一些实施例中,问询字符串可以是用户输入的问询文本,例如“XX保险的保额是多少?”。
例如,用户可以通过前端界面(Web页面、应用程序、APP等)输入问题Q0。
在一些实施例中,在获得用户输入的问询字符串之后,还需要对问题Q0进行清洗,去除停用词、标点等无关字符,得到清洗后的问询字符串Q1。
步骤S204中,通过多个预设实体代称、候选实体分析网络对所述问询字符串进行实体粗筛处理,以确定所述问询字符串的粗筛实体代称集合。
在一些实施例中,“实体”可以为保险、医疗等产品,也可以是人物、时间等拥有具体属性的客观存在,本公开对此不做限制。
“实体代称”可以是该实体的全称、简称、别称、或者产品代码等任意可以指向该实体的名称,本公开对此不做限制。
候选实体分析网络可以指的是提前训练好的,可以用来对文本字符串进行实体名称确定的神经网络,例如将某个字符串输入至候选实体分析网络,该候选实体分析网络可以输出该字符串中包含的实体代称。
在一些实施例中,可以通过文字匹配从多个预设实体代称中,确定多个可能是问询字符串中包含的第一实体代称。
在一些实施例中,还可以通过候选实体分析网络对问询字符串进行处理,以确定多个可能是问询字符串中包括的第二实体代称。
在一些实时中,可以将多个第一实体代称和多个第二实体代称去重并与合并,以生成粗筛实体代称集合。
步骤S206中,将所述粗筛实体代称集合的各个粗筛实体代称分别与所述问询字符串进行文本比对,以在所述各个粗筛实体代称中确定所述问询字符串的目标实体代称。
在一些实施例中,可以通过将粗筛实体代称集合的各个粗筛实体代称分别与问询字符串进行文本比对,确定一个与问询字符串中的语义最为接近的目标实体代称。
一方面上述步骤S204、步骤S206可以从问询字符串中准确的确定目标实体代称,该目标实体代称与问询字符串中可能包括的实体信息最为接近;另一方面,上述步骤S204、步骤S206不仅可以准确的识别问询字符串中的短命名实体(即实体代称文字较短),还可以准确的识别长命名实体(即实体代称文字较长);另外,上述步骤S204、步骤S206不仅可以识别问询字符串中明确包含的实体代称(即明显包含在问询字符串中的实体代称),还可以通过候选实体分析网络从问询字符串中识别出隐含包括的实体代称(即没有通过明确的文字记载在问询字符串中,但是通过问询字符串的文字意思可以确定的实体名称)。
步骤S208中,根据所述目标实体代称对所述问询字符串进行处理,以确定所述问询字符串的属性字符串。
在一些实施例中,若问询字符串包括目标实体代称,则通过目标实体代称对问询字符串进行裁剪,以确定问询字符串的属性字符串;若问询字符串不包括目标实体代称,则将问询字符串整体作为问询字符串的属性字符串。
例如,可以尝试对问询字符串Q1进行裁剪,目的是尽量减少实体名对属性识别过程的影响。若问询字符串Q1中包含目标实体代称,则对问询字符串Q1进行字符串裁剪,去除目标实体代称部分,得到属性字符串Q2;若不包含,则保留问询字符串Q1全部字符,得到属性字符串Q2。
步骤S210中,通过属性识别模型、已知属性信息的历史查询字符串、以及多个已知属性对应的热词对所述属性字符串进行处理,以确定所述问询字符串的目标属性。
在一些实施例中,属性识别模型是提前训练好的、可以对属性字符串进行处理,以确定属性字符串对应的属性信息的神经网络。
在一些实施例中,可以通过属性识别模型对属性字符串进行分类处理,以确定属性字符串的第一候选属性。
在一些实施例中,已知属性信息的历史查询字符串是属性已知的历史上的用户查询过的字符串。
在一些实施例中,可以通过问询字符串与历史查询字符串的相似度,确定问询字符串的第二候选属性。
在一些实施例中,已知属性对应的热词可以指的是属性已知的热词名称。
在一些实施例中,可以通过属性字符串与已知属性的热词进行匹配,以确定该属性字符串对应的第三候选属性。
在一些实施例中,可以通过一定评价方式,在第一候选属性、第二候选属性以及第三候选属性中确定目标属性。例如可以对第一候选属性、第二候选属性以及第三候选属性进行评分赋值和加权赋值,然后进行加权平均,最后将评分最靠近加权平均值的属性作为目标属性。
步骤S212中,根据实体产品映射表,确定所述目标实体代称对应的目标产品。
在一些实施例中,从问询字符串中确定的目标实体代称并非是标准化的名称,可能需要将该非标准化的实体代称转换为标准化的产品全称。例如,可以将实体代称(包括但不限于产品的全称、简称、别称、产品代码)映射为产品(即产品全称)。例如,可以将目标实体代称输入实体-产品映射表中,得到目标实体代称对应的目标产品(即产品全称)。
在一些实施例中,目标产品可以是一个,也可以是多个(即产品集合{Pn})。(注:代称和全称可能存在一对一,或一对多的映射关系)。
步骤S214中,在目标关系型数据库中确定所述目标产品对应的产品知识,并根据所述目标属性在所述目标产品对应的产品知识中确定所述问询字符串对应的答复字符串。
在一些实施例中,目标关系型数据库中会将各个产品与其各个属性所对应的产品知识进行对应,一般在确定了目标产品后,可以立即确定该目标产品对应的所有的产品知识。
在一些实施例中,若目标关系型数据库中不存在与目标实体代称对应的目标产品或者目标产品对应的产品知识中不存在问询字符串对应的属性的答案,则生成产品缺失或者属性缺失的追问答复字符串。
例如,可以按照一定规则产生答案A。若{Pn}仅包含单一产品P0,且目标关系型数据库DB包含产品P0和属性R,则对应该产品P0和属性R对应的产品知识为本方法最终返回的答案A;若目标关系型数据库DB中缺失了产品P0和属性R中的某一个,则返回异常值,生成追问关于缺失的产品或属性相关的话术作为答案A;否则,返回异常值,并生成适当话术作为答案第十步,将答案A返回至前端界面或API接口,本轮交互结束。
现有问答对话平台主要是通过Frequently Asked Questions(简称FAQ)技术实现人机交互,其技术原理是提前配置好“标准问-相似问-标准答案”对应的问答对(如表1所示),通过将输入问题匹配至最相似的标准/相似问,寻找到相应的标准答案。常用的FAQ问题匹配方法有分类法、相似度匹配法等。FAQ技术的优势在于技术实现较为简单,业务人员对知识的运维较为简单;缺点在于:①不够灵活,对于同类的相似问题无法灵活配置,运维成本会以非线性倍率增长;②对于海量问答对,相似问题的识别准确率无保障,容易回报错误答案。
表1
本公开提供的技术方案,不需要人工配置问答对,采用数据库储存产品知识。建立数据库时所需要的二维表一般可由业务人员处直接获得,且当知识发生增删改时,只需通过更新数据表即可完成知识迭代,大大降低了运维成本。
例如对保险产品相关知识的问答,当存在10个产品与10个属性的知识时,FAQ至少需要配置10*10=100个标准问答对;当知识增加90个产品和90个属性时,FAQ需要新配置100*100-10*10=9000个问答对。相比之下,本发明的问答装置仅需要通过二维表更新数据库(增加90行和90列),即可实现知识的扩展,人工运维和复核的成本大大降低。
此外,这些问答对中大量问题是相似且接近的,例如:
①XX保险公司e理财B款终身寿险(分红型)分红怎么分配?
②XX保险公司e理财B款终身寿险(投资连结型)分红怎么分配?
③XX保险公司e康D款两全保险的身故保险金。
④XX保险公司e康D款两全保险的身故责任。
对于以上①②、③④两组问题,FAQ的分类模型很容易出现混淆。而本公开能够准确区分①②的产品,准确区分③④的属性差别。
图3是根据一示例性实施例示出的一种实体粗筛方法的流程图。参考图3,上述实体粗筛方法可以包括以下步骤。
在步骤S302中,将所述问询字符串与所述多个预设实体代称进行文本比对,以在所述多个预设实体代称中确定与所述待查询字符组匹配的第一候选实体代称集合。
在一些实施例中,可以利用预先建立的、包含全部实体代称(预设实体代称)的索引I,将问询字符串Q1输入索引I进行检索,得到与问询字符串相似度前m名的第一候选实体代称集合{Cm}1。
其中,预设实体代称可以包含但不限于实体的全称、简称、别称、产品代码等。
在步骤S304中,通过所述候选实体分析网络对所述问询字符串进行分类处理,以确定所述问询字符串对应的第二候选实体代称集合。
a.使用包含全部实体代称(包含但不限于全称、简称、别称、产品代码等)的集合{L},对一定数量的历史用户查询文本,按照文本中提及的实体代称(包含但不限于全称、简称、别称、产品代码等)所对应的实体全称进行文本分类标注,形成训练集D1;
b.使用训练集D1在深度神经网络模型上执行文本分类训练任务,得到候选实体分析网络M1。
c.将问询字符串Q1输入候选实体分析网络M1,经softmax层输出各类别的预测概率,取概率最高的前m个类别对应的实体全称,形成第二候选实体代称集合{Cm}2,m为大于或者等于1的整数。
在步骤S306中,将所述第一候选实体代称集合和所述第二候选实体代称集合进行去重和合并,以确定所述问询字符串的所述粗筛实体代称集合。
在一些实施例中,可以对上述第一候选实体代称集合{Cm}1和第二候选实体代称集合{Cm}2进行去重和合并处理,最终得到包含n个代称的集合粗筛实体代称集合{Cn},作为粗筛实体代称集合,n为大于或者等于1的整数。
图4是根据一示例性实施例示出的目标实体代称确定方法的流程图。
参考图4,上述目标实体代称确定方法可以包括以下步骤。
在步骤S402中,若所述各个粗筛实体代称中存在至少一个粗筛实体代称包含于所述问询字符串,则在所述至少一个粗筛实体代称中确定文本长度最长的一个作为目标实体代称。
在一些实施例中,可以遍历粗筛实体代称集合{Cn}中的实体,依次与问询字符串Q1进行字符串匹配,在粗筛实体代称集合{Cn}确定被问询字符串Q1中包含的最长实体代称,记为目标实体代称。
在一些实施例中,若问询字符串Q1不包含粗筛实体代称集合{Cn}中任一实体代称,则调用步骤S404~步骤S408的方法确定目标实体代称。
在步骤S404中,若所述各个粗筛实体代称中不存在包含于所述问询字符串的粗筛实体代称,则通过实体确定网络对所述问询字符串进行处理以确实所述问询字符串的候选实体代称。
a.使用包含全部实体代称(包含但不限于全称、简称、别称、产品代码等)的集合{L},对一定数量的历史用户查询数据中的实体代称进行序列标注,形成训练集D2;
b.使用训练集D2在深度神经网络模型上执行命名实体识别训练任务,得到序列标注模型M2;
c.将问询字符串Q1输入序列标注模型M2,经编码、解码后得到相对应的序列标注结果,取其中标注出的实体p,作为问询字符串的候选实体代称。
在步骤S406中,确定所述粗筛实体代称集合中各个粗筛实体代称与所述候选实体代称的文本编辑距离和向量相似度。
其中,文本编辑距离是针对字符串的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。
在一些实施例中,可以将粗筛实体代称集合{Cn}中的各元素和标注实体p依次输入分类候选实体分析网络M1,分别得到对应的向量集合{待查询向量vn}和向量待查询向量vp。
在步骤S408中,根据所述文本编辑距离和所述向量相似度,在所述粗筛实体名称中确定所述目标实体代称。
在一些实施例中,可以依次计算集合粗筛实体代称集合{Cn}中各实体代称与p的文本编辑距离,作为第一评价指标;依次计算向量集合{待查询向量vn}和待查询向量vp的cos相似度,作为第二评价指标。综合第一、第二评价指标进行考量,得到实体代称,记为目标实体代称。
图5是根据一示例性实时示出的一种目标属性确定方法流程图。
在步骤S502中,通过属性识别模型对所述属性字符串进行处理,以确定所述问询字符串对应的第一候选属性。
在一些实施例中,可以通过以下方法确定第一候选属性。
a.对一定数量的历史用户查询文本,按照用户意图进行属性标注,得到训练集D3;
b.使用训练集D3在深度神经网络模型上执行文本分类训练任务,得到属性识别模型M3;
c.将属性字符串Q2输入属性识别模型M3,经softmax层输出各类别的预测概率,其最高概率对应的属性类别,记为第一候选属性R1。
在步骤S504中,通过所述属性识别模型对所述属性字符串和历史查询字符串分别进行处理,以确定所述问询字符串对应的待查询向量和所述历史查询字符串对应的历史查询向量。
在一些实施例中,可以使用属性识别模型M3对训练集D3(即历史查询字符串)中的文本逐条进行向量化得到历史查询向量,并导入至向量检索空间V(如通过milvus(一种检索空间)或annoy(一种检索空间));
在步骤S506中,根据所述待查询向量与所述历史查询向量之间的相似度,在所述历史查询字符串中确定与所述属性字符串相似度最高的目标历史字符串。
在一些实施例中,可以将属性字符串Q2输入属性识别模型M3得到待查询向量v,将待查询向量v置于向量检索空间V中,通过计算待查询向量v与各个历史查询向量间的距离(例如欧氏距离或角距离),检索得到相似度最高的的n个目标历史查询向量,并相应得到各目标历史查询向量对应的的属性{Rn}。
在步骤S508中,将所述目标历史字符串对应的属性作为所述问询字符串的第二候选属性。
在一些实施例中,可以取{Rn}中的众数作为第二候选属性R2。
在一些实施例中,可以通过步骤S510~步骤S512,以根据所述第一候选属性、所述第二候选属性、以及所述多个已知属性对应的热词确定所述问询字符串的目标属性。
在步骤S510中,通过正则表达式将所述属性字符串与多个已知属性对应的热词表进行比对,以在所述多个已知属性中确定所述问询字符串的第三候选属性。
在一些实施例中,可以通过以下方法确定第三候选属性:
a.分析问答场景和实体,分别构建各属性类别的热词集合/词表{W}和正则表达式集合{Reg},以及相应的匹配度评分机制Rank;
b.依次使用各个属性的{W},{Reg}对属性字符串Q2进行匹配,通过评分机制Rankn对匹配程度进行评价,得分记为Scoren;
c.取Score分值最高的属性,记为第三候选属性R3。
在步骤S512中,根据所述第一候选属性、所述第二候选属性以及所述第三候选属性,确定所述问询字符串的目标属性。
在一些实施例中,可以依次使用第一、第二、第三属性识别方法,对属性字符串Q2进行属性识别,分别得到属性R1,R2,R3。然后通过一定评价方式在属性R1,R2,R3中得出目标属性R。例如,可以对第一候选属性、第二候选属性以及第三候选属性进行评分赋值和加权赋值,然后进行加权平均,最后将评分最靠近加权平均值的属性作为目标属性。
图6是根据一示例性实施例示出的一种智能问答方法的流程图。
下面举7个保险产品知识问答的输入例句,模拟本公开提供技术方案的数据处理流程,模拟数据id记为1-7。
参考图6,上述智能问答方法的流程图可以包括以下步骤。
步骤S602,前端界面传入问句Q0。
步骤S604,对字符串预处理。例如,对Q0进行清洗和必要的预处理,得到问询字符串Q1。在下面的模拟的例句中,可以对英文小写字符、中英文标点进行了处理。
表2
步骤S606,对字符串Q0进行实体粗筛。
首先,使用第一实体粗筛方法对问询字符串Q1进行处理以确定第一候选实体代称集合。即将全部已知产品的全称和别称输入ElasticSearch(一种搜索和分析引擎,ES),建立索引I,将问询字符串Q1输入索引I进行检索返回前m个实体代称。
以第1句举例来说。
ES输入:
“XX保险公司全能保B款两全保险保险到期人活着怎么给付”
ES返回前10名检索实体代称集合{Cm}1(返回“实体-分数”):
[['全能保B款两全保险',15.407629],
['XX保险公司全能保B款两全保险',14.941188],
['全能保B两全保险',14.597694],
……
以第4句举例来说。
ES输入:
“附件健康人生重疾都保什么重疾”
ES返回:
[['附健康人生重疾',17.333494],
['附健康人生定期重疾',16.581347],
['附健康人生B重疾',16.581347],
……
以第7句举例来说。
ES query:
“我今天吃饭了”
ES返回:
[]
然后,使用第二实体粗筛方法对问询字符串Q1进行处理,以确定第二候选实体代称集合:
D1数据集示例:
表3
使用D1训练集训练分类候选实体分析网络M1。
将问询字符串Q1输入分类候选实体分析网络M1,经softmax层输出各类别的预测概率,取概率最高的前3个类别各自对应的实体代称,形成集合{Cm}2;
以第1句举例来说。
向M1输入query:
“XX保险公司全能保B款两全保险保险到期人活着怎么给付”。
M1返回其预测结果,取前3名检索实体代称集合{Cm}2(返回“实体-预测概率”):
[['XX保险公司全能保B款两全保险',0.6728],
['XX保险公司全能保A款两全保险',0.2128],
['XX保险公司附加全能保B款重大疾病保险',0.0932]]
对第一、第二实体粗筛方法得到的候选实体代称集合{Cm}1、{Cm}2进行去重和合并,最终得到包含n个代称的集合粗筛实体代称集合{Cn},为初筛集合。
以第1句举例来说。
query:
XX保险公司全能保B款两全保险保险到期人活着怎么给付
对应的实体代称初筛集合粗筛实体代称集合{Cn}为:
[['全能保B款两全保险',15.407629],
['全能保B两全保险',14.597694],
……,
['XX保险公司全能保B款两全保险',0.6728],
['XX保险公司全能保A款两全保险',0.2128],
['XX保险公司附加全能保B款重大疾病保险',0.0932]]
将{Cm}1和{Cm}2进行去重合并,生成粗筛实体代称集合{Cn}。
步骤S608,实体精细匹配。
第一精细匹配方法:遍历粗筛实体代称集合{Cn}中的实体,进行字符级的对比,取问询字符串Q1中包含的最长实体,记为目标实体代称;若问询字符串Q1不包含粗筛实体代称集合{Cn}中任一实体,则取粗筛实体代称集合{Cn}中检索分数最高的实体,记为精细匹配结果目标实体代称。
以第1句举例来说,'全能保B款两全保险'和'XX保险公司全能保B款两全保险'均被问询字符串Q1包含,但'XX保险公司全能保B款两全保险'字符串长度更长,因此取其为目标实体代称。
以第4句举例来说,粗筛实体代称集合{Cn}中无任一实体被问询字符串Q1包含,因此进入第二精细匹配方法。
第二精细匹配方法:
训练集D2标注样本举例:
表4
E | 理 | 财 | B | 款 | 怎 | 么 | 收 | 保 | 费 |
B-ENT | I-ENT | I-ENT | I-ENT | I-ENT | O | O | O | O | O |
以第4句(“附件健康人生重疾都保什么重疾”)举例来说。
由于第一精细匹配方法无法找出目标实体代称,将query输入M2,得到序列标注预测结果:
表5
附 | 件 | 健 | 康 | 人 | 生 | 都 | 保 |
B-ENT | I-ENT | I-ENT | I-ENT | I-ENT | I-ENT | O | O |
什 | 么 | 重 | 疾 | ||||
O | O | O | O |
抽取其中识别结果不为“O”的字符,得到预测实体p:“附件健康人生”
将粗筛实体代称集合{Cn}中各实体代称和上一步得到的预测实体p输入M1分类模型,得到向量集合{待查询向量vn}和向量待查询向量vp。
第一评价指标:依次计算集合{待查询向量vn}中个元素待查询向量vn与待查询向量vp的相似度:
Cos(待查询向量v1与待查询向量vp)=0.92
Cos(待查询向量v2与待查询向量vp)=0.94
Cos(待查询向量v3与待查询向量vp)=0.81
……
第二评价指标依次计算集合粗筛实体代称集合{Cn}中个元素Cn与预测实体p的文本编辑距离:
[['附健康人生重疾',3],
['附健康人生定期重疾',5],
['附健康人生B重疾',4],
……
综合第一、第二评价指标的结果,得到“附健康人生重疾”为精细匹配结果目标实体代称。
步骤S610,实体-产品映射。
通过目标实体代称,从实体-产品映射关系中寻找相应的产品集合{Pn}。
以第1句举例来说,'XX保险公司全能保B款两全保险'对应的产品集合为{1.XX保险公司全能保B款两全保险},包含1种产品。
以第3句举例来说,“特药保险”对应的产品集合为{1.XX保险公司特定恶性肿瘤药品费用医疗保险,2.XX保险公司特定疾病药品费用医疗保险},包含2种产品。
步骤S612~步骤S614,尝试对问询字符串Q1进行裁剪。
以第1句举例来说,问询字符串Q1“XX保险公司全能保B款两全保险保险到期人活着怎么给付”中包含目标实体代称“XX保险公司全能保B款两全保险”,因此裁剪后的属性字符串Q2为“保险到期人活着怎么给付”。
以第4句举例来说,问询字符串Q1“附件健康人生重疾都保什么重疾”中不包含目标实体代称“附健康人生重疾”,因此属性字符串Q2与问询字符串Q1相同,为“附件健康人生重疾都保什么重疾’。
表6
步骤S616,对属性字符串Q2进行属性识别。
以第4例句的属性字符串Q2“附件健康人生重疾都保什么重疾”为例:
1.第一属性识别方法:
a.对一定数量的历史用户查询文本,按照用户意图进行属性标注,得到训练集D3:
D3样本示例:
表7
b.使用训练集D3在深度神经网络模型上执行文本分类训练任务,得到属性识别模型M3;
c.将属性字符串Q2输入属性识别模型M3,经softmax层输出各类别的预测概率,其最高属性类别为“重疾种类”,记为R1。
2.第二属性识别方法:
a.使用属性识别模型M3对训练集D3中的文本逐条进行向量化,得到特征向量集合,并导入至向量检索空间待查询向量V;
b.将属性字符串Q2输入M3得到待查询向量v,将待查询向量v置于待查询向量V中,通过计算待查询向量v与各个样本间的欧氏距离,检索得到5个最近邻文本,并相应得到各文本对应的的属性{Rn},取{Rn}样本中的众数“重疾种类”,记为R2。
表8
3.第三属性识别方法:
a.通过分析问答场景和实体,分别构建各属性类别的热词集合/词表{W}n或正则表达式集合{Reg}n,以及相应的匹配度评分机制Rankn;
例如“重疾种类”的关键词表{W}0为{“重疾”,“哪些”,“包含”,“保障”}
正则表达式
评分机制Rank0={W}0中元素命中属性字符串Q2的数量/{W}0包含的元素数量+属性字符串Q2是否命中{Reg}n中的任一正则表达式
b.依次使用各个属性的{W},{Reg}对属性字符串Q2进行匹配,通过评分机制Rankn对匹配程度进行评价,得分记为Score;
c.取Score分值最高的属性“是否重疾”,记为R3。
综合第一、第二、第三属性识别方法的结果,取“重疾种类”记为R。
表9
识别方法 | 识别结果 |
R1 | 重疾种类 |
R2 | 重疾种类 |
R3 | 是否重疾 |
下表(表10),为第1-7例句的属性识别结果。
表10
步骤S620,基于{P0}和R,在关系型目标关系型数据库DB中查找产品知识,并生成答案。
表11
如表12所示,以第1句举例来说,{P0}仅包含一种产品{1.XX保险公司全能保B款两全保险},R为’满期保险金’,关系型数据库中存在产品P0和属性R,但数据库中对应位置的存储内容为空,因此生成“数据库中没有关于XX保险公司全能保B款两全保险的满期保险金的相关信息”作为答案A。
以第2句举例来说,{P0}仅包含一种产品{1.XX保险公司金满仓两全保险(分红型)},R为“满期保险金”,关系型数据库中存在产品P0和属性R,且数据库中对应位置的存储内容不为空,因此将对应内容“若被保险人在本合同保险期间届满时依然生存,本公司按本合同的保险金额向被保险人给付满期保险金,本合同终止。本合同的保险期间期满日于保险单上载明。”作为答案A。
以第3句举例来说,{P0}包含2种产品{1.XX保险公司特定恶性肿瘤药品费用医疗保险,2.XX保险公司特定疾病药品费用医疗保险},R为“复效”,由于{P0}包含一种以上产品,不能完成精确查询,因此生成“您想查询以下哪种产品的相关信息:\nXX保险公司特定恶性肿瘤药品费用医疗保险\nXX保险公司特定疾病药品费用医疗保险”作为答案A,提示用户补充产品信息。
以第5句举例来说,{P0}包含1种产品{XX保险公司附加钻石账户年金保险(万能型)},R为“-1”即未识别出属性。由于只有产品信息,无属性信息,不能完成精确查询,因此生成“您想查询XX保险公司附加钻石账户年金保险(万能型)的哪类问题?\nF1\n本体\n别名\n一级分类\n二级分类”作为答案A,提示用户补充属性信息。
以第7句举例来说,该句为闲聊文本,既无法识别出产品,又无法识别出关系,不能完成精确查询,因此生成“无法检索到您关注的产品,请重新输入您的问题”作为答案A。
表12
步骤S622,将答案A返回至前端界面或API接口,本轮交互结束。
下面对本方案带来的有益技术效果逐一阐述。
表13
图7是根据一示例性实施例示出的一种智能问答装置的框图。参照图7,本公开实施例提供的智能问答装置700可以包括:查询字符串获取模块701、粗筛模块702、细筛模块703、属性字符串确定模块704、属性确定模块705、目标产品确定模块706、以及答复字符串确定模块707。
其中,查询字符串获取模块701可以用于获取问询字符串;粗筛模块702可以用于通过多个预设实体代称、候选实体分析网络对问询字符串进行实体粗筛处理,以确定问询字符串的粗筛实体代称集合;细筛模块703可以用于进行处理以确定问询字符串的候选实体代称;属性字符串确定模块704可以用于根据目标实体代称对问询字符串进行处理,以确定问询字符串的属性字符串;属性确定模块705可以用于通过属性识别模型、已知属性信息的历史查询字符串、以及多个已知属性对应的热词对属性字符串进行处理,以确定问询字符串的目标属性;目标产品确定模块706可以用于根据实体产品映射表,确定目标实体代称对应的目标产品;答复字符串确定模块707可以用于在目标关系型数据库中确定目标产品对应的产品知识,并根据目标属性在目标产品对应的产品知识中确定问询字符串对应的答复字符串。
在一些实施例中,粗筛模块702包括:第一候选实体代称集合确定单元、第二候选实体代称集合确定单元和粗筛实体代称集合确定单元。
其中,第一候选实体代称集合确定单元可以用于将问询字符串与多个预设实体代称进行文本比对,以在多个预设实体代称中确定与待查询字符组匹配的第一候选实体代称集合;第二候选实体代称集合确定单元可以用于粗筛实体代称集合通过候选实体分析网络对问询字符串进行分类处理,以确定问询字符串对应的第二候选实体代称集合;粗筛实体代称集合确定单元可以用于将第一候选实体代称集合和第二候选实体代称集合进行去重和合并,以确定问询字符串的粗筛实体代称集合。
在一些实施例中,细筛模块703可以包括:文本长度确定单元。
其中,文本长度确定单元可以用于若各个粗筛实体代称中存在至少一个粗筛实体代称包含于问询字符串,则在至少一个粗筛实体代称中确定文本长度最长的一个作为目标实体代称。
在一些实施例中,细筛模块703可以包括:候选实体代称确定单元、文本编辑距离确定单元、以及目标实体代称确定单元。
其中,候选实体代称确定单元用于若各个粗筛实体代称中不存在包含于问询字符串的粗筛实体代称,则通过实体确定网络对问询字符串进行处理以确定问询字符串的候选实体代称;文本编辑距离确定单元用于确定粗筛实体代称集合中各个粗筛实体代称与候选实体代称的文本编辑距离和向量相似度;目标实体代称确定单元用于根据文本编辑距离和向量相似度,在粗筛实体名称中确定目标实体代称。
在一些实施例中,属性字符串确定模块704可以包括:字符串包括确定单元和字符串不包括确定单元。
其中,字符串包括确定单元可以用于若问询字符串包括目标实体代称,则通过目标实体代称对问询字符串进行裁剪,以确定问询字符串的属性字符串;字符串不包括确定单元可以用于若问询字符串不包括目标实体代称,则将问询字符串整体作为问询字符串的属性字符串。
在一些实施例中,属性确定模块705可以包括:第一候选属性确定单元、历史查询向量确定单元、目标历史字符串确定单元、第二候选属性确定单元、以及目标属性第一确定单元。
其中,第一候选属性确定单元可以配置为通过属性识别模型对属性字符串进行处理,以确定问询字符串对应的第一候选属性;历史查询向量确定单元可以配置为通过属性识别模型对属性字符串和历史查询字符串分别进行处理,以确定问询字符串对应的待查询向量和历史查询字符串对应的历史查询向量;目标历史字符串确定单元可以用于根据待查询向量与历史查询向量之间的相似度,在历史查询字符串中确定与属性字符串相似度最高的目标历史字符串;第二候选属性确定单元可以用于将目标历史字符串对应的属性作为问询字符串的第二候选属性;目标属性第一确定单元可以用于根据第一候选属性、第二候选属性、以及多个已知属性对应的热词确定问询字符串的目标属性。
在一些实施例中,目标属性第一确定单元可以包括:第三候选属性确定子单元和目标属性第二确定子单元。
第三候选属性确定子单元可以用于通过正则表达式将属性字符串与多个已知属性对应的热词表进行比对,以在多个已知属性中确定问询字符串的第三候选属性;目标属性第二确定子单元可以用于根据第一候选属性、第二候选属性以及第三候选属性,确定问询字符串的目标属性。
在一些实施例中,智能问答装置还可以包括:追问答复字符串确定模块。
其中,追问答复字符串确定模块可以用于若目标实体代称没有对应的目标产品或者目标产品对应的产品知识中不存在问询字符串对应的答案,则生成产品缺失或者属性缺失的追问答复字符串。
由于装置700的各功能已在其对应的方法实施例中予以详细说明,本公开于此不再赘述。
描述于本申请实施例中所涉及到的模块和/或单元和/或子单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块和/或单元和/或子单元也可以设置在处理器中。其中,这些模块和/或单元和/或子单元的名称在某种情况下并不构成对该模块和/或单元和/或子单元本身的限定。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
图8示出了适于用来实现本公开实施例的的电子设备的结构示意图。需要说明的是,图8示出的电子设备800仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,电子设备800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从储存部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有电子设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的储存部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入储存部分808。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本公开所示的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备可实现功能包括:获取问询字符串;通过多个预设实体代称、候选实体分析网络对所述问询字符串进行实体粗筛处理,以确定所述问询字符串的粗筛实体代称集合;将所述粗筛实体代称集合的各个粗筛实体代称分别与所述问询字符串进行文本比对,以在所述各个粗筛实体代称中确定所述问询字符串的目标实体代称;根据所述目标实体代称对所述问询字符串进行处理,以确定所述问询字符串的属性字符串;通过属性识别模型、已知属性信息的历史查询字符串、以及多个已知属性对应的热词对所述属性字符串进行处理,以确定所述问询字符串的目标属性;根据实体产品映射表,确定所述目标实体代称对应的目标产品;在目标关系型数据库中确定所述目标产品对应的产品知识,并根据所述目标属性在所述目标产品对应的产品知识中确定所述问询字符串对应的答复字符串。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例的各种可选实现方式中提供的方法。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者智能设备等)执行根据本公开实施例的方法,例如图2~图6中一个或多个所示的步骤。
本领域技术人员在考虑说明书及实践在这里公开的公开后,将容易想到本公开的其他实施例。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不限于这里已经示出的详细结构、附图方式或实现方法,相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
Claims (10)
1.一种智能问答方法,其特征在于,包括:
获取问询字符串;
通过多个预设实体代称、候选实体分析网络对所述问询字符串进行实体粗筛处理,以确定所述问询字符串的粗筛实体代称集合;
将所述粗筛实体代称集合的各个粗筛实体代称分别与所述问询字符串进行文本比对,以在所述各个粗筛实体代称中确定所述问询字符串的目标实体代称;
根据所述目标实体代称对所述问询字符串进行处理,以确定所述问询字符串的属性字符串;
通过属性识别模型、已知属性信息的历史查询字符串、以及多个已知属性对应的热词对所述属性字符串进行处理,以确定所述问询字符串的目标属性;
根据实体产品映射表,确定所述目标实体代称对应的目标产品;
在目标关系型数据库中确定所述目标产品对应的产品知识,并根据所述目标属性在所述目标产品对应的产品知识中确定所述问询字符串对应的答复字符串;
其中,通过属性识别模型、已知属性信息的历史查询字符串、以及多个已知属性对应的热词对所述属性字符串进行处理,以确定所述问询字符串的目标属性,包括:
通过属性识别模型对所述属性字符串进行处理,以确定所述问询字符串对应的第一候选属性;
通过所述属性识别模型对所述属性字符串和历史查询字符串分别进行处理,以确定所述问询字符串对应的待查询向量和所述历史查询字符串对应的历史查询向量;
根据所述待查询向量与所述历史查询向量之间的相似度,在所述历史查询字符串中确定与所述属性字符串相似度最高的目标历史字符串;
将所述目标历史字符串对应的属性作为所述问询字符串的第二候选属性;
根据所述第一候选属性、所述第二候选属性、以及所述多个已知属性对应的热词确定所述问询字符串的目标属性。
2.根据权利要求1所述方法,其特征在于,通过多个预设实体代称、候选实体分析网络对所述问询字符串进行实体粗筛处理,以确定所述问询字符串的粗筛实体代称集合,包括:
将所述问询字符串与所述多个预设实体代称进行文本比对,以在所述多个预设实体代称中确定与待查询字符组匹配的第一候选实体代称集合;
通过所述候选实体分析网络对所述问询字符串进行分类处理,以确定所述问询字符串对应的第二候选实体代称集合;
将所述第一候选实体代称集合和所述第二候选实体代称集合进行去重和合并,以确定所述问询字符串的所述粗筛实体代称集合。
3.根据权利要求1所述方法,其特征在于,将所述粗筛实体代称集合的各个粗筛实体代称分别与所述问询字符串进行文本比对,以在所述各个粗筛实体代称中确定所述问询字符串的目标实体代称,包括:
若所述各个粗筛实体代称中存在至少一个粗筛实体代称包含于所述问询字符串,则在所述至少一个粗筛实体代称中确定文本长度最长的一个作为目标实体代称。
4.根据权利要求1所述方法,其特征在于,将所述粗筛实体代称集合的各个粗筛实体代称分别与所述问询字符串进行文本比对,以在所述各个粗筛实体代称中确定所述问询字符串的目标实体代称,包括:
若所述各个粗筛实体代称中不存在包含于所述问询字符串的粗筛实体代称,则通过实体确定网络对所述问询字符串进行处理以确实所述问询字符串的候选实体代称;
确定所述粗筛实体代称集合中各个粗筛实体代称与所述候选实体代称的文本编辑距离和向量相似度;
根据所述文本编辑距离和所述向量相似度,在所述粗筛实体名称中确定所述目标实体代称。
5.根据权利要求1所述方法,其特征在于,根据所述目标实体代称对所述问询字符串进行处理,以确定所述问询字符串的属性字符串,包括:
若所述问询字符串包括所述目标实体代称,则通过所述目标实体代称对所述问询字符串进行裁剪,以确定所述问询字符串的属性字符串;
若所述问询字符串不包括所述目标实体代称,则将所述问询字符串整体作为所述问询字符串的属性字符串。
6.根据权利要求5所述方法,其特征在于,根据所述第一候选属性、所述第二候选属性、以及所述多个已知属性对应的热词确定所述问询字符串的目标属性,包括:
通过正则表达式将所述属性字符串与多个已知属性对应的热词表进行比对,以在所述多个已知属性中确定所述问询字符串的第三候选属性;
根据所述第一候选属性、所述第二候选属性以及所述第三候选属性,确定所述问询字符串的目标属性。
7.根据权利要求1所述方法,其特征在于,还包括:
若所述目标实体代称没有对应的目标产品或者所述目标产品对应的产品知识中不存在所述问询字符串对应的答案,则生成产品缺失或者属性缺失的追问答复字符串。
8.一种智能问答装置,其特征在于,其特征在于,包括:
查询字符串获取模块,用于获取问询字符串;
粗筛模块,用于通过多个预设实体代称、候选实体分析网络对所述问询字符串进行实体粗筛处理,以确定所述问询字符串的粗筛实体代称集合;
细筛模块,用于将所述粗筛实体代称集合的各个粗筛实体代称分别与所述问询字符串进行文本比对,以在所述各个粗筛实体代称中确定所述问询字符串的目标实体代称;
属性字符串确定模块,用于根据所述目标实体代称对所述问询字符串进行处理,以确定所述问询字符串的属性字符串;
属性确定模块,用于通过属性识别模型、已知属性信息的历史查询字符串、以及多个已知属性对应的热词对所述属性字符串进行处理,以确定所述问询字符串的目标属性;
目标产品确定模块,用于根据实体产品映射表,确定所述目标实体代称对应的目标产品;
答复字符串确定模块,用于在目标关系型数据库中确定所述目标产品对应的产品知识,并根据所述目标属性在所述目标产品对应的产品知识中确定所述问询字符串对应的答复字符串;
其中,通过属性识别模型、已知属性信息的历史查询字符串、以及多个已知属性对应的热词对所述属性字符串进行处理,以确定所述问询字符串的目标属性,包括:
通过属性识别模型对所述属性字符串进行处理,以确定所述问询字符串对应的第一候选属性;
通过所述属性识别模型对所述属性字符串和历史查询字符串分别进行处理,以确定所述问询字符串对应的待查询向量和所述历史查询字符串对应的历史查询向量;
根据所述待查询向量与所述历史查询向量之间的相似度,在所述历史查询字符串中确定与所述属性字符串相似度最高的目标历史字符串;
将所述目标历史字符串对应的属性作为所述问询字符串的第二候选属性;
根据所述第一候选属性、所述第二候选属性、以及所述多个已知属性对应的热词确定所述问询字符串的目标属性。
9.一种电子设备,其特征在于,包括:
存储器;以及
耦合到所述存储器的处理器,所述处理器被用于基于存储在所述存储器中的指令,执行如权利要求1-7任一项所述的智能问答方法。
10.一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如权利要求1-7任一项所述的智能问答方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110695877.7A CN113392203B (zh) | 2021-06-23 | 2021-06-23 | 智能问答方法、装置、电子设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110695877.7A CN113392203B (zh) | 2021-06-23 | 2021-06-23 | 智能问答方法、装置、电子设备和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113392203A CN113392203A (zh) | 2021-09-14 |
CN113392203B true CN113392203B (zh) | 2023-08-22 |
Family
ID=77623491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110695877.7A Active CN113392203B (zh) | 2021-06-23 | 2021-06-23 | 智能问答方法、装置、电子设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113392203B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664599A (zh) * | 2018-05-09 | 2018-10-16 | 腾讯科技(深圳)有限公司 | 智能问答方法、装置、智能问答服务器及存储介质 |
CN109213844A (zh) * | 2018-08-13 | 2019-01-15 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置以及相关设备 |
WO2019101210A1 (zh) * | 2017-11-27 | 2019-05-31 | 中兴通讯股份有限公司 | 智能问答方法及装置 |
CN110069631A (zh) * | 2019-04-08 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置以及相关设备 |
CN112906377A (zh) * | 2021-03-25 | 2021-06-04 | 平安科技(深圳)有限公司 | 基于实体限制的问答方法、装置、电子设备及存储介质 |
-
2021
- 2021-06-23 CN CN202110695877.7A patent/CN113392203B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019101210A1 (zh) * | 2017-11-27 | 2019-05-31 | 中兴通讯股份有限公司 | 智能问答方法及装置 |
CN108664599A (zh) * | 2018-05-09 | 2018-10-16 | 腾讯科技(深圳)有限公司 | 智能问答方法、装置、智能问答服务器及存储介质 |
CN109213844A (zh) * | 2018-08-13 | 2019-01-15 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置以及相关设备 |
CN110069631A (zh) * | 2019-04-08 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 一种文本处理方法、装置以及相关设备 |
CN112906377A (zh) * | 2021-03-25 | 2021-06-04 | 平安科技(深圳)有限公司 | 基于实体限制的问答方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113392203A (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2510891C2 (ru) | Способы и устройство обеспечения системы прогнозирования групповой торговли | |
CN109558541B (zh) | 一种信息处理的方法、装置及计算机存储介质 | |
CN110795568A (zh) | 基于用户信息知识图谱的风险评估方法、装置和电子设备 | |
CN111666304B (zh) | 数据处理装置、数据处理方法、存储介质与电子设备 | |
CN110347908B (zh) | 语音购物方法、装置、介质及电子设备 | |
CN103927615A (zh) | 将实体与类别相关联 | |
CN113393306A (zh) | 产品推荐方法、装置、电子设备及计算机可读介质 | |
CN111651552B (zh) | 结构化信息确定方法、装置和电子设备 | |
Chou et al. | Integrating XBRL data with textual information in Chinese: A semantic web approach | |
CN113190702A (zh) | 用于生成信息的方法和装置 | |
CN115375177A (zh) | 用户价值评估方法、装置、电子设备及存储介质 | |
CN116402166A (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
CN117891939A (zh) | 粒子群算法结合cnn卷积神经网络的文本分类方法 | |
CN113139558A (zh) | 确定物品的多级分类标签的方法和装置 | |
CN117911079A (zh) | 一种个性化商户营销智能推荐方法和系统 | |
CN113393295A (zh) | 服务数据的推送方法、装置、电子设备及存储介质 | |
CN113077312A (zh) | 酒店推荐方法、系统、设备及存储介质 | |
CN114036921A (zh) | 一种政策信息匹配方法和装置 | |
CN113392203B (zh) | 智能问答方法、装置、电子设备和计算机可读存储介质 | |
CN111695922A (zh) | 潜在用户确定方法及装置、存储介质和电子设备 | |
CN112560433B (zh) | 一种信息处理的方法及装置 | |
CN113158682B (zh) | 产品名称识别方法、装置、电子设备和介质 | |
CN113743118B (zh) | 基于融合关系信息编码的法律文书中的实体关系抽取方法 | |
CN115358817A (zh) | 基于社交数据的智能产品推荐方法、装置、设备及介质 | |
CN110737749B (zh) | 创业计划评价方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |