CN113515595A - 一种问答匹配方法、装置、电子设备和存储介质 - Google Patents
一种问答匹配方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113515595A CN113515595A CN202110522712.XA CN202110522712A CN113515595A CN 113515595 A CN113515595 A CN 113515595A CN 202110522712 A CN202110522712 A CN 202110522712A CN 113515595 A CN113515595 A CN 113515595A
- Authority
- CN
- China
- Prior art keywords
- article
- question
- content
- questioning
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000012545 processing Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 description 16
- 230000006399 behavior Effects 0.000 description 15
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 241000737241 Cocos Species 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005034 decoration Methods 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本申请实施例公开了一种问答匹配方法、装置、电子设备和存储介质。本申请的至少一个实施例中,在提问请求中不仅包括提问内容,而且包括产品信息,在检索提问内容对应的关键字时,可利用产品信息限缩检索结果的条数,提高检索效率,同时,检索结果的每条数据包括的多个字段各自预设有相似度权重,进而可以利用相似度权重确定每条数据对应的文章与提问内容之间的相似度,这样,利用相似度和产品信息确定出的一个或多个答案,可以提高答案准确度。
Description
技术领域
本申请涉及计算机技术领域,具体而言,本申请涉及一种问答匹配方法、装置、电子设备和存储介质。
背景技术
随着人工智能的发展,问答系统应用越来越广泛,用户向问答系统提问,问答系统返回用户提问的机器推荐答案。现有的问答系统中,采用规则匹配(谓宾匹配)或相似度匹配确定用户提问的答案,实现问答匹配。
不论是规则匹配还是相似度匹配,得到的答案均可能存在没有回答用户提问的情况,难以人工干预进行纠正。另外,对于规则匹配,当后台数据集(答案集)扩大,需要人工对规则进行更改,任务量大。对于相似度匹配,缺乏字段权重,导致答案不准确;且对于字段中的关键字,需要手工编辑,效率低。另外,针对答案为文档的应用场景,现有的问答系统无法记录各个文档的版本,不利于根据用户反馈优化问答匹配结果。另外,现有的问答系统使用单一语言,无法满足用户对于不同语言的答案的需求。
上述对问题的发现过程的描述,仅用于辅助理解本申请的技术方案,并不代表承认上述内容是现有技术。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一,特提出以下技术方案:
第一方面,本申请的至少一个实施例提供了一种问答匹配方法,所述方法包括:
获取提问请求,所述提问请求包括提问内容和所述提问内容对应的产品信息;
确定所述提问内容对应的关键字;
基于所述产品信息,通过文章搜索引擎在文章索引数据库中检索所述关键字,得到所述文章索引数据库返回的多条数据,每条数据对应一篇文章,且每条数据包括多个字段;
基于所述多个字段各自对应的预设相似度权重,确定每条数据对应的文章与所述提问内容之间的相似度;
基于所述相似度和所述产品信息,确定与所述提问内容相匹配的一个或多个答案,每个答案对应一篇文章。
第二方面,本申请的至少一个实施例提供了一种问答匹配装置,所述装置包括:
提问请求获取单元,用于获取提问请求,所述提问请求包括提问内容和所述提问内容对应的产品信息;
关键字确定单元,用于确定所述提问内容对应的关键字;
检索单元,用于基于所述产品信息,通过文章搜索引擎在文章索引数据库中检索所述关键字,得到所述文章索引数据库返回的多条数据,每条数据对应一篇文章,且每条数据包括多个字段;
相似度确定单元,用于基于所述多个字段各自对应的预设相似度权重,确定每条数据对应的文章与所述提问内容之间的相似度;
答案确定单元,用于基于所述相似度和所述产品信息,确定与所述提问内容相匹配的一个或多个答案,每个答案对应一篇文章。
第三方面,本申请的至少一个实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的问答匹配方法中的任一实施例。
第四方面,本申请的至少一个实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的问答匹配方法中的任一实施例。
本申请的至少一个实施例中,在提问请求中不仅包括提问内容,而且包括产品信息,在检索提问内容对应的关键字时,可利用产品信息限缩检索结果的条数,提高检索效率,同时,检索结果的每条数据包括的多个字段各自预设有相似度权重,进而可以利用相似度权重确定每条数据对应的文章与提问内容之间的相似度,这样,利用相似度和产品信息确定出的一个或多个答案,可以提高答案准确度。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例提供的一种问答应用场景的示意图;
图2为本申请实施例提供的一种问答匹配装置的框图;
图3为本申请实施例提供的一种电子设备的框图;
图4为本申请实施例提供的一种问答匹配方法的流程图;
图5为本申请实施例提供的一种返回条数配置表的示意图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。这里使用的诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。为使本申请的目的、技术方案和优点更加清楚,下面将结合附图,对本申请的实施例进行描述。
本申请的至少一个实施例中,在提问请求中不仅包括提问内容,而且包括产品信息,在检索提问内容对应的关键字时,可利用产品信息限缩检索结果的条数,提高检索效率,同时,检索结果的每条数据包括的多个字段各自预设有相似度权重,进而可以利用相似度权重确定每条数据对应的文章与提问内容之间的相似度,这样,利用相似度和产品信息确定出的一个或多个答案,可以提高答案准确度。
图1为本申请实施例提供的一种问答应用场景的示意图。该问答应用场景中,问题是具有答案的问题,答案是文章或文档。在图1中,该应用场景中包括:用户设备10、用户设备11、用户12、用户13、问答匹配系统14和检索数据库15。一些用户可以通过用户设备(例如用户设备10和用户设备11)与问答匹配系统14建立连接,进而通过用户设备向问答匹配系统14提问,以获取问答匹配系统14反馈的答案。一些用户(例如用户12和用户13)可以直接操作问答匹配系统14,获取问题答案。问答匹配系统14可以从检索数据库15中查找并确定答案。检索数据库15可以包括多种数据库,例如:用户手册、知识库(knowledges)和论坛(qa)等。
问答匹配系统14具有数据采集功能,例如,问答匹配系统14可以从检索数据库15中获取多篇文章,针对每篇文章,问答匹配系统14可以得到的数据包括标题、关键字(keyword)、文章内容、文章链接、文章标识(ID)等。问答匹配系统14可以将这些数据导入文章索引数据库,便于后续检索。其中,文章索引数据库例如为分布式全文搜索引擎(ElasticSearch,ES)数据库,文章索引数据库中一条数据对应一篇文章,一条数据具有多个字段,例如标题字段、关键字字段、文章内容字段、文章链接字段、文章标识(ID)字段等。各个字段可以预设相似度权重,便于后续计算文章与提问内容之间的相似度。
问答匹配系统14可以从每篇文章中提取关键字,无需人工提取。针对一篇文章,问答匹配系统14可以基于其维护的词典(词典中包括多个词语),对该文章进行分词,得到该文章对应的多个词语。问答匹配系统14可以统计每个词语在该文章中出现次数以及每个词语在多篇文章中的逆文档频率。逆文档频率表征一个词语在多篇文章中出现次数。如果一个词语在多篇文章中经常出现,其对应的逆文档频率较低。逆文档频率的计算方式为:log(文章总数/(出现该词的文章数+1))。问答匹配系统14可以基于每个词语的出现次数和逆文档频率,确定是否将该词语作为本篇文章的关键字。在一些实施例中,问答匹配系统14通过计算一个词语的出现次数与逆文档频率的比值,判断比值是否大于预设阈值;若大于,则确定该词语为关键字,其中,预设阈值可根据实际应用场景具体设置。
问答匹配系统14具有智能对话功能,以获取问题,进而可以从问题中确定关键字,从而通过文章搜索引擎在文章索引数据库中检索问题对应的关键字,得到文章索引数据库返回的多条数据,每条数据对应一篇文章。文章搜索引擎例如为分布式全文搜索引擎(Elastic Search,ES)。问答匹配系统14可以基于文章索引数据库返回的多条数据,确定与问题相匹配的一个或多个答案,并将答案反馈给用户。
问答匹配系统14可以为软件系统、硬件系统或软硬件相结合的系统。其中,硬件系统可以提供软件系统运行所需的硬件环境。例如,问答匹配系统14是运行在操作系统上的软件系统,硬件系统是支持操作系统运行的硬件环境。
图2为本公开实施例提供的一种问答匹配装置20的示例性框图。在一些实施例中,问答匹配装置20可以实现为图1中的问答匹配系统14或者问答匹配系统14的一部分,用于提供问答匹配服务。如图2所示,问答匹配装置20可以包括但不限于以下单元:提问请求获取单元21、关键字确定单元22、检索单元23、相似度确定单元24和答案确定单元25。各单元具体描述如下:
提问请求获取单元
提问请求获取单元21,用于获取提问请求。提问请求可以包括提问内容和提问内容对应的产品信息。产品信息用于限缩检索结果的条数,提高检索效率。在一些实施例中,用户执行提问操作,例如,用户点击“我要提问”按钮,提问请求获取单元21可以响应提问操作而提示用户输入提问内容和产品信息,这样,可以避免用户只填写提问内容而没有填写产品信息。
在一些实施例中,产品信息可以为产品名,也可以为产品名和该产品名对应的产品版本号。示例性地,提问请求获取单元21可以响应提问操作而提示用户输入提问内容、产品名和产品版本号。同一产品可能具有不同的产品版本号,而不同的产品版本号所对应的文档可能不同,产品版本号可以进一步限缩检索结果的条数,提高检索效率。
在一些实施例中,提问请求还可以包括答案语言参数。示例性地,提问请求获取单元21可以响应提问操作而提示用户输入提问内容、产品名、产品版本号和答案语言参数。其中,答案语言参数可以预先设置多个选项,例如:中文、英文、韩文、日文等,用户可以选择一种语言作为答案语言参数。当提问请求包括答案语言参数时,最终反馈给用户的答案的语言为提问请求包括的答案语言参数指定的语言。例如,一篇文章被确认为是答案,且该文章具有中文版和英文版,当提问请求包括的答案语言参数指定的语言为英文时,则反馈给用户该文章的英文版。
关键字确定单元
关键字确定单元22,用于确定提问内容对应的关键字。关键字确定单元22可以对提问内容进行分词,得到多个词语,并从这多个词语中选择一个或多个词语作为关键字。关键字确定单元22实质上是从一段文本中提取关键字,在计算机领域中已存在多种从一段文本中提取关键字的方案,本实施例可沿用现有方案,不再赘述。
检索单元
检索单元23,用于基于提问内容对应的产品信息,通过文章搜索引擎在文章索引数据库中检索提问内容对应的关键字,得到文章索引数据库返回的多条数据,每条数据包括多个字段,且每条数据对应一篇文章。
其中,文章搜索引擎例如为分布式全文搜索引擎(Elastic Search,ES),文章索引数据库例如为ES数据库。文章索引数据库中一条数据对应一篇文章,一条数据具有多个字段,例如标题字段、关键字字段、文章内容字段、文章链接字段、文章标识(ID)字段等。
在一些实施例中,产品信息为产品名时,由于一个产品可能具有多个产品版本号,因此,文章索引数据库返回的多条数据对应的文章可以是该产品名下不同产品版本号对应的文章。
在一些实施例中,产品信息为产品名和该产品名对应的产品版本号时,文章索引数据库返回的多条数据对应的文章是该产品版本号对应的文章。
在一些实施例中,若提问请求不仅包括产品信息而且包括答案语言参数时,文章索引数据库返回的多条数据,每条数据对应一篇文章,且文章的语言为答案语言参数指定的语言。
相似度确定单元
相似度确定单元24,用于基于多个字段各自对应的预设相似度权重,确定每条数据对应的文章与提问内容之间的相似度。解决现有相似度匹配方案缺乏字段权重,导致答案不准确的问题。
在一些实施例中,相似度确定单元24针对一条数据对应的文章,可以确定提问内容对应的关键字在该篇文章中的出现次数,并确定提问内容对应的关键字在多篇文章中的逆文档频率。
在一些实施例中,相似度确定单元24针对一条数据对应的文章,可以确定提问内容对应的关键字在该条数据中所属的字段。由于一条数据具有多个字段,因此,提问内容对应的关键字在该条数据中所属的字段可能有多个,例如,提问内容对应的关键字即出现在标题字段,又出现在关键字字段。
在一些实施例中,相似度确定单元24针对一条数据对应的文章,可以基于提问内容对应的关键字所属的字段对应的预设相似度权重、出现次数和逆文档频率,确定该条数据对应的文章与提问内容之间的相似度。
在一些实施例中,若提问内容对应的关键字所属的字段的数量为一个,则相似度为:所属的字段对应的预设相似度权重×(提问内容的关键字在该篇文章中的出现次数/提问关键字在多篇文章中的逆文档频率)。
在一些实施例中,若提问内容对应的关键字所属的字段的数量为多个,则相似度为:所属第一字段对应的预设相似度权重×(提问内容的关键字在该篇文章中的出现次数/提问关键字在多篇文章中的逆文档频率)+所属第二字段对应的预设相似度权重×(提问内容的关键字在该篇文章中的出现次数/提问关键字在多篇文章中的逆文档频率)+……+所属第N字段对应的预设相似度权重×(提问内容的关键字在该篇文章中的出现次数/提问关键字在多篇文章中的逆文档频率),N为所属的字段的数量。
例如,若提问内容的关键字仅在标题字段中,则相似度为:标题权重×(提问内容的关键字在该篇文章中的出现次数/提问关键字在多篇文章中的逆文档频率)。
又例如,若提问内容的关键字同时出现在标题字段和关键字字段中,而关键字字段中的关键字来源于文章内容,因此,提问内容的关键字也必然出现在文章内容字段中。则相似度为:关键字权重×提问内容的关键字在该篇文章中的出现次数/提问关键字在多篇文章中的逆文档频率)+标题权重×提问内容的关键字在该篇文章中的出现次数/提问关键字在多篇文章中的逆文档频率)+文章内容权重×提问内容的关键字在该篇文章中的出现次数/提问关键字在多篇文章中的逆文档频率)。
答案确定单元
答案确定单元25,用于基于文章与提问内容之间的相似度以及提问内容对应的产品信息,确定与提问内容相匹配的一个或多个答案,每个答案对应一篇文章。其中,答案可以包括文字链接和/或文章内容(文章内容可以是部分内容或全部内容),以便用户基于答案可以查看文章内容。
在一些实施例中,答案确定单元25可以基于文章与提问内容之间的相似度,对文章索引数据库返回的多条数据各自对应文章进行排序,得到文章列表。文章列表可以是相似度由高至低的方式排序得到的文章列表。
在一些实施例中,答案确定单元25可以查找提问内容对应的产品信息的返回条数配置信息,其中,返回条数可以理解为答案数量。不同产品的返回条数配置信息不同。
在一些实施例中,产品信息为产品名时,产品名对应的返回条数配置信息可以包括但不限于:产品名对应的一个或多个产品版本号、每个产品版本号对应的一个或多个检索数据库(检索数据库为用户手册、知识库和/或论坛)、每个产品版本号对应的返回条数。可见,通过提问内容对应的产品名可以确定答案数量,避免将过多的答案反馈给用户,进而可以提高用户找到问题答案的效率。
在一些实施例中,答案确定单元25可以基于提问内容对应的产品名的返回条数配置信息,从文章列表中选择一篇或多篇文章,进而生成选择的一篇或多篇文章对应的答案。
在一些实施例中,答案确定单元25预先设置最小返回条数、最大返回条数和默认返回条数,进而基于提问内容对应的产品名的返回条数配置信息中的条数,从文章列表中选择一篇或多篇文章。其中,返回条数配置信息中的条数为产品名的每个产品版本号对应的返回条数的总和。
例如,答案确定单元25基于返回条数配置信息中的条数小于或等于预设的最小返回条数,则从文章列表中选择多篇文章,且多篇文章的数量为最小返回条数。
例如,答案确定单元25基于返回条数配置信息中的条数大于或等于预设的最大返回条数,则从文章列表中选择多篇文章,且多篇文章的数量为最大返回条数。
例如,答案确定单元25基于返回条数配置信息中的条数大于预设的最小返回条数且小于预设的最大返回条数,则从文章列表中选择多篇文章,且多篇文章的数量为返回条数配置信息中的条数。
例如,答案确定单元25若未查找到产品名对应的返回条数配置信息,则从文章列表中选择一篇或多篇文章,且一篇或多篇文章的数量为预设的默认返回条数。
在一些实施例中,产品信息为产品名和该产品名的产品版本号时,产品信息对应的返回条数配置信息即为该产品版本号对应的返回条数配置信息,具体包括:该产品版本号对应的一个或多个检索数据库、该产品版本号对应的返回条数。答案确定单元25可以基于该产品版本号所对应的返回条数配置信息,从文章列表中选择一篇或多篇文章,并生成选择的一篇或多篇文章对应的答案。
例如,答案确定单元25基于产品版本号对应的返回条数小于或等于预设的最小返回条数,则从文章列表中选择多篇文章,且多篇文章的数量为最小返回条数。
例如,答案确定单元25基于产品版本号对应的返回条数大于或等于预设的最大返回条数,则从文章列表中选择多篇文章,且多篇文章的数量为最大返回条数。
例如,答案确定单元25基于产品版本号对应的返回条数大于预设的最小返回条数且小于预设的最大返回条数,则从文章列表中选择多篇文章,且多篇文章的数量为产品版本号对应的返回条数。
在一些实施例中,产品信息为产品名和该产品名的产品版本号时,答案确定单元25还可以确定与提问内容相匹配的一个或多个相似答案。
例如,答案确定单元25基于该产品名的其他产品版本号,确定其他产品版本号对应的一篇或多篇文章;其中,其他产品版本号为该产品名对应的返回条数配置信息中的一个或多个产品版本号。答案确定单元25可以基于其他产品版本号对应的返回条数,确定其他产品版本号对应的一篇或多篇文章;其中,其他产品版本号对应的返回条数由该产品名对应的返回条数配置信息进行配置。
需要说明的是,“基于其他产品版本号对应的返回条数,确定其他产品版本号对应的一篇或多篇文章”与前述实施例中“基于提问请求包括的产品版本号所对应的返回条数,从文章列表中选择一篇或多篇文章”类似,为避免重复,不再赘述。
进而,答案确定单元25可以基于其他产品版本号对应的一篇或多篇文章,生成与提问内容相匹配的一个或多个相似答案,每个相似答案对应一篇文章。
可见,当提问内容包括A产品的B版本(简称:AB产品)时,答案确定单元25可以将A产品的C版本(简称:AC产品)的相关文章(内容与AC产品相关)作为相似答案。
在一些实施例中,考虑到文章有一个属性,表征文章内容与某版本的某产品相关,即该属性的内容是产品版本号和产品名,可以通过人工配置方式修改该属性,以使该文章与同款产品的其他版本相关联。例如,某一篇文章X仅和AC产品相关,但通过人工配置文章X的属性,将AB产品也添加入该属性,则当提问内容包括A产品的B版本(简称:AB产品)时,答案确定单元25通过确定文章X的该属性,可以将文章X作为相似答案。
在一些实施例中,问答匹配装置20还可以包括图2中未示出的优化单元26,以提高问答准确性。
优化单元26可以响应提问请求而反馈与提问内容相匹配的一个或多个答案,进而可以记录用户针对一个或多个答案的行为。在一些实施例中,用户针对一个或多个答案的行为有多种类别,例如包括点击文章、标记问题解决和寻找人工客服等。
其中,点击文章可以理解为:用户对于一个或多个答案,点击了其中的一个答案对应的文章,例如,答案包括文章链接,用户点击了文章链接。标记问题解决可以理解为:用户将某个答案对应的文章确定为提问内容的准确答案,并将提问内容的状态修改为“已解决”。寻找人工客服可以理解为:用户点击了“人工客服”控件。
优化单元26可以基于记录的行为,优化与提问内容相匹配的一个或多个答案。在一些实施例中,优化单元26可以确定记录的行为的类别;进而基于预设的行为类型与优化措施的对应关系,确定记录的行为的类别所对应的优化措施;从而基于优化措施,优化与提问内容相匹配的一个或多个答案。
例如,记录的行为的类别是点击文章,说明该文章是用户想要的答案,优化单元26可以对文章链接做第一强化,第一强化例如为将文章链接与提问内容对应的关键字相关联,且将文章链接的优先级设置为第一优先级,以便后续再有同样或类似问题,可以直接返回这条链接。
例如,记录的行为的类别是标记问题解决,优化单元26可以对文章链接做第二强化,第二强化例如为将文章链接与提问内容对应的关键字相关联,且将文章链接的优先级设置为第二优先级,第二优先级大于第一优先级,这样,后续再有同样或类似问题,可以优先返回第二优先级对应的文章链接。
例如,记录的行为的类别是寻找人工客服,优化单元26可以将用户在人工客服聊天界面中输入的新问题的关键字与旧问题相关联,以便后续再有同样或类似旧问题的提问内容,关键字确定单元22可以将与旧问题关联的关键字确定为该提问内容对应的关键字。
在一些实施例中,优化单元26还可以优化整体问答顺序,例如,记录用户提问的问题的链路顺序和每一个问题对应的答案,下次其他用户提问时,把下一个可能回答问题的答案也推荐给用户。
在一些实施例中,优化单元26还可以进行版本统计回溯,例如,针对一篇文章,关键词更新时,或文章内容更改时,文章的版本号会发生变化,根据各版本被点击的次数,做对比,确定点击次数比较多的文章或点击问题已解决的文章,后续再将此版本的文章作为答案返回给用户。
在一些实施例中,若答案确定单元25确定的所有答案都没能解决问题,用户可以写一篇文章作为答案,并编辑关键字。相应地,优化单元26可以将用户写的文章及对应的关键字放入数据库(例如文章索引数据库)中,以便后续再有同样或类似问题,可以将用户写的文章作为答案。
在一些实施例中,问答匹配装置20中各单元的划分仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如提问请求获取单元21、关键字确定单元22、检索单元23、相似度确定单元24和答案确定单元25中的至少两个单元可以实现为一个单元;提问请求获取单元21、关键字确定单元22、检索单元23、相似度确定单元24和答案确定单元25也可以划分为多个子单元。可以理解的是,各个单元或子单元能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能。
图5为本申请实施例提供的一种返回条数配置表的示意图,该返回条数配置表由问答匹配装置维护,问答匹配装置可以基于该返回条数配置表进行问答匹配。
在图5中,返回条数配置表的右侧一列是类型(type),包括:返回条数(return_count)、字段的相似度权重(es_weight)、条数限制。
在图5中,返回条数配置表的中间一列是类型对应的配置值(value),例如返回条数值、字段的相似度权重值、条数限制值等。
在图5中,返回条数配置表的左侧一列是名称(name),包括:产品名(或产品名+产品版本号)、字段名称(包括:content(文章内容)、keywords(关键字)、title(标题))、默认返回条数(defaultRtnCount)、最大返回条数(maxRtnCount)和最小返回条数(minRtnCount)。
产品名对应的行中还可以包括一个或多个检索数据库的名称,例如用户手册、知识库(knowledges)和/或论坛qa,说明该产品和产品版本号相关问题的答案在哪些检索数据库中查找并确定答案。若不包括其中的某一个检索数据库名称,则对应的答案不在该检索数据库中查找。
在图5中,返回条数配置表包括四种产品的产品名:Cocos Analytics(一种数据统计工具)、Cocos Creator 3D(一种3D游戏开发工具)、Cocos Creator(一种游戏开发工具)和Cocos Service(一种游戏服务工具)。其中,Cocos Creator具有7个产品版本号:2d-x、v1.10、v2.0、v2.1、v2.2、v2.3和v2.4。
需要说明的是,图5所示的返回条数配置表中的配置值(value),仅为一种示例,可根据实际应用场景重新设置配置值(value)。
本申请实施例还提供了一种电子设备。在一些实施例中,电子设备可实现为图1中的问答匹配系统14或者2问答匹配系统14的一部分。如图3所示,电子设备30包括:处理器31和存储器33。其中,处理器31和存储器33相连,如通过总线32相连。进一步地,电子设备3还可以包括收发器34。需要说明的是,实际应用中收发器34不限于一个,该电子设备30的结构并不构成对本申请实施例的限定。
其中,处理器31应用于本申请实施例中,用于实现图2所示的问答匹配装置20的功能。
处理器31可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器31也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线32可包括一通路,在上述组件之间传送信息。总线32可以是PCI总线或EISA总线等。总线32可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器33可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器33用于存储执行本申请方案的应用程序代码,并由处理器31来控制执行。处理器31用于执行存储器33中存储的应用程序代码,以实现问答匹配装置20的动作。
本申请实施例提供的电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时,与现有技术相比,在提问请求中不仅包括提问内容,而且包括产品名,在检索提问内容对应的关键字时,可利用产品名限缩检索结果的条数,提高检索效率,同时,检索结果的每条数据包括的多个字段各自预设有相似度权重,进而可以利用相似度权重确定每条数据对应的文章与提问内容之间的相似度,这样,利用相似度和产品名确定出的一个或多个答案,可以提高答案准确度。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现问答匹配方法各实施例的步骤,为避免重复,在此不再赘述。
图5为本申请实施例提供的一种问答匹配方法的流程图,该方法应用于问答匹配系统,可包括如下步骤401至405:
在步骤401中,获取提问请求,提问请求包括提问内容和提问内容对应的产品信息。
在步骤402中,确定提问内容对应的关键字。
在步骤403中,基于产品信息,通过文章搜索引擎在文章索引数据库中检索关键字,得到文章索引数据库返回的多条数据,每条数据对应一篇文章,且每条数据包括多个字段。
在步骤404中,基于多个字段各自对应的预设相似度权重,确定每条数据对应的文章与提问内容之间的相似度。
在步骤405中,基于相似度和产品信息,确定与提问内容相匹配的一个或多个答案,每个答案对应一篇文章。
在一些实施例中,多个字段包括关键字字段;关键字字段中的关键字通过以下方式确定:
对一篇文章进行分词,得到多个词语;
针对每个词语:
确定该词语在该篇文章中的出现次数以及该词语在多篇文章中的逆文档频率;
基于出现次数和逆文档频率确定该词语是否为关键字。
在一些实施例中,基于出现次数和逆文档频率确定该词语是否为关键字包括:
计算出现次数与逆文档频率的比值;
若比值大于预设阈值,则确定该词语为关键字。
在一些实施例中,基于多个字段各自对应的预设相似度权重,确定每条数据对应的文章与提问内容之间的相似度包括:
针对一条数据对应的文章:
确定提问内容对应的关键字在该篇文章中的出现次数;
确定提问内容对应的关键字在多篇文章中的逆文档频率;
确定提问内容对应的关键字在该条数据中所属的字段;
基于所属的字段对应的预设相似度权重、出现次数和逆文档频率,确定该条数据对应的文章与提问内容之间的相似度。
在一些实施例中,基于所属的字段对应的预设相似度权重、出现次数和逆文档频率,确定该条数据对应的文章与提问内容之间的相似度包括:
若所属的字段的数量为一个,则相似度为:所属的字段对应的预设相似度权重×(提问内容的关键字在该篇文章中的出现次数/提问关键字在多篇文章中的逆文档频率);或者,
若所属的字段的数量为多个,则相似度为:所属第一字段对应的预设相似度权重×(提问内容的关键字在该篇文章中的出现次数/提问关键字在多篇文章中的逆文档频率)+所属第二字段对应的预设相似度权重×(提问内容的关键字在该篇文章中的出现次数/提问关键字在多篇文章中的逆文档频率)+……+所属第N字段对应的预设相似度权重×(提问内容的关键字在该篇文章中的出现次数/提问关键字在多篇文章中的逆文档频率),N为所属的字段的数量。
在一些实施例中,基于相似度和产品信息,确定与提问内容相匹配的一个或多个答案包括:
基于相似度,对文章索引数据库返回的多条数据各自对应文章进行排序,得到文章列表;
查找产品信息对应的返回条数配置信息;
基于返回条数配置信息,从文章列表中选择一篇或多篇文章;
生成与选择的一篇或多篇文章对应的答案。
在一些实施例中,若产品信息为产品名,则产品信息对应的返回条数配置信息包括:产品名对应的一个或多个产品版本号、每个产品版本号对应的一个或多个检索数据库、每个产品版本号对应的返回条数;或者,
若产品信息包括产品名和产品名对应的产品版本号,则产品信息对应的返回条数配置信息包括:该产品版本号对应的一个或多个检索数据库、该产品版本号对应的返回条数。
在一些实施例中,基于返回条数配置信息,从文章列表中选择一篇或多篇文章包括:
若返回条数配置信息中的条数小于预设的最小返回条数,则从文章列表中选择多篇文章,且多篇文章的数量为最小返回条数;或者,
若返回条数配置信息中的条数大于预设的最大返回条数,则从文章列表中选择多篇文章,且多篇文章的数量为最大返回条数。
在一些实施例中,若产品信息为产品名,则返回条数配置信息中的条数为每个产品版本号对应的返回条数的总和;或者,
若产品信息包括产品名和产品名对应的产品版本号,则返回条数配置信息中的条数为该产品版本号对应的返回条数。
在一些实施例中,若未查找到产品名对应的返回条数配置信息,则从文章列表中选择一篇或多篇文章,一篇或多篇文章的数量为预设的默认返回条数。
在一些实施例中,该方法还可以包括:
若产品信息包括产品名和产品名对应的产品版本号,则基于产品名的其他产品版本号,确定其他产品版本号对应的一篇或多篇文章;其中,其他产品版本号为产品名对应的返回条数配置信息中的一个或多个产品版本号;
基于其他产品版本号对应的一篇或多篇文章,生成与提问内容相匹配的一个或多个相似答案,每个相似答案对应一篇文章。
在一些实施例中,提问请求还包括答案语言参数;文章索引数据库返回的多条数据对应的文章的语言为答案语言参数指定的语言。
在一些实施例中,该方法还可以包括:
响应提问请求而反馈与提问内容相匹配的一个或多个答案;
记录用户针对一个或多个答案的行为;
基于记录的行为,优化与提问内容相匹配的一个或多个答案。
在一些实施例中,基于记录的行为,优化与提问内容相匹配的一个或多个答案包括:
确定记录的行为的类别;
基于预设的行为类型与优化措施的对应关系,确定记录的行为的类别所对应的优化措施;
基于优化措施,优化与提问内容相匹配的一个或多个答案。
以上问答匹配方法各实施例的细节可参考问答匹配装置各实施例的描述,为避免重复,不再赘述。
可见,在提问请求中不仅包括提问内容,而且包括产品信息,在检索提问内容对应的关键字时,可利用产品信息限缩检索结果的条数,提高检索效率,同时,检索结果的每条数据包括的多个字段各自预设有相似度权重,进而可以利用相似度权重确定每条数据对应的文章与提问内容之间的相似度,这样,利用相似度和产品信息确定出的一个或多个答案,可以提高答案准确度。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种问答匹配方法,其特征在于,所述方法包括:
获取提问请求,所述提问请求包括提问内容和所述提问内容对应的产品信息;
确定所述提问内容对应的关键字;
基于所述产品信息,通过文章搜索引擎在文章索引数据库中检索所述关键字,得到所述文章索引数据库返回的多条数据,每条数据对应一篇文章,且每条数据包括多个字段;
基于所述多个字段各自对应的预设相似度权重,确定每条数据对应的文章与所述提问内容之间的相似度;
基于所述相似度和所述产品信息,确定与所述提问内容相匹配的一个或多个答案,每个答案对应一篇文章。
2.根据权利要求1所述的方法,其特征在于,所述多个字段包括关键字字段;所述关键字字段中的关键字通过以下方式确定:
对一篇文章进行分词,得到多个词语;
针对每个词语:
确定该词语在该篇文章中的出现次数以及该词语在多篇文章中的逆文档频率;
基于所述出现次数和所述逆文档频率确定该词语是否为关键字。
3.根据权利要求2所述的方法,其特征在于,所述基于所述出现次数和所述逆文档频率确定该词语是否为关键字包括:
计算所述出现次数与所述逆文档频率的比值;
若所述比值大于预设阈值,则确定该词语为关键字。
4.根据权利要求1所述的方法,其特征在于,所述基于所述多个字段各自对应的预设相似度权重,确定每条数据对应的文章与所述提问内容之间的相似度包括:
针对一条数据对应的文章:
确定所述提问内容对应的关键字在该篇文章中的出现次数;
确定所述提问内容对应的关键字在多篇文章中的逆文档频率;
确定所述提问内容对应的关键字在该条数据中所属的字段;
基于所述所属的字段对应的预设相似度权重、所述出现次数和所述逆文档频率,确定该条数据对应的文章与所述提问内容之间的相似度。
5.根据权利要求4所述的方法,其特征在于,所述基于所述所属的字段对应的预设相似度权重、所述出现次数和所述逆文档频率,确定该条数据对应的文章与所述提问内容之间的相似度包括:
若所述所属的字段的数量为一个,则所述相似度为:所述所属的字段对应的预设相似度权重×(所述提问内容的关键字在该篇文章中的出现次数/所述提问关键字在多篇文章中的逆文档频率);或者,
若所述所属的字段的数量为多个,则所述相似度为:所属第一字段对应的预设相似度权重×(所述提问内容的关键字在该篇文章中的出现次数/所述提问关键字在多篇文章中的逆文档频率)+所属第二字段对应的预设相似度权重×(所述提问内容的关键字在该篇文章中的出现次数/所述提问关键字在多篇文章中的逆文档频率)+……+所属第N字段对应的预设相似度权重×(所述提问内容的关键字在该篇文章中的出现次数/所述提问关键字在多篇文章中的逆文档频率),N为所述所属的字段的数量。
6.根据权利要求1所述的方法,其特征在于,所述基于所述相似度和所述产品信息,确定与所述提问内容相匹配的一个或多个答案包括:
基于所述相似度,对所述文章索引数据库返回的多条数据各自对应文章进行排序,得到文章列表;
查找所述产品信息对应的返回条数配置信息;
基于所述返回条数配置信息,从所述文章列表中选择一篇或多篇文章;
生成与选择的一篇或多篇文章对应的答案。
7.根据权利要求6所述的方法,其特征在于,若所述产品信息为产品名,则所述产品信息对应的返回条数配置信息包括:所述产品名对应的一个或多个产品版本号、每个所述产品版本号对应的一个或多个检索数据库、每个所述产品版本号对应的返回条数;或者,
若所述产品信息包括产品名和所述产品名对应的产品版本号,则所述产品信息对应的返回条数配置信息包括:该产品版本号对应的一个或多个检索数据库、该产品版本号对应的返回条数。
8.一种问答匹配装置,其特征在于,所述装置包括:
提问请求获取单元,用于获取提问请求,所述提问请求包括提问内容和所述提问内容对应的产品信息;
关键字确定单元,用于确定所述提问内容对应的关键字;
检索单元,用于基于所述产品信息,通过文章搜索引擎在文章索引数据库中检索所述关键字,得到所述文章索引数据库返回的多条数据,每条数据对应一篇文章,且每条数据包括多个字段;
相似度确定单元,用于基于所述多个字段各自对应的预设相似度权重,确定每条数据对应的文章与所述提问内容之间的相似度;
答案确定单元,用于基于所述相似度和所述产品信息,确定与所述提问内容相匹配的一个或多个答案,每个答案对应一篇文章。
9.一种电子设备,包括处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至7任一项所述方法的步骤。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110522712.XA CN113515595A (zh) | 2021-05-13 | 2021-05-13 | 一种问答匹配方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110522712.XA CN113515595A (zh) | 2021-05-13 | 2021-05-13 | 一种问答匹配方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113515595A true CN113515595A (zh) | 2021-10-19 |
Family
ID=78064409
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110522712.XA Pending CN113515595A (zh) | 2021-05-13 | 2021-05-13 | 一种问答匹配方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113515595A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140365502A1 (en) * | 2013-06-11 | 2014-12-11 | International Business Machines Corporation | Determining Answers in a Question/Answer System when Answer is Not Contained in Corpus |
CN107993724A (zh) * | 2017-11-09 | 2018-05-04 | 易保互联医疗信息科技(北京)有限公司 | 一种医学智能问答数据处理的方法及装置 |
CN110287209A (zh) * | 2019-06-10 | 2019-09-27 | 北京百度网讯科技有限公司 | 问答处理方法、装置、设备和存储介质 |
CN112632261A (zh) * | 2020-12-30 | 2021-04-09 | 中国平安财产保险股份有限公司 | 智能问答方法、装置、设备及存储介质 |
-
2021
- 2021-05-13 CN CN202110522712.XA patent/CN113515595A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140365502A1 (en) * | 2013-06-11 | 2014-12-11 | International Business Machines Corporation | Determining Answers in a Question/Answer System when Answer is Not Contained in Corpus |
CN107993724A (zh) * | 2017-11-09 | 2018-05-04 | 易保互联医疗信息科技(北京)有限公司 | 一种医学智能问答数据处理的方法及装置 |
CN110287209A (zh) * | 2019-06-10 | 2019-09-27 | 北京百度网讯科技有限公司 | 问答处理方法、装置、设备和存储介质 |
CN112632261A (zh) * | 2020-12-30 | 2021-04-09 | 中国平安财产保险股份有限公司 | 智能问答方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2368200B1 (en) | Interactively ranking image search results using color layout relevance | |
US7849104B2 (en) | Searching heterogeneous interrelated entities | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
US8756245B2 (en) | Systems and methods for answering user questions | |
US9619571B2 (en) | Method for searching related entities through entity co-occurrence | |
US8332426B2 (en) | Indentifying referring expressions for concepts | |
US20040249808A1 (en) | Query expansion using query logs | |
JP2020500371A (ja) | 意味的検索のための装置および方法 | |
CN111159363A (zh) | 一种基于知识库的问题答案确定方法及装置 | |
JP2013531289A (ja) | 検索におけるモデル情報群の使用 | |
WO2012142553A2 (en) | Identifying query formulation suggestions for low-match queries | |
EP3077918A1 (en) | Systems and methods for in-memory database search | |
CA2882280A1 (en) | System and method for matching data using probabilistic modeling techniques | |
US11586694B2 (en) | System and method for improved searching across multiple databases | |
CN108664509B (zh) | 一种即席查询的方法、装置及服务器 | |
CN102890711A (zh) | 一种检索排序方法及系统 | |
CN112883030A (zh) | 数据收集方法、装置、计算机设备和存储介质 | |
CN110569419A (zh) | 问答系统优化方法、装置、计算机设备及存储介质 | |
US9552415B2 (en) | Category classification processing device and method | |
CN117708270A (zh) | 企业数据查询方法、装置、设备及存储介质 | |
JP2013054606A (ja) | 文書検索装置及び方法及びプログラム | |
JP7256357B2 (ja) | 情報処理装置、制御方法、プログラム | |
CN113515595A (zh) | 一种问答匹配方法、装置、电子设备和存储介质 | |
CN116414940A (zh) | 标准问题的确定方法、装置及相关设备 | |
CN110806861B (zh) | 一种结合用户反馈信息的api推荐方法及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211019 |