CN110069614A - 一种问答交互方法及装置 - Google Patents

一种问答交互方法及装置 Download PDF

Info

Publication number
CN110069614A
CN110069614A CN201910354108.3A CN201910354108A CN110069614A CN 110069614 A CN110069614 A CN 110069614A CN 201910354108 A CN201910354108 A CN 201910354108A CN 110069614 A CN110069614 A CN 110069614A
Authority
CN
China
Prior art keywords
information
answer
question
key word
checked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910354108.3A
Other languages
English (en)
Inventor
唐恒标
陈少儒
黄垒涛
胡天睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Car Mint Technology Co Ltd
Original Assignee
Beijing Car Mint Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Car Mint Technology Co Ltd filed Critical Beijing Car Mint Technology Co Ltd
Priority to CN201910354108.3A priority Critical patent/CN110069614A/zh
Publication of CN110069614A publication Critical patent/CN110069614A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种问答交互方法及装置,涉及数据处理领域。在获取到用户输入的待查询问题信息之后,能够根据待查询问题信息的关键词提取相关的问答对,避免待查询问题信息中无关词汇的影响,并能够通过特征匹配技术从问答对中确定出最合适的应答内容,进而实现对用户输入的待查询问题信息作出精准的应答的技术效果。

Description

一种问答交互方法及装置
技术领域
本申请涉及数据处理领域,具体而言,涉及一种问答交互方法及装置。
背景技术
随着互联网的不断发展,人们越来越多地依赖于互联网网络获取信息。人们可以通过在搜索平台上输入待查询问题信息来获取相关的答案信息,问答交互广泛应用于医疗、教育、生活、科技等各种与人们生活息息相关的领域,大幅提升人们获取信息的效率。现有的基于信息检索技术的问答交互方法,需要事先存储好对话库并建立索引,然后根据用户输入的包括字符序列的问题信息,在预存的对话库中进行字符序列的模糊匹配找到最合适的应答内容,然而在实践中发现,现有的问答交互方法不能对用户输入的问题信息作出精准的应答,应答内容质量低。
发明内容
本申请实施例的目的在于提供一种问答交互方法及装置,能够对用户输入的问题信息作出精准的应答,应答内容质量高。
本申请实施例第一方面提供了一种问答交互方法,包括:
获取用户输入的待查询问题信息,并提取所述待查询问题信息中的关键词信息;
根据所述关键词信息从预存的问答对知识库中提取与所述关键词信息相匹配的多个问答对信息,其中每个问答对信息包括问题信息以及与所述问题信息对应的答案信息;
提取每个所述问答对信息中问题信息的特征信息以及所述待查询问题信息的目标特征信息;
根据每个所述问答对信息的特征信息以及所述目标特征信息,计算每个所述问答对信息与所述关键词信息的特征匹配度;
根据每个所述问答对信息与所述关键词信息的特征匹配度,确定与所述待查询问题信息相匹配的应答信息并输出所述应答信息。
在上述实现过程中,在获取到用户输入的待查询问题信息之后,能够根据待查询问题信息的关键词提取相关的问答对,避免待查询问题信息中无关词汇的影响,并能够通过特征匹配技术从问答对中确定出最合适的应答内容,进而实现对用户输入的待查询问题信息作出精准的应答的技术效果。
进一步地,在第一方面中,提取所述待查询问题信息中的关键词信息,包括:
对所述待查询问题信息进行分词处理,得到分词序列;
根据预设的停用词库对所述分词序列进行停用词过滤处理,得到初步关键词信息;
对所述初步关键词信息进行标注处理,得到包括标注信息的关键词信息;
根据所述关键词信息从预存的问答对知识库中提取与所述关键词信息相匹配的多个问答对信息,包括:
根据包括所述标注信息的所述关键词信息从预存的问答对知识库中提取与所述关键词信息和所述标注信息相匹配的多个问答对信息。
在上述实现过程中,在提取待查询问题信息中的关键词信息时,需要对待查询问题信息进行分词、停用词过滤以及标注处理,能够准确地从问题信息中提取出关键词信息,有利于提升关键词检索问答对的准确性,通过对关键词信息进行标注处理,有利于解决关键词检索问答对的局限性。
进一步地,在第一方面中,所述待查询问题信息包括用户输入的连续的字符序列;
对所述待查询问题信息进行分词处理,得到分词序列,包括:
根据预设的分词词库对所述连续的字符序列进行重新组合处理,得到分词序列。
在上述实现过程中,在对待查询问题信息进行分词处理时,需要对待查询问题信息中的连续的字符序列进行重新组合处理,有利于后续的过滤以及标注处理,进而提升关键词检索问答对的准确性。
进一步地,在第一方面中,对所述初步关键词信息进行标注处理,得到包括标注信息的关键词信息,包括:
根据预设的语料库对所述初步关键词信息中每个词语的词性含义进行标注处理,得到具有初步标注信息的关键词信息;
对所述关键词信息进行实体识别处理,识别出所述关键词信息中具有特定意义的实体词语;
对所述具有初步标注信息的关键词信息中的所述实体词语进行上位概念标注处理,得到包括标注信息的关键词信息。
在上述实现过程中,在对初步关键词信息进行标注处理时,先根据上下文内容对初步关键词信息中的每个词语的词性含义进行标注,然后再对关键词信息进行实体识别处理,识别出关键词信息中的实体词语,最后再对关键词信息进行上位概念标注处理,得到包括标注信息的关键词信息,在根据包括标注信息的关键词信息进行问答对的检索,能够扩大检索范围,不仅仅拘泥于单纯实体词语的字符序列匹配,还能根据标注信息进行上位检索,进而提升检索范围。
进一步地,在第一方面中,提取每个所述问答对信息中问题信息的特征信息以及所述待查询问题信息的目标特征信息,包括:
采用XGB特征变换算法分别对每个所述问答对信息中的问题信息以及所述关键词信息进行特征提取处理,得到每个所述问答对信息中问题信息的特征信息以及所述待查询问题信息的目标特征信息。
在上述实现过程中,通过XGB特征变换算法来提取相应的特征信息,能够提升计算每个所述问答对信息对应的特征匹配度的精确度。
进一步地,在第一方面中,所述根据每个所述问答对信息与所述关键词信息的特征匹配度,确定与所述待查询问题信息相匹配的应答信息,包括:
根据每个所述问答对信息中问题信息的特征信息以及所述待查询问题信息的目标特征信息,采用LR特征融合算法计算每个所述问答对信息对应的特征匹配度;
根据每个所述问答对信息对应的特征匹配度,按照特征匹配度由大到小的顺序对多个所述问答对信息进行排序处理,得到包括多个所述问答对信息的排序表;
从所述排序表中提取最前的预设数量的问答对信息作为目标问答对,并将目标问答对中的答案信息确定为与所述待查询问题信息相匹配的应答信息。
在上述实现过程中,在确定与所述待查询问题信息相匹配的应答信息时,先将每个问答对信息中问题信息的特征信息与待查询问题信息的目标特征信息进行比较,计算每个问答对信息对应的特征匹配度,然后再按照特征匹配度由大到小的顺序对多个问答对信息进行排序,最后将排在最前面的预设数量的问答对信息作为目标问答对,并将目标问答对中的答案信息确定为待查询问题信息的应答信息。
本申请实施例第二方面公开一种问答交互装置,包括:
信息获取模块,用于获取用户输入的待查询问题信息;
关键词提取模块,用于提取所述待查询问题信息中的关键词信息;
检索模块,用于根据所述关键词信息从预存的问答对知识库中提取与所述关键词信息相匹配的多个问答对信息,其中每个问答对信息包括问题信息以及与所述问题信息对应的答案信息;
特征提取模块,用于提取每个所述问答对信息中问题信息的特征信息以及所述待查询问题信息的目标特征信息;
特征匹配度计算模块,用于根据每个所述问答对信息的特征信息以及所述目标特征信息,计算每个所述问答对信息与所述关键词信息的特征匹配度;
查询结果确定模块,用于根据每个所述问答对信息与所述关键词信息的特征匹配度,确定与所述待查询问题信息相匹配的应答信息;
输出模块,用于输出所述应答信息。
在上述实现过程中,在信息获取模块获取到用户输入的待查询问题信息之后,检索模块能够根据关键词提取模块提取出的待查询问题信息的关键词检索出与待查询问题信息相关的问答对,避免待查询问题信息中无关词汇的影响,最后查询结果确定模块能够通过特征匹配技术从问答对中确定出最合适的应答内容,进而实现对用户输入的查询问题信息作出精准的应答的技术效果。
进一步地,在第二方面中,所述关键词提取模块,包括:
分词子模块,用于对所述待查询问题信息进行分词处理,得到分词序列;
过滤子模块,用于根据预设的停用词库对所述分词序列进行停用词过滤处理,得到初步关键词信息;
标注子模块,用于对所述初步关键词信息进行标注处理,得到包括标注信息的关键词信息;
所述检索模块,具体用于根据包括所述标注信息的所述关键词信息从预存的问答对知识库中提取与所述关键词信息和所述标注信息相匹配的多个问答对信息。
在上述实现过程中,关键词提取模块在提取待查询问题信息中的关键词信息时,需要对待查询问题信息进行分词、停用词过滤以及标注处理,进而能够准确地从问题信息中提取出关键词信息,有利于提升关键词检索问答对的准确性,通过标注子模块对关键词信息进行标注处理,有利于解决关键词检索问答对的局限性。
进一步地,在第二方面中,所述待查询问题信息包括用户输入的连续的字符序列;
所述分词子模块,具体用于根据预设的分词词库对所述连续的字符序列进行重新组合处理,得到分词序列。
在上述实现过程中,分词子模块在对待查询问题信息进行分词处理时,需要对待查询问题信息中的连续的字符序列进行重新组合处理,有利于后续的过滤以及标注处理,进而提升关键词检索问答对的准确性。
进一步地,在第二方面中,所述特征提取模块,具体用于采用XGB特征变换算法分别对每个所述问答对信息中的问题信息以及所述关键词信息进行特征提取处理,得到每个所述问答对信息中问题信息的特征信息以及所述待查询问题信息的目标特征信息。
在上述实现过程中,特征提取模块通过XGB特征变换算法来提取相应的特征信息,有助于提升特征匹配度计算模块计算每个所述问答对信息对应的特征匹配度的精确度。
本发明第三方面公开一种计算机设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述计算机设备执行第一方面公开的部分或者全部所述的问答交互方法。
本发明第四方面公开一种计算机可读存储介质,其存储有第三方面所述的计算机设备中所使用的所述计算机程序。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例一提供的一种问答交互方法的流程示意图;
图2为本申请实施例二提供的一种问答交互方法的流程示意图;
图3为本申请实施例三提供的一种问答交互装置的结构示意图;
图4为本申请实施例三提供的另一种问答交互装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1
请参看图1,图1为本申请实施例提供的一种问答交互方法的流程示意框图。如图1所示,该问答交互方法包括:
S101、获取用户输入的待查询问题信息,并提取待查询问题信息中的关键词信息。
本申请实施例中,用户输入的待查询问题信息具体可以为用户输入的字符序列,在实际使用中,举例来说,用户输入的待查询问题信息可以为“体检查出脂肪肝还能买保险吗?”,然后可以提取“体检查出脂肪肝还能买保险吗?”中的关键词信息(如脂肪肝、保险等)。
S102、根据关键词信息从预存的问答对知识库中提取与关键词信息相匹配的多个问答对信息,其中每个问答对信息包括问题信息以及与问题信息对应的答案信息。
本申请实施例中,当本申请所描述的问答交互方法应用于核保稽查时,该预存的问答对知识库可以包括ICD-10(全球通用的第10次修订的《疾病和有关健康问题的国际统计分类》)中的所有疾病记录、常见疾病的核保建议等,对此本实施例不作限定。
本申请实施例中,预存的问答对知识库并不是一成不变的,还可以按照预设时间进行定期更新。
本申请实施例中,预存的问答对知识库可以基于信息检索和信息召回架构,根据问答对的检索情况,及时更新问答对知识库。
S103、提取每个问答对信息中问题信息的特征信息以及待查询问题信息的目标特征信息。
本申请实施例中,可以分别对每个问答对信息中问题信息以及待查询问题信息进行特征计算,进而得到每个问答对信息中问题信息的特征信息以及待查询问题信息的目标特征信息。
本申请实施例中,对问题信息以及待查询问题信息进行特征计算可以采用XGB、GBDT(Gradient Boost Decision Tree)算法、RF(Random Forest)算法等,对此本实施例不作任何限定。
S104、根据每个问答对信息的特征信息以及目标特征信息,计算每个问答对信息与关键词信息的特征匹配度。
本申请实施例中,将每个问答对信息的特征信息与目标特征信息进行比较,可以计算每个问答对信息与关键词信息的特征匹配度。
S105、根据每个问答对信息与关键词信息的特征匹配度,确定与待查询问题信息相匹配的应答信息并输出应答信息。
本申请实施例中,当需要输出与待查询问题信息相匹配的应答信息的数量为一个时,则可以取最大特征匹配度对应的问答对信息中的答案信息,作为与待查询问题信息相匹配的应答信息。
可见,实施图1所描述的问答交互方法,在获取到用户输入的待查询问题信息之后,能够根据待查询问题信息的关键词提取相关的问答对,避免待查询问题信息中无关词汇的影响,并能够通过特征匹配技术从问答对中确定出最合适的应答内容,进而实现对用户输入的待查询问题信息作出精准的应答的技术效果。
实施例2
请参看图2,图2为本申请实施例提供的一种问答交互方法的流程示意框图。如图2所示,该问答交互方法包括:
S201、获取用户输入的待查询问题信息。
S202、对待查询问题信息进行分词处理,得到分词序列。
本申请实施例中,待查询问题信息包括用户输入的连续的字符序列,其中,字符序列包括文字、标点符号、外国文字等,对此本实施例不作任何限定。
本申请实施例中,当输入的待查询问题信息为汉语字符序列时,由于汉语文本没有类似英文文本中空格之类的显式标示词的边界标示符,因此需要对待查询问题信息进行分词处理,以确定汉语字符序列中各个词的边界。
作为一种可选的实施方式,对待查询问题信息进行分词处理,得到分词序列,可以包括以下步骤:
根据预设的分词词库对连续的字符序列进行重新组合处理,得到分词序列。
在上述实施方式中,预设的分词词库包括汉语大词库、外语词库等,对此本实施例不作任何限定。
在上述实施方式中,可以根据预设的分词词库对连续的字符序列进行词语识别处理,将连续的字符序列划分为词语序列,得到分词序列。
在步骤S202之后,还包括以下步骤:
S203、根据预设的停用词库对分词序列进行停用词过滤处理,得到初步关键词信息。
本申请实施例中,为节省存储空间和提高搜索效率,在处理自然语言数据(即分词序列)之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词,由这些字词组成的词表称为停用词库。举例来说,当用户输入的待查询问题信息为“体检查出脂肪肝还能买保险吗?”时,则可以根据预设的停用词库将“体检查出脂肪肝还能买保险吗?”中的“还能”、“吗”和“?”过滤掉,所得到的“体检查出脂肪肝买保险”即为初步关键词信息。
本申请实施例中,预设的停用词库可以包括连接词、语气词、无实际含义的词汇等,对此本实施例不作任何限定。通过预设的停用词库对分词序列进行停用词过滤处理,能够降低搜索范围,提高搜索性能。
S204、对初步关键词信息进行标注处理,得到包括标注信息的关键词信息。
本申请实施例中,对初步关键词信息进行标注处理,得到包括标注信息的关键词信息,包括:
根据预设的语料库对初步关键词信息中每个词语的词性含义进行标注处理,得到具有初步标注信息的关键词信息;
对关键词信息进行实体识别处理,识别出关键词信息中具有特定意义的实体词语;
对具有初步标注信息的关键词信息中的实体词语进行上位概念标注处理,得到包括标注信息的关键词信息。
在上述实施方式中,在对初步关键词信息进行标注处理时,先识别初步关键词信息中的实体词语,然后再确定实体词语在关键词信息中最合适的上位概念,并对实体词语进行上位概念标注处理,进而提升对初步关键词信息中的实体词语的辨别和理解,有利于提升关键词检索问答对的准确性。
在上述实施方式中,实体词语,又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,对此本实施例不作任何限定。
在上述实施方式中,对关键词信息进行实体识别处理,可以采用命名实体识别方法,旨在识别出关键词信息中的命名实体,该命名实体包括三大类(实体类、时间类和数字类)实体、七小类(人名、机构名、地名、时间、日期、货币和百分比)实体等,对此本实施例不作限定。
本申请实施例中,执行上述步骤S202~步骤S204,能够提取待查询问题信息中的关键词信息。
在步骤S204之后,还包括以下步骤:
S205、根据包括标注信息的关键词信息从预存的问答对知识库中提取与关键词信息和标注信息相匹配的多个问答对信息。
本申请实施例中,每个问答对信息包括问题信息以及与问题信息对应的答案信息。
本申请实施例中,问答对信息的个数可以预先设置,也可以根据实际情况自动设置,对此本实施例不作任何限定。
作为一种可选的实施方式,在根据关键词信息从预存的问答对知识库中提取与关键词信息相匹配的多个问答对信息的过程中,先从预存的问答对知识库中提取与关键词信息相匹配的多个第一问答对信息,然后再从预存的问答对知识库中提取与标注信息相匹配的多个第二问答对信息,则多个第一问答对信息和多个第二问答对信息共同组合得到与关键词信息和标注信息相匹配的多个问答对信息。
在上述实施方式中,在进行检索时,可以将问答对信息中问题信息与关键词信息和标注信息进行匹配比较,来确定关键词信息和标注信息相匹配的多个问答对信息;也可以将问答对信息中问题信息和答案信息共同与关键词信息和标注信息进行匹配比较,来确定关键词信息和标注信息相匹配的多个问答对信息,对此本实施例不做任何限定。
作为一种可选的实施方式,在步骤S205之后,还包括以下步骤:
S206、采用XGB特征变换算法分别对每个问答对信息中的问题信息以及关键词信息进行特征提取处理,得到每个问答对信息中问题信息的特征信息以及待查询问题信息的目标特征信息。
在现有技术中,XGB特征变换算法,即XGBoost(eXtreme Gradient Boosting)算法,是boosting算法的其中一种。Boosting算法的思想是将许多弱分类器集成在一起形成一个强分类器。因为XGBoost是一种提升树模型,所以它是将许多树模型集成在一起,形成一个很强的分类器。
在步骤S206之后,还包括以下步骤:
S207、根据每个问答对信息中问题信息的特征信息以及待查询问题信息的目标特征信息,采用LR特征融合算法计算每个问答对信息对应的特征匹配度。
本申请实施例中,特征匹配度是指问答对信息中问题信息的特征信息与待查询问题信息的目标特征信息之间的匹配度,可以由百分数表示、小数表示、分数表示等,对此本实施例不作任何限定。
本申请实施例中,LR(Logistic Regression)特征融合算法是一种非线性回归模型,特征数据可以是连续的,也可以是分类变量和哑变量,是当前业界比较常用的机器学习方法,用于估计某种事物的可能性,采用LR特征融合算法计算每个问答对信息对应的特征匹配度,有利于提升特征匹配度计算的精准度,避免单纯字符序列进行匹配导致的特征匹配度计算误差大的问题。
S208、根据每个问答对信息对应的特征匹配度,按照特征匹配度由大到小的顺序对多个问答对信息进行排序处理,得到包括多个问答对信息的排序表。
S209、从排序表中提取最前的预设数量的问答对信息作为目标问答对,并将目标问答对中的答案信息确定为与待查询问题信息相匹配的应答信息。
本申请实施例中,预设数量可以为1个、2个、4个等,对此本实施例不作任何限定。
本申请实施例中,执行上述步骤S209~步骤S211,能够根据每个问答对信息与关键词信息的特征匹配度,确定与待查询问题信息相匹配的应答信息。
S210、输出应答信息。
本申请实施例中,可以通过LambdaMART算法对多个问答对信息进行排序得到Ranked Response排序表,然后再根据Ranked Response排序表,将得到匹配度最高的问答对信息中的答案信息作为最佳回复(即应答信息)并输出该最佳回复给用户。
作为一种可选的实施方式,预设数量包括主数量和次数量,其中,排序表最前的主数量个问答对信息作为第一目标问答对,去除排序表最前的主数量个问答对信息之后,最前的次数量个问答对信息作为第二目标问答对,第一目标问答对和第二目标问答对共同组成目标问答对。最后采用不同的显示方式对第一目标问答对中的答案信息以及第二目标问答对中的答案信息进行显示。
在上述实施方式中,举例来说,当预设数量包括的主数量为1,次数量为2时,则将排序表最前面的第一个问答对信息作为第一目标问答对,然后将将排序表最前面的第二个问答对信息和第三个问答对信息作为第二目标问答对。最后,在输出应答信息时,首先可以完整输出第一目标问答对包括的答案信息,然后再以局部显示的方式输出第二目标问答对包括的答案信息。
举例来说,当用户输入的字符序列为“体检查出脂肪肝还能买保险吗?”时,本实施所描述的问答交互方法包括以下步骤:
获取用户输入的待查询问题信息:“体检查出脂肪肝还能买保险吗?”;
对字符序列“体检查出脂肪肝还能买保险吗?”进行分词处理,得到分词序列,该分词序列可以为:“体检”、“查出”、“脂肪肝”、“还能”、“买保险”、“吗”、“?”;
根据预设的停用词库对分词序列进行停用词过滤处理,过滤掉“还能”、“吗”和“?”,得到的初步关键词信息为:“体检”、“查出”、“脂肪肝”、“买保险”;
对初步关键词信息进行标注处理,得到的包括标注信息的关键词信息为:“体检”、“查出”、“脂肪肝”、“买保险”,其中,对“体检”、“查出”、“脂肪肝”标注为“脂肪肝”,对“买保险”标注为“核保政策”;
根据包括标注信息的关键词信息从预存的问答对知识库中提取与关键词信息和标注信息相匹配的多个问答对信息;假设检索到六个问答对信息,其中,每个问答对信息包括的问题信息可以为:我有脂肪肝,还能投保吗;脂肪肝可以投保健康险吗;轻度脂肪肝告知要体检吗;脂肪肝可以买百万医疗保险吗;36岁女性轻度脂肪肝;确诊脂肪肝多长时间可以投保重疾险或医疗险等;
采用XGB特征变换算法分别对每个问答对信息中的问题信息以及关键词信息进行特征提取处理,得到每个问答对信息中问题信息的特征信息以及待查询问题信息的目标特征信息;
根据每个问答对信息的特征信息以及目标特征信息,计算每个问答对信息与关键词信息的特征匹配度;假设特征匹配度由百分数表示,设包括问题信息为“我有脂肪肝,还能投保吗”的问答对信息与关键词信息的特征匹配度为67%,包括问题信息为“脂肪肝可以投保健康险吗”的问答对信息与关键词信息的特征匹配度为78%,包括问题信息为“轻度脂肪肝告知要体检吗”的问答对信息与关键词信息的特征匹配度为43%,包括问题信息为“脂肪肝可以买百万医疗保险吗”的问答对信息与关键词信息的特征匹配度为69%,包括问题信息为“36岁女性轻度脂肪肝”的问答对信息与关键词信息的特征匹配度为27%,包括问题信息为“确诊脂肪肝多长时间可以投保重疾险或医疗险”的问答对信息与关键词信息的特征匹配度为87%;
根据每个问答对信息对应的特征匹配度,按照特征匹配度由大到小的顺序对多个问答对信息进行排序处理,得到包括多个问答对信息的排序表;所得到的排序表为:包括问题信息为“确诊脂肪肝多长时间可以投保重疾险或医疗险”的问答对信息;包括问题信息为“脂肪肝可以投保健康险吗”的问答对信息;包括问题信息为“脂肪肝可以买百万医疗保险吗”的问答对信息;包括问题信息为“我有脂肪肝,还能投保吗”的问答对信息;包括问题信息为“轻度脂肪肝告知要体检吗”的问答对信息;包括问题信息为“36岁女性轻度脂肪肝”的问答对信息;
从排序表中提取最前的预设数量的问答对信息作为目标问答对,并将目标问答对中的答案信息确定为与待查询问题信息相匹配的应答信息;设预设数量为1个,则将包括问题信息为“确诊脂肪肝多长时间可以投保重疾险或医疗险”的问答对信息确定为目标问答对,将问题信息“确诊脂肪肝多长时间可以投保重疾险或医疗险”对应的答案信息作为与待查询问题信息相匹配的应答信息;
最后输出应答信息为:
“根据病因,通常将脂肪肝分为两大类:
-酒精性脂肪肝:由长期大量饮酒导致;
-非酒精性脂肪肝:常见于肥胖、三高人群。
脂肪肝又可分为单纯性脂肪肝、脂肪性肝炎、脂肪性肝纤维化和肝硬化。绝大多数都是单纯性脂肪肝。
酒精性脂肪肝:若不是重度酒精肝,且肝功能正常,可以按照标准体投保。
如果是肥胖导致的脂肪肝,需要综合考虑血脂、血糖、肝功能等指标。
医疗险:有些公司对未有明显肝功能异常,没有高血压、高血糖,或者因脂肪肝住院治疗的脂肪肝患者,即可通过核保。
寿险,重疾险:部分要求不是饮酒导致的脂肪肝,并且肝功能没有异常,可以正常投保。未影响到功能的轻度脂肪肝,无论重疾还是医疗险,投保一般不会有太大影响。”
可见,实施图2所描述的问答交互方法,能够对用户输入的问题信息作出精准的应答,应答内容质量高。
实施例3
请参看图3,图3为本申请实施例提供的一种问答交互装置的结构示意框图。如图3所示,该问答交互装置包括:
信息获取模块310,用于获取用户输入的待查询问题信息。
关键词提取模块320,用于提取待查询问题信息中的关键词信息。
检索模块330,用于根据关键词信息从预存的问答对知识库中提取与关键词信息相匹配的多个问答对信息,其中每个问答对信息包括问题信息以及与问题信息对应的答案信息。
特征提取模块340,用于提取每个问答对信息中问题信息的特征信息以及待查询问题信息的目标特征信息。
特征匹配度计算模块350,用于根据每个问答对信息的特征信息以及目标特征信息,计算每个问答对信息与关键词信息的特征匹配度。
查询结果确定模块360,用于根据每个问答对信息与关键词信息的特征匹配度,确定与待查询问题信息相匹配的应答信息。
输出模块370,用于输出应答信息。
在上述实施方式中,在信息获取模块获取到用户输入的待查询问题信息之后,检索模块能够根据关键词提取模块提取出的待查询问题信息的关键词检索出与待查询问题信息相关的问答对,避免待查询问题信息中无关词汇的影响,最后查询结果确定模块能够通过特征匹配技术从问答对中确定出最合适的应答内容,进而实现对用户输入的查询问题信息作出精准的应答的技术效果。
作为一种可选的实施方式,请参阅图4,图4是本申请实施例提供的另一种问答交互装置的结构示意图,图4所示的问答交互装置是由图3所示的问答交互装置进行优化得到的。如图4所示,关键词提取模块320,包括:
分词子模块321,用于对待查询问题信息进行分词处理,得到分词序列。
过滤子模块322,用于根据预设的停用词库对分词序列进行停用词过滤处理,得到初步关键词信息。
标注子模块323,用于对初步关键词信息进行标注处理,得到包括标注信息的关键词信息。
检索模块330,具体用于根据包括标注信息的关键词信息从预存的问答对知识库中提取与关键词信息和标注信息相匹配的多个问答对信息。
在上述实施方式中,待查询问题信息包括用户输入的连续的字符序列。
在上述实施方式中,关键词提取模块在提取待查询问题信息中的关键词信息时,需要对待查询问题信息进行分词、停用词过滤以及标注处理,进而能够准确地从问题信息中提取出关键词信息,有利于提升关键词检索问答对的准确性,通过标注子模块对关键词信息进行标注处理,有利于解决关键词检索问答对的局限性。
作为进一步可选的实施方式,分词子模块321,具体用于根据预设的分词词库对连续的字符序列进行重新组合处理,得到分词序列。
作为进一步可选的实施方式,标注子模块323,包括:
初步标注单元,用于根据预设的语料库对初步关键词信息中每个词语的词性含义进行标注处理,得到具有初步标注信息的关键词信息;
实体识别单元,用于对关键词信息进行实体识别处理,识别出关键词信息中具有特定意义的实体词语;
上位标注单元,用于对具有初步标注信息的关键词信息中的实体词语进行上位概念标注处理,得到包括标注信息的关键词信息。
作为一种可选的实施方式,特征提取模块340,具体用于采用XGB特征变换算法分别对每个问答对信息中的问题信息以及关键词信息进行特征提取处理,得到每个问答对信息中问题信息的特征信息以及待查询问题信息的目标特征信息。
作为一种可选的实施方式,查询结果确定模块360,包括:
计算子模块,用于根据每个问答对信息中问题信息的特征信息以及待查询问题信息的目标特征信息,采用LR特征融合算法计算每个问答对信息对应的特征匹配度;
排序子模块,用于根据每个问答对信息对应的特征匹配度,按照特征匹配度由大到小的顺序对多个问答对信息进行排序处理,得到包括多个问答对信息的排序表;
确定子模块,用于从排序表中提取最前的预设数量的问答对信息作为目标问答对,并将目标问答对中的答案信息确定为与待查询问题信息相匹配的应答信息。
可见,实施图3所描述的问答交互装置,能够对用户输入的问题信息作出精准的应答,应答内容质量高,进而提升用户使用体验度。
此外,本发明还提供了一种计算机设备。该计算机设备包括存储器和处理器,存储器可用于存储计算机程序,处理器通过运行所述计算机程序,从而使该计算机设备执行上述方法或者上述问答交互装置中的各个模块的功能。
存储器可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据移动终端的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本实施例还提供了一种计算机存储介质,用于储存上述计算机设备中使用的计算机程序。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种问答交互方法,其特征在于,包括:
获取用户输入的待查询问题信息,并提取所述待查询问题信息中的关键词信息;
根据所述关键词信息从预存的问答对知识库中提取与所述关键词信息相匹配的多个问答对信息,其中每个问答对信息包括问题信息以及与所述问题信息对应的答案信息;
提取每个所述问答对信息中问题信息的特征信息以及所述待查询问题信息的目标特征信息;
根据每个所述问答对信息的特征信息以及所述目标特征信息,计算每个所述问答对信息与所述关键词信息的特征匹配度;
根据每个所述问答对信息与所述关键词信息的特征匹配度,确定与所述待查询问题信息相匹配的应答信息并输出所述应答信息。
2.根据权利要求1所述的问答交互方法,其特征在于,提取所述待查询问题信息中的关键词信息,包括:
对所述待查询问题信息进行分词处理,得到分词序列;
根据预设的停用词库对所述分词序列进行停用词过滤处理,得到初步关键词信息;
对所述初步关键词信息进行标注处理,得到包括标注信息的关键词信息;
根据所述关键词信息从预存的问答对知识库中提取与所述关键词信息相匹配的多个问答对信息,包括:
根据包括所述标注信息的所述关键词信息从预存的问答对知识库中提取与所述关键词信息和所述标注信息相匹配的多个问答对信息。
3.根据权利要求2所述的问答交互方法,其特征在于,所述待查询问题信息包括用户输入的连续的字符序列;
对所述待查询问题信息进行分词处理,得到分词序列,包括:
根据预设的分词词库对所述连续的字符序列进行重新组合处理,得到分词序列。
4.根据权利要求3所述的问答交互方法,其特征在于,对所述初步关键词信息进行标注处理,得到包括标注信息的关键词信息,包括:
根据预设的语料库对所述初步关键词信息中每个词语的词性含义进行标注处理,得到具有初步标注信息的关键词信息;
对所述关键词信息进行实体识别处理,识别出所述关键词信息中具有特定意义的实体词语;
对所述具有初步标注信息的关键词信息中的所述实体词语进行上位概念标注处理,得到包括标注信息的关键词信息。
5.根据权利要求1所述的问答交互方法,其特征在于,提取每个所述问答对信息中问题信息的特征信息以及所述待查询问题信息的目标特征信息,包括:
采用XGB特征变换算法分别对每个所述问答对信息中的问题信息以及所述关键词信息进行特征提取处理,得到每个所述问答对信息中问题信息的特征信息以及所述待查询问题信息的目标特征信息。
6.根据权利要求1或5所述的问答交互方法,其特征在于,所述根据每个所述问答对信息与所述关键词信息的特征匹配度,确定与所述待查询问题信息相匹配的应答信息,包括:
根据每个所述问答对信息中问题信息的特征信息以及所述待查询问题信息的目标特征信息,采用LR特征融合算法计算每个所述问答对信息对应的特征匹配度;
根据每个所述问答对信息对应的特征匹配度,按照特征匹配度由大到小的顺序对多个所述问答对信息进行排序处理,得到包括多个所述问答对信息的排序表;
从所述排序表中提取最前的预设数量的问答对信息作为目标问答对,并将目标问答对中的答案信息确定为与所述待查询问题信息相匹配的应答信息。
7.一种问答交互装置,其特征在于,包括:
信息获取模块,用于获取用户输入的待查询问题信息;
关键词提取模块,用于提取所述待查询问题信息中的关键词信息;
检索模块,用于根据所述关键词信息从预存的问答对知识库中提取与所述关键词信息相匹配的多个问答对信息,其中每个问答对信息包括问题信息以及与所述问题信息对应的答案信息;
特征提取模块,用于提取每个所述问答对信息中问题信息的特征信息以及所述待查询问题信息的目标特征信息;
特征匹配度计算模块,用于根据每个所述问答对信息的特征信息以及所述目标特征信息,计算每个所述问答对信息与所述关键词信息的特征匹配度;
查询结果确定模块,用于根据每个所述问答对信息与所述关键词信息的特征匹配度,确定与所述待查询问题信息相匹配的应答信息;
输出模块,用于输出所述应答信息。
8.根据权利要求7所述的问答交互装置,其特征在于,所述关键词提取模块,包括:
分词子模块,用于对所述待查询问题信息进行分词处理,得到分词序列;
过滤子模块,用于根据预设的停用词库对所述分词序列进行停用词过滤处理,得到初步关键词信息;
标注子模块,用于对所述初步关键词信息进行标注处理,得到包括标注信息的关键词信息;
所述检索模块,具体用于根据包括所述标注信息的所述关键词信息从预存的问答对知识库中提取与所述关键词信息和所述标注信息相匹配的多个问答对信息。
9.根据权利要求8所述的问答交互装置,其特征在于,所述待查询问题信息包括用户输入的连续的字符序列;
所述分词子模块,具体用于根据预设的分词词库对所述连续的字符序列进行重新组合处理,得到分词序列。
10.根据权利要求7所述的问答交互装置,其特征在于,所述特征提取模块,具体用于采用XGB特征变换算法分别对每个所述问答对信息中的问题信息以及所述关键词信息进行特征提取处理,得到每个所述问答对信息中问题信息的特征信息以及所述待查询问题信息的目标特征信息。
CN201910354108.3A 2019-04-28 2019-04-28 一种问答交互方法及装置 Pending CN110069614A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910354108.3A CN110069614A (zh) 2019-04-28 2019-04-28 一种问答交互方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910354108.3A CN110069614A (zh) 2019-04-28 2019-04-28 一种问答交互方法及装置

Publications (1)

Publication Number Publication Date
CN110069614A true CN110069614A (zh) 2019-07-30

Family

ID=67369604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910354108.3A Pending CN110069614A (zh) 2019-04-28 2019-04-28 一种问答交互方法及装置

Country Status (1)

Country Link
CN (1) CN110069614A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984763A (zh) * 2020-08-28 2020-11-24 海信电子科技(武汉)有限公司 一种答问处理方法及智能设备
CN112463920A (zh) * 2020-11-25 2021-03-09 联想(北京)有限公司 一种信息应答方法及装置
CN117235242A (zh) * 2023-11-15 2023-12-15 浙江力石科技股份有限公司 一种基于智能问答数据库的热点信息筛选方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6938000B2 (en) * 2001-05-10 2005-08-30 Honeywell International Inc. Automated customer support system
CN101086843A (zh) * 2006-06-07 2007-12-12 中国科学院自动化研究所 一种应用于语音问答系统中的句子相似度识别方法
CN101178711A (zh) * 2006-11-30 2008-05-14 腾讯科技(深圳)有限公司 一种中文自动应答方法及系统
CN107741976A (zh) * 2017-10-16 2018-02-27 泰康保险集团股份有限公司 智能应答方法、装置、介质和电子设备
CN109271505A (zh) * 2018-11-12 2019-01-25 深圳智能思创科技有限公司 一种基于问题答案对的问答系统实现方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6938000B2 (en) * 2001-05-10 2005-08-30 Honeywell International Inc. Automated customer support system
CN101086843A (zh) * 2006-06-07 2007-12-12 中国科学院自动化研究所 一种应用于语音问答系统中的句子相似度识别方法
CN101178711A (zh) * 2006-11-30 2008-05-14 腾讯科技(深圳)有限公司 一种中文自动应答方法及系统
CN107741976A (zh) * 2017-10-16 2018-02-27 泰康保险集团股份有限公司 智能应答方法、装置、介质和电子设备
CN109271505A (zh) * 2018-11-12 2019-01-25 深圳智能思创科技有限公司 一种基于问题答案对的问答系统实现方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984763A (zh) * 2020-08-28 2020-11-24 海信电子科技(武汉)有限公司 一种答问处理方法及智能设备
CN111984763B (zh) * 2020-08-28 2023-09-19 海信电子科技(武汉)有限公司 一种答问处理方法及智能设备
CN112463920A (zh) * 2020-11-25 2021-03-09 联想(北京)有限公司 一种信息应答方法及装置
CN117235242A (zh) * 2023-11-15 2023-12-15 浙江力石科技股份有限公司 一种基于智能问答数据库的热点信息筛选方法及系统
CN117235242B (zh) * 2023-11-15 2024-02-06 浙江力石科技股份有限公司 一种基于智能问答数据库的热点信息筛选方法及系统

Similar Documents

Publication Publication Date Title
CN111414393B (zh) 一种基于医学知识图谱的语义相似病例检索方法及设备
CN107731269B (zh) 基于原始诊断数据和病历文件数据的疾病编码方法及系统
CN109190110B (zh) 一种命名实体识别模型的训练方法、系统及电子设备
CN109920540A (zh) 辅助诊疗决策系统的构建方法、装置及计算机设备
CN112786194A (zh) 基于人工智能的医学影像导诊导检系统、方法及设备
CN110069614A (zh) 一种问答交互方法及装置
CN111291568B (zh) 一种应用于医学文本的实体关系自动标注方法
CN108108426A (zh) 自然语言提问的理解方法、装置及电子设备
WO2021208444A1 (zh) 电子病例自动生成方法、装置、设备及存储介质
US20210295844A1 (en) Processing multi-party conversations
CN112765974B (zh) 一种业务辅助方法、电子设备及可读存储介质
WO2022262266A1 (zh) 文本摘要生成方法、装置、计算机设备及存储介质
CN109785123A (zh) 一种业务办理协助方法、装置及终端设备
CN113127607A (zh) 文本数据标注方法、装置、电子设备及可读存储介质
CN108121721A (zh) 意图识别方法及装置
CN113935339A (zh) 翻译方法、装置、电子设备及存储介质
CN111400529B (zh) 数据处理方法以及装置
CN108763258B (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
CN116227594A (zh) 面向多源数据的医疗行业高可信度知识图谱的构建方法
KR20200127636A (ko) 감성 정보 제공을 위한 뉴스 기사의 감성 정보 레이블링 장치의 동작 프로그램이 기록된 기록매체
CN111611340A (zh) 信息抽取方法、装置、计算机设备和存储介质
Wang et al. Word intuition agreement among Chinese speakers: a Mechanical Turk-based study
CN112561714B (zh) 基于nlp技术的核保风险预测方法、装置及相关设备
CN114548100A (zh) 一种基于大数据技术的临床科研辅助方法与系统
CN114300127A (zh) 问诊处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190730