CN112241449A - 问答系统 - Google Patents

问答系统 Download PDF

Info

Publication number
CN112241449A
CN112241449A CN201910650490.2A CN201910650490A CN112241449A CN 112241449 A CN112241449 A CN 112241449A CN 201910650490 A CN201910650490 A CN 201910650490A CN 112241449 A CN112241449 A CN 112241449A
Authority
CN
China
Prior art keywords
tag
node
rule
forbidden
calculation result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910650490.2A
Other languages
English (en)
Inventor
周乃杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201910650490.2A priority Critical patent/CN112241449A/zh
Publication of CN112241449A publication Critical patent/CN112241449A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Abstract

本发明提出一种问答系统,包括:输入模块、解构模块、树状模型、评分模块及输出模块。输入模块供接收用户输入的提问信息。解构模块供拆分所述提问信息成多个词语。树状模型包括多个节点,此些节点包括一个根节点及自根节点多层延伸的多个叶节点。各个节点具有多个运算规则及一信息。评分模块将词语作为多个标签而由根节点输入,依照运算规则计算多个指标,并依据指标计算一评分。输出模块将对应于较佳或最佳的评分的节点的信息输出。

Description

问答系统
技术领域
本发明涉及问答系统(Question answering)技术领域,具体是一种能根据使用者的提问输出较佳或最佳答案或提问的问答系统。
背景技术
传统的问答系统是将问题与答案相互配对建立成资料库,当使用者问什么问题,便到资料库中查询对应的答案而输出。此作法的缺点是需要持续扩充问答资料,而且没有一个判断准则来判断查询到的答案是否正确。并且,若查询不到相关的题目,便无法输出答案,问答方式死板。
发明内容
鉴于上述问题,本发明提出一种问答系统,介以解决先前技术存在之问题。
在一实施例,问答系统包括:输入模块、解构模块、树状模型、评分模块及输出模块。输入模块供接收用户输入的提问信息。解构模块供拆分所述提问信息成多个词语。树状模型包括多个节点,此些节点包括一个根节点及自根节点多层延伸的多个叶节点。各个节点具有多个运算规则及一信息。评分模块将词语作为多个标签而由根节点输入,依照运算规则计算多个指标,并依据指标计算一评分。输出模块将对应于较佳或最佳的评分的节点的信息输出。
依据一些实施例,运算规则包括一必要标签规则。
依据一些实施例,运算规则包括一禁止标签规则。
依据一些实施例,运算规则包括一逻辑运算规则,逻辑运算规则包括多个标示及一逻辑符。
依据一些实施例,多个指标包括一有效度(validity)指标。标签包括至少一必要标签或/及至少一禁止标签。有效度指标根据末端的叶节点至根节点之间经过的每一节点的必要标签规则、禁止标签规则及逻辑运算规则的计算结果累计而成。若必要标签满足必要标签规则,则当前节点的计算结果为1。若禁止标签满足禁止标签规则,则当前节点的计算结果为0。其余情形则将必要标签代入逻辑运算规则作为计算结果。
依据一些实施例,多个指标包括一信心值(confidence)指标。标签包括至少一必要标签或/及至少一禁止标签。信心值指标根据末端的叶节点至根节点之间经过的每一节点的必要标签规则、禁止标签规则及逻辑运算规则的计算结果累计而成。若必要标签满足必要标签规则,则当前节点的计算结果为1。若禁止标签满足禁止标签规则,则当前节点的计算结果为0。其余情形则将禁止标签代入逻辑运算规则作为计算结果。
依据一些实施例,多个指标包括一精准度(precision)指标,系根据末端的叶节点至根节点之间经过的每一节点的逻辑运算规则的计算结果累计而成。逻辑符是反(not)逻辑时,将上一层节点累计结果转为一负数作为当前节点的计算结果。逻辑符是或(or)逻辑时,选择上一层节点累计结果中的最大值作为当前节点的计算结果。逻辑符是其他逻辑时,将上一层节点累计结果和当前节点的标示数量相除作为当前节点的计算结果。
依据一些实施例,多个指标包括一召回率(recall)指标,其中标签包括至少一必要标签或/及至少一禁止标签。召回率指标是(PI+NI)/(PI+NI+RPI+RNI+PD),其中PI是必要标签和必要标签规则的交集,NI是禁止标签和禁止标签规则的交集,RPI是必要标签和禁止标签规则的交集,RNI是禁止标签和必要标签规则的交集,PD是必要标签规则减必要标签。
依据一些实施例,当最佳评分的节点不完全与所有输入的标签相对应时,还从其余的节点中选出对应剩余标签的最佳节点的对应信息来输出。
综上,本发明提供一种问答系统,具有独特的评分方式,以输出较贴近的答案或进一步提问。
附图说明
图1是本发明一实施例的问答系统的方块示意图。
图2是本发明一实施例的树状模型的示意图。
具体实施方式
为了使本发明的目的、特征及效果更容易理解,以下提供用于详细说明本发明的实施例及附图。
请参阅图1,图1是本发明一实施例的问答系统100的方块示意图。问答系统100包括输入模块110、解构模块120、树状模型130、评分模块140、以及输出模块150。问答系统100可由如服务器、终端设备等计算装置实现,可远端或本地的供用户操作。
输入模块110提供一交互介面(如以网页形式、应用程式形式呈现),而可接收用户输入的提问信息。在此,提问信息是一段文字,以医学应用为例,可以是描述身体不适的症状。
解构模块120可对提问信息拆分成多个词语。举例而言,若用户输入「头痛、口渴、发热」的提问信息,将可拆分成三个词语,分别为「头痛」、「口渴」、及「发热」。在一些实施例中,解构模块120可以透过分词器(tokenizer)、词类标注系统(part of speech,POS)、命名实体识别(Named entity recognition,NER)等方式实现。
请参照图2,图2是本发明一实施例的树状模型130的示意图。树状模型130包括多个节点,此些节点包括一个根节点131以及自根节点131多层延伸的多个叶节点132。各个节点具有多个运算规则及对应的信息。所述信息可以是一个答案或是一个提问。有关运算规则的说明,请容后详述。本发明实施例不限制树状模型130的节点层数,末端的叶节点132至根节点131所经过的层数也不限制必然相同。
评分模块140将所述多个词语作为多个标签而由根节点131输入,依照所述多个运算规则计算多个指标,并依据所述多个指标计算出评分。
输出模块150和输入模块110共用同一个交互介面,或者输出模块150提供另一个交互介面,而将对应于较佳或最佳的评分的节点的信息输出。也就是说,输出模块150输出的信息可以是一个或多个。输出的信息可以是答案或是提问。因此,当用户提供的信息不够完整的时候,问答系统100会进一步提问,让用户透过输入模块110回答,再提供答案。
所述运算规则包括必要标签规则、禁止标签规则、及逻辑运算规则。根据运算规则可供计算出不同的指标,再根据这些指标综合评分。在一些实施例中,上述运算规则项目可视情形增减,不以此为限。
其中一个指标是有效度(validity)指标,是根据末端的叶节点132至根节点131之间经过的每一节点的必要标签规则、禁止标签规则及逻辑运算规则的计算结果累计而成。经过解构模块120所拆分出的词语是由评分模块140作为多个标签输入至树状模型130中。此些标签可以包括正面表述的标签(后称「必要标签」),例如出现的病徵;也可以包括负面表述的标签(后称「禁止标签」),例如没有出现的病徵。在对于某一节点进行计算时,若必要标签满足此节点的必要标签规则,亦即此节点的必要标签规则所列出的所有标示都出现在必要标签之中,则当前节点的计算结果为1。例如,此节点的必要标签规则包括「发烧」和「头痛」两个标示,如前述之例,此两个标示出现在使用者输入的三个词语当中,因此当前节点的计算结果为1。相似地,若禁止标签满足此节点的禁止标签规则,亦即此节点的禁止标签规则所列出的所有标示都出现在禁止标签之中,则当前节点的计算结果为0。其余情形则将必要标签代入所述逻辑运算规则作为计算结果。假如必要标签规则中的某一标示与必要标签相符则该标示设为1,假如必要标签规则中的标示与禁止标签相符则该标示设为0,其余情况则该标示设为0.5。依此可计算出每一个节点的计算结果。末端的叶节点132作为输出节点,累计自身到根节点131中经过的每个节点的计算结果。也就是说,每一个输出节点都会计算出一个有效度指标,代表的含意是输出节点的对应信息的可信度。
所述逻辑计算规则除了包括前述标示之外,还包括一个逻辑符。逻辑符可以包括但不限于与(AND)逻辑、或(OR)逻辑、非(NOT)逻辑等。所述逻辑计算规则是指一个邏輯符連結二个表达式,表达式可以为单独的标示,或者由另一个或更多的逻辑符连接多个标示所构成。例如:A AND B;C OR(A AND B)。
另一个指标是信心值(confidence)指标,和前述有效度指标相似,同样是根据末端的叶节点132至根节点131之间经过的每一节点的必要标签规则、禁止标签规则及逻辑运算规则的计算结果累计而成。对于满足必要标签规则和满足禁止标签规则的计算结果的判断也是和有效度指标相同的。也就是说,若必要标签满足此节点的必要标签规则,亦即此节点的必要标签规则所列出的所有标示都出现在必要标签之中,则当前节点的计算结果为1;若禁止标签满足此节点的禁止标签规则,亦即此节点的禁止标签规则所列出的所有标示都出现在禁止标签之中,则当前节点的计算结果为0。和有效度指标不同的是,其余情形是将禁止标签代入所述逻辑运算规则作为计算结果。依此可计算出每一个节点的计算结果。末端的叶节点132作为输出节点,累计自身到根节点131中经过的每个节点的计算结果。也就是说,每一个输出节点都会计算出一个信心值指标,代表的含意是输出节点的有效度指标的可信度。
还有一个指标是精准度(precision)指标,有别于前述有效度指标和信心值指标是根据逻辑运算规则来计算得计算结果,精准度指标的计算会因节点的逻辑符类型而有所不同。精准度指标是根据末端的叶节点132至根节点131之间经过的每一节点的逻辑运算规则的计算结果累计而成。若当前节点的逻辑符是反逻辑,则将上一层节点的累计结果转为负数,作为当前节点的计算结果。若当前节点的逻辑符是或逻辑时,选择所连结到的上一层的多个节点的累计结果中的最大值作为当前节点的计算结果。对于其他的逻辑符,则是将上一层节点累计结果和当前节点的标示的数量相除,作为当前节点的计算结果。以前述的例子而言,标示数量为三,则将上一层节点累计结果除以三。因此,每一个输出节点都会计算出一个精准度指标,代表的含意是输出节点的信息的精准度。若输出节点是通过较多的节点分支,则较不精准。
再一个指标是召回率(recall)指标。召回率指标的计算式为(PI+NI)/(PI+NI+RPI+RNI+PD),其中PI是必要标签和必要标签规则中的标示的交集,NI是禁止标签和禁止标签规则中的标示的交集,RPI是必要标签和禁止标签规则中的标示的交集,RNI是禁止标签和必要标签规则中的标示的交集,PD是必要标签规则中的标示减必要标签。因此,每一个输出节点都会计算出一个召回率指标,所代表的含意是输出节点至根节点131的路径对于标签的满足程度。
评分模块140最终会将上述有效度指标、信心值指标、精准度指标、及召回率指标综合成一分数。在一实施例中,所综合的分数是将此些指标相乘。依据综合出的分数予以排序,可获得最佳的一个节点所对应的信息,或较佳的几个节点所对应的信息,作为输出。在一些实施例中,输出的结果可以是复合的输出。当最佳评分的节点不完全与所有输入的标签相对应时,还从其余的节点中选出对应剩余标签的最佳节点的对应信息来输出。举例来说,若输入树状模型130的标签是A、B、C、D四项,最后获得的输出节点分别对应的信息是R1~Rn,n为输出节点数量。其中最佳的信息是R1,但R1仅与A、B、C相应。而R1~Rn中其余的信息中,与D相关的最佳信息Ri将会与R1构成一个复合输出。在一些实施例中,R2~Rn中对应节点的分数分別和R1的分数合并计算,计算结果中最佳的对应信息R1’会与R1构成一个复合输出。所述合并计算的计算式是((validity1+validity2)*(confidence1+confidence2)*(recall1+recall2)*(precision1+precision2))/2,其中validity1、confidence1、recall1、和precision1分别是R1对应节点的有效度指标、信心值指标、召回率指标、和精准度指标;validity2、confidence2、recall2、和precision2分别是R2~Rn中的其中一个对应节点的有效度指标、信心值指标、召回率指标、和精准度指标。
在一些实施例中,所述复合输出可以包括二个以上的节点所对应的信息,不以上述二个为限。
在一些实施例中,合并计算的方式不以上述计算平均的方式为限,还可以有其他方式。例如,对第一个结果设定较高的权重,其余的结果的权重依次递减。
综上,本发明提供一种问答系统,具有独特的评分方式,以输出较贴近的答案或进一步提问。
虽然本发明的技术内容已经以较佳实施例揭露如上,然其并非用以限定本发明,任何熟习此技艺者,在不脱离本发明的精神所作些许的更动与润饰,皆应涵盖于本发明的范畴内,因此本发明的专利保护范围当以前列的权利范围所界定者为准。

Claims (9)

1.一种问答系统,其特征在于,包括:
一输入模块,接收一用户输入的一提问信息;
一解构模块,拆分所述提问信息成多个词语;
一树状模型,包括多个节点,所述多个节点包括一根节点及自所述根节点多层延伸的多个叶节点,各个所述节点具有多个运算规则及一信息;
一评分模块,将所述多个词语作为多个标签而由所述根节点输入,依照所述多个运算规则计算多个指标,并依据所述多个指标计算一评分;以及
一输出模块,将对应于较佳或最佳的所述评分的所述节点的所述信息输出。
2.根据权利要求1所述的问答系统,其特征在于,所述多个运算规则包括一必要标签规则。
3.根据权利要求2所述的问答系统,其特征在于,所述多个运算规则包括一禁止标签规则。
4.根据权利要求3所述的问答系统,其特征在于,所述多个运算规则包括一逻辑运算规则,所述逻辑运算规则包括多个标示及一逻辑符。
5.根据权利要求4所述的问答系统,其特征在于,所述多个指标包括一有效度(validity)指标,其中所述标签包括至少一必要标签或/及至少一禁止标签,所述有效度指标根据末端的所述叶节点至所述根节点之间经过的每一所述节点的所述必要标签规则、所述禁止标签规则及所述逻辑运算规则的计算结果累计而成,若所述必要标签满足所述必要标签规则,则当前所述节点的所述计算结果为1,若所述禁止标签满足所述禁止标签规则,则当前所述节点的所述计算结果为0,其余情形则将所述必要标签代入所述逻辑运算规则作为所述计算结果。
6.根据权利要求4所述的问答系统,其特征在于,所述多个指标包括一信心值(confidence)指标,其中所述标签包括至少一必要标签或/及至少一禁止标签,所述信心值指标根据末端的所述叶节点至所述根节点之间经过的每一所述节点的所述必要标签规则、所述禁止标签规则及所述逻辑运算规则的计算结果累计而成,若所述必要标签满足所述必要标签规则,则当前所述节点的所述计算结果为1,若所述禁止标签满足所述禁止标签规则,则当前所述节点的所述计算结果为0,其余情形则将所述禁止标签代入所述逻辑运算规则作为所述计算结果。
7.根据权利要求4所述的问答系统,其特征在于,所述多个指标包括一精准度(precision)指标,系根据末端的所述叶节点至所述根节点之间经过的每一所述节点的所述逻辑运算规则的计算结果累计而成,所述逻辑符是一反(not)逻辑时,将上一层所述节点累计结果转为一负数作为当前所述节点的所述计算结果,所述逻辑符是一或(or)逻辑时,选择上一层所述节点累计结果中的最大值作为当前所述节点的所述计算结果,所述逻辑符是其他逻辑时,将上一层所述节点累计结果和当前所述节点的所述多个标示的数量相除作为当前所述节点的所述计算结果。
8.根据权利要求3所述的问答系统,其特征在于,所述多个指标包括一召回率(recall)指标,其中所述标签包括至少一必要标签或/及至少一禁止标签,所述召回率指标是(PI+NI)/(PI+NI+RPI+RNI+PD),其中PI是所述至少一必要标签和所述必要标签规则的交集,NI是所述至少一禁止标签和所述禁止标签规则的交集,RPI是所述至少一必要标签和所述禁止标签规则的交集,RNI是所述至少一禁止标签和所述必要标签规则的交集,PD是所述必要标签规则减所述至少一必要标签。
9.根据权利要求1所述的问答系统,其特征在于,当最佳评分的所述节点不完全与所有输入的所述多个标签相对应时,还从其余的所述节点中选出对应剩余所述标签的最佳所述节点的对应的所述信息来输出。
CN201910650490.2A 2019-07-18 2019-07-18 问答系统 Pending CN112241449A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910650490.2A CN112241449A (zh) 2019-07-18 2019-07-18 问答系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910650490.2A CN112241449A (zh) 2019-07-18 2019-07-18 问答系统

Publications (1)

Publication Number Publication Date
CN112241449A true CN112241449A (zh) 2021-01-19

Family

ID=74168286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910650490.2A Pending CN112241449A (zh) 2019-07-18 2019-07-18 问答系统

Country Status (1)

Country Link
CN (1) CN112241449A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103221952A (zh) * 2010-09-24 2013-07-24 国际商业机器公司 词法答案类型置信度估计和应用
CN105279274A (zh) * 2015-10-30 2016-01-27 北京京东尚科信息技术有限公司 基于自然语义问答系统的答案合成与匹配的方法和系统
CN108959433A (zh) * 2018-06-11 2018-12-07 北京大学 一种从软件项目数据中提取知识图谱并问答的方法与系统
CN109101624A (zh) * 2018-08-13 2018-12-28 腾讯科技(深圳)有限公司 对话处理方法、装置、电子设备及存储介质
CN109858020A (zh) * 2018-12-29 2019-06-07 航天信息股份有限公司 一种基于语义图获取税务业务问题答案的方法及系统
CN109857846A (zh) * 2019-01-07 2019-06-07 阿里巴巴集团控股有限公司 用户问句与知识点的匹配方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103221952A (zh) * 2010-09-24 2013-07-24 国际商业机器公司 词法答案类型置信度估计和应用
CN105279274A (zh) * 2015-10-30 2016-01-27 北京京东尚科信息技术有限公司 基于自然语义问答系统的答案合成与匹配的方法和系统
CN108959433A (zh) * 2018-06-11 2018-12-07 北京大学 一种从软件项目数据中提取知识图谱并问答的方法与系统
CN109101624A (zh) * 2018-08-13 2018-12-28 腾讯科技(深圳)有限公司 对话处理方法、装置、电子设备及存储介质
CN109858020A (zh) * 2018-12-29 2019-06-07 航天信息股份有限公司 一种基于语义图获取税务业务问题答案的方法及系统
CN109857846A (zh) * 2019-01-07 2019-06-07 阿里巴巴集团控股有限公司 用户问句与知识点的匹配方法和装置

Similar Documents

Publication Publication Date Title
CN109522553B (zh) 命名实体的识别方法及装置
Vanhoutte The Gates of Hell: History and Definition of Digital| Humanities| Computing 1
CN110287480B (zh) 一种命名实体识别方法、装置、存储介质及终端设备
Popping Knowledge graphs and network text analysis
KR102116518B1 (ko) 기계 독해에 기초한 질의 응답 장치 및 이를 이용한 질의 응답 방법
CN110008472B (zh) 一种实体抽取的方法、装置、设备和计算机可读存储介质
CN106844341B (zh) 基于人工智能的新闻摘要提取方法及装置
JP2019504413A (ja) 絵文字を提案するためのシステムおよび方法
CN111222305A (zh) 一种信息结构化方法和装置
CN103703459A (zh) 基于字符变换和无监督网络数据的文本消息规格化方法和系统
CN115151903A (zh) 文本抽取方法及装置、计算机可读存储介质以及电子设备
CN112800239B (zh) 意图识别模型训练方法、意图识别方法及装置
CN112464659A (zh) 基于知识图谱的辅助教学方法、装置、设备及存储介质
CN113590824A (zh) 因果事理图谱的构建方法、装置及相关设备
Quijada et al. Hmc at semeval-2016 task 11: Identifying complex words using depth-limited decision trees
CN113722441B (zh) 一种相似文本的生成方法、装置、设备及存储介质
JPWO2019150583A1 (ja) 質問群抽出方法、質問群抽出装置および質問群抽出プログラム
CN112818693A (zh) 一种电子元器件型号词的自动提取方法及系统
CN112241449A (zh) 问答系统
BE1022627B1 (nl) Methode en apparaat voor het automatisch genereren van feedback
CN110909174A (zh) 一种基于知识图谱的简单问答中实体链接的改进方法
CN113722477B (zh) 基于多任务学习的网民情绪识别方法、系统及电子设备
CN115577109A (zh) 文本分类方法、装置、电子设备及存储介质
CN109657013A (zh) 一种系统化生成标签的方法和系统
CN112434518B (zh) 一种文本报告打分方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210119