CN110309285B - 自动问答方法、装置、电子设备和存储介质 - Google Patents

自动问答方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN110309285B
CN110309285B CN201910584837.8A CN201910584837A CN110309285B CN 110309285 B CN110309285 B CN 110309285B CN 201910584837 A CN201910584837 A CN 201910584837A CN 110309285 B CN110309285 B CN 110309285B
Authority
CN
China
Prior art keywords
character
classified
probability
overlapping
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910584837.8A
Other languages
English (en)
Other versions
CN110309285A (zh
Inventor
郭建廷
岳聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mobvoi Information Technology Co Ltd
Original Assignee
Mobvoi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mobvoi Information Technology Co Ltd filed Critical Mobvoi Information Technology Co Ltd
Priority to CN201910584837.8A priority Critical patent/CN110309285B/zh
Publication of CN110309285A publication Critical patent/CN110309285A/zh
Application granted granted Critical
Publication of CN110309285B publication Critical patent/CN110309285B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种自动问答方法、装置、电子设备和存储介质。通过预训练的分类模型和分类规则判断待分类问题是否属于叠字类问题,进而在叠字信息数据库中获取叠字类问题的答案。由此,可以较为准确地确定识别叠字类问题,提高获取叠字类问题答案的准确性和减少获取答案的时间。

Description

自动问答方法、装置、电子设备和存储介质
技术领域
本发明涉及问答系统领域,尤其涉及一种自动问答方法、装置、电子设备和存储介质。
背景技术
叠字是汉字中以多个完全相同的字组成的一类字,叠字中重复的汉字为重复单字,叠字中重复单字的个数为重复次数。例如,“森”是一个叠字,它的重复单字是“木”,重复次数是“三”。叠字类问题是能够从问题中解析出重复单字以及重复单字的重复次数,并且问题的答案是一个叠字的问题。例如,“三个木是什么字?”、“四个火焰的火组成的字是什么?”以及“众是由几个人组成?”等。
问答系统(Question Answer,QA)是信息检索系统的一种高级形式,能够用准确、简洁的自然语言回答用户用自然语言提出的问题。
在现有的问答系统中,由于对于识别叠字类问题的算法设置比较简单,使得系统并不能较为准确地、快速地识别叠字类问题。如果不是叠字类的问题被错误识别为叠字类问题,则会进行之后解析问题的流程,可能会造成回答错误或者使问答系统给出回答的时间变长。
发明内容
有鉴于此,本发明的目的在于提供一种自动问答方法、装置、电子设备和存储介质,可以较为准确地确定识别叠字类问题,提高获取叠字类问题答案的准确性和减少获取答案的时间。
第一方面,本发明实施例公开了一种自动问答方法,所述方法包括:
获取待分类问题;
通过预训练的分类模型和分类规则确定所述待分类问题的类别,所述类别包括叠字类问题和非叠字类问题;以及
响应于所述待分类问题的类别为叠字类问题,在叠字信息数据库中获取所述叠字类问题的答案;
其中,所述分类模型的训练过程为:
获取第一训练集,所述第一训练集包括多个叠字类问题和对应的第一标签;
获取第二训练集,所述第二训练集包括多个非叠字类问题和对应的第二标签;以及
根据所述第一训练集和所述第二训练集按照机器学习算法训练获取分类模型。
优选地,所述分类规则包括待分类问题的文本信息的最大字数阈值、最小字数阈值、相同字符的重复次数、实体人名包含状态和英文字母包含状态中的至少一种。
优选地,所述机器学习算法为最大熵算法、支持向量机算法或者神经网络分类算法。
优选地,所述叠字信息数据库包括多个叠字的信息,所述叠字的信息包括重复次数、重复单字和目标叠字。
优选地,根据所述分类模型和分类规则确定待分类问题的类别包括:
根据所述分类规则对所述待分类问题进行筛选;以及
根据所述分类模型对筛选后的待分类问题分类确定所述待分类问题的类别。
优选地,根据所述分类模型和分类规则确定待分类问题的类别包括:
根据所述分类模型对待分类问题分类确定所述待分类问题的类别;以及
根据所述分类规则对分类后的待分类问题进行筛选。
优选地,根据所述分类模型和分类规则确定待分类问题的类别包括:
根据分类模型获取待分类问题的第一概率,所述第一概率为所述待分类问题为叠字类问题的概率;
根据分类规则获取待分类问题的第二概率,所述第二概率为所述待分类问题满足分类规则的概率;以及
根据所述第一概率和第二概率确定所述待分类问题的类别。
第二方面,本发明实施例公开了一种自动问答装置,所述装置包括:
问题获取单元,用于获取待分类问题;
类别确定单元,用于通过预训练的分类模型和分类规则确定所述待分类问题的类别,所述类别包括叠字类问题和非叠字类问题;以及
答案确定单元,用于响应于所述待分类问题的类别为叠字类问题,在叠字信息数据库中获取所述叠字类问题的答案;
其中,所述分类模型包括:
第一训练集模块,用于获取第一训练集,所述第一训练集包括多个叠字类问题;
第二训练集模块,用于获取第二训练集,所述第二训练集包括多个非叠字类问题;
模型获取模块,用于根据所述第一训练集和所述第二训练集按照预定算法获取分类模型。
第三方面,本发明实施例公开了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。
第四方面,本发明实施例公开了一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。
本发明实施例的技术方案通过预训练的分类模型和分类规则判断待分类问题是否属于叠字类问题,进而在叠字信息数据库中获取叠字类问题的答案。由此,可以较为准确地确定识别叠字类问题,提高获取叠字类问题答案的准确性和减少获取答案的时间。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明实施例的自动问答方法的流程图;
图2是本发明实施例的获取预训练的分类模型的流程图;
图3是本发明一种实施例的自动问答方法的流程图;
图4是本发明另一种实施例的自动问答方法的流程图;
图5是本发明又一种实施例的自动问答方法的流程图;
图6是本发明实施例的自动问答装置的结构示意图;
图7是本发明实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
图1是本发明实施例的自动问答方法的流程图。如图1所示,自动问答方法包括如下步骤:
步骤S110、获取待分类问题。
在本实施例中,所述待分类问题为问题的文本信息,例如:“三个木是什么字?”、“两个人的体重之和大约为多少?”、“有几人?”以及“导演王晶拍过多少部电影?”等。
步骤S120、通过预训练的分类模型和分类规则确定所述待分类问题的类别。
在本实施例中,所述类别包括叠字类问题和非叠字类问题。
在本实施例中,所述分类规则包括待分类问题的文本信息的最大字数阈值、最小字数阈值、相同字符的重复次数、实体人名包含状态和英文字母包含状态中的至少一种。
在本实施例中,最大字数阈值用于限定待分类问题的文本信息中的字数的最大值。响应于所述待分类问题的文本信息中的字数小于或等于所述最大阈值字数,则表征该待分类问题满足该分类规则。响应于所述待分类问题的文本信息中的字数大于所述最大阈值字数,则表征该待分类问题不满足该分类规则。由此,可以减少由于待分类问题的字数过多可能造成的分类结果不准确、获取答案速度慢等情况的发生。
在一个可选的实现方式中,最大阈值字数可以为25。
在本实施例中,最小字数阈值用于限定待分类问题的文本信息中的字数的最小值。响应于所述待分类问题的文本信息中的字数大于或等于所述最小阈值字数,则表征该待分类问题满足该分类规则。响应于所述待分类问题的文本信息中的字数小于所述最小阈值字数,则表征该待分类问题不满足该分类规则。由此,可以减少由于待分类问题的字数过少使得待分类问题的特征过少可能造成的分类结果不准确等情况的发生。
在一个可选的实现方式中,最小阈值字数可以为5。
在本实施例中,相同字符的重复次数用于限定待分类问题的文本信息中相同字符的重复次数。响应于所述相同字符的重复次数小于或等于预定阈值,则表征该待分类问题满足该分类规则。响应于所述相同字符的重复次数大于预定阈值,则表征该待分类问题不满足该分类规则。
在本实施例中,实体人名包含状态用于判断待分类问题的文本信息中是否包含实体人名,响应于所述待分类问题的文本信息中不包含实体人名,则表征该待分类问题满足该分类规则。响应于所述待分类问题的文本信息中包含实体人名,则表征该待分类问题不满足该分类规则。
在本实施例中,英文字母包含状态用于判断待分类问题的文本信息中是否包含英文字母,响应于所述待分类问题的文本信息中不包含英文字母,则表征该待分类问题满足该分类规则。响应于所述待分类问题的文本信息中包含英文字母,则表征该待分类问题不满足该分类规则。
由此,可以通过分类规则对待分类问题的限定,以提高提高获取叠字类问题答案的准确性和减少获取答案的时间。
步骤S130、响应于所述待分类问题的类别为叠字类问题,在叠字信息数据库中获取所述叠字类问题的答案。
在本实施例中,预先获取叠字信息数据库,所述叠字信息数据库包括多个叠字的信息,所述叠字的信息包括重复次数、重复单字和目标叠字。响应于所述待分类问题的类别为叠字类问题,在叠字信息数据库中获取所述叠字类问题的答案。
本发明实施例通过预训练的分类模型和分类规则判断待分类问题是否属于叠字类问题,进而在叠字信息数据库中获取叠字类问题的答案。由此,可以较为准确地确定识别叠字类问题,提高获取叠字类问题答案的准确性和减少获取答案的时间。
图2是本发明实施例的获取预训练的分类模型的流程图。如图2所示,获取预训练的分类模型包括如下步骤:
步骤S210、获取第一训练集,所述第一训练集包括多个叠字类问题和对应的第一标签。
具体地,获取第一训练集的步骤如下:
步骤S211、预先从字典类的网站中获取多个叠字的信息,组成叠字信息数据库。所述叠字的信息包括重复次数、重复单字和目标叠字。例如,“目标叠字为森,重复单字为木,重复次数为三”、“目标叠字为从,重复单字为人,重复次数为二”、“目标叠字为淼,重复单字为水,重复次数为三”以及“目标叠字为燚,重复单字为火,重复次数为四”等。
步骤S212、获取多个叠字类问题的模板,例如,“N个X是什么字?”、“N个X组成的字是什么?”、“N个XY的X念什么?”以及“M是由几个X组成?”等。其中,N为重复次数,X为重复单字,M为目标叠字。
步骤S213、根据上述获取的叠字类问题模板和叠字信息数据库生成多个叠字类问题。例如,“三个木是什么字?”、“两个人组成的字是什么?”、“四个火焰的火念什么?”以及“淼是由几个水组成?”等。
步骤S214、将上述获取的叠字类问题标记为第一标签,所述第一标签表征该问题为叠字类问题。
步骤S215、将上述叠字类问题和对应的第一标签组成第一训练集作为分类模型的正例。
由此,基于上述步骤即可获取大量的叠字类问题作为训练样本。
步骤S220、获取第二训练集,所述第二训练集包括多个非叠字类问题和对应的第二标签。
在一个可选的实现方式中,可以在问答系统的日志记录中获取多个非叠字类问题,并将所述多个非叠字类问题标记为第二标签。将上述非叠字类问题和对应的第二标签组成第二训练集作为分类模型的负例。
步骤S230、根据所述第一训练集和所述第二训练集按照机器学习算法训练获取分类模型。
在本实施例中,所述机器学习算法可以是最大熵算法、支持向量机算法或者神经网络分类算法等。在本实施例中,以机器学习算法为最大熵算法为例进行说明。
进一步地,最大熵原理是选择随机变量统计特性最符合客观情况的准则,也即,在已知部分知识的前提下,关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断,由于其对未知的情况下不做任何主观的假设,使得概率分布是均匀的,预测的风险性较小。支持向量机算法是一类按监督学习方式对数据进行二元分类的广义线性分类器,是一个具有稀疏性和稳健性的分类器,可以解决小样本下机器学习的问题,可以解决高维、非线性问题。神经网络是由大量的、简单的处理单元广泛地互相连接而形成的复杂网络系统,反映了人脑功能的许多基本特征,是一个高度复杂的非线性动力学习系统,其具有大规模并行、分布式存储和处理、自组织、自适应和自学能力,特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题,分类准确率高,并行处理能力强,分布式存储和学习能力强,鲁棒性较强,不易受噪声影响,被广泛地应用在各个领域。本发明列举出了三种算法模型,应理解,本发明实施例的分类模型也可以使用其它算法模型,例如贝叶斯分类模型和决策树分类模型等。
由此,即可获取分类模型,进而根据所述分类模型和分类规则确定叠字类问题的答案。具体地,对于分类模型和分类规则的使用,可以按照不同的方法步骤进行。进一步地,图3是本发明一种实施例的自动问答方法的流程图。如图3所示,在本实施例中,通过预训练的分类模型和分类规则确定所述待分类问题的类别包括如下步骤:
步骤S310、获取待分类问题。
在本实施例中,所述待分类问题为待分类问题的文本信息。
步骤S320、判断所述待分类问题是否满足分类规则。
在本实施例中,根据所述分类规则确定待分类问题的满足情况,所述分类规则包括待分类问题的文本信息的最大字数阈值、最小字数阈值、相同字符的重复次数、实体人名包含状态和英文字母包含状态中的至少一种。
响应于所述待分类问题满足分类规则,则进入步骤S330,响应于所述待分类问题不满足分类规则,则进入步骤S350。
具体地,例如,对于问题A“导演王晶拍过多少部电影?”,其中包含实体人名“王晶”,因此,问题A不符合分类规则,进入步骤S350,结束的问题A的进一步处理。
又例如,对于问题B“有几个人?”,其中,问题B包含四个字,小于预定阈值,因此,问题B也不符合分类规则,进入步骤S350,结束的问题A的进一步处理。
再例如,对于问题C“三个木是什么字?”,其中,问题C中没有实体人名,且字数为七,大于预定阈值,因此,问题C符合分类规则,进入步骤S330。
由此,可以通过分类规则对待分类问题进行筛选,对于不符合分类规则的问题不进行类别的判断,可以减少后续步骤的计算量。
步骤S330、根据分类模型判断待分类问题是否是叠字类问题。
在本实施例中,根据预训练的分类模型获取待分类问题的类别。响应于所述待分类问题的类别为叠字类问题,进入步骤S340。响应于所述待分类问题的类别为非叠字类问题,进入步骤S350,结束对该问题的进一步处理。
进一步地,所述分类模型的输出为所述待分类问题是叠字类问题的概率和所述待分类问题不是叠字类问题的概率。
进一步地,根据所述分类模型确定所述待分类问题的类别包括:
响应于所述待分类问题是叠字类问题的概率大于预定阈值,将所述待分类问题的类别确定为叠字类问题;以及
响应于所述待分类问题是叠字类问题的概率小于预定阈值,将所述待分类问题的类别确定为非叠字类问题。
步骤S340、在叠字信息数据库中获取叠字类问题的答案。
在本实施例中,通过获取叠字类问题中的叠字信息,根据叠字信息,在所述叠字信息数据库中获取相应的答案。
其中,所述叠字信息包括重复次数、重复单字和目标叠字。
步骤S350、结束。
本发明实施例通过分类规则对待分类问题进行筛选,进而通过分类模型对筛选后的待分类问题进行分类以确定类型。由此,可以通过分类规则对不满足规则的待分类问题结束分类,可以减少分类模型的工作量,提高获取叠字类问题答案的准确性和减少获取答案的时间。
图4是本发明另一种实施例的自动问答方法的流程图。如图4所示,在本实施例中,通过预训练的分类模型和分类规则确定所述待分类问题的类别包括如下步骤:
步骤S410、获取待分类问题。
在本实施例中,所述待分类问题为待分类问题的文本信息。
步骤S420、根据分类模型判断待分类问题是否是叠字类问题。
在本实施例中,根据预训练的分类模型获取待分类问题的类别。响应于所述待分类问题的类别为叠字类问题,进入步骤S440。响应于所述待分类问题的类别为非叠字类问题,进入步骤S450,结束对该问题的进一步处理。
进一步地,所述分类模型的输出为所述待分类问题是叠字类问题的概率和所述待分类问题不是叠字类问题的概率。
进一步地,根据所述分类模型确定所述待分类问题的类别包括:
响应于所述待分类问题是叠字类问题的概率大于预定阈值,将所述待分类问题的类别确定为叠字类问题;以及
响应于所述待分类问题是叠字类问题的概率小于预定阈值,将所述待分类问题的类别确定为非叠字类问题。
步骤S430、判断所述待分类问题是否满足分类规则。
在本实施例中,根据所述分类规则确定待分类问题的满足情况,所述分类规则包括待分类问题的文本信息的最大字数阈值、最小字数阈值、相同字符的重复次数、实体人名包含状态和英文字母包含状态中的至少一种。
响应于所述待分类问题满足分类规则,则进入步骤S440,响应于所述待分类问题不满足分类规则,则进入步骤S450。
具体地,例如,对于问题A“导演王晶拍过多少部电影?”,其中包含实体人名“王晶”,因此,问题A不符合分类规则,进入步骤S450,结束的问题A的进一步处理。
又例如,对于问题B“有几个人?”,其中,问题B包含四个字,小于预定阈值,因此,问题B也不符合分类规则,进入步骤S450,结束的问题A的进一步处理。
再例如,对于问题C“三个木是什么字?”,其中,问题C中没有实体人名,且字数为七,大于预定阈值,因此,问题C符合分类规则,进入步骤S440。
由此,可以通过分类规则对分类后的待分类问题进行筛选,进而提高获取叠字类问题答案的准确性。
步骤S440、在叠字信息数据库中获取叠字类问题的答案。
在本实施例中,通过获取叠字类问题中的叠字信息,根据叠字信息,在所述叠字信息数据库中获取相应的答案。
其中,所述叠字信息包括重复次数、重复单字和目标叠字。
步骤S450、结束。
本发明实施例通过分类模型对待分类问题进行筛选,进而通过分类规则对分类后的待分类问题进行筛选。由此,可以使得分类规则仅对叠字类问题进行筛选,可以减少分类规则的工作量,提高获取叠字类问题答案的准确性和减少获取答案的时间。
图5是本发明又一种实施例的自动问答方法的流程图。如图5所示,在本实施例中,通过预训练的分类模型和分类规则确定所述待分类问题的类别包括如下步骤:
步骤S510、获取待分类问题。
在本实施例中,所述待分类问题为待分类问题的文本信息。
步骤S520、根据分类模型获取待分类问题的第一概率。
在本实施例中,所述第一概率为所述待分类问题为叠字类问题的概率P1,其中0≤P1≤1。
步骤S530、根据分类规则获取待分类问题的第二概率。
在本实施例中,所述第二概率为所述待分类问题满足分类规则的概率P2。
进一步地,响应于所述待分类问题满足分类规则,P2=1。响应于所述待分类问题不满足分类规则,P2=0。
应理解,第二概率的值并不限于上述方式,可以根据分类规则的具体内容确定第二概率的值。例如,如果分类规则中包含多个条件(例如所述分类规则包括待分类问题的文本信息的最大字数阈值、最小字数阈值、相同字符的重复次数、实体人名包含状态和英文字母包含状态等),确定第二概率的方法可以为:
Figure BDA0002114204140000111
其中,N为分类规则中设置条件的总数,M为待分类问题满足条件的个数,P2为第二概率。
步骤S540、根据所述第一概率和第二概率判断所述待分类问题的类别。
具体地,根据所述第一概率和第二概率判断所述待分类问题的类别可以包括如下步骤:
步骤S541、获取第一权重和第二权重。
其中,所述第一权重W1为第一概率的权重,所述第二权重W2为第二概率的权重。
可选的,所述第一权重W1为0.8,所述第二权重W2为0.2。应理解,第一权重W1和第二权重W2的值可以根据实际情况确定。
步骤S542、根据所述第一权重和第二权重获取类别概率。
在本实施例中,所述类别概率为待分类问题的类别为叠字类问题的概率。具体地,类别概率计算公式如下:
P=W1*P1+W2*P2
其中,P为待分类问题的类别为叠字类问题的概率。
步骤S543、根据所述类别概率确定待分类问题的类别。
在本实施例中,响应于所述类别概率的值大于预定阈值,将所述待分类问题的类别确定为叠字类问题。响应于所述类别概率的值小于预定阈值,将所述待分类问题的类别确定为非叠字类问题。
步骤S550、在叠字信息数据库中获取叠字类问题的答案。
在本实施例中,通过获取叠字类问题中的叠字信息,根据叠字信息,在所述叠字信息数据库中获取相应的答案。
其中,所述叠字信息包括重复次数、重复单字和目标叠字。
步骤S560、结束。
应理解,步骤S520和步骤S530不区分执行顺序,可以是顺序执行,也可以是先后执行。
本发明实施例通过将分类模型和分类规则获取的概率加权,以获取待分类问题的类别为叠字类问题的概率,进而根据概率确定类别。由此,可以较为准确地确定识别叠字类问题,提高获取叠字类问题答案的准确性和减少获取答案的时间。
应理解,本发明实施例对于分类模型和分类规则的使用,并不限于上述方式,也可以按照其它方法步骤进行。
图6是本发明实施例的自动问答装置的结构示意图。如图6所示,叠字类问题确定答案的装置包括问题获取单元61、类别确定单元62和答案确定单元63。其中,问题获取单元61用于获取待分类问题。类别确定单元62用于通过预训练的分类模型和分类规则确定所述待分类问题的类别,所述类别包括叠字类问题和非叠字类问题,所述分类规则为待分类问题的文本信息中不包含实体人名,且文本信息的长度大于预定阙值。答案确定单元63用于响应于所述待分类问题的类别为叠字类问题,在叠字信息数据库中获取所述叠字类问题的答案。
在本实施例中,所述分类模型的训练过程为:
获取第一训练集,所述第一训练集包括多个叠字类问题和对应的第一标签;
获取第二训练集,所述第二训练集包括多个非叠字类问题和对应的第二标签;以及
根据所述第一训练集和所述第二训练集按照机器学习算法训练获取分类模型。
本发明实施例通过预训练的分类模型和分类规则判断待分类问题是否属于叠字类问题,进而在叠字信息数据库中获取叠字类问题的答案。由此,可以较为准确地确定识别叠字类问题,提高获取叠字类问题答案的准确性和减少获取答案的时间。
图7是本发明实施例的电子设备的示意图。图7所示的电子设备为自动问答装置,其包括通用的计算机硬件结构,其至少包括处理器71和存储器72。处理器71和存储器72通过总线。连接。存储器72适于存储处理器71可执行的指令或程序。处理器71可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器71通过执行存储器72所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线73将上述多个组件连接在一起,同时将上述组件连接到显示控制器74和显示装置以及输入/输出(I/O)装置75。输入/输出(I/O)装置75可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置75通过输入/输出(I/O)控制器76与系统相连。
如本领域技术人员将意识到的,本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此,本发明实施例的各个方面可以采取如下形式:完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外,本发明实施例的各个方面可以采取如下形式:在一个或多个计算机可读介质中实现的计算机程序产品,计算机可读介质具有在其上实现的计算机可读程序代码。
可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置,或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项:具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中,计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。
计算机可读信号介质可以包括传播的数据信号,所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式,包括但不限于:电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质;不是计算机可读存储介质,并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。
可以使用包括但不限于无线、有线、光纤电缆、RF等或前述的任意适当组合的任意合适的介质来传送实现在计算机可读介质上的程序代码。
用于执行针对本发明实施例各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写,所述编程语言包括:面向对象的编程语言如Java、Smalltalk,C++等;以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行:部分地在用户计算机上且部分地在远程计算机上执行;或者完全地在远程计算机或服务器上执行。在后一种情况下,可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机,或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。
上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图图例和/或框图描述了本发明实施例的各个方面。将要理解的是,流程图图例和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器,以产生机器,使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。
还可以将这些计算机程序指令存储在可以指导计算机、其它可编程数据处理设备或其它装置以特定方式运行的计算机可读介质中,使得在计算机可读介质中存储的指令产生包括实现在流程图和/或框图块或块中指定的功能/动作的指令的制品。
计算机程序指令还可以被加载至计算机、其它可编程数据处理设备或其它装置上,以便在计算机、其它可编程设备或其它装置上执行一系列可操作步骤来产生计算机实现的过程,使得在计算机或其它可编程设备上执行的指令提供用于实现在流程图和/或框图块或块中指定的功能/动作的过程。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种自动问答方法,其特征在于,所述方法包括:
获取待分类问题;
通过预训练的分类模型和分类规则确定所述待分类问题的类别,所述类别包括叠字类问题和非叠字类问题;以及
响应于所述待分类问题的类别为叠字类问题,在叠字信息数据库中获取所述叠字类问题的答案;
其中,所述分类模型的训练过程为:
获取第一训练集,所述第一训练集包括多个叠字类问题和对应的第一标签;
获取第二训练集,所述第二训练集包括多个非叠字类问题和对应的第二标签;以及
根据所述第一训练集和所述第二训练集按照机器学习算法训练获取分类模型;
其中,根据所述分类模型和分类规则确定待分类问题的类别包括:
根据分类模型获取待分类问题的第一概率,所述第一概率为所述待分类问题为叠字类问题的概率;
根据分类规则获取待分类问题的第二概率,所述第二概率为所述待分类问题满足分类规则的概率;
根据所述第一概率、第二概率和预先设置的第一权重和第二权重计算类别概率,所述类别概率用于表征所述待分类问题为叠字类问题的概率;以及
响应于所述类别概率的值大于预定阈值,将所述待分类问题的类别确定为叠字类问题。
2.根据权利要求1所述的方法,其特征在于,所述分类规则包括待分类问题的文本信息的最大字数阈值、最小字数阈值、相同字符的重复次数、实体人名包含状态和英文字母包含状态中的至少一种。
3.根据权利要求1所述的方法,其特征在于,所述机器学习算法为最大熵算法、支持向量机算法或者神经网络分类算法。
4.根据权利要求1所述的方法,其特征在于,所述叠字信息数据库包括多个叠字的信息,所述叠字的信息包括重复次数、重复单字和目标叠字。
5.一种自动问答装置,其特征在于,所述装置包括:
问题获取单元,用于获取待分类问题;
类别确定单元,用于通过预训练的分类模型和分类规则确定所述待分类问题的类别,所述类别包括叠字类问题和非叠字类问题;以及
答案确定单元,用于响应于所述待分类问题的类别为叠字类问题,在叠字信息数据库中获取所述叠字类问题的答案;
其中,所述分类模型的训练过程为:
获取第一训练集,所述第一训练集包括多个叠字类问题和对应的第一标签;
获取第二训练集,所述第二训练集包括多个非叠字类问题和对应的第二标签;以及
根据所述第一训练集和所述第二训练集按照机器学习算法训练获取分类模型;
其中,所述类别确定单元用于:
根据分类模型获取待分类问题的第一概率,所述第一概率为所述待分类问题为叠字类问题的概率;
根据分类规则获取待分类问题的第二概率,所述第二概率为所述待分类问题满足分类规则的概率;
根据所述第一概率、第二概率和预先设置的第一权重和第二权重计算类别概率,所述类别概率用于表征所述待分类问题为叠字类问题的概率;以及
响应于所述类别概率的值大于预定阈值,将所述待分类问题的类别确定为叠字类问题。
6.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-4中任一项所述的方法。
7.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-4中任一项所述的方法。
CN201910584837.8A 2019-07-01 2019-07-01 自动问答方法、装置、电子设备和存储介质 Active CN110309285B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910584837.8A CN110309285B (zh) 2019-07-01 2019-07-01 自动问答方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910584837.8A CN110309285B (zh) 2019-07-01 2019-07-01 自动问答方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN110309285A CN110309285A (zh) 2019-10-08
CN110309285B true CN110309285B (zh) 2022-03-29

Family

ID=68078857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910584837.8A Active CN110309285B (zh) 2019-07-01 2019-07-01 自动问答方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN110309285B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696524B (zh) * 2020-04-21 2023-02-14 厦门快商通科技股份有限公司 一种叠字语音识别方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073736A (zh) * 2011-01-20 2011-05-25 百度在线网络技术(北京)有限公司 疑难字搜索方法及搜索系统
CN109783622A (zh) * 2018-12-20 2019-05-21 出门问问信息科技有限公司 一种基于问题分类确定问题答案方法、装置及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9015031B2 (en) * 2011-08-04 2015-04-21 International Business Machines Corporation Predicting lexical answer types in open domain question and answering (QA) systems

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073736A (zh) * 2011-01-20 2011-05-25 百度在线网络技术(北京)有限公司 疑难字搜索方法及搜索系统
CN109783622A (zh) * 2018-12-20 2019-05-21 出门问问信息科技有限公司 一种基于问题分类确定问题答案方法、装置及电子设备

Also Published As

Publication number Publication date
CN110309285A (zh) 2019-10-08

Similar Documents

Publication Publication Date Title
CN108737406B (zh) 一种异常流量数据的检测方法及系统
CN108363790A (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN112270196A (zh) 实体关系的识别方法、装置及电子设备
CN110222178A (zh) 文本情感分类方法、装置、电子设备及可读存储介质
CN106503055A (zh) 一种从结构化文本到图像描述的生成方法
CN112070138B (zh) 多标签混合分类模型的构建方法、新闻分类方法及系统
CN109271520B (zh) 数据提取方法、数据提取装置、存储介质和电子设备
US11669740B2 (en) Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition
CN112100377B (zh) 文本分类方法、装置、计算机设备和存储介质
DE112013002654T5 (de) Verfahren zum Klassifizieren von Text
CN113312899B (zh) 文本分类方法、装置和电子设备
CN111881398B (zh) 页面类型确定方法、装置和设备及计算机存储介质
CN108052504A (zh) 数学主观题解答结果的结构分析方法及系统
CN111078546A (zh) 一种表达页面特征的方法和电子设备
CN113742733A (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN118013045B (zh) 基于人工智能的语句情感检测方法及装置
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN110309285B (zh) 自动问答方法、装置、电子设备和存储介质
CN107797981A (zh) 一种目标文本识别方法及装置
CN113705207A (zh) 语法错误识别方法及装置
CN112632265A (zh) 智能机器阅读理解方法、装置、电子设备及存储介质
CN112487165A (zh) 一种基于关键词的问答方法、装置及介质
CN117216687A (zh) 一种基于集成学习的大语言模型生成文本检测方法
CN113722477B (zh) 基于多任务学习的网民情绪识别方法、系统及电子设备
CN118339550A (zh) 一种几何解题方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant