CN111897930A - 一种自动问答方法与系统、智能设备及存储介质 - Google Patents
一种自动问答方法与系统、智能设备及存储介质 Download PDFInfo
- Publication number
- CN111897930A CN111897930A CN202010538903.0A CN202010538903A CN111897930A CN 111897930 A CN111897930 A CN 111897930A CN 202010538903 A CN202010538903 A CN 202010538903A CN 111897930 A CN111897930 A CN 111897930A
- Authority
- CN
- China
- Prior art keywords
- intention
- user
- candidate
- corpus
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种自动问答方法与系统、智能设备及存储介质,其中,自动问答方法包括:获取用户的输入语句;利用Bert模型,对用户的输入语句进行编码,得到用户语句的词向量;将用户语句的词向量,输入到预先训练的BiGRU模型,获取若干个候选意图;其中,每个候选意图对应若干意图语料;计算每个候选意图的意图语料与用户的输入语句之间的相似度,得到意图语料的相似度分值;根据每个候选意图对应的意图语料的相似度分值,从候选意图中确定推荐意图;根据推荐意图,从意图‑答案字典中,匹配出推荐答案,输出给用户。可以有效提升输出答案与问题的匹配度,同时也降低了计算量。
Description
技术领域
本发明涉及人工智能领域,特别是涉及一种自动问答方法与系统、智能设备及存储介质。
背景技术
随着人工智能技术的不断发展,自然语言处理技术得到了长足的发展。为了应对用户数量急速增长带来的用户咨询量暴涨的问题,自动问答系统在越来越多的场景中,得到了使用。依托自动问答系统,建立智能客服或者聊天机器人,可以提高对用户咨询、问题的回答的及时性,提升用户体验;还能够释放人资源,降低运营成本。
现有的自动问答系统,一般采用检索式问答,即用户输入一个问句,系统通过关键词检索和预设匹配规则,在预先建立的问答数据集中,查询、匹配到一些候选答案,然后从候选答案中挑选出置信度最高的候选答案,作为输出给用户的答案。然而,由于用户复杂的语言习惯以及多回合的交互习惯,比如口语化、词句成分的省略、多义词、同义词、前后对话内容的连贯性等,针对部分用户问句,现有的自动问答系统获取到的答案相关性较低,影响了用户体验。同时,现有的自动问答系统,面对每一个用户问句,均需要在问答数据集中进行全局性的匹配、排序,操作量较大,耗时较长,影响了应答用户的及时性。
发明内容
基于此,有必要针对现有自动问答系统获的答案相关性较低的问题,提供一种自动问答方法与系统、智能设备及存储介质。
本申请一实施例提供了一种自动问答方法,包括:
获取用户的输入语句;
利用Bert模型,对用户的输入语句进行编码,得到用户语句的词向量;
将用户语句的词向量,输入到预先训练的BiGRU模型,获取若干个候选意图;其中,每个候选意图对应若干意图语料;
计算每个候选意图的意图语料与用户的输入语句之间的相似度,得到意图语料的相似度分值;
根据每个候选意图对应的意图语料的相似度分值,从候选意图中确定推荐意图;
根据推荐意图,从意图-答案字典中,匹配出推荐答案,输出给用户。
在一些实施例中,所述意图语料的相似度分值为Jaccard分值,所述计算每个候选意图的意图语料与用户的输入语句之间的相似度,得到意图语料的相似度分值的步骤,具体为:
对每个候选意图的意图语料、用户的输入语句进行分词;
根据分词结果,计算每个意图语料与用户的输入语句的Jaccard分值,得到意图语料的相似度分值。
在一些实施例中,所述根据每个候选意图对应的意图语料的相似度分值,从候选意图中确定推荐意图的步骤,具体为:
将每个候选意图对应的所有意图语料,按照相似度分值从高到低进行排序,选择序列中前n个意图语料的相似度分值,计算平均值,作为候选意图与用户的输入语句之间的匹配度;
从多个候选意图中,选择匹配度最高的候选意图,作为推荐意图。
在一些实施例中,在所述将每个候选意图对应的所有意图语料,按照相似度分值从高到低进行排序,选择序列中前n个意图语料的相似度分值,计算平均值,作为候选意图与用户的输入语句之间的匹配度步骤之前,还包括:
判断意图语料的相似度分值是否超过预设阈值,只有相似度分值超过预设阈值的意图语料,才用于计算候选意图与用户的输入语句之间的匹配度。
在一些实施例中,意图语料的相似度分值为Jaccard分值,所述计算每个候选意图的意图语料与用户的输入语句之间的相似度,得到意图语料的相似度分值的步骤,具体为:
对每个候选意图的意图语料、用户的输入语句进行分词和去停用词,计算每个意图语料的词向量、用户的输入语句的词向量;
计算每个意图语料的词向量与用户的输入语句的词向量之间的Jaccard分值,得到意图语料的相似度分值。
本申请一实施例还提供了一种自动问答系统,包括:
语句获取单元,用于获取用户的输入语句;
特征提取单元,用于利用Bert模型,对用户的输入语句进行编码,得到用户语句的词向量;
语义理解单元,用于将用户语句的词向量,输入到预先训练的BiGRU模型,获取若干个候选意图;其中,每个候选意图对应若干意图语料;
相似度判断单元,用于计算每个候选意图的意图语料与用户的输入语句之间的相似度,得到意图语料的相似度分值;
意图匹配单元,用于根据每个候选意图对应的意图语料的相似度分值,从候选意图中确定推荐意图;
答案输出单元,用于根据推荐意图,从意图-答案字典中,匹配出推荐答案,输出给用户。
在一些实施例中,所述意图语料的相似度分值为Jaccard分值,所述相似度判断单元,具体用于,先对每个候选意图的意图语料、用户的输入语句进行分词,然后根据分词结果,计算每个意图语料与用户的输入语句的Jaccard分值,得到意图语料的相似度分值。
在一些实施例中,意图匹配单元,具体用于,将每个候选意图对应的所有意图语料,按照相似度分值从高到低进行排序,选择序列中前n个意图语料的相似度分值,计算平均值,作为候选意图与用户的输入语句之间的匹配度;从多个候选意图中,选择匹配度最高的候选意图,作为推荐意图。
本申请另一实施例提供了一种智能设备,包含前述任一项实施例所述的自动问答系统。
本申请另一实施例还提供了一种机器可读存储介质,其上存储有计算机程序,所述计算机程序在由处理器执行时实现前述任一项实施例所述的自动问答方法。
本申请实施例提供的自动问答方案,利用Bert模型来提取特征,可以获取句子级别以及句子间级别的表示,能够有效提高特征的表示能力;利用BiGRU模型对特征进行语义识别,获取多个候选意图,之后仅需要计算候选意图中意图语料与用户的输入语句之间的相似度,即可确定出与用户的输入语句最匹配的推荐意图,根据推荐意图输出对应的答案,可以有效提升输出答案与问题的匹配度,同时也降低了计算量。进一步的,意图语料与用户的输入语句之间的相似度还可以使用Jaccard分值来进行表征,通过Jaccard分值进行字面排序,可以大大的提升自动问答系统的性能。
附图说明
图1为本申请一实施例的自动问答方法的流程示意图;
图2为本申请一实施例的自动问答系统的架构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施方式及实施方式中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本发明。
如图1所示,本申请一实施例公开了一种自动问答方法,包括:
S100,获取用户的输入语句;
本实施例的自动问答方案,可以在智能设备上执行,也可以有自动问答系统来执行。以下的描述,以在自动问答系统上执行为示例,对本方法进行示例性的说明。
用户可以进入自动问答系统或者其他关联系统中,输入自己想要咨询的问题。自动问答系统,可以获取到用户输入的咨询问题,即为获取用户的输入语句。
在自动问答系统中,系统与用户之间,可能会存在多个轮次的问题和答案,每个轮次中,用户提问,自动问答系统给出对应的答案。在一些情况下,用户在每个轮次下的问题,可能是相互独立的。此时,用户的输入语句,可以是用户在本轮次下输入的语句。在一些情况下,用户在多个轮次下的问题是相互关联的,此时,获取到的用户的输入语句,既可以包括本轮次下用户输入的语句,还可以包括上一轮次或者之前若干轮次下用户输入的语句。
S300,利用Bert模型,对用户的输入语句进行编码,得到用户语句的词向量;
得到用户的输入语句之后,即可利用Bert模型(Bidirectional EncoderRepresentations from Transformers,基于 Transformer 的双向编码器)进行编码,得到用户语句的词向量。
使用Bert模型来对用户的输入语句进行编码,可以捕捉到词语间、句子间的语义表示关系,有效地解决一词多义的问题,可以有效的提高特征的表示能力。
S500,将用户语句的词向量,输入到预先训练的BiGRU模型,获取若干个候选意图;其中,每个候选意图对应若干意图语料;
预先训练一个BiGRU模型(Bilateral Gate Recurrent Unit,双向门控循环单元)。将得到的用户语句的词向量,输入到预先训练的BiGRU模型,得到语义识别结果;根据语义识别结果,可以匹配得到若干个候选意图。
因为语言表达的多样性以及个性化,对于同一个候选意图,可能存在多种不同的表达语句。每个候选意图,可以对应有至少一个意图语料,每个意图语料代表着该候选意图的一种表达语句。可以事先收集每个意图的不同表达语句,构建意图语料库。
S700,计算每个候选意图的意图语料与用户的输入语句之间的相似度,得到意图语料的相似度分值;
在一些实施例中,可以使用预先训练的句子相似度判断的网络模型,来计算每个候选意图的意图语料与用户的输入语句之间的相似度。比如,可以使用Siamese 网络或者triplet loss网络,将每个候选意图的意图语料、用户的输入语句输入网络模型中,即可输出得到它们之间的相似度,得到意图语料的相似度分值。
在一些实施例中,意图语料的相似度分值,可以是余弦相似度。
步骤S700中,可以先对每个候选意图的意图语料、用户的输入语句进行分词,然后根据分词结果,可以计算每个意图语料的词向量、用户的输入语句的词向量,然后计算每个意图语料的词向量与用户的输入语句的词向量之间的余弦相似度,得到意图语料的相似度分值。
分词时,可以使用常见的分词算法;也可以同时结合取号场景词典,以提高分词的准确率。常见的分词算法可以包括基于词典的分词方法、基于统计的分词方法、基于规则的分词方法、基于字标注的分词方法等。取号场景词典,是指包括有取号场景下常用词汇和/或专用词汇的词典,可以通过人工标注的方式获取。示例的,可以使用jieba工具,对意图语料或者用户的输入语句进行分词。
进一步的,在进行分词之后,还可以进行去停用词操作,就是去除语料中的停用词。停用词是指对语句的真实语义作用不大的词语,一般是叹词、语气助词等。去停用词操作,可以利用事先构建的停用词字典进行。对于分词后的意图语料或者用户的输入语句,将语句中的每一个词,在停用词字典中进行查找,如果能够查找到,则去除该问题语句中的该词。通过去停用词操作,可以减少不相关词语的干扰,提高后续处理的针对性。
可以理解的是,为了降低计算量,用户的输入语句的词向量,也可以直接使用步骤S300利用Bert模型的用户语句的词向量。相应的,意图语料的词向量,也可以利用Bert模型,对意图语料进行编码得到。
在一些实施例中,意图语料的相似度分值,可以是编辑距离(Edit Distance)。可以将一个意图语料视为一个字串,一个用户的输入语句也视为一个字串,计算将意图语料的字串转化为用户的输入语句的字串所需的编辑步骤的数据,即为编辑距离。编辑距离越小,相似度分值就越大。
优选的,在一些实施例中,意图语料的相似度分值,可以是Jaccard分值(杰卡德分值,也可以称为杰卡德系数)。
步骤S700中,可以先对每个候选意图的意图语料、用户的输入语句进行分词,然后根据分词结果,计算每个意图语料与用户的输入语句的Jaccard分值,得到意图语料的相似度分值。
通过使用Jaccard分值作为意图语料的相似度分值,相对于用户的输入语句,可以得到意图语料的字面得分,之后可以通过字面得分的高低进行排序、筛选候选意图,可以大大地提升整个系统的性能;而且,基于字面得分的后续处理,可以过滤掉点不通顺的语句以及噪音文本,提升后续得到的推荐答案与问题之间的匹配性。
可以理解的是,当使用Jaccard分值来表征意图语料的相似度分值时,在对每个候选意图的意图语料、用户的输入语句进行分词之后,还可以进行去停用词操作。然后,根据去停用词之后的分词结果,计算每个意图语料与用户的输入语句的Jaccard分值,得到意图语料的相似度分值。
在一些实施例中,当使用Jaccard分值来表征意图语料的相似度分值时,在对每个候选意图的意图语料、用户的输入语句进行分词之后,还可以进行去停用词操作。然后,根据去停用词之后的分词结果,计算每个意图语料的词向量、用户的输入语句的词向量;最后计算每个意图语料的词向量与用户的输入语句的词向量之间的Jaccard分值,得到意图语料的相似度分值。
S800,根据每个候选意图对应的意图语料的相似度分值,从候选意图中确定推荐意图;
每个候选意图可以对应有多个意图语料,每个意图语料均可以计算得到一个相似度分值。根据每个候选意图对应的所有意图语料的相似度分值,可以计算出候选意图与用户的输入语句之间的匹配度,然后从多个候选意图中,选择匹配度最高的候选意图,作为推荐意图。推荐意图,可以被视为与用户的输入语句,也就是用户的问题,最匹配的意图。
根据意图语料的相似度分值,计算候选意图与用户的输入语句之间的匹配度,可以有多种方式。示例的,候选意图与用户的输入语句之间的匹配度,可以是该候选意图对应的所有意图语料的相似度分值的平均值。示例的,候选意图与用户的输入语句之间的匹配度,也可以是该候选意图对应的所有意图语料中最大的相似度分值。
在一些实施例中,在利用意图语料的相似度分值,计算候选意图与用户的输入语句之间的匹配度时,还可以先对意图语料进行筛选——判断意图语料的相似度分值是否超过预设阈值,只有相似度分值超过预设阈值的意图语料,才能用于计算候选意图与用户的输入语句之间的匹配度。相似度分值低于预设阈值的意图语料,可以被认为是语句不通顺的语句,或者无关的噪音语句,这些语句可能会对候选意图的匹配度计算产生干扰。通过设置预设阈值,可以过滤掉那些低于预设阈值的意图语料,使得具有较高相似度分值的意图语料,在计算候选意图与用户的输入语句之间的匹配度时,可以具有更大的权重,提升推荐意图的匹配程度。
优选的,意图语料的相似度分值为Jaccard分值。在对意图语料进行筛选之后,可以将每个候选意图对应的所有意图语料,按照相似度分值从高到低进行排序,选择序列中前n个意图语料的相似度分值,计算平均值,作为候选意图与用户的输入语句之间的匹配度。n为整数,n的取值,具体根据实际需要进行确定。
S900,根据推荐意图,从意图-答案字典中,匹配出推荐答案,输出给用户。
可以根据收集的意图和对应的答案,建立意图-答案字典。得到推荐意图之后,即可直接从意图-答案字典中,匹配出对应的推荐答案,然后将推荐答案输出给用户,即完成了一次与用户的问答。
本申请实施例提供的自动问答方法,利用Bert模型来提取特征,可以获取句子级别以及句子间级别的表示,能够有效提高特征的表示能力;利用BiGRU模型对特征进行语义识别,获取多个候选意图,之后仅需要计算候选意图中意图语料与用户的输入语句之间的相似度,即可确定出与用户的输入语句最匹配的推荐意图,根据推荐意图输出对应的答案,可以有效提升输出答案与问题的匹配度,同时也降低了计算量。进一步的,意图语料与用户的输入语句之间的相似度还可以使用Jaccard分值来进行表征,通过Jaccard分值进行字面排序,可以大大的提升自动问答系统的性能。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
如图2所示,本申请一实施例公开了一种自动问答系统,包括:
语句获取单元100,用于获取用户的输入语句;
特征提取单元300,用于利用Bert模型,对用户的输入语句进行编码,得到用户语句的词向量;
语义理解单元500,用于将用户语句的词向量,输入到预先训练的BiGRU模型,获取若干个候选意图;其中,每个候选意图对应若干意图语料;
相似度判断单元700,用于计算每个候选意图的意图语料与用户的输入语句之间的相似度,得到意图语料的相似度分值;
意图匹配单元800,用于根据每个候选意图对应的意图语料的相似度分值,从候选意图中确定推荐意图;
答案输出单元900,用于根据推荐意图,从意图-答案字典中,匹配出推荐答案,输出给用户。
在一些实施例中,相似度判断单元700,可以使用预先训练的句子相似度判断的网络模型,来计算每个候选意图的意图语料与用户的输入语句之间的相似度。
在一些实施例中,意图语料的相似度分值,可以是余弦相似度。相似度判断单元700,可以先对每个候选意图的意图语料、用户的输入语句进行分词,然后根据分词结果,可以计算每个意图语料的词向量、用户的输入语句的词向量,然后计算每个意图语料的词向量与用户的输入语句的词向量之间的余弦相似度,得到意图语料的相似度分值。
进一步的,相似度判断单元700,在进行分词之后,还可以进行去停用词操作。通过去停用词操作,可以减少不相关词语的干扰,提高后续处理的针对性。
在一些实施例中,意图语料的相似度分值,可以是Jaccard分值。相似度判断单元700,可以先对每个候选意图的意图语料、用户的输入语句进行分词,然后根据分词结果,计算每个意图语料与用户的输入语句的Jaccard分值,得到意图语料的相似度分值。
在一些实施例中,意图语料的相似度分值,可以是Jaccard分值。相似度判断单元700,可以先对每个候选意图的意图语料、用户的输入语句进行分词,然后根据分词结果,计算每个意图语料的词向量、用户的输入语句的词向量;再计算每个意图语料的词向量与用户的输入语句的词向量之间的Jaccard分值,得到意图语料的相似度分值。
在一些实施例中,意图匹配单元800,根据每个候选意图对应的所有意图语料的相似度分值,可以计算出候选意图与用户的输入语句之间的匹配度,然后从多个候选意图中,选择匹配度最高的候选意图,作为推荐意图。
意图匹配单元800,还可以对意图语料进行筛选——判断意图语料的相似度分值是否超过预设阈值,只有相似度分值超过预设阈值的意图语料,才能用于计算候选意图与用户的输入语句之间的匹配度。
优选的,意图匹配单元800,在对意图语料进行筛选之后,可以将每个候选意图对应的所有意图语料,按照相似度分值从高到低进行排序,选择序列中前n个意图语料的相似度分值,计算平均值,作为候选意图与用户的输入语句之间的匹配度。
语句获取单元100、特征提取单元300、语义理解单元500、相似度判断单元700、意图匹配单元800以及答案输出单元900的具体工作方式,可以参见前面方法实施例中的描述,在此不再赘述。
本申请实施例提供的自动问答系统,利用Bert模型来提取特征,可以获取句子级别以及句子间级别的表示,能够有效提高特征的表示能力;利用BiGRU模型对特征进行语义识别,获取多个候选意图,之后仅需要计算候选意图中意图语料与用户的输入语句之间的相似度,即可确定出与用户的输入语句最匹配的推荐意图,根据推荐意图输出对应的答案,可以有效提升输出答案与问题的匹配度,同时也降低了计算量。进一步的,意图语料与用户的输入语句之间的相似度还可以使用Jaccard分值来进行表征,通过Jaccard分值进行字面排序,可以大大的提升自动问答系统的性能。
本申请一实施例还提供一种智能设备,可以包括有前述自动问答系统,或者执行前述自动问答方法。
本申请一实施例提供一种机器可读存储介质,其上存储有计算机程序,所述计算机程序在由处理器执行时实现上述任一实施例所述的自动问答方法。
所述系统/计算机装置集成的部件/模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施方式方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,所述计算机程序在被处理器执行时,可实现上述各个方法实施方式的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器 (ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
在本发明所提供的几个具体实施方式中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施方式仅仅是示意性的,例如,所述部件的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
另外,在本发明各个实施例中的各功能模块/部件可以集成在相同处理模块/部件中,也可以是各个模块/部件单独物理存在,也可以两个或两个以上模块/部件集成在相同模块/部件中。上述集成的模块/部件既可以采用硬件的形式实现,也可以采用硬件加软件功能模块/部件的形式实现。
对于本领域技术人员而言,显然本发明实施例不限于上述示范性实施例的细节,而且在不背离本发明实施例的精神或基本特征的情况下,能够以其他的具体形式实现本发明实施例。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明实施例的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明实施例内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统、装置或终端权利要求中陈述的多个单元、模块或装置也可以由同一个单元、模块或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种自动问答方法,其特征在于,包括:
获取用户的输入语句;
利用Bert模型,对用户的输入语句进行编码,得到用户语句的词向量;
将用户语句的词向量,输入到预先训练的BiGRU模型,获取若干个候选意图;其中,每个候选意图对应若干意图语料;
计算每个候选意图的意图语料与用户的输入语句之间的相似度,得到意图语料的相似度分值;
根据每个候选意图对应的意图语料的相似度分值,从候选意图中确定推荐意图;
根据推荐意图,从意图-答案字典中,匹配出推荐答案,输出给用户。
2.根据权利要求1所述的自动问答方法,其特征在于,所述意图语料的相似度分值为Jaccard分值,所述计算每个候选意图的意图语料与用户的输入语句之间的相似度,得到意图语料的相似度分值的步骤,具体为:
对每个候选意图的意图语料、用户的输入语句进行分词;
根据分词结果,计算每个意图语料与用户的输入语句的Jaccard分值,得到意图语料的相似度分值。
3.根据权利要求2所述的自动问答方法,其特征在于,所述根据每个候选意图对应的意图语料的相似度分值,从候选意图中确定推荐意图的步骤,具体为:
将每个候选意图对应的所有意图语料,按照相似度分值从高到低进行排序,选择序列中前n个意图语料的相似度分值,计算平均值,作为候选意图与用户的输入语句之间的匹配度;
从多个候选意图中,选择匹配度最高的候选意图,作为推荐意图。
4.根据权利要求3所述的自动问答方法,其特征在于,在所述将每个候选意图对应的所有意图语料,按照相似度分值从高到低进行排序,选择序列中前n个意图语料的相似度分值,计算平均值,作为候选意图与用户的输入语句之间的匹配度步骤之前,还包括:
判断意图语料的相似度分值是否超过预设阈值,只有相似度分值超过预设阈值的意图语料,才用于计算候选意图与用户的输入语句之间的匹配度。
5.根据权利要求1所述的自动问答方法,其特征在于,意图语料的相似度分值为Jaccard分值,所述计算每个候选意图的意图语料与用户的输入语句之间的相似度,得到意图语料的相似度分值的步骤,具体为:
对每个候选意图的意图语料、用户的输入语句进行分词和去停用词,计算每个意图语料的词向量、用户的输入语句的词向量;
计算每个意图语料的词向量与用户的输入语句的词向量之间的Jaccard分值,得到意图语料的相似度分值。
6.一种自动问答系统,其特征在于,包括:
语句获取单元,用于获取用户的输入语句;
特征提取单元,用于利用Bert模型,对用户的输入语句进行编码,得到用户语句的词向量;
语义理解单元,用于将用户语句的词向量,输入到预先训练的BiGRU模型,获取若干个候选意图;其中,每个候选意图对应若干意图语料;
相似度判断单元,用于计算每个候选意图的意图语料与用户的输入语句之间的相似度,得到意图语料的相似度分值;
意图匹配单元,用于根据每个候选意图对应的意图语料的相似度分值,从候选意图中确定推荐意图;
答案输出单元,用于根据推荐意图,从意图-答案字典中,匹配出推荐答案,输出给用户。
7.根据权利要求6所述的自动问答系统,其特征在于,所述意图语料的相似度分值为Jaccard分值,所述相似度判断单元,具体用于,先对每个候选意图的意图语料、用户的输入语句进行分词,然后根据分词结果,计算每个意图语料与用户的输入语句的Jaccard分值,得到意图语料的相似度分值。
8.根据权利要求7所述的自动问答系统,其特征在于,意图匹配单元,具体用于,将每个候选意图对应的所有意图语料,按照相似度分值从高到低进行排序,选择序列中前n个意图语料的相似度分值,计算平均值,作为候选意图与用户的输入语句之间的匹配度;从多个候选意图中,选择匹配度最高的候选意图,作为推荐意图。
9.一种智能设备,其特征在于,包含权利要求6-8任一项所述的自动问答系统。
10.一种机器可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序在由处理器执行时实现权利要求1-5任一项所述的自动问答方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010538903.0A CN111897930A (zh) | 2020-06-13 | 2020-06-13 | 一种自动问答方法与系统、智能设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010538903.0A CN111897930A (zh) | 2020-06-13 | 2020-06-13 | 一种自动问答方法与系统、智能设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111897930A true CN111897930A (zh) | 2020-11-06 |
Family
ID=73206254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010538903.0A Pending CN111897930A (zh) | 2020-06-13 | 2020-06-13 | 一种自动问答方法与系统、智能设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111897930A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112527985A (zh) * | 2020-12-04 | 2021-03-19 | 杭州远传新业科技有限公司 | 未知问题处理方法、装置、设备及介质 |
CN112614024A (zh) * | 2020-12-30 | 2021-04-06 | 成都数之联科技有限公司 | 基于案情事实的法条智能推荐方法及系统及装置及介质 |
CN112632232A (zh) * | 2021-03-09 | 2021-04-09 | 北京世纪好未来教育科技有限公司 | 一种文本匹配方法、装置、设备及介质 |
CN112632242A (zh) * | 2020-12-17 | 2021-04-09 | 竹间智能科技(上海)有限公司 | 智能对话方法及装置、电子设备 |
CN112988992A (zh) * | 2021-02-08 | 2021-06-18 | 北京嘀嘀无限科技发展有限公司 | 一种信息交互方法、装置及电子设备 |
CN113157893A (zh) * | 2021-05-25 | 2021-07-23 | 网易(杭州)网络有限公司 | 多轮对话中意图识别的方法、介质、装置和计算设备 |
CN113392321A (zh) * | 2021-06-02 | 2021-09-14 | 北京三快在线科技有限公司 | 一种信息推荐方法、装置、电子设备及存储介质 |
CN113486170A (zh) * | 2021-08-02 | 2021-10-08 | 国泰新点软件股份有限公司 | 基于人机交互的自然语言处理方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679039A (zh) * | 2017-10-17 | 2018-02-09 | 北京百度网讯科技有限公司 | 用于确定语句意图的方法和装置 |
CN107977415A (zh) * | 2017-11-22 | 2018-05-01 | 北京寻领科技有限公司 | 自动问答方法及装置 |
CN109522393A (zh) * | 2018-10-11 | 2019-03-26 | 平安科技(深圳)有限公司 | 智能问答方法、装置、计算机设备和存储介质 |
CN109727041A (zh) * | 2018-07-03 | 2019-05-07 | 平安科技(深圳)有限公司 | 智能客服多轮问答方法、设备、存储介质及装置 |
CN110162611A (zh) * | 2019-04-23 | 2019-08-23 | 苏宁易购集团股份有限公司 | 一种智能客服应答方法及系统 |
-
2020
- 2020-06-13 CN CN202010538903.0A patent/CN111897930A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679039A (zh) * | 2017-10-17 | 2018-02-09 | 北京百度网讯科技有限公司 | 用于确定语句意图的方法和装置 |
CN107977415A (zh) * | 2017-11-22 | 2018-05-01 | 北京寻领科技有限公司 | 自动问答方法及装置 |
CN109727041A (zh) * | 2018-07-03 | 2019-05-07 | 平安科技(深圳)有限公司 | 智能客服多轮问答方法、设备、存储介质及装置 |
CN109522393A (zh) * | 2018-10-11 | 2019-03-26 | 平安科技(深圳)有限公司 | 智能问答方法、装置、计算机设备和存储介质 |
CN110162611A (zh) * | 2019-04-23 | 2019-08-23 | 苏宁易购集团股份有限公司 | 一种智能客服应答方法及系统 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112527985A (zh) * | 2020-12-04 | 2021-03-19 | 杭州远传新业科技有限公司 | 未知问题处理方法、装置、设备及介质 |
CN112632242A (zh) * | 2020-12-17 | 2021-04-09 | 竹间智能科技(上海)有限公司 | 智能对话方法及装置、电子设备 |
CN112614024A (zh) * | 2020-12-30 | 2021-04-06 | 成都数之联科技有限公司 | 基于案情事实的法条智能推荐方法及系统及装置及介质 |
CN112614024B (zh) * | 2020-12-30 | 2024-03-08 | 成都数之联科技股份有限公司 | 基于案情事实的法条智能推荐方法及系统及装置及介质 |
CN112988992B (zh) * | 2021-02-08 | 2022-04-08 | 北京嘀嘀无限科技发展有限公司 | 一种信息交互方法、装置及电子设备 |
CN112988992A (zh) * | 2021-02-08 | 2021-06-18 | 北京嘀嘀无限科技发展有限公司 | 一种信息交互方法、装置及电子设备 |
CN112632232B (zh) * | 2021-03-09 | 2022-03-15 | 北京世纪好未来教育科技有限公司 | 一种文本匹配方法、装置、设备及介质 |
CN112632232A (zh) * | 2021-03-09 | 2021-04-09 | 北京世纪好未来教育科技有限公司 | 一种文本匹配方法、装置、设备及介质 |
CN113157893A (zh) * | 2021-05-25 | 2021-07-23 | 网易(杭州)网络有限公司 | 多轮对话中意图识别的方法、介质、装置和计算设备 |
CN113157893B (zh) * | 2021-05-25 | 2023-12-15 | 网易(杭州)网络有限公司 | 多轮对话中意图识别的方法、介质、装置和计算设备 |
CN113392321A (zh) * | 2021-06-02 | 2021-09-14 | 北京三快在线科技有限公司 | 一种信息推荐方法、装置、电子设备及存储介质 |
CN113486170A (zh) * | 2021-08-02 | 2021-10-08 | 国泰新点软件股份有限公司 | 基于人机交互的自然语言处理方法、装置、设备及介质 |
CN113486170B (zh) * | 2021-08-02 | 2023-12-15 | 国泰新点软件股份有限公司 | 基于人机交互的自然语言处理方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111897930A (zh) | 一种自动问答方法与系统、智能设备及存储介质 | |
CN108153876B (zh) | 智能问答方法及系统 | |
CN112069298A (zh) | 基于语义网和意图识别的人机交互方法、设备及介质 | |
CN111125334A (zh) | 一种基于预训练的搜索问答系统 | |
CN109829045A (zh) | 一种问答方法和装置 | |
CN109271524B (zh) | 知识库问答系统中的实体链接方法 | |
CN110390049B (zh) | 一种面向软件开发问题的答案自动生成方法 | |
CN108549697A (zh) | 基于语义关联的信息推送方法、装置、设备以及存储介质 | |
CN110825843A (zh) | 适于金融领域的训练方法、问答方法、装置及存储介质 | |
CN111460114A (zh) | 检索方法、装置、设备及计算机可读存储介质 | |
CN111326160A (zh) | 一种纠正噪音文本的语音识别方法、系统及存储介质 | |
CN115905487A (zh) | 文档问答方法、系统、电子设备及存储介质 | |
CN113761104A (zh) | 知识图谱中实体关系的检测方法、装置和电子设备 | |
CN112685545A (zh) | 一种基于多核心词匹配的智能语音交互方法及系统 | |
CN111401070B (zh) | 词义相似度确定方法及装置、电子设备及存储介质 | |
CN115169368B (zh) | 基于多文档的机器阅读理解方法及装置 | |
CN116090450A (zh) | 一种文本处理方法及计算设备 | |
CN113590768B (zh) | 一种文本关联度模型的训练方法及装置、问答方法及装置 | |
CN115496066A (zh) | 文本分析系统、方法、电子设备及存储介质 | |
CN115203206A (zh) | 数据内容搜索方法、装置、计算机设备及可读存储介质 | |
CN114239606A (zh) | 一种信息处理方法、装置、设备及计算机存储介质 | |
CN113468366A (zh) | 一种音乐自动标签方法 | |
CN110827807A (zh) | 一种语音识别的方法及其系统 | |
CN115114915B (zh) | 短语识别方法、装置、设备和介质 | |
CN117453895B (zh) | 一种智能客服应答方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |