CN105589844B - 一种用于多轮问答系统中缺失语义补充的方法 - Google Patents
一种用于多轮问答系统中缺失语义补充的方法 Download PDFInfo
- Publication number
- CN105589844B CN105589844B CN201510958743.4A CN201510958743A CN105589844B CN 105589844 B CN105589844 B CN 105589844B CN 201510958743 A CN201510958743 A CN 201510958743A CN 105589844 B CN105589844 B CN 105589844B
- Authority
- CN
- China
- Prior art keywords
- word
- sentence
- question answering
- answering system
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种用于多轮问答系统中缺失语义补充的方法,其特征在于,包括以下步骤:S1、获取用户在问答系统中输入的问题;S2、根据用户输入的在先问题对当前问题进行缺失语义补充,且所述缺失语义补充是从指代消解和/或省略恢复的角度进行语义补充;S3、对缺失语义补充后的当前问题进行检索。本发明通过指代消解和/或省略恢复对当前问题进行缺失语义补充,能够针对用户输入的问题进行准确的回答,本发明方法允许用户使用省略句进行提问,提高了人机交互的流畅性和准确性,获得更好的用户体验。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种用于多轮问答系统中缺失语义补充的方法。
背景技术
自动问答系统,又称QA(Question Answering)系统,可称为新一代的搜索引擎,用户不需要把自己的问题分解成关键字,可把整个问题直接交给该系统,既能用自然语言句子提问,又能为用户直接返回答案,可更好地满足用户的检索需求,因此,自动问答系统成为企业智能客服的首选,但是该系统目前还存在一些缺点,例如用户每次输入的语句都彼此独立,不能建立准确的上下文语境,因而对用户而言,每次检索必须输入语义完整的问句,与人的语言行为相违背。根据上文信息建立语境,从指代和省略两个角度,对当前提问信息进行语义补充,从而允许用户可以使用省略句进行提问,提高人机交互的流畅性和准确性,提供更好的用户体验。
在交互式问答中,人们在提问的同时,会建立相应的语境,在这个语境中的接下来的问题,往往会出现指代和省略现象,由此造成单个提问语义缺失的问题,给问题检索带来大量的麻烦。语义缺失主要包括以下两种情况:
1.指代型语义缺失。用户输入问题上下文相关,为保障上下文连贯性,后一个问题与前一个问题之间存在指代关系,即后一个问题中存在某个指代词指代前一个问题中的名词,由此造成指代型语义缺失,例如,连续两个问题:“朝阳区海关可以办理什么业务?”,“它的电话是多少?”。在后一个问题中,“它”指代的是“朝阳区海关”,缺失语义“朝阳区海关”信息。
2.省略型语义缺失。用户输入问题上下文相关,后一个问题中应该具备的成分,有时出于上下文连贯性的需要,在后一个问句中并不出现,构成省略型语义缺失,例如,连续两个问题:“银行卡转账如何办理?”,“收费吗?”。第二个问句中省略了主语“银行卡转账”,缺失“银行卡转账”信息。
目前的检索系统,依然要求用户输入语义完整的句子,对于语义缺失的句子并不能有效找到正确答案,如百度研发的小度机器人,虽然针对客观问题有极高的准确率,但不能准确检索出多轮问答中存在语义缺失问题的答案。
发明内容
本发明所要解决的技术问题在于如何克服现有技术中在多轮问答系统中,对于语义缺失的句子无法找到正确答案的缺陷。
为了解决上述技术问题,本发明提供了一种用于多轮问答系统中缺失语义补充的方法,其特征在于,包括以下步骤:
S1、获取用户在问答系统中输入的问题;
S2、根据用户输入的在先问题对当前问题进行缺失语义补充,且所述缺失语义补充是从指代消解和/或省略恢复的角度进行语义补充;
S3、对缺失语义补充后的当前问题进行检索。
进一步地,所述步骤S2中的从指代消解的角度进行语义补充,具体包括以下步骤:
S21、根据用户在问答系统中输入的问题构建表述对;
S22、抽取表述对的特征,所述表述对的特征包括人工特征、词向量特征和交互特征中的一种或多种;
S23、根据表述对的特征进行代词消解。
进一步地,所述步骤S21中构建表述对具体包括以下步骤:
S211、根据用户在问答系统中输入的问题,将指代词和候选先行语分别做集合;
S212、将指代词集合和候选先行语集合进行笛卡尔积运算,得到表述对集合。
进一步地,所述步骤S22中,人工特征包括14维指代词和10维先行语,且指代词和先行语的每一维均为布尔类型,其中14维指代词分别为“指人”、“指物”、“单数”、“复数”、“男”、“女”、“地点”、“时间”、“自己”、“专有名词”、“非人”、“非物”、“非地点”、“指机构”,10维先行语分别为“人”、“男”、“女”、“单数”、“复数”、“物品”、“机构团体”、“地名”、“新词”、“时间”。
进一步地,所述步骤S22中的词向量特征包括指代词词向量特征、先行语词向量特征、指代词上下文特征和先行语上下文特征,所述指代词词向量特征和先行语词向量特征分别为指代词和先行语的词向量,所述指代词上下文特征和先行语上下文特征由以下公式得到:
其中,w0,w1,…,wi,…,wm为一个句子中每个词的词向量,wi为待计算上下文特征的词的词向量,n为窗口大小,即包含候选词前后各n个词,k为窗口大小为n中所包含的词的个数,v为第i个词的上下文特征。
进一步地,所述步骤S22中的交互特征为指代词和先行语之间的交互信息,包括指代词和先行语所在的句子的偏移,指代词和先行语在句子中的偏移,指代词和先行语之间的句子距离和词距离,其中句子偏移和句子距离以句子为基本单位来计算,在句子中的偏移和词距离以词为单位计算。
进一步地,所述步骤S2中的从省略恢复的角度进行语义补充,具体包括以下步骤:
S24、根据用户在问答系统中输入的问题构建共现语言模型,并计算出共现语言模型中的候选目标词与当前句子中的词的共现概率;
S25、将计算结果分值最高的先行语作为最佳先行语进行省略恢复。
进一步地,所述步骤S24具体包括以下步骤:
S241、根据用户在问答系统中输入的问题进行词性标注;
S242、将词性标注为名词或动词作为候选目标词;
S243、在以所述候选目标词为中心的前后各n个词范围内,设计大小为n的滑动窗口;
S244、在所述滑动窗口中,以候选目标词为中心,从第一个词滑向最后一个词,依次统计出窗口中候选目标词与当前句子中的词的共现概率。
进一步地,所述步骤S244中共现概率由以下计算公式得到:
其中,wi为当前句子中出现的词,wj为候选目标词,W为词表,c(wi,wj)表示wi和wj的共现计数。
进一步地,所述步骤S25具体为:将共现概率p(wi,wj)与概率阈值d进行比较,将p(wi,wj)>d且未在当前句子中出现的词作为最佳先行语,并将所述最佳先行语补充到当前句子中。
本发明的用于多轮问答系统中缺失语义补充的方法,具有如下有益效果:
1、本发明通过指代消解和/或省略恢复对当前问题进行缺失语义补充,能够针对用户输入的问题进行准确的回答。
2、本发明方法允许用户使用省略句进行提问,提高了人机交互的流畅性和准确性,获得更好的用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明中用于多轮问答系统中缺失语义补充的方法的流程图;
图2是本发明实施例中的指代消解模块的整体框图;
图3是本发明实施例中的指代消解模块模型训练的数据流图;
图4是本发明实施例中的指代消解模块实现指代消解的数据流图;
图5是本发明实施例中的省略恢复模块训练过程的流程图;
图6是本发明实施例中的语义补充模块的整体框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种用于多轮问答系统中缺失语义补充的方法,其特征在于,包括以下步骤:
S1、获取用户在问答系统中输入的问题;
S2、根据用户输入的在先问题对当前问题进行缺失语义补充,且所述缺失语义补充是从指代消解和/或省略恢复的角度进行语义补充,从指代消解的角度进行语义补充具体包括以下步骤:
S21、根据用户在问答系统中输入的问题构建表述对,构建表述对具体包括以下步骤:
S211、根据用户在问答系统中输入的问题,将指代词和候选先行语分别做集合;
S212、将指代词集合和候选先行语集合进行笛卡尔积运算,得到表述对集合;
S22、抽取表述对的特征,所述表述对的特征包括人工特征、词向量特征和交互特征中的一种或多种;
S23、根据表述对的特征进行代词消解。
S3、对缺失语义补充后的当前问题进行检索。
其中,所述步骤S22中,人工特征包括14维指代词和10维先行语,且指代词和先行语的每一维均为布尔类型,其中14维指代词分别为“指人”、“指物”、“单数”、“复数”、“男”、“女”、“地点”、“时间”、“自己”、“专有名词”、“非人”、“非物”、“非地点”、“指机构”,10维先行语分别为“人”、“男”、“女”、“单数”、“复数”、“物品”、“机构团体”、“地名”、“新词”、“时间”。
其中,所述步骤S22中的词向量特征包括指代词词向量特征、先行语词向量特征、指代词上下文特征和先行语上下文特征,所述指代词词向量特征和先行语词向量特征分别为指代词和先行语的词向量,所述指代词上下文特征和先行语上下文特征由以下公式得到:
其中,w0,w1,…,wi,…,wm为一个句子中每个词的词向量,wi为待计算上下文特征的词的词向量,n为窗口大小,即包含候选词前后各n个词,k为窗口大小为n中所包含的词的个数,v为第i个词的上下文特征。
其中,所述步骤S22中的交互特征为指代词和先行语之间的交互信息,包括指代词和先行语所在的句子的偏移,指代词和先行语在句子中的偏移,指代词和先行语之间的句子距离和词距离,其中句子偏移和句子距离以句子为基本单位来计算,在句子中的偏移和词距离以词为单位计算。
其中,所述步骤S2中的从省略恢复的角度进行语义补充,具体包括以下步骤:
S24、根据用户在问答系统中输入的问题构建共现语言模型,并计算出共现语言模型中的候选目标词与当前句子中的词的共现概率;
S25、将计算结果分值最高的先行语作为最佳先行语进行省略恢复。
其中,所述步骤S24具体包括以下步骤:
S241、根据用户在问答系统中输入的问题进行词性标注;
S242、将词性标注为名词或动词作为候选目标词;
S243、在以所述候选目标词为中心的前后各n个词范围内,设计大小为n的滑动窗口;
S244、在所述滑动窗口中,以候选目标词为中心,从第一个词滑向最后一个词,依次统计出窗口中候选目标词与当前句子中的词的共现概率。
其中,所述步骤S244中共现概率由以下计算公式得到:
其中,wi为当前句子中出现的词,wj为候选目标词,W为词表,c(wi,wj)表示wi和wj的共现计数。
进一步地,所述步骤S25具体为:将共现概率p(wi,wj)与概率阈值d进行比较,将p(wi,wj)>d且未在当前句子中出现的词作为最佳先行语,并将所述最佳先行语补充到当前句子中。
本发明还提供了一种用于多轮问答系统中缺失语义补充的系统,与上述方法相对应。
具体地,语义补全模块位于问题检索之前,对待检索问题,通过指代消解和省略恢复从两个方面实现语义补全,两个模块彼此独立,没有彼此交互,可以独立使用。
首先,基于共指消解的表述对模型实现指代消解模块,模块的整体框图如图1所示,指代消解模块内含数据预处理模块,分类器模块,标注模块和表述对后处理模块。具体地:
a.数据预处理模块:负责数据预处理工作,包括指代词和候选先行语的识别,表述对的构建以及表述对特征的生成,其中:
指代词和候选先行语的识别:利用Ansj自然语言处理工具分析当前问题,模块抽取其中词性标注为“r”的且具有指代信息标注的词,共有44个指代词,包括:他、她、我们、我、你、它、她们、该案、这里、这样、这、此事、这些等,这44个指代词的确立是使用Ansj对OntoNotes5.0数据进行分词和词性标注,选取其中具有指代关系标注的词语作为指代词;利用Ansj分析上文问题,模块抽取其中词性标注为“n”的词,作为先行语,如例1,其中“它”词性标注为“r”,所以将“它”识别为指代词,“海淀区海关”,“业务”词性标注为“n”,因此,将其是被为候选先行语,虽然“电话”的词性标注也为“n”,但出现在当前句子中,并不是上文句子所以不被识别为候选先行语。
例1:“海淀区海关有什么业务?”,“它的电话是多少?”
表述对的构建:根据指代词和候选先行语的识别结果——指代词集合和候选先行语集合,两个集合做笛卡尔积运算,得到表述对集合,如例1中,其候选先行语集合为{“海淀区海关”,“业务”},指代词集合为{“它”},计算得出的表述对集合为{“它”-“海淀区海关”,“它”-“业务”}。
表述对特征的生成:表述对的特征由三方面组成,一是人工特征,二是词向量特征,三是交互特征,其中人工特征为人工提出且具有实际含义,包括先行语特征“人”、“男”、“女”、“单数”、“复数”、“物品”、“机构团体”、“地名”、“新词”和“时间”,利用规则可实现先行语特征的自动抽取,指代词特征“指人”、“指物”、“单数”、“复数”、“男”、“女”、“地点”、“时间”、“自己”、“专有名词”、“非人”、“非物”、“非地点”、“指机构”,由于指代词数目较低(44个),因此采用人工标注的方法,为这些指代词进行人工精确的标注;词向量特征由两部分组成,一是本身词向量特征,二是上下文词向量特征,其中,词向量通过词向量训练工具从大规模自然语言文本中训练得到,本身词向量特征由指代词和先行语的词向量直接表示,上下文特征由上下文词向量计算而来;交互特征为指代词和现行语之间的交互信息,包含先行语和指代词所在的句子偏移和在句子中的偏移,指代词和先行语之间的句子距离和词距离,其中句子偏移和句子距离以句子文基本单位来计算,句子中的偏移和词距离以词为单位计算,如例1,表述对“它”-“业务”的交互特征为:{0,3,1,0,0},依次表示“业务”在第“0”个句子中,是第“3”个词,“它”在第“1”个句子中,是第“0”个词,两个词之间的距离是“0”。
b.自动标注模块:用于训练语料的自动标注工作,处理数据预处理模块的输出结果,为表述对进行标注,并将标注后的果送到分类器模块,这里使用共指标注语料OntoNotes5.0数据集,具体地:首先,将OntoNotes的数据输入到数据预处理模块,获得表述对模型,根据数据集中的标注对表述对进行标注,由此得到标注后的特征向量。
c.分类器模块:用于模型的训练和预测,具体地,因为有很多特征彼此相关,所以采用非线性分类器GBDT模型,训练时,来用OntoNotes5.0数据集,对其依次进行数据预处理和自动标注工作,得到具有标注的特征向量,将其输入到分类器的训练模块,由此得到训练好的GBDT模型,预测时,输入数据预处理模块产生的表述对及其特征,训练好的GBDT模型会根据表述对特征预测出一个分值,即为预测结果。
d.表述对后处理模块:指代词具有唯一先行语与之对应,该模块目的在于为每个指代词找到一个最佳先行语,具体地,按照每一个指代词,为其所有先行语根据分类器模块预测出来的结果进行降序排序,每个指代词选择出第一个先行语作为消解目标输出。
指代消解模块有两个基本方法,一个为训练模型,一个为模型指代消解,具体地:
a.训练模型:该方法用来从标注的文本中学习分类器模型,如图2所示,为训练模型的数据流图,OntoNotes数据将文本输入到数据预处理模块,将标注信息输入到自动表述模块,由数据预处理模块产生表述对及其特征,再输入到自动标注模块进行标注得到标注后的特征向量,分类器模块根据标注后的特征向量学习模型参数,得到训练好的分类器模型。
b.模型消解:该方法用来寻找连续输入的句子中最后一个句子中的指代消解结果,如图3所示,为模型消解的数据流图,当用户输入问题进行检索时,自动获取之前他查询过的问题,形成连续问题,数据预处理模块处理连续问题的到表述对及其特征表示,分类器根据表述对及其特征表示训练对每一个表述对进行预测,给一个分值,将具有分值的表述对输入到后处理模块,后处理模块输出最后一个问题的最终消解结果。
其次,通过改进语言模型实现共现语言模型,解决省略恢复的难题,其核心数据结构为二元语言模型,具有两个基本方法,一个为训练模型,一个为模型省略恢复,具体地:
a.二元语言模型数据结构:首先,构造一个子数据结构B:包含一个整形数和一个字符串到整形的映射,再构造一个数据结构A:包含一个字符串到子数据结构B的一个映射,其中,字符串s1通过A映射到一个子数据结构b,b包含的整形数d1表示的含义是与字符串s1共现的最高频度,b包含的一个字符串映射关系s2:d2中d表示s1出现的条件下,s2也出现的频度,则d1/d2表示共现概率。
b.训练模型:省略恢复模型训练的流程图如图4所示,训练语料为自然语言文本即可,首先使用Ansj自然语言处理工具,对文本进行分词和词性标注,保留词性标注为“n”或“v”的词,这样的词具有实际意义,保证省略恢复出的词具有实际意义,然后初始化一个大小为n的滑动窗口(中心词前后各n个词),初始位置为处理后文本的第一个词,每次处理滑动窗口中的词,将窗口中的词与中心词的共现频率增量添加到二元语言模型数据结构中,直到窗口中心移动到文本末端,如例2,经过Ansj自然语言处理工具处理并保留候选目标词的结果为:“异地”,“异行”,“银行卡”,“转账”,“办理”,根据模型训练方法,窗口大小设置为2,需要依次增加“异地”-“异行”:1、“异地”-“银行卡”:1、“异行”-“异地”:1、“异行”-“银行卡”:1、“异行”-“转账”:1、“银行卡”-“异地”:1、“银行卡”-“异行”:1、“银行卡”-“转账”:1、“银行卡”-“办理”:1、“转账”-“异行”,:1、“转账”-“银行卡”:1、“转账-“办理”:1、“办理”-“银行卡”:1、“办理”-“转账”:1。
例2:请问异地异行的银行卡转账怎么办理啊?
c.模型省略恢复:省略恢复的方法是将上文出现的名词或动词作为候选词,计算候选词与当前句子中词的共现概率p,设置阈值d,若对于词w,其共现概率p>阈值d,且词w未在当前句子中出现,则将词w作为语义补充词进行省略恢复,如例3,根据b训练出的模型,假设模型仅仅训练了例2的句子,上文经过Ansj处理后候选目标词为“中行”、“提供”、“银行卡”、“转账”和“服务”,与当前句子“办理”的共现概率依次为p(办理,中行)=0.0,p(办理,提供)=0.0,p(办理,银行卡)=0.0,p(办理,转账)=0.0,p(办理,服务)=0.0,设置阈值d=0.5,则补充语义为“银行卡”,“转账”,那么对当前句子会有很准确的理解。
例3:“中行提供银行卡转账的服务吗?”,“如何办理呢?”
最后,因指代消解模块和省略恢复模块都要用到Ansj自然语言处理工具,为提升运行效率设计如图5,所示的整体框图,将共同运行的部分提到模块前,设立独立预处理模块,将处理结果分别传输给指代消解模块和省略恢复模块,设立一个后处理模块,将指代消解模块和省略恢复模块的处理结果合并在一起,输出到问题检索系统中。
指代消解模块是基于表述对模型改进而来,引入词向量特征,词向量特征可以有效捕捉到句子的上下文语义特征,同时,后处理模块能够准确选择出最佳消解词,因此提高指代消解的准确性。省略恢复模块通过改进二元语言模型形成共现语言模型,通过大规模语料和设置滑动窗口,能够更加有效的获取词语共现的相关信息,同时,过滤掉不具有实际意义的词,能够提高省略恢复的准确性。使用本方法,可以有效地对当前问题进行语义补充,进而提升问题检索系统的准确性。
本发明的用于多轮问答系统中缺失语义补充的方法,具有如下有益效果:
1、本发明通过指代消解和/或省略恢复对当前问题进行缺失语义补充,能够针对用户输入的问题进行准确的回答。
2、本发明方法允许用户使用省略句进行提问,提高了人机交互的流畅性和准确性,获得更好的用户体验。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (9)
1.一种用于多轮问答系统中缺失语义补充的方法,其特征在于,包括以下步骤:
S1、获取用户在问答系统中输入的问题;
S2、根据用户输入的在先问题对当前问题进行缺失语义补充,所述缺失语义补充是从指代消解和/或省略恢复的角度进行语义补充;
S3、对缺失语义补充后的当前问题进行检索,
其中,所述步骤S2中的从指代消解的角度进行语义补充,具体包括以下步骤:
S21、根据用户在问答系统中输入的问题构建表述对;
S22、抽取表述对的特征,所述表述对的特征包括人工特征、词向量特征和交互特征中的一种或多种;
S23、根据表述对的特征进行指代词消解。
2.根据权利要求1所述的用于多轮问答系统中缺失语义补充的方法,其特征在于,所述步骤S21中构建表述对具体包括以下步骤:
S211、根据用户在问答系统中输入的问题,将指代词和候选先行语分别做集合;
S212、将指代词集合和候选先行语集合进行笛卡尔积运算,得到表述对集合。
3.根据权利要求1或2所述的用于多轮问答系统中缺失语义补充的方法,其特征在于,所述步骤S22中,人工特征包括14维指代词和10维先行语,且指代词和先行语的每一维均为布尔类型,其中14维指代词分别为“指人”、“指物”、“单数”、“复数”、“男”、“女”、“地点”、“时间”、“自己”、“专有名词”、“非人”、“非物”、“非地点”、“指机构”,10维先行语分别为“人”、“男”、“女”、“单数”、“复数”、“物品”、“机构团体”、“地名”、“新词”、“时间”。
4.根据权利要求1或2所述的用于多轮问答系统中缺失语义补充的方法,其特征在于,所述步骤S22中的词向量特征包括指代词词向量特征、先行语词向量特征、指代词上下文特征和先行语上下文特征,所述指代词词向量特征和先行语词向量特征分别为指代词和先行语的词向量,所述指代词上下文特征和先行语上下文特征由以下公式得到:
其中,w0,w1,…,wi,…,wm为一个句子中每个词的词向量,wi为待计算上下文特征的词的词向量,n为窗口大小,即包含候选词前后各n个词,k为窗口大小为n中所包含的词的个数,v为第i个词的上下文特征。
5.根据权利要求1或2所述的用于多轮问答系统中缺失语义补充的方法,其特征在于,所述步骤S22中的交互特征为指代词和先行语之间的交互信息,包括指代词和先行语所在的句子的偏移,指代词和先行语在句子中的偏移,指代词和先行语之间的句子距离和词距离,其中句子偏移和句子距离以句子为基本单位来计算,在句子中的偏移和词距离以词为单位计算。
6.根据权利要求1所述的用于多轮问答系统中缺失语义补充的方法,其特征在于,所述步骤S2中的从省略恢复的角度进行语义补充,具体包括以下步骤:
S24、根据用户在问答系统中输入的问题构建共现语言模型,并计算出共现语言模型中的候选目标词与当前句子中的词的共现概率;
S25、将计算结果分值最高的先行语作为最佳先行语进行省略恢复。
7.根据权利要求6所述的用于多轮问答系统中缺失语义补充的方法,其特征在于,所述步骤S24具体包括以下步骤:
S241、根据用户在问答系统中输入的问题进行词性标注;
S242、将词性标注为名词或动词作为候选目标词;
S243、在以所述候选目标词为中心的前后各n个词范围内,设计大小为n的滑动窗口;
S244、在所述滑动窗口中,以候选目标词为中心,从第一个词滑向最后一个词,依次统计出窗口中候选目标词与当前句子中的词的共现概率。
8.根据权利要求7所述的用于多轮问答系统中缺失语义补充的方法,其特征在于,所述步骤S244中共现概率由以下计算公式得到:
其中,wi为当前句子中出现的词,wj为候选目标词,W为词表,wk为词表W中从第一个词到最后一个词中的任意一个,c(wi,wj)表示wi和wj的共现计数。
9.根据权利要求8所述的用于多轮问答系统中缺失语义补充的方法,其特征在于,所述步骤S25具体为:将共现概率p(wi,wj)与概率阈值d进行比较,将p(wi,wj)>d且未在当前句子中出现的词作为最佳先行语,并将所述最佳先行语补充到当前句子中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510958743.4A CN105589844B (zh) | 2015-12-18 | 2015-12-18 | 一种用于多轮问答系统中缺失语义补充的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510958743.4A CN105589844B (zh) | 2015-12-18 | 2015-12-18 | 一种用于多轮问答系统中缺失语义补充的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105589844A CN105589844A (zh) | 2016-05-18 |
CN105589844B true CN105589844B (zh) | 2017-08-08 |
Family
ID=55929434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510958743.4A Active CN105589844B (zh) | 2015-12-18 | 2015-12-18 | 一种用于多轮问答系统中缺失语义补充的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105589844B (zh) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107305550A (zh) * | 2016-04-19 | 2017-10-31 | 中兴通讯股份有限公司 | 一种智能问答方法及装置 |
CN106503046B (zh) * | 2016-09-21 | 2020-01-14 | 北京光年无限科技有限公司 | 基于智能机器人的交互方法及系统 |
CN109791766A (zh) * | 2016-10-06 | 2019-05-21 | 夏普株式会社 | 对话装置、对话装置的控制方法及控制程序 |
CN106357942A (zh) * | 2016-10-26 | 2017-01-25 | 广州佰聆数据股份有限公司 | 基于上下文对话语义识别的智能应答方法及系统 |
JP6767046B2 (ja) * | 2016-11-08 | 2020-10-14 | 国立研究開発法人情報通信研究機構 | 音声対話システム、音声対話装置、ユーザー端末、および音声対話方法 |
CN106557464A (zh) * | 2016-11-18 | 2017-04-05 | 北京光年无限科技有限公司 | 一种用于对话交互系统的数据处理方法及装置 |
CN106777018B (zh) * | 2016-12-08 | 2020-05-22 | 竹间智能科技(上海)有限公司 | 一种智能聊天机器人中对输入语句的优化方法及装置 |
CN106599215A (zh) * | 2016-12-16 | 2017-04-26 | 广州索答信息科技有限公司 | 一种基于深度学习的问句生成方法和问句生成系统 |
CN106649739B (zh) * | 2016-12-23 | 2020-09-11 | 广东惠禾科技发展有限公司 | 多轮交互信息继承识别方法、装置以及交互系统 |
US11729120B2 (en) | 2017-03-16 | 2023-08-15 | Microsoft Technology Licensing, Llc | Generating responses in automated chatting |
US20200137001A1 (en) * | 2017-06-29 | 2020-04-30 | Microsoft Technology Licensing, Llc | Generating responses in automated chatting |
CN108334487B (zh) * | 2017-07-14 | 2021-06-25 | 腾讯科技(深圳)有限公司 | 缺失语意信息补全方法、装置、计算机设备和存储介质 |
CN107590123B (zh) * | 2017-08-07 | 2022-07-05 | 大众问问(北京)信息科技有限公司 | 车载中地点上下文指代消解方法及装置 |
CN108304437B (zh) * | 2017-09-25 | 2020-01-31 | 腾讯科技(深圳)有限公司 | 一种自动问答方法、装置及存储介质 |
CN107632979A (zh) * | 2017-10-13 | 2018-01-26 | 华中科技大学 | 一种用于交互式问答的问题解析方法及系统 |
CN110019716B (zh) * | 2017-12-15 | 2021-11-12 | 上海智臻智能网络科技股份有限公司 | 多轮问答方法、终端设备以及存储介质 |
US11341422B2 (en) | 2017-12-15 | 2022-05-24 | SHANGHAI XIAOl ROBOT TECHNOLOGY CO., LTD. | Multi-round questioning and answering methods, methods for generating a multi-round questioning and answering system, and methods for modifying the system |
CN110019727A (zh) * | 2017-12-25 | 2019-07-16 | 上海智臻智能网络科技股份有限公司 | 智能交互方法、装置、终端设备以及存储介质 |
CN110020014B (zh) * | 2017-12-15 | 2021-11-12 | 上海智臻智能网络科技股份有限公司 | 多轮问答装置 |
CN108021691B (zh) * | 2017-12-18 | 2021-09-07 | 深圳前海微众银行股份有限公司 | 答案查找方法、客服机器人以及计算机可读存储介质 |
CN108549662B (zh) * | 2018-03-16 | 2021-08-06 | 云知声智能科技股份有限公司 | 多轮会话中语义解析结果的补充消解方法及装置 |
CN110442686B (zh) * | 2018-05-03 | 2023-05-26 | 阿里巴巴集团控股有限公司 | 信息确定、关联对构建与会话回复方法、系统及设备 |
CN110874399B (zh) * | 2018-08-31 | 2023-11-10 | 阿里巴巴集团控股有限公司 | 信息处理方法、装置、计算设备及终端 |
CN109325234B (zh) * | 2018-10-10 | 2023-06-20 | 深圳前海微众银行股份有限公司 | 语句处理方法、设备及计算机可读存储介质 |
CN109522395A (zh) * | 2018-10-12 | 2019-03-26 | 平安科技(深圳)有限公司 | 自动问答方法及装置 |
CN109726389B (zh) * | 2018-11-13 | 2020-10-13 | 北京邮电大学 | 一种基于常识和推理的中文缺失代词补全方法 |
CN109522419B (zh) * | 2018-11-15 | 2020-08-04 | 北京搜狗科技发展有限公司 | 会话信息补全方法及装置 |
CN109830231B (zh) * | 2018-12-17 | 2021-03-16 | 北京百度网讯科技有限公司 | 会话处理方法、装置和存储介质 |
CN111429895B (zh) * | 2018-12-21 | 2023-05-05 | 广东美的白色家电技术创新中心有限公司 | 多轮交互的语义理解方法、装置及计算机存储介质 |
CN109684451B (zh) * | 2018-12-24 | 2022-01-14 | 联想(北京)有限公司 | 一种信息处理方法和电子设备 |
CN109800425B (zh) * | 2018-12-25 | 2023-05-09 | 远光软件股份有限公司 | 一种跨平台信息交换的语义缺失自动纠错处理方法及系统 |
CN109616128A (zh) * | 2019-01-30 | 2019-04-12 | 努比亚技术有限公司 | 语音发送方法、装置和计算机可读存储介质 |
CN111984766B (zh) * | 2019-05-21 | 2023-02-24 | 华为技术有限公司 | 缺失语义补全方法及装置 |
CN110223692B (zh) * | 2019-06-12 | 2021-08-13 | 思必驰科技股份有限公司 | 用于语音对话平台跨技能的多轮对话方法及系统 |
CN110233946B (zh) * | 2019-06-17 | 2021-09-21 | 腾讯科技(深圳)有限公司 | 执行外呼业务方法、电子设备及计算机可读存储介质 |
CN110097970A (zh) * | 2019-06-26 | 2019-08-06 | 北京康健数字化健康管理研究院 | 一种基于深度学习的面瘫诊断系统及其系统建立方法 |
CN112347297A (zh) * | 2019-07-22 | 2021-02-09 | 中兴通讯股份有限公司 | 语音信息的处理方法及装置、存储介质和电子装置 |
CN110427625B (zh) * | 2019-07-31 | 2022-12-27 | 腾讯科技(深圳)有限公司 | 语句补全方法、装置、介质及对话处理系统 |
CN112800189A (zh) * | 2019-11-14 | 2021-05-14 | 科沃斯商用机器人有限公司 | 人机交互方法、装置、智能机器人和存储介质 |
CN110909544A (zh) * | 2019-11-20 | 2020-03-24 | 北京香侬慧语科技有限责任公司 | 一种数据处理方法和装置 |
CN112988987B (zh) * | 2019-12-16 | 2024-06-28 | 科沃斯商用机器人有限公司 | 人机交互方法、装置、智能机器人和存储介质 |
CN111428490B (zh) * | 2020-01-17 | 2021-05-18 | 北京理工大学 | 一种利用语言模型的指代消解弱监督学习方法 |
CN111651578B (zh) * | 2020-06-02 | 2023-10-03 | 北京百度网讯科技有限公司 | 人机对话方法、装置及设备 |
CN111738018A (zh) * | 2020-06-24 | 2020-10-02 | 深圳前海微众银行股份有限公司 | 一种意图理解方法、装置、设备及存储介质 |
CN111858894B (zh) * | 2020-07-29 | 2024-06-04 | 网易(杭州)网络有限公司 | 语义缺失的识别方法及装置、电子设备、存储介质 |
CN112069298B (zh) * | 2020-07-31 | 2024-06-14 | 杭州远传新业科技股份有限公司 | 基于语义网和意图识别的人机交互方法、设备及介质 |
CN112183060B (zh) * | 2020-09-28 | 2022-05-10 | 重庆工商大学 | 多轮对话系统的指代消解方法 |
CN112231451B (zh) * | 2020-10-12 | 2023-09-29 | 中国平安人寿保险股份有限公司 | 指代词恢复方法、装置、对话机器人及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101566998B (zh) * | 2009-05-26 | 2011-12-28 | 华中师范大学 | 一种基于神经网络的中文问答系统 |
US9558263B2 (en) * | 2013-12-05 | 2017-01-31 | International Business Machines Corporation | Identifying and displaying relationships between candidate answers |
CN104573028B (zh) * | 2015-01-14 | 2019-01-25 | 百度在线网络技术(北京)有限公司 | 实现智能问答的方法和系统 |
-
2015
- 2015-12-18 CN CN201510958743.4A patent/CN105589844B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN105589844A (zh) | 2016-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105589844B (zh) | 一种用于多轮问答系统中缺失语义补充的方法 | |
CN110807328B (zh) | 面向法律文书多策略融合的命名实体识别方法及系统 | |
CN107239446B (zh) | 一种基于神经网络与注意力机制的情报关系提取方法 | |
CN109697285A (zh) | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN106897559B (zh) | 一种面向多数据源的症状体征类实体识别方法及装置 | |
CN110851599B (zh) | 一种中文作文自动评分方法及教辅系统 | |
CN110134954B (zh) | 一种基于Attention机制的命名实体识别方法 | |
CN109508459B (zh) | 一种从新闻中提取主题和关键信息的方法 | |
CN107818164A (zh) | 一种智能问答方法及其系统 | |
CN109635280A (zh) | 一种基于标注的事件抽取方法 | |
CN109918666A (zh) | 一种基于神经网络的中文标点符号添加方法 | |
CN111177374A (zh) | 一种基于主动学习的问答语料情感分类方法及系统 | |
CN107368547A (zh) | 一种基于深度学习的智能医疗自动问答方法 | |
CN112836046A (zh) | 一种四险一金领域政策法规文本实体识别方法 | |
CN110674252A (zh) | 一种面向司法领域的高精度语义搜索系统 | |
CN106126619A (zh) | 一种基于视频内容的视频检索方法及系统 | |
CN105975555A (zh) | 一种基于双向递归神经网络的企业简称提取方法 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN107832295B (zh) | 阅读机器人的标题选择方法及系统 | |
CN108509409A (zh) | 一种自动生成语义相近句子样本的方法 | |
CN109033073B (zh) | 基于词汇依存三元组的文本蕴含识别方法及装置 | |
CN114818717B (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN111898014A (zh) | 一种面向认知服务的用户意图识别方法及系统 | |
CN111597341B (zh) | 一种文档级关系抽取方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |